重测序分析简介
- 格式:pdf
- 大小:791.99 KB
- 文档页数:14
微生物重测序
微生物重测序是一种技术,用于确定微生物群落的遗传多样性。
它通过对多个微生物样品中的DNA片段进行组装,以及比对其序列来识别出微生物类群的方法。
它不仅可以识别出微生物群落中的物种,还可以检测出微生物群落中的遗传变化。
微生物重测序技术是一种新兴的研究手段,能够快速、高效地揭示微生物群落的遗传多样性。
它可以用来识别和分类各类微生物,并追踪变化,从而为生物多样性的保护和管理提供科学基础。
微生物重测序技术的原理是,将微生物样品中的DNA 提取出来,然后将提取的DNA片段组装成完整的DNA序列,并将其与已知的微生物基因组序列进行比对,从而分析出样品中的微生物类群。
一般情况下,使用16S rRNA作为DNA序列比对的参考序列,因为16S rRNA在不同物种之间变异较小,可以用于识别和分类各类微生物。
微生物重测序技术非常方便,可以大大缩短分析时间,并且可以检测出微生物群落中的遗传变化。
通过对不同样品中的微生物多样性进行比较,可以获得关于微生物群落的更多信息。
例如,可以判断微生物群落的变化是否
出现于一个环境因子的影响,或者是否出现于病原体的活动。
此外,微生物重测序还可以为发现新物种提供帮助。
比如,通过对细菌样品中的DNA序列进行比对,可以发现一些与已知物种的DNA序列相似但不完全相同的新物种。
因此,微生物重测序是一种非常有用的技术,可以用来快速、高效地检测微生物群落中的遗传变化,以及发现新物种。
它不仅可以为生物多样性的保护和管理提供科学基础,也可以为生物多样性的发现和研究提供帮助。
基因组重测序背景介绍 全基因组重测序,是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。
与已知序列比对,寻找单核苷酸多态性位点(SNP )、插入缺失位点(InDel ,Insertion/Deletion )、结构变异位点(SV ,Structure Variation )位点及拷贝数变化(CNV) 。
可以寻找到大量基因差异,实现遗传进化分析及重要性状候选基因的预测。
涉及临床医药研究、群体遗传学研究、关联分析、进化分析等众多应用领域。
随着测序成本的大幅度降低以及测序效率的数量级提升,全基因组重测序已经成为研究人类疾病及动植物分子育种最为快速有效的方法之一。
利用illumina Hiseq 2000平台,将不同插入片段文库和双末端测序相结合,可以高效地挖掘基因序列差异和结构变异等信息,为客户进行疾病研究、分子育种等提供准确依据。
重测序的两个条件:(1)该物种基因组序列已知;(2)所测序群体之间遗传性差异不大( >99% 相似度 )在已经完成的全基因组测序及其基因功能注释的基础上,采用全基因组鸟枪法(WGS )对DNA 插入片段进行双末端测序。
技术路线生物信息学分析送样要求1.样品总量:每次样品制备需要大于5ug 的样品。
为保证实验质量及延续性,请一次性提供至少20ug的样品。
如需多次制备样品,按照制备次数计算样品总量。
2.样品纯度:OD值260/280应在1.8~2.0 之间;无蛋白质、RNA或肉眼可见杂质污染。
3.样品浓度:不低于50 ng/μL。
4.样品质量:基因组完整、无降解,电泳结果基因组DNA主带应在λ‐Hind III digest 最大条带23 Kb以上且主带清晰,无弥散。
5.样品保存:限选择干粉、酒精、TE buffer或超纯水一种,请在样品信息单中注明。
6.样品运输:样品请置于1.5 ml管中,做好标记,使用封口膜封好;基因组DNA如果用乙醇沉淀,可以常温运输;否则建议使用干冰或冰袋运输,并选择较快的运输方式。
全基因组重测序数据分析详细说明全基因组重测序(whole genome sequencing, WGS)是一种高通量测序技术,用于获取个体的整个基因组信息。
全基因组重测序数据分析是指对这些数据进行处理、分析和解读,以获得有关个体的遗传变异、基因型、表达和功能等信息。
下面详细说明全基因组重测序数据分析的过程和方法。
首先,全基因组重测序数据的质量控制是必不可少的。
这一步骤包括对测序数据进行质量评估、剔除低质量序列,并进行去除接头序列和过滤序列等预处理操作,以确保后续分析的准确性和可靠性。
接下来,需要对全基因组重测序数据进行序列比对,将读取序列与参考基因组进行比对,以确定每个读取序列在参考基因组上的位置。
常用的比对工具包括Bowtie、BWA、BLAST等。
比对的结果将提供每个读取序列的基因组位置信息。
在序列比对完成后,就可以进行个体的变异检测。
变异检测的目的是识别个体的单核苷酸多态性(single nucleotide polymorphisms, SNPs)、插入缺失变异(insertions/deletions, indels)和结构变异(structural variations, SVs)等基因组变异。
通常,变异检测分为两个步骤:变异发现和变异筛选。
变异发现即根据比对结果,通过一定的算法和统计学原理,找到潜在的变异位点。
然后,利用临床数据库、已知变异数据库和基因功能注释数据库等,进行变异筛选,剔除假阳性和无功能变异,筛选出最有可能的致病变异。
接着,对筛选出的变异位点进行基因型確定。
基因型的确定可以通过直接从比对结果中读取碱基信息,或者通过再次测序来获取高度精确的基因型,以获得更可靠的变异信息。
随后,对变异位点进行注释和功能预测。
注释是指对变异位点进行功能和可能影响的基因、基因组区域和调控元件等进行注释。
常用的注释工具包括ANNOVAR、SnpEff、VEP等。
功能预测则是根据变异位点的位置和可能影响的功能进行预测,如是否影响蛋白质功能、是否在编码序列、是否在启动子或增强子区域等。
全基因组重测序数据分析1. 数据质量控制:对测序数据进行质量控制,包括去除低质量的碱基、过滤含有接头序列和接头污染的序列等。
这一步骤可以使用各种质控工具,例如FastQC、Trim Galore等。
2. 比对到参考基因组:将经过质控的测序数据与参考基因组进行比对。
参考基因组一般是已知的物种的基因组序列,在人类研究中通常使用人类参考基因组。
比对工具主要有BWA、Bowtie等。
3. 变异检测:从比对结果中检测出样本与参考基因组之间的差异,称为变异检测。
这包括单核苷酸变异(SNV)、插入/缺失(Indel)、结构变异(SV)等。
常用的变异检测工具有GATK、SAMtools、CNVnator等。
4. 注释和解读:对检测到的变异进行注释和解读,以确定其对基因功能和疾病相关性的影响。
注释可以包括基因、转录本、蛋白质功能、通路、疾病关联等信息。
常用的注释工具包括ANNOVAR、Variant Effect Predictor等。
5.结果可视化:将分析结果以图表或图形的形式展示出来,以便研究人员更好地理解和解释结果。
常用的可视化工具包括IGV、R软件等。
除了上述步骤,全基因组重测序数据分析还可以应用于其他研究领域,例如种群遗传学、复杂疾病研究、药物研发等。
在进行这些研究时,可能还需要其他分析方法和工具来完成特定的研究目标。
总之,全基因组重测序数据分析是一个复杂而关键的过程,它可以帮助研究人员了解个体的基因组特征,并揭示与疾病发生和发展相关的重要信息。
在不断发展的测序技术和分析方法的推动下,全基因组重测序数据分析将在基因组学领域中发挥越来越重要的作用。
全基因组重测序数据分析1. 简介(Introduction)通过高通量测序识别发现de novo的somatic和germ line 突变,结构变异-SNV,包括重排突变(deletioin, duplication 以及copy number variation)以及SNP的座位;针对重排突变和SNP的功能性进行综合分析;我们将分析基因功能(包括miRNA),重组率(Recombination)情况,杂合性缺失(LOH)以及进化选择与mutation之间的关系;以及这些关系将怎样使得在disease(cancer)genome中的mutation 产生对应的易感机制和功能。
我们将在基因组学以及比较基因组学,群体遗传学综合层面上深入探索疾病基因组和癌症基因组。
实验设计与样本(1)Case-Control 对照组设计;(2)家庭成员组设计:父母-子女组(4人、3人组或多人);初级数据分析1.数据量产出:总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计,测序深度分析。
2.一致性序列组装:与参考基因组序列(Reference genome sequence)的比对分析,利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序列。
3.SNP检测及在基因组中的分布:提取全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。
并根据参考基因组信息对检测到的变异进行注释。
4.InDel检测及在基因组的分布: 在进行mapping的过程中,进行容gap的比对并检测可信的short InDel。
在检测过程中,gap的长度为1~5个碱基。
对于每个InDel的检测,至少需要3个Paired-End序列的支持。
5.Structure Variation检测及在基因组中的分布: 能够检测到的结构变异类型主要有:插入、缺失、复制、倒位、易位等。
基因组重测序
基因组重测序(Genome Resequencing)是一种研究族群遗传学和物种进化过程的常用分析方法,它包括对个体或物种基因组的重新测序,以及对基因组的遗传变异的进一步探讨。
基因组重测序可以用来研究物种进化,筛选便利性基因以及鉴定和分析基因组变异。
一、优势
1、基因组重测序的比较优势:重测序比利用芯片进行平面分析方法更加灵活。
能够快速鉴定多种类型的遗传变异,包括插入、缺失、临时变异,以及双倍体变异等。
2、复杂性大:由于重测序可以精细分析基因组中的染色体,因此可以更好地捕捉基因组变异的复杂性。
3、高效性:仪器分析周期短,该技术可以高效地获得基因组芯片和组装基因组变异的信息。
二、应用
1、种群遗传研究:基因组重测序能够针对个体或物种基因组的群体变异和单倍型进行分析,以发现先前未被准确定位的遗传标记和位点,有助于预测物种进入新环境时适应性和抗病性方面的变异。
2、育种研究:基因组重测序可以鉴定出品质和适应性相关的基因和位点,有助于精准育种。
3、公共健康:基因组重测序可以确定某种疾病的发病形态,有助于进
一步深入认识疾病的发生机理以及发病的根源,从而促进公共健康的发展。
三、前景
在未来,基因组重测序技术将会被广泛应用于基因组学中,例如用于进化生物学和疾病基因组学研究,它也可用于转基因技术和育种。
同时也会继续发展新的基因组重测序技术,更新、完善重测序技术,为科学家和科技工作者提供更多先进的应用技术。
全基因组重测序基础及⾼级分析知识汇总全基因组重测序是通过对已有参考序列(Reference Sequence)的物种的不同个体进⾏基因组测序,并以此为基础进⾏个体或群体⽔平的遗传差异性分析。
通过全基因组重测序,研究者可以找到⼤量的单核苷酸多态性位点(SNP)、拷贝数变异(Copy Number Variation,CNV)、插⼊缺失(InDel,Insertion/Deletion)、结构变异(Structure Variation,SV)等变异位点。
基于以上变异位点作为分⼦遗传标记,在⼈类复杂疾病、动植物经济性状和育种研究及物种起源、驯化、群体历史动态等⽅⾯具有重⼤的指导意义(Bentley2006; Casillas& Barbadilla 2017)。
⼀、 基础理论知识全基因组重测序研究主要是依据在全基因组⽔平发现的分⼦遗传标记进⾏物种的群体遗传学研究,进⼀步的利⽤统计⽅法进⾏影响表型和经济性状候选基因和功能突变的研究。
分⼦群体遗传学研究的理论基础知识及统计分析⽅法⽇趋完善和呈现多样性,作为初学者,有必要对其中的⼀些基础概念有⼀定的了解,才能为后续的深⼊学习、研究提供基⽯。
以下基础知识主要参考国内动物遗传学书籍和最新的⼀篇关于分⼦群体遗传学⽅⾯的综述改变⽽成(吴仲贤编1961; 李宁2011; 吴常信2015; Casillas & Barbadilla 2017)。
⾼通量测序技术作为分⼦群体遗传学研究的有⼒⼯具,在科学研究、⽣产及疾病诊断治疗中起到原来越重要的作⽤,对关于⾼通量测序相关的理论基础知识进⾏⼀定程度的了解,也有助于⽂献阅读和。
1. 群体遗传学基础知识群体(Polulation):是指⽣活在⼀定空间范围内,能够相互交配并⽣育具有正常⽣殖能⼒后代的同种个体群。
等位基因频率(Alleles frequency):在⼀个群体中,某类等位基因占该基因位点上全部等位基因数的⽐率。
全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。
基于全基因组重测序技术,人们可以快速进行资源普查筛选,寻找到大量遗传变异,实现遗传进化分析及重要性状候选基因的预测。
随着测序成本降低和拥有参考基因组序列物种增多,全基因组重测序成为动植物育种和群体进化研究迅速有效的方法。
简化基因组测序技术是对与限制性核酸内切酶识别位点相关的DNA进行高通量测序。
RAD-seq(Restriction-site Associated DNA Sequence)和GBS (Genotyping-by-Sequencing)技术是目前应用最为广泛的简化基因组技术,可大幅降低基因组的复杂度,操作简便,同时不受参考基因组的限制,可快速鉴定出高密度的SNP位点,从而实现遗传进化分析及重要性状候选基因的预测。
简化基因组技术尤其适合于大样本量的研究,可以为利用全基因组重测序技术做深度信息挖掘奠定坚实的基础。
全基因组重测序和简化基因组测序技术可广泛应用于变异检测、遗传图谱构建、功能基因挖掘、群体进化等研究,具有重大的科研和产业价值。
产品脉络图。
全基因组重测序项目简介全基因组重测序是对已有参考序列(Reference Sequence)的物种的不同个体进行基因组测序,并以此为基础进行个体或群体水平的差异性分析。
通过这种方法,可以寻找出大量的单核苷酸多态性位点(SNP),插入缺失位点(InDel,Insertion Deletion),结构变异位点(SV,Structure Variation),拷贝数变异(Copy Number Variation,CNV)等变异信息,从而获得生物群体的遗传特征。
这对在群体水平上研究物种的进化历史、环境适应性、自然选择等方面具有重大意义。
利用全基因组重测序有助于快速发现与动植物重要性状相关的遗传变异,缩短分子育种的实验周期;有助于发现人类疾病相关的重要变异基因,加快生物医药研发的速度等,这对人类疾病及动植物育种研究等方面具有重大的指导意义。
技术流程提取基因组DNA后,采用物理方法随机打断,选择性回收所需长度的DNA片段(0.2~5Kb),并在两端连接接头以构建测序文库,进行桥式PCR(Bridge Amplification)制备Cluster,最后利用Paired-End的方法对插入片段进行重测序。
生物信息分析1.数据量产出总碱基数量、Totally mapped reads、Uniquely mapped reads统计,测序深度分析。
2.一致性序列组装与参考基因组序列(Reference genome sequence)的比对分析,利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序列。
3.SNP检测及在基因组中的分布提取全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。
并根据参考基因组序列对检测到的变异进行注释。
4.InDel检测及在基因组的分布在进行mapping的过程中,进行容Gap的比对并检测可信的Short InDel。
重测序参考手册目录目录 (1)1. 重测序简介 (3)2. 重测序实验方法 (3)基因组DNA抽提 (3)基因组DNA样品建库 (3)上机前定量 (4)3. 重测序分析内容 (4)重测序分析流程 (5)重测序分析内容 (5)4. 重测序重要技术参数 (6)5. 重测序分析内容解释 (6)6. 重测序分析内容示例 (6)SNP、INDEL的样本差异分析 (12)7. 成功分析案例/或已发表论文 (14)8. 概念及常用工具链接 (14)1. 重测序简介全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。
全基因组重测序的个体,通过序列比对,可以找到大量的单核苷酸多态性位点(SNP),插入缺失位点(InDel,Insertion/Deletion)、结构变异位点(SV,Structure Variation)位点。
众信可以协助客户,通过生物信息手段,分析不同个体基因组间的结构差异,同时完成注释。
2. 重测序实验方法提取基因组DNA,利用Covaris进行随机打断,电泳回收所需长度的DNA片段(0.2~5Kb),加上接头, 进行cluster制备(Solexa)或E-PCR (SOLiD),最后利用Paired-End或者Mate-Pair的方法对插入片段进行重测序。
实验步骤主要包括以下几点:基因组DNA抽提不同生物(植物、动物、微生物)的基因组DNA的提取方法有所不同; 不同种类或同一种类的不同组织因其细胞结构及所含的成分不同,分离方法也有差异。
在提取某种特殊组织的DNA时必须参照文献和经验建立相应的提取方法, 以获得可用的DNA大分子。
尤其是组织中的多糖和酶类物质对随后的酶切、PCR反应等有较强的抑制作用,因此用富含这类物质的材料提取基因组DNA时, 应考虑除去多糖和酚类物质。
基因组DNA样品建库这是样品准备过程中最主要的环节,也就是真正意义上的建库(通常我们所说的建库包括整个样品准备的过程)。
样品片段化(Covaris)Covaris利用超声波剪切DNA,并将传统超声波法可控制化、精确化。
DNA可以在小体积中被剪切,减少了因为蒸发带来的样品损耗,并且被剪切的DNA片段大小之间的偏差较小。
Covaris剪切的片段大小较小,并且片段大小范围较传统超声波法窄。
选择合适的打断参数条件,使最后打断的DNA片段大小集中在300-500bp范围内。
末端修复使用Covaris剪切的DNA片段都会形成一些杂合的末端,其中包括了3’ 端悬垂结构、5’端悬垂结构和平末端。
这些大小不一的悬垂结构还会存在一些并没有磷酸化的末端。
本步操作目的就是用T4 DNA聚合酶和Klenow酶将这些大小不一的悬垂结构补平成平末端。
这些酶具有3'端→5'端外切核酸酶活性切除3' 端悬垂结构并具有聚合酶活性补平5'端悬垂结构。
另外,本步骤中T4 PNK可以将片段5’端磷酸化。
最后用AMPure XP Beads对补平反应体系进行纯化。
3'端加A反应本步在补平片段的3’末端连接一个A碱基可以减少在连接接头时片段之间的互连,并且由于接头的3’末端有一个独立T碱基,所以这一步的作用是在连接接头时,让接头与片段之间特异性连接。
接头连接反应本步在DNA片段末端添加一个测序接头,该接头与flow cell上的扩增引物相对应。
接头通过平末端连接在DNA片段的两端,并且通过接头在flow cell上进行桥式PCR扩增,形成测序簇。
纯化连接产物连接反应结束之后用AMPure XP Beads对补平反应体系进行纯化,最后用resuspension buffer 纯化至20ul的连接产物。
用2%的琼脂糖凝胶进行电泳,切取所要求的片段大小的DNA片段,并用MInElute Gel Extraction Kit进行回收。
扩增目的片段本步通过PCR反应扩增已连好两个接头的DNA目的片段,PCR引物对应着接头的末端。
本步PCR使用高保真酶和尽可能少的循环数以减少假阳性的出现。
纯化终产物本步用用AMPure XP Beads对PCR反应体系进行纯化。
通过琼脂糖凝胶电泳检测PCR 反应后的纯化产物,注意其片段大小和文库浓度。
上机前定量有很多客户会问到,如何保证他/她获得相应的数据量?为什么有时候出来数据量不够,有时候又会多出来许多?这个问题主要与上机前的定量有关。
目前Hiseq2000机器,每个Lane可以产生30G的数据量,因此往往需要将多个样品合并在一起进行测序,在上机前将各个样品按照预期数据量的比例进行混合,所以定量步骤的小量偏差可能导致数据量上的分布不均匀。
定量完成后,进行簇生成步骤,将序列固定到测序用的flowcell上,接下来就可以进行测序了。
3. 重测序分析内容重测序是利用测序获得的样本的DNA序列和已知的该物种的完整基因组序列比对,来检测该物种的基因组中发生的SNV、INDEL等突变。
进一步研究这些突变导致的转录翻译产物发生的变化。
目前第二代测序技术的两个平台Solexa 和Solid 均可用于重测序的研究,二者均为高通量测序。
与Solid 相比,Solexa 测序读长相对长一些(Hiseq2000的读长为100bp ),测序通量相差不大。
Solexa 的优势在于其后期分析可以选用的软件比较丰富,而由于Solid 采用的是双色谱碱基表示方法,可以在和已知基因组序列比对时纠正测序错误,使得其测序错误率降低。
但是后期分析的比对软件数量有限。
众信提供的重测序分析内容又分为两种,一种是基础分析,通常包含在整个项目的报价中,另一种是高级分析,需要额外询价。
重测序分析流程重测序分析内容分析内容解释 基础分析 测序质量评估及预处理 Reads 比对到参考基因组 比较Mapping 区域和期望的目标区域突变位点分析 编码区域的INDEL 分析 Exome 注释、及编码区SNP 分析和已知的SNP (如来自dbSNP 的数据)进行比较分析;三个样本共有的和特有的SNP 分析 SNP 深度变化高级分析 依据客户需求针对性设计分析内容原始数据质量评估及预处理 符合要求的数据参考基因组比对SNV/INDEL 预测SNV/INDEL 注释4. 重测序重要技术参数质量预处理:1) 滑动窗口法去除低质量片段:质量阈值20(错误率=1%),窗口大小5 bp,长度阈值35 bp2) 切除reads中含N部分序列:长度阈值35 bp若参与比对的reads数目超过80%可以比对到参考基因组上,则可以认为比对结果较好。
针对外显子的数据,外显子区域的覆盖率大于等于95%,平均深度大于30x为佳。
5. 重测序分析内容解释关于SNV/INDEL的注释由于不同物种的基因组完整的程度不一样,可以做到的注释程度也不同。
以人为例,由于对人的基因组研究比较深入,注释所需的信息比较全面,我们可以做的关于人的项目的注释也相对较多,除了SNV/INDEL突变导致的基因突变等常规的注释以外,还可以根据dbSNP和1000Genome数据库做已知SNP过滤。
关于重测序的高级分析,可以根据客户需求进行针对性的分析。
6. 重测序分析内容示例以外显子组重测序为例:测序数据处理及基因组比对使用solexa基因测序仪进行exome深度测序。
处理原始测序数据,经过质量控制,控制reads平均长度在90以上,平均质量在30以上,质量较好。
将所有数据进行genome mapping,使用HG18作为reference genome。
四个样本,能map到genome上的比例平均超过90%,结果较理想;exon capture效率四个样本均达到了较好的比对效果。
97%以上Exon区域被测序数据覆盖,覆盖度平均达26X以上。
EXON CAPTURE实验结果良好,数据量足够达到分析所需要的。
结论:总体看,样本xxx得到的数据量偏低,对突变位点的分析不造成影响。
从比对上去的Reads质量看,80%左右的Reads质量较好(平均质量大于20);80%左右的Reads的PF值为1。
Exome深度分析四个样本的exome 平均深度的都主要集中出现在20X左右,出现了一个很明显的峰,证明exome-capturing target region被均匀的覆盖到了,近60%的target region有至少20X的覆盖深度,近40%的有至少30X的覆盖深度,符合分析的数据要求,可以进行后续分析以Demo1样本为例,target region 深度分布图如下:X轴-测序的深度Y轴-在给定深度下,target region 的数目以Demo1样本为例,target region 累积深度分布图如下:X轴-测序深度Y轴-大于等于给定深度的target region百分比SNP及INDEL分析SNP质量评估:四个样本的平均质量相近(N50质量为250),Demo1及Demo4样本深度为要略高于其他两个样本。
统计数据如下:样本号平均质量N50质量平均深度N50深度Demo1 83.83 293.11 5.15 14Demo2 79.43 271.35 4.88 13Demo3 74.85 193.53 4.86 10Demo4 86.22 246.49 5.72 13表格说明:平均质量:单核苷酸多态性位点平均质量值;N50质量:覆盖50% 所有SNP质量的最大单核苷酸多态性位点质量值;平均深度:单核苷酸多态性位点平均深度;N50深度:覆盖50% 所有SNP深度的最大单核苷酸多态性位点深度。
SNP、INDEL注释四个样本测得的SNP 得到的cSNP calls均在80000以上,其中被dbPSNP(SNP130)注释上比例在20%左右得到的INDEL均为短片段,为2~4bp左右,3n倍数的INDEL占总数近1/4左右。
四个样本SNP注释结果统计如下:Sample cSNP calls cInDel calls SNP/InDel in dbSNP 1000Genome Heterozygous Homozygous Demo1 275192 880 252804 242763 121446 154626 Demo2 279873 908 256923 246777 123018 157763 Demo3 150687 668 139028 133147 61429 89926Demo4 188596 780 172941 165532 80628 108748四个样本SNP类型统计如下:Sample cSNPcalls Non-Synonymous Synonymous StopgainStoplostDemo1 276012 9827 8834 168 14 Demo2 280488 9650 8818 153 16 Demo3 151225 7647 7624 110 10 Demo4 188596 8851 8581 128 14对INDEL数据进行单独分析:Sample cInDelcalls Non-frameshiftdeletionFrameshiftdeletionNon-frameshiftinsertionFrameshiftinsertionDemo1 880 21 29 17 41 Demo2 908 23 26 19 32 Demo3 668 16 13 9 17 Demo4 780 19 14 15 25SNP、INDEL的样本差异分析四个样本中共有的SNP的个数是40588个,占总SNP的比例较低,根据SNP质量分析,每个样本独有的SNP的质量偏低。