动植物基因组denovo常见问题
- 格式:doc
- 大小:269.00 KB
- 文档页数:12
基因组测序数据分析中常见问题及解决策略基因组测序是一项重要的技术,已经广泛应用于生物医学研究、疾病诊断和个体化治疗等领域。
然而,基因组测序数据分析过程中常会遇到一些问题,正确解决这些问题对于准确地分析基因组数据至关重要。
本文将探讨基因组测序数据分析中常见的问题,并提出解决策略。
一、质量控制问题质量控制是基因组测序数据分析的第一步,主要目的是检查测序数据的质量,并去除质量较差的数据。
常见的质量控制问题包括低质量碱基、接头污染和重复序列等。
针对这些问题,可以采取以下策略。
首先,使用质量评估工具(如FastQC)检查测序数据的质量分布。
对于低质量碱基,可以通过Trimming或过滤掉具有低质量碱基的序列来解决。
接头污染可以通过使用Trimming工具删除接头序列来解决。
对于重复序列,可以利用特定软件(如Prinseq)去除这些序列,以保证数据的准确性和可靠性。
二、序列比对问题在基因组测序数据分析中,序列比对是其中一个关键步骤,目的是将测序数据与参考基因组进行比对,并得到每个位置的reads覆盖度。
常见的问题包括参考基因组选择和序列比对比对率等。
针对这些问题,可以考虑以下解决策略。
首先,对于参考基因组的选择,应根据具体研究目的和样本特点选择最适合的参考基因组。
对于高变异的样本,可以选择一致性较高的参考基因组进行比对。
其次,比对率低的问题可以通过选择合适的比对工具来解决。
目前常用的比对工具包括Bowtie、BWA等,根据具体情况选择适合的工具进行比对。
三、变异检测问题基因组测序数据分析的主要目的之一是检测样本中的变异,包括单核苷酸变异(SNV)、插入缺失变异(Indel)等。
常见的变异检测问题包括假阳性和假阴性。
针对这些问题,可以考虑以下策略。
首先,采用多个变异检测工具进行分析,不仅能够减少假阳性结果的产生,更能提高结果的准确性。
其次,对于假阴性结果,可以根据实验的目的进行进一步的验证,如采用Sanger测序等验证方法来提高结果的可信度。
图1 10X Genomic linked-reads辅助基因组组装流程图表1 不同组装策略组装人的基因组大小和ScaffoldN50长度[1]随着技术的发展,越来越多的物种完成了基因组的测序工作。
但基于二代测序短读长的限制,制约了参考基因组的组装质量,从而影响了后续研究工作的开展。
如今,我们可以利用更多的新技术,如10X Genomics,BioNano,ChiCago等,将基因组组装结果进行完善,进一步构建出高质量的参考基因组。
10X Genomics linked-reads10X Genomics公司通过在序列中引入barcode序列,能够得到跨度在50-100Kb的linked reads信息,与二代测序数据相结合,在Scaffold 的组装上能够得到媲美三代测序的组装结果(表1)。
展开阅读10X Genomic linked-reads辅助基因组组装流程如下图所示:图2 光学图谱工作流程图表3 利用Chicago技术提升相应的指标图3 Chicago文库构建流程图[6]Chicago文库构建流程如下:基因组 de novo 组装新技术助力文章冲刺新高度[1] Mostovoy Y, Levy-Sakin M, Lam J, et al. A hybrid approach for de novo human genome sequence assembly and phasing[J]. Nature methods, 2016. 阅读原文>>/nmeth/journal/v13/n7/abs/nmeth.3865.html[2] Pendleton M, Sebra R, Pang A W C, et al. Assembly and diploid architecture of an individual human genome via single-molecule tech-nologies[J]. Nature methods, 2015. 阅读原文>>/s?wd=paperuri:(ac8d0768*******de9b67e959e5d924b)&filter=sc_long_sign&sc_ks_para=q%3DAssembly+and+diploid+architecture+of+an+individual +human+genome+via+single-molecule+technologies.&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_us=14004045691020250024[3] VanBuren R, Bryant D, Edger P P , et al. Single-molecule sequencing of the desiccation-tolerant grass Oropetium thomaeum[J]. Nature, 2015. 阅读原文>>/s?wd=paperuri:(4f4baa5f458c3598ebfa32b1017a4569)&filter=sc_long_sign&sc_ks_para=q%3DSingle-molecule+sequencing+of+the+desiccation-tolera nt+grass+Oropetium+thomaeum.&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_us=3671601047694710580[4] Dong Y, Xie M, Jiang Y, et al.Sequencing and automated whole-genome optical mapping of the genome of adomestic goat (Capra hircus). Nature biotechnology, 2013, 31(2): 135-141. 阅读原文>>/nbt/journal/v31/n2/full/nbt.2478.html [5] Zhang Q, Chen W, Sun L, et al. The genome of Prunus mume. Nature communications, 2012, 3: 1318. 阅读原文>>http://pubmedcentralcanada.ca/pmcc/articles/PMC3535359/[6] Bredeson J V, Lyons J B, Prochnik S E, et al. Sequencing wild and cultivated cassava and related species reveals extensive interspecific hybridization and genetic diversity[J]. Nature biotechnology, 2016, 34(5): 562-570. 阅读原文>>/s?wd=paperuri:(030555bb483ea9f72bf308bf22787f02)&filter=sc_long_sign&sc_ks_para=q%3DSequencing+wild+and+cultivated+cassava+and+related +species+reveals+extensive+interspecific+hybridization+and+genetic+diversity.&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_us=13838504648880517513[7] Putnam N H, O'Connell B L, Stites J C,et al. Chromosome-scale shotgun assembly using an in vitro method forlong-range linkage[J]. Genome research, 2016, 26(3): 342-350. 阅读原文>>/s?wd=paperuri:(4c8ec46542c7e21bfa15ae10f7a9f8bf)&filter=sc_long_sign&sc_ks_para=q%3DChromosome-scale+shotgun+assembly+using+an+in+vit ro+method+for+long-range+linkage.&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_us=36575566455777547参考文献Chicago技术(体外Hi-C 技术)作为提供长距离连接数据的组装提升方法,Chicago技术不仅能够获得长序列连接信息,还能帮助组装提升到染色体水平,该技术使用效率高、操作简便、经济性强,并且产生的高质量文库能够更好地应用于后期组装或研究。
基因组学数据分析中常见问题与解决方案在基因组学领域中,数据分析是非常重要的一部分,它能帮助我们理解基因组的组成、功能和相互关系。
然而,在进行基因组学数据分析过程中,常常会遇到一些问题。
本文将介绍一些常见的问题,并提供解决方案。
1. 数据质量问题在基因组学数据分析中,数据的质量是至关重要的。
数据质量差可能会导致分析结果不准确或无法得出有意义的结论。
常见的数据质量问题包括测序错误、测序片段不完整等。
解决方案:- 通过使用高质量的测序平台,如Illumina或PacBio,可提高数据质量。
- 利用常见的测序质量检查工具,如FastQC,对测序数据进行质量评估。
- 基于质量评估结果,可以选择性地过滤掉质量较差的数据。
2. 数据预处理问题在进行基因组学数据分析之前,通常需要进行数据预处理,包括去除低质量的测序片段、去除适配序列、对序列进行修剪等。
然而,预处理过程可能会引入新的问题。
解决方案:- 使用专门的预处理工具,如Trimmomatic或Cutadapt,可以高效地去除低质量的测序片段和适配序列。
- 在进行数据预处理之前,建议先对数据进行可视化和检查,以确保预处理过程不会引入新的问题。
3. 数据比对问题基因组学数据分析中的一个关键步骤是将测序片段与参考基因组进行比对。
然而,由于基因组的复杂性,比对过程可能会遇到一些困难。
解决方案:- 选择适当的比对工具,如Bowtie2、BWA或STAR,根据具体的研究需求和数据类型来选择。
- 在比对过程中,需要考虑片段长度、缺失和插入等问题,您可以通过调整比对工具的参数来解决这些问题。
- 使用多个参考基因组进行比对,以克服特定基因组的局限性。
4. 寻找基因变异问题在基因组学数据分析中,寻找基因变异(如单核苷酸多态性SNP或结构变异SV)是重要的研究方向之一。
然而,这个过程可能会面临一些挑战。
解决方案:- 使用专门的变异检测工具,如GATK、FreeBayes或VarScan,来识别基因变异。
植物基因组提取思考题1. 如何提取植物基因组?植物基因组提取需要按照以下步骤进行:- 收集植物样本:从植物的叶子、茎、根等部位采集样本,并确保样本新鲜。
- 检查样本:检查样本是否受到污染或其他损伤,以确保提取的基因组质量。
- 组织研磨:将植物样本研磨成细小的颗粒,以便更好地释放细胞中的DNA。
- 细胞破碎:使用化学试剂或机械方法破碎细胞壁,释放DNA 分子。
- DNA纯化:通过离心和过滤等方法分离DNA分子,去除其他细胞组分。
- DNA沉淀:使用盐溶液和酒精等方法沉淀DNA分子,从溶液中分离出来。
- DNA重溶:将DNA溶于适当的缓冲液中,以便后续的实验操作。
2. 为什么要提取植物基因组?提取植物基因组可以用于多种研究和应用,包括:- 了解植物的遗传信息:通过提取基因组,可以获得植物的DNA序列和结构信息,从而进一步了解植物的遗传特性和进化历史。
- 研究植物基因表达:通过提取基因组,可以研究植物基因的表达模式和调控机制,揭示植物在不同环境中的适应性和响应机制。
- 遗传改良和育种:提取植物基因组可以帮助筛选和鉴定特定基因型或基因变异,进而为植物育种和遗传改良提供基础。
- 植物病原体诊断:通过提取植物基因组,可以检测和识别植物病原体,帮助农业防疫和疫病研究。
3. 提取植物基因组时可能遇到的挑战有哪些?提取植物基因组时可能会面临以下挑战:- 植物样本处理:不同的植物样本可能存在不同的结构和性质,需要选择合适的方法进行分析和处理。
- 污染和干扰:基因组提取过程中,可能会受到外界DNA污染或其他化学物质的干扰,影响提取的DNA质量。
- 高纤维含量:有些植物样本中可能含有高比例的纤维素等难降解物质,会对DNA提取造成困难。
- DNA分子的降解:在提取基因组的过程中,DNA分子可能会受到氧化、酶解或温度变化等因素的影响而降解失活。
- 基因组复杂性:某些植物基因组非常大且复杂,含有重复序列和间断的序列,使得提取和测序工作更加复杂和困难。
基因组学研究技术的使用中常见问题近年来,随着基因组学研究的迅猛发展,科学家们对基因组的研究越来越深入。
然而,在使用基因组学研究技术的过程中,科学家们也面临着一些常见的问题。
本文将探讨一些在基因组学研究技术使用中常见的问题,并提供解决方案。
1. 数据处理和分析基因组学研究涉及大量的数据处理和分析工作,而这些工作常常非常复杂和耗时。
在分析基因组数据时,科学家们常常需要使用各种统计学和计算机科学的方法,如基因组比对、拼接、变异分析等。
这些任务对于研究者的专业知识和计算资源要求较高。
解决方案:为了应对这些挑战,科学家们可以通过参加专业培训课程来提升数据处理和分析的技能。
此外,使用高性能计算机或云计算资源可以加速大规模基因组数据的处理和分析。
2. 数据存储和共享基因组学研究产生的数据量巨大,存储和共享这些数据成为一个巨大的挑战。
科学家们常常需要处理大规模的测序数据,这些数据可能需要存储数TB甚至PB级别的空间。
此外,研究成果的共享也面临着隐私和伦理等问题。
解决方案:为了解决数据存储和共享的问题,科学家们可以选择使用云存储服务或建立专门的数据中心。
此外,加强数据管理和隐私保护措施也是非常重要的。
3. 数据质量控制在基因组学研究中,数据质量的控制至关重要。
由于测序技术的特点,数据中常常包含噪音和错误信息。
因此,科学家们需要进行严格的质量控制,以确保研究结果的准确性和可靠性。
解决方案:为了解决数据质量控制的问题,科学家们可以采用质量评估和过滤的方法来去除低质量的数据。
此外,使用多次测序或不同测序平台的数据进行验证也是一种常用的策略。
4. 伦理和道德问题在进行基因组学研究时,科学家们需要面对一系列的伦理和道德问题。
例如,研究对象的知情同意、数据共享的隐私保护、研究结果的有效传播等等。
这些问题不仅关系到个人和社会的利益,也影响到整个基因组学研究领域的声誉和发展。
解决方案:为了应对伦理和道德问题,科学家们应遵守相关的法律法规和研究伦理准则。
[1] Li Y, Zhou G, Ma J, et al. De novo assembly of soybean wild relatives for pan-genome analysis of diversity and agronomic traits [J]. Nature biotechnology, 2014, 32(10): 1045-1052.前往阅读 >>[2] Schatz M C, Maron L G, Stein J C, et al. Whole genome de novo assemblies of three divergent strains of rice, Oryza sativa, docu-ment novel gene space of aus and indica[J]. Genome biology, 2014, 15(11): 1-16.前往阅读 >>[3] Brunner S, Fengler K, Morgante M, et al. Evolution of DNA sequence nonhomologies among maize inbreds[J]. The Plant Cell, 2005, 17(2): 343-360.前往阅读 >>首页 科技服务 医学检测 科学与技术 市场与支持 加入我们 关于我们提供领先的基因组学解决方案Providing Advanced Genomic Solutions参考文献图1 组装变异检测技术流程图图2 控制花周期的基因在野生型和栽培型大豆中突变状况[1]图4 韦恩图展示三种水稻特有的基因集和共有的基因集[2]图5 玉米 B73 与 Mo17 共有的基因序列及特有的基因序列[3]De novo 测序与作物育种作物育种离不开相应的种质资源,种质资源是作物育种的物质基础。
真菌基因组de novo测序项目方案背景介绍从头测序即de novo 测序,不需要任何参考序列资料即可对某个物种进行测序,用生物信息学分析方法进行拼接、组装,从而获得该物种的基因组序列图谱。
利用全基因组从头测序技术,可以获得全基因组序列,从而推进该物种的研究。
全基因组序列图谱完成后,可以构建该物种的基因组数据库,为该物种的后基因组学研究搭建一个高效的平台;为后续的基因挖掘、功能验证提供DNA序列信息。
一、项目概述采用全基因组鸟枪法(WGS)策略,将Illumina与PacBio相结合,构建该真菌基因组的框架图。
二、技术方案(一)方案1:测序平台:Illumina PE + Illumina MPIllumina测序平台的读长较短,但可以利用其通量高的特点,对基因组进行深度测序,搭配段片段PE(pair-end)文库和长片段的MP(mate-pair)文库进行测序。
技术优势:因为Illumina读长短,利用MP(mate-pair)文库测序可以在一定程度上提高拼接的质量。
测序数据量:该物种的基因组大小100Mb,建议Illumina数据覆盖300X,即30Gb以上数据。
(二)方案2:测序平台:Illumina PE + PacBio第三代测序平台PacBio具有读长较长的优势(读长10 kb),能够在序列上通过重复序列区及高GC区,从而达到更好的拼接效果;同时,利用第二代测序平台Illumina(HiSeq 2500)数据量大、成本低的优势,对小插入片段基因组文库(插入片段500 bp)进行双末端(Paired-End)测序。
技术优势:因为读长很长,所以在拼Contig时,成功率很高,可以拼出很长的Contig。
并且可以轻松跨过重复序列、高GC序列。
实际应用中,大家普遍用PacBio序列拼Contig,再用Illumina的序列来修正碱基。
测序数据量:该物种的基因组大小100Mb,建议Illumina数据覆盖100X,即10Gb以上数据;PacBio数据5~10X,即0.5~1Gb数据,也就是2~4个SMRT cell。
生物信息学中基因组数据分析的常见问题与解决方案随着高通量测序技术的发展,基因组数据的产生速度大大加快,这为生物信息学领域的研究提供了丰富的数据资源。
基因组数据分析是生物信息学研究的核心环节之一,然而在实践中,研究人员常常会遇到各种问题。
本文将介绍生物信息学中基因组数据分析的常见问题,并提供相应的解决方案。
常见问题一:基因组测序数据的质量控制和预处理在基因组测序过程中,由于测序仪器的限制、样本制备的不完美等原因,会产生各种数据质量问题,如测序错误、低质量碱基和测序重复性差等。
这些问题可能会对后续分析结果产生不良影响。
为了解决这些问题,可以采取以下几种方法:1. 使用质控工具,如FastQC、Trim Galore等,对原始测序数据进行质量评估和修剪,删除低质量碱基和低质量序列。
2. 对于双端测序数据,首先需要进行序列重组,然后根据重组后的序列质量进行过滤。
3. 进行测序重复性检查,排除测序偏差和样品重复等问题。
常见问题二:序列比对和基因组注释基因组测序数据比对是基因组数据分析的重要步骤,通过比对可以将测序reads映射到参考基因组上。
同时,基因组注释将比对结果与已知的生物学和功能信息相结合,有助于理解基因组中的功能元素。
以下是比对和注释相关的常见问题和解决方案:1. 比对算法的选择:根据不同的研究目的和数据类型,选择适合的比对算法,如Bowtie、BWA和STAR等。
2. 比对结果评估:对比对结果进行质量评估,例如检查比对率、剩余未比对的reads和比对的覆盖度等。
3. 基因组注释工具的选择:选择适合研究目的和物种的基因组注释工具,如Ensembl、NCBI和Gencode等。
常见问题三:变异检测和功能预测变异检测是分析基因组数据中存在的个体间或群体间的遗传差异的重要步骤。
功能预测则是根据变异信息预测其对生物体功能的影响。
以下是变异检测和功能预测相关的常见问题和解决方案:1. 变异检测算法的选择:根据数据类型和分析目的,选择合适的变异检测算法,如GATK、SAMtools和VarScan等。
动植物Denovo测序知识⼤讲解⾼通量测序的技术开起我们探索动植物基因组奥秘的步伐,提到动植物基因组测序,这就不得不提⼀个概念——de novo测序。
那么什么是de nove测序呢,它与重测序有什么区别呢?De nove测序中Read、Contig和Scaffold等⼜代表什么呢?De nove测序中为什么要建不同⼤⼩⽚段的梯度⽂库?基因注释⼜是注释哪些内容?各位客官别急,且听⼩编给您细细讲来。
1De novo测序概念De novo是⼀个拉丁⽂,代表从头开始的意思,⽽de nove测序则是指在不需要任何参考序列的情况下对某⼀物种进⾏基因组测序,然后将测得的序列进⾏拼接、组装,从⽽绘制该物种的全基因组序列图谱。
由于⾼通量测序长度的限制,⽬前测序策略是先将基因组打断⼩的⽚段,然后再对测出序列⽚段进⾏拼接,最终得到物种的序列图谱如图1所⽰。
图1 ⾼通量测序模式图2De novo测序与重测序区别重测序概念:重测序是全基因组重新测序的简称,是指是对已知基因组序列的物种进⾏不同个体的基因组测序,并在此基础上对个体或群体进⾏差异性分析。
从概念上来看两者的区别在于de nove测序是对没有参考基因组的物种进⾏测序,⽽重测序是对已有基因组的物种进⾏测序,这只是它们区别很⼩的⼀部分。
从原理上来看de nove测序和重测序最根本的区别在于de nove测序需要对测序得到的Reads进⾏拼接组装,⽽重测序得到的数据则是没有组装的短的Reads序列。
值得注意的是,随着测序成本的降低以及组装算法的改进,de nove测序成本越来越低,⽬前来说de nove测序不只对于没有参考基因组物种进⾏测序,还可以对⼀些特有的亚种、品种以及变种等进⾏测序。
3Reads Conting Scaffold概念Reads:即我们通常说的读长的意思,它是指⾼通量测序平台直接产⽣的DNA序列。
Contig:是指Reads基于Overlap关系,拼接获得的长的序列;Scaffold:是指将获得的Contig根据⼤⽚段⽂库的Pair-end关系,将Contig进⼀步组装成更长的序列;关于三者之间的关系如图2所⽰,注意的是Contig是⽆Gap的连续的DNA序列,⽽Scaffold是存在Gap的DNA序列。
动植物基因组de novo常见问题
基础知识
1、什么是基因组de novo测序
答:对某一物种进行高通量测序,利用高性能计算平台和生物信息学方法,在不依赖于参考基因组的情况下进行组装,从而绘制该物种的全基因组序列图谱。
2、普通基因组的定义
答:单倍体,纯合二倍体或者杂合度<%,且重复序列含量<50%,GC 含量为35%到65%之间的二倍体。
3、复杂基因组的定义
答:杂合率>%,重复序列含量>50%,GC含量处于异常的范围(GC 含量<35%或者GC含量>65%=的二倍体,多倍体。
诺禾致源对二倍体复杂基因组进一步细分为微杂合基因组(%<杂合率<%=、高杂合基因组(杂合率>%)以及高重复基因组(重复序列比例>50%)。
4、怎么查询基因组的大小
答:查询植物基因组大小的网站:;
查询动物基因组大小的网站:。
5、基因组的项目周期
6、基因组承诺的组装指标
答:简单基因组:contig N50>20K,scaffold N50>500K;
复杂基因组:contig N50>20K,scaffold N50>300K。
样品要求
1、动植物基因组测序对取样有什么要求
答:植物:需要黑暗无菌条件下培养的黄化苗、组培苗,基因组样本量500μg~1mg,越多越好。
选择纯合或杂合度尽可能小的样品(杂合度<%)。
动物:应选取肌肉、血液等含脂肪较少的部位取样,尽量选择同一个体取样,以减少个体差异性对后续拼接的影响。
基因组样本量
500μg~1mg,越多越好。
样本的性别决定模式是XY型,则尽量选择雌性个体(XX型),如果是ZW型,则尽量选择雄性个体(ZZ型)。
2、全基因组测序对DNA样本有什么要求
答:(1)样品需求量(单次):小片段文库,≥3μg;2Kb~5Kb大片段文库,≥20μg;10Kb~20Kb大片段文库,≥60μg;完成全基因组测序样品DNA量需求约为500μg~1mg;
(2)样品浓度:对于小片段文库,≥50ng/μl,对于2Kb~5Kb 大片段文库,≥150ng/μl;对于10Kb~20Kb大片段文库,≥150ng/μl;
(3)样品纯度:OD260/280=~;无蛋白质、RNA污染或肉眼可见杂质污染;
(4)样品质量:基因组完整。
如需建立≥5Kb的插入片段文库,则电泳结果,基因组DNA主带≥23Kb;脉冲场电泳结果,基因组DNA 主带≥40Kb。
文库构建
1、基因组测序的文库构建及测序策略
答:简单基因组:180bp、500bp、2K、5K、10K;PE100测序;测序深度一般为100-150X;
复杂基因组:180bp、300bp、500bp、2K、5K、10K、20K;PE100测序;测序深度一般为200-300X。
2、DNA Fragment文库的定义、用途及实验流程
答:(1)定义:将基因组或大片段DNA随机打断成<800bp的小片段(主要为200bp、300bp、500bp等),加上特定接头做成DNA文库后直接对DNA片段进行单末端(Single-End)或者双末端(Paired-End)测序,不需要克隆到细菌中,可以获得大量的DNA序列信息。
(2)用途:DNA Fragment文库制备的整个过程只需2天,单末端测序长度可达100bp,双末端为200bp。
该技术测序通量高,可在全基因组水平上最大限度的、完整的获取基因组及多态性信息。
广泛地应用于基因组的de novo测序、基因组重测序、BAC测序和长片段PCR产物测序等。
(3)实验流程:
3、DNA mate-pair文库的定义、用途及实验流程
答:(1)定义:首先将基因组DNA随机打断到特定大小(2-20kb);然后经末端修复,生物素标记和环化等实验步骤后,再把环化后的DNA分子打断成400-600bp的片段并通过带有链亲和霉素的磁珠将带有生物素标记的片段捕获。
这些捕获的片段再经末端修饰和加上特定接头后建成大片段文库,不需要克隆到细菌中,直接在Illumina测序仪上进行测序。
通过大片段文库构建,从而获得基因组中较大跨度(2-20kb)片段两端的序列。
(2)用途:DNA Mate-pair文库制备的整个过程需要5天,这种从较大跨度两端所获得的序列对基因组de novo项目的组装和基因组结构变异发掘具有非常重要的作用。
(3)实验流程:
信息分析
1、什么是Read、Contig、Scaffold
答:Read:测序读到的碱基序列片段,测序的最小单位;
Contig:由reads通过对overlap区域拼接组装成的没有gap的序列段;
Scaffold:通过pair ends信息确定出的contig排列,中间有gap。
2、什么是N50,N70,N90
答:把组装出的contigs或scaffolds从大到小排列,当其累计长度刚刚超过全部组装序列总长度50%时,最后一个contig或scaffold的大小即为N50的大小,N50对评价基因测序的完整性有重要意义;N70和N90的计算方法与N50类似,只是百分数变为70%或90%。
3、普通基因组的解决方案
答:诺禾采用自主升级的SOAPdenovoII进行普通基因组组装。
组装流程(图1)包括:
(1)构建不同长度的插入片段文库;
(2)构建de Brujin图;
(3)化简de Brujin图;
(4)构建contigs;
(5)构建scaffolds;
(6)补gaps;
诺禾致源的技术升级包括:
(1)开发了新的序列纠错模块,降低测序错误对组装的影响;
(2)在contigs组装步骤,开发了Step K连接模块,以混合拼接算法连接contigs,从而提升原始的contigs长度;
(3)在scaffolds组装步骤,开发了ctg distance evaluation模块,更精确地评估contigs间的距离;同时开发了scaf construction模块,以新的连接单位来组装scaffold,从而提升scaffolds的连接准确率及长度。
图1 基因组de novo测序及拼接组装流程
经过以上几步,最终简单基因组的组装结果至少应达到contig
N50>20K,scaffold N50>300K。
4、复杂基因组(二倍体杂合)的解决方案
答:针对复杂基因组中二倍体杂合基因组,诺禾致源开发了NOVOheter软件,成功实现了二倍体杂合基因组组装。
与SOAPdenovo 相比,NOVOheter软件组装二倍体杂合基因组的技术创新主要体现在以下几个方面:
(1)通过高深度测序(200-300X)将基因组上的杂合和纯合区域分开;
(2)利用reads信息和PE关系连接杂合位点,延长原始contigs:在杂合部分间距离较短的情况下,利用reads信息将杂合位点连接起来,若杂合部分间距离较长时,利用Pair-End关系连接杂合位点(所以需要加入更多类型的小片段文库,以连接不同距离的杂合位点),从而提高了contigs的长度,为后续组装打下基础(图3);
图3 基于NOVOheter软件构建contigs
a:利用深度信息区分杂合部分(覆盖度为n)和纯合部分(覆盖度为2n);
b:若杂合部分的距离较短(如60bp),则可利用reads信息将杂合位点连接起来;
c:若杂合部分的距离较长(如400bp),则利用Pair-End关系,将杂合位点连接起来;
d:得到杂合contigs。
注:图中不同颜色的点表示杂合位点。
(3)分区域构建scaffolds:同样利用contigs深度信息区分纯合contigs 和杂合contigs;利用Pair-End关系将纯合contigs,杂合contigs分别组装成scaffolds;最后将相邻的纯合contigs和杂合contigs进行连接,构建更长的scaffolds。
5、如何评价组装结果
答:常染色体区的覆盖度:评价基因组常染色体区的覆盖度,可以用BAC或者是Fosmid序列来评估;把已公布或者客户提供的BAC或fosmid克隆序列作为Refrence,将拼接完成的基因组序列map回已知的BAC或者fosmid序列上,检查拼接的序列对已知序列的覆盖度到什么水平。
基因区的覆盖度:评价基因区的覆盖度,可以用EST序列或者是转录组序列来评估;把已公布或者客户提供的EST或转录组序列作为query序列map到拼接完成的基因组序列上,检查拼接序列对已知序列的覆盖度是达到什么水平。
6、影响基因组组装的因素
答:基因组的重复序列和杂合度,是否污染以及基因组的倍性情况。
7、基因组项目的标准生物信息分析的内容
答:基因组项目的标准生物信息分析的内容如下:
(1)数据处理;
(2)基因组组装:
基因组评估:基因组大小、GC含量、复杂序列、杂合度评;
组装:数据纠错;Contig、Scaffold组装;Gap填充;组装质量分析、评估和结果统计;
(3)基因组注释:重复序列注释;基因预测;基因组功能注释;非编码RNA注释;
(4)比较基因组学分析:
基因家族鉴定;
基因组共线性分析;
全基因组复制分析(动物:WGAC;植物:WGD);
正选择基因的鉴定及功能分析;
基因家族的扩增收缩分析;
系统发育分析;
物种分化时间估。