当前位置:文档之家› 新一代测序技术研究内容

新一代测序技术研究内容

新一代测序技术研究内容
新一代测序技术研究内容

新一代测序技术研究内容

新一代测序技术不仅仅是生命科学基础研究的重要工具,它即将发展为一个新型的巨大产业群,彻底改变生命科学相关产业和医学的发展模式,并给人类社会带来不可估量的巨大影响。

该技术主要包括基因组学、转录组学、表观组学三个方面的研究。

(1)基因组学

基因组学,或称基因体学,是研究生物基因组和如何利用基因的一门学问。该学科提供基因组信息以及相关数据系统利用,试图解决生物、医学和工业领域的重大问题。此外,基因组学能为一些疾病提供新的诊断和治疗方法,有助于医生获得更多的治疗信息并进行个性化医疗。同时,基因组学还被用于食品与农业部门。

在新一代测序技术中,基因组学方面主要包括以下八个方面的测序研究:

①全基因组从头测序

从头测序即de novo测序,不需要任何参考序列资料即可对某个物种进行测序,用生物信息学分析方法进行拼接、组装,从而获得该物种的基因组序列图谱。利用全基因组从头测序技术,可以获得动物、植物、细菌、真菌的全基因组序列,从而推进该物种的研究。一个物种基因组序列图谱的完成,意味着这个物种学科和产业的新开端!这也将带动这个物种下游一系列研究的开展。全基因组序列图谱完成后,可以构建该物种的基因组数据库,为该物种的后基因组学研究搭建一个高效的平台;并为后续的基因挖掘、功能验证提供DNA序

列信息。

②全基因组重测序

随着测序成本降低和已知基因组序列物种增多,全基因组重测序已经成为动植物育种、群体进化、药物研发、疾病研究和临床诊断中最为迅速而有效的方法之一。全基因组重测序是对基因组序列已知物种的个体进行基因组测序,并在个体或群体水平进行差异性分析的测序方法。在全基因组水平上扫描并检测与生物体重要性状相关的突变位点,具有重大的科研价值和产业价值。

③外显子测序

外显子测序是指利用序列捕获技术将探针能覆盖到的全基因组外显子区域DNA捕捉并富集后再进行高通量测序的基因组分析方法。该方法能够获得指定外显子捕获平台探针设计区域及侧翼200bp序列的遗传信息,极大地提高了人类基因组中外显子区域的研究效率,显著降低了研究成本。目前主要用于识别和研究与疾病、种群进化相关的编码区及UTR区域内的结构变异。

④目标区域测序

目标区域测序是指利用特制的探针对客户感兴趣的蛋白编码区域DNA或某段特定序列进行捕获,富集后进行高通量测序的基因组分析方法。该方法能够获得指定目标区域的遗传信息,极大地提高了基因组中特定目标区域的研究效率,显著降低了研究成本。通过目标区域测序,可以对候选位点或候选基因进行验证,也可以进一步找到候选区域或候选基因内的易感位点,适用于候选基因关联分析等研究。

⑤基于酶切的简化基因组测序

RAD(Restriction-site Associated DNA)是与限制性核酸内切酶识别位点相关的DNA。基于酶切的简化基因组测序(RAD-Seq)对酶切获得的RAD tag进行高通量测序,大幅降低基因组的复杂度,操作简便,同时不受参考基因组的限制,可快速鉴定出高密度的SNP位点。RAD-Seq基于SNP位点的分子标记技术,性价比高、稳定性好,可用于群体进化研究、遗传图谱构建、QTL定位和辅助scaffold组装到染色体等领域。

⑥全基因组酶切图谱

全基因组酶切图谱(Optical mapping,简称OM)是基于限制性内切酶图谱的一项技术:通过微纳米加工技术将DNA单分子线性地固定在芯片上,使用限制性内切酶切割后再利用荧光标记所有的片段,最后根据荧光的强度和位置定义DNA片段的长度和位置。每个DNA分子都具有独特的酶切片段长度组合,利用这些DNA分子之间的重叠关系组装成基因图谱,利用这种图谱定位scaffold的位置关系并进行比较基因组分析。OM可以快速定位序列位置,已广泛应用于比较基因组学分析发现突变基因、辅助高通量测序的数据组装以及菌株分型。

⑦人MHC捕获测序

人MHC捕获测序技术是针对人主要组织相容性复合体MHC(Major Histocompatibility Complex)相关变异进行检测的技术平台。通过特制探针对人MHC核心区3.37Mb及侧翼区1.6Mb进行捕获,富集后

进行高通量测序,针对这一特定基因区域进行针对性研究。该方法极大地提高了基因组中MHC区域的研究效率,具有通量高、成本低、结果准确等优势,可广泛应用于自身免疫性疾病、癌症、器官移植、群体进化、法医鉴定等领域。

⑧免疫组库测序

免疫组库(Immune Repertoire,IR)是指在任何指定时间,某个个体的循环系统中所有功能多样性B细胞和T细胞的总和。免疫组库测序(Immune Repertoire sequencing(IR-SEQ))是以T/B淋巴细胞为研究目标,以多重PCR或5’RACE技术目的扩增决定B细胞受体(BCR)或T细胞受体(TCR)多样性的互补决定区(CDR区),再结合高通量测序技术,全面评估免疫系统的多样性,深入挖掘免疫组库与疾病的关系。

(2)转录组学

转录组学是一门在整体水平上研究细胞中所有基因转录及转录调控规律的学科。转录组学的研究对象包括mRNA和非编码RNA等。新一代高通量测序技术可以全面快速地获得特定细胞或组织在某一个状态下几乎所有转录本的序列信息和表达信息,从而准确地分析基因表达差异、基因结构变异、筛选分子标记(SNPs)等生命科学的重要问题。主要包括以下五个方面的测序研究:

①转录组测序

转录组测序的研究对象为特定细胞在某一功能状态下所能转录出来的所有RNA的总和,主要包括mRNA和非编码RNA。转录组研究

是基因功能及结构研究的基础和出发点,通过新一代高通量测序,能够全面快速地获得某一物种特定组织或器官在某一状态下的几乎所有转录本序列信息,已广泛应用于基础研究、临床诊断和药物研发等领域。

②数字基因表达谱升级版

基因转录水平的研究是功能基因组学和医学研究的基础。数字基因表达谱升级版(RNA-Seq)是用来研究某一生物对象在特定生物过程中基因表达差异的技术。该技术结合了转录组测序建库的实验方法与数字基因表达谱(Digital Gene Expression Tag Profiling,DGE)的信息分析手段,可广泛应用于生理调控、农业性状、生物标记、环境改造、疾病机制和药物筛选等领域。

③小RNA测序

小RNA是一类重要的体内调节分子,主要包括miRNA、piRNA和siRNA。它的功能主要是诱导基因沉默,参与基因转录后调控,从而调节细胞生长、分化,以及个体发育、生殖等重要生物学过程。小RNA测序技术采用胶分离技术,收集样品中18-30nt的RNA片段,利用高通量测序技术,一次性获得单碱基分辨率的数百万条小RNA序列信息,依托强大的生物信息分析平台,鉴定已知小RNA,并预测新的小RNA及其靶标基因。

④降解组测序

降解组测序主要针对miRNA介导的剪切降解片段进行深度测序,从中筛选miRNA作用的靶基因,并结合生物信息学分析确定降解片段

与miRNA的精确配对信息。该技术能从细胞或组织中准确高效地筛选出miRNA的靶基因,为研究miRNA与其对应的靶基因的相互关系提供准确、高效的筛选手段。降解组测序技术已被广泛应用于靶基因功能研究、生物性状控制研究、发育进展研究、致病机理研究及药物研发等领域。

⑤长链非编码RNA测序

长链非编码RNAs(long non-coding RNAs,lncRNAs)是一类长度大于200nt且不编码蛋白质的RNAs(不含rRNA),广泛存在于各种生物体内。lncRNAs参与表观遗传、转录以及转录后等多水平的调控过程,在生命活动中具有重要作用。

(3)表观组学

表观遗传学是指在基因组DNA序列没有改变的情况下,基因的表达调控和性状发生了可遗传的变化,主要包括脱氧核糖核酸的甲基化和组蛋白修饰两类。以新一代高通量测序平台为基础,结合表观遗传学研究方法,可以在全基因组水平进行基因调控机制研究,即表观基因组学研究。随着测序技术的不断发展,表观基因组学将成为遗传学未来的研究热点之一。

目前主要包括以下四个方面的测序研究:

①全基因组Bisulfite甲基化测序

DNA甲基化是重要的表观遗传学标记信息,获得全基因组范围内所有C位点的甲基化水平数据,对于表观遗传学的时空特异性研究具有重要意义。以新一代高通量测序平台为基础,结合全基因组

Bisulfite处理和生物信息数据分析技术,可进行低成本、高效率、高准确度的全基因组DNA甲基化水平图谱绘制。特定物种的高精确度甲基化修饰模式的分析,必将在表观基因组学研究中具有里程碑式的意义,并为细胞分化、组织发育等基础机制研究以及动植物育种、人类健康与疾病研究奠定基础。

②RRBS

Reduced Representation Bisulfite Sequencing(RRBS)是一种准确、高效、经济的DNA甲基化研究方法,通过酶切富集启动子及CpG岛区域,并进行Bisulfite测序,同时实现DNA甲基化状态检测的高分辨率和测序数据的高利用率。DNA甲基化研究一直是疾病研究的热点,与基因表达、表型性状息息相关。RRBS作为一种高性价比的甲基化研究方法,在大规模临床样本的研究中具有广泛的应用前景。

③MeDIP测序

Methylated DNA Immunoprecipitation Sequencing(MeDIP-Seq)通过使用5’-甲基胞嘧啶抗体富集高甲基化的DNA片段,将基因组中的DNA甲基化区域富集后进行高通量测序。以较小的数据量,快速、高效地寻找基因组上的甲基化区域,从而比较不同细胞、组织、样本间的DNA甲基化修饰模式的差异,可广泛用于大样本量的疾病研究和分子育种研究。

④ChIP测序

染色质免疫共沉淀(ChIP)是在体内环境中研究蛋白质与DNA相

互作用的经典实验方法,广泛应用于组蛋白修饰、特定转录因子的基因调控作用等相关领域。随着新一代测序技术的发展和成熟,染色质免疫沉淀实验与高通量测序的整合——Chromatin Immunoprecipitation Sequencing(ChIP Sequencing),可在全基因组范围对蛋白结合位点进行高效而准确的筛选与鉴定,同时也为研究的深入开展打下基础。

采用特异性抗体对目的蛋白进行免疫沉淀后,分离与其结合的基因组DNA片段,再通过高通量测序与数据分析,在全基因组范围内寻找目的蛋白的DNA结合位点,并且可以基于多个样品进行差异比较。

DNA测序技术的发展和其最新进展

DNA测序技术的发展及其最新进展 摘要:自从诺贝尔奖得主桑格于1977年发明了第一代DN测序技术以来,DNA测序技术已经作为重要的实验技术广泛的应用于现代生物学研究当中。经过了几十年的发展,DNA测序技术日臻成熟,并且以单分子测序为特点的第三代测序技术也已经诞生。本文主要就每一代测序技术原理和特点及其最新进展做简要介绍。 关键词:DNA测序技术;第三代DNA测序技术;最新进展 The Development and New Progress of DNA Sequencing Technology Abstract: Since Nobel Prize Winner Sanger have founded the first generation of DNA Sequence technology in 1977, DNA sequencing technology has been widely used in modern biological researches as an important experimental. Over decades of year’s development, DNA sequence technology mature gradually and the third generation sequencing technologies characterized by single-molecule sequencing have also emerged. The mechanisms and features of each generation of sequencing technology and their latest progress will be discussed here. Key Words: DNA Sequence technology ; third generation DNA sequencing ;latest development 1.引言 DNA测序技术是分子生物学研究中最常用的技术,它的出现极大地推动了生物学的发展。自从1953年Watson和Crick发现DNA双螺旋结构后[1],人类就开始了对DNA序列的探索,在世界各地掀起了DNA测序技术的热潮。1977年Maxam和Gilbert报道了通过化学降解测定DNA序列的方法[2]。同一时期,Sanger发明了双脱氧链终止法[3]。20世纪90年代初出现的荧光自动测序技术将DNA测序带入自动化测序的时代。这些技术统称为第一代DNA测序技术。最近几年发展起来的第二代DNA测序技术则使得DNA测序进入了高通量、低成本的时代。目前,基于单分子读取技术的第三代测序技术已经出现,该技术测定DNA序列更快,并有望进一步降低测序成本,推进相关领域生物学研究。本文主要介绍DNA测序技术的发展历史及不同发展阶段各种主要测序技术的特点,并针对目前新一代DNA测序技术及目前国际DNA测序最新进展做简要综述。

新一代测序技术的发展及应用前景

2010年第10期杨晓玲等:新一代测序技术的发展及应用前景 等交叉学科的迅猛发展。 1.1第二代测序——高通量低成本齐头并进以高通量低成本为主要特征的第二代测序,不再需要大肠杆菌进行体内扩增,而是直接通过聚合酶或者连接酶进行体外合成测序¨】。根据其原理又可分为两类:聚合酶合成测序和连接酶合成测序。1.1.1聚合酶合成测序法Roche公司推出的454技术开辟了高通量测序的先河。该技术通量可达Sangcr测序的几百倍,而成本却只有几十分之一,因此一经推出,便受到了国际上基因组学专家的广泛关注。454采用焦磷酸合成测序法HJ,避免了传统测序进行荧光标记以及跑胶等繁琐步骤,同时利用乳胶系统对DNA分子进行扩增,实现了大规模并行测序。截止到2010年4月,已有700多篇文献是采用了454测序技术(http://454.com/publications.and—resources/publications.asp),对该技术是一个极大的肯定。 Illumina公司推出的Solexa遗传分析仪是合成技术的进一步发展与延伸。该技术借助高密度的DNA单分子阵列,使得测序成本和效率均有了较大改善。同时Solexa公司提出的可逆终止子”1也是该技术获得认可的原因之一。与454相比。Solexa拥有更高的通量,更低的成本。虽然片段长度较短仍是主要的技术瓶颈,但是对于已有基因组的物种来说,Solexa理所当然成为第二代测序技术的首选。2008年以来,利用该技术开展的研究大幅度上升,报道文献达400多篇(http://www.illumina.com/systems/genome—analyzer_iix.ilmn)o 1.1.2连接酶合成测序法2007年ABI公司在Church小组拍1研究成果的基础上推出了SOLID测序仪。该技术的创新之处在于双碱基编码…的应用,即每个碱基被阅读两次,因此大大减少了测序带来的错误率,同时可以方便的区分SNP和测序错误。在测序过程中,仪器自动加入4种荧光标记的寡核苷酸探针,探针与引物发生连接反应,通过激发末端的荧光标记识别结合上的碱基类型。目前SOLID3.0测序通量可达20G,而测序片段仅有35—50bp,这使得该技术与Solexa相比,应用范围还不够广泛。ABI公司正加快研发进度,争取在片段长度方面做出重大突破。 DanaherMotion公司推出Polonator¨1测序仪同样也是基于Church小组的研究成果,但是该设备的成本要低很多,同时用户在使用时可以根据自己的研究目的设置不同的测序条件。而CompleteGe—nomics公司推出的DNA纳米阵列与组合探针锚定连接测序法"1则具有更高的容错能力,试剂的消耗也进一步减少,目前已顺利完成3个个体基因组的测序工作。 1.2第三代测序——单分子长片段有望实现第二代测序技术虽然在各方面都有了较大的突破,但是仍然建立在PCR扩增的基础上。为了避免PCR扩增带来的偏差,科学家目前正在研制对DNA单个分子直接测序的第三代测序仪。最具代表性的包括Heliscope单分子测序仪,单分子实时合成测序法,纳米孔测序技术等。 Helicos技术仍然是基于合成测序原理¨…,它采用了一种新的荧光类似物和灵敏的监测系统,能够直接记录到单个碱基的荧光,从而克服了其他方法须同时测数千个相同基因片段以增加信号亮度的缺陷。PacificBioscienees公司研发的单分子实时合成测序法充分利用了DNA聚合酶的特性,可以形象的描述为通过显微镜实时观测DNA聚合酶,并记录DNA合成的整个过程。纳米孔测序技术[11’121则是利用不同碱基在通过纳米小孔时引起的静电感应稍有不同,或者不同碱基通过小孔的能力各有差异,来加以区分不同的碱基信号。 2应用与实践 Kahvejian在2008年的一篇综述中提到¨“:“如果你可以随心所欲地测序,你会开展哪些研究?”。人类基因组计划的完成和近年来高通量测序的兴起,使越来越多的科研工作者认识到,我们对于生物界的认识才刚刚起步。基因图谱的绘制并不意味着所有遗传密码的破解,癌症基因组的开展也没有解决所有的医学难题。DNA变异的模式和进化机制,基因调控网络的结构和相互作用方式,复杂性状及疾病的分子遗传基础等,仍是困扰生物学家和医学家的难题,而高通量测序的广泛应用,也许可以让我们知道的更多。 2.1DNA水平的应用 2.1.1全基因组测序新一代测序技术极大地推

高通量测序基础知识

高通量测序基础知识简介 陆桂 什么是高通量测序? 高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。 什么是Sanger法测序(一代测序) Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。 什么是基因组重测序(Genome Re-sequencing) 全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。 什么是de novo测序 de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。 什么是外显子测序(whole exon sequencing) 外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。

基因测序技术的优缺点及应用

基因测序技术的优缺点及应用 随着人类基因组计划的完成,人类对自身遗传信息的了解和掌握有了前所未有的进步。与此同时,分子水平的基因检测技术平台不断发展和完善,使得基因检测技术得到了迅猛发展,基因检测效率不断提高。从最初第一代以 Sanger 测序为代表的直接检测技术和以连锁分析为代表的间接测序技术,到 2005 年,以Illumina 公司的 Solexa技术和 ABI 公司的 SOLiD 技术为标志的新一代测序 (next-generation sequencing,NGS) 的相继出现,测序效率明显提升,时间明显缩短,费用明显降低,基因检测手段有了革命性的变化。其技术正向着大规模、工业化的方向发展,极大地提高了基因检测的检出率,并扩展了疾病在基因水平的研究范围。2009 年 3 月,约翰霍普金斯大学的研究人员在《Science》杂志上发表了通过 NGS外显子测序技术,发现了一个新的遗传性胰腺癌的致病基因PALB2,标志着 NGS 测序技术成功应用于致病基因的鉴定研究。同年,《Nature》发表了采用 NGS 技术发现罕见弗里曼谢尔登综合征MYH3 致病基因突变和《Nat Genet》发表了遗传疾病米勒综合征致病基因。此后,通过 NGS 技术,与遗传相关的致病基因不断被发现,NGS 技术已成为里程碑式的进步。2010 年,《Science》杂志将这一技术评选为当年“十大科学进展”。 近两年,基因检测成为临床诊断和科学研究的热点,得到了突飞猛进和日新月异的发展,越来越多的临床和科研成果不断涌现出来。同时,基因检测已经从单一的遗传疾病专业范畴扩展到复杂疾病和个体化应用更加广阔的领域,其临床检测范围包括高危疾病的新生儿筛查、遗传疾病的诊断和基因携带的检测以及基因药物检测用于指导个体化用药剂量、选择和药物反应等诸多方面的研究。目前,基因检测在临床诊断和医学研究的应用正越来越受到医生的普遍重视和引起研究人员的极大的兴趣。 本文介绍了几种 DNA 水平基因检测常见的方法,比较其优缺点和在临床诊断和科学研究中的应用,对指导研究生和临床医生课外学习,推进临床科研工作和提升科研教学水平有着指导意义。 1、第一代测序 1.1 Sanger 测序采用的是直接测序法。1977年,Frederick Sanger 等发明了双脱氧链末端终止法,这一技术随后成为最为常用的基因测序技术。2001 年,Allan Maxam 和 Walter Gibert 发明了 Sanger 测序法,并在此后的 10 年里成为基因检测的金标准。其基本原理即双脱氧核苷三磷酸(dideoxyribonucleoside triphosphate,ddNTP) 缺乏PCR 延伸所需的 3'-OH,因此每当 DNA 链加入分子 ddNTP,延伸便终止。每一次 DNA 测序是由 4个独立的反应组成,将模板、引物和 4 种含有不同的放射性同位素标记的核苷酸的ddNTP 分别与DNA 聚合酶混合形成长短不一的片段,大量起始点相同、终止点不同的 DNA 片段存在于反应体系中,具有单个碱基差别的 DNA 序列可以被聚丙烯酰胺变性凝胶电泳分离出来,得到放射性同位素自显影条带。依据电泳条带读取DNA 双链的碱基序列。 人类基因组的测序正是基于该技术完成的。Sanger 测序这种直接测序方法具有高度的准确性和简单、快捷等特点。目前,依然对于一些临床上小样本遗传疾病基因的鉴定具有很高的实用价值。例如,临床上采用 Sanger 直接测序 FGFR 2 基因证实单基因 Apert 综合征和直接测序 TCOF1 基因可以检出多达 90% 的

新一代测序法简介

新一代测序法简介 新一代测序方法是一种直接测序法,它既可以分析基因和DNA的组成(定性分析),也可以测定同一类型基因在表达过程中产生的数量(定量分析),以及不同类型基因或DNA 之间的差别所在(交叉对比分析)。自2004年,454测序技术发展以来,已经出现的测序产品超过六种之多。这些产品的技术特点见下表: 产家名称产品技术特点优缺点 化学反应测序方法误读率样品准备高通量程度 Roche (454 Life Science) 焦磷酸标记的链 反应 焦磷酸基 标记 <1% 较复杂,需PCR 中等 Illumina(Solexa)四色可逆终止码合成法1%—3% 较复杂,需PCR 中—高ABI(SOLID) 双色可逆终止码合成法1%—5% 较复杂,需PCR 中—高Helicos Bioscience 单色可逆终止码合成法2%—8% 简单,无需PCR 高—超高Intelligent Biosystm 四色可逆终止码合成法1%—5% 较复杂,需PCR 中—高 Pacific Bioscience 四色焦磷酸基标 记焦磷酸基 标记 3%—8% 简单,无需PCR 高 VisiGen 焦磷酸基标记 FRET 焦磷酸基 标记 3%—8% 简单,无需PCR 高 在这些技术中,从所分析的样本在测序前是否需要扩增,大致可以分为两类,即克隆扩增型和单分子测序型。两种类型在测序技术上区别并不大,但对结果的影响却有不小的差别。主要体现在两个方面:(1)单分子测序更能反应细胞或组织内分子的真实情况,尤其是在需要定量分析的情况下。而克隆扩增型中的PCR反应使得样品中DNA分子的扩增机会并不完全均等,这会对基因表达的定量分析造成影响;(2)单分子测序具有通量更高的优势。克隆扩增使得同一类型的分子数目急剧上升,在提高同类型分在在固相表面出现的几率同时,也降低了不同类型分子出现的机会。 面重点介绍Pacific Biosciences公司推出的Single Molecule Real Time (SMRT?) DNA Sequencing(单分子实时DNA测序)。 首先,在这一测序技术中有主要有两个关键的技术: 一、荧光标记的脱氧核苷酸避免了碱基的空间位阻效应。显微镜现在也无法实现实时看到“单分子”,但是它可以实时记录荧光的强度变化。当荧光标记的脱氧核苷酸被掺入DNA 链的时候,它的荧光就同时能在DNA链上探测到。当它与DNA链形成化学键的时候,它的荧光基团就被DNA聚合酶切除,荧光消失。这种荧光标记的脱氧核苷酸不会影响DNA聚合酶的活性,并且在荧光被切除之后,合成的DNA链和天然的DNA链完全一样; 二、纳米微孔(Zero-mode waveguide (ZMW))。因为在显微镜实时记录DNA链上的荧光的时候,DNA链周围的众多的荧光标记的脱氧核苷酸形成了非常强大的荧光背景,这种强大的荧光背景使单分子的荧光探测成为不可能。Pacific Biosciences公司发明了一种直径只有10nm的纳米孔,单分子的DNA聚合酶被固定在这个孔内。在这么小的孔内,DNA链周围的荧光标记的脱氧核苷酸有限,而且由于A,T,C,G这四种荧光标记的脱氧核苷酸非常快速地从外面进入到孔内又出去,它们形成了非常稳定的背景荧光信号。而当某一种荧光标记的脱氧核苷酸被掺入到DNA链时,这种特定颜色的荧光会持续一小段时间,直到新的化学

纳米孔测序是极具前景的下一代测序技术

纳米孔测序是极具前景的下一代测序技术 Nanopore Sequencing 2019 - Patent Landscape Analysis 随着各种技术的新产品推出,哪些公司将在知识产权方面引领纳米孔测序? 纳米孔测序是极具前景的下一代测序技术 据麦姆斯咨询介绍,纳米孔测序是新一代测序(NGS)技术之一,被认为能够彻底革新DNA分析。随着时间地推移,目前已经开发出了不同形式的纳米孔测序技术,包括蛋白质纳米孔、固态纳米孔和复合纳米孔。该技术可以高速生成超长读数,减少样品制备时间以及将读数重组成原始序列所需要的数据处理时间。 这项新技术可以开发一个需要遗传指纹来快速识别癌症类型和病原体的全新客户群。根据DataBridge的数据,全球下一代测序市场将快速增长,市场规模预计将从2017年的48.3亿美元增长到2024年的163.5亿美元,2018~2024年期间的复合年增长率(CAGR)预计为19.2%。 目前,Oxford Nanopore Technologies是唯一一家将基于纳米孔的测序仪推向市场的公司。不过,还有其它几家公司正在开发自己的相关技术,Oxford Nanopore Technologies公司可能很快将不再是纳米孔测序仪的唯一供应商。例如,Two Pore Guys公司宣布将在2019年春季发布其产品套件。 随着新产品在未来的相继推出,了解纳米孔测序市场相关参与者的知识产权(IP)状况和策略,同时发现专利新申请人及其所带来的威胁至关重要。为此,著名市场研究机构Yole 子公司Knowmade深入调研了基于纳米孔的测序技术(蛋白质、固态和复合)及其应用(肿瘤学、植物遗传学等)中涉及的知识产权主要参与者。本报告可以帮助读者发现业务风险和机遇,预测新兴应用,支持战略决策以加强市场地位。 纳米孔测序全球专利申请趋势 对专利申请趋势的分析表明,从2008年到2013年,纳米孔测序相关的专利申请获得了重要增长。这一增长源自于学术研究团队(哈佛大学和加州大学)对纳米孔测序概念的验证。

新一代DNA测序技术总览

作者:尹银亮、陈会平、毛良伟译来源:生物谷 原文刊登于《分析化学》综述Analytical Chemistry 原文标题:Landscape of Next-Generation Sequencing Technologies 索引信息:https://www.doczj.com/doc/978618814.html,/10.1021/ac2010857 | Anal. Chem. 2011, 83, 4327–4341 原文作者:Thomas P. Niedringhaus, Denitsa Milanova, Matthew B. Kerby, Michael P. Snyder,and Annelise E. Barro 译者资料: 尹银亮,香港华大基因研发中心有限公司email:stevenyinbio@https://www.doczj.com/doc/978618814.html, 陈会平,毛良伟,武汉华大基因科技有限公司 【内容】 第二代测序 第二代测序成本 第三代测序技术 单分子测序法 边连接边测序法 边合成边测序法 纳米孔测序技术 蛋白质纳米孔测序法 固态纳米孔测序法 长距离阅读DNA的扩展方法 总结性评论 DNA测序正处在技术上天翻地覆剧变的阵痛之中,其突出特点是,测序通量(测序数据量)的大幅增长,原始数据中每个碱基的测序成本急剧下跌,并伴随着以巨资购买仪器以引进新技术的需求。以前看似高不可攀的奢侈性研究活动(如个人基因组测序,宏基因组学研究,以及对大量重要物种的测序),在短短几年之间,正以急速的步伐而变得越来越切实可行了。本篇综述将集中讨论在第三,第四代测序方法背后的故事:它们所面临的挑战;各种方法的局限性;以及它们带给我们的充满诱惑的前景。 第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法或者是1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解). 在1977年,桑格测定了第一个基因组序列,是噬菌 体X174的,全长5375个碱基。其测序方法和历史过程以前已做过详细回顾。 后来的四色荧光桑格测序法(每一种荧光代表四种碱基中的一种)被用在自动毛细管电泳测序系统中,此系统由应用生物系统有限公司(Applied Biosystems Inc.)推上市场,后来该公司被整合入生命技术公司(Life Technologies)和贝克曼.考尔特公司(Beckman Coulter inc.)(见表1)。发表于2001年的第一个人类基因组

下一代测序技术

下一代测序技术 摘要:DNA测序技术对生物学的发展有着最根本的意义。Sanger法测序经过了30年的应用和发展,而在过去三年中,以454, solexa, SOLiD为代表的高通量测序平台已经大幅度降低了测序成本,提高了测序速度,成为基因组测序市场的主流。在此基础上,各种下一代测序技术正在快速研发,将使基因组测序和重测序的通量和成本更加平民化,为基因组学、遗传学、生物医学和健康科学等领域的发展创造更加广阔的前景。本文将对所有新的测序技术的原理、优势和应用进行总结和展望。 1977年Maxim、Gilbert发明的化学降解法测序技术和Sanger发明的双脱氧末端终止法测序技术不仅为他们赢得了诺贝尔奖,也使得从DNA序列层面研究分子遗传学成为可能。特别是后者,从最开始的凝胶电泳到越来越高通量的毛细管电泳,从开始的手工操作到越来越多自动测序仪的出现,各种改进的Sanger 测序技术统治了DNA测序领域三十年,至今仍在长片段测序,大片段文库测序方面有广泛的应用。人类基因组计划(HGP)的完成就是靠Sanger测序法。 在耗费了庞大成本的人类基因组计划宣布完成之后,越来越多的物种基因组测序工作对测序成本和通量提出了更高的要求,新一代测序技术(也被称为第二代测序技术)开始登上历史舞台。2005年454 life science公司率先推出了焦磷酸测序技术,使测序成本较Sanger法降低了100倍,速度快了(提高)100倍,人类基因组测序逐步进入了100,000美元时代。如今,454 FLX测序仪(Roche Applied Science)、基于“边合成边测序”的Solexa测序仪(Illumina Inc.)和使用“边连接边测序”的SOLiD测序仪(Applied Biosystems)已经成为基因组测序市场的主流机型。除此之外,2008年一年内又有HeliScope单分子测序仪(Helicos)和Polonator(Dover/Harvard)两种测序机型商品化。 在NHGRI(美国人类基因组研究中心)的支持和推动下,未来几年内测序成本将在目前基础上再下降100倍,最终使个人基因组测序成本降至1000美元,人类将革命性的进入个人基因组时代。高通量和低成本的测序技术将进入到普通实验室,基因组测序的简单化将使分子生物学飞跃发展,个人基因组测序产业化也将对健康医学等领域产生革命性的影响。本文将首先对目前已经商品化的新一代测序技术(454、Solexa、SOLiD、HeliScope)做一介绍和比较,再对正在研发中的各种下一代测序方法(第三代测序技术)的原理和应用做一详细的介绍和展望。 1. Roche 454测序技术 2005年454生命科学公司在《自然》杂志发表论文,介绍了一种区别于传统Sanger法的全新高通量测序方法,将测序成本降低了100倍以上,开创了第二代测序技术的先河,454测序仪也成为最先商品化的第二代测序仪。正是在此基础上,其它如Solexa、SOLiD等第二代测序仪才相继问世。454测序技术的原理在于首先使用乳液PCR(emulsion PCR)技术(图一a)扩增已经连接上接头的基因组文库片段,扩增子结合在28 μm的磁珠表面,将乳液破坏后用变性剂处理磁珠,再将含有扩增子的磁珠富集到芯片表面,用测序引物进行测序。在测序过程中,454使用了一种“焦磷酸测序技术”(Pyrosequencing),即在合成DNA 互补链的过程中,每加入一种单核苷酸(dNTP),如与模板链配对结合,就会释放出一个焦磷酸,与底物腺苷-5’-磷酸硫酸(APS)在A TP硫酸化酶作用下合成A TP,与荧光素(Luciferin)一起在荧光素酶(Luciferase)的作用下,会发出一个光信号,由芯片背后连接的电荷耦合装置(CCD,Charge Coupled Device)捕捉。454测序技术合成DNA链使用的是普通单核苷酸,没有任何标记,合成中也没有切割基团等生化反应,因此读长可以达到300-400bp。但没有阻断(block)和去阻断(de-block)过程也意味着对连续重复单核苷酸的阅读只能根据信号强度来判断,容易对其中插入和缺失碱基阅读错误。454测序技术相比较其他第二代测序技术如Solexa和SOLiD, 在读长上有着巨大的优势,但是目前成本要略高。总体而言,高读长使得454技术比较利于De Novo拼接和测序。

下一代DNA测序技术研究进展综述

深度DNA测序技术在基因组测序中的研究策略和进展 摘要:回顾了经典DNA测序技术原理,重点阐述了深度测序技术在基因组测序中的研究策略,并结合目前比较常见的二代测序仪来分析比较相互之间的特点和优势,最后,对即将到来的三代测序法的研究进展给予了简单的介绍。 关键词:深度DNA测序基因组测序仪 DNA测序技术的发展过程漫长而艰辛,然而,我们现在获取的大部分DNA序列信息还是依靠基于Sanger在1977年建立的“DNA双脱氧链末端终止测序法”的DNA测序技术获得的。另外就是Maxam和Gilbert建立的“化学降解测序法”。在过去的七年当中,DNA测序技术的发展至少受到来自四个方面的影响:首先是人类基因组计划的出现,这项计划的实施过程中,科学家们面临了巨大的经费问题,因为传统的Sanger测序法无论怎么优化,都无法大幅度降低测序的成本,这很大程度促进了人们对在测序过程中如何降低成本的技术方面的研究。第二,人类以及其他主要模式生物参考序列数据库的建立使得短片段阅读(short-read)成为可能,这极大的促进了短片段测序技术的发展。第三,新型分子生物学技术的不断涌现导致了越来越多的诸如RNA表达染色体构象等生物现象的出现,这就需要有高通量DNA测序手段去解释这些问题,这也极大的促进了新型测序技术的发展。第四,其他学科领域的技术的发展,例如计算机技术,数据存储及分析技术,聚合酶工程技术等,极大地支持了DNA测序技术的应用。本文主要是对目前新一代DNA测序(也叫深度测序)技术(Next-generation DNA sequencing technologies)的研究策略及目前国际DNA测序最新进展做一简要的综述。 1.Sanger测序法 先来回顾一下经典的DNA测序法,从上世纪九十年代早期开始,几乎所有的DNA测序都是利用半自动化的毛细管电泳Sanger测序技术完成的(图1-a)。后来出现了高通量测序法,这种方法首先要对DNA预处理,获取大量的待测序模板即质粒或PCR产物。然后在测序一种发生测序生化反应,这个过程会产生大量长短不一(因为终止位点不一样),末端被荧光标记的延伸产物。再用分辨率高的毛细管凝胶电泳分离这些延伸产物,通过对延伸产物末端四种不同荧光颜色的区分,利用计算机软件自动“读

基因组测序的数学模型分解

基因组组装 摘要 基因组测序是生物信息学的核心,有着极其重要的应用价值。新的测序技术大量涌现,产生的reads长度更短,数量更多,覆盖率更大,能直接读取的碱基对序列长度远小于基因组长度。所以测序之前DNA分子要经过复制若干份、随机打断成短片段。要获取整个DNA片段,需要把这些片段利用重合部分信息组织连接。如何在保证组装序列的连续性、完整性和准确性的同时设计耗时短、内存小的组装算法是本题的关键。 本文建立改进后OLC算法模型。该模型首先使用了特定的编码规定,通过C++程序对庞大的数据先后进行十进制和二进制的处理,不改变数据准确性的前提下尽可能减小内存和缩短计算机操作时间,并引入解决碱基识别错误问题的一般思路消除初始reads中的碱基错误。然后通过深度优先算法,设定适当的阈值,找出具有重叠关系的碱基片段并形成一有向赋权图,其中点是碱基片段,边代表具有重叠关系,权值代表片段重叠的多少,将问题转化为图论中寻找最大赋权通路的问题,从而对OLC算法进行改进,采用图论的方法更直观和更具操作性的解决DNA的拼接问题,从而对OLC算法进行改进。最后再根据OLC算法对Hamilton 路径进行拼接,生成共有序列,通过多序列比对等方法,获得最终的基因组序列。 关键词:基因组测序 OLC算法深度优先算法Hamilton路径

一问题的重述 1.1 问题背景 快速和准确地获取生物体的遗传信息对于生命科学研究具有重要的意义。对每个生物体来说,基因组包含了整个生物体的遗传信息,这些信息通常由组成基因组的DNA或RNA分子中碱基对的排列顺序所决定。获得目标生物基因组的序列信息,进而比较全面地揭示基因组的复杂性和多样性,成为生命科学领域的重要研究内容。 1.2 问题提出 确定基因组碱基对序列的过程称为测序。目前能直接读取的碱基对序列长度远小于基因组序列长度,因此需要利用一定的方法将测序得到的短片段序列组装成更长的序列。通常的做法是,将基因组复制若干份,无规律地分断成短片段后进行测序,然后寻找测得的不同短片段序列之间的重合部分,并利用这些信息进行组装。例如,若有两个短片段序列分别为 ATACCTT GCTAGCGT GCTAGCGT AGGTCTGA 则有可能基因组序列中包含有ATACCTT GCTAGCGT AGGTCTGA这一段。 由于技术的限制和实际情况的复杂性,最终组装得到的序列与真实基因组序列之间仍可能存在差异,甚至只能得到若干条无法进一步连接起来的序列。对组装效果的评价主要依据组装序列的连续性、完整性和准确性。连续性要求组装得到的(多条)序列长度尽可能长;完整性要求组装序列的总长度占基因组序列长度的比例尽可能大;准确性要求组装序列与真实序列尽可能符合。 利用现有的测序技术,可按一定的测序策略获得长度约为50–100个碱基对的序列,称为读长(reads)。基因组复制份数约为50–100。基因组组装软件可根据得到的所有读长组装成基因组,这些软件的核心是某个组装算法。一个好的算法应具备组装效果好、时间短、内存小等特点。新一代测序技术在高通量、低成本的同时也带来了错误率略有增加、读长较短等缺点,现有算法的性能还有较大的改善空间。具体解决问题如下: (1)建立数学模型,设计算法并编制程序,将读长序列组装成基因组。你的算法和程序应能较好地解决测序中可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况。 (2)现有一个全长约为120,000个碱基对的细菌人工染色体,采用Hiseq2000测序仪进行测序,测序策略以及数据格式的简要说明见附录一和附录二,测得的读长数据见附录三,测序深度约为70×,即基因组每个位置平均被测到约70次。试利

新一代高通量测序技术SOLiD简介

新一代高通量测序技术SOLiD简介 目前市场上有四种高通量测序仪,分别是Solexa,454 (GS-FLX),SOLiD和Polonator。根据测序原理,它们可以被分为两大类:使用合成法测序(Sequencing by Synthesis)的Solexa和454,及使用连接法测序(Sequencing by Ligation)的Polonator和SOLiD。这些高通量测序仪的共同点是不需要大肠杆菌系统进行DNA模板扩增,且测序所得序列较短:其中的454序列最长,为200~300个碱基,其余三种序列都只有几十个碱基。测序原理及序列长度的差异决定了各种高通量测序仪具有不同的应用领域。这就要求我们在熟悉各种高通量测序仪内在技术特点的基础上进行选择。 基因组所引进的SOLiD (Sequencing by Oligonucleotide Ligation and Detection)是ABI(Applied Biosystems)公司生产的高通量测序仪。目前这台SOLiD运行稳定,SOLiD实验及数据分析小组也可以为大家提供专业的技术服务。所以接下来的关键是如何把SOLiD测序仪应用到符合其技术特点的科研项目中。本短文将简单介绍SOLiD测序流程,双碱基编码原理及数据分析原理,以帮助大家了解SOLiD测序仪的技术特点和应用范围。 1.SOLiD关键技术及其原理 SOLiD使用连接法测序获得基于“双碱基编码原理”的SOLiD颜色编码序列,随后的数据分析比较原始颜色序列与转换成颜色编码的reference序列,把SOLiD颜色序列定位到reference上,同时校正测序错误,并可结合原始颜色序列的质量信息发现潜在SNP位点。 1.1. SOLiD文库构建 使用SOLiD测序时,可根据实际需要,制备片段文库(fragment library)或末端配对文库(mate-paired library)。简单地说,制备片段文库就是在短DNA片段(60~110 bp)两端加上SOLiD 接头(P1、P2 adapter)。而制备末端配对文库,先通过DNA环化、Ecop15I酶切等步骤截取长DNA片段(600bp到10kb)两末端各25 bp进行连接,然后在该连接产物两端加上SOLiD接头。两种文库的最终产物都是两端分别带有P1、P2 adapter的DNA双链,插入片段及测序接头总长为120~180 bp。 1.2:油包水PCR 我们知道,文库制备得到大量末端带P1、P2 adapter但内部插入序列不同的DNA双链模板。和普通PCR一样,油包水PCR也是在水溶液进行反应,该水相含PCR所需试剂,DNA模板及可分别与P1、P2 adapter结合的P1、P2 PCR引物。但与普通PCR不同的是,P1引物固定在P1磁珠球形表面(SOLiD将这种表面固定着大量P1引物的磁珠称为P1磁珠)。PCR反应过程中磁珠表面的P1引物可以和变性模板的P1 adapter负链结合,引导模板合成,这样一来,P1引物引导合成的DNA链也就被固定到P1磁珠表面了。 油包水PCR最大的特点是可以形成数目庞大的独立反应空间以进行DNA扩增。其关键技术是“注水到油”,基本过程是在PCR反应前,将包含PCR所有反应成分的水溶液注入到高速旋转的矿物油表面,水溶液瞬间形成无数个被矿物油包裹的小水滴。这些小水滴就构成了独立的PCR 反应空间。理想状态下,每个小水滴只含一个DNA模板和一个P1磁珠,由于水相中的P2引物和磁珠表面的P1引物所介导的PCR反应,这个DNA模板的拷贝数量呈指数级增加,PCR反应结束后,P1磁珠表面就固定有拷贝数目巨大的同来源DNA模板扩增产物。A BI公司提供的SOLiD 实验手册已经把小水滴体积及水相中DNA模板和磁珠的个数比等重要参数进行了技术优化和流程固定,尽可能提高“优质小水滴”(水滴中只含一个DNA模板一个P1磁珠)的数量,为后续SOLiD 测序提供只含有一种DNA模板扩增产物的高质量P1磁珠。

高通量测序:第二代测序技术详细介绍

在过去几年里,新一代DNA 测序技术平台在那些大型测序实验室中迅猛发展,各种新技术犹如雨后春笋般涌现。之所以将它们称之为新一代测序技术(next-generation sequencing),是相对于传统Sanger 测序而言的。Sanger 测序法一直以来因可靠、准确,可以产生长的读长而被广泛应用,但是它的致命缺陷是相当慢。十三年,一个人类基因组,这显然不是理想的速度,我们需要更高通量的测序平台。此时,新一代测序技术应运而生,它们利用大量并行处理的能力读取多个短DNA 片段,然后拼接成一幅完整的图画。 Sanger 测序大家都比较了解,是先将基因组DNA 片断化,然后克隆到质粒载体上,再转化大肠杆菌。对于每个测序反应,挑出单克隆,并纯化质粒DNA。每个循环测序反应产生以ddNTP 终止的,荧光标记的产物梯度,在测序仪的96或384 毛细管中进行高分辨率的电泳分离。当不同分子量的荧光标记片断通过检测器时,四通道发射光谱就构成了测序轨迹。 在新一代测序技术中,片断化的基因组DNA 两侧连上接头,随后运用不同的步骤来产生几百万个空间固定的PCR 克隆阵列(polony)。每个克隆由单个文库片段的多个拷贝组成。之后进行引物杂交和酶延伸反应。由于所有的克隆都是系在同一平面上,这些反应就能够大规模平行进行。同样地,每个延伸所掺入的荧光标记的成像检测也能同时进行,来获取测序数据。酶拷问和成像的持续反复构成了相邻的测序阅读片段。

Solexa高通量测序原理

--采用大规模并行合成测序法(SBS,Sequencing-By-Synthesis)和可逆性末端终结技术(ReversibleTerminatorChemistry) --可减少因二级结构造成的一段区域的缺失。 --具有高精确度、高通量、高灵敏度和低成本等突出优势 --可以同时完成传统基因组学研究(测序和注释)以及功能基因组学(基因表达及调控,基因功能,蛋白/核酸相互作用)研究 ----将接头连接到片段上,经PCR扩增后制成Library。 ----随后在含有接头(单链引物)的芯片(flowcell)上将已加入接头的DNA片段变成单链后通过与单链引物互补配对绑定在芯片上,另一端和附近的另外一个引物互补也被固定,形成“桥” ----经30伦扩增反应,形成单克隆DNA簇 ----边合成边测序(Sequencing By Synthesis)的原理,加入改造过的DNA 聚合酶和带有4 种荧光标记的dNTP。这些dNTP是“可逆终止子”,其3’羟 基末端带有可化学切割的基团,使得每个循环只能掺入单个碱基。此时,用激光扫描反应板表面,读取每条模板序列第一轮反应所聚合上去的核苷酸种类。之后,将这些基团化学切割,恢复3'端粘性,继续聚合第二个核苷酸。如此继续下去,直到每条模板序列都完全被聚合为双链。这样,统计每轮收集到的荧光信号结果,就可以得知每个模板DNA 片段的序列。目前的配对末端读长可达到2×50 bp,更长的读长也能实现,但错误率会增高。读长会受到多个引起信号衰减的因素所影响,如荧光标记的不完全切割。 Roche 454 测序技术 “一个片段= 一个磁珠= 一条读长(One fragment =One bead = One read)”1)样品输入并片段化:GS FLX 系统支持各种不同来源的样品,包括基因组DNA、PCR 产物、BAC、cDNA、小分子RNA 等等。大的样品例如基因组DNA 或者BAC 等被打断成300-800 bp 的片段;对于小分子的非编码RNA 或者PCR 扩增产物,这一步则不需要。短的PCR 产物则可以直接跳到步骤3)。 2)文库制备:借助一系列标准的分子生物学技术,将A 和B 接头(3’和5’端具有特异性)连接到DNA 片段上。接头也将用于后续的纯化,扩增和测序步

一代至四代测序技术详细讲解

一、我们将如何应对海量的基因信息 新一代测序技术带给人们大量遗传信息的同时,却成为限制其广泛应用的一个障碍。 1980年,英国生物化学家Frederick Sanger与美国生物化学家Walter Gilbert建立了DNA测序技术并获得诺贝尔化学奖,至今已有近三十年了。在这三十年,DNA测序技术取得了令人瞩目的进展。目前已进入市场的循环阵列测序平台采用的是与Sanger生物化学测序方法完全不同的原理。在过去几年,应用极为广泛的毛细管电泳测序法采用的则是多线并行阵列格式,它运用尖端的荧光成像技术进行碱基识别。上述各类新技术为生物学研究领域开辟了新的视角,也使实验研究达到一个新的水平。学界对开发这类新技术的兴趣持续高涨,与此同时,人们却发现这些技术存在一定的不足——大量信息数据的产生限制了技术更加广泛的应用,并降低了其市场价值。 过去,研究人员使用Applied Biosystems(ABI)公司的3730XL毛细管电泳测序仪进行基因分析,每年至多能完成六千万碱基的测序量。随着测序技术日新月异的发展,这种情况已经成为历史。在2005年刚刚开始进行新一代测序技术开发时,Roche公司和454公司联合开发的焦磷酸测序仪的分析速度就已经达到了上述提及的ABI仪器速度的50倍之上。也就是从那时起,因基因数据过多而产生的问题凸显了出来,而且这个问题随着其他制造商开发出更多更快的测序仪而愈加严重。举个例子,ABI的新一代测序平台SOLiD(supported oligonucleotide ligation and detection)单次运行,便可以分析6Gb的碱基序列;而Roche/454测序仪单次运行可以将上述结果转换成12-15个千兆字节(gigabytes)的数据信息;Illumina Genome Analyzer(GAII)测序系统仅在两个小时的运行时间里,就得到10兆兆字节(terabytes)的信息。尽管对于像Applied Biosystems这样的制造商而言,可以为用户提供高达11.25TB的存储量,但对于多数实验室所具有的信息管理系统来说,规模如此庞大的数据信息,就好像是迎面而来的洪水,让人感到难以控制。 过量信息所带来的一个副作用在于,用户无法将初始图像数据进行分类存档,而必须交给相关公司,利用软件对数据进行读取,然后才能对数据进行保存。对于大多数研究人员来说,像这样在每次实验后对原始数据进行处理的方式既繁琐又不经济。与花费上万美元对每一段序列进行备份分析相比,对每一次测序结果进行重新测定显然是一个更简单、更便宜的选择。测序仪制造商称,对原始数据再次进行分析并不能得到更多新的信息。但是,对于454测序仪而言,用户至少可以通过更新的软件从原始数据得到质量更高的序列,从而提高碱基识别分辨率,减少误差。 除数据处理问题之外,研究人员还需要拥有一个足够强大的计算机平台,以便将来自多个测序技术的短小基因片段进行组合,形成基因组外显子。目前问题在于,测序仪生产商仅仅提供用于某些特定基因信息分析的软件,如靶标重测序、基因表达分析、染色质免疫沉淀反应或基因组从头测序等,而并未提供任何其它类型的下游生物学信息分析软件。研究界越来越熟悉这些测序平台对循证生物学的巨大潜力,这也就产生了新的研究问题以及全新类型的试验方法,而这单凭依赖目前的生物学信息是无法满足的。 从这个角度看,SOLiD软件研发公司(https://www.doczj.com/doc/978618814.html,/gf/)于今年七月刚刚兼并了两个新的软件公司,这一举动无疑朝正确的方向迈进了一步。该公司在开放源码许可证下开发软件分析工具,目的就是为了给生物信息学领域提供支持,并为其开发新的算法。 对用户而言,如果能够将数据格式与不同测序平台获得的结果进行比较所得的统计数字进行标准化,无疑具有重大的意义。特别是由于目前以测序平台为核心的市场竞争激烈,因此每个生产商都努力提供最好的数据结果。

相关主题
文本预览
相关文档 最新文档