当前位置:文档之家› 运用基于高通量测序和大数据挖掘的_省略_因组学方法分析中药制剂的物种成分_白虹

运用基于高通量测序和大数据挖掘的_省略_因组学方法分析中药制剂的物种成分_白虹

运用基于高通量测序和大数据挖掘的_省略_因组学方法分析中药制剂的物种成分_白虹
运用基于高通量测序和大数据挖掘的_省略_因组学方法分析中药制剂的物种成分_白虹

运用基于高通量测序和大数据挖掘的元基因组学方法

分析中药制剂的物种成分

白虹1, 宁康2*, 王长云1*

(1. 中国海洋大学医药学院, 海洋药物教育部重点实验室, 山东青岛266003;

2. 中国科学院青岛生物能源与过程研究所, 单细胞研究中心生物信息学团队,

山东省能源生物遗传资源重点实验室, 中国科学院生物燃料重点实验室, 山东青岛 266101)

摘要: 中药制剂质量评价以化学成分分析为主, 而物种成分分析近年来引起了中医药界的极大关注, 特别是对于丸剂类中药制剂的质量评价更为重要。建立中药制剂物种成分的快速、准确、系统的分析方法, 是实现中药现代化、产业化和国际化的关键之一。中药制剂物种成分分析的实质是对包含多个生物物种的混合体系(混合生物样本) 的物种鉴定。基于高通量测序和大数据挖掘技术的元基因组学方法是目前认识、分析生物混合体系结构和功能最有效、最重要的方法之一。利用元基因组学方法将有助于建立中药制剂的物种评价方法。通过选择合适的DNA分子标记, 可对配伍处方药材物种进行鉴别, 同时通过大规模数据分析和挖掘鉴别制剂中的混伪品、有毒动植物或受保护动植物的成分, 以及在生产过程引入的生物杂质, 从而为中药制剂的有效性、安全性和合法性提供评价依据。

关键词: 中药; 物种成分; 元基因组学; 高通量测序; 大数据挖掘

中图分类号: R931 文献标识码:A 文章编号: 0513-4870 (2015) 03-0272-06

Biological ingredient analysis of traditional Chinese medicines

utilizing metagenomic approach based on

high-throughput-sequencing and big-data-mining

BAI Hong1, NING Kang2*, WANG Chang-yun1*

(1. Key Laboratory of Marine Drugs, the Ministry of Education of China, School of Medicine and Pharmacy, Ocean University

of China, Qingdao 266003, China; 2. Shandong Key Laboratory of Energy Genetics, CAS Key Laboratory of Biofuels and BioEnergy Genome Center, Computational Biology Group of Single Cell Center, Qingdao Institute of Bioenergy and Bioprocess

Technology, Chinese Academy of Sciences, Qingdao 266101, China)

Abstract: The quality of traditional Chinese medicines (TCMs) has been mainly evaluated based on chemical ingredients, yet recently more attentions have been paid on biological ingredients, especially for pill-based prep-arations. It is a key approach to establish a fast, accurate and systematic method of biological ingredient analy-sis for realization of modernization, industrialization and internationalization of TCMs. The biological ingredient analysis of TCM preparations could be abstracted as the identification of multiple species from a biological mixture. The metagenomic approach based on high-throughput-sequencing (HTS) and big-data-mining has been considered as one of the most effective methods for multiple species analysis of a biological mixture,

收稿日期: 2014-09-05; 修回日期: 2014-10-24.

基金项目: 国家科技部863项目(2012AA02A707, 2013AA093001, 2014AA021502); 国家自然科学基金资助项目 (61103167, 31271410, 61303161);

中德科学中心项目 (GZ878); 中国博士后科学基金资助项目 (2014M550376).

*通讯作者 Tel / Fax: 86-532-80662624, E-mail: ningkang@https://www.doczj.com/doc/0a14342133.html,;

Tel / Fax: 86-532-82031536, E-mail: changyun@https://www.doczj.com/doc/0a14342133.html,

which would also be helpful for the analysis of biological ingredients in TCMs. Simultaneous identification

of diverse species, including the prescribed species, adulterants, toxic species, protected species and even the biological impurities introduced through production process, could be achieved by selecting appropriate DNA biomarkers, as well as applying large-scale sequence comparison and data mining. By this approach, it is prospective to offer an evaluation basis for the effectiveness, safety and legality of TCM preparations.

Key words: traditional Chinese medicine; biological ingredient; metagenomics; high-throughput-sequencing;

big-data-mining

广义的中药包括中药材、中药饮片、中药提取物和中药制剂。自20世纪90年代中期以来, 我国中药材、中药提取物等中药产品的出口呈现出逐年上升的态势, 而其中中药制剂出口额却在低位徘徊[1, 2]。制约中药制剂走向国际化的主要原因之一在于其质量评价体系不完善, 难以标准化。

中药制剂是在中医药理论指导下, 按照“君臣佐使”的组方原则, 选择适宜的药味和剂量, 采用合理的制剂工艺制成随时可以取用的现成药品, 如各种丸剂、散剂和冲剂等。中药制剂往往含有多种动植物成分, 其药效是多种药味整体作用的体现, 是多种成分、多种机制综合作用的结果。中药制剂质量评价内容主要分为化学成分分析和物种成分分析。目前, 对于中药制剂化学成分的分析方法研究较多, 而对于其物种成分的分析方法研究较少。化学成分分析一般通过TLC定性分析和HPLC定量分析, 而物种成分分析则一般通过显微鉴别和TLC鉴别进行定性分析。上述方法的局限性在于难以区分形态相似的近缘种及含有相同主要化学成分的物种, 且不能检测制剂中的未知杂质物种成分。近年来, 对中药制剂物种成分的鉴定引起了国内外极大关注, 特别是对于药材粉碎后直接入药的丸剂、散剂类中药制剂的质量评价尤为重要。由于中药材采收或加工过程中的生物污染、错误鉴别、使用伪品、掺假等, 都可能影响中药制剂的质量, 甚至产生潜在的危害。因此, 建立科学、合理、可操作性强的中药制剂物种成分分析方法是实现中药现代化、产业化和国际化的关键之一。

中药制剂物种成分分析的实质是对包含多个生物物种的混合体系(混合生物样本) 的物种鉴定。基于高通量测序和大数据挖掘技术的元基因组学方法是目前认识、分析生物混合体系结构和功能最有效、最重要的方法之一。通过对高通量测序数据进行深度的数据挖掘, 能够对样品中的生物组成进行定性和定量分析, 有助于建立快速、准确、系统的中药制剂物种成分分析方法。1 基于高通量测序和大数据挖掘的元基因组学研究

进展

生命科学的深入研究与生物技术的发展对DNA

测序技术提出了新的要求。在传统Sanger测序技术

基础上发展起来的新一代测序技术 (next-generation sequencing) 以其高通量、低成本的优势在许多领域

得到了广泛应用。其突出特征是, 单次运行产出的

序列数据量大, 故而又称为高通量测序技术 (high- throughput sequencing)。随着测序技术的提高和基因

组学的发展, 对单一物种DNA序列的测定已经不能

满足学科的发展, 人们提出了一种新的研究思路, 即

元基因组学(也称宏基因组学, metagenomics) 研究

策略[3?5]。元基因组学在首次提出时, 其研究对象为

微生物群落, 即对环境样品中微生物群体基因组进

行测序, 从而获取所需功能基因的序列、微生物多样

性及其与环境之间的关系。元基因组学方法主要包括

相对独立却又紧密互补的两种手段: 经扩增的进化

标记序列的测定和全基因组的解析, 前者采用特异

性引物进行系统发育标记分子(如16S rRNA等生物

标记) 的扩增, 并通过测序来识别生物群落的物种组

分并定量其相对丰度; 后者则测定体系中所有的DNA序列, 理论上能够提供包括进化标记在内的所

有基因组信息。因此, 元基因组学方法能够客观、全面、快速地分析生物混合体系的结构和功能。这种研

究思路已逐步渗透到多个研究领域, 包括土壤、海洋、人体口腔及胃肠道等生物群落的研究[6?10] (图1)。

元基因组学方法的基础是高通量测序和大数据

挖掘。高通量测序为元基因组学研究提供了海量数据, 而要充分挖掘蕴藏于海量数据中的规律, 大数据

驱动的研究策略必不可少[11]。大数据挖掘具有三大

特点 (3V): 数据量大(volume of data)、处理数据的

速度快 (velocity of processing the data) 和数据源多

变(variability of data sources)[12]。具体到元基因组研

究而言, 大数据研究的3V特点体现在: ① 研究对象

具有数据量大的特点。通常情况下, 一次微生物群落

图1 元基因组学研究的应用范围

元基因组测序会涉及到数百个微生物物种, 相关的高通量测序数据量产出十分巨大。如, 口腔菌群等简单微生物群落, 通常包括100个左右物种, 相关的生物标记测序数据量在100 MB左右, 而全基因组测序数据量则超过100 GB; 土壤菌群等复杂微生物群落, 相应的生物标记和全基因组测序数据量则分别超过1 GB和1 TB。② 对数据处理的准确性和速度要求高。如, 对于微生物生态环境监控等研究[13, 14], 需要基于监测结果进行条件控制, 从而具有较高的时效性要求; 对于能源微生物资源筛选和合成生物学研究[15], 则对功能模块的鉴别效率和准确性要求均较高。③ 数据来源多变且具有较大的异质性。元基因组研究数据的样本来源多样和采样方式各异的特点, 导致了数据来源的较大异质性。同时GreenGenes等生物标记数据库[16](数据库大于10 GB) 和NCBI系列等通用数据库[17](数据库大于1 TB) 中的参考序列也具有一定的异质性。源数据和数据库数据的异质性, 会导致数据缺失和矛盾等问题, 成为生物混合体研究的瓶颈。可见, 由于微生物群落等混合生物样品组成复杂, 数据比对和挖掘过程也较复杂, 因此元基因组学研究获得的数据具有典型的大数据特点, 需要智能化的算法才能够深入挖掘数据之间的相关性[11, 18]。

2 元基因组学方法应用于中药制剂物种成分分析

元基因组学方法不但是研究微生物群落的利器, 也是研究其他混合生物样品的重要手段。元基因组学方法应用于中药制剂物种成分的系统性分析, 是近年发展起来的中药物种鉴定的新手段。2012年, 澳大利亚学者将元基因学研究思路首次应用到非微生物群落的中药制剂物种成分的分析中, 以叶绿体trn L 基因和核糖体16S rRNA基因作为分子标记, 应用高通量测序技术对15种进口中药制剂进行了测序和分析, 较全面、完整地检测出每种制剂所包含的动植物种类[19]。2014年, 本课题组运用基于高通量测序和大数据挖掘的元基因组学研究策略, 对我国传统中药制剂六味地黄丸的物种成分进行了系统性分析, 鉴别出了处方物种和非处方物种, 在此基础上对不同厂家制剂产品的一致性进行了比较分析[20]。

2.1 元基因组学方法应用于中药制剂物种成分分析的技术基础

随着系统生物学的应用, 基因组学、蛋白质组学和代谢组学等分子生物学技术开始应用到中药研究领域, 尤其是基因组学方法的引入给中药物种鉴定带来了新的思路。元基因组学方法应用于中药制剂物种成分分析, 其本质为基于DNA分子标记的物种鉴别。同一物种的基因组信息是唯一且稳定的, 不会随着时间、外形、外界环境的变化而变化, 只需极少量的样品就可以获得完整的基因信息, 从而对其进行物种鉴定。基于DNA分子标记的物种鉴定技术是利用基因组中一段公认的、通用的标准短序列来进行物种鉴定的分子诊断技术[21]。DNA分子标记具有以下优点: ①生物体各个发育阶段的组织块都可用于鉴定, 而不需要传统分类学要求的“典型标本”; ②不受生态环境引起的形态差异影响; ③不依赖分类学专家对专科专属长期积累的形态分类实践经验;

④ DNA序列能提供明确的信息, 易于数字化和构建数据库。近年来, 基于DNA分子标记的鉴定方法在单味中药材基源鉴别和真伪鉴别的研究中已日臻成熟[22?24], 各类药用动植物的基因序列数据也在不断完善[25, 26]。上述技术的发展和数据库的完善为物种的快速鉴定提供了分子水平的精细分类学标准, 使物种的准确、快速鉴定成为可能, 也为中药制剂物种成分分析奠定了方法学基础。

2.2 元基因组学方法应用于中药制剂物种成分分析的基本步骤

基于高通量测序和大数据挖掘的元基因组学方法适合于药材粉碎后直接入药的丸剂、散剂等中药制剂物种成分的分析。由于所有物种的分析和测定在一次试验中即可完成, 因此制剂中所含的中药材种类越多, 该方法的优越性越明显, 其基本步骤(图2) 分述如下。

2.2.1 基因组提取 中药制剂的原料多为饮片, 由于炮制方法的不同可能会造成药材DNA或多或少的降解, 且制剂中一般会含有辅料, 可能影响DNA的提取结果。因此, 根据不同中药制剂的特性, 选择合适的DNA提取方法, 获得高质量的基因组是下一步

图2元基因组学方法应用于中药制剂物种成分分析的基本步骤

物种成分分析的首要环节。前期作者以六味地黄丸为研究对象, 对3种不同DNA提取试剂盒法和改良CTAB法进行了比较, 发现改良CTAB法的提取效率高于其他3种试剂盒法, 原因可能由于改良CTAB法可根据研究对象的特性改变提取条件, 从而获得高质量的基因组[27]。这一方法适用于六味地黄丸, 理论上也应适用于其他中药制剂。改良CTAB法中每个步骤可以根据需要进行适当调整, 当对某些中药制剂的DNA提取效果不佳时, 可根据其制剂所含的物种成分及制剂特点改变提取条件, 例如, 可通过增加裂解时间或改变裂解液的组成提高DNA的提取率, 或通过增加有机溶剂萃取次数提高DNA的纯度等。2.2.2 分子标记片段的选择及PCR扩增 选择适当的分子标记是基于DNA分子标记进行物种鉴定的关键。理想的分子标记应符合以下几个标准: 在种间有明显的遗传变异和分化, 同时种内变异足够小; 片段长度适中, 以保证能顺利得到PCR (polymerase chain reaction, 聚合酶链式反应) 扩增产物, 且一个反应就能完成测序工作; 存在保守区域, 便于设计通用引物。目前, 线粒体COI基因中约650 bp长的一段序列已成功运用在动物物种的鉴定上, 但是在植物中还没有一个可接受的通用分子标记。国内外学者对植物鉴定通用DNA分子标记进行了探索, 尝试从叶绿体和核基因组中找到合适的基因片段[28, 29]。近年来, 研究表明, 内转录间隔区ITS2[26, 30]和叶绿体trn L[19, 31]是适合植物鉴定的分子标记。ITS2序列变异较大, 并具备二级结构, 可为鉴别物种提供独特的分子特征, 具有较高的鉴定效率。此外, trn L的DNA序列相对较短, 对于长期贮藏和DNA已部分降解的样品而言, trn L表现出较高的PCR扩增和测序效率, 但分辨率较低。针对药用动植物, 陈士林等[32]首次提出将ITS2序列作为药用植物鉴定的通用分子标记, 并建立了以ITS2为核心、psb A-trn H为补充序列的植物类药材DNA 分子标记鉴定体系和以COI序列为核心、ITS2 为辅助序列的动物类药材DNA分子标记鉴定体系。本课题组选择ITS2和trn L作为分子标记, 对六味地黄丸进行物种成分分析, 结果表明, ITS2具有较高的鉴别效率。现有这些研究对中药制剂基于DNA分子标记的物种鉴定无疑具有参考价值。

2.2.3 高通量测序目前主流的高通量测序技术包括454测序和Solexa测序技术等。454测序序列一般读长较长 (700 bp左右)、序列数较少 (1000000左右), 适合于大片段序列或重复序列的分析; 而Solexa测序序列一般读长较短 (150 bp左右)、序列数较多(1000000000左右), 适合于多变序列的分析。这两种主流方法均适合于中药制剂中物种成分的DNA测序。

2.2.4 生物信息学数据分析 在针对混合生物样品高通量测序数据的整理与挖掘方面, 目前的元基因组学分析方法(表1) 具有准确、高效等特点, 并有助于相关知识的挖掘, 适用于针对中药制剂物种成分研究的大数据分析。高通量测序技术为中药制剂物种鉴定和分析提供数据基础。一般来说, 一个中药制剂样本包括多种来源的动植物成分, 相关的生物标记测序数据量在100 MB左右, 而全基因组测序数据量远超1 GB。针对来源于多样本的GB级数据, 可通过序列比对、聚类和相关性分析, 进行系统的物种鉴定和分析。

由于中药制剂样本中含有多个物种(生物混合体系), 针对单物种鉴定的方法 (Blast序列搜索法[34]、距离法[42]、建树法[43]等) 不完全适用于中药制剂中物种成分的鉴定。如Blast序列搜索法一次可以分析某一物种, 但是对于生物混合体系成分的鉴定效率较低, 且整体分析错误率较高。目前, 生物混合体系物

表1 利用元基因组学方法分析中药制剂物种成分涉及的大数据分析方法

步骤方法主要用途数据规模参考文献测序数据质量控制Meta-QC-Chain 去除杂质序列和低质量序列 [33] 混合生物体系物种成分分析Blast 物种成分数据库搜索 10

GB左右(数据库) [34] Parallel-Meta

物种成分解析 10

GB左右[35, 36] MEGAN

物种成分解析 1

GB左右[37] 混合生物体系物种成分比较Fast UniFrac 物种成分比较数十个样本, 10 GB左右[38, 39]

Meta-Storms

物种成分大规模比较和搜索百万个样本, 1 TB以上[40, 41]

种鉴定和比较方法日渐成熟。例如, Phyloshop[44]和Parallel-Meta[36]是基于物种间序列进化关系的生物混合体系物种组成分析方法; MEGAN[37]和STAMP[45]是直接基于物种分类学的生物混合体系物种组成分析方法; UniFrac[39]、Fast UniFrac[38]和Meta-Storms[41]是多个样本基于进化层面的物种组成比较分析方法。本课题组前期在针对六味地黄丸的研究中, 利用了NCBI等数据库中所有已知ITS2和trn L序列建立了小型数据库, 并基于此数据库利用Parallel-Meta等方法搜索、鉴定六味地黄丸中的物种成分, 利用Meta-Storms等方法对不同样本的物种进行了比较[20], 成功地对处方物种和非处方物种进行了鉴定。当前生物信息学数据分析方法的快速发展, 对基于DNA分子标记的中药制剂物种成分分析具有推动作用。

3 展望

利用元基因组学方法分析中药制剂的物种成分显示了多方面的优点: ①对生物混合体系具有强大的分析能力, 可同时检测处方物种、混伪品、有毒动植物或受保护动植物的成分, 以及在生产过程中引入的生物杂质, 从而保证中药制剂的有效性、安全性和合法性。②对于物种的鉴别从理论上来说具有唯一性。例如, 药厂生产所用中药材的基原物种可能包括多个来源, 不同的基原物种通过传统鉴别方法很难将其从制剂中区分开来, 但从基因角度进行分析则能准确将其界定。③将中药制剂物种成分质量评价数字化。数字化的评价体系有助于建立数据库, 从而提高中药制剂物种成分的信息化管理和标准化监控, 提高中药制剂现代化水平。

基于元基因组学的中药制剂物种成分分析方法目前尚在探索和发展过程中, 受中药基因组数据库完善程度的影响, 某些中药物种目前还无法鉴别, 或只能鉴别到属以上的水平。受DNA提取方法的限制, 对于中药制剂中包含的炮制药材或由于长期储存而造成DNA降解的药材不能完全或准确地进行鉴定, 对于主要由中药提取物或矿物药组成的中药制剂本方法也不适用。此外, 由于测序成本的原因, 元基因组学方法应用于中药制剂物种成分分析主要是基于分子标记的物种鉴定。基于分子标记的物种鉴定技术是传统物种鉴定的强有力补充, 目前该技术多应用于单味药材, 在中药材真伪鉴别、多基源品种的鉴别中表现出极高的准确率和重现性。在单味药材基于分子标记的物种鉴定基础上, 将基于高通量测序和大数据挖掘的元基因组学方法用于中药制剂的物种成分分析, 具有广阔的发展前景。随着高通量测序技术和相关大数据挖掘方法的日趋成熟, 基于全基因组

测序的中药制剂物种成分分析将成为可能, 这意味

着相关物种的功能基因也将被解析, 有助于在系统

生物学层面阐释中药制剂辨证论治的整体观。可以预

见, 基于高通量测序和大数据挖掘的元基因组学方

法, 对大数据驱动的标准化中药制剂质量评价体系

的构建, 将起到重要的支撑作用。

References

[1]Yu ZB, Luo Y. Import and export analysis of traditional

Chinese medicine in 2012 [J]. Mod Chin Med (中国现代中

药), 2013: 143?146.

[2]Yu ZB. Import and export analysis of traditional Chinese

medicine in 2013 [J]. Mod Chin Med (中国现代中药), 2014,

16: 151?154.

[3]Handelsman J, Rondon MR, Brady SF, et al. Molecular

biological access to the chemistry of unknown soil microbes: a

new frontier for natural products [J]. Chem Biol, 1998, 5:

R245?R249.

[4]Handelsman J. Metagenomics: application of genomics to

uncultured microorganisms [J]. Microbiol Mol Biol Rev,

2004, 68: 669?685.

[5]Hugenholtz P, Tyson GW. Microbiology: metagenomics [J].

Nature, 2008, 455: 481?483.

[6]Tringe SG, Von Mering C, Kobayashi A, et al. Comparative

metagenomics of microbial communities [J]. Science, 2005,

308: 554?557.

[7]Venter JC, Remington K, Heidelberg JF, et al. Environmental

genome shotgun sequencing of the Sargasso Sea [J]. Science,

2004, 304: 66?74.

[8]Yang F, Zeng X, Ning K, et al. Saliva microbiomes distinguish

caries-active from healthy human populations [J]. ISME J,

2011, 6: 1?10.

[9]Gill SR, Pop M, DeBoy RT, et al. Metagenomic analysis of the

human distal gut microbiome [J].Science,2006,312:1355?1359. [10]Qin J, Li Y, Cai Z, et al. A metagenome-wide association

study of gut microbiota in type 2 diabetes [J]. Nature, 2012,

490: 55?60.

[11]Hunter CI, Mitchell A, Jones P, et al. Metagenomic analysis:

the challenge of the data bonanza [J]. Brief Bioinform, 2012,

13: 743?746.

[12]May M. Life science technologies: big biological impacts

from big data [J]. Science, 2014, 344: 1298?1300.

[13]Hazen TC, Rocha AM, Techtmann SM. Advances in

monitoring environmental microbes [J]. Curr Opin Biotechnol,

2013, 24: 526?533.

[14]Wang J, McLenachan PA, Biggs PJ, et al. Environmental

bio-monitoring with high-throughput sequencing [J]. Brief

Bioinform, 2013, 14: 575?588.

[15]Sommer MO, Church GM, Dantas G. A functional metagenomic

approach for expanding the synthetic biology toolbox for biomass conversion [J]. Mol Syst Biol, 2010, 6: 360.

[16]DeSantis TZ, Hugenholtz P, Larsen N, et al. Greengenes, a

chimera-checked 16S rRNA gene database and workbench

compatible with ARB [J]. Appl Environ Microbiol, 2006, 72:

5069?5072.

[17]https://www.doczj.com/doc/0a14342133.html,/nuccore/.

[18]Teeling H, Glockner FO. Current opportunities and challenges

in microbial metagenome analysis?a bioinformatic perspective

[J]. Brief Bioinform, 2012, 13: 728?742.

[19]Coghlan ML, Haile J, Houston J, et al. Deep sequencing of

plant and animal DNA contained within traditional Chinese

medicines reveals legality issues and health safety concerns [J].

PLoS Genet, 2012, 8: e1002657.

[20]Cheng X, Su X, Chen X, et al. Biological ingredient

analysis of traditional Chinese medicine preparation based on

high-throughput sequencing: the story for Liuwei Dihuang

Wan [J]. Sci Rep, 2014, 4: 5147.

[21]Hebert PD, Cywinska A, Ball SL. Biological identifications

through DNA barcodes [J]. Proc Biol Sci, 2003, 270: 313?321. [22]Han JP, Li MN, Luo K, et al. Identification of Daturae Flos

and its adulterants based on DNA barcoding technique [J].

Acta Pharm Sin (药学学报), 2011, 46: 1408?1412.

[23]Ji SG, Pan SL, Wang J, et al. Phylogeny relationship and

molecular identification of ten Huperzia species (Huperziaceae)

based on mar K gene sequences [J]. China J Chin Mater Med

(中国中药杂志), 2007, 32: 1971?1975.

[24]Che J, Tang L, Liu YJ, et al. Molecular identity of Crocus

sativus and its misused substitutes by ITS sequence [J]. Chi-

na J Chin Mater Med (中国中药杂志), 2007, 32: 668?671.

[25]Lou SK, Wong KL, Li M, et al. An integrated web medicinal

materials DNA database: MMDBD (Medicinal Materials DNA

Barcode Database) [J]. BMC Genomics, 2010, 11: 402.

[26]Chen SL, Yao H, Han JP, et al. Validation of the ITS2

region as a novel DNA barcode for identifying medicinal plant

species [J]. PLoS One, 2010, 5: e8613.

[27]Cheng X, Chen X, Su X, et al. DNA extraction protocol for

biological ingredient analysis of Liuwei Dihuang Wan [J].

Genomics Proteomics Bioinformatics, 2014, 12: 137?143.

[28]Chase MW, Salamin N, Wilkinson M, et al. Land plants and

DNA barcodes: short-term and long-term goals [J]. Philos

Trans R Soc Lond Biol Sci, 2005, 360: 1889?1895.

[29]Ning SP, Yan HF, Hao G, et al. Current advances of DNA

barcoding study in plants [J]. Biodiv Sci (生物多样性), 2008,

16: 417?425.

[30]Pang X, Song J, Zhu Y, et al. Applying plant DNA barcodes

for Rosaceae species identification [J]. Cladistics, 2010, 27: 165?170.

[31]Taberlet P, Coissac E, Pompanon F, et al. Power and

limitations of the chloroplast trn L (UAA) intron for plant

DNA barcoding [J]. Nucleic Acids Res, 2007, 35: e14.

[32]Chen SL, Pang XH, Yao H, et al. Identification system and

perspective for DNA barcoding Traditional Chinese Materia

Medica [J]. World Sci Technol/Mod Tradit Chin Med Mater

Med (世界科学技术: 中医药现代化), 2012, 13: 747?754.

[33]Zhou Q, Su X, Jing G, et al. Meta-QC-Chain: comprehensive

and fast quality control method for metagenomic data [J].

Genomics Proteomics Bioinformatics, 2014, 12: 52?56.

[34]Altschul SF, Gish W, Miller W, et al. Basic local alignment

search tool [J]. J Mol Biol, 1990, 215: 403?410.

[35]Su X, Pan W, Song B, et al. Parallel-META 2.0: enhanced

metagenomic data analysis with functional annotation, high

performance computing and advanced visualization [J].PLoS

One, 2014, 9: e89323.

[36]Su X, Xu J, Ning K. Parallel-META: efficient metagenomic

data analysis based on high-performance computation [J].

BMC Syst Biol, 2012, 6: S16.

[37]Huson DH, Auch AF, Qi J, et al. MEGAN analysis of

metagenomic data [J]. Genome Res, 2007, 17: 377?386.

[38]Hamady M, Lozupone C, Knight R. Fast UniFrac: facilitating

high-throughput phylogenetic analyses of microbial communities

including analysis of pyrosequencing and PhyloChip data [J].

ISME J, 2010, 4: 17?27.

[39]Lozupone C, Knight R. UniFrac: a new phylogenetic method

for comparing microbial communities [J]. Appl Environ

Microbiol, 2005, 71: 8228?8235.

[40]Su X, Wang X, Jing G, et al. GPU-Meta-Storms: computing

the structure similarities among massive amount of microbial

community samples using GPU [J]. Bioinformatics, 2014,

30: 1031?1033.

[41]Su X, Xu J, Ning K. Meta-Storms: efficient search for similar

microbial communities based on a novel indexing scheme and

similarity score for metagenomic data [J]. Bioinformatics,

2012, 28: 2493?2501.

[42]Ross HA, Murugan S, Li WLS. Testing the reliability of

genetic methods of species identification via simulation [J].

Syst Biol, 2008, 57: 216?230.

[43]Guindon S, Dufayard JF, Lefort V, et al. New algorithms and

methods to estimate maximum-likelihood phylogenies: assessing

the performance of PhyML 3.0 [J].Syst Biol,2010,59:307?321. [44]Shah N, Tang H, Doak TG, et al. Comparing bacterial commu-

nities inferred from 16S rRNA gene sequencing and shotgun

metagenomics [J]. Pac Symp Biocomput, 2011: 165?176.

[45]Parks DH, Beiko RG. Identifying biologically relevant

differences between metagenomic communities [J]. Bioinfor-

matics, 2010, 26: 715?721.

高通量测序基础知识

高通量测序基础知识简介 陆桂 什么是高通量测序? 高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。 什么是Sanger法测序(一代测序) Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。 什么是基因组重测序(Genome Re-sequencing) 全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。 什么是de novo测序 de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。 什么是外显子测序(whole exon sequencing) 外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。

转录组高通量测序

转录组高通量测序 2010-11-22 09:48 (第二代高通量测序技术-454) 转录组即特定细胞在某一功能状态下所能转录出来的所有RNA的总和,是研究细胞表型和功能的一个重要手段。与基因组不同的是,转录组的定义中包含了时间和空间的限定。同一细胞在不同的生长时期及生长环境下,其基因表达情况是不完全相同的。罗氏GS-FLX-Titanium第二代高通量测序仪平均读长超过 400bp,在测序读长上遥遥领先于其它第二代高通量测序仪,使其成为转录组学研究的首选测序平台,已被广泛应用于基础研究、临床诊断和药物研发等领域。 一、罗氏454测序技术在环境微生物生态多样性研究中的突出优势体现在:(1)测序序列长,便于聚类拼接,可以对转录本进行从头组装(de novo assembly)。 (2)测序通量高,可以检测到低丰度转录本信息。 (3)可以对无基因组参考序列的新物种进行转录组测序,发现新的转录本和亚型。 (4)实验操作简单、结果稳定,可重复性强。无需进行克隆的文库构建,双链cDNA连接454接头后可以直接进行测序,实验周期短。 (5)测序数据便于进行生物信息分析,可以进行基因差异表达分析、鉴定基因的可变剪切以及预测新基因。 二、美吉公司在环境微生物生态多样性研究中的突出优势体现在: (1)拥有自主实验室和高通量测序平台,可以根据客户要求灵活安排实验,实验周期短,取样方便,质量可靠。 (2)技术人员经验丰富,可以稳定地进行总RNA的提取和双链cDNA的合成,可以根据顾客要求第一时间提供实验方案。 (3)有专业的生物信息团队和大型计算机,可以为客户提供个性化的生物信息分析服务。 (4)开放式实验室,参与式服务。客户不但可以参与整个实验过程,而且可以参与生物信息分析,提供最为增值的售后服务。 三、服务流程 (1)客户提供样本背景信息、实验目的和实验预期。 (2)美吉公司设计实验方案,提供测序深度建议和生物信息分析建议。 (3)客户认可实验方案,双方签订项目合作协议。 (4)项目开始运作,美吉公司指定专人和客户保持无障碍沟通。 (5)项目结束,美吉公司提供标准结题报告。 (6)客户可以和美吉公司签订长期合作协议,享受折扣和VIP服务。 四、送样要求 (1)动物、植物、微生物组织: > 请提供足量的新鲜样品,样品量≥5g;植物材料应避免过老的组织,尽量用柔嫩部位。 > 新鲜程度要求:采样后将样品立即液氮速冻-80℃保存(保存期不超过1个月),干冰运输,运输时间不超过72h。 > 样本保存期间切忌反复冻融。

Roche_454(GS_FLX_Titanium_System)超高通量测序技术原理

Roche 454(GS FLX Titanium System)超高通量测序技术原理 2005年底,454公司推出了革命性的基于焦磷酸测序法的超高通量基因组测序系统——Genome Sequencer 20 System,被《Nature》杂志以里程碑事件报道,开创了边合成边测序(sequencing-by-synthesis)的先河。之后,454公司被罗氏诊断公司以1.55亿美元收购。2007年,他们又推出了性能更优的第二代基因组测序系统—— Genome Sequencer FLX System (GS FLX)。2008年10月,454推出了全新的GS FLX Titanium系列试剂和软件,让GS FLX的通量一下子提高了5倍,准确性和读长也进一步提升。 想当年,GS 20的出现,揭开了测序历史上崭新的一页。Jonathan Rothberg博士就是大规模并行测序的发明者,同时也是454的创始人。上世纪90年代,很多学者也都想到了大规模并行测序,他们试图将Sanger测序移到芯片上,但都以失败告终,因为这项技术没有可扩展性。1999年,Rothberg的儿子出世,他放了两个星期的陪产假。小家伙出生后被送入婴儿特护病房,Rothberg非常担心,甚至想获取儿子的基因组信息。这段担惊受怕的经历给了他灵感,他突然意识到焦磷酸测序(pyrosequencing)不仅简单,而且具有可扩展性。两个星期之后,Rothberg就开始设计芯片和流动室,让测序在更小的反应室中进行,并同时进行几百万个反应。 硬件的设计和制造也只是成功的一半,在样品制备上还有同样漫长的路要走。Rothberg摒弃了传统的细菌克隆与挑选,将DNA打断成随机片段,并寻找一种方法来克隆每个片段。受到其他学者乳液实验的启发,他也想将DNA放入油包水的乳液中,这样就省去了反应管。一个好汉三个帮。在Joel Bader等人的帮助下,Rothberg验证了这些想法的可行性,并利用了炸药中的表面活性剂来维持乳液的热稳定性。就这样,乳液PCR终于诞生了。 对细菌的16S rDNA的V6/V3可变区进行测序分析,不需进行克隆筛选,测序的通量高,获得的数据量大,周期短,能更加全面的反映微生物群体的物种组成,真实的物种分布及丰度信息。 GS FLX 测序原理 GS FLX系统的测序原理和GS 20一样,也是一种依靠生物发光进行DNA序列分析的新技术;在DNA聚合酶,ATP硫酸化酶,荧光素酶和双磷酸酶的协同作用下,将引物上每一个dNTP 的聚合与一次荧光信号释放偶联起来(图 1)。通过检测荧光信号释放的有无和强度,就可以达到实时测定DNA序列的目的。此技术不需要荧光标记的引物或核酸探针,也不需要进行电泳;具有分析结果快速、准确、灵敏度高和自动化的特点。 Roche GS FLX System是一种基于焦磷酸测序原理而建立起来的高通量基因组测序系统。在测序时,使用了一种叫做“Pico TiterPlate”(PTP)的平板,它含有160多万个由光纤组成的孔,孔中载有化学发光反应所需的各种酶和底物。测序开始时,放置在四个单独的试剂瓶里的四种碱基,依照T、A、C、G的顺序依次循环进入PTP板,每次只进入一个碱基。如果发生碱基配对,就会释放一个焦磷酸。这个焦磷酸在各种酶的作用下,经过一个合成反应和一个化学发光反应,最终将荧光素氧化成氧化荧光素,同时释放出光信号。此反应释放出的光信号实时被仪器配置的高灵敏度CCD捕获到。有一个碱基和测序模板进行配对,就会捕获到一分子的光信号;由此一一对应,就可以准确、快速地确定待测模板的碱基序列。

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识 ㈠De Novo测序也叫从头测序,是首次对一个物种的基因组进行测序,用生物信息学的分析方法对测序所得序列进行组装,从而获得该物种的基因组序列图谱。 目前国际上通用的基因组De Novo测序方法有三种: 1. 用Illumina Solexa GA IIx 测序仪直接测序; 2. 用Roche GS FLX Titanium直接完成全基因组测序; 3. 用ABI 3730 或Roche GS FLX Titanium测序,搭建骨架,再用Illumina Solexa GA IIx 进行深度测序,完成基因组拼接。 采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件,并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究,为后续的相关研究奠定基础。 实验流程: 公司服务内容 1.基本服务:DNA样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头, 去污染);序列组装达到精细图标准 2.定制服务:基因组注释及功能注释;比较基因组及分子进化分析,数据库搭建;基因组信息展 示平台搭建 1.基因组De Novo测序对DNA样品有什么要求?

(1) 对于细菌真菌,样品来源一定要单一菌落无污染,否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上), OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;每次样品制备需要10 μg样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10 μg。 (2) 对于植物,样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品,最好为纯合或单倍体。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (3) 对于动物,样品来源应选用肌肉,血等脂肪含量少的部位,同一个体取样,最好为纯合。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证,用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式 目前3种测序技术 Roche 454,Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中,Roche 454的单端测序读长可以达到400 bp,经常用于基因组骨架的组装,而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例,对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。 单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。 图1 Single-read文库构建方法图2 Paired-end文库构建方法

大基因组大数据与生物信息学英文及翻译

Big Genomic Data in Bioinformatics Cloud Abstract The achievement of Human Genome project has led to the proliferation of genomic sequencing data. This along with the next generation sequencing has helped to reduce the cost of sequencing, which has further increased the demand of analysis of this large genomic data. This data set and its processing has aided medical researches. Thus, we require expertise to deal with biological big data. The concept of cloud computing and big data technologies such as the Apache Hadoop project, are hereby needed to store, handle and analyse this data. Because, these technologies provide distributed and parallelized data processing and are efficient to analyse even petabyte (PB) scale data sets. However, there are some demerits too which may include need of larger time to transfer data and lesser network bandwidth, majorly. 人类基因组计划的实现导致基因组测序数据的增殖。这与下一代测序一起有助于降低测序的成本,这进一步增加了对这种大基因组数据的分析的需求。该数据集及其处理有助于医学研究。 因此,我们需要专门知识来处理生物大数据。因此,需要云计算和大数据技术(例如Apache Hadoop项目)的概念来存储,处理和分析这些数据。因为,这些技术提供分布式和并行化的数据处理,并且能够有效地分析甚至PB级的数据集。然而,也有一些缺点,可能包括需要更大的时间来传输数据和更小的网络带宽,主要。 Introduction The introduction of next generation sequencing has given unrivalled levels of sequence data. So, the modern biology is incurring challenges in the field of data management and analysis. A single human's DNA comprises around 3 billion base pairs (bp) representing approximately 100 gigabytes (GB) of data. Bioinformatics is encountering difficulty in storage and analysis of such data. Moore's Law infers that computers double in speed and half in size every 18 months. And reports say that the biological data will accumulate at even faster pace [1]. Sequencing a human genome has decreased in cost from $1 million in 2007 to $1 thousand in 2012. With this falling cost of sequencing and after the completion of the Human Genome project in 2003, inundate of biological sequence data was generated. Sequencing and cataloguing genetic information has increased many folds (as can be observed from the GenBank database of NCBI). Various medical research institutes like the National Cancer Institute are continuously targeting on sequencing of a million genomes for the understanding of biological pathways and genomic variations to predict the cause of the disease. Given, the whole genome of a tumour and a matching normal tissue sample consumes 0.1 T B of compressed data, then one million genomes will require 0.1 million TB, i.e. 103 PB (petabyte) [2]. The explosion of Biology's data (the scale of the data exceeds a single machine) has made it more expensive to store, process and analyse compared to its generation. This has stimulated the use of cloud to avoid large capital infrastructure and maintenance costs. In fact, it needs deviation from the common structured data (row-column organisation) to a semi-structured or unstructured data. And there is a need to develop applications that execute in parallel on distributed data sets. With the effective use of big data in the healthcare sector, a

三代测序原理技术比较

导读从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间,测序技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长。 摘要:从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间,测序 技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置,但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革,也都对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。在这里我主要对当前的测序技术以及它们的测序原理做一个简单的小结。 图1:测序技术的发展历程 生命体遗传信息的快速获得对于生命科学的研究有着十分重要的意义。以上(图1)所描述的是自沃森和克里克在1953年建立DNA双螺旋结构以来,整个测序技术的发展历程。 第一代测序技术 第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法或者是1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解). 并在1977年,桑格测定了第一个基因组序列,是噬菌体X174的,全长5375个碱基1。自此,人类获得了窥探生命遗传差异本质的能力,并以此为开端步入基因组学时代。研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年,完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础,Sanger法核心原理是:由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA 合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列(图2)。这个网址为 sanger测序法制作了一个小短片,形象而生动。 值得注意的是,就在测序技术起步发展的这一时期中,除了Sanger法之外还出现了一些其他的测序技术,如焦磷酸测序法、链接酶法等。其中,焦磷酸测序法是后来Roche公司454技术所使用的测序方法2–4,而连接酶测序法是后来ABI公司SOLID技术使用的测序方法2,4,但他们的共同核心手段都是利用了Sanger1中的可中断DNA合成反应的dNTP。

基因测序技术的优缺点及应用

基因测序技术的优缺点及应用 随着人类基因组计划的完成,人类对自身遗传信息的了解和掌握有了前所未有的进步。与此同时,分子水平的基因检测技术平台不断发展和完善,使得基因检测技术得到了迅猛发展,基因检测效率不断提高。从最初第一代以 Sanger 测序为代表的直接检测技术和以连锁分析为代表的间接测序技术,到 2005 年,以Illumina 公司的 Solexa技术和 ABI 公司的 SOLiD 技术为标志的新一代测序 (next-generation sequencing,NGS) 的相继出现,测序效率明显提升,时间明显缩短,费用明显降低,基因检测手段有了革命性的变化。其技术正向着大规模、工业化的方向发展,极大地提高了基因检测的检出率,并扩展了疾病在基因水平的研究范围。2009 年 3 月,约翰霍普金斯大学的研究人员在《Science》杂志上发表了通过 NGS外显子测序技术,发现了一个新的遗传性胰腺癌的致病基因PALB2,标志着 NGS 测序技术成功应用于致病基因的鉴定研究。同年,《Nature》发表了采用 NGS 技术发现罕见弗里曼谢尔登综合征MYH3 致病基因突变和《Nat Genet》发表了遗传疾病米勒综合征致病基因。此后,通过 NGS 技术,与遗传相关的致病基因不断被发现,NGS 技术已成为里程碑式的进步。2010 年,《Science》杂志将这一技术评选为当年“十大科学进展”。 近两年,基因检测成为临床诊断和科学研究的热点,得到了突飞猛进和日新月异的发展,越来越多的临床和科研成果不断涌现出来。同时,基因检测已经从单一的遗传疾病专业范畴扩展到复杂疾病和个体化应用更加广阔的领域,其临床检测范围包括高危疾病的新生儿筛查、遗传疾病的诊断和基因携带的检测以及基因药物检测用于指导个体化用药剂量、选择和药物反应等诸多方面的研究。目前,基因检测在临床诊断和医学研究的应用正越来越受到医生的普遍重视和引起研究人员的极大的兴趣。 本文介绍了几种 DNA 水平基因检测常见的方法,比较其优缺点和在临床诊断和科学研究中的应用,对指导研究生和临床医生课外学习,推进临床科研工作和提升科研教学水平有着指导意义。 1、第一代测序 1.1 Sanger 测序采用的是直接测序法。1977年,Frederick Sanger 等发明了双脱氧链末端终止法,这一技术随后成为最为常用的基因测序技术。2001 年,Allan Maxam 和 Walter Gibert 发明了 Sanger 测序法,并在此后的 10 年里成为基因检测的金标准。其基本原理即双脱氧核苷三磷酸(dideoxyribonucleoside triphosphate,ddNTP) 缺乏PCR 延伸所需的 3'-OH,因此每当 DNA 链加入分子 ddNTP,延伸便终止。每一次 DNA 测序是由 4个独立的反应组成,将模板、引物和 4 种含有不同的放射性同位素标记的核苷酸的ddNTP 分别与DNA 聚合酶混合形成长短不一的片段,大量起始点相同、终止点不同的 DNA 片段存在于反应体系中,具有单个碱基差别的 DNA 序列可以被聚丙烯酰胺变性凝胶电泳分离出来,得到放射性同位素自显影条带。依据电泳条带读取DNA 双链的碱基序列。 人类基因组的测序正是基于该技术完成的。Sanger 测序这种直接测序方法具有高度的准确性和简单、快捷等特点。目前,依然对于一些临床上小样本遗传疾病基因的鉴定具有很高的实用价值。例如,临床上采用 Sanger 直接测序 FGFR 2 基因证实单基因 Apert 综合征和直接测序 TCOF1 基因可以检出多达 90% 的

高通量测序:环境微生物群落多样性分析

(5)高通量测序:环境微生物群落多样性分析 微生物群落多样性的基本概念 环境中微生物的群落结构及多样性和微生物的功能及代谢机理是微生物生态学的研究 热点。长期以来,由于受到技术限制,对微生物群落结构和多样性的认识还不全面, 对微生物功能及代谢机理方面了解的也很少。但随着高通量测序、基因芯片等新技术 的不断更新,微生物分子生态学的研究方法和研究途径也在不断变化。第二代高通量 测序技术(尤其 是Roche 454高通量测序技术)的成熟和普及,使我们能够对环境微生物进行深度测序,灵 敏地探测出环境微生物群落结构随外界环境的改变而发生的极其微弱的变化,对于我 们研究微生物与环境的关系、环境治理和微生物资源的利用以及人类医疗健康有着重 要的理论和现实意义。 在国内,微生物多样性的研究涉及农业、土壤、林业、海洋、矿井、人体医学等诸多领域。以在医疗领域的应用为例,通 过比较正常和疾病状态下或疾病不同进程中人体微生物群落的结构和功能变化,可以 对正常人群与某些疾病患者体内的微生物群体多样性进行比较分析,研究获得人体微 生物群

落变化同疾病之间的关系;通过深度测序还可以快速地发现和检测常见病原及新发传 染病病原微生物。研究方法进展 环境微生物多样性的研究方法很多,从国内外目前采用的方法来看大致上包括以下四 类:传统的微生物平板纯培养方法、微平板分析方法、磷脂脂肪酸法以及分子生物学 方法等等。 近几年,随着分子生物学的发展,尤其是高通量测序技术的研发及应用,为微生物分 子生态学的研究策略注入了新的力量。 目前用于研究微生物多样性的分子生物学技术主要包 括:DGGE/TGGE/TTGE 、 T-RFLP 、SSCP、FISH 、印记杂交、定量 PCR、基因芯片等。 DGGE 等分子指纹图谱技术,在其实验结果中往往只含有数十条条带,只能反映出样品中少数 优势菌的信息;另一方面,由于分辨率的误差,部分电泳条带中可能包含不只一种 16S rDNA 序列,因此要获悉电泳图谱中具体的菌种信息,还需 对每一条带构建克隆文库,并筛选克隆进行测序,此实验操 作相对繁琐;此外,采用这种方法无法对样品中的微生物做 到绝对定量。生物芯片是通过固定在芯片上的探针来获得微

高通量测序 名词解释

高通量测序基础知识汇总 一代测序技术:即传统的Sanger测序法,Sanger法是根据核苷酸在待定序列模板上的引物点开始,随机在某一个特定的碱基处终止,并且在每个碱基后面进行荧光标记,产生以A、T、C、G结束的四组不同长度的一系列核苷酸,每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH 基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,通过检测得到DNA碱基序列。 二代测序技术:next generation sequencing(NGS)又称为高通量测序技术,与传统测序相比,二代测序技术可以一次对几十万到几百万条核酸分子同时进行序列测定,从而使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(Deep sequencing)。NGS主要的平台有Roche(454 & 454+),Illumina(HiSeq 2000/2500、GA IIx、MiSeq),ABI SOLiD等。 基因:Gene,是遗传的物质基础,是DNA或RNA分子上具有遗传信息的特定核苷酸序列。基因通过复制把遗传信息传递给下一代,使后代出现与亲代相似的性状。 DNA:Deoxyribonucleic acid,脱氧核糖核酸,一个脱氧核苷酸分子由三部分组成:含氮碱基、脱氧核糖、磷酸。脱氧核糖核酸通过3',5'-磷酸二酯键按一定的顺序彼此相连构成长链,即DNA链,DNA链上特定的核苷酸序列包含有生物的遗传信息,是绝大部分生物遗传信息的载体。

全基因组重测序大数据分析报告

全基因组重测序数据分析 1. 简介(Introduction) 通过高通量测序识别发现de novo的somatic和germ line 突变,结构变异-SNV,包括重排突变(deletioin, duplication 以及copy number variation)以及SNP的座位;针对重排突变和SNP的功能性进行综合分析;我们将分析基因功能(包括miRNA),重组率(Recombination)情况,杂合性缺失(LOH)以及进化选择与mutation之间的关系;以及这些关系将怎样使得在disease(cancer)genome中的mutation产生对应的易感机制和功能。我们将在基因组学以及比较基因组学,群体遗传学综合层面上深入探索疾病基因组和癌症基因组。 实验设计与样本 (1)Case-Control 对照组设计; (2)家庭成员组设计:父母-子女组(4人、3人组或多人); 初级数据分析 1.数据量产出:总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计,测序深度分析。 2.一致性序列组装:与参考基因组序列(Reference genome sequence)的比对分析,利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序列。 3.SNP检测及在基因组中的分布:提取全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进行注释。 4.InDel检测及在基因组的分布: 在进行mapping的过程中,进行容gap的比对并检测可信的short InDel。在检测过程中,gap的长度为1~5个碱基。对于每个InDel的检测,至少需要3个Paired-End序列的支持。 5.Structure Variation检测及在基因组中的分布: 能够检测到的结构变异类型主要有:

测序 基础知识

转录组高通量测序中,reads、contigs、scaffold、unigene、singleton 高通量测序时,在芯片上的每个反应,会读出一条序列,是比较短的,叫read,它们是原始数据; 有很多reads通过片段重叠,能够组装成一个更大的片段,称为contig(克隆群); 多个contigs通过片段重叠,组成一个更长的scaffold; 一个contig被组成出来之后,鉴定发现它是编码蛋白质的基因,就叫singleton; 多个contigs组装成scaffold之后,鉴定发现它编码蛋白质的基因,叫unigene。 基因组测序方法: 链中止法测序:通过合成与单链DNA互补的多核甘酸链,由于合成的互补链可在不同位置随机终止反应,产生只差一个核苷酸的DNA分子,从而来读取待测DNA分子的顺序。 化学降解法测序:在待定的核苷酸碱基中引入化学集团,再用化合物处理,使DNA分子在被修饰的位置降解。 自动化测序:与链终止测序原理相同,这姿势用不同的荧光色彩标记ddNTP,如ddA TP 标记红色荧光,ddCTP标记蓝色荧光,ddGTP标记黄色荧光,ddTTP标记绿色荧光。由于每种ddNTP带有各自待定的荧光颜色,二简化为由1个泳道同时判读4种碱基。 非常规DNA测序毛细管电泳、光点测序、DNA芯片测序、随机的组装(鸟枪法)鸟枪法:就有可能出现错装。 鸟枪法策略指导测序策略 不需要背景信息构建克隆群 时间短需要几年时间 需要大型计算机 得到的是草图(Draft)得到的是精细图谱 EST (Expressed sequence tag)测序 EST是一种重要的基因组图分子标记,以EST为探针很容易从cDNA文库中筛选全基因,又可从BAC克隆中找到其基因组的基因序列。 优点:mRNA可直接反转录成cDNA,而且cDNA文库也可比较容易构建。 对cDNA文库大量测序,即可获得大量的EST序列 EST为基因的编码区,不包括内含子和基因间区域,一次测序的结果足以鉴定所代表的基因。 人类基因组计划于1990年启动,我国于1999年加入,承担1%任务,即人类3号染色体短臂上约30MB的测序任务。 2000年6月26完成草图。测序错误率低于1%%。

焦磷酸测序技术的原理

Pyrosequencing技术的原理 Pyrosequencing是一项全新的DNA测序技术,可以快速、准确地测定一段较短的目标片段。其基本原理如下: 第1步:1个特异性的测序引物和单链DNA模板结合,然后加入酶混合物(包括DNA Polymerase、ATP Sulfurylase、Luciferase和Apyrase)和底物混合物(包括APS和Luciferin)。 第2步:向反应体系中加入1种dNTP,如果它刚好能和DNA模板的下一个碱基配对,则会在DNA 聚合酶的作用下,添加到测序引物的3‘末端,同时释放出一个分子的焦磷酸(PPi)。 第2步图示(图片来自互联网) 第3步:在ATP硫酸化酶的作用下,生成的PPi可以和APS结合形成ATP;在荧光素酶的催化下,生成的ATP又可以和荧光素结合形成氧化荧光素,同时产生可见光。通过CCD光学系统即可获得一个特异的检测峰,峰值的高低则和相匹配的碱基数成正比。 第3步图示(图片来自互联网) 第4步:反应体系中剩余的dNTP和残留的少量ATP在Apyrase的作用下发生降解。 第4步图示(图片来自互联网) 第5步:加入另一种dNTP,使第2-4步反应重复进行,根据获得的峰值图即可读取准确的DNA序列信息。

第4步图示(图片来自互联网) Pyrosequecing技术操作简单,结果准确可靠,可应用于SNP位点检测、等位基因频率测定、细菌和病毒分型等领域。 →如果您认为本词条还有待完善,请编辑词条 上一篇SNP(单核苷酸多态性)下一篇阅读质粒图谱 具体事例 【摘要】建立了一种将序列标记反转录聚合酶链反应(PCR)与焦磷酸测序技术结合的相对基因表达量测定法(简称“SRPP”)。先用来源特异性引物对不同来源的同一基因通过反转录标记上特异性标签,PCR后用焦磷酸测序法对扩增产物进行序列解码,使得测序结果中的序列代表基因的来源,峰高代表基因在不同来源中的相对表达量。用实时荧光定量PCR法对本方法的准确性进行了验证,结果表明,SRPP可以同时准确测定同一基因在3个不同来源中的表达量,并实际测定了Egr1基因在糖尿病、肥胖和正常小鼠肝中的表达量差异。 【关键词】序列标记反转录, 聚合物链反应,焦磷酸测序,基因表达 1 引言 差异表达基因与疾病密切相关,深入研究可在基因水平揭示疾病的发病机制。目前,用于检测基因表达水平的技术主要有SAGE法[1]、实时荧光定量PCR法[2,3]和基因芯片法[4]等。但这些方法存在仪器设备昂贵、定量性能差以及同时测定基因表达量的来源数目受限等缺点。 焦磷酸测序技术是新近发展起来的一种基于酶催化化学反应的测序技术[5~8],不需要使用荧光标记,定量性能好。目前,焦磷酸测序技术多用于单核苷酸多态性(SNP)分析、微生物分型和基因甲基化分析等。本研究将焦磷酸测序技术用于基因表达量差异的比较分析,考察了其可行性和准确性,并将其应用于检测Egr1基因在糖尿病、肥胖症和正常小鼠中的差异表达。 2 实验部分 仪器、试剂与材料

高通量测序技术

高通量测序技术(High-throughput sequencing)又称“下一代”测序技术 ("Next-generation" sequencing technology),以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。 根据发展历史、影响力、测序原理和技术不同等,主要有以下几种:大规模平行签名测序(Massively Parallel Signature Sequencing, MPSS)、聚合酶克隆(Polony Sequencing)、454焦磷酸测序(454 pyrosequencing)、Illumina (Solexa) sequencing、ABI SOLiD sequencing、离子半导体测序(Ion semiconductor sequencing)、DNA 纳米球测序(DNA nanoball sequencing)等。 高通量测序技术是对传统测序一次革命性的改变,一次对几十万到几百万条DNA分子进行序列测定,因此在有些文献中称其为下一代测序技术(next generation sequencing)足见其划时代的改变,同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(deep sequencing)。 实验过程 1.样本准备(sample fragmentation) 2.文库构建(library preparation) 3.测序反应(sequencing reaction) 4.数据分析(data analysis) 测序平台 自从2005年454 Life Sciences公司(2007年该公司被Roche正式收购)推出了454 FLX焦磷酸测序平台(454 FLX pyrosequencing platform)以来,因为他们的拳头产品毛细管阵列电泳测序仪系列(series capillary array electrophoresis sequencing machines)遇到了两个强有力的竞争对手,曾推出过3730xl DNA测序仪(3730xl DNA Analyzer)的Applied BioSystem(ABI)这家一直占据着测序市场最大份额的公司的领先地位就开始动摇了,一个就是罗氏公司(Roche)的454 测序仪(Roch GS FLX sequencer),,另一个就是2006年美国Illumina公司推出的Solexa基因组分析平台(Genome Analyzer platform),为此,2007年ABI公司推出了自主研发的SOLiD 测序仪(ABI SOLiD sequencer)。这三个测序平台即为目前高通量测序平台的代表。(见表一) 公司名称技术原理技术开发者 Apply Biosystems(ABI) 基于磁珠的大规模并行克隆连接 DNA测序法 美国Agencourt私人基因组学公司(APG) Illumina 合成测序法英国Solexa公司首席科学家David Bentley Roche 大规模并行焦磷酸合成测序法 美国454 Life Sciences公司的创始人Jonathan Rothberg Helicos 大规模并行单分子合成测序法美国斯坦福大学生物工程学家Stephen Quake Complete Genomics DNA纳米阵列与组合探针锚定连接 测序法 美国Complete Genomics公司首席科学家radoje drmanac 表一:主流测序平台一览 Roche 454焦磷酸测序 (pyrophosphate sequencing) Illumina Solexa 合成测序 (sequence by synthesize) Illumina Genome AnalyzerIIx测序原理 Illumina公司的新一代测序仪Hiseq 2000和Hiseq 2500具有高准确性,高通量,高灵敏度,和低运行成本等突出优势,可以同时完成传统基因组学研究(测序和注释)以及功能基因组学(基因表达及调控,基因功能,蛋白/核酸相互作用)研究。Hiseq是一种基于单分子簇的边合成边测序技术,基于专有的可逆终止化学反应原理。测序时将基因组DNA的随机片段附着到光学透明

高通量测序入门

很高兴成为论坛特邀专家,鄙人会接下来的一段时间内写一些高通量测序数据方面的帖子,由浅入深,可能刚开始会比较简单一些,后面会有一些针对性的专题,也欢迎各位大侠或小菜提出建议或问题大家一起探讨。为了活跃论坛建议大家直接跟帖或发新帖,我会尽快回复大家。 本人方向也仅限在RNA-seq 领域,所以其他领域的问题可能不太了解,只能按照自己的背景知识和请教别人解答,请大家慢拍砖! 另外,由于实验室课题比较忙,所以可能不能及时发帖或回复大家,也请见谅。 既然是入门专题,那就先简单说一下,要分析高通量测序数据的配置要求吧: 声明:该配置不适用与从华大拿回分析结果直接写paper 的同学。我认识的一位同学一点生物信息背景也没有,直接用华大返回分析结果发了很好的文章,如果想这样的同学可直接跳过这篇,等待以后的专题。 言归正传: 1. 软配置: 生物理论知识:熟悉生命活动的基本过程,对复制、转录、翻译、转录后修饰有较清晰的认识,如果知道cis-element 和trans-factor 的区别就更好了。推荐朱玉贤的分子生物学,能够掌握60% 就差不多了(这是对想通过测序数据进行生物分析同学的要求,如果是做软件开发等就无所谓了,比如国内做的很好的一些实验室,都是数学或自动化专业的牛人,以下一些配置也不适用这些牛人) 实验理论知识:不一定要做过实验,但至少要知道实验的过程,比如测序前样本的处理过程,序列片段化、加接头、PCR 扩增等。也许没有用,但将来出了问题,你可以很容易知道问题出在哪里 编程知识:要求不用太高,学一些perl 就可以了,对于生物专业的同学(本人就是生物专业),强烈推荐perl 语言入门,好像现在已经出到第五版了。此书极为搞笑,本人当时看了一个星期,其中幽默的语言导致本人经常笑出声音引得实验室同学以为神经了。对于有C 语言基础的同学来说简直就是菜,两天就可以通了。另外,学有余力的同学可以学一些R 以及python 或java. 因为好多软件都是用R 或python 写的,如果要是比较懒或三国杀很忙抽不出空就算了,学学perl 就好了。切记一点:perl 的学习过程中除了基础知识,一定要看一下哈希和模块这两部分。当然如果你们导师允许你对数据去个冗余也要半个月的话,你只学到循环就可以了。 统计学知识:只要大学上过生物统计也就差不多了(遇到二百五的老师你就比较悲剧了),最基本的知道什么是标准化,正态分布,p value 以及卡方检验或Fisher 精确检验,多重检验,,FDR 这些概念和计算方法也就差不多了。推荐从以下统计软件中择一精通之: SAS(比较变态,硕士期间学了,后来就还给老师了) excel(入手比较容易,好好学学,功能比较全,我学的差) matlab(本人认为最牛的统计软件,有专门的论坛,有兴趣的同学可以google 一下) SPSS(上手比较容易,而且很多汉化的非常好,新手同学比较推荐,但是精通比较

相关主题
文本预览
相关文档 最新文档