高通量测序生物信息学分析(内部极品资料,初学者必看)

  • 格式:pdf
  • 大小:3.30 MB
  • 文档页数:68

下载文档原格式

  / 68
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基因组测序基础知识

㈠De Novo测序也叫从头测序,是首次对一个物种的基因组进行测序,用生物信息学的分析方法对测序所得序列进行组装,从而获得该物种的基因组序列图谱。

目前国际上通用的基因组De Novo测序方法有三种:

1. 用Illumina Solexa GA IIx 测序仪直接测序;

2. 用Roche GS FLX Titanium直接完成全基因组测序;

3. 用ABI 3730 或Roche GS FLX Titanium测序,搭建骨架,再用Illumina Solexa GA IIx

进行深度测序,完成基因组拼接。

采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件,并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究,为后续的相关研究奠定基础。

实验流程:

公司服务内容

1.基本服务:DNA样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头,

去污染);序列组装达到精细图标准

2.定制服务:基因组注释及功能注释;比较基因组及分子进化分析,数据库搭建;基因组信息展

示平台搭建

1.基因组De Novo测序对DNA样品有什么要求?

(1) 对于细菌真菌,样品来源一定要单一菌落无污染,否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上), OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;每次样品制备需要10 μg样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10 μg。

(2) 对于植物,样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品,最好为纯合或单倍体。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。

(3) 对于动物,样品来源应选用肌肉,血等脂肪含量少的部位,同一个体取样,最好为纯合。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。

(4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证,用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。

2. De Novo有几种测序方式

目前3种测序技术 Roche 454,Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中,Roche 454的单端测序读长可以达到400 bp,经常用于基因组骨架的组装,而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例,对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。

单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。

Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。

图1 Single-read文库构建方法图2 Paired-end文库构建方法

Mate-pair文库制备旨在生成一些短的DNA片段,这些片段包含基因组中较大跨度(2-10 kb)片段两端的序列,更具体地说:首先将基因组DNA随机打断到特定大小(2-10 kb范围可选);然后经末端修复,生物素标记和环化等实验步骤后,再把环化后的DNA分子打断成400-600 bp 的片段并通过带有链亲和霉素的磁珠把那些带有生物素标记的片段捕获。这些捕获的片段再经末端修饰和加上特定接头后建成mate-pair文库,然后上机测序(图3)。

图3 Mate pair文库构建方法

3.基因组De Novo测序的策略?

由于不同物种的基因组大小和复杂程度可能千差万别, 因此全基因组测序可以根据经费预算和基因组预分析结果, 灵活选择不同的测序平台或平台组合。

(1) 在基因组较小的物种测序计划中可以选择Roche 454 或Solexa测序平台。

(2) 对于复杂的植物大基因组可以选择两种或以上的测序平台测序,通常利用 Roche 454 的鸟枪法测序完成基因组的初步组装, 产生 454 contigs, 然后利用Solexa或 ABI SOLiD 的双末端测序数据确定 454 contigs 之间的顺序和方向, 形成 scaffolds。最后利用Solexa或ABI SOLiD数据填充部分 contigs 之间的空隙, 是一个比较合理和经济的测序策略。

(3) 另外,由于Solexa的读长已经升级到150 bp,也可以直接利用Solexa的paired-end 和mate-pair两种测序方式结合测序,完成较大物种的基因组拼接。

4.制定测序策略前,如何估算新物种的重复序列结构?

一般来说,基因组De Novo采用多种长度的插入片段文库进行拼接,主要是为了跨越不同长度的重复序列,因此,了解基因组中的重复系列结构有助于实验方案的设计。由于不同物种基因组的重复序列结构分布不同,如人基因组中的重复片段较多,也较长,而果蝇基因组中的重

复片段较少,也较短,因此二者采用的拼接策略也略有不用。

新物种的重复序列结构的估计一般是基于近缘物种基因中的重复序列结构,认为系统发育相近的物种,它们的重复序列结构相近。用一定长度的k-mer为框,连续截取基因组,从而得到一系列的unique cluster和repeat cluster,画出这些cluster的分布图,估算这种长度重复序列的分布,如下图所示,人类基因组中长度在10K以上的重复序列占了很多,而果蝇基因组中则主要集中在100bp~10K范围之内,所以用短序列De Novo组装人类基因组的时候,需要增加插入片段长度为10K的mate-pair数据。

5.如何选择不同的插入片段组合达到最佳?

文库构建过程中插入片段的长度选择应考虑以下几个因素:

(1) 一般来说短的插入片段用来拼接contigs,而长的插入片段用来搭建骨架(scaffold);

(2) 选择不同的插入片段组合的策略主要是为了跨越不同长度的重复序列区。不同的生物重复片段分布不一样,举例说明,人基因组中长的重复片段较多、果蝇基因组中短的重复片段较多。要跨越片段长度较长重复序列,必须选取更大的插入片段双端测序文库,但是长的插入片段文库的偏差较大,不能准确的定位较短重复序列的问题,因此,一般长插入片段和短的插入片段的文库都是需要。但是,插入片段越长,割胶回收时片段的分布越广。2k的插入片段至少有1%的偏差,即200bp的偏差。如下图所示,短插入片段文库基本符合预期,但是长插入片段文库中发现有5%的插入片段在0~500bp的读段,将有可能增加De Novo拼接的错误率。因此,长插入片段文库的测序深度不建议太大。

(3) 由于没有基因组信息,需要调查近缘物种的重复序列分布,能够帮助实验设计。详情见问题4