微生物基因组

  • 格式:pdf
  • 大小:10.39 MB
  • 文档页数:66

下载文档原格式

  / 66
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Phred/Phrap/Consed是美国华盛顿 大学(University of Washington)的Phil Green 等在1998年研发的免费软件包。 它是早期一代测序序列组装工作中使 用最为广泛的工具之一。 由三个核心部分组成:

负责Base Calling的软件——Phred 负责序列组装的软件——Phrap 基因组拼接可视化软件——Consed
BLAST
http://www.ncbi.nlm.nih.gov/BLAST/
BLAST是Basic Local Alignment Search Tool的 缩写 它结合了“动态规划算法”和“间接 的启发式算法”的优点,提高了搜索 速度,同时把数据库搜索建立在了严 格的统计学基础之上,是目前最常用 的序列相似性检索工具



单链DNA病毒(细小病毒) 双链DNA病毒(痘病毒、腺病毒) 正链RNA病毒(脊灰病毒、肠道病毒) 负链RNA病毒(流感、麻疹、狂犬……) 双链RNA病毒(轮状病毒) 单链RNA反转录病毒(HIV) 双链DNA反转录病毒(乙肝病毒)
病毒基因组研究的意义
阐明病毒的复制和调控机理、研究病 毒的致病机制、发现抗病毒的药物靶 标、设计新型基因治疗载体以及发展 病毒诊断技术 研究病毒的变异和进化的基础,新发 突发病毒性传染病监测、防控、预警 的关键
Sanger测序法

Bacterial cloning / PCR Template purification Chain termination method Capillary electrophoresis Four-color fluorescence detection ~800 bp/read; 384 reads/run
Phred
Phred是一个采用快速傅利叶变换分 析技术以及动态规划算法从DNA测序 所得到的图形数据中提取DNA序列排 列顺序信息(Base Calling),从而 得到DNA序列的软件。 它可以读取ABI系列和MegaBase等大 多数DNA测序仪的测序信息,并可以 Fasta、Phd、Scf等多种格式输出。
微生物基因组学发展历程
1995年,首个细菌完整基因组完成 (流感嗜血杆菌,1.8 Mb) 1996年,首个真核生物完整基因组完 成 (酿酒酵母,12 Mb) 1997年,模式生物大肠杆菌K-12完整 基因组完成 (4.6 Mb) …… 截至2013年10月31日,已有2,339个 细菌完整基因组完成并公布 (数据来自GOLD)
病毒基因组学研究历程
DNA测序技术的诞生与发展




1975年,Sanger双脱氧链终止法 1977年,Sanger研究组完成了第一个全 基因组测序——ΦX174噬菌体(5,386 bp) 1982年, Sanger研究组完成了λ噬菌体基 因组测序(48,502 bp) 1985年,加州理工学院的Hood等用四种 荧光染料标记DNA的方法,建立了用自动 测序技术 1987年,AB开发出了第一台自动测序仪 1990年,192kb的痘苗病毒全基因组完成

Altschul, S.F., et al. 1990. Basic Local Alignment Search Tool. J. Mol. Biol. 215:403-410 Altschul, S.F., et al. 1997. Gapped BLAST and PSIBLAST: a new generation of protein database search programs. Nucleic Acids Res. 25:3389-3402
Phred
Phred根据信号峰的间距,识别与未 识别碱基的比率,及信号峰的分辨率 来估计错误率(error-probabilities), 从而对序列中的每一个数据(碱基) 产生一个与之相对应的被广泛接受的 质量控制标准(qulity value): Quality Value = -10 X log10 (P_e)
伴随着人类基因组计划的1%任务的 承担,上世纪九十年代末,我国建立 了三大基因组中心:



国家人类基因组北方研究中心 T.痢疾杆菌 tengcongensis S. flexneri 国家人类基因组南方研究中心 钩端螺旋体 华大基因组中心 腾冲嗜热菌
L. interrogans
第一代测序技术
微生物基因组
wk.baidu.com
杨 剑 中国医学科学院病原生物学研究所
2013-11
课程内容大纲
微生物基因组学研究的意义和发展
历程
微生物基因组学研究中常用的生物 信息学软件和工具 当前微生物基因组学的前沿热点— —宏基因组学
微生物
病毒 细菌 真菌(部分)
原虫(部分)
病毒基因组的基本特征
病毒的基因组很小(3~300 Kb) 根据基因组的成分,可笼统的分为 RNA病毒和DNA病毒,细分:
MGP的主要目标和意义
开发新型可更新能源。 开发新型催化剂,反应剂,酶来提高传统工 业的效率。 开发高效率致病菌检测技术,保证饮食安全, 并对付潜在的生物战争的危险。 通过改造细菌基因组将其变成活的探测器来 检测空气、水、土壤中的毒性化学物质。 理解致病菌损害人体细胞所采用的既特异又 有共性的机制。寻找它们绕过人体防御机制 所需要的特殊基因,这些是开发新型抗体的 理想靶点。
细菌基因组拼接软件
Sanger序列拼接

Phred/Phrap/Consed SeqMan(DNAStar)/Sequencher
454序列拼接

Newbler
SOAPdenovo Velvet
短序列拼接


Phred/Phrap/Consed
http://www.phrap.org/phredphrapconsed.html
第二代测序技术
Next generation sequencing (NGS)

Roche/454 (2005)
~400 bp/read, ~400 Mb/run

Illumina/Solexa (2007)
36-76 bp/read, 5-10 Gb/run

AB/SOLiD (2008)


鸟枪法测序(shotgun)
随机打断
细菌基因组
二代测序
测序文库
Cloning
Sanger测序
Sequencing reads
测序模板
基因组组装过程
Assembly Finishing (gap closure)
Single Stranded Region
Contig Gap
Low Quality Region
MGP的主要目标和意义
通过微生物基因组计划,对微生物的 全基因组进行序列测定和分析,可以 深入的认识微生物与它们的生存环境 的相互关系,研究它们的生化机制及 代谢途径,从而实现如下目标:
通过改变细菌基因组来提高它们的效用,可 以在它们的基因组中引入能降解有毒化学废 物的基因来实现在全球范围内清除有毒废物。 发展在制药工业中有用途的微生物来替代传 统的制药技术。
100-200 bp/read, 0.1-0.4 Gb/run

Illumina/MiSeq (2011)
36-250 bp/read, 0.5-5 Gb/run
第三代测序?
Next-next generation / G3

Single-molecule sequencing (SMS) Long read length (1-10 kb?) High data quality and fast run Low cost ($1000 human genome?)
基因组基本注释

GLIMMER/GeneMark/ORF Finder BLAST, tRNAscan, RDP, Pfam/Rfam IS Finder, Tandem Repeats Finder ACT/GenomeComp, BRIG COGs, KEGG/BioCyc
基因组序列的进一步分析
NCBI提供Web版本
http://www.ncbi.nlm.nih.gov/genomes/MICROBES/ glimmer_3.cgi
GeneMark
http://opal.biology.gatech.edu/
ORF Finder
http://www.ncbi.nlm.nih.gov/gorf/gorf.html
细菌基因组的特点及意义
基因组较小(0.5~10Mb) 多数为单条环状双链DNA 基因组结构相对简单,编码密度较高 (90%区域编码) 编码基因无内含子 可以实验室纯培养,可操作性强 细菌是分子生物学研究和相关基础生 物学研究的良好模式生物
微生物基因组计划MGP
微生物是地球上为数最多的有细胞生 物,几乎可以在地球上的任何地方找 到它们,包括许多极端环境,如高温、 低温、放射性、高压、高盐、高酸碱、 低照度等等 1994年,美国能源部提出了微生物基 因组计划(MGP),希望能从微生物 世界找到解决人类社会所面临的在能 源、环境、卫生等方面许多难以克服 的困难。
Pacific Biosciences (SMAT) Nanopore sequencing ……
课程内容大纲
微生物基因组学研究的意义和 发展历程 微生物基因组学研究中常用的 生物信息学软件和工具 当前微生物基因组学的前沿热 点——宏基因组学
细菌基因组学数据处理
基因组组装(序列拼接)

Phred/Phrap/Consed Newbler, Velvet/SOAPdenovo
Misassembly
High quality genome sequence: < 1 error/ 10,000 bases
Lander-Waterman曲线
# Contigs ce
c
G L
这里c=LN/G,表示覆盖率,其中G是基因组长度,L是每个测序片断 的平均长度,N是总测序反应的数目,σ是一个与两个重叠的reads之 间重叠的最小长度相关的因子(图中取了σ=0.75 )
(其中P_e为错误率)
也就是说,Phred质量指标30就相当 于在原始数据中每个Base Call的精确 度为99.9%。
Phrap
Phrap是一个用于将鸟枪法测序的原始 序列拼接成Contig的软件。 它的核心算法是Smith-Waterman动态 规划算法(Dynamic Programming Algorithm)。 它读取Phred产生出的序列和质量文件, 产生出包含组装全部信息ace文件(可 以被Consed软件读取)和view文件 (可以被PhrapView软件读取)等一 系列重要输出结果。
GOLD:
Genomes Online Database
http://www.genomesonline.org/
基因组数据的增长
Genome Sequencing Projects
October 2011, 10031 projects
来源:GOLD
细菌基因组数据
来源:GOLD
我国的微生物基因组学
Consed
PhrapView
Newbler
(GS De Novo Assembler)
细菌基因组基本注释
ORF的识别

GLIMMER/GeneMark ORF Finder
蛋白质功能注释

BLAST + NR/RefSeq/UniProt/CMR HMMER + Pfam tRNAscan BLAST + RDP/Rfam
RNA的定位


GLIMMER
专门用于在微生物基因组中识别基因 的软件,对于细菌(bacteria)和古 细菌(archaea)特别有效 基因定位和内插马尔可夫模型(Gene
Locator and Interpolated Markov Modeler)
下载本地(Linux)运行版本
http://ccb.jhu.edu/software/glimmer/index.shtml
35 bp/read, ~4 Gb/run

Helicos/HeliScope (2009)
25-55 bp/read, 30-40 Gb/run
新一代测序技术—小型化

Roche/454 GS Junior (2010)
~400 bp/read, ~40 Mb/run

Ion Torrent (2010)