第三部分-理论生物物理学2015

  • 格式:pptx
  • 大小:2.87 MB
  • 文档页数:177

下载文档原格式

  / 50
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
TrEMBL等, • 蛋白结构数据库有PDB, MMDB等, • 与基因组有关的数据库还有dbEST, OMIM等,
Primary vs. Derivative Databases
Curators
Sequencing Centers
Labs
TATAGTCACTGAGCCTAGTAGCCTAGTAGCCG
• 日本的DNA数据库(DDBJ),在几年后加入了数据 收集的合作。
基因组数据库的发展历史
• 1988年一次三方会议之后(现在称之为“国际DNA 序列数据库合作计划”)达成协议,对数据库的 记录采用共同的格式
• 现在三个中心都收集直接提交的数据,并在三者 之间发布。
三大基因数据库
• Genbank Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关 的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建 立和维护的。 NCBI的网址是:http://www.ncbi.nlm.nih.gov。
三大基因数据库之间的关系
Biblioteka Baidu
GenBank
EMBL Data Library
DDBJ (DNA Data Bank of Japan)
Public free
Available via
Internet
http://www.ncbi.nlm.nih.gov/ http://www.ebi.ac.uk/embl/ http://www.ddbj.nig.ac.jp/searches-e.html
• 一级数据库记录了实验结果,以及一些初步的解释。 • 生物信息学的二级数据库是更进一步分析工作的结
论,在DNA序列记录的基础上进行计算、分析、研 究的数据库。 • 大多数蛋白质序列数据库为二级数据库如: Swiss-Port和PIR。
主要的数据库资源
• 核酸序列数据库主要有GenBank, EMBL, DDBJ等. • 蛋白质序列数据库主要有SWISS-PROT, PIR,
改进版本PSI-BLAST投入使用 1996: Affymetrix生产出第1块DNA芯片。
生物信息学主要研究内容
1、生物分子数据的收集与管理 2、数据库搜索及序列比较 3、基因组序列分析 4、基因表达数据的分析与处理 5、蛋白质结构预测
基因组序列分析
• 遗传语言分析——天书 • 基因组结构分析 • 基因识别 • 基因功能注释 • 基因调控信息分析 • 基因组比较
• EMBL核酸序列数据库 由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,查询检索可以 通过通过因特网上的序列提取系统(SRS)服务完成。 数据库网址是:http://www.ebi.ac.uk/embl/。
• DDBJ数据库 日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库,与Genbank 和EMBL核酸库合作交换数据。使用其主页上提供的SRS工具进行数据 检索和序列分析。 DDBJ的网址是:http://www.ddbj.nig.ac.jp/。
基因组序列分析
电子克隆
UTR 内含子 启动子 基因之间的序列
……
数据库搜索及序列比较
• AAGCTTAACGT • AATCTTA -CGT
基因表达数据的分析与处理
• 基因表达数据分析是目前生物信息学研究的热 点和重点
• 目前对基因表达数据的处理主要是进行聚类分 析,将表达模式相似的基因聚为一类,在此基 础上寻找相关基因,分析基因的功能
RefSeq
TATAGCCG AGCTCCGATA CCGATGACAA
Genome Assembly
GenBank
UniGene
Algorithms
基因组数据库的发展历史
• DNA序列数据库最早于1982年在欧洲分子生物学实 验室诞生,随即就开始了一个数据库爆炸的时代。
• 此后不久因一项美国国家健康研究中心与洛斯阿 拉莫斯国家实验室的合同而诞生了GenBank。
同年Doolittle提出了关于序列模式的概念;
1982: GenBank第3版本正式发行; 1983: Wilbur和Lipman发表了数据库相似序列搜索算法; 1986: 日本核酸序列数据库DDBJ诞生; 1986: 蛋白质数据库SWISS-PROT诞生; 1988: 美国国家生物技术信息中心NCBI诞生; 1988: 成立欧洲分子生物学网络(EMBNet),EMBL数据库诞生; 1988: Person和Lipman发表了著名的序列比较算法FASTA; 1990: 快速相似性序列搜索算法BLAST问世,1987年BLAST的
蛋白质结构预测
• 蛋白质的生物功能由蛋白质的结构所决定 , 蛋白质结构预测成为了解蛋白质功能的重要途 径
• 蛋白质结构预测分为:
– 二级结构预测 – 空间结构预测
蛋白质折叠
生物信息学当前的主要任务
纵观当今生物信息学界的现状,大部 分人都把注意力集中在: 基因组 蛋白质组 药物设计(蛋白质结构)
一级和二级数据库
第三部分-理论生物物理学2015
生物信息学 采用信息科学技术,借助数学、 生物学的理论、方法,对各种生物信息 (包括核酸、蛋白质等)的收集、加工、 储存、分析、解释的一门学科。
收集、加工、储存:计算机科学家 分析、解释:生物学家
生物信息学的发展历史
• 20世纪50年代,生物信息学开始孕育 • 20世纪60年代,生物分子信息在概念上将计算
生物学和计算机科学联系起来 • 20世纪70年代,生物信息学的真正开端(序列比对算法) • 20世纪80年代初期,生物信息分析方法的发展 • 20世纪80年代以后,生物信息服务机构和数据库 • 20世纪90年代后 ,HGP促进生物信息学的迅速发展
1956: 美国田纳西州首次召开了“生物学中的理论研讨会”; 1962: Zucherkandl和Pauling研究了序列变化与进化的关系,
开创了一个新的领域——分子进化; 1967: Dayhoff研制出蛋白质序列图集,即后来著名的蛋白
质信息源PIR; 1970: Needleman和Wunsch提出了著名的序列比对算法,
是生物信息学发展中最重要的贡献; 1970: Gibbs和McIntyre发表著名的矩阵打点做图法; 1978: Gingeras等人研制了核酸序列中酶切位点识别程序; 1981: Smith和Waterman提出了著名的公共子序列识别算法,