PIR蛋白质序列数据库
- 格式:ppt
- 大小:1.66 MB
- 文档页数:33
分子生物学数据库——计算生物学的摇篮1995年,嗜血杆菌的基因组DNA信息被破解,它具有1700感染基因,人类终于揭开了这一导致继流感之后第二大传染病的细菌的神秘面纱;随后在1996年,酵母基因组DNA全部的6300个基因被测序出来,为后续的研究提供了极大的方便;1998年,人类获得了第一个多细胞生物——线虫的基因组,了解到它含有19100个基因,其中1/3基因与哺乳动物的相似,这预示了我们可以将线虫当作一种模式生物;1999年,果蝇的基因组信息被破解,它有13600个基因,虽然果蝇的拥有的细胞数是线虫的1000被,体积也比线虫大,但是它具有的基因数却少于线虫,这暗示着染色体上有些区域的基因没有直接被翻译成蛋白质的,而有些基因却在转录和翻译过程中编码了多个蛋白质;2000年,荠菜的基因组DNA被测序出来,它有25500个基因,许多基因都具有重复序。
人类基因组计划启动与1990年,到2003年,99.9%的人类基因都被精确地绘图,这其中也含有大量的冗余序列。
在获得了如此多的核算信息后,大量的蛋白质信息也随之可以获得,蛋白的种类、二级或者三级结构、翻译后加工、蛋白质间的相互作用等等。
针对上面提到的大量信息,如果用传统的方法来收集、存储、分析,将会是一个浩大的工程,并且,在这旷日持久的工程中,很可能漏掉了许多重要的、未知的信息。
在美国最初提出人类基因组计划时,成立了一个由42位专家组成的生物信息研究小组,专门处理获得的相关信息。
随着信息的积累,生物学的发展,以及数学、物理、计算机科学的不断渗入,用计算机作为手段,参考数学、统计学、物理等学科的研究方式,将会大大降低人类的工作量,同时更系统,更全面,更快速,更准确的分析已有的数据。
在此背景下,计算生物学和生物信息学应运而生。
计算生物学和生物信息学都属于基于基因组学的交叉学科,二者之间没有一个严格的界限。
总的来讲,计算机生物学和信息生物学都是应用数学的和计算机的科学方法来处理分子生物学的问题,这些问题常常需要海量的数据,计算和分析。
一、蛋白质数据库1.UniProt (The Universal Protein Resource)网址://uniprot/简介:由EBI(欧洲生物信息研究所)、PIR(蛋白信息资源)和SIB(瑞士生物信息研究所)合作建立而成,提供详细的蛋白质序列、功能信息,如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等,同时提供其他数据库,包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接。
2.PIR(Protein Information Resource)网址:/简介:致力于提供及时的、高质量、最广泛的注释,其下的数据库有iProClass、PIRSF、PIR-PSD、PIR-NREF、UniPort,与90多个生物数据库(蛋白家族、蛋白质功能、蛋白质网络、蛋白质互作、基因组等数据库)存在着交叉应用。
3.BRENDA(enzyme database)网址:简介:酶数据库,提供酶的分类、命名法、生化反应、专一性、结构、细胞定位、提取方法、文献、应用与改造及相关疾病的数据。
4.CORUM(collection of experimentally verified mammalian protein complexes)网址:http://mips.gsf.de/genre/proj/corum/index.html简介:哺乳动物蛋白复合物数据库,提供的数据包括蛋白复合物名称、亚基、功能、相关文献等5.CyBase(cyclic protein database)网址:.au/cybase简介:环状蛋白数据库,提供环状蛋白的序列、结构等数据,提供环化蛋白预测服务。
6.DB-PABP网址:/DB_PABP/简介:聚阴离子结合蛋白数据库。
聚阴离子结合蛋白与聚阴离子的互作在胞内定位、运输、蛋白质折叠等生命过程中起重要作用,此外许多与神经衰退疾病相关的蛋白质均为聚阴离子结合蛋白。
常用生物数据库核酸序列数据库主要有GenBank, EMBL, DDBJ等.蛋白质序列数据库有SWISS-PROT, PIR, OWL, NRL3D, TrEMBL等,蛋白质片段数据库有PROSITE, BLOCKS, PRINTS等,三维结构数据库有PDB, NDB, BioMagResBank, CCSD等,蛋白质结构有关的数据库还有SCOP, CATH, FSSP, 3D-ALI, DSSP等,与基因组有关的数据库还有ESTdb, OMIM, GDB, GSDB等,文献数据库有Medline, Uncover等。
外显子、内含子、mRNA、CDS1.DNA复制:以DNA为模板,在DNA聚合酶的催化作用下,将四种游离的dNTP按照碱基互补配对原则合成新链DNA转录:以DNA为模版,在DNA指导的RNA聚合酶的作用下,将四种游离的NTP按照碱基互补配对的原则合成RNA翻译:以mRNA为模板,在核糖体内合成蛋白质的过程特点:模板特点原料引物DNA复制双链DNA 合成的新链与模板链一模四种dNTP 半保留复制需要一样四种NTP 半不连续转录不需要转录双链DNA 合成的新链除了把DNA上的T改为U外,其他一样翻译mRNA 3个碱基决定一个氨基酸20种游离的氨基酸2.mRNA(messenger RNA,信使RNA)信使RNA是由DNA经hnRNA剪接而成,携带遗传信息的能指导蛋白合成的一类单链核糖核酸。
3. 基因DNA分为编码区和非编码区,编码区包含外显子和内含子,一般非编码区具有基因表达的调控功能,如启动子在非编码区。
编码区则转录为mRNA并最终翻译成蛋白质。
外显子和内含子都被转录到mRNA前体hnRNA中,当hnRNA进行剪接变为成熟的mRNA 时,内含子被切除,而外显子保留。
实际上真正编码蛋白质的是外显子,而内含子则无编码功能,内含子存在于DNA中,在转录的过程中,DNA上的内含子也会被转录到前体RNA中,但前体RNA上的内含子会在RNA离开细胞核进行翻译前被切除。
分子生物学相关数据库Entrez由NCBI开发的一个数据库检索系统,它综合了下述各大数据库的信息,包括核酸、蛋白以及Medline 文摘数据库,在这三个数据库中建立了非常完善的联系。
因此,可以从一个序列查询到蛋白产物以及相关的结构、功能和文献信息,详见NCBI(美国国立生物技术信息中心) 简介。
EBI欧洲生物信息学研究所(European Bioinformatics Institute,EBI)是EMBL的分部,位于英国Hinxton 的Wellcome Trust Genome Campus。
EBI维护和发布的数据库:✓EMBL核酸数据库、欧洲原始核酸数据资源库✓SwissProt蛋白质序列数据库[与瑞士生物信息学协会(Swiss Institute for Bioinformatics,SIB)的Amos Bairroch合作]✓TrEMBL(SwissProt的附属数据库,由EMBL数据库编码序列翻译而来的蛋白质序列数据库)✓分子结构数据库(Molecular Structure Database,MSD)[与Brookhaven 国家实验室(纽约)的蛋白质三维结构数据库(Protein Data Bank,PDB)合作]✓放射杂交数据库(Radiation Hybrid database,RHdb)✓其他组织合作产生的分子生物学数据库:EBI还提供网络服务,通过互联网、其WEB界面和FTP服务器可以访问最新收集到的数据,同时也提供数据库和序列相似性的搜索工具。
核酸数据库:GenBankGenBank是NIH的基因序列数据库,由美国国立卫生研究院全国生物技术信息中心(NCBI)建立并维护,是所有公开的DNA序列的集合( Nucleic Acids Research 1998 Jan 1;26(1):1-7),GenBank包含所有已知的核苷酸及蛋白质序列、以及与之相关的生物学信息和参考文献,是世界上的权威序列数据库。
蛋白质数据库1. PIR和PSDPIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库,可在这里下载。
这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,其中包括来自几十个完整基因组的蛋白质序列。
所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。
PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。
每季度都发行一次完整的数据库,每周可以得到更新部分。
PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。
PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。
2. SWISS-PROTSWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。
数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。
SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。
利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。
SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。
3. PROSITEPROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。
蛋白质数据库及其结构预测攻略一、蛋白质结构层次一般情况下,蛋白质的结构分为4 个层次:▪初级结构——氨基酸序列;▪二级结构——а螺旋(alpha-helix),β折叠(β-sheets),β转角,无规则卷曲(random coil)▪三级结构——三维结构,由模体(motif)和结构域(domain)组成;▪四级结构——亚基之间的互作。
二、蛋白质数据库:1. 蛋白质一级数据库1.1序列数据库:UniProt包含三大蛋白质序列数据库,Swiss-Prot,TrEMBL 和PIR,分为三个层次:第一层叫UniParc,收录了所有UniProt 数据库子库中的蛋白质序列,量大,粗糙。
第二层是UniRef,他归纳了UniProt 几个主要数据库并且是将重复序列去除后的数据库。
第三层是UniProtKB,他有详细注释并与其他数据库有链接,分为Swiss-Prot(最有用的)和TrEMBL。
1.2蛋白质结构数据库PDBPDB存储生物大分子3D 结构。
这些生物大分子除了蛋白质以外还包括核酸以及核酸和蛋白质的复合物。
只有通过实验方法获得的3D 结构才会被收入其中。
PDB文件是一堆数字字母,那是每个原子的坐标,一般用用可视化软件VMD打开,免费的,这里不作具体说明。
2. 蛋白质二级数据库2.1结构域家族Pfam数据库Pfam 主页上的搜索工具可以查找某条序列上有哪些结构域。
2.2结构分类数据库CATHCATH是四种结构分类层次的首字母。
根据PDB编号搜索,可以获得各层次具体的结构分类信息以及各种结构相关分析信息、聚类分析。
2.3结构分类数据库SCOP2在搜集、整理、分析PDB数据中已知的蛋白质三维结构的基础上,详细描述了一直结构的蛋白质在结构、进化事件与功能类型三个方面的关系,主要依赖人工验证。
三、蛋白质结构研究1.二级结构1.1已知PDB-输入检索号-sequence- view sequence& DSSP image1.2未知预测网址如下:输入氨基酸序列,等待大概半小时。
生物学的数据格式生物学的数据格式多种多样,这主要是由于生物学的多样性和复杂性。
以下是几种常见的生物学数据格式:1. FASTA格式:这是一种用于表示核酸序列或蛋白质序列的文本格式。
每个序列都以“>”符号开始,后面跟着序列的描述信息。
然后是序列本身,每个字符代表一个碱基或氨基酸。
2. FASTQ格式:与FASTA格式类似,FASTQ也用于表示核酸序列,但还包含测序质量信息。
每个read由@符号开始,然后是序列名称,接下来是测序的碱基序列,最后是一个+符号,后面跟着测序质量信息。
3. GFF/GTF格式:这是一种用于表示基因组注释信息的格式。
它包含了基因组上的特征位置和类型信息,如启动子、外显子、内含子等。
4. BED格式:这是一种用于表示基因组位置信息的格式,常用于基因组学研究中。
它包含了基因组上的位置信息,如染色体、起始位置、结束位置等。
5. PIR格式:这是一种早期的蛋白质序列格式,用于表示蛋白质序列信息。
6. SWISS-PROT格式:这是一种标准的蛋白质序列数据库格式,包含了蛋白质的序列信息和注释信息。
7. GenBank格式:这是一种用于表示核酸序列的格式,包含了序列信息和注释信息。
它是NCBI的主要核酸序列数据库格式。
8. PDB格式:这是一种用于表示蛋白质三维结构的格式,由蛋白质数据银行(Protein Data Bank)维护。
9. VCF格式:这是一种用于表示基因组变异信息的格式,常用于遗传学和基因组学研究中。
它包含了基因组上的变异位点和相关信息。
以上是一些常见的生物学数据格式,每种格式都有其特定的用途和特点。
在实际应用中,根据需要选择合适的数据格式进行存储和交流。