南方医科大学-生物信息学-复习资料-2013
- 格式:docx
- 大小:34.34 KB
- 文档页数:5
生物信息学复习题生物信息学是一门结合生物学、计算机科学、信息学和数学的交叉学科,它利用计算机技术来处理和分析生物数据。
以下是一些生物信息学复习题,供同学们参考:1. 生物信息学的定义和应用领域- 生物信息学是如何定义的?- 生物信息学在哪些领域有应用?2. 基因组学基础- 什么是基因组学?- 基因组测序的基本原理是什么?3. 序列比对- 序列比对的目的是什么?- 简述局部比对和全局比对的区别。
4. BLAST算法- BLAST算法的原理是什么?- 如何使用BLAST进行序列相似性搜索?5. 基因表达数据分析- 基因表达数据有哪些类型?- 描述基因表达数据的预处理步骤。
6. 蛋白质结构预测- 蛋白质结构预测的重要性是什么?- 简述几种常见的蛋白质结构预测方法。
7. 系统生物学和网络分析- 系统生物学研究的是什么?- 网络分析在系统生物学中的应用。
8. 生物信息学中的数据库- 列举几个常见的生物信息学数据库。
- 解释数据库在生物信息学研究中的作用。
9. 生物信息学中的编程语言- 哪些编程语言在生物信息学中常用?- 简述Python在生物信息学中的应用。
10. 伦理和隐私问题- 在生物信息学研究中可能遇到哪些伦理问题?- 如何保护生物信息数据的隐私?11. 案例研究- 描述一个生物信息学在医学研究中的应用案例。
- 分析该案例中使用的方法和技术。
12. 未来趋势- 预测生物信息学未来的发展趋势。
- 讨论生物信息学如何影响未来的科学研究和医疗保健。
通过这些问题的复习,同学们可以更全面地了解生物信息学的基础概念、关键技术和应用领域。
希望这些复习题能够帮助同学们更好地准备考试和理解生物信息学的重要性。
生物信息考试题及答案生物信息学是一门结合生物学、计算机科学、信息技术和数学的交叉学科,它利用计算机技术来分析和解释生物数据。
以下是一份生物信息学考试题及答案的示例。
生物信息学考试题一、选择题(每题2分,共20分)1. 生物信息学中,用于存储DNA序列的文件格式是:A. FASTAB. JPEGC. MP3D. DOCX2. 以下哪项不是生物信息学分析的基本步骤?A. 数据收集B. 数据预处理C. 数据解释D. 数据存储3. 在蛋白质序列分析中,BLAST工具用于:A. 序列比对B. 序列组装C. 序列克隆D. 序列合成4. 以下哪个数据库不是用于存储基因表达数据的?A. NCBIB. GEOC. PDBD. ArrayExpress5. 以下哪个算法不是用于基因预测的?A. GeneMarkB. BLASTC. GlimmerD. Fgenesh二、简答题(每题10分,共30分)6. 简述生物信息学在现代生物学研究中的重要性。
7. 解释什么是基因组学,并说明其在医学研究中的应用。
8. 描述序列比对的基本原理及其在生物信息学中的作用。
三、计算题(每题15分,共30分)9. 假设你有一个DNA序列,其组成为:ATCGTA。
请计算其互补序列。
10. 给定两个蛋白质序列,序列A:A-B-C-D-E,序列B:A-C-E-B-D。
请使用Needleman-Wunsch算法计算它们的全局比对得分。
四、论述题(每题20分,共20分)11. 论述生物信息学在新药开发中的作用及其面临的挑战。
答案一、选择题1. A2. C3. A4. C5. B二、简答题6. 生物信息学在现代生物学研究中的重要性体现在它能够处理和分析大量的生物数据,如基因组序列、蛋白质结构等,帮助科学家快速发现生物现象的规律,推动生物学的发展。
7. 基因组学是研究生物基因组的结构、功能和演化的科学。
在医学研究中,基因组学可以帮助我们了解疾病的遗传基础,为个性化医疗提供理论基础。
大学生物信息学专业-复习资料整理一、名词解释:生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型;利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
genbank序列格式:是GenBank数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释:第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P94查询序列(querysequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P98打分矩阵(scoringmatrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P29空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P29空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的过化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
生物信息复习资料生物信息复习资料生物信息学是一门综合性学科,涉及生物学、计算机科学和统计学等多个领域。
它的出现和发展,为我们深入研究生物体的基因组、蛋白质组以及其他生物大数据提供了强有力的工具和方法。
在生物信息学的学习和研究过程中,我们需要掌握一些基本的概念、技术和工具。
下面,我将为大家整理一些生物信息学的复习资料,希望能够对大家的学习有所帮助。
一、基本概念1. 生物信息学:生物信息学是一门研究生物体内信息的获取、存储、处理和分析的学科。
它通过运用计算机科学和统计学的方法,挖掘和解释生物体内的基因、蛋白质等分子信息,从而揭示生物体内的生命规律和机制。
2. 基因组学:基因组学是研究生物体基因组结构、功能和演化的学科。
它通过对生物体DNA序列的测定和分析,揭示基因组的组成、基因的定位和功能等信息。
3. 蛋白质组学:蛋白质组学是研究生物体蛋白质组成、结构和功能的学科。
它通过对生物体蛋白质的测定和分析,揭示蛋白质的组成、互作关系和功能等信息。
4. 基因表达谱:基因表达谱是指在特定条件下,生物体内基因的表达水平和模式。
通过对基因表达谱的分析,可以了解基因在不同组织、不同发育阶段或者不同环境条件下的表达情况,从而揭示基因的功能和调控机制。
二、常用技术和工具1. DNA测序技术:DNA测序技术是获取生物体基因组序列的重要方法。
常见的DNA测序技术包括Sanger测序、高通量测序和单分子测序等。
其中,高通量测序技术如Illumina测序和Ion Torrent测序,具有高通量、高准确性和低成本的特点,广泛应用于基因组学和转录组学研究。
2. 生物信息学数据库:生物信息学数据库是存储和管理生物学数据的重要资源。
常见的生物信息学数据库包括GenBank、EMBL、DDBJ、NCBI、Ensembl和Uniprot等。
这些数据库提供了丰富的生物学数据,如基因序列、蛋白质序列、基因表达数据等,为生物信息学的研究和分析提供了基础。
本卷的答案仅做参考,如有疑问欢迎提出。
后面的补充复习题要靠你们自己整理答案了。
生物信息学复习题一、填空题1、识别基因主要有两个途径即基因组DNA外显子识别和基于EST策略的基因鉴定。
2、表达序列标签是从mRNA 中生成的一些很短的序列(300-500bp),它们代表在特定组织或发育阶段表达的基因。
3、序列比对的基本思想,是找出检测基因和目标序列的相似性,就是通过在序列中插入空位的方法使所比较的序列长度达到一致。
比对的数学模型大体分为两类,分别是整体比对和局部比对。
4、2-DE的基本原理是根据蛋白质等电点和分子量不同,进行两次电泳将之分离。
第一向是等电聚焦分离,第二向是SDS-PAGE分离。
5、蛋白质组研究的三大关键核心技术是双向凝胶电泳技术、质谱鉴定技术、计算机图像数据处理与蛋白质数据库。
二、判断题1、生物体的结构和功能越复杂的种类就越多,所需要的基因也越多,C值越大,这是真核生物基因组的特点之一。
(对)2、CDS一定就是ORF。
(对)3、两者之间有没有共同的祖先,可以通过序列的同源性来确定,如果两个基因或蛋白质有着几乎一样的序列,那么它们高度同源,就具有共同的祖先。
(错)4、STS,是一段200-300bp的特定DNA序列,它的序列已知,并且在基因组中属于单拷贝。
(对)5、非编码DNA是“垃圾DNA”,不具有任何的分析价值,对于细胞没有多大的作用。
(错)6、基因树和物种树同属于系统树,它们之间可以等同。
(错)7、基因的编码序列在DNA分子上是被不编码的序列隔开而不连续排列的。
( 对)8、对任意一个DNA序列,在不知道哪一个碱基代表CDS的起始时,可用6框翻译法,获得6个潜在的蛋白质序列。
(对)9、一个机体只有一个确定的基因组,但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。
(对)10、外显子和内含子之间没有绝对的区分,一个基因的内含子可以是另一个基因的外显子,同一个基因在不同的生理状况或生长发育的不同阶段,外显子组成也可以不同。
生物信息学考试复习.名词解释生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。
再将待研究经过计算机扫描和数据处理,进行定性定量的分析。
可以反映大量基因:National Center for Biotechnology Information.是隶属于美国国立医学图书NLM)的综合性数据库,提供生物信息学方面的研究和服务。
:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。
序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规:Basic Local Alignment Search Tool. 是通过比对(alignment)在数据库中寻找(query)相似度很高的序列的工具。
:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质6个ORF。
启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。
原核生物启动-35区(Sextama box)TTGACA,区(Pribnow Box)TATAAT,以及+1区。
真核生物启动子包括远上游序列和启动子基启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA,+1区帽子位点)组成。
motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。
相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残同源性:两个基因或蛋白质序列具有共同祖先的结论。
非编码RNA:是指没有编码蛋白质功能的所有RNA,它缺乏ORF,常有编码蛋白质的miroRNA:是含有茎环结构的miRNA前体,经过Dicer加工之后的一类非编码的小分子(21-23 nt)。
⽣物信息学复习题⼀、名词解释1.bioinformatics:⽣物信息学,指从事对基因组研究相关的⽣物信息的获取、加⼯、储存、分配、分析和解释的⼀门科学,是⼀门⽣物学,数学和计算机相互交叉融合⽽产⽣的新兴学科。
2.molecular bioinformatics:指综合应⽤信息科学、数学的理论、⽅法和技术,管理、分析和利⽤⽣物分⼦数据的科学。
3.GenBank:是美国全国卫⽣研究所维护的基因序列数据库,汇集并注释了所有公开的核酸序列,与⽇本的DNA数据库DDBJ以及欧洲分⼦实验室核酸序列数据库EMBL⼀起,都是国际核苷酸序列数据库合作的成员。
4.EMBL:EMBL实验室—欧洲分⼦⽣物学实验室,EMBL数据库—是⾮盈利性学术组织EMBL建⽴的综合性数据库,EMBL核酸数据库是欧洲最重要的核酸序列数据库,它定期地与美国的GenBank、⽇本的DDBJ数据库中的数据进⾏交换,并同步更新。
5.DDBJ:⽇本DNA数据库,主要向研究者收集DNA序列信息并赋予其数据存取号,信息来源主要是⽇本的研究机构,也接受其他国家呈递的序列。
6.BLAST:基本局部⽐对搜索⼯具的缩写,是⼀种序列类似性检索⼯具。
BLAST采⽤统计学⼏分系统,同时采⽤局部⽐对算法, BLAST程序能迅速与公开数据库进⾏相似性序列⽐较。
BLAST结果中的得分是对⼀种对相似性的统计说明。
7.BLASTn:是核酸序列到核酸库中的⼀种查询。
库中存在的每条已知序列都将同所查序列作⼀对⼀地核酸序列⽐对。
8.BLASTp:是蛋⽩序列到蛋⽩库中的⼀种查询。
库中存在的每条已知序列将逐⼀地同每条所查序列作⼀对⼀的序列⽐对。
9.Clustsl X:是CLUSTAL多重序列⽐对程序的Windows版本,是⽤来对核酸与蛋⽩序列进⾏多序列⽐较的程序,也可以对来⾃不同物种的功能或结构相似的序列进⾏⽐对和聚类,通过重建系统发⽣树判断亲缘关系,并对序列在⽣物进化过程中的保守性进⾏估计。
■一、选择题:1.以下哪一个是mRNA条目序列号:A.J01536■.NM_15392C.NP_52280D.AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是:■.UnigeneB.EntrezC.LocusLinkD.PCR3.一个基因可能对应两个Unigene簇吗?■可能B.不可能4.下面哪种数据库源于mRNA信息:■dbESTB.PDBC.OMIMD.HTGS5.下面哪个数据库面向人类疾病构建:A.ESTB.PDB■.OMIMD.HTGS6.Refseq和GenBank有什么区另1J:A.Refseq包括了全世界各个实验室和测序项目提交的DNA序列B.GenBank提供的是非冗余序列■.Refseq源于GenBank,提供非冗余序列信息D.GenBank源于Refseq7.如果你需要查询文献信息,下列哪个数据库是你最佳选择:A.OMIMB.Entrez■PubMedD.PROSITE8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪种说法正确:A.因为GenBank的数据比EMBL更多,Entrez给出的搜索结果将更多B.搜索结果很可能一样,因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当,但是ExPASy中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:■N/W/YB.Q/W/YC.F/W/YD.Q/N/W10.直系同源定义为:■不同物种中具有共同祖先的同源序列B.具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C.同一物种中由基因复制产生的同源序列D.同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变:A.丙氨酸B.谷氨酰胺C.甲硫氨酸■半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变:A.1%B.20%■.80%D.250%13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同:A.全局比对通常用于比对DNA序列,而局部比对通常用于比对蛋白质序列B.全局比对允许间隙,而局部比对不允许C.全局比对寻找全局最大化,而局部比对寻找局部最大化■全局比对比对整体序列,而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。
生物信息学题库一、名词解释1、生物信息学:生物分子信息的获取、存贮、分析和利用;以数学为基础,应用计算机技术,研究生物学数据的科学。
2、相似性(similarity):相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。
3、同源性(homology):生物进化过程中源于同一祖先的分支之间的关系。
4、BLAST(Basic Local Alignment Search Tool):基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
5、HMM隐马尔可夫模型:是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。
6、一级数据库:一级数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释(投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中)7、二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
8、GenBank: 是具有目录和生物学注释的核酸序列综合公共数据库,由NCBI构建和维护。
9、EMBL:EMBL 实验室——欧洲分子生物学实验室,EMBL 数据库——是非盈利性学术组织 EMBL 建立的综合性数据库,EMBL 核酸数据库是欧洲最重要的核酸序列数据库,它定期地与美国的 GenBank、日本的 DDBJ 数据库中的数据进行交换,并同步更新。
10、DDBJ: 日本核酸序列数据库,是亚洲唯一的核酸序列数据库。
11、Entrez:是由 NCBI 主持的一个数据库检索系统,它包括核酸,蛋白以及Medline 文摘数据库,在这三个数据库中建立了非常完善的联系。
12、SRS(sequence retrieval system):序列查询系统,是 EBI 提供的多数据库查询工具之一。
生物信息学的研究意义:1.认识生物本质:了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系;2.改变生物学的研究方式:改变传统研究方式,引进现代信息学方法,从博物学到实验性学科到设想.实验验证;3.为疾病的诊断和治疗提供依据,为设计新药提供依据。
生物信息学的概念:在生命科学研究中发展起来的一门由分子生物学与计算机信息处理技术相结合,以计算机为研究工具对生物信息进行获取.处理.储存.传播.分析.模拟和解释的交叉学科。
一.生物分子数据库常用核酸及蛋白质数据库:一级数据库:直接来源于实验获得的原始数据,只经过简单的归类.整理和注释;核酸:GenBank.EMBL.DDBJ;蛋白质序列:SWISS-PROT.PIR;蛋白质结构:PDB。
二级数据库:在一级数据库.实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。
三大公共核酸序列数据库:1.GenBank具有目录和生物学注释综合数据库。
查询系统是NCBI(美国国立生物技术信息中心)Entrez系统。
2.EMBL:EBI通过EMBL核酸数据库提供序列搜索服务。
通过序列提取系统SRS6搜索序列。
3.DDBJ 是一个全面的核酸序列数据库,由SIR维护。
使用的SRS工具进行数据检索和序列分析。
用Sequin软件提交序列。
特殊类型核酸数据库:非编码RNA数据库(ncRNA);表达序列标签数据库(dbEST);序列标签位点数据库(dbSTS);miRBase;tRNAdb等。
基因组相关数据库:人类基因组数据库(HGD);基因组序列数据库(GSDB);基因组在线数据库(GOLD)核苷酸三维数据结构数据库:核苷酸三维结构数据库(NDB);普纳大学核酸结构数据库(BNASDB)等。
三大数据库集成系统:NCBI(National Center for Biotechnology Information,美国国家生物技术信息中心):基于GenBank 数据库。
Entrez是NCBI用于提取序列信息的工具,它将科学文献.DNA和蛋白质序列数据库.蛋白质三维结构数据.种群研究数据以及全基因组组装数据整合成一个高度集成的系统。
EBI(European Bioinformatics Institute,欧洲生物信息学研究所):基于EMBL数据库。
搜索系统为SRS。
SIB(Swiss Institue of Bioinformatics,瑞士生物信息研究所):基于CIB数据库。
序列搜索系统为Getentry。
三大蛋白质序列数据库:PIR(蛋白质信息库):主要包括1. UniProt-通用蛋白质资源库2. iProClass-蛋白质知识整合数据库3. PIRSF-蛋白质家族分类系统4. iProLINK-蛋白质文献.信息和知识整合数据库MIPS(慕尼黑蛋白质序列信息中心)。
Swiss-Prot:用于获取蛋白质序列和相关数据的最有用的资源之一,SIB提供的蛋白质专家分析系统。
蛋白质功能.结构域.家族:PROSITE.InterPro.Pfam.ProDom.SMART。
三维结构:PDB.BioMagResBank.SWISS-MODEL Repository.ModBase.CATH.SCOP等。
二维凝胶电泳:WORLD-2DPAGE.Phoretix links。
信号传导及蛋白质相互作用:DIP.INTERACT.ProNet.KEGG.CANSITE.SPAD.CSNDB获取基因或者蛋白序列的方法:1.Entrez Gene or Protein(NCBI):Entrez是一个很流行的用于提取序列信息的工具,是一个查询.提取和显示系统。
可从NCBI主页中点击Entrez或者直接从Entrez的地址进入。
输入要搜索的词,将得到数个返回结果。
2.UniGene (NCBI):为每个基因给出了一组序列。
Unigene条目存储了GenBank中对应于检索词的所有的记录列表,包括EST。
还给出了图谱信息.同源基因和表达信息。
(有基因表达的组织列表,也就是说这些组织中获取了cDNA库,用来产生相应的EST)从NCBI主页中点击Unigene。
3.European Bioinformatics Institute (EBI) and Ensembl:EBI通过EMBL核酸数据库提供了序列搜索的服务。
通过他的序列提取系统-SRS6,我们可用十几种不同的方法(如用关键字)搜索我们想要的序列。
且资助了Ensembl项目,这是一个用于对人类基因组进行生物信息学分析的非常完备的网站。
4.ExPASy Sequence Retrieval System (SIB) 用于获取蛋白质序列和相关数据的最有用的资源之一,也就是蛋白质专家分析系统。
查询页面有四个长方形的输入框,每一个都对应一个下拉菜单,默认选项都是“AllText”修改相应的选项可得到链接,注意必须保证查询用的关键字是一个单词;5.Locuslink:基因和蛋白质信息的概括性资源。
序列的常见格式:1.GBFF格式(GenBankflatfile)是GenBank数据库的基本信息单位,用于GenBank.EMBL.DDBJ之间信息交换。
基本结构:头部包含整个记录的信息(描述符);第二部分包含了注释这一记录的特性;第三部分是核苷酸序列本身;所有序列数据库记录都在最后一行以“//”结尾。
(1)LOCUS行:第一项是LOCUS名称,在数据库中独一无二,无其他意义。
第二项是序列长度,第三项表明分子类型,第四项是GenBank分类码,最后一项是其最后修订日期。
(2)DEFINITION行:LOCUS行的下一行,对GenBank记录中所含的生物学意义做出总结。
内容包括了来源物种.基因/蛋白质名称。
若序列是非编码区,则包含对序列功能的描述;若是编码区则标明该序列是部分序列(partial cds)还是全序列(complete cds)。
(3)accession行:检索号是序列记录的惟一指针。
通常由1字母5数字或2字母6数字组成。
在数据库中惟一且不变。
(4)VERSION行:格式为检索号.版本号。
版本号用于识别数据库中一条单一的特定核苷酸序列。
如序列数据发生变化则版本号以及GI号增加而检索号不变。
GI编号是NCBI网站所有序列相关数据库的流水编号,特征是唯一性。
(5)KEYWORD行:用来描述序列。
(6)SOURCE行:来源生物。
(7)references行:与该数据有关的参考文献,最先发表的文献列于第一位。
(8)Features:特性表描述基因和基因的产物以及与序列相关的生物学特性。
特性表提供一个参考词汇表以对合法的特性进行注释。
(9)ORIGIN: 文件的最后给出了所记录的序列。
2.FASTA序列格式:第一行:“>GI号|数据库|检索号|locus号|注释”,第二行开始为序列内容,每60个字符换一行,允许以小写字母表示氨基酸。
文件扩展名为“.fasta”。
3.NBIR/PIR序列格式:第一行“>(P1:蛋白质序列,N1:核酸);序列标识号;说明行(没有长度限制)”。
接下来是序列本身,以“*”终止。
文件的扩展名为“.pir”或“.seq”。
4.GDE序列格式:与FASTA的格式基本相同,但行首为“%”,文件扩展名为“.gde”。
Accession number:是一串用字符和数字组合来区分特定序列的标签。
Complete genome:NC_######;Complete chromosome:NC_######;Genomic contig:NT_######;mRNA (DNA format):NM_######;Protein:NP_######. RefSeq:给出了对应于基因和蛋白质的索引号码,对应于最稳定.最被人承认的Genbank序列,GenBank中一个基因的索引号有上百个,但对应一个基因的RefSeq只有一个。
三.序列比对双序列比对的概念:通过对两条序列中各个字符的一一对应关系,或字符的对比排列进行定性描述,揭示两条序列的最大相似程度,指出序列之间的根本差异,评估序列的相似性和是否具有同源性。
双序列比对的原理:通过插入间隔(gap)的方法使不同长度的序列对齐(长度一致);优化的序列排列应使间隔的数目达到最小,同时使相似性区域的长度达到最大。
空格的生物学意义:序列的差异都是由突变引起的,常见的突变包括替换.插入和删除,后两者都导致在比对中引入空格。
一个碱基的替换可能导致对应位置氨基酸的变化,也可能不变。
一个碱基的插入和删除一定会导致对应位置及后续氨基酸的变化。
突变是否显著地影响蛋白质的功能,取决于突变的位置是否在关键性的结构域。
双序列比对的流程:确定需要比对的序列,选择合适的得分系统,选择合适的比对算法,判断比对结果的显著性。
典型算法:全局比对:在整个序列上达到尽可能多的字符匹配。
1序列在全长上有比较高的相似度;2比对的序列长度基本接近;3比对中允许插入空格(Needleman-Wunsch算法)。
局部比对:仅保留最高的得分区域以达到最佳的匹配。
1序列在全长上不一定相似,但是在某些区域有很高的相似度;2允许序列长度差别较大;3比对中尽可能少插入空格。
(Smith-Waterman算法)关键因素:得分矩阵:为方便的处理替换,要求把不同的处理方法参数化,这些参数就是替换得分矩阵。
e-value 的意义:对某个已识别出相似度值S,E 值是分值大于等于S 的期望频率,该值可被理解为期望随机得到大于或等于S 值得分值数目。
控制搜索的敏感性,越小越显著。
把一个已知得比对分值S 同预期的分布相关联可能会计算出P 值,从而给出这个分值的比对显著性的可能性。
通常,P 值越趋近于零,分值越有意义。
同源性与相似性:相似性是指序列之间相关的一种量度,两序列的的相似性可以基于序列的一致性的百分比;而同源性是指序列所代表的物种具有共同的祖先,强调进化上的亲缘关系。
序列比对的种类:1.序列相似性比较(两两序列比对):将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。
2.序列同源性分析(多序列比对):将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。
多序列比对概念:把2条以上可能有系统进化关系的序列(相似度不一定很高)进行比对的方法。
BLAST:Basic Local Alignment Search Tool基本局部相似性对比搜索工具。
用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
BLAST原理:找出探测序列和目标序列间所有匹配程度超过一定阈值的序列片段对,将得到的序列片段对根据给定的相似性阈值延伸,得到一定长度的相似性片段,然后给出高分值片段对。