生物信息学复习资料
- 格式:docx
- 大小:1.03 MB
- 文档页数:12
生物信息学期末复习资料(小字)名词解释或辨析。
1.生物信息学:生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解大量的生物学意义。
2.基因芯片:固定有寡核苷酸、基因组DNA或互补DNA 等的生物芯片。
利用这类芯片与标记的生物样品进行杂交,可对样品的基因表达谱生物信息进行快速定性和定量分析。
3.人类基因组计划:HGP,是一项规模宏大,跨国跨学科的科学探索工程。
其宗旨在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而描绘人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。
4.中心法则:分子生物学的基本法则,是1958年由克里克(Crick)提出的遗传信息传递的规律,包括由DNA到DNA的复制,由DNA到RNA的转录和由RNA 到蛋白质的翻译等过程。
20世纪70年代逆转录酶的发现,表明还有由RNA逆转录形成DNA的机制,是对中心法则的补充和丰富。
5.相似性和同源性:相似性(similarity)和同源性(homology)是两个完全不同的概念。
同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。
相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小。
当两条序列同源时,他们的氨基酸或核苷酸序列通常有显著的一致性(identity)。
如果两条系列有一个共同进化的祖先,那么他们是同源的。
这里不存在同源性的程度问题,两条序列要么是同源的要么是不同源的。
1.生物信息学:综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。
包括生物学数据的研究、存档、显示、处理和模拟,基因组遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。
2.蛋白质组:指由一个基因组,或一个细胞、组织表达的所有蛋白质。
生物信息学复习题生物信息学是一门结合生物学、计算机科学、信息学和数学的交叉学科,它利用计算机技术来处理和分析生物数据。
以下是一些生物信息学复习题,供同学们参考:1. 生物信息学的定义和应用领域- 生物信息学是如何定义的?- 生物信息学在哪些领域有应用?2. 基因组学基础- 什么是基因组学?- 基因组测序的基本原理是什么?3. 序列比对- 序列比对的目的是什么?- 简述局部比对和全局比对的区别。
4. BLAST算法- BLAST算法的原理是什么?- 如何使用BLAST进行序列相似性搜索?5. 基因表达数据分析- 基因表达数据有哪些类型?- 描述基因表达数据的预处理步骤。
6. 蛋白质结构预测- 蛋白质结构预测的重要性是什么?- 简述几种常见的蛋白质结构预测方法。
7. 系统生物学和网络分析- 系统生物学研究的是什么?- 网络分析在系统生物学中的应用。
8. 生物信息学中的数据库- 列举几个常见的生物信息学数据库。
- 解释数据库在生物信息学研究中的作用。
9. 生物信息学中的编程语言- 哪些编程语言在生物信息学中常用?- 简述Python在生物信息学中的应用。
10. 伦理和隐私问题- 在生物信息学研究中可能遇到哪些伦理问题?- 如何保护生物信息数据的隐私?11. 案例研究- 描述一个生物信息学在医学研究中的应用案例。
- 分析该案例中使用的方法和技术。
12. 未来趋势- 预测生物信息学未来的发展趋势。
- 讨论生物信息学如何影响未来的科学研究和医疗保健。
通过这些问题的复习,同学们可以更全面地了解生物信息学的基础概念、关键技术和应用领域。
希望这些复习题能够帮助同学们更好地准备考试和理解生物信息学的重要性。
生物信息复习资料生物信息复习资料生物信息学是一门综合性学科,涉及生物学、计算机科学和统计学等多个领域。
它的出现和发展,为我们深入研究生物体的基因组、蛋白质组以及其他生物大数据提供了强有力的工具和方法。
在生物信息学的学习和研究过程中,我们需要掌握一些基本的概念、技术和工具。
下面,我将为大家整理一些生物信息学的复习资料,希望能够对大家的学习有所帮助。
一、基本概念1. 生物信息学:生物信息学是一门研究生物体内信息的获取、存储、处理和分析的学科。
它通过运用计算机科学和统计学的方法,挖掘和解释生物体内的基因、蛋白质等分子信息,从而揭示生物体内的生命规律和机制。
2. 基因组学:基因组学是研究生物体基因组结构、功能和演化的学科。
它通过对生物体DNA序列的测定和分析,揭示基因组的组成、基因的定位和功能等信息。
3. 蛋白质组学:蛋白质组学是研究生物体蛋白质组成、结构和功能的学科。
它通过对生物体蛋白质的测定和分析,揭示蛋白质的组成、互作关系和功能等信息。
4. 基因表达谱:基因表达谱是指在特定条件下,生物体内基因的表达水平和模式。
通过对基因表达谱的分析,可以了解基因在不同组织、不同发育阶段或者不同环境条件下的表达情况,从而揭示基因的功能和调控机制。
二、常用技术和工具1. DNA测序技术:DNA测序技术是获取生物体基因组序列的重要方法。
常见的DNA测序技术包括Sanger测序、高通量测序和单分子测序等。
其中,高通量测序技术如Illumina测序和Ion Torrent测序,具有高通量、高准确性和低成本的特点,广泛应用于基因组学和转录组学研究。
2. 生物信息学数据库:生物信息学数据库是存储和管理生物学数据的重要资源。
常见的生物信息学数据库包括GenBank、EMBL、DDBJ、NCBI、Ensembl和Uniprot等。
这些数据库提供了丰富的生物学数据,如基因序列、蛋白质序列、基因表达数据等,为生物信息学的研究和分析提供了基础。
第一章生物信息学是生命科学、计算机科学、现代信息科学、数学、物理学以及化学等多个学科交叉结合形成的一门新学科,是利用信息技术和数学方法对生命科学研究中的生物信息进行存储。
检索和分析的科学。
1982年创建了GenBank数据库。
(1)序列数据资源:储存了生物信息学研究的原始数据,是生物信息学存在和发展的基础。
(2)序列比对与比对搜索:相似性分析是生物信息学最早涉及的问题之一。
常用的分析方法是序列比对。
(3)基因组结构注释(4)分子系统发生分析:系统发生关系是表示物种进化关系的参考依据。
通过分析分子水平的序列数据,可以了解物种系统发生的关系,目前常用树的形式来表示不同物种间的进化关系。
(5)蛋白质结构:蛋白质的空间结构是其行使功能的基础。
(6)蛋白质序列分析与功能预测。
(7)微阵列数据分析:微阵列是一种重要的基因表达高通量检测技术。
(8)蛋白质组数据分析:高通量的蛋白质组工程能够大范围地确定蛋白质功能,能确定蛋白质在哪种特殊的生理条件下会出现,还能确定那些蛋白质之间有相互作用。
(9)疾病相关研究:寻找疾病相关基因是认识疾病发生机理、研制疾病的基因诊断与防治手段的基础,也是人类基因组研究的重要手段。
(10)SNP芯片及深度测序数据分析。
视黄醇结合蛋白是一个相对分子质量小、被大量分泌的蛋白质,能结合血液中的视黄醇。
性质:①在多个物种中有许多蛋白质和RBP4同源,包括人、小鼠和鱼总的蛋白质。
②也有许多人类蛋白质额RBP4紧密相关,它们和RBP4的家族成为lipocalin家族——一群多样的小配体结合蛋白,它们倾向于分泌到细胞外空间。
③有细南的lipealin 蛋白,它们在对抗生素的抗性中起作用。
编码细菌lipocalin 的基因可能是一古老基因,它通过水平基因转移的过程进人真核生物基因组。
④些lipocalin 蛋白的表达水平受到显著的调控。
⑤lipealin 蛋白小而丰富,并且是可溶性的,它们的生物化学性质已被详细研究,许多蛋白质的三维结构也以x线晶体街射的方法被解析出来。
1.什么是生物信息学?生信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解大量的生物学意义。
2.生物信息学的主要研究任务是什么,目前生物信息学的主要研究内容是什么?任务:收集和管理生物分子数据;数据分析和挖掘;开放分析工具和实用软件;生物分子序列比较工具、基因识别工具、生物分子结构预测工具、表达数据分析工具。
内容:(1)序列比对;(2)基因预测;(3)药物设计;(4)蛋白质结构预测;(5)基因调控网络的预测;(6)蛋白质相互作用预测;(7)分子进化分析3.常用核酸、蛋白、蛋白质结构、相互作用、信号通路数据库核酸数据库:NCBI、ENA、DDBJ蛋白质数据库:Expasy、Uniprot蛋白质结构数据库:SOPMA、prosite、Pfam、myhit、SWISS-MODEL、RasMol蛋白质相互作用数据库:GO 、David、String、InAct蛋白质信号通路数据库:KEGG、BioCarta Pathway、Reactome pathway4.三大核酸数据库都包括哪些?Gene bank EMBL DDBJ5.三大生物大分子核心数据库包括哪些?GenBank核酸序列数据库;UniPROT蛋白质序列数据库;PDB生物大分子结构数据库;6.Genbank格式与FASTA格式Genbank序列以10个为一组,在序列上标注碱基或者氨基酸残基数,查找和检索方便FASTA格式序列文件的第一行是由大于符号(>)打头的任意文字说明,主要为标记序列用。
从第二行开始是序列本身,标准核苷酸符号或氨基酸单字母符号。
通常核苷酸符号大小写均可,而氨基酸一般用大写字母,文件中和每一行都不要超过80个字符(通常60个字符)7.BLAST的主要功能Blastp:蛋白序列与蛋白库做比对,直接比对蛋白序列的同源性。
Blastn:核酸序列对核酸库的对比,直接比较核酸序列的同源性。
1.生物信息学:是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法,以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析,并进一步挖掘和解读生物学数据。
2.生物信息数据库一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的.3数据库格式A.FASTA格式(通用的核酸和蛋白质序列记录,以“)”开始)•序列文件的第一行是由大于符号(>)打头的任意文字说明,主要为标记序列用。
•从第二行开始是序列本身,标准核苷酸符号或氨基酸单字母符号。
通常核苷酸符号大小写均可,而氨基酸一般用大写字母。
•文件中和每一行都不要超过80个字符(通常60个字符)。
B.GenBank格式(序列的详细注解)GenBank和EMBL数据库基本数据的格式序列名称、长度、日期序列说明、编号、版本号物种来源、学名、分类学位置相关文献作者、题目、刊物、日期序列特征表碱基组成序列本身(每行60个碱基)C.pdb格式(包括原子坐标理化参数数据在内的蛋白质结构信息)蛋白质数据库(Protein Data Bank,PDB)[1]是一个生物大分子(如蛋白质和核酸)数据库, 内容包括由全世界生物学家和生物化学家上传的蛋白质或核酸的X光晶体衍射或者NMR核磁共振结构数据,这些数据可以通过PBD的会员组织(PDBe,PDBj,RCSB)免费获取。
PDB是由世界蛋白质数据库(Worldwide Protein Data Bank,wwPDB)管理。
PDB是结构生物学的关键性资源,大部分学术刊物,以及一些官方科研机构[如美国的国立卫生研究院(NIH)],现在都要求科学家将它们研究的蛋白质、核酸结构上传到PDB。
D.genpeptNCBI的蛋白质基本信息记录格式4.常用的数据库A.核酸序列数据库(1)欧洲分子生物学实验室的EMBL(2)美国生物技术信息中心的GenBank(3)日本遗传研究所的DDBJB.蛋白质序列数据库(1)PIR(Protein Information Resource)(2)SWISS-PROT(3)TrEMBL(4)NCBI(5)UniProtC.生物大分子结构数据库(1)PDB(Protein Data Bank)(2)MMDB(Molecular Modeling Database)说明下列数据库的主要功能:(1)PDB 蛋白质结构(2)ProSite 蛋白质模体、结构域和功能域、家族等。
1.Homology (同源): 在进化上起源相同的两段核苷酸序列,特别是功能较重要的保守区段或基因。
2.Similarity(相似性): 两个序列(核酸、蛋白质)间的相关性。
3.Identity (同一性):两个序列(核酸、蛋白质)间未发生变异序列的关系。
4.Ortholog (直系同源): 具有共同祖先和相同功能的同源基因(无基因复制事件)称为直系同源。
直系同源基因由于物种分化事件产生,它能反映物种之间的进化关系。
5.paralog (并系同源): 并系同源基因是由于基因(重复)倍增事件产生的相似序列。
6.Xenolog (异同源): 由于染色体的横向转移而产生的相似序列。
7.global alignment (全局比对):全局比对是对序列从头到尾进行比较,试图使尽可能多的字符在同一列中匹配。
全局比对适用于相似度较高且长度相近的序列。
8.local alignment (局部比对):在某些部分相似度较高,而其他部位差异较大的序列。
9.p-value (P 值): 从某一总体中随机选样,根据随机试验中某一抽样事件属于该分布的概率范围,可计算这一随机事件属于该分部的概率,即误差造成的概率,一般用P 值表示。
P 值越小,随机事件造成的概率越小。
10.E-value(E 值或期望值):是序列比对中代表随机匹配可能性的一个数值。
代表了随机匹配概率造成的相似性的概率,即,目的片段与搜索获得的片段随机配对的可能性。
它的数字越接近于0,这两个片段随机配对的可能性就越小。
11.fasta format (FASTA 序列格式):最基本的、普遍的序列格式。
第一行描述符开始“>”字符,程序行包含序列,用于序列分析程序。
12.PSI-blast (位点特异的迭代BLAST ):PSI-BLAST 为检测蛋白质之间的关系提供了遥远的手段。
第一次BLAST 搜索后,利用结果中最相思的序列重新构建PSSM ,然后再使用该矩阵进行第二轮BLAST 搜索,再调整矩阵,搜索,如此迭代,直到找出最佳搜索结果。
Conting(叠连群):又译作连续克隆系。
为搞清某段DNA的排列顺序而建立的一组克隆。
被克隆的DNA小片段有相互邻接并部分重叠的关系,从而可以完全覆盖该段DNA,一个这样的克隆群即为一个conting。
功能域:蛋白质中具有某种特定功能的部分,它在序列上未必是连续的。
某蛋白质中所有功能域组合起来决定着该蛋白质的全部功能。
基因组:某一物种的一套完整染色体组中的所有遗传物质。
其大小一般以其碱基对总数表示。
基因组学:从事基因组的序列测定和表征描述,以及基因活性与细胞功能关系的研究。
人类基因组计划:HGP主要目标:提供公开的完全的高质量的含有30亿bp的人类基因组全序列。
生物信息学:是分子生物学,信息技术与科学,物理学,数学等学科交叉,结合的产物。
其研究核心是基因组信息学及蛋白质组学。
序列标签位点:人类基因组中只出现一次的位置和序列已知的长度约为200~~500bp的特定DNA序列。
人工神经网络:是对人类大脑特性的一种描述。
简单地讲,它是一个数字模型,可以用电子线路来实现,也可以用计算机程序来模拟,是人工智能研究的一种方法。
一级数据库:数据库中的数据直接来源于试验获得的原始数据,只经过简单的归类整理和注释。
二级数据库:根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二次数据库。
直系同源:是指来自于不同物种的由垂直家系(物种形成)进化而来基因,并且典型的保留与原始基因有相同的功能旁系同源:指同一基因组(或同系物种的基因组)中,由于始祖基因的加倍而横向产生的几个同源基因,可能会进化出新的与原来有关的功能。
分子钟:某一种蛋白质在不同物种间的取代数与所研究的物种间的分歧时间接近正线性关系,从而将分子水平的这种恒速变异称为“分子钟”。
蛋白质组:由一个细胞或一个组织的基因所表达的全部相应的蛋白质数据库查询:指对序列,结构以及各种二次数据库中的注释信息进行关键词匹配查找数据库搜索:是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。
生物信息学复习资料生物信息学复习资料第一讲生物信息学绪论1、生物信息学诞生于计算机初创时期,1956年在美国田纳西州的Gatlinburg召开了首次―生物学中的信息理论讨论会‖2、20世纪80年代末―林华安‖博士创造了‖bioinformatics‖一词3、数据库的构建:1979年美国Genbank数据库;1982年欧洲分子生物实验室EMBL核酸序列数据库;1984年日本国家级核酸序列数据库DDBJ4、专业机构:1988年美国成立了―生物技术信息中心‖(NCBI);欧洲生物信息学研究所(EBI)于1993年构建.5、生物信息学产生的背景(1)、传统生物学和现代生物学都是一门实验学科,生物学的发展需要数学模型的介入(2)、海量生物学数据信息的产生(2002年8月,Genbank中的序列量已达18197000,而碱基对数达22617000000,且以每秒220对的速度增加),数据的分析处理成为生物学发展的―瓶颈‖(3)、新的生物学研究模式的出发点应是理论:从理论出发,再回到实验中追踪或验证这些理论假设6、生物信息学定义(广义):应用信息科学的方法和技术,研究生物体系和生命过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。
狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。
一般提到的―生物信息学‖是就指这个狭义的概念,更准确地说,应该是分子生物信息学(Molecular Bioinformatics)7、生物信息学研究的主要对象——两种信息载体:DNA分子和蛋白质分子(1)遗传信息的载体——DNA遗传信息的载体主要是DNA,控制生物体性状的基因是一系列DNA片段,生物体生长发育的本质就是遗传信息的传递和表达(2)蛋白质的结构决定其功能蛋白质功能取决于蛋白质的空间结构,蛋白质结构决定于蛋白质的序列(这是目前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列之中。
生物信息学复习资料生物信息学是一门融合了生物学、计算机科学、数学和统计学等多个学科的交叉领域。
它的出现和发展为我们理解生命的奥秘提供了强大的工具和方法。
以下是对生物信息学的一些关键知识点的复习。
一、生物信息学的定义和范畴生物信息学主要是研究如何获取、处理、存储、分析和解释生物数据的学科。
这些数据包括但不限于基因组序列、蛋白质结构、基因表达数据等。
它的应用范围广泛,涵盖了从基础生物学研究到临床诊断和药物研发等多个领域。
二、生物数据的获取(一)测序技术现代测序技术的发展使得我们能够快速而准确地获取大量的生物序列信息。
第一代测序技术如 Sanger 测序法,虽然准确性高,但成本较高、通量较低。
而新一代测序技术如 Illumina 测序、Ion Torrent 测序等,则大大提高了测序的通量和速度,降低了成本,但在准确性上可能略有不足。
(二)基因芯片技术基因芯片可以同时检测成千上万个基因的表达水平,为研究基因表达模式和调控机制提供了重要的数据。
(三)蛋白质组学技术质谱技术是蛋白质组学研究中的重要手段,能够鉴定蛋白质的种类和修饰状态。
三、生物数据的存储和管理面对海量的生物数据,高效的数据存储和管理至关重要。
常用的数据库包括 GenBank、UniProt、PDB 等。
这些数据库采用了特定的数据格式和管理系统,以确保数据的完整性、准确性和可访问性。
四、生物数据的分析方法(一)序列比对序列比对是生物信息学中最基本的分析方法之一,用于比较两个或多个生物序列的相似性。
常见的比对算法包括全局比对(如NeedlemanWunsch 算法)和局部比对(如 SmithWaterman 算法)。
(二)基因预测通过对基因组序列的分析来预测基因的位置和结构。
常用的方法有基于同源性的预测、基于信号特征的预测等。
(三)蛋白质结构预测包括从头预测法和基于同源建模的方法。
从头预测法基于物理化学原理来构建蛋白质的三维结构,而同源建模法则利用已知结构的同源蛋白质来推测目标蛋白质的结构。
生物信息学复习资料第一章1、什么是生物信息学?生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义2、BIOINFORMATICS这个词是谁提出的?林华安3、生物信息学的发展经过了哪些阶段?前基因组时代、基因组时代、后基因组时代4、HGP是什么意思?什么时候开始?什么时候全部结束?人类基因组计划、1990.10、20035、生物信息学的研究对象是什么?6、生物信息学的研究内容有哪些?获取人和各种生物的完整基因组、新基因的发现、SNP分析(单核苷酸多态性:single nucleotide polymorphism,SNP)、非编码区信息结构与分析、生物进化;全基因组的比较研究、蛋白质组学研究、基因功能预测、新药设计、遗传疾病的研究以及关键基因鉴定、生物芯片7、学习生物信息学的目的是什么?阐明和理解大量数据所包含的生物学意义第二章1、生物信息数据库有哪些要求?时间性、注释、支撑数据、数据质量、集成性2、生物信息数据库分为哪几级,每一级是如何让定义的,每一级各包含哪些数据库?一级数据库二级数据库;一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的一级数据库:包括基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库二级数据库:根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的数据库3、请列出至少三个国际知名生物信息中心网站、至少三个核酸数据库、至少三个蛋白数据库。
网站:NCBI、EBI、SIB、HGMP、CMBI、ANGIS、NIG、BIC核酸数据库:EMBL、DDBJ、GenBank蛋白质序列数据库:PIR(Protein Information Resource)、SWISS-PROT、TrEMBL、UniProt、NCBI生物大分子数据库:PDB(Protein Data Bank)蛋白质结构分类数据库SCOP、蛋白质二级结构数据库DSSP、蛋白质同源序列比对数据库HSSP4、NCBI和EBI使用的搜索引擎分别是什么?NCBI提取工具:Entrez EBI提取工具:SRS65、GENBANK使用的基本信息单位是什么,包括哪几个部分,最后以什么字符结尾?基本信息单位:GBFF(GenBank flatfile, GenBank平面文件)格式:GBFF是GenBank数据库的基本信息单位,是最为广泛使用的生物信息学序列格式之一哪几个部分:头部包含整个记录的信息(描述符)、第二部分包含了注释这一记录的特性、第三部分是核苷酸序列本身最后字符:所有序列数据库记录都在最后一行以“//”结尾6、什么是Refseq?The Reference Sequence database 参考序列数据库RefSeq数据库,即RefSeq参考序列数据库,美国国家生物信息技术中心(NCBI)提供的具有生物意义上的非冗余的基因和蛋白质序列7、FASTA格式有哪些部分组成,以什么字符开始?8.NCBI的在线和离线序列提交软件是什么?在线提交软件:Bankit 离线提交软件:Sequin第三章1、什么是同源、直系同源、旁系同源?同源性和相似性有什么区别?同源性:两条序列有一个共同的进化祖先,那么它们是同源的相似性:序列间相似性的量度同源性和相似性的区别:同源性是序列同源或者不同源的一种论断,而相似性或者一致性是一个序列相关性的量化,是两个不同的概念直系同源(orthology):不同物种内的同源序列旁系同源(paralogy):同一物种内的同源序列2、什么是序列比对、全局比对、局部比对?序列比对的关键问题是什么?序列比对:根据特定的计分规则,将两个或多个符号序列按位置比较排列后,得到最具相似性的排列的过程。
全局比对:序列全长进行比对,寻找一个最佳的配对。
局部比对:子序列比对,只需要寻找局部的最佳匹配。
关键问题:计分矩阵和算法3、核酸序列比对的记分矩阵有几种?试列出这几种积分矩阵。
计分矩阵:三种等价矩阵、GLAST矩阵、转换颠换矩阵(transition,transversion)等价矩阵转换颠换矩阵(transition,transversion)4、蛋白质序列比对的的记分矩阵有几种?遗传密码矩阵和疏水矩阵是怎样得到的?计分矩阵:六种等价矩阵、遗传密码矩阵GCM、疏水矩阵、PAM矩阵(Point Accepted Mutation)、BLOSUM矩阵(Blocks Amino Acid Substitution Matrices)、PAM矩阵(Point Accepted Mutation)遗传密码矩阵:疏水矩阵:5、试述PAM和BLOSUM矩阵后面的数字与需要比对的序列之间相似性的关系。
相似度越低的序列,在比对的时候,采用PAM矩阵时,后面的数字越大,采用BLOSUM矩阵时,后面的数字越小6、什么是线性罚分和仿射罚分?计算公式是怎样的?线性罚分:xgw=x仿射罚分:()1-wgr+=xx7、点阵法序列比对是怎样进行的?滑动窗口技术有什么作用?点阵法:点阵法是最基本的,也是很重要的一种可视化序列比对方法。
“矩阵作图法”或“对角线作图”◆首先建立一个矩阵,两条序列的长度分别为矩阵的行数和列数,一条序列置于矩阵的顶部,一条序列置于矩阵的左侧。
◆把具有相同字符的单元做标记滑动窗口技术:◆由于序列可能很长,而字符只有4个(核酸),所以会有很多随机性的没有生物学意义的相似性,这些是比对中的噪声。
◆使用滑动窗口代替一次一个位点的比较是解决噪声问题的有效方法。
◆假设窗口大小为10,相似度阈值为8,则每次比较取10个连续的字符,如相同的字符超过8个,则标记。
◆基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声,并且明确无误的指示出了两条序列间具有显著相似性的区域8、Needleman-Wunsch算法和Smith-Waterman 算法哪个是全局比对,哪个是局部比对?它们的具体算法是怎样的?◆N-W算法是一种全局比对动态规划算法例:利用Needleman-Wunsch算法对两条DNA序列进行全局比对。
a=ATTCCAAG,b=TTCGAGT,打分系统是(4,-3,-4),匹配4分,不匹配-3,空位-4◆首先确定打分系统然后分3步:(1)构造动态规划矩阵,并给动态规划矩阵赋初值(2)按照最优分的递归算法填充动态规划矩阵(3)从最后一个单元格开始,回溯最优化比对路径S-W算法是局部比对算法步骤:1)初始化全填0。
2)按下列方法填充动态规划矩阵:填0时不画箭头公式:3)回溯时从最大值开始,遇到0则结束例:利用S-W算法对两条DNA序列进行局部比对。
a=ATTCCAAG,b=TTCGAGT,得分系统:{4,-3,-4}9、用动态规划法找出两序列的所有最佳比对,要求写出详细过程。
打分矩阵采用{(4,-3,-4},即匹配得4分,不匹配得-3分,空位得-4分。
序列1:AAAG,序列2:ACG第四章1、BLAST是什么英文名词的缩写,中文含义是什么?BLAST (Basic Local Alignment Search Tool、基本局部比对搜索工具)2、请简述BLAST的基本算法,其关键是什么?简述:◆数据库搜索相似序列的基础是序列的相似性比对,就是将查询序列与数据库里面的序列逐一的两两比对分析。
◆由于现在数据库信息量很大,这样简单重复的分析非常耗时。
所以开发了一些近似的算法以提高速度,目前使用最广泛的序列对数据库相似性搜索的应用程序是FASTA和BLAST。
◆BLAST算法跟之前讲的动态规划法算法有所不同,处理速度更快关键:high-scoring pair,HSP延伸:◆在BLAST算法的第三步:“字”对命中后,向两端延伸,一直到得分(按照某个打分矩阵)不再增长,由此就得到一定长度的保持最好得分的序列串,称高记分片段对(high-scoring pair,HSP)◆序列相似性不一定就是有生物学意义的,随机也会产生一定的相似性序列。
BLAST中一般用一个E值(Expectation value)来表示比对的显著性。
E值表示如果数据库是随机序列,那么得到同样的比对结果的序列的频率。
这个值越小越好,说明越有生物学意义。
3、NCBI的BLAST有多少种,是哪几种,分别需要进行多少次比对?五种:nucleotide blast:查询序列为核酸序列,搜索(比对)的数据库为核酸数据库,包括正义链(plus)和反义链(minus)。
1protein blast:蛋白质序列对蛋白质序列。
1blastx:查询序列为核酸序列,数据库为蛋白质数据库,6种可能翻译方式。
6tblastn:查询序列为蛋白质序列,数据库为核酸序列。
6tblastx:数据库和查询序列都为核酸序列,但是进行蛋白质的比对,也就是每两条序列要进行36次比对36Program Input Database1Blastn DNA→→→→DNA1Blastp protein→→→→protein6blastx DNA→→→→protein6tblastn protein→→→→DNA36tblastx DNA→→→→DNA4、哪些是NCBI的BLAST的合法输入格式?可以输入序列的ACCN号,gi号或者FASTA格式的序列1)FASTA格式>gi|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED) QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS◆“>”开始的单行加分行的序列字符串,中间不允许空行2)Bare Sequence1 qikdllvsss tdldttlvlv naiyfkgmwk tafnaedtre mpfhvtkqes kpvqmmcmnn61 sfnvatlpae kmkilelpfa sgdlsmlvll pdevsdleri ektinfeklt ewtnpntmek121 rrvkvylpqm kieekynlts vlmalgmtdl fipsanltgi ssaeslkisq avhgafmels181 edgiemagst gviedikhsp eseqfradhp flflikhnpt ntivyfgryw sp◆也可以是GBFF格式中的序列数据,即可以带数字和空格,但序列中间也不允许空行。