生物信息学期末复习资料(小字)
- 格式:docx
- 大小:28.79 KB
- 文档页数:13
本卷的答案仅做参考,如有疑问欢迎提出。
后面的补充复习题要靠你们自己整理答案了。
生物信息学复习题一、填空题1、识别基因主要有两个途径即基因组DNA外显子识别和基于EST策略的基因鉴定。
2、表达序列标签是从mRNA 中生成的一些很短的序列(300-500bp),它们代表在特定组织或发育阶段表达的基因。
3、序列比对的基本思想,是找出检测基因和目标序列的相似性,就是通过在序列中插入空位的方法使所比较的序列长度达到一致。
比对的数学模型大体分为两类,分别是整体比对和局部比对。
4、2-DE的基本原理是根据蛋白质等电点和分子量不同,进行两次电泳将之分离。
第一向是等电聚焦分离,第二向是SDS-PAGE分离。
5、蛋白质组研究的三大关键核心技术是双向凝胶电泳技术、质谱鉴定技术、计算机图像数据处理与蛋白质数据库。
二、判断题1、生物体的结构和功能越复杂的种类就越多,所需要的基因也越多,C值越大,这是真核生物基因组的特点之一。
(对)2、CDS一定就是ORF。
(对)3、两者之间有没有共同的祖先,可以通过序列的同源性来确定,如果两个基因或蛋白质有着几乎一样的序列,那么它们高度同源,就具有共同的祖先。
(错)4、STS,是一段200-300bp的特定DNA序列,它的序列已知,并且在基因组中属于单拷贝。
(对)5、非编码DNA是“垃圾DNA”,不具有任何的分析价值,对于细胞没有多大的作用。
(错)6、基因树和物种树同属于系统树,它们之间可以等同。
(错)7、基因的编码序列在DNA分子上是被不编码的序列隔开而不连续排列的。
( 对)8、对任意一个DNA序列,在不知道哪一个碱基代表CDS的起始时,可用6框翻译法,获得6个潜在的蛋白质序列。
(对)9、一个机体只有一个确定的基因组,但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。
(对)10、外显子和内含子之间没有绝对的区分,一个基因的内含子可以是另一个基因的外显子,同一个基因在不同的生理状况或生长发育的不同阶段,外显子组成也可以不同。
生物信息学考试复习.名词解释生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。
再将待研究经过计算机扫描和数据处理,进行定性定量的分析。
可以反映大量基因:National Center for Biotechnology Information.是隶属于美国国立医学图书NLM)的综合性数据库,提供生物信息学方面的研究和服务。
:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。
序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规:Basic Local Alignment Search Tool. 是通过比对(alignment)在数据库中寻找(query)相似度很高的序列的工具。
:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质6个ORF。
启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。
原核生物启动-35区(Sextama box)TTGACA,区(Pribnow Box)TATAAT,以及+1区。
真核生物启动子包括远上游序列和启动子基启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA,+1区帽子位点)组成。
motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。
相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残同源性:两个基因或蛋白质序列具有共同祖先的结论。
非编码RNA:是指没有编码蛋白质功能的所有RNA,它缺乏ORF,常有编码蛋白质的miroRNA:是含有茎环结构的miRNA前体,经过Dicer加工之后的一类非编码的小分子(21-23 nt)。
1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计算机科学相结合形成的一门新学科.它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。
2、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。
数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。
3、表达序列标签从一个随机选择的cDNA 克隆进行5'端和3’端单一次测序获得的短的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。
EST 来源于一定环境下一个组织总mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。
4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白.ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个真正的单一的基因产物。
ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件。
5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列,并进一步折叠成特定的空间结构前者我们称为蛋白质的一级结构,也叫初级结构或基本结构。
蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理功能的必要基础.6、基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。
生物信息学期末考试答案Bioinformatics:生物信息学——是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法;以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析;并进一步挖掘和解读生物学数据。
Consensus sequence:共有序列——决定启动序列的转录活性大小。
各种原核启动序列特定区域内(通常在转录起始点上游-10及-35区域)存在共有序列;是在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。
Data mining:数据挖掘——数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。
数据挖掘通常是利用计算方法分析生物数据;即根据核酸序列预测蛋白质序列、结构、功能的算法等;实现对现有数据库中的数据进行发掘。
EST:(Expressed Sequence Tag)表达序列标签——是某个基因cDNA克隆测序所得的部分序列片段;长度大约为200~600bp。
Similarity:相似性——是直接的连续的数量关系;是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。
Homology:同源性——是两个对象间的肯定或者否定的关系。
如两个基因在进化上是否曾具有共同祖先。
从足够的相似性能够判定二者之间的同源性。
Alignment:比对——从核酸以及氨基酸的层次去分析序列的相同点和不同点;以期能够推测它们的结构、功能以及进化上的联系。
或是指为确定两个或多个序列之间的相似性以至于同源性;而将它们按照一定的规律排列。
BLOSUM:模块替换矩阵——是指在对蛋白质数据库搜索时;采用不同的相似性分数矩阵进行检索的相似性矩阵。
以序列片段为基础;从蛋白质模块数据库BLOCKS中找出一组替换矩阵;用于解决序列的远距离相关。
在构建矩阵过程中;通过设置最小相同残基数百分比将序列片段整合在一起;以避免由于同一个残基对被重复计数而引入的任何潜在的偏差。
■一、选择题:1.以下哪一个是mRNA条目序列号:A.J01536■.NM_15392C.NP_52280D.AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是:■.UnigeneB.EntrezC.LocusLinkD.PCR3.一个基因可能对应两个Unigene簇吗?■可能B.不可能4.下面哪种数据库源于mRNA信息:■dbESTB.PDBC.OMIMD.HTGS5.下面哪个数据库面向人类疾病构建:A.ESTB.PDB■.OMIMD.HTGS6.Refseq和GenBank有什么区另1J:A.Refseq包括了全世界各个实验室和测序项目提交的DNA序列B.GenBank提供的是非冗余序列■.Refseq源于GenBank,提供非冗余序列信息D.GenBank源于Refseq7.如果你需要查询文献信息,下列哪个数据库是你最佳选择:A.OMIMB.Entrez■PubMedD.PROSITE8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪种说法正确:A.因为GenBank的数据比EMBL更多,Entrez给出的搜索结果将更多B.搜索结果很可能一样,因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当,但是ExPASy中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:■N/W/YB.Q/W/YC.F/W/YD.Q/N/W10.直系同源定义为:■不同物种中具有共同祖先的同源序列B.具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C.同一物种中由基因复制产生的同源序列D.同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变:A.丙氨酸B.谷氨酰胺C.甲硫氨酸■半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变:A.1%B.20%■.80%D.250%13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同:A.全局比对通常用于比对DNA序列,而局部比对通常用于比对蛋白质序列B.全局比对允许间隙,而局部比对不允许C.全局比对寻找全局最大化,而局部比对寻找局部最大化■全局比对比对整体序列,而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。
生物信息学就是一门交叉学科, 包含了生物信息得获取、加工、存储、分配、分析、解释等在内得所有方面, 它综合运用数学、计算机科学与生物学等得各种工具来阐明与理解大量数据所包含得生物学意义。
生物信息学宗旨在揭示基因组信息结构得复杂性及遗传语言得根本规律。
从生物分子获得与挖掘深层次生物学知识。
人类基因组计划(HGP):获得遗传图、物理图、序列图、转录图;终极目标:阐明人类基因组全部DNA序列;识别基因;建立储存这些信息得数据库;开发数据分析工具;研究HGP实施所带来得伦理、法律与社会问题。
其中我国承担了人类3号染色体短臂。
记录:一个数据库记录一般由两部分组成:原始序列数据与描述这些数据生物学信息得注释。
冗余:在一个数据库存在着多个相同得项,如两个或者更多得记录中有一个相同序列Fasta格式开始于一个标识符:">",然后就是一行描述。
GenBank格式:每个基因描述可有多个描述行,包含一行以LOUCUS开头描述行,基因序列以ORIGN开头,以//结尾。
EMBL:入口标识符ID,序列开始标识符SQ,结束就是//。
数据库得特点:①数据库就是可以检索得,即具有检索功能;②数据库应该就是定时更新得,即不断有新版内容发布;③数据库就是交叉引用得,特别就是在互联网时代,数据库应该通过超链接与其她数据库相连。
EST序列:表达序列标签对cDNA文库测序得到得,就是转录得DNA序列。
STS序列:序列标签位点染色体上位置已定得、核苷酸序列已知得、且在基因组中只有一份拷贝得DNA短片断,(200bp-500bp)。
STS序列标签位点就是基因组上定位明确、作为界标并能通过PCR扩增被唯一操作得短得、单拷贝DNA 序列,用于产生作图位点。
GSS序列:基因组概览测序基因组DNA克隆得一次性部分测序得到得序列。
HTG序列:高通量基因组序列三大数据库:NCBI(GenBank):美国生物技术中心,建立了一系列生物信息数据与各种服务。
生物信息学期末考试答案rmatics是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等多个学科的理论方法,以互联网为媒介、数据库为载体,利用数学和计算机科学对生物学数据进行储存、检索和处理分析,并进一步挖掘和解读生物学数据。
Consensus sequence是决定启动序列的转录活性大小的序列。
在各种原核启动序列特定区域内(通常在转录起始点上游-10及-35区域)存在共有序列,这是在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。
数据挖掘通常是利用计算方法分析生物数据,即根据核酸序列预测蛋白质序列、结构、功能的算法等,实现对现有数据库中的数据进行发掘。
EST(Expressed Sequence Tag)是某个基因cDNA克隆测序所得的部分序列片段,长度大约为200~600bp。
相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。
同源性是两个对象间的肯定或者否定的关系,如两个基因在进化上是否曾具有共同祖先。
从足够的相似性能够判定二者之间的同源性。
比对从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。
或是指为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。
BLOSUM(模块替换矩阵)是指在对蛋白质数据库搜索时,采用不同的相似性分数矩阵进行检索的相似性矩阵。
以序列片段为基础,从蛋白质模块数据库BLOCKS中找出一组替换矩阵,用于解决序列的远距离相关。
在构建矩阵过程中,通过设置最小相同残基数百分比将序列片段整合在一起,以避免由于同一个残基对被重复计数而引入的任何潜在的偏差。
在每一片段中,计算出每个残基位置的平均贡献,使得整个片段可以有效地被看作为单一序列。
通过设置不同的百分比,产生了不同矩阵。
生物信息学是一门综合学科,主要研究生物学系统和生物学过程中信息流的综合系统,运用生物学、数学、物理学、信息科学以及计算机科学等多学科的理论方法,以互联网为媒介、数据库为载体,利用数学和计算机科学对生物学数据进行储存、检索和处理分析,并进一步挖掘和解读生物学数据。
生物信息期末总结1.生物信息学(Bioinformatics)定义:(第一章)★生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义。
(或:)生物信息学是运用计算机技术和信息技术开发新的算法和统计方法,对生物实验数据进行分析,确定数据所含的生物学意义,并开发新的数据分析工具以实现对各种信息的获取和管理的学科。
(NSFC)2。
科研机构及网络资源中心:NCBI:美国国立卫生研究院NIH下属国立生物技术信息中心;EMBnet:欧洲分子生物学网络;EMBL-EBI:欧洲分子生物学实验室下属欧洲生物信息学研究所;ExPASy:瑞士生物信息研究所SIB下属的蛋白质分析专家系统;(Expert Protein Analysis System)Bioinformatics Links Directory;PDB (Protein Data Bank);UniProt 数据库3. 生物信息学的主要应用:1.生物信息学数据库;2.序列分析;3.比较基因组学;4.表达分析;5.蛋白质结构预测;6.系统生物学;7.计算进化生物学与生物多样性.4.什么是数据库:★1、定义:数据库是存储与管理数据的计算机文档、结构化记录形式的数据集合。
(记录record、字段field、值value)2、生物信息数据库应满足5个方面的主要需求:(1)时间性;(2)注释;(3)支撑数据;(4)数据质量;(5)集成性。
3、生物学数据库的类型:一级数据库和二级数据库。
(国际著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS—PROT等;蛋白质结构库有PDB等。
)4、一级数据库与二级数据库的区别:★1)一级数据库:包括:a.基因组数据库--—-来自基因组作图;b.核酸和蛋白质一级结构序列数据库;c。
生物信息学复习题名词解释1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。
序列相似序列并不一定是同源序列。
(直系同源):指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列,它们具有相似的功能。
(旁系(并系)同源):指同一个物种中具有共同祖先,通过基因复制产生的一组基因,这些基因在功能上的可能发生了改变。
基因复制事件是促进新基因进化的重要推动力。
(异同源):通过横向转移,来源于共生或病毒侵染而产生的相似的序列,为异同源。
Score:The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。
6.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。
7. E值:得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。
衡量序列之间相似性是否显着的期望值。
E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义,E值越接近零,越不可能找到其他匹配序列。
值:得分为所要求的分值比对或更好的比对随机发生的概率。
它是将观测得到的比对得分S,与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP(高分片段对)得分的期望分布联系起来计算的。
通常使用低于来定义统计的显着性。
如对您有帮助,欢迎下载支持,谢谢!如对您有帮助,欢迎下载支持,谢谢!一、名词解释(每小题3分,共30分)分)1.1. 生物信息学生物信息学2.2. 数据库技术数据库技术3.3. 数据仓库数据仓库4.4.EST5.5. 概念性翻译概念性翻译6.6. 同源性同源性7.7. 单系类群单系类群8.8. 全局排列全局排列9.9. 基因作图基因作图1010.直系同源体簇.直系同源体簇.直系同源体簇二、填空题(每空1分,共10分)分)1. 生物信息学主要研究的两种信息载体是生物信息学主要研究的两种信息载体是和 。
2. 国际上的三大核苷酸序列数据库分别是 、和 。
3. 数据挖掘的三大技术支柱是数据挖掘的三大技术支柱是、 和 。
4. 相同类型核苷酸的替换称为 ,不同类型核苷酸的替换称为 。
三、单项选择题(每小题1分,共10分)分)1.1. 在对模式生物进行全基因组的测定中,作为真菌模式生物的是在对模式生物进行全基因组的测定中,作为真菌模式生物的是。
A 、大肠杆菌、大肠杆菌B 、青霉菌、青霉菌C 、酵母菌、酵母菌D 、线虫、线虫2.NCBI 成立于成立于。
A 、1988年B 、1989年C 、1990年D 、1992年3.根据数据库管理系统所支持的基本数据模型的不同,可以将数据库分为五类,其中第二代数据库是代数据库是。
A 、层次数据库、层次数据库B 、网状数据库、网状数据库C 、关系数据库、关系数据库D 、分布式数据库、分布式数据库4.在向GenBank 投送序列的工具中,投送序列的工具中, 是标准的序列投送工具。
是标准的序列投送工具。
A 、Cn3DB 、tb12asnC 、BankItD 、Sequin5. 目前最为常用和注释最全的蛋白质序列数据库是目前最为常用和注释最全的蛋白质序列数据库是。
A 、Identify B 、OWLC 、PIRD 、SWISS-PROT6. 下列选项中根据蛋白质三维折叠模式和进化关系划分的结构分类数据库是下列选项中根据蛋白质三维折叠模式和进化关系划分的结构分类数据库是。
生物信息复习生物信息考点:蛋白质相互作用研究方法同源性,相似性双向凝胶电泳蛋白质分析DNAcDNA数据库熟悉NCBI网站,能够应用两种以上软件。
生物信息学定义:采用计算机技术和信息论方法研究蛋白质及核算序列等各种生物信息的采集、储存、传递、检索、分析和解读的科学。
内容:基因组和蛋白质组数据分析、生物芯片信息解读、生物信息数据库、生物学文献等。
蛋白质:蛋白质二级结构:α螺旋、β折叠、β转角。
蛋白质相对分子质量:一般用渗透压法,超速离心法,凝胶过滤法,聚丙烯酰胺凝胶电泳法。
核酸:戊糖,碱基,磷酸组成。
DNA:一级结构,由3,5磷酸二酯键连接起来的线型或环形多聚体。
二级结构,为双螺旋结构,两条反向平行的多核苷酸链构成双螺旋结构,碱基层叠于内侧,磷酸基与脱氧核糖排列在外,依靠碱基间氢键结合。
三级结构,环形DNA可以进一步扭曲折叠成超螺旋的三级结构。
RNA:rRNA、tRNA、mRNA、(小分子细胞核)snRNA聚合酶链式反应(PCR):条件:微量待扩增片段,耐高温TaqDNA聚合酶,引物,dNTP 单体,镁离子等。
载体:①能稳定复制②具有一个以上靶位点③具有易检测的遗传标记④插入目的基因的幅度较宽⑤分子质量小载体来源分类:质粒、噬菌体、病毒、穿梭载体等。
核酸序列分析:序列同源性分析(染色体定位、同源性核酸分析),序列结构分析(内显子、限制性核酸内切酶图谱、开放阅读框等),聚类分析(进化关系、系统发育)序列分析模型分为:独立随机模型、马尔可夫模型,隐马尔可夫模型。
序列比对:判断是否具有同源性同源性:不同物种在起源进化上的同一性,判断进化上祖先的结论,包括:直系同源物,旁系同源物。
相似性:两物种之间进行简单比对得出两者相同之处。
表示异同程度两条序列的比对:简单比对,打分矩阵,全局比对,局部比对,比对的显著性检测局部比对算法:smith-waterman算法、BLAST算法、FASTA算法多重序列对比:Clustal算法,将多个序列两两比对构建距离矩阵,计算产生系统进化树,全部加权构建比对。
课堂笔记第一章绪论什么是生物信息学?生物信息学就是利用信息技术对生物信息进行获取、储存、查询和分析,以解释这些信息数据所蕴涵的生物学意义的学科。
研究内容:方法:信息技术。
上游:1.数据库管理技术。
2.数据仓库、数据挖掘与数据库中的知识发现技术。
3.分布式计算(网格计算、云计算等)4.图像处理和可视化技术。
中游:1.数据库的构建。
2.算法建立。
3.统计模型建立。
4.工具软件开发。
下游:1.建立特定方向或自己的专用数据库。
2.数据库检索的技术。
3.数据分析:序列分析、进化分析等。
对象:生物信息macromolecular sequences; (最初)macromolecular structures;expression profiles; (EST; microarrays; 2D-PAGE)biochemical network; (Interactions and reactions)evolution history.生物信息学发展阶段:前基因组时代:生物数据库的建立、检索工具的开发以及DNA和蛋白质序列分析。
基因组时代:基因组测序,基因寻找和识别、网络数据库的建立和交互界面的开发等。
后基因组时代:大规模基因组分析、蛋白质组分析及各种数据的比较和整合。
生物信息学的应用生物工程:酿造工艺、食品饮料……农学:遗传育种、作物抗病……医学:分子病理学、流行病学……(兽医学)。
药学:药物开发(主要经费来源)。
Computer-aided drug design (CADD)“面向靶蛋白”的药物设计ExPASy----最权威的蛋白质服务器NIG----日本著名的生物信息学中心第二章计算机基础数据库(Database, DB ):统一管理的相关数据的集合。
数据库管理系统(DB management system)*:对DB进行管理的软件,提供DB的建立、查询、更新以及各种数据控制功能。
数据模型(Data model,DM):数据库结构和语义的一种抽象描述。
⽣物信息学复习整理⽣信整理⼀、重要概念1. ⽣物信息学的定义、研究内容、组成采⽤信息学的⽅法来研究⽣命科学定义:⽣物信息学迄今为⽌尚没有⼀个标准定义(⼴义:⽣命科学中的信息科学。
⽣物体系和过程中信息的存贮、传递和表达;细胞、组织、器官的⽣理、病理、药理过程的中各种⽣物信息。
狭义:⽣物分⼦信息的获取、存贮、分析和利⽤。
)研究内容:①基础研究——数学:模型、算法;IT:数据库、计算机软、硬件开发②应⽤(⽣命科学研发)——序列分析:ORF、序列组装;蛋⽩质结构预测(新药研发);组学数据分析组成:数学+信息科学+计算机科学+⽣命科学2、推动⽣物信息学快速发展的学科核⼼和灵魂:⽣物学基本⼯具:数学与计算机技术3、“组”学的主要创新点对⽣命科学发展的作⽤与意义21世纪是⽣物技术和信息技术的时代,基因组研究由结构基因组研究转向功能基因组研究,蛋⽩质组学已成为当前研究的热点和重点,⽣物信息学加快了⽣命科学的发展步伐。
蛋⽩组研究的兴起和发展,在揭⽰⽣命运动的本质及疾病的诊断、治疗等⽅⾯发挥着重要作⽤。
随着基因组学研究的不断深⼊,在基因组测序、蛋⽩质序列测定和结构解析等实验的基础上,产⽣了⼤量有关⽣物分⼦的原始数据,这些原始的数据需要利⽤现代计算机技术进⾏收集、整理、管理以便检索使⽤,⽣物信息学应⽤⽽⽣,其研究重点集中在核酸和蛋⽩质两个⽅⾯。
所谓组学,即从⼀个整体的⾓度来研究。
相对于传统⽣命科学零敲碎打的研究⼿段,研究单个的基因或蛋⽩的功能、结构,⽽组学则是着眼于⼤局,将单个的基因、蛋⽩以“组”的⽔平进⾏研究,从⽽对于⽣命科学能够有⼀个⼤局的把握。
4、⽣物信息学对⽣命科学发展的作⽤与意义1.同上2.⽣物信息学的引⼊不仅能够帮助传统⽣物学的实验,还能够通过预测、模拟等来指导⽣物学的研究作⽤:(1) 从学科⾓度⽅⾯:⽣命科学进⼊了新的发展时期;研究体系的突破:局部到整体;学科性质:经验型、资料积累到总结规律(2) 从研究⼈员⾓度:提⾼研究效率、深化研究成果、显著增加论⽂“厚度”与“重量”意义:正对⽣命科学产⽣深远的影响,极⼤提⾼科研的效率、质量、促进⽣命科学实现跨越式的发展。
生物信息学必须掌握的考点汇总!!!—、绪论生物信息学Definition of Bioinformatics :利用数学、物理、化学的理论、技术和方法,以计算机为工具,对生命现象加以研究,得到深层次的生物学知识。
※计算生物学:更偏重计算、理论和方法※分子生物信息学:狭义的生物信息学,主要研究DNA和Protein※理论生物学:包含生物信息学※信息生物学:新概念,以生命信息的遗传,传输,调节和表达的基本规律为研究中心※系统生物学:研究生物系统组成成分的构成与相互关系的结构、动态与发生,以系统论和实验、计算方法整合研究为特征的生物学研究目标:揭示蕴藏在生物数据中的生物规律和内涵研究任务:1. 收集与管理生物分子数据2. 对数据进行处理分析3. 为其它生物学研究提供服务(提供工具)4. 最终解释生命是什么研究内容:1. 数据管理层面上:开发、设计一系列相关的工具,能够方便有效的获取、管理以及使用各种类型的数据和信息。
2. 算法开发层面上:开发新的算法及统计学的方法来揭示大规模数据之间的联系。
3. 研究对象层面上:分析和解释各种类型的生物学数据,包括核酸、氨基酸序列、蛋白质功能结构域以及蛋白质三级结构等。
研究意义:1. 生物学从传统的实验科学转向实验、理论相互结合的科学2. 从理论上认识生物的本质的必要途径3. 人类健康、医药卫生发展的新途径研究对象:碱基一 -►基因组-------------- ►蛋白质表型基因组学蛋白质组学信息的存储密码表的进化单核甘酸多态(SNP)基因识别非编码区功能基因演化染色体分析基因组比较结构预测定位预测蛋白质修饰蛋白质功能蛋白质互作表达网络代谢网络调控网络生物信息学特点:杂,乱,难,新其实应该是我我都说是我了关我啥事啊?那我呢?长相要知道——鲍林,戴霍夫,林华安,薛定谱bioinformatics :作为专有名词是由林华安博士在二十世纪80年代末(1987 )创造的人们公认的生物信息学的创始人是Temple F, Smith或Margret Dayhoff历史事件:二十世纪五十年代,为储备期1953年Watson和Crick提出DNA双螺旋结构1956年在美国田纳西州召开首次“生物学中的信息理论研讨会二十世纪六十至七十年代,为萌芽期。
生物信息学期末复习资料(小字)名词解释或辨析。
1.生物信息学:生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解大量的生物学意义。
2.基因芯片:固定有寡核苷酸、基因组DNA或互补DNA 等的生物芯片。
利用这类芯片与标记的生物样品进行杂交,可对样品的基因表达谱生物信息进行快速定性和定量分析。
3.人类基因组计划:HGP,是一项规模宏大,跨国跨学科的科学探索工程。
其宗旨在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而描绘人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。
4.中心法则:分子生物学的基本法则,是1958年由克里克(Crick)提出的遗传信息传递的规律,包括由DNA到DNA的复制,由DNA到RNA的转录和由RNA 到蛋白质的翻译等过程。
20世纪70年代逆转录酶的发现,表明还有由RNA逆转录形成DNA的机制,是对中心法则的补充和丰富。
5.相似性和同源性:相似性(similarity)和同源性(homology)是两个完全不同的概念。
同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。
相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小。
当两条序列同源时,他们的氨基酸或核苷酸序列通常有显著的一致性(identity)。
如果两条系列有一个共同进化的祖先,那么他们是同源的。
这里不存在同源性的程度问题,两条序列要么是同源的要么是不同源的。
1.生物信息学:综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。
包括生物学数据的研究、存档、显示、处理和模拟,基因组遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。
2.蛋白质组:指由一个基因组,或一个细胞、组织表达的所有蛋白质。
蛋白质组的概念与基因组的概念有许多差别,它随着组织、甚至环境状态的不同而改变。
3.电子克隆:是近年来发展起来的一门快速克隆基因的新技术,其核心技术是利用生物信息学技术的组装延伸ESTs序列,获得基因的部分乃至全长cDNA序列进一步利用RT_PCR的方法进行克隆分析、验证。
4.CDS和cDNAcDNA序列:互补DNA序列,指的是mRNA为在逆转录酶的作用下将形成DNA的过程。
CDE序列:编码序列,从起始密码子到终止密码子的所有序列。
5.有义链和无义链:正义链,负义链一般是指的DNA 的两条链。
与mRNA序列相同的那条就是正义链或有义链,与它互补的也就是翻译出它的那条是编码链或负义链或反义链或模板链或无义链。
判断1.生物信息学可以理解为生命科学中的信息科学(√)2.DNA分子和蛋白质分子都含有进化信息。
(√)3.目前生命科学研究的重点和突破点已完全转移到生物信息学上,已不需要实验做支撑。
(×)4.基因组与蛋白质组一样,都处于动态变化之中。
(×)5.生物信息学的发展大致经历了:前基因组时代,基因组时代和后基因组时代。
(√)6.蛋白质三维结构都是静态的,在行使功能的过程中其结构不会改变。
(×)7.生物信息学中研究的生物大分子主要是脂类和多糖。
(×)8.一个数据库记录由两部分构成:原始序列数据及其注释。
(√)9.SWISS-PROT是目前国际上比较权威的核酸序列数据库。
(×)10.生物信息学中一级数据库与二级数据库之间并无明确的界限。
(√)1.生物信息学可以简单的理解为利用计算机进行生命科学的研究。
(×)2.生物信息学的研究范围不包括新药研究和生物进化。
(×)3.DNA携带有进化信息,而蛋白质则不携带进化信息。
(×)4.中心法则中遗传信息的传递只能是单向的。
(×)5.DDBJ是重要的蛋白质结构数据库。
(×)6.一个数据库记录一般由两部分组成:原始序列数据及其注释。
(√)7.一级数据库与二级数据库之间并无明确的界限。
(√)8.相似性和同源性为同一个概念。
(×)9.蛋白质三维结构都是静态的,在行驶功能的过程中其结构不会改变。
(×)10.生物信息学的发展大致经历了:前基因组时代,基因组时代和后基因组时代。
(√)简答题。
1、生物信息学的主要研究内容是什么?①生物分子数据的收集与管理。
②数据库搜索及序列比较。
③基因组序列分析。
④基因表达数据的分析与处理。
⑤蛋白质结构预测。
2.生物信息学在基因芯片中的应用有哪些?①确定芯片检测目标②芯片设计③实验数据管理与分析。
3.简要介绍GenBank中的DNA序列格式。
GenBank数据库(包括NCBI核酸和蛋白质序列数据库)中条目格式如下:给出描述每一个系列的信息,包括文献参考、系列的功能信息、mRNA和编码区域的位置,以及重要突变的位置。
这些序列信息以字段的形式进行组织,每一行最前端都有一个标识符。
在某些条目中,标识符可能缩写成两个字母(例如RF代表reference),某些字段可能还有次级字段。
计算机程序中的序列条目位于标识符ORIGIN和//之间。
4国际上权威的核酸序列数据库有哪些?①欧洲分子生物学实验室的EMBL②美国生物技术信息中心的GenBank。
③日本遗传研究所的DDBJ。
5.序列分析的任务和目的分别是什么?任务:①发现序列之间的相似性②辨别序列之间的差异。
目的:①相似序列:相似的结构,相似的功能。
②判别序列之间的同源性。
③推测序列之间的进化关系。
简答题2.生物信息学数据库的要求和基本特征是什么?应满足的要求:(1)时效性。
(2)注释。
(3)支撑数据。
(4)数据质量。
(5)集成性。
特征:(1)数据库的更新速度不断加快数据量成指数增长趋势。
(2)数据库使用频率增长更快。
(3)数据库的复杂程度不断增加。
(4)数据库网络化。
(5)面向应用。
(6)先进的软硬件配置。
3.简要介绍FASTA序列格式FASTA 序列格式包括三个部分:(1)在注释行的第一列用字符“>”标识,后面是序列的名字和来源;(2)标准的单字符标记的序列。
(3)可选的“*”表示序列的结束,它可能出现也可能不出现。
但它是许多序列分析程序正确读取序列所必须的。
FASTA格式是序列分析软件最常用的格式。
这种格式提供了从一个窗口到另一个窗口非常方便的拷贝途径,因为序列中没有数字或其他非字符。
FASTA序列格式和蛋白质信息资源NBRF格式很相似。
4.什么是基因识别。
基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。
基因识别的对象主要是蛋白质编码基因。
也包括其他具有一定生物学功能的因子,如RNA 基因和调控因子。
论述题。
1、生物序列相似性搜索的blast程序blastn、blastp、blastx、Tblastn、Tblastx各自有何区别和用途?Blastp:①检测序列:蛋白质。
②数据库类型:蛋白质。
③方法:用检测序列蛋白质搜索蛋白质序列数据库。
Blastn:①检测序列:核酸。
②数据库类型:核酸。
③方法:用检测序列核酸搜索核酸序列数据库。
Blastx①检测序列:核酸。
②数据库类型:蛋白质。
③方法:将核酸序列按6条链翻译成蛋白质序列后搜索蛋白质序列数据库。
Tblastn①检测序列:蛋白质。
②数据库类型:核酸。
③方法:用检测系列蛋白质搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库。
Tblastx①检测序列:核酸②数据库类型:核酸③方法:将核酸序列按6条链翻译成蛋白质序列后搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库。
2.掌握蛋白质结构有什么意义,为什么要进行蛋白质结构预测?(1)研究蛋白质的结构意义重大,分析蛋白质结构、功能及其关系是蛋白质组计划中的一个重要组成部分。
研究蛋白质结构,有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质(或其他分子)之间的相互作用,这无论是对于生物学还是对于医学和药学,都是非常重要的。
(2)对于未知功能或者新发现的蛋白质分子,通过结构分析,可以进行功能注释,指导设计进行功能确认的生物学实验。
通过分析蛋白质的结构,确认功能单位或者结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的依据,同时为新的药物分子设计提供合理的靶分子结构。
2.简述人类基因组计划与生物信息学之间的相互促进关系。
人类基因组计划是美国在1990年提出实施的一项伟大的科学计划,与阿波罗登月计划、曼哈顿原子弹计划统称为人类自然科学史上的三大计划。
自实施以来,该计划在世界各国引起了很大反响。
在人类基因组计划中,人们准备用15年时间,投入30亿美元完成人类全部24条染色体中的3×109个碱基对(bp,base pair)的序列测定,其主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别,还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。
随着人类基因组计划的提出和实施,实验数据和可利用信息急剧增加,人类基因组计划提供了以往不可想象的巨量的生物学信息资源。
基因组信息的收集、储存、分发、分析显得越来越紧迫和重要,信息的管理和分析成为人类基因组计划实施过程中的一项重要工作,人类基因组计划向信息学提出了巨大的挑战。
值得庆幸的是,人类基因组计划一开始就与计算机技术信息、高速公路同步发展,信息技术为生物信息学的发展提供了非常好的条件,为生物信息学的研究和应用提供了非常好的支撑。
生物信息学与人类基因组计划紧密结合,互相渗透,生物信息学成为基因组计划不可分割的一部分。
事实证明,人类基因组计划在生物信息学的支持下,前进步伐大大加快,已经提前完成计划,功能基因组研究也已经全面展开。
而人类基因组计划反过来又大大促进了生物信息学的发展,HGP丰富了生物信息学的研究内容促进生物信息学新思想新方法的产生,生物信息学在最近十年迅速发展的历程证明了这一点。
名词解释或辨析。
1.生物信息学:生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解大量的生物学意义。
2.基因芯片:固定有寡核苷酸、基因组DNA或互补DNA 等的生物芯片。
利用这类芯片与标记的生物样品进行杂交,可对样品的基因表达谱生物信息进行快速定性和定量分析。
3.人类基因组计划:HGP,是一项规模宏大,跨国跨学科的科学探索工程。
其宗旨在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而描绘人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。