生物信息学简答题
- 格式:pdf
- 大小:459.64 KB
- 文档页数:15
大学生生物信息学考试模拟题及解析一、单选题(每题 3 分,共 30 分)1、生物信息学中,用于分析 DNA 序列的常见软件是()A BLASTB ClustalWC Primer PremierD MEGA2、以下哪种数据库主要存储蛋白质结构信息()A GenBankB PDBC UniProtD SWISSPROT3、在基因预测中,开放阅读框(ORF)是指()A 从起始密码子到终止密码子的一段序列B 具有特定功能的一段基因序列C 编码蛋白质的基因序列D 以上都不对4、进行系统发育分析时,常用的构建进化树的方法是()A 邻接法B 最大简约法C 最大似然法D 以上都是5、以下哪种算法常用于序列比对()A 动态规划算法B 贪心算法C 分治法D 回溯算法6、生物信息学中,用于分析基因表达数据的常用方法是()A 聚类分析B 回归分析C 方差分析D 以上都是7、以下哪个不是常见的生物信息学文件格式()A FASTAB GenBankC PDBD CSV8、在蛋白质序列分析中,用于预测蛋白质二级结构的方法是()A 同源建模B 从头预测C 基于机器学习的方法D 以上都是9、进行基因功能注释时,常用的数据库是()A GOB KEGGC ReactomeD 以上都是10、以下哪种技术可以用于大规模测序()A Sanger 测序B 二代测序C 三代测序D 以上都是答案及解析:1、答案:A解析:BLAST(Basic Local Alignment Search Tool)是用于比较生物序列相似性的工具,常用于分析 DNA 序列。
ClustalW 主要用于多序列比对;Primer Premier 常用于设计引物;MEGA 用于构建进化树。
2、答案:B解析:PDB(Protein Data Bank)是主要存储蛋白质结构信息的数据库。
GenBank 主要存储核酸序列;UniProt 和 SWISSPROT 主要存储蛋白质序列信息。
生物信息学复习题### 生物信息学复习题#### 一、选择题1. 生物信息学主要研究的是什么?A. 生物学数据的收集和存储B. 生物学数据的分析和解释C. 生物学实验的设计和执行D. 生物学仪器的操作和维护2. 下列哪一项不是生物信息学中常用的数据库?A. GenBankB. PDBC. PubMedD. Google Scholar3. 序列比对的目的是什么?A. 确定序列间的同源性B. 预测蛋白质的三维结构C. 鉴定基因的功能D. 计算基因的表达量#### 二、填空题1. 生物信息学中的BLAST工具主要用于__________。
2. 基因表达分析中常用的芯片技术包括__________和__________。
3. 在蛋白质结构预测中,同源建模依赖于__________数据库中的已知结构。
4. 转录组测序(RNA-Seq)可以用于研究__________和__________。
#### 三、简答题1. 描述基因组注释的一般流程。
2. 阐述生物信息学在药物设计中的应用。
3. 解释什么是系统发育树,并说明其在进化研究中的意义。
#### 四、计算题1. 给定一段DNA序列,计算其GC含量。
(示例序列:ATCGTACGTAGCTAGCTAG)2. 如果一个蛋白质序列的分子量为12345 Da,其氨基酸的平均分子量为110 Da,计算该蛋白质序列中氨基酸的数量。
#### 五、论述题1. 讨论生物信息学在个性化医疗中的作用和挑战。
2. 分析高通量测序技术对生物信息学领域的影响。
通过以上题目的复习,可以帮助学生掌握生物信息学的基础知识和技能,包括对生物数据的分析、解释和应用。
这些知识点不仅涵盖了生物信息学的基础理论,还涉及到实际应用,如药物设计、个性化医疗等,为学生提供了一个全面的复习框架。
生物信息技术考试试题一、选择题(每题 3 分,共 30 分)1、以下哪个不是生物信息学的主要研究内容?()A 基因组学B 蛋白质组学C 细胞学D 代谢组学2、生物信息学中用于序列比对的常用算法是()A 动态规划算法B 贪心算法C 分治算法D 回溯算法3、在基因表达数据分析中,常用的标准化方法是()A RPKMB TPMC FPKMD 以上都是4、以下哪种数据库主要用于存储蛋白质结构信息?()A GenBankB PDBC UniProtD Ensembl5、进行系统发育分析时,常用的构建进化树的方法是()A 邻接法B 最大简约法C 最大似然法D 以上都是6、以下哪个软件不是用于基因序列分析的?()A Primer PremierB SPSSC DNAStarD Vector NTI7、生物信息学中,预测蛋白质二级结构的方法不包括()A 基于同源建模B 基于机器学习C 基于物理化学原理D 基于经验规则8、在生物信息学中,BLAST 程序主要用于()A 序列比对B 进化分析C 基因预测D 蛋白质结构预测9、以下哪种编程语言在生物信息学中应用较为广泛?()A JavaB PythonC C++D Fortran10、用于分析基因芯片数据的软件包是()A R 语言中的 BioconductorB MATLABC StataD SAS二、填空题(每题 3 分,共 30 分)1、生物信息学中的三大核心数据库是_____、_____、_____。
2、基因序列的相似性搜索常用的工具是_____。
3、蛋白质的一级结构是指_____。
4、常见的基因注释数据库有_____、_____等。
5、系统发育树的构建基于_____的原理。
6、生物信息学中常用的数据格式有_____、_____等。
7、预测蛋白质三级结构的方法主要有_____、_____。
8、基因表达数据的差异分析常用的方法有_____、_____。
9、用于分析高通量测序数据的软件有_____、_____。
本卷的答案仅做参考,如有疑问欢迎提出。
后面的补充复习题要靠你们自己整理答案了。
生物信息学复习题一、填空题1、识别基因主要有两个途径即基因组DNA外显子识别和基于EST策略的基因鉴定。
2、表达序列标签是从mRNA 中生成的一些很短的序列(300-500bp),它们代表在特定组织或发育阶段表达的基因。
3、序列比对的基本思想,是找出检测基因和目标序列的相似性,就是通过在序列中插入空位的方法使所比较的序列长度达到一致。
比对的数学模型大体分为两类,分别是整体比对和局部比对。
4、2-DE的基本原理是根据蛋白质等电点和分子量不同,进行两次电泳将之分离。
第一向是等电聚焦分离,第二向是SDS-PAGE分离。
5、蛋白质组研究的三大关键核心技术是双向凝胶电泳技术、质谱鉴定技术、计算机图像数据处理与蛋白质数据库。
二、判断题1、生物体的结构和功能越复杂的种类就越多,所需要的基因也越多,C值越大,这是真核生物基因组的特点之一。
(对)2、CDS一定就是ORF。
(对)3、两者之间有没有共同的祖先,可以通过序列的同源性来确定,如果两个基因或蛋白质有着几乎一样的序列,那么它们高度同源,就具有共同的祖先。
(错)4、STS,是一段200-300bp的特定DNA序列,它的序列已知,并且在基因组中属于单拷贝。
(对)5、非编码DNA是“垃圾DNA”,不具有任何的分析价值,对于细胞没有多大的作用。
(错)6、基因树和物种树同属于系统树,它们之间可以等同。
(错)7、基因的编码序列在DNA分子上是被不编码的序列隔开而不连续排列的。
( 对)8、对任意一个DNA序列,在不知道哪一个碱基代表CDS的起始时,可用6框翻译法,获得6个潜在的蛋白质序列。
(对)9、一个机体只有一个确定的基因组,但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。
(对)10、外显子和内含子之间没有绝对的区分,一个基因的内含子可以是另一个基因的外显子,同一个基因在不同的生理状况或生长发育的不同阶段,外显子组成也可以不同。
广东海洋大学 2013—— 2014 学年第 一 学期《生物信息学 》课程试题答案课程号: 13432210 √ 考试 √ A 卷 √ 闭卷 □ 考查□ B 卷□ 开卷一、 简答题(一) 生物信息学及主要内容?(3)生物信息学是生物和信息技术的结合,这一学科包括了用来管理、分析和操作大量生物数据集的任何计算工具和方法。
(二) 生物信息学主要由哪三个组成部分?(6)1、 建立可以存放和管理大量生物信息学数据集的数据库;2、 开发确定大数据集中各成员关系的算法和统计方法;3、 使用这些工具来分析和解释不同类型的生物数据,包括DNA ,RNA 和蛋白质序列、蛋白质结构、基因表达以及生化途径。
(三) 存储在GenBank 中DNA 序列的类型?(6) 1、基因组DNA 2、cDNA 3、重组DNA(四) 解释下图说明基因组测序的策略?(6)1、霰弹测序法(shot gun sequencing):随机打碎大DNA 分子,通过很多测序反应来覆盖整个分子,完整的序列通过使用计算机搜索重叠区来重新拼接。
2、克隆重叠群(clone contig)的方法中,DNA 片段用推理的方法亚克隆,并且进行系统的测序直到整个序列完成。
(五) 按制备方式分DNA 芯片的主要类型?(6)1、 原位合成芯片:采用显微光蚀刻等技术在特定部位原位合成寡核苷酸而制备的芯片。
探针较短;2、 DNA 微集阵列:将预先制备的DNA 片段以显微打印的方式有序地固化于支持物表面而制成的芯班级:姓名:学号:试题共页加白纸 2张密封线GDOU-B-11-302片。
探针的来源较灵活。
(六) 解释下图说明用芯片如何测定不同组织中基因表达的差异?(8)1、将要检测的基因用芯片点样仪芯片上2、提取待测样品和对照样品的RNA,分别用用Cy3标定一种RNA,而用Cy5标定另一种RNA。
Cy3发红色荧光,Cy5发绿色荧光。
3、用不同的激发光照射,测定两种样品中DNA的表达量。
生物信息学_复习题及答案(打印)(1)一、名词解释:1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。
P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。
包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
P299.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。
生物信息学基础考试试题生物信息学基础考试试题回答一、选择题(每题5分,共20题)1. 生物信息学的定义是什么?A. 研究生物的基本信息B. 利用计算机科学分析生物学数据C. 研究生物的遗传编码D. 生物学的一个分支学科答案:B2. 以下哪个是常用的生物信息学数据库?A. NCBIB. C++C. DNAD. Photosynthesis答案:A3. 在DNA序列中,碱基A配对的是?A. TB. CC. GD. U答案:A4. 以下哪个是生物信息学中常用的序列比对算法?A. BLASTB. MATLABC. PCRD. ELISA答案:A5. 基因组学是研究什么的科学?A. 蛋白质结构B. DNA修复C. 基因组DNA的组成和功能D. 细胞分裂答案:C6. 哪种技术可用于测定DNA序列?A. 单克隆抗体技术B. RNA干扰技术C. 半制备列序法D. 高效液相色谱法答案:C7. 生物信息学中的序列模拟是指什么?A. 通过计算机模拟生物进化过程B. 利用计算机模拟DNA合成过程C. 模拟生物对某种药物的反应D. 利用计算机模拟细胞分裂过程答案:A8. 以下哪个是生物信息学的一个重要应用领域?A. 化学合成B. 建筑设计C. 新药研发D. 环境保护答案:C9. 哪个工具常用于分析生物信息中的调控网络?A. PhotoshopB. CytoscapeC. ExcelD. SPSS答案:B10. 蛋白质结构预测是生物信息学的一个重要研究方向,以下哪种是蛋白质的一级结构?A. α螺旋B. 葡萄糖C. 多肽链D. 抗原答案:C11. 生物信息学与生物医学工程有什么相似之处?A. 都研究细胞生物学B. 都属于理学院系C. 都涉及到计算机科学D. 都使用相同的实验方法答案:C12. 在基因组测序中,什么是基因组装?A. 利用计算机将碎片序列拼接成连续的基因组B. 测定基因组中的突变位点C. 研究基因间的调控关系D. 将RNA转录为蛋白质的过程答案:A13. 以下哪个不属于生物信息学的软件工具?A. BLASTB. PhotoshopC. RD. Python答案:B14. 哪种常见的DNA测序技术被广泛应用于基因组学研究?A. Sanger测序B. 吉姆斯法则C. CRISPR-Cas9技术D. 免疫印迹法答案:A15. 生物信息学中的反向遗传学用于研究什么?A. DNA复制B. 基因的转录和翻译C. RNA干扰D. 基因组的组装答案:B16. 哪种方法可用于鉴定基因表达谱中的关键基因?A. 蛋白质降解法B. 基因芯片技术C. 聚合酶链式反应D. 免疫组化技术答案:B17. 生物信息学研究中常用的基因表达定量方法是什么?A. Western BlotB. ELISAC. qPCRD. 蛋白质组学答案:C18. 生物信息学中的系统生物学研究的是什么?A. 各个细胞器的功能B. 化学元素与生物体的相互作用C. 生物学过程中的相互关系D. 各个动物种群的遗传特征答案:C19. 下面哪个数据库不是用于蛋白质结构预测的?A. PDBB. UniProtC. Swiss-ProtD. Entrez Gene答案:D20. 生物信息学中常用的序列对比方法是什么?A. 水平基因转移B. Smith-Waterman算法C. 单克隆抗体制备D. RNA干扰技术答案:B二、简答题(每题10分,共5题)1. 编程语言在生物信息学中的作用是什么?编程语言在生物信息学中扮演着重要角色。
生物信息学题库一、名词解释1、生物信息学:生物分子信息的获取、存贮、分析和利用;以数学为基础,应用计算机技术,研究生物学数据的科学。
2、相似性(similarity):相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。
3、同源性(homology):生物进化过程中源于同一祖先的分支之间的关系。
4、BLAST(Basic Local Alignment Search Tool):基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
5、HMM隐马尔可夫模型:是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。
6、一级数据库:一级数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释(投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中)7、二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
8、GenBank: 是具有目录和生物学注释的核酸序列综合公共数据库,由NCBI构建和维护。
9、EMBL:EMBL 实验室——欧洲分子生物学实验室,EMBL 数据库——是非盈利性学术组织 EMBL 建立的综合性数据库,EMBL 核酸数据库是欧洲最重要的核酸序列数据库,它定期地与美国的 GenBank、日本的 DDBJ 数据库中的数据进行交换,并同步更新。
10、DDBJ: 日本核酸序列数据库,是亚洲唯一的核酸序列数据库。
11、Entrez:是由 NCBI 主持的一个数据库检索系统,它包括核酸,蛋白以及Medline 文摘数据库,在这三个数据库中建立了非常完善的联系。
12、SRS(sequence retrieval system):序列查询系统,是 EBI 提供的多数据库查询工具之一。
一、简答。
(本题满分70分)1、简述生物信息学产生的历史必然性,以及生物信息学的主要研究内容?(本小题满分20分)答:生物信息学的产生,是生物科学与计算机技术的结合。
20世纪后期,生物科学技术迅猛发展,无论从数量上还是从质量上都极大地丰富了生物科学的数据资源。
数据资源的急剧膨胀迫使人们寻求一种强有力的工具去组织这些数据,以利于储存、加工和进一步利用。
而海量的生物学数据中必然蕴含着重要的生物学规律,这些规律将是解释生命之谜的关键,人们同样需要一种强有力的工具来协助人脑完成对这些数据的分析工作。
另一方面,以数据分析、处理为本质的计算机科学技术和网络技术迅猛发展?并日益渗透到生物科学的各个领域。
于是,一门崭新的、拥有巨大发展潜力的新学科——生物信息学——悄然兴起。
生物信息学的诞生及其重要性早在1956年,在美国田纳西州盖特林堡召开的首次“生物学中的信息理论研讨会”上,便产生了生物信息学的概念。
但是,就生物信息学的发展而言,它还是一门相当年轻的学科。
直到20世纪80—90年代,伴随着计算机科学技术的进步,生物信息学才获得突破性进展。
1987年,林华安博士正式把这一学科命名为“生物信息学”(Bioinformatics)。
此后,其内涵随着研究的深入和现实需要的变化而几经更迭。
1995年,在美国人类基因组计划第一个五年总结报告中,给出了一个较为完整的生物信息学定义:生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。
生物信息学不仅是一门新学科,更是一种重要的研究开发工具。
从科学的角度来讲,生物信息学是一门研究生物和生物相关系统中信息内容与信息流向的综合系统科学。
只有通过生物信息学的计算处理,人们才能从众多分散的生物学观测数据中获得对生命运行机制的系统理解。
从工具的角度来讲,生物信息学几乎是今后所有生物(医药)研究开发所必需的工具。
一、名词解释(31个)1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。
狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。
2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
3.多序列比对:研究的是多个序列的共性。
序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。
4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。
5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。
指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。
(来自百度)6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。
用来描述在同一物种内由于基因复制而分离的同源基因。
(来自百度)7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。
8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。
(来自百度)9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域,折叠得较为紧密,各行其功能,称为结构域。
10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分,以控制空位插入的合理性。
(来自百度)11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的3’或5’端序列。
1、简述生物信息学产生的历史必然性,以及生物信息学的主要研究内容?(本小题满分20分)答:生物信息学的产生,是生物科学与计算机技术的结合。
20世纪后期,生物科学技术迅猛发展,无论从数量上还是从质量上都极大地丰富了生物科学的数据资源。
数据资源的急剧膨胀迫使人们寻求一种强有力的工具去组织这些数据,以利于储存、加工和进一步利用。
而海量的生物学数据中必然蕴含着重要的生物学规律,这些规律将是解释生命之谜的关键,人们同样需要一种强有力的工具来协助人脑完成对这些数据的分析工作。
另一方面,以数据分析、处理为本质的计算机科学技术和网络技术迅猛发展?并日益渗透到生物科学的各个领域。
于是,一门崭新的、拥有巨大发展潜力的新学科——生物信息学——悄然兴起。
生物信息学的诞生及其重要性早在1956年,在美国田纳西州盖特林堡召开的首次“生物学中的信息理论研讨会”上,便产生了生物信息学的概念。
但是,就生物信息学的发展而言,它还是一门相当年轻的学科。
直到20世纪80—90年代,伴随着计算机科学技术的进步,生物信息学才获得突破性进展。
1987年,林华安博士正式把这一学科命名为“生物信息学”(Bioinformatics)。
此后,其内涵随着研究的深入和现实需要的变化而几经更迭。
1995年,在美国人类基因组计划第一个五年总结报告中,给出了一个较为完整的生物信息学定义:生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。
生物信息学不仅是一门新学科,更是一种重要的研究开发工具。
从科学的角度来讲,生物信息学是一门研究生物和生物相关系统中信息内容与信息流向的综合系统科学。
只有通过生物信息学的计算处理,人们才能从众多分散的生物学观测数据中获得对生命运行机制的系统理解。
从工具的角度来讲,生物信息学几乎是今后所有生物(医药)研究开发所必需的工具。
只有根据生物信息学对大量数据资料进行分析后,人们才能选择该领域正确的研发方向。
生物信息学不仅具有重大的科学意义,而且具有巨大的经济效益。
它的许多研究成果可以较快地产业化,成为价值很高的产品。
生物信息学的研究内容生物信息学的研究内容是伴随着基因组研究而发展的。
广义地说,生物信息学从事对基因组研究相关生物信息的获取、加工、存储、分配、分析和解释。
这个定义的含义是双重的:一是对海量数据的收集、整理与服务,即管理好这些数据;二是从中发现新的规律,也就是用好这些数据。
具体地说,生物信息学是把基因组DNA(脱氧核糖核酸)序列信息分析作为源头,找到基因组序列中代表蛋白质和RNA(核糖核酸)基因的编码区。
同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言规律。
在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。
纵观当今生物信息学界的现状可以发现,大部分研究人员都把注意力集中在基因组、蛋白质组、蛋白质结构以及与此密切相关的药物设计上。
1.基因组基因组研究的首要目标是获得人的整套遗传密码。
人的遗传密码有32亿个碱基,而现在的DNA测序仪每个反应只能读取几百到上千个碱基。
这样,要得到人的全部遗传密码,首先要把人的基因组打碎,测完一个个小段的序列后再把它们重新拼接起来。
而基因组大规模测序的每一个环节,都同信息分析紧密相关,每一步都紧密依赖于生物信息学的软件和数据库。
2.蛋白质组基因组对生命体的整体控制必须通过它所表达的全部蛋白质来执行。
由于基因芯片技术只能反映从基因组到RNA的转录水平上的表达情况,而从RNA到蛋白质还有许多中间环节的影响,这样,仅凭基因芯片技术人们还不能最终掌握生物功能的具体执行者——蛋白质的整体表达状况。
因此,近年在发展基因芯片的同时,人们还发展了一套研究基因组所有蛋白质产物表达情况的技术——蛋白质组研究技术,包括二维凝胶电泳技术和质谱测序技术。
然而,最重要的是如何运用生物信息学的方法去分析获得的海量数据,从中还原出生命运转和调控的整体系统的分子机制。
3.蛋白质结构及新药设计基因组和蛋白质组研究的迅猛发展,使许多新蛋白序列涌现出来。
要了解它们的功能,只有氨基酸序列是远远不够的。
得到这些新蛋白的完整、精确和动态的三维结构,是摆在人们面前的紧迫任务。
近年,随着结构生物学的发展,相当数量的蛋白质以及一些核酸、多糖的三维结构获得了精确的测定。
根据生物大分子结构的知识,有针对性地设计药物成为热点。
生物信息学的研究不仅可以提供生物大分子空间结构的信息,还能提供电子结构的信息,如能级、表面电荷分布、分子轨道相互作用以及动力学行为的信息。
但是,生物信息学的任务远不止于此,最重要的是如何运用数理理论成果,对生物体进行完整系统的数理模型描述,以便使人类能够从一个更明确的角度、以一种更易于操作的方式,来认识和控制自身以及其他生命体。
2.通过一个具体的实例分析,说明利用生物信息学进行蛋白质结构研究的策略,要求最终得到蛋白质3D建模结果(本小题满分30分)。
答:1982年Prusiner(布鲁西纳)从仓鼠中分离出了一种蛋白质因子,它具有感染性,是绵羊瘙痒病和库鲁症等致命疾病的致病因子。
后来的研究发现,在神经突触膜上有一种穿膜糖蛋白,肽链中富含α螺旋,它是Prnp基因的正常表达产物,是prion的前身物。
prion肽链中富含β折叠,是致病因子,具有感染性。
组成prion的物质是不含核酸的蛋白质,这种蛋白质称为prion蛋白质(prion protein)。
本题以prion蛋白质为例,利用生物信息学进行蛋白质结构研究。
(1)利用BioEdit软件分析Prion的氨基酸组成:Sequence → Protein → Amino Acid Composition,结果如下。
(2)利用BioEdit软件分析Prion的亲水性(hydrophilicity)、疏水性(Hydrophobicity)情况:Sequence → Protein →Kyte & Doolittle Scale Mean Hydrophobicity Profile,(3)NCBI → Blast → bBlast(蛋白对蛋白的)……可分别得该Prion的保守结构域(4)利用“Motif Scan”网站对Prion蛋白质进行motif结构分析,分析结果如下图所示,其中,Summary一栏是该蛋白列所包含的全部motif,而Match Details一栏则是对所有这些motif的评分,即符合程度分析:(网址http://hits.isb-sib.ch/cgi-bin/PFSCAN)(5)利用“Prosite”网站对Prion蛋白质进行motif结构分析,分析结果如下图所示(网站http://www.expasy.ch/prosite/): (6)利用PredictProtein网站对人Prion Protien序列的二级结构预测,结果如下。
(要先Register,再sign in,中间等待时间长,网址/)结果如下:(7)利用Swiss-Model网站对Prion蛋白进行高级结构预测和同源建模:Modeling→myWorkplace→Automated Mode,只有两种结果,如下,使用rasmol软件能使蛋白空间结构可视化。
3.生物信息学的发展经历了哪几个阶段答:生物信息学的发展经历了3个阶段。
第一个阶段是前基因组时代。
这一阶段主要是以各种算法法则的建立、生物数据库的建立以及DNA和蛋白质序列分析为主要工作;第二阶段是基因组时代。
这一阶段以各种基因组计划测序、网络数据库系统的建立和基因寻找为主要工作。
第三阶段是后基因组时代。
这一阶段的主要工作是进行大规模基因组分析、蛋白质组分析以及其他各种基因组学研究。
4.生物信息学步入后基因组时代后,其发展方向有哪几个方面。
答:生物信息学步入后基因组时代后,其发展方向主要有:①各种生物基因组测序及新基因的发现;②单核苷酸多态性(SNP)分析;③基因组非编码区信息结构与分析;④比较基因组学和生物进化研究;⑤蛋白质结构和功能的研究。
5.美国国家生物技术信息中心(NCBI)的主要工作是什么?请列举3个以上Entrez系统可以检索的数据库。
(NCBI 维护的数据库)NCBI的主要工作是在分子水平上应用数学和计算机科学的方法研究基础生物,医学问题。
为科学界开发,维护和分享一系列的生物信息数据库;开发和促进生物信息学数据库,数据的储存,交换以及生物学命名规则的标准化。
维护的主要数据库包括:PubMed、核酸序列数据库GenBank、PROW、三维蛋白质结构分子模型数据库MMDB。
6.序列的相似性与同源性有什么区别与联系?答:相似性是指序列之间相关的一种量度,两序列的的相似性可以基于序列的一致性的百分比;而同源性是指序列所代表的物种具有共同的祖先,强调进化上的亲缘关系。
P1477.BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么?答:blastn是将给定的核酸序列与核酸数据库中的序列进行比较;Blastp是使用蛋白质序列与蛋白质数据库中的序列进行比较,可以寻找较远的关系;Blastx将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对,对分析新序列和EST 很有用;Tblastn将给定的氨基酸序列与核酸数据库中的序列(双链)按不同的阅读框进行比对,对于寻找数据库中序列没有标注的新编码区很有用;Tblastx只在特殊情况下使用,它将DNA被检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列,然后进行蛋白质序列比对。
P978.简述BLAST搜索的算法思想。
答:BLAST是一种局部最优比对搜索算法,将所查询的序列打断成许多小序列片段,然后小序列逐步与数据库中的序列进行比对,这些小片段被叫做字”word”;当一定长度的的字(W)与检索序列的比对达到一个指定的最低分(T)后,初始比对就结束了;一个序列的匹配度由各部分匹配分数的总和决定,获得高分的序列叫做高分匹配片段(HSP),程序将最好的HSP双向扩展进行比对,直到序列结束或者不再具有生物学显著性,最后所得到的序列是那些在整体上具有最高分的序列,即,最高分匹配片段(MSP),这样,BLAST 既保持了整体的运算速度,也维持了比对的精度。
P959.什么是物种的标记序列?答:指物种特有的一段核苷酸序列。
可以通过相似性查询,得到某一序列在数据库中的某一物种中反复出现,且在其他物种中没有的明显相似的序列。
10.什么是多序列全局比对的累进算法?(三个步骤)答:第一,所有的序列之间逐一比对(双重比对);第二,生成一个系统树图,将序列按相似性大致分组;第三,使用系统树图作为引导,产生出最终的多序列比对结果。