当前位置:文档之家› 六生物信息学和进化研究方法

六生物信息学和进化研究方法

六生物信息学和进化研究方法
六生物信息学和进化研究方法

生物信息学和进化的研究方法

蛋白质序列清楚地反映出生物的进化关系。Jane Goodall和一只黑猩猩互动提示人类与黑猩猩亲缘关系近。血红蛋白的氨基酸序列也证明人类与黑猩猩的亲缘关系。在血红蛋白153个氨基酸残基中,人血红蛋白(红色)与黑猩猩血红蛋白(蓝色)只有一个氨基酸残基不同。[左边, Kennan Ward/Corbis.]

如同人类家族的成员一样,分子家族的成员有一些共同的特征。比较蛋白质的三维结构(即与蛋白功能关系最密切的参数),我们很容易鉴定蛋白家族成员。我们在蛋白质折叠章节介绍过的牛核酸酶,其三维结构与人核酸酶的三维结构颇为类似(图6.1)。虽然这种类似性在意料之中(因为这两个蛋白质的功能是一样的),但是有些情况下这种比较却获得了我们意料之外的结果。例如血管生成素(angiogenin)是能够刺激血管生成的蛋白质。但是血管生成素的三维结构与核酸酶三维结构非常相似,说明血管生成素和核酸酶属于同一蛋白家族(图6.2)。因此它们肯定来自同一祖先分子。

图6.1 牛和人核酸酶结构。功能类似性的蛋白质常常具有结构类似性。[Drawn from 8RAT.pdb. and 2RNF.pdb]

图6.2 血管生成素的结构。该蛋白质能促进血管生长,具有与核酸酶非常相似的三维结构。

遗憾的是,知道三维结构的蛋白质数量有限。我们知道很多蛋白质的编码基因序列或氨基酸序列(得益于DNA克隆和DNA序列测定)。在蛋白质氨基酸序列水平就能观测到蛋白质的进化关系。例如牛核糖核酸酶和血管生成素的氨基酸序列有35%的氨基酸残基是一致的。那么这种相似性水平是否足以保证蛋白质的进化关系?如果不够,需要多高的相似性才能说明蛋白质有进化关系?本章介绍氨基酸序列比较的方法和推测蛋白质进化关联的方法。

序列比较已经成为现代生物化学研究的最有力工具之一。最新鉴定的新序列与数据库比较,确定与该序列相关的分子。利用这些信息,能够研究具有这种新近测序分子功能和机制。如果三维结构也清楚,我们能比较三维结构、证实序列比较的结论,还能揭示那些序列比较没有发现的成员。

考察现有蛋白序列的脚印,生化学家成了分子考古学家,能了解分子进化史所发生的事件。序列比较能够确定进化途径、估计特定进化事件发生的时间。利用这些信息能够构建特定蛋白质或核酸从古生菌和细菌到真核生物(包括人类)的进化树。也可以用实验方法研究分子进化。有些化石的DNA分子也可以进行PCR扩增和测序,直接观察古代的分子序列。此外科研人员也可以进行一些核酸复制实验观察实验室的分子进化。这些研究的结果能揭示更多的分子进化机制。

6.1 同源物来自同一祖先

生物化学进化的研究主要是确定蛋白质、其它生物分子、以及生物化学途径如何随着时间发生的变化。来自同一祖先的两个物体就是同源关系。同源(homologus)分子或同源物(homologs)可以分为两类(图6.3)。侧向同源物(paralogs)指同种生物的同源物。直向同源物(orthologs)指不同物种间具有非常相似甚至一致功能的同源物。了解分子间的同源性能够揭示分子的进化历史和它们的生物功能。如果新近测序的蛋白质与功能已知蛋白具有同源性,那么这个新近测序的蛋白质也可能具有这样的生物功能。

如何确定人类两种蛋白质具有侧向同源?如何确定人类蛋白和酵母蛋白具有直向同源?我们在6.2节要介绍这方面的内容。核酸序列或氨基酸序列之间有显著的类似性常常表

明这些物质之间有同源性。当然,三维结构比较更能揭示生物分子的同源性。

图 6.3 两类同源蛋白。不同生物体内执行类似甚至相同功能蛋白质属于垂直同源物(ortholog)。而同一物种内执行不同功能的相似蛋白叫侧向同源蛋白(paralog)。

6.2 序列比对的统计分析检测同源性(homology)

两个分子之间有显著的序列类似性提示这两个分子可能有共同的进化祖先,因此有同样的三维结构、生物功能和作用机制。虽然核酸序列和蛋白质序列都可用来进行序列比对,但是蛋白质氨基酸序列比对更好。最显著的原因是构建蛋白质的单体有20种,而构建核酸的单体只有4种。

为了解释蛋白质比较的方法,我们先考察球蛋白。肌红蛋白是肌肉组织的氧结合蛋白,而血红蛋白是血液的载氧蛋白(第7章)。这两种蛋白质都有血红素辅基(一种有铁的有机分子,能结合氧)。人血红蛋白有4个多肽链,每个多肽链结合一个血红素辅基。这四个多肽链分别是两个完全一样的??链和两个完全一致的??链。此处我们仅考察??链。研究人血红蛋白??链的氨基酸序列与人肌红蛋白氨基酸序列之间的类似性(图6.4)。为了确定这两个序列之间的类似性,建立了序列比对方法。

图6.4 人血红蛋白??链和人肌球蛋白进行序列比对。??链血红蛋白有141个氨基酸,肌红蛋白有153个氨基酸。

如何比对两个序列?最简单的方法是将一个蛋白质的氨基酸序列与另一个蛋白质的氨基酸序列进行所有可能的比对,记录各种比对所获得的一致残基的数目。这种比对不难,只需每次将一个序列沿着另一个序列滑行一位,计算匹配氨基酸残基的数量(图6.5)。

图6.5 人血红蛋白??链和人肌球蛋白进行序列比对。(A)一条序列沿另一条序列滑行,进行序列比对(每次滑行一个氨基酸位点),统计两条多肽链中氨基酸一致的位点数量。(B) 匹配数量最多的比对模式(上),将一致氨基酸位点数量(纵轴)与滑行位点(横轴)作图(下)。

??链和肌红蛋白最佳比对只有23个位点是一致的,分散在多肽链中央区域。但是,相近的比对有22个一致位点,而且这些位点集中于蛋白质的N-端。如果在比对过程中引入缺口,就能将上述两种比对的大多数一致位点都囊括进来(图6.6)。在比对过程中需要添加这种缺口以补偿基因进化过程中出现的插入或缺失。

图6.6 添加缺口的比对。人血红蛋白??链和肌红蛋白在加入缺口后的序列比对。

但是用缺口的办法增加了序列比对的复杂性,因为序列比对时所选择的缺口大小有人为因素。现在已建立了计算机自动进行序列比对时添加缺口的方案。这种方法采用打分系统评估各种比对方案,利用缺口惩罚来排除序列比对时出现的不合理缺口。例如一致位点加10分,一个缺口(无论缺口大小)扣25分。图6.6的比对方案得355分(38个一致位点和一个缺口,38 x 10 - 1 x 25 = 355)。这样,这两个蛋白质之间氨基酸一致性就达到25.9% (两个蛋白质平均长度是147氨基酸残基,有38个一致位点)。下面的问题是,这样的一致性是否属于明显类似?

用重排的方法估计比对的统计学意义

图6.5展示的序列类似性似乎是显著的,但是不能排除偶然出现了这些一致性的可能。

如何评估这些偶然性?采用的策略是将某一蛋白质的氨基酸序列进行随机重排(shuffling),然后将重排所得蛋白序列与目标序列比对(图6.7)。重复这一过程,构建出各种重排蛋白的得分。

采用这种策略,肌红蛋白和血红蛋白??链之间权威比对就凸现出来(图6.8)。权威比对的数值远高于随机重排蛋白的平均值。随机重排1020次,才出现一次这种比对值。因此我们可以轻松地认为这两个序列确实是类似的。最简单的解释是这两种蛋白序列来自同一祖先,属于同源物。

图6.7 重排产生的一个新序列。

图6.8 比对计分的统计比较。计算重排序列比对的计分值,产生该计分值出现的次数。用出现次数对比对计分值作图。该图表示随机重排序列比对的积分分布。??链和肌红蛋白序列比对计分(红色)远远高于随机重排的计分,强烈提示这两个蛋白序列相似性明显。

采用替代矩阵确定进化关系

上述打分方案只关心一致位点和缺口,没有考虑那些不一致的位点。但是,并不是所有不一致位点(即替代位点)都是等效的。有些替代是保守替代,即用性质和结构相似的氨基酸进行的替代。保守替代对蛋白质功能影响最小。有些替代用性质和结构完全不同的氨基酸进行替代。此外,有些替代只需更换一个核苷酸,有些替代要更换两个或三个核苷酸。保守替代或单核苷酸替代发生频率比非保守性替代的频率高。那么,当我们进行序列比对时,如何评价不同的替代?要解决这个问题,首先要考察有进化关系的蛋白质分子中已经存在的氨基酸替代。

基于序列适当比对的数据,人们提出了替代矩阵。在该矩阵中,那些发生频率高的替代,得分高;那些发生频率非常少的替代,失分就多。图6.9是Blosum-62替代矩阵。从该表可以看出半胱氨酸和色氨酸比丝氨酸和丙氨酸保守得多。而且结构上保守的替代,如赖氨酸替代精氨酸、异亮氨酸替代颉氨酸,得分就比较高。在进行两个序列比对时,要给每个替代打分。对缺口的打分也细化了。一个氨基酸残基缺口扣12分,在此基础上缺口每增加一个残基加扣2分。采用这种打分方式,图6.6比对就能够获得115分。大多数替代是保守替代(得分是正值),极少数替代是稀有替代(得分是负值)(图6.10)。

图6.9 Blosum-62替代矩阵。考察同源蛋白各种替代发生的机会,制定该打分方案。氨基酸归为四类:带电氨基酸(红色);极性氨基酸(绿色);大的非极性氨基酸(蓝色);其它氨基酸(黑色)。只需要改变一个核苷酸的替代用阴影标出。当你寻找一种替代应该给出的打分时,你在顶部寻找原来的氨基酸(在每列的顶部),然后向下寻找替代氨基酸,从表格左边查找相应的得分。

图6.10 考虑保守替代的序列比对。??链和肌红蛋白序列比对,保守替代用黄色涂出,相同氨基酸用桔子颜色涂出(在框内)。

这种打分系统在比对那些序列缺乏明显相关性的蛋白质方面,其灵敏度比仅仅依靠一致性位点打分系统高。例如豆血红蛋白(leghemoglobin)是一些植物根部的氧结合蛋白,其氨基酸序列与人血红蛋白氨基酸序列进行比对。重复重排和打分的分布值见图6.11。基于一致性进行的打分,用重排打分评价是20次重排就有一次机会产生的得分与一致性打分系统得分

相同,因此是一种偶然性类似。相反用替代矩阵打分系统打分,用重排打分评价是300次才有一次机会得分与替代矩阵打分系统相同的得分。因此用矩阵打分系统得出的蛋白进化关联性结论更可靠(图6.12)。

基于序列分析的经验得到了一些简单的评估原则。对于长度超过100氨基酸的两个蛋白质,序列一致性超过25%就不可能是偶然的,很可能是同源物。相反,序列一致性低于15%的两个蛋白质仅仅依靠匹配比较显示的类似性没有显著的统计意义。而序列一致性在15% ~ 25%之间的蛋白质,需要进一步分析以确定比对的统计意义。必须指出,序列相似性在统计上不明显的蛋白质也有可能是同源物。从同一祖先进化而来的很多蛋白质差异化程度高至序列比对无法看出它们的同源性。这类同源蛋白的三维结构相似。

图6.11 一致性比对和Blosum 62矩阵比对。重复重排打分对豆血红蛋白和人肌红蛋白序列比对进行评估,简单一致性比对(A)和Blosum 62矩阵打分比对(B)。红色显示真正序列的比对,说明Blosum矩阵打分的统计意义明显。

图6.12 人肌红蛋白和豆血红蛋白进行的序列比对(采用Blosum 62替代矩阵打分系统)。保守替代用黄色涂出,相同氨基酸加框,用桔子颜色涂出。

搜寻数据库、确定同源序列

确定一个蛋白序列后,首先要做的事情就是将这个蛋白质的氨基酸序列与所有已经鉴定的蛋白序列比较,从而了解这种蛋白质的进化、结构与功能。就是采用前面介绍的比对方案将这个蛋白质的氨基酸序列与序列已知蛋白数据库的所有成员进行比对。

最常用的同源序列搜寻可以在国立生物技术信息中心网站(https://www.doczj.com/doc/ae7259970.html,)完成。所用的方法是BLAST搜寻(基本局部比对搜寻工具,basic local alignment search tool)。氨基酸序列可以打印或粘贴到网站上,进行搜寻。最常用的是进行所有已知序列非冗余数据库搜寻。截至2004年,该数据库有300多万序列。BLAST搜寻产生一个序列比对表,每栏数据后标出了偶然发生这种相似性的几率(图6.13)。

1995年,研究人员报道了第一例自由生活生物(Hamophilus fluenza, 嗜血流感细菌)的全基因组序列。将这个基因组序列推测出来的编码蛋白序列进行BLAST搜寻,1743种蛋白质中有1007种蛋白质(58%)与早先鉴定的其它生物的功能已知蛋白密切相关。还有347种蛋白与数据库内其它生物的"假定蛋白"相关。其余389种序列与数据库的任何序列没有关联性。因此纯粹进行序列比对就能够确定该生物半数以上蛋白质的功能。

图6.13 BLAST搜寻的结果。用Ecoli核糖5-磷酸异构酶(也称为磷酸戊糖异构酶)的序列BLAST搜寻非冗余序列(nr)数据库的部分结果。其中有268个序列是人类同源蛋白的垂直同源物。这些序列的比对用黄色标出。E数据(用红色标出)显示偶然出现同一水平类似性的几率是2 x 10-25。由于这个数据远远低于1,因此这种序列比对具有显著的统计意义。

6.3 三维结构比较有助于进化关系研究

蛋白质序列比较是了解蛋白质功能和亲缘关系的有力工具。但是,生物分子的功能更取

决于它的三维结构。只有功能才能反映序列变异的效果,而功能是由分子的空间结构决定的。因此,为了深入了解蛋白质的进化关系,我们必须考虑蛋白质的三维结构,尤其是与三维结构相关的氨基酸序列。第3章我们介绍了测定蛋白质结构的方法。

三级结构比一级结构更保守

由于蛋白三维结构与功能的关联性比一级结构与功能的关联性更高,因此在进化上三维结构比一级结构更保守。球蛋白的三维结构就反映了这一点(图6.14)。虽然人血红蛋白??链与豆血红蛋白在氨基酸序列比对方面只有15.6%一致性(没有显著的统计意义),但是它们的三维结构很保守。这种结构保守性使这些蛋白质能够结合血红素,有助于它们可逆性结合氧分子。

图6.14 三维结构保守性。人血红蛋白??链,肌红蛋白,和豆血红蛋白三维结构保守。每个血红素辅基有一个铁原子。氧分子就是结合于该铁原子上。[Drawn from 1HBB.pdb, 1MBD.pdb, and 1GDJ.pdb.]

当你知道血红蛋白、肌红蛋白和豆血红蛋白的生物化学功能相似,你就会预测它们有相似的结构。但是有越来越多的证据显示,从前预测并不相关的蛋白质,其三维结构明显类似。肌动蛋白(actin)是细胞骨架的一个主要组分(34.2节)。热休克蛋白70(Hsp-70)协助胞内蛋白折叠。这两种蛋白质序列一致性只有15.6%(图6.15)。但是三维结构比对显示它们是侧向同源物。尽管这两种蛋白质在现代生物体内生物功能不同,但是结构类似性显示它们来自同一祖先。由于测定三维结构的蛋白质越来越多,发现这种意料之外的亲缘关系的频率越来越大。计算机搜寻进行的三维结构比对能够将你确定的蛋白三维结构与三维结构已知的蛋白数据库内其它蛋白进行比对。

图6.15 肌动蛋白和HSP70大片段的结构。相同的结构用颜色标出。尽管这两者蛋白功能差异很大,但是这两种蛋白的三维结构很相似。[Drawn from 1ATN.pdb and 1ATR.pdb]

三维结构信息有助于评估序列比对结果

至今所建立的序列比对方法的基础是同等看待蛋白质序列的各个位点。但是蛋白质分子内有些区域或有些氨基酸比其它位点更为保守,是维持蛋白质三维结构的关键。例如各种球蛋白中心都有与铁原子结合的血红素辅基。直接与铁原子结合的组氨酸(人肌红蛋白64位残基)在这些球蛋白中保守。确定一个家族蛋白的保守残基或保守序列后,我们就能确定该家族蛋白的其它成员(尽管这些成员之间序列类似性的总水平没有统计意义)。因此制作一个序列模板可能就很有用。序列模板标出了该蛋白家族重要的氨基酸残基。利用序列模板能够鉴定其它方法不能鉴定的家族成员。有些方法利用三维结构已知的信息,对蛋白质氨基酸序列进行归类。还有些方法用来鉴定一个蛋白家族的保守氨基酸(即使不知道这些家族蛋白的三维结构)。这些方法常常采用替代矩阵,这种替代矩阵能确定同一家族蛋白序列的各个位点的替代差异,从而确定相当远的进化关系。

自身序列比对确定重复模体(motif,或翻译成基序)

有10%以上的蛋白质,分子内有两个或多个相似的结构域。序列搜寻方法能够确定已经在其它分子内鉴定出的重复序列。但是,如何确定分子内新的、尚未在其它分子中鉴定的重复单位?可以将序列进行自我比对。将该区域作为独立的蛋白质进行比对、评估这种重复的统计意义。TATA box结合蛋白是控制基因转录的关键蛋白(29.2节)。比对找出了分子内的重复序列。有很明显的统计意义,90个氨基酸中有30%氨基酸是一致的(图6.16A)。随

机重排出现这样类似性的几率是10-13。TA TA box结合蛋白的三维结构也证明该蛋白有重复结构。该蛋白有两个几乎一致的结构域(图6.16B)。这些证据显示编码一个结构域的基因产生重复形成了该蛋白的编码基因。

图6.16 内部重复的序列比对。(A)TATA box结合蛋白的两个重复进行的序列比对。N-端重复用绿色表示,C-端重复用蓝色表示。(B) TA TA-box结合蛋白的结构。N-端绿色,C-端蓝色。[Drawn from 1VOK, pdb]

同一进化是解决生化挑战的共同方法

至今,我们已经探讨了来自同一祖先分子的蛋白质,即差异进化(divergent evolution)。还有一种情况是祖先分子并不相同,但是蛋白质的结构类似。两个起源不同的蛋白分子是如何采用相似结构的?这两类分子是同一进化成相似结构,执行相似的生化功能。这种结构可能是解决生物所面临问题的最有效的方法。从不同的进化途径导致同一解决方法(即相似结构)的过程称为同一进化(convergent evolution)。

同一进化的例子之一是丝氨酸蛋白酶。第9章将详细讨论这些能够水解肽键的酶。图6.17表示两个这样的酶的活性位点的结构(活性位点就是底物蛋白质发生水解反应的地方)。这些活性位点的结构很相似,其组氨酸、丝氨酸和天冬氨酸在空间的排布几乎一致。实际上胰凝乳蛋白酶和枯草杆菌蛋白酶水解肽键的机理完全相同。初看起来,这种相似性似乎意味着这两种蛋白质是同源物,来自同一祖先分子。但是这两种蛋白质的空间结构差异显著,因此不可能有进化关联(图6.18)。胰凝乳蛋白酶几乎全是??链,而枯草杆菌蛋白酶含有很多??螺旋结构。尽管两个蛋白酶活性位点的丝氨酸、组氨酸和天冬氨酸在空间上的位置相似,但是它们在多肽链一级结构上的排布顺序却不同。这两个蛋白质不可能来自同一祖先分子(只保留活性位点结构,而其它结构则完全不同)。

图6.17 蛋白酶活性位点的同一进化。丝氨酸蛋白酶胰凝乳蛋白酶和枯草杆菌蛋白酶的活性位点的三个关键残基位置几乎一致。

图6.18 胰凝乳蛋白酶和枯草杆菌蛋白酶的结构。与活性位点空间结构(在蛋白质空间结构顶部)高度相似性不同,枯草杆菌蛋白酶和胰凝乳蛋白酶的空间结构差异显著。??链用黄色表示,??螺旋用蓝色表示。[Drawn from 1GCT.pdb and 1SUP.pdb.]

RNA序列比较能够了解RNA二级结构

可以用前面介绍的方法比较同源RNA序列。这种比较能研究RNA的进化,还能为RNA 分子自身的三维结构提供思路。在第4章我们曾经说过,单链核酸能折叠回来,利用Watson-Crick碱基配对及其它相互作用,形成精致的结构。有类似碱基配对结构的核酸家族,核苷酸序列可能有差异,但是碱基配对却保守。例如,所有生物核糖体大RNA分子中有一个区域就是这样(图6.19)。大肠杆菌rRNA在该区域的第9位是鸟嘌呤核苷酸,第22位是胞嘧啶核苷酸;而人rRNA分子在该区域的第9位是尿嘧啶核苷酸,第22位是腺嘌呤核苷酸。考察六种生物rRNA在该区域的序列(图6.19)以及更多rRNA分子的序列发现第9位和第22位核苷酸的序列可以改变,但是它们形成Watson-Crick碱基对的能力不变。相邻位点的情况也是这样。由此我们推测这两个区间一道形成双螺旋,一个位点的变异因另一个位点同时变异获得补偿。将同源RNA分子进行序列比对,能够提示RNA分子的二级结构及其它相互作用。随后测定RNA分子三级结构(30.3节)也证实序列比较所预测的二级结构。

图6.19 RNA序列比较。(A)比较不同物种核糖体RNA的部分序列。(B)序列比较提示该区域所形成的二级结构。绿色棒显示该位点的Watson-Crick碱基对完全保守,而绿色点表示该位点的碱基配对在多数情况下是保守的。

6.4 在序列信息的基础上能够构建进化树

同源物有序列类似性,提示序列类似性能推测蛋白家族成员的进化途径。类似性程度越高,表明这两种蛋白质在进化上分离(即差异)的时间越晚;序列类相似度愈低,这两种蛋白质在进化上分离(即差异)的时间愈早。进化上分离时间利用球蛋白(豆血红蛋白、肌红蛋白、血红蛋白a-链和血红蛋白b-链)进行了说明(图6.10和图6.12)。比对这些序列(如有必要添加缺口),构建进化树(分支的长度与序列间差异氨基酸的数量呈正比)(图6.20)。

图6.20 球蛋白进化树。根据序列比较推测分支结构,而化石研究的结果提供了进化分离的时间范围。

这种比较仅能显示进化分化的相对时间。例如肌红蛋白与血红蛋白分离的时间相当于血红蛋白??链和??链分离时间的两倍。怎样评估基因重复和其它进化事件所发生的时间?将序列差异推测的进化树的时间用化石记录所显示的时间进行校正。例如,基因重复产生血红蛋白??链和??链的时间是3.5亿年前。这个估计时间与无颌鱼与有骨鱼进化分离的时间吻合。无颌鱼lamprey与有骨鱼的分离时间在4亿年前,而无颌鱼只有一种血红蛋白链(图6.21)。

这些方法适于相对现代及非常古老的分子(如所有生物都有的核糖体RNA)。实际上,RNA序列分析显示古生菌在进化早期就与细菌分离了。

图6.21 Lamprey无颌鱼。无颌鱼的祖先在4亿年前与有骨鱼发生进化分离。lamprey只含有一条血红蛋白链。[Brent P. Kent]

6.5 现代技术能用实验探讨分子进化

生物化学的两项技术使我们能够更为直接地研究进化过程。聚合酶链式反应(PCR)能直接检测古老的DNA分子,从而消除了(至少部分消除了)仅用现存生物基因组进行研究的局限。分子进化可以用组合化学(combinatory chemistry)加以研究。组合化学能产生种类众多的生物分子,从中选择具有某一生化特征的生物分子。利用这一过程能够了解进化早期的分子种类。

古代DNA扩增并测序

DNA分子化学稳定性高,所以这种分子适于担任遗传信息的储存分子。在适当条件下,如此稳定的DNA分子能够存活数千年。有了PCR技术之后,有时我们能够成功扩增古生DNA并进行序列测定。1856年在德国Dusseldorf发现的Neanderthal化石(估计距今有3万至10万年)的线粒体DNA的379碱基片段被成功地进行PCR扩增。与现代人线粒体DNA 序列比较有22 ~ 36个核苷酸替代。而人类与黑猩猩线粒体相应序列的核苷酸替代位点有55个。进一步研究显示人类与Neaderthals的共同祖先存在于60万年前。用这些数据和其它研究数据构建的进化树显示Neanderthal并不是黑猩猩和人类进化的中间阶段,而是一个进化的"死胡同",后来所有的neanderthal被灭绝(图6.22)。

有几个研究宣称测定了更早期DNA分子的序列(如琥珀所捕获的昆虫DNA),但这些研究是由问题的。这些样品已经被现代DNA分子污染。成功测定古老DNA分子需要有足量古老的DNA分子并且没有现代DNA分子的污染。

图6.22 进化树上Neanderthal所处的位置。DNA序列比较显示Neanderthal不是人类的直接祖先,而是在进化早期与人类分开,并最终灭绝。

分子进化可以用实验进行研究

进化需要三个过程:(1)产生有差异的群体;(2)选择具有某些特征的个体;(3)繁殖、富集这些被选择的成员。在适当条件下,核酸分子在体外能够进行这三个过程。这些研究的结果能够了解产生具有催化活性和结合活性的核酸分子的机制。而生物分子的催化活性和结合活性对任何生物系统而言都是非常重要的。

用组合化学方法能够合成种类众多的核酸分子,然后进行筛选(筛选出具有特定结合活性或催化活性)的核酸分子,最后用PCR复制筛选过程存活的核酸分子。PCR 的引物与每个核酸成员的末端匹配。每代复制的错误是自然引入的变异。

一个例子是制造能够结合ATP及相关核苷酸的核酸分子。A TP结合分子具有研究意义,因为这样的结合分子在进化早期(蛋白质尚未出现,RNA起主要作用的时代)就可能出现。先制造长度为169个核苷酸的RNA分子,其中内部120个核苷酸是随机的,即A,C,G,U出现的几率在这段区域的每个位点都是相等的。起始的RNA分子库有1014种。注意,这个库比120个位点完全随机的RNA库小得多。能够结合A TP的RNA分子被锚定在与ATP共价结合的固相载体上,从而被选择出来(图6.23)。

图6.23 实验室进化。用组合化学方法合成随机序列RNA分子库。将RNA分子库流过ATP 亲和柱,从该分子库筛选ATP结合分子。用过量ATP溶液洗涤该柱能够回收结合A TP的RNA分子。然后复制这样的RNA分子。重复前述操作数次,最后获得与ATP亲和力高的RNA分子并进行序列测定。

回收那些被锚定的RNA分子,反转录成DNA后进行PCR扩增,重新转录生成RNA 分子。每轮操作中那些复制错误引入了新变异。新的RNA分子种群又一次进行ATP结合选择。经过8轮选择后获得的A TP结合分子进行序列测定,有16个成员能够形成图6.24所示的分子结构,每个成员结合A TP的亲和力都非常高,其解离常数低于50 mM。

图6.24 保守的二级结构。ATP亲和力高的RNA分子共有的二级结构。

用核磁共振测定了一种A TP结合RNA分子的三维结构(图6.25)。这个40核苷酸分子有两个茎和11个核苷酸构成的环。该环进一步自身折叠形成一刻深深的口袋,适于腺嘌呤碱基环。因此,进化产生的结构与ATP有特定的相互作用。

图6.25 进化产生的一个能够结合A TP的RNA分子。(A)RNA分子的Watson-Crick碱基配对,(B)RNA分子的折叠情况,和(C) RNA分子表面。A TP的结合位点处于RNA分子深深的口袋内(图C)。

总结

6.1 同源物来自同一祖先

由于同源物来自同一祖先,因此生化进化研究就是搜寻分子间的同源性。侧向同源物指同一物种执行不同功能的同源物。垂直同源物指不同物种执行类似甚至同样功能的同源物。

6.2 序列比对的统计分析能够检测同源性

序列比对能够检测进化关系。序列比对能够最大限度地找出两种序列的相似性。利用统计学测试能够确定比对的统计意义。统计学上有显著意义的序列比对提示它们是同源物,来自同一祖先。采用替代矩阵能探测更远的进化关系。任何序列都可以用作探针搜寻同一生物或其它生物的进化相关序列。

6.3 三维结构有助于了解进化关系

从三维结构角度观测蛋白质进化亲缘关系更显著。三维结构分析和保守序列分析相结合能检测出其它方法无法鉴定的进化关系。序列比对方法也能确定一个蛋白质内不完美的重复序列及重复结构域。

6.4 基于序列信息构建进化树

假定序列差异反映出两个序列发生差异的时间,那么利用序列比对能够构建进化树。基于序列比对构建的进化树反映了基因重复(分开肌红蛋白和血红蛋白,以及分开血红蛋白??链和??链)的大致时间。基于序列比对的进化树可以与化石记录相比拟。

6.5 现代技术能够用实验方法研究进化

进化研究也是一门实验科学。在有利的条件下,保存完好的样品能进行PCR扩增,确定已经灭绝生物的DNA序列。利用古老DNA分子的核酸序列证实其它方案建立的进化树的合理性。在试管进行的分子进化实验能确定RNA分子与配体结合的机制(如果分子进化能产生这样的RNA分子)。

生物信息学期末考试重点

第一讲 生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。 生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。 生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。 生物技术与生物信息学的区别及联系 生物信息学的发展历史 ?人类基因组计划(HGP) ?人类基因组计划由美国科学家于1985年提出,1990年启动。根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。(百度百科) 随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。 :

】 第二讲回顾细胞结构 细胞是所有生命形式结构和功能的基本单位 细胞组成 细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构 细胞质细胞膜与细胞核之间的区域:包含液体流质,夹杂物存储的营养、分泌物、天然色素和细胞器 细胞器细胞内完成特定功能的结构:线粒体、核糖体、高尔基体、溶酶体等 细胞核最大的细胞器 DNA的结构 碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G) 。 核苷酸 核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊 糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对,也就 是A、T、C、G 基因是什么 基因是遗传物质的基本单位 基因就是核苷酸序列。 大部分的基因大约是1000-4000个核苷酸那么长。 基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。 基因在染色体上。

生物信息学考试试卷修订稿

生物信息学考试试卷 WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-

一、名词解释(每小题4分,共20分) 1、生物信息学 广义:生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达;细胞、组织、器官的生理、病理、药理过程的中各种生物信息。 狭义:生物分子信息的获取、存贮、分析和利用。 2、人类基因组计划 人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。 3、蛋白质的一级结构 蛋白质的一级结构是指多肽链中氨基酸的序列 4、基因 基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。 5、中心法则 是指遗传信息从传递给,再从RNA传递给,即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。 6 、DNA序列比较 序列比较的根本任务是:(1)发现序列之间的相似性;(2)辨别序列之间的差异 目的: 相似序列相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系 7、一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 8、基因识别 基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。 9、系统发生学 系统发生学(phylogenetics)——研究物种之间的进化关系。 10、基因芯片 基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。

最新生物信息学考试复习

——古A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 13. 同源性:两个基因或蛋白质序列具有共同祖先的结论。

生物进化的历程说课稿1(1)

生物学八年级下册第七单元第21章生命的发生和发展 第二节《生物的进化》说课稿 一.说教材 (一).教材分析: “生物的进化”是义务教育教科书北师大版生物学八年级下册第7单元第21章第二节的内容。生物进化是一个极其漫长且复杂的过程。在了解了生命的起源之后来学习生物的进化,有利于形成完整的知识体系,通过生物进化的学习,形成生物进化的观点,认同生物与环境的和谐,培养学生保护生物圈,关爱生命的情感。本节内容分为“生物进化的证据”、“生物进化的历程”以及“自然选择学说”三部分,它既是对前面所学知识的总结和延伸,又是以后学习生物多样性知识的基础,在本章和本册中占有重要的地位。 《生物学课程标准》中关于“生物进化”的要求是“概述生物进化的主要历程;认同生物进化的观点。” 《成都市初中生物毕业考试说明》中关于“生物进化”的测试水平为“Ⅰ”级,属于了解层次。(即:再认或回忆知识;识别、辨认事实或证据;举出例子;描述对象的基本特征等。) (二).教学目标 知识目标 1.列举古生物学化石方面的证据,说明生物是进化的。 2.概述生物进化的主要历程和基本规律。 3. 简述达尔文自然选择学说的主要内容 4. 认同生物进化的观点。 能力目标: 1.在观察相关生物化石、形态构造等图片过程中,提高学生处理信息、分析综合能力。 2. 进一步培养学生探究能力、用比较法解决问题的能力。 情感态度和价值观目标: 1.通过对化石资料的搜集,培养学生学习生物的兴趣,热爱科学的态度。 2. 学习达尔文勇于探索的科学精神和坚持真理的科学态度,能以科学的角度来解释和揭示生物的进化。 (三)、教材的重点和难点 重点:1.生物化石的形成过程和化石记录的生物进化趋势。 2.地球上各类动物、植物和微生物出现的先后顺序。 3.自然选择学说的形成过程及其主要内容。 难点:自然选择学说的主要内容。 (四).课时安排及教学准备 1、课时安排:2课时 第一课时:生物进化的证据、生物进化的主要历程 第二课时:自然选择学说 2、教师准备:视频、图片、资料、器材等。 3、学生准备:课前预习、查阅相关资料及自制“生物进化主要历程”拼图游戏板。

生物信息学的主要研究内容

常用数据库 在DNA序列方面有GenBank、EMBL和等 在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等 在蛋白质和其它生物大分子的结构方面有PDB等 在蛋白质结构分类方面有SCOP和CATH等 生物信息学的主要研究内容 1、序列比对(Alignment) 基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础,非常重要。两个序列的比对有较成熟的动态规划算法,以及在此基础上编写的比对软件包BLAST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。 2、结构比对 基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。 3、蛋白质结构预测,包括2级和3级结构预测,是最重要的课题之一 从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建(Homology)和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。 4、计算机辅助基因识别(仅指蛋白质编码基因)。最重要的课题之一 基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。 5、非编码区分析和DNA语言研究,是最重要的课题之一 在人类基因组中,编码部分进展总序列的3~5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA 序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。 6、分子进化和比较基因组学,是最重要的课题之一 早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。 7、序列重叠群(Contigs)装配 一般来说,根据现行的测序技术,每次反应只能测出500或更多一些碱基对的序列,这就有一个把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。拼接EST数据以发现全长新基因也有类似的问题。已经证明,这是一个NP-完备

生物信息学试题整理

UTR的含义是(B ) A.编码区 B. 非编码区 C. motif的含义是(D )。 A.基序 B. 跨叠克隆群 C. algorithm 的含义是(B )。 A.登录号 B. 算法 C. RGR^ (D )。 A.在线人类孟德尔遗传数据 D.水稻基因组计划 下列Fasta格式正确的是(B) 低复杂度区域 D. 幵放阅读框 碱基对 D. 结构域 比对 D. 类推 B. 国家核酸数据库 C. 人类基因组计划 A. seql: agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta B. >seq1 agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta C. seq1:agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta D. >seq1agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta 如果我们试图做蛋白质亚细胞定位分析,应使用(D) A. NDB 数据库 B. PDB 数据库 C. GenBank 数据库 D. SWISS-PROT 数

据库 Bioinformatics 的含义是(A )。 A. 生物信息学 B. 基因组学 C. 蛋白质组学 D. 表观遗传学 Gen Bank中分类码PLN表示是(D )。 A.哺乳类序列 B. 细菌序列 C.噬菌体序列 D. 植物、真菌和藻类序列 ortholog 的含义是(A)0 A.直系同源 B.旁系同源 C.直接进化 D.间接进化 从cDNA文库中获得的短序列是(D )o A. STS B. UTR C. CDS D. EST con tig的含义是(B )o A.基序 B. 跨叠克隆群 C. 碱基对 D. 结构域 TAIR (AtDB)数据库是(C)o A.线虫基因组 B. 果蝇基因组 C. 拟南芥数据库 D. 大肠杆菌基因组ORF的含义是(D )o A.调控区 B. 非编码区 C.低复杂度区域 D. 幵放阅读框

生物信息学复习资料全

一、名词解释(31个) 1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程 息的存贮、信息的涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。 2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、 实验数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对:研究的是多个序列的共性。序列的多重比对可用来搜索基因组 序列的功能区域,也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树 状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。 5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该 是进化保守的并且在其他物种中具有直系同源性。 指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。(来自百度) 6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会 进化出新的与原来有关的功能。用来描述在同一物种由于基因复制而分离的同源基因。(来自百度) 7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的 核苷酸或氨基酸字符串。 8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止 密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。(来自百度) 9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区 域,折叠得较为紧密,各行其功能,称为结构域。 10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空 位并进行罚分,以控制空位插入的合理性。(来自百度) 11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分 cDNA的3’或5’端序列。(来自文献) 12.Gene Ontology 协会: 13.HMM 隐马尔可夫模型:将核苷酸序列看成一个随机序列,DNA序列的编 码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。14.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单 的归类整理和注释 15.序列一致性:指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋 白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性:指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所 占的比例。 17.Blastn:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将 同所查序列作一对一地核酸序列比对。(来自百度) 18.Blastp:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐 一地同每条所查序列作一对一的序列比对。(来自百度)

生物的进化历程

课程名称:生物的进化历程 授课教师:李京伟(人大附中朝阳学校) 【教学设计】 一、教学背景分析 1. 本课时教学内容的功能和地位 “生物进化历程”是北京版《生物学》第 4 册第十五章“生命的起源与生物的进化”的内容。在本节课的学习任务中:“化石”是研究生物进化的重要证据;“生物的进化历程”由动物和植物的进化历程组成,包括借助化石研究生物进化的方法以及生物进化的主要趋势两部分。在课标中位于第八主题,属于理解层次。对学生理解多样性生物之间的关系,形成生物进化的观点、树立辩证唯物主义自然观具有重要意义。 2. 学生情况分析 本校学生主要通过推荐组成,学习习惯较好。通过近 2 年的生物学习,学生已积累了大量的感性和理性材料,具备一定的实验操作、描述、表达等能力,形成了“结构与功能相统一”的生物学基本观点;特别是通过“米勒实验”“模拟血型鉴定”、“模拟练习人工呼吸或止血包扎”,学生对于模型和模拟实验已有了一定的体验和认识,能够认同科学的模拟实验结果能够概括分析得出科学结论。 综上来看,学生已掌握了一定的生物科学概念和科学研究方法。但是生物进化的历程过程漫长而复杂,生物进化的趋势内容抽象并且概括性强,学生理解仍有一定困难。 二、教学目标制定 (一)知识目标 1 、说明化石是研究生物进化历程的重要证据 2 、概述生物进化的主要历程以及生物进化的趋势 (二)能力目标 1. 通过对图片和实物材料的观察与分析,提高处理科学信息的能力;

2. 通过小组合作制作、分析“进化树”模型,提高交流与合作能力以及分析解决问题的能力。 (三)情感态度价值观目标 1. 确立化石是研究生物进化重要证据的观点; 2. 认同地球上的物种多样性是逐渐进化形成的,物种之间存在着或近或远的亲缘关系。 (四)教学重点 1. 化石是研究生物进化历程的重要证据; 2. 生物进化的主要历程以及生物进化的趋势。 (五)教学难点 1. 生物进化的主要历程以及生物进化的趋势。 三、教学方法策略 (一)教学策略 认知信息加工理论认为:人类的某些观念可以用符号来代表,而且这些符号可以通过确定的符号运算过程进行有意义的转换。根据此理论,生物进化的历程和趋势这一抽象内容可以转化为形象的符号来代表并能发挥同样的意义。为实现教学目标,突出重点突破难点,设计了模拟实验。用“观察 - 分析 - 归纳”的方法帮助学生深入思考。 (二)教学资源 认知信息加工理论也提到学习者的动机起着重要作用。而白板的互动性能够有效建立师生、生生和谐的关系,并将文字、声音、图片于一体,激发了学生主动学习的兴趣,提高课堂有效性。因此选用白板为主要媒介进行信息的构建。 1. 实物:鱼的遗迹化石;剪刀、胶棒。 2. 图像:现存生物的进化树;猛犸象、恐龙等动物。 四、教学过程

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解 释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计 算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技 术而揭示大量而复杂的生物数据所赋有的生物学奥秘。 2、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于 距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后, 数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方 式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数 据存储的大型数据库系统都在各个方面得到了广泛的应用。 3、表达序列标签从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短 的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。EST 来源于一定环境下一个组织总 mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。 4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白。 ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的 DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个 真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编 码基因的部分或全部的先决条件。 5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列,并进 一步折叠成特定的空间结构前者我们称为蛋白质的一级结构,也叫初级结构或基 本结构。蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理 功能的必要基础。 6、基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别 DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因, 也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。基因识别是基 因组研究的基础。

生物信息学中的机器学习方法

生物信息学中的机器学习方法 摘要:生物信息学是一门交叉学科,包含了生物信息的获取、管理、分析、解释和应用等方面,兴起于人类基因组计划。随着人类基因组计划的完成与深入,生物信息的研究工作由原来的计算生物学时代进入后基因组时代,后基因组时代中一个最重要的分支就是系统生物学。本文从信息科学的视角出发,详细论述了机器学习方法在计算生物学和系统生物学中的若干应用。 关键词:生物信息学;机器学习;序列比对;人类基因组;生物芯片 1.相关知识 1.1 生物信息学 生物信息学时生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。它综合运用生物学、计算机科学和数学等多方面知识与方法,来阐明和理解大量生物数据所包含的生物学意义,并应用于解决生命科学研究和生物技术相关产业中的各种问题。 生物信息学主要有三个组成部分:建立可以存放和管理大量生物信息学数据的数据库;研究开发可用于有效分析与挖掘生物学数据的方法、算法和软件工具;使用这些工具去分析和解释不同类型的生物学数据,包括DNA、RNA和蛋白质序列、蛋白质结构、基因表达以及生化途径等。 生物信息学这个术语从20世纪90年代开始使用,最初主要指的是DNA、RNA及蛋白质序列的数据管理和分析。自从20世纪60年代就有了序列分析的计算机工具,但是那时并未引起人们很大的关注,直到测序技术的发展使GenBank之类的数据库中存放的序列数量出现了迅猛的增长。现在该术语已扩展到几乎覆盖各种类型的生物学数据,如蛋白质结构、基因表达和蛋白质互作等。 目前的生物信息学研究,已从早期以数据库的建立和DNA序列分析为主的阶段,转移到后基因组学时代以比较基因组学(comparative genomics)、功能基因组学(functional genomics)和整合基因组学(integrative genomics)为中心的新阶段。生物信息学的研究领域也迅速扩大。生物信息学涉及生物学、计算机学、数学、统计学等多门学科,从事生物信息学研究的工作者或生物信息学家可以来自以上任何一个领域而侧重于生物信息学的不同方面。事实上,我们今天正需要具备各种背景知识、才能和研究思路的研究人员,集思广益

浅谈生物信息学在生物方面的应用

浅谈生物信息学在生物方面的应用 生物信息学(bioinformaLics)是以核酸和蛋白质等生物大分子数据库及其相关的图书、文献、资料为主要对象,以数学、信息学、计算机科学为主要手段,对浩如烟海的原始数据和原始资料进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析,从中获得基因的编码、凋控、遗传、突变等知识;研究核酸和蛋白质等生物大分子的结构、功能及其相互关系;研究它们在生物体内的物质代谢、能量转移、信息传导等生命活动中的作用机制。 从生物信息学研究的具体内容上看,生物信息学可以用于序列分类、相似性搜索、DNA 序列编码区识别、分子结构与功能预测、进化过程的构建等方面的计算工具已成为变态反应研究工作的重要组成部分。针对核酸序列的分析就是在核酸序列中寻找过敏原基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。针对蛋白质序列的分析,可以预测出蛋白质的许多物理特性,包括等电点分子量、酶切特性、疏水性、电荷分布等以及蛋白质二级结构预测,三维结构预测等。 生物信息学中的主要方法有:序列比对,结构比对,蛋白质结构的预测,构造分子进化树,聚类等。基因芯片是基因表达谱数据的重要来源。目前生物信息学在基因芯片中的应用主要体现在三个方面。 1、确定芯片检测目标。利用生物信息学方法,查询生物分子信息数据库,取得相应的序列数据,通过序列比对,找出特征序列,作为芯片设计的参照序列。 2、芯片设计。主要包括两个方面,即探针的设计和探针在芯片上的布局,必须根据具体的芯片功能、芯片制备技术采用不同的设计方法。 3、实验数据管理与分析。对基因芯片杂交图像处理,给出实验结果,并运用生物信息学方法对实验进行可靠性分析,得到基因序列变异结果或基因表达分析结果。尽可能将实验结果及分析结果存放在数据库中,将基因芯片数据与公共数据库进行链接,利用数据挖掘方法,揭示各种数据之间的关系。 生物信息学在人类基因组计划中也具有重要的作用。 大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。目前,从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙,到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。特别是拼接和填补序列间隙更需要把实验设计和信息分析时刻联系在一起.拼接与组装中的难点是处理重复序列,这在含有约30%重复序列的人类基因组中显得尤其突出。 人类基因组的工作草图即将完成,因此发现新基因就成了当务之急。使用基因组信息学的方法通过超大规模计算是发现新基因的重要手段,可以说大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组(约1300万bp)所包含6千多个基因,大约60%是通过信息分析得到的。 当人类基因找到之后,自然要解决的问题是:不同人种间基因有什么差别;正常人和病人基因又有什么差别。”这就是通常所说的SNPs(单核苷酸多态性)。构建SNPs及其相关数据库是基因组研究走向应用的重要步骤。1998年国际已开展了以EST为主发现新Spps 的研究。在我国开展中华民族SNPs研究也是至重要的。总之,生物信息学不仅将赋予人们各种基础研究的重要成果,也会带来巨大的经济效益和社会效益。在未来的几年中DNA 序列数据将以意想不到的速度增长,这更离不开利用生物信息学进行各类数据的分析和解释,研制有效利用和管理数据新工具。生物信息学在功能基因组学同样具有重要的应用目前应用最多的是同源序列比较、模式识别以及蛋白结构预测。所谓同源序列,是指从某一共同祖先经趋异进化而形成的不同序列。利用数据库搜索找出未知核酸或蛋白的同源序列,是序列分析的基础[lol。如利用BLASTn和BLASTx两种软件分别进行核苷酸和氨基

生物信息学试题复习参考(张弓)

2014-2015学年生物信息学期末考试题 写在前面:这是我考试时候写的答案的大致内容,具体文字我已经不记得了,给大家一个参考,希望对大家复习有帮助。因为我也是扣了很多分,所以答案也有很多错的,大家不要尽信。祝大家考试顺利。 一、实验设计和基础分析 以下qPT-PCR实验方案有哪些错误?请标出错误,并说明原因和写出正确方案。 目的:比较肺癌细胞迁移前后的X基因转录水平表达量 方法:(1)用Trizol法提取细胞总RNA,并用跑胶、OD260/280等方法确认无降解。 (2)用poly-dT引物进行反转录 (3)设计基因特异性PCR引物,用qPCR仪测定X基因和GAPDH基因的Ct值。GAPDH作为内参。 (4)以2^-ΔΔCt方法计算X基因相对于GAPDH的相对含量 (5)比较迁移前后的相对表达量,做三个重复,用t-test进行统计检验,P<0.05为差异显著 1.错误:不能用GAPDH基因作为定量标准;原因:癌症迁移前后GAPDH基因的表达量已经改变了,做定量标准不准确;方案:采用外参(如:其他物种的基因) 2.错误:不能用t-test进行统计检验;原因:t-test进行统计检验的前提是数据呈正态分布,基因表达量不一定呈正太分布;方案:将数据取log10,对数化。 上述两个是我考试时候写的答案,后来经提醒:还发现了一个错误:不能用poly-dT引物进行反转录;原因:。。。。。。;方案:用Oligodt进行逆转录。 二、双序列比对的生物学意义解释 两种细菌的同源蛋白质endonuclease III,长度都为200氨基酸左右,其功能相同,蛋白质序列使用BLAST 可以比对上,同源性高达57%,但其编码DNA序列用BLAST却无法比对上,为了尽可能提高亲缘关系较远的序列的比对效率,比对已经使用BLAST网站上Somewhat similar sequence选项,默认参数(见下图):

生物信息学完整版

一、名词解释 1. 生物信息学: 1)生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科; 2)它综合运用了数学、计算机学和生物学的各种工具来进行研究; 3)目的在于阐明大量生物学数据所包含的生物学意义。 2. BLAST(Basic Local Alignment Search Tool) 直译:基本局部排比搜索工具 意译:基于局部序列排比的常用数据库搜索工具 含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库 3. PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST和FASTA的相似序列发现率。 4. 一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特 定位置最常见的残基之外,它们不能表示任何概率信息。 5. HMM 隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合 来生成一组序列排列。(课件定义)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。 6. 信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。 7. 非信息位点:对于最大简约法来说没有意义的点。 8. 标度树:分支长度与相邻节点对的差异程度成正比的树。 9. 非标度树:只表示亲缘关系无差异程度信息。 10. 有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达其 他任何节点。 11. 无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种, 可以在无根树中指派根节点。 12. 注释:指从原始序列数据中获得有用的生物学信息。这主要是指在基因组DNA中寻找基 因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。 13. 聚类分析:一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。 14. 无监督分析法:这种方法没有内建的分类标准,组的数目和类型只决定于所使用的算法 和数据本身的分析方法。 15. 有监督分析法:这种方法引入某些形式的分类系统,从而将表达模式分配到一个或多个 预定义的类目中。 16. 微阵列芯片:将探针有规律地排列固定于载体上,与标记荧光分子的样品进行杂交,通 过扫描仪扫描对荧光信号的强度进行检测,从而迅速得出所要的信息。 17. 虚拟消化:是基于已知蛋白序列和切断酶的特异性的情况下进行的理论酶切(课件定 义)。是在已知蛋白质序列和蛋白外切酶之类切断试剂的已知特异性的基础上,由计算机进行的一种理论上的蛋白裂解反应。 18. 质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法,从而使分子质量 的准确确定成为可能。 19. 分子途径是指一组连续起作用以达到共同目标的蛋白质。 20. 虚拟细胞:一种建模手段,把细胞定义为许多结构,分子,反应和物质流的集合体。 21. 先导化合物:是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致 药物发现的特殊化合物。就是利用计算机在含有大量化合物三维结构的数据库中,搜索能与生物大分子靶点匹配的化合物,或者搜索能与结合药效团相符的化合物,又称原型物,简称先导物,是通过各种途径或方法得到的具有生物活性的化学结构

2019版国科大生物信息学期末考试复习题

中科院生物信息学期末考试复习题 陈润生老师部分: 1.什么是生物信息学,如何理解其含义?为什么在大规模测序研究中,生物信息学至关重要? 答:生物信息学有三个方面的含义: 1)生物信息学是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和 解释的所有方面,是基因组研究不可分割的部分。 2)生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语 言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测;其本质是识别基因信号。 3)生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它 是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。 2.如何利用数据库信息发现新基因,其算法本质是什么? 答:利用数据库资源发现新基因,根据数据源不同,可分2种不同的查找方式: 1)从大规模基因组测序得到的数据出发,经过基因识别发现新基因: (利用统计,神经网络,分维,复杂度,密码学,HMM,多序列比对等方法识别特殊序列,预测新ORF。但因为基因组中编码区少,所以关键是“数据识别”问题。)利用大规模拼接好的基因组,使用不同数据方法,进行标识查找,并将找到的可能的新基因同数据库中已有的基因对比,从而确定是否为新基因。可分为:①基于信号,如剪切位点、序列中的启动子与终止子等。②基于组分,即基因家族、特殊序列间比较,Complexity analysis,Neural Network 2)利用EST数据库发现新基因和新SNPs: (归属于同一基因的EST片断一定有overlapping,通过alignment可组装成一完整的基因,但EST片断太小,不存在数据来源,主要是拼接问题) 数据来源于大量的序列小片段,EST较短,故关键在正确拼接。方法有基因组序列比对、拼接、组装法等。经常采用SiClone策略。其主要步骤有:构建数据库;将序列纯化格式标准化;从种子库中取序列和大库序列比对;延长种子序列,至不能再延长;放入contig库①构建若干数据库:总的纯化的EST数据库,种子数据库,载体数据库,杂质、引物数据库,蛋白数据库,cDNA数据库; ②用所用种子数据库和杂质、引物数据库及载体数据库比对,去除杂质; ③用种子和纯化的EST数据库比对 ④用经过一次比对得到的长的片段和蛋白数据库、cDNA数据库比较,判断是否为已有序列,再利用该大片段与纯化的EST数据库比对,重复以上步骤,直到序列不能再延伸; ⑤判断是否为全长cDNA序列。 (利用EST数据库:原理:当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。而到目前为止,公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列。估计这些序列已覆盖了人类全部基因的95%以上,平均起来每个基因有10倍以上的覆盖率。)

中国科学院大学生物信息学期末考试资料,陈润生老师

生物信息学期末考试复习 1.生物学中的7个数学故事 (1) 孟德尔遗传定律(分离和自由组合定律)运用了组、合原理中的加法原理和乘法原理。 (2) Hardy-Weinberg遗传平衡定律通过构造数学关系式来证明。 (3)基因在染色体上的线性排列采用概率分布优化距离的计算距离,使其更接近真实情况。 (4)关联分析通过假设检验看两个特征的关联有无统计显著性。 (5) 序列比对设计合适的算法可以有效降低计算复杂度。 (6)基因组学和其他的组学组学时代产生的大量数据需要依赖数据库技术来寻找生物分子之间的关联。 (7)微阵列芯片大规模芯片数据需要数据挖掘:聚类、关联、预测建模、异常检测。 2. DNA、protein、RNA序列比对及其算法 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。常用的方法有:点阵法,动态规划算法,k-tup 算法等。 (1)dotplot算法:通过点阵作图的方法表示,能很直观地氨基酸序列或核苷酸序列上的插入、删除、重复和反相重复。 算法步骤:将两条序列的碱基(或残基)分别沿x轴和y轴排列,依次比较两条序列的每个碱基(或残基),如果两个碱基(或残基)相同则在矩阵中填充点,这样就形成一个点矩阵。在点矩阵中,将对角线上的点连接起来,这些直线所对应的矩形区域就是这两条序列的相似性片段。 算法特点:该算法相似性片段实际上是相同的片段;而且不能提供相似性片段在统计学意义上的相似性。 (2)动态规划算法:分为全局动态规划算法和局部动态规划算法。保证了指定打分模型的情况下,两条序列能获得尽可能的最高分 算法步骤:①初始化序列矩阵;②将序列输入矩阵,计算分数并绘制箭头;③用箭头回溯找到最优得分路径;④连接最优路径,产生序列比对。 动态规划算法优缺点: 优点:对于一个给定的计分函数集合,能找到最优的比对 缺点:时间复杂度为O(n 2),运行慢,计算所需的内存与序列长度的平方成正比,因此不适用于非常长序列的比对。 序列比对的定义,存在哪几种算法,打分矩阵是什么意思 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列; 算法种类:动态规划算法、Smith-Waterman Alterations算法、FASTA - Hi Level Algorithm 算法、BLAST – Heuristic算法; 打分矩阵:通过点矩阵对序列比对进行积分,根据不同物质情况可分为DNA序列打分矩阵:等价矩阵、转换-颠换矩阵、blast矩阵;蛋白质打分矩阵:等价矩阵、遗传密码矩阵、疏水性矩阵、PAM矩阵、BLOSUM矩阵。 1.动态规划算法,给个表格可以把数字填出:

生物信息学分析方法

核酸和蛋白质序列分析 蛋白质, 核酸, 序列 关键词:核酸序列蛋白质序列分析软 件 在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站(https://www.doczj.com/doc/ae7259970.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。 下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 (一)核酸序列分析 1、双序列比对(pairwise alignment) 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch 算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。 除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST (https://www.doczj.com/doc/ae7259970.html,/BLAST/)。以上介绍的这些双序列比对工具的使用都比较简单,一般输入所比较的序列即可。 (1)BLAST和FASTA FASTA(https://www.doczj.com/doc/ae7259970.html,/fasta33/)和BLAST (https://www.doczj.com/doc/ae7259970.html,/BLAST/)是目前运用较为广泛的相似性搜索工具。这两

生物信息学试题

华中农业大学研究生课程考试试卷(B) 考试科目名称:生物信息学考试时间:2011年6月15日备注:所有答案均要写在答题纸上,否则,一律无效。 提示:(1)2小时答题时间;(2)课堂开卷,独立完成;(3)答题简明扼要 1.请查询序列AK101913(GenBank注册号)的相关信息并回答下列问题:(1)若用限制性内切酶PstΙ消化这条序列,可以得到几个片段?(4分) (2)该序列编码的蛋白质有多少个氨基酸?哪种氨基酸所占比例最高?等电点是多少?是否糖蛋白质?如果是糖蛋白,请给出具体类型及糖基化位点。(10分)(3)请分析该序列编码蛋白的保守结构域,根据你的分析,该蛋白可能具有什么样的生物学功能?(6分) 2.任选一种基因结构分析工具,预测序列J04982(GenBank注册号)的基因结构及其编码产物的理化性质。请注明分析工具的名称,以及是否采用某一物种的数据作为参照。 (1)根据你所选用的分析方法,这条序列编码多少个基因?分别包含有多少个exon?预测基因(如有多个基因请注明是第几个基因)是否有转录起点和PolyA加尾信号? 分析结果是否与GenBank提供的注释信息相符合?(10分) (2)预测的第一个基因编码的蛋白质是否包含有信号肽(注明切割位点)和跨膜区域(注明跨膜区)?预测该蛋白的亚细胞定位。(10分) 注:3a、3b任选一题 3a.RZ220是水稻分子标记遗传连锁图上的一个分子标记,请回答下列有关问题:(1)这个分子标记/位点被定位于水稻的第几号染色体?在你检索的网站(请注明网址)多少水稻的遗传连锁图使用了该分子标记?请列出分子标记遗传连锁图的名称及 其类型(Map Type)(10分) (2)RZ220属于什么类型的分子标记?指出一个与该标记连锁或附近的QTL(注明其编号),并说明该QTL控制什么性状,列出定位该QTL的研究的相关文献。(10分) 3b.BM6506是羊分子标记遗传连锁图上的一个分子标记或位点,请回答下列有关问题:(请注明分析方法名称) (1)这个分子标记/位点被定位于羊的第几号染色体?(4分) (2)在SM1分子标记遗传连锁图上与这个分子标记/位点紧密连锁(两侧)的分子标记/位点的名称是什么?这个分子标记/位点在SM1分子标记遗传连锁图上的遗传位置 是多少?(8分) (3)列出一篇与该标记相关的文献及其在PubMed中的PMID号。(8分) 4.分析六条蛋白质序列(BAF63641、ABO31104、ACO11338、ABH07379、AAF65254、AAB38498)的同源性并回答下列问题(请注明分析方法名称): (1)哪两条序列的进化关系最近,一致性(Identity)是多少?相似度(Similarity/Positive)是多少?(10分)

相关主题
文本预览
相关文档 最新文档