分子生物学中心法则

  • 格式:docx
  • 大小:65.52 KB
  • 文档页数:4

下载文档原格式

  / 6
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

分子生物学中心法则:

DNA →RNA →蛋白质→细胞表性

基因组中心法则:

基因组→转录组→蛋白质组→细胞表性

生物信息学是20世纪分子生物学和计算机科学交差结合产生的新的学科。这个新的学科的焦点是使用计算机数据库和计算机算法来分析蛋白质、基因和构成生物体的全部脱氧核糖核酸。生物信息学工具包括的计算机程序,可以用来帮助揭示与大分子的结构和功能、生化途径、疾病发生以及进化相关的生物学问题所内涵的基本机制。

如果两条序列有一个共同的进化祖先,那么他们是同源的。同源性是序列同源或者不同源的一种论断,而一致性和相似性是一种描述序列相关性的量。两个序列即使没有统计上显著的一致性,他们也可能是同源的。同源性特征可分为直系同源(orthologous)和旁系同源(paralogous)。直系同源序列是不同物种内的同源序列,他们来自于物种形成时的共同祖先基因。直系同源基因被认为有相似的生物学功能。旁系同源基因是通过类似基因复制的机制产生的同源序列。

可接受点突变PAM(accepted point mutation)为在蛋白质中被自然选择接受的耽搁氨基酸替换。每种氨基酸在进化过程中发生突变的次数除以该氨基酸出现的总次数。最常发生的替换是谷氨酸对天冬氨酸、丝氨酸对苏氨酸和异亮氨酸对缬氨酸。

突变概率矩阵M(mutation probability matrix)中元素M ij 表示在一个给定的进化时期内,氨基酸J替换成氨基酸I的概率。进化时期为一个PAM(表示两个蛋白1%氨基酸发生变化的时间)。当PAM=0时,矩阵讲成为单位矩阵,表示没有氨基酸发生变化。当PAM相当大时,每行的所有值都接近于一个数值,这个数值就是氨基酸的出现频率。

块替换矩阵(block substitution matrix)BLOCSUM62矩阵是大多数BLAST算法的缺省矩阵。PAM矩阵是基于近相关蛋白家族数据的。并且假设高度相关蛋白的取代概率可以外推到远相关蛋白的概率。对比之下,BLOSUM矩阵是基于实际观测到的远相关戴白比对。

BLOSUM90/PAM30BLOSUM62/PAM180BLOSUM45/PAM240

BLOSUM80/PAM120

高趋同度高趋异度

双序列比对算法分为全局双序列和局部双序列比对

水平序列间隙为一垂直线,垂直序列的间隙由一水平线表示。

DNA和蛋白质序列的双序列比对是生物信息学的基本操作之一。双序列比对对允许人们确定任意两序列之间的相关系,由其确定的相关程度可以帮助人们考虑它们是否有同源性。多序列比对显示中:星号显示的是序列上100%的保守区域,冒号显示的是保守替换,点显示的是非保守替换。

多序列比对的典型应用:

1.如果所研究的蛋白质或者基因与另一组蛋白质有联系,那么这些蛋白质可以提供可能的

功能、结构、进化方面的信息。

2.大多数的蛋白质家族中有远源的成员。与双序列比对相比,多序列比对能更敏感地发现

同源关系。

3.当一个物种的基因组被完成测序后,数据分析的一个主要部分是定义所有基因产物所归

属的蛋白家族。数据库搜索进行高效的多重比对,将一个新蛋白(或者基因)与其它所有家族的蛋白质进行比较。

在目前发展众多的多序列比对方法中,最常用的是来自Da-Fei Feng和Russell Doolittle的渐进比对。这种比对方法需要先对所有的序列计算两两比对的分值。然后从关系最近的一对序列开始,逐步地加入其它序列。

很多渐进序列比对算法使用距离矩阵,而不是相似度矩阵来描述蛋白质之间的关系。计算距离的目的在于产生辅助导向树,进而构建比对。

相似性分值到距离分值的计算:

D=-lnS eff

S eff=(S real(I,j)– S rand(I,j)/(S iden(I,j)–S rand(I,j))*100

其中S real(I,j)是观测到的两个序列的相似性分值。S iden(I,j) 指两个序列分别与自身比较后得分的平均值。S rand(I,j) 是讲序列打乱后,随即抽取得到的平均比对得分。S eff 是一个归一化

的分值,如果序列i与j没有相似性,那么S eff =0.距离就是无穷。如果序列一致,则S eff =1,距离就是0.

第一步:利用双序列比对方法对所有的序列进行两两比对。产生原始的相似性分值。

第二步:利用相似度矩阵(或距离矩阵)产生辅助向导树,有两种基于距离生成向导树的方法:算数平均不加权组队法(unweighted pair group method of arithmetic averages,UPGMA)和连接近邻方法(neighbor-joining method ,NJ)。树结构的两大特征是它的分支顺序和分支长度。因此向导树反映了所有蛋白序列的进化关系。

第三步:根据向导树中的位置关系建立多重比对。具体的方法是:先选择最接近的一个两辆比对,接着在此基础上加入下一个最近序列形成的三重比对或者加入下一个最近的两两比对。重复此过程直到用完所有的序列。

Feng-Doolittle方法有个规则:“一旦是空白,永远是空白!”。首先是最近的序列被对齐,当较远的序列加入时,可能会在对齐时产生一些空白。

最专业的构建基于进化距离的系统发生树的方法还是近邻连接(NJ)算法。

在纳米孔测序技术中,DNA分子依靠被称为核酸外切酶的蛋白质以一次一个碱基的速度通过小孔。这个酶能清楚地区分出4个DNA碱基编码:A、C、G、T,也可以检测出该碱基是否被甲基化,一个单孔能在大约70天左右测定一个完整的基因序列。

近日,美国太平洋生物科学公司(PacificBiosciences)通过《财富》杂志展示了公司最新研发成功的个人基因组测序样机,并宣布公司将在2013年上市销售个人基因组测序仪。该仪器大小类似家用微波炉,将在15分钟内完成基因组测序。该样机目前的测序速度为每秒钟10个碱基对,2013年上市的测序仪将达到每秒测定1万个碱基对的速度。

科学家们完成第一个人类基因组测序整整花了13年的时间,耗费了30亿美元的费用。

渐进序列比对算法是与动态规划、两两比对紧密联系的,而隐马尔科夫(hidden markov models,HMM)是序列比对中的另一个有力的工具,它实际上是一个描述在每个位点氨基酸残疾出现概率的概率模型。HMM可以将一个多重比对转化为位点特异性打分系统。HMM 的一个普遍应用是在一个基于HMM的数据库(如Pfam)中查询耽搁蛋白质序列。

Myers 及Miller 于1988 年,针对凸形间隔处罚函数,使用侯选者名单(candidate list) 的方法,首先提出时间复杂度为O( nmlogm ) 的方法,并找出一个特殊的凸形间隔处罚函数,对数(logarithmic) 函数:g(k) = A + Blogk ,提出O( nm ) 的演算法。

同步法:实质是把给定的所有序列同时进行比对,而不是两两比对或分组进行比对。其基本思想是将一个二维的动态规划矩阵扩展到三维或多维。矩阵的维数反映了参与比对的序列数。这类方法对于计算机的系统资源要求较高,通常是进行少量的较短的序列的比对

渐进法:这类方法中最常用的就是Clustal,它是由Feng和Doolittle于1987年提出的(Feng