生信整理
一、重要概念
1. 生物信息学的定义、研究内容、组成
采用信息学的方法来研究生命科学
定义:生物信息学迄今为止尚没有一个标准定义
(广义:生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达;细胞、组织、器官的生理、病理、药理过程的中各种生物信息。狭义:生物分子信息的获取、存贮、分析和利用。)
研究内容:①基础研究——数学:模型、算法;IT:数据库、计算机软、硬件开发
②应用(生命科学研发)——序列分析:ORF、序列组装;蛋白质结构预测(新
药研发);组学数据分析
组成:数学+信息科学+计算机科学+生命科学
2、推动生物信息学快速发展的学科
核心和灵魂:生物学
基本工具:数学与计算机技术
3、“组”学的主要创新点对生命科学发展的作用与意义
21世纪是生物技术和信息技术的时代,基因组研究由结构基因组研究转向功能基因组研究,蛋白质组学已成为当前研究的热点和重点,生物信息学加快了生命科学的发展步伐。蛋白组研究的兴起和发展,在揭示生命运动的本质及疾病的诊断、治疗等方面发挥着重要作用。随着基因组学研究的不断深入,在基因组测序、蛋白质序列测定和结构解析等实验的基础上,产生了大量有关生物分子的原始数据,这些原始的数据需要利用现代计算机技术进行收集、整理、管理以便检索使用,生物信息学应用而生,其研究重点集中在核酸和蛋白质两个方面。所谓组学,即从一个整体的角度来研究。相对于传统生命科学零敲碎打的研究手段,研究单
个的基因或蛋白的功能、结构,而组学则是着眼于大局,将单个的基因、蛋白以“组”的水平进行研究,从而对于生命科学能够有一个大局的把握。
4、生物信息学对生命科学发展的作用与意义
1.同上
2.生物信息学的引入不仅能够帮助传统生物学的实验,还能够通过预测、模拟等来指导生物学的研究
作用:(1) 从学科角度方面:生命科学进入了新的发展时期;研究体系的突破:局部到整体;学科性质:经验型、资料积累到总结规律
(2) 从研究人员角度:提高研究效率、深化研究成果、显著增加论文“厚度”与“重量”
意义:正对生命科学产生深远的影响,极大提高科研的效率、质量、促进生命科学实现跨越式的发展。数据处理、分析能力直接影响当今生命科学研究机构的科研能力与研究成果水平。
5、世界上最权威的四大生物数据平台
美国人工蛋白质数据库:1960年代
GenBank数据库:1979年
欧洲分子生物学实验室(EMBL):1982年
日本核酸序列数据库(DDBJ): 1984年
6、检索工具法
通过检索工具对文献信息进行查找,可以通过主题、关键词、著作等途径。
即利用各种检索工具查找文献信息的方法。以主题、分类、著作等途径,通过检索工具获取所需文献的一种方法,根据检索文献的时间顺序又可分为顺查法、倒查法和抽查法。
7、追溯法
一种传统的文献检索方法,以一些已知文献或综述文献所附的参考文献为线索,查找原文
又称引文法,是一种传统的检索文献信息方法。它是以一些和欲检索课题相关的已知文献,特别是综述文献后所附的参考文献为线索,逐一追查原文的方法。
8、分段法
首先利用检索工具查出一批文献资料,再利用这些文献资料所附的参考文献追溯查找相关文献,如此交替,直到满足检索要求为止。
又称循环法或综合法,是交替使用“追溯法”和“检索工具法”来进行检索的综合方法。即首先利用检索工具查出一批文献资料,再利用这些文献资料所附的参考文献追溯查找相关文献。如此交替循环,不断扩展,直到满足检索要求为止。
9、文献检索的主要途径
著者途径,文献名称途径、主题途径等
10、数据库
长期储存在计算机内,有组织、可共享的数据集合
数据库中的数据按照一定的数据模型组织、描述和储存,冗余度小,数据独立性和易扩展性高,可以共享
数据库就是长期储存在计算机内、有组织的、可共享的数据集合。
数据库中的数据按一定的数据模型组织、描述和储存,具有较小的冗余度,较高的数据独立性和易扩展性,并可为各种用户共享。
A database is a collection of one or more related tables.
11、表(table)
A table is a collection of one or more rows of data.
A row is a collection of one or more data items, arranged in columns.
12、数据库种类
DBMS(database management system)种类:Flat file indexing systems; Relational DBMSs; Object-oriented(面向对象的)DBMS
一次数据库往往就是原始数据,而二次数据库则是对原始数据进行了信息的注解以及处理,使其变得能让大家都看得懂。
一次数据库(基本数据库、初始数据库):分子生物学、组学的基本数据资源
基因组数据库:来自基因组作图
序列数据库:来自序列测定
结构数据库:来自X射线衍射、核磁共振等结构测定
二次数据库:(也称专业数据库、专用数据库):
根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的,是数据库开发的有效途径。
13、BLAST的中英文全名
Basic Local Alignment Search Tool=碱基局部核对查询工具
14、比对
排列两条或两条以上序列,使其最大化地利于分析序列的同源性、相似性等
15、氨基酸序列BLAST时,相对与于DNA序列打分矩阵有何异同?
DNA序列打分矩阵主要考虑三方面:
1.插入
2.删除
3.替换
对于替换,要考虑转换和颠换的差异,一般来讲,转换罚分较少,颠换则较多
Aa序列blast时,打分矩阵主要考虑以下几个问题:
1.物理、化学性质的相似性:残基的疏水性、电荷性质、大小
2.根据替换实际发生的概率:需要统计自然界中实际的替换率
16、PAM矩阵
Pam矩阵的打分:
1.以序列相似度很高的基因家族成员构建一个序列组
2.计算每个aa的相对突变率,并两两计算每个aa被另一种aa替换的次数
3.标准化处理做成pam矩阵
点接受突变(point-accepted-mutation) (PAM)矩阵。PAM矩阵的打分是通过统计相似序列比对中的替换发生率得到。
PAM矩阵构建方法:
(1)首先,以序列间相似度很高(通常大于85%)的基因家族成员构建一个序列组
(2)接着计算每个氨基酸的相对突变率(relativemutability)。
(3)两两计算每个氨基酸被另种氨基酸替换的次数。
(4)对替换的频度进行标准化,再取常用对数,即得到PAM-1矩阵中的元素。
这种矩阵被称做对数几率矩阵(log odds matrix)
对矩阵中的元素进行标准化可以使PAM矩阵通过一个进化的固定单位反映氨基酸之间替换发生的可能性。
PAM-1:即每100个残基发生1次替换(或点接受突变),即一个PAM单位(PAM umt)。PAM-1矩阵:适于用来比较亲缘关系非常近的序列。
PAM-1000矩阵:可以用来比较亲缘性非常远的序列。
实践中用的最多的且比较折衷的矩阵是PAM-250。
17、BLOSUM矩阵
Blosum的最大特点即使用“类”而非单个aa为单位
(1)通过统计聚类技术来对相关蛋白质的无空位比对进行分类。
(2)计算类间的替换率
优点:当某氨基酸的替换率很低时,单纯统计方法会产生问题,而聚类方法能够帮助避免此类问题。
BLOSUM矩阵阶数的意义与PAM矩阵正好相反:
∵pam是取突变数量,而Blosum是取相似程度
低价高价
PAM 相似程度高相似程度低
比如pam1是对于亲缘较近的物种,而pam1000则对于较远
BLOSUM 相似程度低相似程度高
Blosum62 适用于相似度达62%的物种,Blosum80。。。。。80%的物种
低阶BLOSUM矩阵更多是用来比较亲缘较远的序列。
18、局部比对与整体比对在打分矩阵方面的主要区别、用途
局部比对:能够高灵敏度地发现短的保守序列,结果更具生物学意义,计算量小且速度快整体比对:能够发现两个序列在整体水平上的相似性,要求比对序列长度较一致;主要用于进化分析、蛋白质三维结构或折叠方式的研究
全局比对对于空位罚分的情况没有根据其空的位置而异;
准全局以及局部的打分矩阵都对于中间空位以及两端空位有所区别,如
空位:-1,失配:-1,匹配:+1,两端空位:0
局部比对的主要优点与用途:
高灵敏度地发现短的保守序列、结果更具生物学意义、计算量小速度快
整体比对:用于发现两个序列整体水平上的相似性;要求:比对的序列长度较一致;主要用途:进化分析、蛋白质三维结构或折叠方式
打分矩阵:全局比对(global alignment):空位罚分没对空位出现的位置不加区别(空位:序列中间、序列两端)
准全局比对打分矩阵:空位:-1,失配:-1,匹配:+1,两端空位:0
局部比对打分矩阵:空位:-1,失配:-1,匹配:+1,两端空位:0
小于零时归零,回溯重建比对,直到遇上零为止
19、相似性与同源性
同源性:从某一共同祖先进化而形成不同的序列
相似性:DNA碱基or蛋白质中aa相同序列所占比例的高低
同源性(homology):定性。同源序列指从某一共同祖先经趋异进化而形成得不同序列。
相似性(similariy)::定量。通过序列比对过程中用来描述检测序列和目标序列之间相同DNA 碱基或氨基酸残基序列所占比例的高低。
20、序列比对的主要应用
1.通过数据库的搜索,找出相似的序列,有助于确定其功能
2.多序列比对,能够发现特定基因家族的保守区段,找到同源克隆基因,并且能够对基因的功能结构域进行分析,还能够对其进化水平进行比较分析
1)数据库搜索-----序列比对最常见的用途
通过对海量序列的数据库的搜索,找出与特定序列相似的那些序列。
2)多序列比对:发现特定基因家族的保守区段;同源克隆基因;基因功能结构域分析;分子系统发生分析(生物进化)
21、BLASTN, BLASTP, BLASTX, tBLASTN, tBLASTP
blastn:核酸序列对核酸库的比对,直接比较核酸序列的同源性。
blastp:蛋白序列与蛋白库做比对,直接比对蛋白序列的同源性。
blastx:核酸序列对蛋白库的比对,先将核酸序列翻译成蛋白序列(根据相位可以翻译为6种可能的蛋白序列),然后再与蛋白库做比对。
tblastn:蛋白序列对核酸库的比对,将库中的核酸翻译成蛋白序列,然后进行比对。tblastx:核酸序列对核酸库在蛋白级别的比对,将库和待查序列都翻译成蛋白序列,然后对蛋白序列进行比对。
22、分子钟
蛋白质同系物的替换速率在数千万年的跨度上面是保持恒定的,因此将aa的匀速变异现象比作分子钟。
而且,同类的基因间的aa替换率几乎完全一致,而不同类gene间的aa替换率却差异显著
蛋白质同系物的替换率,在几百万至几千万年的时间跨度上是基本保持恒定的,因此将氨基酸的匀速变异现象比作分子钟。
基本规律:(1)不同类的基因间的氨基酸替换率的存在显著差异
(2)同类的分子进化速率则几乎完全一致,同源蛋白质的差异取决于它们独立分化的时间23、有根树
不仅能够明确地显示节点之间的相互关系,还能够确定某个节点为其他所有节点的共同祖先,能够看出进化的方向
不仅明确节点之间的相互关系,同时确定哪个节点是其他节点的共同祖先或最早从共同祖先中分化出来的。(包含进化的方向信息)
24、无根树
只显示了点与点之间的关系,而没有确定某个共同祖先以及点之间的进化关系
25、外类群
利用已有的进化信息,人为引入某已知、且与被分析群体进化关系最远的基因序列或物种,辅助寻找“根”
26、确定树根的主要方法
外类群法、中点法(最远进化距离两者的中点)、倍增基因法(引入一个同源的基因)
27、进化树构建的数据种类
特征数据:描述性、定性的数据,如:个体颜色、对某种刺激的反应时间
距离数据:两个可衡量差异的数据,定量、离散,如:DNA、蛋白质序列数据
特征(characters)数据:存在有限不同状态的特征描述性、定性(包括:来自解剖学、生理、行为学研究的数据,如:个体颜色、对某种刺激的反应时间等)
距离(distances)数据:两个数据集之间具有可衡量的差异。定量、离散的特征(以DNA、蛋白质序列数据为主)
28、进化树构建的主要方法、各自的原理及优缺点
距离建树方法:利用双重序列比对的差异程度进行建树;
最大简约法:进化往往会走最短的路-----DNA序列发生的碱基替换数量最少
最大似然法:进化会走可能性最大的路
1)距离建树方法(非加权组平均法UPGMA,相邻归并法Neighbor-joining, NJ(优点:快速),Fitch-Margoliash(FM)( 优点:允许OTU(操作分类单位)间存在不同的进化速率))
原理:根据双重序列比对的差异程度(距离)
优点:使用序列进化模型、计算强度较小
缺点:屏蔽了真实的特征符数据。
2)最大简约法
原理:最能反映进化历史的树具有最短的树长(tree length),即进化步数(性状在系统树中状态改变的次数)最少。即:DNA序列发生的碱基替换数最少。
3)最大似然法
原理:首先选定一个进化模型,计算该模型下,各种分支树产生现有数据的可能性。具有最大可能性的系统树为最优。即一个树的似然性(likelihood)等于每一个性状的似然性之和或每一个性状的似然性对数之和。
优点:完全基于统计,在每组序列比对中考虑了每个核苷酸替换的概率,使用越来越普遍缺点:计算量非常大,缺乏普遍适用的替换模型(不同的替换模型给出不同的结果)
系统进化树构建总结:
方法原理要求优点缺点计算支长
距离法数学进化速计算快不能同时能
度相同充分考虑分析不同
不可见突变类型的数据
MP 特征序列差别正确性受长支不能
小,较长效率兼顾效应影响
(几Kb)
ML 特征得到正确计算量大能
统计/ 进化树的
可能性较高
29、进化树质量评价的主要方法
重复取样法和整体评价法
重复取样法:重复取样(自举法和折刀法)进行重复取样,
整体评价法:采用一致性指数lc=R/L
R为性状可能变化的最小值
L为给定系统树的最小进化步数
Lc越大,则系统树越可靠
重复取样法:评价系统树中每一分支的可靠性,统计学上用重复取样来排除随机误差的影响。(包括自举法和折刀法)
整体评价法:一般用于一致性指数(consistency index,Ic)和保持性指数(retentionindex,Ir)来
衡量。Ic=R/L
R: 所有性状的范围的总和,即性状可能变化的最小值。
L: 给定系统树的最小进化步数。
Ic越大: 则同塑性的比例越小,系统树越可靠。
30、domain, fold, motif31、蛋白质的各级结构的定义
Domain: 指具有特定且相对独立的三维立体结构、而且能够独立完成某种功能的蛋白质的一部分,但有时候也泛指蛋白质序列的一部分。
Fold: 蛋白质基本三维结构,包括:(1) 二级结构元件(2)元件之间的顺序连接(3)元件之间的相对空间位置
Motif:模体,在DNA或蛋白质序列上保守的短片段,或蛋白质结构上普遍存在的保守立体结构元件。
一级结构:氨基酸序列;
二级结构:局部多肽链借助氢键排成特有的规则结构;如α螺旋,β-折叠等等
三级结构:由远程肽段折叠而产生,一般指多肽链的独立折叠单位经多重盘绕、折叠形成由各种次级键维持的球状结构。简单蛋白质的三维空间结构,或复杂蛋白质亚基的三维空间结构。
四级结构:由若干亚基组装成复杂蛋白
32、蛋白质二级结构预测方法根据其原理分类
所谓基于统计即:对不同aa在不同二级结构中出现的频率进行统计
基于知识即:根据理化性质对其进行规则制定以及预测
33、蛋白质家族、蛋白质超家族
蛋白质家族(family): are groups of proteins that demonstrate sequence homology or have similar sequences.(一般成员之间的序列相似性超过40-50%以上,进化上可能共同起源于同一祖先蛋白)。主要是从量上面讲,即序列相似性很强的一系列蛋白质
蛋白质超家族(superfamily):Consist of proteins that have similar folding motifs but do not exhibit sequence similarity.成员之间的几乎不存在序列相似性,但在结构组成上有相似的折叠模体构成。主要是从性上面讲,即序列功能、结构很相似,但序列却不相似的一类蛋白质
34、蛋白质三级结构预测的主要方法
同源建模:给定序列----找到同源性很强的序列----进行建模----refine-----搞定
穿针引线:给定序列----预测其折叠模式----在库中找出能够折叠成该结构的序列
从头预测:给定序列----打断成为短片段----在库中找出同源区段----拼接出来-----优化
35、核酸芯片的基本原理与创新性
原理:并行地做几百~几万个Southern or Northern量变到质变
创新:生命科学研究从单个基因、孤立地研究发展到多基因、基因组整体性研究的崭新阶段
36、基因芯片的主要种类
基因组分析芯片(Southern):通过进行序列分析,检测基因序列的突变和多态
基因表达谱芯片(反Northern):通过检测基因表达,研究基因的功能。
37、生物信息学分析在利用芯片开展生命科学相关研究中的主要作用
初期:芯片探针设计:特异性、Tm值的一致性
后期:数据处理分析:找出差异基因(群);结果分析:为生物学意义的确定提供依据
二、简述题:
1、生物信息学的在生命科学中的地位、作用,及对生命科学的影响应用领域
地位与作用:(1) 从学科角度方面:生命科学进入了新的发展时期;研究体系的突破:局部到整体;学科性质:经验型、资料积累到总结规律
(2) 从研究人员角度:提高研究效率、深化研究成果、显著增加论文“厚度”与“重量”
影响:正对生命科学产生深远的影响,极大提高科研的效率、质量、促进生命科学实现跨越式的发展。数据处理、分析能力直接影响当今生命科学研究机构的科研能力与研究成果水平。应用:生命科学研发——序列分析:ORF、序列组装;蛋白质结构预测(新药研发);组学数据分析
2、结构生物学
研究核酸、蛋白质等生物大分子结构与功能的新兴学科;生物、物理、化学、计算机科学等一级学科的交叉学科;非常年轻的一门新兴科学;当今生命科学最前沿、活跃的领域
结构生物学的主要研究对象:核酸、蛋白质、多糖、类脂。
在分子层面上对生物大分子的结构研究,阐明重要生命过程的分子机理。
3、蛋白质结构研究的主要方法
4、经典生物进化与现代分子进化研究的异同?
传统系统发生研究:形态、生理层面。通过解剖学和生理学的研究,探讨生物的进化。
分子系统发生:利用免疫学、同工酶、基因组DNA特性(酶切、复性、SNP)、核酸、蛋白序列分析推断基因、物种之间的进化关系。
传统系统发生研究很早就采用了分子水平上的证据。
分子系统发生分析的优点:
(1)进化的定义:遗传信息的改变分子数据与进化的关系更直接
(2)表型分析的局限性:趋同进化(convergent evolution)可用的表型特征有限:例如,细菌(3)分子数据:可选范围大(可相互印证)、许多基因(蛋白)在进化关系非常远的物种中仍广泛存在。
传统系统发生与分子系统发生的差异:
传统系统发生分子系统发生
分子证据的地位辅助核心
证据数量少海量
研究成果性质定性、推论定量、统计分析
分化时间确定真实推测
5、不同种类基因进化速度存在很大差异的分子机理?
蛋白质序列的比较研究中发现蛋白质同系物的替换率在几百万至几千万年的时间跨度上是基本保持恒定的,即氨基酸的匀速变异现象(分子钟)。
基本规律:(1)不同类的基因间的氨基酸替换率的存在显著差异;(2)同类的分子进化速率则几乎完全一致。
同源蛋白质的差异取决于它们独立分化的时间。
某些基因需要更快的进化速率以维持其物种的生存,如HLA,以及病毒基因
6、基因进化树与物种进化树的区别
基因树(gene tree): 基于一种或少数几种同源基因(蛋白)的比较分析而构建的系统发生树,其实质是基因的进化历史。
物种树(species tree):综合考察物种多方面的进化证据而构建的系统发生树。物种树一般最
好是从多个基因数据的分析中得到。例如最近的一项的研究表明,高等植物进化研究需要采用100种不同的基因来构建物种树,才有较高的可信度。
7、蛋白质结构预测的意义与目的
破译“第一层次遗传密码”(中心法则)
DNA→mRNA→蛋白质
蛋白质的氨基酸序列→蛋白质的三维空间结构→蛋白质功能
“第二层次遗传密码子”
8、蛋白质结构预测的生物学证据
依据蛋白质的一级结构(序列)推测蛋白质的三维空间结构:
实验证据:关于核糖核酸酶的折叠实验
在对核糖核酸酶进行变性实验时,首先发现:
(1)核酸酶变性(denatured)或者说蛋白质高级结构被破坏后,其活性随之消失。说明结构与
功能密切相关。
(2)在一定的实验条件下(如:适当的溶液、温度等),变性的核酸酶可以自发地重新折叠
恢复到原来的结构,同时其酶活(功能)也随之恢复。
以后,在很多其他的蛋白质的研究中也获得了类似的实验结果。
近年来的研究发现,蛋白折叠虽然其本身序列是起主导和决定性作用的,但环境条件(盐离子浓度、pH)、特定分子伴侣也非常重要。即新翻译的蛋白质只有在特定的环境中,甚至必须在特定的其它分子协助下,才能完成正确的折叠,形成其特有的功能。
9、蛋白质折叠过程中的关键作用力
1)氢键(hydrogen bond):N-H和O-H等具有很大的偶极矩,H核裸露而带正电荷,而与电负性强的原子之间的静电吸引。在稳定蛋白质的结构中起着极其重要的作用。
2)范德华力(vanderWaals force):作用力较弱,包括:定向效应、诱导效应和分散效应
3)疏水作用(hydrophobic interaction)(熵效应):在水溶液中,蛋白质分子的疏水基团或侧链为避开水分子,而被迫埋藏与蛋白质分子的内部,并彼此相互接近,构成疏水内核。
4)离子键:它是带正电荷与带负电荷基团之间的一种静电相互作用。
5)二硫键:二硫键是由蛋白质的两个半胱氨酸之间配对形成的一种共价键。二硫键的形成是蛋白质折叠过程中的重要步骤,其形成动力学影响蛋白质折叠的速率和途径,它的错误配对是影响蛋白质多肽链正确折叠的重要原因。二硫键的存在对于维持蛋白质空间结构稳定性,保持其生理活性具有至关重要的意义。