当前位置:文档之家› 生物信息学名词解释资料

生物信息学名词解释资料

生物信息学名词解释资料
生物信息学名词解释资料

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。

2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。

3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。

4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。

5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。

6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94

7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98

8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29

9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29

10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影

响,序列中的空位的引入不代表真正的进化事件,所以要对其进行

罚分,空位罚分的多少直接影响对比的结果。P37

11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了

可以找到与查询序列(query)相匹配的随机或无关序列的概率,E

值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的

相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意

义。P95

12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复

度高的区域,如poly(A)。

13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,

Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)

加点,如果两条序列完全相同则会形成一条主对角线,如果两条序

列相似则会出现一条或者几条直线;如果完全没有相似性则不能连

成直线。

14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这

些序列做一个总体的比对,以观察它们在结构上的异同,来回答大

量的生物学问题。

15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而

可以通过分子进化推断出物种起源的时间。

16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或

其他性状,可以研究推断不同物种或基因之间的进化关系。

17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个

父分支都只能被分成两个子分支。

系统发育图:用枝长表示进化时间的系统树称为系统发育图,是

引入时间概念的支序图。

18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中

的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制

证据的情况下,具有共同祖先和相同功能的同源基因。)

19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重

复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于

基因重复事件产生的相似序列。)

20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘

关系的物种。

21.有根树:能够确定所有分析物种的共同祖先的进化树。

22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找

到距离最近的两类将其归为一类,定义为一个节点,重复这个过程,

直到所有的聚类被加入,最终产生树根。

23.邻接法(neighbor-joining method):是一种不仅仅计算两两比

对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行

限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。

24.最大简约法(MP):在一系列能够解释序列差异的的进化树中

找到具有最少核酸或氨基酸替换的进化树。

25.最大似然法(ML):它对每个可能的进化位点分配一个概率,

然后综合所有位点,找到概率最大的进化树。最大似然法允许采用

不同的进化模型对变异进行分析评估,并在此基础上构建系统发育

树。

26.一致树(consensus tree):在同一算法中产生多个最优树,合并

这些最优树得到的树即一致树。

27.自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多

次重复取样,构建多个进化树,用来检查给定树的分枝可信度。

精品文档

28.开放阅读框(ORF):开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列。

29.密码子偏好性(codon bias):氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致,大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子,这种效应称为密码子偏好性。

30.基因预测的从头分析:依据综合利用基因的特征,如剪接位点,内含子与外显子边界,调控区,预测基因组序列中包含的基因。31.结构域(domain):保守的结构单元,包含独特的二级结构组合和疏水内核,可能单独存在,也可能与其他结构域组合。相同功能的同源结构域具有序列的相似性。

32.超家族:进化上相关,功能可能不同的一类蛋白质。

33.模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。

34.序列表谱(profile):是一种特殊位点或模体序列,在多序列比较的基础上,氨基酸的权值和空位罚分的表格。

35.PAM矩阵:PAM指可接受突变百分率。一个氨基酸在进化中变成另一种氨基酸的可能性,通过这种可能性可以鉴定蛋白质之间的相似性,并产生蛋白质之间的比对。一个PAM 单位是蛋白质序列平均发生1%的替代量需要的进化时间。36.BLOSUM矩阵:模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如,在BLOSUM62矩阵中,比对的分值来自不超过62%一致率的一组序列。

37.PSI-BLAST:位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵(scoring matrix)探测远缘相关的蛋白。38.RefSeq:给出了对应于基因和蛋白质的索引号码,对应于最稳定、

最被人承认的Genbank序列。

39.PDB(Protein Data Bank):PDB中收录了大量通过实验(X射

线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录

有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的

访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词

搜索,还可以FASTA程序进行搜索。

40.GenPept:是由GenBank中的DNA序列翻译得到的蛋白质序列。

数据量很大,且随核酸序列数据库的更新而更新,但它们均是由核

酸序列翻译得到的序列,未经试验证实,也没有详细的注释。

41.折叠子(Fold):在两个或更多的蛋白质中具有相似二级结构的

大区域,这些大区域具有特定的空间取向。

42.TrEMBL:是与SWISS-PROT相关的一个数据库。包含从EMBL

核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这

些序列尚未集成到SWISS-PROT数据库中。

43.MMDB(Molecular Modeling Database):是(NCBI)所开发的生

物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自

于实验的生物大分子结构数据。与PDB相比,对于数据库中的每一

个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学

功能、产生功能的机制、分子的进化历史等,还提供生物大分子三

维结构模型显示、结构分析和结构比较工具。

44.SCOP数据库:提供关于已知结构的蛋白质之间结构和进化关系

的详细描述,包括蛋白质结构数据库PDB中的所有条目。SCOP数

据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还

包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。

可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结

构的树,其主要的层次依次是类(class)、折叠子(fold)、超家族(super

family)、家族(family)、单个PDB蛋白结构记录。

45.PROSITE:是蛋白质家族和结构域数据库,包含具有生物学意义

的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE中

涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结

合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域

等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更

敏感地发现一个序列是否具有相应的特征。

46.Gene Ontology 协会:编辑一组动态的、可控的基因产物不同方

面性质的字汇的协会。从3个方面描述基因产物的性质,即,分

子功能,生物过程,细胞区室。

47.表谱(PSSM):指一张基于多序列比对的打分表,表示一个蛋

白质家族,可以用来搜索序列数据库。

48.比较基因组学:是在基因组图谱和测序的基础上,利用某个基因

组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、

位置、功能、表达机制和物种进化的学科。

49.简约信息位点:指基于DNA或蛋白质序列,利用最大简约

法构建系统发育树时,如果每个位点的状态至少存在两种,

每种状态至少出现两次的位点。其它位点为都是非简约性信

息位点。

1、生物信息学:生物分子信息的获取、存贮、分析和利用;以数学

为基础,应用计算机技术,研究生物学数据的科学。

2、相似性(similarity):两个序列(核酸、蛋白质)间的相关性。

3、同源性(homology):生物进化过程中源于同一祖先的分支之间

的关系。

精品文档

4、同一性(identity):两个序列(核酸、蛋白质)间未发生变异序列的关系。

5、序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

6、生物数据库检索(database query,数据库查询):对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。

7、生物数据库搜索(database search):通过特定序列相似性比对算法,找出核酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列。

1. 生物信息学:

1)生物信息学包含了生物信息的获取、处理、分析、和解释等

在内的一门交叉学科;

2)它综合运用了数学、计算机学和生物学的各种工具来进行研

究;

3)目的在于阐明大量生物学数据所包含的生物学意义。

2. BLAST(Basic Local Alignment Search Tool)

直译:基本局部排比搜索工具

意译:基于局部序列排比的常用数据库搜索工具

含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库

3. PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST和FASTA 的相似序列发现率。

4.一致序列:这些序列是指把多序列联配的信息压缩至单条序列,

主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。

5.HMM 隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和

间隔的所有可能的组合来生成一组序列排列。(课件定义)是蛋

白质结构域家族序列的一种严格的统计模型,包括序列的匹配,

插入和缺失状态,并根据每种状态的概率分布和状态间的相互转

换来生成蛋白质序列。

6. 信息位点:由位点产生的突变数目把其中的一课树与其他树区分

开的位点。

7. 非信息位点:对于最大简约法来说没有意义的点。

8. 标度树:分支长度与相邻节点对的差异程度成正比的树。

9. 非标度树:只表示亲缘关系无差异程度信息。

10. 有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯

一的路径历经进化到达其他任何节点。

11. 无根树:只表明节点间的关系,无进化发生方向的信息,通过

引入外群或外部参考物种,可以在无根树中指派根节点。

12. 注释:指从原始序列数据中获得有用的生物学信息。这主要是

指在基因组DNA中寻找基因和其他功能元件(结构注释),并给

出这些序列的功能(功能注释)。

13. 聚类分析:一种通过将相似的数据划分到特定的组中以简化大

规模数据集的方法。

14. 无监督分析法:这种方法没有内建的分类标准,组的数目和类

型只决定于所使用的算法和数据本身的分析方法。

15. 有监督分析法:这种方法引入某些形式的分类系统,从而将表

达模式分配到一个或多个预定义的类目中。

16. 微阵列芯片:将探针有规律地排列固定于载体上,与标记荧光

分子的样品进行杂交,通过扫描仪扫描对荧光信号的强度进行

检测,从而迅速得出所要的信息。

17. 虚拟消化:是基于已知蛋白序列和切断酶的特异性的情况下进

行的理论酶切(课件定义)。是在已知蛋白质序列和蛋白外切酶

之类切断试剂的已知特异性的基础上,由计算机进行的一种

理论上的蛋白裂解反应。

18. 质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)

的方法,从而使分子质量的准确确定成为可能。

质谱分析的两个工具

19. 分子途径是指一组连续起作用以达到共同目标的蛋白质。

20. 虚拟细胞:一种建模手段,把细胞定义为许多结构,分子,反

应和物质流的集合体。

21. 先导化合物:是指具有一定药理活性的、可通过结构改造来优

化其药理特性而可能导致药物发现的特殊化合物。就是利用计

算机在含有大量化合物三维结构的数据库中,搜索能与生物大

分子靶点匹配的化合物,或者搜索能与结合药效团相符的化合

物,又称原型物,简称先导物,是通过各种途径或方法得到的

具有生物活性的化学结构

22. 权重矩阵(序列轮廓):它们表示完全结构域序列,多序列联配

中每个位点的氨基酸都有分值,并且特定位置插入或缺失的可

能性均有一定的衡量方法(课件定义)。基础上针对特定的应用

目标而建立的数据库。

23. 系统发育学(phylogenetic):确定生物体间进化关系的科学分

支。

24. 系统生物学(systems biology):是研究一个生物系统中所有

组分成分(基因、mRNA、蛋白质等)的构成以及在特定条件下

这些组分间的相互关系,并分析生物系统在一定时间内的动力

学过程

25. 蛋白质组(proteome):是指一个基因组、一种生物或一个细胞

精品文档

/组织的基因组所表达的全套蛋白质。

26. ESI电喷雾离子化:一种适合大分子如蛋白质离子化没有明显

降解的质谱技术。

一、名词解释

1.GenBank:是美国全国卫生研究所维护的基因序列数据库,汇

集并注释了所有公开的核酸序列,与日本的DNA数据库DDBJ 以及欧洲分子实验室核酸序列数据库EMBL一起,都是国际核苷酸序列数据库合作的成员。

2.EMBL:EMBL实验室—欧洲分子生物学实验室,EMBL数据

库—是非盈利性学术组织EMBL建立的综合性数据库,EMBL 核酸数据库是欧洲最重要的核酸序列数据库,它定期地与美国的GenBank、日本的DDBJ数据库中的数据进行交换,并同步更新。

3.DDBJ:日本DNA数据库,主要向研究者收集DNA序列信息

并赋予其数据存取号,信息来源主要是日本的研究机构,也接受其他国家呈递的序列。

4.BLAST:基本局部比对搜索工具的缩写,是一种序列类似性

检索工具。BLAST采用统计学几分系统,同时采用局部比对算法, BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。

5.BLASTn:是核酸序列到核酸库中的一种查询。库中存在的

每条已知序列都将同所查序列作一对一地核酸序列比对。

6.BLASTp:是蛋白序列到蛋白库中的一种查询。库中存在的

每条已知序列将逐一地同每条所查序列作一对一的序列

比对。

7.Clustsl X:是CLUSTAL多重序列比对程序的Windows版

本,是用来对核酸与蛋白序列进行多序列比较的程序,

也可以对来自不同物种的功能或结构相似的序列进行比

对和聚类,通过重建系统发生树判断亲缘关系,并对序

列在生物进化过程中的保守性进行估计。

8.Entrez:是由NCBI主持的一个数据库检索系统,它包括

核酸,蛋白以及Medline文摘数据库,在这三个数据库

中建立了非常完善的联系。因此,可以从一个DNA序列

查询到蛋白产物以及相关文献,而且,每个条目均有一

个类邻(neighboring)信息,给出与查询条目接近的信

息。

9.SRS(sequence retrieval system):序列查询系统,是EBI提供

的多数据库查询工具之一。有与Entrez类似的功能外,还提供

了一系列的序列分析工具,可以直接进行在线序列分析处理。

10.SWLSS—MODE:是目前最著名的蛋白质三级结构预测服务

器,建立在已知生物大分子结构基础上,利用同源建模的方法

对未知序列的蛋白质三级结构进行预测。

11.homology modeling:是目前最为成功且实用的蛋白质结构预

测方法,它的前提是已知一个或多个同源蛋白质的结构。当两

个蛋白质的序列同源性高于35%,一般情况下认为他们的三维

结构基本相同。

12.Ab initio prediction:蛋白质三级结构预测方法—从头预测法,

在既没有已知结构的同源蛋白质、也没有已知结构的远程同源

蛋白质的情况下,只能采用从头预测方法,即(直接)仅仅根

据序列本身来预测其结构。

13.molecular phylogenetic tree:分子进化树,精确地反映物种间

或群体间在进化过程中发生的极微细的遗传变异,而且借助化

石提供的大分子类群的分化年代能定量地估计出物种间或群

体间的分化年代。

14.gene tree:基因树,表示一组基因或一组DNA顺序进化关系

的系统发生树。

15.neighbor—joining method:邻接法,基于最小进化原理经常

被使用的一种算法,它不检验所有可能的拓扑结构,能同时给

出拓扑结构和分支长度。在重建系统发生树时,认为在进化分

子上,发生趋异的次数可以不同,它是最有效的的基于距离数

据重建系统树的方法之一。

16.maximum parsimony method:最大简约法基于进化过程中所

需核苷酸(或氨基酸)替代数目最少的假说,对所有可能正确

的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作

为最优系统树。

17.MEGA(Molecular Evolutionary Genetics Analysis):是一款免

费的构树软件,它提供了序列比对、格式转换、数据修订、距

离计算、系统树重建和可信度评估等全套功能,能对DNA、

mRNA氨基酸序列及遗传距离进行系统发生分析以及基因分

化年代的分析。

18. BioEdit:BioEdit是一个序列编辑器与分析工具软件。功能包

括:序列编辑、外挂分析程序、RNA分析、寻找特征序列、

支持超过20000个序列的多序列文件、基本序列处理功能、

质粒图绘制等等。

19.EST:表达序列标签—是从一个随机选择的cDNA 克隆,

精品文档

生物信息学复习题及答案

生物信息学复习题 名词解释 1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一定是同源序列。 (直系同源):指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列,它们具有相似的功能。 (旁系(并系)同源):指同一个物种中具有共同祖先,通过基因复制产生的一组基因,这些基因在功能上的可能发生了改变。基因复制事件是促进新基因进化的重要推动力。 (异同源):通过横向转移,来源于共生或病毒侵染而产生的相似的序列,为异同源。 Score:The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。 6.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 7. E值:得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义,E值越接近零,越不可能找到其他匹配序列。 值:得分为所要求的分值比对或更好的比对随机发生的概率。它是将观测得到的比对得分S,与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP(高分片段对)得分的期望分布联系起来计算的。通常使用低于来定义统计的显著性。P=1-e-E 9.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法,是序列相似性分析的基础,其不同的选择将会出现不同的分析结果。 10.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。 :美国国家生物技术信息学中心,属于美国国立医学图书馆的一部分,具有BLAST, Entrez ,GenBank等工具,还具有PubMed文献数据库。另外还具有Genome, dbEST, dbGSS , dbSTS, MMDB, OMIM, UniGene, Taxonomy, RefSeq, etc. 序列格式:是将DNA或者蛋白质序列表示为一个带有大于号(>)开始的核苷酸或者氨基酸序列的新文件,其中大于号后可以跟上序列的相关信息,其他无特殊要求。 13genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释,主要包含生物功能或数据库信息;第三部分是feature,对序列的注释;第四部分是序列本身,以“统发生树(Phylogenetic tree )是研究生物进化和系统发育过程中的一种用树状分支图来概括各种生物之间亲缘关系,是一种亲缘分支分类方法。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。是用来研究物种进化与多样性的基础,是相近物种相关生物学数据的来源。17.基因树与物种树:物种树反映一组物种进化历程的系统树,其中每一个内部节点就代表一个物种形成的过程,而基因树则是代表来源于不同物种的单个同源基因的差异构建的系统树,而其内部的一个节点则代表一个祖先基因分化为两个新的独特的基因序列的事件。基因

生物信息学期末考试重点

第一讲 生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。 生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。 生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。 生物技术与生物信息学的区别及联系 生物信息学的发展历史 ?人类基因组计划(HGP) ?人类基因组计划由美国科学家于1985年提出,1990年启动。根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。(百度百科) 随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。 :

】 第二讲回顾细胞结构 细胞是所有生命形式结构和功能的基本单位 细胞组成 细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构 细胞质细胞膜与细胞核之间的区域:包含液体流质,夹杂物存储的营养、分泌物、天然色素和细胞器 细胞器细胞内完成特定功能的结构:线粒体、核糖体、高尔基体、溶酶体等 细胞核最大的细胞器 DNA的结构 碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G) 。 核苷酸 核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊 糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对,也就 是A、T、C、G 基因是什么 基因是遗传物质的基本单位 基因就是核苷酸序列。 大部分的基因大约是1000-4000个核苷酸那么长。 基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。 基因在染色体上。

建筑材料名词解释2

水泥的体积安定性:是指水泥的水化在凝结硬化过程中,体积变化的均匀性。砂的颗粒级配:是指粒径大小不同的砂相互搭配的情况。混凝土的碳化:空气中的二氧化碳气体渗透到混凝土内,与混凝土中氢氧化钙起反应后生成碳酸和水,使混凝土碱度降低的过程。 淬火:将钢材加热至基本组织改变温度以上保温,使基本组织转变成奥氏体,然后投入水或矿物油中急冷,使晶粒细化,碳的固溶量增加,机械强度提高,硬脆性增加,这种处理方法叫淬火。 陈伏:为消除过火石灰的危害,石灰膏应在储灰坑中存放两周以上的过程,即为陈伏。 弹性摸量:受力后材料的应力与材料应变的比值。 骨料的饱和面干状态:当骨料颗粒表面干燥,而颗粒内部的孔隙含水饱和时的状态。 砂率:混凝土中砂的用量占砂、石总用量的百分数,表示砂与石子二者的组合关系。 徐变:混凝土在持续荷载作用下,随时间增长的变形。木材平衡含水率:木材的含水率与周围空气的湿度达到平衡时的含水率,称为木材的平衡含水率。 骨料的坚固性:坚固性反应骨料在气候、外力或其他物理因素作用下抵抗破碎的能力,通常用硫酸盐侵泡法来检验颗粒抵抗膨胀应力的能力。混凝土的和易性:和易性也 称工作性,是指混凝土拌和 物是否易于施工操作和获 得均匀 回火:将比较硬脆、存在内 应力的钢材,加热至基本组 织改变温度以下150~160℃, 保温后按一定制度冷却至 室温的热处理方法称为回 火。 石油沥青的大气稳定性:是 指石油沥青在热、阳光、水 和空气的长期作用下,保持 其原有性能的能力。 石油沥青的温度敏感性:是 指石油沥青的粘性和塑性 随温度升降而变化的程度 软化系数:材料的软化系数 为材料在侵水饱和状态下 的抗压强与材料在干燥状 态下的抗压强之比。 比强度:材料的强度值与体 积密度之比。 最大粒径:粗骨料公称粒级 的上限为该粒级的最大粒 径。 烧结砖的抗风化性能:指烧 结普通砖在长期受到风雨 冻融等作用下,抵抗破能力。 硅酸盐水泥:凡由硅酸盐水 泥熟料、0%~5%的石灰石或 粒化高炉矿渣、适量石膏磨 细制成的水硬性胶凝材料 称为硅酸盐水泥 砂浆的稠度:新拌砂浆的流 动性也称稠度,是指新拌砂 浆在自重或外力作用下产 生流动的性质。 热塑性塑料:这种塑料加热 时软化甚至融化,冷却后硬 化,而不起化学变化,不论 加热和冷却重复多少次,均 能保持此性质,这类塑性称 为热塑性塑料。 空隙率:散粒材料在自然堆 积状态下,其中的空隙体积 与散粒材料在自然堆积状 态下的体积之比的白分率。 混凝土的化学收缩:混凝土 在硬化过程中,水泥水化产 物的体积小于水化前反应 物的体积,致使混凝土产生 收缩,这种收缩称为化学收 缩。 失效处理:将经过冷加工的 钢材于常温存放15~20d; 或加热到100~200℃并保 持2h左右,这个过程称时 效处理,前者称为自然时效, 后者称为人工时效。 密度:材料在绝对密实状态 下单位体积的质量 砖的石灰爆裂:砖胚中夹杂 有石灰块,砖吸水水后,由 于石灰熟化、膨胀而产生爆 裂现象。 普通硅酸盐水泥:凡由硅酸 盐水泥熟料、6%~15%混合材 料、适量石膏磨细制成的水 硬性胶凝材料,称为普通硅 酸盐水泥。 冷加工强化处理:将钢材于 常温下进行冷拉、冷拔或冷 扎,使其产生塑性变形,从 而调整其性能的方法称冷 加工强化处理。 水泥硬化:具有可塑性的水 泥浆体随着时间的增长,强 度逐渐提高,直至形成坚硬 的水泥石的过程,称为水泥 的硬化。 非活性混合材料:常温下不 能与氢氧化钙和水发生水 化反应或反应甚微,也不能 产生凝结硬化的混合材料 称为非活性混合材料。

最新生物信息学考试复习

——古A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 13. 同源性:两个基因或蛋白质序列具有共同祖先的结论。

工程材料名词解释答案

习题集名词解释 1.30. 奥氏体:碳在γ-Fe中的间隙固溶体称为奥氏体。 2.52. 奥氏体化:将钢加热到临界温度以上使组织完全转变为 奥氏体的过程。 3. B 2.布氏硬度:是压入法硬度试验之一,所施加的载荷与压 痕表面积的比值即为布氏硬度值。 4. B 3 5.变质处理:变质处理又称孕育处理,是一种有意向液 态金属中加入非自发形核物质从而细化晶粒的方法。 5. B 43.变形织构:由于塑性变形的结果而使晶粒具有择优取 向的组织叫做“变形织构”。 6. B 53.本质晶粒度:在规定条件下(930±10℃,保温3~8h) 奥氏体的晶粒度称为奥氏体本质晶粒度,用以评定刚的奥氏体晶粒长大倾向。 7. C 1.冲击韧性:材料抵抗冲击载荷而不破坏的能力称为冲击 韧性,以在冲击力作用下材料破坏时单位面积所吸收的能量ak表示。 8. C 54.残余奥氏体:多数钢的Mf点在室温以下,因此冷却到 室温时仍会保留相当数量未转变的奥氏体,称之为残余(留)奥氏体,常用′或A′来表示。 9. C 57.淬火:所谓淬火就是将钢件加热到Ac3(对亚共析钢) 或Ac1(对共析和过共析钢)以上30~50℃,保温一定时间后快速冷却(一般为油 10.冷或水冷)以获得马氏体(或下贝氏体)组织的一种工艺操 作。 11.C 59.淬透性:指钢在淬火时获得淬硬层(也称淬透层)深 度的能力。 12.C 60.淬硬性:淬硬性是指钢淬火后所能达到的最高硬度, 即硬化能力。它主要取决于马氏体的硬度和马氏体、碳化物和残余奥氏的相对量及其组织形态。马氏体的硬度取决于马氏体的含碳量。 13.D 58.等温淬火:将加热的工件放入温度稍高于Ms点的硝盐 浴或碱浴中,保温足够长的时间使其完成贝氏体转变,获得下贝氏体组织。 14.E 70二次硬化:含W、Mo和V等元素的钢在回火加热时由 于析出细小弥散分布的碳化物以及回火冷却时残余奥氏体 转变为马氏体,使钢的硬度不仅不降低,反而升高的现象。 15.E 33.二次渗碳体:从奥氏体中析出的渗碳体,称为二次渗碳 体。二次渗碳体通常沿着奥氏体晶界呈网状分布。 16.F 22.非自发形核:结晶过程中,依靠液体中存在的固体杂质 或容器壁形核,则称为非自发形核,又称非均匀形核。17.G 26.杠杆定律:即合金在某温度下两平衡相的重量比等于 该温度下与各自相区距离较远的成分线段之比。在杠杆定律中,杠杆的支点是合金的成分,杠杆的两个端点是所求的两平衡相(或两组织组成物)的成分。这种定量关系与力学中的杠杆定律完全相似,因此也称之为杠杆定律。 18.G 28.共晶转变:在恒温下一定成分的液体同时结晶出两种 成分和结构都不相同的固相的转变过程。 19.G 82.固溶处理:经加热保温获得单一固溶体,再经快速冷

生物信息学名词解释资料

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影 响,序列中的空位的引入不代表真正的进化事件,所以要对其进行 罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了 可以找到与查询序列(query)相匹配的随机或无关序列的概率,E 值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的 相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意 义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复 度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列, Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y) 加点,如果两条序列完全相同则会形成一条主对角线,如果两条序 列相似则会出现一条或者几条直线;如果完全没有相似性则不能连 成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这 些序列做一个总体的比对,以观察它们在结构上的异同,来回答大 量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而 可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或 其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个 父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是 引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中 的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制 证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重 复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于 基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘 关系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树。 22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找 到距离最近的两类将其归为一类,定义为一个节点,重复这个过程, 直到所有的聚类被加入,最终产生树根。 23.邻接法(neighbor-joining method):是一种不仅仅计算两两比 对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行 限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。 24.最大简约法(MP):在一系列能够解释序列差异的的进化树中 找到具有最少核酸或氨基酸替换的进化树。 25.最大似然法(ML):它对每个可能的进化位点分配一个概率, 然后综合所有位点,找到概率最大的进化树。最大似然法允许采用 不同的进化模型对变异进行分析评估,并在此基础上构建系统发育 树。 26.一致树(consensus tree):在同一算法中产生多个最优树,合并 这些最优树得到的树即一致树。 27.自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多 次重复取样,构建多个进化树,用来检查给定树的分枝可信度。 精品文档

生物信息学复习资料

第一章 1.生物信息学:用数学的、统计的、计算的方法来解决生物问题,这基于用DNA、氨基酸及相关信息。即生物+信息学,其中生物是指从基因型到表型:DNA/基因组→RNA→蛋白质→分子网络→细胞→生理学/疾病。信息学是指从数据到发现:数据管理→数据计算→数据挖掘→模型/模拟 2.人类基因组计划:①前基因组时代(1990年前):通过序列之间的对比,寻找序列变化,确定序列功能。②基因组时代(1990年后~2001年)迅猛发展:标志性的工作包括基因寻找和识别,数据库系统的建立。③后基因组时代(2001年至今)功能基因组研究:研究内容发展到基因和基因组的功能分析,即功能基因组,学研究。从传统的还原论研究生命过程转到了整体论思想。 2001年,中美日德法英6国科学家耗费十年,联合公布人类基因组草图 3.基因芯片:又称DNA芯片,由大量DNA或寡聚核苷酸探针密集排列形成的探针阵列。原理:杂交测序方法,在一定条件下,载体上的核酸分子可以与来自样品的序列互补的核酸片段杂交,如果把样品中的核酸片段进行标记,在专用的芯片阅读仪上就可以检测到杂交信号。药物处理细胞总mRNA用Cy5标记,未处理的细胞总mRNA用Cy3标记,颜色?将两者杂交形成固相探针,包含cDNA和寡核苷酸,最后进行结果观察和信息分析。 、EMBL、DDBJ 5.数据挖掘:①理解数据和数据的来源②获取相关知识与技术③整合与检查数据④去除错误或不一致的数据⑤建立模型和假设⑥实际数据挖掘工作⑦测试和验证挖掘结果⑧解释和应用。数据挖掘中的常见算法思想:判断、聚类、关联。数据挖掘模型:①监督模型、预测模型②无监督模型:聚类分析和关联分析②数据降维:主成分分析和因子分析。 第二章: 1.Sanger法:①1977年,提出了“双脱氧核苷酸末端终止测序方法”②技术基础:PCR扩增;双脱氧核苷酸的扩增终止;电泳分离扩增片段③优点1.读取片段长 2.准确率高99.9% 缺点:1.测序通量低2.成本高、流程多④方法、原理:每个反应含有所以四种dNTP使之扩增,并混入限量的一种不同的ddNTP使之终止,由于ddNTP缺乏延伸所需要的3’-OH基团,使延长的寡聚核苷酸选择性地在G,A,T或 C 处终止,终止点由反应中相应的双脱氧而定,每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可以X-光胶片放射性自显影或非同位素标记进行检测 2. 第2代测序技术(2005)①特点:1.PCR反应空间限定在特定的微小载体中。降低成本,实现高通量2.边合成边测序以及平行测序②第一代测序就出现了自动化测序③Solexa步骤:(1)制备模板,单链片断固定到载片表面(2)DNA簇群生成(3)循环合成反应+荧光成像④技术基础:基于芯片或其他载体、3’受保护的荧光标记碱基、PCR ⑤优点:高通量、没有电泳的步骤,成本降低缺点:读取片段长度短、准确率下降 3.Read contig Scaffold ①Read:测序读到的碱基序列片段,测序的最小单位②contig:由reads通过对overlap区域拼接组装成的没有gap的序列段③Scaffold:通过pair ends信息确定出的contig排列,中间有gap 4.测序的应用:①遗传多样性分析②甲基化分析③研究与蛋白质结合的DNA序列特征④转录组测序 5. 转录组测序(RNA Seq):①定义:把mRNA, non-codingRNA(ncRNA) 和smallRNA全部或者其中一些用高通量测序技术进行测序分析的技术②ncRNA主要包括有:tRNA、rRNA、snRNA、核仁小分子RNA(snoRNA)、细胞质小分子RNA(scRNA)、不均一核RNA(hnRNA)、小RNA(microRNA, miRNA) ③方法:获得cell总RNA,然后根据实验需要,对RNA样品进行处理,处理好的RNA再进行片段化,然后反转录形成cRNA,获得cDNA文库,然后在cDNA片段接上接头,最后用新一代高通量测序进行测序④作用:(1)通过RNA-seq来分析基因表达量(2)通过RNA-seq分析基因表达网

名词解释

名词解释: 1、康复——是综合协调的应用各种措施,最大限度的恢复和发展与病、伤、残者的身体、心理、社会、职业、娱乐、教育和周围环境相适应的潜能,以减少病、伤、残者身体、心理和社会的障碍,使其重返社会,提高生活质量。 2、社区——是若干社会群体(家庭、氏族)或社会组织(机关、团体),聚集在某一个地域里所形成的在生活上相互关联的大集体。 3、家庭访视——是指在服务对象家庭里,为了维护和促进个人、家庭和社区的健康而对访视对象及其家庭成员所提供的护理服务活动。 4、精神障碍——是指在各种因素作用下(包括各种生物学因素、社会心理因素等)造成大脑功能失调,而出现感知、思维、情感、行为、意志以及智力等精神运动方面的异常,需要用医学方法进行治疗的一类疾病。 5、自我护理——是指个体在稳定或变化后的环境中,为维持生命、增进健康与幸福,确保自身功能健全和发展而进行的自我照顾活动。 6、老年疑病症——是以怀疑自己患病为主要特的一种精神性的人格障碍。 7、老年型社会——联合国将65岁及65岁以上的老年人口超过7%,或60岁及60岁以上的老年人口超过10%称为老年型社会。 8、初级卫生保健——是指由基层卫生人员为社区居民提供最基本、必须的卫生保健服务。 9、社区护理——是综合应用护理学和公共卫生学的理论与技术,借助有组织的社会力量,以社区为基础、以人群为对象,以服务为中心,对个人、家庭及社区提供连续的、动态的和综合的服务。 10、亚健康——指把健康与疾病之间存在的一种非健康亦非疾病的中间状态称为亚健康。 11、离退休综合征——指离退休后不能适应新的社会角色、生活环境和生活方式的变化而出现的焦虑、抑郁、悲哀、恐惧等消极情绪,或产生偏离常态行为的一种适应性的心理障碍。 12、定期健康检查——是指在一定的时间内(一般为1年)进行一次全面检查。 13、健康教育——是通过有计划、有组织、有系统的社会活动和教育活动,促使人们自觉的采纳有益于健康的行为和生活方式,消除和减轻影响健康的危险因素,预防疾病、促进健康和提高生活质量。 14、残疾者——是指生理、心理、人体结构上以及某种组织不同程度的功能丧失或者不正常,造成部分或全部失去正常人的功能或失去社会生活能力的人。 15、肌力评定——是判断有无肌力低下以及肌力低下的范围和程度,找出导致肌力低下的原因,为制定治疗、训练计划提供依据。 16、家庭——是由两个或多个人组成的,家庭成员共同生活和彼此以来的处所。 17、家庭价值系统——是家庭在价值观念方面所特有的思想、态度和信念。 18、预防接种——是指有针对性的将生物制品接种人体内,使人体对某种传染病产生免疫能力,从而预防该传染病。 19、计划免疫——是根据儿童的免疫特点和传染病的发生情况制定的免疫程序,有计划和有针对性的实施基础免疫及随后实时的加强免疫(复种)。 20、家庭权利——是指家庭成员对家庭的影响力、控制权和支配权。 21、社区健康护理评估——是收集与社区整体健康情况相关的资料,并对资料进行整理和分析的过程。 22、围婚期妇女保健——是结婚前后为保障婚配对方及其下一代健康所进行的保健服务。 23、家庭健康护理——是以家庭为服务对象,以家庭理论为指导思想,以护理程序为工作方法,护士与家庭共同参与,确保家庭健康的一系列护理活动。

生物信息学名词解释(原创)

名词解释(笔者承认偷了点懒,只是把能在网上找到的都整合在一张上面了,此整理仅适合开卷考试) 基因表达(gene expression):基因通过转录和翻译,产生蛋白质产物和直接转录RNA参与生物功能的过程。 基因调控:涉及基因的启动关闭、活性的增加或减弱,发生在转录阶段、转录后加工阶段和翻译阶段。 负调控(Negative control):阻遏蛋白(repressor protein)结合在受控基因上时不表达,不结合时就表达的形式。 正调控(Positive control):基因表达的活化物( activators )结合在受控基因上时,激活基因表达,不结合时就不表达的形式。 一次数据库:记录实验的结果和一些初步的解释。 二次数据库:对一次数据库的数据进行分析和提炼加工后形成的、便于使用的数据库。 空位罚分 (gap penalty ):序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分,以控制空位插入的合理性。 Consensus sequence:共有序列,指多种原核基因启动序列特定区域内,通常在转录起始点上游-10及-35区域存在一些相似序列。 FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 Similarity相似性:是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比列的高低。 genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。 查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。 打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。 空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。 PDB:PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。 Prosite:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。 PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。 PIR:是一个集成了关于蛋白质功能预测数据的公共资源的数据库,其目的是支持基因组蛋白质研究。SWLSS—MODE:是目前最著名的蛋白质三级结构预测服务器,建立在已知生物大分子结构基础上,利用同源建模的方法对未知序列的蛋白质三级结构进行预测。 E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。 点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解 释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计 算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技 术而揭示大量而复杂的生物数据所赋有的生物学奥秘。 2、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于 距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后, 数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方 式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数 据存储的大型数据库系统都在各个方面得到了广泛的应用。 3、表达序列标签从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短 的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。EST 来源于一定环境下一个组织总 mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。 4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白。 ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的 DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个 真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编 码基因的部分或全部的先决条件。 5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列,并进 一步折叠成特定的空间结构前者我们称为蛋白质的一级结构,也叫初级结构或基 本结构。蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理 功能的必要基础。 6、基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别 DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因, 也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。基因识别是基 因组研究的基础。

毛概复习资料名词解释

名词解释1.毛泽东思想 毛泽东思想是马克思列宁主义在中国的运用和发展,是被实践证明了的关于中国革命和建设的正确理论原则和经验总结,是中国共产党集体智慧的结晶。 2.中国特色社会主义理论体系 中国特色社会主义理论体系是对马克思列宁主义、毛泽东思想的坚持和发展,是被实践证明了的关于在中国建设、巩固和发展社会主义的正确的理论原则和经验总结,也是中国共产党集体智慧的结晶。 3.社会主义初级阶段 党的十三大明确指出社会主义初级阶段包含两层含义:第一,我国社会已经是社会主义社会。我们必须坚持而不能离开社会主义。第二,我国的社会主义还处在初级阶段。我们必须从这个实际出发,而不能超越这个阶段 4.社会主义初级阶段的基本路线 第一,建设“富强民主文明和谐的社会主义现代化国家”。第二,“一个中心,两个基本点”——以经济建设为中心,坚持四项原则,坚持改革开放。第三,“领导和团结全国各族人民”。第四,“自力更生,艰苦创业。” 5.实事求是 实事求是,是党的思想路线的实质和核心,实事求是内在包含一1切从实际出发、理论联系实际,在实践中检验真理和发展真理的内容。 6.社会主义初级阶段基本经济制度 社会主义公有制为主体、多种所有制经济共同发展的经济制度。 7.“一个国家,两种制度”

在中华人民共和国内,大陆实行社会主义制度,香港、台湾实行资本主义制度。 8.科学发展观:坚持科学发展观必须坚持以人为本、坚持全面可持续、坚持统筹兼顾。 9.社会主义本质 第一,突出强调解决和发展生产力在社会主义发展中的重要地位。第二,突出强调消灭剥削、消极两级分化,最终达到共同富裕的发展目标。 10.中国梦:中华民族伟大复兴的中国梦,包含着丰富的思想内涵,其中最核心的是国家 富强、民族复兴、人民幸福。 11.新民主主义革命总路线 无产阶级领导的,人民大众的,反对帝国主义、封建主义和官僚资本主义的革命。 12.和平共处五项原则 互相尊重主权和领土完整、互不侵犯、互不干涉内政、平等互利、和平共处。 13.社会主义核心价值观 基本内容:富强、民主、文明、和谐;自由、平等、公正、法治;爱国、敬业、诚实、友善。 14.“三步走发展战略” 第一步到本世纪(即20世纪)八十年代末,实现国民生产总值比1980年翻一番,解决人民的温饱问题;第二步到本世纪末,使国民生产总值再增长一倍,人民生活达到小康水平;第三步到21世纪中叶,人均国民生产总值达到中等发达国家水平,人民生活比较富裕,基本实现现代化。 15.经济发展新常态 特点:一是从高速增长转为中高速增长,二是经济结构不断优化升级,第三产业、消费需求逐步成为主体,城乡区域差距逐步缩小,居民收入占比上升,发展成果惠及更广

生物信息学名词解释(0001)

生物信息学名词解释

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影 响,序列中的空位的引入不代表真正的进化事件,所以要对其进行 罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了 可以找到与查询序列(query)相匹配的随机或无关序列的概率,E 值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的 相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意 义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复 度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列, Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y) 加点,如果两条序列完全相同则会形成一条主对角线,如果两条序 列相似则会出现一条或者几条直线;如果完全没有相似性则不能连 成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这 些序列做一个总体的比对,以观察它们在结构上的异同,来回答大 量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而 可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或 其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个 父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是 引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中 的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制 证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重 复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于 基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘 关系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树。 22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找 到距离最近的两类将其归为一类,定义为一个节点,重复这个过程, 直到所有的聚类被加入,最终产生树根。 23.邻接法(neighbor-joining method):是一种不仅仅计算两两比 对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行 限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。 24.最大简约法(MP):在一系列能够解释序列差异的的进化树中 找到具有最少核酸或氨基酸替换的进化树。 25.最大似然法(ML):它对每个可能的进化位点分配一个概率, 然后综合所有位点,找到概率最大的进化树。最大似然法允许采用 不同的进化模型对变异进行分析评估,并在此基础上构建系统发育 树。 26.一致树(consensus tree):在同一算法中产生多个最优树,合并 这些最优树得到的树即一致树。 27.自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多 次重复取样,构建多个进化树,用来检查给定树的分枝可信度。

生物信息学试题复习参考(张弓)

2014-2015学年生物信息学期末考试题 写在前面:这是我考试时候写的答案的大致内容,具体文字我已经不记得了,给大家一个参考,希望对大家复习有帮助。因为我也是扣了很多分,所以答案也有很多错的,大家不要尽信。祝大家考试顺利。 一、实验设计和基础分析 以下qPT-PCR实验方案有哪些错误?请标出错误,并说明原因和写出正确方案。 目的:比较肺癌细胞迁移前后的X基因转录水平表达量 方法:(1)用Trizol法提取细胞总RNA,并用跑胶、OD260/280等方法确认无降解。 (2)用poly-dT引物进行反转录 (3)设计基因特异性PCR引物,用qPCR仪测定X基因和GAPDH基因的Ct值。GAPDH作为内参。 (4)以2^-ΔΔCt方法计算X基因相对于GAPDH的相对含量 (5)比较迁移前后的相对表达量,做三个重复,用t-test进行统计检验,P<0.05为差异显著 1.错误:不能用GAPDH基因作为定量标准;原因:癌症迁移前后GAPDH基因的表达量已经改变了,做定量标准不准确;方案:采用外参(如:其他物种的基因) 2.错误:不能用t-test进行统计检验;原因:t-test进行统计检验的前提是数据呈正态分布,基因表达量不一定呈正太分布;方案:将数据取log10,对数化。 上述两个是我考试时候写的答案,后来经提醒:还发现了一个错误:不能用poly-dT引物进行反转录;原因:。。。。。。;方案:用Oligodt进行逆转录。 二、双序列比对的生物学意义解释 两种细菌的同源蛋白质endonuclease III,长度都为200氨基酸左右,其功能相同,蛋白质序列使用BLAST 可以比对上,同源性高达57%,但其编码DNA序列用BLAST却无法比对上,为了尽可能提高亲缘关系较远的序列的比对效率,比对已经使用BLAST网站上Somewhat similar sequence选项,默认参数(见下图):

相关主题
文本预览
相关文档 最新文档