当前位置：文档之家› 生物信息学名词解释(个人整理)

生物信息学名词解释(个人整理)

一、名词解释：

1.生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。

2.二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。

3.FASTA序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（>）表示一个新文件的开始，其他无特殊要求。

4.genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“//”结尾。

5.Entrez检索系统：是NCBI开发的核心检索系统，集成了NCBI的各种数据库，具有链接的数据库多，使用方便，能够进行交叉索引等特点。

6.BLAST：基本局部比对搜索工具，用于相似性搜索的工具，对需要进行检索的序列与数据库中的每个序列做相似性比较。P94

7.查询序列（query sequence）：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。P98

8.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。P29 9.空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。P29

10.空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。P37 11.E值：衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E值越接近零，越不可能找到其他匹配序列，E 值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义。P95

12.低复杂度区域：BLAST搜索的过滤选项。指序列中包含的重复度高的区域，如poly（A）。

13.点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。

14.多序列比对：通过序列的相似性检索得到许多相似性序列，将这些序列做一个总体的比对，以观察它们在结构上的异同，来回答大量的生物学问题。

15.分子钟：认为分子进化速率是恒定的或者几乎恒定的假说，从而可以通过分子进化推断出物种起源的时间。

16.系统发育分析：通过一组相关的基因或者蛋白质的多序列比对或其他性状，可以研究推断不同物种或基因之间的进化关系。

17.进化树的二歧分叉结构：指在进化树上任何一个分支节点，一个父分支都只能被分成两个子分支。

系统发育图：用枝长表示进化时间的系统树称为系统发育图，是引入时间概念的支序图。

18.直系同源：指由于物种形成事件来自一个共同祖先的不同物种中的同源序列，具有相似或不同的功能。（书：在缺乏任何基因复制证据的情况下，具有共同祖先和相同功能的同源基因。）

19.旁系（并系）同源：指同一个物种中具有共同祖先，通过基因重复产生的一组基因，这些基因在功能上可能发生了改变。(书：由于基因重复事件产生的相似序列。)

20.外类群：是进化树中处于一组被分析物种之外的，具有相近亲缘关系的物种。

21.有根树：能够确定所有分析物种的共同祖先的进化树。

22.除权配对算法（UPGMA）：最初，每个序列归为一类，然后找到距离最近的两类将其归为一类，定义为一个节点，重复这个过程，直到所有的聚类被加入，最终产生树根。23.邻接法（neighbor-joining method）：是一种不仅仅计算两两比对距离，还对整个树的长度进行最小化，从而对树的拓扑结构进行限制，能够克服UPGMA算法要求进化速率保持恒定的缺陷。

24.最大简约法（MP）：在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。

25.最大似然法（ML）：它对每个可能的进化位点分配一个概率，然后综合所有位点，找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析评估，并在此基础上构建系统发育树。

26.一致树（consensus tree）：在同一算法中产生多个最优树，合并这些最优树得到的树即一致树。

27.自举法检验（Bootstrap）：放回式抽样统计法。通过对数据集多次重复取样，构建多个进化树，用来检查给定树的分枝可信度。

28.开放阅读框（ORF）：开放阅读框是基因序列的一部分，包含一段可以编码蛋白的碱基序列。

29.密码子偏好性（codon bias）：氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致，大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子，这种效应称为密码子偏好性。

30.基因预测的从头分析：依据综合利用基因的特征，如剪接位点，内含子与外显子边界，调控区，预测基因组序列中包含的基因。

31.结构域（domain）：保守的结构单元，包含独特的二级结构组合和疏水内核，可能单独存在，也可能与其他结构域组合。相同功能的同源结构域具有序列的相似性。

32.超家族：进化上相关，功能可能不同的一类蛋白质。

33.模体（motif）：短的保守的多肽段，含有相同模体的蛋白质不一定是同源的，一般10-20个残基。

34.序列表谱（profile）：是一种特殊位点或模体序列，在多序列比较的基础上，氨基酸的权值和空位罚分的表格。

35.PAM矩阵：PAM指可接受突变百分率。一个氨基酸在进化中变成另一种氨基酸的可能性，通过这种可能性可以鉴定蛋白质之间的相似性，并产生蛋白质之间的比对。一个PAM单位是蛋白质序列平均发生1%的替代量需要的进化时间。

36.BLOSUM矩阵：模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如，在BLOSUM62矩阵中，比对的分值来自不超过62%一致率的一组序列。

37.PSI-BLAST：位点特异性迭代比对。是一种专门化的的比对，通过调节序列打分矩阵（scoring matrix）探测远缘相关的蛋白。

38.RefSeq：给出了对应于基因和蛋白质的索引号码，对应于最稳定、最被人承认的Genbank 序列。

39.PDB（Protein Data Bank）：PDB中收录了大量通过实验（X射线晶体衍射，核磁共振NMR）测定的生物大分子的三维结构，记录有原子坐标、配基的化学结构和晶体结构的描

述等。PDB数据库的访问号由一个数字和三个字母组成（如，4HHB），同时支持关键词搜索，还可以FASTA程序进行搜索。

40.GenPept:是由GenBank中的DNA序列翻译得到的蛋白质序列。数据量很大，且随核酸序列数据库的更新而更新，但它们均是由核酸序列翻译得到的序列，未经试验证实，也没有详细的注释。

41.折叠子（Fold）：在两个或更多的蛋白质中具有相似二级结构的大区域，这些大区域具有特定的空间取向。

42.TrEMBL：是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列，并且这些序列尚未集成到SWISS-PROT数据库中。

43.MMDB(Molecular Modeling Database)：是（NCBI）所开发的生物信息数据库集成系统Entrez的一个部分，数据库的内容包括来自于实验的生物大分子结构数据。与PDB相比，对于数据库中的每一个生物大分子结构，MMDB具有许多附加的信息，如分子的生物学功能、产生功能的机制、分子的进化历史等，还提供生物大分子三维结构模型显示、结构分析和结构比较工具。

44.SCOP数据库：提供关于已知结构的蛋白质之间结构和进化关系的详细描述，包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外，对于每一个蛋白质还包括下述信息：到PDB的连接，序列，参考文献，结构的图像等。可以按结构和进化关系对蛋白质分类，分类结果是一个具有层次结构的树，其主要的层次依次是类（class）、折叠子（fold）、超家族（super family）、家族（family）、单个PDB蛋白结构记录。

45.PROSITE：是蛋白质家族和结构域数据库，包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等；PROSITE还包括根据多序列比对而构建的序列统计特征，能更敏感地发现一个序列是否具有相应的特征。

46.Gene Ontology 协会：编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。从3个方面描述基因产物的性质，即，分子功能，生物过程，细胞区室。

47.表谱（PSSM）：指一张基于多序列比对的打分表，表示一个蛋白质家族，可以用来搜索序列数据库。

48.比较基因组学：是在基因组图谱和测序的基础上，利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。

49.简约信息位点：指基于DNA或蛋白质序列，利用最大简约法构建系统发育树时，如果每个位点的状态至少存在两种，每种状态至少出现两次的位点。其它位点为都是非简约性信息位点。

1.生物信息学：（狭义）专指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据的学科；（广义）指生命科学与数学、计算机科学和信息科学等交汇融合所形成的一门交叉学科。

2.人类基因组测序计划：

3基因组学p150：以基因组分析为手段，研究基因组的结构组成、时序表达模式和功能，并提供有关生物物种及其细胞功能的进化信息。

4基因组p150：是指一个生物体、细胞器或病毒的整套基因。

5.比较基因组学p166：是指基因组学与生物信息学的一个重要分支。通过模式生物基因组之间或模式生物基因组与人类基因组之间的比较与鉴别，可以为研究生

物进化和分离人类遗传病的候选基因以及预测新的基因功能提供依据。

6功能基因组：表达一定功能的全部基因所组成的DNA序列，包括编码基因和调控基因。功能基因组学：利用结构基因组学研究所得的各种来源的信息，建立与发展各种技术和实验模型来测定基因及基因组非编码序列的生物学功能。

7蛋白质组p179：是指一个基因组中各个基因编码产生的蛋白质的总体，即一个基因组的全部蛋白产物及其表达情况。

8蛋白质组学：指应用各种技术手段来研究蛋白质组的一门新兴科学，其目的是从整体的角度分析细胞内动态变化的蛋白质组成成分、表达水平与修饰状态，了解蛋白质之间的相互作用与联系，揭示蛋白质功能与细胞生命活动规律。

9功能蛋白质组学：（课件上只能找到功能蛋白质组，即细胞在一定阶段或与某一生理现象相关的所有蛋白）。

10序列对位排列：通过插入间隔的方法使不同长度的序列对齐，达到长度一致。11分子系统树：是表达类群（或序列）间系统发育关系的一种树状图。

12 BLAST搜索p73：是一种基本的局部对位排列搜索工具。

13 SNP p152：即单核酸多态性，是指基因组内特定核苷酸位点上存在两种不同碱基，其中每种在群体中的频率不小于1%。SNP大多数为转换置换。

14 EST p91：即表达序列标签，是从cDNA文库中生成的一些很短的序列（300~500bp)，它们代表在特定组织或发育阶段表达的基因，有时可代表特定的cDNA。

16 基因组作图p155：是确定界标或基因在构成基因组的每条染色体上的位置，以及同条染色体上各个界标或基因之间的相对距离。

17 后基因组时代p3：其标志是大规模基因组分析、蛋白质组分析以及各种数据的比较和整合。

18 电子克隆p98：又称虚拟克隆，其原理是依据大量EST具有相互重叠的性质，通过计算机法获得cDNA全长序列。电子克隆是由一个查询序列开始，依靠EST 数据库在计算机上对EST进行两端延伸，从而获得全长的cDNA序列。

19 遗传连锁图p155：是用遗传模式来描述DNA标记（基因和其他确定DNA 序列）在染色体上的相对位置。

20 物理图谱p156：是标明一些界标（如限制酶切点、单一序列、基因等）在DNA分子或染色体上锁处位置的图，图距以物理长度为单位（如核苷酸对的数目）。

1. 生物信息学：

1）生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科；

2）它综合运用了数学、计算机学和生物学的各种工具来进行研究；

3）目的在于阐明大量生物学数据所包含的生物学意义。

2. BLAST（Basic Local Alignment Search Tool）

直译：基本局部排比搜索工具

意译：基于局部序列排比的常用数据库搜索工具

含义：蛋白质和核酸序列数据库搜索软件系统及相关数据库

3. PSI-BLAST：是一种迭代的搜索方法，可以提高BLAST和FASTA的相似序列发现率。

4. 一致序列：这些序列是指把多序列联配的信息压缩至单条序列，主要的缺点是除了在特

定位置最常见的残基之外，它们不能表示任何概率信息。

5. HMM 隐马尔可夫模型：一种统计模型，它考虑有关匹配、错配和间隔的所有可能的组合

来生成一组序列排列。（课件定义）是蛋白质结构域家族序列的一种严格的统计模型，包括序列的匹配，插入和缺失状态，并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。

6. 信息位点：由位点产生的突变数目把其中的一课树与其他树区分开的位点。

7. 非信息位点：对于最大简约法来说没有意义的点。

8. 标度树：分支长度与相邻节点对的差异程度成正比的树。

9. 非标度树：只表示亲缘关系无差异程度信息。

10. 有根树：单一的节点能指派为共同的祖先，从祖先节点只有唯一的路径历经进化到达其

他任何节点。

11. 无根树：只表明节点间的关系，无进化发生方向的信息，通过引入外群或外部参考物种，

可以在无根树中指派根节点。

12. 注释：指从原始序列数据中获得有用的生物学信息。这主要是指在基因组DNA中寻找基

因和其他功能元件（结构注释），并给出这些序列的功能（功能注释）。

13. 聚类分析：一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。

14. 无监督分析法：这种方法没有内建的分类标准，组的数目和类型只决定于所使用的算法

和数据本身的分析方法。

15. 有监督分析法：这种方法引入某些形式的分类系统，从而将表达模式分配到一个或多个

预定义的类目中。

16. 微阵列芯片：将探针有规律地排列固定于载体上，与标记荧光分子的样品进行杂交，通

过扫描仪扫描对荧光信号的强度进行检测，从而迅速得出所要的信息。

17. 虚拟消化：是基于已知蛋白序列和切断酶的特异性的情况下进行的理论酶切（课件定

义）。是在已知蛋白质序列和蛋白外切酶之类切断试剂的已知特异性的基础上，由计算机进行的一种理论上的蛋白裂解反应。

19. 分子途径是指一组连续起作用以达到共同目标的蛋白质。

20. 虚拟细胞：一种建模手段，把细胞定义为许多结构，分子，反应和物质流的集合体。

21. 先导化合物：是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致

药物发现的特殊化合物。就是利用计算机在含有大量化合物三维结构的数据库中，搜索能与生物大分子靶点匹配的化合物，或者搜索能与结合药效团相符的化合物，又称原型物，简称先导物，是通过各种途径或方法得到的具有生物活性的化学结构

22. 权重矩阵（序列轮廓）：它们表示完全结构域序列，多序列联配中每个位点的氨基酸都

有分值，并且特定位置插入或缺失的可能性均有一定的衡量方法（课件定义）。基础上针对特定的应用目标而建立的数据库。

23. 系统发育学（phylogenetic）：确定生物体间进化关系的科学分支。

24. 系统生物学（systems biology）：是研究一个生物系统中所有组分成分（基因、mRNA、

蛋白质等）的构成以及在特定条件下这些组分间的相互关系，并分析生物系统在一定时间内的动力学过程

25. 蛋白质组（proteome）：是指一个基因组、一种生物或一个细胞/组织的基因组所表达

的全套蛋白质。

1、生物信息学

广义：生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达；细胞、组织、器官的生理、病理、药理过程的中各种生物信息。

狭义：生物分子信息的获取、存贮、分析和利用。

2、基因：有遗传效应的DNA片断,是控制生物性状的基本遗传单位。

3、中心法则

是指遗传信息从DNA传递给RNA，再从RNA传递给蛋白质，即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA，即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。

4、一级数据库

数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释5、基因芯片

基因芯片（gene chip），又称DNA微阵列（microarray），是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列，其工作的基本原理是通过杂交检测信息。

6、推动生物信息学快速发展的学科

核心和灵魂：生物学

基本工具：数学与计算机技术

7、“组”学的主要创新点对生命科学发展的作用与意义

21世纪是生物技术和信息技术的时代，基因组研究由结构基因组研究转向功能基因组研究，蛋白质组学已成为当前研究的热点和重点，生物信息学加快了生命科学的发展步伐。蛋白组研究的兴起和发展，在揭示生命运动的本质及疾病的诊断、治疗等方面发挥着重要作用。随着基因组学研究的不断深入，在基因组测序、蛋白质序列测定和结构解析等实验的基础上，产生了大量有关生物分子的原始数据，这些原始的数据需要利用现代计算机技术进行收集、整理、管理以便检索使用，生物信息学应用而生，其研究重点集中在核酸和蛋白质两个方面。所谓组学，即从一个整体的角度来研究。相对于传统生命科学零敲碎打的研究手段，研究单个的基因或蛋白的功能、结构，而组学则是着眼于大局，将单个的基因、蛋白以“组”的水平进行研究，从而对于生命科学能够有一个大局的把握。

作用：(1) 从学科角度方面：生命科学进入了新的发展时期；研究体系的突破：局部到整体；学科性质：经验型、资料积累到总结规律

(2) 从研究人员角度：提高研究效率、深化研究成果、显著增加论文“厚度”与“重量”

意义：正对生命科学产生深远的影响，极大提高科研的效率、质量、促进生命科学实现跨越式的发展。数据处理、分析能力直接影响当今生命科学研究机构的科研能力与研究成果水平。

8、世界上最权威的四大生物数据平台

美国人工蛋白质数据库：1960年

GenBank数据库：1979年

欧洲分子生物学实验室(EMBL)：1982年

日本核酸序列数据库(DDBJ): 1984年

19、分子钟

蛋白质同系物的替换率，在几百万至几千万年的时间跨度上是基本保持恒定的，因此将氨基酸的匀速变异现象比作分子钟。

基本规律：

（1）不同类的基因间的氨基酸替换率的存在显著差异

（2）同类的分子进化速率则几乎完全一致，同源蛋白质的差异取决于它们独立分化的时间

20、进化树构建的主要方法、各自的原理及优缺点

距离建树方法：利用双重序列比对的差异程度进行建树；

最大简约法：进化往往会走最短的路-----DNA序列发生的碱基替换数量最少

最大似然法：进化会走可能性最大的路

1)距离建树方法（非加权组平均法UPGMA，相邻归并法Neighbor-joining, NJ(优点：快速)，Fitch-Margoliash(FM)( 优点：允许OTU（操作分类单位）间存在不同的进化速率)）

原理：根据双重序列比对的差异程度(距离)

优点：使用序列进化模型、计算强度较小

缺点：屏蔽了真实的特征符数据。

2)最大简约法

原理：最能反映进化历史的树具有最短的树长(tree length)，即进化步数(性状在系统树中状态改变的次数)最少。即：DNA序列发生的碱基替换数最少。

3)最大似然法

原理：首先选定一个进化模型，计算该模型下，各种分支树产生现有数据的可能性。具有最大可能性的系统树为最优。即一个树的似然性(likelihood)等于每一个性状的似然性之和或每一个性状的似然性对数之和。

优点：完全基于统计，在每组序列比对中考虑了每个核苷酸替换的概率，使用越来越普遍

缺点：计算量非常大，缺乏普遍适用的替换模型（不同的替换模型给出不同的结果）

21、domain, fold, motif31、蛋白质的各级结构的定义

Domain: 指具有特定且相对独立的三维立体结构、而且能够独立完成某种功能的蛋白质的一部分，但有时候也泛指蛋白质序列的一部分。

Fold: 蛋白质基本三维结构，包括：(1) 二级结构元件(2)元件之间的顺序连接(3)元件之间的相对空间位置

Motif:模体，在DNA或蛋白质序列上保守的短片段，或蛋白质结构上普遍存在的保守立体结构元件。

一级结构：氨基酸序列；

二级结构：局部多肽链借助氢键排成特有的规则结构；如α螺旋，β-折叠等等三级结构：由远程肽段折叠而产生，一般指多肽链的独立折叠单位经多重盘绕、折叠形成由各种次级键维持的球状结构。简单蛋白质的三维空间结构，或复杂蛋白质亚基的三维空间结构。

四级结构：由若干亚基组装成复杂蛋白

22、蛋白质家族、蛋白质超家族

蛋白质家族(family): are groups of proteins that demonstrate sequence homology or have similar sequences.(一般成员之间的序列相似性超过40-50％以上，进化上可能共同起源于同一祖先蛋白)。主要是从量上面讲，即序列相似性很强的一系列蛋白质

蛋白质超家族(superfamily):Consist of proteins that have similar folding motifs but do not exhibit sequence similarity.成员之间的几乎不存在序列相似性，但在结构组成上有相似的折叠模体构成。主要是从性上面讲，即序列功能、结构很相似，但序列却不相似的一类蛋白质

23、一级数据库：数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释

24、序列基序：指的是一组序列所共有的一段局部保守区域或短的序列模式25．分子系统学：从生物大分子（氨基酸、核苷酸）的遗传信息推断生物进化的历史，并以系统树（谱系）的形式表达出来。

26．动态规划：是一种解决多阶段决策过程的最优化方法或复杂空间的优化搜索方法。

27．TDT分析：比较某些特殊等位基因由亲代向子代的传递频率的差别的方法。28．蛋白质结构视观：是在实验测定其结构或通过结构生物信息学进行结构预测的基础上，对蛋白质结构利用计算机图形处理方法显现出来，便于研究人员对其二维或三维结构有一感性认识，更重要的是有助于理解蛋白与蛋白或其配体的相互作用。

29．基因芯片：又称DNA微阵列，是由大量DNA或寡核苷酸探针密集排列所形成的探针阵列，其工作的基本原理是通过杂交检测信息。

遗传学名词解释

1 Chromosomal disorders:染色体结构和数目异常而导致的疾病。如Down’s综合征(+21)，猫叫综合征(5p-)。 2 Single gene disorders: 由于控制某个性状的等位基因突变导致的疾病称之。 3 Polygenic disorders:一些常见病和多发病的发生由遗传因素和环境因素共同决定，遗传因素中不是一对等位基因，而是多对基因共同作用于同一个性状。 4 Mitochondrial disorders：是指线粒体DNA上的基因突变导致所编码线粒体蛋白质结构和数目异常，导致线粒体病。线粒体是位于细胞质中的细胞器，故随细胞质(母系)遗传。 4 Somatic cell disorders: 体细胞中遗传物质突变导致的疾病。 5 分离律 (Law of segregation)基因在体细胞内成对存在，在生殖细胞形成过程中，同源染色体分离，成对的基因彼此分离，分别进入不同的生殖细胞。细胞学基础：同源染色体的分离。 6 自由组合律（law of independent assortment）在生殖细胞形成过程中，不同的非等位基因，可以相互独立的分离，有均等的机会组合到—个生殖细胞的规律性活动。 7 连锁与互换定律-（law of linkage and crossing over）位于同一染色体上的两个基因，在生殖细胞形成时，如果它们相距越近，一起进入同一生殖细胞的可能性越大；如果相距较远，它们之间可以发生交换。 8 Gene mutation: DNA分子中的核苷核序列发生改变，导致遗传密码编码信息改变，造成基因表达产物蛋白质的氨基酸变化，从而引起表型的改变。 9 Point mutation：指单个碱基被另一个碱基替代。转换(transition)：嘧啶之间或嘌呤之间的替代。颠换(transversion)：嘧啶和嘌呤之间的替代。 10 Same sense mutation：碱基替换后，所编码的氨基酸没有改变。多发生于密码子的第三个碱基。 11 Missense mutation：碱基替换后，改变了氨基酸序列。错义突变多发生于密码子的第一、二个碱基 12 Nonsense mutation：碱基替换后，编码氨基酸的密码子变为终止密码子（UAA、UGA、UAG），多肽链合成提前终止。 13 Frame shift mutation：在DNA编码序列中插入或丢失一个或几个碱基，造成插入或缺失点下游的DNA编码框架全部改变，其结果是突变点以后的氨基酸序列发生改变 14 dynamic mutation ：人类基因组中的一些重复序列在传递过程中重复次数发生改变导致遗传病的发生，称动态突变。

统计学名词解释

统计学名词解释第一章绪论 1.随机变量：在统计学上，把取值之间不能预料到什么值的变量。 2.总体：又称母全体、全域，指具有某种特征的一类事物的全体。 3.个体：构成总体的每个基本单元称为个体。 4.样本：从总体中抽取的一部分个体，称为总体的一个样本。 5.次数：指某一事件在某一类别中出现的数目，又称为频数。 6.频率：又称相对次数，即某一事件发生的次数被总的事件数目除，亦即某一数据出现的次数被这一组数据总个数去除。 7.概率：某一事物或某一情在某一总体中出现的比率。 8.观测值：一旦确定了某个值。就称这个值为某一变量的观测值。 9.参数：又称为总体参数，是描述一个总体情况的统计指标。 10.统计量：样本的那些特征值叫做统计量，又称特征值。第二章统计图表 1.统计表：是由纵横交叉的线条绘制，并将数据按照一定的要求整理、归类、排列、填写在内的一种表格形式。一般由表号、名称、标目、数字、表注组成。 2.统计图：一般采用直角坐标系，通常横轴表示事物的组别或自变量x，称为分类轴。纵轴表示事物出现的次数或因变量，称为数值轴。一般由图号及图题、图目、图尺、图形、图例、图组成。 3.简单次数分布表：依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表，适合数据个数和分布范围比较小的时候用。 4.分组次数分布表：数据量很大时，应该把所有的数据先划分在若干区间，然后将数据按其数值大小划归到相应区域的组别内，分别统计各个组别中包括的数据个数，再用列表的形式呈现出来，适合数据个数和分布范围比较大的时候用。 5.分组次数分布表的编制步骤：（1）求全距（2）定组距和组数（3）列出分组组距（4）登记次数（5）计算次数 6.分组次数分布的意义：（1）优点：A．可将杂乱无章数据排列成序，以发现各数据的出现次数及分布状况。B．可显示一组数据的集中情况和差异情况等。（2）缺点：原始数据不见了，从而依据这样的统计表算出的平均值会与用原始数据算出的值有出入，出现误差，即归组效应。 7.相对次数分布表：用频数比率或百分数来表示次数 8.累加次数分布表：把各组的次数由下而上，或由上而下加在一起。最后一组的累加次数等于总次数。 9.双列次数分布表：对有联系的两列变量用同一个表表示其次数分布。

生物信息学复习题及答案

生物信息学复习题名词解释 1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一定是同源序列。（直系同源）：指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列，它们具有相似的功能。（旁系（并系）同源）：指同一个物种中具有共同祖先，通过基因复制产生的一组基因，这些基因在功能上的可能发生了改变。基因复制事件是促进新基因进化的重要推动力。 (异同源)：通过横向转移，来源于共生或病毒侵染而产生的相似的序列，为异同源。 Score：The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。 6.点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。 7. E值：得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义，E值越接近零，越不可能找到其他匹配序列。值：得分为所要求的分值比对或更好的比对随机发生的概率。它是将观测得到的比对得分S，与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP（高分片段对）得分的期望分布联系起来计算的。通常使用低于来定义统计的显著性。P=1-e-E 9.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法,是序列相似性分析的基础，其不同的选择将会出现不同的分析结果。 10．空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。：美国国家生物技术信息学中心，属于美国国立医学图书馆的一部分，具有BLAST, Entrez ,GenBank等工具，还具有PubMed文献数据库。另外还具有Genome, dbEST, dbGSS , dbSTS, MMDB, OMIM, UniGene, Taxonomy, RefSeq, etc. 序列格式：是将DNA或者蛋白质序列表示为一个带有大于号（>）开始的核苷酸或者氨基酸序列的新文件，其中大于号后可以跟上序列的相关信息，其他无特殊要求。 13genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释，主要包含生物功能或数据库信息；第三部分是feature，对序列的注释；第四部分是序列本身，以“统发生树（Phylogenetic tree ）是研究生物进化和系统发育过程中的一种用树状分支图来概括各种生物之间亲缘关系，是一种亲缘分支分类方法。在树中，每个节点代表其各分支的最近共同祖先，而节点间的线段长度对应演化距离（如估计的演化时间）。是用来研究物种进化与多样性的基础，是相近物种相关生物学数据的来源。17.基因树与物种树：物种树反映一组物种进化历程的系统树，其中每一个内部节点就代表一个物种形成的过程，而基因树则是代表来源于不同物种的单个同源基因的差异构建的系统树，而其内部的一个节点则代表一个祖先基因分化为两个新的独特的基因序列的事件。基因

遗传学名词解释大全

autoregulation 自我调节：基因通过自身的产物来调节转录。 autosome 常染色体：性染色体以外的任何染色体。 auxotroph 营养缺陷型：微生物的一种突变体，它不能合成生长所需的物质，培养时必须在培养基中加入此物质才能生长。 back mutation 回复突变：见reversion bacteriophage (phage) 一种感染细菌的病毒。 balance model 平衡模型：关于遗传变异比例的一种模型，它认为自然选择维持了群体中大量遗传变异的存在。 balanced polymorphism 平衡多态现象：稳定的遗传多态现象是由自然选择来维持的。 Barr body 巴氏小体：在正常雌性哺乳动物的核中有一个高度凝聚的染色质团，它是一个失活的X染色体。 base analog 碱基类似物：一种化学物质，其分子结构和DNA的碱基相似，在DNA的代谢过程中有时会取代正常碱基，结果使DNA的碱基发生突变。 bead theory 串珠学说：已被否定的学说，认为基因附着在染色体上，就象项链上的串珠。它既是突变单位又是重组单位。 binary fission 二分分裂：一个细胞分裂为大小相近的两个子细胞的过程。binomial distribution 二项分布：具有两种可能结果的 biparental zygote 双亲合子：又称双亲遗传(biparental inheriance)，衣藻(chlamydomonas) 的合子含有来自双亲的DNA。这种细胞一般很少见。 biochemical mutation 生化突变，见自发突变(autotrophic mutation)。bivalent 二价体：在第一次减数分裂时彼此联合的一对同源染色体。bottleneck effect 瓶颈效应：一种类型的漂变。当群体很小时产生这种效应，结果使基因座中有的基因丢失了。 branch-point sequence 分支点顺序：在哺乳动物细胞中的保守顺序：YNCURAY(Y: 嘧啶,R:嘌呤, N:任何碱基)，位于核mRNA内含子和II 类内含子3'端附近，其中的A可通过5'-2'连接的方式和内含子5'端相连接，在剪接时形成套马索状结构。 broad-sense heritability 广义遗传力：表型方差中所含遗传方差的百分比。cotplot 浓度时间乘积图：一个样本单位单链DNA分子复性动力学曲线。以结合为双链的量为纵坐标，以DNA浓度和时间的乘积为横坐标作出的DNA复性动力学曲线 C value C值：生物单倍体基因所含的DNA总量。 CAAT element CAAT元件：真核启动子上游元件之一，常位于上游-80bp附近，其功能是控制转录起始频率，保守顺序是 5'-GGCCAATCT-3'。 cancer 癌：恶性肿瘤，细胞失控，异常分裂且在生物体内可播散。 5'-capping -5'加帽：在 mRNA加工的过程中在前体 mRNA分子的5'端加上甲基核苷酸的“帽子”。 catabolite repression (glucose effect) 分解代谢物阻遏（糖效应）：当糖存在时能诱发细菌操纵子的失活，即使操纵子的诱导物存在也是如此。 cDNA 互补DNA：以mRNA为模板，以反转录酶催化合成的DNA的拷贝。 cDNA clone cDNA分子克隆：将cDNA片段装在载体上转化细菌扩增出多克隆的过程，最终可建立cDNA文库。

统计学名词解释

1、统计学统计学是一门阐明如何去采集、整理、显示、描述、分析数据和由数据得出结论的一系列概念、原理、原则、方法和技术的科学，是一门独立的、实用性很强的通用方法论科学。 2、指标和标志标志是说明总体单位属性或特征的名称。指标是说明总体综合数量特征和数量关系的数字资料。 3、总体、样本和单位统计总体是统计所要研究的对象的全体，它是由客观存在的、具有某种共同性质的许多个体所构成的整体。简称总体。构成总体的个体则称为总体单位，简称单位。样本是从总体中抽取的一部分单位。 4、统计调查统计调查是根据统计研究的目的和要求、采用科学的方法，有组织有计划的搜集统计资料的工作过程。它是取得统计数据的重要手段。 5、统计绝对数和统计相对数反映总体规模的绝对数量值，在社会经济统计中称为总量指标。统计相对数是两个有联系的指标数值之比，用以反映现象间的联系和对比关系。 6、时期指标和时点指标时期指标是反映总体在一段时期内累计总量的数字资料，是流量。时点指标是反映总体在某一时刻上具有的总量的数字资料，是存量。 7、抽样估计和假设检验抽样估计是指根据所抽取的样本特征来估计总体特征的统计方法。假设检验是先对总体的某一数据提出假设，然后抽取样本，运用样本数据来检验假设成立与否。 8、变量和变异标志的具体表现和指标的具体数值会有差别，这种差别就称为变异。数量标志和指标在统计中称为变量。 9、参数和统计量参数是反映总体特征的一些变量，包括总体平均数、总体方差、总体标准差等。统计量是反映样本特征的一些变量，包括样本平均数、样本方差、样本标准差等。 10、抽样平均误差样本平均数与总体平均数之间的平均离散程度称之为抽样平均误差，简称为抽样误差。重复抽样的抽样平均误差为总体标准差的1/n。 11、抽样极限误差抽样极限误差是指样本统计量和总体参数之间抽样误差的可能范围。我们用样本统计量变动的上限或下限与总体参数的绝对值表示抽样误差的可能范围，称为极限误差或允许误差。 12、重复抽样和不重复抽样重复抽样也称为回置抽样，是从总体中随机抽取一个样本时，每次抽取一个样本单位时都放回的抽样方式。不重复抽样也叫不回置抽样，它是在每次抽取样本单位时都不放回的抽样方式。13、点估计和区间估计点估计也叫定值估计，就是直接用抽样平均数代替总体平均数，用抽样成数代替总体成数。区间估计是在一定概率保证下，用样本统计量和抽样平均误差去推断总体参数的可能范围的估计方法。 14、统计指数广义上来说，它是表明社会经济现象的数量对比关系的相对指标。狭义上来说，它是反映不能直接相加对比的复杂总体综合变动的动态相对数。 15、综合法总指数凡是一个总量指标可以分解为两个或两个以上的因素指标时，将其中一个或一个以上的因素指

生物信息学名词解释资料

1.生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。 2.二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。 3.FASTA序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（>）表示一个新文件的开始，其他无特殊要求。 4.genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“//”结尾。 5.Entrez检索系统：是NCBI开发的核心检索系统，集成了NCBI 的各种数据库，具有链接的数据库多，使用方便，能够进行交叉索引等特点。 6.BLAST：基本局部比对搜索工具，用于相似性搜索的工具，对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列（query sequence）：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。P29 9.空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。P29 10.空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。P37 11.E值：衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E 值越接近零，越不可能找到其他匹配序列，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域：BLAST搜索的过滤选项。指序列中包含的重复度高的区域，如poly（A）。 13.点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条序列， Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。 14.多序列比对：通过序列的相似性检索得到许多相似性序列，将这些序列做一个总体的比对，以观察它们在结构上的异同，来回答大量的生物学问题。 15.分子钟：认为分子进化速率是恒定的或者几乎恒定的假说，从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析：通过一组相关的基因或者蛋白质的多序列比对或其他性状，可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构：指在进化树上任何一个分支节点，一个父分支都只能被分成两个子分支。系统发育图：用枝长表示进化时间的系统树称为系统发育图，是引入时间概念的支序图。 18.直系同源：指由于物种形成事件来自一个共同祖先的不同物种中的同源序列，具有相似或不同的功能。（书：在缺乏任何基因复制证据的情况下，具有共同祖先和相同功能的同源基因。） 19.旁系（并系）同源：指同一个物种中具有共同祖先，通过基因重复产生的一组基因，这些基因在功能上可能发生了改变。(书：由于基因重复事件产生的相似序列。) 20.外类群：是进化树中处于一组被分析物种之外的，具有相近亲缘关系的物种。 21.有根树：能够确定所有分析物种的共同祖先的进化树。 22.除权配对算法（UPGMA）：最初，每个序列归为一类，然后找到距离最近的两类将其归为一类，定义为一个节点，重复这个过程，直到所有的聚类被加入，最终产生树根。 23.邻接法（neighbor-joining method）：是一种不仅仅计算两两比对距离，还对整个树的长度进行最小化，从而对树的拓扑结构进行限制，能够克服UPGMA算法要求进化速率保持恒定的缺陷。 24.最大简约法（MP）：在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。 25.最大似然法（ML）：它对每个可能的进化位点分配一个概率，然后综合所有位点，找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析评估，并在此基础上构建系统发育树。 26.一致树（consensus tree）：在同一算法中产生多个最优树，合并这些最优树得到的树即一致树。 27.自举法检验（Bootstrap）：放回式抽样统计法。通过对数据集多次重复取样，构建多个进化树，用来检查给定树的分枝可信度。精品文档

遗传学名词解释

遗传学名词解释 11、性状：生物体或其组成部分所表现的形态、生理或行为特征称为性状(character/trait) 13、相对性状：不同生物个体在单位性状上存在不同的表现，这种同一单位性状的相对差异称为相对性状 14、显性（dominate）性状：在子一代中出现来的某一亲本的性状。 15、隐性 (recessive)性状：在子一代中未出现来的某一亲本的性状。 17、基因型(genotype)：指生物个体基因组合，表示生物个体的遗传组成，又称遗传型； 18、表现型(phenotype)：指生物个体的性状表现，简称表型。 19、纯合基因型：具有一对相同基因的基因型称为纯合基因型(homozygous genotype)，如 CC和cc；这类生物个体称为纯合体(homozygote)。 ●显性纯合体(dominant homozygote), 如：CC. ●隐性纯合体(recessive homozygote), 如：cc. 21、基因的分离定律：一对等位基因在杂合体中各自保持其独立性，在配子形成时，彼此分开，随机地进入不同的配子，在一般情况下：F1杂合体的配子分离比为1:1，F2表型分离比是3:1，F2基因型分离比为1:2:1 22、测交(test cross)法：即把被测验的个体与隐性纯合亲本杂交，根据侧交子代（Ft）的表现型和比例测知该个体的基因型。 23、独立分配定律：支配两对（或两对以上）不同性状的等位基因，在杂合状态时保持其独立性。配子形成时，各等位基因彼此独立分离，不同对的基因自由组合。 24、系谱分析法：用图解表明一个家族中某种性状（或遗传疾病）发生的情况，进而判断该性状（或遗传疾病)的遗传方式。 27、外显率(penetrance)：指在特定环境中，某一基因型(常指杂合子)个体显示出预期表型的频率(以百分比表示)。就是说同样的基因型在一定的环境中有的个体表达了，而有的个体可能没有表达，这样外显率就小于100％ ——不完全外显。外显率为100％——完全外显 28、表现度（expressivity）：是指具有相同基因型的个体之间基因表达的变化程度。 29、共显性/并显性：一对等位基因的两个成员在杂合体中都表达的遗传现象。 30、镶嵌显性：由于等位基因的相互作用，双亲的性状在子代同一个体的不同部位表现的镶嵌图式。 31、隐性致死基因：在杂合时不影响个体的生活力，但在纯合时有致死效应的基因。 32、显性致死基因（dominant lethal gene）：在杂合状态下即表现致死作用的致死基因 33、复等位基因：在群体中占据某同源染色体同一座位的两个以上的决定同一性状的基因 34、基因互作：基因在决定同一生物性状表现时，所表现出来的相互作用。 35、互补基因：两对非等位的显性基因同时存在并影响生物的某同一性状时才使之表现该性状，其中任一基因发生突变都会导致同一突变性状出现，这类基因称为互补基因。 37、叠加效应：不同基因对性状产生相同影响，只要两对等位基因中存在一个显性基因，表现为一种性状；双隐性个体表现另一种性状；F2产生15:1的性状分离比例。这类作用相同的非等位基因叫做叠加基因 38、上位效应：影响同一性状的两对非等位基因中的一对基因（显性或隐性）掩盖另一对显性基因的作用时，所表现的遗传效应称为上位效应，其中的掩盖者称为上位基因，被掩盖者称为下位基因。 39、显性上位：在上位效应中，起掩盖作用的是一个显性基因，使另一个显性基因的表型被抑制，孟德尔F2表型比率被修饰为12：3：1

统计学名词解释汇总

统计学名词解释汇总 WTD standardization office【WTD 5AB- WTDK 08- WTD 2C】

1什么是统计学？统计方法可分为哪两大类？统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。方法有描述统计和推断统计两类2统计数据可分为哪几种类型？不同类型数据各有什么特点？按采取计量尺度，分类、顺序、数值型数据；按统计数据收集方法，观测、实验数据；按被描述对象与时间关系，截面、时间序列数据统计数据；按所采用的计量尺度不同分；（定性数据）分类数据：只能归于某一类别的非数字型数据，它是对事物进行分类的结果，数据表现为类别，用文字来表述；（定性数据）顺序数据：只能归于某一有序类别的非数字型数据。它也是有类别的，但这些类别是有序的。（定量数据）数值型数据：按数字尺度测量的观察值，其结果表现为具体的数值。统计数据；按统计数据都收集方法分；观测数据：是通过调查或观测而收集到的数据，这类数据是在没有对事物人为控制的条件下得到的。实验数据：在实验中控制实验对象而收集到的数据。统计数据；按被描述的现象与实践的关系分；

截面数据：在相同或相似的时间点收集到的数据，也叫静态数据。时间序列数据：按时间顺序收集到的，用于描述现象随时间变化的情况，也叫动态数据。 3举例说明总体、样本、参数、统计量、变量这几个概念：对一千灯泡进行寿命测试，那么这千个灯泡就是总体，从中抽取一百个进行检测，这一百个灯泡的集合就是样本，这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数，这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量，变量就是说明现象某种特征的概念，比如说灯泡的寿命。 4什么是有限总体和无限总体？举例说明有限总体指总体的范围能够明确确定，而且元素的数目是有限可数的，如若干个企业构成的总体，一批待检查的灯泡。无限总体指总体包括的元素是无限不可数的，如科学实验中每个试验数据可看做是一个总体的一个元素，而试验可无限进行下去，因此由试验数据构成的总体是无限总体 5变量可分为哪几类？变量可以分为分类变量，顺序变量，数值型变量。变量也可以分为随机变量和非随机变量。经验变量和理论变量。 6举例说明离散型变量和连续型变量

生物化学名词解释

生物化学名解解释 1、肽单元（peptide unit）:参与肽键的6个原子Cα1、C、O、N、H、Cα2位于同一平面,Cα1和Cα2在平面上所处的位置为反式构型，此同一平面上的6个原子构成了肽单元，它是蛋白质分子构象的结构单元。Cα是两个肽平面的连接点，两个肽平面可经Cα的单键进行旋转，N—Cα、Cα—C是单键，可自由旋转。 2、结构域（domain）:分子量大的蛋白质三级结构常可分割成1个和数个球状或纤维状的区域，折叠得较为紧密，具有独立的生物学功能，大多数结构域含有序列上连续的100—200个氨基酸残基，若用限制性蛋白酶水解，含多个结构域的蛋白质常分成数个结构域，但各结构域的构象基本不变。 3、模体（motif)：在许多蛋白质分子中，二个或三个具有二级结构的肽段，在空间上相互接近，形成一个特殊的空间构象。一个模序总有其特征性的氨基酸序列，并发挥特殊功能，如锌指结构。 4、蛋白质变性(denaturation)：在某些物理和化学因素作用下，其特定的空间构象被破坏，也即有序的空间结构变成无序的空间结构，从而导致其理化性质的改变和生物活性的丧失。主要发生二硫键与非共价键的破坏，不涉及一级结构中氨基酸序列的改变，变性的蛋白质易沉淀，沉淀的蛋白质不一定变性。 5、蛋白质的等电点( isoelectric point, pI)：当蛋白质溶液处于某一pH时，蛋白质解离成正、负离子的趋势相等，即成为兼性离子，蛋白质所带的正负电荷相等，净电荷为零，此时溶液的pH称为蛋白质的等电点。 6、酶（enzyme）:酶是一类对其特异底物具有高效催化作用的蛋白质或核酸，通过降低反应的活化能催化反应进行。酶的不同形式有单体酶，寡聚酶，多酶体系和多功能酶，酶的分子组成可分为单纯酶和结合酶。酶不改变反应的平衡，只是通过降低活化能加快反应的速度。（不考） 7、酶的活性中心 (active center of enzymes)：酶分子中与酶活性密切相关的基团在空间结构上彼此靠近，组成具有特定空间结构的区域，能与底物特异结合并将底物转化为产物。参与酶活性中心的必需基团有结合底物，使底物与酶形成一定构象复合物的结合基团和影响底物中某些化学键稳定性，催化底物发生化学反应并将其转化为产物的催化基团。活性中心外还有维持酶活性中心应有的空间构象的必需基团。 8、酶的变构调节 (allosteric regulation of enzymes)：一些代谢物可与某些酶分子活性中心外的某部分可逆地结合，使酶构象改变，从而改变酶的催化活性，此种调节方式称酶的变构调节。被调节的酶称为变构酶或别构酶，使酶发生变构效应的物质，称为变构效应剂，包括变构激活剂和变构抑制剂。 9、酶的共价修饰(covalent modification of enzymes)：在其他酶的催化作用下，某些酶蛋白肽链上的一些基团可与某种化学基团发生可逆的共价结合，从而改变酶的活性，此过程称为共价修饰。主要包括：磷酸化—去磷酸化；乙酰化—脱乙酰化；甲基化—去甲基化；腺苷化—脱腺苷化；—SH与—S—S—互变等；磷酸化与脱磷酸是最常见的方式。 10、酶原和酶原激活(zymogen and zymogen activation)：有些酶在细胞内合成或初分泌时只是酶的无活性前体，必须在一定的条件下水解开一个或几个特定的肽键，使构象发生改变，表现出酶的活性，此前体物质称为酶原。由无活性的酶原向有活性酶转化的过程称为酶原激活。酶原的激活，实际是酶的活性中心形成或暴露的过程。 11、同工酶（isoenzyme isozyme）：催化同一化学反应而酶蛋白的分子结构，理化性质，以及免疫学性质都不同的一组酶。它们彼此在氨基酸序列，底物的亲和性等方面都存在着差异。由同一基因或不同基因编码，同工酶存在于同一种属或同一个体的不同组织或同一细胞的不同亚细胞结构中，它使不同的组织、器官和不同的亚细胞结构具有不同的代谢特征。 12、糖酵解(glycolysis)：在机体缺氧条件下，葡萄糖经一系列酶促反应生成丙酮酸进而还原生成乳酸的过程称为糖酵解（糖的无氧氧化）。糖酵解的反应部位在胞浆。主要包括由葡萄糖分解成丙酮酸的糖酵解途径和由丙酮酸转变成乳酸两个阶段，1分子葡萄糖经历4次底物水平磷酸化，净生成2分子ATP。关键酶主要有己糖激酶，6-磷酸果糖激酶-1和丙酮酸激酶。它的意义是机体在缺氧情况下获取能量的有效方式；某些细胞在氧供应正常情况下的重要供能途径。 13、糖异生(gluconeogenesis)：是指从非糖化合物（乳酸、甘油、生糖氨基酸等）转变为葡萄糖或糖

生物信息学名词解释(原创)

名词解释（笔者承认偷了点懒，只是把能在网上找到的都整合在一张上面了，此整理仅适合开卷考试）基因表达（gene expression):基因通过转录和翻译，产生蛋白质产物和直接转录RNA参与生物功能的过程。基因调控：涉及基因的启动关闭、活性的增加或减弱，发生在转录阶段、转录后加工阶段和翻译阶段。负调控（Negative control）：阻遏蛋白（repressor protein）结合在受控基因上时不表达，不结合时就表达的形式。正调控（Positive control）：基因表达的活化物（ activators ）结合在受控基因上时，激活基因表达，不结合时就不表达的形式。一次数据库：记录实验的结果和一些初步的解释。二次数据库：对一次数据库的数据进行分析和提炼加工后形成的、便于使用的数据库。空位罚分 (gap penalty ):序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分，以控制空位插入的合理性。 Consensus sequence：共有序列，指多种原核基因启动序列特定区域内，通常在转录起始点上游-10及-35区域存在一些相似序列。 FASTA序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（>）表示一个新文件的开始，其他无特殊要求。 Similarity相似性：是直接的连续的数量关系，是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比列的高低。 genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“//”结尾。模体（motif）：短的保守的多肽段，含有相同模体的蛋白质不一定是同源的，一般10-20个残基。查询序列（query sequence）：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。 PDB：PDB中收录了大量通过实验（X射线晶体衍射，核磁共振NMR）测定的生物大分子的三维结构，记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成（如，4HHB），同时支持关键词搜索，还可以FASTA程序进行搜索。 Prosite：是蛋白质家族和结构域数据库，包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。 PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等；PROSITE还包括根据多序列比对而构建的序列统计特征，能更敏感地发现一个序列是否具有相应的特征。 PIR：是一个集成了关于蛋白质功能预测数据的公共资源的数据库，其目的是支持基因组蛋白质研究。SWLSS—MODE：是目前最著名的蛋白质三级结构预测服务器，建立在已知生物大分子结构基础上，利用同源建模的方法对未知序列的蛋白质三级结构进行预测。 E值：衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E值越接近零，越不可能找到其他匹配序列，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义。点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。多序列比对：通过序列的相似性检索得到许多相似性序列，将这些序列做一个总体的比对，以观察它们在

遗传学名词解释

名词解释： 1、遗传与变异：生物通过繁殖的方式来繁衍种族，保持生命在世代间的连续，保持子代与亲代的相似与类同，这种现象叫遗传，遗传的本质就是遗传物质通过不断地复制和传递，保持亲代与子代间的相似与类同，与此同时，亲代与子代之间，子代个体之间总存在着不同程度的差异，包括环境差异与遗传物质差异，这种差异就是变异。 2、遗传变异：变异不一定都能遗传，只有由遗传物质改变导致的变异可以传递给后代，这种变异叫遗传变异。 3、遗传学：经典定义：研究生物的遗传和变异现象及其规律的一门学科。现代定义：（1）在生物的群体、个体、细胞和基因等层次上研究生命信息（基因）的结构、组成、功能、变异、传递（复制）和表达规律与调控机制的一门科学－－基因学。（2）研究基因和基因组的结构与功能的学科。名词解释：１、性状：在遗传学上，把生物表现出来的形态特征和生理特征统称为性状。 2、相对性状：同一性状的两种不同表现形式叫相对性状。 3、显性性状：孟德尔把F1表现出来的性状叫显性性状，F1不表现出来的性状叫隐性性状。 4、性状分离现象：孟德尔把F2中显现性状与隐性性状同时表现出来的现象叫做性状分离现象。 5、等位基因与非等位基因：等位基因是指位于同源染色体上，占有同一位点，但以不同的方式影响同一性状发育的两个基因。非等位基因指位于不同位点上，控制非相对性状的基因。 6、自交：F1代个体之间的相互交配叫自交。 7、回交：F1代与亲本之一的交配叫回交。 8、侧交：F1代与双隐性个体之间的交配叫侧交。 9、基因型和表型基因型是生物体的遗传组成，是性状得以表现的内在物质基础，是肉眼看不到的，要通过杂交试验才能检定。如cc,CC,Cc。表型是生物体所表现出来的性状，是基因型和内外环境相互作用的结果，是肉眼可以看到的。如花的颜色性状。 10、纯合体、杂合体由两个同是显性或同是隐性的基因结合的个体，叫纯合体，如CC,cc。由一个显性基因与一个隐性基因结合而成的个体，叫杂合体，如Cc。 11、真实遗传指纯合体的物种所产生的子代表型与亲本表型相同的现象。纯合体所产生的后代性状不发生分离，能真实遗传，杂合体自交产生的后代性状要发生分离，它不能真实遗传。名词解释： 1、染色体与染色质：是指核内易于被碱性染料着色的无定形物质，是由DNA、组蛋白、非组蛋白及少量RNA组成的复合体，以纤丝状存在于核膜内面。当细胞分裂时，核内的染色质便螺旋化形成一定数目和形状的染色体。两者是同一物质在细胞分裂过程中表现的不同形态。核内遗传物质就集中在这染色体上。 2、常染色质与异染色质：着色较浅，呈松散状，分布在靠近核的中心部分，是遗传的活性部位。着色较深，呈致密状，分布在靠近核内膜处，是遗传的惰性部位。又分结构异染色质或组成型异染色质和兼性异染色质。前者存在于染色体的着丝点区及核仁组织区，后者在间期时仍处于浓缩状态， 3、核小体：是染色质的基本结构单位，直径10nm，其核心是由四种组蛋白（H2A、H2B、H3、H4各2分子共8分子）构成的扁球体。 4、同源染色体：指形态、结构和功能相似的一对染色体，他们一条来自父本，一条来自母本。 5、联会：分别来自父母本的同源染色体逐渐成对靠拢配对，这种同源染色体的配对称为联会。

统计学名词解释超级大全

统计学名词解释超级大全第一章导论统计学：一门阐明如何去采集、整理、显示、描述、分析数据和由数据得出结论的一系列概念、原理、原则、方法和技术的科学，是一门独立的、实用性很强的通用方法论科学。教育统计学：专门研究如何搜集、整理、分析在心理和教育方面对实验或调查所获得的数字资料，如何根据这些资料所传递的信息，进行数学推论，找出客观规律的一门科学。描述统计：对实验或调查所获得的数据加以整理（如制表、绘图），并计算其各种代表量数（如集中量数、差异量数、相关量数等），其基本思想是平均，如在集中量数中将原始数据进行平均，在差异量数中将离均差进行平均，在相关量数中将积差进行平均等等。推断统计：又称抽样统计。它是根据对部分个体进行观测所得到的信息，通过概括性的分析、论证，在一定可靠程度上去推测相应团体。换言之，就是根据已知的情况推测未知情况。实验设计：研究如何更加合理、有效地获得观测资料，如何更正确、更经济、更有效地达到实验目的，以揭示试验中各种变量关系的实验计划。统计常态法则：从总体中随机抽取一部分个体所组成的样本，差不多可以保持总体的特征。这种样本特性保持着总体特性的现象叫做统计常态法则。小数永存法则：第一个样本中所表现出的特性，在其他样本中也会存在，这就是小数永存法则。此处“小数”是指小数量的意思。大量惰性原则：某一事物的某一性质或状态，在反复观察或试验中是保持不变的。

有效数字：指能影响测量准确性的数字。变量：又称随机变量。具有变异性的数据。三个特性，离散型，变异性，规律性。数据：某个数值一旦被取定了，则称这个数值为随机变量的一个观察值。即数据。总体：性质相同的一类事物的全体。个体：构成总体的每一基本单位或单元。样本：总体抽出的部分个体。参数：表示总体特征的量数。统计量：直接从样本计算出的量数，代表样本的特征。名称变量：指一事物与其他事物在属性、类别上不同。顺序变量：事物的某一属性的多少或大小按顺序排列起来的变量。既无相等的单位又无绝对的零点的变量。等距变量：只具有相等的单位，而没有绝对的零点的变量。比率变量：既有相等的单位，又有绝对的零点的变量。连续变量：指取值可以是某区间内任一数值的随机变量，它是指测量单位之间可以划分成无限多个细小单位，其数字形式多取小数。离散变量：指测量单位之间不能再细分的数字资料，其数字形式常取整数。计数数据：计算人或物的个数所获得的数据。度量数据：用一定的测量工具或测量标准测量时所获得的数据。指标：表明总体数量特征的概念和具体数值，又称统计指标，它是把各个个体的特征加总起来的综合结果。

生物化学名词解释完全版

第一章 1,氨基酸(amino acid):就是含有一个碱性氨基与一个酸性羧基的有机化合物,氨基一般连在α-碳上。 2,必需氨基酸(essential amino acid):指人(或其它脊椎动物)(赖氨酸,苏氨酸等)自己不能合成,需要从食物中获得的氨基酸。 3,非必需氨基酸(nonessential amino acid):指人(或其它脊椎动物)自己能由简单的前体合成不需要从食物中获得的氨基酸。 4,等电点(pI,isoelectric point):使分子处于兼性分子状态,在电场中不迁移(分子的静电荷为零)的pH值。 5,茚三酮反应(ninhydrin reaction):在加热条件下,氨基酸或肽与茚三酮反应生成紫色(与脯氨酸反应生成黄色)化合物的反应。6,肽键(peptide bond):一个氨基酸的羧基与另一个的氨基的氨基缩合,除去一分子水形成的酰氨键。 7,肽(peptide):两个或两个以上氨基通过肽键共价连接形成的聚合物。 8,蛋白质一级结构(primary structure):指蛋白质中共价连接的氨基酸残基的排列顺序。 9,层析(chromatography):按照在移动相与固定相 (可以就是气体或液体)之间的分配比例将混合成分分开的技术。 10,离子交换层析(ion-exchange column)使用带有固定的带电基团的聚合树脂或凝胶层析柱 11,透析(dialysis):通过小分子经过半透膜扩散到水(或缓冲液)的原理,将小分子与生物大分子分开的一种分离纯化技术。 12,凝胶过滤层析(gel filtration chromatography):也叫做分子排阻层析。一种利用带孔凝胶珠作基质,按照分子大小分离蛋白质或其它分子混合物的层析技术。 13,亲合层析(affinity chromatograph):利用共价连接有特异配体的层析介质,分离蛋白质混合物中能特异结合配体的目的蛋白质或其它分子的层析技术。 14,高压液相层析(HPLC):使用颗粒极细的介质,在高压下分离蛋白质或其她分子混合物的层析技术。 15,凝胶电泳(gel electrophoresis):以凝胶为介质,在电场作用下分离蛋白质或核酸的分离纯化技术。 16,SDS-聚丙烯酰氨凝胶电泳(SDS-PAGE):在去污剂十二烷基硫酸钠存在下的聚丙烯酰氨凝胶电泳。SDS-PAGE只就是按照分子的大小,而不就是根据分子所带的电荷大小分离的。 17,等电聚胶电泳(IFE):利用一种特殊的缓冲液(两性电解质)在聚丙烯酰氨凝胶制造一个pH梯度,电泳时,每种蛋白质迁移到它的等电点(pI)处,即梯度足的某一pH时,就不再带有净的正或负电荷了。 18,双向电泳(two-dimensional electrophorese):等电聚胶电泳与SDS-PAGE的组合,即先进行等电聚胶电泳(按照pI)分离,然后再进行SDS-PAGE(按照分子大小分离)。经染色得到的电泳图就是二维分布的蛋白质图。 19,Edman降解(Edman degradation):从多肽链游离的N末端测定氨基酸残基的序列的过程。N末端氨基酸残基被苯异硫氰酸酯修饰,然后从多肽链上切下修饰的残基,再经层析鉴定,余下的多肽链(少了一个残基)被回收再进行下一轮降解循环。 20,同源蛋白质(homologous protein):来自不同种类生物的序列与功能类似的蛋白质,例如血红蛋白。第二章 1,构形(configuration):有机分子中各个原子特有的固定的空间排列。这种排列不经过共价键的断裂与重新形成就是不会改变的。构形的改变往往使分子的光学活性发生变化。 2,构象(conformation):指一个分子中,不改变共价键结构,仅单键周围的原子放置所产生的空间排布。一种构象改变为另一种构象时,不要求共价键的断裂与重新形成。构象改变不会改变分子的光学活性。 3,肽单位(peptide unit):又称为肽基(peptide group),就是肽键主链上的重复结构。就是由参于肽链形成的氮原子,碳原子与它们的4个取代成分:羰基氧原子,酰氨氢原子与两个相邻α-碳原子组成的一个平面单位。 4,蛋白质二级结构(protein在蛋白质分子中的局布区域内氨基酸残基的有规则的排列。常见的有二级结构有α-螺旋与β-折叠。二级结构就是通过骨架上的羰基与酰胺基团之间形成的氢键维持的。5,蛋白质三级结构(protein tertiary structure): 蛋白质分子处于它的天然折叠状态的三维构象。三级结构就是在二级结构的基础上进一步盘绕,折叠形成的。三级结构主要就是靠氨基酸侧链之间的疏水相互作用,氢键,范德华力与盐键维持的。 6,蛋白质四级结构(protein quaternary structure):多亚基蛋白质的三维结构。实际上就是具有三级结构多肽(亚基)以适当方式聚合所呈现的三维结构。 7,α-螺旋(α-heliv):蛋白质中常见的二级结构,肽链主链绕假想的中心轴盘绕成螺旋状,一般都就是右手螺旋结构,螺旋就是靠链内氢键维持的。每个氨基酸残基(第n个)的羰基与多肽链C端方向的第4个残基(第4+n个)的酰胺氮形成氢键。在古典的右手α-螺旋结构中,螺距为0、54nm,每一圈含有3、6个氨基酸残基,每个残基沿着螺旋的长轴上升0、15nm、 8, β-折叠(β-sheet): 蛋白质中常见的二级结构,就是由伸展的多肽链组成的。折叠片的构象就是通过一个肽键的羰基氧与位于同一个肽链的另一个酰氨氢之间形成的氢键维持的。氢键几乎都垂直伸展的肽链,这些肽链可以就是平行排列(由N到C方向)或者就是反平行排列(肽链反向排列)。 9,β-转角(β-turn):也就是多肽链中常见的二级结构,就是连接蛋白质分子中的二级结构(α-螺旋与β-折叠),使肽链走向改变的一种非重复多肽区,一般含有2～16个氨基酸残基。含有5个以上的氨基酸残基的转角又常称为环(loop)。常见的转角含有4个氨基酸残基有两种类型:转角I的特点就是:第一个氨基酸残基羰基氧与第四个残基的酰氨氮之间形成氢键;转角Ⅱ的第三个残基往往就是甘氨酸。这两种转角中的第二个残侉大都就是脯氨酸。 10,超二级结构(super-secondary structure):也称为基元(motif)、在蛋白质中,特别就是球蛋白中,经常可以瞧到由若干相邻的二级结构单元组合在一起,彼此相互作用,形成有规则的,在空间上能辨认的二级结构组合体。 11,结构域(domain):在蛋白质的三级结构内的独立折叠单元。结构