当前位置:文档之家› 生物信息学常见名词

生物信息学常见名词

生物信息学常见名词
生物信息学常见名词

Blast

Basic Local Alignment Search Tool,基本的基于局部对准的搜索工具;一种快速查找与给定序列具有连续相同片断的序列的技术。

在BLAST2.0,2.05新版中启用了gapped BLAST、PSI-BLAST 和PHI-BLAST。gapped BLAST是比原BLAST更灵敏更快的局部相似联配(俗称局部同源)搜索法;PSI- BLAST

用迭代型的剖面打分算法,每次迭代所费时间与前者相同,它可检索弱同源的目标;PHI-BLAST 98年刚出台,是模体(Motif )构造与搜索软件,是更灵敏的同源搜索软件。例如

线虫的CED4是apoptosis 的调控蛋白,含有涉及磷酸结合的P 环模体,在各种ATP 酶和GTP 酶中可发现。在用gapped BLAST搜索NR数据库时,CED4仅跟人凋亡调控蛋白

Apaf-1显著同源或相似(其中含有P-loop保守区)。但PHI-BLAST搜索,另有一个显著

同源(E=0.038 )目标,是植物抗病蛋白Arabidopsis thaliana T7N9.18,证实此动物与植物

蛋白确实在apoptosis 中有相似的功能。另有,按PHI-BLAST搜索在MutL DNA修复蛋白

中的ATP 酶域,II型拓扑异构酶,组氨酸激酶和HS90家族蛋白,发现一个新的真核蛋白族,共有HS90型ATP 酶域。再有在古核tRNA核苷酸转移酶中发现核苷酸转移酶域,在

细菌DNA 引物酶的古核同源体中发现螺旋酶超家族II的模体VI。用以往的搜索法这些是

得不到的。

Entrez

美国国家生物技术信息中心所提供的在线资源检索器。该资源将GenBank序列与其原始文

献出处链接在一起。

NCBI

美国国立生物技术信息中心(National Center for Biotechnology Information),1988年设立,为美国国家医学图书馆(National Library of Medicine, NLM)和国家健康协会(ational Institutes of Health, NIH)下属部门之一。提供生物医学领域的信息学服务,如世界三大核

酸数据库之一的GenBank数据库,PubMed医学文献检索数据库等。

Conserved sequence

保守序列。演化过程中基本上不变的DNA中的碱基序列或蛋白质中的氨基酸序列。

Domain

功能域。蛋白质中具有某种特定功能的部分,它在序列上未必是连续的。某蛋白质中所有

功能域组合其起来决定着该蛋白质的全部功能。

EBI

欧洲生物信息学研究所(European Bioinformatics Institute)。

EMBL

欧洲分子生物学实验室(uropean Molecular Biology Laboratory)。

GenBank

由美国国家生物技术信息中心提供的核酸序列数据库。

Gene

基因。遗传的基本的物理和功能单位。一个基因就是位于某条染色体的某个位置上的核苷酸序列,其中蕴含着某种特定功能产物(如蛋白质或RNA分子)的编码。

Gene expression

基因表达。基因中的编码信息被转换成行使特定功能的结构产物的过程。

Gene family

基因家族。一组密切相关的编码相似产物的基因。

Gene mapping

基因作图。对DNA分子(染色体或质粒)中基因的相对位置和距离进行确定的过程。

Genetic code

遗传密码。以三联体密码子的形式编码于mRNA中的核苷酸序列,决定着所合成蛋白质中的氨基酸序列。

Genome

基因组。某一物种的一套完整染色体组中的所有遗传物质。其大小一般以其碱基对总数表示。

Genomics

基因组学。从事基因组的序列测定和表征描述,以及基因活性与细胞功能关系的研究。

HGMP

英国剑桥的人类基因组绘图计划(Human Genome Mapping Project)。

Informatics

信息学。研究计算机和统计学技术在信息处理中的应用的学科。在基因组计划中,信息学的内容包括快速搜索数据库方法的开发、DNA序列信息分析方法的开发和从DNA序列数据中预测蛋白质序列和结构方法的开发。

Physical map

物理图谱。不考虑遗传,DNA中可识别的界标(如限制性酶切位点和基因等)的位置图。界标之间的距离用碱基对度量。对人类基因组而言,最低分辨率的物理图谱是染色体上的条带图谱;最高分辨率的物理图谱是染色体中完整的核苷酸序列。

Promoter

启动子。DNA中被RNA聚合酶结合并从此起始转录的位点。

Proteome

蛋白质组。一个基因组的全部蛋白产物及其表达情况。

Regulatory region or sequence

调控区或调控序列。控制基因表达的DNA碱基序列。

Ribosomal RNA

核糖体RNA。简写为rRNA。是一组存在于核糖体中的RNA分子。

Sequence tagged site

序列标签位点,简写为STS。在人类基因组中只出现一次的位置和序列已知的长约200到500bp的短DNA序列片断。由于可以通过PCR检测到,STS在将来源于许多不同实验室的基因图谱和测序数据进行定位和定向时非常有用,并且STS在人类基因组的物理图谱中也具有界标的作用。表达的序列标签(ESTs)就是那些得自cDNAs的STSs。

Single-gene disorder

单基因病。由单个基因的等位基因的突变所导致的遗传病(如杜兴肌营养不良和成视网膜细胞瘤等)。

UniGene

美国国家生物技术信息中心提供的公用数据库,该数据库将GenBank中属于同一条基因的

所有片断拼接成完整的基因进行收录。

非蛋白质编码区

非蛋白质编码区(“Junk”DNA)占据了人类基因组的大部分,研究表明“Junk”是许多对生

命过程富有活力的不同类型的DNA的复合体,它们至少包括以下类型的DNA成份或由其

表达的RNA成分:内含子(intron)、卫星(Satellite)DNA、小卫星(minisatellite)DNA、微卫星(microsatellite)DNA、非均一核RNA(hmRNA)、短散置元(short interspersed elements)、长散置元(long interspersed elements)、伪基因(pseudogenes)等。除此之外,顺式调控元件,如启动子、增强子等也属于非编码序列。

双重序列对比

两序列间的对比分析。最常见的方法为Needle-Wunsch方法。能够利用的软件如BLAST、FASTA等。

Autosome

常染色体。与性别决定无关的染色体,人双倍体染色体组含有46条染色体,其中22对常

染色体,一对与性别决定有关的性染色体(X和Y染色体)。

sex chromosome

包括序列(核酸与蛋白)搜索,结构比较,结构预测,蛋白质域,模体(Motif ),测序,发育与进化分析,双向电泳成像分析,质谱蛋白质鉴定,三维蛋白结构模建与成像,基因

组图谱比较,基因预测,非编码区功能位点识别,基因组重叠群集装,后基因组功能分析,结构基因组学以及药物基因组学等等。

深层事项

后基因组时期的主要任务:Data mining ,即从完全测序的基因组中预测功能。

1.序列、结构和功能

自分子生物学产生以来,均相信序列决定结构,结构决定功能。随着基因组学的发展,对

此理解已有长足的深化。

同源序列(具有共同祖先)未必具有相同的功能;相同功能未必源自同源序列。相异序列

可能有相似的结构;序列与结构不相似的蛋白可能会有相似的功能。现在发现存在不相似(在序列与结构水平上)

酶催化相同的生化反应。当然亦存在甚至结构水平上很相似的酶催化不同的生化反应。例

如人与鼠的3?- 羟甾类脱氢酶,1AHH和1RAL;前者是Rossmann折叠,而后者是TIM-桶。肯定,这些相似酶不是共同祖先趋异的结果,而是不同祖先趋同的结果。如结构决定功能

还是合理的,那么至少在功能活性位点具有相似结构特征(即3D- 功能模体)。属于今后

研究的课题,对了解酶催化机制与功能蛋白的小分子模拟具有很大价值。

何谓功能?功能有层次的:表型的,细胞的和分子的。

目前开始高层功能预测,分子相互作用、代谢途径和调控网络。

目前,已从结构基因组学,功能基因组学和蛋白质组学多种角度研究基因组功能。

2.结构基因组学中的生物信息学

希望大通量地测定和模建完全测序基因组的全部蛋白三维结构。生物信息学可以发挥作用,一方面规划好测定的对象,另一方面可靠地模建结构。

3.功能基因组学中的生物信息学

美国HGP 已编制1998-2003 的新五年计划。提出八项目标:其中目标7 特指生物信息学和

计算生物学,其实几乎每项目标都要生物信息学,例如目标4 功能基因组学中的非编码区

功能位点预测,基因表达分析(如DNA Chip)以及蛋白质全局分析(如蛋白质组学)。

蛋白质组学(Proteomics)

1.蛋白质组学研究的目的和任务

20世纪中期以来,随着DNA双螺旋结构的提出和蛋白质空间结构的X射线解析,开始了

分子生物学时代,对遗传信息载体DNA和生命功能的主要体现者蛋白质的研究,成为生

命科学研究的主要内容。90年代初期,美国生物学家提出并实施了人类基因组计划,预计

用15年的时间,30亿美元的资助,对人类基因组的全部DNA序列进行测定,希望在分子

水平上破译人类所有的遗传信息,即测定大约30亿碱基对的DNA序列和识别其中所有的

基因(基因组中转录表达的功能单位)。经过各国科学家8年多的努力,人类基因组计划

已经取得了巨大的成绩,一些低等生物的DNA全序列已被阐明,人类3%左右DNA的序

列也已测定,迄今已测定的表达序列标志(EST)已大体涵盖人类的所有基因。在这样的

形势下,科学家们认为,生命科学已经入了后基因组时代。

在后基因组时代,生物学家们的研究重心已经从解释生命的所有遗传信息转移到在整体水

平上对生物功能的研究。这种转向的第一个标志就是产生了一门成为功能基因组学(Functional Genomics)的新学科。它采用一些新的技术,如SAGE、DNA芯片,对成千

上万的基因表达进行分析和比较,力图从基因组整体水平上对基因的活动规律进行阐述。

但是,由于生物功能的主要体现者是蛋白质,而蛋白质有其自身特有的活动规律,仅仅从

基因的角度来研究是远远不够的。例如蛋白质的修饰加工、转运定位、结构变化、蛋白质

与蛋白质的相互作用、蛋白质与其它生物分子的相互作用等活动,均无法在基因组水平上

获知。

正是因为基因组学(Genomics)有这样的局限性,于90年代中期,在人类基因组计划研究发展及功能基因组学的基础上,国际上萌发产生了一门在整体水平上研究细胞内蛋白质的

组成及其活动规律的新兴学科——蛋白质组学(Proteomics),它以蛋白质组(Proteome)

为研究对象。蛋白质组是指“由一个细胞或一个组织的基因组所表达的全部相应的蛋白质”。测定一个有机体的基因组所表达的全部蛋白质的设想,萌发在1975年双向凝胶电泳发明之时。1994年Williams正式提出了这个问题,而“蛋白质组”的名词则是由Wilkins创造的,

发表在1995年7月的Electrophoresis杂志上。

蛋白质组与基因组相对应,但二者又有根本不同之处:一个有机体只有一个确定的基因组,组成该有机体的所有不同细胞斗拱享用一个确定的基因组;而蛋白质组则是一个动态的概念,她不仅在同一个机体的不同组织和细胞中不同,在同一机体的不同发育阶段,在不同

的生理状态下,乃至在不同的外界环境下都是不同的。正是这种复杂的基因表达模式,表

现了各种复杂的生命活动,每一种生命运动形式,都是特定蛋白质群体在不同时间和空间

出现,并发挥功能的不同组合的结果。基因DNA的序列并不能提供这些信息,再加上由

于基因剪接,蛋白质翻译后修饰和蛋白质剪接,基因遗传信息的表现规律就更加复杂,不

再是经典的一个基因一个蛋白的对应关系,一个基因可以表达的蛋白质数目可能远大于一。对细菌,可能为1.2~1.3;对酵母则为3;而对人,可高达10。后基因组和蛋白质组研究,是

为阐明生命活动本质所不可缺少的基因组研究的远为复杂的后续部分,无疑将成为21世纪生命科学研究的主要任务。

生物信息学软件及使用概述

生物信息学软件及使 刘吉平 liujiping@https://www.doczj.com/doc/3715699976.html, 用概述 生 物秀-专心做生物! w w w .b b i o o .c o m

生物信息学是一门新兴的交叉学生物信息学的概念: 科,它将数学和计算机知识应用于生物学,以获取、加工、存储、分类、检索与分析生物大分子的信息,从而理解这些信息的生物学意义。 生 物秀-专心做生物! w w w .b b i o o .c o m

分析和处理实验数据和公共数据,生物信息学软件主要功能 1.2.提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验 3.实验数据的自动化管理 4.寻找、预测新基因及其结构、功能 5.蛋白质高级结构及功能预测(三维建模,目前研究的焦点和难点) 生 物秀-专心做生物! w w w .b b i o o .c o m

功能1. 分析和处理实验数据和公共数据,加快研究进度,缩短科研时间 ?核酸:序列同源性比较,分子进化树构建,结构信息分析,包括基元(Motif)、酶切点、重复片断、碱基组成和分布、开放阅读框(ORF ),蛋白编码区(CDS )及外显子预测、RNA 二级结构预测、DNA 片段的拼接; ?蛋白:序列同源性比较,结构信息分析(包括Motif ,限制酶切点,内部重复序列的查找,氨基酸残基组成及其亲水性及疏水性分析),等电点及二级结构预测等等; ?本地序列与公共序列的联接,成果扩大。 生 物秀-专心做生物! w w w .b b i o o .c o m

Antheprot 5.0 Dot Plot 点阵图 Dot plot 点阵图能够揭示多个局部相似性的复杂关系 生 物秀-专心做生物! w w w .b b i o o .c o m

保险名词解释

保险名词解释1 2009-01-04 07:44 P.M. B 被保险人:人身保险的被保险人,就是以其生命或身体为保险标的,并以其生存、死亡、疾病或伤害为保险事故的人,也就是保险的对象,也可说是指保险事故发生时,遭受损害的人。投保人不仅可以自己的身体为标的而订立保险契约,也可以他人的身体为标的而订立保险契约。如丈夫为妻子、父母为孩子购买人寿保险单。不过投保人以他人为被保险人须对该人有保险利益;如订立以死亡为给付条件的保险契约,还必须经被保险人的书面承认并约定保险金额。 保单贷款:投保人与保险公司约定的一项保险条款。在投保人需要时,保险公司可以在保单已经具有的现金价值的范围内,向投保人提供贷款。 保单复效:停效保单自停效之日起两年内,投保人根据保险合同约定,办理有关手续后,使保单恢复效力。 保单失效:指保单生效后,投保人未按规定及时交纳分期保费且超过了宽限期,导致保单效力暂停止。在停效期间发生保险事故,保险公司不负责任。 保全:保险公司围绕契约变更、年金或满期金给付等项目而开展的售后服务工作,通俗的说法就是保险公司为使您的保单有效,在您的要求下,而为您进行的一系列服务。 保险 :狭义指商业保险。根据我国《保险法》规定,保险是指投保人根据合同约定,向保险人支付保费,保险人对于合同约定的可能发生的事故以及因其发生所造成的财产损失承担赔偿保险金责任,或者当被保险人死亡、伤残、疾病或者达到合同约定的年龄、期限承担给付保险金责任的商业保险行为。 保险标的:指作为保险对象的财产及其有关利益或者人的寿命和身体。保险代理人:是根据保险人的委托,向保险人收取代理手续费并在保险人授权的范围内办理保险业务的单位或者个人。通俗的说法,代理人就是保险公司的代表,拿保险公司佣金的保险推销员。 保险单:简称保单,指保险公司给投保人的凭证,证明保险合同的成立及其内容。保单上载有参加保险的种类、保险金额、保险费、保险期间等保险合同的主要内容。保险单是一种具有法律效力的文件。 保险费:简称保费。指保险公司同意承保后,会依照预定利率、预定死亡率和预定费用率来计算保费,并依照不同保额、不同保单种类、不同

生物信息学复习题及答案

生物信息学复习题 名词解释 1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一定是同源序列。 (直系同源):指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列,它们具有相似的功能。 (旁系(并系)同源):指同一个物种中具有共同祖先,通过基因复制产生的一组基因,这些基因在功能上的可能发生了改变。基因复制事件是促进新基因进化的重要推动力。 (异同源):通过横向转移,来源于共生或病毒侵染而产生的相似的序列,为异同源。 Score:The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。 6.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 7. E值:得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义,E值越接近零,越不可能找到其他匹配序列。 值:得分为所要求的分值比对或更好的比对随机发生的概率。它是将观测得到的比对得分S,与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP(高分片段对)得分的期望分布联系起来计算的。通常使用低于来定义统计的显著性。P=1-e-E 9.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法,是序列相似性分析的基础,其不同的选择将会出现不同的分析结果。 10.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。 :美国国家生物技术信息学中心,属于美国国立医学图书馆的一部分,具有BLAST, Entrez ,GenBank等工具,还具有PubMed文献数据库。另外还具有Genome, dbEST, dbGSS , dbSTS, MMDB, OMIM, UniGene, Taxonomy, RefSeq, etc. 序列格式:是将DNA或者蛋白质序列表示为一个带有大于号(>)开始的核苷酸或者氨基酸序列的新文件,其中大于号后可以跟上序列的相关信息,其他无特殊要求。 13genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释,主要包含生物功能或数据库信息;第三部分是feature,对序列的注释;第四部分是序列本身,以“统发生树(Phylogenetic tree )是研究生物进化和系统发育过程中的一种用树状分支图来概括各种生物之间亲缘关系,是一种亲缘分支分类方法。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。是用来研究物种进化与多样性的基础,是相近物种相关生物学数据的来源。17.基因树与物种树:物种树反映一组物种进化历程的系统树,其中每一个内部节点就代表一个物种形成的过程,而基因树则是代表来源于不同物种的单个同源基因的差异构建的系统树,而其内部的一个节点则代表一个祖先基因分化为两个新的独特的基因序列的事件。基因

保险名词解释

保险名词解释 保险:是指投保人根据合同约定,向保险人支付保险费,保险人对于合同约定的可能发生的事故所造成的财产损失承担保险金赔偿责任,或者当被保险人死亡、伤残、疾病或者达到合同约定的年龄期限时承担给付保险金责任的商业保险行为。按照保险标的分类:财产保险与人身保险。 保险人:是指与投保人订立保险合同,并承担赔偿或给付保险金责任的保险公司。 投保人:是指与保险人订立保险合同,并按照保险合同负有支付保险费义务的人。 被保险人:是指其财产或者人身受保险合同保障,享有保险金请求权的人。 受益人:是指人身保险合同中由被保险人或者投保人指定的享有保险金请求权的人。 保险标的:是指作为保险对象的财产及其有关利益或者人的生命和身体,它是保险利益的载体。 保险责任:是指保险合同约定的保险事故或事件发生后,保险人所应承担的保险金赔偿或给付责任。 责任免除:是指保险人依照法律规定或合同约定,不承担保险责任的范围,是对保险责任的限制。 保险期间:是指保险人为被保险人提供保险保障的起止日期,即保险合同的有效期间。 保险责任开始时间:即保险人开始承担保险责任的时间,通常以年、月、时来表示。 保险价值:是指保险标的的实际价值,即投保人对保险标的所享有的保险利益的货币估价额。保险金额:是指保险人承担的赔偿或者给付保险金的最高限额。 保险费:是指投保人为取得保险保障,按合同约定向保险人支付的费用。 纯保险费:主要用于支付保险赔款或给付保险金。 附加保险费:主要用于保险业务的各项营业支出,包括营业税、代理手续费、企业管理费、工资及工资附加费和固定资产折旧等。 保险金赔偿或给付办法:是指保险人承担保险责任的具体办法,有保险合同当事人在合同中依法约定。 保险单:也称保单,是指保险合同成立后保险人向投保人(被保险人)签发的正式书面凭证。保险凭证:也称小保单,是保险人向投保人签发的证明保险合同已经成立的书面凭证,是一种简化了的保险单。 暂保单:也称临时保险单,是指由保险人在签发正式保险单之前出立的临时保险凭证

生物信息学名词解释资料

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影 响,序列中的空位的引入不代表真正的进化事件,所以要对其进行 罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了 可以找到与查询序列(query)相匹配的随机或无关序列的概率,E 值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的 相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意 义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复 度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列, Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y) 加点,如果两条序列完全相同则会形成一条主对角线,如果两条序 列相似则会出现一条或者几条直线;如果完全没有相似性则不能连 成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这 些序列做一个总体的比对,以观察它们在结构上的异同,来回答大 量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而 可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或 其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个 父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是 引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中 的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制 证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重 复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于 基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘 关系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树。 22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找 到距离最近的两类将其归为一类,定义为一个节点,重复这个过程, 直到所有的聚类被加入,最终产生树根。 23.邻接法(neighbor-joining method):是一种不仅仅计算两两比 对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行 限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。 24.最大简约法(MP):在一系列能够解释序列差异的的进化树中 找到具有最少核酸或氨基酸替换的进化树。 25.最大似然法(ML):它对每个可能的进化位点分配一个概率, 然后综合所有位点,找到概率最大的进化树。最大似然法允许采用 不同的进化模型对变异进行分析评估,并在此基础上构建系统发育 树。 26.一致树(consensus tree):在同一算法中产生多个最优树,合并 这些最优树得到的树即一致树。 27.自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多 次重复取样,构建多个进化树,用来检查给定树的分枝可信度。 精品文档

保险学名词解释、简答范围

定值保险:保险合同双方当事人在订立保险合同时,约定保险标的的价值,并以此确定为保险金额,视为足额投保。 重置价值保险:以被保险人重置或重建保险标的所需费用或成本确定保险金额的保险。 重复保险:投保人以同一保险标的、同一保险利益、同一危险事故分别向数个保险人订立保险合同的一种保险。 共同保险:投保人与两个以上保险人之间,就同一保险利益,对同一危险共同缔结保险合同的一种保险。 意外伤害保险:被保险人在保险有效期间因遭遇非本意的、外来的、突然的意外事故,致使其身体蒙受伤害因而残废或死亡时,保险人按照合同约定给付保险金的一种人身保险。 责任保险:被保险人依法应负的民事损害赔偿责任或经过特别约定的合同责任为保险标的的一种保险。 成数再保险:原保险人将每一危险单位的保险金额,按照约定的比率分给再保险人的再保险方式。 溢额再保险:由保险人与再保险人签订协议,对每个危险单位确定一个由保险人承担的自留额,保险金额超过自留额的部分称为溢额,分给再保险人承担。 险位超赔再保险:以每一危险单位所发生的赔款来计算自负责任额和再保险责任额。 事故超赔再保险:以一次巨灾事故所发生赔款的总和计算自负责任额和再保险责任额。 物上代位:保险标的遭受保险责任范围内的损失,保险人按保险金额全数赔付,后依法取得该项标的的所有权。

权利代位:即追偿权的代位,指在财产保险中,保险标的由于第三者责任导致保险损失,保险人向被保险人支付保险赔款后,依法取得对第三者的索赔权。 保险利益:指投保人或被保险人对保险标的所具有的法律上承认的经济利益,这种经济利益因保险标的完好、健在而存在,因保险标的损毁、伤害而受损。 禁止反言:是指合同的一方既然已经放弃其在合同中可以主张的某种权利,则不得再向他方主张这种权利。 应收保费:应收保费是权责发生制条件下的概念。它是指已经入账,即已经记录为本期保费收入,但尚未实际收到的保费。寿险、储金性非寿险不存在应收保费,只有非寿险存在应收保费。 已付赔款:是指保险人已向被保险人支付的赔款。 实收保费:即保险企业在一定时期内实际收到的保费,它包括已记录为上期保费收入但实际是在本期收到的保费。不包括记为本期保费收入,但尚未实际收到的保费。 入帐保费:指保险企业在一定的时期内签发的保险单项下已经收到的和尚未收到的保费总额。 未决赔款:它是指在保险有效期间内已经发生的损失,但尚未处理或已处理但尚未确立最后赔款金额、也未办理给付手续的赔款。为承担未决赔款的保险责任,保险企业应该采取相应的未决赔款准备金。 重复保险分摊原则:是指在重复保险的情况下,当保险事故发生时,各保险人应采取适当的分摊方法分配赔偿责任,使被保险人既能得到充分的补偿,又

生物信息学名词解释(原创)

名词解释(笔者承认偷了点懒,只是把能在网上找到的都整合在一张上面了,此整理仅适合开卷考试) 基因表达(gene expression):基因通过转录和翻译,产生蛋白质产物和直接转录RNA参与生物功能的过程。 基因调控:涉及基因的启动关闭、活性的增加或减弱,发生在转录阶段、转录后加工阶段和翻译阶段。 负调控(Negative control):阻遏蛋白(repressor protein)结合在受控基因上时不表达,不结合时就表达的形式。 正调控(Positive control):基因表达的活化物( activators )结合在受控基因上时,激活基因表达,不结合时就不表达的形式。 一次数据库:记录实验的结果和一些初步的解释。 二次数据库:对一次数据库的数据进行分析和提炼加工后形成的、便于使用的数据库。 空位罚分 (gap penalty ):序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分,以控制空位插入的合理性。 Consensus sequence:共有序列,指多种原核基因启动序列特定区域内,通常在转录起始点上游-10及-35区域存在一些相似序列。 FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 Similarity相似性:是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比列的高低。 genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。 查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。 打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。 空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。 PDB:PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。 Prosite:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。 PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。 PIR:是一个集成了关于蛋白质功能预测数据的公共资源的数据库,其目的是支持基因组蛋白质研究。SWLSS—MODE:是目前最著名的蛋白质三级结构预测服务器,建立在已知生物大分子结构基础上,利用同源建模的方法对未知序列的蛋白质三级结构进行预测。 E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。 点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在

常用保险术语汇总

常用保险术语256条 风险risk 事件发生的不确定性。 财产风险property risk 因发生自然灾害、意外事故而使个人或单位占有、控制或照看的财产遭受损毁、灭失或贬值的风险。 责任风险liability risk 因个人或单位的行为造成他人的财产损失或人身伤害,依法律或合同应承担赔偿责任的风险。 信用风险credit risk 在经济交往中,因义务人违约或违法致使权利人遭受经济损失的风险。 巨灾风险catastrophic risk; catastrophe 因一次自然灾害、疾病传播、恐怖主义袭击或人为事故造成巨大损失的风险。 风险因素hazard 促使某一特定风险事故发生、增加损失机会或加重损失程度的原因或条件。 物质风险因素physical hazard 实质风险因素 某一标的本身所具有的足以促使风险事故发生、增加损失机会或加重损失程度的客观原因或条件。 道德风险因素moral hazard 因故意促促使风险事故发生、增加损失机会或加重损失程度,以致引起财产损失和人身伤亡的原因或条件。 风险事故peril 造成损失的直接或者外在事件。 风险管理risk management 人们对各种风险的识别、估测、评价、控制和处理的主动行为。 风险管理目标risk management goal 以最小的风险管理成本,使预期损失减少到最低限度或实际损失得到最大补偿。 风险规避risk avoidance 直接避免某项风险发生的一种风险处理方法。

风险自留risk retention 由个人或单位自行承担风险的一种风险处理方式。 风险预防risk prevention 在损失发生前为了消除或减少可能引发损失的各种因素而采取的一种风险处理方式。 风险抑制risk restraint 在损失发生时或发生后,为缩小损失程度而采取的一种风险处理方式。 风险中和risk neutralization 将风险的损失机会与获利机会予以平均的一种风险处理方式。 风险转移risk transfer 通过合同或非合同的方式将合规风险转嫁给另一个人或单位的一种风险处理方式。 风险集合risk pooling 风险对冲 集合统一性质的风险单位,使每一单位所承受的风险减少的方式。 风险分散risk diversification 风险分割 疏散同一性质的风险单位,以减少一次事故所导致的最大损失的方式。 风险识别risk identification 用感知、判断或归类的方法对现实的和潜在的风险性质进行鉴别的过程。 风险估测risk estimation 在风险识别的基础上,通过对所收集的资料进行分析,运用定性与定量的方法,估计和预测风险发生的概率和损失程度的过程。 风险评价risk evaluation 在风险识别和风险估测的基础上,对风险发生的概率、损失程度,结合其他因素进行全面考虑,评估发生风险的可能性及其危害程度,并与公认的安全指标相比较,以衡量风险的程度,并决定是否需要采取相应的措施的过程。 风险分级risk classification 以风险估测和评价为基础,将风险划分成不同的级别。 风险管理技术选择risk management technique selection 为实现风险管理的目标,根据风险评估的结果选择并使用最佳风险管理技术。 控制性风险管理技术loss control risk management techniques 针对存在的风险因素所采取的降低损失频率和减轻损失程度的风险管理技术。

生物信息学名词解释(0001)

生物信息学名词解释

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影 响,序列中的空位的引入不代表真正的进化事件,所以要对其进行 罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了 可以找到与查询序列(query)相匹配的随机或无关序列的概率,E 值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的 相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意 义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复 度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列, Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y) 加点,如果两条序列完全相同则会形成一条主对角线,如果两条序 列相似则会出现一条或者几条直线;如果完全没有相似性则不能连 成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这 些序列做一个总体的比对,以观察它们在结构上的异同,来回答大 量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而 可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或 其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个 父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是 引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中 的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制 证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重 复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于 基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘 关系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树。 22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找 到距离最近的两类将其归为一类,定义为一个节点,重复这个过程, 直到所有的聚类被加入,最终产生树根。 23.邻接法(neighbor-joining method):是一种不仅仅计算两两比 对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行 限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。 24.最大简约法(MP):在一系列能够解释序列差异的的进化树中 找到具有最少核酸或氨基酸替换的进化树。 25.最大似然法(ML):它对每个可能的进化位点分配一个概率, 然后综合所有位点,找到概率最大的进化树。最大似然法允许采用 不同的进化模型对变异进行分析评估,并在此基础上构建系统发育 树。 26.一致树(consensus tree):在同一算法中产生多个最优树,合并 这些最优树得到的树即一致树。 27.自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多 次重复取样,构建多个进化树,用来检查给定树的分枝可信度。

保险专业英语常用词汇(大全)

acceptance policy 核保政策 accounting period 结算期 aggregate limit 累积限额 aggregated loss 累积损失 antiselection 逆选择 ART (Alternative Risk Transfer 新型风险转移balance 所欠款项 barrages 堰坝 captive pools 自保组合 catastrophe risk 巨灾风险 ceiding company 分出公司 cession limit 分保限额 claim-prone 容易出险 claims assistance 理赔协助 clean cut 结清方式 coinsurance 共保 commencement and termination 起讫 cover 承保 cover 责任额 deposit premium 预付保费 destroyed 毁坏 earth caves 土坏房屋 EPA event limit 事件限额 ex gratia payments 通融赔款 excess loss 超额赔款 exclusion 除外责任 exposed areas 风险承受区域 facultative reinsurance 临时分保 fault zone 断层区 finite risk 有限制的风险 flash floods 骤发洪水 flooding of rivers 洪水泛滥 frame structure 框架结构 full coverage 全额承保 full insurance value 足额保险价值 full liability 全部责任 Geophysics Institute 地球物理研究所health insurance 疾病保险,健康保险sickness insurance 疾病保险 insurance during a period of illness 疾病保险 insurance for medical care 医疗保险"major medical" insurance policy 巨额医药费保险 life insurance 人寿保险 endowment insurance 养老保险 insurance on last survivor 长寿保险 social insurance 社会保险 personal property insurance 个人财产保险insurance of contents 家庭财产保险 险别 Free from Particular AverageF.P.A. 平安险With Particular Average W.P.A. 水渍险 All Risks 一切险 risk of breakage 破碎险 risk of clashing 碰损险 risk of rust 生锈险 risk of hook damage 钩损险 risk of contamination (tainting 污染险insurance against total loss only (TLO 全损险 risk of deterioration 变质险 risk of packing breakage 包装破裂险 risk of inherent vice 内在缺陷险 risk of normal loss (natural loss 途耗或自然损耗险 risk of spontaneous combustion 自然险 risk of contingent import duty 进口关税险insurance against war risk 战争险 Air Transportation Cargo War Risk 航空运输战争险 overland Transportation Insurance War Risk 陆上运输战争险 insurance against strike, riot and civil commotion (SRCC 罢工,暴动,民变险

生物信息学复习题及答案(陶士珩)

生物信息学复习题 一、名词解释 生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept,折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。 二、问答题 1)生物信息学与计算生物学有什么区别与联系 2)试述生物信息学研究的基本方法。 3)试述生物学与生物信息学的相互关系。 4)美国国家生物技术信息中心(NCBI)的主要工作是什么请列举3个以上NCBI 维护的数据库。 ¥ 5)序列的相似性与同源性有什么区别与联系 6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么 7)简述BLAST搜索的算法。 8)什么是物种的标记序列 9)什么是多序列比对过程的三个步骤 10)简述构建进化树的步骤。 11)简述除权配对法(UPGMA)的算法思想。 12)简述邻接法(NJ)的算法思想。 13)简述最大简约法(MP)的算法思想。 14)简述最大似然法(ML)的算法思想。 ? 15)UPGMA构树法不精确的原因是什么 16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其含义。 17)试述DNA序列分析的流程及代表性分析工具。 18)如何用BLAST发现新基因 19)试述SCOP蛋白质分类方案。 20)试述SWISS-PROT中的数据来源。 21)TrEMBL哪两个部分 22)试述PSI-BLAST 搜索的5个步骤。[ 3) 三、操作与计算题 1)如何获取访问号为U49845的genbank文件解释如下genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999

保险专业名词解释

保险专业名词解释 1.危险(Risk) 又称风险,指某种随机事件发生后,给人们的利益造成损失的不确定性。危险的特征有: (1)客观性。自然灾害和意外事故是由于客观原因所产生,人们可以借助科学的手段认识它、预测它,但不能从根本上消灭它。 (2)偶然性。危险必须是偶然的和意外的,即对每一个单位的标的来讲,事先无法知道它是否会发生、什么时候发生以及造成何种程度的损失。 (3)灾害性。危险的发生须造成一定程度的经济损失或形成特殊的经济需要。特殊的经济需要是指人们因疾病、伤残、失业等原因暂时或永久丧失劳动能力后所需的善后费用和遗属的赡养费等。 2.危险事故(Peril) 指造成人员伤亡与财产损失的原因。如火灾、爆炸、机动车辆倾覆、飞机失事等。危险事故意味着危险的可能性转化为现实,即危险通过事故的发生才导致损失。 3.危险因素(Hazard) 指足以引起或增加危险事故发生可能的条件,也包括危险事故发生时,致使损失扩大的条件。例如汽车的刹车系统失灵是足以引起或增加车祸事故的危险因素。此外,道路结冰、车速过快、驾驶员不合格等,均为车祸的危险因素。 危险因素通常可分为三种类型: (1)实质危险因素(Physical Hazard)。指足以引起或增加损失发生机会或严重程度的物质性条件。如房屋的建筑材料、所在地点、

使用目的以及消防设施等,都可视作导致或增加火灾损失的实质危险因素。 (2)道德危险因素(Moral Hazard)。指被保险人或者受益人出于谋取保险金赔款或给付的不良企图,故意制造危险事故,以至形成保险标的受损结果,或在保险标的受损时不采取减轻损失的有效措施,故意扩大保险标的的受损程度。如纵火焚烧房屋、凿沉船只、毁损车辆、受益人为谋取保险金蓄意谋害被保险人。 (3)心理危险因素(Morale Hazard)。是指由于人们思想上的麻痹大意,以至增加危险事故发生的机会和损失的严重性。凡是被保险人因有保险而怠于保护被保险财产的事实,均可纳入心理危险这一概念中。 4.危险单位(Risk Unit) 一次保险事故可能造成的最大损失范围。不同的保险有不同的危险单位,保险人在确定其本身可以承担的最高保险责任时,用危险单位来作为计算的基础。危险单位的划分较为复杂,应根据各种不同的险别来决定。例如,船舶险以每一艘船为一个危险单位;关于火险,通常以一栋独立的建筑物为一个危险单位,但如果数栋建筑物毗连在一起或一个高层建筑中承保了若干楼层,如何划分一个危险单位,就要考虑建筑物的等级、使用性质、有无防火墙隔开、周围环境和消防设备等各种因素才能决定。危险单位的划分并不是一成不变的,如两座建筑物之间本来没有通道,后来修建了天桥,将两者连接在一起,这样就把互相分割的两个危险单位变成了一个危险单位。 5.危险管理(Risk Management) 指社会经济单位、个人通过对各种危险的认识、损害后果的衡量、

最新生物信息学名词解释(个人整理)

一、名词解释: 1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E 值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。)

相关主题
文本预览
相关文档 最新文档