当前位置:文档之家› 生物数据库名词解释

生物数据库名词解释

生物数据库名词解释

随着生物学的发展和技术的进步,大量的生物数据被积累和产生,促使了生物

数据库的建立。这些数据库承载着生物学研究所需的各种信息,为科学家提供了宝贵的资源和工具。在本文中,我们将解释一些常见的生物数据库名词,以帮助读者更好地了解和使用这些数据库。

1. 基因组数据库(Genome Databases):

基因组数据库存储了各种物种的基因组序列和相关信息。它们对于基因识别、

蛋白质注释、基因调控分析等研究领域非常重要。常见的基因组数据库包括GenBank、Ensembl和UCSC Genome Browser。

2. 蛋白质数据库(Protein Databases):

蛋白质数据库收集了已知蛋白质序列和结构以及与其相关的信息。这些数据库

是研究蛋白质功能、结构和相互作用的关键工具。著名的蛋白质数据库有Uniprot、Protein Data Bank(PDB)和SWISS-MODEL。

3. 基因表达数据库(Gene Expression Databases):

基因表达数据库存储了不同组织、发育阶段和病理状态下的基因表达数据。它

们通常包含基因的表达水平和组织特异性等信息,在疾病研究和生物医学研究中具有重要意义。常用的基因表达数据库有Gene Expression Omnibus(GEO)和生物信息

学资源中心(Bioinformatics Resource Centers, BRCs)。

4. 蛋白质互作网络数据库(Protein-Protein Interaction Databases):

蛋白质互作网络数据库记录了蛋白质之间的相互作用关系。这些互作关系对于

理解蛋白质功能、信号传导通路以及复杂疾病的发生机制至关重要。常见的蛋白质互作网络数据库包括STRING、BioGRID和IntAct。

5. 药物数据库(Drug Databases):

药物数据库提供了药物的化学结构、作用机制、药代动力学等信息。这对于新药开发、药物副作用预测和个体化医疗等方面具有重要作用。知名的药物数据库有DrugBank、ChemSpider和PubChem。

6. 基因变异数据库(Genetic Variation Databases):

基因变异数据库存储了人类和其他物种的基因突变和遗传变异的信息。这些变异与疾病的发展和遗传特征密切相关。常见的基因变异数据库包括ClinVar、dbSNP和Human Gene Mutation Database (HGMD)。

7. 代谢通路数据库(Metabolic Pathway Databases):

代谢通路数据库记录了生物体内化学反应和代谢通路的信息。它们对于理解新陈代谢、药物代谢和相关疾病的发病机制至关重要。常用的代谢通路数据库有KEGG、Reactome和MetaCyc。

总之,生物数据库是生物学领域中不可或缺的重要工具,为科学家提供了宝贵的资源和数据。通过运用这些数据库,研究人员能够更深入地探索生命的奥秘,揭示生物体内各种生物过程的机理,这将为医学进步和生命科学领域做出重要贡献。

生物信息学名词解释(原创)

名词解释(笔者承认偷了点懒,只是把能在网上找到的都整合在一张上面了,此整理仅适合开卷考试) 基因表达(gene expression):基因通过转录和翻译,产生蛋白质产物和直接转录RNA参与生物功能的过程。 基因调控:涉及基因的启动关闭、活性的增加或减弱,发生在转录阶段、转录后加工阶段和翻译阶段。 负调控(Negative control):阻遏蛋白(repressor protein)结合在受控基因上时不表达,不结合时就表达的形式。 正调控(Positive control):基因表达的活化物( activators )结合在受控基因上时,激活基因表达,不结合时就不表达的形式。 一次数据库:记录实验的结果和一些初步的解释。 二次数据库:对一次数据库的数据进行分析和提炼加工后形成的、便于使用的数据库。 空位罚分 (gap penalty ):序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分,以控制空位插入的合理性。 Consensus sequence:共有序列,指多种原核基因启动序列特定区域内,通常在转录起始点上游-10及-35区域存在一些相似序列。 FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 Similarity相似性:是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比列的高低。 genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。 查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。 打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。 空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。 PDB:PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。 Prosite:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。 PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。 PIR:是一个集成了关于蛋白质功能预测数据的公共资源的数据库,其目的是支持基因组蛋白质研究。SWLSS—MODE:是目前最著名的蛋白质三级结构预测服务器,建立在已知生物大分子结构基础上,利用同源建模的方法对未知序列的蛋白质三级结构进行预测。 E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。 点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在

生物信息数据库

生物信息数据库 1生物信息数据库产生背景 上个世纪60年代以来,随着核酸序列测定、蛋白质序列测定以及基因克隆和PCR技术的不断发展与完善,全世界各研究机构获得了大量的生物信息原始数据。面对这些以指数方式增长的数据资源,传统的研究方式已经来不及迅速消化,因此有必要采用有效的方法将它们进行适当的储存、管理和维护,以便进一步分析、处理和利用,这就需要建立数据库即生物信息数据库[1]。生物信息数据库是一切生物信息学工作的基础。 2生物信息数据库的特点 2.1数据库种类的多样性。生物信息学各类数据库几乎覆盖了生命科学的各个领域,如核酸序列数据库,蛋白质序列数据库,蛋白质、核酸、多糖的三维结构数据库,基因组数据库,文献数据库和其他各类达数百种。 2.2数据库的更新和增长快。数据库的更新周期越来越短,有些数据库每天更新。数据的规模以指数形式增长。 2.3数据库的复杂性增加、层次加深。许多数据库具有相关的内容和信息,数据库之间相互引用,如PDB就与文献库、酶学数据库、蛋白质二级数据库、蛋白质结构分类数据库、蛋白折叠库等十几种数据库交叉索引。 2.4数据库使用高度计算机化和网络化。越来越多的生物信息学数据库与因特网联结,从而为分子生物学家利用这些信息资源提供了前所未有的机遇[2]。 2.5面向应用。首先各个数据库除了提供数据之外,还提供许多分析工具,如核酸数据库提供的序列搜索、基因识别程序等。此外,还在原始数据库的基础上开发了许多面向特殊应用的二级数据库,如蛋白质二级结构数据库等[3]。 3生物信息数据库的分类 生物信息数据库种类繁多,归纳起来,大体可以分为5个大类:核酸序列数据库、基因组数据库、蛋白质序列数据库、生物大分子(主要是蛋白质)结构数据库以及以这4类数据库和文献资料为基础构建的二次数据库。其中主要类型是序列数据库[4]。来自基因组作图的基因组数据库、来自序列测定的序列数据库以及来自X-衍射和核磁共振结构测定的结构数据库是分子生物信息学的基本数据资源,通常称为基本数据库或初始数据库,也称一次数据库。根据生命科学不同研究领域的实际需要,在一次数据库、实验数据和理论分析的基础上进行整理、归纳和注释,构建具有特殊生物学意义和专门用途的数据库即二次数据库, 也称专门数据库、专业数据库或专用数据库[2, 3, 5]。 3.1核酸序列数据库 EMBL、GenBank和DDBJ是国际上三大主要核酸序列数据库。EMBL是德国海德堡市的欧洲分子生物学实验室(European Molecular Biology Laboratory)1980年创建的,其名称也由此而来。美国国家健康研究院(National Institurte of Health,简称NIH)也于1982年委托洛斯阿拉莫斯(Los Alamos)国家实验室建立GenBank,后移交给美国国立卫生研究院国家生物技术中心(National Center for Bio-technology Information—NCBI)。DDBJ是日本静冈市的日本国立遗传学研究所于1986年创建的日本DNA数据库(DNA Database of Japan—DDBJ)。1988年,EMBL、GenBank与DDBJ共同成立了国际核酸序列联合数据库中心,建立了合作关系。根据协议,这三个数据库分别收集所在区域的有关实验室和测序机构所发布的核酸序列信息,并共享收集到的数据,每天交换各自数据库新建立的序列记录,以保证这三个数据库序列信息

生物信息学名词解释

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性) 和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个 或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现 象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影 响,序列中的空位的引入不代表真正的进化事件,所以要对其进行 罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了 可以找到与查询序列(query)相匹配的随机或无关序列的概率,E 值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的 相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意 义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度 高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列, Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y) 加点,如果两条序列完全相同则会形成一条主对角线,如果两条序 列相似则会出现一条或者几条直线;如果完全没有相似性则不能连 成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这 些序列做一个总体的比对,以观察它们在结构上的异同,来回答大 量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而 可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或 其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个 父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是 引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中 的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制 证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重 复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于 基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘 关系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树。 22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找 到距离最近的两类将其归为一类,定义为一个节点,重复这个过程, 直到所有的聚类被加入,最终产生树根。 23.邻接法(neighbor-joining method):是一种不仅仅计算两两比对 距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限 制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。 24.最大简约法(MP):在一系列能够解释序列差异的的进化树中找 到具有最少核酸或氨基酸替换的进化树。 25.最大似然法(ML):它对每个可能的进化位点分配一个概率,然 后综合所有位点,找到概率最大的进化树。最大似然法允许采用不 同的进化模型对变异进行分析评估,并在此基础上构建系统发育树。 26.一致树(consensus tree):在同一算法中产生多个最优树,合并

生物信息学名词解释

1.计算生物信息学(Computational Bioinformatics)是生命科学与计算机科学、数理科学、化学等领域相互交叉而形成的一门新兴学科,以生物数据作为研究对象,研究理论模型和计算方法,开发分析工具,进而达到揭示这些数据蕴含的生物学意义的目的。 2.油包水PCR (Emulsion PCR) : 1) DNA片段和捕获磁珠混合; 2) 矿物油和水相的剧烈震荡产生油包水环境; 3) DNA片段在油包水环境中扩增;4) 破油并富集有效扩增磁珠。 3.双碱基编码技术:在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。代表测序方法:solid 测序。 4.焦磷酸测序法:焦磷酸测序技术是由4种酶催化的同一反应体系中的酶级联化学发光反应,适于对已知的短序列的测序分析,其可重复性和精确性能与SangerDNA测序法相媲美,而速度却大大的提高。焦磷酸测序技术不需要凝胶电泳,也不需要对DNA样品进行任何特殊形式的标记和染色,具备同时对大量样品进行测序分析的能力。在单核苷酸多态性、病原微生物快速鉴定、病因学和法医鉴定研究等方面有着越来越广泛的应用。例如:454测序仪 5.tblastn:用蛋白质序列查找核苷酸序列。 6.STS:STS是序列标记位点(sequence-tagged site)的缩写,是指染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,一般长200bp-500bp。它可用PCR方法加以验证。将不同的STS依照它们在染色体上的位置依次排列构建的图为STS图。在基因组作图和测序研究时,当各个实验室发表其DNA测序数据或构建成的物理图时,可用STS来加以鉴定和验证,并确定这些测序的DNA片段在染色体上的位置;还有利于汇集分析各实验室发表的数据和资料,保证作图和测序的准确性。 7.EST:表达序列标签技术(EST,Expressed Sequence Tags)EST技术直接起源于人类基因组计划。 8.Unigene:生物信息学数据库。UniGene试图通过计算机程序对GeneBank中的序列数据进行适当处理,剔除冗余部分,将同一基因的序列,包括EST序列片段搜集到一起,以便研究基因的转录图谱。UniGene除了包括人的基因外,也包括小鼠、大鼠等其它模式生物的基因。 9.ORF:开放阅读框(ORF,open reading frame )是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。编码一个蛋白质的外显子连接成为一个连续的ORF。 10.分子钟检验:只有分子钟的,没听过分子钟检验。一种关于分子进化的假说,认为两个物种的同源基因之间的差异程度与它们的共同祖先的存在时间(即两者的分歧时间)有一定的数量关系

生物信息学名词解释

一、名词解释: 1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37值:衡量序列之间相似性是否显着的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树。 22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找到距离最近的两类将其归

生物数据库名词解释

生物数据库名词解释 随着生物学的发展和技术的进步,大量的生物数据被积累和产生,促使了生物 数据库的建立。这些数据库承载着生物学研究所需的各种信息,为科学家提供了宝贵的资源和工具。在本文中,我们将解释一些常见的生物数据库名词,以帮助读者更好地了解和使用这些数据库。 1. 基因组数据库(Genome Databases): 基因组数据库存储了各种物种的基因组序列和相关信息。它们对于基因识别、 蛋白质注释、基因调控分析等研究领域非常重要。常见的基因组数据库包括GenBank、Ensembl和UCSC Genome Browser。 2. 蛋白质数据库(Protein Databases): 蛋白质数据库收集了已知蛋白质序列和结构以及与其相关的信息。这些数据库 是研究蛋白质功能、结构和相互作用的关键工具。著名的蛋白质数据库有Uniprot、Protein Data Bank(PDB)和SWISS-MODEL。 3. 基因表达数据库(Gene Expression Databases): 基因表达数据库存储了不同组织、发育阶段和病理状态下的基因表达数据。它 们通常包含基因的表达水平和组织特异性等信息,在疾病研究和生物医学研究中具有重要意义。常用的基因表达数据库有Gene Expression Omnibus(GEO)和生物信息 学资源中心(Bioinformatics Resource Centers, BRCs)。 4. 蛋白质互作网络数据库(Protein-Protein Interaction Databases): 蛋白质互作网络数据库记录了蛋白质之间的相互作用关系。这些互作关系对于 理解蛋白质功能、信号传导通路以及复杂疾病的发生机制至关重要。常见的蛋白质互作网络数据库包括STRING、BioGRID和IntAct。

生物信息学数据库答案[1]

生物信息学(bioinformatics):是一门交叉学科,它包含了生物信息的获取,处理,存储,分发,分析和解释等在内的所以方面,它综合运用数学,计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。 目的:揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗传语言。 方法:主要有创建一切适用于基因组信息分析的新方法,改进现有的理论分析方法,发展有效的能支持大尺度作图与测序需要的软件、数据库以及若干数据库工具等。 应用:生物信息的存储与获取,序列比对,测序与拼接,基因预测,生物进化与系统发育分析,蛋白质结构预测,RNA结构预测,分子设计与药物设计,代谢网络分析,基因芯片,DNA计算等。 1.1.3生物信息学的研究内容 1、序列比对(Alignment)。 2、结构比对。基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。 3、蛋白质结构预测,包括2级和3级结构预测,是最重要的课题之一。 4、计算机辅助基因识别(仅指蛋白质编码基因)。 5、非编码区分析和DNA语言研究,是最重要的课题之一。 6、分子进化和比较基因组学,是最重要的课题之一。 7、序列重叠群(Contigs)装配。 8、遗传密码的起源。 9、基于结构的药物设计。10、其他。如基因表达浦分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域。这里不再赘述。 3、开放式阅读框(ORF):是基因的起始密码子开始到终止密码子为止的一个连续编码的序列。 5、中心法则:包括DNA的自我复制,转录形成RNA并翻译成蛋白质,RNA的自我复制和逆转录的过程。 6序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。 6、算法分析:评价一个算法的优劣,通过时间复杂度和空间复杂度来确定。 7、数据库管理系统:(database management system,DBMS)对DB进行管理的系统工程,提供DB的建立、查询、更新以及各种数据控制能。 8、数据库:统一管理的相关数据的集合。 9、搜索软件:对内容进行筛选,从中选择出符合用户的检索要求的内容同时进行分级排序,将结果显示出来。 10、人类基因组计划(HGP):是对人类24条染色体上的3X109个碱基对(base pair,bp)序列进行测定,完成图谱绘制、测序、基因识别,及信息系统的建立。 一、名词解释: 1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 3一级数据库(一次数据库):基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X射线衍射和核磁共振等结构测定。这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一次数据库。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。

生物信息学数据库分类整理汇总

生物信息学数据库分类整理汇总 1. Meta databases 元数据库,合并不同来源的相关数据以更新的或更加方便的形式提供新的数据,通俗的讲就是数据库的数据库,代表性的数据库主要有以下几个: ConsensusPathDB 网址:https://www.doczj.com/doc/de19194446.html,/描述:分子功能互作数据库,基于32个公共数据库,整合了人类蛋白质相互作用,遗传相互作用信号,代谢,基因调控和药物- 靶标相互作用的信息。 Entrez 网址: https://https://www.doczj.com/doc/de19194446.html,/Class/MLACourse/Modules/Entrez/complex_boolean.html描述:Entrez跨数据库全局查询搜索系统是一个联合搜索引擎或门户网站,允许用户在NCBI网站上搜索许多离散的健康科学数据库。 Neuroscience Information Framework 网址:https://https://www.doczj.com/doc/de19194446.html,//描述:整合了数百种神经科学相关资源,包括实验,临床和转化神经科学数据库,知识库,地图集和遗传/基因组资源等。 GeneCard 网址:https://https://www.doczj.com/doc/de19194446.html,/描述:自动整合125个数据库,包含基因组、转录组、蛋白组、遗传、临床和功能信息的庞大人基因组数据库。 Ensembl Genomes 网址:https://www.doczj.com/doc/de19194446.html,/描述:该项目由EMBL运营,提供细菌、原生生物、真菌、植物和无脊椎动物后生动物的基因组数据。 UCSC Genome 网址:https://www.doczj.com/doc/de19194446.html,描述:主要是动物基因组信息,基因组注释,基因组保守性和基因组共线性数据。 Human protein atlas 网址:https://www.doczj.com/doc/de19194446.html,/描述:人体蛋白在细胞、组织、病理条件下的表达 2. Model organism databases

生物信息学数据库答案

生物信息学数据库答案 一、名词解释 1、生物信息学(bioinformatics):指应用信息科学的理论、 方法和技术,管理、分析和利用生物分子数据。通过 收集、组织、管理生物分子数据,得到深层次的生物 学知识,加深对生物世界的认识。 2、核磁共振(NMR):核磁共振是指原子核吸收外界能量而产生一种能级跃迁现象,其实质是共振吸收。 3、开放式阅读框(ORF):是基因的起始密码子开始到终止密码子为止的一个连续编码的序列。 4、外显子(exon):指导合成mRNA时的DNA片断,用于形成mRNA前体。也就基因的编码序列。 5、中心法则:包括DNA的自我复制,转录形成RNA并翻译成蛋白质,RNA的自我复制和逆转录的过程。 6、算法分析:评价一个算法的优劣,通过时间复杂度和空间复杂度来确定。 7、数据库管理系统:(database management system,DBMS)对DB进行管理的系统工程,提供DB的建立、查询、更新以及各种数据控制功能。 8、数据库:统一管理的相关数据的集合。

9、搜索软件:对内容进行筛选,从中选择出符合用户的检索要求的内容同时进行分级排序,将结果显示出来。 10、人类基因组计划(HGP):是对人类24条染色体上的3X109个碱基对(base pair,bp)序列进行测定,完成图谱绘制、测序、基因识别,及信息系统的建立。 二、选择题(20分) 1、GenBank数据库的网址是( B) A. https://www.doczj.com/doc/de19194446.html, B: https://www.doczj.com/doc/de19194446.html, C: https://www.doczj.com/doc/de19194446.html, D: https://www.doczj.com/doc/de19194446.html, 2、PDB蛋白质数据库结构文件中上标的表示S2+方法是( D) A: S^ 2+ B S=2+ C: S<2+> D: S= =2+ = = 3、生物学文献数据库中可免费使用的是(C ) A:OVID B:CBI C:PUB D: BIOSIS Previews 4、GBFF的数据格式中结尾标识是( A) A:// B: ! C: * D: < 5、NCBI数据库中查询使用的是(D )。

生物信息学名词解释

1。生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2。二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理. 3。FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(〉)表示一个新文件的开始,其他无特殊要求。 4。genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6。BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8。打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9。空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位.P29 10。空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影 响,序列中的空位的引入不代表真正的进化事件,所以要对其进行 罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了 可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值 越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相 似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。 P95 12。低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复 度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y 轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点, 如果两条序列完全相同则会形成一条主对角线,如果两条序列相似 则会出现一条或者几条直线;如果完全没有相似性则不能连成直线. 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些 序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的 生物学问题。 15。分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从 而可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或 其他性状,可以研究推断不同物种或基因之间的进化关系. 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个 父分支都只能被分成两个子分支. 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是 引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中 的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证 据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复 产生的一组基因,这些基因在功能上可能发生了改变。(书:由于基因 重复事件产生的相似序列.) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘关 系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树. 22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找到 距离最近的两类将其归为一类,定义为一个节点,重复这个过程,直 到所有的聚类被加入,最终产生树根。 23。邻接法(neighbor—joining method):是一种不仅仅计算两两比 对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行 限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。 24。最大简约法(MP):在一系列能够解释序列差异的的进化树中 找到具有最少核酸或氨基酸替换的进化树。 25。最大似然法(ML):它对每个可能的进化位点分配一个概率,然 后综合所有位点,找到概率最大的进化树。最大似然法允许采用不同 的进化模型对变异进行分析评估,并在此基础上构建系统发育树. 26.一致树(consensus tree):在同一算法中产生多个最优树,合并这些 最优树得到的树即一致树. 27。自举法检验(Bootstrap):放回式抽样统计法.通过对数据集多 次重复取样,构建多个进化树,用来检查给定树的分枝可信度。 28.开放阅读框(ORF):开放阅读框是基因序列的一部分,包含一 段可以编码蛋白的碱基序列。

生物信息学复习题百度文库合集

生物信息学, 一、名词解释: 1、生物信息学:生物分子信息的获取、存贮、分析和利用;以数学为基础,应用计算机技术,研究生物学数据的科学。 2、相似性(similarity):两个序列(核酸、蛋白质)间的相关性。 3、同源性(homology):生物进化过程中源于同一祖先的分支之间的关系。 4、同一性(identity):两个序列(核酸、蛋白质)间未发生变异序列的关系。 5、序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。 6、生物数据库检索(database query,数据库查询):对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。 7、生物数据库搜索(database search):通过特定序列相似性比对算法,找出核酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列。 二、简答题: 1、分子生物学的三大核心数据库是什么?它们各有何特点? GenBank核酸序列数据库;SWISS-PROT蛋白质序列数据库;PDB生物大分子结构数据库;2、简述生物信息学的发生和发展。 20世纪50年代,生物信息学开始孕育; 20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来; 20世纪70年代,生物信息学的真正开端; 20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方; 20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库; 20世纪90年代后,HGP促进生物信息学的迅速发展。 3、生物信息学的主要方法和技术是什么? 数学统计方法;动态规划方法;机器学习与模式识别技术;数据库技术及数据挖掘;人工神经网络技术;专家系统;分子模型化技术;量子力学和分子力学计算;生物分子的计算机模拟;因特网(Internet)技术 4、常见的DNA测序方法有哪些?各有何技术特点和优缺点? Maxam-Gilbert DNA化学降解法: 优点:可测完全未知序列及CG富含区; 缺点:操作繁琐; Sanger双脱氧链终止法: 优点:简便,可测较长片段; 缺点:需已知部分序列或加接头; 焦磷酸测序: 优点:廉价、高通量; 缺点:一次测序片段短。 5、分子生物学数据库有哪些类型?各有何特点? 基因组数据库:基因组测序 核酸序列数据库:核酸序列测定 一次数据库:蛋白质序列数据库:蛋白质序列测定。生物大分子(蛋白质)三维结构数据库:X-衍射和核磁共振 特点:数量少,容量大,更新快

生物信息学考试题

生物信息学考试题 生物信息学bioinformatics 一、名词解释 Silicon cloning:利用公共数据库信息, 借助计算机软件分析, 推测目的基因的编码区序列, 辅助全长cDNA克隆的方法BLAST:即基本局域联配搜索工具,Basic Local Alignment Search Tool,是一个局部比对搜索工具,用来确定一条查询序列和一个数据库的比对,最早的版本不引入间隙,但现在所用的版本已经允许比对中引入间隙。 Entrez :是由NCBI 主持的一个数据库检索系统,它包括核酸,蛋白以及Medline 文摘数据库,在这三个数据库中建立了非常完善的联系。因此,可以从一个DNA 序列查询到蛋白产物以及相关文献,而且,每个条目均有一个类邻(neighboring)信息,给出与查询条目接近的信息。Entrez 中的数据库包括:Entrez 中核酸数据库为:GenBank, EMBL, DDBJ 蛋白质数据库为:Swiss-Prot, PIR, PFR, PDB PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST 和FASTA 的相似序列发现率。 ORF:开放阅读框(ORF)是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。编码一个蛋白质的外显子连接成为一个连续的ORF。当一个新基因被识别,其DNA 序列被解读,人们仍旧无法搞清相应的蛋白序列是什么。这是因为在没有其它信息的前提下,DNA 序列可以按六种框架阅读和翻译(每条链三种,对应三种不同的起始密码子)ORF 识别包括检测这六个阅读框架并决定哪一个包含以启动子和终止子为界限的DNA 。序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个真正的单一的基因产物。ORF 的识别是证明一个新的DNA 序列为特定的蛋白质编码基因的部分或全部的先决条件。 相似性(similarity)/(identify):相似性是指序列比对过程中用

相关主题
文本预览
相关文档 最新文档