当前位置:文档之家› 生物信息学总结

生物信息学总结

生物信息学总结
生物信息学总结

第一章生物信息学导论

1、什么是生物信息学?学习生物信息学一般需要哪几个方面的基础?研究对象?研究内容?

答:生物信息学(Bioinformatics) 是一门交叉学科,它综合运用数理科学和信息科学中的理论

和方法,以计算机为工具对生物学实验数据进行收集、加工、储存、传播、检索和分析,以

揭示数据所蕴含的生物学意义。

基础:数学、信息学、计算机科学

研究对象:核酸、蛋白质等生物大分子数据库。

研究内容:开发数据库和工具来存储、管理、使用生物学数据,开发算法、软件来对生物学数据进行分析和解释,出版生物信息学文献、书籍、资料

第二章生物信息学数据库

1、数据库分类,一级数据库,二级数据库

答:数据库的分类:一级数据库:数据库中的数据直接来源于实验获得的原始数据,

只经过简单的归类整理和注释1、核酸序列数据库2、蛋白质序列数据库3、生物大分子结

构数据库4、基因组数据库

二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的

三大核酸序列数据库:美国生物技术信息中心的GenBank ,欧洲生物信息学研究所的EMBL ,日本国立遗传研究所的DDBJ

2、Entrez检索系统,常用的数据库有哪些,有什么用途?

Entrez是NCBI开发的综合数据库检索工具

GenBank: 核酸序列数据

RefSeq:Reference Sequence (参考序列数据)

Genome:基因组数据

Gene: 为每个基因建立一个文本描述条目

UniGene: 归纳每一个基因的EST, mRNA, 蛋白质序列

GEO: 基因表达数据

SNP: SNP位点数据库

Structure: 记录大分子三维结构数据

第三章Blast与数据库搜索

1、序列similarity和序列homology有何区别和联系?

(1)相似性(similarity):是一种数量关系,比如部分相同或相似的百分比或其它一些合适的度量。比如说,A序列和B序列的相似性是80%,或者4/5。

(2)同源性(homology):这是质的判断,指从一些数据中推断出的两个基因或蛋白质序列是否具有共同的祖先。

序列相似性比较:

?将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性

?常用的程序包有BLAST、FASTA等

序列同源性分析:

?将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。

2、什么是Blast,BLAST的基本原理是什么?,有哪几种Blast,其查询和比对的序列是什么?

BLAST: Basic Local Alignment Search Tool是一种基于局部双序列比对的数据库相似性搜索工具

BLAST的算法:BLAST先找出某些“种子”,即探测序列和数据库序列间非常短的匹配的片段对,它们的比对得分至少是T,然后向两端不带空格地扩展这些种子,并使用替换矩阵计算得分,直到达到最大可能得分。程序并不持续地对种子进行扩展,当得分低于某个既定的阈值时便停止。

程序名探测序列数据库类型方法

Blastp 蛋白质蛋白质用蛋白质探测序列搜索蛋白质序列数据库Blastn 核酸核酸用核酸探测序列搜索核酸序列数据库Blastx 核酸蛋白质用核酸序列按6条链翻译成蛋白质序列后搜索蛋白质序列数据库

tBlastn 蛋白质核酸用蛋白质探测序列搜索核酸序列数据库,核酸序列按6条链翻译成蛋白质

tBlastx 核酸核酸将核酸序列按6条链翻译成蛋白质序列后搜索由核酸序列数据库按6条链翻译成的蛋白质序列的数据库

3、序列相似度聚类的含义?

序列相似度聚类定义:设P为包含n条序列的序列数据集(核酸或蛋白质),序列相似度聚类是指寻找P上的划分P1, P2,?, P k,使属于同一划分的序列间的相似性尽量大,而属于不同划分的符号序列间相似性尽量小。

第四章多序列比对

1.什么是多序列比对? ClustalX的基本原理步骤?Muscle基本原理和步骤?多序列比对结果编辑软件CINEMA

多序列比对(Multiple Sequence Alignment, MSA)可表示为一张表,表中每一行代表一个序列,每一列代表一个残基(或碱基)的位置,序列排列满足下列规则:

每一条序列所有字符的相对位置保持不变

同一列上的字符尽可能的相同或相似

Clustal X的步骤:1.使用动态规划法构造每个序列的配对比对,包括Clustal W 在内的许多比对算法在这一步使用距离矩阵而不是相似性矩阵来描述序列间的关联性;第二,由距离矩阵构造一颗指导树,树的两个主要特征是拓扑结构和分支长度,它一般并不当作是种系树,只反映了参与比对的多个序列如何相关联,用来确定向正在进行的多序列比对中加入新序列的次序;第三,以计分最高的配对比对作为多序列比对的种子,根据指导树逐渐向多序列比对中加入序列。MUSCLE的三个步骤:首先,使用渐进多序列比对产生一个初始结果,其中含有根据每对序列的相似性计分构造的一颗指导树;其次,重新计算相似性计分,据此改进指导树并再用渐进多序列比对产生一个更新的结果,这一过程迭代地进行;再次,算法根据新计算的SP计分值是否增加而决定是接受还是拒绝新产生的比对结果。

CINEMA(Color Interactive Editor for Multiple Alignments):一种多序列比对结果编辑软件

?特点:拖放式编辑,多motif的选择与操作,显示蛋白质结构

第五章分子进化与系统发育分析

1.何谓分子钟?有何实际应用意义?

答:分子钟指DNA或蛋白质序列的进化速率随时间或进化谱系保持恒定。

实际意义:进化时间的估计。

2.直系同源和旁系同源的含义?

答:Ortholog (直系同源物):两个基因通过物种形成的事件而产生,或者两个物种中的同一

基因,一般具有相同的功能

Paralog (旁系同源物):两个基因在同一物种中,通过至少一次基因复制的事件而产生

3.分子进化有哪两层含义?

答:1.分子进化是对不同生命进化树的分支的基因和蛋白质的变化来进行研究。

2.从分子水平上说,进化是对突变进行选择的过程。

4.何谓分子进化的中性理论?

答:1. 分子进化速率的恒定性。

2. 分子进化的保守性。

3. 进化过程中,对分子功能不损害或损害轻的突变较之损害严重的突变容易发生。

4. 具有新功能的基因一般起源于基因重复。

5. 在分子水平上所看到大部分进化是对自然选择既非有利也非不利的中性突变,且由

于随机漂变使之在群体中固定。

5.分子进化中性学说的中心论点:

在生物分子层次上的进化改变不是由自然选择作用于有利突变而引起的,而是由选择中性或非常接近中性的突变的随机固定造成的。

6.构建系统发育树的主要步骤?

答:1. 选择序列进行分析。

2.多系列比对。

3. 建树。

4. 可靠性分析。

第六章基因组测序与注释

1.经典的DNA测序方法有哪几种,其测序的原理?

答:1. Sanger双脱氧链终止法(Sanger和Coulson1977)

基本原理: 在合成与单链DNA互补的多核苷酸链过程中加入双脱氧核苷酸,使

合成的互补链在不同位置随机终止反应,产生只差一个核苷酸的DNA分子,最后通过电泳来读取待测DNA分子的顺序。

2. Maxam-Gilbert DNA化学降解法(Maxam和Gilbert,1977)

基本原理:在选定的核苷酸碱基中引入化学基团,再用化合物处理,使DNA分子在被修饰的位置降解。

3. 自动化测序

基本原理与链终止法测序原理相同,只是用不同的荧光色彩标记ddNTP,如ddATP标记红色荧光,ddCTP标记蓝色荧光, ddGTP标记黄色荧光, ddTTP标记绿色荧光.由于每种ddNTP带有各自特定的荧光颜色,而简化为由1个泳道同时判读4种碱基。

2.新一代测序技术有哪几种?

答:1、Pyrosequencing技术,或者称为焦磷酸测序技术。

2、Sequencing by Synthesis (SBS):基于合成的测序法。

3、Sequencing by Ligation (SBL):基于连接的测序法

3.人类基因组测序主要有哪两种策略?

答:1. 作图测序与序列组装先将染色体打成比较大的片段(几十-几百Kb), 利用分子标记将这些大片段排成重叠的克隆群(Contig), 分别测序后拼装. 这种策略叫基于克隆群(contig-based)的策略,也叫作图测序、指导测序或分级鸟枪法测序。

2. 随机测序与序列组装随机测序也称”鸟枪法”.

序列组装原理:直接从已测序的小片段中寻找彼此重叠的测序克隆,然后依次向两侧邻接的序列延伸. 优点:不需预先了解任何基因组的情况.

两种策略的比较:

鸟枪法策略指导测序策略

不需背景信息构建克隆群

(遗传、物理图谱)

时间短需要几年的时间

需要大型计算机

得到的是草图(Draft) 得到精细图谱

第七章基因组序列分析与DNAStar软件包的使用

1.碱基含量,GC含量,序列logo图的含义,密码子使用偏嗜性,开放阅读框GC含量可作为一个物种的特征,在微生物分类学中常常把GC含量作为分类参数之一。

Sequence Logo是一种用图形来表示同源基因的motif中每一列残基信息的方法密码子偏好:各个物种中,编码同一氨基酸的不同同义密码子的频率非常不一致; 密码子使用的偏嗜性是物种的特征。对基因组中某些基因的密码子偏嗜性进行统计分析,有可能揭示微生物基因组中通过水平转移而获得的基因。

开放阅读框(ORF, open reading frame)是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。(P86,指从5‘端开始翻译起始密码子到终止密码子的蛋白质编码碱基序列。)

ORF识别:检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的编码序列,而其内部不包含启动子或终止子。

原核基因识别主要是识别开放阅读框。

2.DNAstar软件包含哪些软件,各自的功能?

EditSeq :能迅速、正确地输入并且修改DNA或蛋白质序列的工具。GeneQuest :发现和注释DNA序列中的基因,并能分析生物学所关心DNA的其他特征:包括开放阅读框、拼接点连接,转录因子结合位点、重复序列、限制性内切酶酶切位点等。

SeqBuilder :editing nucleic and amino acid sequences. Also used to view sequences in a variety of ways.

MegAlign :提供6种比对方法进行DNA和蛋白质序列比对和多序列比对。PrimerSelect :能够设计PCR、测序和杂交试验所使用的引物和探针。Protean :可以使用多种方法分析、预测蛋白质结构,并以图形化的方式展示出来。

SeqMan :将成千上万个序列装配成重叠群。

3.EditSeq和GeneQuest含义?

类似功能

第八章蛋白质序列分析与结构预测

1.结构域、家族、模体的含义?

结构域(domain):蛋白质中能折叠成特定三维结构的一段区域,也称为模块(module)、折叠子(fold)

家族(family):在进化上相关的共享一个或多个结构域的蛋白质为一个家族

模体(motif):蛋白质序列中较短的保守区域,通常为按一定的模式排列的氨基酸残基

也称为指纹(figureprint)

2、蛋白质结构测定的实验方法主要有哪两种?

X-Ray Crystallography

Nuclear Magnetic Resonance (NMR)

3、常用蛋白质可视化的软件有哪些?

RasMol :读取PDB 格式文件,显示生物大分子三维结构图像的软件;系统的要求很低,应用广,可由Unix 、Windows 及Macintosh 平台支持运行。

Cn3D :含义为:“See in 3-D ”,是一个生物分子的三维结构、序列以及序列比对结果的可视化工具。读取MMDB 数据库的数据文件提供丰富的查看功能

Swiss PDBViewer

4、氨基酸组成和二肽含量计算

氨基酸含量统计:氨基酸i 在长度为N 的序列中的含量

氨基酸对(二肽)含量统计:残基i 和残基j 构成的残基对ij 在序列中的含量

5、疏水图的画法详见PPT

1 Sum amino acid hydrophobicity values in a given window

2 Plot the value in the middle of the window

3 Shift the window one position

i 121i k n n i k H H k +=-=

+∑

6、ProtParam 、ProtScale 、Compute pI/Mw 的主要用途?

ProtParam 计算蛋白质氨基酸组成、等电点、分子量等

ProtScale 分析蛋白质的亲水性或疏水性

Compute pI/Mw 计算蛋白质的等电点和分子量

7、二级结构预测的Chou-Fasman 方法思想

预测三种主要的二级结构:alpha-helix, beta-sheet ,Coil

训练数据:15个已知构象的蛋白质结构,共2473个氨基酸残基

定义一个蛋白质构象参数(protein conformational parameters):不同氨基酸残基在不同二级结构中的重要性P α, P β, P c

Judge rule :α-helix

(1)Search the helix core along the sequence. If at least 4 residues in the sequential 6 are prefer α-helix ( p i α>1), find a helix core.

(2) Extend the core, until the average preference score of this segment

is less than 1.

(3)Similar method to judge the β-sheet.

8、三级结构预测的三类方法,重点同源模拟

Homology modeling (HM, 同源建模)

Fold Recognition (FR, 折叠识别)

Ab initio method (从头计算)

Homology modeling 概念:对于一个未知结构的蛋白质,找到一个已知结构的同源蛋白质,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。

依据:任何一对蛋白质,如果两者的序列等同部分超过30%,则它们具有相似的三维结构,100%i i n f N

=?100%1ij i n f N =?-

即两个蛋白质的基本折叠相同,只是在非螺旋和非折叠区域的一些细节部分有所不同。

假设待预测三维结构的蛋白质为U(Unknown),利用同源模型化方法建立结构模型的过程包括下述步骤:

(1)搜索结构模型的模板(T)

(2)序列比对

(3)以T的骨架作为模板,建立U的骨架

(4)对U侧链建模,构建侧链和环区

(5)优化模型

预测结果准确率:

对于具有60%等同的序列,用上述方法所建立的三维模型非常准确。若序列的等同部分超过60%,则预测结果将接近于实验得到的测试结果。

一般如果序列的等同部分大于30%,则可以期望得到比较好的预测结果。

Fold Recognition

有很多蛋白质具有相似的空间结构,但它们的序列等同部分小于25%,即远程同源。

对于这类蛋白质,很难通过序列比对找出它们之间的关系,必须设计新的分析方法。

实验发现:蛋白质折叠的类型有限

计算要求:

能量函数

模版库(template library)

预测过程

将给定序列与每一个模板的序列匹配,打分

将模板连接起来

优化模型:能量函数

Ab initio method

?从头预测方法:仅根据序列本身来预测其结构

?从头预测方法一般由下列3个部分组成:

(1)一种蛋白质几何的表示方法

由于表示和处理所有原子和溶剂环境的计算开销非常大,因此需要对蛋白质和溶剂的表示形式作近似处理

(2)一种势函数及其参数

通过对已知结构的蛋白质进行统计分析确定势函数中的各个参数

(3)一种构象空间搜索技术

构象空间搜索和势函数的建立是从头预测方法的关键

第九章基因芯片数据分析

1.什么是基因芯片,用途

基因芯片指将大量寡核苷酸探针或靶DNA固定于支持物(substrate)上,然后与标记的样品进行杂交,通过检测杂交信号的强弱进而判断样品中靶分子的数量和序列信息。

用途:可以比较正常和异常细胞中基因的表达,帮助识别疾病相关基因和药物作用靶标,分析复杂疾病的致病机制,为个性化诊断和治疗提供指导,揭示基因间的表达调控关系,在制药和临床研究中也有重要的作用。

2.基因芯片数据分析主要有哪些方法?

基因芯片数据的预处理,差异表达分析,基因芯片数据的聚类分析,基因芯片数据的分类分析等。

3.标准化的作用和关键是什么?

标准化实质就是校正并减少系统变异产生的误差,使其处理后的数据更加具有合理性和可比性。标准化关键之处就是如何找出标准化因子 (normalization factor, NF) 。

4.聚类分析方法及特点?

层次聚类:将研究对象按照他们的相似性关系用树形图呈现,不需要预先设定类别个数,树状的聚类结构可以展示嵌套式的类别关系。

动态样品聚类(快速聚类):用于数量较大的样品聚类,计算速度快;提供统计检验比较类间的差异。不能自动确定类别数,根据经验确定或不断调整类别(k)得到结果;不能输出树状图的信息,不直观。

模糊聚类:

第十章 RNA序列分析与结构预测

常用的RNA数据库(Rfam、NONCODE、RNAdb、miRbase)

RNA结构预测的主要软件(Mfold、RNA Structure、RNAz、RNAfold)

了解各个数据库和软件的适应

生物信息研究中常用蛋白质数据库的总结复习进程

生物信息研究中常用蛋白质数据库的总结

生物信息研究中常用蛋白质数据库简述 内蒙古工业大学理学院呼和浩特孙利霞 2010.1.5 摘要:在后基因组时代生物信息学的研究当中,离不开各种生物信息学数据库。尤其在蛋白质从序列到功能的研究当中,目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。随着计算机技术及网络技术的发展,目前的蛋白质数据库不论是所包含数据量还是功能都日新月异,新的数据库层出不穷。一个新手面对如此浩瀚的数据量往往无从下手。本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓,作为自己蛋白质研究入门的一个引导。 关键词:蛋白质;数据库 0 引言 随着科技的发展,个人的知识往往赶不上快速膨胀的信息量,人们为了解决这个问题,便创建了形形色色的数据库。蛋白质数据库是指:在蛋白质研究领域根据实际需要,对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建出具有特殊生物学意义和专门用途的数据库。蛋白质数据库总体上可分为两大类:蛋白质序列数据库和蛋白质结构数据库,蛋白质序列数据库来自序列测定,结构数据库来自X-衍射和核磁共振结构测定(详见图1)。这些数据库是分子生物信息学的基本数据资源。上世纪90年代,我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。信息的传播储存甚为不便。随着蛋白质研究的发展飞快,同时伴随着计算机和因特网发展,蛋白质数据库的储存传播方式也发生的巨大的变化。进入21世纪后,我们所用的各种蛋白质数据库都发展成为存储在网络服务器上,基于“服务器—客户机”的访问查询方式。伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。但是面对如此浩瀚的数据,新手往往感到无从下手,在需要时找不到自己需要的合适数据库。 本文从目前蛋白质数据库建立的的逻辑层次出发,系统地简绍了常用蛋白质数据的概况,它们的查询方法以及它们相互之间的联系。同时尽量不涉及数

生物信息学软件及使用概述

生物信息学软件及使 刘吉平 liujiping@https://www.doczj.com/doc/eb8461599.html, 用概述 生 物秀-专心做生物! w w w .b b i o o .c o m

生物信息学是一门新兴的交叉学生物信息学的概念: 科,它将数学和计算机知识应用于生物学,以获取、加工、存储、分类、检索与分析生物大分子的信息,从而理解这些信息的生物学意义。 生 物秀-专心做生物! w w w .b b i o o .c o m

分析和处理实验数据和公共数据,生物信息学软件主要功能 1.2.提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验 3.实验数据的自动化管理 4.寻找、预测新基因及其结构、功能 5.蛋白质高级结构及功能预测(三维建模,目前研究的焦点和难点) 生 物秀-专心做生物! w w w .b b i o o .c o m

功能1. 分析和处理实验数据和公共数据,加快研究进度,缩短科研时间 ?核酸:序列同源性比较,分子进化树构建,结构信息分析,包括基元(Motif)、酶切点、重复片断、碱基组成和分布、开放阅读框(ORF ),蛋白编码区(CDS )及外显子预测、RNA 二级结构预测、DNA 片段的拼接; ?蛋白:序列同源性比较,结构信息分析(包括Motif ,限制酶切点,内部重复序列的查找,氨基酸残基组成及其亲水性及疏水性分析),等电点及二级结构预测等等; ?本地序列与公共序列的联接,成果扩大。 生 物秀-专心做生物! w w w .b b i o o .c o m

Antheprot 5.0 Dot Plot 点阵图 Dot plot 点阵图能够揭示多个局部相似性的复杂关系 生 物秀-专心做生物! w w w .b b i o o .c o m

生物信息学题库

■一、选择题: 1.以下哪一个是mRNA条目序列号: A. J01536■. NM_15392 C. NP_52280 D. AAB134506 2.确定某个基因在哪些组织中表达的最直接获取相关信息方式是:■. Unigene B. Entrez C. LocusLink D. PCR 3.一个基因可能对应两个Unigene簇吗?■可能 B. 不可能 4.下面哪种数据库源于mRNA信息:■dbEST B. PDB C. OMIM D. HTGS 5.下面哪个数据库面向人类疾病构建: A. EST B. PDB ■. OMIM D. HTGS 6.Refseq和GenBank有什么区别: A. Refseq包括了全世界各个实验室和测序项目提交的DNA序列B. GenBank提供的是非冗余序列 ■. Refseq源于GenBank,提供非冗余序列信息D. GenBank源于Refseq 7.如果你需要查询文献信息,下列哪个数据库是你最佳选择: A. OMIM B. Entrez ■PubMed D. PROSITE 8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法,下列哪种说法正确:A. 因为GenBank的数据比EMBL更多,Entrez给出的搜索结果将更多B. 搜索结果很可能 一样,因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当,但是ExPASy中的SwissProt记录的输出格式不同 9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:■N/W/Y B. Q/W/Y C. F/W/Y D. Q/N/W 10.直系同源定义为:■不同物种中具有共同祖先的同源序列B. 具有较小的氨基酸一致性但是有较大的结构相似性的同源序列 C. 同一物种中由基因复制产生的同源序列 D. 同一物种中具有相似的并且通常是冗余的功能的同源序列 11.下列那个氨基酸最不容易突变: A. 丙氨酸B. 谷氨酰胺 C. 甲硫氨酸■半胱氨酸 12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变: A. 1% B. 20%■. 80% D. 250% 13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同:A. 全局比对通常用于比对DNA序列,而局部比对通常用于比对蛋白质序列B. 全局比对允许间隙,而局 部比对不允许C. 全局比对寻找全局最大化,而局部比对寻找局部最大化■全局比对比对整体序列,而局部比对寻找最佳匹配子序列 14.假设你有两条远源相关蛋白质序列。为了比较它们,最好使用下列哪个BLOSUM和PAM矩阵:■BLOSUM45和PAM250 B. BLOSUM45和PAM 1 C. BLOSUM80和PAM250 D. BLOSUM10和PAM1 15.与PAM打分矩阵比较,BLOSUM打分矩阵的最大区别是:A. 最好用于比对相关性高的蛋白B. 它是基于近相关蛋白的全局多序列比对 ■它是基于远相关蛋白的局部多序列比对D. 它结合了全局比对和局部比对 16.如果有一段DNA序列,它可能编码多少种蛋白质序列: A. 1 B. 2 C. 3 ■. 6 17.要在数据库查询一段与某DNA序列编码蛋白质最相似的序列,应选择: A. blastn B. blastp C. tblastn D. tblastp■blastx 18.为什么ClustalW(一个采用了Feng-Doolittle渐进比对算法的程序)不报告E值:A. ClustalW报告E值■使用了全局比对 C. 使用了局部比对 D. 因为是多序列比对 19.Feng-Doolittle方法提出“一旦是空隙,永远是空隙”规则的依据是:A. 保证空隙不会引物序列加入而填充B. 假定进化早期分歧的序列有较高优先级别■假定最近序列空隙应 该保留 D. 假定最远序列空隙应该保留 20.根据分子钟假说:A. 所有蛋白质都保持一个相同的恒定进化速率 B. 所有蛋白质的进化速率都与化石记录相符合C. 对于每一个给定的蛋白质,分子进化的速率是逐 渐减慢的,就如同不准时的钟■对于每一个给定的蛋白质,其分子进化的速率在所有的进化分支上大致是恒定 21.系统发生树的两个特征是: A. 进化分支和进化节点■树的拓扑结构和分支长度C. 进化分支和树根D. 序列比对和引导检测方法 22.下列哪一个是基于字母特征的系统发生分析的算法:A. 邻位连接法(NJ法)B. Kimura算法■最大似然法(ML)D. 非加权平均法(UPGMA) 23.基于字母特征和基于距离的系统发生分析的算法的基本差异是:■基于字母特征的算法没有定义分支序列的中间数据矩阵 B. 基于字母特征的算法可应用于DNA或者蛋白质序列,而基于距离仅能用于DNA C. 基于字母特征的算法无法运用简约算法 D. 基于字母特征的算法的进化分支与进化时间无关 24.一个操作分类单元(OTU)可指:A. 多序列比对■蛋白质序列C. 进化分支D. 进化节点 25.构建进化树最直接的错误来源是:■多序列比对错误B. 采样的算法差异C. 假设进化分支是单一起源D. 尝试推测基因的进化关系 26.第一个被完整测定的基因组序列是:A. 啤酒酵母的3号染色体B. 流感病毒■ФX174 D. 人类基因组 27.普通的真核生物线粒体基因组编码大约多少个蛋白质:■10 B. 100 C. 1000 D. 10000 28.根据基因组序列预测蛋白质编码基因的算法的最大问题是:A. 软件太难使用■. 假阳性率太高,许多不是外显子的序列部分被错误指定C. 假阳性率太高,许 多不是外显子功能未知 D. 假阴性率太高,丢失太多外显子位点 29.HIV病毒亚型的系统演化研究可以:A. 证实HIV病毒是由牛病毒演化而来■. 用于指导开发针对保守蛋白的疫苗C. 证实哪些人类组织最容易遭受病毒侵染 30.一个典型的细菌基因组大小约为多少bp:A. 20000■. 200000 C. 2000000 D. 20000000

数据挖掘与分析心得体会

正如柏拉图所说:需要是发明之母。随着信息时代的步伐不断迈进,大量数据日积月累。我们迫切需要一种工具来满足从数据中发现知识的需求!而数据挖掘便应运而生了。正如书中所说:数据挖掘已经并且将继续在我们从数据时代大步跨入信息时代的历程中做出贡献。 1、数据挖掘 数据挖掘应当更正确的命名为:“从数据中挖掘知识”,不过后者显得过长了些。而“挖掘”一词确是生动形象的!人们把数据挖掘视为“数据中的知识发现(KDD)”的同义词,而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤! 由此而产生数据挖掘的定义:从大量数据中挖掘有趣模式和知识的过程!数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。作为知识发现过程,它通常包括数据清理、数据集成、数据变换、模式发现、模式评估和知识表示六个步骤。 数据挖掘处理数据之多,挖掘模式之有趣,使用技术之大量,应用范围之广泛都将会是前所未有的;而数据挖掘任务之重也一直并存。这些问题将继续激励数据挖掘的进一步研究与改进! 2、数据分析 数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 数据分析有极广泛的应用范围。典型的数据分析可能包含以下三个步: 1、探索性数据分析:当数据刚取得时,可能杂乱无章,看不出规律,通过作图、造表、用各种形式的方程拟合,计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。 2、模型选定分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。 3、推断分析:通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。 数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各

生物信息学期末考试重点

第一讲 生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。 生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。 生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。 生物技术与生物信息学的区别及联系 生物信息学的发展历史 ?人类基因组计划(HGP) ?人类基因组计划由美国科学家于1985年提出,1990年启动。根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。(百度百科) 随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。 :

】 第二讲回顾细胞结构 细胞是所有生命形式结构和功能的基本单位 细胞组成 细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构 细胞质细胞膜与细胞核之间的区域:包含液体流质,夹杂物存储的营养、分泌物、天然色素和细胞器 细胞器细胞内完成特定功能的结构:线粒体、核糖体、高尔基体、溶酶体等 细胞核最大的细胞器 DNA的结构 碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G) 。 核苷酸 核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊 糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对,也就 是A、T、C、G 基因是什么 基因是遗传物质的基本单位 基因就是核苷酸序列。 大部分的基因大约是1000-4000个核苷酸那么长。 基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。 基因在染色体上。

生物信息学名词解释资料

1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影 响,序列中的空位的引入不代表真正的进化事件,所以要对其进行 罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了 可以找到与查询序列(query)相匹配的随机或无关序列的概率,E 值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的 相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意 义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复 度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列, Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y) 加点,如果两条序列完全相同则会形成一条主对角线,如果两条序 列相似则会出现一条或者几条直线;如果完全没有相似性则不能连 成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这 些序列做一个总体的比对,以观察它们在结构上的异同,来回答大 量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而 可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或 其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个 父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是 引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中 的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制 证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重 复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于 基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘 关系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树。 22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找 到距离最近的两类将其归为一类,定义为一个节点,重复这个过程, 直到所有的聚类被加入,最终产生树根。 23.邻接法(neighbor-joining method):是一种不仅仅计算两两比 对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行 限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。 24.最大简约法(MP):在一系列能够解释序列差异的的进化树中 找到具有最少核酸或氨基酸替换的进化树。 25.最大似然法(ML):它对每个可能的进化位点分配一个概率, 然后综合所有位点,找到概率最大的进化树。最大似然法允许采用 不同的进化模型对变异进行分析评估,并在此基础上构建系统发育 树。 26.一致树(consensus tree):在同一算法中产生多个最优树,合并 这些最优树得到的树即一致树。 27.自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多 次重复取样,构建多个进化树,用来检查给定树的分枝可信度。 精品文档

计算机专业认识实习报告

认识实习心得 计算机112班ZZM 11月18日到22日是认知实习周,我们计算机专业在老师的精心安排下,组织了许多专业知识讲座,以及实地参观学习。在此之前,一提到实习,总感觉有一种神秘感,不知道我们这个专业实习能干什么?实习之后,我懂得了不少经验和道理。 讲座内容涉及职场礼仪、计算机专业技术、科技研发、创业等,实地参观无锡(国家)软件园、常州北大众志公司、常州同惠电子厂等。丰富多彩的讲座以及身临科研开发的第一线不仅拓宽了我们的视野,也使我们在专业知识的学习上明确了方向,对未来的职业选择奠定了一定的基础。下面简单的说下实习的具体感受。 第一天由无锡NIIT学校副校长郑老师做了关于职场上礼仪的讲座。郑老师从4大方面若干小点阐述了职场对礼仪的要求。首先是为什么要学习职场礼仪。古人云:“礼”者,敬人也。一是严于律己,二是尊敬他人,并且强调要学会用正确的方法尊敬别人。关于基本礼仪要求:首先强调的是个人卫生,个人的整体形象。如果一个人邋邋遢遢,个人生活一团糟,相信不会有哪个HR会看上你,并且相信你会为公司带来经济效益。其次,礼貌待人,一个人很有礼貌的去做事,可以给人的感觉是这个人很有素养,举止得体,这样会加重别人信任你的砝码。接着是关于友善,生活中难免会遇到一些竞争者,我们要正确的认识两者间的关系,友善的处理好关系有助于工作的开展,而不是盲目的排挤打压。要学会用真诚去感化别人,真诚待人。接着是尊重他人的情感,学着站在别人的角度思考问题,感受别人的心情。最好能够尝试理解他人。还有就是善待来访,善用敬语。一些基本的礼节问题讨论结束后,郑老师开始向我们介绍在公司里,作为一名员工应当具有的礼节行为。一名员工最基本的礼节行为就是要守时,如果有特殊情况不能及时赶到,应当立即打电话告知对方。时间是最宝贵的,误时的结果会让你在别人心中的形象大打折扣,会认为你不是一个严谨的人。其次就是远离流言蜚语,嘴巴一定要管好,不能四处散播不良言论,必须要为自己所说的话负责。当然还有些细节问题,例如衣着得体,讲究个人卫生;不带病上班;控制饮酒;不带不速之客;杜绝轻浮举止等,郑老师也一一作了详细解答。郑老师切身说法,列举自己生活里的例子给大家做分析,说心得。同学们听后感慨颇多。 第二天我们计算机专业进行了第二次学术报告讲座,课题为机器学习。平时学习的范围比较狭隘,很少接触到类似于这种高端的技术范畴。学院万建武老师首先从机器学习这一概念的提出及发展情况做了简单的介绍,通俗意义上讲就是让机器有自我学习的能力。目前国类研究人员还是很多的,很多高等学府都相应的开设了课程,例如北大、清华、交大等,一些重要的知名大企业技术核心也涉及到了,如阿里巴巴、百度,中国移动等,其中阿里巴巴的淘宝网站应用最为广泛。它机器会根据用户的购买喜好,以及用户的购买力进行自学习,然后在淘宝的产品库中智能的推荐该用户能够喜欢以及能够支付的产品,通过高效的算法使得自身的商品最大化的推销出去。接着,老师介绍了他本人感兴趣的研究方向,希望给与我们一些指导。视频追踪、机器排错。视频追踪类似于相机里的聚焦并锁定人物头像,视频追踪技术用来分析人物的动作形态,并且排除外界环境的干扰,要将人物的整个信息记录下来。然后老师提出了进行这项研究所需具备的条件,要喜欢接受挑战,有好的外语阅读能力,好的数学基础(线性代数、概率统计、优化、实变、泛函),对照老师提出的基本要求,自己这方面的能力还有待加强。老师举了一些眼下热门的技术使用,网络安全、门禁的入侵检测、生物信息学等。当然这项高端的技术也面临着诸多挑战问题,(1)泛化问题,机器进过学习后得出的结论,今后10年是否准确?(2)运行的速度,比如训练时间VS测试时间。(3)可理解性的问题,是否能让其他人更好的理解规则和模型,市场上的技术封装“黑盒子”能否满足需要?(4)数据利用能力(5)代价敏感,应用到的模识别,以及降维算法。很好的例子就是人脸识别。此次讲座让我不仅接触到了前沿的科技,热的研究方向,而且也让我深刻感受到稳扎基础,拓宽知识面的重要性!

生物信息学考试试卷修订稿

生物信息学考试试卷 WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-

一、名词解释(每小题4分,共20分) 1、生物信息学 广义:生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达;细胞、组织、器官的生理、病理、药理过程的中各种生物信息。 狭义:生物分子信息的获取、存贮、分析和利用。 2、人类基因组计划 人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。 3、蛋白质的一级结构 蛋白质的一级结构是指多肽链中氨基酸的序列 4、基因 基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。 5、中心法则 是指遗传信息从传递给,再从RNA传递给,即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。 6 、DNA序列比较 序列比较的根本任务是:(1)发现序列之间的相似性;(2)辨别序列之间的差异 目的: 相似序列相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系 7、一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 8、基因识别 基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。 9、系统发生学 系统发生学(phylogenetics)——研究物种之间的进化关系。 10、基因芯片 基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。

生物信息学概论

2013/5/23
生物信息学概论
2013-5
提纲
1. 发展简史 2. 主要研究领域 3. 软件和工具
1. 发展简史
1946年 1946 年
美国生产出第一台全自动电子数字计算机“埃尼阿克”
1

2013/5/23
1. 发展简史
1955年 1955 年
Frederick Sanger determined the complete amino acid sequence of insulin in 1955 and earned him his first Nobel prize in Chemistry in 1958.
1. 发展简史
1965年 1965 年
The first Atlas of Protein Sequence and Structure contained sequence information on 65 proteins.
Dr. Margaret Oakley Dayhoff (1925-1983) was a pioneer in the use of computers in chemistry and biology, beginning with her PhD thesis project in 1948. Her work was multi-disciplinary, and used her knowledge of chemistry, mathematics, biology and computer science to develop an entirely new field. She is credited today as a founder of the field of Bioinformatics.
1. 发展简史
1965年 1965 年
First use of molecular sequences for evolutionary studies
One of the founding fathers of the field of molecular evolution
Zuckerkandl, E. and Pauling, L. (1965). "Molecules as documents of evolutionary history." Journal of theoretical biology 8(2): 357.
2

生物信息学复习题及答案(陶士珩)

生物信息学复习题 一、名词解释 生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept,折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。 二、问答题 1)生物信息学与计算生物学有什么区别与联系 2)试述生物信息学研究的基本方法。 3)试述生物学与生物信息学的相互关系。 4)美国国家生物技术信息中心(NCBI)的主要工作是什么请列举3个以上NCBI 维护的数据库。 ¥ 5)序列的相似性与同源性有什么区别与联系 6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么 7)简述BLAST搜索的算法。 8)什么是物种的标记序列 9)什么是多序列比对过程的三个步骤 10)简述构建进化树的步骤。 11)简述除权配对法(UPGMA)的算法思想。 12)简述邻接法(NJ)的算法思想。 13)简述最大简约法(MP)的算法思想。 14)简述最大似然法(ML)的算法思想。 ? 15)UPGMA构树法不精确的原因是什么 16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其含义。 17)试述DNA序列分析的流程及代表性分析工具。 18)如何用BLAST发现新基因 19)试述SCOP蛋白质分类方案。 20)试述SWISS-PROT中的数据来源。 21)TrEMBL哪两个部分 22)试述PSI-BLAST 搜索的5个步骤。[ 3) 三、操作与计算题 1)如何获取访问号为U49845的genbank文件解释如下genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999

分子与合成生物学知识点总结

1.(生命的起源)三界的分类:古细菌、细菌、真核生物 2.小分子:氨基酸、糖类、核苷酸 77% 3.大分子:核酸、蛋白质、脂质 23% 4.古细菌更类似于真核细胞,原核细菌是真正的细菌 5.合成生物学的定义:设计和构建自然界中没有发现的生物功能和生物系统。构造生物零件装置和能量,药物以及科技系统中应用工程原则和数学模型。 组装各领域专业知识的研究领域为了理解,构建,修饰生物系统。 合成生物学的目标:①操纵基因元件,将基础生物分子整合到基因线路上,来创造新性状,表达复杂的生物功能。②从稳定、标准、已经改良好的基因模块来构建生物体系。 合成生物学的目的:改造系统、系统化构建 .合成生物学与其他学科的不同:抽象性、模块性、标准化、设计和模型 6.根据进化树,古细菌和真核生物都来自细菌。 7.生物膜的作用:隔离、储存能量、物质传递、信号传导、阻断毒性 8.内共生学说:古细菌的真核细胞吞噬异样细菌,成为它的线粒体。 吞噬自养细菌,成为它的叶绿体。 9.基因的概念:基因是生物有机体遗传的分子单元 基因在染色体上 是有机体中可以编码多肽和RNA的DNA序列 10.DNA的结构和功能: 遗传信息在DNA链的核苷酸序列中 遗传信息指导合成蛋白质 基因两条链碱基配对以氢键链接 一条链模板、半保留复制5-3、3端游离羟基、糖在外,碱基在内 11.染色体结构与基因表达: 染色质的基本组成单位是核小体 核小体是组蛋白八聚体2H2A 2H2B 2H3 2H4 H1与核小体间DNA链接 染色质改造:连接DNA长度可变,结合DNA结构可变 12.三个重要的DNA序列:端粒、复制起始区、着丝点 13.核小体的N端修饰(共价修饰): DNA甲基化和组蛋白去乙酰化协同作用共同参与转录阻遏。 磷酸化使生物学过程发生 14.转录抑制与异染色质有关 15.第三章总结:间期染色质解旋很难看见 基因表达loop结构处 常染色质结构疏松表达活跃,能编码蛋白质。 异染色质粘稠不编码。如端粒、中心粒、着丝粒 有丝分裂染色体是压缩的,有序的,染色体在细胞核中的存放时空间有序的 16.分子机器:调节DNA的蛋白质 DNA:连接酶、解旋酶(95℃)、拓扑异构酶 钳蛋白、结合蛋白

生物信息学概论复习题

生物信息学概论复习题 一、名词解释: 1.合成生物学 2.蛋白质组学 3.相似性,同一性,同源性 4.直系同源基因,旁系同源基因 5.序列比对 6.生物信息学 7.多序列比对 8.打分矩阵 9.蛋白质同源建模 10.分子钟 11.虚拟细胞 12.蛋白质结构比对 13.EST 14.contig 15.unigene 16.Entrez 17.一级数据库 18.二级数据库 19.系统发育 20.BLAST 21.外类群 22.有根树 23.系统生物学 24.比较蛋白质组学 二、简述题: 1.常用的序列比对软件有哪些?

2.序列比对有哪些用途? 3.蛋白质结构比对? 4.系统生物学与分子生物学的差异和联系? 5.分子进化的中性学说? 6.GO数据库的内容及用途? 7.KEGG数据库的内容及用途? 8.蛋白质组与基因组的差别? 9.蛋白质组的研究内容? 10.列举分离鉴定蛋白质技术有哪些? 11.基因组外显子的组成特征有哪些? 12.NCBI Blast程序有哪些子程序?有何区别? 13.蛋白质数据库有哪些?各自特点是什么? 14.列举可以通过NCBI进行的生物信息学分析。 15.设计引物要遵循哪些原则? 16.知道某蛋白的氨基酸序列后,如何进行各级结构的生物信息学分析? 17.系统发育树的构建步骤是什么? 18.蛋白质有哪些结构层次,如何定义? 19.蛋白质组的特点? 20.双向电泳及其工作原理? 21.构建系统树的主要方法? 22.主要的生物信息数据库有哪些? 三、论述题 1.构建进化树有几种方法?如何选择? 2.第二代测序技术与第一代测序技术相比有什么异同?优势是什么? 3.什么EST序列?得到EST数据后,如何进行生物信息学分析?

生物信息学复习资料全

一、名词解释(31个) 1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程 息的存贮、信息的涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。 2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、 实验数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对:研究的是多个序列的共性。序列的多重比对可用来搜索基因组 序列的功能区域,也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树 状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。 5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该 是进化保守的并且在其他物种中具有直系同源性。 指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。(来自百度) 6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会 进化出新的与原来有关的功能。用来描述在同一物种由于基因复制而分离的同源基因。(来自百度) 7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的 核苷酸或氨基酸字符串。 8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止 密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。(来自百度) 9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区 域,折叠得较为紧密,各行其功能,称为结构域。 10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空 位并进行罚分,以控制空位插入的合理性。(来自百度) 11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分 cDNA的3’或5’端序列。(来自文献) 12.Gene Ontology 协会: 13.HMM 隐马尔可夫模型:将核苷酸序列看成一个随机序列,DNA序列的编 码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。14.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单 的归类整理和注释 15.序列一致性:指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋 白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性:指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所 占的比例。 17.Blastn:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将 同所查序列作一对一地核酸序列比对。(来自百度) 18.Blastp:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐 一地同每条所查序列作一对一的序列比对。(来自百度)

分子生物学复习题(有详细答案)

分子生物学复习题(有详细答案)

绪论 思考题:(P9) 1.从广义和狭义上写出分子生物学的定义? 广义上讲的分子生物学包括对蛋白质和核酸等生物大分子结构与功能的研究,以及从分子水平上阐明生命的现象和生物学规律。 狭义的概念,即将分子生物学的范畴偏重于核酸(基因)的分子生物学,主要研究基因或DNA结构与功能、复制、转录、表达和调节控制等过程。其中也涉及与这些过程相关的蛋白质和酶的结构与功能的研究。 2、现代分子生物学研究的主要内容有哪几个方面?什么是反向生物学?什么是 后基因组时代? 研究内容: DNA的复制、转录和翻译;基因表达调控的研究;DNA重组技术和结构分子生物学。 反向生物学:是指利用重组DNA技术和离体定向诱变的方法研究已知结构的基因相应的功能,在体外使基因突变,再导入体内,检测突变的遗传效应,即以表型来探索基因结构。 后基因组时代:研究细胞全部基因的表达图式和全部蛋白质图式,人类基因组研究由结构向功能转移。 3、写出三个分子生物写学展的主要大事件(年代、发明者、简要内容) 1953年Watson和Click发表了“脱氧核糖核苷酸的结构”的著名论文,提出了DNA的双螺旋结构模型。 1972~1973年,重组DNA时代的到来。H.Boyer和P.Berg等发展了重组DNA 技术,并完成了第一个细菌基因的克隆,开创了基因工程新纪元。 1990~2003年美、日、英、法、俄、中六国完成人类基因组计划。解读人类遗传密码。 4、21世纪分子生物学的发展趋势是怎样的? 随着基因组计划的完成,人类已经掌握了模式生物的所有遗传密码。又迎来了后基因组时代,人类基因组的研究重点由结构向功能转移。相关学说理论相应诞生,如功能基因组学、蛋白质组学和生物信息学。生命科学又进入了一个全新的时代。 第四章 思考题:(P130) 1、基因的概念如何?基因的研究分为几个发展阶段? 概念:基因是原核、真核生物以及病毒的DNA和RNA分子中具有遗传效应的核苷酸序列,是遗传的基本单位和突变单位以及控制形状的功能单位。 发展阶段:○120世纪50年代以前,主要从细胞的染色体水平上进行研究,属于基因的染色体遗传学阶段。 ○220世纪50年代以后,主要从DNA大分子水平上进行研究,属于分

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解 释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计 算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技 术而揭示大量而复杂的生物数据所赋有的生物学奥秘。 2、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于 距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后, 数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方 式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数 据存储的大型数据库系统都在各个方面得到了广泛的应用。 3、表达序列标签从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短 的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。EST 来源于一定环境下一个组织总 mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。 4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白。 ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的 DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个 真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编 码基因的部分或全部的先决条件。 5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列,并进 一步折叠成特定的空间结构前者我们称为蛋白质的一级结构,也叫初级结构或基 本结构。蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理 功能的必要基础。 6、基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别 DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因, 也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。基因识别是基 因组研究的基础。

生物信息学期末复习知识点总结

生物信息学:利用数学、物理、化学的理论、技术和方法,以计算机为工具,对生命现象加以研究,得到深层次的生物学知识。 研究任务:收集与管理生物分子数据,对数据进行处理分析,为其它生物学研究提供服务 四大“模式生物”:酵母、线虫、果蝇、小鼠 糖的生物功能,作为燃料(是生命活动所需的能源),重要的中间代谢物,参与生物大分子组成,作为信号分子 脂类的生物功能,构成生物膜的骨架,储存能量(效率是糖的2倍左右),构成生物表面的保护层、保温层,重要的生物学活性物质蛋白质的生物功能,是遗传信息转化成生物结构和功能的表达者;参与基因表达的调节,以及细胞中氧化还原反应、电子传递、神经传递、学习记忆等重要生命过程;酶(一类重要的蛋白质)在细胞和生物体内各种生化反应中起催化作用; 蛋白质的空间结构 一级结构(primary structure)多肽链中氨基酸数目、种类和线性排列顺序 二级结构(secondary structure)氢键形成 -螺旋( -helix)-折叠 ( -sheet) 三级结构(tertiary structure)肽链进一步沿多方向盘绕成紧密的近似球状结构 四级结构(quaternary structure)具有特定构象的肽链进一步结合,并在空间相互作用检索方法:1)追溯法:通过已知文献后附有的参考文献中提供的线索来查找文献。(2)常用法:利用各种检索工具来查找文献。(3)循环法:是将常用法和追溯法交替使用的一种综合文献检索方法。 (4)浏览法:是从本专业期刊或其它类型的原始文献中直接查阅文献资料。 检索途径:著者途径:分类途径:主题途径:其它途径; 检索过程:(1)分析研究课题(2)制定检索策略(3)查找文献线索(4)获得原始文献大规模基因组DNA测序: 鸟枪法( Shot-gun sequencing)方法:借助物理或化学的手段将整个基因组随机打断成一定大小的片段进行测序,再根据序列间的重叠关系进行计算机排序与组装,确定它们在基因组中的位置。 适用范围:主要用于重复序列少、相对简单的原核生物基因组的测序工作。不适用于分析较大的、更复杂的基因组。优点:速度快、简单易行、成本低 克隆重叠群法(clone contig sequencing)方法:先将染色体打成比较大的片段(几十-几百Kb),利用分子标记将这些大片段排成重叠的克隆群,分别测序后拼装。需要绘制物理图谱,以鸟枪法为基础。适用范围:较大的、更复杂的基因组 蛋白质结构解析:X射线晶体衍射;核磁共振波谱学 其他方法:扫描隧道电子显微镜–圆二色谱一级数据库:直接来源于实验获得的原始数据,只经过简单的归类、整理和注释。 二级数据库:在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。 序列比较的根本任务是:通过比较生物分子序列,发现他们之间的 相似性,找出序列之间共同的区域,同时辨别序列之间的差异。 同源性:是指序列们是由共同祖先进化而来,讲两条序列的同源关系,只有两种情况:同源、不同源。相似性:指序列间的差别,是一个度量。 同源与相似的关系:一般认为序列相似性达到一定程度,即可认为是同源,但不绝对。序列比对算法实现:点阵分析:寻找序列间可能的性状对位排列;寻找蛋白质、DNA序列中正向或反向重复;预测RNA中自补区域;直观,整体水平;动态规划算法:精确而全面,非常耗费资源;启发式算法 滑动窗口技术:使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。 动态规划算法计算过程:1计算过程从d 0 ,

相关主题
文本预览
相关文档 最新文档