当前位置:文档之家› 生物信息学研究进展_孙敏

生物信息学研究进展_孙敏

生物信息学研究进展_孙敏
生物信息学研究进展_孙敏

第27卷第1期家畜生态学报Vo l.27No.1 2006年1月Acta Ecolog iae Animalis Dom astici Jan2006y

生物信息学研究进展

孙敏1,2,马月辉1*,叶绍辉2

(1.中国农业科学院畜牧研究所,北京100094; 2.云南农业大学动物科学技术学院,云南昆明650201)

[摘要]随着计算机科学和生物科学的迅猛发展,由此而诞生的生物信息学逐渐发展成为

一门独立的学科。它将会成为21世纪生命科学中的重要研究领域之一。本文简单介绍了生

物信息学的产生,发展,研究内容,应用及未来的发展方向等。

[关键词]生物信息学;基因组学;蛋白质组学;算法问题;数据预测分析模型

[中图分类号]S811.5[文献标识码]A[文章编号]1004-5228(2006)01-0006-05

生物信息学(Bio inform atics)是由生物科学,计算机科学,信息科学,应用数学,统计学等多门学科相互交叉而形成的一门新兴学科。它以计算机为主要工具,开发各种软件,对日益增长的DNA和蛋白质的序列和结构等相关信息进行收集、储存、发行、提取、加工、分析和研究,同时建立理论模型,指导实验研究,它由数据库、计算机网络和应用软件三大部分构成[1]。它包含了两个方面:一是对海量数据的收集,整理与服务;另一方面是从中发现新的规律。生物信息学不只是一门为了建立、更新生物数据库及获取生物数据而联合使用多项计算机科学技术的应用性学科,也不仅仅是只限于生物信息学这一概念的理论性学科。事实上,它是一门理论概念与实践应用并重的学科。它不仅具有重要的学术价值,还有很大的商业价值,有着远大的发展前景。随着后基因组时代的到来,它将发挥着越来越不可替代的作用。可以毫不夸张地说,生物信息学将是21世纪生物科学发展的核心领域。

1生物信息学的产生和发展

1.1生物信息学的产生

生物信息学这一词出现已经很久,早在1956年美国田纳西州盖特林堡召开的首次/生物学中的信息理论研讨会0上便产生了生物信息学的概念[2]。但是在最近20年左右,随着人类基因组计划(H GP)的迅猛发展,核酸序列的海量增加,才逐渐发展成为一门独立的学科。

1.2生物信息学的发展

生物信息学是伴随着人类基因组计划的实施逐渐发展壮大起来的,其发展历程大致经历了三个阶段[3],前基因组时代:这一阶段生物信息学的主要工作包括生物数据库的建立,检索工具的开发以及DNA和蛋白质序列分析。基因组时代:这一阶段生物信息学的主要工作是大量核苷酸序列测定、分析、新基因寻找和识别,以因特网为基础的网络数据库系统的建立和交互界面的开发以及基因组序列信息的提取分析等。后基因组时代:这一阶段生物信息学的主要研究工作将包括蛋白质组学研究及人类基因组注释。

现在世界上已有4个比较权威的生物信息学中心。他们分别是:美国国家生物技术信息中心(NC-BI)、基因组序列数据库中心(GSDB)、欧洲生物信息学研究所(EBI)和日本信息生物学中心(CIB)[4,5]。由于生物信息学是一门新兴的学科,这一领域的人才队伍奇缺。因此,现在许多国家开始设置专门的生物信息学专业,学习有关计算机、生物学、统计学等方面的知识,培养专门人才;同时,鼓励并支持数学、物理、化学和计算机科学技术工作者,学习有关的生物学知识,开展生物信息学方面的研究。此外,也要求生命科学家学习计算机知识,以满足未来生物学发展的需要[6,7]。在我国,生物信息学随着人类基因组研究的展开才刚刚起步,但已显

y[收稿日期]2005-04-18

[基金项目]国家自然科学基金(30371026)和国家科技基础条件平台工作项目(2003DEA3NO29)。

[作者简介]孙敏(1975-),女,山西吉林伊通人,在读硕士生,研究方向:动物遗传育种学。

*[通讯作者]马月辉(1964-),男,吉林伊通人,研究员,博士生导师,主要研究方向:畜禽遗传资源。

露出蓬勃发展的势头。许多科研单位已经开始或准备开始从事这方面的研究工作。北京大学研究建立起一个EM BL的镜像数据库(即完整地将EM BL 的数据库移植过来),并提供部分的检索服务。在复旦大学遗传学研究所,为克隆新基因而建立的一整套生物信息系统也已初具规模。中科院上海生化所、生物物理所等单位在结构生物学和基因预测研究方面也有相当的基础。国内一些综合性大学,如北京大学,浙江大学,武汉大学等也开始设置了专门的生物信息学专业,为我国生物信息学的发展提供足够的人才贮备。

2生物信息学的研究内容

总的来说,生物信息学的研究内容主要包括基因组学和蛋白质组学这两方面的研究。

2.1基因组学的研究

基因组(Genome)一词是1920年Winkles从Genes和Chrom oso mes组成的[8,9]。一个物种全部遗传信息的总和称为基因组,可以指一套染色体,也可指其中全部核苷酸序列。1986年美国著名科学家Thom as Roderick提出了基因组学(Genom ics),指对一个物种的所有基因进行基因组作图(包括遗传图、物理图谱、转录图谱),核苷酸序列分析,基因定位和基因功能分析的一门学科[8,10]。基因组学研究主要包括以下几方面的内容:以全基因组测序为目标的结构基因组学(Structur al Genom ics)和以基因功能鉴定为目标的功能基因组学(Functio nal Ge-nom ics)以及以基因组比较为基础研究生物进化为目标的比较基因组学(Com parativ e Genomics)等。现在,从基因组研究角度出发的技术开发的发展和公共资源数据体系的大规模建立,为生物学和生物医学研究指引重要的新方向。基因组序列这一指导生物发育和发挥功能的信息综合体,是当今生命科学革命的核心。简单来讲,基因组学已经成为生物学和医学研究的核心和不可分割的学科。

2.1.1结构基因组学的研究结构基因组学(structural g enom ics)是基于基因组学的一个重要组成部分和研究领域,它是一门通过基因作图、核苷酸序列分析确定基因组成、基因定位的科学[11]。生物信息学在结构基因组学中的应用主要在于:基因组作图、核苷酸序列信息分析、基因定位、新基因的发现和鉴定等方面。

2.1.2比较基因组学的研究该领域的研究通过不同生物基因组的比较、分析,可以进行生物进化等方面的研究。如通过对河豚鱼基因组与人的基因组的比较研究,发现其基因组与人类基因组序列有很高的同源性。河豚鱼拥有人类大部分的结构基因,缺少的只是人类基因组中的内含子部分。

2.1.3功能基因组学的研究功能基因组学(Functional g enom ics)是指在全基因组序列测定的基础上,从整体水平研究基因及其产物在不同时空、条件下的结构与功能关系及活动规律的学科[12,13]。功能基因组的研究是后基因组时代的关键点,它将借助生物信息学的技术平台,利用先进的基因表达技术及庞大的生物功能检测体系,从浩瀚无垠的基因库筛选并确知某一特定基因的功能,并通过比较分析基因及其表达的状态,确定出基因的功能内涵,揭示生命奥秘,甚至开发出基因产品。

2.1.4药物基因组学的研究药物基因组学(phar mico-genomics)以提高药物疗效与安全性为目的,研究影响药物作用,药物吸收、转运、代谢、清除等过程中基因差异,通过对疾病相关基因,药物作用靶点、药物代谢酶谱,药物转运蛋白基因多态性等方面研究,寻找新的药物先导物和新的给药方式,并指导临床用药[14]。尽管药物基因组学还是一门相当年轻的学科,与医疗实践还有很大一段距离,但人们对其前景充满信心。

2.1.5环境基因组学的研究环境基因组学( Envirom entalGeno mics),是专门鉴定机体暴露在特定环境下的那些显示易感或抵抗性基因的DNA多态性。对环境较敏感的基因有DNA修复基因、细胞周期相磁基因、激素代谢基因、受体基因、参与免疫和感染反应的基因和信号传导基因等等。

2.2蛋白质组学的研究

蛋白质组(pro teom e)是指一个基因组,一种生物或一种组织/细胞所表达的全套蛋白质[14,15],蛋白质组学(proteomics)是以蛋白质组为研究对象的新的研究领域,主要研究细胞内蛋白质的组成及其活动规律,建立完整的蛋白质文库。它分为三个主要的领域:(1)规模化的蛋白质微量鉴定和他们的翻译后修饰分析,双相凝胶电泳分离蛋白质谱的应用引起蛋白质生化和功能分析方法的复兴;(2)/差异显示0蛋白质组学及其在医学研究中的应用;(3)应用质谱技术或酵母双杂交方法研究蛋白质与蛋白质的相互作用,蛋白质组学将能提供一个蛋白质相互作用的数据库。由于蛋白质比基因更靠近功能一步,所以,对它的研究可更直接导致生物学的新发现。随着后基因组时代的到来,蛋白质组学的深入研究将带来巨大的经济和社会效益。

现有的蛋白质研究方法。如双向电泳等电聚焦(2-D),色谱分析,质谱分析等,都需要特殊设备且价

7

第1期孙敏等:生物信息学研究进展

格昂贵;体外翻译表达系统可研究蛋白质的加工,释放和亚细胞定位,但操作烦琐,而生物信息学为我们提供了一条可以直接由基因或蛋白质序列进行蛋白质功能预测和结构分析的捷径[13]。生物信息学在蛋白质组学方面的研究主要在于以下两个方面:

2.2.1蛋白质的结构与功能的研究现有的研究结果表明,蛋白质的结构与功能有着密切的关系,尤其是蛋白质的三维结构。通过研究蛋白质三维结构可以预测其特定的功能。现在,虽有些试验方法可用来研究蛋白质分子的结构,如X射线晶体衍射结构分析,多维核磁共振波谱分析和电子显微镜二维晶体三维重构等物理方法获得蛋白质的三维结构[15],但是不能对所有的蛋白质分子结构进行分析。因此,另一种方法是通过计算机辅助预测[16]。Eillen T K和Thom as EF建立了一套可视化和相互作用分析的工具,可以将序列、结构与功能分析等方法联系起来,这样可以克服同源建模、折叠识别、threading以及聚类分析法等方法的不足[17]。生物信息学在蛋白质结构研究中的应用主要有:(1)靶点的选择,(2)同源性模拟,(3)基于结构基础上的功能的研究等[18]。

2.2.2蛋白质分子相互作用及其作用途径的研究检测蛋白质分子间相互作用的方法,一是通过实验。另一种是通过计算机法,如启动子分析技术[19]。该技术的理论基础是,共调节基因的产物通常处于同一代谢通路中,而且,共表达意味着拥有共同的启动子或增强子。通过已知基因的作用途径来预测其相关基因的作用途径。但是,由于目前没法获得足够的参考数据,所以,对预测蛋白质分子间的相互作用及其作用途径的方法还很难进行评估。试验方法获得的有关蛋白质间的作用的数据主要来自于酵母双杂交实验,用这种方法得到的有关蛋白质间相互作用的方式只是结构域间的作用,并不代表完整蛋白分子间的作用方式,且作用的时间和地点也都发生了改变。因此,通过计算机技术模拟生物大分子的相互作用不妨是一条比较理想的研究途径。

3生物信息学的应用范围

生物信息学的应用范围很广。大体包括生物科学,临床医药,工、农业等方面的应用。

3.1生物科学方面的应用

生物信息学在生物科学方面的应用最为广泛。如基因变异和表达的分析,基因和蛋白质结构与功能的分析和预测,基因调空网络的预测和鉴定,细胞环境的模拟等等。3.2医学、药物学方面

3.2.1临床医学方面生物信息学在现代医学方面也起了相当重要的作用。如通过对一些临床资料的收集,整理,分析等,可对某些疾病的病因(如是否由遗传因素引起),治疗效果,及用药等方面进行分析和估计。通过对基因表达数据的分析还可以对疾病存活率,高风险人群等问题进行估计。

3.2.2药物产业方面研究结果表明,很多人类疾病都与遗传因素有关。即使是某些最普遍的疾病,如流感等,都在一定程度上与遗传因素有关。有些人对某类疾病具有易感性。比如,黄种人比白种人易感染乙肝。随着生物科学和医学的进一步发展,人们对健康的认识水平也不断提高。由此带来了对药物产业的重视,从而推动了药物产业的发展。许多药物公司和科研单位都积极投入到药物的开发与设计中来。传统的药物产业开始充分利用各种有效手段寻找新药,改变传统的寻找新药的途径,即除了利用生物学和化学手段外,还充分利用现有的生物信息学技术来寻找,合成新药。生物信息学在药物产业上的应用有:药物靶点的筛选与鉴别,新药设计等方面[20]。

3.3工、农业方面

随着生物科学的快速发展,生物科学也日渐渗透到工、农业中来。基因工程药物、疫苗、转基因动植物产品相继问世。当然这其中少不了生物信息学的帮助。我国的科学家们也充分利用我国的资源优势,大力发展我国的工、农业产业。比如在农业方面:积极开展重要农作物功能基因组的研究,建立规模化,成熟,高效的植物遗传转化再生体系,保证转基因植物大量群体的获得,从而有利于转基因性状与其他农用性状的组合筛选,并对现有一些物种进行遗传资源改良[21]。

4生物信息学的发展趋势

近两年来的生物信息学研究论文统计结果分析表明,在后基因组时代,生物信息学的主要研究内容已经从对DNA和蛋白质序列进行比较,编码区分析,分子进化转移到大规模的数据整合,可视化,转移到比较基因组学,代谢网络分析,基因表达谱网络分析,蛋白质组技术数据分析处理,蛋白质结构与功能分析以及药物靶点筛选等,分别与功能基因组,蛋白质组,结构基因组等研究领域互相配合,紧密相关,成为目前极其热门的系统生物学研究的重要的基石。其发展趋势主要表现在以下几方面[22]:

8家畜生态学报第27卷

4.1注释人类基因组

随着人类基因组计划的完成,人类基因组序列精细图现已完成,但这并不等于人类已读懂了其中蕴涵的所有生物学信息。人类基因组由编码序列和非编码序列组成。但编码序列只占整个基因组的3-5%。人类所含有的结构基因只有3.5万左右。这些基因的功能我们并不都是很清楚,更不用说基因组中的大量的重复序列的功能。今后分子生物学的研究重点在于鉴定和注释由基因选择性剪接而产生的基因产物。目前,用于基因组注释的方法有,计算机预测法、比较基因组学和比较蛋白质组学法、基因表达分析法。蛋白质结构比较对于基因注释的作用已日渐得到人们的重视。

4.2比较基因组学和比较蛋白质组学的研究

通过不同生物的基因组和蛋白质组的比较研究,可以为新基因的发现,生物进化等问题提供契机。而生命活动的直接执行者-蛋白质对于整个生命活动最为重要。故关于蛋白质组的研究将是未来生物科学和生物信息学研究的重点之一。

4.3基因表达分析

生物信息学未来的发展方向之一,就是关于基因芯片的研究。这种基因表达分析对于靶基因的鉴定和新药的发现尤为重要[23]。基因芯片的应用已产生或将产生大量的生物分子信息。生物信息学在生物芯片的研究与应用过程中都起着非常重要的作用。从确定生物芯片检测对象到芯片设计,从芯片结果分析到试验数据管理和信息挖掘,无不需要生物信息学的支持和帮助[24]。现在生物芯片研究面临的一大挑战就是:尽可能地降低信噪比和减少假阳性,获取可信的数据[25]。

4.4药物学方面的研究

生物信息学在药物学方面的应用主要有:药物筛选,新药设计和发现等方面。

5生物信息学发展面临的困难

生物学和医学等科学的发展需要对大量的不同来源的数据进行整合、归类,并从中获取有用的生物信息,因此,生物信息学发展的瓶颈不在于硬件而在于软件。这对生物信息学提出了严峻的挑战,这些挑战主要在于:生物信息学的基础设施:算法问题;数据模型和预测分析模型的构建[26]。

5.1生物信息学的基础:算法问题

生物信息学的基础挑战不仅在于数据的存储上,还在于对海量数据的处理能力上。生物信息学研究的瓶颈问题不在于硬件,而在于运算法则。未来所有的生物医学研究都将融合计算和试验。新的计算能力将促进假设的产生,并激励试验方法的发展来验证这些假设。试验产生的数据回过头来又将用来产生新的精致的模式来提高我们的全面理解并增强它在疾病中的应用的机会。高通量的计算机方法(运算法则,数据管理,分析软件,数据库等)用于分析海量的数据,还有蛋白质结构的预测,机体重构等方面,都需要有好的算法[26]。

5.2数据模型和预测分析模型的构建

在构建分子生物模型方面,生物学家们已进行了多年的研究工作。随着更多的自动化技术运用于生物学发现方面,对用于存储和处理结果的模型的要求也越来越严格。这需要构建更为合理有效的数据模型。此外,数据库的检测,或是从大量的数据库中自动的获取有用的信息,在生物信息学中相当重要,且用于假设的产生。需要建立更为准确有效的预测分析模型。现有的生物信息学技术使得从大量的数据库中产生各种假设并用于指导实验或用实验来验证这些假设成为可能。

6结束语

生物信息学是一门崭新的交叉学科,目前正处于不断发展和完善过程中。曾经有些人对生物信息学有过一些错误的看法。如认为生物信息学人人都可以做,而且不需要多少成本,不需要做任何试验等等[27]。而另有些人则将生物信息学的作用神圣化,认为有了它就什么也不怕了。其实,它并不可能完全代替试验操作。生物信息学研究所作出的分析和预测是建立在已经获得的分子生物学知识基础之上,是对既往理论知识的充分而有效的运用并作合理推论,因此可能存在差错,仍需要进一步的实验室工作验证和补充。

参考文献:

[1]陈力学.生物信息学在基因组研究中的应用[J].国外医学临

床生物化学与检验学分册,2003,24(6):339-340.

[2]陈颖健.生物信息学[J].国外科技动态,2002.10(总399

期):39-41.

[3]郑国清.生物信息学的形成与发展[J].河南农业科学,2002,

11:4-7.

[4]郑国清.生物信息学的研究进展与展望[J].河南农业科学,

2003,1:4-8.

[5]鲁卫平.生物信息学的现状和展望[J].国外医学临床生物化

学与检验学分册,2002(5):254-274.

[6]Naftali K.Bioinfor matics:A u ser.s Pers pective[J].Amer-i

can jou rnal of respiratory cell and molecular biology,2000,

23:705-711.

9

第1期孙敏等:生物信息学研究进展

[7]W lliam R.Pearson.T rain ing for b ioinform atics and com pu-

tation al biology[J].Bioinformatics,2001,17(9):761-762.

[8]段民孝.基因组学研究概述[J].北京农业科学,2001,2:6-

10.

[9]解涛,梁卫平,丁达夫.后基因组时代的基因组功能注释

[J].生物化学与生物物理进展,2000,(2):166-170.

[10]李伟,印莉萍.基因组学相关概念及其研究进展[J].生物

学通报,2000,35(11):1-3.

[11]钱小红,贺福初.功能基因组与蛋白质组[M].北京:科学出

版社,2003:1-23.

[12]贺光.物信息学在蛋白质研究中的应用[J].国外医学遗传

学分册,2002,25(3):156-158.

[13]骆奸新,郑崛村.人类基因组计划与后基因组时代[J].中国

生物工程杂志,2003,23(11):87-94.

[14]邹清华,张建中.蛋白质组学的相关技术及应用[J].生物技

术通讯,2003,14(3):210-213.

[15]王剑利.利用生物信息学技术研究蛋白质功能的几种方法

[J].国外医学分子生物学分册,2001,23(4):55-256. [16]Burk har d R,et al.Bioinformatics in stru ctural genomics.

Bioinformatics,2002,18(7):897-898.

[17]E illen T K,T homas E F.M olecules to map s:tools for visual-

ization and in teraction in s upport of computational biology

[J].Bioinform atics,1998,14(9):764-771.

[18]Andrew L.Bioinformatics in the pharmaceu tical industry[J].

Bioinformatics,1996,T IBT CH(14):308-312.

[19]Eric J.Current trends in b ioin formatics[J].T RENDS in Bio-

tech nology,2002,20(8):317-319.

[20]刘玉庆,王禄山.生物信息学及其在农业上的应用前景[J].

山东农业科学,2001,5:51-54.

[21]赵爱民.生物信息技术发展态势分析[J]。中国生物工程杂

志,2003,23(5):101-101.108.

[22]Eric J.Cu rrent trends in bioinformatics[J].T rends in Bio-

tech nology,2002,20(8):317-19.

[23]孙啸.生物信息学在基因芯片中的应用[J].生物物理学

报,2001,17(1):27-33.

[24]T homas DW.Bioinform atics in the post_genomic era[J].

T rends in Biotech nology,2001,19(12):479-480.

[25]Atu l J,Butte.Challen ges in bioin formatics:infras tructure,

models and analytics[J].Trends in Biotechnology,2001,19

(5):159-160.

[26]M inoru K.Grand challenges in bioin formatics[J].Bioinfor-

matics,1998,14(4):309.

[27]C hristos O.T wo or three myths about bioinformatics[J].

Bioinformatics,2000,16(3)::187-189.

The Progress of Bioinformatics Research

SUN M in1,2,M A Yue-hui1*,YE Shao-hui

(1.I nstitute of A nimal S ciences,Ch inese A cad emy of A gr ic ultur al S cience,Beij ing10094;

2.Colleg e of Animal S cience s and T ech nology,Yu nnan A gr icultur al Unive rsity,K unming650201)

Abstract:As a r esult of rapid dev elo pment on computer science and biolog y,bioinfor matics co me into being and beco me an independent discipline gradually。It will becom e one of the m ost important fields of life science in the21th century.T his paper review ed briefly its produce,prog ress,application and future d-i rection and so on.

Key words:Bio informatics;g enom ics;Proteo mics;alg orithms;data;predicted and analytic m odels 10家畜生态学报第27卷

生物信息学作业

生物信息学试题 1、构建分子系统树得主要方法有哪些?并简要说明构建分子进化树 得一般步骤。(20分) 答:(1)构建进化树得方法包括两种:一类就是序列类似性比较,主要就是基于氨基酸相对突变率矩阵(常用PAM250)计算不同序列差异性积分作为它们得差异性量度(序列进化树);另一类在难以通过序列比较构建序列进化树得情况下,通过蛋白质结构比较包括刚体结构叠合与多结构特征比较等方法建立结构进化树 (2)序列比对——选取所需序列——软件绘制 具体如下: a测序获取序列或者在NCBI上搜索所需得目得序列 b在NCBI上做blast:比对相似度较高得基因,并以fast格式下载,整合在*txt文档中。 c比对序列,比对序列转化成*meg格式 d打开保存得*meg格式文件,构建系统进化树 2、氨基酸序列打分矩阵PAM与BLOSUM中序号有什么意义?它们各自 得规律就是什么?(10分) (1)PAM矩阵:基于进化得点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个PAM就就是一个进化得变异单位, 即1%得氨基酸改变。 BLOSUM矩阵:首先寻找氨基酸模式,即有意义得一段氨基酸片断,分别比较相同得氨基酸模式之间氨基酸得保守性(某种氨基酸对另一种氨基酸得取代数据),然后,以所有60%保守性得氨基酸模式之间得比较数据为根据,产生BLOSUM60;以所有80%保守性得氨基酸模式之间得比较数据为根据,产生BLOSUM80。

(2)PAM用于家族内成员相比,然后把所有家族中对某种氨基酸得比较结果加与在一起,产生“取代”数据(PAM-1 );PAM-1自乘n次,得PAM-n。 PAM-n中,n 越小,表示氨基酸变异得可能性越小;相似得序列之间比较应该选用n值小得矩阵,不太相似得序列之间比较应该选用n值大得矩阵。PAM-250用于约 20%相同序列之间得比较。 BLOSUM-n中,n越小,表示氨基酸相似得可能性越小;相似得序列之间比较应该选用 n 值大得矩阵,不太相似得序列之间比较应该选用n值小得矩阵。BLOSUM-62用来比较62%相似度得序列,BLOSUM-80用来比较80%左右得序列。 3、蛋白质三维结构预测得主要方法有哪些?试选择其中得一种方 法,说明蛋白质三维结构预测得一般步骤。(10分) (1) a同源建模(序列相似性低于30%得蛋白质难以得到理想得结构模型 b折叠识别(已知结模板得序列一致率小于25%) c从头预测得方法(无已知结构蛋白质模板)。 (2) 4、您所熟悉得生物信息学软件有哪些?请选择其中得至少一种软 件,结合自己得研究课题,谈谈您所选择软件得基本原理,使用

基因组学与生物信息学教案

《基因组学与生物信息学》教案 授课专业:生物学大类各专业 课程名称:基因组学与生物信息学 主讲教师:夏庆友程道军赵萍徐汉福

课程说明 一、课程名称:基因组学与生物信息学 二、总课时数:36学时(理论27学时实验9学时) 三、先修课程:遗传学、分子生物学、基因工程 四、使用教材: 杨金水. 基因组学. 北京:高等教育出版社,2002. 张成岗. 贺福初, 生物信息学方法与实践. 北京:科学出版社,2002. 五、教学参考书: T.A.布朗著,袁建刚译著,基因组(2rd版),北京:科学出版社,2006. 沈桂芳,丁仁瑞,走向后基因组时代的分子生物学,杭州:浙江教育出版社,2005. 罗静初译,生物信息学概论,北京:北京大学出版社,2002. 六、考核方式:考查 七、教案编写说明: 教案又称课时授课计划,是任课教师的教学实施方案。任课教师应遵循专业教学计划制订的培养目标,以教学大纲为依据,在熟悉教材、了解学生的基础上,结合教学实践经验,提前编写设计好每门课程每个章、节或主题的全部教学活动。教案可以按每堂课(指同一主题连续1~2节课)设计编写。教案编写说明如下: 1、编号:按施教的顺序标明序号。 2、教学课型表示所授课程的类型,请在相应课型栏内选择打“√”。 3、题目:标明章、节或主题。 4、教学内容:是授课的核心。将授课的内容按逻辑层次,有序设计编排,必要时标以“*”、“#”“?” 符号分别表示重点、难点或疑点。 5、教学方式既教学方法,如讲授、讨论、示教、指导等。教学手段指教科书、板书、多媒体、模型、 标本、挂图、音像等教学工具。 6、讨论、思考题和作业:提出若干问题以供讨论,或作为课后复习时思考,亦可要求学生作为作业 来完成,以供考核之用。 7、参考书目:列出参考书籍、有关资料。 8、日期的填写系指本堂课授课的时间。

生物信息学期末考试重点

第一讲 生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。 生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。 生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。 生物技术与生物信息学的区别及联系 生物信息学的发展历史 ?人类基因组计划(HGP) ?人类基因组计划由美国科学家于1985年提出,1990年启动。根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。(百度百科) 随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。 :

】 第二讲回顾细胞结构 细胞是所有生命形式结构和功能的基本单位 细胞组成 细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构 细胞质细胞膜与细胞核之间的区域:包含液体流质,夹杂物存储的营养、分泌物、天然色素和细胞器 细胞器细胞内完成特定功能的结构:线粒体、核糖体、高尔基体、溶酶体等 细胞核最大的细胞器 DNA的结构 碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G) 。 核苷酸 核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊 糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对,也就 是A、T、C、G 基因是什么 基因是遗传物质的基本单位 基因就是核苷酸序列。 大部分的基因大约是1000-4000个核苷酸那么长。 基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。 基因在染色体上。

生物信息学作业1实验2

上海师范大学实验报告 实验二 一、实验原理 答:利用Blast全球联网数据库,对输入的序列进行生物信息学分析,给出与输入序列相关性最大的对应的基因信息,比较两者的同源性。 二、操作步骤 答:(1)先打开网址https://www.doczj.com/doc/e97476376.html,/ (2)点击右边的Blast链接,打开Blast数据库,进入Blast界面 (3)在Basic Blast中选择nucleotide blast (4)在对话框中输入核苷酸序列,在choose search set下的Database选项中选择Others (nr etc.) (5)把网页拉到最下方,点击Blast按钮 (6)在Descriptions 栏下找到Max ident 百分率最高的序列名称 (7)再往下拉,找到Alignments项下第一个序列,可以找到输入序列相关信息 (8)点击Accession,即能找到更多输入序列的相关信息。 1. tttcactcca tagttactcc ccaggtga 1.1它属于哪类生物? 答:属于Hepatitis C virus (丙型肝炎病毒) 1.2它属于哪类基因? 答:属于non-structural protein 5B gene 1.3它在该基因的什么位置? 答:它在该基因的第749-776这个位置。 1.4它与你搜索到的序列的同源性(Identities)是多少? 答:同源性100% 2.(1)ccacccactg aaactgcaca gacaaatttg tacataagag 1.1它属于哪类生物? 答:属于Influenza A virus (A/chicken/Iran261/01(H9N2)) hemagglutinin (HA) gene (A型流感病毒,A型伊朗型261鸡流感病毒,H9N2病毒,血细胞凝集素抗原基因为依据) 1.2它属于哪类基因? 答:属于ssRNA negative-strand viruses Orthomyxoviridae (单链RNA,负义链病毒,正粘病毒科) 1.3它在该基因的什么位置? 答:它在该基因的第1-40这个位置 1.4它与你搜索到的序列的同源性(Identities)是多少?

生物信息学课程论文 作业题目 分配表

生物技术12-1 生物技术12-1 学号姓名性 别 签名学号姓名性别签名学号姓名性 别 签名 12114350101陈丽娜女大肠杆菌连接 酶 12114350104黄少敏女人的胰蛋白 酶 12114350105黄晓静女T4噬菌体 DNA聚合酶12114350106纪秀玲女人的肌红蛋白12114350107列泳婵女蛋白酶K序 列 12114350108石彩虹女小鼠P53基 因12114350110周海琪女拟南芥端粒酶 序列 12114350111曹杰濠男淀粉酶12114350113陈永成男G-谷氨酰转 肽酶12114350115方壮杰男乳酸脱氢酶12114350116冯健锋男肝癌铁蛋白12114350118黄静云男牛血清白蛋 白12114350119李树森男18S rDNA 12114350120李涛男ATP合成酶12114350121林秀尧男谷氨酸脱羧 酶12114350123刘国标男CDK4 12114350124罗皓炽男胃蛋白酶12114350125阮永刚男鲨烯合酶基 因12114350126石晓洲男肌动蛋白12114350129王佐正男肥胖基因相 关蛋白 12114350130吴文祯男柑橘果胶酯 酶12114350131吴永鹏男凝血酶原12114350132徐国相男维生素C合 成基因 12114350133叶业林男葡萄糖脱氢 酶

12114350134张维彬男大肠杆菌Β-半 乳糖苷酶 12114350135张伟龙男抗干旱基因12114350136郑晓坤男人血红蛋白 12114350142郑桂捷男磷酸酶的蛋白 质12114350138黄忠海男牛凝乳酶原 基因 12114350139徐少东男岩藻糖苷酶 12114350141王晓敏女木瓜蛋白酶 本班总人数:31 生物技术12-2 生物技术12-2 学号姓名性别签名学号姓名性别签名学号姓名性别签名12114350201黄雪梅女人的胰岛素12114350202李晨晨女热震惊蛋白/ 热击蛋白 1211435020 3 廖垭娣女乙肝病毒 CABYR- binding prot ein 12114350204冉梦梦女腺苷酸环化酶12114350205魏丹璇女DNA ase I 1211435020 6 吴彩凤女纤维素酶 12114350207武亦婷女18 rDNA 12114350208叶国玲女谷胱甘肽1211435020 9 叶锦玉女线粒体基因

最新生物信息学考试复习

——古A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 13. 同源性:两个基因或蛋白质序列具有共同祖先的结论。

生物信息学课程作业

生物信息学作业 1. Align the leghemoglobin protein from soy bean and myoglobin from human with global and local alignment software (ex. needle and water) respectively and interpret the results. ANSWER: (1)Use Needle to Align the two sequence: Aligned_sequences: 2 # 1: CAA38024.1 # 2: NP_001157488.1 # Matrix: EBLOSUM62 # Gap_penalty: 10.0 # Extend_penalty: 0.5 # Length: 203 # Identity: 43/203 (21.2%) # Similarity: 58/203 (28.6%) # Gaps: 90/203 (44.3%) # Score: 30.0 (2)Use Water to Align the two sequence: Aligned_sequences: 2 # 1: CAA38024.1 # 2: NP_001157488.1 # Matrix: EBLOSUM62 # Gap_penalty: 14 # Extend_penalty: 4 # Length: 32 # Identity: 11/32 (34.4%) # Similarity: 15/32 (46.9%) # Gaps: 0/32 ( 0.0%) # Score: 35 两种软件虽然使用同一罚分标准但得分不同。因为Needle程序实现标准pairwise全局比对,而Water则是局部比对。全局比对因为是比对全长序列,所以空位罚分多,得分较局部比对低。

生物信息学的主要研究内容

常用数据库 在DNA序列方面有GenBank、EMBL和等 在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等 在蛋白质和其它生物大分子的结构方面有PDB等 在蛋白质结构分类方面有SCOP和CATH等 生物信息学的主要研究内容 1、序列比对(Alignment) 基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础,非常重要。两个序列的比对有较成熟的动态规划算法,以及在此基础上编写的比对软件包BLAST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。 2、结构比对 基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。 3、蛋白质结构预测,包括2级和3级结构预测,是最重要的课题之一 从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建(Homology)和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。 4、计算机辅助基因识别(仅指蛋白质编码基因)。最重要的课题之一 基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。 5、非编码区分析和DNA语言研究,是最重要的课题之一 在人类基因组中,编码部分进展总序列的3~5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA 序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。 6、分子进化和比较基因组学,是最重要的课题之一 早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。 7、序列重叠群(Contigs)装配 一般来说,根据现行的测序技术,每次反应只能测出500或更多一些碱基对的序列,这就有一个把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。拼接EST数据以发现全长新基因也有类似的问题。已经证明,这是一个NP-完备

生物信息学现状与展望

研究生课程考试卷 学号、姓名: j20112001 苗天锦 年级、专业:2011生物化学与分子生物学 培养层次:硕士 课程名称:生物信息学 授课学时学分: 32学时 2学分 考试成绩: 授课或主讲教师签字:

生物信息学现状与展望 摘要:生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入"后基因组时代",本文对生物信息学的产生背景及其研究现状等方面进行了综述,并展望生物信息学的发展前景。生物信息学的发展在国内、外基本上都处在起步阶段。 关键词:生物信息学;生物信息学背景;发展前景 一、生物信息学概述 1.生物信息学发展历史 随着生物科学技术的迅猛发展,生物信息数据资源的增长呈现爆炸之势,同时计算机运算能力的提高和国际互联网络的发展使得对大规模数据的贮存、处理和传输成为可能,为了快捷方便地对已知生物学信息进行科学的组织、有效的管理和进一步分析利用,一门由生命科学和信息科学等多学科相结合特别是由分子生物学与计算机信息处理技术紧密结合而形成的交叉学科——生物信息学(Bioinformatics)应运而生,并大大推动了相关研究的开展, 被誉为“解读生命天书的慧眼”【1】。 研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在。1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等。与此同时,Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构。1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA 的三维结构(双螺旋)。Kornberg于1956年从大肠杆菌(E.coli)中分离出DNA 聚合酶I(DNA polymerase I),能使4种dNTP连接成DNA。Meselson与Stahl (1958)用实验方法证明了DNA复制是一种半保留复制。Crick于1954年提出了遗传信息传递的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码得到了破译。限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程的技术基础【2】。自1990年美国启动人类基因组计划以来,人与模式生物基因组的测序工作进展极为迅速。迄今已完成了约40多种生物的全基因组测序工作,人基因组约3x109碱基对的测序工作也接近完成。至2000年6月26日,被誉为生命“阿波罗计划”的人类基因组计划终于完成了工作草图,预示着完成人类基因组计划已经指日可待。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。 2.生物信息学研究方向 2.1 序列比对

《生物信息学》上机作业

《生物信息学》上机作业 题目:对人血红蛋白(HBA1)编码基因序列的生物信息分析

目录 引言 .............................................................................................................................................. - 1 -1 正文......................................................................................................................................... - 2 - 1.1 NCBI上对相关核苷酸序列的查找............................................................................ - 2 - 1.2 BLAST运行及其结果.................................................................................................. - 2 - 1.3 BLASTX运行及其结果................................................................................................ - 6 - 2 其他软件的运行及其结果..................................................................................................... - 8 - 2.1 Clustal W运行及其结果 ............................................................................................. - 9 - 2.2 MEGA4.0运行及其结果............................................................................................. - 10 -结论 ............................................................................................................................................ - 10 -

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解 释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计 算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技 术而揭示大量而复杂的生物数据所赋有的生物学奥秘。 2、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于 距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后, 数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方 式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数 据存储的大型数据库系统都在各个方面得到了广泛的应用。 3、表达序列标签从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短 的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。EST 来源于一定环境下一个组织总 mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。 4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白。 ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的 DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个 真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编 码基因的部分或全部的先决条件。 5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列,并进 一步折叠成特定的空间结构前者我们称为蛋白质的一级结构,也叫初级结构或基 本结构。蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理 功能的必要基础。 6、基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别 DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因, 也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。基因识别是基 因组研究的基础。

国内外生物信息学发展状况

国内外生物信息学发展状况 1.国外生物信息发展状况 国外非常重视生物信息学的发展各种专业研究机构和公司如雨后春笋般涌现出来,生物科技公司和制药工业内部的生物 信息学部门的数量也与日俱增。美国早在1988年在国会的支持 下就成立了国家生物技术信息中心(NCBI),其目的是进行计 算分子生物学的基础研究,构建和散布分子生物学数据库;欧 洲于1993年3月就着手建立欧洲生物信息学研究所(EBI), 日本也于1995年4月组建了信息生物学中心(CIB)。目前, 绝大部分的核酸和蛋白质数据库由美国、欧洲和日本的3家数 据库系统产生,他们共同组成了 DDBJ/EMBL/Gen Bank国际核 酸序列数据库,每天交换数据,同步更新。以西欧各国为主的 欧洲分子生物学网络组织(EuropeanMolecular Biology Network, EMB Net)是目前国际最大的分子生物信息研究、开 发和服务机构,通过计算机网络使英、德法、瑞士等国生物信 息资源实现共享。在共享网络资源的同时,他们又分别建有自 己的生物信息学机构、二级或更高级的具有各自特色的专业数 据库以及自己的分析技术,服务于本国生物(医学)研究和开 发,有些服务也开放于全世界。 从专业出版业来看,1970年,出现了《Computer Methods and Programs in Biomedicine》这本期刊;到1985年4月, 就有了第一种生物信息学专业期刊《Computer Application

in the Biosciences》。现在,我们可以看到的专业期刊已经很多了。 2 国内生物信息学发展状况 我国生物信息学研究近年来发展较快,相继成立了北京大学生物信息学中心、华大基因组信息学研究中心、中国科学院上海生命科学院生物信息中心,部分高校已经或准备开设生物信息学专业。2002年国家自然科学基金委在生物化学、生物物理学与生物医学工程学学科设立了生物信息学项目,并列入生命科学部优先资助的研究项目。国家 863计划特别设立了生物信息技术主题,从国家需求的层面上推动我国生物信息技术的大力发展[3]。 但是由于起步较晚及诸多原因,我国的生物信息学发展水平远远落后于国外。在PubMed收录的以关键词“Bioinformatics”检索到的历年发表的文章数,可以看出大量的研究文献出现在21世纪以后。其中我国共有138篇占全部5548篇的2.5%,而美国则发表2160篇占全部的39%之多(统计数据截至2004年2月15日)。我国学者在生物信息学领域发表的有高影响力的论文只有不到美国学者发表数量的6%,差距相当大[4]。在生物信息学领域,一些著名院士和教授在各自领域取得了一定成绩,显露出蓬勃发展的势头,有的在国际上还占有一席之地。如北京大学的罗静初和顾孝诚教授在生物信息学网站建设方面、中科院生物物理所的陈润生研究员在EST

生物信息学作业

CDK2基因和蛋白质序列的生物信息学分析 姓名: 学号: 专业: 1前言 细胞周期蛋白依赖激酶2(cyclin-dependent kinase 2,CDK2),又名细胞分裂激酶2(cell division kinase 2)或p33蛋白激酶(p33 protein kinase),其基因定位于人类基因组的12号染色体上的q13染色带上。CDK2基因全长6013bp,这部分中有7个外显子和6个内含子,7个外显子的长度依次为353bp、78bp、121bp、171bp、102bp、204bp、1264bp(可依次记为外显子1-7)。在翻译过程中,该基因转录成的mRNA的外显子1的前137bp和外显子7的后1159bp不进行翻译,属于调控序列。mRNA上只有中间的部分编码蛋白质。 CDK2基因可以转录为两种mRNA。其中,变体1长度为2325bp,编码298个氨基酸;变体2长度为2223bp,编码264个氨基酸。这两种蛋白质为CDK2的同型蛋白,功能相同,具有调控细胞分裂的功能,主要在G1期到S期和S期到G2期这两个阶段起作用。CDK2广泛分布在生物体的各种细胞的胞质溶胶和细胞核质中,但只在进行分裂的细胞中行使功能,这是因为CDK2只有与不同的细胞周期蛋白(cyclin)结合后才具有活性。CDK2可以与细胞周期蛋白A、B1、B3、E等结合后,参与细胞周期调控。由于CDK2在细胞内的数量变化有可能导致细胞周期异常而产生癌症,故CDK2基因可以被看作癌基因,其活性和表达量可以作为衡量癌症的指标。CDK2与周期蛋白E的复合体不仅能直接参与中心体复制的起始调控,还能与类Rb蛋白p107或转录因子E2F结合,促进细胞从G1期向S期转化或调控DNA复制有关的基因转录。而CDK2与周期蛋白A的复合体可以增强DNA复制因子RF-A的活性。 在CDK2分子中,被称为T环的氨基酸环阻断了活性部位,妨碍激酶履行它的酶功能,而且活性部位的氨基酸形成一种难于为蛋白质结合的形状。CDK2与周期蛋白结合时,周期蛋白将T环转出2nm以上,又将CDK2中的PSTAIRE螺旋部分转了, 并把活性部位氨基酸变成能与底物蛋白结合的正确构象。CDK2的活性不仅与周期蛋白有关,还与其上的Thr-15、Tyr-15、Thr-160三个位点是否磷酸化有关。一般情况下,与周期蛋白结合的CDK2的上述三个位点被Wee/Mik1和CAK激酶磷酸化,但此时复合体还没有活性,只有当Cdc25c将Thr-15、Tyr-15两个位点去磷酸化后,复合体才有活性。细胞中存在多种因子对CDK2进行修饰调节,此外还存在对其活性起负性调控的蛋白质,即CDK激酶抑制物,例如p21CIP/WAF1、p27KIP2等。 前面提到,CDK2基因转录的产物有两种。这两种mRNA的不同之处在于变体1由全部7个外显子组成,而变体2缺失外显子5,由剩余的6个外显子组成。这样翻译成的两种同型蛋白的长度就相差34个氨基酸。 2 材料和方法: 2.1序列数据来源 采用蛋白质名称对NCBI非冗余蛋白质数据库进行检索,CDK2蛋白的记录有1013个。而采用基因名称对NCBI非冗余核酸数据库进行检索,CDK2蛋白的记录有680个。 采用人(Homo sapiens)的CDK2蛋白序列进行BLAST搜索。 2.2序列分析方法

生物信息学试题复习参考(张弓)

2014-2015学年生物信息学期末考试题 写在前面:这是我考试时候写的答案的大致内容,具体文字我已经不记得了,给大家一个参考,希望对大家复习有帮助。因为我也是扣了很多分,所以答案也有很多错的,大家不要尽信。祝大家考试顺利。 一、实验设计和基础分析 以下qPT-PCR实验方案有哪些错误?请标出错误,并说明原因和写出正确方案。 目的:比较肺癌细胞迁移前后的X基因转录水平表达量 方法:(1)用Trizol法提取细胞总RNA,并用跑胶、OD260/280等方法确认无降解。 (2)用poly-dT引物进行反转录 (3)设计基因特异性PCR引物,用qPCR仪测定X基因和GAPDH基因的Ct值。GAPDH作为内参。 (4)以2^-ΔΔCt方法计算X基因相对于GAPDH的相对含量 (5)比较迁移前后的相对表达量,做三个重复,用t-test进行统计检验,P<0.05为差异显著 1.错误:不能用GAPDH基因作为定量标准;原因:癌症迁移前后GAPDH基因的表达量已经改变了,做定量标准不准确;方案:采用外参(如:其他物种的基因) 2.错误:不能用t-test进行统计检验;原因:t-test进行统计检验的前提是数据呈正态分布,基因表达量不一定呈正太分布;方案:将数据取log10,对数化。 上述两个是我考试时候写的答案,后来经提醒:还发现了一个错误:不能用poly-dT引物进行反转录;原因:。。。。。。;方案:用Oligodt进行逆转录。 二、双序列比对的生物学意义解释 两种细菌的同源蛋白质endonuclease III,长度都为200氨基酸左右,其功能相同,蛋白质序列使用BLAST 可以比对上,同源性高达57%,但其编码DNA序列用BLAST却无法比对上,为了尽可能提高亲缘关系较远的序列的比对效率,比对已经使用BLAST网站上Somewhat similar sequence选项,默认参数(见下图):

浅谈生物信息学在生物方面的应用

浅谈生物信息学在生物方面的应用 生物信息学(bioinformaLics)是以核酸和蛋白质等生物大分子数据库及其相关的图书、文献、资料为主要对象,以数学、信息学、计算机科学为主要手段,对浩如烟海的原始数据和原始资料进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析,从中获得基因的编码、凋控、遗传、突变等知识;研究核酸和蛋白质等生物大分子的结构、功能及其相互关系;研究它们在生物体内的物质代谢、能量转移、信息传导等生命活动中的作用机制。 从生物信息学研究的具体内容上看,生物信息学可以用于序列分类、相似性搜索、DNA 序列编码区识别、分子结构与功能预测、进化过程的构建等方面的计算工具已成为变态反应研究工作的重要组成部分。针对核酸序列的分析就是在核酸序列中寻找过敏原基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。针对蛋白质序列的分析,可以预测出蛋白质的许多物理特性,包括等电点分子量、酶切特性、疏水性、电荷分布等以及蛋白质二级结构预测,三维结构预测等。 生物信息学中的主要方法有:序列比对,结构比对,蛋白质结构的预测,构造分子进化树,聚类等。基因芯片是基因表达谱数据的重要来源。目前生物信息学在基因芯片中的应用主要体现在三个方面。 1、确定芯片检测目标。利用生物信息学方法,查询生物分子信息数据库,取得相应的序列数据,通过序列比对,找出特征序列,作为芯片设计的参照序列。 2、芯片设计。主要包括两个方面,即探针的设计和探针在芯片上的布局,必须根据具体的芯片功能、芯片制备技术采用不同的设计方法。 3、实验数据管理与分析。对基因芯片杂交图像处理,给出实验结果,并运用生物信息学方法对实验进行可靠性分析,得到基因序列变异结果或基因表达分析结果。尽可能将实验结果及分析结果存放在数据库中,将基因芯片数据与公共数据库进行链接,利用数据挖掘方法,揭示各种数据之间的关系。 生物信息学在人类基因组计划中也具有重要的作用。 大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。目前,从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙,到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。特别是拼接和填补序列间隙更需要把实验设计和信息分析时刻联系在一起.拼接与组装中的难点是处理重复序列,这在含有约30%重复序列的人类基因组中显得尤其突出。 人类基因组的工作草图即将完成,因此发现新基因就成了当务之急。使用基因组信息学的方法通过超大规模计算是发现新基因的重要手段,可以说大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组(约1300万bp)所包含6千多个基因,大约60%是通过信息分析得到的。 当人类基因找到之后,自然要解决的问题是:不同人种间基因有什么差别;正常人和病人基因又有什么差别。”这就是通常所说的SNPs(单核苷酸多态性)。构建SNPs及其相关数据库是基因组研究走向应用的重要步骤。1998年国际已开展了以EST为主发现新Spps 的研究。在我国开展中华民族SNPs研究也是至重要的。总之,生物信息学不仅将赋予人们各种基础研究的重要成果,也会带来巨大的经济效益和社会效益。在未来的几年中DNA 序列数据将以意想不到的速度增长,这更离不开利用生物信息学进行各类数据的分析和解释,研制有效利用和管理数据新工具。生物信息学在功能基因组学同样具有重要的应用目前应用最多的是同源序列比较、模式识别以及蛋白结构预测。所谓同源序列,是指从某一共同祖先经趋异进化而形成的不同序列。利用数据库搜索找出未知核酸或蛋白的同源序列,是序列分析的基础[lol。如利用BLASTn和BLASTx两种软件分别进行核苷酸和氨基

中国科学院大学生物信息学期末考试资料,陈润生老师

生物信息学期末考试复习 1.生物学中的7个数学故事 (1) 孟德尔遗传定律(分离和自由组合定律)运用了组、合原理中的加法原理和乘法原理。 (2) Hardy-Weinberg遗传平衡定律通过构造数学关系式来证明。 (3)基因在染色体上的线性排列采用概率分布优化距离的计算距离,使其更接近真实情况。 (4)关联分析通过假设检验看两个特征的关联有无统计显著性。 (5) 序列比对设计合适的算法可以有效降低计算复杂度。 (6)基因组学和其他的组学组学时代产生的大量数据需要依赖数据库技术来寻找生物分子之间的关联。 (7)微阵列芯片大规模芯片数据需要数据挖掘:聚类、关联、预测建模、异常检测。 2. DNA、protein、RNA序列比对及其算法 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。常用的方法有:点阵法,动态规划算法,k-tup 算法等。 (1)dotplot算法:通过点阵作图的方法表示,能很直观地氨基酸序列或核苷酸序列上的插入、删除、重复和反相重复。 算法步骤:将两条序列的碱基(或残基)分别沿x轴和y轴排列,依次比较两条序列的每个碱基(或残基),如果两个碱基(或残基)相同则在矩阵中填充点,这样就形成一个点矩阵。在点矩阵中,将对角线上的点连接起来,这些直线所对应的矩形区域就是这两条序列的相似性片段。 算法特点:该算法相似性片段实际上是相同的片段;而且不能提供相似性片段在统计学意义上的相似性。 (2)动态规划算法:分为全局动态规划算法和局部动态规划算法。保证了指定打分模型的情况下,两条序列能获得尽可能的最高分 算法步骤:①初始化序列矩阵;②将序列输入矩阵,计算分数并绘制箭头;③用箭头回溯找到最优得分路径;④连接最优路径,产生序列比对。 动态规划算法优缺点: 优点:对于一个给定的计分函数集合,能找到最优的比对 缺点:时间复杂度为O(n 2),运行慢,计算所需的内存与序列长度的平方成正比,因此不适用于非常长序列的比对。 序列比对的定义,存在哪几种算法,打分矩阵是什么意思 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列; 算法种类:动态规划算法、Smith-Waterman Alterations算法、FASTA - Hi Level Algorithm 算法、BLAST – Heuristic算法; 打分矩阵:通过点矩阵对序列比对进行积分,根据不同物质情况可分为DNA序列打分矩阵:等价矩阵、转换-颠换矩阵、blast矩阵;蛋白质打分矩阵:等价矩阵、遗传密码矩阵、疏水性矩阵、PAM矩阵、BLOSUM矩阵。 1.动态规划算法,给个表格可以把数字填出:

生物信息学作业题

生物信息学作业题 绪论 1.什么是生物信息学? 2.生物信息学有哪些主要研究领域? 第一章生物信息学的分子生物学基础 1.DNA的双螺旋结构要点是什么? 2.什么是基因组和蛋白质组?对它们的研究有何意义? 第二章生物信息学的计算机基础 1.简述网络操作系统的类型。 第三章核酸序列分析 1.什么是全局比对? 2.什么是局部比对?有哪些优点? 第四章分子进化分析 1.分子进化分析具有哪些优点? 2. 简述分子进化的中性学说。 第五章基因组分析 1. 什么是基因组学?其主要研究内容是什么? 2.简述基因预测分析的一般步骤。 第六章蛋白质组分析 1. 蛋白质组学的概念和主要研究的大致方向是什么? 2. 蛋白质组功能预测的程序是怎样的? 第七章生物芯片数据分析 1. 什么是生物芯片? 2. 生物芯片有哪些方面的应用? 第八章核酸与蛋白质结构预测 1. RNA二级结构典型的预测方法有哪些? 2. 基于统计学的预测蛋白质二级结构的方法有哪些? 第九章生物信息学平台与工具软件 1. 请利用Clustal X软件对下列6条蛋白质序列进行多重比对(比对结果用BioEdit软件打开,用“截图”方式显示比对结果)。 >1 mqngkvkwfn sekgfgfiev eggedvfvhf saiqgegfkt leegqevtfe veqgnrgpqatnvnkk >2 mqgkvkwfnn ekgfgfieie gaddvfvhfs aiqgegykal eegqevsfdi tegnrgpqaanvvkl >3

mqngkvkwfn sekgfgfiev eggedvfvhf saiqgegfkt leegqevtfe veqgnrgpqatnvnkk >4 mqgkvkwfnn ekgfgfieie gaddvfvhfs aiqgegykal eegqevsfdi tegnrgpqaanvvkl >5 mqngkvkwfn sekgfgfiev eggedvfvhf saiqgegfkt leegqevtfe veqgnrgpqatnvnkk >6 mqgkvkwfnn ekgfgfieie gaddvfvhfs aiqgegykal eegqevsfdi tegnrgpqaanvvkl 2. 现有一ZmPti1b蛋白质序列,请用DNAMAN软件分析其二级结构,给出分析结果。 1 MSCFACCGDE DTQVPDTRAQ YPGHHPARAD AYRPSDQPPK GPQPVKMQPI AVPAIPVDEI 61 REVTKGFGDE ALIGEGSFGR VYLGVLRNGR SAAVKKLDSN KQPDQEFLAQ VSMVSRLKHE 121 NVVELLGYCA DGTLRVLAYE FATMGSLHDM LRGRKGVKGA QPGPVLSWSQ RVKIAVGAAK 181 GLEYLHEKAQ PHIIHRDIKS SNVLLFDDDV AKIADFDLSN QAPDMAARLH STRVLGTFGY 241 HAPEYAMTGQ LSSKSDVYSF GVVLLELLTG RKPVDHTLPR GQQSLVTWAT PRLSEDKVRQ 301 CVDSRLGGDY PPKAVAKFAA VAALCVQYEA DFRPNMSIVV KALQPLLNAH ARATNPGDHA 361 GS

相关主题
文本预览
相关文档 最新文档