当前位置：文档之家› 生物信息学专业培养方案

生物信息学专业培养方案

（四年制）

一、培养目标

生物信息学专业培养具备生命科学和医学基础知识，掌握与生物信息学相关的信息科学、计算机科学、数学和生物技术等基本理论知识和技能，具有较强的知识更新能力和创新能力，能够在生物信息学及相关领域从事科学研究、技术开发、服务、管理和教育等工作，具有较强实践能力的高素质专业人才。

二、培养要求

培养要求包括某专业学生应具备从事某专业工作的良好思想道德和职业态度，应掌握的基础理论、基本知识和基本技能。具体内容：

（一）思想道德素质：热爱祖国，拥护中国共产党领导，为社会主义建设服务；努力学习马克思主义理论；有为国家富强和民族昌盛而奋斗的志向和责任感；具有敬业精神和职业道德；遵纪守法、诚信做人，具有良好的社会公德。

（二）文化素质：掌握一定的人文社科基础知识，具有良好的人文修养；有较好的语言、文字表达能力；了解中国传统文化，对中外历史有一定的了解；具有中华文化传统的道德品质，自觉传承和弘扬民族精神。

（三）专业素质：具有扎实的自然科学基础知识、生物医学基础知识和生物信息理论基础及技能，掌握分析和解决问题的方法，具有严谨的科学态度和创新意识；在生物信息技术研究和开发领域具有较高的综合分析能力；有了解自然科学的重要发现和主要进展的能力。（四）身心素质：具有健康的体魄、良好的心理素质、健全的人格、良好的环境适应能力。（五）能力要求：具有较强的学习能力、实践能力、创新能力、语言文字表达能力、交流合作能力。

（六）专业要求:

生物信息学专业教育体系分为：通识教育、生物医学基础教育、理工基础教育、专业教育和综合教育。

1.通识教育：人文社会科学、自然科学、外语、计算机文化基础、体育、实践训练等。

2.生物医学基础教育：普通生物学、生理学、系统解剖学、生物化学等。

3.理工基础教育：有机化学、生物化学、程序设计与语言、Linux系统概论、计算机程序设

计综合实验等。

4.专业教育

（1）专业基础课程：细胞生物学、分子生物学、分子模拟计算、模式识别、生物物理等（2）专业课程：生物信息学、系统生物学、生物计算算法与实践、分子模拟计算、生物芯片与数据分析、基因组学、基因工程、细胞工程等。

（3）集中专业实践训练：以实践能力训练和创新训练为中心，培养学生的实践能力，创新思维和创新方法，专业研究方法，包括：生物信息学课程设计、生物技术课程设计。（4）毕业设计（论文）

5.综合教育：包括思想教育，学术与科技活动，体育与文艺活动等。

三、主干学科

生物信息学

四、专业核心课程

专业基础课程专业课程

有机化学细胞生物学计算机辅助药物分子设计

生物化学分子生物学基因组学程序设计与C语言生物信息学基因工程计算机程序设计综合实验系统生物学细胞工程

模式识别概论Linux系统概论生物芯片数据分析

生物计算算法与实践生物技术课程设计

分子模拟计算生物信息学课程设计

五、特色课程

课程名称课程特色

生物信息学整合课程

系统生物学整合课程

生物计算算法与实践整合课程

分子模拟计算整合课程

计算机辅助药物分子设计整合课程

生物芯片数据分析整合课程

生物技术课程设计设计性实验课程

生物信息学课程设计设计性实验课程

六、学制与最低毕业学分

学制：四年

完成学业最低课内学分要求： 178

完成学业最低课外学分要求： 4

七、授予学位、学科门类和专业类别

授予学位：理学学士学位

学科门类和专业类别：生物科学类生物信息学八、学分分配

（一）课程体系与学分分布

课程体系课程性质课程类别学分占课程体系总学分比例（％）

通识教育基础课程

必修

思政类16 9

军体类10 5.6

英语类9 4.5

计算机类 5 3

入学教育 1.5 0.8

就业指导 1 0.5

大学生心理健

康教育

2 1.1 任（限）选修公共选修课8.5 2.5 合计5

3 26.4

公共基础学科课程

必修公共基础课程26.5 14.8 任（限）选修拓展课程 4 2.2 合计30.5 17

专业课程

专业基础课程

必修核心课程25.5 14.3

任（限）选修拓展课程21.5 12 专业课程

必修核心课程18.5 10

任（限）选修拓展课程23 12.9 合计88.5 54.7 必修课程总学分：115

选修课程总学分：45

必修课程学分与选修课程学分比例：2.7:1

（二）实践教学环节学分

实践教学环节名称

课程性质学分占实践教学环节学分

比例（％）合计学分占总学分的

比例（%）

军事训练必修 2 3.5% 32

基础实验教学必修 18.5 32.5% 专业实验教学必修 14.5 25.5% 毕业论文必修 18 31.5 % 创新学分选修 4 7 % 合计

100 %

九、课程设置与学分

（一）通识课程学分：49.5 1．必修课程学分：41 思政类学分：16 课程名称

学时学分修读学期

思想道德修养与法律基础 54 3 1 中国近代史纲要

36 2 2 毛泽东思想和中国特色社会主义理论体系概论(1) 54

马克思主义基本原理 54 3 3 毛泽东思想和中国特色社会主义理论体系概论(2) 54

形势与政策 36 2 7

军体类学分：10

课程名称学时学分修读学期体育 144 8 1-4 军事理论 36 2 1 英语类学分：9

课程名称学时学分修读学期英语课程 144 8 1-4 大学生英语能力综合测试 1 4

计算机类学分：5

课程名称学时学分修读学期

计算机文化基础 36 2 1

程序设计与C语言 54 3 1

2.通识选修课最低4学分

文史经典与文化传承类、创新思维与科学素养设置最低选修学分为2学分，国际视野与文化交流、信息处理与沟通技巧设置最低选修学分为1学分。其余学分学生可自由选择。

各专业在学校总体要求下根据专业特点设置公选课总学分和各模块的最低学分。

课程名称学时学分修读学期

大学生心理健康教育 32 2 1

入学教育与职业规划 24 1.5 1

就业指导 18 1 7

（二）公共基础课程学分：30

必修课程学分：26.5

课程名称学时学分修读学期

基础化学 63 3.5 1

高等数学 162 9 1-2

线性代数 36 2 2

医用物理学 72 4 2

医学有机化学 90 5 2

概率论与数理统计 54 3 4

选修课程学分：4

课程名称课程属性学时学分修读学期

系统解剖学专业限选课 72 4 1

（三）专业课程

1．专业基础课程学分：47.5

必修课程学分：25.5

课程名称学时学分修读学期

普通生物学 54 3 1

计算机程序设计综合实验 18 1 1

生理学 72 4 3

医用生物化学 90 5 3

分子生物学 72 . 4 4

分子生物学实验 54 3 4

细胞生物学 99 5.5 5

选修课程学分：21

课程名称课程属性学时学分修读学期

组织学专业选修课 54 3 3

模式识别概论专业限选课 36 2 3

医学遗传学专业限选课 54 3 4

医学免疫学专业限选课 27 1.5 4

药理学专业限选课 36 2 5

医学微生物学专业限选课 63 3.5 5

生物物理学专业限选课 36 2 4

生物传感技术基础专业选修课 36 2 7

生物材料专业选修课 36 2 7

合计（必选） 14

2．专业课程学分：41.5

必修课程学分：18.5

课程名称学时学分修读学期

分子生物计算 54 3 5

生物信息学 99 5.5 5

基因组学 36 2 6

生物信息学课程设计 36 2 6

系统生物学 72 4 6

生物技术课程设计 36 2 7

选修课程学分：23

课程名称课程属性学时学分修读学期生物医学工程导论专业选修课 18 1 1 Linux系统概论专业限选课 36 2 4

生物力学概论专业选修课 18 1 4

生物医学信号处理概论专业选修课 18 1 5

发酵工程专业选修课 36 2 5

基因工程专业限选课 36 2 6

细胞工程专业限选课 36 2 6

神经康复工程专业选修课 36 2 6

生物分离工程专业选修课 36 2 7

酶工程专业选修课 36 2 7

生物芯片原理及数据分析专业限选课 36 2 7

计算机辅助药物设计专业限选课 36 2 7

分子模拟计算专业限选课 36 2 7

合计（必选） 12

3．实习和毕业论文学分：18

4．创新学分最低学分：4

序号名称要求学分

1 早期接触专业

1 第一学期参加相关专家讲座3-5次，介绍专业概况、特色、市场人才需求情况、专

业发展前景。考核出勤情况、课堂笔记或心得体会。1学分

2学生可从入学开始，根据个人情况，利用课余时间，自愿选择导师，在导师的指导

下开始科研实践。提交研究报告及导师证明。1学分

3 第1~2学年假期参加2周生物信息学相关单位的实践、调研、服务等工作，提交实

践总结及单位证明。1学分

最低完成以上3项中的2项，2学分。

2 科技创新活动视参与科研项目的时间与科研能力（国家级）

创新项目大赛（特等奖或金奖）8

创新项目大赛（一等奖或银奖）7

创新项目大赛（二、三等奖或铜奖、优秀奖） 6 视参与科研项目的时间与科研能力（省市级）

创新项目大赛（特等奖或金奖） 6

创新项目大赛（一等奖或银奖） 5

创新项目大赛（二、三等奖或铜奖、优秀奖） 4 视参与科研项目的时间与科研能力（校级）

创新项目大赛（特等奖或金奖） 4

创新项目大赛（一等奖或银奖） 3

创新项目大赛（二、三等奖或铜奖、优秀奖） 2

3 社会实践活动提交社会调查报告，通过答辩者 1 个人被校团委或团省委评为社会实践活动积极分子者，集体被校团委或团省委评为优秀社

会实践队者

4 学科竞赛省（市）级获一等奖者 3 获二等奖者 2.

5 获三等奖者 2

全国获一等奖者 4 获二等奖者 3.5 获三等奖者 3

5 论文在全国性核心刊物发表综述每篇论文0.5 在全国性核心刊物发表论文每篇论文 1

SCI、EI

每篇论文3分，影响因子3以上者每增

加1个影响因子增加1个学分，最高为6

学分。

2—6

6 学术报告或讲

座

1、参加天津市级学会做口头报告或会议摘要

3学分

2、被推荐为生物医学工程学院学术年会做口

头报告 2学分；被评为优秀的 3学分

参加天津市级学会做口头报告或会议摘

要 3学分

被推荐为生物医学工程学院学术年会做

口头报告 2学分；被评为优秀的 3学分

2—3 注：

1．参加校体育运动会获第一名、第二名者与校级一等奖等同，获第三名至第五名者与校级

二等奖等同，获第六至第八名者与校级三等奖等同。

2．完成最低课外学分之外的课外学分可替代全校通识教育选修课程学分。

3．同一奖项多次获奖，均按最高级别记学分，不重复记载学分。

4．学科竞赛以教务处认定为准。

5．团体获奖第一完成人为总学分1/2，其他成员（前六名）为总学分1/4，学分取0.5的倍

数，最低取0.5学分。

6．论文学分只给第一作者或通讯作者。

十、成绩考核及学位授予

考核成绩的评定采用百分制计分，并按照“天津医科大学学则”规定用绩点评估的

方法确定学生在学习质量上的差异，区别学生总体学习成绩的优劣。

按学分制管理办法，加强学籍管理、严格考核，学生需完成教学计划规定的必修课程和实习

内容，选修课达到规定要求，最低修满课内178学分，其中包括毕业论文18学分，必修课

程115学分，专业限选课程31学分，专业选修课程8学分，公共选修课程6学分。创新学

分4学分，毕业设计与综合测评合格及学士论文全部通过者准予毕业，发给毕业证书；凡符

合《中华人民共和国学位条例暂行实施办法》及《天津医科大学本科毕业生授予学士学位暂

行办法》者，授予工学学士学位。

十一、教学计划表

（一）教学周安排（五年制）（表内文字小五号、宋体）

学年学

期

理论

教学

（周）

考试

（周）

军训

（周）

入学及

就业指导

（周）

专业

见习

（周）

专业

实习

（周）

假期

（周）

机动

（周）

总计

（周）

备注

一1 16 2

2 18 2

二1 18 2

2 18 2

三1 18 2

2 18 2

四1 2

五1 2

合计

（二）教学进程表（见附件）

十二、必要说明

培养方案的教学要求：

德育：思想政治课要坚持理论联系实际。利用寒、暑假期组织多种形式的社会调查和社会实践活动，使学生了解社会，明确自己的社会责任和义务。组织学生进行多种形式的学习交流，专题研讨、论文报告等。要求达到政治合格，信仰坚定，报效祖国，具有无私奉献的精神和艰苦奋斗的作风。

智育：

1．外语：四年中坚持外语教育全年不间断，逐步强化，熟练掌握。要求公共外语达到四级水平。

2．计算机：初步掌握微机系统结构；能够设计单片机系统，掌握计算机C语言和基本算法、Internet和数据库的基本应用，加强在课程设计和毕业论文中的计算机应用。

3．专业：在整体教育计划安排中坚持处理好基础与专业、理论与实践、知识传授与能力培养的关系。在各阶段教学过程中，要十分注重培养具有实践能力和创新能力和高素质的生物医学工程专业人才。

体育：使学生掌握体育科学的基本知识、技能、方法，要求达到国家规定的大学生体育锻炼合格标准，通过军训掌握军事基本理论和基本技术，培养军事作风，树立军事观念。要求达到国家规定的大学生军事训练合格标准。

4. 美育：注重培养学生的人文素养和高尚情操。

5. 实践：

（1）综合实验和课程设计：综合设计性实验将本学科核心课程的理论知识及基本实验内容进行有机的综合，使学生早期接触专业实验，提高运用多种实验设备的能力；提高综合运用理论知识、实验方法、实验技能的能力；提高软硬件相结合的综合应用能力；提高在实验过程中分析对比，解决问题的能力及科学合理解释实验结果的能力。为后续课程设计研究性实验打下了良好的基础。

通过《课程设计》，完成以问题为中心的综合性、设计性实验，重点培养学生运用所学知识分析问题、解决问题的实践能力；增强学生独立动手能力；提高学生创新意识和综合设计能力。

（2）毕业设计及论文：在第8学期第1—18周进行，共18周。在指导教师的指导下，学生按毕业论文的规定达到标准。

（3）劳动：结合生物医学工程特点组织学生进行社会服务，要求学生积极参加公益劳动和医护劳动，培养良好的劳动观念。

生物信息学

1.1简述DNA双螺旋结构模型要点 a.DNA两条链逆平行、围绕同中心轴右手螺旋的双链结构，双螺旋结构的直径为2.0nm，螺距为3.4nm。 b.脱氧核糖和磷酸基团构成亲水性骨架位于双螺旋结构的外侧，疏水碱基位于螺旋内侧。每周约10个碱基。 c.两条链借助彼此之间的的氢键结合在一起。AT配对有两个氢键GC配对有三个氢键。每两个碱基对之间的相对旋转角度为36° d.双螺旋结构的表面形成了一个大沟(major groove)和一个小沟(minor groove)。 1.2 名词解释：DNA的变性与复性；DNA分子杂交 DNA的变性：在某些理化因素作用下，DNA双链解开成两条单链的过程。DNA变性的本质是双链间氢键的断裂。 DNA的复性：当变性条件缓慢地除去后，两条解离的互补链可重新配对，恢复原来的双螺旋结构，这一现象称为DNA复性(renaturation) 。 DNA分子杂交：热变性的DNA在缓慢冷却过程中，具有碱基序列互补的不同DNA之间或DNA与RNA之间形成杂环双链的现象称为核酸分子杂交。 1.3 简述核酸分子杂交技术不同种类的DNA单链分子或RNA分子放在同一溶液中，只要两种单链分子之间存在着一定程度的碱基配对关系，在适宜的条件可以在不同的分子间形成杂化双链(heteroduplex)。这种杂化双链可以在不同的DNA与DNA之间形成，也可以在DNA和RNA分子间或者RNA与RNA 分子间形成。这种现象称为核酸分子杂交 1.4生物体内氨基酸有180多种,组成蛋白质的氨基酸只有（20）种,都是（α-氨基酸）。 1.5 写出氨基酸的结构通式 1.6名词解释：氨基酸的等电点氨基酸的等电点：调节氨基酸溶液PH值,使氨基酸溶液中的氨基和羧基的解离度完全相等,即氨基酸所带静电荷为0,在电场中既不向阴极移动,也不向阳极移动,此时,氨基酸溶液的PH 值称为该氨基酸的等电点,以符号PI表示。 2.1 Sanger通过氨基酸与（2,4-二硝基氟苯(DNFB)）反应测定了胰岛素的序列。 2.2 Edman反应是指用（苯异硫氰酸酯（PITC））与氨基酸的氨基发生反应来测定多肽序列的。 2.3名词解释：肽键与肽平面肽键：氨基酸与氨基酸之间脱水缩合之后形成肽链其中一个氨基酸上的氨基与另一个氨基酸上的羟基脱水缩合后形成的就叫肽键即-CO-NH-. 肽平面：与肽键相关的6个原子共处于一个平面，称为酰胺平面或肽平面。肽键具有一定程度的双键性质，参与肽键的六个原子C、H、O、N、Cα1、Cα2不能自由转动，位于同一平面，此平面就是肽平面，也叫酰胺平面。 2.4详细叙述蛋白质的分子结构。一级结构：组成蛋白质多肽链的线性氨基酸序列。二级结构：依靠不同氨基酸之间的C=O和N-H基团间的氢键形成的稳定结构，主要为α螺旋和β折叠。三级结构：通过多个二级结构元素在三维空间的排列所形成的一个蛋白质分子的三维结构。四级结构：用于描述由不同多肽链（亚基）间相互作用形成具有功能的蛋白质复合物分子。 2.5 蛋白质二级结构的有哪几种？

国内外生物信息学发展状况

国内外生物信息学发展状况 1.国外生物信息发展状况国外非常重视生物信息学的发展各种专业研究机构和公司如雨后春笋般涌现出来，生物科技公司和制药工业内部的生物信息学部门的数量也与日俱增。美国早在1988年在国会的支持下就成立了国家生物技术信息中心（NCBI），其目的是进行计算分子生物学的基础研究，构建和散布分子生物学数据库；欧洲于1993年3月就着手建立欧洲生物信息学研究所（EBI），日本也于1995年4月组建了信息生物学中心（CIB）。目前，绝大部分的核酸和蛋白质数据库由美国、欧洲和日本的3家数据库系统产生，他们共同组成了 DDBJ/EMBL/Gen Bank国际核酸序列数据库，每天交换数据，同步更新。以西欧各国为主的欧洲分子生物学网络组织（EuropeanMolecular Biology Network, EMB Net）是目前国际最大的分子生物信息研究、开发和服务机构，通过计算机网络使英、德法、瑞士等国生物信息资源实现共享。在共享网络资源的同时，他们又分别建有自己的生物信息学机构、二级或更高级的具有各自特色的专业数据库以及自己的分析技术，服务于本国生物（医学）研究和开发，有些服务也开放于全世界。从专业出版业来看,1970年，出现了《Computer Methods and Programs in Biomedicine》这本期刊；到1985年4月，就有了第一种生物信息学专业期刊《Computer Application

in the Biosciences》。现在，我们可以看到的专业期刊已经很多了。 2 国内生物信息学发展状况我国生物信息学研究近年来发展较快,相继成立了北京大学生物信息学中心、华大基因组信息学研究中心、中国科学院上海生命科学院生物信息中心,部分高校已经或准备开设生物信息学专业。2002年国家自然科学基金委在生物化学、生物物理学与生物医学工程学学科设立了生物信息学项目,并列入生命科学部优先资助的研究项目。国家 863计划特别设立了生物信息技术主题,从国家需求的层面上推动我国生物信息技术的大力发展[3]。但是由于起步较晚及诸多原因，我国的生物信息学发展水平远远落后于国外。在PubMed收录的以关键词“Bioinformatics”检索到的历年发表的文章数，可以看出大量的研究文献出现在21世纪以后。其中我国共有138篇占全部5548篇的2.5%，而美国则发表2160篇占全部的39%之多（统计数据截至2004年2月15日）。我国学者在生物信息学领域发表的有高影响力的论文只有不到美国学者发表数量的6%，差距相当大[4]。在生物信息学领域，一些著名院士和教授在各自领域取得了一定成绩，显露出蓬勃发展的势头，有的在国际上还占有一席之地。如北京大学的罗静初和顾孝诚教授在生物信息学网站建设方面、中科院生物物理所的陈润生研究员在EST

生物信息学考试试卷修订稿

生物信息学考试试卷 WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-

一、名词解释(每小题4分,共20分) 1、生物信息学广义：生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达；细胞、组织、器官的生理、病理、药理过程的中各种生物信息。狭义：生物分子信息的获取、存贮、分析和利用。 2、人类基因组计划人类基因组计划准备用15年时间，投入30亿美元，完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定，主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序，以及信息系统的建立。作图和测序是基本的任务，在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。 3、蛋白质的一级结构蛋白质的一级结构是指多肽链中氨基酸的序列 4、基因基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。 5、中心法则是指遗传信息从传递给，再从RNA传递给，即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA，即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。 6 、DNA序列比较序列比较的根本任务是：（1）发现序列之间的相似性；（2）辨别序列之间的差异目的：相似序列相似的结构，相似的功能判别序列之间的同源性推测序列之间的进化关系 7、一级数据库数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释 8、基因识别基因识别，是生物信息学的一个重要分支，使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因，也包括其他具有一定生物学功能的因子，如RNA基因和调控因子。 9、系统发生学系统发生学(phylogenetics)——研究物种之间的进化关系。 10、基因芯片基因芯片（gene chip），又称DNA微阵列（microarray），是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列，其工作的基本原理是通过杂交检测信息。

基因组学与生物信息学教案

《基因组学与生物信息学》教案授课专业：生物学大类各专业课程名称：基因组学与生物信息学主讲教师：夏庆友程道军赵萍徐汉福

课程说明一、课程名称：基因组学与生物信息学二、总课时数：36学时（理论27学时实验9学时）三、先修课程：遗传学、分子生物学、基因工程四、使用教材：杨金水. 基因组学. 北京:高等教育出版社,2002. 张成岗. 贺福初, 生物信息学方法与实践. 北京:科学出版社，2002. 五、教学参考书： T.A.布朗著，袁建刚译著，基因组(2rd版)，北京：科学出版社,2006. 沈桂芳，丁仁瑞，走向后基因组时代的分子生物学，杭州：浙江教育出版社，2005. 罗静初译，生物信息学概论，北京：北京大学出版社，2002. 六、考核方式：考查七、教案编写说明：教案又称课时授课计划,是任课教师的教学实施方案。任课教师应遵循专业教学计划制订的培养目标，以教学大纲为依据，在熟悉教材、了解学生的基础上，结合教学实践经验，提前编写设计好每门课程每个章、节或主题的全部教学活动。教案可以按每堂课（指同一主题连续1~2节课）设计编写。教案编写说明如下： 1、编号：按施教的顺序标明序号。 2、教学课型表示所授课程的类型，请在相应课型栏内选择打“√”。 3、题目：标明章、节或主题。 4、教学内容：是授课的核心。将授课的内容按逻辑层次，有序设计编排，必要时标以“*”、“#”“？” 符号分别表示重点、难点或疑点。 5、教学方式既教学方法，如讲授、讨论、示教、指导等。教学手段指教科书、板书、多媒体、模型、标本、挂图、音像等教学工具。 6、讨论、思考题和作业：提出若干问题以供讨论，或作为课后复习时思考，亦可要求学生作为作业来完成，以供考核之用。 7、参考书目：列出参考书籍、有关资料。 8、日期的填写系指本堂课授课的时间。

计算机在生物信息学中的应用_王帆

2012年第35期生物信息学是利用计算机为工具，用数学及信息科学的理论和方法研究生命现象，对生物信息进行收集、加工、存储、检索和分析的科学。生物信息学的核心是基因组信息学，基因组学是研究生物基因组和如何利用基因的一门学问，该学科提供基因组信息以及相关数据系统，试图解决生物、医学和工业领域的重大问题。对于基因组学研究所产生的大量数据必须借助于先进的计算机技术收集和分析处理这些生物学信息，因此计算机科学为生物信息学的研究和应用提供了非常好的支撑。 1.序列比对序列比对其意义是从核酸、氨基酸的层次来比较两个或两个以上符号序列的相似性或不相似性，进而推测其结构功能及进化上的联系。研究序列相似性的目的是通过相似的序列得到相似的结构或功能，也可以通过序列的相似性判别序列之间的同源性，推测序列之间的进化关系。序列比对是生物信息学的基础，非常重要。序列比对中最基础的是双序列比对，双序列比较又分为全局序列比较和局部序列比较，这两种比较均可用动态程序设计方法有效解决。在实际应用中，某些在生物学上有重要意义的相似性不是仅仅分析单条序列，只能通过将多个序列对比排列起来才能识别。比如当面对许多不同生物但蛋白质功能相似时，我们可能想知道序列的哪些部分是相似的，哪些部分是不同的，进而分析蛋白质的结构和功能。为获得这些信息，我们需要对这些序列进行多序列比对。多重序列比对算法有动态规划算法、星形比对算法、树形比对算法、遗传算法、模拟退火算法、隐马尔可夫模型等，这些算法都可以通过计算机得以解决。 2.数据库搜索随着人类基因组计划的实施，实验数据急剧增加，数据的标准化和检验成为信息处理的第一步工作，并在此基础上建立数据库，存储和管理基因组信息。这就需要借助计算机存储大量的生物学实验数据，通过对这些数据按一定功能分类整理，形成了数以百计的生物信息数据库，并要求有高效的程序对这些数据库进行查询，以此来满足生物学工作者的需要。数据库包括一级数据库和二级数据库，一级数据库直接来源于实验获得的原始数据，只经过简单的归类整理和注释；二级数据库是对基本数据进行分析、提炼加工后提取的有用信息。分子生物学的三大核心数据库是GenBank 核酸序列数据库，SWISS-PROT 蛋白质序列数据库和PDB 生物大分子结构数据库，这三大数据库为全世界分子生物学和医学研究人员了解生物分子信息的组织和结构，破译基因组信息提供了必要的支撑。但是用传统的手工分析方法来处理数据显然已经无法跟上新时代的步伐，对于大量的实验结果必须利用计算机进行自动分析，以此来寻找数据之间存在的密切关系，并且用来解决实际中的问题。 3.基因组序列分析基因组学研究的首要目标是获得人的整套遗传密码，要得到人的全部遗传密码就要把人的基因组打碎，测完每个小的序列后再把它们重新拼接起来。所以目前生物信息学的大量工作是针对基因组DNA 序列的，建立快速而又准确的DNA 序列分析方法对研究基因的结构和功能有非常重要的意义。对于基因组序列，人们比较关心的是从序列中找到基因及其表达调控信息，比如对于未知基因，我们就可以通过把它与已知的基因序列进行比较，从而了解该基因相关的生理功能或者提供疾病发病机理的信息，从而为研发新药或对疾病的治疗提供一定的依据，使我们更全面地了解基因的结构，认识基因的功能。因此，如何让计算机有效地管理和运行海量的数据也是一个重要问题。 4.蛋白质结构预测蛋白质是组成生物体的基本物质，几乎一切生命活动都要通过蛋白质的结构与功能体现出来，因此分析处理蛋白质数据也是相当重要的，蛋白质的生物功能由蛋白质的结构所决定，因此根据蛋白质序列预测蛋白质结构是很重要的问题，这就需要分析大量的数据，从中找出蛋白质序列和结构之间存在的关系与规律。蛋白质结构预测分为二级结构预测和空间结构预测，在二级结构预测方面主要有以下几种不同的方法：①基于统计信息；②基于物理化学性质；③基于序列模式；④基于多层神经网络；⑤基于图论；⑥基于多元统计；⑦基于机器学习的专家规则；⑧最邻近算法。目前大多数二级结构预测的算法都是由序列比对算法BLAST 、FASTA 、CLUSTALW 产生的经过比对的序列进行二级结构预测。虽然二级结构的预测方法其准确率已经可以达到80%以上，但二级结构预测的准确性还有待提高。在实际进行蛋白质二级结构预测时，往往会把结构实验结果、序列比对结果、蛋白质结构预测结果，还有各种预测方法结合起来，比较常用的是同时使用多个软件进行预测，把各个软件预测结果分析后得出比较接近实际的蛋白质二级结构。将序列比对与二级结构预测相结合也是一种常见的综合分析方法。蛋白质二级结构指蛋白质多肽链本身的折叠和盘绕的方式。二级结构主要有α-螺旋、β-折叠、β-转角等几种形式，它们是构成蛋白质高级结构的基本要素，常见的二级结构有α-螺旋和β-折叠。三级结构是在二级结构的基础上进一步盘绕，折叠形成的。研究蛋白质空间结构的目标是为了了解蛋白质与三维结构的关系，预测蛋白质的二级结构预测只是预测蛋白质三维形状的第一步，蛋白质折叠问题是非常复杂的，这就导致了蛋白质的空间结构预测的复杂性。蛋白质三维结构预测方法有：同源模型化方法、线索化方法和从头预测的方法但是无论用哪一种方法，结果都是预测，采用不同的算法，可能产生不同的结果，因此还需要研究新的理论计算方法来预测蛋白质的三维结构。图4.1蛋白质结构（下转第100页）计算机在生物信息学中的应用王帆刘帅（长春工程学院计算机基础教学中心吉林长春 130012）【摘要】生物信息学是一门新兴的、正在迅速发展的交叉学科，它不仅对认识生物体的起源与进化研究有重要意义，而且还可以为人类诊断疾病及物种的改良提供一定的理论依据。生物研究过程中产生的海量数据又需要具有数据处理和分析能力的大容量、高性能的超级计算机的支持，因此计算机技术在生物信息学的研究中显得尤为重要，本文就简单介绍了计算机在生物信息学研究中的哪些方面起到了不可忽略的作用。【关键词】生物信息学；计算机科学；基因组学作者简介：王帆(1980—)，男，长春人，毕业于长春理工大学，本科学历，信息与计算科学专业。刘帅(1979—)，女，长春人，东北师范大学硕士研究生，主要研究方向为计算机软件与理论。 ◇高教论述◇

基因组学与生物信息学课后作业

基因组学与生物信息学课后作业2016/2/23 名词解释 1 基因组：基因组是指生物体内遗传信息的集合，是某个特定物种细胞内全部DNA分子的总和 2 基因组学：是一门新兴的学科，是在全基因组范围内研究基因的结构、功能、组成及进化的科学，包括多个分支学科 3 C值：指一个单倍体基因组中DNA的总和，一个特定的物种具有其特征性的C值 4 基因家族：来自于一个共同的祖先基因，由基因重复及其突变产生。序列相似，功能相近。 5 假基因：来源于功能基因，但以失去活性的DNA序列，有沉默的假基因，也有可转录的假基因 6 人类基因组计划：旨在为30多亿碱基对构成的人类基因组精确测序，发现所有人类基因并搞清其在染色体上的位置，破译人类全部遗传信息问答题

简述真核生物染色体与原核生物染色体的差别。答：真核生物基因组都由分散的长链线性DNA分子组成，每个DNA分子都与蛋白质结合组成染色体；原核生物基因组有2种独立结构的遗传物质，一种为拟核里的染色质，一种为质粒另外，真核生物基因组含大量非编码序列（高度重复序列，多位于着丝粒、端粒）、断裂基因，而原核生物大部分基因都可以编码名词解释突变:基因组小区段范围内DNA分子发生的突然的、可遗传的变异现象。重组:指基因组中大范围区段发生重新组合。同源重组:指发生在非姐妹染色单体（sister chromatin) 之间或同一染色体上含有同源序列的DNA分子之间或分子之内的重新组合转座:一段DNA片段或其拷贝从染色体的一个位置转移到另一位置，并在插入位点两侧产生一对短的正向重复序列基因重复:含有基因的DNA片段发生重复，可能因同源重组作用出错而发生，或是因为反转录转座与整个染色体发生重复所导致比较基因组学:在基因组水平上研究不同物种和品系之间在基因组结构与功能方面的亲缘关系及其内在联系的一门新兴交叉学科

生物信息学医学数据

生物信息学在医学数据分析中的应用 1.前言随着信息技术的飞速发展，医疗数据以爆炸般的速度积累增长，特别是临床医疗数据的大量积累，但是如何有效的整合和利用这些数据进行科学研究，这就对有效数据的管理和挖掘提出了更高的要求。近年来，数据挖掘得到迅速发展，并逐渐应用到现实生活中，在分类分析方面表现相当出色，因此，已有专家将数据挖掘技术与基因表达数据分类问题相结合，发掘基因之间的关联联系，基因表达正常与非正常的活动范围，由此来理解基因表达的内在规律[1]，给疾病的诊断和预测、新特药的设计提供新的思路和方法。但目前医学数据的整合还存在以下问题：一是医院临床数据通常是分散存在的。分布于医院信息系统、检验信息系统、检查信息系统、电子病历系统等医院建立的各种信息系统当中，有的甚至存在于医生手写的随访记录本当中，这样分散存在的数据不利于收集、整合与分析。二是以往的临床科学研究都是以手工的方式去收集和整合数据，数据的可靠性和准确性得不到保证，而且容易产生数据丢失。与此同时，人工收集数据工作量大，数据采集速度慢、试验周期长的状况，这对临床科研数据的统计和分析结果的准确性提出来质疑。三是在对手工搜集到的分散的数据资源进行统计分析和查询的过程中，效率滞后，容易影响科研进度。针对上述几个问题，为确保收集数据的准确性、有效性和完整性，以便进行统计分析，基于临床科研的数据管理系统应运而生。 2. 支持向量机在医疗数据中的应用在疾病检测中，单一的生理信息不足以反映人体的健康状况，因此对多种生理信息综合分析是十分有必要的。在心脏病的诊断中就涉及诸如年龄、血压、心跳等几种，甚至几十种理化指标。医生综合这些检测的数据，根据自己的经验、知觉和见解等对人体的健康状况做出某种诊断。显然，这种诊断是主观性的，对同一个人，有时不同的医生甚至会做出截然相反的判别。多生理信息融合( Information Fusing)技术可以直接从原始样本数据出发建立某种规则模型，并将这种模型在计算机上实现，利用这一模型可以帮助医生对待测人体做出更客

浅谈生物信息学在生物方面的应用

浅谈生物信息学在生物方面的应用生物信息学（bioinformaLics）是以核酸和蛋白质等生物大分子数据库及其相关的图书、文献、资料为主要对象，以数学、信息学、计算机科学为主要手段，对浩如烟海的原始数据和原始资料进行存储、管理、注释、加工，使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析，从中获得基因的编码、凋控、遗传、突变等知识；研究核酸和蛋白质等生物大分子的结构、功能及其相互关系；研究它们在生物体内的物质代谢、能量转移、信息传导等生命活动中的作用机制。从生物信息学研究的具体内容上看，生物信息学可以用于序列分类、相似性搜索、DNA 序列编码区识别、分子结构与功能预测、进化过程的构建等方面的计算工具已成为变态反应研究工作的重要组成部分。针对核酸序列的分析就是在核酸序列中寻找过敏原基因，找出基因的位置和功能位点的位置，以及标记已知的序列模式等过程。针对蛋白质序列的分析，可以预测出蛋白质的许多物理特性，包括等电点分子量、酶切特性、疏水性、电荷分布等以及蛋白质二级结构预测，三维结构预测等。生物信息学中的主要方法有：序列比对，结构比对，蛋白质结构的预测，构造分子进化树，聚类等。基因芯片是基因表达谱数据的重要来源。目前生物信息学在基因芯片中的应用主要体现在三个方面。 1、确定芯片检测目标。利用生物信息学方法，查询生物分子信息数据库，取得相应的序列数据，通过序列比对，找出特征序列，作为芯片设计的参照序列。 2、芯片设计。主要包括两个方面，即探针的设计和探针在芯片上的布局，必须根据具体的芯片功能、芯片制备技术采用不同的设计方法。 3、实验数据管理与分析。对基因芯片杂交图像处理，给出实验结果，并运用生物信息学方法对实验进行可靠性分析，得到基因序列变异结果或基因表达分析结果。尽可能将实验结果及分析结果存放在数据库中，将基因芯片数据与公共数据库进行链接，利用数据挖掘方法，揭示各种数据之间的关系。生物信息学在人类基因组计划中也具有重要的作用。大规模测序是基因组研究的最基本任务，它的每一个环节都与信息分析紧密相关。目前，从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙，到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。特别是拼接和填补序列间隙更需要把实验设计和信息分析时刻联系在一起．拼接与组装中的难点是处理重复序列，这在含有约30％重复序列的人类基因组中显得尤其突出。人类基因组的工作草图即将完成，因此发现新基因就成了当务之急。使用基因组信息学的方法通过超大规模计算是发现新基因的重要手段，可以说大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组（约1300万bp）所包含6千多个基因，大约60％是通过信息分析得到的。当人类基因找到之后，自然要解决的问题是：不同人种间基因有什么差别；正常人和病人基因又有什么差别。”这就是通常所说的SNPs（单核苷酸多态性）。构建SNPs及其相关数据库是基因组研究走向应用的重要步骤。1998年国际已开展了以EST为主发现新Spps 的研究。在我国开展中华民族SNPs研究也是至重要的。总之，生物信息学不仅将赋予人们各种基础研究的重要成果，也会带来巨大的经济效益和社会效益。在未来的几年中DNA 序列数据将以意想不到的速度增长，这更离不开利用生物信息学进行各类数据的分析和解释，研制有效利用和管理数据新工具。生物信息学在功能基因组学同样具有重要的应用目前应用最多的是同源序列比较、模式识别以及蛋白结构预测。所谓同源序列，是指从某一共同祖先经趋异进化而形成的不同序列。利用数据库搜索找出未知核酸或蛋白的同源序列，是序列分析的基础[lol。如利用BLASTn和BLASTx两种软件分别进行核苷酸和氨基

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识㈠De Novo测序也叫从头测序，是首次对一个物种的基因组进行测序，用生物信息学的分析方法对测序所得序列进行组装，从而获得该物种的基因组序列图谱。目前国际上通用的基因组De Novo测序方法有三种： 1. 用Illumina Solexa GA IIx 测序仪直接测序； 2. 用Roche GS FLX Titanium直接完成全基因组测序； 3. 用ABI 3730 或Roche GS FLX Titanium测序，搭建骨架，再用Illumina Solexa GA IIx 进行深度测序，完成基因组拼接。采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件，并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究，为后续的相关研究奠定基础。实验流程：公司服务内容 1.基本服务：DNA样品检测；测序文库构建；高通量测序；数据基本分析（Base calling，去接头，去污染）；序列组装达到精细图标准 2.定制服务：基因组注释及功能注释；比较基因组及分子进化分析，数据库搭建；基因组信息展示平台搭建 1.基因组De Novo测序对DNA样品有什么要求？

(1) 对于细菌真菌，样品来源一定要单一菌落无污染，否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上)， OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；每次样品制备需要10 μg样品，如果需要多次制备样品，则需要样品总量=制备样品次数*10 μg。 (2) 对于植物，样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品，最好为纯合或单倍体。基因组完整无降解(23 kb以上)，OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；样品总量不小于500 μg，详细要求参见项目合同附件。 (3) 对于动物，样品来源应选用肌肉，血等脂肪含量少的部位，同一个体取样，最好为纯合。基因组完整无降解(23 kb以上)，OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；样品总量不小于500 μg，详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证，用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式目前3种测序技术 Roche 454，Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中，Roche 454的单端测序读长可以达到400 bp，经常用于基因组骨架的组装，而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例，对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段，引物序列连接到DNA片段的一端，然后末端加上接头，将片段固定在flow cell上生成DNA簇，上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点，在第一轮测序完成后，去除第一轮测序的模板链，用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增，以达到第二轮测序所用的模板量，进行第二轮互补链的合成测序(图2)。图1 Single-read文库构建方法图2 Paired-end文库构建方法

生物信息学基本知识

1.DNA:遗传物质(遗传信息的载体) 双螺旋结构,A,C,G,T四种基本字符的复杂文本 2.基因（Gene）：具有遗传效应的DNA分子片段 3.基因组(Genome)：包含细胞或生物体全套的遗传信息的全部遗传物质。人类包括细胞核基因组和线粒体基因组 OR一个物种中所有基因的整体组成 4.人类基因组：3.0×109bp模式生物 5.HGP的最初目标通过国际合作，用15年时间(1990～2005)至少投入30亿美元，构建详细的人类基因组遗传图和物理图，确定人类DNA的全部核苷酸序列，定位约10万基因，并对其它生物进行类似研究。 6.HGP的终极目标阐明人类基因组全部DNA序列；识别基因；建立储存这些信息的数据库；开发数据分析工具；研究HGP实施所带来的伦理、法律和社会问题。 7.遗传图谱（genetic map）又称连锁图谱(linkage map)，它是以具有遗传多态性（在一个遗传位点上具有一个以上的等位基因，在群体中的出现频率皆高于1%）的遗传标记为“路标”，以遗传学距离（在减数分裂事件中两个位点之间进行交换、重组的百分率，1%的重组率称为1cM）为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。 8.遗传连锁图：通过计算连锁的遗传标志之间的重组频率，确定它们的相对距离，一般用厘摩（cM，即每次减数分裂的重组频率为1%）表示。 9.物理图谱（physical map）是指有关构成基因组的全部基因的排列和间距的信息，它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。 10.转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。 11.序列图谱:随着遗传图谱和物理图谱的完成，测序就成为重中之重的工作。 DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱 12.大规模测序基本策略逐个克隆法：对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装（公共领域测序计划）全基因组鸟枪法：在一定作图信息基础上，绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序，利用超级计算机进行组装（美国Celera公司） 13.基因识别（gene identification）是HGP的重要内容之一，其目的是识别全部人类的基因。基因识别包括：识别基因组编码区识别基因结构基因识别目前常采用的有二种方法：从基因组序列中识别那些转录表达的DNA片段从cDNA文库中挑取并克隆。 14.基因组多态性（Polymorphism）:是指在一个生物群体中，同时和经常存在两种或多种不连续的变异型或基因型（genotype）或等位基因（allele），亦称遗传多态性（genetic

生物信息学在医学领域的应用前沿

生物信息学在医学领域的应用前沿摘要：生物信息学是有生命科学、信息学、数学、物理、化学等学科相互交融而形成的新兴学科。生物信息数据库几乎覆盖了生命科学的各个领域，截止至2010年，总数已达1230个。生物信息学已不断渗透到医学领域的研究中。生物信息学在医学领域中主要应用于医学基础研究、临床医学、药物研发和建立与医学有关的生物信息学数据库。关键词：生物信息学；医学；基因；应用生物信息学是20世纪80年代以来随着人类基因组生命科学与信息科学以及数学、物理、化学等学科相互交融而形成的新兴学科，是当今最具发展前途的学科之一。人类基因组计划的顺利推进产生了海量基因数据，这些数据中蕴藏着丰富的生物学内涵，如果能充分挖掘并加以利用，可能揭示出很多对人类有用的信息。生物信息学已经成为生物学、医学、农学、遗传学、细胞生物学等学科发展的强大推动力量。随着生物信息学研究的深入与发展，它已不断渗透到医学领域的研究中。近年来，伴随着对基因组的研究不断深入，部分应用领域取得了令人瞩目的突破，其潜在的经济利益更是吸引了众多国家、企业及大量科研人员投入到相关研究中，生物信息学得到了迅猛的发展。一、主要数据库数据库是生物信息学的主要内容，各种数据库几乎覆盖了生命科学的各个领域。截止至2010年，生物信息数据库总数已达1230个。生物信息数据可可分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据，只经过简单的归类整理和注释，如Genbank数据库、SWISS-PROT数据库；二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步整理，如人类基因组图谱库GDB。在医学领域中常用的生物信息数据库主要有：核酸类数据库，如NCBI核苷酸序列数据库(Gen Bank )、欧洲核苷酸序列数据库(EMBL)、日本DNA 数据库(DDB)等；蛋白相关数据库，如蛋白质数据库(SWISS-PROT)、蛋白质信息资源库(HR)、Entrez 的蛋白三维结构数据库(MMDB)、蛋白质交互作用数据库(DIP)等；疾病相关数据库，包括综合临床数据库，如NCBI疾病基因数据库、Gene Cards等；遗传性疾病数据库，如遗传性疾病数据库(GDB)、人类遗传性疾病数据库(Gene Dis)等；肿瘤相关数据库，如肿瘤基因组解剖工程(CGAP)等；心血管疾病相关数据库，如心血管疾病相关生物医学数据库(Cardio)、心脏疾病计划及临床决策支持系统(HDP &CDM)等；免疫性疾病数据库，如免疫功能分子数据库( HMM)、免疫缺陷资源库(IDR)等；药物相关数据库，如药物和疾病数据库(Drugs)、FDA药品评审与研究中心(CDER)等。二、生物信息学在医学领域的应用 2.1 生物信息学在医学基础研究中的应用 2.1.1 新基因的发现与鉴定疾病的发生发展与特异基因的改变有关，鉴定与疾病相关的基因是科学家在积极探索的一个方向，对治疗某些疑难杂症带来新的契机。发现新基因是当前国际上基因组研究的热点，使用生物信息学的方法是发现新基因的重要手段。现在很多疾病的致病基因已经发现，包括癌症、肥胖、哮喘、心脑血管病等，其中与癌症相关的原癌基因约有1000个，抑癌基因约有100个。目前发现新基因的主要方法有以下3种：①通过多序列比对从基因组DNA序列中预测新基因，其本质是把基因组中编码蛋白质的区域和非编码蛋白质的区域区分开来。②基因的电子克隆，即以计算机和互联网为手段，通过发展新算法，对生物信息数据库中存储的表达序列标签进行修正、聚类、拼接和组装，获得完整的基因序列，以期发现新基因。③发现单核苷酸多态性。例如，2010年我国学者通过生物信息学EST 拼接技术，RT－PCR等技术，克隆出30个人类未知功能的新基因，并通过生物信息学分析该基因

生物信息学基本分析

核酸序列的基本分析运用DNAMAN软件分析核酸序列的分子质量、碱基组成和碱基分布。同时运用BioEdit（版本7.0.5.3）软件对基因做酶切谱分析。碱基同源性分析运用NCBI信息库的BLAST程序对基因进行碱基同源性分析(Translated query vs.protien database(blastx))网站如下：https://www.doczj.com/doc/dc18056758.html,/BLAST/ 参数选择：Translated query-protein database [blastx]；nr;stander1 开放性阅读框（ORF）分析利用NCBI的ORF Finder程序对基因做开放性阅读框分析，网址如下： https://www.doczj.com/doc/dc18056758.html,/projects/gorf/orfig.cgi 参数选择：Genetic Codes：1 Standard 对蛋白质序列的结构功能域分析运用简单模块构架搜索工具（Simple Modular Architecture Research Tool,SMART）对基因的ORF出的蛋白质序列进行蛋白质结构功能域分析。该数据库由EMBL建立，其中集成了大部分目前已知的蛋白质结构功能域的数据。网址如下：http://smart.embl-heidelberg.de/ 运用NCBI的BLAST程序再对此蛋白质序列进行rpsBlast分析参数选择：Search Database：CDD v2.07－11937PSSM Expect：0.01 Filter：Low complexity Search mode：multiple hits 1－pass 同源物种分析用DNAMAN软件将蛋白质序列相关基因序列比对，根据结果绘出系统进化树，并进行分析。蛋白质一级序列的基本分析运用BioEdit（版本7.0.5.3）软件对基因ORF翻译的蛋白的一些基本性质，对分子量、等电点、氨基酸组成等作出分析。二级结构和功能分析信号肽预测利用丹麦科技大学（DTU）的CBS服务器蛋白质序列的信号肽（signal peptide）预测，进入Prediction Serves 页面。网址如下：http://www.cbs.dtu.dk/services/SignalP/ 参数选择： Eukaryotes；Both；GIF (inline)；Standard；疏水性分析利用瑞士生物信息学研究所（Swiss Institute of Bioinformatics，SIB）的ExPASy服务器上的ProtScale程序对ORF 翻译后的氨基酸序列做疏水性分析网址如下： https://www.doczj.com/doc/dc18056758.html,/cgi-bin/protscale.pl 参数选择：

生物信息学在基因组学中的应用_沈春修

作者简介沈春修（１９７９－），男，湖南溆浦人，硕士，助教，从事水稻遗传育种与抗病分子机制方面的研究。收稿日期２００７!０４!０１基因的研究是指在许多基因同时存在的基础上对多个基因同时进行研究，分析各自与它们之间的结构与功能的相互关系。因而它至少涉及３个相关领域：结构基因组———主要关心ＤＮＡ碱基序列水平上的基因结构；比较基因组———寻找种内、种属间产生基因结构差异的分子基础，以期获取与目的性状相关的基因；功能基因组———着重研究基因与其表达产物及功能活性的调控关系。结构基因组是其他领域的基础，比较基因组为功能基因组研究提供等位基因，蛋白质组则是在蛋白质水平上分析基因表达的功能基因组研究的派生分枝。生物信息学是在前面三者研究的基础上，获取、整理、综合分析提取大量已有复杂生物数据的新学科，对相关学科的研究有很大的推动作用。１生物信息学在结构基因组中的应用随着化学分析方法的改进，ＤＮＡ测序水平的提高，科研成本的降低，已开始对多种模式生物进行基因组全序列的测序。如拟南芥和水稻的全基因组测序，将来会有越来越多的重要作物基因组被全测序。因而，今后的工作重点将是基因组中信息的分析与鉴定，对植物抗性基因来说，是分析鉴定其组织结构及其相关调控序列的鉴定。结构基因组的研究对抗性基因的研究有许多指导意义。在现在已知的许多种已克隆的抗性基因（不含Ｈｍ１和Ｈｍ２）中，分析其序列结构，都含有或部分含有核苷酸结合位点（ＮＢＳ），富含亮氨酸重复（ＬＲＲ），跨膜结构域（ＴＭ）以及丝氨酸－苏氨酸激酶（ＳＴＫ）保守序列。根据已知抗性基因都含有ＮＢＳ序列的特征，从测序结果中可预测某一生物中含有与抗性基因有关的基因数目有多少［１］。在拟南芥与水稻测序的过程中，发现许多与抗性有关的ＮＢＳ序列。在已测序的拟南芥６７Ｍｂ中（相当于大于５０％的拟南芥基因组序列），有１２０个可预见的基因产物与植物抗性基因的ＮＢＳ结构相似［２］。假设剩余的另外５０％未知基因也按这样的比例分布，那么拟南芥中将有２００个左右的基因与抗性有关。在这些与抗性有关的２００个基因中，它们要么是编码信号传导的组分，要么是编码抗微生物的蛋白，这些基因序列的总长度大约占拟南芥总基因数的１％。而在水稻中，通过对重叠的ＢＡＣ克隆末端序列分析（占全部水稻基因的５％）来看，大约有７５０￣１５００个基因具有编码ＮＢＳ的能力［３－５］。从已知抗性基因的定位结果来看，ＮＢＳ序列在拟南芥基因组中倾向于成簇排列。测序结果也表明，植物中的抗性基因一般与抗性基因的多种同源共生序列在一起，共同组成高度重复区域，这种区域统称为基因簇。Ｒｐｐ５基因簇包含８￣１０个同源序列，散布在９０ｋｂ的区域上，并且被蛋白激酶的假基因与反向转座子等隔开。Ｃｆ!４／９基因簇由５个抗性基因同源序列组成，散布在３６ｋｂ的区域内，Ｃｆ!４／９的同源序列被Ｌｏｘ基因隔开，成为高度重复区域。Ｐｔｏ基因簇包含５个同源序列，分布在６０ｋｂ的区域内，这其中的Ｐｒｆ基因编码ＮＢＳ!ＬＲＲ，对Ｐｔｏ基因的功能是必需的。Ｄｍ３基因是目前已知的最大的抗性基因，至少由２４个抗性基因同源序列组成，横跨３．５Ｍｂ。因而，随着更多模式植物的全基因组测序的完成，人们可以从基因组测序信息中直接读出有用数据，分析寻找抗性基因的组织结构特征与分布规律。２生物信息学在比较基因组学中的应用随着多种生物的全基因组测序完成，有越来越多的数据可以直接利用。首先，通过比较多种属植物抗性基因的定位特点，发现抗性基因大多定位在较不稳定的区域，其区域的结构不很保守，如拟南芥的抗性基因ＲＰＭ１的同源序列在感病表型的植株上丢失［６］。进一步研究发现，抗性基因的位置要么是端粒区域，要么是接近着丝粒区域。例如，通过原位荧光杂交分析得知：莴苣的两抗性基因分别定位在端粒区域与接近着丝粒区域，高粱Ｒｐｇ１基因位于端粒区域，番茄的Ｍｉ基因位于异染色质的着丝粒边缘［７］。第２，通过测序分析，可以确定基因成簇的模式与范围，通过比较种属间亲缘关系，来预测某一功能相似的基因在其他物种中的位置。进而根据已克隆的抗性基因间的相似性，可以采用适当的引物进行ＰＣＲ扩增获得抗性基因的候选序列，而且这些候选序列的片段均可定位到已知的抗性基因的位置上［８］。从现在公开的数据中，比较多种ＮＢＳ基因的相似性，用ＰＣＲ获得了１３０个候选抗性基因，此数据将继续增长。第３，比较基因组的另一作用在于可以区分同源区域与同源共生区域。这对本身就位于同源共生区域的抗性基因家族可能困难，但是抗性基因相关序列的种间比较结果显示：同源区域比同源共生区域更加相似。这提示：物种为了赶上病原菌的变化步伐而采取快速进化来抵抗随时间而变化的病原群体。通过分析拟南芥的ＲＰｍ１基因侧翼序列也得到这样的结论。第４，比较基因组学也可对某特定等位基因的变化的分子基础进行研究［９］。至今，只有极少数通过同源重组，实现蛋白质结构域的域置换试验成功。这些结果显示ＮＢＳ!ＬＲＲ编码基因的ＬＲＲ区域是非常重要的，但它不是专一性的唯一决定簇。随着测序效率的提高，将建立抗性基因相关序列的数据库，这些序列信息可作为基因步行试验的模板，为克隆新的抗性基因提供极大的帮助。第５，比较基因组作图表明，染色体上的ＤＮＡ标记排列具有共线性［１０］。如小麦的基生物信息学在基因组学中的应用沈春修（宜春学院，江西宜春３３６０００）摘要随着计算机科学、物理学、数学等与生命科学的相互渗透和交叉，生物信息学愈来愈显示出其重要性，尤其是在抗病基因的研究中。笔者从结构基因组、比较基因组、功能基因组与生物信息学等方面论述了生物信息学在基因组学中的应用。关键词抗性基因；结构基因组；比较基因组；功能基因组；生物信息学中图分类号Ｑ７８文献标识码Ａ文章编号０５１７－６６１１（２００７）２０－０６０５４－０２安徽农业科学，ＪｏｕｒｎａｌｏｆＡｎｈｕｉＡｇｒｉ．Ｓｃｉ．２００７，３５（２０）：６０５４－６０５５，６０５７责任编辑王淼责任校对王淼