生物信息学重点资料
- 格式:doc
- 大小:276.55 KB
- 文档页数:10
生物学中的生物信息学知识点生物信息学是生物学和信息学的交叉学科,将计算机科学、统计学和数学等方法应用于生物学的研究中,以解决生物大数据处理、基因组学、蛋白质组学和生物信息分析等领域的问题。
下面将介绍生物信息学的几个重要知识点。
1. DNA、RNA和蛋白质序列分析DNA、RNA和蛋白质是生物体中三种重要的生物分子,它们的序列信息对于理解生物体的功能和进化有着重要意义。
生物信息学通过各种序列分析方法,如序列比对、序列搜索和序列模式识别,可以揭示DNA、RNA和蛋白质的结构、功能和相互作用等信息。
2. 基因组学和转录组学基因组学是研究生物体基因组的结构和功能的学科。
生物信息学在基因组学领域中发挥着关键作用,能够进行基因组测序、基因注释和基因调控网络的分析。
转录组学是研究生物体基因在特定的时间和空间上的表达模式和调控机制的学科,生物信息学可通过基于高通量测序技术的转录组数据分析,揭示基因表达的规律和调控网络。
3. 蛋白质结构预测和功能注释蛋白质是生物体中最重要的功能分子,其结构与功能密切相关。
通过生物信息学方法,如蛋白质结构预测和功能注释,可以推测蛋白质的结构和功能。
这对于理解蛋白质的生物学功能、药物设计和疾病的研究具有重要意义。
4. 基因调控网络分析生物体内的基因调控网络是复杂的,涉及到多个基因和调控元件的相互作用。
生物信息学可以通过整合转录组、表观基因组学和蛋白质互作数据等信息,构建和分析基因调控网络,揭示基因调控的机制和关键节点。
5. 生物序列和结构数据库为了方便生物信息学研究者进行序列和结构信息的存储和检索,建立了多个公共数据库,如GenBank、Uniprot和PDB等。
这些数据库包含了大量的生物序列和结构数据,为生物信息学研究提供了重要的资源。
6. 高通量测序技术及其数据分析高通量测序技术的出现使得获取生物序列信息的速度大大提高。
生物信息学通过批量处理和分析测序数据,揭示基因组的结构、功能和进化信息。
生物信息学是一门交叉学科, 包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面, 它综合运用数学、计算机科学和生物学等的各种工具来阐明和理解大量数据所包含的生物学意义。
生物信息学宗旨在揭示基因组信息结构的复杂性及遗传语言的根本规律。
从生物分子获得和挖掘深层次生物学知识。
人类基因组计划(HGP:获得遗传图、物理图、序列图、转录图;终极目标:阐明人类基因组全部DNA序列;识别基因;建立储存这些信息的数据库;开发数据分析工具;研究HGP实施所带来的伦理、法律和社会问题。
其中我国承担了人类3 号染色体短臂。
记录:一个数据库记录一般由两部分组成:原始序列数据和描述这些数据生物学信息的注释。
冗余:在一个数据库存在着多个相同的项,如两个或者更多的记录中有一个相同序列Fasta 格式开始于一个标识符:">" ,然后是一行描述。
GenBank格式:每个基因描述可有多个描述行,包含一行以LOUCU开头描述行,基因序列以ORIGN开头,以/结尾。
EMBL入口标识符ID,序列开始标识符SQ结束是/。
数据库的特点:①数据库是可以检索的,即具有检索功能;②数据库应该是定时更新的,即不断有新版内容发布;③数据库是交叉引用的,特别是在互联网时代,数据库应该通过超链接与其他数据库相连。
EST序列:表达序列标签对cDNA文库测序得到的,是转录的DNA序列。
STS序列:序列标签位点染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,(200bp —500bp)。
STS序列标签位点是基因组上定位明确、作为界标并能通过PCR扩增被唯一操作的短的、单拷贝DNA序列,用于产生作图位点。
GSS序列:基因组概览测序基因组DNA克隆的一次性部分测序得到的序列。
HTG序列:高通量基因组序列三大数据库:NCBI(GenBank):美国生物技术中心,建立了一系列生物信息数据和各种服务。
1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计算机科学相结合形成的一门新学科.它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。
2、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。
数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。
3、表达序列标签从一个随机选择的cDNA 克隆进行5'端和3’端单一次测序获得的短的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。
EST 来源于一定环境下一个组织总mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。
4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白.ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个真正的单一的基因产物。
ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件。
5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列,并进一步折叠成特定的空间结构前者我们称为蛋白质的一级结构,也叫初级结构或基本结构。
蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理功能的必要基础.6、基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。
⽣物信息学重点⼀、名解1.⽣物信息学:(狭义)专指应⽤信息技术储存和分析基因组测序所产⽣的分⼦序列及其相关数据的学科;(⼴义)指⽣命科学与数学、计算机科学和信息科学等交汇融合所形成的⼀门交叉学科。
2.⼈类基因组测序计划:3基因组学:以基因组分析为⼿段,研究基因组的结构组成、时序表达模式和功能,并提供有关⽣物物种及其细胞功能的进化信息。
p1504基因组:是指⼀个⽣物体、细胞器或病毒的整套基因。
p1505.⽐较基因组学:是指基因组学与⽣物信息学的⼀个重要分⽀。
通过模式⽣物基因组之间或模式⽣物基因组与⼈类基因组之间的⽐较与鉴别,可以为研究⽣物进化和分离⼈类遗传病的候选基因以及预测新的基因功能提供依据。
p1666功能基因组:表达⼀定功能的全部基因所组成的DNA序列,包括编码基因和调控基因。
功能基因组学:利⽤结构基因组学研究所得的各种来源的信息,建⽴与发展各种技术和实验模型来测定基因及基因组⾮编码序列的⽣物学功能。
7蛋⽩质组:是指⼀个基因组中各个基因编码产⽣的蛋⽩质的总体,即⼀个基因组的全部蛋⽩产物及其表达情况。
p1798蛋⽩质组学:指应⽤各种技术⼿段来研究蛋⽩质组的⼀门新兴科学,其⽬的是从整体的⾓度分析细胞内动态变化的蛋⽩质组成成分、表达⽔平与修饰状态,了解蛋⽩质之间的相互作⽤与联系,揭⽰蛋⽩质功能与细胞⽣命活动规律。
9功能蛋⽩质组学:(功能蛋⽩质组,即细胞在⼀定阶段或与某⼀⽣理现象相关的所有蛋⽩)。
10序列对位排列:通过插⼊间隔的⽅法使不同长度的序列对齐,达到长度⼀致。
11 基因组作图:是确定界标或基因在构成基因组的每条染⾊体上的位置,以及同条染⾊体上各个界标或基因之间的相对距离。
p15512 后基因组时代:其标志是⼤规模基因组分析、蛋⽩质组分析以及各种数据的⽐较和整合。
p3⼆填空题1⽣物信息学的发展⼤致经历了3个阶段,分别为前基因组时代、基因组时代、后基因组时代。
p22后基因组时代的标志性⼯作是(基因组分析)(蛋⽩质组分析)以及(各种数据的⽐较和整合)p33前基因组时代的标志性⼯作是⽣物数据库的建⽴、检索⼯具的开发以及DNA和蛋⽩质的序列分析p2 4基因组时代的标志性⼯作是(基因寻找和识别)(⽹络数据库系统的建⽴)以及(交互界⾯的开发)p2 5 ⼈类基因组计划的⽬标是完成四张图,分别是(遗传图谱)(物理图谱)(序列图谱)和(基因图谱)5 HGP由六个国家完成,我国完成了HGP的(1%,即3号染⾊体上3000万个碱基)的测序⼯作。
生物信息学复习资料第一章1、什么是生物信息学?生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义2、BIOINFORMATICS这个词是谁提出的?林华安3、生物信息学的发展经过了哪些阶段?前基因组时代、基因组时代、后基因组时代4、HGP是什么意思?什么时候开始?什么时候全部结束?人类基因组计划、1990.10、20035、生物信息学的研究对象是什么?6、生物信息学的研究内容有哪些?获取人和各种生物的完整基因组、新基因的发现、SNP分析(单核苷酸多态性:single nucleotide polymorphism,SNP)、非编码区信息结构与分析、生物进化;全基因组的比较研究、蛋白质组学研究、基因功能预测、新药设计、遗传疾病的研究以及关键基因鉴定、生物芯片7、学习生物信息学的目的是什么?阐明和理解大量数据所包含的生物学意义第二章1、生物信息数据库有哪些要求?时间性、注释、支撑数据、数据质量、集成性2、生物信息数据库分为哪几级,每一级是如何让定义的,每一级各包含哪些数据库?一级数据库二级数据库;一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的一级数据库:包括基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库二级数据库:根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的数据库3、请列出至少三个国际知名生物信息中心网站、至少三个核酸数据库、至少三个蛋白数据库。
网站:NCBI、EBI、SIB、HGMP、CMBI、ANGIS、NIG、BIC核酸数据库:EMBL、DDBJ、GenBank蛋白质序列数据库:PIR(Protein Information Resource)、SWISS-PROT、TrEMBL、UniProt、NCBI生物大分子数据库:PDB(Protein Data Bank)蛋白质结构分类数据库SCOP、蛋白质二级结构数据库DSSP、蛋白质同源序列比对数据库HSSP4、NCBI和EBI使用的搜索引擎分别是什么?NCBI提取工具:Entrez EBI提取工具:SRS65、GENBANK使用的基本信息单位是什么,包括哪几个部分,最后以什么字符结尾?基本信息单位:GBFF(GenBank flatfile, GenBank平面文件)格式:GBFF是GenBank数据库的基本信息单位,是最为广泛使用的生物信息学序列格式之一哪几个部分:头部包含整个记录的信息(描述符)、第二部分包含了注释这一记录的特性、第三部分是核苷酸序列本身最后字符:所有序列数据库记录都在最后一行以“//”结尾6、什么是Refseq?The Reference Sequence database 参考序列数据库RefSeq数据库,即RefSeq参考序列数据库,美国国家生物信息技术中心(NCBI)提供的具有生物意义上的非冗余的基因和蛋白质序列7、FASTA格式有哪些部分组成,以什么字符开始?8.NCBI的在线和离线序列提交软件是什么?在线提交软件:Bankit 离线提交软件:Sequin第三章1、什么是同源、直系同源、旁系同源?同源性和相似性有什么区别?同源性:两条序列有一个共同的进化祖先,那么它们是同源的相似性:序列间相似性的量度同源性和相似性的区别:同源性是序列同源或者不同源的一种论断,而相似性或者一致性是一个序列相关性的量化,是两个不同的概念直系同源(orthology):不同物种内的同源序列旁系同源(paralogy):同一物种内的同源序列2、什么是序列比对、全局比对、局部比对?序列比对的关键问题是什么?序列比对:根据特定的计分规则,将两个或多个符号序列按位置比较排列后,得到最具相似性的排列的过程。
生物信息学研究的重点及未来展望生物信息学是近年来快速发展的学科之一,它将计算机技术应用于生物学领域,为生物学研究提供了一个新的角度和方法。
生物信息学可用于研究生物信息的收集、分析、存储、传输和管理,为生物学家提供了有效而全面的工具。
本文将探讨生物信息学研究的重点和未来展望。
一、生物信息学的研究重点(1)基因组学基因组学研究生物的基因组结构和基因组数据的分析。
基因组学的目标是确定细胞、病理学和进化基因组的组成、顺序和互作模式。
生物信息学在基因组学中的应用有:基于DNA序列比对的各种数据分析、预测和注释工具的设计和运用,如基因寻找、基因结构预测、基因重编码、引物设计、遗传计图制图等。
还可研究生物基因组中的单核苷酸多态性和单基因突变等。
(2)蛋白质组学蛋白质组学研究蛋白质的产生、表达、修饰、定位、互作和功能。
蛋白质质谱学技术是蛋白质组学的关键技术,可用于确定蛋白质种类和含量、识别蛋白质质量、分析蛋白质结构和特性等。
生物信息学在蛋白质组学中的应用主要包括:蛋白质序列识别、结构预测、动态域注释、基础蛋白质互作和复合物分析等。
(3)结构生物学结构生物学研究蛋白质、核酸和复合物的分子结构和功能,提供在药物研发中的重要信息。
生物信息学在结构生物学中的应用包括:蛋白质结构预测和模拟、基于结构的药物设计、3D可视化等。
(4)生物信息系统生物信息系统研究通过整合信息和数据流的不同来源,为生物学家提供生成、存储、共享和管理生物信息的新方法,并把这些信息加以整合以研究生物系统的疾病和功能等。
生物信息学在生物信息系统中的应用有:数据挖掘、数据标准化、数据库设计、数据流转和系统分析等。
(5)表观遗传学表观遗传学研究基因表达的调控及其与环境的相互作用,特别是生命特征及其遗传素材在发育生物中的表现。
生物信息学在表观遗传学中的应用有:基因组和表观基因组学的平台操作、分析和可视化工具的开发和布署等。
(6)系统生物学系统生物学是一种以整体、动态和系统的方式来研究生物学的学科,它致力于深入研究基因、蛋白质和代谢通路等生物大分子的互作和网络调控。
1. DNA: 遗传物质(遗传信息的载体) 双螺旋结构,A, C, G, T四种基本字符的复杂文本2. 基因(Gene):具有遗传效应的DNA分子片段3. 基因组(Genome):包含细胞或生物体全套的遗传信息的全部遗传物质。
人类包括细胞核基因组和线粒体基因组OR 一个物种中所有基因的整体组成4. 人类基因组:3.2×109 bp5.HGP的最初目标通过国际合作,用15年时间(1990~2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其它生物进行类似研究。
6.HGP的终极目标阐明人类基因组全部DNA序列;识别基因;建立储存这些信息的数据库;开发数据分析工具;研究HGP实施所带来的伦理、法律和社会问题。
7.遗传图谱(genetic map)又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。
遗传图谱的建立为基因识别和完成基因定位创造了条件。
8. 遗传连锁图:通过计算连锁的遗传标志之间的重组频率,确定它们的相对距离,一般用厘摩(cM,即每次减数分裂的重组频率为1%)表示。
9. 物理图谱(physical map)是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。
绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。
10. 转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。
11. 序列图谱:随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。
DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。
生物信息学知识点总结分章第一章:生物信息学概述生物信息学是一门综合性学科,结合计算机科学、数学、统计学和生物学的知识,主要研究生物系统的结构、功能和演化等方面的问题。
生物信息学的发展可以追溯到20世纪70年代,随着基因组学、蛋白质组学和生物技术的发展,生物信息学逐渐成为生物学研究的重要工具。
生物信息学的主要研究内容包括基因组学、蛋白质组学、代谢组学、系统生物学等。
生物信息学方法主要包括序列分析、结构分析、功能预测和系统分析等。
第二章:生物数据库生物数据库是生物信息学研究的重要基础,主要用于存储、管理和共享生物学数据。
生物数据库包括基因组数据库、蛋白质数据库、代谢数据库、生物通路数据库等。
常用的生物数据库有GenBank、EMBL、DDBJ等基因组数据库,Swiss-Prot、TrEMBL、PDB等蛋白质数据库,KEGG、MetaCyc等代谢数据库,Reactome、KeggPathway等生物通路数据库等。
生物数据库的建设和维护需要大量的人力和物力,目前国际上已建立了众多生物数据库,为生物信息学研究提供了丰富的数据资源。
第三章:序列分析序列分析是生物信息学研究的重要内容,主要应用于DNA、RNA、蛋白质序列的比对、搜索和分析。
常用的序列分析工具包括BLAST、FASTA、ClustalW等,这些工具可以帮助研究人员快速比对和分析生物序列数据,从而挖掘出序列的相似性、保守性和功能等信息。
序列分析在基因组学、蛋白质组学和系统生物学等领域发挥着重要作用,是生物信息学研究的基础工具之一。
第四章:结构分析结构分析是生物信息学研究的另一个重要内容,主要应用于蛋白质、核酸等生物分子的三维结构预测、模拟和分析。
常用的结构分析工具包括Swiss-Model、Modeller、Phyre2等,这些工具可以帮助研究人员预测蛋白质或核酸的三维结构,分析结构的稳定性、功能和相互作用等特性。
结构分析在蛋白质结构与功能研究、蛋白质药物设计等方面发挥着重要作用,为生物信息学研究提供了重要的技术支持。
生物信息学就是一门交叉学科, 包含了生物信息得获取、加工、存储、分配、分析、解释等在内得所有方面, 它综合运用数学、计算机科学与生物学等得各种工具来阐明与理解大量数据所包含得生物学意义。
生物信息学宗旨在揭示基因组信息结构得复杂性及遗传语言得根本规律。
从生物分子获得与挖掘深层次生物学知识。
人类基因组计划(HGP):获得遗传图、物理图、序列图、转录图;终极目标:阐明人类基因组全部DNA序列;识别基因;建立储存这些信息得数据库;开发数据分析工具;研究HGP实施所带来得伦理、法律与社会问题。
其中我国承担了人类3号染色体短臂。
记录:一个数据库记录一般由两部分组成:原始序列数据与描述这些数据生物学信息得注释。
冗余:在一个数据库存在着多个相同得项,如两个或者更多得记录中有一个相同序列Fasta格式开始于一个标识符:">",然后就是一行描述。
GenBank格式:每个基因描述可有多个描述行,包含一行以LOUCUS开头描述行,基因序列以ORIGN开头,以//结尾。
EMBL:入口标识符ID,序列开始标识符SQ,结束就是//。
数据库得特点:①数据库就是可以检索得,即具有检索功能;②数据库应该就是定时更新得,即不断有新版内容发布;③数据库就是交叉引用得,特别就是在互联网时代,数据库应该通过超链接与其她数据库相连。
EST序列:表达序列标签对cDNA文库测序得到得,就是转录得DNA序列。
STS序列:序列标签位点染色体上位置已定得、核苷酸序列已知得、且在基因组中只有一份拷贝得DNA短片断,(200bp-500bp)。
STS序列标签位点就是基因组上定位明确、作为界标并能通过PCR扩增被唯一操作得短得、单拷贝DNA 序列,用于产生作图位点。
GSS序列:基因组概览测序基因组DNA克隆得一次性部分测序得到得序列。
HTG序列:高通量基因组序列三大数据库:NCBI(GenBank):美国生物技术中心,建立了一系列生物信息数据与各种服务。
1.生物信息学:生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科;它综合运用了数学、计算机学和生物学的各种工具来进行研究;目的在于阐明大量生物学数据所包含的生物学意义。
2.BLAST 直译:基本局部排比搜索工具意译:基于局部序列排比的常用数据库搜索工具含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库3.PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST和FASTA的相似序列发现率。
4.一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。
5.HMM隐马尔可夫模型:是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。
6.信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。
7.非信息位点:对于最大简约法来说没有意义的点。
8.标度树:分支长度与相邻节点对的差异程度成正比的树。
9.非标度树:只表示亲缘关系无差异程度信息。
10.有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达其他任何节点。
11.无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,可以在无根树中指派根节点。
12.注释:指从原始序列数据中获得有用的生物学信息。
这主要是指在基因组DNA中寻找基因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。
13.聚类分析:一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。
14.ESI电喷雾离子化:一种适合大分子如蛋白质离子化没有明显降解的质谱技术。
样品溶解后从高电压控制下的细针中喷出,形成的带电荷微小液滴从一个小孔直接进入质谱仪的真空室中,在其钟被一股惰性气体干燥形成气态离子,这些气态离子从分析仪向探测器加速(飞行)。
15.机制辅助的激光解析/离子化(MAIDI):这一技术通过质谱产生离子,这适合于没有降解的大蛋白质的分析。
一、名词解释
分子进化中性学说1968,木村资生提出,认为多数或绝大多数突变都是中性的,即无所谓有利或不利,因此对于这些中性突变不会发生自然选择与适者生存的情况。
生物的进化主要是中性突变在自然群体中进行随机的“遗传漂变”的结果,而与选择无关。
相似性不同染色体之间的相似程度
同源性两个核酸分子的核苷酸序列或两个蛋白质分子的氨基酸序列的相似程度
外显子断裂基因中的编码序列。
成熟mRNA上保留下的编
码序列,蛋白质生物合成过程中表达为蛋白质。
内含子断裂基因的非编码区,可被转录到前体RNA,在
mRNA加工过程中被剪切掉,成熟mRNA上无内含
子编码序列,无法表达为蛋白质。
基于距离构建系统发育树首先获得分类群间的进化距离度量,再依
据距离度量来重建一颗系统发育树,并使得该树能
最好的反应已知序列之间的距离
最大简约法根据离散型性状{包括形态学性状和分子序列(DNA,蛋白质等)}的变异程度,构建生物的系统发育树,并分析生物物种之间的演化关系。
最大似然法(ML)是完全基于统计的方法,以一个特定的替代模型分析一组序列数据,使所得的每一个拓扑结构的似然值均为最
大,筛选出最大似然值的拓扑结构为最终树
EST expressed sequence tags,表达序列标签,指从不同组
织来源的cDNA序列。
SNP Single Nucleotide Polymorphisms,单核苷酸的多态性
二、选择
1、RNA不含的碱基
T
2、生物性息学数据库检索6个last,五个程序,何时用
3、DNA.RNA连接方式、方向性、是否重复、RNA易被水解?
磷酸二酯键都5′→3′------ RNA更易水解
RNA是单链,DNA是双链,DNA水解时需要解旋,解链成单链,破坏维持它稳定的键能就需要更大的能量,所以RNA更易水解。
4、DNA 双螺旋模型,碱基配对,立体结构、
两链反向平行AT GC
5、α螺旋H链的形成
蛋白质(主)二级结构,多肽链主链围绕中心轴呈有规律的螺旋式上升,每3.6 个氨基酸残基螺旋上升一圈,向上平移0.54nm,故螺距为0.54nm,两个氨基酸残基之间的距离为0.15nm。
螺旋的方向为右手螺旋。
氨基酸侧链R基团伸向螺旋外侧,每个肽键的N-H和第四个肽键的羰基氧形成氢键,氢键的方向与螺旋长轴基本平行。
由于肽链中的全部肽键都可形成氢键,故α-螺旋十分稳定。
抗体具有4条多肽链的对称结构,其中2条较长、相对分子量较大的相同的重链(H链);2条较短、相对分子量较小的相同的轻链(L链).
6、启动子、增强子区别、大小、位置、特异性、特定序列
启动子大
相同点:都为表达调控的顺式作用元件
不同点:启动子是转录起始位点上游与RNA聚合酶结合的一段DNA 序列,而增强子是与启动子作用增强转录的一些片段,增强子的位置不固定,可以在启动子下游或上游。
7、DNA复制过程
复制的引发
DNA链的延伸
DNA复制的终止
8、蛋白质组与基因组的不同
蛋白质组:一种基因组所表达的全套蛋白质
基因组:一种生物体具有的所有的遗传信息的总和
.区别:基因组是指遗传物质.蛋白质组是基因组的表现形式.
蛋白质组随着组织、甚至环境状态的不同而改变。
一个蛋白质组不是一个基因组的直接产物,蛋白质组中蛋白质的数目有时可以超过基因组的数目。
9、生物信息学近期、远期任务
基因组相关信息的收集、储存、管理与提供,新基因的发现与鉴定,非编码区信息结构分析,生物进化的研究,完整基因组的比较研究,基因组信息分析的方法研究,蛋白质分子空间结构的预测、模拟和分子设计,
10、EST基因鉴定
从已建好的cDNA库中随机取出一个克隆,从5'末端或3'末端对插入的cDNA片段进行一轮单向自动测序,所获得的约60-500bp的一段cDNA序列。
11、基因组外显子特性、对象、区别
ORF是指mRNA上的核苷酸序列,而外显子和内含子是指DNA上的脱氧核苷酸序列。
12、蛋白质2级结构特性、准确性-------接近80%
二级结构:多肽链的某些部分氨基酸残基周期性的空间排列。
三、填空
1、中性学说的提出
分子进化中性学说1968,木村资生提出,认为多数或绝大多数突变都是中性的,即无所谓有利或不利,因此对于这些中性突变不会发生自然选择与适者生存的情况。
生物的进化主要是中性突变在自然群体中进行随机的“遗传漂变”的结果,而与选择无关。
2、tRNA的特定二级、三级结构的形状,
三叶草L形
3、核糖体组分
核糖体含有Mg2+,蛋白质和rRNA,
一般由两个亚基组成:
核糖体大亚基小亚基
真核生物80S 60S 40S
原核生物70S 50S 30S
4、20世纪三大著名计划
曼哈顿原子弹计划、阿波罗登月计划、人类基因组计划
5、6个数据库:名称、类型
三个核酸数据库:GenBank、EMBL、DDBJ
两个蛋白质数据库:PIR、Swiss-Prot
一个蛋白质结构数据库:PDB
6、RNA、DNA基本组成
7、进化理论的名称、科学家
宏观进化:1940 美国遗传学家,哥德施密特
分子进化:1964 美国化学家,莱纳斯·卡尔·鲍林
8、各大信息中心:搜索引擎、简单工具
搜索引擎:Entrez、SRS
简单工具:BLAST、FASTA
9、蛋白质的二、三级预测方法
二级预测方法:统计分析
三级预测方法:同源建模、折叠识别、从头计算法、综合法(前三)10、生物芯片的类型、制作方法
生物电子芯片、生物分析芯片
基因芯片、蛋白质芯片、细胞芯片、组织芯片
原位合成法、直接点样法
四、简答
1、生物信息学定义、意义、研究内容
●通过信息科学的理论、技术、方法管理、分析和利用生物分子信息,对生物信息进行储存、检索和分析的科学。
是一门交叉学科。
●其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
2、基因预测方法、一般步骤
最长ORF法、利用编码区与非编码区密码子选用频率的差异进行基因预测、利用ESTs预测基因
3、蛋白质结构、功能、预测流程
P83页,图
五、论述题
对生物信息学的理解、看法
真核、原核性质描述
真核细胞与原核细胞的主要区别是:
①真核细胞具有由染色体、核仁、核液、双层核膜等构成的细胞核;原核细胞无核膜、核仁,故无真正的细胞核,仅有由核酸集中组成的拟核。
②真核细胞的转录在细胞核中进行,蛋白质的合成在细胞质中进行,而原核细胞的转录与蛋白质的合成交联在一起进行。
③真核细胞有内质网、高尔基体、溶酶体、液泡等细胞器,原核细胞没有。
④真核生物中除某些低等类群(如甲藻等)的细胞以外,染色体上都有5种或4种组蛋白与DNA结合,形成核小体;而在原核生物则
无。
⑤真核细胞在细胞周期中有专门的DNA复制期(S期);原核细胞则没有,其DNA复制常是连续进行的。
⑥真核细胞的有丝分裂是原核细胞所没有的。
⑦真核细胞有发达的微管系统,其鞭毛(纤毛)、中心粒、纺锤体等都与微管有关,原核生物则否。
⑧真核细胞有由肌动、肌球蛋白等构成的微纤维系统,后者与胞质环流、吞噬作用等密切相关;而原核生物却没有这种系统,因而也没有胞质环流和吞噬作用。
⑨真核细胞的核糖体为80S型,原核生物的为70S型,两者在化学组成和形态结构上都有明显的区别。
⑩真核细胞含有的线粒体,为双层被膜所包裹,有自己特有的基因组、核酸合成系统与蛋白质合成系统,其内膜上有与氧化磷酸化相关的电子传递链。
11真核生物细胞较大,原核生物细胞较小
12真核生物一般含有细胞器(线粒体和叶绿体等),原核生物的细胞器没有膜包裹。
13真核生物新陈代谢为需氧代谢,原核生物新陈代谢类型多种多样。
14真核生物细胞壁由纤维素或几丁质组成,动物没有细胞壁,原核生物真细菌中为肽聚糖。
15真核生物动植物中为有性的减数分裂式的受精、有丝分裂,原核生物通过一分为二或出芽生殖、裂变。
16真核生物遗传重组为减数分裂过程中的重组,原核生物为单向的基因传递。
17真核生物鞭毛为卷曲式,主要由微管蛋白组成,原核生物鞭毛为旋转式,由鞭毛蛋白组成。
18真核生物用线粒体进行呼吸作用,原核生物用膜进行呼吸作用。
19真核生物在进化上是单源性的,都属于三域系统中的真核生物域,另外两个域为同属于原核生物的细菌和古菌。
但由于真核生物与古菌在一些生化性质和基因相关性上具有一定相似性,因此有时也将这两者共同归于Neomura演化支。