当前位置:文档之家› 基因组学答案

基因组学答案

基因组学答案
基因组学答案

1.什么是基因组学?基因组学有哪些特点?

以基因组分析为手段,研究基因组的结构组成、时序表达模式和功能,并提供有关生物物种及其细胞功能进化信息的一门学科。特点:Genome sciences are sequence-based,Genome sciences are data-guided (not so hypothesis-driven),Genome sciences is a systematic approach。

2.什么是模式生物?

生物学家通过对选定的生物物种进行科学研究,用于揭示某种具有普遍规律的生命现象,此时,这种被选定的生物物种为模式生物。在人类基因组计划中,包括对五种生

物基因组的研究:大肠杆菌、酵母、线虫、果蝇和小鼠,称之为人类的五种“模式生物”。

3.人类基因组计划是哪一年完成的?在科学上有什么意义?

2000年完成了人类基因组“工作框架图”。2001年公布了人类基因组图谱及初步分析结果。

意义:

首先,获得人类全部基因序列将有助于人类认识许多遗传疾病以及癌症等疾病的致病机理,为分子诊断、基因治疗等新方法提供理论依据。

第二,破译生命密码的人类基因组计划有助于人们对基因的表达调控有更深入的了解。4.基因组学的发展方向是什么?

5. 3 大公共DNA 数据库名称是什么?

EMBL,GenBank,DDBJ。

6.什么是一级数据库和二级数据库?

Primary Databases:Original submissions by experimentalists,Content controlled by the submitter。

Derivative Databases:Built from primary data,Content controlled by third party。

7.什么是NCBI 的Refseq?什么是Unigene?Unigene 和Refseq 的区别和联系。

RefSeq (accessible via the main page of NCBI) provides an expertly curated accession number that corresponds to the most stable, agreed-upon “reference” version of a sequence.

Unigene:MegaBlast based automated sequence clustering,Nonredundant set of gene oriented clusters,Each cluster a unique gene,Information on tissue types and map locations,Includes known genes and uncharacterized ESTs,Useful for gene discovery and selection of mapping reagents。

8.GEO 是什么类型数据库,主要包含什么类型数据?

9.大致介绍一下UCSC GENOME BROWSER?

Stands for “Encyclopedia Of DNA Elements”,Public research consortium to carry out a project to identify all functional elements in the human genome sequence,Launched by The National Human Genome Research Institute (NHGRI),Conducted in three phases:pilot project phase,technology development phase,planned production phase。

10.HAVANA 基因是什么类型数据?

11.什么是细菌人工染色体(BAC)

是指一种以F质粒(F-plasmid)为基础建构而成的细菌染色体克隆载体,常用来克隆150kb左右大小的DNA片段,最多可保存300kb个碱基对。

12.什么是遗传图谱?用来构建遗传图谱的标记有哪些?

应用遗传学分析方法将基因或其他DNA 顺序标定在染色体上构建的连锁图。标记:基因标记(性状标记),DNA标记,

13.什么是物理图谱?遗传图谱和物理图谱的区别和联系

应用分子生物学技术来直接将DNA标记、基因或克隆标定在基因组实际位置。

前者是描述的基因相对位置,后者是具体的碱基位置。遗传图谱是某一物种的染色体图谱,显示所知的基因和/或遗传标记的相对位置,而不是在每条染色体上特殊的物理位置。由遗传重组测验结果推算出来的、在一条染色体上可以发生的突变座位的直线排列图。物理图谱是利用限制性内切酶将染色体切成片段,再根据重叠序列确定片段间连接顺序,以及遗传标志之间物理距离的图谱。

14.如何构建物理图谱?

采用制性作图,荧光原位杂交,序列标签位点( STS )作图和克隆作图的方法构建物理图谱。

15.SANGER 测序方法的原理。

利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。

16.二代测序的原理。

边合成边测序,将4种不同的dNTP标记上不同的荧光,利用DNA聚合酶合成互补链时,每添加一种dNTP就释放不同的荧光,根据捕获的荧光信号,获得待测片段的序列信息。

17.如何构建mate-pair 文库。

首先将基因组DNA随机打断到特定大小;然后经末端修复,生物素标记和环化等实验步骤后,再把环化后的DNA分子打断成400-600bp的片段并通过带有链亲和霉素的磁珠把那些带有生物素标记的片段捕获。这些捕获的片段再经末端修饰和加上特定接头后建成大片段文库,不需要克隆到细菌中,直接在Genome Analyzer上对这些大片段文库的两端进行测序。

18.2000 年公布的人类基因组框架图,分别由哪两种测序策略指导完成的?

克隆步移法,全基因组鸟枪法。

19.什么是reads,什么是contig,什么是Scaffold,什么是N50?

Reads包括两方面:Pair-end reads(Sequence reads derived from both ends of a sequencing-library clone.)。Mate-pair reads.(Sequence reads derived from both ends of a mate-pair library clone which insert size is usually >1kb.)。

contig:The result of joining an overlapping collection of sequence reads。

Scaffold:The result of connecting non-overlapping contigs.

N50:As applied to contigs or scaffolds, that size above which 50% of the assembled sequence can be found.

20.基因组完成图一般错误率是多少?

High Accuracy Sequence:< 1 error/ 10,000 bases。

21.Phred/phrap/consed 软件分别起什么作用

Phred:reads trace files,calls bases,Assigns quality values to the bases ,Creates output files .

Phrap: assembling shotgun DNA data.

consed:viewing and editing assemblies produced by Phrap.

22.Phred数值20代表什么,40又代表什么.

q = - 10 x log10(p).q - quality value,p - estimated probability error for a base call.q = 20 means p =10-22(1 error in 100 bases) q = 40 means p= 10-4(1 error in 10,000 bases).

23.基因组组装的两类算法是什么?各自代表性软件有哪些?

Overlap-layout-Consensus (OLC)[Hamilton路径类算法],和De Bruijn Graph (DBG)[Euler 路径类算法]。Hamilton路径类算法包括:Phrap, CAP3, TIGR, GigAssembler。Euler 路径类算法:Velvet。

24.什么是lander Waterman 模型?

Lander-Waterman模型利用鸟枪法进行测序,再将大量随机测序的片段用计算机进行自动拼接。用于评估:cloning biases in shotgun libraries,repeats,GC/AT rich regions,和other low complexity regions。

25.如何根据基因组序列的kmer 分布估计基因组大小?原理是什么?

Before estimating the genome size, we set a hypothesis: the k-mer we picked out from the genome can ergodic the whole genome sequence. According to the Lander waterman algorithm, the algorithm should be represented as: G= K num / K depth,Here, G is the genome size, K num is the total number of k-mer and K depth is the expected depth of the k-mer. If we obtain the expected depth of k-mer, we can calculate the genome size. Because the distribution of k-mer frequency yields to Poisson distribution, we can consider the peak of the k-mer distribution curve as the expected depth of k-mer and calculate the genome size.

26.什么是CpG 岛?

基因组中富含GC碱基的DNA区段。

27.真核生物中重复序列主要有哪些?

1.Interspersed repeats ,

2. Processed pseudogenes,

3.Simple sequence

repeats.4.Segmental duplication.5.Blocks of tandem repeats

28.如何注释基因组中的基因?

通过重复序列的预测,编码基因的预测,小RNA基因的预测和调控序列及假基因的预测注释基因。

29.有几种高通量的方法研究基因的表达水平?各自特点是什么?

① Northern Blot,RT-PCR,Real-time PCR,这几类方法是分析mRNA相对表达水平。

属于定量方法。

②ESTs(表达序列标签),SAGE(基因表达系列分析),CAGE(cap analysis gene

expression),RNA-seq,Non-subtracted cDNA:sequencing data for expression study,属于定性分析方法。

30.SAGA 和CAGE 的区别与联系?

31.什么是RPKM?

基因表达丰度:

RPKM= 专一比对到外显子的序列数*109/(外显子长度×专一比对的所有序列数)

32.介绍一下microarray 或RNA-seq 分析基因表达谱分析流程

Experimental design RNA preparation Hybridization to DNA arrays Image analysis Microarray data analysis Biological confirmation Microarray databases

33.什么是直系同源,什么是旁系同源

直系同源(ortholog):两个物种中的同一基因

旁系同源(paralog):两个基因在同一物种中,通过至少一次基因复制的事件而产生。34.什么是分子钟?

For every given protein, the rate of molecular evolution is approximately constant in all evolutionary lineages

35.什么是无根树,什么是有根树?

有根树中,有一个叫根(root)的特殊结点,用来表示共同的祖先,由该点通过唯一途径可产生其他结点;有根树是具有方向的树,包含唯一的节点,将其作为树中所有物种的最近共同祖先。无根树只是指明了种属的相互关系,没有确认共同祖先或进化途径。

36.基因树与物种树之间的区别与联系?

基因树:由来自各个物种的一个基因构建的系统发育树,表示基因分离的时间。

物种树:代表一个物种或群体进化历史的系统发育树,表示两个物种分歧的时间。

区别:(1)对于某一被研究的基因,可能存在种内多态性,即在物种分化之前,该基因可能已经开始分化。所以两物种间该基因的分化时间可能早于这两个物种的分化的时间。

由这一基因计算而来的分支长度(分歧时间)可能偏离.(2)基因树的分支情况(拓扑结构)可能不同于物种树。

37.常用建树方法有几种?

UPGMA法(非加权组平均法),邻接NJ法,最大简约法,最大似然法。

38.UPGMA 与NJ 法建树原理

UPGMA:①以已求得的距离系数,所有比较的分类单元的成对距离构成一个t×t方阵,即建立一个距离矩阵M。②对于一个给定的距离矩阵,寻求最小距离值Dpq。③定义

类群p和q之间的分支深度Lpq=Dpq/2。④若p和q是最后一个类群,侧聚类过程完成,否侧合并p和q成一个新类群r。⑤定义并计算新类群r到其他各类群i(i≠p和q)的距离Dir=(Dpi+Dqi)/2。⑥回到第一步,在矩阵中消除p和q,加入新类群r,矩阵减少一阶,重复进行直至达到最后归群。

NJ法:①对于给定距离矩阵中的每一端结i,用下式计算与其它分类单元之间的净趋异量(Ri) (t:矩阵中的分类单元数) ②建立一个速率校正距离矩阵M,其元素由下式确定: ③定义一个新节点u,u的三个分支分别与节点i,j和树的其余部分相连,并且Dij为矩阵中距离最小者,u到节点i和j的分支长度定义为④定义u到树的其它节点k(k≠i和j外的所有节点)的距离: ⑤从距离矩阵中删除i和j的距离,矩阵减少一阶。⑥如果矩阵仍然多于两个的节点,重复第①-----⑤步,否则除最外两个节点的分支长度来确定外,树上其余节点都确定,最后是剩余的2个的分支长度Sy=Dij。

39.如何判断进化树的可靠性?

40.目前基因组最大的病毒是什么,有什么特点?

mimivirus is by far the largest virus identified to date.

genome is 1.2 Mb,double-stranded DNA virus,Two inverted repeats of 900 base pairs at the ends,72% AT content,1262 putative open-reading frames (ORFs) of length,>100 amino acids translation. Unique features include genes predicted to encode proteins that function in protein translation.

41.病毒基因组进化有哪些机制?

1.Mutation

2. Recombination

3. Reassortment

4. Selection

42.移变和漂变

Genetic drift(漂变): slow accumulation of mutations in a population. Due to copying errors and immune selection.

Genetic shift(移变): a major genetic change caused by recombination or reassortment of genomes.

43.地球上丰度最高的细菌是什么?

44.目前已知具有最小基因组的细菌是什么?其基因组有何特点?

Candidatus Carsonella ruddii PV,

特点:1. Endoysmbiont of psyllids, sap-feeding insects,97.3 % genic DNA (protein and

functional RNA),90% of ORF are overlaping,Average ORF length is only 826 bp,More than half of the ORFs devoted to only two functional categories: translation (34.6%) and amino acid metabolism (16.6%),Lacks many genes essential for bacterium-specific processes。

45.什么是GCskem?

46.什么是侧向基因转移,如何检测?

Lateral gene transfer (LGT), also called horizontal gene transfer (HGT), is a phenomenon in which a genome acquires a gene from another organism directly, but not by descent. The gene transfer is unidirectional (rather than involving a reciprocal exchange of DNA).

47.酵母基因组是如何进化的?

48.原生生物副机体纲生物基因组有什么特点?

49.人类基因组有什么特点?编码多少基因?

50.什么是单基因疾病和多基因疾病?

如果一种遗传病的发病仅仅涉及一对基因,这个基因称为主基因,其导致的疾病称为单基因病。

多基因遗传病指某种疾病的发生受两对以上等位基因的控制,它们的基本遗传规律也遵循孟德尔的遗传定律,但多基因遗传病除了决定于遗传因素之外,还受着环境等多种复杂因素的影响,故也称多因子病。

基因组学复习题

基因组学复习题 Prepared on 22 November 2020

第1章 1)什么是C-值悖理什么是N-值悖理 C-值悖理:生物基因组的大小同生物进化所处地位的高低无关的现象。 N-值悖理:基因数目与进化程度或生物复杂性的不对应性,称之为N值悖理 2)什么是序列复杂性 基因组中不同序列的DNA总长,用bp 表示。 3)RNA分子有哪些种类 mRNA tRNA rRNA scRNA snRNA snoRNA 小分子干扰RNA 4)不编码蛋白质的RNA包括哪些类型 tRNA rRNA scRNA snRNA snoRNA 小分子干扰RNA 5)什么是假基因假基因是如何形成的 来源于功能基因但已失去活性的DNA序列,有沉默的假基因,也有可转录的假基因。 产生假基因的原因有很多,如编码序列出现终止密码子突变,或者插入和缺失某些核苷酸使mRNA移码,造成翻译中途停止或者异常延伸,合成无活性的蛋白质。 6)假基因能否表达为什么 能,假基因相对于原来的基因已经失去功能但是可能产生新的功能。 最初人们认为, 假基因是不能转录的基因, 随着基因组数据的积累, 现在已知有不少假基因仍然保持转录的活性, 特别是起源于重复基因的假基因和获得启动子加工的假基因,但假基因的转录产物已失去原有的功能, 如产生残缺蛋白质。 7)如何划分基因家族什么是超基因家族 基因家族:将来自共同的祖先,因基因加倍或变异产生了许多在DNA序列组成上基本一致而略有不同的成员划分为一个基因家族。 超基因家族:起源于共同祖先,由相似DNA序列组成的许多基因亚家族或相似的基因成员构成的群体,它们具有相似的功能。 8)低等生物与高等生物基因组组成有何差别为什么会产生这些差别 低等生物:1)结构紧凑,一般不存在内含子(古细菌除外); 2)大小在5 Mb以下; 3)缺少重复序列; 4)很少非编码序列。

基因组学的研究内容

基因组学的研究内容 结构基因组学: 基因定位;基因组作图;测定核苷酸序列 功能基因组学:又称后基因组学(postgenomics基因的识别、鉴定、克隆;基因结构、功能及其相互关系;基因表达调控的研究 蛋白质组学: 鉴定蛋白质的产生过程、结构、功能和相互作用方式 遗传图谱 (genetic map)采用遗传分析的方法将基因或其它dNA序列标定在染色体上构建连锁图。 遗传标记: 有可以识别的标记,才能确定目标的方位及彼此之间的相对位置。 构建遗传图谱 就是寻找基因组不同位置上的特征标记。包括: 形态标记; 细胞学标记; 生化标记;DNA 分子标记 所有的标记都必须具有多态性!所有多态性都是基因突变的结果! 形态标记: 形态性状:株高、颜色、白化症等,又称表型标记。 数量少,很多突变是致死的,受环境、生育期等因素的影响 控制性状的其实是基因,所以形态标记实质上就是基因标记。

细胞学标记 明确显示遗传多态性的染色体结构特征和数量特征 :染色体的核型、染色体的带型、染色 体的结构变异、染色体的数目变异。优点:不受环境影响。缺点:数量少、费力、费时、对生物体的生长发育不利 生化标记 又称蛋白质标记 就是利用蛋白质的多态性作为遗传标记。 如:同工酶、贮藏蛋白 优点: 数量较多,受环境影响小 ?

缺点: 受发育时间的影响、有组织特异性、只反映基因编码区的信息 DNA 分子标记: 简称分子标记以 DNA 序列的多态性作为遗传标记 优点: ? 不受时间和环境的限制 ? 遍布整个基因组,数量无限 ?

不影响性状表达 ? 自然存在的变异丰富,多态性好 ? 共显性,能鉴别纯合体和杂合体 限制性片段长度多态性(restriction fragment length polymorphism , RFLP ) DNA 序列能或不能被某一酶酶切,

生物信息学试题整理

UTR的含义是(B ) A.编码区 B. 非编码区 C. motif的含义是(D )。 A.基序 B. 跨叠克隆群 C. algorithm 的含义是(B )。 A.登录号 B. 算法 C. RGR^ (D )。 A.在线人类孟德尔遗传数据 D.水稻基因组计划 下列Fasta格式正确的是(B) 低复杂度区域 D. 幵放阅读框 碱基对 D. 结构域 比对 D. 类推 B. 国家核酸数据库 C. 人类基因组计划 A. seql: agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta B. >seq1 agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta C. seq1:agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta D. >seq1agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta 如果我们试图做蛋白质亚细胞定位分析,应使用(D) A. NDB 数据库 B. PDB 数据库 C. GenBank 数据库 D. SWISS-PROT 数

据库 Bioinformatics 的含义是(A )。 A. 生物信息学 B. 基因组学 C. 蛋白质组学 D. 表观遗传学 Gen Bank中分类码PLN表示是(D )。 A.哺乳类序列 B. 细菌序列 C.噬菌体序列 D. 植物、真菌和藻类序列 ortholog 的含义是(A)0 A.直系同源 B.旁系同源 C.直接进化 D.间接进化 从cDNA文库中获得的短序列是(D )o A. STS B. UTR C. CDS D. EST con tig的含义是(B )o A.基序 B. 跨叠克隆群 C. 碱基对 D. 结构域 TAIR (AtDB)数据库是(C)o A.线虫基因组 B. 果蝇基因组 C. 拟南芥数据库 D. 大肠杆菌基因组ORF的含义是(D )o A.调控区 B. 非编码区 C.低复杂度区域 D. 幵放阅读框

进化基因组学研究进展

研究进化基因组学进展 摘要:进化基因组学是利用基因组数据研究差异基因功能、生物系统演化、从基因在水平探索生物进化的学科。随着近年来基因组数据的不断增加,进化基因组学得到了长足的发展。进化基因组学主要包括从基因组水平理解和诠释生物进化和新基因分析研究探索两方面的内容。本文介绍了进化基因组学研究的主要内容和较为常用的方法,以及近年来在细菌、酵母、果蝇进化基因组学方面的研究进展。 关键词:进化基因组学系统进化比较基因组学新基因 正文 随着基因测序技术的不断进步以及基因组学的飞速的发展,人们积累了大量的基因组学数据,利用所得的大量的基因组数据与进化生物学相结合,在基因组水平研究生物进化机制,随即产生了进化基因组学。 近年来进化基因组学取得了长足的进展,在研究差异基因功能、生物系统演化、从基因在水平探索生物进化的终极方式等方面有重大突破,对人类理解生命现象和过程有重要作用。 研究系统进化学通常包括两个关键步骤:一方面,在不同物种中鉴定同源性特佂,另一方面利用构建系统进化树的方法比较这些特征,进而重新构建这些物种的进化历史[1]。针对这两个关键步骤,传统系统进化学,常采用基于形态学数据和单个基因研究的同源性状鉴定和重建系统进化树(常包括距离法、最大简约法、概率法)[1]的方法来研究。在目前拥有丰富基因组数据的条件下,我们可以分析基因组数据,利用进化基因组学研究系统进化。 一、目前进化基因组学的研究内容主要集中于两个方面:(1)在比较不同生物的基因数据的基础上,从基因组水平理解和诠释生物进化;(2)通过对新基因的分析研究探索基因进化过程的规律两个方面。在进行全基因组进化分析方面,进化基因组学主要集中于构建系统进化树、研究基因组进化策略、研究生物功能变化和进化机制、进化和生态功能基因组学、基因注释的等方面;在新基因方面

基因组学试题

基因组学试题 1、什么是基因组(5分)?什么是转录组(5份)?说明基因组 合的关系和异同(10分)基因组是生物体(细胞或病毒)中所有的DNA的总和, 包括所有的基因和基因间区域,包 括染色体之外的遗传物质,如线粒体、叶绿体、质粒等。 基因组:物种内恒定(♀/♂),生物体或细胞内恒定,没有时空变化(?)。事实上有特例,1、盲鳗(Hugfish) ,性细胞和体细胞DNA 量差异; 2、部分昆虫,性细胞和体细胞染色体数目差异; 3、动物雌雄个体差异 转录组: ?生物体、组织、细胞不同生长发育阶段的转录产物不同。 ?生物体不同组织、同一组织不同细胞的转录产物不同。 ?生物体、组织、细胞不同环境、不同生理状态下的转录产物 不同。 ?转录产物中包含大量不翻译蛋白的RNA,如rRNA; sRNA 2、简述原核生物基因组和真核生物基因组的特点和差异(10分)原核生物基因组 ?一条环状DNA; ?只有一个复制起始点; ?有操纵子(Operon)结构

1.结构基因为多顺反子,若干个功能相关的功能基因串联在一起, 手统一调控区调控。 2.数个操纵子还可以受同一个调节基因(regulaterygene),即调节 子(regulon)调控。 ?结构基因无重叠现象,基因组中任何一段DNA不会用于编码2种蛋白质 ?基因是连续的,无内含子,转录后不剪接; ?重复序列少,蛋白质基因一般为单拷贝基因,但编码rRNA的基因一般为多拷贝,有利于核糖体快速组装。 真核生物基因组 ?复杂的染色体结构,一般有多条染色体 ?每条染色体上有多个复制起始点; ?基因组中有大量的重复序列(轻度、中度、高度重复); ?基因是不连续的,有内含子,转录后经过剪接加工成成熟RNA;?有许多来源相同、结构相似、功能相关的基因组成的单一基因簇,或基因家族 ?有细胞器基因,真核生物除具有核基因外,还有存在于线粒体和叶绿体中基因,编码同功酶等。 3、什么是遗传图谱(5分)?遗传图谱在基因组研究中的意义 何在(15分)?采用遗传学分析方法将基因或其它DNA标记

基因组学重点整理

生物五界:动物、植物、真菌、原生生物和原核生物;生物三界:真细菌、古细菌、真核生物 具有催化活性的RNA分子称为核酶(ribozyme)核酶催化的生化反应有:自我剪接、催化切断其它RNA、合成多肽键、催化核苷酸的合成 新基因的产生:基因与基因组加倍1)整个基因组加倍;2)单条或部分染色体加倍;3)单个或成群基因加倍。DNA水平转移:原核生物中的DNA水平转移可通过接合转移,噬菌体转染,外源DNA的摄取等不同途径发生,水平转移的基因大多为非必须基因。动物中由于种间隔离不易进行种间杂交,但其主要来源于真核细胞与原核细胞的内共生。动物种间基因转移主要集中在逆转录病毒及其转座成分。 外显子洗牌与蛋白质创新:产生全新功能蛋白质的方式有二种:功能域加倍,功能域或外显子洗牌 基因冗余:一条染色体上出现一个基因的很多复份(复本)当人们分离到某一新基因时,为了鉴定其生物学功能,常常使其失活,然后观察它们对表型的影响。许多场合,由于第二个重复的功能基因可取代失活的基因而使突变型表型保持正常。这意味着,基因组中有冗余基因存在。看家基因很少重复,它们之间必需保持剂量平衡,因此重复的拷贝很快被淘汰。与个体发育调控相关的基因表达为转录因子,具有多功能域的结构。这类基因重复拷贝变异可使其获得不同的表达控制模式,促使细胞的分化与多样性的产生,并导致复杂形态的建成,具有许多冗余基因。 非编码序列扩张方式:滑序复制、转座因子 模式生物海胆、果蝇、斑马鱼、线虫、蟾蜍、小鼠、酵母、水稻、拟南芥等。模式生物基因组中G+C%含量高, 同时CpG 岛的比例也高。进化程度越高, G+C 含量和CpG 岛的比例就比较低 如果基因之间不存在重叠顺序,也无基因内基因(gene-within-gene),那么ORF阅读出现差错的可能只会发生在非编码区。细菌基因组中缺少内含子,非编码序列仅占11%, 对阅读框的排查干扰较少。细菌基因组的ORF阅读相对比较简单,错误的机率较少。高等真核生物DNA的ORF阅读比较复杂:基因间存在大量非编码序列(人类占70%);绝大多数基因内含有非编码的内含子。高等真核生物多数外显子的长度少于100个密码子 内含子和外显子序列上的差异:内含子的碱基代换很少受自然选择的压力,保留了较多突变。由于碱基突变趋势大多为C-T,故A/T的含量内含子高于外显子。由于终止密码子为TAA\TAG\TGA,如果以内含子作为编码序列,3种读码框有很高比例的终止密码子。 基因注释程序编写的依据:1)信号指令,包括起始密码子,终止密码子,终止信号,剪接受体位和供体位,多聚嘧啶序列,分支点保守序列2)内容指令,密码子偏好,内含子和外显子长短 基因功能的检测:基因失活、基因过表达、RNAi干涉 双链DNA的测序可从一端开始,亦可从两端进行,前者称单向测序,后者称双向测序。 要获得大于50 kb的DNA限制性片段必需采用稀有切点限制酶。 酵母人工染色体(YAC)1)着丝粒在细胞分裂时负责染色体均等分配。2)端粒位于染色体端部的特异DNA序列,保持人工染色体的稳定性3)自主复制起始点(ARS)在细胞中启动染色体的复制 合格的STS要满足2个条件:它应是一段序列已知的片段,可据此设计PCR反应来检测不同的DNA片段中是否存在这一顺序;STS必需在染色体上有独一无二的位置。如果某一STS在基因组中多个位点出现,那么由此得出的作图数据将是含混不清的。 遗传图绘制主要依据由孟德尔描述的遗传学原理,第一条定律为等位基因随机分离,第二条定律为非等位基因自由组合,显隐性规律/不完全显性、共显性、连锁 衡量遗传图谱的水平覆盖程度饱和程度 基因类型:transcribed, translatable gene (蛋白基因) ;transcribed but non-translatable gene ( RNA基因)Non- transcribed, non-translatablegene ( promoter, operator ) rRNA基因,tRNA基因, scRNA基因, snRNA基因, snoRNA基因, microRNA基因 基因组(genome):生物所具有的携带遗传信息的遗传物质总和。 基因组学(genomic):用于概括涉及基因作图、测序和整个基因功能分析的遗传学分支。 染色体组(chromosome set):不同真核生物核基因组均由一定数目的染色体组成,单倍体细胞所含有的全套染色体。 比较基因组学(comparative genomics):比较基因组学是基因组学与生物信息学的一个重要分支。通过模式生物基因组与人类基因组之间的比较与鉴别,为分离重要的候选基因,预测新的基因功能,研究生物进化提供依据。(目标)

分子生物学试题_完整版(Felisa)

05级分子生物学真题 一、选择题 1、激活子的两个功能域,一个是转录激活结构域,另一个是(DNA结合域) 2、转录因子包括通用转录因子和(基因特异转录因子) 3、G-protein激活needs(GTP)as energy. 4、Promoters and(enhancers)are cis-acting elements. 5、噬菌体通过(位点专一重组)整合到宿主中 6、在细菌中,色氨酸操纵子的前导区转录后,(翻译)就开始 7、mRNA的剪切跟(II)类内含子相似 8、UCE是(I)类启动子的识别序列 9、TATA box binding protein在下列哪个启动子里面存在(三类都有) 10、(5S rRNA)是基因内部启动子转录的 11、人体全基因组大小(3200000000bp) 12、与分枝位点周围序列碱基配对的剪接体(U2snRNP) 13、tRNA基因是RNA聚合酶(III)启动的 14、在细菌中,色氨酸操纵子的前导区转录后,(翻译)就开始 15、乳糖操纵子与阻遏蛋白结合的物质是(异构乳糖)。 16、核mRNA的内含子剪接和(II类内含子剪接)的过程相似 17、基因在转录时的特点(启动子上无核小体) 18、RNA干涉又叫(转录后的基因沉默,PTGS) 19、内含子主要存在于(真核生物) 20、snRNA在下列哪种反应中起催化酶的作用(mRNA的剪接) 二、判断题 1、原核生物有三种RNA聚合酶。 2、抗终止转录蛋白的机制是使RNA聚合酶忽略终止子。 3、RNA聚合酶II结合到启动子上时,其亚基的羧基末端域(CTD)是磷酸化的。 4、Operon is a group of contiguous,coordinately controlled genes. 5、RNA聚合酶全酶这个概念只应用于原核生物。 6、聚腺苷酸尾是在mRNA剪接作用前发生的。 7、σ在转录起始复合复合物中使得open到closed状态(closed转变成open) 8、剪接复合体作用的机制:组装、作用、去组装,是一个循环 三、简答题 1、原核生物转录终止的两种方式。 2、组蛋白乙酰化对基因转录的影响。 3、G蛋白在翻译中的作用有哪些? 4、什么是转座?转座子有哪些类型? 5、简述增强子的作用机制。 04级分子生物学期末题目 一、选择题(20题) 1、tRNA的5端剪切所需的酶(RNase P) 2、人体全基因组大小(3,200,000,000bp) 3、(5S rRNA)是基因内部启动子转录的 4、线虫反式剪接所占比例(10%-20%) 5、与分枝位点周围序列碱基配对的剪接体(U2snRNP)

系统生物学综述doc

系统生物学:整合各种组学的信息和方法 姓名:王玉锋 学号:061023050 20世纪生物学经历了由宏观到微观的发展过程,由形态、表型的描述逐步分解、细化到生物体的各种分子及其功能的研究。70年代出现的基因工程技术极大地加速和扩展了分子生物学的发展;90年代启动的人类基因组计划是生命科学史上第一个大科学工程,开始了对生物全面、系统研究的探索;2003年已完成了人和各种模式生物体基因组的测序,第一次揭示了人类的生命密码。人类基因组计划和随后发展的各种组学技术把生物学带入了系统科学的时代。 系统生物学是在细胞、组织、器官和生物体整体水平研究结构和功能各异的各种分子及其相互作用,并通过计算生物学来定量描述和预测生物功能、表型和行为。也就是说,系统生物学是以整体性研究为特征的一种大科学。系统生物学将在基因组序列的基础上完成由生命密码到生命过程的研究,这是一个逐步整合的过程,由生物体内各种分子的鉴别及其相互作用的研究到途径、网络、模块,最终完成整个生命活动的路线图。 借助于基因组和转录组的序列、功能基因组和蛋白质组的方法,可以绘制特定有机体的转录组图、蛋白质组图、相互作用图谱、表型组图及所有转录物和蛋白的定位图。这种整合的组学信息可以帮助我们消除单种组学研究方法中带来的假阳性和假阴性,给出基因产物及其相互作用和关系的更好的功能性注释,有利于相关的生物性假设的生成。基于这些整合数据的计算学的方法可以模拟生物过程的进程。系统生物学可以被看作是个种组学方法的整合、数据的整合、生物的系统化和模型化。 系统生物学的特点: 和以往系统科学研究复杂系统相比,系统生物学的研究将更为复杂和困难。非生物的复杂系统一般由相对简单的元件组合产生复杂的功能和行为,而生物体是由大量结构和功能不同的元件组成的复杂系统,并由这些元件选择性和非线性的相互作用产生复杂的功能和行为。因此,我们要建立多层次的组学技术平台,研究和鉴别生物体内所有分子,研究其功能和相互作用,在各种技术平台产生的大量数据的基础上,通过计算生物学用数学语言定量描述和预测生物学功能和生物体表型和行为。 系统生物学也将使生物学研究发生结构性的变化。长期以来,生物学研究是在规模较小的实验室进行的,系统生物学研究将由各种组学组成的大科学工程和小型生物学实验室有机结合实施的。系统生物学研究也将在更大范围和更高层次进行学科交叉和国际合作,如人类基因组计划、人类单体型图谱计划、人类表观基因组学计划等。 系统生物学的技术平台: 系统生物学的主要技术平台为基因组学、转录组学、蛋白质组学、代谢组学、相互作用组学和表型组学等。基因组学、转录组学、蛋白质组学、代谢组学分别在DNA、mRNA、蛋白质和代谢产物水平检测和鉴别各种分子并研究其功能。相互作用组学系统研究各种分子间的相互作用,发现和鉴别分子机器、途径和网络,构建类似集成电路的生物学模块,并在研究模块的相互作用基础上绘制生物体的相互作用图谱。表型组学是生物体基因型和表型的桥梁,目前还仅在细胞水平开展表型组学研究。 计算生物学可分为知识发现和模拟分析两部分。知识发现也称为数据开采,是从系统生物学各个组学实验平台产生的大量数据和信息中发现隐含在里面的规律并形成假设。模拟分析是用计算机验证所形成的假设,并对体内、外的生物学实验进行预测,最终形成可用于各种生物学研究和预测的虚拟系统。 系统生物学的工作流程: 系统生物学的基本工作流程有这样四个阶段。首先是对选定的某一生物系统的所有组分进行了解和确定,描绘出该系统的结构,包括基因相互作用网络和代谢途径,以及细胞内和细胞间的作用机理,以此构造出一个初步的系统模型。第二步是系统地改变被研究对象的内部组成成分(如基因突变)或外部生长条件,然后观测在这些情况下系统组分或结构

基因组学(结构基因组学和功能基因组学).

问:基因组学、转录组学、蛋白质组学、结构基因组学、功能基因组学、比较基因组学研究有哪些特点? 答:人类基因组计划完成后生物科学进入了人类后基因组时代,即大规模开展基因组生物学功能研究和应用研究的时代。在这个时代,生命科学的主要研究对象是功能基因组学,包括结构基因组研究和蛋白质组研究等。以功能基因组学为代表的后基因组时代主要为利用基因组学提供的信息。 基因组研究应该包括两方面的内容:以全基因组测序为目标的结构基因组学(struc tural genomics和以基因功能鉴定为目标的功能基因组学(functional genomics。结构基因组学代表基因组分析的早期阶段,以建立生物体高分辨率遗传、物理和转录图谱为主。功能基因组学代表基因分析的新阶段,是利用结构基因组学提供的信息系统地研究基因功能,它以高通量、大规模实验方法以及统计与计算机分析为特征。 功能基因组学(functional genomics又往往被称为后基因组学(postgenomics,它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质的研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。 基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的分析。新的技术应运而生,包括基因表达的系统分析,cDNA微阵列,DNA芯片等。鉴定基因功能最有效的方法是观察基因表达被阻断或增加后在细胞和整体水平所产生的表型变异,因此需要建立模式生物体。 功能基因组学

基因组学复习题

第1章 1)什么是C-值悖理?什么是N-值悖理? C-值悖理:生物基因组的大小同生物进化所处地位的高低无关的现象。 N-值悖理:基因数目与进化程度或生物复杂性的不对应性,称之为N值悖理 2)什么是序列复杂性? 基因组中不同序列的DNA总长,用bp 表示。 3)RNA分子有哪些种类? mRNA tRNA rRNA scRNA snRNA snoRNA 小分子干扰RNA 4)不编码蛋白质的RNA包括哪些类型? tRNA rRNA scRNA snRNA snoRNA 小分子干扰RNA 5)什么是假基因?假基因是如何形成的? 来源于功能基因但已失去活性的DNA序列,有沉默的假基因,也有可转录的假基因。 产生假基因的原因有很多,如编码序列出现终止密码子突变,或者插入和缺失某些核苷酸使mRNA移码,造成翻译中途停止或者异常延伸,合成无活性的蛋白质。 6)假基因能否表达? 为什么? 能,假基因相对于原来的基因已经失去功能但是可能产生新的功能。 最初人们认为, 假基因是不能转录的基因, 随着基因组数据的积累, 现在已知有不少假基因仍然保持转录的活性, 特别是起源于重复基因的假基因和获得启动子加工的假基因,但假基因的转录产物已失去原有的功能, 如产生残缺蛋白质。 7)如何划分基因家族? 什么是超基因家族? 基因家族:将来自共同的祖先,因基因加倍或变异产生了许多在DNA序列组成上基本一致而略有不同的成员划分为一个基因家族。 超基因家族:起源于共同祖先,由相似DNA序列组成的许多基因亚家族或相似的基因成员构成的群体,它们具有相似的功能。 8)低等生物与高等生物基因组组成有何差别?为什么会产生这些差别? 低等生物:1)结构紧凑,一般不存在内含子(古细菌除外); 2)大小在5 Mb以下; 3)缺少重复序列; 4)很少非编码序列。

麻省理工大学课件:系统微生物学11-基因组学I(笔记)

20.106J – Systems Microbiology Lecture 11 Prof. DeLong ?Chapter 15 – Brock Genomics o DNA sequencing technology – things have really changed. There’s a real race going on for who can develop the best technology Human genome project: only around 30,000 genes in the human code. The day is not at all far off when doctors will read people’s genomes to discover what their inherent risks are. The human genome project involved two main groups – one more commercially based (J. Craig Venter – Celera), and one more public, open source, with funding from NIH (Francis Collins – NHGRI). Also the Sanger Centre, Whitehead Institute… The human genome project drove innovation in biotechnology. Two major technological benefits: o Stimulated development of high throughput methods – the assembly line. It’s not just the individual with a pipette any more – it’s more like a factory approach (which matters for the social aspect of how science works). However, this might work back in the other direction as efficient machines develop… o Reliance on computational tools for data mining and visualization of biological information Biology is rapidly becoming informational science – bioinformatics and computational biology. DNA sequencing o Sanger’s technique Uses primer extension and DNA polymerase Dideoxynucleotides halt the replication at particular base pairs. Then you run for length on a slab gel, and you can tell which base pairs are at which locations, reading off the sequence and recording them manually. o Later people realized that you can use fluorescent labels instead of radiolabels. This meant that you didn’t have to deal with radioactivity It also meant that you could run them all in one lane. Instead of a slab gel, people use a thin tube, with a fluorescence detector automatically reading the wavelengths as they come out the other end. This method is fast and accurate

真菌生命树的系统发生和系统基因组学

真菌生命树的系统发生和系统基因组学 近二三十年来,分子系统发生学从最初的建立到不断发展,已成为真菌的比较生物学的重要研究手段。曾经仅局限于分类学的系统树如今已广泛地应用到真菌生物学中并为了解主要生命形式的进化、描述复杂的生物群落以及实验生物学的预测提供了广泛的进化进化理论基础。在基因组领域这一趋势愈发显著,系统发生学和基因组学逐渐结合到一起并孕育出了一门崭新的学科—系统基因组学。虽然这是一门年轻的学科,但它已经应用到通过进化关系来预测同源性和不规则基因,以及基于基因组范围的对离散同源序列数据基因组的最大量—至少是大量—的采样对比分析。下面,让我们来了解一些目前这一领域的相关进展:(i)基于多基因系统发育的真菌系统发生学目前的地位;(ii)目前在分类真菌界里的进化关系中的进化假说;(iii)通过基因组采样来推断进化关系的应用。 真菌分子系统学 作为真菌分子系统发育的第一个领域,rRNA在鉴定推断这一界的系统发生关系时发挥了极其重要的关系。rRNA以各种形态广泛分布在自然界中,含有核苷酸保守区域,并以此为基础促进了宇宙原初物种的进化。既而,rRNA核苷酸数据的收集和排序也因此变得浅显易懂并使真菌分子系统发生的研究从上世纪90年代开始呈指数级增长。虽然这些分析仅是基于少量的数据,但是针对真菌和类真菌的系统发生的研究已取得了大量的里程碑式的发现。这些发现包括异鞭毛水霉菌和黏液菌的胞外替换,动物界和真菌界间的封闭进化关系识别,壶菌,结合菌,担子菌,子囊菌的单元菌物鉴定,子囊菌和担子菌的单源支持及他们间的姊妹组关系。 ??尽管取得了这些进展,由于rRNA数据仅限于与之相关的功能,要不断地了解真菌世界的进化过程还需要掌握更多相似不同源基因,特别是蛋白质编码的基因。由于在真菌系统中最大的两个RNA聚合酶(RPB1 RPB2)和翻译延伸因子TEF广泛地得到应用,PCR技术和测序引物也随之得到极大发展。这些基因提供了对rRNA系统发育的测评支持,并提供了更多形态学和生物学上的稳定性测试,他们还提供了起始多基因系统发生产生的未加工数据,致使真菌系统发生从基因树形式过渡到物种树。 ??为使多基因系统发生得到进一步发展,真菌系统协会创办了Research Coordination Network Deep Hypha.该协会的主要宗旨在于加快收集真菌系统生命树的多基因序列数据采集。这也是AFTOL工程的贡献之一。该工程推动了以下六方面的核苷酸序列采集:细胞核小亚基rRNA,细胞核大亚基rRNA,线粒体小亚基rRNA,RPB1,RPB2和TEF---真菌中目和科的分类单元目标集(Lutzoni et al., 2004)。AFTOL筹集了2000多个分类单元的5000多条公开可用序列并发展了真菌中额外引物的数据采集(更多完整序列及引物请登录WASABI研办的网站:https://www.doczj.com/doc/468150353.html, Kauffet al.,2007])。在多基因数据集的采集日趋完善的同时,基于模型的复杂核苷酸序列数据集系统发生分析算法也在不断发展。由于电脑处理器愈发强大以及相关计算分析软件的支撑(如:RAxML [Stamatakis,2006] GARLI [Zwickl,2008] MRBAYES[Ronquist and Huelsenbeck, 2003] and PhyloBayes [Lartillot and Philippe,2004] ),对大型多基因数据集的最大似然估计和贝叶斯计算如今也得到广泛应用。今年来对多基因编码数据的强化分析也提高了系统发生的分辨率测算(Matheny et.al.,2007; Hofstetter et.al.,2007),并且证明了蛋白质编码的基因RPB1,RPB2和TEF比rRNA基因拥有更高层次的系统发生信息量(Townsend,2007; schoch et.al.,2009)。当我们把筹集相对大的多基因序列以及分析他们的能力有机地结合在一起时,我们就获得了目前对于真菌进化的最精确的了解。 真菌生命树 这里提到的真菌生命树,我们是指单源种的真菌界以及其下的各个亚门中所包含的。简明起见,这里不再讨论真菌以外的其它门类(例如:卵菌门),尽管他们很重要并且很多学者也在研究。我们的讨论将集中在更高级的分类学中,侧重于真菌进化中主要的真菌进化枝。

基因组学复习题

第1章1)什么是C-值悖理什么是N-值悖理 C-值悖理:生物基因组的大小同生物进化所处地位的高低无关的现象。 N-值悖理:基因数目与进化程度或生物复杂性的不对应性,称之为N值悖理 2)什么是序列复杂性? 基因组中不同序列的DNA总长,用bp 表示。 3)RNA分子有哪些种类 mRNA tRNA rRNA scRNA snRNA snoRNA 小分子干扰RNA 4)不编码蛋白质的RNA包括哪些类型 tRNA rRNA scRNA snRNA snoRNA 小分子干扰RNA 5)什么是假基因假基因是如何形成的 来源于功能基因但已失去活性的DNA序列,有沉默的假基因,也有可转录的假基因。 产生假基因的原因有很多,如编码序列出现终止密码子突变,或者插入和缺失某些核苷酸使mRNA移码,造成翻译中途停止或者异常延伸,合成无活性的蛋白质。 6)假基因能否表达?为什么 能,假基因相对于原来的基因已经失去功能但是可能产生新的功能。 最初人们认为, 假基因是不能转录的基因, 随着基因组数据的积累, 现在已知有不少假基因仍然保持转录的活性, 特别是起源于重复基因的假基因和获得启动子加工的假基因,但假基因的转录产物已失去原有的功能, 如产生残缺蛋白质。 7)如何划分基因家族?什么是超基因家族 基因家族:将来自共同的祖先,因基因加倍或变异产生了许多在DNA序列组成上基本一致而略有不同的成员划分为一个基因家族。 超基因家族:起源于共同祖先,由相似DNA序列组成的许多基因亚家族或相似的基因成员构成的群体,它们具有相似的功能。 8)低等生物与高等生物基因组组成有何差别为什么会产生这些差别 低等生物:1)结构紧凑,一般不存在内含子(古细菌除外); 2)大小在 5 Mb以下; 3)缺少重复序列;

基因组学专题课程作业

基因组学专题课程作业 考试题目: 假如你发现一个新基因,请利用基因组学的思路,方法,技术路线设计可 行的假如你发现个新基因,请利用基因组学的思路,方法,技术路线设计可行的实验方案,研究它的功能,寻找出它所影响的下游基因,可能与此蛋白相互 作用的其它蛋白,以及调控它表达的上游基因。(选择一个你所熟知的模式生物。) 答案: 微生物是包括细菌、病毒、真菌以及一些小型的原生动物等在内的一大类 生物群体,它个体微小,却与人类生活密切相关。微生物在自然界中可谓“无 处不在,无处不有”,涵盖了有益有害的众多种类,广泛涉及健康、医药、工 农业、环保等诸多领域。 微生物对人类最重要的影响之一是导致传染病的流行。在疾病的预防和治 疗方面,人类取得了长足的进展,但是新现和再现的微生物感染还是不断发生,像大量的病毒性疾病一直缺乏有效的治疗药物。一些疾病的致病机制并不清楚。大量的广谱抗生素的滥用造成了强大的选择压力,使许多菌株发生变异,导致 耐药性的产生。微生物能够致病,能够造成食品、布匹、皮革等发霉腐烂,但 是微生物也有有益的一面。青霉素的发现对医药界来讲是一个划时代的发现。 后来大量的抗生素从放线菌等的代谢产物中筛选出来。一些微生物被广泛应用 于工业发酵,生产食品及各种酶制剂等;一部分微生物能够降解塑料、处理废 水废气等等,并且可再生资源的潜力极大,称为环保微生物;还有一些能在极 端环境中生存的微生物,例如:高温、低温、高盐、高碱以及高辐射等普通生 命体不能生存的环境,依然存在着一部分微生物等等。 随着医学研究进入分子水平,人们对基因、遗传物质等专业术语也日渐熟悉。人们认识到,是遗传信息决定了生物体具有的生命特征,包括外部形态以

基因组学答案

1.什么是基因组学?基因组学有哪些特点? 以基因组分析为手段,研究基因组的结构组成、时序表达模式和功能,并提供有关生物物种及其细胞功能进化信息的一门学科。特点:Genome sciences are sequence-based,Genome sciences are data-guided (not so hypothesis-driven),Genome sciences is a systematic approach。 2.什么是模式生物? 生物学家通过对选定的生物物种进行科学研究,用于揭示某种具有普遍规律的生命现象,此时,这种被选定的生物物种为模式生物。在人类基因组计划中,包括对五种生 物基因组的研究:大肠杆菌、酵母、线虫、果蝇和小鼠,称之为人类的五种“模式生物”。 3.人类基因组计划是哪一年完成的?在科学上有什么意义? 2000年完成了人类基因组“工作框架图”。2001年公布了人类基因组图谱及初步分析结果。 意义: 首先,获得人类全部基因序列将有助于人类认识许多遗传疾病以及癌症等疾病的致病机理,为分子诊断、基因治疗等新方法提供理论依据。 第二,破译生命密码的人类基因组计划有助于人们对基因的表达调控有更深入的了解。4.基因组学的发展方向是什么? 5. 3 大公共DNA 数据库名称是什么? EMBL,GenBank,DDBJ。 6.什么是一级数据库和二级数据库? Primary Databases:Original submissions by experimentalists,Content controlled by the submitter。 Derivative Databases:Built from primary data,Content controlled by third party。 7.什么是NCBI 的Refseq?什么是Unigene?Unigene 和Refseq 的区别和联系。 RefSeq (accessible via the main page of NCBI) provides an expertly curated accession number that corresponds to the most stable, agreed-upon “reference” version of a sequence. Unigene:MegaBlast based automated sequence clustering,Nonredundant set of gene oriented clusters,Each cluster a unique gene,Information on tissue types and map locations,Includes known genes and uncharacterized ESTs,Useful for gene discovery and selection of mapping reagents。 8.GEO 是什么类型数据库,主要包含什么类型数据? 9.大致介绍一下UCSC GENOME BROWSER? Stands for “Encyclopedia Of DNA Elements”,Public research consortium to carry out a project to identify all functional elements in the human genome sequence,Launched by The National Human Genome Research Institute (NHGRI),Conducted in three phases:pilot project phase,technology development phase,planned production phase。 10.HAVANA 基因是什么类型数据? 11.什么是细菌人工染色体(BAC) 是指一种以F质粒(F-plasmid)为基础建构而成的细菌染色体克隆载体,常用来克隆150kb左右大小的DNA片段,最多可保存300kb个碱基对。 12.什么是遗传图谱?用来构建遗传图谱的标记有哪些?

进化基因组学研究进展

进化基因组学研究进展 刘超 (山东大学生命科学学院济南250100) 摘要:进化基因组学是利用基因组数据研究差异基因功能、生物系统演化、从 基因在水平探索生物进化的学科。随着近年来基因组数据的不断增加,进化基因组学得到了长足的发展。进化基因组学主要包括从基因组水平理解和诠释生物进 化和新基因分析研究探索两方面的内容。本文介绍了进化基因组学研究的主要内容和较为常用的方法,以及近年来在细菌、酵母、果蝇进化基因组学方面的研究进展。 关键词:进化基因组学系统进化比较基因组学新基因 前言 随着基因测序技术的不断进步以及基因组学的飞速的发展,人们积累了大量的基因组学数据,利用所得的大量的基因组数据与进化生物学相结合,在基因组水平研究生物进化机制,随即产生了进化基因组学(Evolutional Genomics)。 近年来进化基因组学取得了长足的进展,在研究差异基因功能、生物系统演化、从基因在水平探索生物进化的终极方式等方面有重大突破,对人类理解生命现象和过程有重要作用。 1进化基因组学研究内容 研究系统进化学通常包括两个关键步骤:一方面,在不同物种中鉴定同源性特佂,另一方面利用构建系统进化树的方法比较这些特征,进而重新构建这些物种的进化历史[1]。针对这两个关键步骤,传统系统进化学,常采用基于形态学 数据和单个基因研究的同源性状鉴定和重建系统进化树(常包括距离法、最大简约法、概率法)[1]的方法来研究。在目前拥有丰富基因组数据的条件下,我们 可以分析基因组数据,利用进化基因组学研究系统进化。

目前进化基因组学的研究内容主要集中于两个方面:(1)在比较不同生物的基因数据的基础上,从基因组水平理解和诠释生物进化;(2)通过对新基因的分析研究探索基因进化过程的规律两个方面[2](如图1)。在进行全基因组进化分析方面,进化基因组学主要集中于构建系统进化树、研究基因组进化策略、研究生物功能变化和进化机制、进化和生态功能基因组学[2]、基因注释的等方面;在新基因方面主要分析基因产生机制和新基因固定及其动力学研究。 图1 进化基因组学主要研究内容 目前进化基因组学的研究有力的解决了一些基础性的进化问题,但也出现了一些未来需要急需解决的挑战。例如生物进化的本质和目前重建系统进化树方法 的限制[1]。 2研究进化基因组学的方法 研究进化基因组学的方法主要包括利用基因组数据分析和研究新基因的产 生和演化两种。 2.1利用基因组数据进行系统进化分析 利用基因组数据进行系统进化分析,常有基于基因序列的方法和基于全基因特征的方法。(如图2)

相关主题
文本预览
相关文档 最新文档