当前位置:文档之家› 第二章 基因组结构与功能

第二章 基因组结构与功能

第二章  基因组结构与功能
第二章  基因组结构与功能

第二章基因组结构与功能

基因组是指细胞内所有DNA分子的总称。基因组中不同的区域具有不同的功能,有些是编码蛋白质的结构基因,有些是复制及转录的调控信号,有些区域的功能尚不清楚。基因组结构是指不同功能区域在整个DNA分子中的分布情况。

不同生物体中DNA的大小

千碱基对/ 染色体

长度

( m)

染色体数

(单倍体)

形状

原核生物

病毒SV40

5.2 1.7 1 环状

噬菌体φX174 5.4 1.8 1 线状单链噬菌体λ46 15 1 线状

细菌大肠杆菌4000 1300 1 环状

真核生物

酵母

1000 330 17

果蝇41000 14000 4

人125000 41000 23

不同的生物体,其基因组的大小和复杂程度各不相同。上表列出了从原核生物到真核生物较有代表性的生物体中DNA分子的大小。从表上可以看出,进化程度越高的生物体其基因组越复杂,本章主要介绍病毒、细菌及真核细胞染色体基因组结构和功能。另外,对染色体的遗传因子如质粒和线粒体DNA的结构和功能也分别作一介绍。

一、病毒基因组的结构和功能

病毒是最简单的原核生物,完整的病毒颗粒包括外

壳蛋白和内部的基因组DNA或RNA(有些病毒的外壳

蛋白外面有一层由宿主细胞构成的被膜(envelope),

被膜内含有病毒基因编码的糖蛋白。病毒不能独立地复

制,必需进入宿主细胞中借助细胞内的一些酶类和细胞

器才能使病毒得以复制。外壳蛋白(或被膜)的功能是

识别和侵袭特定的宿主细胞并保护病毒基因组不受核酸

酶的破坏。

1.病毒基因组的结构特点

1. 与细菌或真核细胞相比,病毒的基因组很小。如乙肝病毒DNA只有3kb大小,所含信息量也较小,只能编码4种蛋白质,而痘病毒的基因组有300kb之大,可以编码几百种蛋白质,不但为病毒复制所涉及的酶类编码,甚至为核苷酸代谢的酶类编码,因此,痘病毒对宿主的依赖性较乙肝病毒小得多。

2. 病毒基因组可以由DNA或RNA组成;病毒基因组的DNA和RNA可以是单链或双链的;可以是闭环分子,也可以是线性分子。如乳头瘤病毒是一种闭环的双链DNA病毒,而腺病毒的基因组则是线性的双链DNA,脊髓灰质炎病毒是一种单链的RNA病毒,而呼肠孤病毒的基因组是双链的RNA分子。一般说来,大多数DNA病毒的基因组双链DNA分子,而大多数RNA病毒的基因组是单链RNA分子。

3. 多数RNA病毒的基因组是一条RNA,但也有多条的RNA。如流感病毒的基因组由八条RNA分子构成,每条RNA分子都含有编码蛋白质分子的信息;而呼肠孤病毒的基因组由双链的节段性的RNA分子构

成,共有10个双链RNA片段,同样每段RNA分子

都编码一种蛋白质。

4. 基因重叠现象普遍。即同一段DNA片段能

够编码两种甚至三种蛋白质分子,这种现象在其它

的生物细胞中仅见于线粒体和质粒DNA,所以也可

以认为是病毒基因组的结构特点。这种结构使较小

的基因组能够携带较多的遗传信息。重叠基因是

1977年Sanger在研究ΦX174时发现的。ΦX174是

一种单链DNA病毒,宿主为大肠杆菌,因此,又是

噬菌体。它感染大肠杆菌后共合成11个蛋白质分

子,总分子量为25万左右,相当于6078个核苷酸

所容纳的信息量。而该病毒DNA本身只有5375个核苷酸,最多能编码总分子量为20万的蛋白质分子,Sanger在弄清ΦX174的11个基因中有些是重叠的之前,这样一个矛盾长时间无法解决。重叠基因有以下几种情况:

(1)一个基因完全在另一个基因里面。如基因A和B是两个不同基因,而B包含在基因A内。同样,基因E在基因D内。

(2)部分重叠。如基因K和基因A及C的一部分基因重叠。

(3)两个基因只有一个碱基重叠。如基因D的终止密码子的最后一个碱基是J基因起始密码子的第一个碱基(如TAATG)。这些重叠基因尽管它们的DNA 大部分相同,但是由于将mRNA翻译成蛋白质时的读框不一样,产生的蛋白质分

子往往并不相同。有些重叠基因读框相同,只是起始部位不同,如SV40DNA基因组中,编码三个外壳蛋白VP1、VP2、VP3基因之间有122个碱基的重叠,但密码子的读框不一样。而小t抗原完全在大T抗原基因里面,它们有共同的起始密码子。

5. 病毒基因组的大部分是用来编码蛋白质的,只有非常小的一份不被翻译,这与真核细胞DNA的冗余现象不同如在ΦX174中不翻译的部份只占

217/5375,G4DNA中占282/5577,都不到5%。不翻译的DNA序列通常是基因表达的控制序列。如ΦX174的H基因和A基因之间的序列(3906-3973),共67个碱基,包括RNA聚合酶结合位,转录的终止信号及核糖体结合位点等基因表达的控制区。乳头瘤病毒是一类感染人和动物的病毒,基因组约8.0Kb,其中不翻译的部份约为1.0kb,该区同样也是其他基因表达的调控区.

6. 病毒基因组DNA序列中功能上相关的蛋白质的基因或rRNA的基因往往丛集在基因组的一个或几个特定的部位,形成一个功能单位或转录单元。它们可被一起转录成为含有多个mRNA的分子,称为多顺反子mRNA(polycistronie mRNA),然后再加工成各种蛋白质的模板mRNA。如腺病毒晚期基因编码病毒的12种外壳蛋白,在晚期基因转录时是在一个启动子的作用下生成多顺反子mRNA,然后再加工成各种mRNA,编码病毒的各种外壳蛋白,它们在功能上都是相关的;ΦX174基因组中的D-E-J-F-G-H基因也转录在同一mRNA中,然后再翻译成各种蛋白质,其中J、F、G及H都是编码外壳蛋白的,D蛋白与病毒的装配有关,E蛋白负责细菌的裂解,它们在功能上也是相关的。

7. 除了反转录病毒以外,一切病毒基因组都是单倍体,每个基因在病毒颗粒中只出现一次。反转录病毒基因组有两个拷贝。

8. 噬菌体(细胞病毒)的基因是连续的;而真核细胞病毒的基因是不连续的,具有内含子,除了正链RNA病毒之外,真核细胞病毒的基因都是先转录成mRNA前体,再经加工才能切除内含子成为成熟的mRNA。更为有趣的是,有些真核病毒的内含子或其中的一部分,对某一个基因来说是内含子,而对另一个基因却是外显子。如SV40和多瘤病毒(polyomavirus)的早期基因就是这样。SV40的早期基因即大T和小t抗原的基因都是从5146开始反时针方向进行,大T抗原基因到2676位终止,而小t抗原到4624位即终止了,但是,从4900到4555之间一段346bp的片段是大T抗原基因的内含子,而该内含子中从4900-4624之间的DNA序列则是小t抗原的编码基因。同样,在多瘤病毒中,大T抗原基因中的内含子则是中T和t抗原的编码基因。

2.RNA噬菌体的基因组结构和功能

目前研究最清楚的大肠杆菌RNA噬菌体是MS2,R17,f2和Qβ。它们的基因组小,只有3600到4200个核苷酸,包含四个基因。MS2.R17和f2具有几乎一样的基因组结构。在四个基因中有两个基因编码噬菌体的结构蛋白:一个是A蛋白的基因,长1178个核苷酸。A蛋白(称为成熟蛋白)的功能是使噬菌体能识别宿主,并使其RNA基因组能进入宿主菌,每个噬菌体一般只存在分子的A蛋白。另一个结构蛋白基因长399个核苷酸,编码外壳蛋白以构成病毒颗粒,每个噬菌体有180个分子。基因组的其他部分编码RNA复制酶和一个溶解蛋白,编码溶解蛋白的基因与外壳蛋白和复制酶的基因有部分重叠,但读框与外壳蛋白的读框不一样。在MS2、R17、f2基因组内有许多二级结构,RNA分子内碱基的自我配对,可能对防止RNase降解有一定作用。另外,在编码基因的5'和3'端各有一段非翻译序列,该序列对稳定RNA分子也有一定作用。

另一种RNA噬菌体Qβ的基因组略大,与上述RNA噬菌体的基因组有以下不同;[1]没有独立的溶解蛋白基因,但结构蛋白A2(或称成熟蛋白,MaturaitonProtein)即具有溶解蛋白的功能,

[2]还编码另一种外壳蛋白A1。

二、细菌基因组的结构和功能

细菌基因组的结构特点在许多方面与病

毒的基因组特点相似,而在另一些方面又有

其独特的结构和功能。

1.细菌染色体基因组结构的一般特点

(1)组通常仅由一条环状双链DNA分子组成。细菌的染色体相对聚集在一起,形成一个较为致密的区域,称为类核(nucleoid)。类核无核膜与胞浆分开,类核的中央部分由RNA和支架蛋白组成,外围是双链闭环的DNA超螺旋。染色体DNA通常与细胞膜相连。细胞膜在这里的作用可能是对染色体起固定作用。另外,在细胞分裂时将复制后的染色体均匀地分配到两个子代细菌中去。有关类核结构的详细情况目前尚不清楚。

(2)具有操纵子结构。其中的结构基因为多顺反子,即数个功能相关的结构基因串联在一起,受同一个调节区的调节。数个操纵子还可以由一个共同的调节基因(regulatory gene)即调节子(regulon)所调控。

(3)在大多数情况下,结构基因在细菌染色体基因组中都是单拷贝,但是编码rRNA的基因rrn往往是多拷贝的,这样可能有利于核糖体的快速组装,便于在急需蛋白质合成时细胞可以在短时间内有大量核糖体生成。

(4)和病毒的基因组相似,不编码的DNA部份所占比例比真核细胞基因组少得多。

(5)具有编码同工酶的同基因(isogene)。例如,在大肠杆菌基因组中有两个编码分支酸(chorismicacid)变位酶的基因,两个编码乙酰乳酸(acetolactate)合成酶的基因。

(6)和病毒基因组不同的是,在细菌基因组中编码序列一般不会重叠,即不出现基因重叠现象。

(7)具有各种功能的识别区域如复制起始区OriC,复制终止区TerC,转录启动区和终止区等。这些区域往往具有特殊的序列,并且含有反向重复序列。

(8)在基因或操纵子的终末往往具有特殊的终止序列,它可使转录终止和RNA聚合酶从DNA链上脱落。例如大肠杆菌色氨酸操纵子后尾含有40bp的GC 丰富区,其后紧跟AT丰富区,这就是转录终止子的结构。终止子有强、弱之分,强终止子含有反向重复序列,可形成茎环结构,其后面为polyT结构,这样的终止子无需终止蛋白参与即可以使转录终止。而弱终止子尽管也有反向重复序列,但无polyT结构,需要有终止蛋白参与才能使转录终止。

2.大肠杆菌染色体基因组的结构和功能

大肠杆菌染色体基因组是研究最清楚的基因组。

估计其基因组含有3500个基因,75个操纵子。已知基因中8%的序列具有调控作用。大肠杆菌染色体基因组中已知的基因多是编码一些酶类的基因,如氨基酸、嘌呤、嘧啶、脂肪酸和维生素合成代谢的一些酶类的基因,以及大多数碳、氮化合物分解代谢的酶类的基因。

除了有些具有相关功能的基因在一个操纵子内由一个启动子转录外,大多数基因的相对位臵可以说是随机分布的。如控制小分子合成和分解代谢的基因,糖酵解的酶类的基因等。

在已知转录方向的50个操纵子中,27个操纵子按顺时针方向转录,23个操纵子按反时针方向转录,即DNA两条链作为模板指导mRNA合成的机率差不多相等。在大肠杆菌染色体基因组中,差不多所有的基因都是单拷贝基因。另外,由于大肠杆菌细胞分裂极快,可以在20分钟内完成一次分裂,因此,携带多拷贝基因的大肠杆菌并不比单拷贝基因的大肠杆菌更为有利;相反,由于多拷贝基因的存在,使E.coli的整个基因组增大,复制时间延长,因而更为不利,除非在某种环境下,需要有多拷贝基因用来编码大量的基因产物,例如,在有极少量乳糖或乳糖衍生物的培养基上,乳糖操纵子的多拷贝化可以使大肠杆菌充分利用的乳糖分子。但是,一旦这种选择压力消失,如将大肠杆菌移到有丰富的乳糖培养基上,多拷贝的乳糖操纵子便没有存在的必要,相反,由于需要较长的复制时间,这种重复的多拷贝基因会重新丢失。

大肠杆菌染色体基因组中,大多数rRNA基因集中于基因组的复制起点oriC的位臵附近。这种位臵有利于rRNA基因在早期复制后马上作为模板进行rRNA的合成以便进行核糖体组装和蛋白质的合成。从这一点上看,大肠杆菌基因组上的各个基因的位臵与其功能的重要性可能有一定的联系。

三、线粒体DNA的结构和功能

线粒体是真核细胞内重要的细胞器,能量生成的场所,还参与脂肪酸的合成及某些蛋白质的合成。多年来的研究发现线粒体有其自己的一套遗传控制系统,

同时也受到细胞染色体DNA的控制。下面阐述线粒体DNA的结构特点和功能,以及线粒体DNA遗传学上的特点。

线粒体DNA(mtDNA)的性质

mtDNA与质粒DNA一样,也是双链的超

螺旋环状分子(原生动物中的草履虫及四膜虫

的mtDNA是双链线性分子。碱基的组成也是

A.T.G和C。mtDNA的分子量多在1×

106--200×106之间,一般来说,动物mtDNA

较小,约为10×106,植物的mtDNA较大,约

为70-200×106。mtDNA的复制属于半保留复

制,可以是θ型复制,或滚环复制。另一种比

较突出的特点是所谓mtDNA的D环复制,即二

条DNA链不同时开始复制,而是一条在前,一

条在后,因而在复制进行中生成D环。

线粒体基因组

线粒体是生物氧化的场所,呼吸链中的某

些蛋白质或酶的编码基因就在mtDNA上。线粒

体还编码自己的rRNA,tRNA,核糖体基因。

现在已知线粒体的基因组至少含有如下基

因。

tRNA基因:啤酒酵母24 tRNA基因

(下),粗链孢霉菌40个,人22个(上)。

rRNA基因:在人类mtDNA中有一个拷贝

的16S及12SrRNA基因。

细胞色素氧化酶基因:细胞色素氧化酶有

七个亚基,其中三个亚基mtDNA编码,四个亚

基由细胞核DNA编码。

ATP酶基因:ATP酶分子量为340KD,含有十个亚基,其中四个由mtDNA 编码。

细胞色素还原酶(b,c复制物)基因:此酶有七个亚基,基中一个由mtDNA 编码。

另外,还有一些抗药性基因也在mtDNA上。

哺乳动物mtDNA全长约1650bp,环状分子。基因图分为两部分,外环表示从重链(H链)上转录的基因,内环表示从轻链(L链)上转录的基因。可以看到

从H链上转录的基因包括12S和16SrRNA基因,以及12条多肽链的基因。这12条多肽链包括3个细胞色素氧化酶的亚基(CoⅠ,CoⅡ,CoⅢ),2个ATP酶的亚基(ATPase6,8),一个细胞色素b的亚基(cytb),ND1-5编码呼吸链中NADH 脱氢酶的6个亚基。URF6由L链所编码,该蛋白质功能尚不清楚。tRNA的基因分散在编码rRNA和多肽链的序列之间或L链上,分别用其所携带的氨基酸表示。

与酵母mtDNA相比较,哺乳动物mtDNA的利用率较高,除与DNA复制起始有关的区域D环(D-loop)外,整个mtDNA基因组上基因之间无间隔区(spacer),基因中亦无内含子,甚至有基因重叠现象。另外,人mtDNA只有一个启动子位于不编码的D环上,转录从此开始,基本上沿顺时针合成一条多基因的RNA分子。在这多基因的前体RNA分子中,除有rRNA和各种蛋白质的编码序列外,还有tRNA分散在rRNA和编码蛋白质的序列之间。据认为,这些tRNA序列可作为核酸酶切割RNA前体的识别信息,使其在tRNA两端把RNA前体切开。这样,附近的tRNA、rRNA和mRNA即自然分开,经进一步加工成为成熟的rRNA、tRNA和mRNA分子。mRNA上的polyA尾是在其前体与tRNA分开通过加polyA加上去的。

线粒体的密码系统

在蛋白质合成时,mRNA上的密码和tRNA上的反密码是对应的。已知道20种氨基酸有61种对应的密码子,按照摆动学说(wobble hypothesis),最少需要32种tRNA才能完全识别mRNA中的61个密码子。但在线粒体中,tRNA的种类显然小于此数(如人的mtmRNA只有22种),而且,已有实验证明,无细胞质tRNA进入线粒体参与其蛋白质的过程。这些事实表明在线粒体基因表达过程中的密码系统与通用的密码系统不一样。

通过近几年的研究发现哺乳动物mtDNA的遗传密码与通用的遗传密码有以下区别:

1.UGA不是终止信号,而是色氨酸的密码。因此,线粒体tRNAtrp可以识别UGG和UGA两个密码子。

2.多肽内部的甲硫氨酸由AUG和AUA两个密码子编码;而起始甲硫氨酸由AUG,AUA,AUU和AUC四个密码子编码。

3.AGA,AGG不是精氨酸的密码子,而是终止密码子,因而,在线粒体密码系统中的4个终止密码子(UAA,UAG,AGA,AGG)。

在线粒体的tRNA的反密码子方面,也有其独特的地方。

1.由于密码子简并性(degeneracy),如果密码子前两位碱基一样,则最后一位(3'位)的碱基无论是嘌呤(A,G)或嘧啶(C,T),这样组成的密码子都编码同一样氨基酸。对于这样的密码子,mttRNA的反密码子5'摆动位上的核苷酸如果为U,则可以与上述密码子3'位的4种核苷酸配对,因而,一个tRNA可以识别

4种密码子。但是,如果密码子3'位于嘌呤碱基组成的密码子与由嘧啶碱基组成的密码子编码不同的氨基酸,这时,mttRNA反密码子上5'位的U经过修饰识别3'位由嘌呤碱基组成的密码子,而不再识别3'位由嘧啶碱基组成的密码子,这样,便可以防止错误翻译的发生。

2.mttRNA在结构上与细胞质tRNA也有区别。如GTφCRA(R代表嘌呤)序列在大多数mttRNA中不存在。D环和TφC环中一些保守的核苷酸也发生了变化。最突出的是tRNASer的结构,该tRNA缺乏D臂。这些结构上的差异表明mttRNA三维结构以及与mt核糖体的作用方式与细胞质tRNA不一样。

线粒体DNA的双重遗传控制

线粒体除具有DNA外,还有自己的蛋白质合成系统,如tRNA ,tRNA,核糖体等。这些成份与细胞质的相应组份不同,而与细菌的比较相似。此外,mtDNA的复制和转录都是自己的聚合酶来完成的。mtRNA聚合酶只是一条简单的多肽链,这也与真核细胞的酶不同,而且此细菌酶对原核细胞转录酶抑制剂利福平敏感。蛋白质合成时,线粒体核糖体上的蛋白质合成也受细菌蛋白质合成抑制剂如氯霉素,链霉素的抑制。这些情况说明线粒体的许多组份是自主的,不受细胞核的控制,而且在许多方面与原核生物的相似。

另一特点是参与呼吸链的一些酶成份是受双重遗传控制的,即部份亚基为细胞核基因所编码,另一些亚基则是mtDNA编码的。根据线粒体的这些特点Margulis提出了线粒形成的内共生学说(endosymbio-nttheory)。在进化过程中原始的厌气细菌吞噬了原核生物(如细菌,蓝绿澡等)形成共生关系。寄生为共生者提供营养和保护,共生者为寄主提供能量生成系统。最终,共生者演化成细胞的组成成份──线粒体。

四、真核生物染色体基因组的结构和功能

真核生物的基因组一般比较庞大,例如人的单倍体基因组由3×106 bp碱基组成,按1000个碱基编码一种蛋白质计,理论上可有300万个基因。但实际上,人细胞中所含基因总数大概会超过10万个。这就说明在人细胞基因组中有许多

DNA序列并不转录成mRNA用于指导蛋白质的合成。DNA的复性动力学研究发现这些非编码区往往都是一些大量的重复序列,这些重复序列或集中成簇,或分散在基因之间。在基因内部也有许多能转录但不翻译的间隔序列(内含子)。因此,在人细胞的整个基因组当中只有很少一部份(约占2-3%)的DNA序列用以编码蛋白质。

1.真核生物基因组特点

1.真核生物基因组DNA与蛋白质结合形成染色体,储存于细胞核内,除配子细胞外,体细胞内的基因的基因组是双份的(即双倍体,diploid),即有两份同源的基因组。

2.真核细胞基因转录产物为单顺反子。一个结构基因经过转录和翻译生成一个mRNA分子和一条多肽链。

3.存在重复序列,重复次数可达百万次以上。

4.基因组中不编码的区域多于编码区域。

5.大部分基因含有内含子,因此,基因是不连续的。

6.基因组远远大于原核生物的基因组,具有许多复制起点,而每个复制子的长度较小。

2.高度重复序列:

高度重复序列在基因组中重复频率高,可达百万

(106)以上,因此复性速度很快。在基因组中所占比例

随种属而异,约占10-60%,在人基因组中约占20%。

高度重复序列又按其结构特点分为三种。

(1)反向重复序列

这种重复序列复性速度极快,即使在极稀的DNA

浓度下,也能很快复性,因此又称零时复性部分。反

向重复序列由两个相同序列的互补拷贝在同一DNA链

上反向排列而成。变性后再复性时,同一条链内的互

补的拷贝可以形成链内碱基配对,形成发夹式或“+”

字形结构。倒位重复(即两个互补拷贝)间可有一到几

个核苷酸的间隔,也可以没有间隔。没有间隔的又称

回文(palimdrome),这种结构约占所有倒位重复的三

分之一。若以两个互补拷贝组成的倒位重复为一个单位,则倒位重复的单位约长300bp或略少。两个单位之间有一平均1.6kb的片段相隔,两对倒位重复单位之间的平均距离约12kb,亦即它们多数散布非群集于基因组中。

(2)卫星DNA

卫星DNA(satelliteDNA)是另一类高度重复序列,这类重复序列的重复单位一般由2-10bp组成,成串排列。由于这类序列的碱基组成不同于其他部份,可用等密度梯度离心法将其与主体DNA分开,因而称为卫星DNA或随体DNA。在人细胞组中卫星DNA约占5-6%。按照它们的浮力密度不同,人的卫星DNA可分为Ⅰ、Ⅱ、Ⅲ、Ⅳ四种。果蝇的卫星DNA序列已经搞清楚,可分为三类,这三类卫星DNA都是由7bp组成的高度重复序列:卫星Ⅰ为5'ACAACT3',卫星Ⅱ为

5'ACAAATT3'。而蟹的卫星DNA为只有AT两个碱基的重复序列组成。

(3)较复杂的重复单位组成的重复序列

这种重复序列为灵长类所独有。用限制性内切酶HindⅢ消化非洲绿猴DNA,可以得到重复单位为172bp的高度重复序列,这种序列大部份由交替变化的嘌呤和嘧啶组成。有人把这类称为α卫星DNA。而人的α卫星DNA更为复杂,含有多序列家族。

(4)高度重复序列的功能

a.参与复制水平的调节反向序列常存在于DNA复制起点区的附近。另外,许多反向重复序列是一些蛋白质(包括酶)和DNA的结合位点。

b.参与基因表达的调控DNA的重复序列可以转录到核内不均一RNA分子中,而有些反向重复序列可以形成发夹结构,这对稳定RNA分子,免遭分解有重要作用.

c.参与转位作用几乎所有转位因子的末端都包括反向重复序列,长度由几个bp到1400bp。由于这种序列可以形成回文结构,因此在转位作用中即能连接非同源的基因,又可以被参与转位的特异酶所识别。

d.与进化有关不同种属的高度重复序列的核苷酸序列不同,具有种属特异性,但相近种属又有相似性。如人的α卫星DNA长度仅差1个碱基(前者为171bp,后者为172bp),而且碱基序列有65%是相同的,这表明它们来自共同的祖先。在进化中某些特殊区段保守的,而其他区域的碱基序列则累积着变化。

e.同一种属中不同个体的高度重复序列的重复次数不一样,这可以作为每一个体的特征,即DNA指纹

f.α卫星DNA成簇的分布在染色体着丝粒附近,可能与染色体减数分裂时染色体配对有关,即同源染色体之间的联会可能依赖于具有染色体专一性的特定卫星DNA序列。

3.中度重复序列

中度重复序列大致指在真核基因组中重复数十至数万(<105)次的重复序列。其复性速度快于单拷贝序列,但慢于高度重复序列。少数在基因组中成串排列在

一个区域,大多数与单拷贝基因间隔排列。依据重复序列的长度,中度重复序列可分为两种类型。

(1)短分散片段(short interspersed repeated segments,SINES)这类重复序列的平均长度约为300bp(〈500bp),它们与平均长度约为1000bp的单拷贝序列间隔排列。拷贝数可达10万左右。如Alu家族,Hinf家族等属于这种类型的中度重复序列。

(2)长分散片段(Long interspersed repeated segments,LINES)这类重复序列的长度大于1000bp,平均长度为3500-5000bp,它们与平均长度为13000bp(个别长几万bp)的单拷贝序列间隔排列。也有的实验显示人基因组中所有LINES之间的平均距离为2.2kb,拷贝数一般在1万左右,如KpnⅠ家族等。中度重复序列在基因组中所占比例在不同种属之间差异很大,一般约占10-40%,在人约为12%。这些序列大多不编码蛋白质。这些非编码的中度重复序列的功能可能类似于高度重复序列。在结构基因之间,基因簇中,以及内含子内都可以见到这些短的和长的中度重复序列。按本文的分类原则有些中度重复序列则是编码蛋白质或rRNA的结构基因,如HLA基因,rRNA基因,tRNA基因,组蛋白基因,免疫球蛋白基因等。中度重复序列一般具有种特异性;在适当的情况下,可以应用它们作为探针区分不同种哺乳动物细胞的DNA。下面介绍几种典型的中度重复序列。

Alu家族:Alu家族是哺乳动物包括人基因组中含量最丰富的一种中度重复序列家族,在单倍体人基因组中重复达30万-50万次,约占人基因组的3-6%。Alu 家族每个成员的长度约300bp,由于每个单位长度中有一个限制性内切酶Alu的切点(AG↓CT)从而将其切成长130和170bp的两段,因而定名为Alu序列(或Alu家族)。Alu序列分散在整个人体或其他哺乳动物基因组中,在间隔DNA,内含子中都发现有Alu序列,平均每5kbDNA就有一个Alu序列。已建立的基因组中无例外地含有Alu序列。Alu序列具有种的特异性,人的Alu序列制备的探针只能用于检测人的基因组中的Alu序列。由于在大多数的含有人的DNA的克隆中都含有Alu序列,因此,可以这样认为,用人的Alu序列制备的探针与要筛选的克隆杂交,阳性者即为含有人DNA克隆,阴性者不含有人DNA。序列分析表明人类Alu序列是由两个约130bp的正向重复构成的二聚体,而在第二个单体中有一个31bp的插入序列,该插入序列在Alu家族的不同成员之间核苷酸序列相似但不相同。每个Alu序列两侧为6-20bp的正向重复序列,不同的Alu成员的侧翼重复序列也各不相同。Alu序列的5'端比较保守,但富含脱氧腺苷酸残基的3'端在不同的Alu成员中是有变化的。在相近的生物体中Alu家族在结构上存在相似性,一般认为灵长类基因组中的Alu序列多为由两个130bp的正向重复组成的二聚体,而啮类动物则为由一个130bp左右的DNA片段组成的单体。Alu序列在不同的哺乳动物之间存在着一定的相似性,但其序列相差较大,不会产生交叉杂交。Alu 序列广泛散布于整个基因组的原因可能是由于Alu序列可由RNA聚合酶转录成RNA分子,再经反转录酶的作用形成cDNA,然后重新插入基因组所致。也有人认为Alu序列两侧存在着短的重复序列,使得Alu序列很象转座子,因此推测Alu 序列可能也是能够移动的。这可能是它们在整个基因组中含量如此丰富,颁布如此广泛的原因之一。Alu家族的功能是多方面的,由于在许多核内不均一

RNA(hnRNA)中含有大量的Alu序列,而且,Alu序列含有与某些真核基因内含子剪接接头相似的序列,因而,Alu序列可能参与hnRNA的加工与成熟。Alu序列在人基因组中不寻常地大量存在,提示它与遗传重组及染色体不稳定性有关。最近发现在人的组织细胞中存在自然发生的染色体外双链环状DAN,被称为人类质粒(human plasmid),而这些质粒又毫无例外地含有Alu序列。还有研究表明,Alu序列中的某些区段有形成Z-DNA的能力。另外,Alu序列可能具有转录调节作用。

KpnⅠ家族:KpnⅠ家族是中度重复序列中仅次于Alu家族的第二大家族。用限制性内切酶KpnⅠ消化人类及其它灵长类动物的DNA,在电泳谱上可以看到4个不同长度的片段,分别为1.2,1.5,1.8和1.9kb,这就是所谓的KpnⅠ家族。KpnⅠ家族成员序列比Alu家族更长(如人KpnⅠ序列长6.4kb),而且更加不均一,呈散在分布,属于中度重复序列的长分散片段型。尽管不同长度类型的Kpn

Ⅰ家族(称为亚类,subfamily)之间同源性比较小,不能互相杂交,但它们的3'端有广泛的同源性。KpnⅠ家族的拷贝数约为3000 ̄4800个,占人体基因组的1%,与散在分布的Alu家族相似,KpnⅠ家族中至少有一部份也是通过KpnⅠ序列的RNA转录产物的cDNA拷贝的重新插入到人基因组DNA中而产生的。

Hinf家族:这一家族以319bp长度的串联重复存在于人体基因组中。用限制性内切酶HinfⅠ消化人体DNA,可以分离到这一片段。Hinf家族在单位基因组内约有50 100个拷贝,分散在不同的区域。319bp单位可以再分成两个亚单位,分别为172bp和147bp,它们之间有70%的同源性。

多聚dT-dG家族:这一家族的基本单位是dT-dG双核苷酸,多个dT-d G双核苷酸串联重复在一起,分散于人体基因组中。已经发现,这个家族的一个成员位于人类δ和β珠蛋白基因之间,含有17个dT-dG双核苷酸组成的串联重复序列。在人基因组中,dT-dG交替序列达106拷贝,这些序列的平均长度为40bp。人们推测,这样一个短的串联重复序列可能是基因转变(gene conversion)或不等交换(unequal crossing-over)的识别信号。另外,这些嘌呤和嘧啶的交替序列有助于Z-DNA的形成,在基因调节中可能起着重要的作用。中度重复序列除了包括以上非编码区域外,许多编码区如rRNA基因,tRNA基因,组蛋白基因等在基因组中也多次重复,属于中度重复序列。

rRNA基因:在原核生物如大肠杆菌基因组中,rRNA基因一共是七套;在真核生物中rRNA基因的重复次数更多。在真核生物基因组中18S和28S,rRNA基因是在同一转录单位中,低等的真核生物如酵母中,5SrRNA也和18S,28SrRNA

在同一转录单位中;而在高等生物中,5SrRNA是单独转录的,而且其在基因组中的重复次数高于18S和28S基因。和一般的中度重复序列不一样,各重复单位中的rRNA基因都是相同的。rRNA基因通常集中成簇存在,而不是分散于基因组中,这样的区域称为rDNA,如染色体的核仁组织区(nucleolus organizer region)即为rDNA区。18S和28SrRNA基因构成一个转录单位。从转录单位上转

录下来的rRNA前体经过酶切成为18S和28SrRNA。在哺乳动物和两栖动物中,18S和28SrRNA之间一同被转录下来的间隔区经过加工成为5.8SrRNA(在大肠杆菌中该区含有tRNA序列)。rRNA前体的其它部份被降解成核苷酸。真核生物中每个转录单位约长7-8kb(在哺乳动物中长13kb),其中编码rRNA的部份占

70-80%(哺乳动物中只占50%左右)。一个rRNA基因簇(rDNA簇)含有许多转录单位,转录单位之间为不转录的间隔区,该间隔区由21-100bp片段组成的类似卫星DNA的串联重复序列。转录单位和不转录的间隔区构成一个rDNA重复单位。由于不转录的间隔区中类似卫星DNA的串联重复次数不一样,因此,在不同生物及同种生物的不同rDNA重复单位之间不转录间隔区的长短相差甚大。非洲爪蟾的rDNA簇中,由类似卫星DNA的重复序列交替排列构成。5'端为一固定长度的独特序列;后面的重复区域是由97bp的重复单位组成;另外两个重复区域是由60bp或81bp的重复单位构成;由于每个重复区域中重复单位的重复次数在不同的rDNA重复单位中不一样,因而造成不同的不转录间隔区的长短不一。另外两个固定长度的区域称为Bam岛(因为这两个片段的分离是采用BamHI酶消化制备的)。Bam岛的后半部与转录单位前面的序列(含有启动子)相似;另外在60/81bp的重复区域中也有类似的序列。根据这些结构特点,有人认为不转录的间隔区可能在转录单位的转录起始中起着重要作用。rDNA的重复单位在许多动物的卵子形成过程中进行大量复制扩增,如爪蟾在扩增前有rDNA重复单位500个,在从卵母细胞前身(oocyteprecursor)发展到卵母细胞过程中(3周时间),rDNA 的重复单位可扩增400倍,每个细胞核的核仁数增加到几百个。扩增rDNA的过程是采用滚环式复制方式在核仁区进行的,扩增的DNA不纳入到染色体中,而是包含在核区。卵母细胞成熟后,大量的rDNA由于失去了存在的意义而逐渐降解。在卵子形成的过程中rDNA大量扩增的目的,就是为了产生大量的rRNA,组装成核糖体,用于合成大量的蛋白质,以满足受精后发育的需要。在大多数真核细胞中5SrRNA基因和18S,28SrRNA基因不属于一个转录单位。5SrRNA基因在基因组中亦呈串联重复排列成基因簇。其结构在非洲爪蟾中研究得最为清楚。在爪蟾体细胞中5SrRNA基因约有500拷贝,而在卵细胞中5S基因可重复20000多次。这大概是为了和卵细胞中大量扩增的28S和18S基因相统一。在爪蟾中发现有几种5SrRNA基因。最主要的一种其结构形式与18S、28S基因相似,即5S基因与非转录间隔区相间排列,组成一个重复单位。每个重复单位的5'端是含有

A-T丰富区的一段49bp长的G-C丰富区;下面跟是120bp的5SrRNA基因;后面又是一段并不转录的序列,而且与前面的5S基因比较有9个点突变,因此称为这段基因为假基因(pseudo gene)。尽管假基因不被转录,但在5S基因簇中总是有等量的5S基因和它的假基因。

在卵细胞中还有一个次要的5SrRNA基因,与主要的5S基因在序列上有一定和差异,在结构上与主要的5S基因相似,但整个重复单位长只有350bp,而且间隔区与主要的5S基因完全不一样。

人类的rRNA基因位于13,14,15,21和22号染色体的核仁组织区,每个核仁组织区平均含有50个rRNA基因的重复单位。5SrRNA基因似乎全部位于1号染色体(1q42-43)上,每单倍体基因组约有1000个5SrRNA基因。tRNA基因的清确重复次数比较难以估计。在非洲爪蟾中约有300个拷贝由tRNAmet,tRNAphe,tRNATrp及其它tRNA基因组成的3.18kb的串联重复单位。而在人体单倍基因组中约有1000-2000个tRNA基因,为50-60种rRNA编码,每种平均重复20-30次。

组蛋白基因:组蛋白基因在各种生物体内重复的次数不一样,但都在中度重复的范围内。通常每种组蛋白的基因在同一种生物中拷贝数是相同的。鸡的基因组中组蛋白基因有10个拷贝,在哺乳动物中为20拷贝,非洲爪蟾为40拷贝,而海胆的每种组蛋白的基因达300-600拷贝。不同生物中组蛋白基因在基因组中的排列不一样,组蛋白基因没有一定的排列方式,而在拷贝数高的基因组中(>100拷贝),大部份组蛋白基因串联重复形成基因簇。

海胆发育早期五种组蛋白基形成一个重复单位,每种组蛋白基因之间是非转录间隔区,5个间隔区均不相同。这样的重复单位在整个基因组中重复300次以上,而且这些重复单位基本上是相同的。在海胆中,5种组蛋白基因的转录方向都是相同的,每种组蛋白基因独立的产生自己的mRNA。非洲爪蟾卵细胞5S基因重复单位包括一个基因和一个假基因。在三种不同的海胆中,其组蛋白基因重复单位中非转录间隔区在长度和序列上差异是很大的,尽管它们的组蛋白基因的长度和序列相差不多。实际上,在同一种海胆内不同的组蛋白基因重复单位之间,相应的非转录间隔区也不是完全相同的。另外,在海胆胚胎发育晚期,要由晚期组蛋白基因来编码组蛋白,该基因与上述的早期组蛋白基因有轻微的差异,但该组蛋白基因不成簇排列,整个基因组仅有10个拷贝,呈散在分布。

在果蝇和非洲爪蟾中,5种组蛋白也排成一个重复单位,也存在间隔区,而且组蛋白基因的转录方向不一样。多个重复单位也形成串联重复排列。进化到哺乳动物,组蛋白基因一般不再形成重复单位,而呈散在分布或集成一小群。尽管组蛋白基因在基因组中的排列和分布在不同生物之间相差甚大,但是所有组蛋白基因都不含内含子,而且在序列上相应的组蛋白基因都很相似,从而编码的组蛋白在结构上和功能上也极为相似。

基因组中存在大量重复序列用以编码组蛋白是有其重要意义的。DNA复制时,组蛋白也要成倍增加,而且往往在DNA合成一小段后,组蛋白马上就要与其相结合,这要求在较短的时间内合成大量的组蛋白,因而需要有大量的组蛋白基因存在。人体基因组中还有几个大的基因簇,也属于中度重复序列长的分散片段型。在一个基因簇内含有几百个功能相关的基因,这些基因簇又称为超基因(Super gene),如人类主要组织相容性抗原复合体HLA和免疫球蛋白重链及轻链基因都属于超基因。超基因可能是由于基因扩增后又经过功能和结构上的轻微改变而产生的,但仍保留了原始基因的结构及功能的完整性。

4.单拷贝序列(低度重复序列)

单拷贝序列在单倍体基因组中只出现一次或数次,因而复性速度很慢。单拷贝序列在基因组中占50-80%,如人基因组中,大约有60-65%的序列属于这一类。单拷贝序列中储存了巨大的遗传信息,编码各种不同功能的蛋白质。目前尚不清楚单拷贝基因的确切数字,但是是有其在单拷贝序列中只有一小部份用来编码各种蛋白质,其他部份的功能尚不清楚。

在基因组中,单拷贝序列的两侧往往为散在分布的重复序列。由于某些单拷贝序列编码蛋白质,体现了生物的各种功能,因此对这些序列的研究对医学实践有特别重要的意义。但由于其拷贝数少,在DNA重组技术出现以前,要分离和分析其结构和序列几乎是不可能的,现在人们通过基因重组技术可以获得大量欲研究的基因,并对许多结构基因进行了较为细致的研究。现在已经知道,真核生物的结构基因不仅在两侧有非编码区,而且在基因内部也有许多不编码蛋白质的间隔序列(intervening sequences),称为内含子(intron),而编码区则称为外显子(exon)。内含子与外显子相间排列,转录时一起被转录下来,然后RNA中的内含子被切掉,外显子连接在一起成为成熟的mRNA作为指导蛋白质合成的模板)断裂基因含有外显子和内含子,转录成RNA后经过剪接切除内含子成熟为mRNA。

5.多基因家族与假基因

真核基因组的另一特点就是存在多基因家族(multi gene family)。多基因家族是指由某一祖先基因经过重复和变异所产生的一组基因。多基因家族大致可分为两类:一类是基因家族成簇地分布在某一条染色体上,它们可同时发挥作用,合成某些蛋白质,如组蛋白基因家族就成簇地集中在第7号染色体长臂3区2带到3区6带区域内;另一类是一个基因家族的不同成员成簇地分布不同染色体上,这些不同成员编码一组功能上紧密相关的蛋白质,如珠蛋白基因家族。在多基因家族中,某些成员并不产生有功能的基因产物,这些基因称为假基因(pseudo gene)。假基因与有功能的基因同源,原来可能也是有功能的基因,但由于缺失,倒位或点突变等,使这一基因失去活性,成为无功能基因。与相应的正常基因相比,假基因往往缺少正常基因的内含子,两侧有顺向重复序列。人们推测,假基因的来源之一,可能是基因经过转录后生成的RNA前体通过剪接失去内含子形成mRNA,如果mRNA经反复转录产生cDNA,再整合到染色体DNA中去,便有可能成为假基因,因此该假基因是没有内含子的,在这个过程中,可能同时会发生缺失,倒位或点突变等变化,从而使假基因不能表达。

6.自私DNA(selfish DNA)

在哺乳动物包括人体基因组中,存在着大量的非编码序列,如前述的高度重复序列,内含子,间隔DNA等。这些序列中,只有很小一部份具有重要的调节功能,绝大部部分都没有什么特殊功用。在这些DNA序列中虽然积累了大量缺失,重复或其他突变,但对生物并没有什么影响,它们的功能似乎只是自身复制,所以人们称这类DNA为自私DNA或寄生DNA(parasite DNA)。

五、核酸的变性和复性

变性(denaturation)和复性(renaturation) 是双链核酸分子的二个重要物理特性。双链DNA,RNA双链区,DNA: RNA杂种双链(hybrid duplex)以及其它异源双链核酸分子(heteroduplex) 都具有此性质。

1.DNA的变性

指DNA分子由稳定的双螺旋结构松解为无规则线性结构的现象。确切地就是维持双螺旋稳定性的氢键和疏水键的断裂。凡能破坏双螺旋稳定性的因素都可以成为变性的条件,如加热、极端的pH、有机试剂甲醇、乙醇、尿素及甲酰胺等,均可破坏双螺旋结构引起核酸分子变性。

热变性使DNA分子双链解开所需温度称为熔解温度(melting temperature,简写Tm)。DNA的Tm决定于:(1) DNA的均一性。指DNA分子中碱基组成的均一性,碱基均一时,Tm值范围就较窄。反之亦然。(2) DNA的(G+C)含量。(G+C)含量越高,即G-C碱基对越多,Tm值越高。

Tm与(G+C)含量(X)百分数的这种关系可用以下公式表示(DNA溶于0.2mol/L NaCl中):

X%(G+C)=2.44(Tm-69.3)

(2) DNA的复性

指变性DNA 在适当条件下,二条互补链全部或部分恢复到天然双螺旋结构的现象,它是变性的一种逆转过程。热变性DNA一般经缓慢冷却后即可复性,此过程称之为" 退火"(annealing)。

一般认为比Tm低25℃左右的温度是复性的最佳条件,越远离此温度,复性速度就越慢。

(3) 核酸分子杂交

分子杂交(简称杂交,hybridization)是核酸研究中一项最基本的实验技术。其基本原理就是应用核酸分子的变性和复性的性质,使来源不同的DNA(或RNA)片段,按碱基互补关系形成杂交双链分子(heteroduplex)。杂交双链可以在DNA与DNA链之间,也可在RNA与DNA链之间形成。杂交的本质就是在一定条件下使互补核酸链实现复性(加热或碱处理)使双螺旋解开成为单链,因此,变性技术也是核酸杂交的一个环节。

若杂交的目的是识别靶DNA中的特异核苷酸序列,这需要牵涉到另一项核酸操作的基本技术─探针(probe)的制备。探针是指带有某些标记物(如放射性同位素32P,荧光物质异硫氰酸荧光素等)的特异性核酸序列片段。若我们设法使一个核

酸序列带上32P,那么它与靶序列互补形成的杂交双链,就会带有放射性。以适当方法接受来自杂交链的放射信号,即可对靶序列DNA的存在及其分子大小加以鉴别。在现代分子生物学实验中,探针的制备和使用是与分子杂交相辅相成的技术手段。核酸分子杂交作为一项基本技术,已应用于核酸结构与功能研究的各个方面。

RNA生物合成概念

RNA几乎总是单链的。但几乎

每个RNA分子都有许多短的双螺旋

部分,称为发夹。这是因为在发夹

中,一条RNA链上的两个节段是反

平行走向的,可形成碱基对而产生

双螺旋区。此外,除了标准的GC和

AU对之外,还有较弱的GU对可帮

助形成单链RNA的二级结构,一条

正在延伸的RNA链的二级结构影响

这个RNA分子的剩下部分的转录状

况一个细胞中含有许多不同的RNA

子,其长度可从小至到50个核苷酸

到大至数万个核苷酸不等。这些几

乎总是线性单链RNA分分子,极少

有环状RNA分子。

在细胞周期的某一阶段,DNA双链解开成为转录的模板。一切细胞均具有RNA聚合酶。E.coli细胞中约有RNA聚合酶分子3000个以上。此酶催化RNA主链中核苷酸间的3',5'磷酸二酯键的形成。催化反应速度很快,在37℃时RNA链的延伸可达40个核苷酸/秒。但是这种催化作用必须有DNA(作为模板)的存在。RNA的合成一定要非常精确。然而不像DNA那样,转录作用并没有校正(proofreading)机制。但由于细胞RNA不能自我复制,故即使偶有差错亦不会遗传下去。双螺旋DNA分子中仅有一条链可作为RNA的模板。如果说,DNA分子中的两条链均可作为RNA的模板,则每个基因势必将产生两条有互补序列的RNA。然而遗传学证明每个基因只控制一个蛋白质,故实际上只合成了一条RNA 链,或者即使合成两条RNA链,其中也只有一条有功能。事实上,在活体内,只存在着这两条可能RNA链中的一条。在枯草杆菌(Bacillus subtilis)中繁殖的病毒SP8的DNA中,两条互补链的碱基组成截然不同,或者比较容易地分离开来,因而有可能确定活体内的RNA的碱基序列是否和两条(还是仅和一条)DNA互补。将双链DNA加热到接近100℃以使之变性,再加入用此DNA为模板所合成的单链RNA,再进行退火。结果除复性的DNA双螺旋外,还形成了DNA-RNA杂种分子。实验的结果是很明确的,即仅有一条DNA链被转录。

如果用RNA聚合酶在体外对DNA双螺旋进行转录,则结果取决于DNA模板受到损伤的程度。例如将T7DNA变性,使RNA聚合酶能与单链DNA结合,则两条均能被转录。但如果用天然的完整双链DNA为模板,则RNA聚合酶仅能和称为启动子的序列结合,从而只能转录在活体内被转录的那条链。

第3章 基因与基因组的结构

第3章基因与基因组的结构 1.主要内容 1)断裂基因构成性质 2)重叠基因种类 3)C值矛盾 4)原核生物与真核生物基因组的区别 5)真核生物染色体的结构 6)真核生物DNA序列的4种类型 7)基因家族、基因簇、卫星DNA、分散重复DNA 序列 8)人类基因组计划 2.教学要求 1)掌握基因,断裂基因,顺反子,C值矛盾,重叠基因,基因家族,重复序列,卫 星DNA等基本概念; 2)熟悉原核生物和真核生物基因组结构特点与功能; 3)了解人类基因组的重复顺序、人类基因组计划。 第1节基因的概念 第2节基因命名简介 第3节真核生物的断裂基因 第4节基因及基因组的大小与C值矛盾 第5节重叠基因 第6节基因组 第7节真核生物DNA序列组织 第8节基因家族 第9节人类基因组研究进展 第1节基因的概念 ●基因:带有特定遗传信息的核酸分子片段。包括 结构基因:编码蛋白质tRNA rRNA 调控基因: ●基因研究的发展染色体分子反向生物学 ●基因位于染色体和细胞器的DNA分子上 ?基因和顺反子 ?1955,Benzer用以表述T4 具溶菌功能的区的2个亚区: rⅡA rⅡB ?现代分子生物学文献中,顺反子和基因这两个术语互相通用。 第2节基因命名简介

?表示基因3个小写斜体字母,lac ?表示基因座3个小写斜体字母+ 1个大写斜体字母。lacZ ?表示质粒 自然质粒 3 个正体字母,首字母大写 重组质粒在2个大写字母前面加小写p ?基因为斜体,蛋白质为正体 ?人类基因为大写斜体 第3节真核生物的断裂基因 ?一、割裂基因的发现 ?1977,通过成熟mRNA(或cDNA)与编码基因的DNA杂交试验而发现 ?真核生物的基因是不连续的,大大改变了原来对基因结构的看法,现在知道大多数真核生物的基因都是不连续基因或割裂基因(split gene)。 ?割裂基因的概念——是编码序列在DNA分子上不连续排列而被不编码的序列所隔开的基因。 ?割裂基因的构成 ?构成割裂基因的DNA序列被分为两类: ?基因中编码的序列称为外显子(exon),外显子是基因中对应于信使RNA序列的区域; ?不编码的间隔序列称为内含子(intron),内含子是从信使RNA中消失的区域。?割裂基因由一系列交替存在的外显子和内含子构成,基因两端起始和结束于外显子,对应于其转录产物RNA的5’和3’端。如果一个基因有n个内含子,则相应地含有n+1个外显子。 ●割裂基因的性质 ?Splitting Gene 的普遍性 ?外显子和内含子各有特点 ?Splitting gene 概念的相对性 ●Splitting Gene 的普遍性 a) 真核生物(Eukaryots)中 ?绝大部分结构基因 ?tDNA, rDNA ?mtDNA, cpDNA b) 原核生物(Prokaryots)中 ?SV40 大T 抗原gene ?小t 抗原gene ?Splitting gene 并非真核生物所特有

细菌的基因预测以及注释

Whole-genome Annotation of an A.baumannii strain A.baumannii ACICU

摘要 随着新一代测序技术的发展,微生物全基因组测序的成本大大减少,DNA序列的生成速度已远远超过其基因的注释速度。功能基因组学的研究已经成为当今研究的主流。然而如此多的数据对现有的基因注释工具提出了巨大的挑战。本研究通过对A.baumanii ACICU染色体序列使用GeneMarks进行基因预测,预测到了3718个基因,然后使用RAST进行基因注释,共注释到了3683个功能基因,将得到的结果与原文献中所注释到的基因进行对比。最后得到结论,基因的预测与注释都需要综合不同软件的结果进行分析,才能得到较为准确的结果。本研究为原核生物全基因组的注释提方法供了参考。 关键字:基因注释全基因组鲍曼不动杆菌GeneMarksRAST

目录 1.引言(Introduction) (2) 1.1.背景介绍 (2) 1.2.全基因组注释软件 (3) 1.3. A.baumannii ACICU相关 (4) 2.材料与方法(Methods and Materials) (5) 2.1.使用GeneMarks进行ORF预测 (5) 2.2.使用RAST进行功能基因注释 (6) 3.结果与讨论(Results and Discussion) (8) 3.1.使用GeneMarks预测ORF的结果以及分析 (8) 3.2.使用RAST进行功能基因注释结果以及分析 (9) 3.3.综合分析 (10) 参考文献 (10) 1.引言(Introduction) 1.1.背景介绍

第四章 基因与基因组学(答案)

第四章基因与基因组学(答案) 一、选择题 (一)单项选择题 1.关于DNA分子复制过程的特点,下列哪项是错误的 A.亲代DNA分子双股链拆开,形成两条模板链 B.新合成的子链和模板链的碱基互补配对 C.复制后新形成的两条子代DNA分子的碱基顺序与亲代的DNA分子完全相同 D. 以ATP、UTP、CTP、GTP和TDP为合成原料 E.半不连续复制 *2.建立DNA双螺旋结构模型的是: and Crick and Schwann *3.下列哪个不属于基因的功能 A.携带遗传信息 B.传递遗传信息 C.决定性状 D.自我复制 E.基因突变 》 分子中核苷酸顺序的变化可构成突变,突变的机制一般不包括: A.颠换 B.内复制 C.转换 D.碱基缺失或插入 E.不等交换 5.下列哪一种结构与割(断)裂基因的组成和功能的关系最小 A.外显子 B.内含子框 D.冈崎片段 E.倒位重复顺序 *6.在一段DNA片段中发生何种变动,可引起移码突变 A.碱基的转换 B.碱基的颠换 C.不等交换 D.一个碱基对的插入或缺失 个或3的倍数的碱基对插入或缺失 7.从转录起始点到转录终止点之间的DNA片段称为一个: A.基因 B.转录单位 C.原初转录本 D.核内异质RNA E.操纵子 8.在DNA复制过程中所需要的引物是; ~ 9.下列哪一项不是DNA自我复制所必需的条件 A.解旋酶多聚酶引物 D. ATP、GTP、CTP和TTP及能量 E.限制性内切酶 10.引起DNA形成胸腺嘧啶二聚体的因素是 A.羟胺 B.亚硝酸溴尿嘧啶 D.吖啶类 E.紫外线 11.引起DNA发生移码突变的因素是 A.焦宁类 B.羟胺 C.甲醛 D.亚硝酸溴尿嘧啶 12.引起DNA分子断裂而导致DNA片段重排的因素 A.紫外线 B.电离辐射 C.焦宁类 D.亚硝酸 E.甲醛 ) 13.可以引起DNA上核苷酸烷化并导致复制时错误配对的因素 A.紫外线 B.电离辐射 C.焦宁类 D.亚硝酸 E.甲醛 14.诱导DNA分子中核苷酸脱氨基的因素 A.紫外线 B.电离辐射 C.焦宁类 D.亚硝酸 E.甲醛 15.由脱氧三核苷酸串联重复扩增而引起疾病的突变为 A.移码突变 B.动态突变 C.片段突变 D.转换 E.颠换 16.在突变点后所有密码子发生移位的突变为 A.移码突变 B.动态突变 C.片段突变 D.转换 E.颠换 *17.异类碱基之间发生替换的突变为 A.移码突变 B.动态突变 C.片段突变 D.转换 E.颠换 ! 18.染色体结构畸变属于 A.移码突变 B.动态突变 C.片段突变 D.转换 E.颠换 *19.由于突变使编码密码子形成终止密码,此突变为 A.错义突变 B.无义突变 C.终止密码突变 D.移码突变 E.同义突变 *20.不改变氨基酸编码的基因突变为 A.同义突变 B.错义突变 C.无义突变 D.终止密码突变 E.移码突变 21.可以通过分子构象改变而导致与不同碱基配对的化学物质为 A.羟胺 B.亚硝酸 C.烷化剂溴尿嘧啶 E.焦宁类 *22.属于转换的碱基替换为 和C 和T 和C 和T 和C ~ *23.属于颠换的碱基替换为 和T 和G 和C 和U 和U

大肠杆菌染色体基因组的结构和功能

大肠杆菌染色体基因组的结构和功能 大肠杆菌染色体基因组是研究最清楚的基因组。估计大肠杆菌基因组含有3500个基因,已被定位的有900个左右。在这900个基因中,有260个基因已查明具有操纵子结构,定位于75个操纵子中。在已知的基因中8%的序列具有调控作用。大肠杆菌染色体基因组中已知的基因多是编码一些酶类的基因,如氨基酸、嘌呤、嘧啶、脂肪酸和维生素合成代谢的一些酶类的基因,以及大多数碳、氮化合物分解代谢的酶类的基因。另外,核糖体大小亚基中50多种蛋白质的基因也已经鉴定了。 除了有些具有相关功能的基因在一个操纵子内由一个启动子转录外,大多数基因的相对位置可以说是随机分布的。如控制小分子合成和分解代谢的基因,大分子合成和组装的基因分布在大肠杆菌基因组的许多部位,而不是集中在一起。再如,有关糖酵解的酶类的基因分布在染色体基因组的各个部位。进一步发现,大肠杆菌和与其分类关系上相近的其他肠道菌如志贺氏杆菌属(Shigella)、沙门氏菌属(Salmonella)等具有相似的基因组结构。伤寒沙门氏杆菌(Salmonellatyphimurium)几乎与大肠杆菌的基因组结构相同,虽然有10%的基因组序列和大肠杆菌相比发生颠倒,但是其基因的功能仍正常。这更进一步说明染色体上的基因似乎没有固定的格局,相对位置的改变不会影响其功能。 在已知转录方向的50个操纵子中,27个操纵子按顺时针方向转录,23个操纵子按反时针方向转录,即DNA两条链作为模板指导mRNA合成的机率差不多相等。在大肠杆菌染色体基因组中,差不多所有的基因都是单拷贝基因,因为多拷贝基因在同一条染色体上很不稳定,极易通过同源重组的方式丢失重复的基因序列。另外,由于大肠杆菌细胞分裂极快,可以在20分钟内完成一次分裂,因此,携带多拷贝基因的大肠杆菌并不比单拷贝基因的大肠杆菌更为有利;相反,由于多拷贝基因的存在,使E.coli的整个基因组增大,复制时间延长,因而更为不利,除非在某种环境下,需要有多拷贝基因用来编码大量的基因产物,例如,在有极少量乳糖或乳糖衍生物的培养基上,乳糖操纵子的多拷贝化可以使大肠杆菌充分利用的乳糖分子。但是,一旦这种选择压力消失,如将大肠杆菌移到有丰富的乳糖培养基上,多拷贝的乳糖操纵子便没有存在的必要,相反,由于需要较长的复制时间,这种重复的多拷贝基因会重新丢失。 大肠杆菌染色体基因组中,大多数rRNA基因集中于基因组的复制起点oriC的位置附近。这种位置有利于rRNA基因在早期复制后马上作为模板进行rRNA的合成以便进行核糖体组装和蛋白质的合成。从这一点上看,大肠杆菌基因组上的各个基因的位置与其功能的重要性可能有一定的联系。

研究细菌基因组结构的意义

细菌基因组的结构和功能 细菌和病毒一样同属原核生物,因而细菌基因组的结构特点在许多方面与病毒的基因组特点相似,而在另一些方面又有其独特的结构和功能。本节首先介绍细菌染色体基因组的一般结构特点,然后再具体介绍大肠杆菌染色体基因组 的结构和功能。 1细菌染色体基因组结构的一般特点 (1)细菌的染色体基因组通常仅由一条环状双链 DNA分子组成细菌的染色体相对聚集在一起,形成一 个较为致密的区域,称为类核(nucleoid)。类核无 核膜与胞浆分开,类核的中央部分由RNA和支架蛋白 组成,外围是双链闭环的DNA超螺旋。染色体DNA通 常与细胞膜相连,连接点的数量随细菌生长状况和不同的生活周期而异。在DNA链上与DNA 复制、转录有关的信号区域与细胞膜优先结合,如大肠杆菌染色体DNA的复制起点(OriC)、复制终点(TerC)等。细胞膜在这里的作用可能是对染色体起固定作用,另外,在细胞分裂时将复制后的染色体均匀地分配到两个子代细菌中去。有关类核结构的详细情况目前尚不清楚。 (2)具有操纵子结构(有关操纵子结构详见基因表达的调控一章)其中的结构基因为多顺反子,即数个功能相关的结构基因串联在一起,受同一个调节区的调节。数个操纵子还可以由一个共同的调节基因(regulatorygene)即调节子(regulon)所调控。 (3)在大多数情况下,结构基因在细菌染色体基因组中都是单拷贝但是编码rRNA的基因rrn往往是多拷贝的,这样可能有利于核糖体的快速组装,便于在急需蛋白质合成时细胞可以在短时间内有大量核糖体生成。 (4)和病毒的基因组相似,不编码的DNA部份所占 比例比真核细胞基因组少得多。 (5)具有编码同工酶的同基因(isogene)例如,在 大肠杆菌基因组中有两个编码分支酸(chorismicacid) 变位酶的基因,两个编码乙酰乳酸(acetolactate)合成 酶的基因。 (6)和病毒基因组不同的是,在细菌基因组中编码 顺序一般不会重叠,即不会出现基因重叠现象。 (7)在DNA分子中具有各种功能的识别区域如复制 起始区OriC,复制终止区TerC,转录启动区和终止区等。 这些区域往往具有特殊的顺序,并且含有反向重复顺序。

细菌基因组的结构和功能

细菌和病毒一样同属原核生物,因而细菌基因组的结构特点在许多方面与病毒的基因组特点相似,而在另一些方面又有其独特的结构和功能。本节首先介绍细菌染色体基因组的一般结构特点,然后再具体介绍大肠杆菌染色体基因组的结构和功能。 ?细菌染色体基因组结构的一般特点 ?大肠杆菌染色体基因组的结构和功能 细菌染色体基因组结构的一般特点 (1)细菌的染色体基因组通常仅由一条环状双链DNA分子组成细菌的染 色体相对聚集在一起,形成一个较为致密的区域,称为类核(nucleoid)。 类核无核膜与胞浆分开,类核的中央部分由RNA和支架蛋白组成,外围是双 链闭环的DNA超螺旋。染色体DNA通常与细胞膜相连,连接点的数量随细菌生长状况和不同的生活周期而异。 在DNA链上与DNA复制、转录有关的信号区域与细胞膜优先结合,如大肠杆菌染色体DNA的复制起点(OriC)、复制终点(TerC)等。细胞膜在这里的作用可能是对染色体起固定作用,另外,在细胞分裂时将复制后的染色体均匀地分配到两个子代细菌中去。有关类核结构的详细情况目前尚不清楚。 (2)具有操纵子结构(有关操纵子结构详见基因表达的调控一章)其中的结构基因为多顺反子,即数个功能相关的结构基因串联在一起,受同一个调节区的调节。数个操纵子还可以由一个共同的调节基因 (regulatorygene)即调节子(regulon)所调控。 (3)在大多数情况下,结构基因在细菌染色体基因组中都是单拷贝但是编码rRNA的基因rrn往往是多拷贝的,这样可能有利于核糖体的快速组装,便于在急需蛋白质合成时细胞可以在短时间内有大量核糖体生成。 (4)和病毒的基因组相似,不编码的DNA部份所占比例比真核细胞基因组少得多。 (5)具有编码同工酶的同基因(isogene)例如,在大肠杆菌基因组中有两个编码分支酸(chorismicacid)变位酶的基因,两个编码乙酰乳酸(acetolactate)合成酶的基因。 (6)和病毒基因组不同的是,在细菌基因组中编码顺序一般不会重叠,即不会 出现基因重叠现象。 (7)在DNA分子中具有各种功能的识别区域如复制起始区OriC,复制终止区 TerC,转录启动区和终止区等。这些区域往往具有特殊的顺序,并且含有反向重复顺 序。 (8)在基因或操纵子的终末往往具有特殊的终止顺序,它可使转录终止和RNA 聚合酶从DNA链上脱落。例如大肠杆菌色氨酸操纵子后尾含有40bp的GC丰富区,其后紧跟AT丰富区,这就是转录终止子的结构。终止子有强、弱之分,强终止子含有反向重复顺序,可形成茎环结构,其后面为polyT 结构,这样的终止子无需终止蛋白参与即可以使转录终止。而弱终止子尽管也有反向重复序列,但无polyT 结构,需要有终止蛋白参与才能使转录终止。 大肠杆菌染色体基因组的结构和功能 大肠杆菌染色体基因组是研究最清楚的基因组。估计大肠杆菌基因组含有3500个基因,已被定位的有900个左右。在这900个基因中,有260个基因已查明具有操纵子结构,定位于75个操纵子中。在已知的基因中

基因组学的研究内容

基因组学的研究内容 结构基因组学: 基因定位;基因组作图;测定核苷酸序列 功能基因组学:又称后基因组学(postgenomics基因的识别、鉴定、克隆;基因结构、功能及其相互关系;基因表达调控的研究 蛋白质组学: 鉴定蛋白质的产生过程、结构、功能和相互作用方式 遗传图谱 (genetic map)采用遗传分析的方法将基因或其它dNA序列标定在染色体上构建连锁图。 遗传标记: 有可以识别的标记,才能确定目标的方位及彼此之间的相对位置。 构建遗传图谱 就是寻找基因组不同位置上的特征标记。包括: 形态标记; 细胞学标记; 生化标记;DNA 分子标记 所有的标记都必须具有多态性!所有多态性都是基因突变的结果! 形态标记: 形态性状:株高、颜色、白化症等,又称表型标记。 数量少,很多突变是致死的,受环境、生育期等因素的影响 控制性状的其实是基因,所以形态标记实质上就是基因标记。

细胞学标记 明确显示遗传多态性的染色体结构特征和数量特征 :染色体的核型、染色体的带型、染色 体的结构变异、染色体的数目变异。优点:不受环境影响。缺点:数量少、费力、费时、对生物体的生长发育不利 生化标记 又称蛋白质标记 就是利用蛋白质的多态性作为遗传标记。 如:同工酶、贮藏蛋白 优点: 数量较多,受环境影响小 ?

缺点: 受发育时间的影响、有组织特异性、只反映基因编码区的信息 DNA 分子标记: 简称分子标记以 DNA 序列的多态性作为遗传标记 优点: ? 不受时间和环境的限制 ? 遍布整个基因组,数量无限 ?

不影响性状表达 ? 自然存在的变异丰富,多态性好 ? 共显性,能鉴别纯合体和杂合体 限制性片段长度多态性(restriction fragment length polymorphism , RFLP ) DNA 序列能或不能被某一酶酶切,

基因组学(结构基因组学和功能基因组学).

问:基因组学、转录组学、蛋白质组学、结构基因组学、功能基因组学、比较基因组学研究有哪些特点? 答:人类基因组计划完成后生物科学进入了人类后基因组时代,即大规模开展基因组生物学功能研究和应用研究的时代。在这个时代,生命科学的主要研究对象是功能基因组学,包括结构基因组研究和蛋白质组研究等。以功能基因组学为代表的后基因组时代主要为利用基因组学提供的信息。 基因组研究应该包括两方面的内容:以全基因组测序为目标的结构基因组学(struc tural genomics和以基因功能鉴定为目标的功能基因组学(functional genomics。结构基因组学代表基因组分析的早期阶段,以建立生物体高分辨率遗传、物理和转录图谱为主。功能基因组学代表基因分析的新阶段,是利用结构基因组学提供的信息系统地研究基因功能,它以高通量、大规模实验方法以及统计与计算机分析为特征。 功能基因组学(functional genomics又往往被称为后基因组学(postgenomics,它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质的研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。 基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的分析。新的技术应运而生,包括基因表达的系统分析,cDNA微阵列,DNA芯片等。鉴定基因功能最有效的方法是观察基因表达被阻断或增加后在细胞和整体水平所产生的表型变异,因此需要建立模式生物体。 功能基因组学

第二章基因组结构与功能练习题(附答案)

第二章基因与基因组结构与功能 (一)选择题 A型题 1.原核生物染色体基因组是 A.线性双链DNA分子 B.环状双链DNA分子 C.线性单链DNA分子 D.线性单链RNA分子 E.环状单链DNA分子 2.真核生物染色体基因组是 A.线性双链DNA分子 B.环状双链DNA分子 C.线性单链DNA分子 D.线性单链RNA分子 E.环状单链DNA分子 3.有关原核生物结构基因的转录,叙述正确的是 A.产物多为多顺反子RNA B.产物多为单顺反子RNA C.不连续转录 D.对称转录 E.逆转录 4.原核生物的基因组主要存在于 A.质粒 B.线粒体 C.类核 D.核糖体 E.高尔基体 5.下列有关原核生物的说法正确的是 A.原核生物基因组DNA虽然与蛋白结合,但不形成真正的染色体结构B.结构基因中存在大量的内含子 C.结构基因在基因组中所占比例较小 D.原核生物有真正的细胞核 E.基因组中有大量的重复序列 6.下列有关原核生物的说法不正确的是 A.原核生物的结构基因与调控序列以操纵子的形式存在 B.在操纵子中,功能上关联的结构基因串联在一起 C.在一个操纵子内,几个结构基因共用一个启动子 D.操纵元件也是结构基因 E.基因组中只存在一个复制起点 7.真核生物染色质中的非组蛋白是 A.碱性蛋白质 B.序列特异性DNA结合蛋白 C.识别特异DNA序列的信息存在于蛋白上

D.不能控制基因转录及表达 E.不参与DNA分子的折叠和组装 8.真核生物染色质的基本结构单位是 A.α-螺旋 B.核小体 C.质粒 D.?-片层 E.结构域 9.关于真核生物结构基因的转录,正确的说法是A.产物多为多顺反子RNA B.产物多为单顺反子RNA C.不连续转录 D.对称转录 E.新生链延伸方向为3'→5' 10.外显子的特点通常是 A.不编码蛋白质 B.编码蛋白质 C.只被转录但不翻译 D.不被转录也不被翻译 E.调节基因表达 11.下列有关卫星DNA说法错误的是 A.是一种高度重复序列 B.重复单位一般为2~10 bp C.重复频率可达106 D.能作为遗传标记 E.在人细胞基因组中占5%~6%以上 12.下列有关真核生物结构基因的说法不正确的是A.结构基因大都为断裂基因 B.结构基因的转录是不连续的 C.含有大量的重复序列 D.结构基因在基因组中所占比例较小 E.产物多为单顺反子RNA 13.染色体中遗传物质的主要化学成分是 A.组蛋白 B.非组蛋白 C.DNA D.RNA E.mRNA 14.真核生物染色质中的组蛋白是 A.酸性蛋白质 B.碱性蛋白质 C.一种转录因子 D.带负电荷 E.不带电荷

基因组的结构与功能习题

第二章基因组的结构与功能 (一)选择题 A 型题 1.原核生物染色体基因组是 A.线性双链DNA分子 B.环状双链DNA分子 C.线性单链DNA分子 D.线性单链RNA分子 E.环状单链DNA分子 2.真核生物染色体基因组是 A.线性双链DNA分子 B.环状双链DNA分子 C.线性单链DNA分子 D.线性单链RNA分子 E.环状单链DNA分子 3.有关原核生物结构基因的转录,叙述正确的是 A.产物多为多顺反子RNA B.产物多为单顺反子RNA C.不连续转录 d.对称转录 E.逆转录4.原核生物的基因组主要存在于 A.质粒 B.线粒体 C.类核 D.核糖体 E.高尔基体 5.下列有关原核生物的说法正确的是 A.原核生物基因组DNA虽然与蛋白结合,但不形成真正的染色体结构 B.结构基因中存在大量的内含子 C.结构基因在基因组中所占比例较小 D.原核生物有真正的细胞核 E.基因组中有大量的重复序列 6.下列有关原核生物的说法不正确的是 A.原核生物的结构基因与调控序列以操纵子的形式存在B.在操纵子中,功能上关联的结构基因串联在一起C.在一个操纵子内,几个结构基因共用一个启动子 D.操纵元件也是结构基因E.基因组中只存在一个复制起点 7.真核生物染色质中的非组蛋白是 A.碱性蛋白质B.序列特异性DNA结合蛋白C.识别特异DNA序列的信息存在于蛋白上 D.不能控制基因转录及表达E.不参与DNA分子的折叠和组装 8.真核生物染色质的基本结构单位是 A.α-螺旋B.核小体 C.质粒 D.?-片层 E.结构域 9.关于真核生物结构基因的转录,正确的说法是 A.产物多为多顺反子RNAB.产物多为单顺反子RNAC.不连续转录D.对称转录E.新生链延伸方向为3'→5' 10.外显子的特点通常是 A.不编码蛋白质B.编码蛋白质C.只被转录但不翻译D.不被转录也不被翻译E.调节基因表达11.下列有关卫星DNA说法错误的是 A.是一种高度重复序列 B.重复单位一般为2~10 bp C.重复频率可达106 D.能作为遗传标记 E.在人细胞基因组中占5%~6%以上 12.下列有关真核生物结构基因的说法不正确的是 A.结构基因大都为断裂基因 B.结构基因的转录是不连续的 C.含有大量的重复序列 D.结构基因在基因组中所占比例较小 E.产物多为单顺反子RNA 13.染色体中遗传物质的主要化学成分是 A.组蛋白 B.非组蛋白 C.DNA D.RNA E.mRNA 14.真核生物染色质中的组蛋白是 A.酸性蛋白质 B.碱性蛋白质 C.一种转录因子 D.带负电荷 E.不带电荷 15.指导合成真核生物蛋白质的序列主要是 A.高度重复序列 B.中度重复序列 C.单拷贝序列 D.卫星DNA E.反向重复序列

病毒、细菌基因组结构与功能

泛基因阶段 孟德尔的遗传因子阶段 摩尔根的基因阶段 顺反子阶段 操纵子阶段 现代基因阶段 DNA分子中含有特定遗传信息的核苷酸序列,是遗传物质的最小功能单位。合成有功能的蛋白质多肽链或RNA所必需的全部核酸序列(通常是DNA序列)。 一个基因应包含不仅是编码蛋白质肽链或RNA的核酸序列,还包括为保证转录所必需的调控序列、5′非翻译序列、内含子以及3′非翻译序列等所有的核酸序列(蛋白质基因和RNA基因)。 根据其是否具有转录和翻译功能可以把基因分为三类 第一类是编码蛋白质的基因,它具有转录和翻译功能,包括编码酶和结构蛋白的结构基因以及编码阻遏蛋白的调节基因 第二类是只有转录功能而没有翻译功能的基因,包括tRNA基因和rRNA基因第三类是不转录的基因,它对基因表达起调节控制作用,包括启动基因和操纵基因 是指生物体全套遗传信息,包括所有基因和基因间的区域。原核生物基因组:染色体基因组(chromosomal genome)染色体外基因组(extrachromosomal genome ) 真核生物基因组:染色体基因组(chromosomal genome)染色体外基因组

(extrachromosomal genome ) 生物体的进化程度与基因组大小之间不完全成比例的现象称为 C value paradox,又称C值悖论) 病毒基因组很小,且大小相差较大 病毒基因组可以由DNA组成,或由RNA组成 多数RNA病毒的基因组是由连续的RNA链组成 基因重叠 基因组的大部分可编码蛋白质,只有非常小的一部份不编码蛋白质 形成多顺反子结构 病毒基因组都是单倍体(逆转录病毒除外) 噬菌体(细菌病毒)的基因是连续的,而真核细胞病毒的基因是不连续的 1981年,美国首先发现获得性免疫缺陷征(acquired immunodeficiency syndrome,AIDS),其病原体是一种能破坏人免疫系统的逆转录病毒1986年,命名为:人类免疫缺陷病毒(human immunodeficiency virus,HIV) HIV特异性地侵犯并损耗T细胞而造成机体免疫缺陷 HIV如何感染免疫细胞并复制 捆绑――当HIV病毒的gp120蛋白捆绑到T-helper细胞的CD4蛋白时,HIV 病毒附着到机体的免疫细胞上。滤过性病毒核进入到T-helper细胞内 部,并且病毒体的隔膜融合进细胞壁; 逆转录――滤过性病毒酶,即逆转录酶,将病毒的RNA转化为DNA; 集成――新产生的DNA被病毒整合酶运送到细胞核中,并嵌入到细胞的DNA。HIV病毒被称之为前病毒;

第四章 基因与基因组学(答案)知识讲解

第四章基因与基因组 学(答案)

第四章基因与基因组学(答案) 一、选择题 (一)单项选择题 1.关于DNA分子复制过程的特点,下列哪项是错误的? A.亲代DNA分子双股链拆开,形成两条模板链 B.新合成的子链和模板链的碱基互补配对 C.复制后新形成 的两条子代DNA分子的碱基顺序与亲代的DNA分子完全相同 D. 以ATP、UTP、CTP、GTP和TDP为合成原料 E.半不连续复制 *2.建立DNA双螺旋结构模型的是: A.Mendel B.Morgan C.Hooke D.Watson and Crick E.Sthleiden and Schwann *3.下列哪个不属于基因的功能? A.携带遗传信息 B.传递遗传信息 C.决定性状 D.自我复制 E.基因突变 4.DNA分子中核苷酸顺序的变化可构成突变,突变的机制一般不包括: A.颠换 B.内复制 C.转换 D.碱基缺失或插入 E.不等交换 5.下列哪一种结构与割(断)裂基因的组成和功能的关系最小? A.外显子 B.内含子 C.TATA框 D.冈崎片段 E.倒位重复顺序 *6.在一段DNA片段中发生何种变动,可引起移码突变? A.碱基的转换 B.碱基的颠换 C.不等交换 D.一个碱基对的插入或缺失 E.3个或3的倍数的碱基对插入或缺失 7.从转录起始点到转录终止点之间的DNA片段称为一个: A.基因 B.转录单位 C.原初转录本 D.核内异质RNA E.操纵子 8.在DNA复制过程中所需要的引物是; A.DNA B.RNA C.tRNA D.mRNA E.rRNA 9.下列哪一项不是DNA自我复制所必需的条件? A.解旋酶 B.DNA多聚酶 C.RNA引物 D. ATP、GTP、CTP和TTP及能量 E.限制性内切酶 10.引起DNA形成胸腺嘧啶二聚体的因素是 A.羟胺 B.亚硝酸 C.5-溴尿嘧啶 D.吖啶类 E.紫外线 11.引起DNA发生移码突变的因素是 A.焦宁类 B.羟胺 C.甲醛 D.亚硝酸 E.5-溴尿嘧啶 12.引起DNA分子断裂而导致DNA片段重排的因素 A.紫外线 B.电离辐射 C.焦宁类 D.亚硝酸 E.甲醛 13.可以引起DNA上核苷酸烷化并导致复制时错误配对的因素 A.紫外线 B.电离辐射 C.焦宁类 D.亚硝酸 E.甲醛 14.诱导DNA分子中核苷酸脱氨基的因素 A.紫外线 B.电离辐射 C.焦宁类 D.亚硝酸 E.甲醛 15.由脱氧三核苷酸串联重复扩增而引起疾病的突变为 A.移码突变 B.动态突变 C.片段突变 D.转换 E.颠换 16.在突变点后所有密码子发生移位的突变为 A.移码突变 B.动态突变 C.片段突变 D.转换 E.颠换 *17.异类碱基之间发生替换的突变为 A.移码突变 B.动态突变 C.片段突变 D.转换 E.颠换 18.染色体结构畸变属于 A.移码突变 B.动态突变 C.片段突变 D.转换 E.颠换 *19.由于突变使编码密码子形成终止密码,此突变为 A.错义突变 B.无义突变 C.终止密码突变 D.移码突变 E.同义突变 *20.不改变氨基酸编码的基因突变为 A.同义突变 B.错义突变 C.无义突变 D.终止密码突变 E.移码突变 21.可以通过分子构象改变而导致与不同碱基配对的化学物质为 A.羟胺 B.亚硝酸 C.烷化剂 D.5-溴尿嘧啶 E.焦宁类 *22.属于转换的碱基替换为 A.A和C B.A和T C.T和C D.G和T E.G和C *23.属于颠换的碱基替换为

病毒、真核和原核生物的基因组结构特点

病毒、真核和原核生物的基因组结构特点 病毒基因组结构特点: 1.病毒基因组所含核酸类型不同 2.不同病毒基因组大小相差较大 3.病毒基因组可以是连续的也可以是不连续的 4.病毒基因组的编码序列大 5.基因可以是连续的也可以是间断的 6.病毒基因组都是单倍体和单拷贝 7.基因重叠 8.病毒基因组功能单位或转录单位 9.病毒基因组含有不规则结构基因 (1)几个结构基因的编码区无间隔 (2)结构基因本身没有翻译起始序列 (3) mRNA没有 5’端的帽结构 原核生物基因组结构特点: 1.细菌等原核生物的基因组是一条双链闭环的DNA分子 2.具有操纵子结构 3.原核基因组中只有1个复制起点 4.结构基因无重叠现象 5.基因序列是连续的,无内含子,因此转录后不需要剪切 6.编码区在基因组中所占的比例远远大于真核基因组,但又远远小于病毒基 因组。非编码区主要是一些调控序列

7.基因组中重复序列很少 8.具有编码同工酶的基因 9.细菌基因组中存在着可移动的DNA序列,包括插入序列和转座子 10.在DNA分子中具有多种功能的识别区域,如复制起始区、复制终止区、转 录启动区和终止区等。这些区域往往具有特殊的序列,并且含有反向重复序列 真核生物基因组结构特点: 1)真核基因组远远大于原核生物的基因组。 2)真核基因具有许多复制起点,每个复制子大小不一。每一种真核生物都有一定的染色体数目,除了配子为单倍体外,体细胞一般为双倍体, 即含两份同源的基因组。 3)真核基因都出一个结构基因与相关的调控区组成,转录产物的单顺反子,即一分子mRNA只能翻译成一种蛋白质。 4)真核生物基因组中含有大量重复顺序。 5)真核生物基因组内非编码的顺序(NCS)占90%以上。编码序列占5%。 6)真核基因产断列基因,即编码序列被非编码序列分隔开来,基因与基因内非编码序列为间隔DNA,基因内非编码序列为内含子,被内含子隔 开的编码序列则为外显子。 7)真核生物基因组功能相关的基因构成各种基因家族,它们可串联在一起,亦可相距很远,但即使串联在一起成族的基因也是分别转录的。 8)真核生物基因组中也存在一些可移动的遗传因素,这些DNA顺序并无明显生物学功能,似科为自己的目的而级织,故有自私DNA之称,其移 动多被RNA介导,也有被DNA介导的。

2013基因组学试题

2013基因组学试题 1. 什么是基因组(5分)?真核生物基因组有什么特点(15分)? 基因组是指一种微生物(包括细菌和病毒)或其它生物体细胞中的总DNA或RNA(是指逆转录病毒),包括核DNA,细胞器DNA(动植物线粒体DNA和植物叶绿体DNA)和染色体外遗传成分(如细菌的质粒DNA)。 结构:真核生物基因组结构特点: 真核基因组远远大于原核生物的基因组。 真核基因具有许多复制起点,每个复制子大小不一。每一种真核生物都有一定的染色体数目,除了配子为单倍体外,体细胞一般为双倍体,即含两份同源的基因组。 真核基因都出一个结构基因与相关的调控区组成,转录产物的单顺反子,即一分子mRNA只能翻译成一种蛋白质。 真核生物基因组中含有大量重复顺序。 真核生物基因组内非编码的顺序(NCS)占90%以上。编码序列占5%。 真核基因产断列基因,即编码序列被非编码序列分隔开来,基因与基因内非编码序列为间隔DNA,基因内非编码序列为内含子,被内含子隔开的编码序列则为外显子。 真核生物基因组功能相关的基因构成各种基因家族,它们可串联在一起,亦可相距很远,但即使串联在一起成族的基因也是分别转录的。 真核生物基因组中也存在一些可移动的遗传因素,这些DNA顺序并无明显生物学功能,似科为自己的目的而级织,故有自私DNA之称,其移动多被RNA介导,也有被DNA介导的。 功能: (一)真核基因表达调控的环节更多 基因表达是基因经过转录、翻译、产生有生物活性的蛋白质的整个过程。同原核生物一样,转录依然是真核生物基因表达调控的主要环节。但真核基因转录发生在细胞核(线粒体基因的转录在线粒体内),翻译则多在胞浆,两个过程是分开的,因此其调控增加了更多的环节和复杂性,转录后的调控占有了更多的分量。此外,真核细胞中还会发生基因扩增(gene amplification),基因的扩增无疑能够大幅度提高基因表达产物的量,但这种调控机理至今还不清楚。 (二)真核基因的转录与染色质的结构变化相关 真核基因组DNA绝大部分都在细胞核内与组蛋白等结合成染色质,染色质的结构、染色质中NA和组蛋白的结构状态都影响转录,至少有以下现象:1.染色质结构影响基因转录2.组蛋白的作用 3.转录活跃区域对核酸酶作用敏感度增加 4.DNA拓扑结构变化 5.DNA碱基修饰变化 (三)真核基因表达以正性调控为主 真核RNA聚合酶对启动子的亲和力很低,要依赖多种激活蛋白的协同作用。真核基因调控中有负性调控元件,但并不普遍;真核基因转录表达的调控蛋白是以激活蛋白的作用为主。真核基因组蛋白质编码的基因绝大多数是不连续的,采取逐个基因调控表达的形式。真核基因表达调控的环节多,录后调控的方式也很多 1.真核生物基因组DNA与蛋白质结合形成染色体,储存于细胞核内,除配子细胞外,体细胞内的基因的基因组是双份的(即双倍体,diploid),即有两份同源的基因组。 2.真核细胞基因转录产物为单顺反子。一个结构基因经过转录和翻译生成一个mRNA分子和一条多肽链。

基因组学(结构基因组学和功能基因组学)

问:基因组学、转录组学、蛋白质组学、结构基因组学、功能基因组学、比较基因组学研究有哪些特点? 答:人类基因组计划完成后生物科学进入了人类后基因组时代,即大规模开展基因组生物学功能研究和应用研究的时代。在这个时代,生命科学的主要研究对象是功能基因组学,包括结构基因组研究和蛋白质组研究等。以功能基因组学为代表的后基因组时代主要为利用基因组学提供的信息。 基因组研究应该包括两方面的内容:以全基因组测序为目标的结构基因组学(struc tural genomics)和以基因功能鉴定为目标的功能基因组学(functional genomics)。结构基因组学代表基因组分析的早期阶段,以建立生物体高分辨率遗传、物理和转录图谱为主。功能基因组学代表基因分析的新阶段,是利用结构基因组学提供的信息系统地研究基因功能,它以高通量、大规模实验方法以及统计与计算机分析为特征。 功能基因组学(functional genomics)又往往被称为后基因组学(postgenomics),它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质的研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。 基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的分析。新的技术应运而生,包括基因表达的系统分析,cDNA微阵列,DNA芯片等。鉴定基因功能最有效的方法是观察基因表达被阻断或增加后在细胞和整体水平所产生的表型变异,因此需要建立模式生物体。 功能基因组学

基因组学

基因组:生物所具有的携带遗传信息的遗传物质的总和,是指生物细胞中所有的DNA,包括所有的基因和基因间区域。 基因组学:研究基因组结构和功能的科学。指以分子生物学技术、计算机技术和信息网络技术为研究手段,以生物体内全部基因为研究对象,在全基因背景下和整体水平上探索生命活动的内在规律及其内外环境影响机制的科学。 C值:指一个单倍体基因组中DNA的总量,以基因组的碱基对来表示。每个细胞中以皮克(pg,10-12g)水平表示。 C 值矛盾:在结构、功能很相似的同一类生物中,甚至在亲缘关系十分接近的物种之间,它们的C值可以相差数10倍乃至上百倍。 序列复杂性:不同序列的DNA总长称为复杂性,复杂性代表了一个物种基因组的基本特征。隔裂基因:指基因内部被一个或更多不翻译的编码顺序即内含子所隔裂。 假基因:来源于功能基因但已失去活性的DNA序列。 微卫星序列:或称简单串联重复,重复单位较短。重复序列只有1-6个核苷酸,分布在整个基因组,10-50个重复单位. 重叠群:通过末端的重叠序列相互连接形成连续的DNA长片段的一组克隆称为重叠群。 指纹:指确定DNA样品所具有的特定DNA片段组成。 STS作图:根据STS序列设计引物,扩增文库当中的克隆,能扩出条带的克隆都含有序列重叠的插入子。 荧光原位杂交:指在染色体上进行DNA杂交,以便识别荧光标记探针在染色体上位置的方法。 辐射杂种群:通过放射杂交产生的融合细胞群称为辐射杂种群。 覆盖面(或深度):每个核苷酸在完成顺序中平均出现的次数,或者说完成顺序的长度与组装顺序长度之比。 支架:一组已锚定在染色体上的重叠群, 内部含间隙或不含间隙. 同源性:基因系指起源于同一祖先但序列已经发生变异的基因成员。 一致性:指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示. 相似性:指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。 转座子:一段DNA顺序可以从原位上单独复制或断裂下来,插入另一位点,并对其后的基因起调控作用,此过程称转座,这段序列称跳跃基因或转座子。 基因是DNA分子上具有遗传效应的特定核苷酸序列,是DNA分子中含有特定遗传信息的一段核苷酸序列,是遗传物质的最小功能单位。 基因的化学本质是核酸而不是蛋白质 基因组学以整个基因组为研究对象,而不是以单个基因为单位作为研究对象。包括对所有基因进行基因组作图(包括遗传图谱、物理图谱、转录图谱),核苷酸序列分析,基因定位和基因功能分析。 基因组学包括3个不同的亚领域:结构基因组学、功能基因组学、比较基因组学

相关主题
文本预览
相关文档 最新文档