真核生物基因组
- 格式:doc
- 大小:81.00 KB
- 文档页数:13
真核生物基因组的特点
x
一、真核生物基因组的特点
1、复杂的基因组
真核生物基因组通常非常复杂,其中含有各种各样的基因、控制序列和非编码序列。
真核生物基因组中存在的基因分布是非常分散的,而且基因的编码信息也相当复杂,所以被称为复杂的基因组。
2、高度信息密度
真核生物基因组的高度信息密度可以满足细胞机能的复杂性和
多样性。
真核生物基因组中的基因可作为特定机能的关键,其在基因组中的位置也很重要,因为基因的表达在基因组的某个特定位置受到其他一些基因的控制。
3、高基因重复率
真核生物基因组中存在一定水平的基因重复,这些重复序列的存在大大提高了基因组的复杂性和密度。
这些基因重复也可以用来检测基因定位因子及其功能。
4、特定的基因组结构
真核生物基因组的结构一般按照特定的模式进行组织,以适应生物体的特定需求。
这种结构使基因组中的基因能够更有效地执行其功能,这样就可以保证生物体的正常运行。
5、动态平衡
真核生物基因组具有非常复杂的结构,但它们之间仍然具有一定
程度的动态平衡。
这种动态平衡使得基因组能够不断地随着环境和活动变化进行改变和调节,从而保证生物体的正常运行和进化。
真核生物细胞核基因组的特点
真核生物细胞核基因组与原核生物基因组相比,具有以下主要特点:
1.基因组大小更大
真核生物细胞核基因组的大小通常在几百万到几十亿碱基对之间,大大超过原核生物。
这是由于真核基因组包含大量的非编码DNA序列。
2.线性分子结构
真核生物的DNA分子以线性形式存在于细胞核内,而不是环状结构。
3.含有间隔子
真核基因的编码序列常常被非编码的内含子序列所间隔,需要剪切才能形成成熟mRNA。
而原核基因一般不含内含子。
4.基因组分为多条染色体
真核基因组通常由多条线性染色体DNA分子组成,每条染色体携带成百上千个基因。
5.含有大量重复序列
真核基因组中存在大量的高度重复和中度重复的非编码DNA序列。
6.基因表达受精细调控
真核生物基因的转录和翻译过程受多种调控机制的复杂调节,如染色质重塑、转录因子等。
7.存在序列可移动性
真核基因组中存在转座子和反转录病毒等可移动的DNA序列元件。
8.基因组进化较缓慢
由于真核生物有性生殖,其基因组进化速率较原核生物慢。
总的来说,真核生物细胞核基因组不仅规模大、结构复杂,而且基因表达和进化模式也与原核生物有所不同,反映了真核生物更高级的遗传调控水平。
真核生物基因组的特点 -回复
真核生物基因组的特点有以下几个方面:
1. 基因组大小:真核生物的基因组通常比原核生物和病毒的基因组要大。
真核生物基因组的大小范围广泛,从几万个碱基对到几十亿个碱基对不等。
2. 基因密度:相比于原核生物,真核生物的基因密度较低。
真核生物的基因通常具有较多的非编码区域和间隔序列。
3. 基因副本数:真核生物的基因组中存在许多基因家族,即多个亲缘关系密切的基因。
这些基因可能会经历基因重复、基因家族扩张等过程。
4. 内含子:真核生物基因组的基因通常具有内含子,即非编码序列片段,它们在基因转录后会被剪切掉。
5. 组蛋白修饰:真核生物基因组的DNA通常被染色质蛋白修饰,以调控基因的表达。
这些修饰包括DNA甲基化、组蛋白乙酰化、甲基化等。
6. 染色体结构:真核生物的基因组通常以染色体的形式存在,染色体是DNA与蛋白质组成的复杂结构,能够保护和组织基因。
总的来说,真核生物基因组相比于原核生物基因组更为复杂。
这些特点反映了真核生物对更高级的基因调控和功能的需求。
真核生物的基因组拼装和注释真核生物是指所有具有真核细胞的生物,包括动物、植物、真菌、原生生物等。
它们的基因组大小和复杂度各不相同,但都是由DNA序列构成的。
对于研究者来说,我们需要对这些基因组进行拼装和注释,以便更好地理解基因功能和调控机制。
一、基因组拼装基因组拼装是指将碎片化的DNA序列或者长读长(long-read)序列拼接成完整的基因组序列。
其中长读长技术可以产生较长的读长,从而减少拼装时出现的错配率。
基因组拼装主要分为以下几个步骤:1. reads质量控制:首先需要对原始reads进行质量控制,去除低质量的reads和含有过量N或者不符合长度要求的reads。
2. 拼装算法选择:选择合适的拼装算法,如Overlap-layout-consensus(OLC)或De Bruijn graph(DBG)算法,并根据不同的基因组大小和复杂度调整相关参数。
3. 拼装结果评估:对拼装结果进行评估,如N50、L50等指标,可以衡量基因组的连续度和完整性。
4. 错误修正:在得到初步拼装结果后,需要进行错误修正,如利用pair-end reads、matex等辅助拼装程序进行错误校正,进一步提高基因组拼装的精度。
5. 基因组质量评估:进行基因组质量评估,如BUSCO检测,评估基因组的完整度和比对率等指标。
二、基因组注释基因组注释是指对基因组序列进行基因和基因功能的标注,主要是指在基因组上标识出编码的蛋白质基因、RNA基因、转录因子结合位点等功能元件。
基因组注释的主要目的是揭示基因组的结构和功能,为基因功能研究提供较好的基础信息。
基因组注释主要包括以下几个方面:1. 基因预测:从基因组序列中预测出基因,其中包括开放阅读框(ORF)预测、跨物种比对等多种方法。
对于复杂的基因,还需要进行手工修正和验证。
2. 基因命名和分类:根据基因结构和功能特点,对预测的基因进行命名和分类,如酶类、结构蛋白等类别。
同时,需要对同源基因进行比较和分类,以便更好地了解基因家族的进化和功能演化。
简述真核生物基因组的结构特点
真核生物基因组的结构特点总结归纳如下:
1真核基因组庞大,一般都远大于原核生物的基因组。
2真核基因组存在大量的重复序列。
3真核基因组的大部分为非编码序列,占整个基因组序列的90%以上,该特点是真核生物与细菌和病毒之间最主要的区别。
4真核基因组的转录产物为单顺反子。
5真核基因是断裂基因,有内含子结构。
6真核基因组存在大量的顺式作用元件,包括启动子、增强子、沉默子等。
7真核基因组中存在大量的DNA多态性。
DNA多态性是指DNA序列中发生变异而导致的个体间核苷酸序列的差异,主要包括单核苷酸多态性和串联重复序列多态性。
8真核基因组具有端粒结构。
基因组的特点真核生物基因组的特点:1.基因组较大。
真核生物的基因组由多条线形的染色体构成,每条染色体有一个线形的DNA分子,每个DNA分子有多个复制起点;2.不存在操纵子结构。
真核生物的同一个基因簇的基因,不会像原核生物的操纵子结构那样,转录到同一个mRNA上;3.存在大量的重复序列。
真核生物的基因组里存在大量重复序列,通过其重复程度可将其分成高度重复序列、中度重复序列、低度重复序列和单一序列;4.有断裂基因。
大多数真核生物为蛋白质编码的基因都含有“居间序列”,即不为多肽编码,其转录产物在mRNA前体的加工过程中被切除的成分;5.真核生物基因转录产物为单顺反子;6.功能相关基因构成各种基因家族。
原核生物基因组的特点:1.基因组较小,通常只有一个环形或线形的DNA分子;2.通常只有一个DNA复制起点;3.非编码区主要是调控序列;4.存在可移动的DNA序列;5.基因密度非常高,基因组中编码区大于非编码区;6.结构基因没有内含子,多为单拷贝,结构基因无重叠现象;7.重复序列很少,重复片段为转座子;8.有编码同工酶的等基因;9.基因组的大部分序列是用来编码蛋白质的,基因之间的间隔序列很短;10.功能相关的序列常串连在一起,由共同的调控元件调控,并转录成同一mRNA分子,可指导多种蛋白质的合成,这种结构称操纵子。
病毒基因组的特点:1.不同病毒基因组大小相差较大;2.不同病毒基因组可以是不同结构的核酸;3.除逆转录病毒外,通常为单倍体基因组;4.有的病毒基因组是连续的,有的病毒基因组分节段;5.有的基因有内含子;6.病毒基因组大部分为编码序列;7.基因重叠,即同一段DNA片段能够编码两种或两种以上的蛋白质分子,这种现象在其他生物细胞中仅见于线粒体和质粒DNA。
第二讲真核生物基因组真核生物的基因组比较庞大,并且不同生物种间差异很大,例如人的单倍体基因组由3.16×109 bp组成。
在人细胞的整个基因组中实际上只有很少一部份(约占2%~3%)的DNA序列用以编码蛋白质。
第一节真核生物基因组特点真核生物体细胞内的基因组分细胞核基因组与细胞质基因组,细胞核基因组是双份的(二倍体,diploid),即有两份同源的基因组;细胞质基因组可有许多拷贝。
真核细胞基因转录产物为单顺反子,一个结构基因经过转录和翻译生成一个mRNA分子和一条多肽链。
细胞核基因组存在重复序列,重复次数可达百万次以上,大多为非编码序列;因此,基因组中不编码的区域多于编码区域。
大部分基因含有内含子,因此,基因是不连续的。
真核生物基因组远远大于原核生物的基因组,具有许多复制起点,但每个复制子的长度较小。
一、细胞核基因组与细胞质基因组(一)细胞核基因组细胞核基因组的DNA与蛋白质结合形成染色体(chromosome)。
除配子细胞外,体细胞有两个同源染色体,因此基因组有两份同源的基因组。
染色体储存于细胞核内,是基因组遗传信息的载体。
(二)线粒体基因组线粒体基因组DNA(mitochondrial DNA,mtDNA)为双链环状超螺旋分子,类似于质粒DNA,分子量小,大多在1~200×106之间,如人类mtDNA仅由16569bp组成。
mtDNA的复制属于半保留复制,可以是θ型复制,或滚环复制,或D环复制,由线粒体DNA聚合酶催化完成。
线粒体基因组主要编码与生物氧化有关的一些蛋白质和酶,如:呼吸链中的细胞色素氧化酶有七个亚基,其中三个亚基由mtDNA编码,其余四个亚基由细胞核DNA编码;细胞色素还原酶有七个亚基,基中的一个亚基由mtDNA编码;ATP酶含有十个亚基,其中四个亚基由mtDNA编码。
线粒体基因组可能还包括一些抗药性基因。
此外,线粒体基因组有自己的rRNA,tRNA,核糖体等系统,因此线粒体本身的一些蛋白质基因也可以在线粒体内独立地进行表达。
近几年的研究发现,哺乳动物mtDNA的遗传密码与通用的遗传密码有以下区别:①UGA不是终止密码,而是编码色氨酸的密码;②多肽内部的甲硫氨酸由AUG和AUA 两个密码子编码,而起始甲硫氨酸由AUG、AUA、AUU和AUC四个密码子编码;③AGA、AGG不是精氨酸的密码子,而是终止密码子,因此,在线粒体密码翻译系统中有4个终止密码子(UAA、UAG、AGA、AGG)。
二、单顺反子结构真核细胞结构基因为单顺反子(monocistron),一个结构基因经过转录生成一个单顺反子mRNA分子,翻译成一条多肽链,真核生物基本上没有操纵子结构。
三、断裂基因真核细胞基因组的大部分序列属于非编码区,不编码具有生物活性的蛋白质或多肽。
编码区通常为结构基因,结构基因不仅在两侧有非编码区,而且在基因内部也有许多不编码蛋白质的间隔序列(intervening sequences),因此,真核细胞的基因大多由不连续的几个编码序列所组成,称之为断裂基因(split gene)。
(一)内含子与外显子内含子(intron)是结构基因中的非编码序列,往往与编码序列呈间隔排列。
当基因转录后,在mRNA的成熟过程中被剪切(splicing)。
外显子(exon)是结构基因中的编码序列,当基因转录后,mRNA在成熟过程中切去内含子,外显子才被拼接成完整的序列,成为成熟的mRNA作为指导蛋白质合成的模板。
(二)间隔区DNA真核生物基因之间存在编码空白区或转录的空白区,称之为间隔区DNA(spacer DNA),这些序列往往在单拷贝的结构基因之侧翼,并使结构基因彼此分开,间隔区DNA也可以存在于rDNA区。
间隔区DNA大小与基因组的大小有关,一般来说,基因组愈大,间隔区DNA所占的比例也愈高。
四、重复序列(一)高度重复序列真核生物基因组中普遍存在着重复序列,其中重复频率高,可达百万(106)以上的重复序列,称之为高度重复序列。
在人类基因组中约占20%。
由于高度重复序列中碱基组成的复杂度很低,因此其复性速率很快。
高度重复序列又按其结构特点分为三种:1.反向(倒位)重复序列这种重复序列复性速度极快,即使在极稀的DNA浓度下,也能很快复性,因此又称零时复性部分,人基因组中约占5%。
倒位重复序列由两个相同顺序的互补拷贝在同一DNA链上反向排列而成。
变性后再复性时,同一条链内的互补的拷贝可以形成链内碱基配对而形成发夹式或“+”字形结构。
倒位重复(即两个互补拷贝)之间可有若干个核苷酸的间隔,也可以没有间隔。
没有间隔的又称之为回文(palindrome)结构,回文结构约占所有倒位重复的三分之一。
2.卫星DNA(satellite DNA)重复序列的重复单位一般由2~10bp组成,且成串排列。
由于这类序列的碱基组成不同于其他部份,可用等密度梯度离心法将其与主体DNA分开,因而称为卫星DNA或随体DNA。
在人类基因组中卫星DNA约占5~6%。
3. 高度重复顺序的功能主要有:①参与复制水平的调节。
反向序列常存在于DNA 复制起点区的附近;另外,许多反向重复序列是一些蛋白质(包括酶)和DNA的结合位点。
②参与基因表达的调控。
③参与转位作用。
几乎所有转位因子的末端都包含反向重复序列,长度由几个bp到1400bp。
④与进化有关。
不同种属的高度重复序列的核苷酸序列不同,具有种属特异性,但相近种属又有相似性。
⑤与个体特征有关。
同一种属中不同个体的高度重复序列的重复次数不一样,这可以作为每个个体的特征,即DNA 指纹。
⑥与染色体减数分裂时染色体配对有关。
(二)中度重复序列中度重复序列是指在真核基因组中重复数十至数万次(<105)的重复序列。
其复性速度快于单拷贝顺序,但慢于高度重复序列。
少数在基因组中成串排列在一个区域,大多数与单拷贝基因间隔排列。
依据重复序列的长度,中度重复序列可分为两种类型。
1.短分散片段(short interspersed repeated segments,SINES)重复序列的平均长度为300bp(一般<500bp),与平均长度为1000bp左右的单拷贝序列间隔排列,拷贝数可达10万左右。
如Alu家族、Hinf家族等属于这种类型的中度重复序列。
Alu家族是哺乳动物基因组中含量最丰富的一种中度重复顺序家族,约占人类基因组的3%~6%。
Alu家族每个成员的长度约300bp,每个单位长度中有一个限制性内切酶Alu的切点(AG↓CT),Alu可将其切成两段,130bp和170bp,因而定名为Alu 序列(或Alu家族)。
Alu序列分散在基因组中,在间隔区DNA,内含子中都发现有Alu序列。
Alu序列具有种特异性,以人的Alu序列制备的探针只能用于检测人的基因组中的Alu序列,由于在大多数的含有人的DNA的克隆中都含有Alu序列,因此,可用以人的Alu序列制备的探针与克隆杂交来进行筛选。
2.长分散片段(long interspersed repeated segments,LINES)重复序列的长度大于1000bp,平均长度为3500~5000bp,如KpnⅠ家族等。
中度重复序列在基因组中所占比例在不同种属之间差异很大,在人类基因组中约为12%。
中度重复序列大多不编码蛋白质。
其功能可能类似于高度重复序列。
有些中度重复序列则是编码蛋白质或rRNA的结构基因,如HLA基因、rRNA基因、tRNA基因、组蛋白基因、免疫球蛋白基因等。
中度重复序列可存在于结构基因之间、基因簇之中,甚至存在于内含子内部等。
中度重复序列一般具有种属特异性,因此在适当的情况下,可以应用它们作为探针以区分不同种属哺乳动物细胞来源的DNA。
KpnⅠ家族 是中度重复顺序中仅次于Alu家族的第二大家族,用限制性核酸内切酶KpnⅠ消化人类及其它灵长类动物的DNA,在电泳图谱上可以看到4个不同长度的片段,分别为1.2、1.5、1.8和1.9kb,在人类基因组中,KpnⅠ家族的拷贝数约为3000~4800个,约占基因组的1%。
(2)组蛋白基因在各种生物体内重复的次数不一样,组蛋白基因没有一定的排列方式,组蛋白基因不含内含子,组蛋白基因序列都很相似,从而编码的组蛋白在结构上和功能上也极为相似,具有高的保守性。
(三)低度重复序列(单拷贝序列)低度重复序列在单倍体基因组中只出现一次或数次,因而复性速度很慢。
人基因组中,大约有60%~65%的序列属于这一类。
低度重复序列中储存了巨大的遗传信息,编码各种不同功能的蛋白质。
目前尚不清楚单拷贝基因的确切数字,在低度重复序列中只有一小部份用来编码各种蛋白质,其他部份的功能尚不清楚。
五、多基因家族与假基因(一)多基因家族多基因家族(multigene family)是指由某一祖先基因经过重复和变异所产生的一组基因。
多基因家族可分为两类:①基因家族成簇地分布在某一条染色体上,其可同时发挥作用,合成某些蛋白质(如:组蛋白基因家族就成簇地集中在第7 q 32 6);②一个基因家族的不同成员成簇地分布在不同的染色体上,这些不同成员编码一组功能上紧密相关的蛋白质(如珠蛋白基因家族)。
(二)假基因在多基因家族中,某些成员并不产生有功能的基因产物,这些基因称为假基因(pseudo gene)。
假基因与有功能的基因是同源的,原来可能也是有功能的基因,但由于缺失,倒位或点突变等,使这一基因失去活性,成为无功能的基因。
人们推测假基因的来源之一,可能是基因经过转录后生成的hnRNA通过剪接失去内含子形成mRNA,mRNA经逆转录产生cDNA,再整合到染色体DNA 中去,便有可能成为假基因,因此该假基因就没有内含子,在这个过程中,可能同时会发生缺失,倒位或点突变等变化,从而使假基因失去表达活性。
六、多态性基因组中某个基因在同种生物的不同个体中,同时和经常存在的两种或两种以上的变异型或基因型的现象,称为基因多态性(gene polymorphism)。
真核生物基因组中基因多态性常常出现在限制性核酸内切酶的酶切位点序列中,因此,用某个限制性核酸内切酶来酶解基因组的某段序列时,在同种的不同个体之间该段序列可能被酶解成长短不等的几个DNA片段,即这段序列在该种生物的群体中形成多态性,这种多态性称为限制性核酸内切酶片段长度多态性(restriction fragment length polymorphism,RFLP)。
RFLP分为两种类型:一类是由于限制性内切酶位点上发生了单个碱基突变而使这一限制性位点发生丢失或获得而产生的多态性,故称之为点多态性(point polymorphism)。
这类多态性实际上是双态的,即有(+)或无(-)。
另一类是由于DNA 分子内部发生较大的顺序变化所致。