GC含量
碱基G、C相对于A、T的丰度很早就被看作是区分细菌基因组的特征之一 .不同的原核生物中,GC含量(GC content)从25﹪到75﹪,变化非常大。 大部分细菌是通过从其它生物体大规模获得基因(长度为几万甚至几十万个核苷酸)而进化的(水平转移).简而言之,许多细菌基因组表现为具有不同GC含量的区域的组合物,这些区域反映了细菌的进化历史。
G
0.1751306272192
T
0.3248693727808
酵母基因组核苷酸出现频率
在统计过程中,如果同时计算DNA的正反两条链,则根据碱基配对原则,A和T、C和G的出现频率相同。如果仅统计一条链,则虽然A和T、C和G的出现频率不同,但是非常接近。
核苷酸
频率
A
0.344
C
0.155
G
等值区
定义:具有一致碱基组成的长区域 特征 :等值区基因组序列的长度超过1,000,000对碱基虽然不同的等值区其GC含量差别显著,但同一等值区的GC含量始终相对均衡 人类基因组大约可以划分为五个不同类型的等值区:a) L1和L2,平均GC含量分别为39﹪和42﹪(欠GC)) b) H1、H2和H3,GC含量平均值分别为46﹪、49﹪和54﹪ (丰GC)
科学家对这本天书了解最多的部分就是遗传密码 或者说掌握了DNA对蛋白质编码的规律 关于密码子(1)密码子的使用是非随机的 如果密码子的第一、第二位碱基是A、U, 那么第三位将尽可能使用G、C;反之亦然。 如果三位都用G、C,则配对容易,分解难; 三位都用A、U,则相反。 一般地说,高表达的基因,要求翻译速度快, 要求密码子和反密码子配对快、分手也快。
基因结构复杂
基因转录调控方式复杂
真核基因的表达涉及多种RNA聚合酶。与原核生物只使用一种由多个蛋白聚合而成的RNA聚合酶不同,真核生物至少使用由8到12个蛋白组成的三种不同类型的RNA聚合酶。RNA 聚合酶I和III负责转录生成RNA分子,这些分子本身执行重要的功能,在所有的真核细胞中需要始终保持相当恒定的水平。RNA聚合酶II专门负责转录编码蛋白质的基因。 RNA聚合酶II识别的启动子序列的多样性反映了区别基因的复杂程度,即在特定类型的细胞中和在特定的时间,区别哪些基因该表达而哪些基因不该表达。