基因组学
- 格式:docx
- 大小:94.79 KB
- 文档页数:12
名词解释:第一章基因组遗传图(连锁图):指基因或DNA标记在染色体上的相对位置与遗传距离。
单位是厘摩cM (基因或DNA片段在染色体交换过程中分离的频率)。
物理图:以已知核苷酸序列的DNA片段(序列标签位点,sequence-tagged site, STS)为“路标”,以碱基对作为基本测量单位(图距)的基因组图。
转录图:以EST(expressed sequence tag ,表达序列标签)为标记,根据转录顺序的位置和距离绘制的图谱。
EST:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的5'或3'端序列称为表达序列标签(EST),一般长300-500 bp左右。
序列图(分子水平的物理图):序列图是指整个人类基因组的核苷酸序列图,也是最详尽的物理图。
既包括可转录序列,也包括非转录序列,是转录序列、调节序列和功能未知序列的总和。
基因:合成有功能的蛋白质或RNA所必需的全部DNA序列,即一个基因不仅包括编码蛋白质或RNA的核酸序列,还应包括为保证转录所必需的调控序列。
基因组(genome):生物所具有的携带遗传信息的遗传物质的总和。
基因组学(genomics):涉及基因组作图、测序和整个基因组功能分析的一门学科。
C值:单倍体基因组的DNA总量,一个特定种属具有特征C值C值矛盾(C value paradox):指一个有机体的C值和其编码能力缺乏相关性。
单一序列:基因组中单拷贝的DNA序列。
重复序列:基因组中多拷贝的DNA序列。
复杂性(complexity):基因组中不同序列的DNA总长。
高度重复序列(highly repetitive sequence):重复片段的长度单位在几个到几百个碱基对(base pair,bp)之间(一般不超过200 bp),串联重复频率很高(可达106以上),高度重复后形成的这类重复顺序称为高度重复顺序。
中度重复序列(intermediate repetitive sequence ):重复长度300~7000 bp不等,重复次数在102~105左右。
基因组学1.基因组学包括那些研究内容?(1)结构基因组学:通过基因组作图、核苷酸序列分析,研究基因组结构,确定基因组成、基因定位的科学基因组测序:⾸先将整个基因组的DNA分解为⼀些⼩⽚段,然后将这些分散的⼩⽚段逐个测序,最后将测序的⼩⽚段按序列组装基因组作图:在长链DNA分⼦的不同位置寻找特征性的分⼦标记,绘制基因组图。
根据分⼦标记可以准确⽆误地将已测序的DNA⼩⽚段锚定到染⾊体的位置上。
(2)功能基因组学:利⽤结构基因组学提供的信息和产物,在基因组系统⽔平上全⾯分析基因功能的科学。
功能基因组学的研究内容:(1)进⼀步识别基因以及基因转录调控信息。
(2)弄清所有基因产物的功能,这是⽬前基因组功能分析的主要层次。
(3)研究基因的表达调控机制,分析基因产物之间的相互作⽤关系,绘制基因调控⽹络图。
(3)⽐较基因组学:研究不同物种之间在基因组结构和功能⽅⾯的亲源关系及其内在联系的学科。
⽐较基因组学的研究内容::(1)绘制系统进化树,显⽰进化过程中最主要的变化所发⽣的时间及特点。
据此可以追踪物种的起源和分⽀路径。
(2)了解同源基因的功能。
(3)对序列差异性的研究有助于认识产⽣⼤⾃然⽣物多样性的基础。
2.基因组学的历史变⾰与发展趋势?(⼀)1900年代以前:前遗传学时代(1)物种进化的⾃然选择学说——达尔⽂进化论。
(2)1865年G.Mendel发表豌⾖杂交实验结果,提出了遗传学的两⼤遗传规律—分离规律和独⽴分配规律,并认为是⽣物体内的遗传因⼦或遗传颗粒控制⽣物性状(⼆)1900—1950年代:经典遗传学时代标志:1900年,孟德尔遗传规律再发现标志着遗传学的诞⽣)⼈们开始把控制⽣物遗传性状的遗传单称为基因。
⽣命科学的研究基本都是围绕着基因来进⾏。
(三)1950—1990年代:分⼦⽣物学时代(前基因组学时代)标志:Watson & Crick 的DNA 双螺旋结构的发现[《Nature》1953.4.25],标志着分⼦⽣物学时代的开始 F.Crick根据DNA 的X射线衍射图谱,提出了DNA双螺旋结构模型,解释基因复制的机制,从⽽真正开始从分⼦⽔平上研究⽣命活动。
基因组学与蛋白质组学在科学研究领域中,基因组学和蛋白质组学是两个重要且密切相关的学科。
基因组学研究基因组中的所有基因,而蛋白质组学则研究细胞或生物体内所有蛋白质的组成和功能。
本文将从基因组学和蛋白质组学的原理和技术入手,分别介绍它们的研究对象和方法,并探讨二者之间的关系与应用。
一、基因组学基因组学是研究基因组的学科,基因组是指一个生物体内的所有基因的总和。
基因是遗传信息的基本单位,负责编码蛋白质和调控生物体的生理功能。
通过基因组学的研究,我们可以了解到一个生物体的基因组组成、结构和功能等信息。
1.1 基因组的分类基因组可以分为原核生物基因组和真核生物基因组。
原核生物基因组比较简单,一般只有一个染色体,如细菌和古细菌。
真核生物基因组相对复杂,由多个染色体组成,如人类和动物。
此外,还有一个概念是人类基因组。
人类基因组是指人类体内的所有基因的总和,它是真核生物基因组的一种。
1.2 基因组研究的方法基因组学的研究方法主要包括基因测序和基因表达分析。
基因测序是确定一个生物体基因组DNA序列的过程。
早期的基因测序技术采用Sanger测序法,但随着高通量测序技术的发展,如第二代测序技术(NGS),基因测序的速度和效率大大提高。
基因表达分析是研究基因在特定条件下的表达水平和模式。
常用的方法有微阵列芯片和RNA测序。
1.3 基因组学的应用基因组学的研究对于理解生命的发展和信号传递、疾病的诊断和治疗等方面具有重要意义。
在生命科学领域,通过对基因组的研究,可以了解基因之间的相互作用和调控关系,从而深入了解生命的本质。
此外,基因组学也可以帮助研究人类进化和种群遗传学问题。
在医学方面,基因组学为疾病的诊断和治疗提供了新的思路和方法。
通过比较基因组,可以快速准确地诊断某些遗传性疾病,并开发个性化治疗方案。
二、蛋白质组学蛋白质组学是研究蛋白质组的学科,蛋白质组是指细胞或生物体内所有蛋白质的总和。
蛋白质是细胞内的重要功能分子,不仅可以作为酶催化化学反应,还可以作为结构蛋白和信号传递分子等。
基因组学-Genomics-知识考点汇总•基因组(Genome:Gene+chromosome)细胞或生物体中一套完整的单倍体遗传物质•基因组学(Genomics)最早Thomas Roderick在1986年提出,包括基因组作图、测序和分析。
可分为结构基因组学和功能基因组学。
一、结构基因组学1.遗传图(Genetic Mapping Genomes) : Based on the calculation of recombination frequencyby linkage analysis .通过亲本的杂交,分析后代的基因间重组率,并用重组率来表示两个基因之间距离的线形连锁图谱每条染色体组成一个连锁群,所有染色体的连锁群组成的图谱即构成基因组遗传图。
重组率代表基因位点之间的相对距离。
在遗传作图中,人们把一个作图单位定义为1厘摩(cM),1cM等于1%的重组率。
提高遗传作图的分辨率:选用不同的杂交群体;增加杂交群体的数目;增加分子标记的数目;扩大分子标记的来源分子标记:绘制基因组遗传图需要的坐标点。
分子标记的主要来源是染色体上存在的大量等位基因。
在DNA水平上,两个基因间一个碱基的差异就足以形成等位基因。
2.物理图(physical map):指DNA序列上两点的实际距离,它是以DNA的限制酶片段或克隆的大片段的基因组DNA分子为基本单位,以连续的重叠群为基本框架,通过遗传标记将重叠群或基因组DNA分子有序排列于染色体上。
物理图的绘制: Based on molecular hybridization analysis and PCR techniques杂交法;指纹法;荧光原位杂交技术。
3.基因组序列测定: Sequencing methods: the chain termination procedure;Map-based clone by clone strategy;Whole genome shotgun (WGS) strategy;Sequence assembly;•传统基因组测序的方法:克隆步移法(BAC-by-BAC Strategy)和全基因组鸟抢法(Whole Genome Shotgun Strategy)。
基因组学的概念和原理
基因组学(Genomics)是研究生物体基因组的学科,包括基因的结构、功能、进化、调控和表观遗传学等方面的内容。
基因组学旨在通过对基因组的信息分析,揭示基因组与生物体表型之间的关系,为提高生命科学和生物技术领域的研究水平提供新的理论依据和技术支持。
基因组学的概念:
基因组学是一门研究生物体遗传信息的学科,包括结构基因组学、功能基因组学和比较基因组学等分支。
结构基因组学关注基因组的物理图谱、基因组测序和基因定位等方面的研究;功能基因组学致力于基因组表达调控、基因功能、蛋白质相互作用等方面的研究;比较基因组学则通过比对不同物种的基因组信息,探讨基因组的进化、基因功能和生物多样性等科学问题。
基因组学的原理:
基因组学的研究方法是基于基因组信息分析的。
通过对基因组DNA序列的分析,可以获得大量的遗传信息,如基因序列、基因表达调控元件、蛋白质相互作用网络等。
通过对这些信息的整合与分析,研究人员可以揭示基因组的功能和结构,以及基因组与生物体性状之间的关系。
此外,利用基因组编辑技术(如CRISPR/Cas9),研究人员可以在基因组水平对基因进行编辑和修饰,以研究基因功能或治疗遗传疾病。
基因组学的发展:
随着基因组测序技术的飞速发展,大量的基因组数据不断产生。
这些基因组数据为我们理解生物体的遗传基础、生命活动规律和生物进化理论提供了新的启示。
同时,基因组编辑技术的出现,也为生命科学和生物技术领域带来了革命性的变革。
在未来,基因组学将继续在生命科学、医学、农业等领域发挥重要作用。
基因组:生物所具有的携带遗传信息的遗传物质的总和,是指生物细胞中所有的DNA,包括所有的基因和基因间区域。
基因组学:研究基因组结构和功能的科学。
指以分子生物学技术、计算机技术和信息网络技术为研究手段,以生物体内全部基因为研究对象,在全基因背景下和整体水平上探索生命活动的内在规律及其内外环境影响机制的科学。
C值:指一个单倍体基因组中DNA的总量,以基因组的碱基对来表示。
每个细胞中以皮克(pg,10-12g)水平表示。
C 值矛盾:在结构、功能很相似的同一类生物中,甚至在亲缘关系十分接近的物种之间,它们的C值可以相差数10倍乃至上百倍。
序列复杂性:不同序列的DNA总长称为复杂性,复杂性代表了一个物种基因组的基本特征。
隔裂基因:指基因内部被一个或更多不翻译的编码顺序即内含子所隔裂。
假基因:来源于功能基因但已失去活性的DNA序列。
微卫星序列:或称简单串联重复,重复单位较短。
重复序列只有1-6个核苷酸,分布在整个基因组,10-50个重复单位.重叠群:通过末端的重叠序列相互连接形成连续的DNA长片段的一组克隆称为重叠群。
指纹:指确定DNA样品所具有的特定DNA片段组成。
STS作图:根据STS序列设计引物,扩增文库当中的克隆,能扩出条带的克隆都含有序列重叠的插入子。
荧光原位杂交:指在染色体上进行DNA杂交,以便识别荧光标记探针在染色体上位置的方法。
辐射杂种群:通过放射杂交产生的融合细胞群称为辐射杂种群。
覆盖面(或深度):每个核苷酸在完成顺序中平均出现的次数,或者说完成顺序的长度与组装顺序长度之比。
支架:一组已锚定在染色体上的重叠群, 内部含间隙或不含间隙.同源性:基因系指起源于同一祖先但序列已经发生变异的基因成员。
一致性:指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示.相似性:指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。
转座子:一段DNA顺序可以从原位上单独复制或断裂下来,插入另一位点,并对其后的基因起调控作用,此过程称转座,这段序列称跳跃基因或转座子。
基因组学概论基因:合成有功能的蛋白质或RNA所必需的全部DNA序列,即一个基因不仅包括编码蛋白质或RNA的核酸序列,还应包括为保证转录所必需的调控序列。
基因组(genome):生物所具有的携带遗传信息的遗传物质的总和。
真核生物基因组 1 核基因组2线粒体基因组3叶绿体基因组原核生物基因组1染色体2质粒基因组学(genomics):涉及基因组作图、测序和整个基因组功能分析的一门学科。
分为:结构基因组学,功能基因组学和比较基因组学。
结构基因组学:通过基因组作图、核苷酸序列分析确定基因组成、基因定位的科学。
基因组作图:在长链DNA分子的不同位置寻找特征性的分子标记,绘制基因组图。
根据分子标记可以准确无误地将已测序的DNA小片段锚定到染色体的位置上。
功能基因组学:利用结构基因组学,提供的信息和产物,在基因组系统,水平上全面分析基因功能的科学。
研究内容 1 进一步识别基因以及基因转录调控信息。
2 弄清所有基因产物的功能,这是目前基因组功能分析的主要层次。
3研究基因的表达调控机制,研究基因在生物体发育过程以及代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图。
比较基因组学:研究不同物种之间在基因组结构和功能方面的亲源关系及其内在联系的学科。
研究内容:1通过研究不同生物基因组结构和功能上的相似之处,不仅能勾画出一张详尽的系统进化树,而且将显示进化过程中最主要的变化所发生的时间及特点。
据此可以追踪物种的起源和分支路径。
2了解同源基因的功能。
3对序列差异性的研究有助于认识产生大自然生物多样性的基础。
定位候选克隆通过遗传分析等方法将疾病基因定位到染色体区段上。
对人类基因组图上该区段内的基因进行功能分析,并筛选出疾病基因。
(多用于单基因遗传病的筛查)单核苷酸多态性(SNP)是由于单个核苷酸改变而导致的核酸序列多态。
SNP在人基因组中的发生频率比较高,是最常见的基因组差异。
和人类的健康有着密切的关系。
人类基因组一、人类基因组及其研究1.基因组及基因组学(1)基因组基因组即染色体组,是指一个单倍体细胞核中、一个细胞器中或一个病毒毒粒中所含的全部DNA(或RNA)分子的总称,可分为核基因组、线粒体基因组、叶绿体基因组及病毒基因组。
(2)基因组学基因组学是研究生物体的基因组结构、组成和功能的科学。
2.人类基因组计划(HGP)人类基因组计划的主要内容包括:(1)绘制人类基因连锁图将大家系的系谱分析结合遗传标记等不同方法来确定人类的基因在染色体上所处的位置,完成人类22条常染色体以及X和Y染色体全套基因的遗传图谱。
(2)绘制物理图物理图是指以已知核苷酸序列的DNA片段为“界标”,以碱基对作为图距单位,标明其在DNA分子或染色体上所处位置的图谱。
(3)人类基因组测序测定人类全基因组DNA分子的核苷酸排列的次序。
(4)其他物种基因组分析HGP还包括对大肠杆菌和其他细菌、酵母、线虫、拟南芥、黑腹果蝇、小鼠、水稻等物种的基因组的比较分析。
3.基因组研究成果人类基因组的“工作草图”已于2000年绘制完成。
4.人类基因组各组分的基本特征(1)基因人类基因中,编码蛋白质的信息存在于一系列的外显子中,外显子由非编码的内含子隔开。
(2)基因外DNA基因外DNA的组成序列不是基因的一部分,也不是基因的相关序列,更非假基因和基因断片,大多数基因外DNA序列、是以单一或低拷贝数的形式存在的,其余是中度或高度重复序列。
①单一序列是指基因组里只出现一次的DNA序列。
②重复序列是指在基因组中重复出现的DNA序列。
可根据重复序列在基因组中的组织形式,分为分散重复序列和串联重复序列两类。
a.分散重复序列一般属于中度重复序列,以散在的方式分布于基因组中。
依重复单元的长度又可分为短散在重复序列(如Alu家族)和长散在重复序列。
b.串联重复序列人类基因组中首尾相连成长串联状的重复序列,根据重复单元的大小或重复序列簇的长度,分为卫星DNA、小卫星DNA和微卫星DNA。
生物学中的基因组学随着科技的不断发展,我们对生命的认知也在不断加深。
基因组学作为一个科学领域,已经成为生物学中不可忽视的一个分支。
本文将介绍什么是基因组学以及它在生物学中的应用。
一、基因组学是什么?基因组学是研究生物个体的遗传基础——基因组的组成和结构、功能以及相互作用的学科。
它是基于DNA的结构、序列及其功能的研究,并将它们应用于研究基因、遗传物质和遗传组成的特性。
遗传信息可以被存储在DNA序列中,这些序列可以用来研究生命的基本单位——细胞和组织的遗传信息。
基因组学研究的对象一般都是非常大量的DNA,这些DNA包含了各种各样的基因、外显子、内含子、反义RNA、微小RNA等不同种类的DNA序列。
精确的DNA测序技术在基因组学的研究过程中起到至关重要的作用,并可以有效地帮助生物学家解析复杂的DNA序列。
二、基因组学对生物学的意义1. 为研究生命提供基础数据基因组学的研究让我们更好地了解细胞、组织和生物个体的遗传信息。
这为研究生命提供了基础数据,并能够详细地解释生命的各种属性及其特性。
2. 促进生物学研究和新技术的诞生基因组学研究对生物学的各个领域都有着重要的影响,包括病理生理学、表观遗传学、进化和分类学等。
基因组学的研究也为新技术、新材料和新产品的诞生提供了技术基础。
3. 开发新的治疗方法和药物基因组学研究也可以深入研究某些疾病及其特点,从而开发出新的治疗方法和药物。
比如,基因组学技术已经被广泛应用于肿瘤治疗领域,并对其他遗传性疾病的治疗提供了有益的工具。
三、基因组测序技术基因组术是基因组学的核心技术之一。
通过测定DNA分子的完整序列,可以揭示有关生物个体遗传学、表观遗传学、生化和结构生物学的重要信息。
现在,我们具有大量不同的基因组测序技术,这些技术为我们揭示DNA分子的结构和功能提供了有效的途径。
1. 全基因测序(WGS)全基因测序指对一个个体的完整基因组进行序列测定。
这是一种完整而深入的测序方法,在研究人类遗传学、疾病诊断和基因组结构与功能变异方面具有显著的价值。
基因组学概念
基因组学(Genomics)是一门研究基因组结构和功能的学科,它涵盖了生命科学、生物信息学、计算机科学等多个领域。
基因组学通过研究基因组的结构、组成、表达和调控,深入理解生命的本质、生物多样性和疾病发生机制,为新药研发、医学诊断和治疗提供基础支持和解决方案。
基因组学的主要研究对象是基因组,即生物体内部所有基因的集合体。
基因组由DNA序列组成,其中包括编码蛋白质和调节基因表达的基因,以及非编码DNA序列和重复DNA序列等。
基因组学的研究内容包括以下几个方面:
1. 基因组测序:通过高通量测序技术,对基因组进行大规模的测序分析,以获取基因组的详细序列和变异信息。
2. 基因组组装:通过对测序数据进行组装和分析,构建基因组的物理图谱和遗传图谱,以确定基因组的结构和组成。
3. 基因组注释:通过对基因组序列进行注释和分析,确定基因的编码区、调控序列和重复序列等信息,以揭示基因的功能和表达模式。
4. 基因组变异分析:通过分析基因组序列中的变异,包括单核苷酸变异(SNV)、插入和缺失(INDEL)、结构变异(SV)等,揭示基因组的遗传多样性和疾病发生机制。
5. 基因组学应用:将基因组学应用于医学、农业、环境科学等领域,包括新药研发、疾病诊断和治疗、生物多样性保护等。
基因组学的发展得益于现代科技的不断进步和创新,如高通量测序技术、生物信息学方法和计算机科学算法等。
随着技术的不断革新和完善,基因组学将在生命科学、医学和农业等领域发挥越来越重要的作用,为人类提供更加全面、深入和精准的知识和解决方案。
基因组学的定义有广义和狭义之分。
广义的基因组学涉及到细胞学、遗传学、进化论和分子生物学的研究对象和范畴,可以称为是规模化的生物学研究。
狭义的基因组学主要是以各类物种的基因组为研究对象,形成复杂的概念、理论框架和研究命题。
基因内涵的最新发展基因在分子生物学中占据了核心地位,基因概念的发展贯穿了分子生物学理论的整个发展历程。
在某种程度上,基因内涵的更新与发展可以视为分子生物学发展阶段的标志。
从最初孟德尔通过离散型表型抽象出的遗传因子(genetic factor)开始,在基因内涵的发展史上先后出现过遗传物质究竟是核酸还是蛋白质之争、DNA琴弦假说等早期探索性工作。
目前,大家所熟知的基因形式包括顺反子、断裂基因、重复基因、重叠基因、跳跃基因、rRNA基因、tRNA基因、假基因等,近来又发现了以微小RNA基因为代表的多种非编码RNA基因(noncoding RNA gene)、跨染色体剪接基因、跨物种横向转移基因(即自然界的转基因)等多种新的基因形式。
诺贝尔生理医学奖在历史上曾多次与基因的更新和发展有关。
随着更多新的基因形式被不断发现,基因内涵也在不断发生变化。
Gerstein等(2007)和Pesole(2008)分别对基因的概念做了较新的定义。
他们给出的基因新概念主要在强调基因编码产物形式的多样性,其本质仍然是遗传信息的功能单位,而且细胞核基因组DNA也仍然是承载基因的主要物质载体。
在传统观念中,除了RNA编辑、剪接,以及蛋白质分子修饰之外,遗传信息从DNA到表型的传递过程几乎是完全线性的,至DNA以下的所有环节,包括中间分子信息和表型均最终受控于基因组DNA,生物的可遗传组分完全由基因组DNA的序列信息决定。
但随着研究的不断深入,这种传统观点正逐渐被打破,目前已经知道表观遗传及其他“软”遗传(soft inheritance)机制也广泛参与了跨代遗传的调控过程。
此外,已在细胞水平和整体水平上证明环境刺激引起的基因表达模式改变也可以在一定条件下实现跨代遗传,好像米丘林遗传学这一被扔进历史垃圾堆里的伪科学又死灰复燃了,在与孟德尔遗传学分道扬镳多年后又开始有了相互靠拢的新迹象(说不准某些曾经的伪科学还真有咸鱼翻身的机会)。
由此大胆推测,与基因组DNA序列及其修饰无关的可跨代的“软”遗传现象暗示细胞质分子缓冲信息系统中可能存在游离于基因组DNA之外(extra-genomic)的遗传信息单位。
这种现象提示可能存在更为新颖的基因形式,即在细胞质中可能存在不以基因组DNA序列为直接模版的新的基因形式。
在此,本文将其暂称为游离基因(dissociative gene)。
游离基因是指在细胞质以RNA cache为重要形式的分子缓冲系统中存在的不依赖于基因组DNA的独立遗传信息单位。
Lolle 等(2005)认为细胞RNA cache系统中的分子序列可直接作为模板,这提示了游离基因的可能来源之一。
目前只能间接推断游离基因的存在,游离基因的功能和作用机制等诸多细节尚不清楚,对于游离基因的来源、数量、维持机制、具体存在形式、游离基因如何复制、如何鉴定具体的游离基因、游离基因的进化机制等可能的科学问题均有待进一步研究。
跨物种核移植胚胎可在早期发育但不能发育至更晚时期的可能原因之一就是因为游离基因的保守性较低、具有高度的物种特异性。
事实上,在超越单纯的基因组DNA层次上,遗传信息单位的形式已从概念上得到了极大的拓展,目前已出现从基于DNA序列信息的传统等位基因(allele)向广义生物等位基因(bioallele)发展的趋势,包括表观等位基因(epiallele)(Johannes et al., 2008)、转录等位基因(transcriptallele)、蛋白等位基因(proteallele)、代谢等位基因(metaboallele)以及生理等位基因(physiallele)等一些广义生物等位基因的新概念。
随着生命科学日新月异的发展,一些更新的基因形式将可能被发现或提出来,比如笔者认为,新出现的元基因组(metagenome)概念甚至可能催生跨个体、跨种的metagene出现。
在可以预期的未来,生命科学的一个重要研究内容就是不断发现新的基因形式,并深入探索这些新的遗传信息单位(即新的基因形式)的特性及其参与生命过程的调控机制。
真核细胞的基因结构在遗传学上通常将能编码蛋白质的基因称为结构基因。
真核生物的结构基因是断裂的基因。
一个断裂基因能够含有若干段编码序列,这些可以编码的序列称为外显子。
在两个外显子之间被一段不编码的间隔序列隔开,这些间隔序列称为内含子。
每个断裂基因在第一个和最后一个外显子的外侧各有一段非编码区,有人称其为侧翼序列。
在侧翼序列上有一系列调控序列(图3-3),主要包括启动子、增强子、终止子等。
启动子启动子主要包括以下两个序列:①在5′端转录起始点上游约20~30个核苷酸的地方,有TA TA框(TA TA box)。
TA TA框是一个短的核苷酸序列,其碱基顺序为TA TAA TAA T。
TA TA框是启动子中的一个顺序,它是RNA聚合酶的重要的接触点,它能够使酶准确地识别转录的起始点并开始转录。
当TA TA框中的碱基顺序有所改变时,mRNA的转录就会从不正常的位置开始。
②在5′端转录起始点上游约70~80个核苷酸的地方,有CAA T框(CAA T box)。
CAA T框是启动子中另一个短的核苷酸序列,其碱基顺序为GGCTCAA TCT。
CAA T框是RNA聚合酶的另一个结合点,它的作用还不很肯定,但一般认为它控制着转录的起始频率,而不影响转录的起始点。
当这段顺序被改变后,mRNA的形成量会明显减少。
增强子在5′端转录起始点上游约100个核苷酸以远的位置,有些顺序可以起到增强转录活性的作用,它能使转录活性增强上百倍,因此被称为增强子。
当这些顺序不存在时,可大大降低转录水平。
研究表明,增强子通常有组织特异性,这是因为不同细胞核有不同的特异因子与增强子结合,从而对不同组织、器官的基因表达有不同的调控作用。
例如,人类胰岛素基因5′末端上游约250个核苷酸处有一组织特异性增强子。
在胰岛素β细胞中有一种特异性蛋白因子,可以作用于这个区域以增强胰岛素基因的转录。
在其他组织细胞中没有这种蛋白因子,所以也就没有此作用。
这就是为什么胰岛素基因只有在胰岛素β细胞中才能很好表达的重要原因。
终止子在3′端终止密码的下游有一个核苷酸顺序为AA TAAA,这一顺序可能对mRNA的加尾(mRNA尾部添加多聚A)有重要作用。
这个顺序的下游是一个反向重复顺序。
这个顺序经转录后可形成一个发卡结构(图3-4)。
发卡结构阻碍了RNA聚合酶的移动。
发卡结构末尾的一串U与转录模板DNA中的一串A之间,因形成的氢键结合力较弱,使mRNA与DNA杂交部分的结合不稳定,mRNA就会从模板上脱落下来。
同时,RNA聚合酶也从DNA上解离下来,转录终止。
AA TAAA 顺序和它下游的反向重复顺序合称为终止子,是转录终止的信号。
原核细胞的基因结构原核生物的基因结构多数以操纵子形式存在(见课本第二节中的乳糖操纵子),即完成同类功能的多个基因聚集在一起,处于同一个启动子的调控之下,下游同时具有一个终止子。
两个基因之间存在长度不等的间隔序列,如与乳糖代谢有关酶的基因。
在距转录起始点-35和-10(转录起始点上游的核苷酸序列为“-”,下游的核苷酸序列为“+”)附近的序列都有RNA聚合酶识别的信号。
RNA聚合酶先与-35附近的序列(称为Pribnow框)结合,然后才与-10附近的序列(称为Sextama框)结合。
至于RNA聚合酶是如何从一个位置转到另一个位置的,目前尚不清楚。
RNA聚合酶一旦与-10附近序列结合,就立即从识别位点上解离下来,DNA双链解开,转录开始。
除启动子外,往往还有一些调控转录的其他因子,如调节基因和操纵基因。
原核生物基因转录终止之前同样有一段回文序列结构,称为终止子,它的特殊的碱基排列顺序能够阻碍RNA聚合酶的移动,并使其从DNA模板链上脱离下来。
基因组研究的基本方法:物理图谱(physical map)物理图谱是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。
绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。
DNA物理图谱是指DNA链的限制性酶切片段的排列顺序,即酶切片段在DNA链上的定位。
因限制性内切酶在DNA链上的切口是以特异序列为基础的,核苷酸序列不同的DNA,经酶切后就会产生不同长度的DNA片段,由此而构成独特的酶切图谱。
因此,DNA物理图谱是DNA分子结构的特征之一。
DNA是很大的分子,由限制酶产生的用于测序反应的DNA片段只是其中的极小部分,这些片段在DNA链中所处的位置关系是应该首先解决的问题,故DNA物理图谱是顺序测定的基础,也可理解为指导DNA测序的蓝图。
广义地说,DNA测序从物理图谱制作开始,它是测序工作的第一步。
制作DNA物理图谱的方法有多种,这里选择一种常用的简便方法──标记片段的部分酶解法,来说明图谱制作原理。
用部分酶解法测定DNA物理图谱包括二个基本步骤:(1)完全降解选择合适的限制性内切酶将待测DNA链(已经标记放射性同位素)完全降解,降解产物经凝胶电泳分离后进行自显影,获得的图谱即为组成该DNA链的酶切片段的数目和大小。
(2)部分降解以末端标记使待测DNA的一条链带上示踪同位素,然后用上述相同酶部分降解该DNA链,即通过控制反应条件使DNA链上该酶的切口随机断裂,而避免所有切口断裂的完全降解发生。
部分酶解产物同样进行电泳分离及自显影。
比较上述二步的自显影图谱,根据片段大小及彼此间的差异即可排出酶切片段在DNA链上的位置。
下面是测定某组蛋白基因DNA物理图谱的详细说明。
完整的物理图谱应包括人类基因组的不同载体DNA克隆片段重叠群图,大片段限制性内切酶切点图,DNA片段或一特异DNA序列(STS)的路标图,以及基因组中广泛存在的特征型序列(如CpG序列、Alu序列,isochore)等的标记图,人类基因组的细胞遗传学图(即染色体的区、带、亚带,或以染色体长度的百分率定标记),最终在分子水平上与序列图的统一。
基本原理是把庞大的无从下手的DNA先“敲碎”,再拼接。
以Mb、kb、bp作为图距,以DNA探针的STS(sequence tags site)序列为路标。
1998 年完成了具有52,000个序列标签位点(STS),并覆盖人类基因组大部分区域的连续克隆系的物理图谱。
构建物理图的一个主要内容是把含有STS对应序列的DNA的克隆片段连接成相互重叠的“片段重叠群(contig)”。
用“酵母人工染色体(Y AC)作为载体的载有人DNA片段的文库已包含了构建总体覆盖率为100%、具有高度代表性的片段重叠群”,近几年来又发展了可靠性更高的BAC、PAC库或cosmid库等。