当前位置:文档之家› 第2章 细胞器基因组

第2章 细胞器基因组

第2章 细胞器基因组
第2章 细胞器基因组

第2章细胞器基因组

基本概念和定义

·在有性繁殖的真核生物中,父系和母系对子代核基因组的贡献都是均等的,产生典型孟德尔遗传模式(参见亲本印记和性连锁遗传)。所以核遗传(nuclear inheritance)被称为双亲融合(b iparental)。然而细胞中除了细胞核还有其他细胞器有自身的基因组(最主要的例子是线粒体和叶绿体),同时细胞质中还有可能含有寄生虫,病毒或内共生体等有机体。

·细胞质内遗传信息与细胞核内基因的遗传方式是不同的。细胞质遗传(cytoplastic inheritance,核外遗传或基因组外遗传)通常是单亲遗传(uniparental),即仅由单亲提供到合子中。在动物中,细胞质遗传与母系遗传(matemal inheritance)是同义的,因为只有母系配子对合子提供细胞质。在植物中,母系遗传占主导地位,但某些物种是父系遗传(patennal inhentance),还有的双亲都有细胞质传递的能力(不是同时起作用)。在植物和低等的真核生物中,双亲的配子都能为合子提供等量的细胞质,但是双亲之一细胞质的基因经常被选择性的破坏或失活,所以遗传方式还是功能性单亲遗传。后代的基因型只决定于双亲之一,与另一个的基因型无关。

·细胞器基因组在结构和功能上和某些真细菌的基因组的性质相似。因此一般认为它们是由寄居在早期真核细胞中的内共生生物演化而来的。细胞器基因组和核基因组在功能上的高度整合是细胞器功能所必须的,这也暗示着在细胞器进化的过程中,大量细胞器的基因都被转移到核基因组中去。

内共生理论和混栖DNA细胞器有可能是由与原始的真核细胞形成内共生体原核生物演化而来的。这个模型的证据包括,细胞器与现有的细菌在基因组结构,基因表达的机制和对抗生素敏感性等方面的相似性,以及它们的基因和多肤序列的相似性。经历了一个进化时期,线粒体和叶绿体的部分基因丢失进入核内,从而对宿主依赖。混栖DNA(promiscuous DNA)的存在也支持了上述观点(细胞器起源的,可插入核或多种细胞器的基因组)。混栖DNA的序列能够反映一些最近DNA转座的事件。虽然转座的机制还不清楚。但是基因从细胞质转移到核内的罕见事件的确发生。

2.1细胞器遗传学

母系遗传母系遗传是指只通过母系进行基因以及它们所控制的性状的传递。这反映了一个事实:在很多高等的真核生物中,母亲提供受精卵全部的细胞质而父亲只提供父系的核物质。母体遗传不能与母体影响相混淆,后者只反映在早期发育中母体的控制,与核基因遗传相关,表现出正常的孟德尔分离比例。

母系遗传(maternal inheritance),即仅通过卵子细胞质传给下一代,雌雄性后代都接受其母亲的基因型但只有雌性随后将线粒体传给下一代。这种传递方式是由于成熟卵母细胞中贮藏着大约10 5~10 8个线粒体而精子中一般只带有50~100个线粒体,因此大多数动物中线粒体的遗传比例雄雌约为1:2000,而且在受精过程中大多数的精子线粒体可能不进入卵细胞中,因而从母系来的线粒体在数量上占有绝对优势。有时偶尔有精子线粒体进入卵子中形成线粒体的父系渗入(paternal leakage),引起个体内线粒体DNA的异质性和双亲遗传现象。

细胞质遗传的其他形式线粒体DNA和叶绿体洲A是最普通和了解最清楚的细胞质遗传形式。其他的细胞器虽然被确信也含有DNA(如中心粒),但其编码潜势和功能了解得还是很少。内源性的微生物以寄生和共生的方式与宿主共存时,也产生细胞质遗传的信息。如病毒、细菌等存在于真核细胞胞质内,以母系遗传的方式给予了宿主细胞某些表型。

表2.1用于描述细胞器基因组行为的一些名词

名词定义

细胞型是由细胞质而不是核中的物质给予细胞的特性。不仅用来指代细胞质基因控制的性状,还可以用来指代在细胞质中合成并发挥功能的核基因所控制的性状(如参

见P因子,杂种不育)。

同质的由纯合细胞质而来—有同一基因型的细胞器的个体。

异质的由杂合细胞质而来—具有不同基因型的细胞器的个体。

胞质杂合子异质细胞。高等真核生物的细胞有同质的趋势,除非产生自发突变,胞质杂合子可以由细胞融合而产生。胞质杂合子在低等真核生物中是由双亲的细胞质遗

传而自然产生的。在这些物种中双亲的一方细胞质将被破坏,这一过程的失败就

产生了胞质杂合子。这些异常的细胞叫做双亲融合子(biparental zygotes)。细胞质分离在有丝分裂中,异质性的细胞产生了同质性的细胞。这反映细胞器在子代细胞中的随机分配,一个随机的过程引起的失衡可以在下一轮的分裂中得到进一步

的放大。一般几代以后,所有的子代细胞都是同质性的。相同的原理也可见于多

拷贝质粒的分离

异核体,同核体,融合体这些术语是与核而非细胞质基因有关的,但经常与细胞质遗传相混淆,因而在此说明。异核体是一个细胞含有一个以上的核且这些核有不同的基

因型。同核体是多核的,但所有的核都是同一种基因型。融合体包含二倍体的核。

一个合子可以被称为做融合体。

2.2细胞器基因组的一般特征

利用多种技术来鉴定核DNA和线粒体DNA在结构和功能上的区别大大促进了对细胞器基因组分子水平的描绘。这些技术包括利用不同的抗生素选择性去抑制核基因或线粒体基因的表达,分离细胞器中转录和蛋白合成的分析,细胞器DNA和RNA的体外表达,连锁作图,限制性内切酶图谱,杂交分析和测序。细胞器基因组和核基因组在它们的结构组织,稳定性和基因表达和调节机制等方面表现出根本的差异。细胞器基因组的一些特性列于表2.3。

表2.3细胞器基因组的一些特性

1.基因组经常是环状,并且是多拷贝的。

2.绝大多数细胞器基因都是有基因表达功能的(如tRNA.rRNA.RNA聚合酶)。还有的基因

编码细胞器功能(如与光合作用和氧化磷酸化有关的蛋白),不过大多数蛋白是由核编码后运输进来的。

3.基因组经常以重组产生的序列变异体混合物的形式存在。

4.转录和翻译的调控是由类似原核生物的调控序列和反式作用因子完成的。

5.细胞器基因组的表达对于抗生素敏感,但对真核核基因的抑制因子并不敏感,这个现象

对于核基因和细胞器基因分离研究很有用。

6.转录很复杂,包括多个转录起始位点和多顺反子信息。

7.细胞器基因基本上是以转录后加工的机制调控,包括mRNA稳定性的调节,RNA加工,

蛋白质合成和蛋白质降解。

8.基因表达具有特征性的复杂的RNA加工反应,包括切割,顺式—、反式—剪接,RNA的

编辑和降解。

9.细胞器经常使用统一的遗传密码的变体,反映更小tRNA种类的组成和更大的摆动相互

作用。

10.细胞器可以携带基因组外的质粒,通过介导基因重排质粒可提供宿主更多的表型。

2.3 叶绿体基因组

由于光合作用的重要性和叶绿体DNA比较简单,所以对叶绿体基因组的分子生物学研究开始得比较早。叶绿体来源于分生组织细胞的原质体。当光合电子转递组份和ATP合成酶组装进来以后,叶绿体便成为有功能的光合单位。原质体和叶绿体也能分化成为专门的质体类型,如根和块茎中的造粉体,花和果实中的有色体。质体的分化同组织专一性、细胞专一性以及发育上专门基因的调节有关。植物中每个细胞含40个叶绿体,每个叶绿体内含有10—1000个cpDNA拷贝。

叶绿体基因组是一环状的双螺旋DNA分子,也叫叶绿体DNA(cpDNA)。它们的大小一般变动在120kbp至217kbp之间。cpDNA编码了叶绿体基因表达所需的各种蛋白和结构RNA,包括各种密码子所需的tRNAs,rRNA,一些核糖体蛋白和RNA聚合酶。此外叶绿体编码在光合作用中具有直接的作用的蛋白,包括光合系统I和II中的组成部分。叶绿体中所用的绝大部分多肽是由核基因组编码产生,再转运至叶绿体中。核/细胞质整合的程度非常高,在某些时候很多叶绿体编码的和核编码的蛋白相互缔合发生作用。例如,在一些植物中,核酮糖—l,5—二磷酸羧化酶—加氧酶(Rubisco)二聚体的大亚基是由叶绿体编码而小亚基由核编码。cpDNA均具有携带rRNA基因(rDNA)的重复序列,重复区的长度在10kbp(拟南芥菜)和25kbp(烟草)之间。大多数植物的叶绿体基因组是两个含有rDNA的倒置重复(IR)被一个大的单拷贝区(LSC,大约长80kbp)和一个小的单拷贝区(SSC,大约长20kbp)分开而组成的。一些豆类(如蚕豆和豌豆)则只有一个rDNA单位。

烟草叶绿体DNA研究比较详细,它是一环状的由155844bp组成的,含有两个25339bp 倒置重复,被一个大的86684bp和一个小的18482bp单拷贝区分开。整个基因组含有四种rRNA(16S,23S,5S,4.5S)、30种tRNA、44种蛋白质以及9种其他蛋白质的基因。所有这些基因都是在叶绿体内转录的。最近发现的同大肠杆菌核蛋白体50S亚基结合的L36r蛋白也是叶绿体的r蛋白,其基因存在于infA基因和rpSll基因之间,rpL36以前也叫secX。 cpDNA是相当保守的,DNA—DNA分子杂交显示,在种内甚至在种间,限制酶切图和序列都是一样或类似的。在无关的植物间至少有30%序列是共同的。这些保守序列分散存在,可能与密码区和非密码区有关。烟草菠菜、矮牵牛和黄瓜的cpDNA基本上都是线性相关的。

根据对多种植物的分析,质体基因组大约共含有120--140个基因,可分成为两大类:(1)同光合有关的基因

Rubisco大亚基 rbcL

PSI psaA,B,C,I,J.

PSIl psbA,B,C,D,E,F,G,H,I,J,K,L,M,N.

ATP合成酶 atpA,B,E,F,H,I.

细胞色素复合物 petA,B,D,E.G.

NADH脱氢酶 ndhA,B,C,D,E,F,G,H,J,x.

(2)叶绿体基因表达所需要的基因

转录 RNA聚合酶 rpoA,B.C

翻译 rRNA rDNA(16S,23S,5S,4.5S)

tRNA trn(30个)

r蛋白小亚基 rpS(12个)

r蛋白大亚基 rpL(8个)

起始因子 infA

延长因子 tufA

复制单股结合蛋白 ssb

未鉴定>100个密码(19个)

<100个密码(18个) ;

在陆生植物,已经对地钱(Marchantia po1ymorpha)、烟草和水稻的叶绿体基因组作了全序列分析。根据对1000多个光合陆生植物叶绿体基因组构建和进化的研究发现,这个基因组在大小、结构、基因含量和整个基因构建方面都是很保守的。为了研究此基因组在整个植物界的进化关系,最近不少作者展开了对藻类叶绿体基因组的研究,证明其趋异性很大,其大小变动至少5倍,从绿藻刺海松(Codiumfra8ile)的89kb到某些轮凝科和绿藻科的400kb。

rRNA基因(rDNA)为四种叶绿体核蛋白体RNA(16S、23S、4.5S和5SrRNA)编码的基因成串地存在于倒置重复区,其排列顺序是16SrDNA—区间—23SrDNA—区间—5SrDNA,与大肠杆菌和兰藻类似。在高等植物,叶绿体尚有一种小的4.5SrRNA,它的基因接近于23SrDNA 的3’端。最近也发现,两种低分子量的3S和7SrRNA存在于衣藻50S核蛋白体亚基上,由23SrDNA5’端前面的序列为它们编码。在眼虫的16S—23SrDNA区间含有tRNA(Ile)和tRNA(Ala)基因。许多植物的16S—23SrDNA区间皆大于2000个碱对,这主要都是由于存在有tRNA基因含有内含子的缘故。叶绿体16SrDNA的大小估计为1491个bp,而大肠杆茵的为1541个bp,其中有1144个是相同的(74%同源)。烟草和眼虫的序列有96%和80%与玉米的序列是相同的。Cerutti和Jagendorf(1991)从豌豆获得叶绿体DNA的2.3kb片段并克隆进pBluescript裁体中进行了全序列分析。他们证明,这个克隆含有tRNA(Val)基因(72个核苷酸)和16SrRNA的基因(1490个核苷酸)。对玉米和烟草叶绿体23S和4.5SrDNA克隆的cpDNA也进行过序列分析,烟草23SrDNA的3’端后面是101bp的区间,然后则是103bp 的4.5SrDNA。某些植物四种rRNA共转录的,而另一些植物5SrRNA可能来自于分开的转录单位。rRNA的丰度同转录的速度相关。在衣藻叶绿体的23S rDNA中最先发现有内含子。

tRNA基因在cpDNA分子上有30余种tRNA基因,其中有7种存在于倒置重复中,其他则分散在整个基因组中。一般认为,叶绿体的蛋白质合成不需要由细胞质输入tRNA。

对眼虫cpDNA的EcoRl片断G1.6kb部分的序列分析证明,在367bp内存在有4个tRNA 基因。排列的情况是:tRNA(Val)—16bp区间—tRNA(Asn)—3bp区间—tRNA(Arg)—45bp区间—tRNA(Ile)。烟草叶绿体tRNA(Asn)基因存在于倒置重复区,离5SrDNA远端大约900bp处和小的单拷贝区接合处。在叶绿体tRNA基因中有内含子最先是在玉米的trnl 和trnA中证明的。以后在烟草的少数叶绿体基因(6个trn,4个r—蛋白基因,,atpF,petB,petD,ndhA,B)中发现有内含子,而拟南芥菜分别有6个tRNA基因和12个蛋白质基因有内含子。有些内含子非常长(几百个碱对),虽然其所编码的tRNA才不过70—80个核苷酸。应当指出的是,玉米内含子I和II序列分别含有123和45个密码子开放读框(ORF)。烟草内含子I和II分别含有71和36个密码子的ORF。

r—蛋白的基因质体核蛋白体的生物发生比较复杂,由核基因组和质体基因组共同编码。叶绿体70S核蛋白体有58至62种核蛋白体蛋白质(r—蛋白)。其中有三分之一是叶绿体编码的。在这些基因中,rpS7、rpL2和rpL23存在于倒置重复区,rpSl2、rpSl6、rpL2和rpL6含有536至l020bp长的内含子。眼虫的rpSl2由125个密码子组成,而且没有内含子。烟草的rpS12基因是分开的,它的外显子存在于倒置重复(IRA和IRB)中;rpL23、rpL2、rpS19、rpL22、rpS3、rpL16、rpLl4、rpS8、rpL36和rpSll是按这样的顺序成串排列的,这与大肠杆茵的情形非常类似。

RNA聚合酶基因(rpoA,B,C)质体和线粒体含有它们自己的DNA和基因表达系统,但是离不开核基因产物进入这些细胞器。核与质体的相互关系不仅在主要质体蛋白如Rubisco 和光合复合物的组装和功能上起作用,而且也似乎控制细胞器基因表达系统本身。玉米的溶性需DNA的叶绿体RNA聚合酶的纯化促进氯方面的工作。接着从叶绿体分离出一个大的多亚

基RNA聚合酶。这个酶含有三个叶绿体编码的亚基,其基因分别为rpoA、B、C,与大肠杆菌RNA聚合酶亚基同源。其他亚基是由核编码的。烟草叶绿体RNA聚合酶基因与大肠杆茵的rpoC序列非常类似。

芥菜叶绿体和黄化质体在体外实验时转录系统功能特性不同,反映在磷酸化的差异上。Pfannschmidt和Link(1994)报道了另一类转录控制机制,此机制同两个命名为峰A和峰B 酶的质体需DNA的RNA聚合酶有关系。两者都是大的多亚基复合物,但天然分子量(峰A>700kDa,蜂B=420kDa)和多肽成分不同。A酶至少由13个多肽组成,而B酶只含有四个假定的亚基。峰B活性受利福毒素抑制,而峰A是抗利福霉素的。芥菜在连续光下或暗处生长4天,或先在暗处生长然后转移至光下16小时,再从于叶提取叶绿体、黄化质体和中间型质体,最后比较三者的RnA聚合酶活性。在所有情况下总活性差不多是相同的,b酶最显著的活性来自于黄化质体,A酶最显著活性来自于叶绿体,两者在中间型质体制剂中的酶活性杆相等。两种酶的活体和失活以及特异的基因表达似乎在质体转录机制调节中起作用。

rpoB,rpoCl和rpoC2是相互靠近地存在于叶绿体基因组中。这些基因是共转录的,产生的转录物需加工。四个叶绿体RNA聚合酶基因中的两个,rpoA和rpoB同大肠菌RNA聚合酶的编码的β亚基氨基酸序列有26%和50﹪相同,rpoCl和rpoC2同大肠肠菌编码的rpoC 的5’和3’各半端相同;除了叶绿体编码的RNA聚合酶以外;也发现存在有由核编码的RNA 聚合酶。

调控叶绿体基因表达的顺式作用元件在结构上与细菌的启动子类似,并可以在大肠杆菌中起作用。转录通常很复杂,产生不同大小的多顺反子mRNA,在特定的加工位点加以剪切。基因的调控通常发生在RNA的稳定性和蛋白质合成的水平上,很多宿主编码的在叶绿体基因转录后调节过程中起作用的蛋白已经被分离出来。很多叶绿体的基因含有II型自剪接的内含子,这暗示还存在另外一些复杂的RNA加工的过程,如反:式剪接和RNA编辑(参阅)。蛋白质合成中的核糖体结合位点与大肠杆菌中的相类似,叶绿体使用的密码子是末修饰的普适的遗传密码。

2.4 线粒体基因组

线粒体基因组在大小、基因组成和基因组结构是极其多样化的,其大小和结构组成在不同分类群中表现出极大的不同。虽然类似于叶绿体基因组,但线粒体基因组主要编码具有基因表达功能的基因(如rRNA,tRNA和RNA剪接酶)和一些有关线粒体功能的多肽。很多线粒体蛋白是在细胞质内合成后转运人线粒体。

2.4.1 真菌线粒体基因组

酵母的线粒体DNA(mitochondrial DNA,mtDNA)长度约80kbp,是真菌mtDNA中最长的。它包括了一些非编码富含AT的DNA,它被富含GC的区域所分割,并含有复制起始位点。很多酵母mtDNA有很大的内含子,它们可能包含编码控制内含子剪接和转位蛋白的开放阅读框(参见归巢内合子)。在mtDNA中含有所有三种类型的自我剪接内含子(参阅)。tRNA基因经常以功能簇的形式出现,而rRNA的基因是分散的。另外一些真菌的mtDNA比较小,大约20kbp,含有较少的重复序列。

2.4.2 植物线粒体基因组

高等植物的线粒体在ATP产生、光呼吸和氨基酸碳骨架形成中均有重要的作用。在植物细胞内线粒体与其它细胞器之间存在着广泛的相互作用。曾证明不同组织的线粒体蛋白组份有变化。对小麦黄化叶、绿叶、根和愈伤组织进行的双向凝胶电泳分析表明蛋白组份质和量均有变化。在马铃薯不同组织的线粒体内也观察到了多肽组份的变化。在照光的叶内线粒体也是细胞溶胶的ATP重要的来源。用各种底物进行的线粒体呼吸的测量证明线粒体外反应所

需的NADH有25%来自于线粒体过程。光合活跃的叶子能不断输出柠檬酸给细胞溶胶,柠檬酸通过细胞溶胶乌头酸酶和需NADP异柠檬酸去氢酶转变为2—氧戊二酸,为谷氨酸和谷氨酰胺合成提供前体。线粒体代谢在花发育和维持雄性育性上也有重要的功能。花形成的早期阶段在枝端线粒体数增加。线粒体基因组突变能破坏花粉和花的发育。线粒体蛋白质一部分是由线粒体本身编码的,另一部分是由核编码的,在细胞质内合成,然后进入线粒体。

植物mtDnA在大小上表现出令人难以置信的多样性,从100kbp到2.5Mbp,较大的基因组含有较高比例的DNA重复序列。在一些植物种属中,mtDNA大小相同,但是很多植物中存在着复杂结构,包括不同大小的线状,环状分子和重组所产生的一些结构。完整的基因组称为母环(master circle);而小的衍生物叫做亚基因组环(subgenomic circles)。母环的重复序列为重组的位点——一一般可以看见每一个基因组重组产物的全貌。

植物线粒体基因组(mtDNA)大小变动在200kb(油菜)和2500kb〔西瓜)之间。比哺乳动物(大约16kb)和酵母(大约78kb)都要大。其环状DNA分子是由主环和含有直接或倒置重复的小环组成的。此外,在线粒体DNA中也存在有叶绿体DNA。整个基因组是由不同大小的DNA 分子组成的。似乎是所有这些分子均是借助于在专门位置上的重组来自于一个大的环状分子主染色体。

已得到研究的植物线粒体的基因约有20余种,包括有:

rRNA基因(rrn26、rrnl8和rrn5);

tRNA基因;

rpSl2和13(核蛋白体小亚基蛋白S12和S13的基因);

coxI、I、III(细胞色素氧化酶复合物的亚基I、II和III的基因);

cob(细胞色素bcl复合物的脱细胞色素b蛋白的基因);

atpA,6,8,9(ATP酶复合物亚基。、6、8和9的基因);

ndhl,2,3,4,5(NADH去氢酶亚基的基因)。

线粒体基因组除了这个高分子量的主基因组外;某些植物的线粒体还含有较小的线形或环形DNA分子。在某些植物中还检测到小的环状的隐形质粒。这些小的DNA分子有或无同细胞质雄性不育(CMS)存在相关性。

rRNA基因(rDNA或rrn) 植物线粒体核蛋白体与动物和真菌的不同,它们含有18S、26S 和5SrRNA。比人类的(12S和16S)和酵母的(15S和2lS)都要大。玉米线粒体的18SrRNA比玉米细胞质的17SrRNA也要大。植物线粒体rRNA在一级结构和二级结构上更类似于细菌和叶绿体的rRNA。玉米26SrRNA和共转录的18S和5SrRNA基因,每个均有单个的主要起始位点。rRNA原初转录物要加工后才能产生成熟的rRNA。·

羽扇豆线粒体18SrRNA基因由2023个核苷酸组成。与小麦长1955个核苷酸(nt)的18SrRNA基因有81.9%相同,与大豆(1900nt)有97.0%,与玉米(1976nt)有86,0%,与月见草(1900nt)有87..0%相同。最大的相似区集中在18SrRNA基因的3’部分。在所有的植物中,18S基因均有两个保守区:3’部分的360个核苷酸区和5’部分的1000个核苷酸区。

tRNA基因(trn)在玉米和小麦线粒体的研究中,对大多数tRNA基因都进行了定位和序列分析,在很多方面与原核生物或叶绿体tRNA基因类似。高等植物线粒tRNA有三种基因来源。某些tRNA是由线粒体基因编码的,这些基因同相应的真菌和叶绿体基因有65%一80%相似。另一些tRNA是由类叶绿体基因(同叶绿体基因90%--100%相似)编码的,这些基因可能是插入线粒体基因组中的部分叶绿体DNA。第三类线粒体tRNA分子则是由核基因组编码的,转录形成后进入线粒体。

到目前为止,在植物线粒体DNA上共找到了30个tRNA编码序列。在小麦18SrRNA基因编码序列的末端是起始甲硫氨酸tRNA基因的5’核苷酸。大豆的mtDNA中,起始tRNA基因

存在于细胞色素氧化酶亚基l编码序列的近处。酵母mtDNA共有25个tRNA基因。

蛋白质基因所有植物线粒体基因组都编码细胞色素氧化酶的亚基I、II和III,脱细胞色素b蛋白以及ATP酶α、β、8和9亚基蛋白。

细胞器质粒很多植物的线粒体除了基因组外还携带质粒,它们的结构非常多样化(基因组是线性或双链环状DNA,或单链/双链RNA),它们很多与细胞质雄性不育(cytoplasmic male sterility,cms)有关,细胞质因子阻断雄性花粉的产生,这促进植物的异型杂交,因而总的来说对于植物是有利的。cms表型可以为核基因的表达所抑制。例如cmsT的线粒体产生一个新质粒编码的蛋白,以一个我们目前还不了解的机制产生不育的表型。这种表型可以通过增加两个核基因座(Rfl和Rf2)的表达加以抑制,它们能够阻断此蛋白的合成。

2.4.3 动物线粒体基因组

动物mtDNA比较小(小于20kbp),结构上也很经济,不包含内含子,基因之间的空隙很小,只有单个控制复制和基因表达的非编码区。动物线粒体DNA的空间节约体现在多方面,包括全基因组转录,基因重叠和无终止密码子(它们是在RNA多腺苷酸化的转录后加工的过程中加上去的)。

动物线粒体的主要特征线粒体(mitochondria)是真核细胞的胞质细胞器,存在于真核生物的所有细胞中。其形状多种多样,随细胞的种类和生理状况而异,一般情况下为杆状或颗粒状,直径为0.5~1.0μm。每个细胞所含有的线粒体的数目因细胞种类而异,范围在1~50万个

之间。一般地,未分化细胞、淋巴细胞、表皮细胞内的线粒体数目较少,而肝细胞、胃壁细胞、肾脏细胞中的线粒体数目较多,如一个正常肝细胞含有1000~2000个线粒体,约占总细胞体积的1/5。

动物线粒体基因组的结构特征多细胞动物mtDNA的主要特征可总结如下:

(1)具有环形双链结构,外形长度约5μm。

(2)mtDNA大小在14~42kbp之间,其中绝大多数动物中位于16~18kbp之间。mtDNA长度的变异可以在不同种、同种不同个体间以及同一个体内观察到,但这种长度差异并非源于基因数目,主要由于非编码区的长度变异,有时也由于编码区的重复。现有的数据表明线粒体DNA 的大小与分类单元之间无直接关系,虽然发现大量的种内个体间mtDNA长度变异,但绝大多

数情况下mtDNA在种级甚至更高阶元的水平上具有相对稳定性。

(3)mtDNA具有相对恒定的信息容量。大多数动物的mtDNA由37个基因和一段长度可变的非编码序列组成,37个基因分别是:

2个rRNA基因:16SrRNA和12SrRNA基因。

22个tRNA基因:TA、TR、TN、TD、TC、TQ、TE、TG、TH、TI、TL1、TL2、TK、TM、TF、TP、TS1、TS2、TT、TW、TY、TV。

13个蛋白质基因:分别为细胞色素C氧化酶亚基Ⅰ、Ⅱ、Ⅲ(Co、 Co2和Co3),细胞色素b

脱辅基酶(Cyt b),ATP合成酶亚基6和8(ATPase 6和ATPase 8),NADH脱氢酶亚基1~6(ND1~6)和4L(ND4L)。

(4)mtDNA的基因排列具有相对稳定性。mtDNA的基因排列在同一门动物中十分相似。在脊椎动物中,所有37个基因都以相同的相对位置排列着(仅在有袋类和鸟类中有微小变化)。棘皮动物门中基因排列顺序也相似,海胆纲和海星纲之间只有一个基因的倒位差异。节肢动物门昆虫纲不同目之间常有1至数个tRNA基因转位引起的差异。软体动物及线虫纲内基因排列变化较大,而且这两类动物还缺少由mtDNA编码的ATPase8。与上述同一动物门线粒体基因

排列的广泛一致性相比,不同门之间则有实质上的差异。

(5)mtDNA核苷酸组成具有不均一性。mtDNA分子是由平均组成很不均一的片段构成的,碱基

组成G+C%从21%~50%之间变化,其中脊椎动物G+C%为37~50%,无脊椎动物21~43%,显示了这两大动物类群在mtDNA组成成分上的巨大差异。mtDNA中碱基组成远离随机平均组成的现象称碱基组成的偏向性(base compositional bias)或核苷酸偏向性(nucleotide bias)。已知mtDNA完整序列的种类的统计分析显示,昆虫含有最高的A+T%比例,果蝇(D.yakuba)A+T%占78.6%,密蜂为84.9%。

(6)动物mtDNA无内含子和转座因子,也没有基因间隔序列,或即使有也很短,仅1至数个核苷酸,大多数基因之间紧密相连,甚至有的基因之间还有一段重叠序列。但动物mtDNA有一段长度可变的非编码区,它是mtDNA复制及转录的起点及控制区,在昆虫和线虫中控制区A-T含量极高,在棘皮动物和脊椎动物中控制区称D-环(D-loop)。

动物线粒体基因组多态性和异质性 mtDNA的多态性是指mtDNA在同种群体内或群体间表现出的变异现象。这种多态性可区分成位点多态性和长度多态性两类,它们都可通过限制性内切酶来分析。目前对长度多态性研究较多,截至1993年已在从线虫到人类共51种动物中发现mtDNA的长度变异。Rand(1993)总结了这些研究,发现长度多态性大部分来源于40bp~10.4kb的串联重复序列,此外还有长度不等的插入或缺失。许多较小的重复(一般小于1kb)以多拷贝形式重复发生,其拷贝数目在同一个体内及不同个体间常有变化,某些种类中这种重复经常发生,但具有有限的地理分布和类群分布显示了其历史的不稳定性,很难从系统发育角度分析其进化动态。Rand(1993)还发现恒温动物比变温动物的mt DNA长度变异程度小。 mtDNA的异质性(heteroplasmy)是指mt DNA在个体水平上表现出的变异,即同一个体内mtDNA分子的多态性。异质性可分成长度异质性和位点异质性两类。异质性的形成主要是由突变引起,少数情况下mtDNA的父系渗入也能引起异质性。对于严格遵守母系遗传的种类,mt DNA异质性的产生需包括一个雌性配子细胞发育过程的突变事件,导致位点或长度变异,然

后通过分裂分离和选择形成异质性的mtDNA。从现有数据看,长度异质性研究较深入,已在2种软体动物、9种昆虫、6种鱼、5种两栖动物、4种爬行动物、1种鸟和7种哺乳动物中发现mtDNA长度异质性(Rand,1993)。在上述动物中mt DNA异质性个体的百分比从1.3~100%之间变化。

动物线粒体基因组的进化从目前所能利用的脊椎动物和昆虫的mtDNA数据分析表明, mtDNA进化的主要特征是以碱基替换为主,插入和缺失较少,序列进化速率比核DNA快,无重组现象,但不同门的动物之间发生过基因重排,少数门内各单元某些tRNA基因有倒位和转位的变化。

mtDNA碱基替换的型式和速率可通过比较近缘种间的序列来研究。碱基替换主要发生在基因间隔区和控制区,且不同部位替换速率不同。在种内或种间控制区进化速率最快,rRNA 基因最慢,蛋白质和tRNA居中。碱基替换的形式以转换为主,且转换与颠换的比例随分歧时间而变:

造成这种现象的原因是由于mtDNA高变区密码子第三位发生了多重替换(multiple substitution),多重替换的数目与分歧时间成正比。此外,在线粒体中扩展的密码子识别模别允许单个tRNA可识别多至4个密码子,因此mtDNA中密码子第三位碱基的同义替换比核DNA中要高。mtDNA的进化速率也随分歧时间而变。以灵长类为例,在分歧之初每一支系以0.5~1%MY的速率改变着,当序列差异达30%时,进化速率降低一个数量级。Brown(1983)在分析许多哺乳动物mtDNA限制图谱数据后指出,分歧时间在15MY以内的近缘种间mtDNA进化速率比单拷贝核DNA快10倍;当分歧时间大于25MY,mtDNA进化速率等于或小于单拷贝核DNA 的进化速率

mtDNA上述进化特征是与mtDNA以下结构及生理特点相关的:

(1)紧密排列的线粒体基因降低了基因重排的发生频率。任何成功的基因转位都必须准确地从基因两端的分界处断裂,由于无间隔序列,因而mtDNA中基因重排很少发生。

(2)错误复制和不完善的修复加剧了突变速率。在哺乳动物中mtDNA是由γ-聚合酶复制的,这种酶缺乏对新合成DNA链的编辑整理能力,且易于形成较高的核苷酸错配率。此外目前还没有发现mtDNA的修复机制。

(3)mtDNA的周转时间很短,在一定程度上增加了单位时间内突变及错误复制的数目。

(4)线粒体内具有较高浓度的内外源诱变剂,可能提高DNA突变速率。

(5)细胞中冗余的线粒体和较小的DNA长度增加了对突变的固定速率。

动物各类线粒体基因的进化特点按照功能特点mtDNA可分成rRNA基因、tRNA基因、蛋白质基因及控制区四种类型,这四种序列在进化过程中具不同的特点。

(1)rRNA基因:动物mtDNA中仅有二个rRNA基因,分别为小亚基12S和大亚基16S rRNA基因,每个线粒体内只有一份拷贝,无基因间隔。从总体上看rRNA基因进化最慢,以替换为主,有时可发生短片段的插入或缺失。rRNA基因内不同区域间进化速率也不相同,高度保守的核苷酸位点是rRNA二级结构上与核糖体蛋白质和tRNA结合部位、核心螺旋部位及mRNA加工部位等区域。

(2)tRNA基因:线粒体的tRNA基因的结构和功能约束力与相应的核tRNA基因相比较弱,因而其进化速率较快。在线粒体基因中,tRNA的进化速率比rRNA快,但比蛋白质基因慢。tRNA 也是以替换为主,有时发生1~2bp的插入和缺失。tRNA基因的一个主要特点是它比其它线粒体基因更易发生转位。在昆虫纲内,蛋白质和rRNA基因相对位置不变,而一些tRNA基因的位置在直翅目、膜翅目、双翅目及磷翅目间有所不同。在棘皮动物中tRNA基因成簇排列在一起,而在其它动物中则分散排列。此外tRNA基因在进化过程中可以改变其功能,如棘皮动物中,两个亮氨酸tRNA基因中的一个在进化过程中与ND5蛋白质基因结合成为其一部分。

(3)编码蛋白质的基因:蛋白质基因与上述RNA基因的最大差别是三联体密码子,尤其是密码子第一、二位的强约束作用,第三位碱基由于密码子的简并性约束力较弱,这种约束力强烈影响着DNA的替换型式,此外mRNA的二级结构也可能影响替换型式。而在蛋白质水平上进化速率主要受蛋白质的二、三、四级结构因素的影响。所有这些DNA和蛋白质水平的影响因素以非常复杂的相互作用方式决定着编码蛋白质基因的替换型式。

(4)非编码区:动物mtDNA有少量的非编码区,主要是控制区,另有一些非编码的短片段零星分布于一些类群中。控制区是高度可变区,替换和片段的插入或缺失经常发生,在分子系统学上只能应用在种内进化研究上。在无脊椎动物中控制区A+T含量极高,在密蜂中达85~96%,即实际上只有二种碱基之间的相互替换,因此趋同替换将很高且难以检测出来。控制区的另一特点是经常发生长度变异,长度变异主要由重复序列或模块的有无及重复数目多少决定的。

2.4.4 原生动物线粒体基因组

动核DNA原生生物含有单个的,高度特化的线粒体称为动核(kinetoplast),与其他的线粒体相似,它有自己的基因组(动核DNA,kinetoplast DNA,kDNA)。kDNA基因组的结构有很鲜明的特点,大环基因组在一个很复杂的网络中与很多小的衍生物(小环)互连。大环和小环的复制都是使用滚环复制原理。kDNA的原始转录本提供非常丰富的RNA编辑的例子。一个极端的例子,就是50%以上的核苦酸被去除,引导RNA(guide RNA)有利于这一过程的发生,它是小环合成的唯一产物。原生生物的动核(藻类线粒体也有)的特性还包括没有细胞器编码的tRNA(见上)和小片段rRNA的合成,rRNA散布于整个基因组。功能性RNA被认为是由分子内部碱基配对产生的。

2.4.5线粒体基因表达

动物和真菌的mtDNA的转录是多顺反子的,真菌mtDNA中有多个启动子,但动物mtDNA 中每一条链都只有一个启动子,在起始表达为全基因组(pangenomic,整个基因组)转录本。植物中绝大多数的线粒体mRNA是单顺反子(rRNA基因是例外),但它们是从多个起始位点开始转录的。所有线粒体都使用与原核生物相似的启动子序列,编码与原核生物酶相关的RNA 聚合酶,包括使用与σ因子类似的辅助因子。酵母和动物mtDNA的转录需要与HMG蛋白质家族有关的转录因子。

线粒体中RNA的加工有好几种形式。植物中rRNA的转录本剪切后成熟,内含子被剪切(但是观察不到叶绿体中出现的反式剪切),一些基因可以进行RNA编辑。动物中,加工过程包括包括将多顺反子切割成单个的基因片段,tRNA的二级结构基序具有内切酶活性,它的分散分布对于以上的过程可能起促进作用。动物线粒体的mRNA和rRNA都可以多腺苷酸化。真菌的线粒体中RNA的加工与3’端12个碱基有关,它们控制转录本的成熟。

植物、真菌和动物线粒体的翻译使用修饰的遗传密码,这些修饰是具类群特异性的,反映了较小的tRNA基因组成库,在某些情况下反映了特殊的tRNA结构。tRNA种类的缺失可为摆动配对的修饰所补偿,所以可耐受更大的简并性(见第11章遗传密码)。植物的线粒体往往编码整套的tRNA,虽然有些物种特定tRNA是被核编码翻译后转运入线粒体的。一些藻类和原生生物的线粒体有很少的tRNA基因,有的甚至没有,这种情况下,大部分tRNA是从核内转运的。翻译的起始包括原核生物类似的核糖体结合位点,起始氨基酸是N—甲酰甲硫氨酸。翻译是线粒体中蛋白质基因调控的重要层次。

线粒体DNA的复制一些植物和真菌线粒体复制的起点已被阐明,但复制的机制还不了解:在有些植物中,控制复制的系统必须能够判别母环和亚基因组环。在动物中,由RNA 聚合酶合成的大的RNA引物启动了前导链(重链或H—链)的复制,引物被核糖核蛋白内切酶MRP切割(参见核酶),然后DNA的合成就由DNA聚合酶γ起始。引物的延伸和随从链(resident strand)的替代产生了D—环,延伸经常在这一步被打断,这有可能与D—环中的基序有关(终止相关序列,terminal associated sequences)。这些位点的通读或被终止链的重新开始产生成功的复制。互补链(轻链或L—链)的起始是在重链的对面,与一个特殊的线粒体引物酶有关。这种特殊的连续复制表明mtDNA在大多数时间内以单链形式存在,这可能是它突变率相对较高的原因之一。

线粒体的生物发生过程可分成两个阶段:首先是在细胞核控制下进行线粒体膜的生长和复制,然后分裂增殖;其次是线粒体本身的分化过程,建成能够行使功能的结构。线粒体生长和分化阶段分别接受核DNA和自身DNA两个独立遗传系统的控制,因此它不是一个完全自我复制的实体。实验证明生长阶段和分化阶段是相互独立的。线粒体在细胞内是有一定寿命的,若以半衰期(即半数线粒体衰老、解体和最后排除所需的时间)计算,大鼠肝细胞线粒体的半衰期为9.6~10.3天,肾脏细胞为12.4天。

现在一般认为线粒体起源于自由生活的紫色细菌,它侵入真核细胞内经过共生阶段演化成具有现在功能的线粒体。

宏基因组学概述

宏基因组学概述

————————————————————————————————作者: ————————————————————————————————日期: ?

宏基因组学概述 王莹,马伊鸣 (北京交通大学土木建筑工程学院环境1402班) 摘要:随着分子生物学技术的快速发展及其在微生物生态学和环境微生物学研究中的广泛应用,促进了以环境中未培养微生物为研究对象的新兴学科——微生物环境基因组学(又叫宏基因组学、元基因组学,英文名Metagenomics)的产生和快速发展。宏基因组学通过直接从环境样品中提取全部微生物的DNA,构建宏基因组文库,利用基因组学的研究策略研究环境样品所包含的全部微生物的遗传组成及其群落功能.在短短几年内,宏基因组学研究已渗透到各个领域,包括海洋、土壤、热液口、热泉、人体口腔及胃肠道等,并在医药、替代能源、环境修复、生物技术,农业、生物防御及伦理学等各方面显示了重要的价值。本文对宏基因组学的主要研究方法、热点内容及发展趋势进行了综述 关键词:宏基因组宏基因组学环境基因组学基因文库的构建 Macro summary of Metagenomics WangYing,Ma Yi-Ming (BeijingJiaotongUniversity, Institute of civil engineering,)Key words:Metagenome; Metagenomics;The environmental genomics 宏基因组学(Metagenomics)又叫微生物环境基因组学、元基因组学。它通过直接从环境样品中提取全部微生物的DNA,构建宏基因组文库,利用基因组学的研究策略研究环境样品所包含的全部微生物的遗传组成及其群落功能。它是在微生物基因组学的基础上发展起来的一种研究微生物多样性、开发新的生理活性物质(或获得新基因)的新理念和新方法。其主要含义是:对特定环境中全部微生物的总DNA(也称宏基因组,metagenomic)进行克隆,并通过构建宏基因组文库和筛选等手段获得新的生理活性物质;或者根据rDNA数据库设计引物,通过系统学分析获得该环境中微生物的遗传多样性和分子生态学信息。 1.起源 宏基因组学这一概念最早是在1998年由威斯康辛大学植物病理学部门的Jo Handelsman等提出的,是源于将来自环境中基因集可以在某种程度上当成一个单个基因组研究分析的想法,而宏的英文是"meta-",具有更高层组织结构和动态变化的含义。后来伯克利分校的研究人员Kevin Chen和LiorPachter将宏基因组定义为"应用现代基因组学的技术直接研究自然状态下的微生物的有机群落,而不需要在实验室中分离单一的菌株"的科学。 2 研究对象 宏基因组学(Metagenomics)是将环境中全部微生物的遗传信息看作一个整体自上而下地研究微生物与自然环境或生物体之间的关系。宏基因组学不仅克服了微生物难以培养的困难, 而且还可以结合生物信息学的方法, 揭示微生物之间、微生物与环境之间相互作用的规律, 大大拓展了微生物学的研究思路与方法, 为从群落结构水平上全面认识微生物的生态特征和功能开辟了新的途径。目前, 微生物宏基因组学已经成为微生物研究的热点和前沿, 广泛应用于气候变化、水处理工程系统、极端环境、人体肠道、石油污染、生物冶金等领域, 取得了一系列引人瞩目的重要成果。 3 研究方法

第二节 染色体和DNA

第二节染色体和DNA 教学目的: 1.了解染色体的结构 2.掌握染色体的组成 3.理解原核生物和真核生物染色体的不同 学习指导: 本节主要内容有染色体的结构和组成,重点掌握染色体的组成,原核生物和真核生物染色体的不同 基本概念: 1.染色体(chromosome)是细胞在有丝分裂是遗传物质存在的特定形式,是期间细胞染色 质结构紧密包装的结果。真核生物的染色质(chromatin)在细胞生活周期的大部分时间里都是以染色质的形式存在。 2.染色质:建起细胞核中的DNA与蛋白质形成的复合物,其基本单位是以组蛋白八聚体 为核心、DNA环绕其外两周所形成的核小体结构。他在有丝分裂时浓缩成染色体。 3.着丝粒:是染色体上的一种重要关键结构,它连接两个染色单体,并将染色体分为两臂, 而且与细胞分裂时染色体的分配有密切关系。着丝粒是一种高度有序的整合结构,至少包括三种不同的结构域:着丝粒结构域、中央结构域和配对结构域。 4.核小体:构成真核染色质的一种重复珠状结构,是由大约200 bp的DNA区段和多个组 蛋白组成的大分子复合体。其中大约146 bp的DNA区段与八聚体(H2A、H2B、H3和H4各两分子)的组蛋白组成核小体的核心颗粒,核心颗粒间通过一个组蛋白H1的连接区DNA彼此相连。。 5.基因组:是指细胞或生物体中全套遗传物质 6.C值:是一种生物的单倍体基因组DNA的总量。 主要内容: 1.染色体结构 任何一条染色体上都带有许多基因,一条高等生物的染色体上可能带有成千上万个基因,一个细胞中的全部基因序列及其间隔序列统称为genomes(基因组)。如果设想将人体细胞中的DNA分子绕地球一周,那么,每个碱基大约只占1-5厘米,而一个2-3kb 的基因只相当于地球上一条数十米长,数厘米宽的线段

单细胞测序

单细胞测序-I 单细胞测序(single cell sequencing)被《自然-方法》(nature method)杂志评为了2013年度生物技术。2017年10月美国政府启动了以单细胞测序为基础的“人类细胞图谱计划”,这是可以与“人类基因组计划”相媲美的又一个伟大工程。 要了解单细胞测序,我们首先需要了解下何为测序? “单细胞测序技术”是基于“第二代测序技术” 上世纪70年代末,Sanger发明了双脱氧链终止法也叫做Sanger测序法,Sanger测序法为基础的DNA测序技术我们把他称作“第一代测序技术”。“人类基因组计划”就是基于“第一代测序技术”完成的,共花费了30亿美元和耗时15年的时间。“第一代测序技术”成本高和低通量的问题,逐渐满足不了生命科学领域发展的需求。经过不断的技术开发和改进,以Illumina公司为代表的“第二代测序技术”大大降低了测序的成本并且大幅度提高了测序通量,所以也被称作“高通量测序技术”。 过去10几年“第二代测序技术”得到了快速发展,甚至突破“摩尔定律”的发展规律,如今完成一个人类的全基因组价格只需要1000美元和几个工作日。随着“第二代测序技术”的迅猛发展,使得对于每个细胞单独测序成为了可能。正是“第一代测序技术”的技术革命完成了“人类基因组计划”,同样的“第二代测序技术”掀起的技术革命正在推动着“人类细胞图谱计划”的进行。 当我们了解了“单细胞测序”就是以“二代测序技术”为基础的测序技术,那么下一步就需要了解下什么是细胞?为什么我们要进行单细胞测序? 人体的每个细胞都是独一无二的 细胞是人体结构和功能的基本单位,每个人大约有40亿-60亿个独立的细胞。如果把一个人体全部细胞比作地球上的所有人类的话,那么我们的细胞就像地球上每个独立的个人,正如地球上的每个人都是独一无二的,人体的每个细胞也是独一无二的。人类生命最初只有一个受精卵细胞,从胚胎发育到个体成熟,人体内的细胞数量增加的同时,细胞与细胞间的差异也越来越大,即使来自同一个组织的细胞,最终有的分化成了神经元而有的细胞则变成了神经胶质细胞。单细胞测序技术就是通过测序技术获得不同细胞间的遗传信息,从基因遗传水平解开细胞与细胞间的遗传信息异质性问题。 根据上面的对介绍,我们可以对“单细胞测序技术”下一个定义:单细胞测序技术是通过“第二代测序技术”对每个单独的细胞进行测序,获取每个独立细胞的遗传信息。

单细胞测序技术概览

单细胞测序技术概览 2013年,单细胞测序技术开始成为科研界主流关注的焦点。 前言 2013年,单细胞测序技术(single-cell sequencing)荣膺《自然-方法》年度技术。单细胞测序技术有助于我们剖析细胞的异质性。它可以揭示肿瘤细胞基因组中发生的突变及结构性变异,而这些突变和变异往往有着极高的突变率。有了这些信息,我们就可以描述肿瘤细胞的克隆结构,并追踪疾病的进展及扩散范围。本文将介绍2013年单细胞测序技术在人类早期发育、癌症以及神经科学研究等几个重点领域的最新应用成果。 1. 单细胞测序技术简介 本节将概述如何获得一个单细胞的基因组及转录组。 单细胞基因组及转录组测序所需要的测序样本量要比单细胞中本身所含有的基因组及转录组分子高出好多个数量级,所以这对核酸扩增技术(amplification technology)也是一大考验。面对如此微量的分子,任何降解、样品损失、或者污染都会对测序质量带来非常严重的影响。而且多重扩增又容易带来试验误差,比如基因组或转录组覆盖不均一、背景噪声以及定量不准确等问题。 最近所取得的技术进步有望部分解决上述问题,使单细胞测序技术能够走进更多的实验室,解决更多领域的科学问题。比较罕见的细胞、异质性的样本、与遗传嵌合或突变相关的表型、不能人工培养的微生物,这些都是单细胞测序技术能够一展所长的研究平台。使用单细胞测序技术能够发现克隆突变(clonal mutation)、隐藏的细胞类型,或者在大块组织样品研究工作中被―稀释‖或平均掉的转录特征。

1.1 选择恰当的细胞 说到分离单细胞,显微操作(micromanipulation)无疑是一项非常精确的技术,而且利用毛细管(microcapillary)可以直接吸取细胞内容物,但是这项操作也需要耗费大量人力。很多组织解离之后都能够制成单细胞悬液,这种单细胞悬液很容易操作,而且可以用细胞分选器(cellsorter),根据细胞表面表达的特异性分子标志物对细胞进行分类富集操作。这种策略也被用来分离非常微量的循环肿瘤细胞。 1.2 单细胞转录组策略 现在有很多单细胞RNA测序操作流程可供选择,不过不管采用何种策略,首先都需要通过逆转录反应,利用RNA合成出cDNA。然后才会有所区别,比如有一些方法是对整个转录子进行测序,有一些方法只针对转录子的5'和3'端进行测序。不论采用何种方法,目的都只有一个,那就是捕获原始的RNA分子,然后均一的、准确地对其进行扩增。核酸的捕获效率主要受到逆转录反应的影响,不过我们可以使用更小的反应体系,选择更好的逆转录酶来进行改善。另外,采用模板转换技术(template switching)也能够保证被捕获的绝大部分转录子都是全长片段。减少反应循环数也能够改善核酸扩增反应,还可以借助―抑制PCR (suppression PCR)‖技术减少引物扩增,或者将取自不同样品的cDNA(这些cDNA都是分别做好标记的)混合到一起,提高起始反应模板浓度,用体外转录技术进行线性扩增(linear amplification)。另外,还可以利用特有的分子识别序列(molecular identifier sequences)对每一个RNA分子进行标记,这样即便在经历了非均一的扩增之后,我们还是能够对原始的RNA分子数量进行绝对定量。 1.3 单细胞基因组策略 全基因组扩增(whol e-genome amplification)的起始反应产物更少,只有一个DNA分子。这样在扩增反应时就难免出现不均一的问题,即可能在基因组中某些位点会扩增多次,而另外一些位点则无法扩增。解决这个问题最常用的办法就是多重置换扩增技术(multiple displacement amplification, MDA),即使用随机引物,让这些引物与基因组广泛结合,同时使用一种特定的聚合酶,这种聚合酶能够置换与它自身附着在同一模板上的DNA链片段,形成一种反复分支结构(iterative branching structure),扩增出大段的DNA。早期循环对整个扩增反应的均一性起到了决定性作用。有一种扩增技术采用了一种独特的引物,这样能够生成闭合环状的扩增子(amplicon),而且这种扩增产物不会再进一步复制,等于是在进行PCR扩增反应之前先进行几轮线性扩增反应。将反应按比例扩大,同时对反应情况进行实时监控都有助于改善基因组扩增成功率低的问题,另外减少扩增次数,准备更少模板的测序文库也是一个比较值得发展的方向。

宏基因组学的一般研究策略

宏基因组学的一般研究策略 摘要: 宏基因组学是目前微生物基因工程的一个重要方向与热点。它把微生物的总群体特性与基因组学实验手段结合了起来,包括从环境样品中提取总DNA、再用可培养的宿主微生物建立文库及筛选目的克隆和基因。该法是研究不可培养微生物、寻找新的基因和开发新活性产物的重要新途径。它避开了微生物分离、纯化和培养的步骤,大大扩展了微生物资源的利用范围。本文旨在介绍宏基因组学的一般研究方法并结合我们的实验情况,对这一崭新领域中的最新研究策略进行了简要综述。 关键词: 宏基因组学, 不可培养微生物, 文库构建, 文库筛选,研究策略 Strategies for accessing metagenomics for desired applications Abstract: Metagenomics is a new field of microbial genetic engineering. It has the characteristics of microbial ecology and the methodology of genomics. Metagenomics includes genomic DNA isolation, library construction and screening strategies, and can be used in the discovery of new gene and biocatalysts and in the study of uncultured microorganism. Metagenomics can overcome the advantages of isolation and cultivation procedures in traditional microbial method, and thus greatly broaden the space of microbial resource utilization. In this paper, we mainly reviewed the metagenomic methodology, together with the latest advances and novel strategy in this research field. Keywords:Metagenomics; Uncultured microorganism;Library construction;Library screening Research strategies 大自然中蕴藏着无数具有重要价值的微生物及其活性产物,也是新基因及生物学资源的重要源泉,对其进行研究成为微生物学和分子生物学研究的一个重要方向。然而人们现在能够培养与利用的不到环境中总微生物的1%[1]。宏基因组学(metagenomics)是直接从环境样品中提取全部微生物的总DNA, 避开了分离、纯化和培养微生物的过程来构建宏基因组文库,用基因组学的研究策略来研究环境样品中的总微生物的组成及其在群落中的功能等。现在,宏基因组学技术方法已在微生物多样性,微生物细胞间的相互作用,新基因和新型生物催化剂的开发,新的抗生素的开发及环境生态等方面得到了广泛应用[2]。本文旨在介绍宏基因组学的一般实验方法并结合我们的研究情况,对这一崭新领域中的最新研究策略进行了简要综述。深化了我们对这一学科的认识,促进了该学科的进步。 1 宏基因组学研究策略 1.1宏基因组学概要 宏基因组学是Handelsman等于1998年提出的[3], 可见是一门很新的学科,其随着基因组实验手段,生物信息学和测序技术等的日新月异也迅猛发展了起来,这个新学科是以环境样品的总微生物基因组为实验对象,通过测序分析、文库评价、产活性物质及其基因的克隆的获取和基因功能的鉴别,对微生物种群组成与生物量、生态学关系、生物化学关系与环境关系以及功能活性进行研究[4]。其主要过程包括样品和基因的富集和提取; 宏基因组文库的构建; 目的基因的筛选; 目的基因活性产物的表达(图1)。 1.2 微生物及其基因的富集 在文库筛选过程中由于目的基因比例较小, 对环境中微生物的富集不但可提高基因总量,有利于基因的提取,还可增加目的基因的比例,如Kouker 等用橄榄油富集产脂肪酶的微生物收到了很好的效果[5 ],橄榄油不仅可作为底物,还可诱导脂肪酶的合成。目前富集技术主要分为细胞水平和基因水平。其中细胞水平主要是用选择培养基来富集某些微生物, 常

基因组数据库

基因组数据库 文章来源:北大生物信息中心 基因组数据库是分子生物信息数据库的重要组成部分。基因组数据库内容丰富、名目繁多、格式不一,分布在世界各地的信息中心、测序中心、以及和医学、生物学、农业等有关的研究机构和大学。基因组数据库的主体是模式生物基因组数据库,其中最主要的是由世界各国的人类基因组研究中心、测序中心构建的各种人类基因组数据库。小鼠、河豚鱼、拟南芥、水稻、线虫、果蝇、酵母、大肠杆菌等各种模式生物基因组数据库或基因组信息资源都可以在网上找到。随着资源基因组计划的普遍实施,几十种动物、植物基因组数据库也纷纷上网,如英国Roslin研究所的ArkDB包括了猪、牛、绵羊、山羊、马等家畜以及鹿、狗、鸡等基因组数据库,美国、英国、日本等国的基因组中心的斑马鱼、罗非鱼(Tilapia)、青鳉鱼(Medaka)、鲑鱼(Salmon)等鱼类基因组数据库。英国谷物网络组织(CropNet)建有玉米、大麦、高粱、菜豆农作物以及苜蓿(Alfalfa)、牧草(Forage)、玫瑰等基因组数据库。除了模式生物基因组数据库外,基因组信息资源还包括染色体、基因突变、遗传疾病、分类学、比较基因组、基因调控和表达、放射杂交、基因图谱等各种数据库。下面介绍两个重要的基因组数据库。 GDB 由美国Johns Hopkins大学于1990年建立的GDB是重要的人类基因组数据库,现由加拿大儿童医院生物信息中心负责管理。GDB数据库用表格方式给出基因组结构数据,包括基因单位、PCR位点、细胞遗传标记、EST、叠连群(Contig)、重复片段等;并可显示基因组图谱,其中包括细胞遗传图、连锁图、放射杂交图、叠连群图、转录图等;并给出等位基因等基因多态性数据库。此外,GDB数据库还包括了与核酸序列数据库GenBank和EMBL、遗传疾病数据库OMIM、文献摘要数据库MedLine等其它网络信息资源的超文本链接。 GDB数据库是用大型商业软件Sybase数据库管理系统开发的,并用Java语言编写基因图谱显示程序,为用户提供了很好的界面,缺点是传输速度受到一定限制。GDB数据库是国际合作的成果,其宗旨是为从事基因组研究的生物学家和医护人员提供人类基因组信息资源。其数据来自于世界各国基因组研究的成果,经过注册的用户可以直接向GDB数据库中添加和编辑数据。

宏基因组测序技术检测方法

宏基因组测序技术检测标准 简介: 宏基因组测序介绍 宏基因组学是以环境样品中的微生物群体基因组为研究对象,通过现代基因组技术手段包括功能基因的筛选和测序分析,对环境中微生物多样性、种群结构、进化关系、功能活性、相互协作关系以及环境之间的关系进行研究的新的微生物研究方法。随着高通量测序技术的发展,为宏基因组学研究提供了新的理想研究方法。高通量测序的方法无需分离环境中各种微生物,也无需构建克隆文库就可以直接对环境中所有微生物进行测序。可以真实客观的反映环境中微生物的多样性、种群结构、进化关系等。目前又可以分为针对16s DNA/18sDNA/ITS测序和针对宏基因组全序列的测序研究。下面就是对这两者的具体介绍。 一、16s DNA/18s DNA/ITS测序 16sDNA是最常用的微生物物种分子鉴定的标签,,通过对样品中16sDNA测序可以鉴定其中微生物物种的丰度和分布情况。目前,普遍使用Roche 454平台来对环境样品进行16s DNA测序。因为16s DNA序列比较相似,读长短的话,难以进行有效的比对,而454平台的平均读长在400bp左右,可以很好的避免此类问题。 二、宏基因组全测序 在这种测序方式中,我们可以假定一个环境中的所有微生物就是一个整体,然后对其中所有的微生物进行测序。这样我们就可以研究样品中的功能基因以及其在环境中所起的作用而不用关心其来自哪个微生物。可以发现新的基因,可以进行基因的预测,甚至有可能得到某个细菌基因组的全序列。此外,该项测序不单可以针对DNA水平,也可以针对全RNA进行基因表达水平的研究。 样品处理:

宏基因组样品收集主要有口腔,下呼吸道痰液,下呼吸道灌洗液,皮肤和粪便。样品采集遵照样品采集规范(人)所规定的操作来进行。尽量留足备份样品。核酸提取: 宏基因组核酸提取主要有两种方法:膜过滤法和直接裂解提取。对于液体样品如痰液,灌洗液两种方法都适用,对于固体样品如粪便宜采用直接裂解的方法。核酸提取后用NanoDrop ND-1000测定,260/280 = , 260/230 = ,电泳检测DNA 应是完整的一条带。 测序Sequencing 1)16S/18S测序: Sanger测序: 用于低通量的16S/18S DNA测序,提取宏基因组后,首先通过PCR将16S/18S 序列扩增出来,再将其连接到克隆载体上,导入感受态细胞,涂平板做蓝白斑筛选,选出阳性克隆提质粒,对质粒进行测序反应,测序反应后纯化后用ABI 3130或ABI 3730进行毛细管电泳测序。 由于其测序准确率比较高,而通量非常低,现通常用做二代测序结果的验证。454 Platform: 454平台主要包括两种测序系统:454 GS FLX+ System和454 GS Junior System。454 GS FLX+ System测序读长可以达到600-1000bp,通量450-700M,GS Junior System测序读长在400bp左右,通量在35M。

MALBAC单细胞全基因组测序详细解析

单细胞全基因组测序一直是生物学家梦想得到的结果。 但是其中必须解决的矛盾: 1. 线性扩增。如果用全基因组PCR扩增,因为PCR的扩增偏向性(bias),再加上PCR过程中较小的偏向性通过指数放大,其结果就会是严重的覆盖不均一,导致在许多地方只有很低的覆盖、甚至没有覆盖。所以,保证模板被线性地扩增,是首要问题。 2. 全基因组覆盖。常规的建库方法,因为补平、加A、接头连接效率的问题,起始DNA中有很大一部分会被浪费,没有形成有效文库分子(也就是两头都接好引物的DNA片段)。在单细胞测序中,这是不可接受的。 3. 高扩增效率。单细胞中的每个基因位置理论上都只有2个拷贝,而要从2个拷贝扩增到足够建立文库的DNA量,要经过许多次的扩增。这就需要很高的扩增效率。而一般的线性扩增很难有好的扩增效率 谢晓亮教授创新的MALBAC方法(multiple annealing andlooping-based amplification cycles),一举解决了上述3个问题,达到:1. 线性扩增,2. 近乎全覆盖,3. 高扩增效率(高产量),并且最终可以用于检测单细胞的CNV。 原理: 1. 第一步 A. 用5’端有27个统一序列,而3’端是8个随机序列的引物,作为扩增引物。用随机引物保证可以在模板链上的各处随机结合 B. 0℃淬火,再65℃等温扩增,得到第一轮的复制的产物 a. n个扩增产物(在图中标成蓝色),这些扩增产物都有在5’端有一个统一的引物 b. 1个原来的模板(在图中标成黑色) C. 用有前链移开功能的聚合酶(?29聚合酶)来进行扩增,这种酶的特点是会把酶前行方向上的前链从原来的模板链上进行解链、移开。利用这种特点,可以让模板上的每个点在第一轮反应中,都有机会得到n个拷贝 D.巧妙之处: a. 0℃淬火,在延伸开始之前,就把n个引物杂交到模板上 b. ?29聚合酶可以把前面的链给推开,结合前面的淬火步骤,一次复制出n个扩增子 2. 第2轮起的m轮扩增

宏基因组测序技术检测方法模板

宏基因组测序技术 检测方法

宏基因组测序技术检测标准 简介: 宏基因组测序介绍 宏基因组学是以环境样品中的微生物群体基因组为研究对象,经过现代基因组技术手段包括功能基因的筛选和测序分析,对环境中微生物多样性、种群结构、进化关系、功能活性、相互协作关系以及环境之间的关系进行研究的新的微生物研究方法。随着高通量测序技术的发展,为宏基因组学研究提供了新的理想研究方法。高通量测序的方法无需分离环境中各种微生物,也无需构建克隆文库就能够直接对环境中所有微生物进行测序。能够真实客观的反映环境中微生物的多样性、种群结构、进化关系等。当前又能够分为针对16s DNA/18sDNA/ITS测序和针对宏基因组全序列的测序研究。下面就是对这两者的具体介绍。 一、16s DNA/18s DNA/ITS测序 16sDNA是最常见的微生物物种分子鉴定的标签,,经过对样品中16sDNA测序能够鉴定其中微生物物种的丰度和分布情况。当前,普遍使用Roche 454平台来对环境样品进行16s DNA测序。因为16s DNA序列比较相似,读长短的话,难以进行有效的比对,而454平台的平均读长在400bp左右,能够很好的避免此类问题。 二、宏基因组全测序

在这种测序方式中,我们能够假定一个环境中的所有微生物就是一个整体,然后对其中所有的微生物进行测序。这样我们就能够研究样品中的功能基因以及其在环境中所起的作用而不用关心其来自哪个微生物。能够发现新的基因,能够进行基因的预测,甚至有可能得到某个细菌基因组的全序列。另外,该项测序不单能够针对DNA水平,也能够针对全RNA进行基因表示水平的研究。 样品处理: 宏基因组样品收集主要有口腔,下呼吸道痰液,下呼吸道灌洗液,皮肤和粪便。样品采集遵照样品采集规范(人)所规定的操作来进行。尽量留足备份样品。 核酸提取: 宏基因组核酸提取主要有两种方法:膜过滤法和直接裂解提取。对于液体样品如痰液,灌洗液两种方法都适用,对于固体样品如粪便宜采用直接裂解的方法。核酸提取后用NanoDrop ND-1000测定,260/280 = 1.8-2.0, 260/230 = 1.8-2.0,电泳检测DNA应是完整的一条带。 测序Sequencing 1)16S/18S测序: Sanger测序: 用于低通量的16S/18S DNA测序,提取宏基因组后,首先经过PCR将16S/18S序列扩增出来,再将其连接到克隆载体上,导

细菌基因组的结构和功能

细菌和病毒一样同属原核生物,因而细菌基因组的结构特点在许多方面与病毒的基因组特点相似,而在另一些方面又有其独特的结构和功能。本节首先介绍细菌染色体基因组的一般结构特点,然后再具体介绍大肠杆菌染色体基因组的结构和功能。 ?细菌染色体基因组结构的一般特点 ?大肠杆菌染色体基因组的结构和功能 细菌染色体基因组结构的一般特点 (1)细菌的染色体基因组通常仅由一条环状双链DNA分子组成细菌的染 色体相对聚集在一起,形成一个较为致密的区域,称为类核(nucleoid)。 类核无核膜与胞浆分开,类核的中央部分由RNA和支架蛋白组成,外围是双 链闭环的DNA超螺旋。染色体DNA通常与细胞膜相连,连接点的数量随细菌生长状况和不同的生活周期而异。 在DNA链上与DNA复制、转录有关的信号区域与细胞膜优先结合,如大肠杆菌染色体DNA的复制起点(OriC)、复制终点(TerC)等。细胞膜在这里的作用可能是对染色体起固定作用,另外,在细胞分裂时将复制后的染色体均匀地分配到两个子代细菌中去。有关类核结构的详细情况目前尚不清楚。 (2)具有操纵子结构(有关操纵子结构详见基因表达的调控一章)其中的结构基因为多顺反子,即数个功能相关的结构基因串联在一起,受同一个调节区的调节。数个操纵子还可以由一个共同的调节基因 (regulatorygene)即调节子(regulon)所调控。 (3)在大多数情况下,结构基因在细菌染色体基因组中都是单拷贝但是编码rRNA的基因rrn往往是多拷贝的,这样可能有利于核糖体的快速组装,便于在急需蛋白质合成时细胞可以在短时间内有大量核糖体生成。 (4)和病毒的基因组相似,不编码的DNA部份所占比例比真核细胞基因组少得多。 (5)具有编码同工酶的同基因(isogene)例如,在大肠杆菌基因组中有两个编码分支酸(chorismicacid)变位酶的基因,两个编码乙酰乳酸(acetolactate)合成酶的基因。 (6)和病毒基因组不同的是,在细菌基因组中编码顺序一般不会重叠,即不会 出现基因重叠现象。 (7)在DNA分子中具有各种功能的识别区域如复制起始区OriC,复制终止区 TerC,转录启动区和终止区等。这些区域往往具有特殊的顺序,并且含有反向重复顺 序。 (8)在基因或操纵子的终末往往具有特殊的终止顺序,它可使转录终止和RNA 聚合酶从DNA链上脱落。例如大肠杆菌色氨酸操纵子后尾含有40bp的GC丰富区,其后紧跟AT丰富区,这就是转录终止子的结构。终止子有强、弱之分,强终止子含有反向重复顺序,可形成茎环结构,其后面为polyT 结构,这样的终止子无需终止蛋白参与即可以使转录终止。而弱终止子尽管也有反向重复序列,但无polyT 结构,需要有终止蛋白参与才能使转录终止。 大肠杆菌染色体基因组的结构和功能 大肠杆菌染色体基因组是研究最清楚的基因组。估计大肠杆菌基因组含有3500个基因,已被定位的有900个左右。在这900个基因中,有260个基因已查明具有操纵子结构,定位于75个操纵子中。在已知的基因中

全基因组重测序大数据分析报告

全基因组重测序数据分析 1. 简介(Introduction) 通过高通量测序识别发现de novo的somatic和germ line 突变,结构变异-SNV,包括重排突变(deletioin, duplication 以及copy number variation)以及SNP的座位;针对重排突变和SNP的功能性进行综合分析;我们将分析基因功能(包括miRNA),重组率(Recombination)情况,杂合性缺失(LOH)以及进化选择与mutation之间的关系;以及这些关系将怎样使得在disease(cancer)genome中的mutation产生对应的易感机制和功能。我们将在基因组学以及比较基因组学,群体遗传学综合层面上深入探索疾病基因组和癌症基因组。 实验设计与样本 (1)Case-Control 对照组设计; (2)家庭成员组设计:父母-子女组(4人、3人组或多人); 初级数据分析 1.数据量产出:总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计,测序深度分析。 2.一致性序列组装:与参考基因组序列(Reference genome sequence)的比对分析,利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序列。 3.SNP检测及在基因组中的分布:提取全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进行注释。 4.InDel检测及在基因组的分布: 在进行mapping的过程中,进行容gap的比对并检测可信的short InDel。在检测过程中,gap的长度为1~5个碱基。对于每个InDel的检测,至少需要3个Paired-End序列的支持。 5.Structure Variation检测及在基因组中的分布: 能够检测到的结构变异类型主要有:

药物基因组学相关数据库

药物基因组学数据库 1、Drugbank 2、dgidb 3、pharmGKB 4、cancercommon 5、ChEMBL 6、mycancergenome 7、TTD 8、guidetopharmcology 9、clearityfoundation 10、CIViC https://https://www.doczj.com/doc/7a10761635.html,/#/home 11、DoCM https://www.doczj.com/doc/7a10761635.html,/ 1 Drugbank 药物和药物靶标资源库。DrugBank是一个独特的生物信息学/化学信息学资源,它结合了详细的药物(例如化学制品)数据和综合的药物靶点(即:蛋白质)信息。该数据库包含了超过4100个药物条目,包括超过800个FDA认可的小分子和生物技术药物,以及超过3200个试验性药物。此外,超过1.4万条蛋白质或药物靶序列被链接到这些药物条目。每个DrugCard条目包含超过80个数据域,其中一半信息致力于药物/化学制品数据,另一半致力于药物靶点和蛋白质数据。许多数据域超链接到其他数据库(KEGG、PubChem、ChEBI、Swiss-Prot和GenBank)和各种结构查看小应用程序。该数据库是完全可搜索的,支持大量的文本、序列、化学结构和关系查询搜索。DrugBank的潜在应用包括模拟药物靶点发现、药物设计、药物对接或筛选、药物代谢预测、药物

相互作用预测和普通药学教育。DrugBank可以在http://www.drugbank.ca 使用。广泛应用于计算机辅助的药物靶标的发现、药物设计、药物分子对接或筛选、药物活性和作用预测等。 在查询中,每一种药物对应1个DrugCard,即我们所得到的检索结果。每一个DrugCard都包含的数据信息分为药物、靶标和酶三部分。 药物信息包括了该药物的CAS号、商品名、分子式、分子量、SMILES、2D 和3D结构、logP、logS、pKa、熔点、吸收性、Caco-2细胞穿透性、药物类别和临床使用、性质描述、剂型与给药途径、半衰期、体内的生物转化、毒性、作用于哪些生物体、食物对服用的影响、与其它药物的相互作用、作用机理、代谢途径、药理学特征、与蛋白质的结合情况、溶解度、物质形态、同义词、关于合成的相关文献等,还与ChEBI、GenBank、PubChem等外部数据库有链接。 靶标的信息包括ID、名称、靶标基因的名称、蛋白质序列、残基数目、分子量、等电点、功能和活性、参与的代谢途径和反应、体内分布、靶标信号、跨膜区域、靶标基因序列及其在GenBank、HGNC等外部数据库中的ID和链接、参考文献,以及在GenBank和Swiss-Prot中的链接。 酶的信息包括名称、蛋白质序列、基因名称、在Swiss-Prot 等数据库中的链接。 在DrugBank的主界面上,在Browse菜单下可以浏览数据库的内容,其中PharmaBrowse为用户提供了分类浏览的功能。这为药剂师、医生以及寻找潜在药物的研究人员提供了方便。在Search下拉菜单下,就是Drug Bank的4类检索方式。ChemQuery允许用户通过绘制结构图或书写SMILES、分子式进行结构搜索。在检索过程中还可以对搜索药物类型、分子量范围、搜索结果相似度、结果数量最大值等进行设置。TextQuery则为文本检索功能。文本检索支持逻辑运算符连接及在特定领域内搜索。例如,在“dextromethorphan”中检索混合物,可以键入“mixtures:dextromethorphan”,即用分号在后面输入领域,同时可以加入逻辑运算符,例如,在“dextrome thorphan”和“doxylamine”2个领域进行检索,可以键入“mixtures:dextromethorphan AND mixtures:doxylamine”。SeqSearch为用户提供了通过序列检索蛋白质的功能。Data Extractor是1

宏基因组学研究方法及应用概述

宏基因组学研究方法及应用概述彭昌文 (山东省济宁学院生物学系 273155) 颜 梅 (山东省曲阜师范大学生命科学学院 273165) 摘 要 本文简要介绍了宏基因组的概念,概述了其原理及应用。 关键词 宏基因组 宏基因组学 环境基因组学 基因文库的构建 迄今,人们对微生物世界的认识基本都来源于对占细菌总种数不到1%的微生物的单个种群的孤立研究结果。然而微生物是通过其群落而非单一种群来执行在自然界物质与能量循环中的作用的,对微生物群落作为整体的功能认识远远落后于对其个体的认识。这种状况不利于全面认识微生物在自然界所扮演的重要角色。为了获得完整的环境微生物基因表达产物,早在1978年许多学者就提出了直接从环境中提取微生物DNA的思路,1998年,AR I A D phar maceutical公司的科学家Handels man等首次提出宏基因组的概念[1]。宏基因组(the genomes of the total m icrobi ota found in nature)是指生境中全部微生物基因的总和[2]。它包含了可培养的和未培养的微生物的基因总和,微生物主要包括环境样品中的细菌和真菌。而宏基因组学就是一种以环境样品中的微生物群体基因组为研究对象,以功能基因筛选和测序分析为研究手段,以微生物多样性、种群结构、进化关系、功能活性、相互协作关系及与环境之间的关系等为研究目的的新的微生物研究方法,也称为微生物环境基因组学、元基因组学或生态基因组学。它主要研究从环境样品获得的基因组中所包含的微生物的遗传组成及其群落功能,为充分认识和开发利用非培养微生物,并从完整的群落水平上认识微生物的活动、最大限度地挖掘微生物资源,提供了可能,已成为国际生命科学技术研究的热点和前沿。 1 宏基因组学的研究方法 宏基因组学的研究过程一般包括从环境样品中提取基因组DNA,克隆DNA到合适的载体,导入宿主菌体,筛选目的转化子等工作,可分为三个步骤。 1.1 宏基因组的提取 在宏基因组筛选过程中,目的基因是整个核苷酸链中的一部分,因此样品前期的富集能够提高筛选命中率。DNA的提取是宏基因文库构建的关键步骤。提取步骤通常需要满足两个条件:既要尽可能提取样品所有微生物的基因,又要保持片段的完整和纯度。目前所开发的DNA提取方法有两种:细胞提取法和直接裂解法。直接裂解法包括物理法(冻融法、超声法、玻璃球珠击打法、液氮碾磨法)、化学法(常用化学试剂有表面活性剂、盐类、有机溶剂等)及酶裂解法。另外,依据提取样品总DNA前是否分离细胞,可以分为原位裂解法和异位裂解法。原位裂解法可以直接破碎样品中的微生物细胞而使DNA 得以释放,由于无需对样品微生物进行复苏,且黏附颗粒上的微生物细胞亦能被裂解,所得DNA能更好地代表样品微生物的多样性。此法操作容易、成本低,DNA 提取率高,但由于机械剪切作用较强,所提取的DNA 片段小(1~50kb),通常适用于构建小片段插入文库(以质粒和λ噬菌体为载体)的DNA提取。异位裂解法则先采用物理方法将微生物从样品中分离出来,然后采用较温和的方法抽提DNA。此法条件温和,可获得大片段DNA(20~500kb),纯度高,但操作繁琐、成本高、得率低,通常适用于构建大片段插入文库(以柯斯质粒或者细菌人工染色体为载体)的DNA提取。1.2 宏基因组文库的构建 宏基因组文库的构建需适宜的克隆载体。通常用于DNA克隆的载体主要包括质粒、黏粒和细菌人工染色体等。质粒一般用于克隆小于10kb的DNA片段,适用于单基因的克隆与表达。黏粒的插入片段可达40kb左右,细菌人工染色体插入片段可达350kb,可用来制备由多基因簇调控的微生物活性物质的完整代谢途径的相关片段文库。1.3 目的基因的筛选 目的基因的筛选方法包括序列分析和功能分析两种。序列分析适用于小片段DNA文库的基因筛选;而功能分析通常适用于大片段DNA文库的筛选。序列分析筛选不依赖于重组基因在外源宿主中的表达,因为所使用的寡聚核苷酸引物是直接通过DNA序列中的保守区域设计的,反映了氨基酸序列的保守性,可获得未知序列的目的基因。该方法对DNA量的要求不高,筛选到新活性物质的可能性较大。序列分析的另一个手段是对宏基因组克隆测序,无论是全部或随机测序都是发现新基因的有效手段。 对于功能分析而言,首先需获得目的克隆,然后通过序列和生化分析对其进行表征。此法能快速鉴定出全新且有开发价值的活性物质,可用于医药、工农业等行业。由于此法检出率较低,工作量较大,且受检测手段的限制,所以常要借助于高通量筛选。 2 宏基因组学的应用 2.1 在生态学方面的应用 当今微生物生态学研究的主要目的之一是将微生物与其所在环境中的代谢过程相联系。应用16s r DNA作为系统发育锚去鉴定属于某种微生物的克隆,然后对基因进行测序,从而获得

单细胞测序

第一章单细胞测序技术概览 摘要: 2013年,单细胞测序技术开始成为科研界主流关注的焦点。前言2013年,单细胞测序技术(single-cell sequencing) 荣膺《自然-方法》年度技术。单细胞测序技术有助于我们剖析细胞的异质性。它可以揭示肿瘤细胞基因组中... 2013年,单细胞测序技术开始成为科研界主流关注的焦点。 前言 2013年,单细胞测序技术(single-cell sequencing)荣膺《自然-方法》年度技术。单细胞测序技术有助于我们剖析细胞的异质性。它可以揭示肿瘤细胞基因组中发生的突变及结构性变异,而这些突变和变异往往有着极高的突变率。有了这些信息,我们就可以描述肿瘤细胞的克隆结构,并追踪疾病的进展及扩散范围。本文将介绍2013年单细胞测序技术在人类早期发育、癌症以及神经科学研究等几个重点领域的最新应用成果。 1. 单细胞测序技术简介 本节将概述如何获得一个单细胞的基因组及转录组。 单细胞基因组及转录组测序所需要的测序样本量要比单细胞中本身所含有的基因组及转录组分子高出好多个数量级,所以这对核酸扩增技术(amplification technology)也是一大考验。面对如此微量的分子,任何降解、样品损失、或者污染都会对测序质量带来非常严重的影响。而且多重扩增又容易带来试验误差,比如基因组或转录组覆盖不均一、背景噪声以及定量不准确等问题。 最近所取得的技术进步有望部分解决上述问题,使单细胞测序技术能够走进更多的实验室,解决更多领域的科学问题。比较罕见的细胞、异质性的样本、与遗传嵌合或突变相关的表型、不能人工培养的微生物,这些都是单细胞测序技术能够一展所长的研究平台。使用单细胞测序技术能够发现克隆突变(clonal mutation)、隐藏的细胞类型,或者在大块组织样品研究工作中被―稀释‖或平均掉的转录特征。 1.1 选择恰当的细胞 说到分离单细胞,显微操作(micromanipulation)无疑是一项非常精确的技术,而且利用

基因组信息数据库

ACEDB ACEDB ACEDB( C.elegans 1991 Richard Durbin Jean Thierry-Mieg C.elegans Durbin Thierry-Mieg ACEDB [3] ” [4 5] ACEDB 1997 [3] 25-30 ACEDB Unix Macintosh OS Windows DNA ,ACEDB ACEDB (throwaway)” ACEDB ACEDB ACEDB ACEDB ACEDB ACEDB Sanger (Colorado State University) Aedes aegypti Massachusetts General Arabidopsis Walter Eliza Hall (WEHL) ACEDB Unix X-window World Wide Web Java ACEDB X-window Xace 4,3 LM MM RM ACEDB ACEDB 13.1 Grain Gene Triticeae ACEDB ACEDB w w .d o c u -t r a c k .c w .d o c u -t r a c k .c o

Reference LM KeySet Reference reference BCG-28-487 13.1 13.1 reference locus iBgl locus LM reference locus ACEDB Sydney Bruno Gaeta [7] Cornell Dave.Matthecos [8] ACEDB sequence gene reference 13.2 models.wrm wspec ACEDB [9] ACEDB [10] //this shows partial models for the Sequence, //Locus and Paper class ?Sequence DNA UNIQUE ?DNA UNIQUE Int Structure Length UNIQUE Int Properties Pseudogene CDS Genomic_canonical Locus ?Locus XREF Sequence Paper ?Paper Remark Text ?Locus Sequence ?Sequence XREF Locus Paper ?Paper ?paper Title Text w w .d o c u -t r a c k .c w .d o c u -t r a c k .c o

相关主题
文本预览
相关文档 最新文档