当前位置:文档之家› 短额负蝗线粒体基因组及其lrRNA和srRNA二级结构分析

短额负蝗线粒体基因组及其lrRNA和srRNA二级结构分析

短额负蝗线粒体基因组及其lrRNA和srRNA二级结构分析
短额负蝗线粒体基因组及其lrRNA和srRNA二级结构分析

收稿日期:2007-10-08; 接受日期:2007-11-08 基金项目:国家自然科学基金(30470238)

*

通讯作者(Corresponding author ),E-mail :yuanh@https://www.doczj.com/doc/a48422596.html,

动 物 学 研 究 2007,Dec. 28(6):580-588 CN 53-1040/Q ISSN 0254-5853 Zoological Research

短额负蝗线粒体基因组及其lrRNA 和

srRNA 二级结构分析

丁方美,师红雯,黄 原*

(陕西师范大学 生命科学学院,陕西 西安 710062)

摘要:采用长距PCR 扩增及保守引物步移法测定并注释了短额负蝗的线粒体基因组全序列。结果表明,短额负蝗的线粒体基因组全长15 558 bp ,A+T 含量为74.3%,37个基因位置与飞蝗的一致,基因间隔序列共计11处64 b p ,间隔长度从1~16 b p 不等;有15对基因间存在51 b p 重叠,重叠碱基数在1~8 b p 之间。13个蛋白质编码基因中找到6种可能的起始密码子,有12个基因在基因3'端能找到完全的TAA 或TAG 终止密码子,只有ND5基因终止密码子为不完整的TA 。除tRNA Ser (AGN )外,其余21个tRNA 基因的二级结构均属典型的三叶草结构。tRNA Ser (AGN )的DHU 臂缺失,在相应的位置上只形成一个环。预测的lrRNA 二级结构总共有6个结构域(结构域Ⅲ缺失),49个茎环结构。预测的srRNA 的二级结构包含3个结构域,33个茎环结构。A+T 丰富区中存在一个被认为与复制及转录起始有关的Ploy (T )(T-stretch )结构。

关键词:线粒体基因组;rRNA 二级结构;短额负蝗;锥头蝗科;直翅目

中图分类号:Q969.26;Q754 文献标识码:A 文章编号:0254-5853-(2007)06-0580-09

Complete Mitochondrial Genome and Secondary Structures of lrRNA and

srRNA of Atractomorpha sinensis (Orthoptera, Pyrgomorphidae)

DING Fang-mei, SHI Hong-wen, HUANG Yuan

(College of Life Sciences, Shaanxi Normal University, Xi’an 710062, China )

Abstract: The complete sequence of Atractomorpha sinensis mitochondrial genome was determined using long PCR and conserved primer walking approaches. The results showed that the entire mitochondrial genome of A. sinensis is 15 558 b p long with A+T content 74.3%. All 37 genes are conserved in the position observed in that of Locusta migratoria . Genes are closely assembled one after the other, leaving a total of 64 bp (excluding the A+T rich region) in intergenic spacers, ranging in size from 1 bp to 16 bp. The extremities of some genes overlap with each other by a few nucleotides, of which 15 overlaps range in size from 1 b p to 8 bp, giving a total of 51 overlapping nucleotides. In the 13 protein coding genes (PCGs), six types of start codons were identified, in which TAA and TAG were used in 12 PCGs as stop codons, except ND5 (TA). Most tRNA genes could form typical secondary structures except tRNA Ser (AGN), which had an absence of the DHU arm. There are six domains, 49 helices and three domains, 33 helices in the secondary structures of lrRNA and srRNA, respectively. In addition, there is an A+T rich region with 778 bp in length containing a polythymidine stretch that may be involved in replication and/or translation initiation.

Key words: Mitochondrial genome; rRNA secondary structure; Atractomorpha sinensis ; Pyrgomorphidae;

Orthoptera

后生动物线粒体基因组(mitochondrial genome, mtDNA )通常是编码37个基因(13个蛋白质基因、22个tRNA 基因及2个rRNA 基因)和一个控制区(control region ;也称A+T 丰富区,A+T rich region )的细胞器基因组(Wolstenholme, 1992; Shadel &

Clayton, 1993)。目前mtDNA 已被广泛用于系统发育重建、谱系生物地理学、群体结构及动态和基因组水平分子进化等领域的研究 (Simon et al, 1994, 2006)。截至2007年8月,GenBank 已公布了1000多种后生动物的mtDNA ,但其中大部分是脊椎动

6期丁方美等:短额负蝗线粒体基因组及其lrRNA和srRNA二级结构分析581

物,昆虫纲有分布于18个目的70多条全序列,其中双翅目19种,半翅目11种,鳞翅目7种,而直翅目仅有3种:非洲飞蝗Locusta migratoria(Flook et al, 1995)、东方蝼蛄Gryllotalpa orientalis(Kim et al, 2005)和螽斯Ruspolia dubia(Zhou et al, 2007)(http://www.ncbi.nlm. https://www.doczj.com/doc/a48422596.html,/ genomes)。

作为分子标记,全线粒体基因组包含多个进化速率各异的基因,因此理论上可用来分析不同阶元的系统发育关系。目前,在节肢动物的系统发育分析中,线粒体基因组序列已在门级分类群(Nardi et al, 2003; Cameron et al, 2004;Kim et al, 2005)、纲级分类群(昆虫)乃至同种的不同品系,如果蝇(Ballard, 2000)等各个阶层中得到应用。这些结果很好地支持了双翅目、鳞翅目、鞘翅目和半翅目的单系性(Kim et al, 2005)。但由于线粒体基因组测序在昆虫各个分类单元中的进展有所不同,对像直翅目等已测序较少的类群,由于所选物种的特殊进化模式及建树时的长枝吸引等问题而可能产生不恰当的结论。因此,增加这些类群中有关物种的全序列数据有利于更好地解决它们的系统发育关系。

短额负蝗(Atractomorpha sinensis)是直翅目蝗总科锥头蝗科的广布种和最常见种,在蝗总科的系统发育研究中有独特位置。本文测定并分析了短额负蝗线粒体基因组全序列,并据此对其编码的大、小亚基rRNA的二级结构做了预测和分析。短额负蝗的线粒体基因组将为直翅目昆虫的线粒体谱系基因组学研究提供新的数据资料。

1 材料和方法

1.1 标本采集及总DNA的提取

短额负蝗标本于2006年9月在陕西省长安县采集。直接用酚-氯仿抽提法从新鲜标本的后足股节肌肉提取总DNA,标本的其他部分用100%酒精固定保存;提取的总DNA保存于-20℃。 1.2PCR扩增、克隆及测序

首先,通过2对长距PCR(L-PCR)引物将短额负蝗线粒体基因组扩增为两条相互重叠的片段(片段A和B)(Liu et al,2006),然后用27对保守的引物以片段A和B为模板将整个基因组扩增为500~1500b p的短片段(所用引物见表1,27条片段的位置见图1)。短片段的扩增体系总体积为25μL,包括10×反应缓冲液2.5μL , 25mmol/L MgCl2 2.5μL, 2.5m mol/L dNTP 2μL, 10μmol/L上、下游引物各1.5~5μL,5U/μL TaqDNA 聚合酶0.15~0.35μL和长片段产物(作为DNA模板)1~2μL,然后加ddH2O 至终体积25μL。反应程序为: 94℃×2min+(94℃×30s+38~55℃×30s+72℃×1min)×30 cycles+72℃×7m in+4℃ forever。

27条PCR产物通过1%琼脂糖凝胶电泳检测,切胶纯化后直接测序,对于直接测序结果不好的片段再采用克隆测序。测序试剂盒为ABI PRISM?BigDye? Terminator v3.1,直接测序反应的退火温度较相应PCR扩增退火温度降低2~6℃,克隆测序反应的退火温度为50℃。测序反应程序为:96℃×1m in +(96℃×10s+38~55℃×1m in+60℃×4m in)×30 cycles+4℃ forever。测序反应产物经纯化后在ABI PRISM? 3100-Avant Genetic Analyzer测序。

1.3序列拼接、注释及分析

用Standen package(Bonfield et al, 1995; https://www.doczj.com/doc/a48422596.html,)对所测序列进行拼接和注释。拼接好的基因组序列首先利用tRNAscan-SE Search Server v1.21(Lowe and Eddy, 1997; https://www.doczj.com/doc/a48422596.html,/tRNAscan-SE)共预测出17个tRNA基因,其余的tRNA基因、蛋白质基因、rRNA基因及A+T丰富区的相应位置通过与非洲飞蝗(NC_001712)的相应基因序列比对来确定。确定每个基因的位置及序列后,利用Clustal X (Thompson et al, 1997)及MEGA 3.0(Kumar et al, 2004)等软件对序列信息进行分析。另外,以螽斯

图 1 短PCR扩增及测序策略

Fig. 1 Strategy for sub-PCR and sequencing of Atractomorpha sinensis

582 动物学研究 28卷

表 1 PCR扩增及直接测序引物

Tab. 1 Primers used in the amplification and direct sequencing

上游引物

Forward primer 引物序列Sequence(5′—3′)

下游引物

Reverse

primer

引物序列Sequence (5′-3′)

LPA03 CATTTATTTTGATTYTTTGGWCAYCCAGAAGT LPA06 TGATTAGCTCCACAAATTTCTGAACATTGACC

F16 TTTATTCAATGATAYCCWYT R16 ATCTAAGWGMATAWCCTACA

F03 ATTGAYGCAACACCMGGACG R04 TAGGGTCCCTGGCCGAATWA

F18 AATWCCTCAAATAKYACC R30 TATGCTTGAATTATWGCTAC

F04 AATGTTATTCGGCCWGGRAC R05 CAGTAATACGCCTCTYTTTG

F19 TTATTTATTRYWTCAGAART R20 TCAACAAARTGTCARTATCA

F21 GAATGAAATCAAGGAGYWYT R21 TTGATYWTGGTTGARKWGA

F05 AGAGAGGCGTATTACTGTTA R06 TTTRAAGGATTCTCAGGATA

F23 TCACCTCAACCAWAATCAA R07 GCACCTACTCCWGTTTCTYC

F24 CCAGCAGTAACWARAGTRGA R23 GCTTATTCTTCWGTWKYTCA

F07 ATTAATAATCTACGRCTWYS R24 ATTTTKGGKTGAGGKTAYCA

F26 GGAGCTTCAACATGAGCYTT R25 TTAAYTTTTTBWRTTTGTGA

F27 TAAACWWAWAGGGATYAA R26 GATGCAATTCTTGYWAYRTA

F28 CATTCCTAGGAGGYATAHTA R27 CCATAATAWATWCCTCGTC

F08 AGTACACATTTGCCGAGACG LPA04

AAAATWGCRTAWGCAAATARAAAATATCATTC LPA05 WACACCAGTTCATATTCAACCAGAATGATATT R11 GAAACTAATCGWACWCCWT

F33 TTATCATAWCGAAAWCGWGG R32 TGCTCAAACWATTTCTTATG

F10 GGAGTTCGRTTWGTTTCWGC R12 GATTGCGACCTCGATGTTGG

F11 GCTCACGCCGGTYTGAACTC R15 CGCCTGTTTAACAAAAACAT

F12 TTGCACAGTCAWAATACC R13 TACACATCGCCCGTCRCTCT

F29 TTTAWTTTADAGCTTATCCC R14 CGGTATTTYATTCCATTCAGAG

F30 CTGATAACGRCGRTATAYAA R28 AAAGTTTKATTCTKGCTTA

F13 GCGGCTGCTGGCACGAAA R31 GGGGTATGAACCCAWTAGC

F32 TAAAGGRTTAYYTTGATAG R01 AATCCTAGAAATGGTGGYAR

N2-J AATYAAGCTAWTRGGTTCAT N2-N ATAGGCGWTARAYTGTAAAT

F01 GGACTACCACCATTWHTWGG R02 GGGTCAAAGAATGAWGTATT

F31 GGAGGATTYGGAAATTGATTAGT R29 TACTGTAAATATATGRTGDGCTC

LPA03、LP04和LP05、LP06分别也是长片段A、B的引物 (LPA03、LP04 and LP05、LP06 are the primer pairs utilized in long-PCR)。

Ruspolia dubia(Zhou et al, 2007)和蜜蜂Apis mellifera(Gillespie et al, 2006)的lrRNA和srRNA 二级结构为基础对短额负蝗相应rRNA的二级结构进行了预测。

短额负蝗线粒体基因组序列已提交到GenBank,序列号为:EU263919。

2 结果与分析

2.1 基因组结构

本研究共测得114条可用序列,拼接后一致序列的总长度为15680b p,序列覆盖率4.24倍,除去两端重叠序列得到短额负蝗整个线粒体基因组的总长度为15558b p。

通过与非洲飞蝗全线粒体基因组的比较,确定短额负蝗线粒体基因组编码13个蛋白质基因、2个rRNA基因、22个tRNA基因及一个A+T 丰富区,A+T rich region)。基因排列顺序与非洲飞蝗一致;基因间排列也非常紧凑,除A+T丰富区外只有64b p 的基因间隔,共计11处,间隔长度从1~16bp不等;另外,有15对基因间存在碱基重叠,重叠碱基数在1~8b p之间,共计51b p。短额负蝗线粒体基因组结构如图2所示。

2.2 碱基组成及密码子使用

短额负蝗线粒体基因组序列不同区域核苷酸组成情况见表2。全序列的A+T含量为74.3%,778 bp的A+T丰富区(81.4%)、3713b p的蛋白质基因

6期丁方美等:短额负蝗线粒体基因组及其lrRNA和srRNA二级结构分析583

图 2 短额负蝗线粒体基因组结构

Fig. 2 The structure of complete mitochondrial genome of Atractomorpha sinensis

加下划线的基因在N链上编码;tRNA基因用氨基酸的单字母表示,L1、L2 和S1、S2分别表示tRNA Leu(CUN)、tRNA Leu(UUR)和tRNA Ser(AGN)、tRNA Ser(UCN);两基因间的数字表示该基因对之间的间隔(+)及重叠(-)。Those genes encoded by the N strand are underlined. The tRNA genes are designated by single letter amino acid codes; L1, L2 and S1, S2 denote the tRNA Leu(CUN), tRNA Leu(UUR)and tRNA Ser(AGN), tRNA Ser(UCN). Numbers inside the circle represent the size of the fragments separating two adjacent genes (+) or the amount of shared nucleotides between two overlapping genes (-).

第3位点(85.0%)及64bp基因间隔区(84.4%)属于高A+T丰富区,而密码子第1、2位点的A+T 含量均低于全序列平均水平。

利用MEGA3.0对短额负蝗的13个蛋白质编码基因的相对同义密码子使用频率(relative synonymous codon usage,RSCU)进行了统计(表3)。从表中我们可以看出,对于有两个同义密码子的氨基酸,第3位点为A和U的密码子使用频率较高;对于有4个同义密码子的氨基酸来说,J链编码基因偏向于使用第3位点为A的密码子,而N 链偏向于使用第3位点为U的密码子。

2.3 蛋白质编码基因

在短额负蝗的13个蛋白质编码基因中找到6种可能的起始密码子,COⅡ、ATP6、COⅢ、ND4、ND4L、ND6和Cyt b7个蛋白质基因中使用ATG 作为起始密码子;ND1和ND5以ATT作为起始密码子;ATP8、ND3和ND2基因分别以ATC、ATA、GTG作为起始密码子;COⅠ的起始密码子比较特殊,为CCG。

13个蛋白质基因中有12个基因在基因3'端能找到完全的TAA或TAG终止密码子,只有ND5基因没能找到完整的终止密码子,通过与飞蝗ND5基因的比对确定ND5基因位置无误,因此我们认为ND5基因的终止密码子为不完整的TA终止密码子。

2.4 转运RNA(tRNA)基因

通过tRNAScan-SE软件预测及与飞蝗线粒体基因组序列的比较确定了22个tRNA基因的位置(图2)及二级结构(图3)。除tRNA Ser(AGN)外,其余21个tRNA基因的二级结均属典型的三叶草结构。tRNA Ser(AGN)的DHU臂缺失,在相应的位置上只形成一个环。

2.5 核糖 RNA(rRNA)基因

短额负蝗线粒体基因组的两个rRNA基因(lrRNA和srRNA)分别位于tRNA Leu(L-CUN)和tRNA Val (V)、tRNA Val (V)和D-loop之间(图2)。两个rRNA基因的A+T含量为75.7%,高于整个基因组的平均A+T含量(74.3%),G含量(15.5%)几乎是C含量(8.8%)的两倍。

以螽斯(Zhou et al, 2007)和蜜蜂(Gillespie et al, 2006)的lrRNA和srRNA二级结构为基础对短额负蝗的二级结构进行了预测。短额负蝗lrRNA二级结构总共有6个结构域(结构域Ⅲ缺失),49个茎环结构(图4A)。srRNA的二级结构包含3个结构域,33个茎环结构。短额负蝗lrRNA和srRNA 二级结构整体与螽斯和蜜蜂基本相似,只在少数位置存在差异。

2.6 A+T丰富区

短额负蝗的A+T丰富区位于srRNA与tRNA Ile(I)之间(图2),全长778bp,A+T含量为81.4%,明显高于整个基因组的平均水平。在短额负蝗的A+T丰富区发现一段Poly(T)(T stretch),且能形成一个茎环结构(图5)。

3 讨 论

3.1 正反链不同的密码子使用偏好

在分析短额负蝗线粒体基因组两条链上编码的蛋白质密码子使用情况时发现正反链密码子的使用存在差异,即J链编码基因偏向于使用第3位点为A的密码子,而N链偏向于使用第3位点为U 的密码子(主要分析有四个同义密码子的氨基酸)。这种核苷酸组成的不对称在哺乳动物mtDNA中也存在(Reyes et al, 1998; Saccone et al, 1999)。Francino & Ochman(1997)推测在哺乳动物中N

584 动物学研究 28卷

表 2 短额负蝗线粒体基因组不同功能部位的碱基组成

Tab. 2 The base composition of different functional sites of the mitochondrial genome of Atractomorpha sinensis

基因组不同功能部位Annotated genome feature

碱基数目

Number of nucleotides

A T C G A+T

Whole genome (J strand) 15558 0.431 0.312 0.150 0.107 0.743

All

protein

genes 11139 0.317 0.419 0.132 0.133 0.736 1st codon

position 3713 0.338 0.356 0.118 0.188 0.694 2nd codon

position 0.197 0.465 0.193 0.145 0.662 3rd codon

position 0.415 0.435 0.084 0.066 0.850 J strand protein genes 6858 0.372 0.353 0.155 0.119 0.725

1st codon

position 2286 0.388 0.290 0.136 0.185 0.678 2nd codon

position 0.210 0.440 0.217 0.133 0.650 3rd codon

position 0.518 0.330 0.112 0.039 0.848 N-strand

protein

genes 4281 0.228 0.523 0.094 0.155 0.751 1st codon

position 1427 0.256 0.463 0.088 0.193 0.719 2nd codon

position 0.177 0.504 0.156 0.164 0.681 3rd codon

position 0.250 0.603 0.039 0.108 0.853 All tRNA genes 1462 0.376 0.360 0.115 0.149 0.736

tRNA

genes-J 925 0.406 0.343 0.121 0.130 0.749 tRNA

genes-N 538 0.325 0.388 0.104 0.182 0.713 rRNA

genes-N 2130 0.300 0.457 0.088 0.155 0.757 A+T rich region (J strand) 778 0.423 0.391 0.100 0.086 0.814

Non-coding

nucleotides 64 0.500 0.344 0.109 0.047 0.844

链因复制滞后而使核苷酸被暴露的时间较多,使得C脱去氨基变为U的几率增加,从而导致N链上的T偏向性。通过电镜及限制性图谱技术研究果蝇线粒体基因组的复制模式表明复制是极度不对称的即当J链复制完成99%以上时,N链才开始复制(Goddard & Wolstenholme, 1980)。这样的复制模式使得N链上积累了更多的碱基替换,因而呈现极度的碱基偏向性(Reyes et al, 1998)。

3.2 COⅠ起始密码子

根据飞洲飞蝗及其它昆虫的COⅠ序列确定了短额负蝗COⅠ的准确位置,推测COⅠ基因起始密码子为CCG。很多研究表明节肢动物的起始密码子比较特殊,除典型的三联体密码子外还推测了四联体(ATAA、TTAA、ATTA)(Wilson et al, 2000)和六联体(ATTTAA)(Beard et al, 1993)等作为起始密码子,直翅目的非洲飞蝗中也推测以ATTA作为起始密码子(Flook et al, 1995),但这种推测目前还未得到实验证明。也有学者在有些物种中将非典型的三联体密码子作为起始密码子,Krzywinski et al(2003)根据按蚊(Anopheles funestus)cDNA序列确定CO I转录本5'端以TCG作为起始密码子,因此在这里我们推测CCG作为COⅠ的起始密码子,事实是否如此还有待实验的进一步证明。3.3 rRNA二级结构

预测的短额负蝗的lrRNA二级结构与螽斯(Zhou et al, 2007)和蜜蜂(Gillespie et al, 2006)相比有3处存在差异(a-c)(图4):a位于结构域Ⅰ,b 位于结构域Ⅱ,c位于结构域Ⅳ。a和b两处较螽斯和蜜蜂lrRNA中相应位置额外多出5个茎环结构(H-1、H-2、H-3、H-4和H20);c处在短额负蝗

图 5 A+T丰富区Poly(T)及附近序列所形成的茎环结构Fig. 5 Stem-loop structure found at the T stretch in the A+T rich region of Atractomorpha sinensis

6期丁方美等:短额负蝗线粒体基因组及其lrRNA和srRNA二级结构分析585

图 3 短额负蝗22个tRNA基因二级结构预测

Fig. 3 Inferred secondary structure of 22 tRNAs of Atractomorpha sinensis

tRNA基因用相应的氨基酸缩写命名。直线表示标准的AT、CG配对,*表示GU配对。

The tRNAs are labeled with the abbreviations of their corresponding amino acids. Dashes indicating Watson-Crick base pairing and

centered asterisks (*) indicating GU base pairing.

586 动物学研究 28卷

图 4 短额负蝗rRNA(lrRNA和srRNA)二级结构预测结果

Fig. 4 The secondary structure of rRNA (lrRNA and srRNA)of Atractomorpha sinensis A:lrRNA;B:srRNA。画框部分表示短额负蝗与螽斯之间存在差异的地方。

A:lrRNA; B:srRNA. The differences between our structure and previously published Ruspolia dubia structure (Zhou et al, 2007) are within boxes.

6期丁方美等:短额负蝗线粒体基因组及其lrRNA和srRNA二级结构分析587

表 3 短额负蝗线粒体基因组蛋白质基因同义密码子使用情况

Tab. 3 The codon usage of Atractomorpha sinensis mitochondrial genome

a c All J N a c All J N

F UUU 278.0(1.54) 108.0(1.23) 170.0(1.84)

Y

UAU 140.0(1.61) 56.0(1.40) 84.0(1.79) UUC 83.0(0.46) 68.0(0.77) 15.0(0.16) UAC 34.0(0.39) 24.0(0.60) 10.0(0.21)

L UUA 337.0(3.88) 186.0(4.07) 151.0(3.67)

*

UAA 0.0(0.00) 0.0(0.00) 0.0(0.00) UUG 63.0(0.73) 5.0(0.11) 58.0(1.41) UAG 0.0(0.00) 0.0(0.00) 0.0(0.00)

L CUU 53.0(0.61) 26.0(0.57) 27.0(0.66)

H

CAU 49.0(1.46) 34.0(1.33) 15.0(1.88) CUC 7.0(0.08) 3.0(0.07) 4.0(0.10) CAC 18.0(0.54) 17.0(0.67) 1.0(0.13) CUA 57.0(0.66) 51.0(1.12) 6.0(0.15)

Q

CAA 58.0(1.78) 47.0(1.84) 11.0(1.57) CUG 4.0(0.05) 3.0(0.07) 1.0(0.02) CAG 7.0(0.22) 4.0(0.16) 3.0(0.43)

I AUU 323.0(1.66) 203.0(1.57) 120.0(1.85)

N

AAU 137.0(1.55) 85.0(1.37) 52.0(1.96) AUC 66.0(0.34) 56.0(0.43) 10.0(0.15) AAC 40.0(0.45) 39.0(0.63) 1.0(0.04)

M AUA 229.0(1.70) 188.0(1.87) 41.0(1.19)

K

AAA 84.0(1.71) 73.0(1.90) 11.0(1.05) AUG 41.0(0.30) 13.0(0.13) 28.0(0.81) AAG 14.0(0.29) 4.0(0.10) 10.0(0.95)

V GUU 97.0(2.11) 28.0(1.17) 69.0(3.14)

D

GAU 68.0(1.84) 39.0(1.77) 29.0(1.93) GUC 7.0(0.15) 7.0(0.29) 0.0(0.00) GAC 6.0(0.16) 5.0(0.23) 1.0(0.07) GUA 70.0(1.52) 54.0(2.25) 16.0(0.73)

E

GAA 65.0(1.69) 50.0(1.89) 15.0(1.25) GUG 10.0(0.22) 7.0(0.29) 3.0(0.14) GAG 12.0(0.31) 3.0(0.11) 9.0(0.75)

S UCU 111.0(2.42) 23.0(0.91) 88.0(4.27)

C

UGU 43.0(1.87) 11.0(1.83) 32.0(1.88) UCC 6.0(0.13) 4.0(0.16) 2.0(0.10) UGC 3.0(0.13) 1.0(0.17) 2.0(0.12) UCA 120.0(2.62) 104.0(4.12) 16.0(0.78)

W

UGA 81.0(1.64) 63.0(1.85) 18.0(1.16) UCG 6.0(0.13) 5.0(0.20) 1.0(0.05) UGG 18.0(0.36) 5.0(0.15) 13.0(0.84)

S AGU 27.0(0.59) 9.0(0.36) 18.0(0.87)

R

CGU 20.0(1.45) 6.0(0.73) 14.0(2.55) AGC 3.0(0.07) 2.0(0.08) 1.0(0.05) CGC 0.0(0.00) 0.0(0.00) 0.0(0.00) AGA 87.0(1.90) 54.0(2.14) 33.0(1.60) CGA 29.0(2.11) 24.0(2.91) 5.0(0.91) AGG 7.0(0.15) 1.0(0.04) 6.0(0.29) CGG 6.0(0.44) 3.0(0.36) 3.0(0.55)

T ACU 54.0(1.10) 29.0(0.72) 25.0(2.86)

P

CCU 64.0(1.97) 36.0(1.53) 28.0(3.11) ACC 12.0(0.24) 11.0(0.27) 1.0(0.11) CCC 10.0(0.31) 8.0(0.34) 2.0(0.22) ACA 123.0(2.51) 114.0(2.83) 9.0(1.03) CCA 48.0(1.48) 43.0(1.83) 5.0(0.56) ACG 7.0(0.14) 7.0(0.17) 0.0(0.00) CCG 8.0(0.25) 7.0(0.30) 1.0(0.11)

A GCU 66.0(1.78) 30.0(1.15) 36.0(3.27)

G

GGU 86.0(1.60) 32.0(1.02) 54.0(2.43) GCC 13.0(0.35) 11.0(0.42) 2.0(0.18) GGC 4.0(0.07) 1.0(0.03) 3.0(0.13) GCA 66.0(1.78) 61.0(2.35) 5.0(0.45) GGA 87.0(1.62) 72.0(2.29) 15.0(0.67) GCG 3.0(0.08) 2.0(0.08) 1.0(0.09) GGG 38.0(0.71) 21.0(0.67) 17.0(0.76)

a:氨基酸;c:编码相应氨基酸的密码子; All:所有蛋白质;J:J链编码的蛋白质;N:N链编码的蛋白质;*:终止密码。a: Amino Acid; c: Codon; All: 13PCGs; J: PCGs encoded by H strand; N: PCGs encoded by L strand; *: Stop codon.

中总共有4个茎环结构,与报道的另二种昆虫接近(Buckley et al, 2000; Misof et al, 2003),而在蜜蜂相应位置有3个茎环结构,在螽斯中此处只有2个茎环结构。

与R. dubia相比srRNA有2处存在局部变异(a、b)(图4B)。a位于结构域Ⅰ,包含2个额外的茎环结构(H-1和H-2);b位于结构域Ⅲ,缺少一个茎环结构,此结果与蜜蜂的相似(Gillespie et al, 2006)。

3.4 A+T丰富区

588 动物学研究 28卷

在短额负蝗的A+T丰富区发现的Poly(T)在直翅目及双翅目中普遍存在的,也许是复制及转录的起始位置(Zhang et al, 1995;Cha et al, 2007)。Saito et al(2005)在Locusta migratoria,Schistocerca gregaria和Centropomus parallelus的相应位置也发现图5所示的类似茎环结构,并推测此结构与复制及转录起始密切相关。

参考文献:

Ballard JWO. 2000. Comparative genomics of mitochondrial DNA in members of the Drosophila melanogaster subgroup [J]. J Mol Evol, 51: 48-63.

Beard CB, Hamm DM, Collins FH. 1993. The mitochondrial genome of the mosquito Anopheles gambiae, DNA sequence, genome organization, and comparisons with mitochondrial sequences of other insects [J].

Insect Mol Biol, 2(2): 103-124.

Bonfield JK, Smith KF, Staden R. 1995. A new DNA sequence assembly program [J]. Nucleic Acids Res, 24: 4992-4999.

Buckley TR, Simon C, Flookand PK, Misof B. 2000. Secondary structure and conserved motifs of the frequently sequenced domains IV and V of the insect mitochondrial large subunit rRNA gene [J]. Insect Mol Biol,

9 (6): 565-580.

Cameron SL, Miller K, D’Haese CA, Whiting MF, Barker SC. 2004.

Mitochondrial genome data alone are not enough to unambiguously resolve the relationships of Entognatha, Insecta and Crustacea sensu lato (Arthropoda)[J]. Cladistics, 20: 534-557.

Cha SY, Yoon HJ, Lee EM, Yoon MH, Hwang JS, Jin BR, Han YS, Kim I.

2007. The complete nucleotide sequence and gene organization of the mitochondrial genome of the bumblebee, Bombus ignitus (Hymenoptera: Apidae)[J]. Gene, 392: 206-220.

Flook PK, Rowell CH, Gellissen G. 1995. The sequence, organization, and evolution of the Locusta migratoria mitochondrial genome [J]. J Mol Evol,41: 928-941.

Francino MP, Ochman H, 1997. Strand asymmetries in DNA evolution [J].

Trends Genet, 13(6): 240-245.

Gillespie JJ, Johnston JS, Cannone JJ, Gutell RR. 2006. Characteristics of the nuclear (18S, 5.8S, 28S and 5S) and mitochondrial(12S and 16S) rRNA genes of Apis mellifera(Insect: Hymenoptera): structure, organization, and retrotransposable elements [J]. Insect Mol Biol, 15: 657– 686.

Goddard JM, Wolstenholme DR. 1980. Origin and direction of replication in mitochondrial DNA molecules from the genus Drosophila[J]. Nucleic Acids Res, 8(4): 741-757.

Kim I, Cha SY, Yoon MH, Hwang JS, Lee SM, Sohn HD, Jin BR. 2005. The complete nucleotide sequence and gene organization of the mitochondrial genome of the oriental mole cricket, Gryllotalpa orientalis (Orthoptera: Gryllotalpidae)[J]. Gene, 353: 155-168.

Kumar S, Tamura K, Nei M. 2004. MEGA3: integrated software for molecular evolutionary genetics analysis and sequence alignment[J].

Brief Bioinform, 5 : 150-163.

Krzywinski J, Wilkerson NJ, 2003. Molecular systematics of Anopheles: from subgenera to subpopulations[J]. Annu Rev Entomol, 48: 111-139. Liu N, Hu J, Huang Y. 2006. Amplification of grasshoppers complete mitochondrial genomes using long PCR[J]. Chin J Zool, 41: 61-65.[刘

念,胡靖,黄原. 2006. 应用长PCR扩增蝗虫线粒体全基因组.

动物学杂志, 41:61-65.]

Lowe TM, Eddy, SR. 1997. tRNAscan-SE: a program for improved detection of transfer RNA genes in genomeic sequence[J]. Nucleic Acids Res, 25: 955-964.

Misof B, Fleck G. 2003. Comparative analysis of mt LSU rRNA secondary structures of Odonates: structural variability and phylogenetic signal [J].

Insect Mol Biol, 12 (6): 535-547.

Nardi F, Carapelli A, Dallai R, Frati F. 2003. The mitochondrial genome of the olive fly Bactrocera oleae: two haplotypes from distant geographical locations[J]. Insect Mol Biol, 12: 605-611.

Reyes A, Gissi C, Pesole G, Saccone C. 1998. Asymmetrical directional mutation pressure in the mitochondrial genome of mammals[J]. Mol Biol Evol, 15( 8): 957-966.

Saccone C, De Giorgi C, Gissi C, Pesole G, Reyes A. 1999. Evolutionary genomics in Metazoa: the mitochondrial DNA as a model system[J].

Gene, 238(1): 195-209.

Saito S, Tamura K, Aotsuka T. 2005. Replication origin of mitochondrial DNA in insects[J]. Genetics, 171: 1695-1705.

Shadel GS, Clayton DA, 1993. Mitochondrial transcription initiation: variation and conservation[J]. J Biol Chem, 268: 16083-16086.

Simon C, Frati F, Bekenbach A, Crespi B, Liu H, Flook P. 1994. Evolution, weighting, and phylogenetic utility of mitochondrial gene sequences and a compilation of conserved polymerase chain reaction primers [J].

Ann Entomol Soc Am, 87: 651-701.

Simon C, Buckley TR, Frati F, Stewart JB, Beckenbach AT. 2006.

Incorporating molecular evolution into phylogenetic analysis, and a new compilation of conserved polymerase chain reaction primers for animal mitochondrial DNA [J]. Ann Rev Ecol Evol Syst, 37: 545-579. Thompson JD, Gibson TJ, Plewniak F, Jeanmougin F, Higgins DG. 1997.

The CLUSTAL_X window interface: flexible strategies for multiple sequence alignment aided by quality analysis tools [J]. Nucleic Acids Res, 25: 4876-4882.

Wilson K, Cahill V, Ballment E, Benzie J. 2000. The complete sequence of the mitochondrial genome of the crustacean Penaeus mondon: are malacostracan crustaceans more closely related to insects than to branchiopods? [J]. J Mol Evol, 17: 863-874.

Wolstenholme DR, 1992. Animal mitochondrial DNA: structure and evolution[J]. Int Rev Cyt, 141: 173-216.

Zhang DX, Szymura JM, Hewitt GM. 1995. Evolution and structure conservation of the contral region of insect mitochondrial DNA [J]. J Mol Evol, 40: 382-391.

Zhou ZJ, Huang Y, Shi FM. 2007. The mitochondrial genome of the Ruspolia dubia (Orthoptera: Conocephalidae): a short A+T-rich region with 70bp in length [J]. Genome, 50(9): 855-866.

人类线粒体基因组与疾病

人类线粒体基因组与疾病 1、线粒体基因及基因组介绍 人类线粒体DNA(mtDNA),共包含37个基因,这37个基因中有22个编码转移核糖核酸(tRNA)、2个编码核糖体核糖核酸(12S和16S rRNA),13个编码多肽。 2、线粒体基因及基因组分析的现状和临床意义 对于可疑线粒体病的患者来说,理想的遗传学诊断方法是发现导致线粒体结构和功能缺陷的相关基因突变。这些基因突变可能在mtDNA上,也可能发生在核基因上,线粒体的遗传方式可能为常染色体隐形遗传、X-连锁遗传、母系遗传,有些还是新突变。由于线粒体病涉及基因众多,目前临床只能选择少数常见的线粒体基因位点进行突变和缺失筛查,阳性率很低,大多数患者难以获得准确的病因诊断。 3、线粒体基因及基因组分析测定 (1)13个编码多肽的基因 编码产物基因分 析 基因变异对应的常见线粒体病种 类 NADH dehydrogenase (complex I)MT-ND1Leber遗传性视神经病 MT-ND2心肌线粒体病,Leber遗传性视神经病 MT-ND3进肌阵挛,癫痫,视神经萎缩MT-ND4 Leber遗传性视神经病,线粒体肌 病,Leber遗传性视神经病,张力 障碍 MT-

ND4L Leber遗传性视神经病 MT-ND5Leigh综合征,线粒体脑肌病伴乳酸中毒及中风样发作综合症 MT-ND6Leber遗传性视神经病,线粒体脑肌病伴乳酸中毒及中风样发作综合症,糖尿病,肌张力障碍 coenzyme Q-cytochrome c reductase/Cytochrome b(complex III)MT-Cytb 慢性游走性红斑,Leber遗传性视 神经病,线粒体肌病,心肌线粒 体病,线粒体脑肌病伴乳酸中毒 及中风样发作综合症,帕金森病 cytochrome c oxidase(complex IV)MT- COX1 肌红蛋白尿运动神经元疾病,铁 粒幼细胞贫血 MT- COX2 线粒体肌病,线粒体多系统疾 病,线粒体脑肌病 MT- COX3 Leigh综合征,慢性游走性红斑, 骨骼肌溶解症 ATP synthase MT- ATP6 共济失调并发色素性视网膜炎, 母系遗传Leigh综合征,家族性双 侧纹状体坏死 MT- ATP8 共济失调并发色素性视网膜炎, 母系遗传Leigh综合征,家族性双 侧纹状体坏死 (2)22个编码tRNA的基因 Alanine MT-TA进行性眼外肌麻痹Arginine MT-TR

线粒体DNA的结构和功能特征

第一节 线粒体DNA的结构和功能特征 一、mtDNA的结构特征 mtDNA是惟一存在于人类细胞质中的DNA分子,独立于细胞核染色体外的基因组,具有自我复制、转录和编码功能。人mtDNA由16 569bp组成,双链闭合环状,其中外环DNA单链由于含G较多,C较少,使整个外环DNA分子量较大,称为重链(heavy chain)或H链;而内环DNA单链则C含量高,G含量低,故分子量小,称为轻链(light chain)或L链。mtDNA的两条链都有编码功能,除与复制及转录有关的一小段D环区(displacement loop)无编码基因外,基因间无内含子序列;部分基因有重叠现象,即前一个基因的最后一段碱基与下一个基因的第一段碱基相重叠(图6-1)。因此,mtDNA的任何突变都会累及到基因组中的一个重要功能区域。mtDNA含有37个基因,其中两个rRNA基因 (16SrRNA,12SrRNA),22个tRNA基因,13个蛋白质基因(包括1个细胞色素b基因,2个ATP酶亚单位的基因。 图6-1 人线粒体基因图谱 Figure 6-1 Map of the human mitochondrial genome Box 6.1 The limited autonomy of the mitochondrial genome  Encoded by Encoded by  Mitochondrial nuclear

genome genome Components of oxidative phosphorylation system Ⅰ NADH dehydrogenase Ⅱ Succinate CoQ reductase Ⅲ Cytochrome b-c1 complex Ⅳ Cytochrome c oxidase complex Ⅴ ATP synthase complex Components of protein synthesis apparatus tRNA components rRNA components Ribosomal proteins Other mitochondrial proteins 13 subunits 7 subunits 0 subunits 1 subunits 3 subunits 2 subunits 24 22 tRNAs 2 rRNAs None None >80 subunits >41 subunits 4subunits 10 subunits 10 subunits 14 subunits ~80 None None ~80 All, e.g. mitochondrial enzymes and proteins 和7个呼吸链脱氢酶亚单位的基因)。位于D环区的HSP(heavy strand promoter)和LSP(light strand promoter)是线粒体基因组转录的两个主要启动子(图6-1)。 mtDNA是裸露的,不与组蛋白结合,存在于线粒体基质内或黏附于线粒体内膜。在一个线粒体内往往有一至数个mtDNA(图6-2)。mtDNA的自我复制也是以半保留复制方式进行。复制先从重链开始,形成一个约680个碱基的7sDNA,称D环。在对鼠细胞研究中发现,大多数的mtDNA均为D环的结构,只有一小部分mtDNA从D环开始合成完整的新生链。轻链的复制要晚于重链,等重链合成过OL之后才开始合成。研究发现mtDNA 的复制可以越过静止期或间期,甚至可以分布在细胞整个周期。mtDNA 的自我转录很似原核生物,即产生一个多顺反子,其中包括多个mRNA和散布于其中的tRNA,剪切位置往往发生在tRNA处,从而使不同的mRNA和tRNA被分离和释放。

线粒体的结构与功能.

线粒体的结构与功能 生命科学与食品工程系,050601030, 易永洁 摘要:线粒体是细胞质中重要的细胞器之一,普遍存在于真核细胞中。它是生物氧化和能量转换的主要场所,以氧化磷酸化(OXPHOS)方式将食物内蕴藏的能量转变为可被机体直接利用的ATP高能磷酸键。细胞生命活动所需能量的80%来源于线粒体,因此线粒体在细胞的生长代谢和人类的遗传中都有重要的作用。 关键词:线粒体;;结构;功能;遗传病;mtDNA 自1890年Altaman首次发现线粒体以来,生物学家就一直以极大的热情给予关注,到目前为止,其结构和功能方面的研究已经越来越深入明了。 1线粒体的结构 1.1外膜(out membrane) 含40%的脂类和60%的蛋白质,具有孔蛋白(porin)构成的亲水通道,允许分子量为5KD以下的分子通过,1KD以下的分子可自由通过。标志酶为单胺氧化酶。 1.2内膜(inner membrane) 含100种以上的多肽,蛋白质和脂类的比例高于3:1。心磷脂含量高(达20%)、缺乏胆固醇,类似于细菌。通透性很低,仅允许不带电荷的小分子物质通过,大分子和离子通过内膜时需要特殊的转运系统。如:丙酮酸和焦磷酸是利用H+梯度协同运输。 线粒体氧化磷酸化的电子传递链位于内膜,因此从能量转换角度来说,内膜起主要的作用。内膜的标志酶为细胞色素C氧化酶。 内膜向线粒体基质褶入形成嵴(cristae),嵴能显著扩大内膜表面积(达5~10倍),嵴有两种类型:①板层状、②管状,但多呈板层状。 1.3膜间隙(intermembrane space) 是内外膜之间的腔隙,延伸至嵴的轴心部,腔隙宽约6-8nm。由于外膜具有大量亲水孔道与细胞质相通,因此膜间隙的pH值与细胞质的相似。标志酶为腺苷酸激酶。 1.4基质(matrix) 为内膜和嵴包围的空间。除糖酵解在细胞质中进行外,其他的生物氧化过程都在线粒体中进行。催化三羧酸循环,脂肪酸和丙酮酸氧化的酶类均位于基质中,其标志酶为苹果酸脱氢酶。

线粒体结构与功能

线粒体 (mitochondria) 线粒体的研究历史 1890: R.Altman(亚特曼)在动物细胞中首次发现线粒体,命名为生命小体(bioblast)。 1897: Von Benda 命名为线粒体(Mitochondrion) 1900:L.Michaelis(米凯利斯) 用詹姆斯绿B对线粒体进行活体染色,发现线粒体存在大量的细胞色素氧 化酶系。 1913:Engelhardt(恩格尔哈特)证明细胞内ATP磷酸化与细胞内氧消耗相偶联。 1943-1950:Kennedy等证明糖最终氧化场所在线粒体。1952-1953:Palade(帕拉登)等用电镜观察线粒体的形 态结构。 1976:Hatefi等纯化呼吸链四个独立的复合体。

1961-1980:Mitchell(米切尔)氧化磷酸化的化学渗透 假说。 1963年:Nass首次发现线粒体存在DNA。 Contents 线粒体的形态结构 线粒体的化学组成及酶的定位 线粒体的功能 线粒体的半自主性 线粒体的生物发生(自学) 第一节线粒体的形态结构 一、光镜下线粒体形态、大小、数量及分布 (一)形态、大小 光镜下常见线粒体呈线状和颗粒状,也可呈环形、哑铃形、分枝状等,随细胞生理状况而变。 一般直径0.5~1.0μm,长1.5~3.0μm。不同细胞线粒体大小变动很大,大鼠肝细胞线粒体长5μm; 胰腺外分泌细胞线粒体长10~20μm,人成纤维细胞线粒体长40μm。 线粒体形态、大小因细胞种类和生理状况不同而异。 光镜下:线状、杆状、粒状 二)数量 依细胞类型而异,动物细胞一般数百到数千个。

利什曼原虫:一个巨大的线粒体; 海胆卵母细胞:30多万个。 随细胞生理功能及生理状态变化 需能细胞:线粒体数目多,如哺乳动物心肌、小 肠、肝等内脏细胞; 飞翔鸟类胸肌细胞:线粒体数目比不飞翔鸟多; 运动员肌细胞:线粒体数目比不常运动人的多。 (三)分布 分布: 不均,细胞代谢旺盛的需能部位比较集中。 肌细胞: 线粒体沿肌原纤维规则排列; 精子细胞: 线粒体集中在鞭毛中区; 分泌细胞:线粒体聚集在分泌物合成的区域; 肾细胞:线粒体靠近微血管,呈平行或栅状列。 线粒体的分布多集中在细胞的需能部位,有利 于细胞需能部位的能量供应。 二、线粒体的亚微结构 (一) 外膜Outer membrane 包围在线粒体外表面的一层单位膜,厚6-7nm,平整、光滑,封闭成囊。 外膜含运输蛋白(通道蛋白),形态上为排列 整齐的筒状小体,中央有孔,孔径1-3nm,允许分 子量1KD以内的物质自由通过,构成外膜的亲水通道。

DNA结构分析

基因结构分析 摘要:本文综述了基因的研究背景,并且用X射线衍射技术观察了DNA的双螺旋结构,原子力显微镜观察了pBR322DNA的拓扑结构,电子显微镜观察DNA,扫描隧道显微镜观察了DNA的变异结构,以及用透射电镜观察DNA的转录。 关键词:DNA X射线衍射原子力显微镜电子显微镜 1 研究背景 1869 年瑞士化学家米歇尔(Friedrich Miescher)在细胞核中发现了一种含有磷酸的奇特的物质,他把这种物质称为“核质”(nuclein),后来改名为核酸(nucleic acid)。1880年德国生化学家科塞尔(Albrecht Kossel)开始了对核酸的生化分析,到19 世纪末叶已从DNA中分离出4 种碱基,它们是腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶。1927年李()从DNA中分离出脱氧核糖。到20世纪30年代已经确定了DNA的化学组成,它由4个称为核苷酸的基本单位组成,每种核苷酸又是由3 种基本的亚单位,1个碱基,1个脱氧戊糖和1个磷酸基团组成[1]。 1950 年查伽夫(Erwin Chargaff )发现DNA中嘌呤类两个碱基之比例和嘧啶类两个碱基之比例随生物种类不同而大有不同. 他又发现嘌呤类之总量和嘧啶类之总量相等,其中腺嘌呤之量等于胸腺嘧啶之量,鸟嘌呤之量等于胞嘧啶之量[1]。 1952 年赫尔希(. Hershey )和蔡斯(Martha Chase)利用放射性示踪物质对噬菌体侵染过程中分子事件的确切研究,表明了只有DNA(而没有蛋白质)参与了噬菌体颗粒复制的生化过程,说明DNA是遗传物质[2]。 DNA 分子是由许多核苷酸分子连接而成的长链分子,在DNA 中核苷酸是通过磷酸基团连接起来的(如图1所示)。每一个核苷酸的脱氧核糖与另一个核苷酸的磷酸基连接在一起,形成糖-磷酸基骨架,构成了DNA 的主链,这条主链决定了DNA分子的长度。 虽然糖-磷酸基主链是很有规则的,其结构单元是彼此相同的,但它不是作

线粒体教学设计

精品文档 线粒体、叶绿体的结构和功能 1.学生自学看书并思考讨论,然后进行交流。 2.学生交流后进行归纳。 问题1 :什么是线粒体?什么是叶绿体? 【活动步骤】 师生共同讨论复习归纳线粒体和叶绿体的形态、结构及功能的知识。 1、线粒体的概念、结构和功能 线粒体,有氧呼吸产生能量的主要场所。植物细胞的能量转换器是叶绿体和线粒体线粒体能将细胞中的一些有机物当燃料,使这些与氧结合,经过复杂的过程,转变为二氧化碳和水,同时将有机物中的化学能释放出来,供细胞利用由于线粒体的作用,生物组织内有机物能在氧的参与下转变成无机物,如二氧化碳和水,并为生物组织和细胞提供进行生命活动所需的能量或 ATPo线粒体主要由蛋白质和脂类组成,其中蛋白质占线粒体干重的一半以 上。此外还有少量的DNA RNA辅酶等。线粒体含有许多种酶类,其中有的酶是线粒体某一结构特有的(标记酶), 比如线粒体外膜的标记酶为单胺氧化酶,内膜为细胞色素氧化酶,膜间隙为腺苷酸激酶,线粒体基质的为苹果酸脱氢酶。在大多数情况下,线粒体呈圆形、近似圆形、棒状或线状。 2、显微镜下面的线粒体 在电子显微镜下,线粒体为内外两层单位膜构成的封闭的囊状结构。可分为四个部分:外膜为一个单位膜,膜中蛋白质与脂类含量几乎均等。物质通透性较高。内膜也是一个单位膜,膜蛋白质含量高,占整个膜的80%左右。内膜对物质有高度地选择通透性。部分内膜向线粒体腔内突出形成嵴。同时内膜内表面排列着一些颗粒状的结构, 称为基粒。基粒包括三个部分:头部(F1因子,为水溶性蛋白质,具有ATP酶活性)、腹部(F?0因子,由疏水性 蛋白质组成)、柄部(位于F1与F0之间)。 3、叶绿体的概念、结构和功能 叶绿体主要在绿色植物的叶肉细胞中扁平的椭球形或球形双层膜、基粒、基质绿色植物进行光合作用的场所 然后分析:线粒体和叶绿体都有外膜、内膜、基质等,但名称虽相同,其组成或结构有差别。它们在组成、结构和功能上相同之处主要表现在:①都是有少量DNA和RNA②都有双层膜结构;③都与细胞内的能量转换有关。 不同之处主要表现在:①叶绿体含有多种色素,线粒体则没有;②增大膜面积的方式不同:线粒体通过内膜折叠 成嵴而增大膜面积,叶绿体通过片层结构重叠成的基粒来增大膜面积;③线粒体是细胞进行有氧呼吸的主要场所,

基因组注释

基因组注释主要包括四个研究方向:重复序列的识别;非编码RNA的预测;基因结构预测和基因功能注释。我们将分别对这四个领域进行阐述。 1:重复序列的识别。 重复序列的研究背景和意义:重复序列可分为串联重复序列(Tendam repeat)和散在重复序列(Interpersed repeat)两大类。其中串联重复序列包括有微卫星序列,小卫星序列等等;散在重复序列又称转座子元件,包括以DNA-DNA方式转座的DNA转座子和反转录转座子(retrotransposon)。常见的反转录转座子类别有LTR,LINE和SINE等。 重复序列识别的发展现状:目前,识别重复序列和转座子的方法为序列比对和从头预测两类。序列比对方法一般采用Repeatmasker软件,识别与已知重复序列相似的序列,并对其进行分类。常用Repbase重复序列数据库。从头预测方法则是利用重复序列或转座子自身的序列或结构特征构建从头预测算法或软件对序列进行识别。从头预测方法的优点在于能够根据转座子元件自身的结构特征进行预测,不依赖于已有的转座子数据库,能够发现未知的转座子元件。常见的从头预测方法有Recon,Piler,Repeatscout,LTR-finder,ReAS等等。 重复序列识别的研究内容:获得组装好的基因组序列后,我们首先预测基因组中的重复序列和转座子元件。一方面,我们采用RepeatScout、LTR-finder、Tendem Repeat Finder、Repeatmoderler、Piler等从头预测软件预测重复序列。为了获得从头预测方法得到的重复序列的类别信息,我们把这些序列与Repbase数据库比对,将能够归类的重复序列进行分类。另一方面,我们利用Repeatmasker 识别与已知重复序列相似的重复序列或蛋白质序列。通过构建Repbase数据库在DNA水平和蛋白质水平的重复序列,Repeatmasker能够分别识别在DNA水平和蛋白质水平重复的序列,提高了识别率。 重复序列识别的关键技术难点: 1):第二代测序技术测基因组,有成本低、速度快等优点。但是由于目前产生的读长(reads)较短。由于基因组序列采用kmer算法进行组装,高度相似的重复序列可能会被压缩到一起,影响对后续的重复序列识别。 2):某些高度重复的序列用现有的组装方法难以组装出来,成为未组装reads (unassembled reads)。有必要同时分析未组装reads以得到更为完整的重复序列分布图。之前,华大已开发了ReAS软件,专门用于识别未组装reads中

基因组学的研究内容

基因组学的研究内容 结构基因组学: 基因定位;基因组作图;测定核苷酸序列 功能基因组学:又称后基因组学(postgenomics基因的识别、鉴定、克隆;基因结构、功能及其相互关系;基因表达调控的研究 蛋白质组学: 鉴定蛋白质的产生过程、结构、功能和相互作用方式 遗传图谱 (genetic map)采用遗传分析的方法将基因或其它dNA序列标定在染色体上构建连锁图。 遗传标记: 有可以识别的标记,才能确定目标的方位及彼此之间的相对位置。 构建遗传图谱 就是寻找基因组不同位置上的特征标记。包括: 形态标记; 细胞学标记; 生化标记;DNA 分子标记 所有的标记都必须具有多态性!所有多态性都是基因突变的结果! 形态标记: 形态性状:株高、颜色、白化症等,又称表型标记。 数量少,很多突变是致死的,受环境、生育期等因素的影响 控制性状的其实是基因,所以形态标记实质上就是基因标记。

细胞学标记 明确显示遗传多态性的染色体结构特征和数量特征 :染色体的核型、染色体的带型、染色 体的结构变异、染色体的数目变异。优点:不受环境影响。缺点:数量少、费力、费时、对生物体的生长发育不利 生化标记 又称蛋白质标记 就是利用蛋白质的多态性作为遗传标记。 如:同工酶、贮藏蛋白 优点: 数量较多,受环境影响小 ?

缺点: 受发育时间的影响、有组织特异性、只反映基因编码区的信息 DNA 分子标记: 简称分子标记以 DNA 序列的多态性作为遗传标记 优点: ? 不受时间和环境的限制 ? 遍布整个基因组,数量无限 ?

不影响性状表达 ? 自然存在的变异丰富,多态性好 ? 共显性,能鉴别纯合体和杂合体 限制性片段长度多态性(restriction fragment length polymorphism , RFLP ) DNA 序列能或不能被某一酶酶切,

11个石蛃样本的线粒体基因组研究

11个石蛃样本的线粒体基因组研究 石炳目在昆虫纲的系统发生关系分析中处于基部,是最早分支出来的原始类群,是一种不被人们熟知的无翅类昆虫。目前,关于石蛃目的系统发生地位及单系性已经得到普遍证实,但是关于石蛃目昆虫内部各科、各亚科、各属之间的系统 发生关系及系统地理研究一直存在着争议,有待更多的分子数据对其进行深入的研究。 因此本研究是在本实验室原有研究的基础上通过增加石蛃目昆虫样本数量,对其内部系统发生关系进行更深入地研究并对中国石蛃目昆虫的扩散机制进行 初步探讨。本研究包括石蛃目昆虫中的2亚科4属的11个样本,分别是:石蛃亚科(Machilinae)中的辽宁弓长岭的高丽韩蛃Coreamachiliscoreanus、山西衡山的高丽韩蛃 Coreamachiliscoreanu、新疆喀纳斯异蛃 Allopsontus(Allopsontinus)kanasiensis、新疆新源异蛃 Allopsontus(Allopsontinus)xinyuanensis、新疆玛纳斯希蛃Silvestrichilis manasiensis;新蛃亚科(Petrobiinae)中的河北承德的希氏跳蛃Pedetontus silvstri、辽宁凤城的希氏跳蛃Pedetontussilvestri、太姥山跳蛃Pedetontustaimushanensis、霸王岭跳蛃Pedetontusbawanglingensis、大陈岛跳蛃Pedetontus dachendaoensis、重庆跳蛃Pedetontus chongqingensis。 11个石蛃样本的线粒体基因组信息全部成功获得,其基因组的长度分别是:高丽韩蛃(弓长岭)Coreamachilis coreanus 15579 bp、高丽韩蛃(衡 山)Coreamachilis coreanus 15574 bp、喀纳斯异蛃 Allopsontus(Allopsontinus)kanasiensis 15628 bp、新源异蛃 Allopsontus(Allopsontinus)xinyuanensis 15518 bp、玛纳斯希蛃

线粒体-1

线粒体 线粒体(mitochondrion)[1]是一种存在于大多数细胞中的由两层膜包被的细胞器,是细胞中制造能量的结构,是细胞进行有氧呼吸的主要场所,被称为“power house”。其直径在0.5到10微米左右。 除了溶组织内阿米巴、篮氏贾第鞭毛虫以及几种微孢子虫外,大多数真核细胞或多或少都拥有线粒体,但它们各自拥有的线粒体在大小、数量及外观等方面上都有所不同。 线粒体拥有自身的遗传物质和遗传体系,但其基因组大小有限,是一种半自主细胞器。除了为细胞供能外,线粒体还参与诸如细胞分化、细胞信息传递和细胞凋亡等过程,并拥有调控细胞生长和细胞周期的能力。 大小 线粒体是一些大小不一的球状、棒状或细丝状颗粒,一般为0.5-1.0μm,长1-2μm,在光学显微镜下,需用特殊的染色,才能加以辨别。在动物细胞中,线粒体大小受细胞代谢水平限制。不同组织在不同条件下可能产生体积异常膨大的线粒体,称为“巨线粒体”(megamitochondria):胰脏外分泌细胞中可长达10-20μm;神经元胞体中的线粒体尺寸差异很大,有的也可能长达10μm;人类成纤维细胞的线粒体则更长,可达40μm。有研究表明在低氧气分压的环境中,某些如烟草的植物的线粒体能可逆地变为巨线粒体,长度可达80μm,并形成网络。 形状 线粒体一般呈短棒状或圆球状,但因生物种类和生理状态而异,还可呈环状、线状、哑铃状、分杈状、扁盘状或其它形状。成型蛋白(shape-forming protein)介导线粒体以不同方式与周围的细胞骨架接触或在线粒体的两层膜间形成不同的连接可能是线粒体在不同细胞中呈现出不同形态的原因。 数量 不同生物的不同组织中线粒体数量的差异是巨大的。有许多细胞只拥有多达数千个的线粒体(如肝脏细胞中有1000-2000个线粒体),而一些细胞则只有一个线粒体(如酵母菌细胞的大型分支线粒体)。大多数哺乳动物的成熟红细胞不具有线粒体。一般来说,细胞中线粒体数量取决于该细胞的代谢水平,代谢活动越旺盛的细胞线粒体越多。 分布

基因组学(结构基因组学和功能基因组学).

问:基因组学、转录组学、蛋白质组学、结构基因组学、功能基因组学、比较基因组学研究有哪些特点? 答:人类基因组计划完成后生物科学进入了人类后基因组时代,即大规模开展基因组生物学功能研究和应用研究的时代。在这个时代,生命科学的主要研究对象是功能基因组学,包括结构基因组研究和蛋白质组研究等。以功能基因组学为代表的后基因组时代主要为利用基因组学提供的信息。 基因组研究应该包括两方面的内容:以全基因组测序为目标的结构基因组学(struc tural genomics和以基因功能鉴定为目标的功能基因组学(functional genomics。结构基因组学代表基因组分析的早期阶段,以建立生物体高分辨率遗传、物理和转录图谱为主。功能基因组学代表基因分析的新阶段,是利用结构基因组学提供的信息系统地研究基因功能,它以高通量、大规模实验方法以及统计与计算机分析为特征。 功能基因组学(functional genomics又往往被称为后基因组学(postgenomics,它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质的研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。 基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的分析。新的技术应运而生,包括基因表达的系统分析,cDNA微阵列,DNA芯片等。鉴定基因功能最有效的方法是观察基因表达被阻断或增加后在细胞和整体水平所产生的表型变异,因此需要建立模式生物体。 功能基因组学

线粒体结构与功能

mitochondria) 1890: R.AItman 生命小体(bioblast) (Mitochondrion) 1897: Von Benda 1900 L.Michaelis ) 1913 Engelhardt ATP 1943-1950 Kennedy 1952-1953 Palade 1976:Hatefi 等纯化呼吸链四个独立的复1961-1980 Mitchell 1963年:Nass DNA Contents word

线粒体的形态结构线粒体的化学组成及酶的定位线粒体的功能 线粒体的半自主性线粒体的生物发生(自学) 第一节线粒体的形态结构一、光镜下线粒体形态、大小、数量及分布 (一)形态、大小 光镜下常见线粒体呈线状和颗粒状,也可呈环形、哑铃形、分枝状等,随细胞生理状况而变。 一般直径0.5?1.0阿,长1.5?3.0口。不同细胞线粒体大小变动很大,大鼠肝细胞线粒体长5眄胰腺外分泌细胞线粒体长10?20□,人成纤维细胞线粒体长40阿。 线粒体形态、大小因细胞种类和生理状况不同而异。 光镜下:线状、杆状、粒状 二)数量依细胞类型而异,动物细胞一般数百到数千个。 利什曼原虫:一个巨大的线粒体; 海胆卵母细胞:30多万个。 随细胞生理功能及生理状态变化 需能细胞:线粒体数目多,如哺乳动物心肌、小 肠、肝等内脏细胞; 编辑版word

()Outer membra ne 6-7 nm 1-3 nm 1KD ()inner membra ne 4.5 nm 76% (例如:H+、ATP、丙酮酸等)物质透过必须借助膜上 的载体或通透酶。 word

基因组的结构与功能习题

第二章基因组的结构与功能 (一)选择题 A 型题 1.原核生物染色体基因组是 A.线性双链DNA分子 B.环状双链DNA分子 C.线性单链DNA分子 D.线性单链RNA分子 E.环状单链DNA分子 2.真核生物染色体基因组是 A.线性双链DNA分子 B.环状双链DNA分子 C.线性单链DNA分子 D.线性单链RNA分子 E.环状单链DNA分子 3.有关原核生物结构基因的转录,叙述正确的是 A.产物多为多顺反子RNA B.产物多为单顺反子RNA C.不连续转录 d.对称转录 E.逆转录4.原核生物的基因组主要存在于 A.质粒 B.线粒体 C.类核 D.核糖体 E.高尔基体 5.下列有关原核生物的说法正确的是 A.原核生物基因组DNA虽然与蛋白结合,但不形成真正的染色体结构 B.结构基因中存在大量的内含子 C.结构基因在基因组中所占比例较小 D.原核生物有真正的细胞核 E.基因组中有大量的重复序列 6.下列有关原核生物的说法不正确的是 A.原核生物的结构基因与调控序列以操纵子的形式存在B.在操纵子中,功能上关联的结构基因串联在一起C.在一个操纵子内,几个结构基因共用一个启动子 D.操纵元件也是结构基因E.基因组中只存在一个复制起点 7.真核生物染色质中的非组蛋白是 A.碱性蛋白质B.序列特异性DNA结合蛋白C.识别特异DNA序列的信息存在于蛋白上 D.不能控制基因转录及表达E.不参与DNA分子的折叠和组装 8.真核生物染色质的基本结构单位是 A.α-螺旋B.核小体 C.质粒 D.?-片层 E.结构域 9.关于真核生物结构基因的转录,正确的说法是 A.产物多为多顺反子RNAB.产物多为单顺反子RNAC.不连续转录D.对称转录E.新生链延伸方向为3'→5' 10.外显子的特点通常是 A.不编码蛋白质B.编码蛋白质C.只被转录但不翻译D.不被转录也不被翻译E.调节基因表达11.下列有关卫星DNA说法错误的是 A.是一种高度重复序列 B.重复单位一般为2~10 bp C.重复频率可达106 D.能作为遗传标记 E.在人细胞基因组中占5%~6%以上 12.下列有关真核生物结构基因的说法不正确的是 A.结构基因大都为断裂基因 B.结构基因的转录是不连续的 C.含有大量的重复序列 D.结构基因在基因组中所占比例较小 E.产物多为单顺反子RNA 13.染色体中遗传物质的主要化学成分是 A.组蛋白 B.非组蛋白 C.DNA D.RNA E.mRNA 14.真核生物染色质中的组蛋白是 A.酸性蛋白质 B.碱性蛋白质 C.一种转录因子 D.带负电荷 E.不带电荷 15.指导合成真核生物蛋白质的序列主要是 A.高度重复序列 B.中度重复序列 C.单拷贝序列 D.卫星DNA E.反向重复序列

gene_ontology(GO基因注释)

GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,堆积因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准.GO是多种生物本体语言中的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能. 基因本体论(gene ontology)的建立 现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。这种情况归结为生物学上定义混乱的原因:不光是精确的计算机难以搜寻到这些随时间和人为多重因素而随机改变的定义,即使是完全由人手动处理也无法完成。举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的和细菌蛋白质合成相关的基因产物,特别是那些和人中蛋白质合成组分显著不同的。但如果一个数据库描述这些基因产物为“翻译类”,而另一个描述其为“蛋白质合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。 Gene Ontology (GO)项目正是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。这个项目最初是由1988年对三个模式生物数据库的整合开始:: FlyBase (果蝇数据库Drosophila),t Saccharomyces Genome Database (酵母基因组数据库SGD) and the Mouse Genome Database(小鼠基因组数据库MGD)。从那开始,GO不断发展扩大,现在已包含数十个动物、植物、微生物的数据库。GO的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高的一致性。这种定义语言具有多重结构,因此在各种程度上都能进行查询。举例来说,GO可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物地受体酪氨酸激酶。这种结构允许在各种水平添加对此基因产物特性的认识。 GO发展了具有三级结构的标准语言(ontologies),如表所示。根据基因产物的相关分子功能,生物学途径,细胞学组件而给予定义,无物种相关性。 本体论内容分子功能本体论基因产物个体的功能,如与碳水化合物结合或ATP 水解酶活性等生物学途径本体论分子功能的有序组合,达成更广的生物功能,如有丝分裂或嘌呤代谢等细胞组件本体论亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等 基本来说,GO工作可分为三个不同的部分:第一,给予和维持定义;第二,将位于不同数据库中的本体论语言、基因和基因产物进行联系,形成网络;第三,发展相关工具,使本体论的标准语言的产生和维持更为便捷。 本体论(The ontologies) GO的结构包括三个方面?D?D分子生物学上的功能、生物学途径和在细胞中的组件作用。当然,它们可能在每一个方面都有多种性质。如细胞色素C,在分子功能上体现为电子传递活性,在生物学途径中与氧化磷酸化和细胞凋亡有关,在细胞中存在于线粒体质中和线粒体内膜上。下面,将进一步的分别说明GO的具体定义情况。 基因产物 基因产物和其生物功能常常被我们混淆。例如,“乙醇脱氢酶”既可以指放在Eppendorf管里的基因产物,也表明了它的功能。但是这之间其实是存在差别

线粒体DNA的结构和功能特征

第一节线粒体DNA的结构和功能特征一、mtDNA的结构特征 mtDNA是惟一存在于人类细胞质中的DNA分子,独立于细胞核染色体外的基因组,具有自我复制、转录和编码功能。人mtDNA由16 569bp组成,双链闭合环状,其中外环DNA单链由于含G较多,C较少,使整个外环DNA分子量较大,称为重链(heavy chain)或H链;而内环DNA单链则C 含量高,G含量低,故分子量小,称为轻链(light chain)或L链。mtDNA的两条链都有编码功能,除与复制及转录有关的一小段D环区(displacement loop)无编码基因外,基因间无内含子序列;部分基因有重叠现象,即前一个基因的最后一段碱基与下一个基因的第一段碱基相重叠(图6-1)。因此,mtDNA的任何突变都会累及到基因组中的一个重要功能区域。mtDNA含有37个基因,其中两个rRNA基因(16SrRNA,12SrRNA),22个tRNA基因,13个蛋白质基因(包括1个细胞色素b基因,2个ATP酶亚单位的基因。 图6-1 人线粒体基因图谱 Figure 6-1 Map of the human mitochondrial genome Box 6.1 The limited autonomy of the mitochondrial genome Encoded byEncoded by nuclearMitochondrial genomegenome13 subunits Components of oxidative phosphorylation system >80 subunits7 subunits>41 subunitsNADH dehydrogenase Ⅰ.4subunits0 subunitsⅡSuccinate CoQ reductase 10 subunits1 subunitsCytochrome b-c1 complex Ⅲ 10 subunits3 subunitsⅣCytochrome c oxidase complex 14 subunits2 subunitsA TP synthase complex Ⅴ ~8024 Components of protein synthesis apparatus None22 tRNAs tRNA components None2 rRNAs rRNA components ~80Ribosomal proteins None All, e.g. mitochondrial Other mitochondrial proteins None and proteins enzymes

线粒体的结构和功能

线粒体的结构和功能 线粒体是一种普遍存在于真核细胞中的细胞器,各种生命活动所需的能量大部分都是靠线粒体中合成的ATP提供的,因此有细胞的“动力工厂”之称。 线粒体主要由蛋白质和脂类组成,其中蛋白质占线粒体干重的一半以上。此外还有少量的DNA、RNA、辅酶等。线粒体含有许多种酶类,其中有的酶是线粒体某一结构特有的(标记酶),比如线粒体外膜的标记酶为单胺氧化酶,内膜为细胞色素氧化酶,膜间隙为腺苷酸激酶,线粒体基质的为苹果酸脱氢酶。 在大多数情况下,线粒体呈圆形、近似圆形、棒状或线状。 在电子显微镜下,线粒体为内外两层单位膜构成的封闭的囊状结构。可分为四个部分:外膜为一个单位膜,膜中蛋白质与脂类含量几乎均等。物质通透性较高。 内膜也是一个单位膜,膜蛋白质含量高,占整个膜的80%左右。内膜对物质有高度地选择通透性。部分内膜向线粒体腔内突出形成嵴。同时内膜内表面排列着一些颗粒状的结构,称为基粒。基粒包括三个部分:头部(F1因子,为水溶性蛋白质,具有ATP酶活性)、腹部(F0因子,由疏水性蛋白质组成)、柄部(位于F1与F0之间)。 膜间隙为内外膜之间围成的胜除。其内充满无定形物,主要是可溶性酶、反应底物以及辅助因子等。 基质由内膜封闭形成的空间,其中含有脂类、蛋白质、核糖体、RNA及DNA。 研究表明,内外膜的通透性差别很大。外膜容许电解物质、水、蔗糖和大至10 000道尔顿的分子自由透入。外膜上可能有20?~30 ? 的小孔,便于小分子的通过。内膜与外膜相反,离子各分子的通过要有特殊的载体帮助才能实现。 在线粒体内膜上存在的电子传递键,能将代谢脱下的电子最终传给氧并生成水,同时释放能量,这种电子传送链又称呼吸键。它的各组分多以分子复合物形式存在于线粒体内膜中。在线粒体内膜中,各组分按严格的排列顺序和方向(氧还电位由低到高),参与电子传递。 糖、脂肪、氨基酸的中间代谢产物在线粒体基质中经三羧酸循环进行最终氧化分解。在氧化分解过程中,产生NADH和FADH2两种高还原性的电子载体。在有氧条件下,经线粒体内膜上呼吸键的电子传递作用,将O2还原为H2O;同时利用电子传递过程中释放的能量将ADP合成ATP。 关于ATP形成,即氧化磷酸化作用的机制,目前,最为公认的是化学渗透假说。它认为,电子在线粒体内膜上传递过程中,释放的能量将质子从线粒体基质转移至膜间隙,在内膜两侧形成质子梯度。利用这一质子梯度,在ATP酶复合体参与下,驱动ADP磷酸化,合成ATP。催化NADH氧化的呼吸链中,每传递两个电子,可产生3个ATP分子;而催化琥珀酸氧化的呼吸链中,每传送两个电子,只产生两个ATP分子。 线粒体中的DNA分子通常与线粒体内膜结合存在,呈环状,和细菌DNA相似。已经证明,在线粒体中有DNA聚合酶,并且离体的线粒体在一定条件下有合成新DNA的能力。线粒体DNA也是按半保留方式进行复制的,其复制时间与核DNA不同,而与线粒体的分裂增殖有关。一般是在核DNA进行复制后,在核分裂前(G2)期,线粒体DNA进行复制,随后线粒体分裂。 在细胞进化过程中,最早的线粒体是如何形成的?这就是线粒体的起源问题。目前,有两种不同的假说,即内共生假说和分化假说。内共生假说认为线粒体是来源于细菌,是被原始的前真核生物吞噬的细菌。这种细菌与前真核生物共生,在长期的共生过程中通过演化变成了线粒体。另一种假说,即分化假说则认为线粒体在进化过程中的发生是由于质膜的内陷,再经过分化后形成的。

基因功能注释

Gene Annotation 基因注释主要基于蛋白序列比对。将基因的序列与各数据库进行比对,得到对应的功能注释信息。为便于分析,还需要将各种注释信息进行综合,选取最为准确的注释。可以先用程序来选取比对最相似,形式最好的注释信息,然后再做少量的人工校正。 请注意:对于Nt, Nr, Swissprot, trEMBL, COG, KEGG, InterPro的搜索,我们默认的方法是只取best hit, 也就是每个基因只对应数据库中比对最好的那条记录。这样可以简化分析,但是会丢失一些信息。如果要求严格,可以采用一定E-value条件下所有的hit。 Blast database Nt, Nr is the non-redundant NCBI collection of nucleotide and protein sequence database. ftp://https://www.doczj.com/doc/a48422596.html,/blast/db/FASTA/ 注意:Nt,Nr数据库由于很大,被分成很多部分,使用时直接指定Nt,Nr即可。 UniProtKB/Swiss-Prot; a curated protein sequence database which strives to provide a high level of annotation (such as the description of the function of a protein, its domains structure, post-translational modifications, variants, etc.), a minimal level of redundancy and high level of integration with other databases. UniProtKB/TrEMBL; a computer-annotated supplement of Swiss-Prot that contains all the translations of EMBL nucleotide sequence entries not yet integrated in Swiss-Prot. 注意:Swissprot/trembl数据库不能直接跑blast,必须先用simplify_uniprot.pl程序把蛋白序列名字简化; COG(Cluster of Orthologous Groups of pretein)蛋白相邻类的聚簇。该数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成的。对于预测单个蛋白质的功能和整个新基因组中的蛋白质的功能非常有用。 COG: https://www.doczj.com/doc/a48422596.html,/COG/ COG:ftp://https://www.doczj.com/doc/a48422596.html,/pub/COG/ 准备数据库,首先将没有COG归类的基因的filter掉,减少无效计算量。 有用文件:readme whog fun.txt myva org.txt。 注意:COG单细胞版本(Unicellular)里包含的都是原核生物,数据量较小,搜索COG 的目的是对应出COG号。 KEGG(Kyoto Encyclopedia of Genes and Genomes)京都基因及基因组百科全书,是一个有关生物系统较完善的数据库,关联基因组信息和功能信息的知识库。其由基因蛋白序列(KEGG Genes)、具有内源性和外源性的化学物质(KEGG Ligand)、分子相互作用和代谢通路图(KEGG Pathway)和各种生物之间的层次关系(KEGG Brite)构成,在功能注释分析中,我们主要关注的是KEGG代谢通路图的分析 KEGG:ftp://ftp.genome.jp/pub/kegg/ 需要ko genome,pathway/map 和seq_pep文件。通过genome文件中的物种可分为原核与真核两部分。通过ko文件,可确定ko分类各层级的关系。序列文件seq_pep中含有基

相关主题
文本预览
相关文档 最新文档