当前位置:文档之家› 生物基因组非蛋白质编码转录组学及研究进展_姜宁

生物基因组非蛋白质编码转录组学及研究进展_姜宁

生物基因组非蛋白质编码转录组学及研究进展_姜宁
生物基因组非蛋白质编码转录组学及研究进展_姜宁

生物基因组非蛋白质编码转录组学及研究进展

姜 宁1

陈启军

2

1.中国医学科学院 吉林大学人兽共患病联合研究中心人兽共患病研究教育部重点实验室,长春130062

2.中国医学科学院病原生物学研究所,北京100730

收稿日期:2009 9 13 修回日期:2009 12 1联系作者:陈启军,教授,cq@j jl https://www.doczj.com/doc/0615518050.html, .cn 。

摘 要 RNA 转录组学和功能组学的研究是目前生命科学领域的重要研究方向。生命的中心法则(由DNA 转录RNA,再由后者翻译成行使各种功能的蛋白质)因调控RNA 分子的发现而进一步得到扩展。最近的大量研究发现,自基因组中非蛋白质编码区转录的RNA 分子具有重要的调控功能,即转录后的调控功能。在这些RNA 分子中,内源性小干扰RNA 分子、m icroRNA 及pi w i RNA 等的功能逐渐被揭示。本文对目前有关RNA 转录组学研究进展做一简要综述。

关键词:RNA 转录组 小RNA si R NA m i R NA pi R NA

中图分类号:Q7 文献标识码:A 文章编号:1009 2412(2009)06 0015 05

一、引 言

生物物种遗传物质的组成随着物种进化程度的

提高而逐渐趋于复杂。然而随着大规模基因组测序的完成,人们发现很多生物(包括小鼠和人)遗传物质组成的主要差异不是在蛋白质编码区而是在基因组中的非编码(non cod i ng )区。生物物种的种源进化程度越高,其基因组中非蛋白质编码序列的组成比例越高[1],如人类基因组中编码蛋白质的DNA 只占基因组的2%左右。长期以来,对基因组序列的研究多集中在对编码区的分析上(如基因的序列组成,编码蛋白质的表达、功能及调控规律等)。由于非编码区的序列多含有一些假基因(ps eudo genes)、转座

子(trans poson 或trans posab le ele m ents)及大量的内含子和重复序列,其潜在的功能一直为研究者们所忽视。多年来人们一直将基因组中非编码序列认为是生物进化过程中形成的垃圾成分(junk DNA )[2]。然而,随着大规模转录组学(transcripto m ics)研究的进行,发现基因组中绝大部分DNA 在细胞活动过程中都是被转录成RNA 的[3],如人类基因组DNA 有93%以上都被转录成RNA,小鼠基因组的转录部分也达到63%以上[3]。这些RNA 有的呈单链存在,有的以双链形式存在。对RNA 转录组的研究经历了小RNA 的发现、大规模RNA 转录组的测定到目前的RNA 调控功能的分析和确定等阶段[3 8]

。RNA 转录

组学和功能组学的研究是目前生命科学领域的重要

研究方向。

二、基因组中非编码区转录产生的

RNA 分子种类及功能

根据RNA 片段长度的不同,自基因组中转录的

RNA 分子包括短片段RNA (s hort RNA )和长片段RNA (l ong RNA )[1,7,9,10]。短片段RNA 分子主要包括反式剪切引导RNA (trans splicing leader RNA,S L RNA )、m i cro RNA (m i R NA )、内源性小干扰RNA (en dogenous s m all i nterferi ng RNA,si R NA )、p i w i 蛋白质

结合RNA (p i w i RNA,

pi RNA )和一些编码寡肽的小

mRNA 分子[11]。内源性小RNA (endogenous s m all non cod i ng RNA,

s n RNA)是一类从基因组中非蛋白

质编码区转录而来的小RNA 分子。目前对内源性s nRNA 的研究主要集中在对S L RNA 、si R NA 和m i R NA 等的发现及功能分析方面。这些小RNA 主要通过影响mRNA 的成熟过程及稳定性进而调节转录因子或其它功能蛋白质的表达和发挥转录后的基因调控功能(post transcri pt i ona l gene regulat i on ,PTGR )。long RNA 主要指mRNA 前体(hnRNA )、mRNA 和一些不编码任何蛋白质的长的单链或双链RNA 片段。

本文只对内源性非蛋白质编码的小RNA分子的产生机制及功能做一介绍。

1.S L RNA

很多真核生物mRNA的成熟过程是通过顺式(c is )和反式剪切(trans s p licing)两种方式完成的。顺式剪切是将mRNA前体中对应于内含子(intron)部分的序列剪切掉,使对应于外显子的RNA序列连接起来,进而形成一个完整的读码框架。反式剪切过程包括剪切引导RNA(splicing leader RNA,S L RNA)以及mRNA的转录和连接过程。SL RNA和mRNA从基因组中的不同序列转录而来。SL RNA 的长度在90 150bp之间,其二级结构含有一或两个典型的发卡结构、一个RNA剪切复合体结合序列和一个保守的剪切位点。剪切后的序列的3 端都含有一个AUG密码子。SL被最终连接到mRNA上。很多真核生物都存在mRNA的反式剪切过程[12]。例如,锥虫的初始mRNA分子的5 端均不完整,缺少正常的UTR(包括甲基化的帽状结构)序列和起始密码子等[13]。而这些UTR需要由散在于基因组中的SL RNA基因转录后,经过一系列的修饰再连接到各个mRNA的5 端。在日本血吸虫的基因组中含有55个散在分布的S L RNA基因。每个基因所转录的RNA长度为90n,t这些RNA引导序列含有两个典型的发卡结构和一个RNA剪切复合物识别位点。这些RNA在转录后由RNA剪切复合物剪切成长为36nt和54nt的两个RNA片段。前一个S L片段被连接到mRNA上。目前的研究发现,多数生物的基因组中均含有一个SL RNA编码序列,只是SL DNA的拷贝数不尽相同,如日本血吸虫基因组中含有55个SL拷贝,曼氏血吸虫含有61个S L基因拷贝。而在秀丽杆线虫(C.ele gans)的基因组却含有两种序列不同的SL基因(SL1和SL2)[14],在反式剪切的mRNA 中,80%以上的mRNA含有S L1RNA,少数mRNA含有S L2RNA。在旋毛虫基因组中则含有15种序列不同的SL基因,而且同一mRNA分子上可以连接不同的SL RNA[15]。由此可见旋毛虫在基因调控机制上较其它线虫更复杂,也进一步说明其在进化上与其它生物存在明显的差异[16]。

关于SL RNA的转录及反式剪切在基因转录后的调控功能还有待进一步研究。目前认为反式剪切的作用主要有3个方面:一是为mRNA提供5 端帽状结构和AUG起始密码子[17],即参与mRNA的成熟过程。一般认为,mRNA前体(pre mRNA)的3 UTR 过长或过短都不利于表达。另外,只有S L提供的AUG才是真正的起始密码子,pre mRNA内部的AUG不能为核糖体所识别;二是增加mRNA的稳定性,不含SL系列的mRNA多容易降解;三是最近的研究发现,S L RNA还含有m icro RNA序列[18],而m i cro RNA具有重要基因调控作用。目前有关反式剪切在后生动物基因调控中的功能还没有完全一致的结论,尽管已发现日本血吸虫的反式剪切过程主要发生在虫体发育的初期(虫卵和尾蚴)阶段,但其在虫体发育调控过程中起到的作用还有待进一步确定。

2.内源性小干扰RNA(si R NA)

F ire等于1998年报道的RNA干扰(RNA inter ference,RNA i)是通过将短(23bp左右)的双链RNA (称作干扰RNA,即i R NA)分子或编码双链RNA的质粒以生物化学或物理学的方法转化到秀丽杆线虫细胞后,发现i RNA可以通过一系列的酶解(通过一个称作D icer的RNA酶的作用)过程,抑制功能蛋白质的表达[19]。这种RNA i的基因调控过程是通过外源性RNA分子的作用实现的。2004年人们发现,在基因组中的一些区域存在编码类似i RNA的分子,这些内源性i R NA被称为内源性si R NA。si RNA都是在细胞内形成的双链RNA分子。

si R NA的来源有以下几种:

(1)自转座子转录而来(称作TE deri ved si R NA)。转座子是基因组中通过两侧的重复序列和转座子酶的作用在基因组内反复复制和跳跃的DNA 片段。转座子的种类很多,如LTR(l ong ter m ina l re peats)、L I NE(long inters persed nucleot i de e le m ents)、SI NE(short i nters pers ed e le m ents)等。这些转座子在基因组中可串联排列,也可散在分布。转座子是内源性si R NA的主要来源。两个序列相同的转座子基因(可以是相互串联的,也可能是位于基因组不同的位置)从相反方向转录后的单链RNA可形成互补的双链RNA(double stand RNA,ds RNA),ds RNA再经D icer RNA酶剪切成小(20 23bp左右)的双链RNA[20,21]。日本血吸虫的si R NA主要由L I NE、SI NE、T I R和M I TE等转座子基因转录而来。人类基因组中有大约45%的成分来自转座子序列,可想而知由其产生的si RNA的作用是非常重要的。最近的研究发现,不同生物在si R NA的生成(biogenesi s)序列区域上有很大的差别。如果蝇,一个转座子的整个基因序列的转录产物都能形成si RNA[22];而在日

本血吸虫,si R NA只来源于转座子转录产物的部分区域,而不是整个序列。由此可见,物种不同si RNA的产生机制也不尽相同。

(2)从自然形成的mRNA 反义链(natural anti sens e transcri p,t NAT)产生[20]。有些基因在基因组中呈现串联性复制,当两个基因同时转录后,其中的一条转录产物是另一个转录产物的NAT。正义链与反义链在5 端形成部分互补双链,该互补区经过

D icer处理后形成si R NA。

(3)同一个基因从两侧同时转录形成的。有些基因在两侧各有一个启动子,在两个启动子同时发挥作用的情况下,产生正义链和反义链,进而形成双链RNA分子,进入si R NA的形成程序[20]。

研究发现si RNA的长度和末端修饰特征存在物种特异性。如果蝇si R NA的长度主要为21bp和22bp,且末端的修饰因细胞种类和发育时期而变[22]。在日本血吸虫,si R NA的修饰主要发生在3 端,这可能与其作用机制和功能不同有关。目前对si RNA的功能认识还很局限。根据RNA i的作用机制,可以将si R NA的功能归纳为两个方面:一是诱导异染色质(heter ochro m at i n)的形成。对酵母菌的研究发现, si R NA通过诱导组蛋白的甲基化实现抑制基因表达的功能。二是通过与mRNA的完全配对结合,进而通过R I SC(RNA i nterfernce silenc i ng co m plex)途径降解mRNA模板。该功能要求si R NA的序列与目标mRNA的序列完全互补。因此,si R NA的靶序列主要是形成双链RNA(si R NA)的初始mRNA。另外,与m i RNA作用机制不同的是,si R NA的作用具有放大(或扩展)效应,即几个si R NA分子可以产生很强的抑制作用[21]。

3.m icroRNA(m i RNA)

早在1993年人们就在秀丽杆线虫(C.ele gans)内发现内源性双链小RNA分子(L i n 4)对虫体的发育(从L1期向L2期的转化)具有重要的调节作用(敲除L in 4基因,虫体的发育停留在L1阶段)[4]。由于对小RNA分子的克隆及序列测定技术的限制,一直到2000年人们才在C.ele gans体内发现了另外一个具有重要调节功能的小RNA分子(L i n 7,调节L4阶段的虫体向成熟虫体的转化)[23],此后人们开始认识到小RNA分子的重要调节功能。这些小RNA分子被统称为m icroRNA(m i RNA)。此外,Sol exa及454等大规模测序技术的应用,也为研究m i R NA的转录和功能奠定了重要的技术基础。 m i RNA基因在基因组中的分布主要包括基因内(intragenic)和基因间(intergenic)两种。基因内分布的m i R NA的基因是指分布在编码蛋白质基因内含子内的m i RNA基因。这些m i R NA的表达完全受所在的蛋白质编码基因的调控。而处于基因间分布的m i RNA基因实际上是独立存在的基因,这些基因含有自己的调控序列。有些基因位于核糖体RNA基因的下游。处于基因间位置的m i R NA基因多以基因簇(c l uster)的形式存在,很多基因受同一个调控序列控制。

m i RNA和si R NA在结构和长度上基本没有区别,两者之间的不同主要基于以下几个方面:(1)si R NA来源于RNA酶对其它基因转录产物的处理过程,即在基因组中并没有编码si RNA的基因;而在生物的基因组中却含有编码m i R NA的基因。(2)si R NA可以在细胞核和细胞浆内发挥作用(调节基因的转录过程);而m i R NA主要在细胞浆内发挥作用,其功能是抑制mRNA的翻译过程或影响mRNA的稳定性;最近的一项研究还发现m i R NA还可以通过细胞分泌体传输到其它细胞而发挥作用[24]。(3)si R NA 是两条RNA分子形成的双链RNA,而m i R NA是一条RNA分子折叠后形成的发卡结构。(4)si RNA双链中发挥作用的一条链称作引导链RNA(Guide RNA),另一条链被称作Passenger RNA。m i RNA的功能链称作m i R,与其对应的另一条链称作m i R*。P assenger RNA和m i R*均由于与功能链之间存在热动力学的差异,而很快被RNA酶所降解。而Guide RNA和m i R链的稳定性则相对较高。对转录组测序过程中发现的序列也主要是这两类功能链。

m i RNA基因的转录过程类似于编码蛋白质基因的转录过程,也是由RNA聚合酶II完成。在细胞核内转录完成后,在5 端修饰成甲基化的帽状结构,在3 端修饰成Po ly A的末端。整个序列的长度在1000bp左右。与蛋白质编码基因不同的是,m i R NA 在修饰完成后形成典型的发卡式结构。该发卡结构在细胞核内被Dros ha酶降解成大约70bp左右的pre m i RNA,pre m i R NA被运输出细胞核后由D icer 酶进一步降解成23bp左右的pri m i RNA,后者再由RIS C复合体分解成两个单链的RNA。m i R链与目标序列结合而发挥基因的调控作用。动物和线虫都是通过D icer酶产生si RNA和m i RNA的。而果蝇细胞内含有D icer1和D icer2两个RNA酶。D icer1与m i RNA的产生有关,而D icer2则参与si R NA的

产生[21]。

m i RNA的作用机理和功能还在不断的发现过程中,2009年有关m i RNA的文献报道非常多。一般认为,当m i RNA与目标mRNA的序列完全一致时,两者杂交结合后会导致目标mRNA的降解。相反,当m i RNA与目标RNA的系列存在不完全杂交(含有错配序列)时,会抑制目标mRNA的翻译过程[25,26]。因此,一个m i RNA的靶序列可以是多个不同的mRNA 分子。最近的研究发现,m i R NA可以在产生的细胞内发挥作用,也可以被分泌到其它细胞内发挥作用。m i RNA还可以通过影响染色质的结构调控基因的转录[21]。m i R NA是目前在日本血吸虫小RNA转录组中发现的一类主要的小RNA分子。在C.ele gans中, m i RNA的表达与虫体不同发育时期的转化有关, m i RNA被认为是C.ele gans发育及形态转化的分子开关。

我们所在的课题组在日本血吸虫体内发现了13个与其它生物共同的m i RNA家族成员,还发现了近500个日本血吸虫特异性m i R NA分子。此外,日本血吸虫存在明显与发育阶段相关和性别相关的m i R NA成分。最近的报道认为,m i R NA在肿瘤细胞的形成、发育及扩散方面都起到重要的调控作用[27]。 4.pi RNA

pi R NA是最近发现的一类区别于si R NA和m i R NA的小RNA分子[20]。这类分子是从与其结合的P i w i蛋白质上发现的,因此将其称作pi R NA。在真核生物R I SC复合体中的RNA酶分为A r gonaute和P i w i两类。pi R NA主要见于生殖相关的细胞(ger m li ne),它是一类较长(长度在25 30bp左右)的小RNA分子,其形成机制也与si RNA和m i R NA不同。在果蝇,p i R NA多源于长的单链反义RNA,这些RNA 多数与转座子的RNA互补。目前认为,P i w i蛋白质和pi RNA是维持生殖干细胞功能的必须成分。有关pi RNA在体细胞中的作用还没有结论。

三、结束语

内源性小RNA的发现极大地丰富了人们对生物活动调控机理的认识。越来越多的证据表明,小RNA分子在基因活动(尤其是组织分化和病理发生过程中)的调节作用并不亚于调控蛋白质的作用。目前对小RNA的研究已经从发现阶段深入到功能研究阶段。相信随着这一领域的快速发展,人们在对基因调控机制的认识以及组织甚至细胞特异性药物的研究方面将会取得重要突破。

参考文献

[1]T aft R J,PheasantM,M attick J S.The relati on s h i p b et w een non

protei n cod i ng DNA and eukaryotic co m p l ex i ty.B io E ssays,2007,

29:288 299

[2]W illi ngha m A T,G i ngeras T R.TUF love for J unk DNA.C el,l

2006,125:1215 1220

[3]Carn i nci P,Y asuda J,H ayas h i zak i Y.M u ltifaceted m a mm ali an

transcri pto m e.Curren t Op i n i on i n cell B i ology,2008,20:274

280

[4]Lee R C,Fei nbaum R L,Amb ros V,et a.l Th e C.el egans h etero

ch ron ic gene li n 4encodes s m all RNAs w it h anti sense co m p l e m en t arit y to li n 14.Cel,l1993,75:843 854

[5]H artzog G A,M artans J A.nc RNA transcri pti on mak es its mark.

E M BO J,2009,28:1679 1680

[6]Chu Ch i ayi ng,R ana T M.Sm allRNA s:regu lators and guard i ans of

t he geno m e.J.C el.l Physio.l,2007,213:412 419

[7]Shunm in H e,et a.l M i croR NA encoding long non cod i ng RNA s.

B M

C Geno m i cs,2008,9:236

[8]M atti ck J S.The f unctional geno m i cs of noncod i ng RNA.S ci en ce,

2005,309:1527 1528

[9]C ar n inciP.M olecu l ar b iol ogy:the long and short ofRNA s.Nat u re,

2009,457(7232):974 975

[10]A ffy m etri x/Co l d Sp ri ng H arbor Laborat ory ENCODE T ran s cri p t m e

proj ect.Post transcriti onal processi ng gen erates a d i versity of5 m od ified long and short RNAs.Nat u re,2009,457:1028 1032 [11]Kutter C,Svoboda.M i R NA,si RNA,p i R NA kno w ns of t h e un

kno w n.RNA B i o.l,2008,5:181 188

[12]Davi s R E.Sp liced l eader RNA trans s p lici ng i n m etaz oan.Parasi

t o.l Today.,1996,12:33 40

[13]L iang X H,et a.l T rans and cis spli ci ng i n trypanos o m atids:m ech

an is m,factors,and regulati on.Eukaryot C el,l2003,2:830 840 [14]K rauseM,H irsh D.A trans s p liced leader sequen ce on acti n mR

NA i n C.el egans.C el,l1987,49:753 761

[15]Pettitt J,et a.l Spli ced leader trans s p lici ng i n the ne m at ode

T ri ch i n ell a s p iralis uses h i gh ly pol ymorph i c,non conon ical s p liced

leaders.RNA,2008,14:760 770

[16]W akeli n D.T ri ch i nella s p iralis:I mm un i ty,eco l ogy and evoluti on.

J.Parasito.l,1993,79:488 494

[17]C heng G,et a.l Th e fl at w or m spli ced l eader3 ter m i nal AUG as a

trans l ati on i n i ti atorm et h i on i n e.J.B io.l Che m.,2006,281:733

743

[18]Brach t J,et a.l T ran s sp li ci ng and po l yadenylati on of let 7m i cro R

NA pri m ary tran scri p ts.RNA,2004,10:1586 1594

[19]Fire A,et a.l Pot en t and specifi c genetic i n terference by doub l e

s tranded RNA i n Ca e noe habd itis ele gan s.N ature,1998,391:

806 811

[20]Gh il d i yalM,Za m ore P D.Sm all s ilenci ng RNA s:an expand i ng u

n i vers e.N at.Rev.Gen.,2009,10:94 108

[21]Carthe w R W,Sonthei m er E J.O ri gi n s and m echan i s m s ofm i RNAs

and s i R NA s.Cel,l2009,136:642 655

[22]Gh il d i yalM,et a.l Endogenous si RNAs d eri ved fro m transposons

and mRNAs i n Dros ophil a so m atic cells.S ci ence,2008,230:

1077 1081

[23]Reinh art B J,et a.l The21 nucleoti de l et 7RNA regu l ate devel op

m ent ti m ing i n C ae n orhabd itis ele gan s.Nat u re,2000,430:901

906

[24]Valad iH,E kstr m K,Bossi osetA,et a.l Exoso m e m ed i ated tran s

f er ofmRNA s and m icroRNAs i s a novel m echan i s m of genetic ex

change bet w een cell s.Nat.C el.l B i o.l,2007,9(6):654 659 [25]Gup t a M,Bre w er G.M icroRNAs:Ne w p l ayers i n an old ga m e.

P NAS,2006,103:3951 3952

[26]W u L i gang,Fan Ji hua,Bel asco J G.M icroRNA s d i rect rap i d rap i d

deadenylati on ofmRNA.PNAS,2006,103:4034 4039

[27]H e L,et a.l A m i cro RNA co m pon ent of the p53t um or supp ress or

net w ork.Nat u re,2007,447:1130 1134

Progr esses and Per specti v es of Non codi n g RNA Transcri p tome

J i ang N ing

C enter fo r Z oono sis R esearch,K ey L abo ra t o ry o f Z oono sis,

Jili n U niver sity,C hangchun130062

C hen Q ijun

In stitute o f Patho gen B i o log y,Ch i nese A cadem y o f

M ed i ca l Sciences,B e ijing100730

Geno m e transcripto m e stud ies have gradua lly re vea l e d that enor m ous RNA transcripts are generated fro m the non pro tein coding reg ions in cells atm ost de velopm ental stages.Those RNA transcripts are eit h er long(severa l kilo bases)or short(fro m18to around 50nt).O f the short RNA transcripts,trans splicing leader RNA(SL RNA),endogenous s m a ll i n terfering RNA(si R NA),m icroRNA(m i R NA)and p i w i RNA(p i RNA)have dra wn m uch a ttention i n the research fie l d. M ore and m ore data i n d icated that they p lay cr itical ro les i n the post transcriptional gene regulati o n.I n this rev i e w,the b i o genesis,po tenti a l regulation functions o f t h ese s m a ll non cod i n g RNA s had been discussed. Keywords:RNA transcripts;s m all RNA;si R NA;m i R NA;p i R NA

(上接第21页)

Spec ifi c heat M easure m ent of Resi d ual Supe r conduc t i v ity i n the Nor mal State of Underdoped Cupr ate Super conducto r s

W en H a i hu

N ati ona l L ab fo r Supe rconducti v it y Institute o f Phy sics, Ch i nese A cade m y o f Sciences,B eiji ng100190

Our group has m easured the m agnetic field and te mperature dependence of spec ific heat on B i2Sr2 x La x CuO6sing le crysta ls in w ide doping and te m perature reg i o ns.The superconductiv ity re lated specific heat co efficient sc and entropy S sc are deter m ined.It is found t h at sc has a hum p li k e ano m a ly atT c and behaves as a long tailw hich persists far i n to the nor m al state for the underdoped sa m ples,but f o r the heav il y overdoped sa m ples the ano m a l y ends sharply j u st nearT c.Interest i n gly,w e found tha t t h e entr opy assoc i a ted w ith super conducti v ity is roughly conserved w hen and on l y the long tail part i n the no r m al state is taken i n to accoun t for the underdoped sa m ples,i n dica ti n g the resi d ual su perconductivity above T c.

Keywords:cuprate s uperconducto rs;pairing m echa nis m;pseudogap;pre for m ed pair

基因组学与生物信息学教案

《基因组学与生物信息学》教案 授课专业:生物学大类各专业 课程名称:基因组学与生物信息学 主讲教师:夏庆友程道军赵萍徐汉福

课程说明 一、课程名称:基因组学与生物信息学 二、总课时数:36学时(理论27学时实验9学时) 三、先修课程:遗传学、分子生物学、基因工程 四、使用教材: 杨金水. 基因组学. 北京:高等教育出版社,2002. 张成岗. 贺福初, 生物信息学方法与实践. 北京:科学出版社,2002. 五、教学参考书: T.A.布朗著,袁建刚译著,基因组(2rd版),北京:科学出版社,2006. 沈桂芳,丁仁瑞,走向后基因组时代的分子生物学,杭州:浙江教育出版社,2005. 罗静初译,生物信息学概论,北京:北京大学出版社,2002. 六、考核方式:考查 七、教案编写说明: 教案又称课时授课计划,是任课教师的教学实施方案。任课教师应遵循专业教学计划制订的培养目标,以教学大纲为依据,在熟悉教材、了解学生的基础上,结合教学实践经验,提前编写设计好每门课程每个章、节或主题的全部教学活动。教案可以按每堂课(指同一主题连续1~2节课)设计编写。教案编写说明如下: 1、编号:按施教的顺序标明序号。 2、教学课型表示所授课程的类型,请在相应课型栏内选择打“√”。 3、题目:标明章、节或主题。 4、教学内容:是授课的核心。将授课的内容按逻辑层次,有序设计编排,必要时标以“*”、“#”“?” 符号分别表示重点、难点或疑点。 5、教学方式既教学方法,如讲授、讨论、示教、指导等。教学手段指教科书、板书、多媒体、模型、 标本、挂图、音像等教学工具。 6、讨论、思考题和作业:提出若干问题以供讨论,或作为课后复习时思考,亦可要求学生作为作业 来完成,以供考核之用。 7、参考书目:列出参考书籍、有关资料。 8、日期的填写系指本堂课授课的时间。

基因组学与蛋白质组学

《基因组学与蛋白质组学》课程教学大纲 学时: 40 学分:2.5 理论学时: 40 实验学时:0 面向专业:生物科学、生物技 术课程代码:B7700005先开课程:生物化学、分子生物 学课程性质:必修/选修执笔人:朱新 产审定人: 第一部分:理论教学部分 一、课程的性质、目的和任务 《基因组学与蛋白质组学》是随着生物化学、分子生物学、结构生物学、晶体学和计算机技术等的迅猛发展而诞生的,是融合了生物信息学、计算机辅助设计等多学科而发展起来的新兴研究领域。是当今生命科学研究的热点与前沿领域。由于基因组学与蛋白质组学学科的边缘性,所以本课程在介绍基因组学与蛋白质组学基本基本技术和原理的同时,兼顾学科发展动向,讲授基因组与蛋白组学中的热点和最新进展,旨在使学生了解现代基因组学与蛋白质组学理论的新进展并为相关学科提供知识和技术。 二、课程的目的与教学要求 通过本课程的学习,使学生掌握基因组学与蛋白质组学的基本理论、基础知识、主要研究方法和技术以及生物信息学和现代生物技术在基因组学与蛋白质组学上的应用及典型研究实例,熟悉从事基因组学与蛋白质组学的重要方法和途

径。努力培养学生具有科学思维方式、启发学生科学思维能力和勇于探索,善于思考、分析问题的能力,激发学生的学习热情,并通过学习提高自学能力、独立思考能力以及科研实践能力,为将来从事蛋白质的研究奠定坚实的理论和实践基础。 三、教学内容与课时分配 第一篇基因组学

第一章绪论(1学时) 第一节基因组学的研究对象与任务; 第二节基因组学发展的历程; 第三节基因组学的分子基础; 第四节基因组学的应用前景。 本章重点: 1. 基因组学的概念及主要任务; 2. 基因组学的研究对象。 本章难点: 1.基因组学的应用及发展趋势; 2.基因组学与生物的遗传改良、人类健康及生物进化。建议教学方法:课堂讲授和讨论 思考题: 查阅有关资料,了解基因组学的应用发展。 第二章人类基因组计划(1学时) 第一节人类基因组计划的诞生; 第二节人类基因组研究的竞赛; 第三节人类基因组测序存在的缺口; 第四节人类基因组中的非编码成分; 第五节人类基因组的概观; 第六节人类基因组多样性计划。 本章重点: 1. 人类基因组的研究; 2. 人类基因组多样性。 本章难点: 人类基因组序列的诠释。 建议教学方法:课堂讲授和讨论 思考题:

大基因组大数据与生物信息学英文及翻译

Big Genomic Data in Bioinformatics Cloud Abstract The achievement of Human Genome project has led to the proliferation of genomic sequencing data. This along with the next generation sequencing has helped to reduce the cost of sequencing, which has further increased the demand of analysis of this large genomic data. This data set and its processing has aided medical researches. Thus, we require expertise to deal with biological big data. The concept of cloud computing and big data technologies such as the Apache Hadoop project, are hereby needed to store, handle and analyse this data. Because, these technologies provide distributed and parallelized data processing and are efficient to analyse even petabyte (PB) scale data sets. However, there are some demerits too which may include need of larger time to transfer data and lesser network bandwidth, majorly. 人类基因组计划的实现导致基因组测序数据的增殖。这与下一代测序一起有助于降低测序的成本,这进一步增加了对这种大基因组数据的分析的需求。该数据集及其处理有助于医学研究。 因此,我们需要专门知识来处理生物大数据。因此,需要云计算和大数据技术(例如Apache Hadoop项目)的概念来存储,处理和分析这些数据。因为,这些技术提供分布式和并行化的数据处理,并且能够有效地分析甚至PB级的数据集。然而,也有一些缺点,可能包括需要更大的时间来传输数据和更小的网络带宽,主要。 Introduction The introduction of next generation sequencing has given unrivalled levels of sequence data. So, the modern biology is incurring challenges in the field of data management and analysis. A single human's DNA comprises around 3 billion base pairs (bp) representing approximately 100 gigabytes (GB) of data. Bioinformatics is encountering difficulty in storage and analysis of such data. Moore's Law infers that computers double in speed and half in size every 18 months. And reports say that the biological data will accumulate at even faster pace [1]. Sequencing a human genome has decreased in cost from $1 million in 2007 to $1 thousand in 2012. With this falling cost of sequencing and after the completion of the Human Genome project in 2003, inundate of biological sequence data was generated. Sequencing and cataloguing genetic information has increased many folds (as can be observed from the GenBank database of NCBI). Various medical research institutes like the National Cancer Institute are continuously targeting on sequencing of a million genomes for the understanding of biological pathways and genomic variations to predict the cause of the disease. Given, the whole genome of a tumour and a matching normal tissue sample consumes 0.1 T B of compressed data, then one million genomes will require 0.1 million TB, i.e. 103 PB (petabyte) [2]. The explosion of Biology's data (the scale of the data exceeds a single machine) has made it more expensive to store, process and analyse compared to its generation. This has stimulated the use of cloud to avoid large capital infrastructure and maintenance costs. In fact, it needs deviation from the common structured data (row-column organisation) to a semi-structured or unstructured data. And there is a need to develop applications that execute in parallel on distributed data sets. With the effective use of big data in the healthcare sector, a

基因组学与生物信息学课后作业

基因组学与生物信息学课后作业2016/2/23 名词解释 1 基因组:基因组是指生物体内遗传信息的集合,是某个特定物种细胞内全部DNA分子的总和 2 基因组学:是一门新兴的学科,是在全基因组范围内研究基因的结构、功能、组成及进化的科学,包括多个分支学科 3 C值:指一个单倍体基因组中DNA的总和,一个特定的物种具有其特征性的C值 4 基因家族:来自于一个共同的祖先基因,由基因重复及其突变产生。序列相似,功能相近。 5 假基因:来源于功能基因,但以失去活性的DNA序列,有沉默的假基因,也有可转录的假基因 6 人类基因组计划:旨在为30多亿碱基对构成的人类基因组精确测序,发现所有人类基因并搞清其在染色体上的位置,破译人类全部遗传信息 问答题

简述真核生物染色体与原核生物染色体的差别。 答:真核生物基因组都由分散的长链线性DNA分子组成,每个DNA分子都与蛋白质结合组成染色体;原核生物基因组有2种独立结构的遗传物质,一种为拟核里的染色质,一种为质粒 另外,真核生物基因组含大量非编码序列(高度重复序列,多位于着丝粒、端粒)、断裂基因,而原核生物大部分基因都可以编码 名词解释 突变:基因组小区段范围内DNA分子发生的突然的、可遗传的变异现象。 重组:指基因组中大范围区段发生重新组合。 同源重组:指发生在非姐妹染色单体(sister chromatin) 之间或同一染色体上含有同源序列的DNA分子之间或分子之内的重新组合 转座:一段DNA片段或其拷贝从染色体的一个位置转移到另一位置,并在插入位点两侧产生一对短的正向重复序列 基因重复:含有基因的DNA片段发生重复,可能因同源重组作用出错而发生,或是因为反转录转座与整个染色体发生重复所导致 比较基因组学:在基因组水平上研究不同物种和品系之间在基因组结构与功能方面的亲缘关系及其内在联系的一门新兴交叉学科

基因组学和蛋白质组学对新药研发的影响

通过校园网进入数据库例如维普期刊数据库、CNKI、超星电子图书等。完成 A、任选一题,检索相关资料,截取检索过程图片,做成一个ppt文件(50分)。 B、写综述形式的学术论文(学术论文格式,字数不限,正文字体小四),做成word文件(50分)。要求:按照自己的思路组织成文件,严禁抄袭。 写明班级学号,打印纸质版交给老师。 1、对检索课题“磷酸对草莓生长和开花的影响”检索中文信息。提示:磷酸的化学物质名称是“Phosphonic acid ”普通商业名称是“ethephon”, 2、基因组学和蛋白质组学对新药研发的影响 3、红霉素衍生物的设计、合成与抗菌活性研究 4、HPLC法测定复方谷氨酰胺肠溶胶囊中L-谷氨酰胺的释放度 姓名:朱艳红 班级: 11生科师范 学号: 11223074 学科教师:张来军

基因组学和蛋白质组学对新药研发的影响琼州学院生物科学与技术学院 11生科师范2班朱艳红 11223074 摘要 20世纪末伴随着人类基因组计划的实施,相继产生了基因组学和蛋白质组学,基因组学和蛋白质组学的迅速发展,对药学科学产生着深远的影响。文章在简介蛋白质组学基本概念、核心技术的基础上,综述了基因组学和蛋白质组学对新药研发带来的影响。 关键词:基因组学;蛋白质组学;药物研发 The impact of genomics and proteomics on the research and development of innovative drug abstract With the implementation of the 20th century,Genomics and proteomics had emerged one after the other. Driven by Soaring development of the omits,pharmaceutical industry presents a new vision,all human life faces a promising future. On the basis of proteomics Introduction to basic concepts, core technology, reviewed the genomics and proteomics research on the impact of new drugs. Keywords:Genomics; proteomics; drug development

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识 ㈠De Novo测序也叫从头测序,是首次对一个物种的基因组进行测序,用生物信息学的分析方法对测序所得序列进行组装,从而获得该物种的基因组序列图谱。 目前国际上通用的基因组De Novo测序方法有三种: 1. 用Illumina Solexa GA IIx 测序仪直接测序; 2. 用Roche GS FLX Titanium直接完成全基因组测序; 3. 用ABI 3730 或Roche GS FLX Titanium测序,搭建骨架,再用Illumina Solexa GA IIx 进行深度测序,完成基因组拼接。 采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件,并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究,为后续的相关研究奠定基础。 实验流程: 公司服务内容 1.基本服务:DNA样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头, 去污染);序列组装达到精细图标准 2.定制服务:基因组注释及功能注释;比较基因组及分子进化分析,数据库搭建;基因组信息展 示平台搭建 1.基因组De Novo测序对DNA样品有什么要求?

(1) 对于细菌真菌,样品来源一定要单一菌落无污染,否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上), OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;每次样品制备需要10 μg样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10 μg。 (2) 对于植物,样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品,最好为纯合或单倍体。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (3) 对于动物,样品来源应选用肌肉,血等脂肪含量少的部位,同一个体取样,最好为纯合。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证,用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式 目前3种测序技术 Roche 454,Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中,Roche 454的单端测序读长可以达到400 bp,经常用于基因组骨架的组装,而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例,对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。 单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。 图1 Single-read文库构建方法图2 Paired-end文库构建方法

生物信息学复习

一、名词解释(31个) 1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程中信 息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。 2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验 数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对:研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的 功能区域,也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树状分支 的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。 5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该是进化 保守的并且在其他物种中具有直系同源性。 指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。(来自百度) 6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会进化出 新的与原来有关的功能。用来描述在同一物种内由于基因复制而分离的同源基因。 (来自百度) 7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或 氨基酸字符串。 8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止密码子 的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。(来自百度)9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域,折 叠得较为紧密,各行其功能,称为结构域。 10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进 行罚分,以控制空位插入的合理性。(来自百度) 11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的 3’或5’端序列。(来自文献) 12.Gene Ontology 协会: 13.HMM 隐马尔可夫模型:将核苷酸序列看成一个随机序列,DNA序列的编码部分与非 编码部分在核苷酸的选用频率上对应着不同的Markov模型。 14.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类 整理和注释 15.序列一致性:指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同 一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性:指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比 例。 17.Blastn:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查 序列作一对一地核酸序列比对。(来自百度) 18.Blastp:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同 每条所查序列作一对一的序列比对。(来自百度)

基因组学(结构基因组学和功能基因组学).

问:基因组学、转录组学、蛋白质组学、结构基因组学、功能基因组学、比较基因组学研究有哪些特点? 答:人类基因组计划完成后生物科学进入了人类后基因组时代,即大规模开展基因组生物学功能研究和应用研究的时代。在这个时代,生命科学的主要研究对象是功能基因组学,包括结构基因组研究和蛋白质组研究等。以功能基因组学为代表的后基因组时代主要为利用基因组学提供的信息。 基因组研究应该包括两方面的内容:以全基因组测序为目标的结构基因组学(struc tural genomics和以基因功能鉴定为目标的功能基因组学(functional genomics。结构基因组学代表基因组分析的早期阶段,以建立生物体高分辨率遗传、物理和转录图谱为主。功能基因组学代表基因分析的新阶段,是利用结构基因组学提供的信息系统地研究基因功能,它以高通量、大规模实验方法以及统计与计算机分析为特征。 功能基因组学(functional genomics又往往被称为后基因组学(postgenomics,它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质的研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。 基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的分析。新的技术应运而生,包括基因表达的系统分析,cDNA微阵列,DNA芯片等。鉴定基因功能最有效的方法是观察基因表达被阻断或增加后在细胞和整体水平所产生的表型变异,因此需要建立模式生物体。 功能基因组学

生物信息学在基因组学中的应用_沈春修

作者简介沈春修(1979-),男,湖南溆浦人,硕士,助教,从事水稻遗传 育种与抗病分子机制方面的研究。 收稿日期 2007!04!01 基因的研究是指在许多基因同时存在的基础上对多个基因同时进行研究,分析各自与它们之间的结构与功能的相互关系。因而它至少涉及3个相关领域:结构基因组———主要关心DNA碱基序列水平上的基因结构;比较基因组———寻找种内、种属间产生基因结构差异的分子基础,以期获取与目的性状相关的基因;功能基因组———着重研究基因与其表达产物及功能活性的调控关系。结构基因组是其他领域的基础,比较基因组为功能基因组研究提供等位基因,蛋白质组则是在蛋白质水平上分析基因表达的功能基因组研究的派生分枝。生物信息学是在前面三者研究的基础上,获取、整理、综合分析提取大量已有复杂生物数据的新学科,对相关学科的研究有很大的推动作用。 1生物信息学在结构基因组中的应用 随着化学分析方法的改进,DNA测序水平的提高,科 研成本的降低,已开始对多种模式生物进行基因组全序列的测序。如拟南芥和水稻的全基因组测序,将来会有越来越多的重要作物基因组被全测序。因而,今后的工作重点将是基因组中信息的分析与鉴定,对植物抗性基因来说,是分析鉴定其组织结构及其相关调控序列的鉴定。结构基因组的研究对抗性基因的研究有许多指导意义。 在现在已知的许多种已克隆的抗性基因(不含Hm1和 Hm2)中,分析其序列结构,都含有或部分含有核苷酸结合 位点(NBS),富含亮氨酸重复(LRR),跨膜结构域(TM)以及丝氨酸-苏氨酸激酶(STK)保守序列。根据已知抗性基因都含有NBS序列的特征,从测序结果中可预测某一生物中含有与抗性基因有关的基因数目有多少[1]。在拟南芥与水稻测序的过程中,发现许多与抗性有关的NBS序列。在已测序的拟南芥67Mb中(相当于大于50%的拟南芥基因组序列),有120个可预见的基因产物与植物抗性基因的NBS结构相似[2]。假设剩余的另外50%未知基因也按这样的比例分布,那么拟南芥中将有200个左右的基因与抗性有关。在这些与抗性有关的200个基因中,它们要么是编码信号传导的组分,要么是编码抗微生物的蛋白,这些基因序列的总长度大约占拟南芥总基因数的1%。而在水稻中,通过对重叠的BAC克隆末端序列分析(占全部水稻基因的5%)来看,大约有750 ̄1500个基因具有编码NBS的能力[3-5]。 从已知抗性基因的定位结果来看,NBS序列在拟南芥基因组中倾向于成簇排列。测序结果也表明,植物中的抗性基因一般与抗性基因的多种同源共生序列在一起,共同组成 高度重复区域,这种区域统称为基因簇。Rpp5基因簇包含 8 ̄10个同源序列,散布在90kb的区域上,并且被蛋白激酶 的假基因与反向转座子等隔开。Cf!4/9基因簇由5个抗性基因同源序列组成,散布在36kb的区域内,Cf!4/9的同源序列被Lox基因隔开,成为高度重复区域。Pto基因簇包含5个同源序列,分布在60kb的区域内,这其中的Prf基因编码NBS!LRR,对Pto基因的功能是必需的。Dm3基因是目前已知的最大的抗性基因,至少由24个抗性基因同源序列组成,横跨3.5Mb。因而,随着更多模式植物的全基因组测序的完成,人们可以从基因组测序信息中直接读出有用数据,分析寻找抗性基因的组织结构特征与分布规律。 2生物信息学在比较基因组学中的应用 随着多种生物的全基因组测序完成,有越来越多的数 据可以直接利用。首先,通过比较多种属植物抗性基因的定位特点,发现抗性基因大多定位在较不稳定的区域,其区域的结构不很保守,如拟南芥的抗性基因RPM1的同源序列在感病表型的植株上丢失[6]。进一步研究发现,抗性基因的位置要么是端粒区域,要么是接近着丝粒区域。例如,通过原位荧光杂交分析得知:莴苣的两抗性基因分别定位在端粒区域与接近着丝粒区域,高粱Rpg1基因位于端粒区域,番茄的Mi基因位于异染色质的着丝粒边缘[7]。第2,通过测序分析,可以确定基因成簇的模式与范围,通过比较种属间亲缘关系,来预测某一功能相似的基因在其他物种中的位置。进而根据已克隆的抗性基因间的相似性,可以采用适当的引物进行PCR扩增获得抗性基因的候选序列,而且这些候选序列的片段均可定位到已知的抗性基因的位置上[8]。从现在公开的数据中,比较多种NBS基因的相似性,用PCR获得了130个候选抗性基因,此数据将继续增长。第3,比较基因组的另一作用在于可以区分同源区域与同源共生区域。这对本身就位于同源共生区域的抗性基因家族可能困难,但是抗性基因相关序列的种间比较结果显示:同源区域比同源共生区域更加相似。这提示:物种为了赶上病原菌的变化步伐而采取快速进化来抵抗随时间而变化的病原群体。通过分析拟南芥的RPm1基因侧翼序列也得到这样的结论。第4,比较基因组学也可对某特定等位基因的变化的分子基础进行研究[9]。至今,只有极少数通过同源重组,实现蛋白质结构域的域置换试验成功。这些结果显示NBS!LRR编码基因的LRR区域是非常重要的,但它不是专一性的唯一决定簇。随着测序效率的提高,将建立抗性基因相关序列的数据库,这些序列信息可作为基因步行试验的模板,为克隆新的抗性基因提供极大的帮助。第5,比较基因组作图表明,染色体上的DNA标记排列具有共线性[10]。如小麦的基 生物信息学在基因组学中的应用 沈春修 (宜春学院,江西宜春336000) 摘要随着计算机科学、物理学、数学等与生命科学的相互渗透和交叉,生物信息学愈来愈显示出其重要性,尤其是在抗病基因的研究中。笔者从结构基因组、比较基因组、功能基因组与生物信息学等方面论述了生物信息学在基因组学中的应用。关键词抗性基因;结构基因组;比较基因组;功能基因组;生物信息学 中图分类号Q78文献标识码A文章编号0517-6611(2007)20-06054-02 安徽农业科学,JournalofAnhuiAgri.Sci.2007,35(20):6054-6055,6057责任编辑王淼责任校对王淼

人类基因组计划和生物信息学

人类基因组计划和生物信息学 徐新来 安道昌 王 芷3 李 青 付红波 (中国生物工程中心 北京100081)(3中国科技信息研究所 北京100038) 提要:介绍人类基因组计划和生物信息学,阐述了两者的关系,提出了在人类基因组计划中发展生物信息学的策略。 一、引 言 人类基因组计划(H um an Genom e P ro 2ject ,H GP )是美国在1990年提出实施的一项大科学计划,在世界各国引起了很大反响。计划的提出旨在对人类基因组3×109 个脱氧核苷酸对进行作图和测序,进而解读和破译生老病死以及语言、记忆和疾病发生的遗传信息。而生物信息学是集生物学、数学、信息学、计算机科学一体化的一门新的学科。早在H GP 提出时就预示到生物信息学的重要性,当时就成立了有42位著名专家组成的生物信息学任务组。随着人类基因组计划的进展,基因组的数据和信息大量,迅速地增加,信息的收集、储存、分发、分析的管理越来越显得紧迫和重要。利用数学模式和计算机处理数据的功能来处理和分析大量增加的人类基因组信息的结果,使人类基因组计划和生物信息学紧紧地结合起来了,而且随着两者的紧密结合和互相渗透,人类基因组计划的前进步伐会大大加快,从而提前完成计划,为人类造福。 二、从人类基因组计划看 生物信息学 美国在1990年率先提出H GP ,计划用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp )的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。 遗传图谱、物理图谱的建立是测序的必要条件;遗传图谱是根据遗传连锁标志之间的重组频率来确定它们的距离,遗传图谱的建立为基因识别和完成基因定位创造了条件。物理图谱是以核苷酸的长度为单位绘制而成,详细描述染色体上界标间的距离,主要是编码蛋白质的外显子和排序DNA 克隆库组成,这些DNA 分子克隆库相互交错、重叠。人类基因组全部DNA 序列的测定是H GP 的核心部分;随着遗 传和物理图谱的完成和即将完成,测序就成为今后重中之重的工作。而大规模测序技术的改进及分析大片段DNA 序列的生物信息技术的进步,对完成人类基因组全部核苷酸顺序测定起着决定性作用。测序的完成依赖物理图谱上的排序的DNA 片段分子克隆,这些分子图谱通常是在较短的时间由一个研究组从单一分离群体中获得的,为了充分利用所有资料信息,要对其全部标记的同时进行分析,这种分析涉及十分庞杂和巨大的计算,手工无法完成。基因识别是H GP 的重要内容之一;目的是要识别全部人类的基因,即基因组在生命活动中发生转录表达的DNA 片段,并对其结构进行研究。目前常采用的有二种方法:一是从基因组顺序中识别那些转录表达的DNA 片段;二是从c D 2 NA 文库中挑取并克隆。两种方法都必须依靠生物信息学的帮助即信息系统的建立;前者需要对基因组进行分析,后者要对基因文库进行分析,甚至还要进行分类分型,建立二级库,才能有效地挑取到所需要的DNA 分子克隆。模式生物基因组在H GP 中占有重要的位置;模 — 06—高技术通讯 1998181

基因组学与蛋白质组学复习要点(答案)

一、名词: Gene 遗传学概念:基因是世代相传的,基因决定了遗传性状的表达,基因的颗粒性主要表现在世代相传的行为和功能表达上具有相对的独立性,基因呈直线排列在染色体上。 分子生物学概念:合成有功能的蛋白质或RNA所必需的全部DNA(部分RNA病毒除外),即一个基因不仅包括编码蛋白质或RNA的核酸序列,还应包括为保证转录所必需的调控序列。 genome 细胞或生物体中,一套完整单体的遗传物质的总和,即某物种单倍体的总DNA。对于二倍体高等生物来说,其配子的DNA总和即一组基因组,二倍体有两份同源基因组。 Protein 生物体中广泛存在的一类生物大分子,由核酸编码的α氨基酸之间通过α氨基和α羧基形成的肽键连接而成的肽链,经翻译后加工而生成的具有特定立体结构的、有活性的大分子。 Proteome (1)由一个基因组所表达的全部相应的蛋白质。(2)在一定条件下,存在于一个体系(包括细胞、亚细胞器、体液等)中的所有蛋白质。 exon 外显子(expressed region)是真核生物基因的一部分,它在剪接(Splicing)后仍会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质 古细菌 定义1:常生活于热泉水、缺氧湖底、盐水湖等极端环境中的原核生物。具有一些独特的生化性质,如膜脂由醚键而不是酯键连接。在能量产生与新陈代谢方面与真细菌有许多相同之处,而复制、转录和翻译则更接近真核生物。古核生物与真核生物可能共有一个由真细菌的祖先歧化而来的共同祖先。所属学科:生物化学与分子生物学(一级学科);总论(二级学科)定义2:现今最古老的生物群,为地球原始大气缺氧时代生存下来的活化石。为单细胞生物,无真正的核,染色体含有组蛋白,RNA聚合酶组成比细菌的复杂,翻译时以甲硫氨酸为蛋白质合成的起始氨基酸,细胞壁中无肽聚糖,不同于真细菌,核糖体蛋白与真核细胞的类似。许多种类生活在极端严酷的环境中。与真核生物、原核生物并列构成现今生物三大进化谱系。 多聚酶链式反应(PCR) 多聚酶链式反应(PCR):一种体外扩增DNA的方法。PCR使用一种耐热的多聚酶,以及两个含有20个碱基的单链引物。经过高温变性将模板DNA分离成两条链,低温退火使得引物和一条模板单链结合,然后是中温延伸,反应液的游离核苷酸紧接着引物从5…端到3?端合成一条互补的新链。而新合成的DNA又可以继续进行上述循环,因此DNA的数目不断倍增。 基因芯片(DNA微阵列)

生物信息学主要内容和发展前景

生物信息学主要内容和发展前景 学生:xxx (x学院xxxx班,学号xxxxxxxxxxx) 摘要:21世纪是生命科学的世纪,伴随着人类基因组计划的胜利完成,人类基因组以及其它模式生物基因组计划的全面实施,使分子生物数据以爆炸性速度增长。及时、充分、有效地利用网络上不断增长的生物信息数据库资源,已经成为生命科学和生物技术研究开发的必要手段,从而诞生了生物信息学。 关键字:生物信息学;产生;研究内容;展现状;前景 随着生物科学技术的迅猛发展,生物信息数据资源的增长呈现爆炸之势,同时计算机运算能力的提高和国际互联网络的发展使得对大规模数据的贮存、处理和传输成为可能,为了快捷方便地对已知生物学信息进行科学的组织、有效的管理和进一步分析利用,一门由生命科学和信息科学等多学科相结合特别是由分子生物学与计算机信息处理技术紧密结合而形成的交叉学科——生物信息学(Bioinformatics)应运而生,并大大推动了相关研究的开展,被誉为“解读生命天书的慧眼”。 一、生物信息学的产生 21世纪是生命科学的世纪,伴随着人类基因组计划的胜利完成,与此同时,诸如大肠杆菌、结核杆菌、啤酒酵母、线虫、果蝇、小鼠、拟南芥、水稻、玉米等等其它一些模式生物的基因组计划也都相继完成或正在顺利进行。人类基因组以及其它模式生物基因组计划的全面实施,使分子生物数据以爆炸性速度增长。在计算机科学领域,按照摩尔定律飞速前进的计算机硬件,以及逐步受到各国政府重视的信息高速公路计划的实施,为生物信息资源的研究和应用带来了福音。及时、充分、有效地利用网络上不断增长的生物信息数据库资源,已经成为生命科学和生物技术研究开发的必要手段,从而诞生了生物信息学。 二、生物信息学研究内容 (一)序列比对 比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础。两个序列的比对现在已有较成熟的动态规划算法,以及在此基础上编写的比对软件包BALST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。有时两个序列总体并不很相似,但某些局部片断相似性很高。Smith-Waterman算法是解决局部比对的好算法,缺点是速度较慢。两个以上序

浅析功能基因组学和蛋白质组学的概念及应用

【摘要】基因组相对较稳定,而且各种细胞或生物体的基因组结构有许多基本相似的特征;蛋白质组是动态的,随内外界刺激而变化。对蛋白质组的研究可以使我们更容易接近对生命过程的认识。蛋白质组学是在细胞的整体蛋白质水平上进行研究、从蛋白质整体活动的角度来认识生命活动规律的一门新学科,简要介绍功能基因组学和蛋白质组学的科学背景、概念及其应用。 【关键词】基因组;功能基因组学;蛋白质组学; 一、基因组及基因组学的概念 基因组(genome)一词系由德国汉堡大学H.威克勒教授于1920年首创,用以表示真核生物从其亲代所继承的单套染色体,或称染色体组。更准确地说,基因组是指生物的整套染色体所含有的全部DNA序列。由于在真核细胞的线粒体和植物的叶绿体中也发现存在遗传物质,因此又将线粒体或叶绿体所携带的遗传物质称为线粒体基因组或叶绿体基因组。原核生物基因组则包括细胞内的染色体和质粒DNA。此外非独立生命形态的病毒颗粒也携带遗传物质,称为病毒基因组。所有生命都具有指令其生长与发育,维持其结构与功能所必需的遗传信息,本书中将生物所具有的携带遗传信息的遗传物质总和称为基因组。[1] 基因组学(genomic)一词系由T.罗德里克(T.Roderick)于1986年首创,用于概括涉及基因组作图、测序和整个基因组功能分析的遗传学学科分支,并已用来命名一个学术刊物Genomics。基因组学是伴随人类基因组计划的实施而形成的一个全新的生命科学领域。[1] 基因组学与传统遗传学其他学科的差别在于,基因组学是在全基因组范围研究基因的结构、组成、功能及其进化,因而涉及大范围高通量收集和分析有关基因组DNA的序列组成,染色体分子水平的结构特征,全基因组的基因数目、功能和分类,基因组水平的基因表达与调控以及不同物种之间基因组的进化关系。基因组学的研究方法、技术和路线有许多不同于传统遗传学的特点,各相关领域的研究仍处于迅速发展和不断完善的过程中。 基因组学的主要工具和方法包括:生物信息学,遗传分析,基因表达测量和基因功能鉴定。 二、功能基因组学的概念及应用

生物信息学名词解释

一、名词解释: 1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37值:衡量序列之间相似性是否显着的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树。 22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找到距离最近的两类将其归为一类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。

相关主题
文本预览
相关文档 最新文档