当前位置:文档之家› 甘蔗几丁质酶基因的电子克隆与生物信息学分析_苏亚春

甘蔗几丁质酶基因的电子克隆与生物信息学分析_苏亚春

甘蔗几丁质酶基因的电子克隆与生物信息学分析_苏亚春
甘蔗几丁质酶基因的电子克隆与生物信息学分析_苏亚春

第9卷第4期2011年12月生物信息学

China Journal of Bioinformatics Vol.9No.4Dec.,2011

收稿日期:2010-03-08;修回日期:2011-04-27.

基金项目:现代农业产业技术体系建设专项资金项目(CARS -20);国家自然科学基金(30700514和31101196)。作者简介:苏亚春,女,汉族,福建晋江,硕士研究生,E -mail :syc2009mail@163.com.*通讯作者:许莉萍,女,汉族,福建莆田,博士,博导、研究员,

E -mail :xlpmail@yahoo.com.cn doi :10.3969/j.issn.1672-5565.2011.04.13

甘蔗几丁质酶基因的电子克隆与生物信息学分析

苏亚春,李国印,阙友雄,郭晋隆,徐景升,许莉萍

*

(福建农林大学农业部甘蔗遗传改良重点开放实验室,福建福州350002)

摘要:用电子克隆方法获得甘蔗几丁质酶基因SCCHI1,采用生物信息学方法,对该基因编码蛋白从氨基酸组成、理化性质、

跨膜结构域、疏水性/亲水性、亚细胞定位、高级结构及功能域等方面进行了预测和分析。结果表明:SCCHI1基因全长1236bp ,包含一个完整的990bp 的ORF ,编码329个氨基酸。SCCHI1基因属于糖苷水解酶19家族,含有N -端信号肽、交连区、催化区,与高粱等其它植物的几丁质酶基因具有高度的相似性。为SCCHI1基因的分子克隆、功能鉴定和应用提供参考。关键词:甘蔗;几丁质酶基因;电子克隆;生物信息学中图分类号:Q785

文献标识码:A

文章编号:1672-5565(2011)-04-322-06

In silico cloning and characterization of chitinase gene from

sugarcane using bioinformatics tools

SU Ya -chun ,LI Guo -yin ,QUE You -xiong ,GUO Jin -long ,XU Jing -sheng ,XU Li -ping *

(Key Laboratory of Sugarcane Genetic Improvement ,Ministry of Agriculture ,Fujian Agriculture &Forestry

University ,Fuzhou Fujian ,China )

Abstract :A novel chitinase gene SCCHI1from sugarcane (Saccharum officinarum )was cloned in silico based on the corresponding sugarcane EST sequences in NCBI database.Some characters of amino acids encoded by SCCHI1gene ,including the composition of amino acid sequence ,physical and chemical properties ,transmembrane do-main ,hydrophobicity /hydrophilicity ,subcellular localization ,secondary and tertiary structure of protein plus the functional domain ,were analyzed by bioinformatics tools.Bioinformatic analysis showed that the full -length SC-CHI1gene from sugarcane was 1236bp and it contained a complete ORF which encoded 329amino acids.Fur-thermore ,SCCHI1belonged to glycoside hydrolase family 19and contained a N -terminal signal peptide ,a hinge region and a catalytic domain ,which was highly conservative among chitinases from several different plant species.The results above provided some references for experimental cloning of SCCHI1gene from sugarcane ,identification and its application.

Keywords :Saccharum officinarum ;Chitinase gene ;In silico cloning ;Bioinformatics 几丁质酶(EC3.2.1.14)是一种降解几丁质的糖苷酶。普遍认为几丁质酶与植物体内防御系统有

关,是一种重要的病程相关蛋白[1]

。高等植物本身不含几丁质,但当其受到真菌、细菌或病毒感染时,

植物几丁质酶活性迅速提高,通过抑制病原真菌的孢子萌发和菌丝生长、破坏细胞新物质的积累,使植物获得系统性抗性

[2]

。因此,几丁质酶在植物保护

尤其在抗真菌病害中的重要作用,越来越受到研究

者的关注,

已经成为抗真菌病害的研究热点之一。迄今,已从近100种植物中检测出几丁质酶活性,许

多植物几丁质酶基因已被克隆,但甘蔗几丁质酶方

面的研究报道还较少

[3,4]

。电子克隆技术(in silico cloning )是基于生物学数据库中EST (expressed sequence tag ,表达序列标

签)数据库、核酸序列数据库和蛋白质数据库等,利用生物信息学工具和计算机技术,采用序列同源比对和聚类分析、重叠区域组装和拼接等方法不断延长EST序列,从而快速获得功能基因的方法[5,6]。该技术具有效率高、成本低、针对性强等优点。目前,利用电子克隆获得植物新基因的报道日益增多[7-10]。

本研究以NCBI数据库中甘蔗EST序列为基础,电子克隆获得甘蔗中编码几丁质酶基因的cD-NA序列,而后利用生物信息学方法,对该基因编码蛋白从氨基酸组成、理化性质、亲/疏水性、亚细胞定位及三级结构等方面进行预测和分析,为后续通过实验手段分离和鉴定甘蔗几丁质酶基因奠定基础。

1材料与方法

1.1电子克隆获得新基因序列

以玉米(Zea mays)chiI基因(序列登录号:AY532757.1)作为查询探针,利用NCBI中的Blast 工具,搜索甘蔗EST数据库,对得到的同源性甘蔗EST序列进行聚类、拼接、延伸,并以新获得的重叠群(Contig)为新探针,继续搜索EST数据库,直到没有新的甘蔗EST可供拼接为止。将拼接完成的新基因序列在非冗余数据库中进行比对搜索,确认为新基因序列。

1.2生物信息学分析

核酸及氨基酸序列组成分析、开放阅读框(open reading frame,ORF)的查找和翻译、编码蛋白的理化性质分析,分别采用DNAstar软件及ORF Finder、Prot-Param、pI/Mw等在线工具完成;信号肽预测采用SignalP3.0Server软件完成;亲水性/疏水性分析利用在线工具ExPASy-ProtScale完成;编码蛋白的亚细胞定位通过软件psort进行预测;蛋白质二级及三级结构的预测利用SOPMA和ESyPred3D等在线工具完成[9,11];核酸和氨基酸序列的同源性比对及多序列比对借助于Blast在线工具和Vector NTI 软件完成。

2结果与分析

2.1甘蔗几丁质酶基因cDNA全长获取

以玉米chiI基因(Gene Id:AY532757.1)作为探针,经数据库比对搜索后,得到15条与之同源性较高的甘蔗EST序列。借助DNAStar软件进行拼接,获得一个1236bp重叠群序列。通过ORF Find-er软件预测,该序列具有完整的开放读码框(ORF 80bp-1069bp),具有起始密码子ATG和终止密码子TAG,故推测其为一条全长cDNA序列,命名为SCCHI1。图1为该基因的拼接示意图,图2显示经电子克隆得到的序列信息

图1甘蔗几丁质酶基因的cDNA序列拼接示意图

Fig.1The joint map of chitinase cDNA

sequence from

sugarcane

图2电子克隆获得的SCCHI1基因cDNA序列

及其推导的氨基酸序列(*终止密码子)

Fig.2Nucleotide acid sequence and deduced

amino acid sequence of SCCHI1obtained

by in silico cloning(*stop codon)

2.2SCCHI1基因编码氨基酸的一级结构分析经预测,甘蔗几丁质酶基因SCCHI1编码氨基酸的一级结构如表1所示。

表1SCCHI1的一级结构预测分析

Table1Primary structure analysis of SCCHI1

一级结构特性预测结果

编码的氨基酸数/个329

等电点(PI)6.83

分子量(MW)/Da34128.2

负电荷残基(Asp+Glu)/个21

正电荷残基(Arg+Lys)/个21

分子式C1493H2258N410O465S23

不稳定系数(II)32.13

平均疏水性(GRAVY)-0.170

脂肪系数(AI)55.38

2.3SCCHI1蛋白信号肽预测与分析

采用SignalP3.0Server预测SCCHI1的信号肽,结果如图3、表2。由图3、表2可知,SCCHI1基

323

第4期苏亚春,等:甘蔗几丁质酶基因的电子克隆与生物信息学分析

因的编码蛋白在氨基酸序列的20和21位置上有一

个潜在的信号肽断裂位点,概率为0.965。并且,C 最大值与Y 最高峰以及S 最高值处于同一区域,因

此,SCCHI1含有信号肽,该蛋白的成熟肽链可能起始于22位,假定信号肽概率1.000。该预测与前人文献报道的在几丁质酶N -端信号区由20多个氨基酸组成,可以引导几丁质酶运输到内质网,与酶的

抑菌活性有关的特性一致[12]

图3SCCHI1信号肽预测

Fig.3

Signal P -NN prediction for SCCHI1

表2

SCCHI1信号肽预测

Table 1

Signal P -NN prediction for SCCHI1

指标(Measure )

位点(Site )分值(Score )有无信号肽(Signal peptide ?)

max.C 210.901有

max.Y 210.833有max.S

13

0.994

注:C score :原始剪切位点的分值;S score :信号肽的分值;Y score :

综合剪切位点的分值

图4SCCHI1氨基酸疏水性/亲水性的预测Fig.4

Predicted hydrophobicity /hydrophilicity of the

deduced amino acid sequence of SCCHI1

2.4

SCCHI1蛋白疏水性/亲水性分析

借助ProtScale 对SCCHI1基因编码的氨基酸序

列的疏水性/亲水性进行预测(图4)。由图4可以

看出,SCCHI1多肽链的第9、10、11号具有最高分值(2.500),疏水性最强,这种现象与几丁质酶N 端信号肽中含有一高度疏水区的特性相符[13]

2.5亚细胞定位

蛋白亚细胞定位是研究蛋白质功能很重要的方

面,

本研究使用psort 软件对SCCHI1蛋白的细胞内定位进行预测,结果见表3。由表3可知,SCCHI1蛋白定位在胞外或细胞间隙的可能性较大。

表3SCCHI1蛋白的亚细胞定位

Table 3

Subcellular location of SCCHI1protein

定位概率胞外(outside )

0.523微体(过氧物酶体)microbody (peroxisome )0.138内质网(膜)endoplasmic reticulum (membrane )0.100内质网(腔)endoplasmic reticulum (lumen )

0.100

2.6

SCCHI1蛋白的二级结构预测

通过SOPMA 方法,

SCCHI1二级结构的预测结果如图5、表4所示。由图5和表4可以看出,无规则卷曲的比例最高,为58.97%,其次是α螺旋(25.23%),而延伸链和β折叠所占的比例低,分别只有10.94%和4.86%

图5

预测的SCCHI1蛋白二级结构

Fig.5

Predicted secondary structure of SCCHI1protein

表4

SCCHI1蛋白的二级结构预测分析

Table 4

Secondary structure prediction of SCCHI1protein

二级结构类型氨基酸残基数/个

百分比/%α螺旋Alpha helix 8325.23延伸链Extended strand 3610.94β折叠Beta turn 144.86无规则卷曲Random coil

194

58.97

注:Helix :Alpha helix (α螺旋)Sheet :Extended strand (延伸链)Turn :Beta turn (β折叠)Coil :Random coil (无规则卷曲

图6SCCHI1蛋白保守结构域预测分析

Fig.6

Conserved domain prediction of SCCHI1protein

423生物信息学第9卷

2.7

SCCHI1蛋白结构域分析

使用NCBI 的CDD (Conserved Domain Database )

数据库,对SCCHI1基因编码蛋白序列进行保守结构域分析(图6)。结果显示,其编码链具有典型的几丁质酶结构域,隶属于糖苷水解酶19家族,同时又

与溶菌酶相似超家族基因的保守结构域类似,推测该基因兼具溶菌酶活性。

2.8SCCHI1蛋白结构域三维结构预测

利用ExPASy 服务器的SWISS -MODEL 工具预测蛋白质的三维结构和Discovery studio viewerpro 软件查看预测结果如图7,可知SCCHI1蛋白空间结构主要由螺旋和无规则卷曲构成。把SCCHI1空间构象模拟图与高粱、玉米、水稻的模拟图进行比较,发现螺旋等空间结构特点基本相同

图7高粱、玉米、水稻、甘蔗蛋白空间构象模拟图Fig.7

The conformation simulated maps of CHI proteins for

Sorghum bicolor ,Z.mays ,O.sativa and S.officinarum

2.9SCCHI1同源性分析及系统进化树的构建

几丁质酶基因属于家族基因,将本研究电子克

隆得到的SCCHI1基因与来自高粱(Sorghum bicolor XP_002488863.1)、玉米(Zea mays AAT40016.1)、水稻(Oryza sativa Japonica Group NP_001050373.2)、蓖麻(Ricinus communis XP_002525743.1)、拟南芥(Ar-abidopsis thaliana XP _002884907.1)、葡萄(Vitis vinifera XP_002269824.1)、毛果杨(Populus trichocar-pa XP _002312923.1)和小麦(Triticum aestivum AAR11388.1)等的几丁质酶基因进行同源性比对,

其核酸序列的同源性分别达到了91%、

88%、77%、61%、67%、68%、66%和78%。运用Vector NTI 软件,对SCCHI1基因与高粱等上述8种植物的几丁质酶基因编码的氨基酸序列进行多重比对(图8)。由图8可以看出,SCCHI1蛋白和其他8种植物几丁质酶在CBD (几丁质结合区)较为保守,

尤其是8个位置基本固定的半胱氨酸残基及一些亲水性残基内的某些氨基酸是高度保守的,该区域主要负责

与几丁质结合,

促使催化域更好地发挥水解作用[3]

。从图7的第78至100位点处,

SCCHI1蛋白含有6个脯氨酸和4个甘氨酸,这23个氨基酸符合几丁质酶交连区特性

[14]

。此后的蛋白序列可能是几丁质酶

的主要结构区,即催化区,该区段的氨基酸序列较为

保守。

通过Vector NTI 软件比对,构建了甘蔗SCCHI1蛋白的氨基酸序列与高粱、玉米、水稻、小麦等几丁质酶氨基酸序列的进化树(图9)。甘蔗与高粱的亲缘关系最近,其次是玉米,而与拟南芥、葡萄、毛果杨相对亲缘较远。基于氨基酸序列分析的亲缘关系判断结果与基于传统进化的亲缘关系判断相同。

3讨论与结论

人类基因组图谱公布后,新基因搜寻和蛋白质功能分析迅速成为研究热点。以计算机和互联网为工具的电子克隆技术,

利用现有的表达序列标签和生物信息数据库,不仅可以促进新基因的发掘,还能为功能基因组学与蛋白质组学研究提供新的线索和

基础[5,16-17]

。截止2010年3月26日,已经有262113条甘蔗EST 在NCBI 上发布,而且,还在继续增

加,同时,利用电子克隆技术分离甘蔗基因已经有成

功的事例

[15]

,相关研究将加速甘蔗新基因的发现和功能鉴定研究。本研究以甘蔗EST 数据库为基础,采用电子克隆技术与生物信息学分析相结合,获得了一个甘蔗几丁质酶基因SCCHI1。该基因全长1236bp ,编码329个氨基酸,分子量为34128.2Da ,等电点为6.83。SCCHI1基因所编码的氨基酸序列属于糖苷水解酶19家族,二级结构以无规则卷曲和α螺旋为主。SCCHI1蛋白三级结构具有几丁质酶N -端信号肽、几丁质结合区、交连区和催化区,所以推测该几丁质酶为Ⅰ类酶,且其蛋白序列保守区与溶菌酶相似超家族相似,推测兼具溶菌酶活性。SCCHI1蛋白有一段21个氨基酸组成的信号肽,推测为一种分

泌蛋白,

这与亚细胞定位预测其可能定位于胞外相吻合。根据同源性比对,该蛋白质在进化上较保守,

5

23第4期苏亚春,等:甘蔗几丁质酶基因的电子克隆与生物信息学分析

与多种植物的氨基酸序列极为相似,可能执行相似的功能

图8

SCCHI1所编码的氨基酸与其它植物来源几丁质酶氨基酸序列比对

(*表示半胱氨酸,#表示甘氨酸,▲表示脯氨酸)

Fig.8

Homology analysis of SCCHI1encodes amino acids sequences and those from other plant species

The cystein ,glicine and proline are indicated by asterisk (*),well number (#)and triangular number (▲),

respectively.

图9甘蔗SCCHI1基因与其它植物来源的几丁质酶基因核酸序列进化树Fig.9

Phylogenetic tree of the nucleic acids sequences of SCCHI1from sugarcane

and chitinase genes from other plant species

综上所述,虽然有关SCCHI1基因的分子克隆及其功能有待进一步的实验验证,本研究所获得的包含一个完整ORF 的甘蔗几丁质酶基因SCCHI1,为

通过分子生物学手段直接从甘蔗中分离几丁质酶基

因提供了依据。

(下转第330页)

3结论

从上述结果可见,密码对中双碱基分布是不均匀的,特别是在密码子第三位.与其下游紧邻密码子的第一位点的碱基分布非均匀性更为显著,这表叫双碱基的分布与密码对的偏好性有显著的相关性。其次,密码对的搭配与密码子的相对使用频率有关。通过统计6种生物的r值发现:不同生物所偏好的密码对是不同的。不同生物密码对的使用偏好,目前还找不出有什么规律。根据r值的定义,密码对的使用已经消除了同义密码子非均匀使用以及密码子含量的影响。我们认为,每种生物密码对的使用一方面与保持DNA序列的某种稳定性有关,另一方面反映了生物本身的特点,根据前面的结论,密码对的搭配还反映了基因的进化。仔细的研究密码对的偏好使用,必定会更加深入的

参考文献(References):

[1]Kolaskar A.S.,and Reddy B.V.B,Contextual constraints On co-don pair usage:structural and biologicalimplications[J]

.JBiomolStrucDyn,1986,3:725-728

[2]FolleyL.S.and Yams M.Codon contexts from weakly expressed genes reduce expression in vivo[J].J.Mol.Biol,1989,209:359,

378

[3]GutmanG.A.,Hatfield G.W.Nonrandom utilization Of codon pairs in Escherichia coli,Proc[J].Natl.Acad.https://www.doczj.com/doc/0918364176.html,A,1989,86:

3699-3703

[4]Boycheva S.,Chkodrov G,Lvanov L.Codon pairs in the genome of Escherichia coli[J].J Bioinformatics,2003,19(8):987-998[5]Wang F.P.,Li H.Codon-pair usage and genome evolution[J]Gene,2009,433:8,15

[6]王芳平,李宏.密码对的使用与基因组进化[J].生物物理学报,2007,23(3):176-184

[7]王芳平,李宏,李永香.大肠杆菌与酵母基因组中密码对使用的比较[J].内蒙古大学学报(自然科学版),2006,37(1):34

-39

[8]李宏,罗辽复,大肠杆菌基因编码区5’端碱基的统计分布析[J].内蒙古大学学报(自然科学版),1998,29(9):777-781[9]李宏,罗辽复.大肠杆菌终止密码子前后序列碱基的统计分析[J].内蒙古大学学报(自然科学版),1999,30(2):177-182[10]Sharp P.M.,Li W.H.Codon usage im regulatory genes in Esche-richia coli does not reflect selection for'rare'codons[J].Nucleic

acids Res.,1986,14(19)7737-7749

[11]于志坚,王芳平,方玉田,李宏.大肠杆菌密码对使用的规律[J].基因组学与应用生物学,2010,29(5):976-981[12]李宏,罗辽复.大肠杆菌基因编码区碱墓分布非均匀性的研究[J].内蒙古大学学报(自然科学版),1999,30(4):422-

430

[13]LiH,LuoL.F.The relation between codon usage genes,base cor-relation and gene expression level in Escherichia coil and yeast

[J].J.Theor.BioL.,1996,181:111,124

[14]王巍,卢卫红,孙野青.基于基因本体论的模式生物分子功能布异同[J].生物信息学,2010,8(3):228-232,236.

(上接第326页)

参考文献(References):

[1]欧阳石文,赵开军,冯兰香,谢丙炎.植物几丁质酶的研究进展[J].生物工程进展,2001,21(4):30-34.

[2]马汇泉,甄惠丽,孙伟萍.几丁质酶及其在抗植物真菌病害中的作用[J].微生物学杂志,2004,24(3):50-53.

[3]欧阳石文,赵开军,冯兰香.植物几丁质酶的结构与功能、分类及进化[J].植物学通报,2001,18(4):418-426.

[4]顾丽红,张树珍,杨本鹏,蔡文伟,黄东杰,王文志,李娇.几丁质酶和β-1,3-葡聚糖酶基因导入甘蔗[J].分子植物育

种,2008,6(2):277-280.

[5]王冬冬,朱延明,李勇,李杰,柏锡.电子克隆技术及其在植物基因工程中的应用[J].东北农业大学学报,2006,37(3):

403-408.

[6]胡皝,萧浪涛.生物信息学在新基因全长cDNA电子克隆中的应用[J].生物技术通讯,2007(4):93-96.

[7]黄骥,王建飞,张红生,曹雅君,林长发,王东,杨金水.水稻葡糖糖-6-磷酸脱氢酶cDNA的电子克隆[J].遗传学报,2002,29(11):1012-1016.

[8]刘庆坡,冯英,董辉.水稻线粒体丝氨酸羟甲基转移酶基因的电子克隆[J].生物信息学,2005,3(1):5-9.

[9]杨鹏雅,李开绵,周建国,王文泉.蓖麻WRKY基因的电子克隆及其生物信息学分析[J].现代农业科学,2009,16(5):22

-25.

[10]林元震,郭海,黄少伟,刘纯鑫,刘天颐,陈晓阳.火炬松DREB1基因的电子克隆与生物信息学分析[J].生物信息

学,2010,8(1):43-46.

[11]武雪,黄晓丽,王之.葡萄乙醇脱氢酶基因Ⅲ的电子克隆及生物信息学分析[J].生物技术通报,2009(5):71-75.[12]张志忠,吴菁华,吕柳新,林义章.植物几丁质酶及其应用研究进展[J].福建农林大学学报(自然科学版),2005,34

(4):494-499.

[13]Von HG.Life and death of a signal peptide[J].Nature,1998,396(6707):111-113.

[14]陈三凤,刘德虎,李季伦.植物几丁质酶的结构、基因及其表达[J].生物工程进展,1998,18(2):33-36.

[15]李国印,阙友雄,许莉萍,郭晋隆,闫学兵,陈如凯.甘蔗MYB2转录因子的电子克隆和生物信息学分析[J].生物信

息学,2011,9(1):24-27.

[16]陈国强,孟鹏,刘李黎,陈刚,王萍.高粱抗坏血酸过氧化物酶基因的电子克隆及序列分析[J].生物信息学,2011,9(2):

125-130.

[17]林立震,郭海,黄少伟,刘纯鑫,刘天颐,陈晓阳.火炬松DRE-BI基因的电子克隆与生物信息学分析[J].生物信息学,

2010,8(1):43-46.

【高中生物】功能基因的克隆及生物信息学分析

(生物科技行业)功能基因的克隆及生物信息学分析

功能基因的克隆及其生物信息学分析 摘要:随着多种生物全基因组序列的获得,基因组研究正从结构基因组学(structuralgenomics)转向功能基因组学(functionalgenomics)的整体研究。功能基因组学利用结构基因组学研究获得的大量数据与信息评价基因功能(包括生化功能、细胞功能、发育功能、适应功能等),其主要手段结合了高通量的大规模的实验方法、统计和计算机分析技术[1],它代表了基因分析的新阶段,已成为21世纪国际生命科学研究的前沿。功能基因组学是利用基因组测序获得的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使生物学研究从对单一基因或蛋白的研究转向多个基因或蛋白同时进行系统的研究,是在基因组静态的组成序列基础上转入对基因组动态的生物学功能学研究[2]。如何研究功能基因,也成为我们面临的一个课题,本文就克隆和生物信息学分析在研究功能基因方面的应用做一个简要的阐述。 关键词:功能基因、克隆、生物信息学分析。 1.功能基因的克隆 1.1图位克隆方法 图位克隆又称定位克隆,它是根据目标基因在染色体上确切位置,寻找与其紧密连锁的分子标记,筛选BCA克隆,通过染色体步移法逐步逼近目的基因区域,根据测序结果或用BAC、YAC克隆筛选cDNA表达文库寻找候选基因,得到候选基因后再确定目标基因。优点是无需掌握基因产物的任何信息,从突变体开始,逐步找到基因,最后证实该基因就是造成突变的原因。通过图位克隆许多

控制质量性状的单基因得以克隆,最近也有报道某些控制数量性状的主效基因(控制蕃茄果实大小的基因克隆[3]、控制水稻成熟后稻谷脱落基因克隆[4]以及小麦VRN2基因克隆[5]等)也通过图位克隆法获得。 1.2同源序列克隆目的基因 首先根据已知的基因序列设计PCR引物,在已知材料中扩增到该片段,并经克隆测序验证,利用放射性同位素标记或其他非同位素标记该PCR片段作为探针,与待研究材料的cDNA文库杂交,就可以获得该基因cDNA克隆,利用克隆进一步筛选基因组文库,挑选阳性克隆,亚克隆并测序,从中就可以筛选到该基因的完整序列。 1.3结合连锁和连锁不平衡的分析方法 结合连锁和连锁不平衡的分析方法是未知基因克隆研究领域发展的新方向[6]。(Linkagedisequilibrium,LD)。与连锁分析不同,连锁不平衡分析可以利用自然群体中历史发生的重组事件。历史上发生的重组使连锁的标记渐渐分布到不同的同源染色体上,这样就只有相隔很近的标记才能不被重组掉,从而形成大小不同的单倍型片段(Haplotypeblock)。这样经过很多世代的重组,只有相隔很近的基因,才能仍处在相同的原始单倍型片段上,基因间的连锁不平衡才能依然存在。所以基于连锁不平衡分析,可以实现目的基因的精细定位。林木大多为自由授粉的异交物种,所以连锁不平衡程度很低,林木基因组中的LD可能会仅局限于非常小的区域,这就为目的基因的精细定位提供了可能,结合SNP检测技术,科学家甚至可以将效应位点直接与单个的核苷酸突变关联起来,进行数量性状寡核苷酸

生物信息学软件及使用概述

生物信息学软件及使 刘吉平 liujiping@https://www.doczj.com/doc/0918364176.html, 用概述 生 物秀-专心做生物! w w w .b b i o o .c o m

生物信息学是一门新兴的交叉学生物信息学的概念: 科,它将数学和计算机知识应用于生物学,以获取、加工、存储、分类、检索与分析生物大分子的信息,从而理解这些信息的生物学意义。 生 物秀-专心做生物! w w w .b b i o o .c o m

分析和处理实验数据和公共数据,生物信息学软件主要功能 1.2.提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验 3.实验数据的自动化管理 4.寻找、预测新基因及其结构、功能 5.蛋白质高级结构及功能预测(三维建模,目前研究的焦点和难点) 生 物秀-专心做生物! w w w .b b i o o .c o m

功能1. 分析和处理实验数据和公共数据,加快研究进度,缩短科研时间 ?核酸:序列同源性比较,分子进化树构建,结构信息分析,包括基元(Motif)、酶切点、重复片断、碱基组成和分布、开放阅读框(ORF ),蛋白编码区(CDS )及外显子预测、RNA 二级结构预测、DNA 片段的拼接; ?蛋白:序列同源性比较,结构信息分析(包括Motif ,限制酶切点,内部重复序列的查找,氨基酸残基组成及其亲水性及疏水性分析),等电点及二级结构预测等等; ?本地序列与公共序列的联接,成果扩大。 生 物秀-专心做生物! w w w .b b i o o .c o m

Antheprot 5.0 Dot Plot 点阵图 Dot plot 点阵图能够揭示多个局部相似性的复杂关系 生 物秀-专心做生物! w w w .b b i o o .c o m

JMJD2B基因的生物信息学分析

JMJD2B基因的生物信息学分析 2006级本硕一班谢泽飞 指导老师:吴炳礼,许丽艳,李恩民 一对该基因的初步认识 JMJD2B基因是JMJB2基因家族中的一员,而说到该基因的来龙去脉还得从它的家族谈起。JMJD2家族是通过体外克隆的方式从一个编号为KIAA0867的人脑分粒cDNA文库中获得的,而且通过与JMJD1C基因的比较,更加明确了该基因家族的结构特点。该基因家族主要含有一个JmjN,JmjC,JD2H功能域,两个TUDOR功能域。有趣的是在该基因家族的C端末尾的第二个TUDOR功能域上有一个双向的出核入核定位信号,而这似乎提示了某些问题。现在我们对这整个家族有了一个初步的认识,再来看JMJD2B这个基因: 定位:19p13.3 全长:1096 AA 分子量:121896 Da 等电点:6.79 含有2个锌指结构,均为PHD型: 731-789 MCFTSGGENT EPLPANSYIG DDGTSPLIAC GKCCLQVHAS CYGIRPELVN EGWTCSRCA 851-907 KCVYCRKRMK KVSGACIQCS YEHCSTSFHV TCAHAAGVLM EPDDWPYVVS ITCLKHK 在15-57 处含有JmjN功能域,146-309含有JmjC功能域. 二该基因的主要生物学功能 第一点,通过进化树的分析,显示该基因在马这一动物中高度保守。

通过分析该基因的序列,在数据库中查找其同源序列,进而选取不同物种的代表基因进行进化树分析,我们可以看到,马这个物种的被归到了低等的昆虫中去了,按照进化的理论,应该不会出现这种情况的,于是,我们推断,该基因在马这个物种中特别保守,所以进化中的变异非常的小。再进一步想,该基因对马这个物种可能是很重要的,那么为什么这个基因会如此重要呢?通过查找文献,我得出下面的另一个结论,就是该基因的生物学功能:该基因具有去甲基化作用。当然,由于实验不是在马身上做的,我们也就只能得出一般性的结论。 第二点,参与组蛋白去甲基的作用,主动且有普遍特异性。 很显然,越来越多的研究表明,在真核细胞中组蛋白的甲基化修饰水平是该细胞的表观遗传的活跃程度的一个很重要指标。而JMJD2B的这个功能的意义是重大的,其能够使染色体核周异染色体的核周组蛋白去甲基化,进而对细胞的遗传进行表观遗传的调控。研究人员利用间接荧光免疫法进行追踪发现,在两组对照的雌鼠JMJD2B-GFP底物系统中,JMJD2B基因过度表达的一组,H3K9me3水平明显低于另外正常的那一组,都转变为H3K9me1的构型,这说明了JMJD2B 的特异去甲基作用,而且这一过程是主动的,都发生在细胞染色体复制前的一瞬间,速度非常快。但是,在巨大组蛋白中,该基因有表现出可以同时参与H3K9me3和H3K9me2的去甲基作用。

大基因组大数据与生物信息学英文及翻译

Big Genomic Data in Bioinformatics Cloud Abstract The achievement of Human Genome project has led to the proliferation of genomic sequencing data. This along with the next generation sequencing has helped to reduce the cost of sequencing, which has further increased the demand of analysis of this large genomic data. This data set and its processing has aided medical researches. Thus, we require expertise to deal with biological big data. The concept of cloud computing and big data technologies such as the Apache Hadoop project, are hereby needed to store, handle and analyse this data. Because, these technologies provide distributed and parallelized data processing and are efficient to analyse even petabyte (PB) scale data sets. However, there are some demerits too which may include need of larger time to transfer data and lesser network bandwidth, majorly. 人类基因组计划的实现导致基因组测序数据的增殖。这与下一代测序一起有助于降低测序的成本,这进一步增加了对这种大基因组数据的分析的需求。该数据集及其处理有助于医学研究。 因此,我们需要专门知识来处理生物大数据。因此,需要云计算和大数据技术(例如Apache Hadoop项目)的概念来存储,处理和分析这些数据。因为,这些技术提供分布式和并行化的数据处理,并且能够有效地分析甚至PB级的数据集。然而,也有一些缺点,可能包括需要更大的时间来传输数据和更小的网络带宽,主要。 Introduction The introduction of next generation sequencing has given unrivalled levels of sequence data. So, the modern biology is incurring challenges in the field of data management and analysis. A single human's DNA comprises around 3 billion base pairs (bp) representing approximately 100 gigabytes (GB) of data. Bioinformatics is encountering difficulty in storage and analysis of such data. Moore's Law infers that computers double in speed and half in size every 18 months. And reports say that the biological data will accumulate at even faster pace [1]. Sequencing a human genome has decreased in cost from $1 million in 2007 to $1 thousand in 2012. With this falling cost of sequencing and after the completion of the Human Genome project in 2003, inundate of biological sequence data was generated. Sequencing and cataloguing genetic information has increased many folds (as can be observed from the GenBank database of NCBI). Various medical research institutes like the National Cancer Institute are continuously targeting on sequencing of a million genomes for the understanding of biological pathways and genomic variations to predict the cause of the disease. Given, the whole genome of a tumour and a matching normal tissue sample consumes 0.1 T B of compressed data, then one million genomes will require 0.1 million TB, i.e. 103 PB (petabyte) [2]. The explosion of Biology's data (the scale of the data exceeds a single machine) has made it more expensive to store, process and analyse compared to its generation. This has stimulated the use of cloud to avoid large capital infrastructure and maintenance costs. In fact, it needs deviation from the common structured data (row-column organisation) to a semi-structured or unstructured data. And there is a need to develop applications that execute in parallel on distributed data sets. With the effective use of big data in the healthcare sector, a

生物信息学考试试卷修订稿

生物信息学考试试卷 WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-

一、名词解释(每小题4分,共20分) 1、生物信息学 广义:生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达;细胞、组织、器官的生理、病理、药理过程的中各种生物信息。 狭义:生物分子信息的获取、存贮、分析和利用。 2、人类基因组计划 人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。 3、蛋白质的一级结构 蛋白质的一级结构是指多肽链中氨基酸的序列 4、基因 基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。 5、中心法则 是指遗传信息从传递给,再从RNA传递给,即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。 6 、DNA序列比较 序列比较的根本任务是:(1)发现序列之间的相似性;(2)辨别序列之间的差异 目的: 相似序列相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系 7、一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 8、基因识别 基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。 9、系统发生学 系统发生学(phylogenetics)——研究物种之间的进化关系。 10、基因芯片 基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。

甘蔗MYB2转录因子的电子克隆和生物信息学分析

第9卷第1期2011年3月生物信息学 China Journal of Bioinformatics Vol.9No.1Mar.,2011 收稿日期:2010-04-29;修回日期:2010-09-06.基金项目:国家948项目(2010-C21)。 作者简介:李国印,男,山东菏泽,硕士研究生E -mail :lyion029@163.com. *通讯作者:许莉萍,女,福建莆田,博士,博导、研究员,E -mail :xlpmail@yahoo.com.cn. doi :10.3969/j.issn.1672-5565.2011.01.006 甘蔗MYB2转录因子的电子克隆和生物信息学分析 李国印,阙友雄,许莉萍* ,郭晋隆,闫学兵,陈如凯 (福建农林大学农业部甘蔗遗传改良重点开放实验室,福建福州350002) 摘要:用电子克隆方法获得甘蔗MYB2基因,采用生物信息学方法,对该基因编码蛋白从氨基酸组成、理化性质、跨膜结构 域、 疏水性/亲水性、亚细胞定位、高级结构及功能域等方面进行了预测和分析。结果表明:甘蔗MYB2基因全长991bp ,包含570bp 的ORF ,编码189个氨基酸。甘蔗MYB2基因包含有MYB 功能域,在序列组成、高级结构及活性位点等方面,与玉米等其它植物的MYB2基因具有高度的相似性。研究结果为该基因的实验克隆奠定基础。关键词:甘蔗;MYB2基因;电子克隆;生物信息学中图分类号:Q785 文献标识码:A 文章编号:1672-5565(2011)-01-024-04 Electronic cloning and characterization of MYB 2gene from Saccharum officinarum using bioinformatics tools LI Guo-yin ,QUE You-xiong ,XU Li-ping *,GUO Jin-long ,YAN Xue-bing ,CHEN Ru-kai (Key Laboratory of Sugarcane Genetic Improvement ,Ministry of Agriculture ,Fujian Agriculture&Forestry University ,Fuzhou 350002,China ) Abstract :An novel MYB2gene from Saccharum officinarum was cloned in silico based on the EST seqences from Unigene of NCBI.Some characters of the MYB2encodes amino acid were analyzed and predicted by the tools of bioinformatics in the following aspects ,including the compositon of amino acid sequence ,hydrophobicity or hydro-philicity ,secondary and tertiary structure of protein and funcion.Bioinformatical analysis showed that the full -length of MYB2gene from S.officinarum was 991bp and it contained a complete ORF which encoded 189amino acid.The MYB2gene contained an typical MYB domain and was highly conservative compared with MYB2from several different plant species in sequence compositon ,advanced structure and activity sites.The results will pro-vide the basis for MYB2gene cloning in experiment. Key words :Saccharum officinarum ,MYB2gene ,In silico cloning ,Bioinformatics 在植物中首先从玉米中克隆了含有MYB 结构 域的转录因子C1基因[1] , 此后在植物中发现的MYB 相关基因的数量迅速增加。对其功能的研究表明,植物MYB 转录因子具有广泛的生理功能,几乎参与植物发育和代谢的各个方面,重点是调控环境胁迫,如干旱和病害逆境胁迫、次生代谢调节、激素调控应答及控制细胞分化等。 植物MYB2转录因子是MYB 大家族中一个小的亚族,虽然不同植物的MYB2基因具有不同的生物学功能 [2,3] ,但它们都是在转录水平上调控植物 各个阶段的生长发育。通过突变体及基因敲除技 术,已克隆了很多植物MYB 类基因,但在甘蔗MYB 方面研究甚少。 以NCBI 数据库为基础,电子克隆得到甘蔗中编码MYB2的cDNA 序列,利用生物信息学方法,对该基因编码蛋白从氨基酸组成、理化性质、疏水性、亚细胞定位及结构功能等方面进行预测和分析,为后续通过实验手段克隆甘蔗MYB2基因和基因功能研究奠定基础。

生物信息学的主要研究内容

常用数据库 在DNA序列方面有GenBank、EMBL和等 在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等 在蛋白质和其它生物大分子的结构方面有PDB等 在蛋白质结构分类方面有SCOP和CATH等 生物信息学的主要研究内容 1、序列比对(Alignment) 基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础,非常重要。两个序列的比对有较成熟的动态规划算法,以及在此基础上编写的比对软件包BLAST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。 2、结构比对 基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。 3、蛋白质结构预测,包括2级和3级结构预测,是最重要的课题之一 从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建(Homology)和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。 4、计算机辅助基因识别(仅指蛋白质编码基因)。最重要的课题之一 基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。 5、非编码区分析和DNA语言研究,是最重要的课题之一 在人类基因组中,编码部分进展总序列的3~5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA 序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。 6、分子进化和比较基因组学,是最重要的课题之一 早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。 7、序列重叠群(Contigs)装配 一般来说,根据现行的测序技术,每次反应只能测出500或更多一些碱基对的序列,这就有一个把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。拼接EST数据以发现全长新基因也有类似的问题。已经证明,这是一个NP-完备

功能基因的克隆及生物信息学分析

功能基因的克隆及其生物信息学分析 摘要:随着多种生物全基因组序列的获得,基因组研究正从结构基因组学(structural genomics)转向功能基因组学(functional genomics)的整体研究。功能基因组学利用结构基因组学研究获得的大量数据与信息评价基因功能(包括生化功能、细胞功能、发育功能、适应功能等),其主要手段结合了高通量的大规模的实验方法、统计和计算机分析技术[1],它代表了基因分析的新阶段,已成为21世纪国际生命科学研究的前沿。功能基因组学是利用基因组测序获得的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使生物学研究从对单一基因或蛋白的研究转向多个基因或蛋白同时进行系统的研究,是在基因组静态的组成序列基础上转入对基因组动态的生物学功能学研究[2]。如何研究功能基因,也成为我们面临的一个课题,本文就克隆和生物信息学分析在研究功能基因方面的应用做一个简要的阐述。 关键词:功能基因、克隆、生物信息学分析。 1.功能基因的克隆 1.1 图位克隆方法 图位克隆又称定位克隆,它是根据目标基因在染色体上确切位置,寻找与其紧密连锁的分子标记,筛选BCA克隆,通过染色体步移法逐步逼近目的基因区域,根据测序结果或用BAC、YAC克隆筛选cDNA表达文库寻找候选基因,得到候选基因后再确定目标基因。优点是无需掌握基因产物的任何信息,从突变体开始,逐步找到基因,最后证实该基因就是造成突变的原因。通过图位克隆许多控制质量性状的单基因得以克隆,最近也有报道某些控制数量性状的主效基因(控制蕃茄果实大小的基因克隆[3]、控制水稻成熟后稻谷脱落基因克隆[4]以及小麦VRN2 基因克隆[5]等)也通过图位克隆法获得。

生物信息学分析

4、生物信息学分析 通过核苷酸序列数据库和基因序列同源性在线分析途径初步对Rv2029c基因进行分类整理。由于结核分枝杆菌耐利福平野生株与核苷酸序列数据库KEGG GENES中的结核分枝杆菌标准株H37Rv的匹配率为100%,以下对基因的分析按照结核分枝杆菌标准株H37Rv的数据库信息进行,即完全匹配的1020bp长度序列(本次提取基因中包含上下游引物等序列,较长,1346bp)。 4.1基本信息 表1 基因基本信息 4.2基因组信息 表2 基因组信息

5、PLN02341(PfkB型碳水化合物激酶家族蛋白),位点208-294 6、PTZ0029(核糖激酶),位点205-301 药物靶点1、同源基因没有药物靶点 2、非同源但序列相似基因没有药物靶点 图3 蛋白结构域 4.3蛋白表达 4.3.1 二级结构分析 预测结果显示,PfkB蛋白的二级结构中β转角占46.61%,α螺旋占33.63%,β折叠占19.76%。转角结构和螺旋结构构成了结核分枝杆菌PfkB蛋白二级结构的骨架。

图4 蛋白二级结构 4.3.2 跨膜区分析 Tuberculist跨膜蛋白预测结果表明:蛋白长度339aa,预测跨膜蛋白数0。 图5 蛋白跨膜区分析 4.3.3 信号肽预测 Predict Protein分析表明PfkB蛋白氨基酸残基没有信号肽,由此推断此蛋白不包含信号肽,不是分泌型蛋白质。

图6 蛋白信号肽预测 4.3.4 疏水性分析 分析结果显示,蛋白最大疏水指数为2.411,最小疏水指数为-2.372。

图7 蛋白疏水性分析 4.3.5 DNA同源性分析 表3 基因同源性分析 菌株序列覆盖 率 E值一致性 Mycobacterium tuberculosis strain Beijing-like, complete genome 100% 0.0 100% Mycobacterium bovis subsp. bovis AF2122/97 complete genome 100% 0.0 100% Mycobacterium tuberculosis 18b genome 100% 0.0 100% Mycobacterium tuberculosis H37RvSiena, complete genome 100% 0.0 100% Mycobacterium tuberculosis str. Kurono DNA, complete genome 100% 0.0 100% Mycobacterium tuberculosis 49-02 complete 100% 0.0 100%

生物信息学复习

一、名词解释(31个) 1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程中信 息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。 2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验 数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对:研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的 功能区域,也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树状分支 的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。 5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该是进化 保守的并且在其他物种中具有直系同源性。 指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。(来自百度) 6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会进化出 新的与原来有关的功能。用来描述在同一物种内由于基因复制而分离的同源基因。 (来自百度) 7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或 氨基酸字符串。 8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止密码子 的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。(来自百度)9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域,折 叠得较为紧密,各行其功能,称为结构域。 10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进 行罚分,以控制空位插入的合理性。(来自百度) 11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的 3’或5’端序列。(来自文献) 12.Gene Ontology 协会: 13.HMM 隐马尔可夫模型:将核苷酸序列看成一个随机序列,DNA序列的编码部分与非 编码部分在核苷酸的选用频率上对应着不同的Markov模型。 14.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类 整理和注释 15.序列一致性:指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同 一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性:指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比 例。 17.Blastn:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查 序列作一对一地核酸序列比对。(来自百度) 18.Blastp:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同 每条所查序列作一对一的序列比对。(来自百度)

乳糖酶基因的克隆及生物信息学分析

乳糖酶基因的克隆及生物信息学分析 【摘要】目的:克隆并分析保加利亚德氏乳杆菌中的乳糖酶基因。方法:利用PCR技术从保加利亚德氏乳杆菌中克隆出乳糖酶基因、测序并生物信息学分析。结果:成功的从保加利亚德氏乳杆菌中克隆出全长为3 024 bp的乳糖酶基因,利用生物软件分析,推测乳糖酶基因共编码1 008个氨基酸,蛋白分子量为114 KDa,等电点为4.9,氨基酸序列中共有9处潜在的糖基化位点。并将此基因与不同来源的乳糖酶基因进行同源性比较。结论:成功的克隆出乳糖酶基因,并利用生物分析软件对其进行生物信息学分析。了解该酶的性质特征,为进一步研究及低成本表达该酶奠定基础。 【关键词】乳糖酶基因;克隆;生物信息学分析 Clone and bioinformatics analysis of lactase gene WANG Zheng1, 2, MA Wen li1, ZHENG Wen ling1 (1.Institute of Gene Project, South Medical University Guangzhou 510510, China; 2.Key Laboratory of Molecular Biology, Hainan Medical College Haikou 571101, China ) [ABSTRACT]Objective: To clone and analyze lactase gene from Lactobacillus delbrueckii bulgaricus. Methods: Cloned lactase gene from Lactobacillus delbrueckii bulgaricus with PCR, made sequencing and bioinformatics analysis. Results: Cloned lactase gene (3 024 bp) successfully. It was presumed that the lactase gene encode 1 008 amino acids, with protein molecule 114 KDa, isoelectric point 4.9, 9 potential glycosylation sites in amino acid sequence. Made homology comparison with other lacteses. Conclusion: The lactase gene is cloned successfully and the bioinformatics analysis is made by biological analysis software to investigate its character. It provides foundation for further study and colonization at low cost. [KEY WORDS]Lactase gene; Clone; Bioinformatics analysis 乳及乳制品含有丰富的优质蛋白质、脂肪、碳水化合物以及几乎全部已知的维生素和多种矿物质,还含有免疫球蛋白等抗病因子,易被人体消化吸收,是人类改善营养、增强体质的理想食品[1]。除此之外,在牛乳等制品当中还含有5%左右的乳糖,它是牛奶中主要的碳水化合物,对人体有着重要的作用。主要表现在于乳糖能促进钙质吸收及整理肠道的功效,特别是乳糖被分解后的半乳糖是婴儿脑发育的必需物质,与婴儿大脑的迅速成长有密切关系。然而,人体却不能直接利用乳糖,它必须被乳糖酶分解为单糖的葡萄糖及半乳糖后才能被吸收和利用。据研究发现,世界各国人口都有不同程度的乳糖酶缺乏,东方人乳糖酶缺乏高达85%[2],从而导致“乳糖不耐症”的发生。 乳糖酶(EC3.2.1.23,又名β 半乳糖苷酶)能将牛乳中的乳糖水解为葡萄糖和半乳糖,并具有半乳糖苷的转移作用[3]。利用该酶生产低乳糖制品或口服酶制剂,能够有效解决“乳糖不耐症”问题。乳糖酶广泛存在于扁桃、桃、杏、苹果和咖啡豆等植物中,大肠杆菌、乳酸杆菌、酵母菌和霉菌等微生物中,以及有效哺乳动物的小肠等器官和皮肤组织中。然而,

基因组学与生物信息学教案

《基因组学与生物信息学》教案 授课专业:生物学大类各专业 课程名称:基因组学与生物信息学 主讲教师:夏庆友程道军赵萍徐汉福

课程说明 一、课程名称:基因组学与生物信息学 二、总课时数:36学时(理论27学时实验9学时) 三、先修课程:遗传学、分子生物学、基因工程 四、使用教材: 杨金水. 基因组学. 北京:高等教育出版社,2002. 张成岗. 贺福初, 生物信息学方法与实践. 北京:科学出版社,2002. 五、教学参考书: T.A.布朗著,袁建刚译著,基因组(2rd版),北京:科学出版社,2006. 沈桂芳,丁仁瑞,走向后基因组时代的分子生物学,杭州:浙江教育出版社,2005. 罗静初译,生物信息学概论,北京:北京大学出版社,2002. 六、考核方式:考查 七、教案编写说明: 教案又称课时授课计划,是任课教师的教学实施方案。任课教师应遵循专业教学计划制订的培养目标,以教学大纲为依据,在熟悉教材、了解学生的基础上,结合教学实践经验,提前编写设计好每门课程每个章、节或主题的全部教学活动。教案可以按每堂课(指同一主题连续1~2节课)设计编写。教案编写说明如下: 1、编号:按施教的顺序标明序号。 2、教学课型表示所授课程的类型,请在相应课型栏内选择打“√”。 3、题目:标明章、节或主题。 4、教学内容:是授课的核心。将授课的内容按逻辑层次,有序设计编排,必要时标以“*”、“#”“?” 符号分别表示重点、难点或疑点。 5、教学方式既教学方法,如讲授、讨论、示教、指导等。教学手段指教科书、板书、多媒体、模型、 标本、挂图、音像等教学工具。 6、讨论、思考题和作业:提出若干问题以供讨论,或作为课后复习时思考,亦可要求学生作为作业 来完成,以供考核之用。 7、参考书目:列出参考书籍、有关资料。 8、日期的填写系指本堂课授课的时间。

用于新基因的生物信息学分析

用于新基因的生物信息 学分析 ★★★★★ reasonspare(金币+5,VIP+0):谢谢分享,欢迎常来! lwf991229(金币+0,VIP+0):置为资源帖~~ 2-9 16:12 lwf991229(金币+0,VIP+0):高亮~ 2-9 16:13 核酸序列的基本分析 运用DNAMAN软件分析核酸序列的分子质量、碱基组成和碱基分布。同时运用BioEdit(版本7.0.5.3)软件对基因做酶切谱分析。 碱基同源性分析 运用NCBI信息库的BLAST程序对基因进行碱基同源性分析(Translated query vs.protien database(blastx))网站如下:https://www.doczj.com/doc/0918364176.html,/BLAST/ 参数选择:Translated query-protein database [blastx];nr;stander1 开放性阅读框(ORF)分析 利用NCBI的ORF Finder程序对基因做开放性阅读框分析,网址如下: https://www.doczj.com/doc/0918364176.html,/projects/gorf/orfig.cgi 参数选择:Genetic Codes:1 Standard 对蛋白质序列的结构功能域分析 运用简单模块构架搜索工具(Simple Modular Architecture Research Tool,SMART)对基因的ORF出的蛋白质序列进行蛋白质结构功能域分析。该数据库由EMBL建立,其中集成了大部分目前已知的蛋白质结构功能域的数据。 网址如下:http://smart.embl-heidelberg.de/ 运用NCBI的BLAST程序再对此蛋白质序列进行rpsBlast分析 参数选择:Search Database:CDD v2.07-11937PSSM

生物信息学分析方法

核酸和蛋白质序列分析 蛋白质, 核酸, 序列 关键词:核酸序列蛋白质序列分析软 件 在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站(https://www.doczj.com/doc/0918364176.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。 下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 (一)核酸序列分析 1、双序列比对(pairwise alignment) 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch 算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。 除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST (https://www.doczj.com/doc/0918364176.html,/BLAST/)。以上介绍的这些双序列比对工具的使用都比较简单,一般输入所比较的序列即可。 (1)BLAST和FASTA FASTA(https://www.doczj.com/doc/0918364176.html,/fasta33/)和BLAST (https://www.doczj.com/doc/0918364176.html,/BLAST/)是目前运用较为广泛的相似性搜索工具。这两

相关主题
文本预览
相关文档 最新文档