当前位置:文档之家› 两种大眼蟹线粒体16SrRNA基因序列分析

两种大眼蟹线粒体16SrRNA基因序列分析

两种大眼蟹线粒体16SrRNA基因序列分析
两种大眼蟹线粒体16SrRNA基因序列分析

第 28 卷第 6 期海洋通报V ol. 28, No. 6 2009 年 12 月 MARINE SCIENCE BULLETIN Dec., 2009

两种大眼蟹线粒体16S rRNA基因序列分析

徐敬明

(重庆文理学院生命科学与技术学院,重庆永川 402168)

摘 要:测定了宽身大眼蟹和日本大眼蟹线粒体16S rRNA基因部分片段的序列,其长度均为517 bp。二者的核苷酸序列A,T,G,

C的含量相似:宽身大眼蟹分别为33.3%,35.6%,19.9%,11.2%;日本大眼蟹分别为35.2%,35.4%,18.4%,11.0%。不包括6处

插入/缺失位点,两序列间有63个变异位点,核苷酸差异率为12.26%,其中转换32个、颠换31个, 转换与颠换比约为1.0。对国内

外大眼蟹的24条长度为415 bp的16S rRNA基因同源序列进行分析,A+T的平均含量为71.7%,明显高于G + C的平均含量,且存

有变异位点171个,简约信息位点137个。中国和日本的日本大眼蟹之间的核苷酸差异率为4.42%,表明二者已有明显的遗传分化;

中国的日本大眼蟹与日本的万岁大眼蟹之间的核苷酸差异率仅为0.21%,表明二者有可能为同一物种。上述结果得到了系统发生树拓

扑结构的支持。

关键词:宽身大眼蟹;日本大眼蟹;16S rRNA;序列;系统发生

中图分类号:P735; Q953+.1 文献标识码:A 文章编号:1001-6932(2009)06-0057-05

大眼蟹(Macrophthalmus) 隶属于甲壳纲 (Crustacea)、十足目 (Decapoda)、沙蟹科 (Ocypodidae)、大眼蟹亚科 (Macrophthalminae),其中宽身大眼蟹(M. dilatatum)穴居于近海或河口处的泥滩,日本大眼蟹(M. japonicus) 穴居于近海潮间带或河口处的泥沙滩,数量较大,是制作蟹酥、蟹酱的原料,具有一定的经济价值[1]。近来,一些学者根据分子系统学的研究而将沙蟹科的大眼蟹亚科等4个亚科分别提升为科,即Dotillidae,Heloeciidae,Macrophthalmidae和Ocypodidae [2,3]。

动物线粒体DNA(mtDNA)因其分子量小、母系遗传、比核DNA进化速率快等特征而广泛地应用于进化生物学研究中;而mtDNA 16S rRNA基因有较高的保守性,易于进行PCR引物的设计和扩增,非常适合于种及种以上分类阶元的差异研究[4, 5]。16S rRNA基因序列已被广泛用于蟹类的分子系统学研究[6-13],国外学者已对部分大眼蟹16S rRNA基因进行了序列分析[14-18],但国内尚未见有关大眼蟹16S rRNA基因序列的研究报道。

本研究通过PCR方法获得产于中国的两种大眼蟹线粒体16S rRNA基因片段,对其进行了序列测定和分析;结合从GenBank下载的有关大眼蟹的基因序列,进行分子系统关系分析,探讨大眼蟹之间的遗传差异及亲缘关系,以期为蟹类的种质鉴定、物种保护和资源评价提供基础的分子遗传学资料,为进一步研究蟹类分子系统学提供理论依据。

1 材料与方法

1.1 实验材料

实验用宽身大眼蟹和日本大眼蟹于2006年7月采自于辽宁省大连沿海潮间带泥滩,浸制于95% 的乙醇中保存备用。每种取3个个体用于序列分析。

1.2 DNA提取

从宽身大眼蟹和日本大眼蟹的步足和螯足中取约50 mg肌肉, 采用传统法(酚/氯仿抽提法)从肌肉组织中提取基因组DNA。将乙醇沉淀后DNA溶解入40 μL超纯水,放入4 ℃冰箱6 h,最后-20 ℃下保存备用。

1.3 PCR扩增

以L2510 5’-CGCCTGTTTAACAAAAACAT-3’ 和 H3059 5’-CCGGTCTGAACTCAGATCATGT-3’ 为引物对16 S rRNA部分片段进行PCR扩增[19]。扩增时的反应体积为25 μL,反应液中含2.5 μL 10 × PCR buffer,

收稿日期:2009-01-31 ;收修改稿日期:2009-05-31

基金项目:重庆文理学院引进人才专项

58 海洋通报28 卷

2.0 μL dNTPs (2.5 mmol/L), 2.0 μL MgCl2(25 mmol/L),1 μL模板DNA,引物各0.5 μL(10 μmol/L),0.2 μL Taq酶 (5 U/μL),无菌去离子水补足到25 μL。PCR循环参数为:94 ℃ 预变性1.5 min后,94 ℃ 变性30 s,49℃退火45 s, 72 ℃延伸1 min,循环39次,然后在72 ℃ 延伸5 min,于4 ℃保存。

1.4 序列测定

PCR产物用含有溴化乙锭的1.0% 琼脂糖凝胶电泳检测,凝胶成像系统观察、照相。对于扩增效果良好的样品进行回收,回收时用1.0% 琼脂糖凝胶,TaKaRa Agarose Gel DNA Purification Kit(宝生物工程(大连)有限公司)进行回收和纯化,纯化产物送至上海英骏测序公司,用ABI3730XL测序仪进行正反链双向测序。测序所用引物和PCR扩增时的引物相同。

1.5 数据分析

经核对测序胶图后的正反向序列,由DNASTAR软件包(DNASTAR,Inc.,Madison,USA)进行编辑、校对和比对,并对排序结果进行分析;所有序列为两端去引物后的序列。用MEGA(Version4.0)软件统计序列的碱基组成,计算种间的遗传距离,进行系统发生和分子进化分析。

2 结果与讨论

不包括引物,宽身大眼蟹和日本大眼蟹的16S rRNA基因片段长度均为517 bp;每种的3个个体之间没有序列差异。二者核苷酸序列A、T、G、C的含量相似,宽身大眼蟹分别为33.3%,35.6%,19.9%,11.2%;日本大眼蟹分别为35.2%, 35.4%, 18.4%,11.0%。经序列比对,不包括6处插入/缺失位点,两序列间有63个变异位点,核苷酸差异率为12.26%,其中转换32个、颠换31个(图1), 转换与颠换比约为1.0。可见,两种大眼蟹16S rRNA基因种内没有差异,而12.26% 的种间差异明显高于红螯相手蟹和褶痕相手蟹的16 S rRNA基因的差异 (8.07%)[13],甚至还高于红螯相手蟹和褶痕相手蟹的变异速率较快的COI基因的差异(11.40%)[20];而红螯相手蟹和褶痕相手蟹分属于Chiromantes和Parasesarma两个属。宽身大眼蟹和日本大眼蟹间的差异更大,表明二者的亲缘关系相对更远,有鉴于此,建议将日本大眼蟹从Macrophthalmus属中独立出来,将其亚属Mareotis提升为属,这也与二者在形态分类上分属于Macrophthalmus和Mareotis两个亚属相符合。同样,宽身大眼蟹和日本大眼蟹12S rRNA基因13.18% 的种间差异也支持此结论(另文发表)。

图 1 宽身大眼蟹和日本大眼蟹16S rRNA基因片段序列比对

Fig. 1 Sequences alignment of the 16S rRNA segment of M. dilatatum and M. japonicus

从GenBank下载大眼蟹的22条16 S rRNA基因序列(种名及GenBank序列号见图2),与本文的两种

6 期徐敬明:两种大眼蟹线粒体16S rRNA基因序列分析59

大眼蟹序列进行比对获得415bp的同源序列(含插入/缺失位点),共检测到变异位点171个,简约信息位点137个,A、T、G、C的含量只有略微的差异,平均含量分别为35.9%、35.8%、18.6%、9.7%,碱基C 的含量最少,A+T含量明显高于G +C含量。此种类型的碱基含量与其它蟹类的16S rRNA基因是一致的[13,18]。

对产于中国、日本(GenBank号:AB101488)和澳大利亚(GenBank号:AB101489)的日本大眼蟹序列进行两两比对获得的同源序列分析结果表明:不包括插入/缺失位点,澳大利亚与中国和日本的日本大眼蟹之间的核苷酸差异率分别为10.60%和10.82%,显著高于先前报道的甲壳类乃至蟹类物种之间6.3%~22.3%[21]和8.7%~33.8%[22]核苷酸差异率水平,明显区别于中国和日本的日本大眼蟹,也支持澳大利亚的日本大眼蟹为一个独立物种[15],并得到了形态学研究的支持,已被定名为一新种(即Macrophthalmus pistrosinus)[23]。中国和日本的日本大眼蟹之间的核苷酸差异率为4.42%,尽管没有高于上述物种之间的核苷酸差异率水平,但却远在以前报道的甲壳类乃至蟹类种内0.3%~2.6%[24]和1.0%[15]核苷酸差异率水平上限之上,意味着二者之间已有较大的遗传分化,至少是亚种水平的分化,其分化甚至存在超出亚种水平的可能;但这还有待于对更多基因、形态学乃至行为学的比较研究去进一步证实。

值得注意的是,中国的日本大眼蟹与日本的万岁大眼蟹(M. banzai,GenBank号:AB002132)比对得到的468bp同源序列上,只在259位点有一处T/C转换,核苷酸差异率仅为0.21%;二者的12S rRNA 基因序列比对也获得类似结果,即在372bp同源序列上,仅在158、159和284位点出现C/T、G/A和A/G 三处转换,核苷酸差异率为0.81%(另文发表)。而日本和韩国的万岁大眼蟹之间的16 S rRNA基因的核苷酸差异率为 1.0%,认为二者是两个明显不同的实体[15],并有资料报道二者不仅形态非常相似,仅存在不完全的后期生殖隔离,且同域分布,被认为是姐妹种[25,26]。因此,中国的日本大眼蟹与日本的万岁大眼蟹的16S rRNA和12S rRNA两个基因的分子数据表明,二者可能是同一物种。

所有大眼蟹序列之间基于Kimura-双参数距离模型估计其遗传距离;用NJ法(Neighbor-Joining)构建分子系统发生树(图2),系统树各结点的支持率以序列数据集1 000次重复抽样检验的自引导值(Bootstrap Value)表示。

图 2 大眼蟹的16S rRNA基因分子系统树(NJ法)

Fig. 2 Neighbor-joining molecular phylogenetic tree of 16S rRNA gene for Macrophthalmid crabs

由系统发生树的拓扑结构(图2)可以看出,中国的日本大眼蟹首先与日本的万岁大眼蟹以99%的置信度聚为一小支,再与日本的日本大眼蟹以100%的置信度聚成一支,最后再与澳大利亚的日本大眼蟹及

60 海洋通报28 卷

M. setosus聚为一大支。上述结果支持日本大眼蟹与万岁大眼蟹可能为同一物种、中国的日本大眼蟹与日本的日本大眼蟹遗传分化较大及澳大利亚的日本大眼蟹为一独立物种的结论。而宽身大眼蟹与M. abbreviatus等蟹类聚为另一大支,宽身大眼蟹和日本大眼蟹分属于两大支,表明二者之间的遗传差异较大,亲缘关系较远,为日本大眼蟹等蟹类从Macrophthalmus属中独立出来,为将其从亚属Mareotis提升为属提供了依据。

参考文献:

[1] 戴爱云, 杨思谅, 宋玉枝, 等. 中国海洋蟹类 [M]. 北京: 海洋出版社, 1986: 12, 428-447.

[2] Schubart C D,Cuesta J A,Felder D L. Glyptograpsidae, a new brachyuran family from Central America: larval and adult morphology and a molecular

phylogeny of the Grapsoidea [J]. Journal of Crustacean Biology, 2002, 22(1): 28-44.

[3] Kitaura J, Wada K,Nishida M. Molecular phylogeny of grapsoid and ocypodoid crabs with special reference to the genera Metaplax and

Macrophthalmus [J]. Journal of Crustacean Biology, 2002, 22(3): 682-693.

[4] 徐敬明. 蟹类线粒体DNA的研究与应用 [J]. 中国海洋大学学报(自然科学版), 2006, 36(6): 879-884.

[5] 吕国庆, 李思发. 鱼类线粒体DNA多态研究和应用进展 [J]. 中国水产科学, 1998, 5(3): 94-103.

[6] Schubart C D, Diesel R, Hedges S B. Rapid evolution to terrestrial life in Jamaican crabs [J]. Nature, 1998, 393: 363-365.

[7] Schubart C D, Neigel J E, Felder D L. The use of the mitochondrial 16S rRNA gene for phylogenetic and biogeographic studies of Crustacea [J].

Crustacean Issues, 2000, 12: 817-830.

[8] Schubart C D, Cuesta J A, Rodríguez A. Molecular phylogeny of the crab genus Brachynotus (Brachyura:Varunidae) based on the 16S rRNA gene [J].

Hydrobiologia, 2001, 449: 41-46.

[9] 邱高峰, 徐巧婷, 王丽卿,等. 四种绒螯蟹分子分类与系统发育 [J]. 动物学报, 2001, 47(6): 640-647.

[10] Weinberg J R, Dahlgren N D, Halanych K M. Genetic differences within and between species of deep-sea crabs (Chaceon) from the North Atlantic

Ocean [J]. Biological Bulletin, 2003, 204:318-326.

[11] 孙红英, 周开亚, 杨小军. 从线粒体16S rDNA序列探讨绒螯蟹类的系统发生关系 [J]. 动物学报.2003, 49(5):592-599.

[12] Harrison J S. Evolution, biogeography, and the utility of mitochondrial 16S and COI genes in phylogenetic analysis of the crab genus Austinixa

(Decapoda:Pinnotheridae) [J]. Molecular Phylogenetics and Evolution, 2004, 30: 743-754.

[13] 徐敬明,张俊丽,方华华,等. 相手蟹属两种蟹类线粒体16S rRNA基因序列的比较 [J]. 水产科学, 2006, 25(9): 443-447.

[14] Levinton J,Sturmbauer C,Christy J. Molecular data and biogeography:resolution of a controversy over evolutionary history of a pan-tropical group of

invertebrates [J]. Journal of Experimental Marine Biology and Ecology, 1996, 203:117-131.

[15] Kitaura J,Nishida M,Wada K. Genetic and behavioral diversity in the Macrophthalmus japonicus species complex (Crustacea: Brachyura: Ocypodidae)

[J]. Marine Biology, 2002, 140: 1-8.

[16] Ahyong S T,O'Meally D. Phylogeny of the Decapoda Reptantia: resolution using three molecular loci and morphology [J]. The Raffles Bulletin of

Zoology, 2004, 52(2): 673-693.

[17] Kitaura J,Nishida M,Wada K. The evolution of social behaviour in sentinel crabs (Macrophthalmus): implications from molecular phylogeny [J].

Biological Journal of the Linnean Society, 2006, 88(1): 45-59.

[18] Schubart C D,Cannicci S,Vannini M,et al. Molecular phylogeny of grapsoid crabs (Decapoda, Brachyura) and allies based on two mitochondrial genes

and a proposal for refraining from current superfamily classification [J]. Journal of Zoological Systematics and Evolutionary Research, 2006, 44

(3):193-199.

[19] Bouchon D,Souty-grosset C,Raimond R. Mitochondrial DNA variation and markers of species identity in two penaeid shrimp species: Penaeus

monodnn Fabricius and P. japonicus Bate [J]. Aquiculture, 1994, 127:131-144.

[20] 徐敬明,方华华,高天翔. 两种相手蟹线粒体COI基因序列的比较研究 [J]. 海洋通报,2007,26(6):26-31.

[21] Sarver S K, Silberman J D, Walsh P J. Mitochondrial DNA sequence evidence supporting the recognition of two subspecies or species of the Florida

spiny lobster Panulirus argus [J]. Journal of Crustacean Biology, 1998, 18: 177-186.

[22] Kitaura J, Wada K, Nishida M. Molecular phylogeny and evolution of unique mud-using territorial behavior in Ocypodid crabs (Crustacea: Brachyura:

Ocypodidae) [J]. Molecular Biology and Evolution. 1998, 15(6): 626-637.

[23] Barnes R S K,Davie P J F. A new species of the sentinel crab Macrophthalmus (Mareotis) Barnes, 1967 (Crustacea: Brachyura: Macrophthalmidae)

from Western Australia [J]. Zootaxa,2008, 1807: 63-68.

[24] Bucklin A, Frost B W, Kocher T D. Molecular systematics of six Calanus and three Metridia species (Calanoida: Copepoda) [J]. Marine Biology, 1995,

121: 655-664.

[25] Wada K. Interbreeding experiments of the two forms of Macrophthalmus japonicus (Crustacea: Brachyura: Ocypodidae) [J]. Zoological Science

(Tokyo), 1989, 6: 181-184.

6 期徐敬明:两种大眼蟹线粒体16S rRNA基因序列分析61

[26] Wada K. Biogeographic patterns in waving display, and body size and proportions of Macrophthalmus japonicus species complex (Crustacea:

Brachyura: Ocypodidae) [J]. Zoological Science (Tokyo), 1991, 8: 135-146.

作者简介:徐敬明 (1963-),男,山东日照人,教授,博士,主要从事动物分子与生理生态研究;电子邮箱:xjingming@https://www.doczj.com/doc/5011132765.html,.

Sequence analyses of mitochondrial 16S rRNA gene between two species of

macrophthalmid crabs

XU Jing-ming

(College of Life Science and Technology,Chongqing University of Arts and Sciences, Yongchuan 402168, Chongqing, China)

Abstract: Partial sequences of the mitochondrial 16S rRNA gene were determined for two Macrophthalmus species (M. dilatatum and M. japonicus), and the sequence length of the two species was the same. Of the 517 nucleotides obtained, the A, T, G and C contents were similar, which were 33.3%, 35.6%, 19.9%, 11.2% and 35.2%, 35.4%, 18.4%, 11.0% respectively. There were 63 different sites (excluding 6 deletion/insertion sites) between the two species, including 32 transition sites and 31 transversion sites. The si/sv and ratio of sequence divergence were about 1.0 and 12.26% respectively. Furthermore, 24 of 415bp homologous segments were analyzed to discuss the phylogenetic relationship of macrophthalmid crabs in the world. The results showed that the average A+T content (71.7%) was higher than G+C content, and there were 171 variable sites and 137 parsimony-information sites in the nucleotides of the macrophthalmid crabs data. The ratios of sequence divergence were 4.42% and 0.21% between Chinese and Japanese M. japonicus, and between Chinese M. japonicus and Japanese M. banzai respectively. The results revealed that there was significance genetic difference between Chinese and Japanese M. japonicus, and Chinese M. japonicus and Japanese M. banzai may be a single species. The conclusion was supported by the topological structure of the molecular phylogenetic tree, constructed by 16S rRNA gene with Neighbor-Joining method.

Keywords: Macrophthalmus dilatatum; M. japonica;16 S rRNA; sequence; phylogeny

功能基因的序列比对方法

功能基因的序列比对 <1>.切除载体和(或)引物 a.打开所有的原始引物序列于一个EditSeq的窗口中 b. export all as one c.保存 d.打开这个保存的文件,开始切除载体和引物 e.选择载体插入点两侧的序列(10-15个的样子)搜索注意:不存在正反向的问题,都是一个

方向,因为测序的时候是选择两个载体上的引物其中的一条来往后测序的! 切完之后另存为 f. 重新打开这个文件,开始切除引物 方法同切载体,但是要注意正反向的问题。比如mcrA基因,其引物为Forward: 5'-GGTGGTGTMGGATTCACACARTAYGCWACAGC-3' Reverse: 5'-TTCATTGCRTAGTTWGGRTAGTT-3'

先找Forward 5’端,此时只找到的部分序列。切去5’端。 然后再切这些切掉5’端序列的3’端的序列,此时其3’端序列应该是Reverse 的反向互补序列。 切去这个反向互补序列,这样一来这个些序列就已经被切去两端的引物了。 但此时还剩下另一部分未切除任何引物的序列,此时记下这些序列的编号,先切去Reverse 5’

端。 再用Forward 的反向互补序列切去3’端,这样剩下的序列也都被切除两端的引物了。 <2>将所有序列调整为同向序列: a. 选择前面记录编号的序列,将这些序列一个个都转换为其反向互补序列。这样一来所有的序列都成为同向序列了,即在DNA两条反向互补链的其中一条上的比较了。

b. 保存该文件 <3> 生成OTUs Google 搜索”Fastgroup II” 或https://www.doczj.com/doc/5011132765.html,/fg_tools.htm

DNA序列比对同源性分析图解BLAST

1、进入网页:https://www.doczj.com/doc/5011132765.html,/BLAST/ 2、点击Search for short, nearly exact matches 3、在search栏中输入引物系列: 注:文献报道ABCG2的引物为5’-CTGAGATCCTGAGCCTTTGG-3’; 5’-TGCCCATCACAACATCATCT-3’ (1)输入方法可先输入上游引物,进行blast程序,同样方法在进行下游引物的blast程序。 这种方法叫繁琐,而且在结果分析特异性时要看能与上游引物的匹配的系列,还要看与下游引物匹配的系列——之后看两者的交叉。

(2)简便的做法是同时输入上下游引物:有以下两种方法。输入上下游引物系列都从5’——3’。 A、输入上游引物空格输入下游引物 B、输入上游引物回车输入下游引物 4、在options for advanced blasting中: select from 栏通过菜单选择Homo sapiens Expect后面的数字改为10

5、在format中: select from 栏通过菜单选择Homo sapiens Expect后面的数字填上0 10

6、点击网页中最下面的“BLAST!” 7、出现新的网页,点击Format!

8、等待若干秒之后,出现results of BLAST的网页。该网页用三种形式来显示blast的结果。(1)图形格式: 图中①代表这些序列与上游引物匹配、并与下游引物互补的得分值都位于40~50分 图中②代表这些序列与上游引物匹配的得分值位于40~50分,而与下游引物不互补 图中③代表这些序列与下游引物互补的得分值小于40分,而与上游引物不匹配 通过点击相应的bar可以得到匹配情况的详细信息。

核酸和蛋白质序列分析

核酸和蛋白质序列分析 在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG 岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站 (https://www.doczj.com/doc/5011132765.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。 下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 (一)核酸序列分析 1、双序列比对(pairwise alignment) 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。 除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件 (http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST

DNA测序结果分析比对(实例)

DNA测序结果分析比对(实例) 关键词:dna测序结果2013-08-22 11:59来源:互联网点击次数:14423 从测序公司得到的一份DNA测序结果通常包含.seq格式的测序结果序列文本和.ab1格式的测序图两个文件,下面是一份测序结果的实例: CYP3A4-E1-1-1(E1B).ab1 CYP3A4-E1-1-1(E1B).seq .seq文件可以用系统自带的记事本程序打开,.ab1文件需要用专门的软件打开。软件名称:Chromas 软件Chromas下载 .seq文件打开后如下图: .ab1文件打开后如下图: 通常一份测序结果图由红、黑、绿和蓝色测序峰组成,代表不同的碱基序列。测序图的两端(下图原图的后半段被剪切掉了)大约50个碱

基的测序图部分通常杂质的干扰较大,无法判读,这是正常现象。这也提醒我们在做引物设计时,要避免将所研究的位点离PCR序列的两端太近(通常要大于50个碱基距离),以免测序后难以分析比对。 我的课题是研究基因多态性的,因此下面要介绍的内容也主要以判读测序图中的等位基因突变位点为主。 实际上,要在一份测序图中找到真正确实的等位基因多态位点并不是一件容易的事情。一般认为等位基因位点假如在测序图上出现像套叠的两个峰,就是杂合子位点。实际比对后才知道,情况并非那么简单,下面测序图中标出的两个套峰均不是杂合子位点,如图并说明如下:

说明: 第一组套峰,两峰的轴线并不在同一位置,左侧的T峰是干扰峰;第二组套峰,虽两峰轴线位置相同,但两峰的位置太靠近了,不是杂合子峰,蓝色的C峰是干扰峰通常的杂合子峰由一高一略低的两个轴线相同的峰组成,此处的序列被机器误判为“C”,实际的序列应为“A”,通常一个高大碱基峰的前面 1~2个位点很容易产生一个相同碱基的干扰峰,峰的高度大约是高大碱基峰的1/2,离得越近受干扰越大。 一个摸索出来的规律是:主峰通常在干扰峰的右侧,干扰峰并不一定比主峰低。最关键的一点是一定要拿疑似为杂合子峰的测序图位点与测序结果的文本序列和基因库中的比对结果相比较;一个位点的多个样本相比较;你得出的该位点的突变率与权威文献或数据库中的突变率相比较。 通常,对于一个疑似突变位点来说,即使是国际上权威组织大样本的测序结果中都没有报道的话,那么单纯通过测序结果就判定它是突变点,是并不严谨的,因一份 PCR产物中各个碱基的实际含量并不相同,很难避免不产生误差的。对于一个未知突变位点的发现,通常还需要用到更精确的酶切技术。 (责任编辑:大汉昆仑王)

基因序列分析word版

南开大学数学院“学而思”杯数学建模比赛 编号专用页 赛区评阅编号(由赛区组委会评阅前进行编号): 全国统一编号(由赛区组委会送交全国前编号): 全国评阅编号(由全国组委会评阅前进行编号):

A 题:基因序列分析 摘要 本文通过对比HIV病毒基因序列,找出不同阶段的DNA基因序列的异同,进而分析基因位点的相关性,从而对比找出HIV病毒基因序列中较为重要的位点,为HIV病毒研究提供更多的研究方法与思路。 针对问题一:我们利用点矩阵分析及统计各碱基含量的百分比的方法,对比两文件中具有相同序列名的基因序列及具有不同序列名的基因序列,找出两者的异同,得出结论。两者的相似性表现在:同名序列具有子序列关系,不同名序列具有相当的相似性,各种碱基的含量具有稳定性。两者的不同点表现在:基因规模有很大差异,不同名序列出现了具有突变特点的基因序列差异。 针对问题二:我们首先利用DNAwalk法对HIV病毒基因序列位点进行分析,在分析的过程中发现由于基因和基因组序列中存在着高度的不均一性,即不同位置的碱基密度存在着很大的差异,因而DNAwalk法不太适合基因序列的分析,转而使用DFA模型对HIV 基因的相关性进行分析和度量,得出了与DNAwalk模型相同的结论。 针对问题三:在前两问的分析基础上,结合前两问的分析结果及HIV病毒高度变异性的特点,我们得出重要的基因位点应满足下列条件:1、该基因位点位于Ⅱ基因序列,2、该基因位点所在序列的序列名应不同于Ⅰ中的序列名,3、该基因位点在问题二的分析中具有较高的相关性。 关键字:矩阵分析 DNAwalk DFA模型

问题重述 人类免疫缺陷病毒(Human Immunodeficiency Virus,HIV),简称艾滋病病毒,会造成人类免疫系统的缺陷, 导致艾滋病(AIDS). HIV基因组翻译成蛋白的过程相对复杂, 它会重复交叉使用某些基因片段。病毒序列在进化和传播的过程中主要是envelope 基因变化很快。详细描述可见HIV的生活史。由于现有的抗艾滋病病毒药对HIV无法根治,因此就将“责任”归咎高变异性. 目前, 很多的HIV序列已经被测定出来, 附件给出了一些HIV的序列. 我们试图通过对HIV序列的分析来断定这些序列上哪些位置比较重要, 从而给艾滋病的研究一些帮助. 例如, 某些位置上的突变可能会影响到HIV的传播机制, 如果我们瞄准这些位置设计药物, 可能会对艾滋病的传播起到抑制作用. HIV基因组序列大约长10k,HIV1_GENOME_DNA.fasta包含了1400余条基因组的序列,因为在序列突变的过程中,有一些核酸会消失,这些消失的核酸在文件中使用”-“来表示。表示此处发生了一次删除突变。也就是说, 文件中所有序列都是”对齐”的. 这样, 我们可以知道这些序列中某一个特定位点上核酸的分布情况. 另外,HIV基因组中包含了若干个编码蛋白质的基因,编码后的蛋白质可以行使病毒传播,致病等功能。HIV1_ENV_DNA.fasta是其中一个编码蛋白质基因的序列,HIV1_ENV_PRO.fasta是编码后的蛋白序列。它们同样是已经比对好的。基于以上说明,我们来分析如下问题: (1)对于HIV1_ENV和HIV_GENOME的DNA序列,构造数学方法对序列的位点进行分析, 指出这两者之间的异同。 (2)HIV序列位点之间或者某些位点之间是否存在相关性?如果存在,那么如何去度 量这种相关性? (3)对这些序列进行进一步的分析,找到你认为的HIV中较为重要的位点,并说明这 些位点为什么重要。 知识背景 本文通过对HIV病毒的基因信息进行分析,从而得出HIV病毒基因中比较重要的位点,由于本问题专业性较强,所以我们将先对其中相关知识做出阐述: 1、名词解释: 基因组:Genome,生物所携带的遗传信息的总和,即单倍体细胞中包括编码序列和非编码序列在内的全部DNA分子。 基因位点:基因在染色体上占有的特定位置。 染色体:由脱氧核糖核苷酸、蛋白质和少量核糖核酸组成的线状或棒状物,是生物主要遗传物质的载体。因是细胞中可被碱性染料着色的物质而得名。 核糖体:结合着辅助蛋白质因子的多个核糖体RNA(rRNA)亚基组成的细胞器。 碱基:指嘌呤和嘧啶的衍生物,是核酸、核苷、核苷酸的成分。 2、一般细胞遗传信息传递相关原理 DNA转录成RNA,RNA再被翻译成蛋白质执行相应的功能。DNA碱基的序列决定了蛋白质的结构,但DNA并非直接翻译成蛋白质,基因组DNA先通过转录生成信使RNA(mRNA),单链的mRNA随后将离开细胞核,指导蛋白质的合成。这一过程称为翻译,由核糖体负责完成。构成蛋白质的20种氨基酸通过转运RNA(tRNA)的作用到达核糖体,在核糖体的作用下,mRNA分子的核苷酸序列被翻译成相应的氨基酸,形成肽键。

基因组序列的差异分析

基因组序列的差异分析 ----mVISTA的在线使用说明 当然,除了在线版的,我们还可以在网站上填写信息申请离线的软件。但我试用了一下,需要先自己比对,然后要按照一定的格式来制作文件,当然你还必须得安装java才能运行软件;总之,我感觉没有在线版的方便。 1 将数据放入服务器中 在首页,你将被要求确定你想要分析的基因组序列的数量。输入这个数字之后,点击“提交”,将带你到主提交页面。 mVISTA服务器最多可以同时处理100条序列。 1.1主提交页面必填的内容 E-mail 地址 通过E-mail,我们可以提示你的在线处理已经得到结果。

序列 你可以用2种方式来上传你的序列: 1.使用“Browse”按钮从你的电脑上,上传纯文本的Fasta格式文件。如果是一个作为参 考的生物体的DNA序列必须作为一个contig提交(可以进行一定的定向排列将多个片段合并为一个contig),而其他非参考序列可以在一个或多个contig中提交(draft)。 Fasta格式的示例序列(您可以在NCBI站点上找到关于该格式的更多细节): >mouse ATCACGCTCTTTGTACACTCCGCCATCTCTCTCT … !!!注意:序列里面我们只接受字母CAGTN和X。请确保提交序列是作为一种纯文本格式,而不是Word或HTML文件格式。 如果您以FASTA格式提交序列,我们建议您为它取一个有意义的名称(比如直接是你的物种名之类的),因为这些名称将出现在我们生成的图形中。如果您使用的是一个draft草图序列,那么结果中每个contigs的命名都将按照您在“>”符号后指示的命名进行。 2.您可以给出它的GenBank登录号,系统将自动从GenBank数据库里进行检索序列。 在这两种情况下,序列的总大小都不应超过10M,而且任何一条序列都不应超过2M。 1.2主提交页面选填的内容 这些选项允许您自定义您的VISTA分析。您可以使用独立获得的基因注释,选择合适的Repeat Masker选项,给分析的序列指定名称,并改变序列保存分析的参数。如果您没有填写这些选填选项,我们将使用它们的默认值。 比对程序 根据您分析的具体内容(参见“about”-链接中的详细信息),您可以选择以下比对程序之一:1、AVID----全局两两比对。如果您选择使用这个程序,其中一个序列应该被完成比对,其他 所有序列可以完成或以草图draft格式完成。对于集合中所有已完成的序列,AVID生成所有相对所有成对的比对结果,可以使用任何序列作为基础(参考)来显示。如果某些序列是草图格式,AVID将生成它们与最终序列的比对,这将被用作基础(参考)。这是该服务器上唯一可以处理草图序列的比对程序。 (小知识:草图序列与完整序列DNA sequence, draft: Sequence of a DNA with less accuracy than a finished sequence. In a draft sequence, some segments are missing or are in the wrong order or are oriented incorrectly. A draft sequence is as opposed to a finished DNA sequence.)2、LAGAN----完成完整序列的全局两两比对和多重比对。如果某些序列是草图格式,您的查 询将被重定向到AVID以获得两两比对。多重比对将由VISTA可视化,它将计算并显示序列的保守区,以您指示的任何序列作为参考。这是该服务器上唯一能够产生真正的多重

BLAST_核酸氨基酸序列相似性比较

BLAST 核酸/氨基酸序列相似性比较 Blast (Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLA ST结果中的得分是对一种对相似性的统计说明。 BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。如果您想进一步了解BLAST算法,您可以参考NCBI的BLAST Course ,该页有BLAST算法的介绍。 BLAST的功能 BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。BLAST还能发现具有缺口的能比对上的序列。 BLAST是基于Altschul等人在J.Mol.Biol上发表的方法(J.Mol.Biol.215:403-410(19 90)),在序列数据库中对查询序列进行同源性比对工作。从最初的BLAST发展到现在NC BI提供的BLAST2.0,已将有缺口的比对序列也考虑在内了。BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要 么都是蛋白数据库要么都是核酸数据库。 所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。 通常根据查询序列的类型(蛋白或核酸)来决定选用何种BLAST。假如是作核酸-核酸查询,有两种BLAST供选择,通常默认为BLASTN。如要用TBLASTX也可,但记住此时不考虑缺口。 BLAST适用于本地查询。可以下载公共数据库,对于该数据库的更新和维护是必不可少的。如果要直接到网上查询也可以(即NetBlast),但记住如果你认为自己的序列很有价值的话,还是谨慎为宜。 如何访问在线的BLAST功能服务? 您只要通过浏览器访问Blast主页(https://www.doczj.com/doc/5011132765.html,/) 。所有的查询和分析都通过浏览器来完成,就象您在您的本地机上一样方便和快捷。 BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。 Blast中常用的程序介绍: 1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。 3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。

实验--基因结构预测分析

学院:______ 班级:_______ 学号:_________ 姓名:__________ 成绩:______ 实验五基因结构预测分析 目的: 1、熟悉并掌握从基因组核酸序列中发现基因的方法。 内容: 1、用NCBI的ORF Finder分析原核生物核酸序列或真核生物的cDNA序列中的开放阅读框; 2、使用GENSCAN在线软件预测真核生物基因; 3、使用POL YAH在线预测转录终止信号; 4、使用PromoterScan在线预测启动子区域。 操作及问题: 随着测序技术的不断发展,越来越多的模式生物启动了全基因组测序计划,完成全基因组测序的物种也越来越多,使得基因结构和功能的预测成为可能。同时,通过基因组文库筛选也可得到目的基因所在克隆。获得克隆序列后,同样也需要对目的基因做结构预测以便指导后续功能研究。本实验介绍几种常用的基因预测分析工具,预测核酸序列的开放阅读框、转录终止信号、启动子、CpG岛等信息。 一、开放阅读框(open reading frame,ORF)的识别 ORF是指从核酸序列上5’端翻译起始密码子到终止密码子的蛋白质编码序列。原核生物与真核生物的基因结构存在很大不同,真核生物的ORF除外显子(平均150bp)外,还含有内含子,因此真核生物基因的预测远比原核生物复杂。 (一)利用NCBI ORF Finder预测原核生物核酸序列或真核生物的cDNA序列中的开放阅读框。https://www.doczj.com/doc/5011132765.html,/gorf/gorf.html 1、在NCBI上查找AC 号为AE008569 的核酸记录。(见实验五中的AE008569.mht) 问题1:这个序列的名称? 问题2:这个序列来源物种所属的生物学大分类?

实验三蛋白序列比对到基因组

实验三蛋白序列比对到基因组(GeneWise and exonerate)实验目的 1)了解基因结构,acceptor, sponsor 等概念 2)理解将蛋白序列比对到基因组的应用 3)掌握利用GeneWise 将蛋白序列定位到基因组上并得到基因结构 实验数据及软件 ftp://172.28.137.55/pub/lab_materia/biosoft/lab03/ 1、Genewise 简介 Genewise 是EBI 的Ewan Birney 和他的同事们开发的一套 软件系统,用来做蛋白质序列和DNA 序列之间的比对,软件比对过程中会考虑剪切位点信息,所以能够定义出intron/exon 结构,同时它和blast 的最大区别是它能够把基因的多个exon 的链接起来,从而得到基因整体的比对情况。Genewise 只能一次进行 一条蛋白序列和一条核酸序列的比对,同等运算量的情况下,运行时间较blast,blat,sim4 等慢,由于进行的是蛋白质水平的比对,所以敏感性比blat,sim4 等要高。 2、下载 可从EBI 网站上下载,下载地址: ftp://https://www.doczj.com/doc/5011132765.html,/pub/software/unix/wise2/wise2.2.0.tar.gz(FTP 服务器上已经下载有) 3、安装 1)解压缩 2)编译, $ cd src $ make all 3)设置环境变量:WISECONFIGDIR 4、使用语法 genewise genewise –genesf [other options] 参数提示 1.默认情况下,蛋白序列和dna 序列的正链进行比对,即-tfor 参数;如果用户 不确定蛋白质序列是在dna 序列的正链上还是反链上,可以改用-both 参数; 2.当用户需要使用genewise 比对得到的dna 序列时,可以通过添加-cdna 得到;可以通过-trans参数得到对应的氨基酸序列; 应用1—确定基因结构 genewise –both –genesf input-protien3.fa input-dna3.fa > output3.genewise.out 结果(部分)

基因序列分析的步骤和方法

基因序列分析的步骤和方法 拖鞋兰,大陆也有叫“鞋兰”的,指的是兰科植物中,它的下花瓣变形成奇特袋状花器一族的总称,中文名称的由来是源自于英文对这一族群的俗称”Lady Slipper Orchids”,当年订定这一花种中文名字的植物学者就将其直译为「拖鞋兰」,说真格的,这名称有点失之粗鄙,实在很难从字义上去意会这一群具观赏价值,又饶富趣味的兰属是甚么样子;做为商品的推广,近年来有不少有心人呼吁为其另立新词,吾人宁愿称其为「仙履兰」,即表达其传奇、趣味,又隐含高贵气质之意,同时也符合其中一属的学名。属于兰科,杓兰亚科,有四种遗产基因:凤仙花、Phragmipedium、Selenipedium和Mexipedium Google图片搜索:Google Image Search 为了访问在美国欧洲的基因数据库肯能要使用twisted,是python2.7的标准库。- 序列分析的步骤: 首先查看科学论文数据库例如,PubMed 从基因数据库例如GenBank中下载序列文件 https://www.doczj.com/doc/5011132765.html,/DIST/docs/tutorial/examples/ls_orchid.fasta https://www.doczj.com/doc/5011132765.html,/DIST/docs/tutorial/examples/ls_orchid.gbk 把序列信息转换成python可用的数据结构; 分析阶段:翻译、转录、权计算、k最近邻居、朴素贝叶斯算法等等 >>> from Bio import SeqIO >>> for seq_record in SeqIO.parse("ls_orchid.fasta", "fasta"): ... print seq_record.id ... print repr(seq_record.seq) ... print len(seq_record) ...... Found 94 records The last record Z78439.1 Seq('CATTGTTGAGATCACATAATAATTGATCGAGTTAATCTGGAGGATC

功能基因的序列比对方法

<1>.切除载体和(或)引物 a.打开所有的原始引物序列于一个EditSeq的窗口中 b. export all as one c.保存 d.打开这个保存的文件,开始切除载体和引物 e.选择载体插入点两侧的序列(10-15个的样子)搜索注意:不存在正反向的问题,都是一个方向,因为测序的时候是选择两个载体上的引物其中的一条来往后测序的! 切完之后另存为 f.重新打开这个文件,开始切除引物 方法同切载体,但是要注意正反向的问题。比如mcrA基因,其引物为 Forward: 5'-GGTGGTGTMGGATTCACACARTAYGCWACAGC-3' Reverse: 5'-TTCATTGCRTAGTTWGGRTAGTT-3' 先找Forward 5’端,此时只找到的部分序列。切去5’端。 然后再切这些切掉5’端序列的3’端的序列,此时其3’端序列应该是Reverse 的反向互补序列。 切去这个反向互补序列,这样一来这个些序列就已经被切去两端的引物了。 但此时还剩下另一部分未切除任何引物的序列,此时记下这些序列的编号,先切去Reverse 5’端。 再用Forward 的反向互补序列切去3’端,这样剩下的序列也都被切除两端的引物了。 <2>将所有序列调整为同向序列:

a.选择前面记录编号的序列,将这些序列一个个都转换为其反向互补序列。这样一来所有的序列都成为同向序列了,即在DNA两条反向互补链的其中一条上的比较了。 b.保存该文件 <3>生成OTUs Google 搜索”Fastgroup II” 或grouping--注意勾选的选项) Choose method 里面相似度可以选97%或98% 提交之后出现的窗口如 可以看到被分为了10个OUT 每个OUT都自动选择了一个代表序列。全选将其复制到word中,备用。并把其中的那些代表序列都复制下来粘贴到TXT 保存。 <4>寻找嵌合体:一般是对16S rRNA来说的 两个网站: (或搜decipher chimera) (或搜bellerophon chimera check) <5>翻译 网站: 在保存有OTUs的TXT文件中,一个一个翻译成蛋白质序列。最后保存。 在用Expasy翻译的时候选择第二个选项 点击翻译

基因序列分析软件DNAStar简介

生物信息 基因序列分析软件DNAStar简介 郑伟文,林营志,刘波,曹宜,苏明星,朱育菁,蓝江林,车建美,郑斯平,陈坚 (福建省农科院生物技术中心) 1.设计公司 Sequence Analysis Software for Macintosh and Windows,GETTING STARTED,Introductory Tour of the LASERGENE System,MAY 2001,L A S E R G E N E f o r W i n d o w s & M a c i n t o s h,DNASTAR, Inc.,1228 South Park Street,Madison, Wisconsin 53715,(608) 258-7420,Copyright . 2001 by DNASTAR, Inc.,All rights reserved. Reproduction, adaptation, or translation without prior written permission is,prohibited,except as allowed under the copyright laws or with the permission of DNASTAR, Inc.,Sixth Edition, May 2001,Printed in Madison, Wisconsin, USA,Trademark Information。 2.应用程序 在安装Lasergene网络系统之前要熟悉以下术语:应用程序:指EditSeq, GeneMan, GeneQuest, MapDraw,MegAlign, PrimerSelect, Protean, and SeqMan II。应用程序服务器:是指存储应用程序的电脑,通常与dongle 服务,器是同一个服务器,但也可以不同,当在局部硬盘上安装网络程序,时,也可以在同一个网络系统中同时存在多个不同的应用程序服务,器,而且应用程序服务器不一定是苹果机,储存应用程序的机器也不一定必须能够运行该程序,仅仅是储存而已。 3.安装方式 3.1通过英特网升级 如果您以前已经安装了Lasergene 而且目前有升级和服务联系,您就可以通过英特网来升级您现有的版本,各种模块(module)都是以自解压形式存储的,你可以选择性的下载安装。 必备条件您的用户名和会员号是必需的,可以在安装盘上找到。 3.2程序升级 备份您已有的Lasergene,找到您要升级的执行程序,并把它转移到备份的文件夹中。连接到DNAstar 网站的主页(https://www.doczj.com/doc/5011132765.html,),从菜单中的Customers中点击Lasergene Updates点,安提示输入密码和用户名(与会员名相同),这样就会打开下载页面。找到windows软件(Windows 95/98/NT Software.),就可以下载您想要的模块了。模块下载完毕以后,双击文件将其解压缩完毕。 看到“Application name”has been updated.说明升级完毕。 3.3软件安装 从CD在PC机(Windows)上安装Lasergene。注意安装是尽量关闭所有其它程序以保证安装顺利进行。必备条件,一张个人的Lasergene安装盘;一张Lasergene软件光碟;足够的硬盘空间和内存:至少30Mb的硬盘,32Mb的RAM。从光盘安装Lasergene,插入安装盘和安装光盘,双击安装图标,则出现下面的窗口,点击继续,则出现安装窗口。随后一次出现下面窗口,请按照提示做出选择然后点击Next,直至完成安装(图1)。

Gene 序列分析

Gene 序列分析 原文https://www.doczj.com/doc/5011132765.html,/vionit/blog/item/98edb0dc706167a2cc116651.html 核酸和蛋白质序列分析 在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站(https://www.doczj.com/doc/5011132765.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。 下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 (一)核酸序列分析 1、双序列比对(pairwise alignment) 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。 除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外我们还推荐使用EMBOSS软件包中的Needle软件(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST (https://www.doczj.com/doc/5011132765.html,/BLAST/)。以上介绍的这些双序列比对工具的使用都比较简单,一般输入所比较的序列即可。 (1)BLAST和FASTA FASTA(https://www.doczj.com/doc/5011132765.html,/fasta33/)和BLAST(https://www.doczj.com/doc/5011132765.html,/BLAST/)是目前运用较为广泛的相似性搜索工具。这两个工具都采用局部比对的方法,选择计分矩阵对序列计分,通过分值的大小和统计学显著性分析确定有意义的局部比对。使用FASTA和BLAST,进行数据库搜索,找到与查询序列有一定相似性的序列。一般认为,如果蛋白的序列一致性为25-30%,则可认为序列同源。 BLAST根据搜索序列和数据库的不同类型分为5种(表2),另外PSI-BLAST通过迭代搜索,可以搜索到与查询序列相似性较低的序列。其中BLASTN、BLASTP在实践中最为常用,TBLASTN 在搜索相似序列进行新基因预测时特别有用。 使用BLAST时,先选择需要使用的BLAST程序,然后提供相应的查询序列,选择所比对的数据库即可。 (2)Needle和Pairwise BLAST:其中Needle适用于蛋白质和DNA序列,而Pairwise BLAST仅适用于DNA序列(3)相似性和同源性:必须指出,相似性(similarity)和同源性( homology)是两个完全不同的概念。同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的

生物信息学实验指导—实验三

实验三核酸序列分析 【实验目的】 1、掌握已知或未知序列接受号的核酸序列检索的基本步骤; 2、掌握使用BioEdit软件进行核酸序列的基本分析; 3、熟悉基于核酸序列比对分析的真核基因结构分析(内含子/外显子分析); 4、了解基因的电子表达谱分析; 5、熟悉密码子偏好性分析。 【实验原理】 针对核酸序列的分析就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话,那么这个DNA片段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏好性”,也是说明这段DNA是蛋白质编码区的有力证据;其它的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。一般而言,确定基因的位置和结构需要多个方法综合运用,而且需要遵循一定的规则:对于真核生物序列,在进行预测之前先要进行重复序列分析,把重复序列标记出来并除去;选用预测程序时要注意程序的物种特异性;要弄清程序适用的是基因组序列还是cDNA序列;很多程序对序列长度也有要求,有的程序只适用于长序列,而对EST这类残缺的序列则不适用。 1. 重复序列分析 对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是涉及数据库搜索的程序。 2. 数据库搜索 把未知核酸序列作为查询序列,在数据库里搜索与之相似的已有序列是序列分析预测的有效手段。在理论课中已经专门介绍了序列比对和搜索的原理和技术。但值得注意的是,由相似性分析作出的结论可能导致错误的流传;有一定比例的序列很难在数据库里找到合适的同源伙伴。对于EST序列而言,序列搜索将是非常有效的预测手段。 3. 编码区统计特性分析 统计获得的经验说明,DNA中密码子的使用频率不是平均分布的,某些密码子会以较高的频率使用而另一些则较少出现。这样就使得编码区的序列呈现出可察觉的统计特异性,即所谓的“密码子偏好性”。利用这一特性对未知序列进行统计学分析可以发现编码区的粗略位置。这一类技术包括:双密码子计数(统计连续两个密码子的出现频率);核苷酸周期性分析(分析同一个核苷酸在3,6,9,...位置上周期性出现的规律);均一/复杂性分析(长同聚物的统计计数);开放可读框架分析等。 4. 启动子分析 启动子是基因表达所必需的重要序列信号,识别出启动子对于基因辨识十分重要。有一些程序根据实验获得的转录因子结合特性来描述启动子的序列特征,

实验一 生物序列统计分析

实验一生物序列统计分析 一.实验目的 一般情况下,真核细胞中的线粒体是主要的能量生产中心。人类线粒体基因组在GenBank中的编号为“NC_001807”。以这条序列为例,学习有关DNA序列和蛋白质序列的统计分析方法。 1.学习和掌握在MATLAB平台上应用Bioinformatics工具包访问GenBank,并读取DNA序列。 2.学习和掌握在MATLAB平台上应用Bioinformatics工具包统计DNA序列的组成成分及含量,分析DNA序列的性质。 3.学习和掌握在MATLAB平台上应用Bioinformatics工具包搜索DNA序列的开放阅读框ORFs。 4.学习和掌握在MATLAB平台上应用Bioinformatics工具包,根据已定位的ORFs,实现DNA序列向蛋白质序列的转换。 5.学习和掌握在MATLAB平台上应用Bioinformatics工具包统计蛋白质序列中各种氨基酸含量。 二.实验内容 1.在MATLAB平台上应用Bioinformatics工具包访问GenBank,读取DNA序列。 ①用“web”命令在MATLAB平台上打开NCBI网页。 web('https://www.doczj.com/doc/5011132765.html,/') web('https://www.doczj.com/doc/5011132765.html,/genomes/framik.cgi?db=Genome&gi=12188') ②用“getgenbank”功能从GenBank中读序列信息到MARLAB mitochondria = getgenbank('NC_001807','SequenceOnly',true); 选项“SequenceOnly”使我们从GenBank中只读取“NC_001807”的序列信息。 “Mitochondria”是我们定义的变量,存在MATLAB的Workspace中。 ③查看变量mitochondria whos mitochondria 2.在MATLAB平台上应用Bioinformatics工具包统计DNA序列的组成成分及含量,分析DNA序列的性质。 ①查看DNA序列的性质 ntdensity(mitochondria)

实验总结-3’race

应用3'Full-RACE技术克隆PCDHB1基因3'非翻译区 廖柔霞:汕头大学医学院2008级本科一班 指导教师:许丽艳,方王楷,黄俏,吴健谊,吴炳礼,李恩民 【摘要】目的:克隆PCDHB1基因3'非翻译区,为深入研究该基因在食管癌等肿瘤或内分泌性疾病中的功能提供基本实验材料。方法:3'Full-RACE技术。结果:未能成功获得PCDHB1基因3'非翻译区克隆。结论:1)提示PCDHB1基因的结构组织形式可能十分复杂;2)今后,拟在具体方法学上改进,争取获得该基因3'非翻译区克隆。 PCDHB1(别名PCDH-BETA1),位于5q31。该基因共含有2534个碱基。这个基因是原钙黏连蛋白基因簇的一员,是5号染色体上的三个串连连接的成员之一。该基因组显示了与B的细胞和T细胞受体基因簇的一个不寻常的基因相似。其具体职能是未知的,但它很有可能在神经细胞间的连接和建立中发挥关键的作用。β钙黏连蛋白在特定的细胞粘连的事件扮演一个重要的角色。见诸于人类恶性肿瘤中的表达和调控功能,在很多情况下,导致肿瘤细胞浸润和转移的加剧。由于该基因的3'端还未知,所以必须用3'Full RACE的技术将PCDHB1的3'端测出来。对此实验设计如下:应用3’RACE试剂盒及设计好的基因特异性引物扩增得到的基因片段,并将其连接到pEASYTM-Blunt Simple coloning vector 并测序。该基因片段由于出现“双峰”现象导致测序失败。 关键词:基因克隆,PCDHB1基因,3'非翻译区,3'Full-RACE The clone of 3' untranslational region of PCDHB1 gene using 3'Full-RACE RX Liao: 2008 Undergraduates of Medical College of Shantou University Supervisor: LY Xu, WK Fang, Q Huang, JY Wu, BL Wu, EM Li Abtract:Objective Methods Results Conclusion PCDHB1(PCDHB-BETA1),is located in 5q31. This gene is a member of the protocadherin beta gene cluster, one of three related gene clusters tandemly linked on chromosome five. The gene clusters demonstrate an unusual genomic or ganization similar to that of B-cell and T-cell receptor gene clusters. Their specific functions are unknown but they most likely play a critical role in the

相关主题
文本预览
相关文档 最新文档