EST 表达序列标签
- 格式:ppt
- 大小:10.42 MB
- 文档页数:78
最新十级伤残鉴定标准[一个鼻咽癌相关EST的鉴定及其全长cDNA序列分析]摘要:鼻咽癌是我国南方及东南亚地区常见的恶性肿瘤之一。
通过对鼻咽癌染色体高频率杂合性丢失区域3p21的表达序列标签(expressed sequencetag,EST)进行同源性比较分析,运用逆转录聚合酶链式反应的方法,筛选到一个在41.18%(14/34)的鼻咽癌活检组织及20.0%(1/5)的鼻咽癌细胞系中表达下调的ESTBC772301;并用Northern杂交方法,检测了该EST在多种正常成人组织中的表达状况及其所代表基因的转录本大小。
在此基础上,对该EST的cDNA 克隆(1MACE:4839190)进行直接测序,获得了一个全长为2377bp的新cDNA序列;经生物信息学分析,发现它与已知基因序列无明显同源性,属于一个新基因,定位于染色体3p21.3,被命名为鼻咽癌表达下调基因(NPCEDRC,GenBank登录号:AF538150)。
其编码的蛋白质含169个氨基酸,与一个已报道的在进化上相对保守、功能的人类蛋白Nicolinl(简称NIl)N端170个氨基酸残基的序列同源性为97%,但缺少NIl蛋白C端43个氨基酸残基,可能是nicoUnl基因不同剪接本的编码产物。
关键词:鼻咽癌;表达序列标签:全长cDNA;序列分析中圈分类号:R730:A:1007-7847(xx)02―0172-06鼻咽癌(Nasopharyngeal carcinoma,NPC)是我国南方常见的一种恶性肿瘤。
目前认为:NPC具有遗传易感性背景和复杂的遗传学改变,且与EB病毒感染和环境化学致癌因素相关,其发病遵循典型的多基因一环境交互作用模式。
细胞及分子遗传学研究表明,NPC存在多个染色体部位如:3p、3q、9p、11q、12q、13q、14q和16q等非随机性的缺失或扩增,尤其是3p的缺失或称之为杂合性丢失(loss of heterozygosity,LOH)在NPC发病过程中出现最早、发生频率最高。
文章编号: 1000-1336(2011)06-0906-06EST-SNP 开发软件特性分析及比较李 猛1 郭大龙1 刘崇怀2 张国海11河南科技大学林学院,洛阳 4710032中国农业科学院郑州果树研究所,郑州 450009摘要:利用生物信息学软件,对表达序列标签(EST)序列进行单核苷酸多态性(SNP)开发目前已较为普遍,其方法简单实用,且软件数量较多,可分为需要测序峰图的SNP 开发软件和不需要测序峰图的SNP 开发软件。
对有测序峰图的序列进行SNP 开发,操作步骤较少且结果较为精确;对无测序峰图的序列进行SNP 开发可大批量操作且成本较低。
本文针对这两类软件进行分析比较,阐述EST-SNP 开发流程,重点分析以公共数据库中EST 序列为基础的SNP 开发过程,并对其各种使用参数加以说明,旨在为EST-SNP 开发提供参考,提高效率。
关键词:SNP ;软件分析;测序峰图;EST 序列中图分类号:Q81收稿日期:2011-04-25国家自然科学基金项目(30800742);国家葡萄产业技术体系(nycytx-30-zy-01);河南省高等学校青年骨干教师资助计划(2010GGJS- 072)资助作者简介:李猛(1987-),男,硕士生, E-mail :limengak47@ ;郭大龙(1978-),男,博士,副教授,通讯作者,E-mail :guodalong@ ;刘崇怀(1965-),男,博士,研究员,通讯作者,E-mail :liuchonghuai@ ;张国海(1962-),男,博士,教授,E-mail :zgh_ly@单核苷酸多态性(single nucleotide polymorphism, SNP)是指基因组内DNA 某一特定核苷酸位置上的转换、颠换、插入、缺失等变化。
一般情况下,我们所指的SNP 不包括碱基的插入与缺失[1]。
SNP 作为近年来出现的第三代遗传标记,目前已广泛应用于遗传连锁图谱构建[2]、多样性分析[3]、品种鉴定[4]和重要性状的基因定位[5]等相关研究中,具有密度高、遗传稳定性强、易于实现自动化分析等特点,比以简单序列重复(simple sequence repeat, SSR)为代表的第2代分子标记效率更高,更适用于高通量的检测分析。
一、引言枇杷是一种常见的中药材和水果,其品种繁多,形态特征变异较大。
鉴别枇杷品种对种植、销售及科研具有重要意义。
传统的鉴定方法主要依靠形态学特征和生物学特性,但存在主管专家有限、耗时、费力、受环境和经验等因素影响的缺点。
近年来,基于现代分子生物学方法的est-ssr标记技术已经被广泛应用于枇杷品种的鉴定,具有高效、快速、准确的优势。
二、est-ssr标记技术的原理est-ssr(expressed sequence tag-derived simple sequence repeat)标记是利用EST数据(表达序列标签)进行简单重复序列的分析,并进行标记。
est-ssr标记是一种分子标记技术,利用基因组中的微卫星序列进行检测,并通过PCR扩增技术进行鉴定。
由于EST数据是从不同组织、不同生长阶段的cDNA样本中获得的,因此est-ssr 标记具有较强的系统进化、物种特异性和表达特异性。
三、est-ssr标记技术在枇杷品种鉴定中的应用1. 枇杷品种鉴定样本的准备在进行枇杷品种鉴定之前,首先需要收集不同品种的叶片或幼芽作为样本。
为了保证est-ssr标记技术的高效性和准确性,样本的选择和处理非常重要。
样本应选择来自不同地区或不同时间的品种,避免同一地区、同一种植基地或同一批次的样本。
样本的保存和处理过程中需要注意避免DNA的污染和降解。
2. est-ssr标记技术的实验步骤est-ssr标记技术主要包括DNA提取、PCR扩增、电泳分析等步骤。
首先需要从样本中提取DNA,可以采用CTAB法或商用DNA提取试剂盒进行提取。
提取的DNA需要经过质量检测,确保其完整性和纯度。
接下来是PCR扩增反应,选择合适的est-ssr引物进行扩增,PCR扩增条件需要进行优化,以获得清晰、特异的条带。
最后进行聚丙烯酰胺凝胶电泳分析,根据PCR扩增产物大小和样品条带图谱的差异,进行品种鉴定和分析。
3. est-ssr标记技术的数据分析和结果解读通过PCR扩增和电泳分析得到样品的est-ssr标记图谱,根据条带长度和数量对不同品种进行鉴别。
Expressed Sequence Tags(ESTs)何谓Expressed Sequence Tags(ESTs)?从一特定细胞族群之mRNA转录而成的一群cDNA,经过single-pass的定序过程,而得到的一组序列。
此一细胞族群可以是特定的组织、器官,或是处于某特定发育状态或环境的细胞。
--- A set of single-pass sequenced cDNAs from an mRNA population derived from a specified cell population (e.g. a specific tissue, organ, developmental state or environmental condition).〈2〉ESTs之发展演进快速产生大量低质量的cDNA之概念在1980年代晚期被提出,此方法所能带来的利益,在当时并未能被普遍地认同。
提倡者认为这些cDNA序列能让很多新的protein-coding gene很快地被发现。
批评者则提出反驳,认为这些cDNA 序列将会遗漏掉许多原本能在genimic DNA中被找到的重要调控要素(regulatory elements)。
最后,还是由提倡cDNA定序的人赢得了胜利。
1991年时,有609个Expressed Sequence Tags(ESTs)首度被描述,而公用数据库(public databases)中ESTs的数量,更是呈现戏剧性的成长,到了1995年中,GenBank里ESTs records 的数量已超过非ESTs records的数量;2000年六月,四百六十万的ESTs records 已占了GenBank里所有序列的百分之六十二。
一开始,ESTs的来源只有人类;现在NCBI的EST database(dbEST)已包含了超过250种生物来源的ESTs,包括小鼠(mouse)、大鼠(rat)、Caenorhabditis elegans和黄果蝇(Drosophila melanogaster)等。
表达序列标签(expressed sequence tags,ESTs)是指从不同组织来源的cDNA序列。
这一概念首次由Adams等于1991年提出。
近年来由此形成的技术路线被广泛应用于基因识别、绘制基因表达图谱、寻找新基因等研究领域,并且取得了显著成效。
在通过mRNA差异显示、代表性差异分析等方法获得未知基因的cDNA部分序列后,研究者都迫切希望克隆到其全长cDNA序列,以便对该基因的功能进行研究。
克隆全长cDNA序列的传统途径是采用噬斑原位杂交的方法筛选cDNA文库,或采用PCR的方法,这些方法由于工作量大、耗时、耗材等缺点已满足不了人类基因组时代迅猛发展的要求。
而随着人类基因组计划的开展,在基因结构、定位、表达和功能研究等方面都积累了大量的数据,如何充分利用这些已有的数据资源,加速人类基因克隆研究,同时避免重复工作,节省开支,已成为一个急迫而富有挑战性的课题摆在我们面前,采用生物信息学方法延伸表达序列标签(ESTs)序列,获得基因部分乃至全长cDNAycg,将为基因克隆和表达分析提供空前的动力,并为生物信息学功能的充分发挥提供广阔的空间。
文本将就EST技术的应用并就其在基因全长cDNA克隆上的应用作一较为详细的介绍。
1、ESTs与基因识别EST技术最常见的用途是基因识别,传统的全基因组测序并不是发现基因最有效率的方法,这一方法显得即昂贵又费时。
因为基因组中只有2%的序列编码蛋白质,因此一部分科学家支持首先对基因的转录产物进行大规模测序,即从真正编码蛋白质的mRNA出发,构建各种cDNA文库,并对库中的克隆进行大规模测序。
Adams等提出的表达序列标签的概念标志着大规模cDNA测序时代的到来。
虽然ESTs序列数据对不精确,精确度最高为97%,但实践证明EST技术可大大加速新基因的发现与研究。
Medzhitov等通过果蝇黑胃TOLL蛋白进行dbEST数据库检索,该蛋白已证实在成熟果蝇抗真菌反应中发挥重要作用,通过同源分析的方法,找到相应的人类同源EST(登录号为H48602),这为接下来研究人类TOLL同源蛋白的功能提供了很好的条件。
生物信息分析经常使用名词说明生物信息学(bioinformatics):综合运算机科学、信息技术和数学的理论和方式来研究生物信息的交叉学科。
包括生物学数据的研究、存档、显示、处置和模拟,基因遗传和物理图谱的处置,核苷酸和氨基酸序列分析,新基因的发觉和蛋白质结构的预测等。
基因组(genome):是指一个物种的单倍体的染色体数量,又称染色体组。
它包括了该物种自身的所有基因。
基因(gene):是遗传信息的物理和功能单位,包括产生一条多肽链或功能RNA所必需的全数核苷酸序列。
基因组学:(genomics)是指对所有基因进行基因组作图(包括遗传图谱、物理图谱、转录图谱)、核酸序列测定、基因定位和基因功能分析的科学。
基因组学包括结构基因组学(structural genomics)、功能基因组学(functional genomics)、比较基因组学(Comparative genomics)宏基因组学:宏基因组是基因组学一个新兴的科学研究方向。
宏基因组学(又称元基因组学,环境基因组学,生态基因组学等),是研究直接从环境样本中提取的基因组遗传物质的学科。
传统的微生物研究依托于实验室培育,元基因组的兴起填补了无法在传统实验室中培育的微生物研究的空白。
蛋白质组学(proteomics):说明生物体各类生物基因组在细胞中表达的全数蛋白质的表达模式及功能模式的学科。
包括鉴定蛋白质的表达、存在方式(修饰形式)、结构、功能和彼此作用等。
遗传图谱:指通过遗传重组所取得的基因线性排列图。
物理图谱:是利用限制性内切酶将染色体切成片段,再依照重叠序列把片段连接称染色体,确信遗传标记之间的物理距离的图谱。
转录图谱:是利用EST作为标记所构建的分子遗传图谱。
基因文库:用重组DNA技术将某种生物细胞的总DNA 或染色体DNA的所有片断随机地连接到基因载体上,然后转移到适当的宿主细胞中,通过细胞增殖而组成各个片段的无性繁衍系(克隆),在制备的克隆数量多到能够把某种生物的全数基因都包括在内的情形下,这一组克隆的整体就被称为某种生物的基因文库。
分⼦标记介绍分⼦标记是指可遗传的并可检测的DNA序列或蛋⽩质。
即DNA⽚段即能反映⽣物个体或种群间基因组中某种差异特征的DNA ⽚段;能受基因控制并且能够稳定遗传的,能代表个体或群体的遗传特征,并可被⽤作遗传分析的物质。
它能够直接反映基因组间DNA间的差异。
常⽤的分⼦标记有RFLP、RAPD、AFLP、SSR、ISSR、EST等。
RAPD、AFLP属于以PCR为基础的分⼦标记;RFLP属于以Southern为基础的分⼦标记;SSR、ISSR属于以重复序列为基础的分⼦标记;EST以mRNA为基础的分⼦标记。
1 主要的分⼦标记介绍1.1 限制性⽚段长度多态性(RFLP)RFLP是应⽤Southern杂交技术检测DNA在限制性内切酶酶切后形成的特定DNA⽚段的⼤⼩。
所以对于引起酶切位点变异的突变如点突变或部分DNA⽚段的缺失、插⼊、倒位⽽引起酶切位点缺失或获得等均可应⽤。
此⽅法的基本步骤包括:DNA的提取、⽤限制性内切酶酶切DNA、凝胶电泳分开DNA⽚段、把DNA⽚段转移到滤膜上、利⽤放射性标记的探针显⽰特定的DNA⽚段、分析结果。
探针⼀般选择单拷贝的。
其优点为共显性标记,稳定且可重复但耗时,昂贵且需应⽤同位素。
⽤该技术可作出植物的RFLP图谱,并应⽤于植物遗传和育种研究。
杨长红等采⽤PCR-RFLP技术,对库尔勒⾹梨等19个主要梨品种的cpDNA遗传多态性进⾏研究,其利⽤10对通⽤引物对总DNA进⾏扩增,并且采⽤7种限制性内切酶对PCR产物进⾏酶切,通过软件分析得出:7对引物(cp01、cp02、cp03、cp04、cp06、cp09、cp10)能在梨属植物上扩增出1条特异性谱带,cp09/MvaI,cp03/Hin6I的酶切位点有显著差异。
根据结果分析,库尔勒⾹梨与鸭梨、砀⼭梨、苹果梨、早酥、慈梨、⾦川雪梨、锦丰、新疆句句梨的平均距离系数较⼩,与其他梨的平均距离系数较⼤。
1.2 随机扩增多态性DNA(RAPD)RAPD是以8-10个碱基的随机寡聚核苷酸序列为引物,利⽤PCR技术⾮特异性扩增DNA⽚段,然后⽤凝胶电泳分开扩增⽚段,即得到⼀系列多态性DNA⽚段.染⾊后即可进⾏多态性分析。
EST (Expressed Sequence Tag)表达序列标签EST (Expressed Sequence Tag)表达序列标签—是从一个随机选择的cDNA 克隆,进行5’端和3’端单一次测序挑选出来获得的短的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。
由于cDNA文库的复杂性和测序的随机性,有时多个EST代表同一基因或基因组,将其归类形成EST 簇(EST cluster)原理:EST是从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短的cDNA部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。
EST 来源于一定环境下一个组织总mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。
技术路线:首先从样品组织中提取mRNA,在逆转录酶的作用下用oligo (dT) 作为引物进行RT-PCR合成cDNA,再选择合适的载体构建cDNA 文库,对各菌株加以整理,将每一个菌株的插入片段根据载体多克隆位点设计引物进行两端一次性自动化测序,这就是EST 序列的产生过程。
应用:EST作为表达基因所在区域的分子标签因编码DNA 序列高度保守而具有自身的特殊性质,与来自非表达序列的标记(如AFLP、RAPD、SSR等)相比更可能穿越家系与种的限制,因此EST标记在亲缘关系较远的物种间比较基因组连锁图和比较质量性状信息是特别有用。
同样,对于一个DNA 序列缺乏的目标物种,来源于其他物种的EST也能用于该物种有益基因的遗传作图,加速物种间相关信息的迅速转化。
具体说,EST的作用表现在:⑴用于构建基因组的遗传图谱与物理图谱;⑵作为探针用于放射性杂交; ⑶用于定位克隆;⑷借以寻找新的基因; ⑸作为分子标记;⑹用于研究生物群体多态性;⑺用于研究基因的功能;⑻有助于药物的开发、品种的改良;⑼促进基因芯片的发展等方面。
名词解释:第一章基因组遗传图(连锁图):指基因或DNA标记在染色体上的相对位置与遗传距离。
单位是厘摩cM (基因或DNA片段在染色体交换过程中分离的频率)。
物理图:以已知核苷酸序列的DNA片段(序列标签位点,sequence-tagged site, STS)为“路标”,以碱基对作为基本测量单位(图距)的基因组图。
转录图:以EST(expressed sequence tag ,表达序列标签)为标记,根据转录顺序的位置和距离绘制的图谱。
EST:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的5'或3'端序列称为表达序列标签(EST),一般长300-500 bp左右。
序列图(分子水平的物理图):序列图是指整个人类基因组的核苷酸序列图,也是最详尽的物理图。
既包括可转录序列,也包括非转录序列,是转录序列、调节序列和功能未知序列的总和。
基因:合成有功能的蛋白质或RNA所必需的全部DNA序列,即一个基因不仅包括编码蛋白质或RNA的核酸序列,还应包括为保证转录所必需的调控序列。
基因组(genome):生物所具有的携带遗传信息的遗传物质的总和。
基因组学(genomics):涉及基因组作图、测序和整个基因组功能分析的一门学科。
C值:单倍体基因组的DNA总量,一个特定种属具有特征C值C值矛盾(C value paradox):指一个有机体的C值和其编码能力缺乏相关性。
单一序列:基因组中单拷贝的DNA序列。
重复序列:基因组中多拷贝的DNA序列。
复杂性(complexity):基因组中不同序列的DNA总长。
高度重复序列(highly repetitive sequence):重复片段的长度单位在几个到几百个碱基对(base pair,bp)之间(一般不超过200 bp),串联重复频率很高(可达106以上),高度重复后形成的这类重复顺序称为高度重复顺序。
中度重复序列(intermediate repetitive sequence ):重复长度300~7000 bp不等,重复次数在102~105左右。
表达序列标签EST概要摘要:随着EST研究的开展、深入,以及相关研究技术和分析手段的不断改进并走向成熟,EST 数据资源不断丰富,而其本身又具备独特的优势和多方面的利用价值。
本文介绍了EST序列的获取、加工、储存、分配、分析和释读的相关研究。
关键词:EST 表达序列标签聚类cDNA文库生物信息学从事对生物信息的获取、加工、储存、分配、分析和释读,并综合运用数学、计算机科学和生物学工具,以达到理解数据中的生物学含义的目的。
随着人类基因组计划在世界范围内的开展,生物信息学作为一门热门交叉学科,不断地完善和发展起来作为一种强有力的工具,它在帮助我们对巨量的生物信息进行归纳和理解,从而揭示生命的奥妙的过程中发挥了重要的作用。
然而信息的爆炸增长,面对复杂和庞大的数据库,如何有效地地获取我们所需要的信息,充分利用这些已有的数据资源,加速基因克隆研究已成为一个富有挑战性的课题。
表达序列标签的广泛应用,为大规模进行基因克隆和表达分析提供了强大的动力,也为生物信息学功能的充分发挥提供了广阔的空问表达序列标签(EST,Expressed Sequence Tag)是指从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短的cDNA 部分序列,代表了一个完整基因的一小部分。
Adams等人在1991年提出了EST技术,宣布了cDNA大规模测序时代的开始。
随着大规模的测序,EST数据呈指数级增长。
到了1995年中,GenBank里ESTs的数量已超过非ESTs的数量;2000年6月,将近460万的ESTs 已占了GenBank里所有序列的62%。
ESTs序列不止来源于人类,NCBI的dbEST (EST database)中已包含了超过250种生物来源的ESTs,包括小鼠、大鼠、秀丽线虫和黄果蝇等。
除此之外,也有许多商业性的机构保存了一些属于机构内部不公开的ESTs 序列。
EST序列的制备EST来源于一定环境下一个组织总mRNA所构建的cDNA文库,因此EST也能说明该组织中各基因的表达水平。