实验--基因结构预测分析

  • 格式:doc
  • 大小:39.00 KB
  • 文档页数:4

下载文档原格式

  / 6
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

学院:______ 班级:_______ 学号:_________ 姓名:__________ 成绩:______

实验五基因结构预测分析

目的:

1、熟悉并掌握从基因组核酸序列中发现基因的方法。

内容:

1、用NCBI的ORF Finder分析原核生物核酸序列或真核生物的cDNA序列中的开放阅读框;

2、使用GENSCAN在线软件预测真核生物基因;

3、使用POL YAH在线预测转录终止信号;

4、使用PromoterScan在线预测启动子区域。

操作及问题:

随着测序技术的不断发展,越来越多的模式生物启动了全基因组测序计划,完成全基因组测序的物种也越来越多,使得基因结构和功能的预测成为可能。同时,通过基因组文库筛选也可得到目的基因所在克隆。获得克隆序列后,同样也需要对目的基因做结构预测以便指导后续功能研究。本实验介绍几种常用的基因预测分析工具,预测核酸序列的开放阅读框、转录终止信号、启动子、CpG岛等信息。

一、开放阅读框(open reading frame,ORF)的识别

ORF是指从核酸序列上5’端翻译起始密码子到终止密码子的蛋白质编码序列。原核生物与真核生物的基因结构存在很大不同,真核生物的ORF除外显子(平均150bp)外,还含有内含子,因此真核生物基因的预测远比原核生物复杂。

(一)利用NCBI ORF Finder预测原核生物核酸序列或真核生物的cDNA序列中的开放阅读框。/gorf/gorf.html

1、在NCBI上查找AC 号为AE008569 的核酸记录。(见实验五中的AE008569.mht)

问题1:这个序列的名称?

问题2:这个序列来源物种所属的生物学大分类?

2、进入OFR Finder,首先在页面下方的Genetic codes下拉菜单中浏览现有的22 种遗传密码选择项(这里我们只使用默认的standard code),利用AC 号或其ra w sequence(即不带任何注释信息的全序列)进行ORF finding。(预测结果见实验五文件夹中AE008569 ORF Finder.mht)

3、在结果显示页面中,按照序列的正向+1、+2、+3 以及反向的­1、­2、­3 进行的六框翻译结果以图形的方式显示在页面中。利用默认的100bp阈值所发现的各框内的ORF以绿色条状显示。同时,按照六框内所有发现的ORF 的大小顺序,在页面的右侧有一个列表,分别显示了ORF 的翻译框在核酸序列上的位置以及ORF 的长度。你可以改变ORF 鉴别中的长度阈值(50,100,300),点击Redraw 重新进行计算。

4、点击图形上的绿色条框,就可以对这个ORF 进行检查(当然也可以点击右侧的ORF 列表),页面上会显示预测的氨基酸序列,同时页面上还嵌入了BLAST 程序以及NCBI 的有关序列数据库以便于发现与此ORF 相似的库记录。

5、SixFrames 是以另外一种方法计算并显示结果,点击SixFrames,结果中各框上边拉下的绿色短线表示为一个起始密码子,而各框下方的粉色短线表示为一个终止密码子。

6、如果你拥有一个高等生物的cDNA 时,可以利用ORF finder 这个简单的工具来找到你的蛋白编码区域。因为cDNA 不含有intron,因此可拥有与微生物相似的ORF 结构。

根据以上预测结果回答问题3:

问题3:该条序列中最长的ORF是多长?编码多少氨基酸?位于序列中的什么位置?

(二)使用GENSCAN在线软件预测真核生物基因

GENSCAN(/GENSCAN.html)软件由斯坦福大学的Chris Burge开发,它是针对基因组DNA序列预测ORF及基因结构信息的开放式在线资源,尤其适用于脊椎动物、拟南芥和玉米等真核生物。

这里以提交一个AC号为AC002390的人类cosmid序列为例,进入GENSCAN 页面,先选择物种脊椎动物(vertebrate),上传序列文件或直接粘贴序列,运行后,

从返回结果中可获得所预测到的基因数目、外显子数目和类型,预测单元的长度、方向、位置及相位、编码区打分值、可信概率、总的分值等信息。(结果见实验五文件夹中AC002390 GENSCAN Output.htm)根据结果回答问题:

问题4:经预测,该序列中可能有几个基因?是否完整?

问题5:预测到的第一个基因的编码区由几个外显子组成?起始外显子的位置在什么区域?

二、CpG岛的预测分析

CpG岛(CgG island)是指一段200bp或更长的DNA序列,核苷酸G+C的含量较高,并且CpG双核苷酸出现频率占G+C含量的50%以上,其中“P”表示“C”和“G”以磷酸二酯键连接。有60%~80%的人类基因的启动子和起始外显子附近存在CpG岛,因此搜寻cpG岛可以为基因及其启动子预测提供重要线索。

这里介绍CpGPlot这个EMBL-EBI中心开发的网上在线预测CpG岛工具。

我们仍以上述AC002390这个人类cosmid序列作为CpGPlot的预测对象。进入CpGPlot页面(/emboss/cpgplot/index.html),上传序列文件或直接粘贴序列并采用默认参数,完成提交任务。(结果见实验五文件夹AC002390 CpGPlot.mht文件)

运行(Run)后,CpGPlot将以CpGplotPNG格式返回3个图示结果:①序列各个位置(G+C)含量观察值/期望值(Obs/Exp)的比率;②序列各个位置的(G+C)%;

③CpG出现频率高于阈值的位置。同时以Cpgplot output输出文本,告知提交序列AC002390全长70311,各个位置(G+C)含量Obs/Exp比率>0.60,(G+C)%>50.0;两个CpG岛长度及起始、终止位置。

问题6:在该序列中预测到几个CpG岛?分别位于序列的什么区域?

参照GENSCAN的预测结果发现,前一个CpG岛位置正好和基因起始外显子区域对应;而后一个CpG岛出现在启动子区域上游2 kb左右的区域,并没有基因对应