寻找启动子区域和预测转录因子结合位点PPT
- 格式:ppt
- 大小:3.77 MB
- 文档页数:20
(工具篇):如何查找基因的启动子及预测转录因子?最近长链非编码RNA(lncRNA)很火热,好不容易找到了一个心仪的lncRNA(关于怎么找,我们之前也聊过:自己做测序、芯片;从别人的数据里挖据;或移植研究从其他疾病里扯一个过来验证),那么问题来了:分子有了,机制部分我该往哪个方向扯呢?很多人可能都会仔细寻找下游靶分子,以证明该lncRNA参与了xx调控,具有某个功能,表明该lncRNA分子在疾病发生发展过程中起到了很重要的作用。
其实,我们还可以往上游做,以丰富机制研究的深度。
今天我们就聊一聊,预测一下参与调控lncRNA表达转录因子的方法。
今天我们通过2个方式进行预测:1、需要用到UCSC、PROMO数据库首先,我们需要找到lncRNA的启动子序列。
打开UCSC数据库:举例:HOTAIR输入:HOTAIR点击GO点击红色的那个序列得到这么一个图,点击红色框,继续点击,得到这个界面,我们需要修改一些参数:转录起始位点上游2000nt和下游100nt区域为我们所选的启动子区。
SubmitOK,启动子序列有了。
拷贝下来。
接下来,我们打开PROMO数据库:http://alggen.lsi.upc.es/cgi-bin/promo_v3/promo/promoinit.cgi?dirDB=TF_8.3在SelectSpecies进行部分设置,Submit另外,如果对转录因子有选择的话,也可以在SelectFactors中进行设置。
最后,我们点击SearchSites将刚刚得到的启动子序列粘贴进行。
另外,默认容错率15%,如果得到的转录因子过多,我们可以进行调整,设置成5%或0%。
Submithttp://alggen.lsi.upc.es/cgi-bin/promo_v3/promo/promo.cgi?dirDB=TF_8.3&idCon=148056 381600&getFile=resumSearchRes.html我最终设置了容错率为0,一共得到了120个预测的转录因子。
一文教会你查找基因的启动子、UTR、TSS等区域以及预测转录因子结合位点基础知识首先我们了解一些基础知识(注:文中图片皆可点击放大查看!):启动子(promoter):与RNA聚合酶结合并能起始mRNA合成的序列。
做生信分析时,一般选择上游1 kb,下游 500 nt,也有选上下游各1 kb的。
如果关注核心启动子,可见生信宝典之前发布的Jaspar数据库介绍。
获取正链或负链的启动子序列时要注意方向。
之前awk的教程中有些提及。
转录起始点(TSS):转录时,mRNA链第一个核苷酸相对应DNA链上的碱基,通常为一个嘌呤。
UTR(Untranslated Regions):即非翻译区,是信使RNA (mRNA)分子编码区(CDS)两端的非编码片段。
5’-UTR从mRNA起点的甲基化鸟嘌呤核苷酸帽延伸至AUG起始密码子,3’-UTR从编码区末端的终止密码子延伸至多聚A尾巴(Poly-A)的末端。
生信老司机以中心法则为主线讲解组学技术的应用和生信分析心得- 限时免费中讲述了如何基于高通量数据对这些区域的调节变化进行分析,可配合此文观看。
1. 查找基因的启动子区域-NCBI1. 打开PubMed:/pubmed2. 选择Gene,输入IL17A,点击search,结果如下图,点击第一个:3. 下拉到下图位置,可以看到该基因的以下信息:点击Tools,选择Sequence Text View:还可以看到如下序列信息:4. 以上只是该基因的一些信息,可以用于查找相应的UTR等区域,下面进入正题,寻找promoter区域。
还是拉到如下图位置,点击FASTA:5. 基因位置信息如下图:6. 一般认为基因上游2 kb区域为该基因的promoter区域,所以将基因上游2 kb序列调出来:7. 复制上述序列就是基因的启动子序列了。
2. 查找基因的启动子区域-UCSC1. 打开UCSC:/,点击Table Browser:2. 按照下图所示填好基因相关信息,点击get output:3.选择genomic:4. 勾选Promoter/Upstream by选项,并将其改为2000 bases,然后点击get sequence:5. 得到下面的序列信息,开头直到第一个大写字母前面的所有小写字母序列即为该基因的promoter序列,你可以跟NCBI上得到的序列比对一下,看看是不是一样的呢?3. 转录因子结合位点的预测1.后面的预测步骤是改版前的Jaspar,可见上一篇介绍Jaspar的文章学习在新版Jaspar中怎么预测启动子区域的转录因子结合位点。
启动子分析-----------转录因子结合位点启动子分析-----------转录因子结合位点启动子是DNA分子可以与RNA聚合酶特异结合的部位,也就是使转录开始的部位。
在基因表达的调控中,转录的起始是个关键。
常常某个基因是否应当表达决定于在特定的启动子起始过程。
启动子一般可分为两类:(1)一类是RNA聚合酶可以直接识别的启动子。
这类启动子应当总是能被转录。
但实际上也不都如此,外来蛋白质可对其有影响,即该蛋白质可直接阻断启动子,也可间接作用于邻近的DNA结构,使聚合酶不能和启动子结合。
(2)另一类启动子在和聚合酶结和时需要有蛋白质辅助因子的存在。
这种蛋白质因子能够识别与该启动子顺序相邻或甚至重叠的DNA顺序。
因此,RNA聚合酶能否与启动子相互作用是起始转录的关键问题,似乎是蛋白质分子如何能识别DNA链上特异序列。
例如,RNA聚合酶分子上是否有一个活性中心能够识别出DNA双螺旋上某特异序列的化学结构?不同启动子对RNA聚合酶的亲和力各不同。
这就可能对调控转录起始的频率,亦即对基因表达的程度有重要不同。
DNA链上从启动子直到终止子为止的长度称为一个转录单位。
一个转录单位可以包括一个基因,也可以包括几个基因。
启动子预测软件大体分为三类,第一类是启发式的方法,它利用模型描述几种转录因子结合部位定向及其侧翼结构特点,它具有挺高的特异性,但未提供通用的启动子预测方法;第二类是根据启动子与转录因子结合的特性,从转录因子结合部位的密度推测出启动子区域,这方法存在较高的假阳性;另一类是根据启动子区自身的特征来进行测定,这种方法的准确性比较高。
同时,还可以结合是否存在CpG岛,而对启动子预测的准确性做出辅助性的推测。
启动子预测软件有:PromoterScan ; Promoter 2.0 ;NNPP ;EMBOSS Cpgplot ; CpG Prediction启动子及转录因子结合位点数据库及预测工具冷泉港启动子分析程序介绍/links/ch_09_t_6.html在线预测和分析基因启动子(promoter)一般在公共数据库中,如NCBI、UCSC、Ensembl给出的人类基因序列都没有对基因进行详细的标注。
启动子与转录因子结合位点摘要:1.启动子与转录因子结合位点的定义2.启动子的功能和结构3.转录因子的类型和功能4.启动子与转录因子结合位点的相互作用5.启动子与转录因子结合位点在基因表达调控中的作用正文:启动子与转录因子结合位点是基因表达调控中的两个重要元素。
启动子是位于基因上游的一段特殊序列的DNA 片段,它能够与RNA 聚合酶结合,从而驱动基因的转录。
而转录因子是一种蛋白质,它能够结合到启动子上游的特定序列,从而调控基因的表达。
启动子是基因表达的关键调控因子,它的功能是提供一个模板,使RNA 聚合酶能够在此模板上合成RNA。
启动子的结构包括核心序列和调节序列,其中核心序列是RNA 聚合酶结合并开始转录的地方,调节序列则是转录因子结合的地方。
转录因子有许多种,每一种都有自己特定的结合序列,并能够通过结合到这些序列来调控基因的表达。
转录因子分为两类,一类是激活因子,它能够结合到启动子上游的特定序列,从而激活基因的转录;另一类是抑制因子,它能够结合到启动子上游的特定序列,从而抑制基因的转录。
启动子与转录因子结合位点的相互作用是基因表达调控的关键步骤。
当转录因子结合到启动子的调节序列上时,它能够改变启动子的构象,从而使RNA 聚合酶更容易结合并开始转录。
不同的转录因子可以结合到不同的启动子序列上,从而调控不同基因的表达。
启动子与转录因子结合位点在基因表达调控中的作用非常重要。
通过启动子与转录因子的相互作用,细胞可以对外部环境变化做出快速响应,从而调控基因的表达。
例如,当细胞处于压力环境时,一些转录因子会被激活,它们结合到启动子上游的特定序列上,从而激活一些应对压力的基因的转录。
手把手教你预测转录因子结合位点基因在不同组织细胞里表达增高或降低了,是否由于转录因子的影响?哪些转录因子能结合在所研究基因的启动子上?能否对转录因子结合情况进行预测?下面这个数据库可能会给你的研究提供一些帮助。
JASPAR 数据库JASPAR 数据库包涵了 9 个不同的子库,其中 JASPAR CORE 数据库属于高质量,非冗余转录因子数据库,包含的信息源于已经实验证实的真核生物转录因子结合位点。
可供查找的物种有脊椎动物,线虫,昆虫,真菌和植物。
Step1:打开官网,根据所研究的物种,选择不同的库,这里以jaspar Core Vertebrata(脊椎动物)为例,点击进入。
Step2:进入主界面,在输入序列区域将查找到的启动子序列输入进去。
注:输入序列需为 FASTA 格式,即输入第一行为「>」加「文字说明」第二行开始才为序列。
Step3:勾选想要检测的转录因子或者同一物种全部勾选(注意物种),其它选项默认,之后点击 SCAN 结果展示:Score 以及Relative score 是根据相应算法运算后给出的,评分越高,结合的可能性越大。
数据库虽然能够预测到很多转录因子的结合,可是,它也只是起到提示作用,最终还是要通过实验验证哦。
参考文献:Mathelier A, Fornes O, Arenillas DJ, Chen CY, Denay G, Lee J, et al. JASPAR 2016: a major expansion and update of the open-access database of transcription factor binding profiles. Nucleic acids research 2016, 44(D1): D110-115.。