利用转录组测序数据分析可变剪接的方法
- 格式:doc
- 大小:594.00 KB
- 文档页数:6
转录组测序数据分析(有参考基因组)一、数据分析流程二、数据分析内容1. 数据预处理目的:对原始测序数据进行一定程度的过滤。
原理:根据测序接头以及测序质量对原始的测序数据进行预处理,其中,测序质量Q与测序错误E之间的关系如下:结果:对预处理后质量以及碱基分布统计进行统计2. 比对基因组目的:将经过预处理的测序数据与参考基因组进行相似性比对。
原理:Burrower-Wheeler转换算法与splicing比对算法。
1)Burrower-Wheeler转换算法:由于测序数据量非常大,与整条基因组比对所需资源与时间是较为巨大的。
目前,我们采用Burrower-Wheeler(BWT)算法对基因进行建立索引、碱基压缩等过程,这样可以很大程度上加快比对速度,减少比对过程中所需资源。
2)splicing比对算法:即分段比对算法,当某条测序序列位于转录本剪切位点时,也就是这条序列同时属于两个外显子,如果将它与参考基因组进行比对,由于基因组两个外显子之间含有intron区,那么它将无法找到它合适的位置;但是应用分段比对算法就可以将这条测序序列分割变成多段子序列,然后应用这些段子序列与基因组进行比对,这样就可以找到它们真正的位置。
Vps28基因的一个分段比对的结果,蓝线连接的两端即为被分割的子序列,可见此种算法非常的适用于转录组测序。
结果展示:应用比对结果进行一些相关mapping统计,测序饱和度及测序5’,3’ bias统计。
Multi mapping,Unique mapping及Unique gene-body mapping统计。
饱和度分析,当reads达到一定测序量后,基因覆盖率基本达到饱和。
测序3’,5’偏好性统计,测序主要集中于基因bady区,两端偏向性较轻。
3. 基因表达水平研究目的:应用基因组比对结果进行基因定量。
原理:从指定物种基因模型(基因结构)中得到gene、exon、intron以及UTR等位置信息,通过基因组比对结果计算出在不用区域富集片段数目,然后应用RPKM/FPKM标准化公式对富集片段的数量进行归一化。
RNA可变剪接谱图分析的步骤与实践指南RNA可变剪接(RNA alternative splicing)是一种在转录过程中产生不同mRNA isoform的机制,可显著增加一个基因所编码的蛋白质的多样性。
通过可变剪接,一个基因可以产生多种不同结构和功能的蛋白质,从而增强了生物体对环境变化的适应能力。
在研究中,了解RNA可变剪接的谱图分析步骤和实践指南是非常重要的。
一、分析步骤:1. 数据预处理:从高通量测序数据中提取出RNA可变剪接信息是分析的第一步。
这个过程通常包括测序数据的质量控制、去除低质量的序列、剪切适配器的剪除等。
2. 剪接位点的标定:下一步是找出RNA可变剪接的剪接位点。
常用的方法是使用剪接位点标定工具,如SUPPA、DASPER和Whippet等。
这些工具可以根据测序数据和已知的基因组注释信息确定剪接位点。
3. 剪接事件的分类:基于剪接位点的信息,可以将剪接事件分为多种类型,如剪接外显子(exon skipping)、剪接边界改变(alt-3' or alt-5' splice site)、可变剪接弯曲(intron retention)等。
这个步骤可以使用软件工具,如rMATS、MAJIQ和Whippet等进行分类和注释。
4. 剪接事件的定量分析:定量分析是了解不同可变剪接事件在不同条件下的表达差异的关键步骤。
这个过程可以使用计数矩阵进行,这个矩阵记录了每个可变剪接事件在不同样本中的剪接事件计数。
常用的统计学方法如DESeq2、edgeR和limma等可以用于分析这个计数矩阵,确定不同可变剪接事件的显著差异。
5. 功能注释和富集分析:对于得到的显著差异的可变剪接事件,功能注释和富集分析可以帮助我们了解这些可变剪接事件所参与的功能通路或生物学过程。
这个步骤可以使用GO(Gene Ontology)富集分析、KEGG(Kyoto Encyclopedia of Genes and Genomes)富集分析或基于其他数据库的功能注释工具进行。
图1 生物体内发生的主要可变剪接类型目前大量数据研究结果表明,可变剪接主要包括五种形式(图1),分别为外显子跳跃(Skipped Exon,SE),可变5′剪接位点(Alternative 5′ Splice Site,A5SS),可变3′剪接位点(Alternative 3′ Splice Site,A3SS),互斥外显子(Mutually Exclusive Exons,MXE)和内含子保留(Retained Intron,RI)。
此外还有两种不常见的形式:可变的第一个外图2 Exon Inclusion or Skipping event示意图Exon Skipping Isoform为Upstream exon 和Downstream exon直接连接形Exon Inclusion Isoform为Upstream exon, Alternative exon和Downstream 连接形成。
该模型以Likelihood-ratio test计算p值,大大提升了计算速度。
rMATS支持多线程运行且支持两种输入格式:Fastq或者Bam。
根据计算时用到的reads差别,最后会得到两组结果,一种是只用到跨Junction的reads;另一种是比对到剪接位点上的所reads。
rMATS是目前在RNA-seq数据领域应用最多的分析可变剪接的工具。
图3 DARTS工作流程DARTS BHT(flat)进行常规分析大规模RNA-seq数据中的可变剪接事件,创建带标签的训练数据,用于训练 DNN模型;新的特定RNA-seq经DNN 模型预测作为贝叶斯模型的先验(DARTS BHT(info));用户的RNA-seq数据则是用于更新先验概率形成后验概率。
顺式序列特征(Cis-sequence)和反式RBP的mRNA水平(Trans-RBP):DARTS DNN预测差异可变剪接的两个因素。
先验信息(Prior):DARTS DNN预测的结果。
转录组研究新技术RNASeq及其应用一、本文概述随着生物信息学和分子生物学的快速发展,转录组研究已成为解析生命活动重要机制的关键手段。
近年来,新一代测序技术(Next-Generation Sequencing,NGS)的崛起,特别是RNA测序(RNA Sequencing,RNA-Seq)技术的广泛应用,极大地推动了转录组学研究的深度和广度。
RNA-Seq技术以其高分辨率、高灵敏度和高定量的特性,在基因表达分析、非编码RNA研究、基因结构变异分析等领域展现出强大的潜力。
本文旨在全面介绍RNA-Seq技术的基本原理、实验流程、数据分析方法,以及其在生命科学各领域中的实际应用,以期为相关研究人员提供有益的参考和启示。
二、RNASeq技术概述RNA测序(RNASeq)是一种革命性的技术,极大地推动了转录组学的研究进程。
该技术基于下一代测序(Next Generation Sequencing, NGS)平台,可以对生物样本中的RNA进行全面、精确的测序和分析。
RNASeq不仅提供了转录本的序列信息,还能够揭示转录本的表达水平、剪接方式、变异情况以及基因结构等重要信息。
RNASeq的实验流程通常包括样本制备、文库构建、测序和数据分析等步骤。
在样本制备阶段,需要提取高质量的RNA,并通过一系列的处理步骤去除杂质和降解的RNA。
文库构建是RNASeq技术的核心,其目标是将RNA片段化、反转录成cDNA,并构建成适合测序的文库。
测序阶段则利用NGS平台对文库进行高通量测序,获得大量的序列数据。
数据分析是RNASeq技术的另一个关键环节。
通过对测序数据的处理和分析,可以鉴定出转录本、评估基因表达水平、发现可变剪接事件、识别基因融合以及探索非编码RNA等。
RNASeq技术还可以与表观遗传学、蛋白质组学等其他组学技术相结合,从多个层面揭示生命活动的复杂性和多样性。
RNASeq技术的应用范围非常广泛,涵盖了基础生物学研究、疾病机理探索、药物研发等多个领域。
RNA可变剪接分析的常用方法与流程随着RNA测序技术的发展,研究者们可以获得大量的RNA序列数据,从而揭示基因表达的复杂性和多样性。
其中,RNA可变剪接是一种重要的基因调控机制,可以在转录过程中产生不同的mRNA剪接体,进而编码多种蛋白质亚型。
正确地进行可变剪接分析可以帮助我们理解基因功能的多样性及其在不同生物进程中的作用。
本文将介绍RNA可变剪接分析的常用方法与流程。
一、生物信息学预测对于已经注释的基因组,我们可以利用基因组注释文件及相应的RNA测序数据,进行生物信息学预测来分析RNA的可变剪接。
常用的预测软件包括Cufflinks、StringTie和MISO等。
首先,我们可以对RNA测序数据进行拼接,利用比对算法将reads与参考基因组比对。
然后,基于比对数据,我们可以确定每个剪接位点的比对 reads 数量,进一步得到受该剪接位点调控的剪接事件。
二、剪接事件的分类与可视化在生物信息学预测的基础上,我们需要将剪接事件进行分类和可视化,以便更好地理解和分析。
根据可变剪接的模式,常见的剪接事件包括外显子跳跃剪接、替代剪接以及内含子保留等。
我们可以利用软件包如ASpli、JuncBASE和MAJIQ等,对剪接事件进行注释、分类和可视化。
三、差异剪接分析差异剪接可能在不同条件下发生,用以产生不同的mRNA剪接体。
对于差异剪接的分析,我们可以使用不同的差异剪接分析工具。
比较流行的方法有rMATS和DEXSeq等。
这些工具可以用于检测和定量差异剪接事件,进而帮助我们找到与特定生物进程或疾病相关的剪接事件。
四、功能分析在差异剪接分析之后,我们通常会对差异剪接事件进行功能分析,以了解这些剪接事件与基因功能的相关性。
功能分析一般包括基因本体论(Gene Ontology)分析和富集分析。
基因本体论分析可以将差异剪接事件的基因ID映射到相应的生物学过程、细胞组分和分子功能。
而富集分析可以帮助我们找到与差异剪接事件相关的已知通路、信号和功能等。
干货整理转录组测序和分析,你需要知道的转录组测序及分析技术可以解决新基因的深度发掘、低丰度转录本的发现、转录图谱绘制、可变剪接的调控、代谢途径确定、基因家族鉴定及进化分析等各方面的问题;成为了广大科研工作者备受青睐的高通量测序技术之一。
转录组研究的应用领域十分广泛,适合研究组织特异性的、不同生长发育的、逆境胁迫下的、侵染转基因的、性状突变等材料。
转录组是在某一特定发育时期或某一生理条件下,细胞或组织内所有转录产物的集合,包括mRNA、lncRNA、small RNA、circle RNA等。
因此做转录组测序理论上可以研究各种长度范围的RNA序列,目前的常规技术包括mRNA测序、lncRNA测序、smallRNA测序。
那么问题来了,研究转录组如何下手?1根据研究对象,选择相应的建库策略(1)mRNA:可以通过富集polyA的方式来调取mRNA,进行建库测序;(2)lncRNA或lncRNA+mRNA:可以通过去rRNA试剂盒去除rRNA后进行建库测序;(3)circle RNA:可以通过消化线性RNA,再去除rRNA后进行建库测序;(4)small RNA:采用sRNA的建库策略,对18-40nt范围的sRNA进行切胶富集后建库测序。
2根据研究目的,选择不同的测序策略(1)了解不同样品间基因或sRNA的表达差异:选择SE(single end)测序即可,测序量10M reads以上;(2)进行基因的可变剪切、挖掘新基因、对现有基因的注释进行优化、检测基因融合等结构方面的分析:选择PE(pair end)测序,测序量则根据物种基因集合的大小来决定。
3基于转录组测序的主流研究手段(1)RNA-seq denovo:基于序列组装,用于从头构建某物种的转录本序列;(2)RNA-seq resequencing:对于已有参考基因的物种,进行基因定量、基因可变剪切、基因融合、新基因检测等分析;(3)lncRNA-sequencing:主要研究lncRNA的表达量,预测新的lncRNA及其功能;(4)sRNA sequencing:主要研究和分析small RNA序列,特别是miRNA的表达情况,并预测novel miRNA,miRNA靶基因分析等。
利用转录组测序数据分析可变剪接的方法可变剪接(alternative splicing)是指在基因转录过程中,由于RNA的剪接方式的改变,导致最终产生的mRNA分子中不同的外显子结合模式,从而编码不同的蛋白质。
可变剪接是真核生物基因表达的重要调控机制之一,能够增加基因的功能复杂性和多样性。
然而,异常的可变剪接事件与多种疾病的发生和发展密切相关,因此对可变剪接事件进行准确的鉴定和分析对于揭示其生物学功能和研究疾病机制具有重要意义。
近年来,随着高通量测序技术的快速发展,转录组测序数据已成为可变剪接分析的重要数据源。
下面将介绍基于转录组测序数据分析可变剪接事件的方法。
首先,可变剪接事件的鉴定是可变剪接分析的基础。
对于每个基因,可变剪接事件主要包括外显子跳跃(exon skipping)、选择性包含(inclusion)、选择性起始/终止位点(alternative start/stop site)等。
通过比对RNA-seq数据到基因组参考序列,可以识别出转录组中的外显子覆盖情况,并进一步分析不同外显子组合的比例,从而鉴定可变剪接事件。
其次,可变剪接事件的定量分析是研究其生物学功能的关键。
对于定量分析,可以使用RPKM(reads per kilobase of exon model permillion mapped reads)或FPKM(fragments per kilobase of exon model per million mapped fragments)等方法计算各个外显子或外显子组合的表达量。
通过比较不同样本或不同组织中可变剪接事件的表达差异,可以筛选出与特定生物过程或疾病相关的事件。
然而,由于RNA-seq数据的获取和分析过程存在一定的偏差和误差,因此需要对可变剪接事件进行验证和筛选。
传统的PCR和RT-PCR技术可以用于验证一些特定可变剪接事件的存在和表达水平,而新兴的第三代测序技术,如PacBio和Oxford Nanopore,能够提供更长的读长和更准确的测序结果,有助于验证和鉴定具有低表达量或短外显子的可变剪接事件。
如何利用生物大数据技术分析基因组可变剪接在基因组学领域,可变剪接(alternative splicing)是一种重要的基因表达调控机制。
它指的是同一个基因在转录过程中,通过对其预mRNA分子的不同区域进行选择性剪接,从而产生不同的mRNA剪接异构体。
这一过程使得一个基因能够编码多个不同的蛋白质变体,进而拓宽了生物体在基因表达上的多样性。
如何利用生物大数据技术来分析基因组可变剪接,成为了研究者们关注的焦点之一。
本文将深入探讨如何利用生物大数据技术分析基因组可变剪接,并介绍相关的方法和工具。
首先,生物大数据技术使得我们能够获取大规模的转录组数据。
转录组是指某个生物体在特定情况下所有被转录的RNA序列的总和。
通过高通量测序技术,我们可以获取到大量的转录组数据,包括mRNA的序列信息。
这些数据能够提供基因剪接的全景图,揭示不同组织、不同发育阶段、不同疾病状态下基因可变剪接的变化规律。
同时,这些数据也为我们提供了用于分析剪接异构体的丰富材料。
基因组可变剪接的分析需要从转录组数据中鉴定各个基因的剪接异构体以及其相对表达水平。
近年来,研究者们提出了许多分析剪接异构体的方法和工具。
其中,比较常用的方法包括Cufflinks、MISO、rMATS等。
这些方法主要基于统计学原理,通过对转录组数据中的reads进行分析,确定不同剪接事件的发生概率,并进一步推导出各个剪接异构体的表达水平。
这些方法的基本操作流程是:首先,利用软件将测序数据进行处理,包括去除低质量的reads、去除合成引物和连接器等。
接着,将所得到的高质量reads与参考基因组序列进行比对,得到每个基因的reads覆盖情况。
然后,利用软件对每个基因的剪接事件进行鉴定,得到其剪接异构体的列表。
最后,利用统计学方法计算不同剪接事件的发生概率和各个剪接异构体的相对表达水平。
此外,在分析基因组可变剪接时,还需要注意一些技术细节。
例如,对于测序数据的处理,要考虑到对splice junction支持度的要求,以排除低质量的reads和剪接事件。
利用转录组测序数据分析可变剪接的方法作者:***来源:《科学与信息化》2020年第08期摘要可变剪接是调节基因表达和产生蛋白组多样性的重要因素,同时参与调控细胞分裂、分化及凋亡等重要生物学过程,异常的可变剪接多与人类疾病有关。
随着新一代测序技术和生物信息学的快速发展,以及先进计算方法的提出,使得我们对可变剪接有了深入的认识。
并且基于剪接机制对于病的靶向药物设计,已得到了有效的临床治疗效果。
本文主要阐述了近年来基于二代测序技术开发的几种识别可变剪接的计算方法,并对未来的发展方向进行展望。
关键词可变剪接;二代测序技术;生物信息学;分析工具可变剪接,又称选择性剪接(Alternative Splicing,AS),是真核生物基因表达的普遍调节机制,是指一个前体mRNA经过不同的剪接形式产生多种不同剪接异构体的过程。
在1978年,Walter Gilbert提出了内含子和外显子命名[1],不同外显子组合产生特异的异构体。
二代测序技术的迅速发展极大地推动了人类对可变剪接的认识。
现有数据表明,人类大约有92%-94%的基因都会经历某种程度的可变剪接行为,并且在20000多种人类蛋白编码基因中,约37%的基因会编码产生不同的蛋白亚型,这表明可变剪接增加了蛋白质组的多样性和复杂性[2]。
AS对基因的功能起着重要调控作用,同一基因的不同亚型可能参与不同的生物学过程。
例如p53抑癌基因(TP53)在DNA受损细胞的调控中起着核心作用,然而其Δ133β亚型则可以抑制全长p53β亚型5和6从而诱导肿瘤细胞的凋亡[3]。
另外AS几乎参与了所有生物学过程,包括调节细胞的分裂和凋亡、神经系统的发育以及细胞对抗多种环境因素做出的免疫应激反应等[4]。
另一方面,AS的异常调节还与多种遗传性疾病和恶性肿瘤相关,包括神经退行性疾病、心血管疾病和代谢状况等。
据报道,与SNP相关的遗传性疾病多达一半是由于剪接受损引起的[5]。
AS的异常调节对癌症的发生发展有重要的作用,为疾病的发展提供了可能的新颖治疗靶标和生物标志物的来源,而AS位点的预测可以为药物设计提供很好的分子基础。
本文主要阐述了最新的基于二代测序数据计算可变剪接方法的基本原理及应用,并对未来的研究方向做了初步的展望。
1 可变剪接的主要类型目前大量数据研究结果表明,可变剪接主要包括五种形式(图1),分别为外显子跳跃(Skipped Exon,SE),可变5′剪接位点(Alternative 5′ Splice Site,A5SS),可变3′剪接位点(Alternative 3′ Splice Site,A3SS),互斥外显子(Mutually Exclusive Exons,MXE)和内含子保留(Retained Intron,RI)。
此外还有两种不常见的形式:可變的第一个外显子(Alternative First Exon,AFE)和可变的最后一个外显子(Alternative Last Exon,ALE)。
其中SE是人类基因组中最主要的可变剪接模式(约35%),其次是A3SS(16%)与AA5SS (15%),RI发生最少,仅占到全部事件的1%[6]。
2 分析可变剪接的软件可变剪接现象从70年代发现后,其基本的科学问题聚焦于剪接位点的发现、差异分析、调控元件和网络的发现和构建等。
RNA-seq技术的发明,使系统、定量的可变差异剪接分析成为可能。
大量测序数据的可变剪接差异分析需要优秀的统计模型和计算工具,因此一直是生物信息学领域的重要研究课题之一。
2.1 转录组读段回帖序列比对软件STAR(Spliced Transcripts Alignments to a Reference,STAR)[7]是专门针对RNA-seq数据开发的,该算法使用未压缩后缀阵列中的连续最大可比种子进行搜索,接着进行种子聚类(Seed clustering)和缝合过程(Stitching procedure)。
除了典型剪接的无偏从头检测外,STAR还能发现非典型拼接和嵌合(融合)转录本,并且能够比对全长RNA序列。
STAR是目前转录组测序分析最常用的软件之一,由C++编写,运行速度快,同时也是免费开源软件。
TopHat[8]是基于Bowtie[9]短序列比对软件开发的,它可以实现对短序列的快速比对,根据比对的结果可以检测到外显子间的剪接位点。
该算法基本思想是对Bowtie比对结果中大量重叠的片段寻找标志性的剪接位点,并列出它们所有可能的组合情况。
此外对于Bowtie没有比对到基因组上的片段,TopHat会重新建立索引进行比对,并与上个过程得到的所有可能组合进行对比,最终将跨越剪接位点的片段比对到基因组。
2.2 比对后的可变剪接分析rMATS( replicate multivariate analysis of transcript splicing)是目前最常用的分析RNA-seq 数据可变剪接事件的软件[10]。
该算法依赖于有重复的数据集,利用分层模型同时考虑重复样本的不确定性和变异性。
以SE为例,rMATS首先采用Exon Inclusion level 来定义样本中可变剪接事件的表达量,正常的isoform称为Exon Inclusion Isoform,发生了外显子跳跃的转录本称之为Exon Skipping Isoform,比对到Inclusion; isoform上的reads用L表示,比对到Skipping Isoform上的reads用S表示(图2),则该外显子跳跃的定量如下:Exon Inclusion level为Inclusion isoform所占的比例,计算时用长度(LI和Ls)校正了原始的reads数。
给定阈值c,; 判断两个样本中相对应的inclusion level是否发生了变化:c,c用户可以自定义,取值范围为0~1,表示两个样本中Inclusion level的差值。
如c=0.1,则表示两个样本中该可变剪接事件的Inclusion level相差10%。
其他类型的可变剪接事件也可以划分成上述两种isoforms,进行差异分析比较的是两组样本中inclusion level的差异。
Exon Skipping Isoform為Upstream exon 和Downstream exon直接连接形成;Exon Inclusion Isoform为Upstream exon, Alternative exon和Downstream exon连接形成。
该模型以Likelihood-ratio test计算p值,大大提升了计算速度。
rMATS支持多线程运行且支持两种输入格式:Fastq或者Bam。
根据计算时用到的reads差别,最后会得到两组结果,一种是只用到跨Junction的reads;另一种是比对到剪接位点上的所有reads。
rMATS是目前在RNA-seq数据领域应用最多的分析可变剪接的工具。
DARTS[11]是2019年3月由邢毅教授团队在开发rMATS工具后,新提出的一个基于深度学习检测可变剪接的计算框架,这也是首次将深度学习与贝叶斯假设检验相结合,用于RNA 的可变剪接分析。
DARTS由两部分构成(图3):深度神经网络(DNN)和贝叶斯假设检验(BHT)。
DNN模型是基于顺式序列特征和RNA结合蛋白(RBP)的mRNA表达水平预测差异剪接的结果;BHT统计模型通过将经验证据整合到特定的RNA-seq数据集中,并结合先验的差异可变剪接概率来进行预测。
在训练过程中,DARTS BHT使用无先验概率信息(DARTS BHT(flat),仅将RNA-seq数据用于推断)分析大规模RNA-seq数据,以生成高置信度差异及未发生剪接的训练标签之间的事件,以此作为DARTS DNN的训练输入。
在应用过程中,已训练完成的DARTS DNN用于预测用户特定数据集中的差异可变剪接,然后与DARTS BHT (DARTS BHT(info))观察到的RNA-seq片段的计数结合到一起,以达到深度学习增强的剪接分析。
DARTS BHT(flat)进行常规分析大规模RNA-seq数据中的可变剪接事件,创建带标签的训练数据,用于训练 DNN模型;新的特定RNA-seq经DNN模型预测作为贝叶斯模型的先验(DARTS BHT(info));用户的RNA-seq数据则是用于更新先验概率形成后验概率。
顺式序列特征(Cis-sequence)和反式RBP的mRNA水平(Trans-RBP):DARTS DNN预测差异可变剪接的两个因素。
先验信息(Prior):DARTS DNN预测的结果。
可能性(Likelihood):特定RNA-seq数据集观察到的读数。
差异剪接的后验概率(Posterior)由Cis-sequence和Trans-RBP生成的先验概率和Likelihood组成。
DARTS的深度神经网络部分整合了剪接位置附近的序列信息、进化信息、可变剪接产生的RNA二级结构信息和RBP的表达信息等,提高了该模型的准确性。
相较于之前的例如MISO[12]、SpliceTrap[13]、SUPPA[14]等软件,DARTS对测序深度的要求降低。
总的来说,DARTS综合了深度学习和贝叶斯假设检验统计模型的优点,为低测序深度的数据提供了更好的分析可变剪接的方法,拓展了传统RNA-seq可变剪接分析的敏感度和准确度。
3 总结与展望可变剪接(AS)是基因在转录后水平的一项复杂调控机制。
在最近的几十年中,我们对AS的机理和动力学的了解呈指数级增长,人们也越来越认识到AS在人类健康和疾病中发挥的关键作用。
随着RNA-seq和各种计算工具的不断涌现,使得我们可以在全基因组水平检测AS现象。
同时随着近年来单细胞测序技术的发展,可能会在单个细胞中出现新的剪接现象,这需要我们去开发专门针对单细胞测序的更优计算方法。
另外机器学习方法将会加快我们对可变剪接的认识[15]。
最后,可变剪接变体在功能上有助于疾病的耐药性,因此靶向可变剪接可作为某些疾病的新型疗法。
目前在人类某些疾病(如SMA)中已取得了很好的临床治疗效果[16],但在癌症方面还未有重大突破,相信随着研究的不断深入,在不久的将来也能为癌症提供有效的可选药物。
参考文献[1] Gilbert,Walter. Why genes in pieces?[J]. Nature,1978, 271(5645):501.[2] Min-Sik, K. A draft map of the human proteome.[J].Nature, 2014,509(7502):575-581.[3] Aoubala M,Murray-Zmijewski F,Khoury M P,et al. P53 directly transactivatesΔ133p53α, regulating cell fate outcome in response to DNA damage[J]. Cell death and differentiation,2011,18(2):248-258.[4] Ramanouskaya T V,Grinev V V . The determinants of alternative RNA splicing in human cells[J]. Molecular Genetics & Genomics,2017,(3):263.[5] Garcia-Blanco M A,Baraniak A P,Lasda E L . Alternative splicing in disease and therapy[J]. Nature Biotechnology,2004,22(5):535-546.[6] Wang E T,Sandberg R,Luo S,et al. Alternative isoform regulation in human tissue transcriptomes[J]. Nature,2008,456(7221):470-476.[7] Alexander D , Davis C A , Felix S , et al. STAR: ultrafast universal RNA-seqaligner[J]. Bioinformatics,,2013(1):1.[8] Trapnell C,Pachter L,Salzberg S L . TopHat: discovering splice junctions with RNA-Seq[J]. Bioinformatics,2009,25(9):1105-1111.[9] Langmead B,Trapnell C,Pop M,et al. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome[J]. Genome Biology,2009,10(3):1-10.[10] Shihao Shen,Juw Won Park,Zhixiang Lu,et al. rMATS: Robust and flexible detection of differential alternative splicing from replicate RNA-Seq data[J]. proc natl acad sci u s a,2014,111(51):5593-601.[11] 佚名. Deep-learning augmented RNA-seq analysis of transcript splicing[J]. Nature Methods,2019,(1):157.[12] Yang-Ming S I,Yong-Qiang X,Lu C . Differential splicing event analysis of liver tumor-educated blood platelets RNA-seq data with Hisat2 and MISO[J]. journal of inner mongolia university of science and technology,2016,(3):73.[13] Zhang M Q . SpliceTrap: a method to quantify alternative splicing under single cellular conditions[J]. Bioinformatics,2011,27(21):3010-3016.[14] more samples. SUPPA: a super-fast pipeline for alternative splicing analysis from RNA-Seq[J]. Biorxiv,2014,(1):257.[15] Jaganathan K,Kyriazopoulou Panagiotopoulou S,Mcrae J F,et al. Predicting Splicing from Primary Sequence with Deep Learning[J]. Cell,2019,(3):176.[16] Cleveland,D. W. Antisense oligonucleotide therapy for neurodegenerative disease[J].The Journal of clinical investigation,2006, 116(8):2290.。