有参转录组结题报告
- 格式:pdf
- 大小:3.83 MB
- 文档页数:42
转录组测序结题报告怎么看?点进来就知道啦!转录组测序(RNA-Seq)作为研究基因表达的利器,是发掘基因功能的重要途径。
随着RNA-Seq技术的普及,那么问题来了,很多不了解RNA-Seq的小伙伴,在点开结题报告的一瞬间,是不是满脑子的问号,不知所措呢?没关系!我们懂你!不了解RNA-Seq?不会看结题报告?莫慌,我们来给大家理头绪、划重点!首先,可将整个结题报告分成四个主要模块。
图 1 转录组测序结题报告主要模块差异基因的鉴定与功能富集分析是构成转录组文章的主体,数据挖掘与分析也是基于这两个模块进行,是结题报告的重心。
接下来详细告诉大家每个模块需要关注的重点内容。
原始数据整理与质量评估数据量的大小与测序质量的好坏是评判测序数据可靠性的重要标准。
▶数据量一般用Bases或Raw data表示,对于绝大部分物种来说,转录组测序6G数据量即可,若想获得更多低丰度基因的信息,可适当增加测序数据量。
▶数据质量主要包括碱基质量与碱基含量。
Illumina官方的碱基质量评价标准一般为Q30(即碱基错误识别率为0.1%),Q30的值越大越好,一般不能低于80%。
碱基含量即ATGC四种碱基所占的比例,除了前几个碱基位置之外,4种碱基的含量线条应平行且接近。
图 2 测序质量评估差异基因表达鉴定看基因的表达量与鉴定差异基因是做转录组测序的主要目的,生物学重复之间的相关性高低与差异基因鉴定的准确性息息相关。
▶样品相关性检验一般以矩阵图与PCA分析图展示。
在矩阵图中基因表达相近的样品会被聚到一起,生物学重复间相关系数越高越好,低于0.8表示相关性较差。
PCA分析图更加直观,可以把基因表达相关性好的样品展示到一起。
图3 样品相关性检验▶差异表达基因的鉴定在这里可以看到各个处理组与对照组之间基因的上、下调表达的信息。
从中查找所关注基因的表达情况。
显著差异基因判定标准:|log2 Foldchange|>1;P value < 0.05。
本次实验旨在通过转录组测序技术,探究特定基因在特定条件下的表达水平变化,从而了解该基因在细胞生理过程中的功能及其调控机制。
实验主要针对基因X在不同处理条件下的转录水平进行分析,为后续的生物学研究提供数据支持。
二、实验仪器与试剂1. 仪器:- 高速离心机- PCR仪- 紫外分光光度计- 离心管- 烧杯- 电子天平- 灭菌操作台- 低温冰箱- 转录组测序平台2. 试剂:- Trizol试剂- DNA提取试剂盒- 反转录试剂盒- PCR试剂盒- 标准品- DNA/RNA模板- 引物- 核酸荧光染料1. 样本收集与处理- 收集实验组与对照组细胞样本。
- 使用Trizol试剂提取细胞总RNA。
- 使用DNA提取试剂盒去除RNA中的DNA杂质。
- 使用紫外分光光度计检测RNA浓度和纯度。
2. 反转录- 根据反转录试剂盒说明书,将RNA反转录为cDNA。
3. PCR扩增- 设计特异性引物,进行PCR扩增。
- 使用PCR仪进行扩增反应。
4. 转录组测序- 将PCR产物进行测序,获取基因X的表达序列。
5. 数据分析- 使用生物信息学工具对测序数据进行质控、比对、定量等分析。
- 对比实验组与对照组基因X的表达水平差异。
四、实验结果1. RNA提取与检测- 实验组与对照组RNA提取效率较高,纯度符合要求。
2. 反转录与PCR扩增- 反转录反应顺利进行,PCR扩增产物符合预期。
3. 转录组测序- 成功获得基因X的转录组测序数据。
4. 数据分析- 实验组与对照组基因X的表达水平存在显著差异,表明基因X在特定条件下可能参与细胞生理过程。
五、实验结论1. 通过转录组测序技术,成功分析了基因X在不同处理条件下的表达水平变化。
2. 实验结果表明,基因X在特定条件下可能参与细胞生理过程,为后续的生物学研究提供了数据支持。
六、反思与体会1. 实验过程中,严格遵守操作规程,确保实验结果的准确性。
2. 转录组测序技术在生物学研究中具有重要作用,为基因表达水平分析提供了有力工具。
转录组从头组装总结汇报转录组从头组装是一种基于RNA测序数据的生物信息学分析方法,主要用于揭示生物体内所有转录本的组成和结构。
该方法可以帮助我们理解基因组中存在的所有基因,以及它们在不同条件下的表达方式。
在这篇总结汇报中,我们将介绍转录组从头组装的工作流程、优势与挑战,以及一些最新的发展和应用。
首先,转录组从头组装的工作流程包括以下几个主要步骤:1)质控与预处理:对原始的RNA测序数据进行质量评估和修剪,去除低质量的序列。
2)序列比对:将预处理后的测序读段与参考基因组进行比对,筛选出可比对的序列。
3)转录本组装:根据比对结果,利用算法将测序读段组装成转录本,包括不同的剪接异构体。
4)注释和定量:对组装的转录本进行功能注释和表达定量,了解不同转录本的功能和其在不同条件下的表达水平。
转录组从头组装的优势在于可以研究未被已知基因组注释覆盖的转录本,尤其对于非模式生物而言,从头组装是探索新基因和新剪接异构体的有效手段。
此外,转录组从头组装还可以解决基因组注释错误或不完整的问题。
通过这种方法,我们可以获得更全面和准确的转录组信息,为功能基因研究提供更多的资源。
然而,转录组从头组装也面临一些挑战。
首先,数据分析流程相对复杂,需要熟悉和运用多种生物信息学分析工具和算法。
此外,对于非模式生物,缺乏参考基因组或参考基因组质量较差,会给转录组从头组装带来一定的困难。
另外,转录组从头组装还需要大量的计算资源和时间,尤其针对大规模测序数据。
近年来,转录组从头组装的技术发展迅速,有许多改进和创新。
例如,采用了更精细的质控和预处理方法,可以提高数据质量。
同时,新的算法和软件工具被开发出来,能够更准确和高效地进行转录本组装。
此外,利用单细胞RNA测序数据,可以进行单细胞级别的转录组从头组装,揭示细胞表型的异质性。
转录组从头组装不仅在基础研究方面有重要意义,也在许多应用中得到广泛应用。
例如,在疾病相关基因的研究中,转录组从头组装可以帮助我们发现新的致病基因和调控通路。
转录组分析报告介绍转录组分析是研究基因组中转录过程的研究领域。
通过转录组分析,我们可以了解到在特定条件下细胞中正在转录的所有基因。
这些信息对于理解细胞功能、疾病发展以及生物技术的开发都非常重要。
本报告将介绍转录组分析的一般步骤和常用方法。
步骤一:实验设计转录组分析的第一步是设计实验。
在这个步骤中,我们需要确定要研究的样本类型、实验条件和重复次数。
合理的实验设计可以最大程度地减少误差,并提高结果的可靠性。
步骤二:RNA提取在转录组分析中,我们需要从样本中提取RNA。
RNA是细胞中转录的产物,它可以反映细胞中正在表达的基因信息。
RNA提取的质量和纯度对后续的转录组分析非常重要。
常用的提取方法包括酚氯仿法、磁珠法和硅胶膜法等。
步骤三:RNA测序RNA测序是转录组分析的核心步骤之一。
通过RNA测序,我们可以将RNA样本转化为对应的DNA序列,并确定每个基因的表达水平。
常见的RNA测序技术包括Sanger测序、二代测序和三代测序等。
二代测序技术如Illumina和Ion Torrent等已经成为转录组分析的主流技术。
步骤四:数据预处理RNA测序会产生大量的原始数据,这些数据需要进行预处理以去除噪音和提高数据质量。
数据预处理包括去除低质量的reads、去除接头序列、去除重复序列和过滤低表达基因等。
预处理后的数据可以为后续的分析提供可靠的基础。
步骤五:差异表达基因分析差异表达基因分析是转录组分析的重要环节之一。
通过比较不同条件下基因的表达水平,我们可以找到与特定条件相关的差异表达基因。
常用的差异表达基因分析方法包括DESeq、edgeR和limma等。
这些方法可以帮助我们发现与特定条件相关的生物学过程和信号通路。
步骤六:功能注释和富集分析一旦确定了差异表达基因,我们可以对这些基因进行功能注释和富集分析。
功能注释可以帮助我们了解差异表达基因的功能和参与的生物学过程。
而富集分析可以帮助我们发现差异表达基因在特定功能和通路中的富集情况。
转录组测序结题报告1.mRNA纯化:抽提得到的总RNA首先利用10U的DNaseI(Ambion,美国)在37℃消化1小时;然后利用Micropoly(A)PuristTM mRNA purification kit(Ambion,美国),进行mRNA纯化:把RNA稀释到250μl的体积,按照Kit的操作步骤(Cat.No:1919)进行;最后得到的mRNA用100μl预热的THE缓冲液洗脱,利用NanoDrop 进行定量。
2.cDNA合成:cDNA合成是在Ng等2005年发表的方法基础上改进而成(文献1,图1)。
第一链cDNA合成利用GsuI-oligo dT作为反转录引物,10μg的mRNA作为模板,用1000 单位的Superscript II reverse transcriptase (Invitrogen,美国)在42℃作用1小时完成;随后利用NaIO4(Sigma,美国)氧化mRNA的5’帽子结构,并连接生物素;通过Dynal M280磁珠(Invitrogen,美国)筛选连接了生物素的mRNA/cDNA,并通过碱裂解释放第一链cDNA;然后通过DNA ligase(TaKaRa,日本)在第一链cDNA的5’末端加上接头,然后通过Ex Taq polymerase (TaKaRa,日本)合成第二链cDNA。
最后通过GsuI酶切去除polyA和5’端接头。
图1. 全长cDNA合成示意图3.cDNA测序:合成的cDNA利用超声仪(Fisher)打断到300-500bp的范围,利用Ampure beads(Agencourt,美国)进行纯化。
随后纯化的cDNA利用TruSeq TM DNA XXmple Prep Kit – Set A (illumina,美国)制备文库,并利用TruSeq PE Cluster Kit (illumina,美国)进行扩增。
最后在illumina机器上进行测序反应。
转录组有参考基因组生物信息分析结题报告获得原始测序序列(Sequenced Reads)后,并且其相应的基因组参考序列( Reference Genome )可以获得的情况下,可以用有参考基因组信息分析流程对数据进行详细的分析,分析流程图如下:1. 原始序列数据高通量测序(如Illunima HiSeq TM2000/ Miseq等测序平台)测序得到的原始图像数据文件经碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为Raw Data或Raw Reads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。
测序样品中真实数据随机截取结果如下:@HWI-ST1106:227:D14F6ACXX:1:1101:1202:2188 1:N:0:GCCAAT CGGATGATCTTCTTAATCTCTCCTTGCATAGTTATGAAACAGTCCGTGGACTTGCTGGAAAATCTCTCTTGAAGATGATGAAGAGATGGCCCTCTACAAT +CCCFFFDFFHHHHJJJJJIJIGGGIGICIGIIJEIIJIIJJI@DHEDHECFGGAHGGJGHIICGEEIEHGGGIECEEHH@HE>C@EBBE@CCDDCCCDDC @HWI-ST1106:227:D14F6ACXX:1:1101:1237:2217 1:N:0:GCCAAT GAAGGTGAGTCTGAGGAGGCCAAGGAGGGAATGTTTGTGAAAGGATATGTCTACTAAGATATTAGAAAGTATGTACTACTACTACTACTACATGTTTTCA +@@@FDADDFDHFHIIIDHIIJJJGICGGGCGHGFIGHBHEHHGI;BDHHCFGCHIIIIEHGIGHHIJJE7??ACHCDFFFFFEEECCEE>C>ACCCDC>@ @HWI-ST1106:227:D14F6ACXX:1:1101:1382:2195 1:N:0:GCCAAT TTTTGCAACAATGGCTTCCACCATGATGACTACTCTACCACAGTTCAATGGACTCAAACCCCAACCTTTCTCAGCTTCTCCAATTCAAGGCTTGGTGGCA +@@@DD3DDFFFF:CDGI@GIEEDH<F49C?EGFBF9?FF?C@BFEFGIII3BDDFFIIG7FFFIIBEFFIFDC3ACBDDDBD@>@AAD;;;@@####### @HWI-ST1106:227:D14F6ACXX:1:1101:1255:2239 1:N:0:GCCAAT CGGATTTTCAAGGGCCGCCGGGAGCGCACCGGACACCACGCGACGTGCGGTGCTCTTCCAGCCGCTGGACCCTACCTCCGGCTGAGCCGATTCCAGGGTG +CCCDFFFFHHH?FHIIIJJJJJIGBEHHJJBHBDDCDAC??@@BDBBBBD8BDDCDDACC@A?@BBB@<<CB?CB<AD?9<B@>(8>?395?4:(:<@## @HWI-ST1106:227:D14F6ACXX:1:1101:1423:2239 1:N:0:GCCAAT CTTGTATTGCTCTCCCACAACCCCGTTTTCACGGTTTAGGCTGCTCCCATTTCGCTCGCCGCTACTACGGGAATCGCTTTTGCTTTCTTTTCCTCTGGCT +CCCFDFFFHHHHHJJIJJJJJIJJGGIHIIGIIJGIGGIJJGGGJGIJ>FGIIGHGGBEHBCCBBDDD@BB@@<AABDDBCACDCDACDCD@:>@C::@C2.测序数据质量评估2.1 测序错误率分布检查测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。
第1篇一、背景随着高通量测序技术的发展,转录组分析已成为研究基因表达调控和基因功能的重要手段。
本报告针对某研究项目中的转录组数据进行分析,旨在探究该物种在不同生长阶段的基因表达差异及其生物学意义。
二、实验方法1. 样本采集:在研究项目中对不同生长阶段的样本进行采集,包括幼年期、成熟期和衰老期。
2. RNA提取:采用TRIzol法提取样本总RNA,并进行质量检测。
3. cDNA文库构建:采用SMART-seq2技术构建cDNA文库。
4. 转录组测序:使用Illumina HiSeq平台进行转录组测序。
5. 数据分析:采用HTSeq-count软件对测序数据进行定量,利用DESeq2进行差异表达分析,并使用GSEA进行基因集富集分析。
三、结果与分析1. 数据质量评估:测序数据经过质量控制后,得到有效数据量约为100亿个reads。
2. 基因表达差异分析:在幼年期、成熟期和衰老期三个阶段,共检测到差异表达基因(DEGs)1000个,其中上调基因600个,下调基因400个。
3. 基因功能富集分析:通过对差异表达基因进行GO和KEGG富集分析,发现与细胞周期、代谢、信号转导等生物学过程相关的基因富集显著。
4. 蛋白质互作网络分析:构建DEGs的蛋白质互作网络,发现某些关键基因在转录调控和信号转导过程中发挥重要作用。
四、结论本研究通过对某物种不同生长阶段的转录组数据进行分析,揭示了该物种在不同生长阶段的基因表达差异及其生物学意义。
研究结果为进一步研究该物种的生长发育机制提供了重要参考。
五、展望1. 深入挖掘差异表达基因的功能:通过实验验证差异表达基因的功能,揭示其在生长发育过程中的作用。
2. 分析差异表达基因的调控网络:进一步研究差异表达基因的调控网络,揭示基因表达调控的分子机制。
3. 结合表观遗传学分析:探究表观遗传学因素对基因表达的影响,为研究基因表达调控提供新的思路。
4. 探索转录组分析在植物育种中的应用:将转录组分析应用于植物育种,提高育种效率。
转录组结题报告1. 摘要本文是关于转录组结题报告的撰写,旨在对转录组研究的背景、目的、方法、结果和讨论进行详细的阐述。
通过转录组分析,我们可以全面了解一个组织或生物在特定条件下所表达的基因信息,从而探索其功能、调控机制以及与其他生物体的关系。
本报告将对转录组研究的具体应用和重要性进行介绍,并对所取得的研究结果进行详细讨论。
2. 引言随着高通量测序技术的发展,转录组研究在生物学、医学等领域取得了重大突破。
转录组研究通过测定特定条件下的所有mRNA分子的序列和丰度,可以全面了解基因的表达情况及其调控机制,从而揭示生物体在不同发育阶段、环境适应、疾病发生等方面的分子机制。
因此,转录组研究对于揭示生命的本质和治疗疾病具有重要意义。
3. 目的本次转录组研究的目标是探索某个生物体在特定条件下的基因表达情况,并分析不同基因的差异表达。
通过此次研究,我们希望进一步理解该生物体在特定环境中的生理过程和适应机制。
同时,我们也希望挖掘潜在的生物标志物,为疾病诊断和治疗提供新的思路和目标。
4. 方法转录组研究主要包括样品采集和制备、RNA提取、测序、数据分析和功能注释等步骤。
首先,我们收集了特定条件下的生物体样品,例如组织和细胞。
然后,通过RNA提取技术将样品中的总RNA提取出来,然后利用高通量测序技术测量每个样品的mRNA序列和丰度。
接下来,通过数据分析,包括差异表达分析、通路富集分析等,来揭示不同基因的表达差异和功能特点。
最后,通过功能注释和GO分析等手段,将基因表达与生物过程、分子功能和细胞组分关联起来。
5. 结果在本次研究中,我们获得了特定条件下生物体转录组的高通量测序数据并进行了分析。
我们发现了大量差异表达的基因,并对其进行了功能注释。
通过通路富集分析,我们还发现了一些与特定生物过程和分子功能相关的通路。
此外,我们还挖掘出了一些潜在的生物标志物,这些标志物可能与特定疾病的诊断和治疗有关。
6. 讨论通过本次转录组研究,我们深入了解了某个生物体在特定条件下的基因表达水平和调控机制。
单位+转录组分析网页版结题报告2016/01/29目录1 项目信息1.1 基本思想1.2 实验流程1.2.1 样本检测1.2.2 文库构建和上机测序1.3 信息分析流程1.4样品信息2 数据过滤2.1 原始数据2.2 数据过滤统计2.3 测序质量分布2.4测序碱基分布3 比对分析3.1 比对率分析3.2 基因区域分布3.3 均一性分析3.4比对文件可视化4 表达量分析4.1 表达量估计4.1.1 表达量分布统计4.1.2 饱和度分析4.1.3 样品实验的聚类4.2 差异表达分析4.2.1 差异表达分析统计结果4.2.2 差异表达基因聚类图4.2.3 差异表达基因统计结果注释5 蛋白互作网络6 功能分析6.1 G O功能分析GO统计6.1.1 差异表达基因的GO6.1.1 差异表达基因的GO富集分析6.1.2 GO6.1.26.2 G O富集D A G图6.3 K E G G通路分析7 可变剪接分析7.1 可变剪切分析7.1.1 可变剪切事件分类和数量统计7.1.2 可变剪切事件结构和表达量7.2 新转录本预测8 变异分析9 附录9.1 参考文献9.2 软件与方法说明9.3 结果目录1 项目信息1.1 基本思想安诺优达转录组测序,基于Illumina测序平台,通过研究某个物种在特定状态或者特定时期下所有的mRNA,针对实际样品信息采用灵活的差异分析策略可以找到生物体不同时期、不同组织或不同个体间差异表达的mRNA,再通过软件进行功能注释,最终可以得到mRNA在生物体中参与生命活动的清晰生物信息图谱。
1.2 实验流程1.2.1 样本检测安诺优达对总RNA的样本检测包括以下3种方法:(1)1%的琼脂糖电泳检测RNA样品是否有降解以及杂质;(2)凯奥K5500分光光度计检测样品纯度(凯奥,北京);(3)安捷伦2100 RNA Nano 6000 Assay Kit(Agilent Technologies, CA, USA)检测RNA样品的完整性和浓度。
转录组结题报告一、引言转录组研究是生物科学领域中的重要研究方向之一,其对于基因表达调控、疾病发生机制等方面的理解具有重要意义。
本课题旨在探究某种生物在特定条件下的转录组表达谱,以期为理解其基因表达调控机制提供依据。
二、方法1. 实验材料本实验选取了某种生物在特定条件下的多个组织样本,包括健康组织、病变组织以及药物处理后的组织等。
2. 实验方法(1)RNA提取:采用Trizol法提取样本中的总RNA。
(2)建库:将RNA进行逆转录,构建测序文库。
(3)测序:使用Illumina测序平台进行测序,获取原始数据。
(4)数据分析:对原始数据进行质量控制和数据分析,包括基因表达量、差异表达基因分析等。
三、结果1. 基因表达谱通过对测序数据进行质量控制和数据分析,我们获得了每个样本的基因表达谱。
结果显示,在不同样本中,基因表达水平存在显著差异。
其中,一些基因在特定组织中高表达,而在其他组织中低表达,这些基因可能参与了该组织的特定生物学过程。
2. 差异表达基因分析为了进一步理解基因表达调控机制,我们对不同样本之间的基因表达水平进行了差异表达分析。
结果显示,在健康组织和病变组织之间,有数百个基因的表达水平存在显著差异。
这些基因可能参与了疾病的发生和发展过程。
此外,我们还发现一些基因在药物处理后的表达水平发生了显著变化,表明这些基因可能对药物反应具有潜在影响。
四、讨论本实验通过转录组测序技术,获得了某种生物在特定条件下的转录组表达谱。
通过对表达谱的分析,我们发现了一些可能与疾病发生、药物反应相关的基因。
然而,这些发现仍需进一步验证和深入研究。
例如,可以进一步研究这些基因的表达调控机制、与疾病的关系以及潜在的治疗靶点等。
此外,随着新一代测序技术的不断发展,我们可以更深入地研究转录组学领域的其他问题,如转录本结构、可变剪切等。
五、结论本课题通过转录组测序技术,探究了某种生物在特定条件下的转录组表达谱。
实验结果表明,该生物的基因表达水平在不同样本中存在显著差异,这些差异可能与疾病发生、药物反应等相关。
单位+转录组分析网页版结题报告2016/01/29目录1 项目信息1.1 基本思想1.2 实验流程1.2.1 样本检测1.2.2 文库构建和上机测序1.3 信息分析流程1.4样品信息2 数据过滤2.1 原始数据2.2 数据过滤统计2.3 测序质量分布2.4测序碱基分布3 比对分析3.1 比对率分析3.2 基因区域分布3.3 均一性分析3.4比对文件可视化4 表达量分析4.1 表达量估计4.1.1 表达量分布统计4.1.2 饱和度分析4.1.3 样品实验的聚类4.2 差异表达分析4.2.1 差异表达分析统计结果4.2.2 差异表达基因聚类图4.2.3 差异表达基因统计结果注释5 蛋白互作网络6 功能分析6.1 G O功能分析GO统计6.1.1 差异表达基因的GO6.1.1 差异表达基因的GO富集分析6.1.2 GO6.1.26.2 G O富集D A G图6.3 K E G G通路分析7 可变剪接分析7.1 可变剪切分析7.1.1 可变剪切事件分类和数量统计7.1.2 可变剪切事件结构和表达量7.2 新转录本预测8 变异分析9 附录9.1 参考文献9.2 软件与方法说明9.3 结果目录1 项目信息1.1 基本思想安诺优达转录组测序,基于Illumina测序平台,通过研究某个物种在特定状态或者特定时期下所有的mRNA,针对实际样品信息采用灵活的差异分析策略可以找到生物体不同时期、不同组织或不同个体间差异表达的mRNA,再通过软件进行功能注释,最终可以得到mRNA在生物体中参与生命活动的清晰生物信息图谱。
1.2 实验流程1.2.1 样本检测安诺优达对总RNA的样本检测包括以下3种方法:(1)1%的琼脂糖电泳检测RNA样品是否有降解以及杂质;(2)凯奥K5500分光光度计检测样品纯度(凯奥,北京);(3)安捷伦2100 RNA Nano 6000 Assay Kit(Agilent Technologies, CA, USA)检测RNA样品的完整性和浓度。
1.2.2 文库构建和上机测序总RNA样本检测合格后,对于真核生物,用带有Oligo(dT)的磁珠富集mRNA,对于原核生物,用试剂盒去除rRNA,向得到的mRNA中加入Fragmentation Buffer使其片断成为短片段,再以片断后的mRNA为模板,用六碱基随机引物合成cDNA第一链,并加入缓冲液、dNTPs、RNaseH和DNA Polymerase I合成cDNA第二链,经过QIAQuick PCR试剂盒纯化并加EB缓冲液洗脱。
洗脱纯化后的双链cDNA再进行末端修复、加碱基A、加测序接头处理,然后经琼脂糖凝胶电泳回收目的大小片段并进行PCR扩增,从而完成整个文库制备工作。
构建好的文库用Illumina HiSeq 2500进行测序。
测序策略为PE125。
其实验流程如下:图1 实验流程图1.3 信息分析流程HiSeq测序所得原始下机序列(Raw Reads),通过去低质量序列、去接头污染等过程完成数据处理得到高质量的序列(Clean Reads),后续所有分析都是基于Clean Reads。
安诺优达转录组测序信息分析流程主要分为三部分:测序数据质控、数据比对分析和转录组深层分析。
其中,测序数据质控包括过滤测序所得序列、评估测序数据质量以及计算序列长度分布等;数据比对分析主要是针对比对到基因组中的序列,根据不同的基因组注释信息依次进行分类和特征分析,并计算相应的表达量;转录组深层分析包括差异表达分析、可变剪接分析、新转录本预测和变异分析等其他个性化分析。
具体的信息分析流程图如下:图2 信息分析流程图如项目仅有一个样品,无法进行虚线所示的分析内容。
1.4 样品信息本项目共6个样本,样品信息示例如下:表1 样品信息S am p l e S1Group G1Description...2 数据过滤2.1 原始数据Illumina高通量测序结果最初以原始图像数据文件存在,经CASAVA软件进行碱基识别(Base Calling)后转化为原始测序序列(Sequenced Reads),我们称之为Raw Data,其结果以FASTQ(简称为fq)文件格式存储。
FASTQ文件包含每条测序序列(Read)的名称、碱基序列以及其对应的测序质量信息。
在FASTQ格式文件中,每个碱基对应一个碱基质量字符,每个碱基质量字符对应的ASCII码值减去33(Sanger质量值体系),即为该碱基的测序质量得分。
不同Score代表不同的碱基测序错误率,如Score值为20和30分别表示碱基测序错误率为1%和0.1%。
其中FASTQ格式示例如下:图3 FASTQ文件格式示例(1)第一行以“@”开头,随后为Illumina测序标识别符(Sequence Identifiers)和描述文字(选择性部分);(2)第二行是碱基序列;(3)第三行以“+”开头,随后为Illumina测序标识别符(选择性部分);(4)第四行是对应碱基的测序质量,该行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。
2.2 数据过滤统计测序得到的某些原始下机序列,会含有测序接头序列以及低质量序列,为了保证信息分析数据的质量,我们对原始序列进行过滤,得到高质量的Clean Reads,再进行后续分析,后续分析都基于Clean Reads。
数据处理步骤如下:(1)去除接头污染的Reads(Reads中接头污染的碱基数大于5bp。
对于双端测序,若一端受到接头污染,则去掉两端的Reads);(2)去除低质量的Reads(Reads中质量值Q≤19的碱基占总碱基的15%以上,对于双端测序,若一端为低质量Reads,则会去掉两端Reads);(3)去除含N比例大于5%的Reads(对于双端测序,若一端含N比例大于5%,则会去掉两端Reads)。
数据过滤统计结果见下表:表2 数据过滤统计分析表#S am p l e s S am p l e1Raw Reads Number46,846Raw Bases Number5,855,750Raw Reads Length (bp)125.0000Clean Reads Number44,790Clean Bases Number5,598,750Clean Reads Length (bp)125.0000Clean Reads Rate (%)95.6100Adapter Polluted Reads Number1,322Adapter Polluted Reads Rate (%) 2.8200Ns Reads Number8Ns Reads Rate (%)0.0200Low-quality Reads Number724Low-quality Reads Rate (%) 1.5500Raw Q30 Bases Rate (%)90.4000Clean Q30 Bases Rate (%)91.5400(1)Raw Reads Number:原始下机序列的总序列数;(2)Raw Bases Number:原始下机序列的总碱基数;(3)Raw Reads Length (bp):原始下机序列的Reads长度;(4)Clean Reads Number:过滤后的高质量序列的总序列数;(5)Clean Bases Number:过滤后的高质量序列的总碱基数;(6)Clean Reads Length (bp):过滤后序列的Reads长度;(7)Clean Reads Rate (%):过滤后高质量序列数占原始下机序列数的比例。
该值越大,说明测序质量或文库质量越好;(8)Adapter Polluted Reads Number:由于测序引物序列污染,被去掉的序列数;(9)Adapter Polluted Reads Rate (%):由于测序引物序列污染,被去掉的序列数占原始下机序列数的比例;(10)Ns Reads Number:由于含N过高,被去掉的序列数;(11)Ns Reads Rate (%):由于含N过高,被去掉的序列数占原始下机序列数的比例;(12)Low-quality Reads Number:由于低质量碱基过多,被去掉的序列数;(13)Low-quality Reads Rate (%):由于低质量碱基过多,被去掉的序列数占原始下机序列数的比例;(14)Raw Q30 Bases Rate (%):在过滤前,原始序列中质量值大于30(错误率小于0.1%)的碱基数占总碱基数的比例;(15)Clean Q30 Bases Rate (%):过滤后,总序列中质量值大于30(错误率小于0.1%)的碱基数的比例。
该值越大说明测序质量越好。
Q30可反应测序的碱基质量水平,本项目全部样本Q30比例如下图:图4 Q30质控图所有样品过滤前各种Reads比例分布如下图:图5 过滤分布图单个样本过滤前各种Reads分布饼图如下:分布图6 单样品ReadsReads分布本项目所有样本Clean Data数据量水平如下图:图7 Clean Data数据量分布2.3 测序质量分布测序错误率与碱基测序质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。
每个碱基测序错误率是通过Phred数值(Phred Score,Qphred)通过公式转化得到,而Phred数值是在碱基识别(Base Calling)过程中,通过一种预测碱基判别发生错误概率模型计算得到的,对应关系如下表所示:表3 Illumina Casava碱基识别与Phred分值之间的简明对应关系表P hr e d分值不正确的碱基识别碱基正确识别率Q-sco r e101/1090%Q10201/10099%Q20301/100099.9%Q30401/1000099.99%Q40对于RNA-Seq技术,碱基质量值分布具有两个特点:(1)碱基质量值会随着测序序列(Sequenced Reads)长度的增加而降低,这个特点是Illumina高通量测序平台都具有的特征;(2)前6个碱基的测序质量值较其他位置会低一些,推测前6个碱基测序错误率较高的原因为随机引物和RNA模版的不完全结合。
以过滤后高质量序列的碱基位置作为横坐标,每个位置的平均测序质量值作为纵坐标,得到下面的测序质量分布图:图8 样品测序质量分布图2.4 测序碱基分布碱基含量分布检查用于检测有无AT、GC分离现象,而这种现象可能是测序或者建库所带来的,并且会影响后续的定量分析。
在Illumina测序平台的转录组测序中,反转录成cDNA时所用的6bp的随机引物会引起前几个位置的核苷酸组成存在一定的偏好性。