当前位置:文档之家› 诺禾致源lncRNA测序生物信息分析结题报告

诺禾致源lncRNA测序生物信息分析结题报告

诺禾致源lncRNA测序生物信息分析结题报告
诺禾致源lncRNA测序生物信息分析结题报告

地址:北京市海淀区学清路38号金码大厦B 座21层 网址:https://www.doczj.com/doc/e17539034.html, 电话:

010-8283 7567

Providing advanced genomic solutions.

Long noncoding RNA 生物信息分析

结题报告

2013年9月 RNA 研究部 rl@https://www.doczj.com/doc/e17539034.html,

北京诺禾致源生物信息科技有限公司

lncRNA 生物信息分析结题报告

一、建库测序流程

1.Total RNA样品检测

2.文库构建

3.库检

4.上机测序

二、生物信息分析流程

三、项目结果说明

1.原始序列数据

2. 测序数据质量评估

2.1 测序错误率分布检查

2.2 GC含量分布检查

2.3 测序数据过滤

2.4 数据产出情况汇总

3.参考序列比对分析

3.1 Reads与参考基因组比对情况统计

3.2.Reads在参考基因组不同区域的分布情况

3.3.Reads在染色体上的密度分布情况

3.4.Reads比对结果IGV可视化浏览

4.基因表达分析

4.1 已知注释类型基因含量分布

4.2 已知基因表达水平分析

5.RNA-seq整体质量评估

5.1 样品间相关性检查

5.2 样品间聚类及PCA分析

5.3 均一性分布检查

6.转录本拼接

6.1 cufflinks拼接

6.2 scripture拼接

7.候选lncRNA筛选

7.1 基本筛选

7.2 编码潜能筛选

7.3 重现性筛选

8.候选lncRNA描述性统计

8.1 长度分布统计

8.2 外显子数目统计

8.3 已知和预测lncRNA统计

9.lncRNA保守性分析

9.1 序列保守性分析

9.2 位点保守性分析

10.lncRNA差异表达分析

10.1 lncRNA表达水平分析

10.2 lncRNA差异表达分析

10.3 差异表达lncRNA筛选

11.lncRNA组织或表型特异性分析

11.1 lncRNA与mRNA表达聚类分析

11.2 组织或表型特异性分析

12.lncRNA靶基因预测

12.1 cis作用靶基因预测

12.2 trans作用靶基因预测

13.特异lncRNA靶基因功能富集分析

13.1 GO富集分析

13.2 KEGG富集分析

14.特异lncRNA与mRNA网络互作分析

四、参考文献

一、建库测序流程

从RNA样品到最终数据获得,样品检测、建库、测序每一个环节都会对数据质量和数量产生影响,而数据质量又会直接影响后续信息分析的结果。因此,获得高质量数据是保证生物信息分析正确、全面、可信的前提。为了从源头上保证测序数据的准确性、可靠性,诺禾致源对样品检测、建库、测序每一个生产步骤都严格把控,从根本上确保了高质量数据的产出。实验流程图如下:

1 Total RNA样品检测

诺禾致源对RNA样品的检测主要包括4种方法:

(1) 琼脂糖凝胶电泳分析RNA降解程度以及是否有污染

(2) Nanodrop检测RNA的纯度(OD260/280比值)

(3) Qubit对RNA浓度进行精确定量

(4) Agilent 2100精确检测RNA的完整性

2 文库构建

RNA检测合格后,通过epicentre Ribo-ZeroTM试剂盒去除rRNA。随后加入fragmentation buffer将RNA打断成短片段,以短片段RNA为模板,用六碱基随机引物(random hexamers)合成一链cDNA,然后加入缓冲液、dNTPs(dUTP、dATP、dGTP和dCTP)和DNA polymerase I合成二链cDNA,随后利用AMPure XP beads纯化双链cDNA。纯化的双链cDNA再进行末端修复、加A尾并连接测序接头,然后用AMPure XP beads进行片段大小选择。之后用USER酶降解含有U的cDNA第一链,最后进行PCR富集得到链特异性cDNA文库。文库构建原理图如下:

3 库检

文库构建完成后,先使用Qubit2.0进行初步定量,稀释文库至1ng/ul,随后使用Agilent 2100对文库的insert size进行检测,insert size 符合预期后,使用Q-PCR方法对文库的有效浓度进行准确定量(文库有效浓度 >2nM),以保证文库质量。

4 上机测序

库检合格后,把不同文库按照有效浓度及目标下机数据量的需求pooling后进行HiSeq/MiSeq测序。

二、生物信息分析流程

获得原始测序序列(Sequenced Reads)后,在有相关物种参考序列或参考基因组的情况下,通过如下流程进行生物信息分析:

三、项目结果说明

1 原始序列数据

高通量测序(如illumina HiSeq TM2000/MiSeq等测序平台)测序得到的原始图像数据文件经碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为Raw Data或Raw Reads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。

FASTQ格式文件中每个read由四行描述,如下:

@E A S139:136:F C706V J:2:2104:15343:1973931:Y:18:A T C A C G

G C T C T T T G C C C T T C T C G T C G A A A A T T G T C T C C T C A T T C G A A A C T T C T C T G T

+

@@C F F F D E H H H H F I J J J@F H G I I I E H I I J B H H H I J J E G I I J J I G H I G H C C F

其中第一行以“@”开头,随后为illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分);第二行是碱基序列;第三行

以“+”开头,随后为illumina 测序标识符(选择性部分);第四行是对应序列的测序质量(Cock et al.)。

illumina 测序标识符详细信息如下:

EAS139Unique instrument name

136Run ID

FC706VJ Flowcell ID

2Flowcell lane

2104Tile number within the flowcell lane

15343'x'-coordinate of the cluster within the tile

197393'y'-coordinate of the cluster within the tile

1Member of a pair, 1 or 2 (paired-end or mate-pair reads only)

Y Y if the read fails filter (read is bad), N otherwise

180 when none of the control bits are on, otherwise it is an even number

ATCACG Index sequence

第四行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。如果测序错误率用e表示,illumina HiSeq TM2000/MiSeq的碱基质量值用Q phred表示,则有下列关系:

公式一: Q phred = -10log10(e)

illumina Casava 1.8版本测序错误率与测序质量值简明对应关系如下:

测序错误率测序质量值对应字符

5%13.

1%205

0.1%30?

0.01%40I

2 测序数据质量评估

2.1 测序错误率分布检查

每个碱基测序错误率是通过测序Phred数值(Phred score, Q phred)通过公式1转化得到,而Phred 数值是在碱基识别(Base Calling)过程中通过一种预测碱基判别发生错误概率模型计算得到的,对应关系如下表所显示:

illumina Casava 1.8版本碱基识别与Phred分值之间的简明对应关系

Phred分值不正确的碱基识别碱基正确识别率Q-sorce 101/1090%Q10

201/10099%Q20

301/100099.9%Q30

401/1000099.99%Q40

测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。对于RNA-seq技术,测序错误率分布具有两个特点:(1)测序错误率会随着测序序列(Sequenced Reads)长度的增加而升高,这是由于测序过程中化学试剂的消耗而导致的,并且为illumina高通量测序平台都具有的特征。(2)前6个碱基的位置也会发生较高的测序错误率,而这个长度也正好等于在RNA-seq建库过程中反转录所需要的随机引物的长度。所以推测前6个碱基测序错误率较高的原因为随机引物和RNA模版的不完全结合(Jiang et al.)。

图2.1 测序错误率分布图

横坐标为reads的碱基位置,纵坐标为单碱基错误率

2.2 GC含量分布检查

GC含量分布检查用于检测有无AT、GC 分离现象,而这种现象可能是测序或者建库所带来的,并且会影响后续的定量分析。

在illumina测序平台的转录组测序中,反转录成cDNA时所用的6bp 的随机引物会引起前几个位置的核苷酸组成存在一定的偏好性。而这种偏好性与测序的物种和实验室环境无关,但会影响转录组测序的均一化程度(Hansen et al.)。除此之外,理论上G和C碱基及A和T碱基含量每个测序循环上应分别相等,且整个测序过程稳定不变,呈水平线。对于DGE测序来说,由于随机引物扩增偏差等原因,常常会导致在测序得到的每个read前6-7个碱基有较大的波动,这种波动属于正常情况。

图2.2 GC含量分布图

横坐标为reads的碱基位置,纵坐标为单碱基所占的比例;不同颜色代表不同的碱基类型

2.3 测序数据过滤

测序得到的原始测序序列,里面含有带接头的、低质量的reads,为了保证信息分析质量,必须对raw reads进行过滤,得到clean reads,后续分析都基于clean reads。

数据处理的步骤如下:

(1) 去除带接头(adapter)的reads;

(2) 去除N(N表示无法确定碱基信息)的比例大于10%的reads;

(3) 去除低质量reads。

RNA-seq 的接头(Adapter, Oligonucleotide sequences for TruSeq TM RNA and DNA Sample Prep Kits) 信息:

RNA 5’ Adapter (RA5), part # 15013205:

5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’

RNA 3’ Adapter (RA3), part # 15013207:

5’-GATCGGAAGAGCACACGTCTGAACTCCAGTCAC(6位index)ATCTCGTATGCCGTCTTCTGCTTG-3’

图2.3 原始数据过滤结果

2.4 数据产出情况汇总

表2.4 数据产出质量情况一览表

Sample name Raw reads Clean reads clean bases Error rate(%)Q20(%)Q30(%)GC content(%) sample1_A_13917627537815985 3.78G0.0397.8592.5651.62 sample1_A_23917627537815985 3.78G0.0496.5890.4752.34 sample1_B_13587631534617593 3.46G0.0397.8692.6151.52 sample1_B_23587631534617593 3.46G0.0496.5390.5152.00 sample1_C_13797381736491666 3.65G0.0397.7892.3751.93 sample1_C_23797381736491666 3.65G0.0496.2489.9252.60 sample2_A_14047035038887996 3.89G0.0397.8992.5452.58 sample2_A_24047035038887996 3.89G0.0496.5490.2953.39 sample2_B_13559071434300840 3.43G0.0397.8492.5451.54 sample2_B_23559071434300840 3.43G0.0496.5690.5752.09 sample2_C_14336620741733549 4.17G0.0397.8092.3952.19 sample2_C_24336620741733549 4.17G0.0496.3390.0652.84数据质量情况详细内容如下:

(1) Raw reads:统计原始序列数据,以四行为一个单位,统计每个文件的测序序列的个数。

(2) Clean reads:计算方法同 Raw Reads,只是统计的文件为过滤后的测序数据。后续的生物信息分析都是基于Clean reads。

(3) Clean bases:测序序列的个数乘以测序序列的长度,并转化为以G为单位。

(4) Error rate:通过公式1计算得到。

(5) Q20、Q30:分别计算 Phred 数值大于20、30的碱基占总体碱基的百分比。

(6) GC content:计算碱基G和C的数量总和占总的碱基数量的百分比。

3 参考序列比对分析

我们采用Tophat2(Kim et al, 2013)对过滤后的测序序列进行参考基因组的比对分析.TopHat2的算法主要分为三个部分:

(1) 将测序序列和转录组进行比对(可选)

(2) 将测序序列整段比对到基因组外显子上

(3) 将测序序列分段比对到基因组的两个外显子上

下图为TopHat2的算法示意图(Kim et al, 2013):

TopHat2的算法主要分为三个部分:

(1) 将测序序列和转录组进行比对(可选)

(2) 将测序序列整段比对到基因组外显子上

(3) 将测序序列分段比对到基因组的两个外显子上

如果参考基因组选择合适,而且相关实验不存在污染,实验所产生的测序序列的定位的百分比正常情况下会高于70% (Total Mapped Reads or Fragments),其中具有多个定位的测序序列(Multiple Mapped Reads or Fragments)占总体的百分比通常不会超过10%。

3.1 Reads与参考基因组比对情况统计

表3.1 Reads与参考基因组比对情况一览表

Sample name sample1_A sample1_B sample1_C sample2_A sample2_B sample2_C

Total reads756319706923518672983332777759926860168083467098

Total mapped61696177 (81.57%)55550679 (80.23%)60199063 (82.48%)64037897 (82.34%)54922912 (80.06%)67922044 (81.38%) Multiple mapped13545289 (17.91%)10352982 (14.95%)12735274 (17.45%)17911638 (23.03%)9822139 (14.32%)13648290 (16.35%) Uniquely mapped48150888 (63.66%)45197697 (65.28%)47463789 (65.03%)46126259 (59.31%)45100773 (65.74%)54273754 (65.02%) Read-124392816 (32.25%)22926103 (33.11%)24117085 (33.04%)23409920 (30.1%)22875927 (33.35%)27536787 (32.99%)

Read-223758072 (31.41%)22271594 (32.17%)23346704 (31.99%)22716339 (29.21%)22224846 (32.4%)26736967 (32.03%) Reads map to '+'24031121 (31.77%)22560794 (32.59%)23673696 (32.44%)23005913 (29.58%)22485859 (32.78%)27060491 (32.42%) Reads map to '-'24119767 (31.89%)22636903 (32.7%)23790093 (32.6%)23120346 (29.73%)22614914 (32.97%)27213263 (32.6%) Non-splice reads34011691 (44.97%)32712405 (47.25%)34860803 (47.77%)32180604 (41.38%)32703491 (47.67%)38273075 (45.85%) Splice reads14139197 (18.69%)12485292 (18.03%)12602986 (17.27%)13945655 (17.93%)12397282 (18.07%)16000679 (19.17%) Reads mapped in proper pairs42068616 (55.62%)39542002 (57.11%)41329630 (56.63%)41295514 (53.1%)39636200 (57.78%)47555248 (56.97%) Proper-paired reads map to different chrom526 (0%)520 (0%)582 (0%)450 (0%)504 (0%)632 (0%)比对结果统计详细内容如下:

(1) Total reads:测序序列经过测序数据过滤后的数量统计(Clean data)。

(2) Total mapped:能定位到基因组上的测序序列的数量的统计;一般情况下,如果不存在污染并且参考基因组选择合适的情况下,这部分

数据的百分比大于 70%。

(3) Multiple mapped:在参考序列上有多个比对位置的测序序列的数量统计;这部分数据的百分比一般会小于10%。

(4) Uniquely mapped:在参考序列上有唯一比对位置的测序序列的数量统计。

(5) Reads map to '+',Reads map to '-':测序序列比对到基因组上正链和负链的统计。

(6) Splice reads:(2)中,分段比对到两个外显子上的测序序列(也称为Junction reads)的统计,Non-splice reads为整段比对到外显子

的将测序序列的统计,Splice reads的百分比取决于测序片段的长度。

3.2 Reads在参考基因组不同区域的分布情况

对Total mapped reads的比对到基因组上的各个部分的情况进行统计,定位区域分为Exon(外显子)、Intron(内含子)和Intergenic(基因间隔区域)。

正常情况下,Exon (外显子)区域的测序序列定位的百分比含量应该最高,定位到Intron (内含子) 区域的测序序列可能是由于非成熟的mRNA的污染或者基因组注释不完全导致的,而定位到Intergenic(基因间隔区域)的测序序列可能是因为基因组注释不完全以及背景噪音。

图3.2 Reads在参考基因组不同区域的分布情况

3.3 Reads在染色体上的密度分布情况

对Total mapped reads的比对到基因组上的各个染色体(分正负链)的密度进行统计,如下图所示,具体作图的方法为用滑动窗口(window size)为1K,计算窗口内部比对到碱基位置上的reads的中位数,并转化成 log 2 。正常情况下,整个染色体长度越长,该染色体内部定位的reads总数会越多(Marquez et al.)。从定位到染色体上的reads数与染色体长度的关系图中,可以更加直观看出染色体长度和reads总数的关系。

图3.3 Reads在染色体上的密度分布图

左图:图中最外圈是选择展示的各条染色体;中间的灰色背景区是抽取其中了10000条reads的分布情况,红色mapping到正链,蓝色到负链;最里面的圆圈区是比对到该染色体上的所有reads,橘黄色为正链coverage分布,绿色为负链coverage分布,超过所有coverage集均值+3倍标准差的奇异点将被舍弃。右图:横坐标为染色体的

长度信息(单位为Mb),纵坐标为mapped到染色体上的reads数(单位为M),图中灰色区域表示95%的置信区间

3.4 Reads比对结果IGV可视化浏览

我们提供RNA-seq Reads在基因组上比对结果的bam格式文件,部分物种还提供相应的参考基因组和注释文件,并推荐使用IGV (Integrative Genomics Viewer) 浏览器对bam文件进行可视化浏览。IGV浏览器具有以下特点:(1)能在不同尺度下显示单个或多个读段在基因组上的位置,包括读段在各个染色体上的分布情况和在注释的外显子、内含子、剪接接合区、基因间区的分布情况等;(2)能在不同尺度下显示不同区域的读段丰度,以反映不同区域的转录水平;(3)能显示基因及其剪接异构体的注释信息;(4)能显示其他注释信息;(5)既可以从远程服务器端下载各种注释信息,又可以从本地加载注释信息。IGV浏览器使用方法可参考我们提供的使用说明文档(IGVQuickStart.pdf)。

图3.4 IGV浏览器界面

4 基因表达分析

一个基因表达水平的直接体现就是其转录本的丰度情况,转录本丰度程度越高,则基因表达水平越高。在RNA-seq分析中,我们可以通过定位到基因组区域或基因外显子区的测序序列(reads)的计数来估计基因的表达水平。通过不同Reads计数除了与基因的真实表达水平成正比外,还与基因的长度和测序深度成正相关。为了使不同基因、不同实验间估计的基因表达水平具有可比性,人们引入了RPKM的概念,RPKM(Reads Per Kilo bases per Million reads)是每百万reads中来自某一基因每千碱基长度的reads数目。RPKM同时考虑了测序深度和基因长度对reads计数的影响,是目前最为常用的基因表达水平估算方法 (Mortazavi et al., 2008)。

4.1 已知注释类型基因含量分布

采用HTSeq软件对各样品不同基因进行表达水平分析,使用的模型为union。根据表达量统计样品中各类型基因的的表达分布,结果展示如下:

图4.1 各类已知基因表达分布图

4.2 已知基因表达水平分析

分别统计不同表达水平下基因的数量以及单个基因的表达水平。一般情况下,RPKM数值0.1或者1作为判断基因是否表达的阈值,不同的文献所采用的阈值不同。

表4.2.1 不同表达水平区间的基因数量统计表

RPKM Interval sample1_A sample1_B sample1_C sample2_A sample2_B sample2_C 0-136250(69.51%)36137(69.29%)35782(68.61%)37473(71.86%)36140(69.30%)36837(70.64%) 1-36275(12.03%)6772(12.99%)6786(13.01%)5768(11.06%)6712(12.87%)6025(11.55%) 3-156540(12.54%)6421(12.31%)6441(12.35%)6026(11.56%)6453(12.37%)6247(11.98%) 15-602121(4.07%)1968(3.77%)2222(4.26%)1940(3.72%)2007(3.85%)2135(4.09%) >60964(1.85%)852(1.63%)919(1.76%)943(1.81%)838(1.61%)906(1.74%)

表4.2.2 基因表达水平统计表

geneID sample1_A sample1_B sample1_C sample2_A sample2_B sample2_C ENSSSCG000000000010.1257719328628690.1336714973230160.1927702432211670.03172670503588830.1685019180798790.0800376669084703 ENSSSCG00000000002 1.269900673199250.7127425431653990.3353301350606440.8926324347894040.7646467584397370.496378572092531 ENSSSCG00000000003 2.10526950417426 1.77135307842206 3.38359531428205 2.2127772289762 3.36111680005984 3.53540758519473 ENSSSCG000000000040.0615091845576660.09805873947932650.04713746619623340.031032102489620.08240642678837130.0652378146350261

5 RNA-seq整体质量评估

5.1 样品间相关性检查

生物学重复是任何生物学实验所必须的,高通量测序技术也不例外(Hansen et al.)。生物学重复主要有两个用途:一个是证明所涉及的生物学实验操作是可以重复的且变异不大,另一个为后续的差异基因分析所需要的。样品间基因表达水平相关性是检验实验可靠性和样本选择是否合理性的重要指标。相关系数越接近1,表明样品之间表达模式的相似度越高。Encode计划建议皮尔逊相关系数的平方(R2)大于0.92(理想的取样和实验条件下)。具体的项目操作中,我们要求R2至少要大于0.8,否则需要对样品做出合适的解释,或者重新进行实验。

图5.1 样品间相关性检查

左图:样品间的相关系数散点图,R2:pearson相关系数的平方;右图:样品间相关系数热图

5.2 样品间聚类及PCA分析

当样本数目较多时(>=4),可以利用基因的表达量进行样本间聚类分析及PCA分析,对样本间关系进行探究或者对实验设计进行验证。PCA 为主成分分析,可以从不同维度展现样品间的关系。样本聚类距离或者PCA距离越近,说明样本越相似。

图5.2 样本间聚类及PCA分析

左图:样品的基因表达水平的层次聚类图;右图:样品的基因表达水平的PCA聚类图

5.3 均一性分布检查

理想条件下,对于RNA-seq技术来说,测序序列(reads)之间为独立抽样并且reads在所有表达的转录本上的分布应该呈现均一化分布。然而很多研究表明,很多偏好型的因素都会影响这种均一化的分布(Dohm et al., 2008)。例如,在RNA-seq建库过程中,片段破碎和RNA反转录的顺序不一样会导致RNA-seq最终的数据呈现严重的3’偏好性。其他因素还包括转录区域的GC含量不同、随机引物等等,并且生物体内从5’或者3’的降解过程同样会导致不均一性分布。

图5.3 不同表达水平的转录本的reads密度分布图

High:高表达量转录本;Medium:中度表达量转录本;Low:低表达量转录本;横坐标为距离转录本5’端的相对位置(以百分比表示),纵坐标为覆盖深度的平均值

诺禾致源高分文章集锦-植物转录组

温带和热带莲根状茎形成过程中的转录组分析 Transcriptomic Analysis of the Regulation of Rhizome Formation in Temperate and Tropical Lotus (Nelumbo nucifera ) 研究对象:莲根状茎 期刊:Scientific Reports 影响因子:5.578 合作单位:中国科学院武汉植物园 发表时间:2015年7月 摘 要 Rhizome is the storage organ of lotus derived from modified stems. The development of rhizome is a complex process and depends on the balanced expression of the genes that is controlled by environmental and endogenous factors. However, little is known about the mechanism that regulates rhizome girth enlargement. In this study, using RNA-seq, transcriptomic analyses were performed at three rhizome developmental stages—the stolon, middle swelling and later swelling stage —in the cultivars ‘ZO’ (temperate lotus with enlarged rhizome) and ‘RL’ (tropical lotus with stolon). About 348 million high-quality reads were generated, and 88.5% of the data were mapped to the reference genome. Of 26783 genes identified, 24069 genes were previously predicted in the reference, and 2714 genes were novel transcripts. Moreover, 8821 genes were differentially expressed between the cultivars at the three stages. Functional analysis identified that these genes were significantly enriched in pathways carbohydrate metabolism and plant hormone signal transduction. Twenty-two genes involved in photoperiod pathway, starch metabolism and hormone signal transduction were candidate genes inducing rhizome girth enlargement. Comparative transcriptomic analysis detected several differentially expressed genes and potential candidate genes required for rhizome girth enlargement, which lay a foundation for future studies on molecular mechanisms underlying rhizome Formation. 关键词 根状茎;变态发育; DGE 研究背景 莲根状茎,即莲藕,作为一种变态茎,是莲 的贮藏器官。根状茎的发育是一个复杂的过 程,受到与环境及内源因素调控的基因平衡 表达的影响。关于根状茎膨大的调控机制很 少为人所知。

全基因组重测序探索刚地弓形虫致病基因

首页 科技服务 医学检测 科学与技术 市场与支持 加入我们 关于我们 安徽医科大学研究人员携手诺禾致源重测序团队,通过对2种刚地弓形虫的全基因组重测序变异检测研究, 从基因组水平解释了2种虫株产生表型差异的原因,为弓形虫病的治疗和疫苗研发提供了理论依据。 该研究成果发表于2015年10月的BMC Genomics杂志(IF: 3.986)。 研究背景 刚地弓形虫(Toxoplasma gondii Nicolle&Manceaux, 1908)寄生于人和许多种动物的有核细胞,但只能在猫科动物的肠道内繁衍,能够引起人畜共患的弓形虫病。与北美和欧洲群体遗传结构不同,Chinese 1 (ToxoDB#9)是中国的弓形虫优势基因型。在Chinese 1型弓形虫中,Wh3(强毒株)和Wh6(弱毒株)对小鼠表现出了不 同的毒力。本研究拟通过全基因组重测序技术,从基因组水平探究两种虫株表型及致病性差异的原因。 研究结果 1 SNP、indel检测及注释与参考基因组比对发现,Wh3中共有505,856个SNPs,30,004个indels;Wh6中共有505,654个SNPs,30,658个indels。进一步分析两样本特有变异,发现Wh3中特有SNP和indels分别位于2847和2452个基因中,Wh6中特有SNP和indels分别位于2868和2613个基因中(图1,图3)。 图1 SNPs、indels的对比分析及分布情况统计 注:a为SNP韦恩图;b为indels韦恩图;c为SNP突变型分布情况;d为编码区indels长度分布情况 图2 CNVs(左)和SVs(右)的分布情况统计 图3 Wh3 (左)和Wh6(右)的全基因组变异情况 图4 I、II、III型弓形虫与Chinese 1型弓形虫的ROP16和GRA15序列比对分析 图5 三种弓形虫虫株的表达模式分析 NGS项目文章 全基因组重测序探索 探索刚地弓形虫毒力相关基因 BMC Genomics 2 CNV、SV检测及注释与参考基因组比对发现,Wh3中共有2320个SVs,1942个CNVs;Wh6中共有4661个SVs,3080个CNVs。其中,Wh3含有85个片段插入(总长度:282,700bp),2995个片段缺失(总长度:4,940,000 bp);而Wh6含有90个片段插入(总长度:328,800bp),1852个片段缺失(总长度:7,157,700 bp)(图2,图3)。 3 毒力相关因子的变异信息分析通过对与弓形虫毒力和侵染性相关的一系列关键因子(R O P s 、GRAs、MICs、RONs和SAGs)的变异信息分析,发现与其他影响因子相比,GRA3和RON3的编码基因中含有更多的SNPs和indels;其中,G R A 3编码基因含有35个SNPs和2个indels,RON3编码基因含有89个SNPs和6 个indels。同时,与I、II和III型弓形虫相比,Chinese1型弓形虫的ROP16和GRA15表现为多态性的ROP16I/III 和GRA15 II(图4)。 4 qRT-PCR分析 为探究与Wh3和Wh6表型差异相关的基因,分别对Wh3、Wh6和RH这三种虫株进行qRT-PCR分析。与强毒株Wh3相比,发现在弱毒株Wh6中,GRA3和RON3的基因表达量显著上调,而ROM4, profilin, M2AP, AMA1, RON2, RON3和RON4的基因表达量显著下调。 与参考基因组虫株RH相比,在Wh3和Wh6中的SRS9, ROP8,MIC8和RON5的基因表达量均上调,而SAG1, ROP5和ROP18的基因表达量均下调(图5)。

诺禾致源高分文章集锦-植物基因组

陆地棉基因组测序揭示四倍体棉进化与纤维发育机制Sequencing of allotetraploid cotton (Gossypium hirsutum L. acc. TM-1) provides a resource for fiber improvement 研究对象:陆地棉遗传标准系TM-1 期刊:Nature Biotechnology 影响因子:41.514 合作单位:南京农业大学 发表时间:2015年4月 摘 要 Upland cotton is a model for polyploid crop domestication and transgenic improvement. Here we sequenced the allotetraploid Gossypium hirsutum L. acc. TM-1 genome by integrating whole-genome shotgun reads, bacterial artificial chromosome (BAC)-end sequences and genotype-by-sequencing genetic maps. We assembled and annotated 32,032 A-subgenome genes and 34,402 D-subgenome genes. Structural rearrangements, gene loss, disrupted genes and sequence divergence were more common in the A subgenome than in the D subgenome, suggesting asymmetric evolution. However, no genome-wide expression dominance was found between the subgenomes. Genomic signatures of selection and domestication are associated with positively selected genes (PSGs) for fiber improvement in the A subgenome and for stress tolerance in the D subgenome. This draft genome sequence provides a resource for engineering superior cotton lines.关键词 陆地棉;de novo;四倍体 研究背景 陆地棉(Gossypium hirsutum L.)隶属锦葵目(Malvales),锦葵科(Malvaceae),棉属(Gossypium),因最早在美洲大陆种植而得名,是世界上最重要的棉花栽培品种,占全球棉花种植面积的90%以上。尽管陆地棉在棉花产业中占据核心地位,但由于其为异源四倍体,相关的全基因组测序工作一直难以开展。来自南京农业大学、北京诺禾致源、美国德克斯大学的国际团队,利用最新测序技术,成功构建了高质量的陆地棉全基因组图谱,为进一步改良棉花的农艺性状提供了基础,同时也为多倍体植物的形成和演化机制提供了新的启示。

诺禾致源真核无参转录组生物信息分析结题报告2013年8月

真核无参转录组生物信息分析结题报告 建库测序流程 Total RNA样品检测 文库构建 上机测序 F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report.html 1/38

2/38 F:/结题报告+老销售培训/结题报告模板修改/…/真核无参转录组_Report.html 北京诺禾致源生物信息科技有限公司 一、建库测序流程 从RNA 样品到最终数据获得,样品检测、建库、测序每一个环节都会对数据质量和数量产生影响,而数据质量又会直接影响后续信息分析的结果。为了从源头上保证测序数据的准确性、可靠性,诺禾致源对样品检测、建库、测序每一个生产步骤都严格把控,从 根本上确保了高质量数据的产出。实验流程图如下: 1 Total RNA 样品检测 诺禾致源对RNA 样品的检测主要包括4种方法:(1) 琼脂糖凝胶电泳分析RNA 降解程度以及是否有污染(2) Nanodrop 检测RNA 的纯度(OD260/280比值)(3) Qubit 对RNA 浓度进行精确定量(4) Agilent 2100精确检测RNA 的完整性 2 文库构建及库检 样品检测合格后,用带有Oligo (dT )的磁珠富集真核生物mRNA (若为原核生物,则通过试剂盒去除rRNA 来富集mRNA )。随后加入fragmentation buffer 将mRNA 打断成短片段,以mRNA 为模板,用六碱基随机引物(random hexamers )合成一链cDNA ,然后加入缓冲液、dNTPs 、RNase H 和DNA polymerase I 合成二链cDNA ,随后利用AMPure XP beads 纯化双链cDNA 。纯化的双链cDNA 再进行末端修复、加A 尾并连接测序接头,然后用AMPure XP beads 进行片段大小选择,最后进行PCR 富集得到最终的cDNA 文库。文库构建完成后,先使用Qubit2.0进行初步定量,稀释文库至1ng/ul ,随后使用Agilent 2100对文库的insert size 进行检测,insert size 符合预期后,使用Q-PCR 方法对文库的有效浓度进行准确定量(文库有效浓度 >2nM ),以保证文库质量。文库构建原理图如下:

转录组测序

真核mRNA测序是基于HiSeq平台,对真核生物特定组织或细胞在某个时期转录出来的所有mRNA进行测序,既可研究已知基因,亦能发掘新基因,全 面快速地获得mRNA序列和丰度信息。真核mRNA测序方法可以分为:有参考转录组、无参考转录组以及数字基因表达谱(DGE)三大类。 技术参数 案例解析 [案例一] mRNA和small RNA转录组揭示新合成异源六倍体小麦杂种 优势的动态部分同源调控 诺禾致源携手中国农业科学院作物科学研究所,利用转录组测序技术,对杂交亲本、新合成异源六倍体小麦的幼苗、穗和种子进行了mRNA和smallRNA测序及信息分析,发现新合成异源六倍体小麦绝大部分基因表现为12类基因表达模式,包括加性表达,少部分的基因表现为非加性,基因的非加性表现出非常强的发育时期特异性,与生长势密切相关;miRNA的丰度随着倍性的增加逐渐下降,新合成异源六倍体小麦中非加性表达的 miRNA也同样表现出亲本显性表 达,miRNA的表达敏感性与生长势和适应性密切相关。该研究揭示了不同倍性 非对等杂种优势的分子基础。 [案例二] 磷酸三(2,3-二氯丙基)酯(TDCPP)对四膜虫生长繁殖的 抑制作用与核糖体相关 诺禾携手华中农业大学,利用转录组测序和信息分析技术,研究了TDCPP处理组和对照组差异基因表达,并对差异表达基因进行KEGG通路分析,发现核糖体基因通路显著富集, 同时伴随胞浆和粗面内质网上核糖体数量减少体积增大。这些探索表明四膜虫可以作为TDCPP反应的生物指标,为后续研究TDCPP作用其他生物的毒理机制提供了新视角。 [案例三] 转录组揭示寄主植物与宿主之间进行RNA交换的机制 参考文献 菟丝子被称作勒死草,会用被称作吸根的专用器官穿透宿主组织与其建立联系,可以吸取宿主的水份与营养物质,也能吸取RNA(mRNA)分子。本研究分别选取菟丝子和拟南芥及番茄的共生体茎上的三段组织进行转录组学的研究,发现寄生植物与寄主之间mRNA的转移量很大且是一种双向转移的模式;两种宿主相比,更多的拟南芥RNA被转移到菟丝子植物之中,而且菟丝子与拟南芥之间较自由的交换,可表明调节菟丝子吸根选择性的机制可能是宿主特异性的,从而揭示了寄主与宿主之间进行RNA转移的遗传机制。 [1] Li A, Liu D, Wu J, et al . mRNA and small RNA transcriptomes reveal insights into dynamic homoeolog regulation of allopolyploid heterosis in nascent hexaploid wheat [J]. The Plant Cell, 2014: tpc. 114.124388.[2] Jing Li, John P , Giesy, Liqin Yu, et al . Effects of Tris (1,3-dichloro-2-propyl) Phosphate (TDCPP) in Tetrahymena Thermophila: Targeting the Ribosome. Scientific Reports. 2015, 5:10562. [3] Kim G, LeBlanc M L, et al . Genomic-scale exchange of mRNA between a parasitic plant and its hosts [J]. Science, 2014, 345(6198): 808-811. 图1 非加性表达miRNA与亲本显性表达miRNA的 等级聚类分析和两者的关联 图2 显著富集的KEGG通路 图3 菟丝子与拟南芥、番茄转移RNA和非转移RNA的表达和富集分析 样品要求文库类型测序策略数据量类型 分析内容 项目周期 真核有参转录组测序 真核无参转录组测序 6 Gb、8 Gb、10 Gb、12 Gb clean data 6 M clean reads 3 Gb clean data 项目数据至少12 Gb clean data 数字基因表达谱(DGE) HiSeq PE150 HiSeq PE150 HiSeq SE50HiSeq PE125普通转录组文库; 链特异性转录组文库 40天50天30天 35天(有参)45天(无参) RNA样品总量≥1.5 μg; RNA样品浓度≥50 ng/μL 参考基因组比对 新转录本预测可变剪切分析SNP/InDel分析 基因表达水平分析RNA-seq整体质量评估 转录因子注释GO/KEGG富集分析蛋白互作网络分析基因共表达网络构建可视化结果展示 参考转录组拼接 转录本/Unigene长度统计 基因功能注释NR,NT,Swiss Prot GO,KEGG,KOG Protein Family CDS预测分析SNP/SSR分析

诺禾致源高分文章集锦-动物基因组

川金丝猴全基因组测序解析其植食性机制与进化史 Whole-genome sequencing of the snub-nosed monkey provides insights into folivory and evolutionary history 研究对象:川金丝猴期刊:Nature Genetics 影响因子:29.352 合作单位:中国科学院动物研究所发表时间:2014年11月 摘 要 Colobines are a unique group of Old World monkeys that principally eat leaves and seeds rather than fruits and insects. We report the sequencing at 146× coverage, de novo assembly and analyses of the genome of a male golden snub-nosed monkey (Rhinopithecus roxellana ) and resequencing at 30× coverage of three related species (Rhinopithecus bieti , Rhinopithecus brelichi and Rhinopithecus strykeri ). Comparative analyses showed that Asian colobines have an enhanced ability to derive energy from fatty acids and to degrade xenobiotics. We found evidence for functional evolution in the colobine RNASE1 gene, encoding a key secretory RNase that digests the high concentrations of bacterial RNA derived from symbiotic microflora. Demographic reconstructions indicated that the profile of ancient effective population sizes for R. roxellana more closely resembles that of giant panda rather than its congeners. These findings offer new insights into the dietary adaptations and evolutionary history of colobine primates. 关键词 金丝猴;重测序;植食性;进化 研究背景 金丝猴(Rhinopithecu spp.)隶属于灵长目(Primates)、疣猴亚科(Colobinae)、仰鼻猴属 (Rhinopithecus ) ,目前共有5个种,即川、滇、黔、缅甸和越南金丝猴。通过对金丝猴基因组以及肠道基因组进行全面系统的研究,解析了金丝猴的植食性分子遗传机制,为了解疣猴亚科的系统进化、功能适应性奠定了遗传基础,同时开展了仰鼻猴属的进化历史和遗传多态性分析。

群体重测序与大山雀的群体进化

诺禾致源最新“高性价比”群体进化研究成果 继2013年合作完成地山雀基因组测序之后,北京诺禾致源重测序事业部团队与中国科学院动物研究所研究人 员再次携手,通过对13个地区的32只大山雀进行全基因组重测序,解析了喜马拉雅山脉东部大山雀对随海拨 变化的气候的适应机制。研究成果发表于2015年9月的Scientific Reports杂志(IF:5.578)。其中,中国科 学院动物研究所屈延华研究员、诺禾致源田仕林为论文的共同第一作者。 群体重测序揭示 大山雀适应随海拨而变的气候的机制 NGS项目文章

研究背景 大山雀(Parus major )隶属于雀形目(Passeriformes)山雀科(Paridae)山雀属(Parus spilonotus )。在东亚,主要分布在低海拔地区,也有部分种群生活在喜马拉雅山脉东部的高海拔地区。有季节性迁徙习性,在海拔4000m地区繁殖,在海拔2000m地区越冬。本研究采用群体重测序技术,从基因组水平上揭示了喜马拉雅山脉东部大山雀的起源及对这种季节性的、随海拨高度变化的气候的适应性机制。 研究方法 基于Illumina HiSeq 2000 测序平台,对来自13个地区的32只大山雀进行全基因组重测序,其中,11只大山雀来自喜马拉雅山脉东部地区,11只来自中国中/东部地区,10只来自内蒙古和蒙古,测序深度5X/样。以近缘物种地山雀(Pseudopodoces humilis )基因组作为参考基因组,对大山雀群体进行了遗传多样性、种群历史动态、选择消除等分析。研究结果 1. 大山雀的群体进化分析 群体遗传多样性分析表明,来自蒙古(MON)、东喜马拉雅山脉(EH) 和中国中/东地区(CE)的大山雀各自聚为一类。EH和CE的亲缘关系较MON 更近。大山雀和地山雀约在5.8-13.3百万年前发生了分化;0.7-2.8百万年前 大山雀中分化出了MON分支;0.4-1.9百万年前EH和CE发生了分化。 2. 大山雀种群历史动态分析 EH、CE和MON在0.3-0.4百万年前种群遭遇了瓶颈效应。CE在0.06百万 年前有效群体大小迅速扩张,EH在同一时间开始扩张,但变化较平缓。而 MON经历了一个漫长的瓶颈,一直持续到0.02百万年前,在末次盛冰期有效 群体大小稍有增加。以上结果表明,EH种群动态受冰期气候影响小,这是由 于东喜马拉雅山脉局部环境相对稳定,长期生活在该地区的大山雀发生了高 海拔适应性进化。 3. 大山雀对高海拔的适应机制 通过选择消除分析,在东喜马拉雅山脉大山雀检测到183个基因受到强选 择,主要参与能量代谢过程和低氧反应。 (1)能量代谢基因进化:东喜马拉雅大山雀糖类代谢相关的基因发生了 快速进化,包括氨基糖和核苷酸糖代谢(5个基因)和胰岛素信号途径(11个 基因)。大山雀这种适应机制适合其在中、高海拔季节性迁徙的生活习性。 (2)低氧适应:低氧反应基因富集在MAPK信号通路,调节东喜马拉雅 大山雀体内相关基因的表达来适应低氧环境。 (3)形态进化:东喜马拉雅大山雀骨骼发育相关的基因发生了快速进 化,与分布在中国中/东低地区域的大山雀相比,体型更大,有利于保存热 量。此外,体型大倾向于有较高的氧亲和力,这也是东喜马拉雅大山雀能够 更好地调节体温适应高海拔的寒冷气候的一个原因。参考文献 Qu YH, Tian SL, et al. Genetic responses to seasonal variation in altitudinal stress: whole-genome resequencing of great tit in eastern Himalayas. Scientific Reports, 2015. 图1 大山雀遗传多样性及分化时间 图2 调控低氧反应的受选择基因

De novo 转录组揭示真菌与微生物的共生机制

然而,利用以上研究数据,另有文章发表: NGS项目文章 猪苓,非褶菌目多孔菌科树花属,是一种药用真菌; 蜜环菌,伞菌目蜜环菌属,夏秋季常寄生于树丛根部,是一种根腐菌。 猪苓的生长需要蜜环菌提供营养,二者之间存在共生关系。 在共生关系建立的过程中,蜜环菌的菌索会吸附并侵染猪苓的菌核, 而猪苓则会激发自身防御机制,如菌核细胞壁不规则地增厚以抵抗蜜环菌进一步侵染。 这个抵抗侵染过程的分子机制是怎样的? 2015年10月,猪苓对蜜环菌的防御机制研究成果发表在Scientific Reports上, 该研究由中国医学科学院药用植物研究所郭顺星教授课题组负责, 其中De novo 转录组测序工作由诺禾致源完成。 研究内容与结果 首页 科技服务 医学检测 科学与技术 市场与支持 加入我们 关于我们 De novo 转录组 揭示猪苓对蜜环菌的防御机制 3. 差异基因功能分析 利用DESeq软件进行CT和CK的差异基因筛选,得到10,933个DEG,包括 8,780个上调基因和2,213个下调基因(图2)。 表达上调的差异基因GO富集分析发现:在molecular function部分,富集 最明显的是苏氨酸型肽链内切酶活性、肽酶活性以及特异性DNA结合等 term;在cellular component部分,富集显著的是蛋白酶复合体、膜组成 等term;而在biological process部分,蛋白质折叠、三羧酸循环以及染色 质组装等term下显著富集。而下调的DEG被富集到对有机物反应、细胞组 分合成等功能term,这预示着猪苓受到侵染时会限制自身的生长与繁殖。 对DEG进行KEGG富集分析发现:精氨酸和脯氨酸代谢通路富集显著;免疫 相关基因精氨酸酶(ARG)显著上调,推测其与猪苓抵抗蜜环菌侵染相关。 而在核糖体合成途径通路中,含有11个下调基因,这与GO富集中发现下调 基因在生物学过程相关term富集的结果是一致的,从而推测猪苓受到侵染 会减弱自身的生物学过程以保存能量。 2. 转录本功能注释 对拼接得到的转录本进行功 能注释,采用Nr, Nt, Swiss -Prot, KEGG, GO, KOG 和 Pfam 七大数据库。并对 unigene进行GO和KOG功 能分类(图1和图2)。 1. 转录本拼接 四个文库测序下机的原始 数据进行质控,将各样本 的clean reads进行混合拼 接,得到38444条 unigene,作为参考序列用 于后续分析。 4. qPCR验证差异表达基因 选取13个DEG进行实时荧光定量PCR,检测结果与RNA-seq一致。 结论与讨论 本研究首次通过RNA-seq研究蜜环菌侵染和未侵染的猪苓样本,筛选出差异表达基因10933个; 通过GO富集和KEGG富集分析,鉴定到了可能与抵御反应相关的若干差异基因。 其中,且热休克蛋白(Hsps)基因、抗氧化防御相关基因、凝集素基因、致病相关蛋白(TLP)基因、 次级代谢相关基因、细胞壁水解与融合相关基因、PDR家族基因、WD40蛋白基因等 在蜜环菌侵染的猪苓样本中呈现表达上调,均可能与抵御反应相关。 图3 转录数据的SSR分析 图2 对差异基因进行筛选 图1 unigene的GO功能分类 郭顺星教授课题组继续利用本次RNA-seq的数据结 果进行SSR分析,丰富了药用猪苓的因地域而异的 遗传多态性,并为猪苓群体遗传和行为生态学研究 提供了依据。 阅读原文>> 阅读原文>> Scientific Reports

基于 GBS 技术的玉米高密度遗传图谱构建及 QTL 定位

诺禾致源重测序 基于 GBS 技术的玉米高密度遗传图谱构建及 QTL 定位 BMC Genomics 首页 科技服务 医学检测 科学与技术 市场与支持 加入我们 关于我们 中国农业科学院作物研究所研究人员携手诺禾致源重测序团队, 采用 GBS 技术,对314株高世代群体(RILs)进行低深度测序,检测 SNP,开发 Bin 标记,构建高密度遗传图谱, 并对株型相关性状进行了定位,筛选出候选基因。 研究成果发表于2016年3月的 BMC Genomics 杂志(IF:3.986)。 玉米株型相关性状(株高、穗高等)与玉米产量、抗倒伏等密切相关,研究其遗传特点具有重要意义。 现存的低密度遗传图谱限制了 QTL 作图的高效性和准确性。基于二代测序的 GBS 技术已成为一种构建高密度遗传图谱的有力工具。 本文采用 GBS 技术与高世代作图群体(RILs)相结合,极大的提升了 QTL 作图的有效性以及对复杂农艺性状的研究。 研究背景 NGS项目文章 实验材料和方法 研究结果 取 材 测序技术测序平台 Ye478(母本)和 Qi319(父本)RILs (F11代),314株 亲本全基因组重测序,测序深度分别为29.5X 和33.7X; 子代 GBS 测序,平均测序深度约0.07X 亲本(Illumina HiSeq 2000 PE125测序),子代(Illumina HiSeq 2500 PE125测序) 1 亲本重测序和子代 GBS 测序 Ye478(母本)和 Qi319(父本)进行全基因组重测序,测序深度分别为29.5x 和33.7x,与参考基因组(B73RefGen_V3)进行比对后,分别获得678,819,425和803,698,828条reads,亲本间纯合且有差异的 SNP 共有3,549,088个(图1)。 子代 RILs 群体进行 GBS 测序,共获得137,699,000条 reads,平均每个个体357,376条 reads,相当于玉米基因组大小的0.07x。通过标记筛选,剩余88,268个 SNPs 可用于 bin 标记开发。 2 基于bin 标记的遗传图谱构建 以100Kb大小为间隔,若相邻的100Kb间隔在整个 RILs 群体中都没有发生重组事件,则相邻的100Kb间隔被连接成 bins,这些 bins 被当做遗传标记(markers),共开发出4,183个 bin 标记。基于这些 bin 标记构建玉米高密度遗传图谱,遗传距离总长为1,545.65cM,标记间平均遗传距离为0.37cM,平均物理间隔0.51Mb(图2,表1)。 3 图谱质量评估 将遗传图谱与玉米参考基因组进行共线性分析,获得了良好的结果。为评估该图谱用于性状定位的效果,使用该图谱对玉米棒颜色性状(cob color)进行了 QTL 分析。在1号染色体上检测到QTL qC1,该 QTL 所在区域包含已克隆的基因 pericarp color 1(P1),LOD 值为80.78。 4 株型性状相关的Bin 标记 株型相关的三个性状:株高(PH),穗高(EH)和节间数量(IN)都具有较高的遗传力,以 PH 遗传力最高,为94.87%,其次为 EH 和 IN 分别是85.24%和82.33%。基于 bin map,对三个环境下的三个性状进行定位,共鉴定出35个 QTL,每个 QTL 解释表型变异2.6%~15.68%。 在三个环境中都检测到多效 QTL(pQTL10),位于标记mk4012和 mk4037间,物理距离约14.6 Mb,表明其与三个性状都相关。 5 候选基因预测 根据玉米基因注释结果,qPH10包含45个蛋白编码的基因,但是只有7个具有功能注释。其中,2个为 MYB 转录因子家族的基因:GRMZM2G325907和GRMZM2G108892,可能调节株高性状,是qPH10的候选基因。 表1 玉米高密度遗传图谱结果统计 Chr.a No.markers b Physical distance (Mb) Genetic distance (cM) Avg.distance between markers (cM) <5cM Gap Max.gap (cM) 18.483723.084.93234.103837139.463354.064.15198.732733275.547443.033.36132.232674315.654473.022.36130.242744425.268453.068.07139.712784511.544353.083.02183.961643649.249363.042.34118.671593769.27534.066.24153.571853851.1112383.050.22120.751323911.547274.079.82136.941672015 1.119 6147 3.05 6.54517 .95023 814l a t o T a Chr.,indicates chromosome b No.markers,the number of markers on chromosome 图4 三个环境下的PH性状相关QTL在染色体上的分布 图3 玉米棒颜色性状相关QTL在染色体上的分布 图1 亲本间多态性SNP在全基因组及外显子区域的分布 图2 玉米 bin map (横轴表示染色体编号,纵轴表示样本数;红色表示与 亲本Qi319基因型相同,蓝色表示与亲本Ye478相同;黄色:杂合基因型)

诺禾致源高分文章集锦-人类篇

RNA 测序技术揭秘继发胶质母细胞瘤中新的重复出现的PTPRZ1-MET 融合基因 RNA-seq of 272 gliomas revealed a novel, recurrent PTPRZ1-MET fusion transcript in secondary glioblastomas 研究对象:人脑胶质瘤 期刊:Genome Research 影响因子:14.63 合作单位:北京大学 发表时间:2014年8月 摘 要 Studies of gene rearrangements and the consequent oncogenic fusion proteins have laid the foundation for targeted cancer therapy. To identify oncogenic fusions associated with glioma progression, we catalogued fusion transcripts by RNA-seq of 272 gliomas. Fusion transcripts were more frequently found in high-grade gliomas, in the classical subtype of gliomas, and in gliomas treated with radiation/temozolomide. Sixty-seven in-frame fusion transcripts were identified, including three recurrent fusion transcripts: FGFR3-TACC3, RNF213-SLC26A11, and PTPRZ1-MET (ZM ). Interestingly, the ZM fusion was found only in grade III astrocytomas (1/13; 7.7%) or secondary GBMs (sGBMs, 3/20; 15.0%). In an independent cohort of sGBMs, the ZM fusion was found in three of 20 (15%) specimens. Genomic analysis revealed that the fusion arose from translocation events involving introns 3 or 8 of PTPRZ and intron 1 of MET . ZM fusion transcripts were found in GBMs irrespective of isocitrate dehydrogenase 1 (IDH1) mutation status. sGBMs harboring ZM fusion showed higher expression of genes required for PIK3CA signaling and lowered expression of genes that suppressed RB1 or TP53 function. Expression of the ZM fusion was mutually exclusive with EGFR overexpression in sGBMs. Exogenous expression of the ZM fusion in the U87MG glioblastoma line enhanced cell migration and invasion. Clinically, patients afflicted with ZM fusion harboring glioblastomas survived poorly relative to those afflicted with non-ZM -harboring sGBMs (P < 0.001). Our study profiles the shifting RNA landscape of gliomas during progression and reveled ZM as a novel, recurrent fusion transcript in sGBMs. 关键词 胶质瘤;融合基因;PTPRZ1-MET 研究背景 脑胶质瘤由神经上皮细胞恶化演进形成,是成人中 枢神经系统中最常见的恶性肿瘤,致死率极高,恶性脑 胶质瘤5年存活率仅5%,具有浸润生长、易复发、预 后差等特点。根据WHO 形态学分类标准,脑胶质瘤分 为四个级别和多种类型,其恶性程度不同,常规放化疗 的预后差别较大,不同分型以及原发和复发胶质瘤发生 发展的分子机制也有所不同,因此亟需发展针对分子病 理的新的分型标准,指导临床治疗和个体化医疗,提高 病人的生存期和生存质量。

诺禾致源-ChIP-seq 流程

ChIP-seq 染色体免疫共沉淀(ChIP)是一种用于研究蛋白质与DNA的体内相互作用的经典实验技术。采用特异性抗体将目的蛋白进行免疫沉淀,由此可以把目的蛋白所结合的基因组DNA片段也富集下来。通过与高通量测序技术的结合,对ChIP后的DNA产物进行测序分析,从全基因组范围内寻找目的蛋白的DNA结合位点,以高效率的测序手段得到高通量的数据结果。 1.1C hIP免疫沉淀实验流程 目前主要有两种不同的ChIP实验方法,大致流程如下(均以细胞样品的处理过程为例): Cross-liking Chromatin Immunoprecipitation (X-ChIP) 1.甲醛处理细胞,使DNA-protein的相互结合作用被交联固定。 2.裂解细胞,得到全细胞裂解液。 3.超声处理,将基因组DNA打断至100-500 bp。 4.抗体免疫沉淀:在细胞裂解液中加入一抗和beads,并进行孵育。 5.采用合适的实验条件进行洗脱,并解交联。 6.通过qPCR对ChIP结果进行验证。 7.准备好的ChIP后的DNA样品可以用于ChIP Sequencing建库。 Native Chromatin Immunoprecipitation (N-ChIP) 1.通过非变性的方式得到核裂解液。 2.微球菌核酸酶(Micrococcal nuclease)消化染色质,得到单核小体或核小体 寡聚体。 3.抗体免疫沉淀:在细胞裂解液中前后加入一抗和beads,并进行孵育。 4.DNA分离。 5.通过qPCR对ChIP结果进行验证。 6.准备好的ChIP后的DNA样品可以用于ChIP Sequencing建库。 下面步骤由我们公司做:

诺禾致源有参转录组结题报告

NHXXXXXX_species转录组生物信息分析结题报告建库测序流程 Total RNA样品检测 文库构建 库检 上机测序 生物信息分析流程 结果展示及说明 原始序列数据 测序数据质量评估 参考序列比对分析 可变剪切分析 新转录本预测 SNP和InDel分析 基因表达水平分析 RNA-seq整体质量评估 基因差异表达分析 差异基因GO富集分析 差异基因KEGG富集分析 差异基因蛋白互作网络分析 参考文献 附录 文件目录列表 软件列表 Methods英文版 备注

一、建库测序流程 从RNA样品到最终数据获得,样品检测、建库、测序每一个环节都会对数据质量和数量产生影响,而数据质量又会直接影响后续信息分析的结果。为了从源头上保证测序数据的准确性、可靠性,诺禾致源对样品检测、建库、测序每一个生产步骤都严格把控,从根本上确保了高质量数据的产出。流程图如下:

1 Total RNA样品检测 诺禾致源对RNA样品的检测主要包括4种方法: (1) 琼脂糖凝胶电泳分析RNA降解程度以及是否有污染 (2) Nanodrop检测RNA的纯度(OD260/280比值) (3) Qubit对RNA浓度进行精确定量 (4) Agilent 2100精确检测RNA的完整性 2 文库构建 样品检测合格后,用带有Oligo(dT)的磁珠富集真核生物mRNA(若为原核生物,则通过试剂盒去除rRNA来富集mRNA)。随后加入fragmentation buffer将mRNA打断成短片段,以mRNA为模板,用六碱基随机引物(random hexamers)合成一链cDNA,然后加入缓冲液、dNTPs和DNA polymerase I合成二链cDNA,随后利用AMPure XP beads纯化双链cDNA。纯化的双链cDNA再进行末端修复、加A尾并连接测序接头,然后用AMPure XP beads进行片段大小选择,最后进行PCR富集得到最终的cDNA文库。构建原理图如下: 3 库检 文库构建完成后,先使用Qubit2.0进行初步定量,稀释文库至1ng/ul,随后使用Agilent 2100对文库的insert size进行检测,insert size符合预期后,使用Q-PCR方法对文库的有效浓度进行准确定量(文库有效浓度>2nM),以保证文库质量。 4 上机测序 库检合格后,把不同文库按照有效浓度及目标下机数据量的需求pooling后进行HiSeq/MiSeq测序。

相关主题
文本预览
相关文档 最新文档