当前位置：文档之家› 二代测序技术在水稻基因组学和转录组学研究中的应用

二代测序技术在水稻基因组学和转录组学研究中的应用

基因组重测序

基因组重测序背景介绍全基因组重测序，是对基因组序列已知的个体进行基因组测序，并在个体或群体水平上进行差异性分析的方法。与已知序列比对，寻找单核苷酸多态性位点（SNP ）、插入缺失位点（InDel ，Insertion/Deletion ）、结构变异位点（SV ，Structure Variation ）位点及拷贝数变化(CNV) 。可以寻找到大量基因差异，实现遗传进化分析及重要性状候选基因的预测。涉及临床医药研究、群体遗传学研究、关联分析、进化分析等众多应用领域。随着测序成本的大幅度降低以及测序效率的数量级提升，全基因组重测序已经成为研究人类疾病及动植物分子育种最为快速有效的方法之一。利用illumina Hiseq 2000 平台，将不同插入片段文库和双末端测序相结合，可以高效地挖掘基因序列差异和结构变异等信息，为客户进行疾病研究、分子育种等提供准确依据。重测序的两个条件：（1）该物种基因组序列已知；（2）所测序群体之间遗传性差异不大（ >99% 相似度）在已经完成的全基因组测序及其基因功能注释的基础上，采用全基因组鸟枪法（WGS ）对DNA 插入片段进行双末端测序。技术路线生物信息学分析

送样要求 1.样品总量：每次样品制备需要大于5ug 的样品。为保证实验质量及延续性，请一次性提供至少20ug的样品。如需多次制备样品，按照制备次数计算样品总量。 2.样品纯度：OD值260/280应在1.8～2.0 之间；无蛋白质、RNA或肉眼可见杂质污染。 3.样品浓度：不低于50 ng/μL。 4.样品质量：基因组完整、无降解，电泳结果基因组DNA主带应在λ‐Hind III digest 最大条带23 Kb以上且主带清晰，无弥散。 5.样品保存：限选择干粉、酒精、TE buffer或超纯水一种，请在样品信息单中注明。 6.样品运输：样品请置于1.5 ml管中，做好标记，使用封口膜封好；基因组DNA如果用乙醇沉淀，可以常温运输；否则建议使用干冰或冰袋运输，并选择较快的运输方式。提供结果根据客户需求，提供不同深度的信息分析结果。

转录组测序结题报告

转录组测序结题报告 1．mRNA纯化：抽提得到的总RNA首先利用10U的DNaseI（Ambion，美国）在37℃消化1小时；然后利用Micropoly(A)PuristTM mRNA purification kit（Ambion，美国），进行mRNA纯化：把RNA稀释到250μl的体积，按照Kit的操作步骤（Cat.No:

1919）进行；最后得到的mRNA用100μl预热的THE缓冲液洗脱，利用NanoDrop 进行定量。 2．cDNA合成： cDNA合成是在Ng等2005年发表的方法基础上改进而成（文献1，图1）。第一链cDNA合成利用GsuI-oligo dT作为反转录引物，10μg的mRNA作为模板，用1000 单位的Superscript II reverse transcriptase (Invitrogen，美国)在42℃作用1小时完成；随后利用NaIO4（Sigma，美国）氧化mRNA的5’帽子结构，并连接生物素；通过Dynal M280磁珠（Invitrogen，美国）筛选连接了生物素的mRNA/cDNA，并通过碱裂解释放第一链cDNA；然后通过DNA ligase（TaKaRa，日本）在第一链cDNA的5’末端加上接头，然后通过Ex Taq polymerase (TaKaRa，日本)合成第二链cDNA。最后通过GsuI酶切去除polyA和5’端接头。图1. 全长cDNA合成示意图 3．cDNA测序：合成的cDNA利用超声仪（Fisher）打断到300-500bp的范围，利用Ampure beads（Agencourt，美国）进行纯化。随后纯化的cDNA利用TruSeq TM DNA XXmple Prep Kit – Set A (illumina，美国)制备文库，并利用TruSeq PE Cluster Kit (illumina，美国)进行扩增。最后在illumina机器上进行测序反应。测序得到的数据统计见表1. 表1. Solexa测序统计样品对照 1 2

有参考基因组的转录组生物信息分析

一、生物信息分析流程获得原始测序序列(Sequenced Reads)后，在有相关物种参考序列或参考基因组的情况下，通过如下流程进行生物信息分析：二、项目结果说明 1 原始序列数据高通量测序(如illumina HiSeq TM2000/MiSeq等测序平台)测序得到的原始图像数据文件经碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads)，我们称之为Raw Data或Raw Reads，结果以FASTQ(简称为fq)文件格式存储，其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。 FASTQ格式文件中每个read由四行描述，如下： @EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG GCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT + @@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF 其中第一行以“@”开头，随后为illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分)；第二行是碱基序列；第三行以“+”开头，随后为illumina 测序标识符(选择性部分)；第四行是对应序列的测序质量(Cock et al.)。 illumina 测序标识符详细信息如下：

第四行中每个字符对应的ASCII值减去33，即为对应第二行碱基的测序质量值。如果测序错误率用e表示，illumina HiSeq TM2000/MiSeq的碱基质量值用Q phred 表示，则有下列关系：公式一：Q phred = -10log 10 (e) illumina Casava 1.8版本测序错误率与测序质量值简明对应关系如下： 2 测序数据质量评估 2.1 测序错误率分布检查每个碱基测序错误率是通过测序Phred数值(Phred score, Q phred )通过公式1转化得到，而Phred 数值是在碱基识别(Base Calling)过程中通过一种预测碱基判别发生错误概率模型计算得到的，对应关系如下表所显示： illumina Casava 1.8版本碱基识别与Phred分值之间的简明对应关系测序错误率与碱基质量有关，受测序仪本身、测序试剂、样品等多个因素共同影响。对于RNA-seq技术，测序错误率分布具有两个特点： (1)测序错误率会随着测序序列(Sequenced Reads)的长度的增加而升高，这是由于测序过程中化学试剂的消耗而导致的，并且为illumina高通量测序平台都具有的特征(Erlich and Mitra, 2008; Jiang et al.)。 (2)前6个碱基的位置也会发生较高的测序错误率，而这个长度也正好等于在RNA-seq 建库过程中反转录所需要的随机引物的长度。所以推测前6个碱基测序错误率较高的原因为随机引物和RNA模版的不完全结合(Jiang et al.)。测序错误率分布检查用于检测在测序长度范围内，有无异常的碱基位置存在高错误率，比如中间位置的碱基测序错误率显着高于其他位置。一般情况下，每个碱基位置的测序错误率都应该低于0.5%。图2.1 测序错误率分布图

转录组学主要技术与应用研究

转录组学主要技术及其应用研究姓名：梁迪专业：微生物学年级：2013 学号：3130179 二零一四年六月十五日

转录学主要技术及其应用研究摘要：转录组(transcriptome)是特定组织或细胞在某一发育阶段或功能状态下转录出来的所有RNA的集合。转录组学研究能够从整体水平研究基因功能以及基因结构，揭示特定生物学过程以及疾病发生过程中的分子机理。目前，转录组学研究技术主要包括两种：基于杂交技术的微阵列技术（microarray)和基于测序技术的转录组测序技术，包括表达序列标签技术（Expression Sequence Tags Technology，EST）、基因表达系列分析技术（Serial analysis of gene expression，SAGE）、大规模平行测序技术（Massively parallel signature sequencing，MPSS）、以及RNA 测序技术（RNA sequencing，RNA-seq）。文章主要介绍了以上转录组学主要研究技术的原理、技术特点及其应用，并就这些技术面临的挑战和未来发展前景进行了讨论，为其今后的研究与应用提供参考。关键词：转录组学；微阵列技术；转录组测序技术；应用 Study on the main technologies of transcriptomics and their application Abstract: The transcriptome is the complete set of transcripts for certain type of cells or tissues in a specific developmental stage or physiological condition. Transcriptome analysis can provide a comprehensive understanding of molecularmechanisms involved in specific biological processes and diseases from the information on gene structure and function. Currently, transcriptomics technology mainly includes microarry -based on hybridization technology and transcriptome sequencing-based on sequencing technology, involving Expression sequence tags technology, Serial analysis of gene expression, Massively parallel signature sequencing and RNA sequencing. The detailed principles, technical characteristics and applications of the main transcriptomics technologies are reviewed here, and the challenges and application potentials of these technologies in the future are also discussed. This will present the useful information for other researchers. Keywords: transcriptomics ; microarray ; transcriptome sequencing; application 随着后基因组时代的到来，转录组学、蛋白质组学、代谢组学等各种组学技术相继出现，其中转录组学是率先发展起来以及应用最广泛的技术[1]。

全基因组重测序数据分析

全基因组重测序数据分析 1. 简介(Introduction) 通过高通量测序识别发现de novo的somatic和germ line 突变，结构变异-SNV，包括重排突变（deletioin, duplication 以及copy number variation）以及SNP的座位；针对重排突变和SNP的功能性进行综合分析；我们将分析基因功能（包括miRNA），重组率（Recombination）情况，杂合性缺失（LOH）以及进化选择与mutation之间的关系；以及这些关系将怎样使得在disease（cancer）genome中的mutation产生对应的易感机制和功能。我们将在基因组学以及比较基因组学，群体遗传学综合层面上深入探索疾病基因组和癌症基因组。实验设计与样本（1）Case-Control 对照组设计；（2）家庭成员组设计：父母-子女组（4人、3人组或多人）；初级数据分析 1．数据量产出：总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计，测序深度分析。 2．一致性序列组装：与参考基因组序列（Reference genome sequence）的比对分析，利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型，并组装出该个体基因组的一致序列。3．SNP检测及在基因组中的分布：提取全基因组中所有多态性位点，结合质量值、测序深度、重复性等因素作进一步的过滤筛选，最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进行注释。 4．InDel检测及在基因组的分布: 在进行mapping的过程中，进行容gap的比对并检测可信的short InDel。在检测过程中，gap的长度为1~5个碱基。对于每个InDel的检测，至少需要3个Paired-End序列的支持。 5．Structure Variation检测及在基因组中的分布: 能够检测到的结构变异类型主要有：插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果，检测全基因组水平的结构变异并对检测到的变异进行注释。

转录组测序技术的应用及发展综述

转录组测序技术的应用及发展综述摘要：转录组测序（RNA-Seq）作为一种新的高效、快捷的转录组研究手段正在改变着人们对转录组的认识。RNA-Seq利用高通量测序技术对组织或细胞中所有RNA 反转录而成cDNA文库进行测序，通过统计相关读段(reads)数计算出不同RNA的表达量，发现新的转录本；如果有基因组参考序列，可以把转录本映射回基因组，确定转录本位置、剪切情况等更为全面的遗传信息，已广泛应用于生物学研究、医学研究、临床研究和药物研发等。文章主要比较近年来转录组研究的几种方法和几种RNA-Seq的研究平台，着重介绍RNA-Seq的原理、用途、步骤和生物信息学分析，并就RNA-Seq技术面临的挑战和未来发展前景进行了讨论及在相关领域的应用等内容，为今后该技术的研究与应用提供参考。关键词: RNA-Seq；原理应用；方法；挑战；发展前景 Abstract：Transcriptome sequencing (RNA-Seq) is a kind of high efficiency, quick transcriptome research methods are changing our understanding of transcriptome. RNA-Seq to use high-throughput sequencing of tissues or cells of all RNA reverse transcription into cDNA library were sequenced, through statistical correlation read paragraph (reads) numbers were calculated from the expression of different RNA transcripts, find new; if the genome reference sequence, the transcripts mapped to genomic, determine the position of the transcription shear condition, more genetic information, has been widely used in biological research, medical research, clinical research and drug development. This paper compared several methods of platform transcriptome studies and several kinds of RNA-Seq in recent years, RNA-Seq focuses on the principle, purpose, steps and bioinformatics analysis, and discusses the RNA-Seq technology challenges and future development prospect and the application in related field and other content, provide the reference for the research and application of the technology future. Key word：RNA-Seq ;application; principle; method; challenge; development prospects

转录组测序

真核mRNA测序是基于HiSeq平台，对真核生物特定组织或细胞在某个时期转录出来的所有mRNA进行测序，既可研究已知基因，亦能发掘新基因，全面快速地获得mRNA序列和丰度信息。真核mRNA测序方法可以分为：有参考转录组、无参考转录组以及数字基因表达谱（DGE）三大类。技术参数案例解析［案例一］ mRNA和small RNA转录组揭示新合成异源六倍体小麦杂种优势的动态部分同源调控诺禾致源携手中国农业科学院作物科学研究所，利用转录组测序技术，对杂交亲本、新合成异源六倍体小麦的幼苗、穗和种子进行了mRNA和smallRNA测序及信息分析，发现新合成异源六倍体小麦绝大部分基因表现为12类基因表达模式，包括加性表达，少部分的基因表现为非加性，基因的非加性表现出非常强的发育时期特异性，与生长势密切相关；miRNA的丰度随着倍性的增加逐渐下降，新合成异源六倍体小麦中非加性表达的 miRNA也同样表现出亲本显性表达，miRNA的表达敏感性与生长势和适应性密切相关。该研究揭示了不同倍性非对等杂种优势的分子基础。［案例二］磷酸三（2,3-二氯丙基）酯（TDCPP）对四膜虫生长繁殖的抑制作用与核糖体相关诺禾携手华中农业大学,利用转录组测序和信息分析技术,研究了TDCPP处理组和对照组差异基因表达,并对差异表达基因进行KEGG通路分析,发现核糖体基因通路显著富集, 同时伴随胞浆和粗面内质网上核糖体数量减少体积增大。这些探索表明四膜虫可以作为TDCPP反应的生物指标，为后续研究TDCPP作用其他生物的毒理机制提供了新视角。［案例三］转录组揭示寄主植物与宿主之间进行RNA交换的机制参考文献菟丝子被称作勒死草，会用被称作吸根的专用器官穿透宿主组织与其建立联系，可以吸取宿主的水份与营养物质，也能吸取RNA(mRNA)分子。本研究分别选取菟丝子和拟南芥及番茄的共生体茎上的三段组织进行转录组学的研究，发现寄生植物与寄主之间mRNA的转移量很大且是一种双向转移的模式；两种宿主相比，更多的拟南芥RNA被转移到菟丝子植物之中，而且菟丝子与拟南芥之间较自由的交换，可表明调节菟丝子吸根选择性的机制可能是宿主特异性的，从而揭示了寄主与宿主之间进行RNA转移的遗传机制。 [1] Li A, Liu D, Wu J, et al . mRNA and small RNA transcriptomes reveal insights into dynamic homoeolog regulation of allopolyploid heterosis in nascent hexaploid wheat [J]. The Plant Cell, 2014: tpc. 114.124388.[2] Jing Li, John P , Giesy, Liqin Yu, et al . Effects of Tris (1,3-dichloro-2-propyl) Phosphate (TDCPP) in Tetrahymena Thermophila: Targeting the Ribosome. Scientific Reports. 2015, 5:10562. [3] Kim G, LeBlanc M L, et al . Genomic-scale exchange of mRNA between a parasitic plant and its hosts [J]. Science, 2014, 345(6198): 808-811. 图1 非加性表达miRNA与亲本显性表达miRNA的等级聚类分析和两者的关联图2 显著富集的KEGG通路图3 菟丝子与拟南芥、番茄转移RNA和非转移RNA的表达和富集分析样品要求文库类型测序策略数据量类型分析内容项目周期真核有参转录组测序真核无参转录组测序 6 Gb、8 Gb、10 Gb、12 Gb clean data 6 M clean reads 3 Gb clean data 项目数据至少12 Gb clean data 数字基因表达谱（DGE） HiSeq PE150 HiSeq PE150 HiSeq SE50HiSeq PE125普通转录组文库；链特异性转录组文库 40天50天30天 35天（有参）45天（无参） RNA样品总量≥1.5 μg； RNA样品浓度≥50 ng/μL 参考基因组比对新转录本预测可变剪切分析SNP/InDel分析基因表达水平分析RNA-seq整体质量评估转录因子注释GO/KEGG富集分析蛋白互作网络分析基因共表达网络构建可视化结果展示参考转录组拼接转录本/Unigene长度统计基因功能注释NR，NT，Swiss Prot GO，KEGG，KOG Protein Family CDS预测分析SNP/SSR分析

高通量基因组测序中测序深度,覆盖度

高通量基因组测序中，什么是测序深度和覆盖度？ 1G=1024M 测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M，测序深度为10X，那么获得的总数据量为20M。(测序深度=总数据量20M/基因组大小2M=10X) 覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖有所的区域，这部分没有获得的区域就称为Gap。例如一个细菌基因组测序，覆盖度是98%，那么还有2%的序列区域是没有通过测序获得的。 1、全基因组重测序是对已知基因组序列的物种进行不同个体的基因序的个体，通过序列比对，可以找到大量的单核苷酸多态性位点(SNP)，插入缺失位点(InDel，Insertion/Deletion)、结构变异位点(SV，技术路线提取基因组DNA，利用Covaris进行随机打断，电泳回收所需长度的DNA片段(0.2~5Kb)，加上接头, 进行cluster制备(Solexa)或E-PCR (SOLiD)，最后利用Paired-End(Solexa)或者Mate-Pair(SOLiD)的方法对插入片段进行重测序。图1-1，以SOLiD为例，说明整个实验方案。

也称目标外显子组捕获，是指利用序列捕获技术将全基因组外显子区域DNA 捕捉并富集后进行高通量测序的基因组分析方法。是一种选择基因组的编码序列的高效策略，外显子测序相对于基因组重测序成本较低，对研究已知基因的SNP、Indel 等具有较大的优势。外显子(expressed region)是真核生物基因的一部分，它在剪接(Splicing)后仍会被保存下来，并可在蛋白质生物合成过程中被表达为蛋白质。外显子是最后出现在成熟RNA中的基因序列，又称表达序列。既存在于最初的转录产物中，也存在于成熟的RNA分子中的核苷酸序列。在人类基因中大约有180,000外显子，占人类基因组的1%，约30MB。

群体进化-基于全基因组重测序

DNA样品总量: ≥3 μg 适用范围样品要求文库类型测序策略与深度分析内容项目周期群体进化（基于全基因组重测序）标准分析时间为120天，个性化分析需根据项目实际情况进行评估 HiSeq PE150推荐测序深度≥5X/个体350 bp小片段DNA文库 1. 已有参考基因组序列的物种中不同亚群（自然群体） 2. 各亚群间划分明显，同一亚群内的个体有一定代表性 3. 每个亚群选取10个样本左右（推荐动物≥10个，植物≥15个） 4. 总体不少于30个样本与参考基因组比对群体SNP检测、注释及统计系统进化树构建群体遗传结构分析群体主成分分析连锁不平衡分析选择消除分析候选基因GO和KEGG富集构建单体型图谱种群历史和有效群体大小技术参数针对已有参考基因组的物种，对其各亚种进行全基因组重测序获得基因组信息，通过与参考基因组比对，得到大量高准确性的SNP、InDel、SV等变异信息，讨论群体的遗传结构、遗传平衡和影响遗传平衡的因素，从而从分子层面揭示该物种的进化机制、环境适应性等系列问题。该技术能精准地得到全基因组内所有遗传信息，最大程度地挖掘出群体内遗传变异。诺禾具有丰富的群体遗传学项目经验，研究成果发表于Nature Genetics（Li, M, et al. 2013& Zhou, XM, et al. 2014）等。参考文献 [1] Li M, Tian S, Jin L, et al . Genomic analyses identify distinct patterns of selection in domesticated pigs and Tibetan wild boars [J]. Nature genetics, 2013, 45(12): 1431-1438. [2] Zhan S, Zhang W, Niitepo ～ld K, et al . The genetics of monarch butterfly migration and warning colouration [J]. Nature, 2014.案例解析［案例一］家猪和藏猪的群体进化分析[1] 2013年，诺禾致源科技服务团队与四川农业大学研究者合作发表该成果。本研究对6个代表性藏猪群体、5个四川盆地特有猪种，共48个样本进行全基因组重测序，并结合55个欧亚野猪及家猪的基因组数据进行群体遗传学分析。在藏猪中鉴定出低氧适应、能量代谢等共268个适应高原环境的快速进化基因，揭示了藏猪高原适应性的遗传机制。与自然选择相比，人工选择可更有效地塑造驯养动物基因组；欧亚猪种存在明显的遗传背景差异，欧亚地理隔离造成的遗传结构差异甚至超过了野生和驯化的差异。［案例二］帝王蝶长距离迁飞遗传机制被解密[2] 北美地区的帝王蝶具有迁飞习性，而分布于热带地区的帝王蝶及其近缘种不具有迁飞特性。该研究从涵盖当今世界上主要的帝王蝶分布区域中，选取了包括迁飞型和非迁飞型的22个地理种群、 5个近缘种的101只班蝶属蝴蝶进行了全基因组重测序和群体遗传学分析。结果表明，现存的帝王蝶起源于北美地区，且祖先属于迁飞型，打破了先前认为包括鸟类等在内的迁飞物种均是热带起源的普遍认知。其次，利用群体遗传学分析对全基因组进行精细扫描发现，与飞行相关的肌肉发育进化是帝王蝶实现长距离迁飞的主要适应性选择。图1 藏猪及其它猪种的群体遗传结构图2 帝王蝶样本分布及系统进化树

华大转录组测序内部培训资料

（内部资料，请勿外传）动植物转录组（Transcriptome ）产品说明书科技服务体系动植物研究方向

版本信息： 2011年07月08日

目录 1产品概述 (1) 1.1 什么是转录组测序 (1) 1.2 转录组测序的产品功能 (1) 1.3 转录组测序产品优势 (1) 1.4 转录组测序产品发展史 (1) 1.5 项目执行时间 (3) 1.6 产品交付结果 (3) 2转录组测序研究方法 (4) 2.1 产品策略 (4) 2.2 样品准备 (5) 2.2.1 RNA样品要求 (5) 2.2.2 RNA样品送样标准 (6) 2.2.3 RNA提取的组织用量建议 (6) 2.3 样品运输要求 (7) 2.3.1 样品包装 (7) 2.3.2 样品标识 (8) 2.3.3 样品运输条件 (8) 2.4 文库的构建及测序 (9) 2.4.1 实验流程 (9) 2.4.2 测序及数据处理 (10) 2.5 转录组生物信息学分析 (10) 2.5.1 没有参考序列的转录组De novo (10) 2.5.2 有参考序列的转录组Re-sequencing (18) 2.5.3 参考文献 (24) 3成功案例 (25)

3.1 华大成功案例 (25) 3.2 相关文献解读 (26)

1产品概述 1.1什么是转录组测序？转录组测序的研究对象为特定细胞在某一功能状态下所能转录出来的所有RNA的总和，包括mRNA和非编码RNA。转录组测序是指用新一代高通量测序技术对物种或者组织的转录本进行测序并得到相关的转录本信息。 1.2转录组测序的产品功能 1.获得物种或者组织的转录本信息； 2.得到转录本上基因的相关信息，如：基因结构，功能等； 3.发现新的基因； 4.基因结构优化； 5.发现可变剪切； 6.发现基因融合； 7.基因表达差异分析。 1.3转录组测序产品优势覆盖度高：检测信号是数字信号，几乎覆盖所有转录本；检测精度高：几十到数十万个拷贝精确计数；分辨率高：可以检测到单碱基差异，基因家族中相似基因及可变剪切造成的不同转录本的表达；完成速度快：整个项目周期只需要50个工作日时间；成本低：基本上每个实验室可以承担相关研究经费。 1.4转录组测序产品发展史转录组的研究手段大体包括：EST序列构建及研究，芯片研究，运用第二代测序技术研究等。EST是从一个随机选择的cDNA 克隆进行5’端和3’端单一次sanger测序获得的短的cDNA 部分序列,代表一个完整基因的一小部分,在

RNA-Seq项目常见问题与解答

RNA-Seq项目常见问题与解答这两年随着测序成本的下降和转录组研究的日渐火热，RNA-seq俨然已经成为了分子生物学课题组推进项目的首选方向。在我们接触的转录组项目中，有些老师对项目分析结果存在或多或少不清楚或有疑惑的地方。那么春天来了，花儿开了，今天福利也到了，我们特意将转录组项目中常见的一些问题进行了汇总，各位老师可以按需自取哈。 1．如何判定生物学重复一致性的高低？生物学重复统计方法及公式答：（1）皮尔逊相关系数r可以作为生物学重复相关性的评估指标，理想的生物学重复试验r2≧0.92。考虑到个体差异、取材环境、时间以及人员操作熟练程度等因素对测序数据的影响，一般r2≧0.8为可接受范围。（2）Pearson（皮尔逊）相关系数：皮尔逊相关也称为积差相关（或积矩相关）是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。 2．DEG基因用Transcripts还是Unigenes？答：DEG基因用的是Unigene。 3．transcript-id代表什么意思？为什么有的基因有多个transcript-id？答：基因转录本id；因为可变剪切的缘故，一个基因可能有多个转录本。 4．在miRNA鉴定中，可能成为miRNA的reads是怎样计算的？哪些条件会影响到mrd值？micro RNA在不同组织有异构体的存在，是如何处理的？答：与 Rfam， miRbase， RepBase和 Exon\Intro 序列库进行比对，获得 sRNA 注释信息，以此作为预测新的 miRNA 的基础。 miRNA的鉴定是利用miRDeep2软件进行已知及新（保守及非保守）的miRNA鉴定。miDeep2会在reads比对到基因组上的位置两端分别延伸75、15bp进行结构预测，此软件认为极可能与可能是miRNA的根据是通过mrd值来区分的，mrd>-10为可能，mrd>0为极可能；影响mrd值的有reads在基因组上的分布和碱基结合的自由能等； 5．对于有生物学重复的项目，怎样计算差异基因？答：两两比对使用的是R的EBseq包, 是基于负二项分布检验的方式对reads数进行差异显著性检验，重复间的比对使用的是R的DEseq包，是基于分层贝叶斯模型的原理对组合内样品进行分析。 6．外显子，内含子及基因间区各自的比例如何评估建库情况？答：理论上，来自成熟mRNA的reads应该比对到外显子区。但是，由于基因组注释水平、可变剪切导致的内含子序列保存，以及很多RNA（比如lncRNA）就来自基因间区和内含子，因此有比对到内含子和基因间区的reads。受物种等的影响外显子所占比例不同，一般情况下外显子区域所占比例超过70%即比较理想。

转录组测序RNA-seq技术转录组是某个物种或者特定细胞类型产生

转录组测序（RNA-seq）技术转录组是某个物种或者特定细胞类型产生的所有转录本的集合。转录组研究能够从整体水平研究基因功能以及基因结构，揭示特定生物学过程以及疾病发生过程中的分子机理，已广泛应用于基础研究、临床诊断和药物研发等领域。基于Illumina高通量测序平台的转录组测序技术使能够在单核苷酸水平对任意物种的整体转录活动进行检测，在分析转录本的结构和表达水平的同时，还能发现未知转录本和稀有转录本，精确地识别可变剪切位点以及cSNP（编码序列单核苷酸多态性），提供最全面的转录组信息。相对于传统的芯片杂交平台，转录组测序无需预先针对已知序列设计探针，即可对任意物种的整体转录活动进行检测，提供更精确的数字化信号，更高的检测通量以及更广泛的检测范围，是目前深入研究转录组复杂性的强大工具。技术优势：数字化信号：直接测定每个转录本片段序列，单核苷酸分辨率的精确度，同时不存在传统微阵列杂交的荧光模拟信号带来的交叉反应和背景噪音问题。高灵敏度：能够检测到细胞中少至几个拷贝的稀有转录本。任意物种的全基因组分析：无需预先设计特异性探针，因此无需了解物种基因信息，能够直接对任何物种进行转录组分析。同时能够检测未知基因，发现新的转录本，并精确地识别可变剪切位点及cSNP，UTR区域。更广的检测范围：高于6个数量级的动态检测范围，能够同时鉴定和定量稀有转录本和正常转录本。应用领域：转录本结构研究（基因边界鉴定、可变剪切研究等），转录本变异研究（如基因融合、编码区SNP研究），非编码区域功能研究（Non-coding RNA研究、microRNA前体研究等），基因表达水平研究以及全新转录本发现。图1 RNA-seq获得的数据能够进行全面的数据挖掘，既能够进行基因结构分析，鉴定UTR、可变剪切位点，也能够发现新的转录本及非编码RNA，比较样本间的表达水平差异

RNA产品线常见问题汇总

RNA线常见问题汇总 Q:1、如何确定研究物种有无参考基因组？ A:根据研究物种的拉丁文名,可在Ensembl （https://www.doczj.com/doc/5a18803033.html,/index.html）、JGI(https://www.doczj.com/doc/5a18803033.html,/) NCBI(https://www.doczj.com/doc/5a18803033.html,/)中搜索是否有该物种的基因组信息，也可在其他专门介绍某种物种的网站寻找参考基因组。一般下载的文件包括：Assembled scaffolds(masked)、Genes、Functional Annotations三种文件；需要下载的文件具体如下： 1）序列信息：.fasta文件，用于进行mapping比对。 2)基因注释信息：.gff文件，里面包含基因名字，基因所在位置等信息，用于进行测得序列的基因注释，注释所得基因可以进行下一步表达差异分析。 3)GO注释信息：.txt文件，里面包含基因名字和对应注释信息编号（GO号），有此信息可以不用再重新进行GO注释，直接利用此信息进行GO富集分析。Q:2、送样要求？ A:1)组织样品动物组织：＞2g；植物组织：＞4g；培养细胞：＞1×107个；血液样品：≥2ml（最好是全血） 2)真核生物RNA 请提供浓度≥200ng/μL，总量≥10μg的RNA（单次建库用量为5μg）；OD260/2801.8~2.2之间，OD260/230≥2.0，RIN≥6.5，28S:18S≥1.0，确保RNA无降解；送样时请标记清楚样品编号，管口使用Parafilm膜密封；样品保存期间切忌反复冻融；送样时请使用干冰运输。

3)原核生物RNA 请提供浓度≥200ng/μL，总量≥10μg的RNA（单次建库用量为5μg）； OD260/280介于1.8~2.2之间，OD260/230≥2.0，RIN≥6.5，23S:16S≥1.0，确保RNA无降解；送样时请标记清楚样品编号，管口使用Parafilm膜密封；样品保存期间切忌反复冻融；送样时请使用干冰运输。 Q:3是否一定要求设置生物学重复，以及重复次数？目前没有生物学重复的实验发文章比较困难，尤其是IF≥5的杂志。如果确实受限于研究经费，无法设置生物学重复。文章投出之后，遭编辑质疑。那就得结合强有力的实验数据做支撑，比如定量实验，FISH荧光原位杂交，或者是northern 杂交等，用实验数据说服编辑。重复设置原则上越多越好，然而考虑到现实条件，重复设置≥3。一般不建议设置两个重复，因为如果两者结果不一致，我们无法确定以哪个数据为参考。注：3个生物学重复，不等同于将3个样品的RNA等量混合后测序。3个样品等量混合测序，相当于将3个样本的基因表达量取了平均值，其实就是相当于取了一个样本，由此得到的差异基因同样不可信，不能反应群体生物学现象。Q:4isogene与"unigenes"有什么区别？ Isogene是Trinity拼接软件得到的转录本，真核生物存在可变剪切，因此一个基因可能对应多个转录本。而Unigenes是组装得到的转录本中，最长的一条。Q:5为什么分析到的差异表达基因与Q-PCR实验结果不一致，无法被验证？RNA-seq是大规模筛选用的，反应样本整体的基因表达变化趋势，但不能保证每一个基因的变化趋势都与Q-PCR一致。RNA-seq与RT-PCR本身就是两种

转录组测序问题集锦

转录组测序问题集锦转录组是某个物种或者特定细胞类型产生的所有转录本的集合，转录组测序(RNA-seq) 是最近发展起来的利用深度测序技术进行转录分析的方法,可以对全转录组进行系统的研究。 Roche GS FLX Titanium 、Illumina Solexa GA IIx和AB SOLID 4均可以对转录组进行测序， Roche GS FLX Titanium与Illumina Solexa GA IIx和AB SOLID 4相比，拥有更长的读长和较小的数据量，适用于表达量较高基因的RNA 全长测序。但是对低表达丰度的基因，可能需要多次测序才能得到足够的数据，成本比较高，而Illumina Solexa GA IIx和AB SOLID 4数据读取量大，能够得到较高的覆盖率，可以较好的降低成本。若是位置基因组序列的物种，则Roche GS FLX Titanium测序更有优势，其较长的读长便于拼接，获得更好的转录本数据。转录组测序可以供研究者在转录本结构研究（基因边界鉴定、可变剪切研究等），转录本变异研究（如基因融合、编码区 SNP研究），非编码区域功能研究（Non-coding RNA研究、miRNA前体研究等），基因表达水平研究以及全新转录本发现等方面进行深入研究。研究转录组的方法有哪些？目前研究转录组的方法主要三种，基于杂交技术的cDNA芯片和寡聚核苷酸芯片，基于sanger测序法的SAGE (serial analysis of gene expression)、LongSAGE和MPSS(massively parallel signature sequencing)，基于第二代测序技术的转录组测序，又称为RNA-Seq。转录组测序比其他研究方法有哪些优势? （1）可以直接测定每个转录本片段序列、单核苷酸分辨率的准确度，同时不存在传统微阵列杂交的荧光模拟信号带来的交叉反应和背景噪音问题；（2）灵敏度高，可以检测细胞中少至几个拷贝的稀有转录本；（3）可以对任意物种进行全基因组分析，无需预先设计特异性探针，因此无需了解物种基因信息，能够直接对任何物种进行转录组分析，同时能够检测未知基因，发现新的转录本，并准确地识别可变剪切位点及cSNP，UTR区域。（4）检测范围广，高于6个数量级的动态检测范围，能够同时鉴定和定量稀有转录本和正常转录本。转录组测序有什么样的样品要求？（1）样品纯度要求： OD值应在1.8至2.2之间；电泳检测28S:18S至少大于1.8。（2）样品浓度： total RNA浓度不低于400 ng/μg。

基于全基因组重测序获得的具LRR结构域基因的抗黄瓜白粉病功能鉴定

基于全基因组重测序获得的具LRR结构域基因的抗黄瓜白粉病功能鉴定黄瓜白粉病是黄瓜(CucumissativusL.)生产上的三大主要病害之一,发病时不但降低植株的光合效能,同时影响植株产量和果实品质,发病严重时常常引起30%左右的减产。黄瓜抗白粉病新品种选育及应用是克服白粉病危害的根本技术途径。基于基因组测序技术和生物信息学的方法探究抗病基因已成为可能。本研究利用高通量Illumina测序技术,对实验室多年筛选获得的一个具有高抗白粉病且能稳定遗传的片段代换系SSL508-28和高感白粉病受体亲本D8进行了全基因组重测序,对比黄瓜9930参考基因组信息,在SSL508-28中发现了 468,616 个单核苷酸多态性位点(single nucleotide polymorphisms,SNPs)和 67,259小片段插入缺失位点(insertion/deletion,InDel),在D8 中获得了 537,352 个 SNPs 和 91,698个InDels。通过对比SSL508-28与D8基因组,共得到了 15,682个SNPs和6,262个InDels,这些SNPs和InDels趋向于集中分布在五号染色体上。基于以上结果,我们对获得的SNPs和InDels进行了功能注释,发现有120个SNPs为非同义(non-synonymous)突变,30个InDels为移码突变(frameshift mutation),这些非同义突变SNPs和移码突变InDels分布在94个基因当中。为了进一步验证94个突变基因对SSL508-28抗白粉病表型的贡献,我们对这94个基因进行了功能分类,其中有5个基因属于抗病(resistance,R)基因家族中NBS-LRR(Nucleotide binding site-leucine-rich repeats)类,利用 qRT-PCR 对这 5 个NBS-LRR基因在D8和SSL508-28中接种白粉菌前后的表达量进行检测,

文档之家