真核基因组分析常规流程
- 格式:doc
- 大小:109.00 KB
- 文档页数:3
第七章真核生物的遗传分析重点:真核生物的基因组;真菌的遗传分析;真核生物重组的分子机制。
难点:顺序四分子分析。
第一节真核生物基因组一、C值悖论二、N值悖论三、真核生物基因组DNA的复杂度一、C值悖论基因组(genome):一个物种单倍体的染色体数目及其所携带的全部基因称为该物种的基因组。
genome -- The complete set of sequences inthe genetic material of an organism. Itincludes the sequence of each chromosomeplus any DNA in organelles.C值(C-value):是指生物体的单倍体基因组所含DNA总量。
每种生物各有其相对恒定的C值,不同物种的C值之间有很大差别。
最小的C值是支原体,小于106bp;最大的C值是某些显花植物和两栖动物,可达1011bp。
C值同生物的进化有什么关系? 生物的C值,即基因组的DNA总量是不是随着生物的进化而相应地增加?一方面,随着生物结构和功能复杂程度的增加,需要的基因数量和产物种类越多,因此C值也相应地增加。
另一方面,在结构与功能相似的同一类生物中,以及亲缘关系很近的物种之间,则看不到这种规律。
因此,物种的C值及其进化复杂性之间没有严格的对应关系,这种现象称为C值悖理(C —value paradox)。
C-value paradox:the lack of direct relationshipbetween the C value and phylogenetic complex.人们对C值悖理已经提出许多解释:包括基因组的部分或完全加倍、转座、返座已加工假基因、DNA 复制滑动、不等交换和DNA扩增等。
Petrov等又提出一个解释是:各种生物基因组的大小是由于基因组中长期积累起来的过量的非编码DNA被清除的速率不同所造成的结果,即DNA丢失的速率愈慢,那么基因组DNA含量愈高。
真核基因组分析常规流程一,二代数据质量控制二代测序数据质量控制软件FatQC分析的内容包括:测序数据的基本信息每个碱基的质量值每条read序列的质量值每条序列的ATCG组成每条序列N的含量每条序列的长度分布序列中duplication程度K-mer信息二,数据过滤过滤掉低质量值的read过滤掉接头过滤掉N含量多的read过滤掉长度过短的read过滤掉PCR重复三,组装组装软件可以根据基因组情况选择,具体方法参看软件说明。
四,组装结果评估1)将组装用read回贴到组装的基因组上,看readmappingrate来评估组装的质量可以使用bwa来比对,amtool来统计2)使用CEGMA来评估组装的完整性CEGMA(CoreEukaryoticGeneMappingApproach)iapipelineforbuildin gaetofhighreliableetofgeneannotationinvirtuallyanyeukaryoticgenome .Thetrategyrelieonaimplefact:omehighlyconervedproteinareencodedi neentiallyalleukaryoticgenome.WeuetheKOGdatabaetobuildaetoftheehighlyconervedubiquitouprotein.Wedefineaetof458coreprotein,andthe protocol,CEGMA,tofindorthologofthecoreproteininnewgenomeandtodet erminetheire某on-introntructure五,基因组注释1)重复序列注释2)基因注释3)蛋白功能注释蛋白结构注释:interprocan同源注释:wiprottremble数据库通路:kegg数据库六,进化分析1)基因家族聚类同源的蛋白质可以分为直系同源与旁系同源,当同源是基因复制的结果,两份拷贝在一个物种的历史上是平行演化的,这样的基因被称为旁系同源基因。
真核生物基因组注释的主要步骤及方法孙千代徐杰英(北京市第九中学100041)摘要本文简要介绍了真核生物基因组注释的主要内容尧步骤及方法。
关键词真核生物基因组测序注释随着基因组测序技术的不断发展以及测序成本的 不断降低,越来越多的真核生物基因组被测序。
然而,基因组序列本身只是一串串由A、T、C、G四个字母所 组成的、枯燥难懂的字符,只有当这些字符串的生物学 意义被解读了,即基因组序列被注释了,人们才能够有 效地使用基因组序列。
由此,在基因组测序完成之后,要做的第一件事就是进行基因组注释(genomeannota-tion)。
1基因组组装质量的评估由于基因组组装得好坏直接决定了基因组注释的 质量,所以在进行基因组注释之前,先要评估一下基因 组组装的质量。
目前有许多评价指标可以用来描述基 因组组装的完整性以及连续性,其中应用得最为广泛 的就是N50数值(整个基因组序列长度的50%是由长 度大于或者等于某个长度的序列所构成的,这个长度 即为N50)。
一般来说,N50越长,表示组装的结果越 好。
当一个基因组组装的N50长度大于或等于这一物 种基因的平均长度,那么表示基因组组装的质量不错,可以进行后续的注释工作。
此外,有一些软件(如 BUSC0)采用与N50指标互补的方法来评价基因组组 装的质量。
它把基因组组装后的序列与谱系特异性的 一套单拷贝基因进行对比,来确定这些单拷贝基因完 整地出现在一条序列上的百分比,借此来评价基因组 组装的完整性以及连续性。
如果一个基因组组装得不 太完整或者N50太短,则需要额外加测一些序列来提 高基因组组装的结果,以便于对基因组进行注释[1]。
2基因组重复序列的鉴定真核生物的基因组里面有着大量的重复序列。
例 如,人类的基因组里有大约47豫甚至更多的重复序列。
重复序列的存在使基因组注释复杂化,并且会使的蔬菜栽培及加工处理的校本教材,后续学生的实践 活动可以在此基础上进行或进一步完善与拓展。
真核生物基因组注释的流程真核生物基因组注释是个超级有趣又有点复杂的事儿呢!一、基因组测序。
咱得先有基因组的序列呀。
这就像是要了解一个超级神秘的宝藏,得先把宝藏从地下挖出来一样。
现在有好多超酷的测序技术,像二代测序技术,能快速地得到大量的基因组片段,就像一群小侦探,到处寻找基因的蛛丝马迹。
不过呢,这些片段是乱糟糟的,得把它们拼接起来。
这就像拼图一样,只不过这个拼图超级大,超级复杂。
二、重复序列注释。
基因组里有好多重复序列呢。
这些重复序列就像是一群调皮的小捣蛋鬼,总是在基因组里跑来跑去。
我们得先把它们找出来。
有专门的软件可以做这个事儿哦。
为啥要找它们呢?因为这些重复序列要是不管它们,会干扰我们对真正基因的寻找和理解。
比如说,它们可能会让我们以为找到了新的基因,其实只是重复序列在捣乱。
三、基因预测。
这可是个大工程呢!我们要从基因组序列里找出那些真正的基因。
这就像是在一片茂密的森林里找宝藏一样。
有两种方法哦,一种是基于同源性的预测。
就是看看这个基因和其他已经知道的基因有没有相似的地方。
就像你找朋友,要是两个人长得有点像或者性格有点像,可能就是一家人啦。
另一种是从头预测,这个就更酷啦,根据基因的一些特征,像基因的结构特点、密码子偏好性之类的来预测。
不过这两种方法都不是百分百准确的,所以有时候还得综合起来看。
四、基因功能注释。
找到了基因,还得知道它们是干啥的呀。
这就像知道了一个人的名字,还得知道他的职业一样。
我们会用各种数据库,像KEGG啦,GO啦。
把我们预测出来的基因和数据库里的信息比对。
如果我们找到一个基因和数据库里某个有功能的基因很相似,那这个基因可能就有类似的功能啦。
这就像在一个大的人才库里找跟你有相同技能的人,然后参考他的工作内容来推测你的工作内容一样。
五、非编码RNA注释。
基因组里还有好多非编码RNA呢。
它们虽然不编码蛋白质,但是作用可大啦。
我们也要把它们找出来并且注释。
这就像是在宝藏里发现了一些特别的宝石,虽然不是金子,但是也很珍贵。
实验⼀、真核⽣物基因组DNA的提取和含量测定实验报告课程名称:分⼦医学实验指导⽼师:_ ________成绩:__________________实验名称:真核⽣物基因组DNA的提取和含量测定组别:_ __同组学⽣姓名:①原理(Principle);②操作步骤(Operational procedure);③实验结果(Results):包括照⽚、原始数据、计算过程及图表等;④讨论(Discussion):对实验⽅法,实验结果和异常现象进⾏探讨和评论,以及对于实验设计的认识、体会和建议。
⼀、实验原理真核⽣物基因组DNA 的提取原理本实验选⽤⼩⿏肝脏细胞作为实验材料,采⽤匀浆法破碎组织细胞。
DNP 在0.14mol/L NaCl 中不溶解,⽽RNP 可溶解。
⽤⽆菌⽔溶解沉淀,加⼊蛋⽩酶消化液(含有蛋⽩酶K 和SDS)。
1、温和⽅法的破碎细胞⽽不产⽣机械剪切以致破坏DNA 的完整性,2、可以变性Dnase,3、还可以去除部分的蛋⽩。
4、使核蛋⽩体从DNA 上解离。
然后加RNase 以去除RNA,再⽤苯酚:氯仿抽提法反复抽提提取DNA 苯酚:氯仿抽提法:酚、氯仿是有机溶剂,能有效地使蛋⽩质变性。
纯酚在与⽔混合时处于下层。
然⽽有机相和⽔相会难于分开。
若使⽤酚:氯仿混合物抽提,由于氯仿的⽐重较⼤(1.47),可在很⼤程度上解决这个问题,促进两相的分离。
异戊醇则可减少操作过程中产⽣的⽓泡。
变性蛋⽩⼀般集中在两相之间的界⾯层,⽽脂类则有效地分配在有机相中,核酸则被留于上层⽔相。
该法其具有操作条件⽐较温和,能迅速使蛋⽩质变性并同时抑制核酸酶的活性,可得到具有⽣物活性的⾼聚合度的核酸等优点。
但其操作步骤较为繁琐,去除蛋⽩质需要反复进⾏多次。
砷盐、氟化物、柠檬酸、EDTA 等可抑制DNase 的活性;皂⼟等可抑制RNase 的活性。
收集上清液后⽤⼄醇沉淀DNA,最后⽤TE 缓冲液溶解DNA,并⽤紫外吸收法测定DNA 的含量及纯度。
真核基因组分析常规流程
一,二代数据质量控制
二代测序数据质量控制软件FastQC
分析的内容包括:
测序数据的基本信息
每个碱基的质量值
每条reads序列的质量值
每条序列的A TCG组成
每条序列N的含量
每条序列的长度分布
序列中duplication程度
K-mer信息
二,软件信息:数据过滤
过滤掉低质量值的reads
过滤掉接头
过滤掉N含量多的reads
过滤掉长度过短的reads
过滤掉PCR重复
三,组装
组装软件可以根据基因组情况选择,具体方法参看软件说明。
四,组装结果评估
1)将组装用reads回贴到组装的基因组上,看reads mapping rate 来评估组装的质量可以使用bwa来比对,samtools来统计
2)使用CEGMA来评估组装的完整性
CEGMA (Core Eukaryotic Genes Mapping Approach) is a pipeline for building a set of high reliable set of gene annotations in virtually any eukaryotic genome. The strategy relies on a simple fact: some highly conserved proteins are encoded in essentially all eukaryotic genomes. We use the KOGs database to build a set of these highly conserved ubiquitous proteins. We define a set of 458 core proteins, and the protocol, CEGMA, to find orthologs of the core proteins in new genomes and to determine their exon-intron structures
五,基因组注释
1)重复序列注释
2)基因注释
3)蛋白功能注释
蛋白结构注释:interproscan
同源注释:swissprot tremble 数据库
通路:kegg数据库
六,进化分析
1)基因家族聚类
同源的蛋白质可以分为直系同源与旁系同源,当同源是基因复制的结果,两份拷贝在一个物种的历史上是平行演化的,这样的基因被称为旁系同源基因。
当同源是物种形成的结果,基因的历史反映了物种的历史,被称为直系同源;直系同源是不同物种内的同源序列,他们是来自于物种形成时的共同祖先基因;通常认为直系同源的序列具有相似的生物学功能;
使用OrthoMCL聚类
2)系统发育树构建
选取所有物种的单拷贝同源基因,分别进行比对,连成一个super gene,提取四倍简并位点构建系统树
3)分歧时间计算
使用PAML mcmctree 计算分歧时间
利用里面的时间进行校对
4)4dtv距离分布计算
使用mcsan寻找共线性基因对,计算共线性基因对的4dtv距离,作出分布图。
5)Ks 分布计算
流程的功能
1,检测物种(植物)是否有过近期全基因组复制或者大规模复制事件。
2,估计该物种全基因组复制的时间范围。
流程实现
1,根据基因家族聚类的结果找到每个家族的每条基因
2,根据BLASTP 结果找串联重复基因家族(基因间插入数小于20 视为串联)3,对每个基因家族的序列做muscle 比对
4,转换成cds 的phylip 格式
5,使用PAML 中的yn00 计算基因家族中序列俩俩的Ks 值
6,去掉大于2 的Ks 值取中位或者平均值来代表这个基因家族每个copy 的Ks (若该基因家族有N 个基因,则发生过N-1 次复制)
7,以每为单位加和这个区间的Ks
8,作图分布图
6)共线性分析
Mcscan的结果,过滤后做点图或用circos作图
7)正选择
利用blastall找到两两比对的best hit,利用lastz比对gene pair, 输入kaks_calculator 计算ka/ks。