基因组学 第十章 计算表观遗传学

  • 格式:docx
  • 大小:365.54 KB
  • 文档页数:5

下载文档原格式

  / 11
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第十章计算表观遗传学

第一节

表观遗传学是研究不涉及DNA序列改变的情况下,DNA甲基化谱、染色质结构状态和基因表达谱在细胞代间传递的遗传现象的一门科学。

计算表观遗传学:应用及开发生物信息学方法(统计分析,模式识别等)解决生物医学相关的表观遗传学问题。

第二节基因组的DNA甲基化

一、CpG岛的DNA甲基化调控基因表达

1、DNA甲基化与CpG岛

DNA甲基化是一种发生在DNA序列上的化学修饰,可以在转录及细胞分裂前后被稳定地遗传。DNA甲基化是重要的表观遗传代码。参与酶:甲基化维持酶和从头甲基化酶

CpG岛:见P78,下同

2、DNA甲基化对转录的调控

1. DNA甲基化阻碍转录因子的结合

2. DNA甲基化识别染色质标记

3. DNA甲基化募集其他蛋白引起染色质沉默

4. DNA甲基化影响核小体定位

3、DNA甲基化的意义:

DNA甲基化与重复元件沉默

DNA甲基化与染色体的选择性沉默

DNA甲基化与基因的组织特异表达

二、基因组CpG岛识别方法

三、实验检测技术测定DNA甲基化状态

DNA甲基化的检测方法见P79

1.限制性内切酶法

2.重亚硫酸钠法

3. 亲和纯化

**预测方法

基因组范围高通量的DNA甲基化检测方法

高通量测序是最新发展起来的但却是最有前途的全基因组DNA甲基化分析方法。高通量测序技术的出现,使得产生大量序列信息的时间和成本均要低于桑格法。

目前,两种高通量的测序平台最为流行:一种是454生命科学公司开发的焦磷酸测序方法,另外一种是Illumina前身的Solexa开发的基于荧光核苷酸的系统。

四、异常DNA甲基化特征识别

第三节组蛋白修饰的表观基因组

一、组蛋白密码是重要表观遗传标记之一

(一)核小体与组蛋白修饰

组蛋白乙酰化主要促使基因表达和DNA复制,使组蛋白乙酰化定位的基因得到动态的调控。组蛋白去乙酰化则使基因沉默。

组蛋白的磷酸化可以改变组蛋白的电荷,对基因转录、DNA修复和染色质凝聚等过程起调控作用。

组蛋白的泛素化可以降解组蛋白的泛素标记,启动基因表达。

(二)激活性和抑制性的组蛋白修饰

根据对基因起到激活还是抑制作用,组蛋白修饰可以大致分为两类:激活性的组蛋白修饰和抑制性的组蛋白修饰。

激活性的组蛋白修饰中最常见的是H3K4me。

抑制性的组蛋白修饰中最常见的是H3K27me。

(三)组蛋白密码

1. 动态而又稳定的组蛋白密码

组蛋白的氨基酸残基可以接受许多种化学修饰,包括甲基化和乙酰化等修饰。质谱分析检测到组蛋白H2A有13个可以接受修饰的位点,H2B、H3和H4则分别有12个,21个和14个可以接受修饰的位点。每个氨基酸残基位点可以发生至少一种化学修饰。

2. 细胞分化过程中的组蛋白密码

组蛋白修饰的调控在许多生理过程中起到重要作用,这其中就包括细胞分化。研究发现组蛋白乙酰化对维持细胞的未分化和多能状态十分重要。使用组蛋白去乙酰酶抑制剂有助于维持干细胞的多能性(pluripotency)。

二、组蛋白修饰的高通量测定及分析技术

(一)测定组蛋白修饰的高通量技术

(二)分析基因组范围的组蛋白修饰数据

ChIP-Seq

①CisGenome(高通量组蛋白修饰分析工具)

②MACS(组蛋白修饰峰值探测)

原理:

ChIP-seq技术原理

染色质免疫共沉淀-测序技术(ChIP-seq)

是染色质免疫共沉淀与高通量测序的结合技术,ChIP-seq技术是继ChIP-chip(之后,研究蛋白质与DNA相互作用的又一技术突破。已被广泛地用于全基因组范围内测定转录因子结合位点(非组蛋白ChIP-seq)与组蛋白修饰的基因组定位(组蛋白ChIP-seq)。

(一)ChIP-seq技术流程

第1步:DNA结合蛋白和DNA发生交联,形成蛋白质-DNA交联复合物。

第2步:提取蛋白质-DNA交联复合物,将染色质随机打碎成小片段。

第3步:添加特异的抗体富集目标蛋白。

第4步:解交联,纯化DNA片段并进行DNA片段选择。

第5步:DNA片段经末端修复、接头添加与PCR扩增,完成测序文库的构建并进行测序。

二、ChIP-seq数据的处理方法

(一)reads的比对和预处理

比对

考虑到测序错误、SNPs、插入缺失或者感兴趣的基因组与参考基因组之间的差异,reads比对时允许少量的碱基错配,保留唯一匹配到参考基因组上的reads。

过滤

由于PCR扩增会产生冗余reads(duplicate reads,即多个reads具有相同的基因组定位),因此通常使用SAMtools或Picard Tools等软件将其去除。

延伸

在峰识别或信号定量及可视化之前,短序列reads需要向3′方向延伸一定长度,以确保延伸后的reads能够近似代表真实的DNA片段。ChIP-seq数据的后续分析都是基于延伸后的reads进行的。

(二)峰识别及信号定量

峰识别(peak calling):利用ChIP-seq数据识别转录因子的结合位点或者定位组蛋白修饰的富集区域;

峰类型

1)窄峰(sharp peak)

大多数转录因子和一些组蛋白修饰,ChIP-seq产生的reads分布高度集中,通常聚集在几百个碱基的窄峰中(如CTCF,H3K4me3);大部分峰识别方法都是针对该类型数据,如MACS、PeakSeq、F-seq、SISSRs和FindPeaks等

2)宽峰(broad peak)

一些组蛋白修饰富集的基因组区域是宽阔的,reads分布跨越数万个碱基的较大区域(如H3K36me3,H3K27me3);SICER、ZINBA、PeakSeq和BayesPeak等;

3)混合峰(mix peak)

窄峰和宽峰交错出现,例如RNA聚合酶II(RNA polymerase II,pol II)的结合位点。PeakSeq 和ZINBA等。

信号定量:对于给定的基因组区域,定量其ChIP-seq信号强度。ChIP-seq数据的定量常用RPKM值,RPKM值的定量方法有效地避免了测序深度对reads计数的影响,能够用于不同信号或不同样本之间信号强度的比较分析。

(三)信号可视化

可视化工具

UCSC基因组浏览器(UCSC Genome Browser):较有影响力的可视化工具之一,UCSC提供用户自定义轨道,允许用户上传本地文件进行全基因组浏览,且支持多种数据格式。

IGV(integrative genomic viewer):一个交互式的大型综合基因组数据集成可视化工具,也可用于高通量测序数据的基因组注释以及可视化。

(四)ChIP-seq数据的集成分析工具(略)

目前,针对ChIP-seq数据进行预处理、比对、峰识别以及功能刻画的集成分析工具不断涌现,比较常用的工具有:

1. CisGenome

2. ChIPseeqer

3. ChIPpeakAnno