当前位置：文档之家› 全基因组范围内SNP关联分析(GWAS)技术

全基因组范围内SNP关联分析(GWAS)技术

全基因组关联分析的原理和方法

全基因组关联分析(Genome-wide association study;GWAS)是应用基因组中数以百万计的单核苷酸多态性(single nucleotide ploymorphism ，SNP)为分子遗传标记，进行全基因组水平上的对照分析或相关性分析，通过比较发现影响复杂性状的基因变异的一种新策略。随着基因组学研究以及基因芯片技术的发展，人们已通过GWAS方法发现并鉴定了大量与复杂性状相关联的遗传变异。近年来，这种方法在农业动物重要经济性状主效基因的筛查和鉴定中得到了应用。全基因组关联方法首先在人类医学领域的研究中得到了极大的重视和应用，尤其是其在复杂疾病研究领域中的应用，使许多重要的复杂疾病的研究取得了突破性进展，因而，全基因组关联分析研究方法的设计原理得到重视。人类的疾病分为单基因疾病和复杂性疾病。单基因疾病是指由于单个基因的突变导致的疾病，通过家系连锁分析的定位克隆方法，人们已发现了囊性纤维化、亨廷顿病等大量单基因疾病的致病基因，这些单基因的突变改变了相应的编码蛋白氨基酸序列或者产量，从而产生了符合孟德尔遗传方式的疾病表型。复杂性疾病是指由于遗传和环境因素的共同作用引起的疾病。目前已经鉴定出的与人类复杂性疾病相关联的SNP位点有439 个。全基因组关联分析技术的重大革新及其应用，极大地推动了基因组医学的发展。(2005年, Science 杂志首次报道了年龄相关性视网膜黄斑变性GWAS结果,在医学界和遗传学界引起了极大的轰动, 此后一系列GWAS陆续展开。2006 年, 波士顿大学医学院联合哈佛大学等多个研究机构报道了基于佛明翰心脏研究样本关于肥胖的GWAS结果(Herbert 等. 2006);2007 年, Saxena 等多个研究组联合报道了与2 型糖尿病( T2D ) 关联的多个位点, Samani 等则发表了冠心病GWAS结果( Samani 等. 2007); 2008 年, Barrett 等通过GWAS发现了30 个与克罗恩病( Crohns ' disrease) 相关的易感位点; 2009 年, W e is s 等通过GWAS发现了与具有高度遗传性的神经发育疾病——自闭症关联的染色体区域。我国学者则通过对12 000 多名汉族系统性红斑狼疮患者以及健康对照者的GWAS发现了5 个红斑狼疮易感基因, 并确定了4 个新的易感位点( Han 等. 2009) 。截至2009 年10 月, 已经陆续报道了关于人类身高、体重、血压等主要性状, 以及视网膜黄斑、乳腺癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分裂症、风湿性关节炎等几十种威胁人类健康的常见疾病的GWAS结果, 累计发表了近万篇论文, 确定了一系列疾病发病的致病基因、相关基因、易感区域和SNP变异。) 标记基因的选择： 1)Hap Map是展示人类常见遗传变异的一个图谱, 第1 阶段完成后提供了 4 个人类种族[ Yoruban ,Northern and Western European , and Asian ( Chinese and Japanese) ] 共269 个个体基因组, 超过100 万个SNP( 约1

全基因组关联分析(GWAS)解决方案

全基因组关联分析(GWAS)解决方案 ※ 概述全基因组关联研究（Genome-wide association study，GWAS）是用来检测全基因组范围的遗传变异与可观测的性状之间的遗传关联的一种策略。2005年，Science杂志报道了第一篇GWAS研究——年龄相关性黄斑变性，之后陆续出现了有关冠心病、肥胖、2型糖尿病、甘油三酯、精神分裂症等的研究报道。截至2010年底，单是在人类上就有1212篇GWAS文章被发表，涉及210个性状。GWAS主要基于共变法的思想，该方法是人类进行科学思维和实践的最重要工具之一；统计学研究也表明，GWAS很长时期内都将处于蓬勃发展期（如下图所示）。基因型数据和表型数据的获得，随着诸多新技术的发展变得日益海量、廉价、快捷、准确和全面：如 Affymetrix和Illumina公司的SNP基因分型芯片已经可以达到2M的标记密度；便携式电子器械将产生海量的表型数据；新一代测序技术的迅猛发展，将催生更高通量、更多类别的基因型，以及不同类别的高通量表型。基于此，我们推出GWAS的完整解决方案，协助您一起探索生物奥秘。 ※ 实验技术流程 ※ 基于芯片的GWAS Affymetrix公司针对人类全基因组SNP检测推出多个版本检测芯片，2007年5月份，Affymetrix公司发布了人全基因组SNP 6.0芯片，包含90多万个用于单核苷酸多态性（SNP）检测探针和更多数量的用于拷贝数变化（CNV）检测的非多态性探针。因此这种芯片可检测超过180万个位点基因组序列变异，即可用于全基因组 SNP分析，又可用于CNV分析，真正实现了一种芯片两种用途，方便研究者挖掘基因组序列变异信息。 Illumina激光共聚焦微珠芯片平台为全世界的科研用户提供了最为先进的SNP（单核苷酸多态性）研究平台。Illumina的SNP芯片有两类，一类是基于infinium技术的全基因组SNP检测芯片（Infinium? Whole Genome Genotyping），适用于全基因组SNP分型研究及基因拷贝数变化研究，一张芯片检测几十万标签SNP位点，提供大规模疾病基因扫描(Hap660,1M)。另一类是基于GoldenGate?特定SNP位点检测芯片，根据研究需要挑选SNP位点制作成芯片(48-1536位点)，是复杂疾病基因定位的最佳工具。罗氏NimbleGen根据人类基因组序列信息设计的2.1M超高密度CGH芯片，可以在1.1Kb分辨率下完成全基因组检测，可有效检测人基因组中低至约5kb大小的拷贝数变异。

全基因组关联分析

全基因组关联分析（Genome-wide association study,GWAS) 是一种对全基因组范围内的常见遗传变异: 单核苷酸多态性(Single nucleotide polymorphism , SNP) 进行总体关联分析的方法, 即在全基因组范围内选择遗传变异进行基因分型, 比较病例和对照间每个变异频率的异差, 计算变异与疾病的关联强度, 选出最相关的变异进行验证并最终确认与疾病相关。单核苷酸多态性（英语：Single Nucleotide Polymorphism，简称SNP，读作/snip/）指的是由单个核苷酸—A,T,C或G的改变而引起的DNA序列的改变，造成包括人类在内的物种之间染色体基因组的多样性。在后GWAS时代，利用已有的GWAS数据在多个人群间进行meta分析已经成为一种常用的分析手段，这不仅可以进一步扩大样本量，更重要的是提高了统计效能。GWAS meta分析已经成功应该用在多种复杂疾病的遗传学研究，发现一批新的易感基因。全基因组关联水平（P_meta < 5.0×10-8）罕见等位基因（MAF < 5％），基因型填补（imputation）：依据已分型位点的基因型对数据缺失位点或未分型位点进行基因型预测的方法。可用于精细定位（fine-mapping），填补已确认的关联位点附近的位点，以便评价相邻SNP位点的关联证据。加快复杂性疾病易感基因的定位。连锁与连锁不平衡（linkage disequilibrium,LD）: 连锁：如果同一条染色体上2个位点的位置比较近，则这2个位点上的等位基因倾向于一起传递给下一代。连锁不平衡：又称等位基因关联，是指同一条染色体上，两个等位基因间的非随机相关。即当位于同一条染色体上的两个等位基因同时存在的概率大于人群中因随机分布而同时出现的概率时，就称这两个位点处于LD状态。所谓的连锁不平衡是一种遗传标记的非随机性组合。比如，一个基因有两个位点，一个位点有两种基因型，那么子代应该有2的2次方，即4种基因型。但是发现子代的基因型往往会少于4种，这就是连锁不平衡现象。这是由于两个位点距离较近引起的两个位点上的等位基因经常同时出现在同一染色体上。

基于全基因组关联分析的基因(环境)交互作用统计学方法进展

万方数据

７０８图ｌＭＤＲ基本步骤示意图划分为不同的分类，也就是图中的单元格。单元格中左侧直方图表示病例，右侧直方图表示对照。第４步：在ｎ维的每个多因子分类（单元格）中，计算病例数和对照数的比值，若病例数与对照数之比达到或超过某个阈值（例如≥１），则标为高危，反之则为低危。这样就把ｎ维的结构降低到一维两水平。第５步：多因子分类的集合中包含了ＭＤＲ模型中各因子的组合。在所有的两因子组合中，选择错分最小的那个ＭＤＲ模型，该两位点模型在所有模型中将具有最小的预测误差。第６步：通过十重交叉验证评估模型的预测误差，一以及单元格分配时的相对误差。也就是说，模型拟合９／１０的数据（训练样本），其预测误差将通过剩下１／１０的数据（检验样本）来衡量。选择预测误差最小的模型作为最终的模型，取ｌＯ次检验的预测误差平均值，作为模型相对预测误差的无偏估计。由于数据分组的方式对交叉验证的结果影响较大，因此，十重交叉验证过程将重复进行１０次，对ｎ个因子可能的集合将重复进行１０×１０次的交叉验证。通过十重交叉验证，在一定程度上可以避免因数据转换的偶然性，使Ｉ类错误增大而产生假阳性结果的影响。预测误差是衡量ＭＤＲ模型在独立检验的亚组中预测危险状态的指标，通过十重交叉验证的亚组中每一个的预测误差的平均值来计算。根据交叉验证的预测误差的平均值，选择最佳的Ｔｌ因子模型，并根据不同的因子数重复以上过程。最终筛选出最有可能存在交互作用的基因。ＭＤＲ的优势在于不需要考虑疾病的遗传模型，它利用计算机运算速度快的优势，对多个基因进行随机组合，按照上述方法找出存在交互作用的基因位点。但当主效应存在时，用ＭＤＲ方法很难得到最终模型，且同样受遗传异质性的影响；它只是一种数据挖掘方法，不是严格意义上的统计方法，还无法判断它的Ｉ类错误和检验功效。ＭＤＲ分析软件包可在ｈｔｔｐ：／／ｗｗｗ．ｅｐｉｓｔａｓｉｓ．ｏｒｇ／ｍｄｒ．ｈｔｍｌ免费下载。４基于复合ＬＤ的交互作用分析法吴学森等Ⅲ’提出基于复合ＬＤ的交互作用的分析法。该方法以病例一对照试验设计为基础，基于ＬＤ计算方法，构建完全有别于以上方法的一种新型基因间交互作用的统计分析方法：（１）用两个位点（基因）单倍型的外显率（只。）与等位基因的边际外显率的乘积（Ｐａ?Ｐ。）的偏差（６．口＝ＰＡ。一只?Ｐ８），分别定义病例组和对照组两个位点交互作用的度量．进而综合两组交互作用度量构造检验交互作用的统计量；（２）对于基因一环境交互作用模型的构建，则将环境（分类型变量）变量视为“虚拟位点”（例如Ｅ＝ｌ表示环境暴露。Ｅ＝０表示即非暴露），则同样依据上述方法构建其模型。４．１基因型数据的联合概率分布及其表达对于基因之间、基因与环境之间的交互作用统计量的构建，无论是二阶或高阶情形，均至少涉及两个变量。在本研究中，均以病例一对照试验设计为基础，个体的基因数据一律用其基因型表示。无论是病例组还是对照组，均设两个位点的等位基因分别为Ａ，ａ；Ｂ，ｂ，则它们的联合基因型分布可表述为表３的形式：则．配子的ＬＤ系数为：６．。＝％一ＰＡＰ。；非配子的ＬＤ系数为：乳口＝九日一只－匕，其中，Ｐ．ｅ＝尸竺＋ＰＡＢ舳＋碟＋Ｐ竺；ＪＤ∥。＝Ｐ竺＋Ｐ竺＋Ｐ：：＋形：。但是，当计算病例组或对照组的６．。时，需要知道双杂合子的概率Ｐ苫、Ｐ：：。然而。当它们的相未知时，则无法确定其值，只能进行单倍型推断。由于单倍型推断总是存在误差，这给后面构造的检验交互作用的统计量带来很多不确　万方数据

GWAS原理剖析资料

全基因组关联分析（Genome-wide Association Study）是利用高通量基因分型技术，分析数以万计的单核苷酸多态性（SNPs）以及这些SNPs与临床表型和可测性状的相关性。简单地理解全基因组关联分析，GW AS就是标记辅助选择在全基因组范围上的应用，在全基因组层面上开展大样本的、多中心的、重复验证的技术，并对相关基因与复杂性状进行关联研究，从而全面地揭示出不同复杂性状的遗传机制和基础。GW AS是一项开创性的研究方法，因为它可以在以前很难达到的分辨率水平上对成千上万无关样本的全基因组进行研究，且不受与疾病有关的先验性假设的限制，GWAS在全基因组范围、零假设性较候选基因研究都迈出了重要的一步，而且随着高通量测序成本的降低，GW AS在人类疾病以及畜禽经济性状的研究上都表现出巨大的优势。 GW AS的优势除了可以一次性检测到数以万计的SNPs信息，从而提高试验效率以及检验功效以外，其还有其他两个显著的优势，主要表现在：（1）对未知信息的基因进行定位探索。传统的QTL定位仅仅限于对已知的候选基因进行分析探索，而GW AS是对全基因组的范围内的所有位点进行关联分析，因此其拥有更广泛的关联信息，相比候选基因分析GW AS 更有可能找到与性状真正关联的候选基因，因此不再受到预先假设的候选基因的限制。（2）对于GWAS在研究不同的复杂性状之前，不需要像以往的研究一样“盲目地”预设一些假定条件，而是通过在病理和对照组中，有目的地比较全基因组范围内所有SNPs的等位基因频率或者通过家系进行传递不平衡检验（TDT，Transmission disequilibrium test），从而找出与复杂性状显著相关的序列变异。到目前为止，利用全基因组关联分析研究已经挖掘出众多与各种复杂性状相关联的基因和染色体区域，在这些被新鉴定出的位点和区域中，只有小部分结果位于以前对这些性状研究的区域之中或者附近，绝大多数位于以前从未被研究过的区域，GW AS的研究结果表明以前没有被纳入研究的未知区域有可能对于复杂性状也是十分