基于全基因组关联分析的基因(环境)交互作用统计学方法进展
- 格式:pdf
- 大小:331.67 KB
- 文档页数:4
基因环境交互作用的统计学研究方法基因环境交互作用是指基因和环境之间相互影响的现象,其中基因和环境的作用不是简单的加法,而是一种相互作用的关系。
基因环境交互作用对个体的发育和进化具有重要作用。
因此,为了研究基因环境交互作用的统计学方法,已成为现代遗传学和生态学的重要研究方向之一。
基因环境交互作用的研究需要考虑两个要素:遗传变异和环境变异。
遗传变异指不同个体之间的基因差异,而环境变异则包括不同个体之间或同一个体在不同环境条件下的表现差异。
这两个要素的交互影响导致了基因环境交互作用的现象。
在现代生物技术的帮助下,研究基因环境交互作用的方法不断发展。
统计学方法在生物研究中有着广泛的应用,也成为研究基因环境交互作用的重要工具。
下面将详细介绍几种常用的统计学研究方法。
1. 方差分析方差分析(ANalysis of VAriance,ANVOA)是研究基因环境交互作用的常用方法之一。
它通过比较不同处理组之间的方差大小来分析基因和环境之间的关系。
方差分析可通过单因素方差分析和双因素方差分析进行。
单因素方差分析是研究基因或环境对表现型影响的一种方法。
例如,我们想研究不同基因型对某一性状的影响,就可以将不同基因型的个体分成不同处理组,并进行方差分析。
如果不同处理组间的方差显著,则说明基因型对性状有影响。
双因素方差分析则是同时分析基因和环境对表现型影响的方法。
例如,我们想研究不同基因型在不同环境条件下对某一性状的影响,就可以将不同基因型的个体分成不同处理组,然后在不同环境条件下进行方差分析。
如果不同处理组间的方差显著,则说明基因环境交互作用存在。
2. 回归分析回归分析是一种寻找变量间关系的方法,它可以用来研究基因和环境间的交互作用。
回归分析可分为线性回归和非线性回归两类。
线性回归是一种用来寻找变量间线性关系的方法,它可以用来研究基因环境交互作用对表现型的影响。
例如,我们想研究不同基因型和环境条件对某一性状的影响,就可以利用线性回归进行分析。
垦堕垦堂童生皇堕塑查垫!!竺!旦第42卷第1期Int J Med Parasit Dis,January 2015,V01.42,No.1 ·49··综述·基因一环境交互作用分析方法在流行病学研究中的应用何健杨坤+【摘要】基因一环境交互作用(gene.environment interac ti on)分析方法适合探讨流行病学中遗传和环境多种因素对于疾病发生或传播的作用,并逐渐成为流行病学研究的重要研究手段。
该文从基因.环境交互作用方法的研究设计和统计学方法两方面,综述此方法的最新国内外研究进展.期望拓展在寄生虫病等研究领域的应用。
【关键词1基因.环境交互作用;流行病学;统计学分析Applic ation of ge ne·en vi ro nm en t in t er a c ti o n an a l ys i s in epide miol ogica l st udie s He Ji an,Ya ngKun*.Jiangsu Institute of Parasitic Di s e a s e s,K e y L a b o r a t o r y of Parasitic D i se a s e Control a nd Prevention,Min蠡try of Heal th,J ia rt gsu Provincial Key Laboratory ofParasite Molecular Biolog y,Wu xi 214064,C h i na+Corresponding author:Yang Kun,Em ail:ji pdy k@163.comSu pp on ed b y N a t i o n a l N a t u r a l S c i en c e F o u n d a t i o n of China(81101275)【Abstract】Gen e.en vironm ent interaction anal ysi s,as me tho d of m uh i.fa ct or s tu dv,c an explore the roleof genetic and envi ronment al factors in the prevalenc e an d transmission of di s e a se s,a n d it has be c o meveryi m p or t a n t m eans of ep i d e m i o l o g i c al s t u d y.R e s e a r c h d e s i g n a n d statistical met hods of g e n e—e n v i ro n m e nt inter-action metho d were revie we d in this paper,aiming at pro vi di n g re f er en c e in the flied of parasitic d i s e a se ss tu d y.【Key words】Gene-environment inte ra ct io n;E pi dem io lo gy;St at is tic al a na ly si s随着人们对于疾病发生认识的改观,发现诸互作用分析方法的进展,以期为流行病学病因研如癌症[I之]、慢性病[3-4]、精神疾病[5-6]、媒介传播究提供参考。
全基因组关联分析及遗传基因组学的研究进展随着基因技术的快速发展,遗传基因组学成为目前最具前景的研究领域之一。
在遗传基因组学中,全基因组关联分析(GWAS)被广泛应用于疾病的遗传研究中,是目前最有效的基因分析方法之一。
本文将重点介绍全基因组关联分析及遗传基因组学的研究进展,以期提供对该领域的深入了解。
一、全基因组关联分析的概念及原理全基因组关联分析是一种高通量的基因分析方法,其原理是比较大量样本中的遗传变异与表型间的关联,以确定影响表型的基因及其变异。
具体而言,全基因组关联分析通过扫描整个基因组,检查单核苷酸多态性(SNP)与研究对象表型之间的关联性,如果发现某些基因与表型有显著相关性,就可以将这些基因作为疾病的潜在风险因素进行研究。
全基因组关联分析所用的DNA样本源于大量人群,其优点在于可以检测到多个基因之间的相互作用,缺点是高度依赖统计学方法,并且会出现假阳性率高的问题。
为了减少假阳性率,全基因组关联分析研究通常采用Bonferroni校正或FDR校正等方法。
二、全基因组关联分析的应用全基因组关联分析主要应用于人类的疾病遗传研究中,如糖尿病、肥胖症、阿尔茨海默病、乳腺癌和鳞状细胞癌等疾病。
近年来,全基因组关联分析也被广泛应用于畜禽的遗传研究,如猪的生长性状和奶牛的产奶量等。
除了疾病的遗传研究,全基因组关联分析还可以用于预测个体对药物的反应,从而实现个体化用药。
例如,全基因组关联分析可以确定与药物代谢相关的基因,以此为基础预测不同个体对药物的代谢情况,为实现个体化用药提供依据。
三、遗传基因组学的研究进展遗传基因组学研究除了全基因组关联分析以外,还包括单细胞遗传学、转录组学、表观遗传学和功能基因组学等方面的研究。
这些研究方法的开展使得人们对基因组学的理解更加深入,为了更好地了解遗传基因组学的研究进展,以下将分别进行介绍。
1.单细胞遗传学单细胞遗传学是一种新型的研究方法,该方法可以对单个细胞进行遗传分析。
基因-基因(环境)交互作用分析方法的比较袁芳;刘盼盼;徐进;费丽娟;郝玲妹;邱旭君;张莉娜【摘要】Three methods of analyzing the gene-gene (environment) interactions are compared in the etiology research of complex diseases to analyze their applicability conditions and the advantages and disadvantages. It shows that crossover analysis is simple and easy to apply, but only applicable for analyzing interactions of single genetic factor and single environment factor. Logistic regression is straight-forward in explaining the epidemiological significance of interaction and performs well in analyzing the main effects, but still has limitations in analyzing higher order interactions. Multifactor dimensionality reduction renders a model-free method and is sensitive to high dimensional data, but it is short of accuracy in estimating the main effects. Considering the advantages identified with each of these three methods in analyzing interaction, the author makes some efforts in this paper to integrate these methods aiming at improving effectiveness interaction analysis.%对复杂疾病病因研究中基因一基因(环境)交互作用的3种分析方法进行了比较,剖析了它们的适用条件和优缺点.结果表明:叉生分析简单易行,但只适用于分析单个遗传和单个环境因素的交互作用;Logistic回归易解释交互作用的流行病学意义且能很好地分析主效应,但在分析高阶交互作用时存在局限性;多因子降维法无需指定特定的遗传模式且对高维数据敏感,但无法估计主效应.鉴于这3种方法在分析交互作用时各有其优点,三者联合应用于交互作用分析效果更佳.【期刊名称】《宁波大学学报(理工版)》【年(卷),期】2012(025)004【总页数】5页(P115-119)【关键词】叉生分析;Logistic回归;多因子降维法;交互作用【作者】袁芳;刘盼盼;徐进;费丽娟;郝玲妹;邱旭君;张莉娜【作者单位】宁波大学医学院,浙江宁波315211;宁波大学医学院,浙江宁波315211;宁波大学医学院,浙江宁波315211;宁波大学医学院,浙江宁波315211;宁波市第七医院,浙江宁波315200;宁波市第七医院,浙江宁波315200;宁波大学医学院,浙江宁波315211【正文语种】中文【中图分类】R181;R195.1随着疾病遗传学研究的深入开展,人们发现基因对疾病的影响是非常复杂的,很多疾病并非简单的由单一基因影响,许多常见疾病和复杂性状可能是多个基因和环境因素之间交互作用的结果. 目前已有多个研究称上位性(基因-基因交互作用)在常见的复杂疾病的表型与基因型关系中发挥关键作用[1-3]. 因此,正确地分析基因-基因(环境)的交互作用对于复杂疾病的病因探索或寻找易感基因有着重要意义. 目前用于交互作用分析的方法有很多种,最常用的有叉生分析、Logistic回归、多因子降维法. 此外,还有位点交互作用的分析方法: 全交互作用模型(Full Interaction Model,FIM),贝叶斯基因关联映射法(Bayesian Epistasis Association Mapping,BEAM),最大条件嫡概率模型(Maximum Entropy ConditionalProbability Modeling,MECPM)[4]等. 近几年以决策树为基础的非参数统计方法也可用于交互作用分析,包括分类和回归树(Classification and Regression Trees,CART),随机森林(Random Forest,RF)、FlexTree[5].这些方法各有其适用性,在交互作用的检验效能方面也广泛存在争议. 笔者就应用较广泛、理论相对成熟的叉生分析、Logistic回归、多因子降维 3种方法进行了比较,阐述其在交互作用分析中的意义.1 叉生分析在统计学上,Ottman将基因-环境的交互作用定义为环境暴露因素对含有不同基因型人群的疾病影响不同,或者基因型对不同环境暴露条件下人群的疾病影响不同[6]. 叉生分析就是根据这一定义来分析基因-环境交互作用的基本流行病学单元,它主要采用2×4叉生表分析单个基因和单个环境因素的交互作用[7]. 叉生分析可适用于传统的病例对照研究、病例同胞对照研究、病例父母对照研究,也可用于单纯病例研究、不完全病例对照研究和队列研究设计的资料.1.1 2×4叉生表叉生分析中,基因和环境因素均为二分类变量(表 1),基因型和环境暴露因素可能的 4种疾病风险组合可以表示为: R11(同时暴露于环境因素和遗传因素对疾病的效应),R10(仅暴露于环境因素对疾病的效应),R01(仅暴露于遗传因素对疾病的效应),R00(遗传和环境因素均未暴露时的疾病风险). R00作为 R11、R10、R01共同的对照组,其OR=1. 交互作用的存在与否取决于相加或相乘模型的选择,若所研究的交互作用为相加交互作用,当 R11-R01≠R10-R00时认为存在交互作用,若所研究的交互作用为相乘交互作用,则当R11/R01≠R10/ R00时考虑存在交互作用. 表1 基因(G)与环境(E)因素作用2×4叉生分析表G E 病例对照 OR值意义++a b R11=ah/bg G、E联合作用效应+- c d R01=ch/dg G单独作用效应-+e f R10=eh/fg E单独作用效应-- g h R00=1 共同对照在表1的基础上还可以计算单纯病例组、单纯对照组中的OR值,对环境、遗传因素分别分层后的疾病风险信息可从表2中获得. 可以通过公式计算得到,分层之后各层的OR值之比等于基于相乘模型时的 OR值,单纯病例组与单纯对照组的 OR值之比也等于基于相乘模型时的OR值.1.2 交互作用评价指标Rothman等[8]提出了相加模型下交互作用的定量评价指标,包括交互作用指数(Synergy Index,SI)、交互作用超额相对危险度(Relative Excess Risk of Interaction,RERI)、交互作用归因比(Attributable Proportion of Interaction,AP)和纯交互作用归因比(AP*).当SI=1时,说明G、E间无相加交互作用,相互独立; SI>1,G、E间具有正相加交互作用,同时存在时效应增强; SI<1,G、E间具有负相加交互作用,同时存在时效应减低. 效应指数 SI既可用于交互作用的定性分析,又可用于交互作用的定量测量. SI绝对值越大,说明因素间交互作用越强.RERI表示两因素联合作用与其单独作用之和的差值,用于描述归因于交互作用的危险度的大小.RERI的绝对值越大,说明因素间的交互作用越强;如果没有相加模型的交互作用,RERI=0.表示G、E同时存在时,疾病的总危险性中可归因于其交互作用的比例. AP绝对值越大,说明因素间的交互作用越强.表示由G、E引起的疾病效应中归因于两者的交互作用所占的比例.交互作用为相乘模型时也可以用交互作用指数进行评价[9],当SI=1时,表明G、E间无相乘交互作用; SI>1时,G、E间存在正相乘交互作用; SI<1时,G、E间存在负相乘交互作用.叉生表计算直观,不仅能分析基因和环境因素各自的主效应,还能计算相加或相乘模型下交互作用的值. 由于使用了相同的参考组,可以对遗传、环境以及两者之间交互作用的疾病危险性进行比较. 对于病例对照研究,不仅可以计算单纯病例和单纯对照下的OR值,还可以分层估计各暴露因素的疾病相对危险度. 如果对照的选择具有良好的代表性,单纯对照中各暴露因素的OR值有助于评估人群中遗传和环境因素的分布是否独立. 但叉生分析并不适用于所有的关联研究,只能分析单个遗传和单个环境因素的交互作用,并且要求两者均为二分类变量,当研究多个因素或者暴露和结局变量为等级、连续型变量(剂量反应)时,叉生分析则无法应用. 此外,研究多个因素时,各因素之间的交互作用作为极为复杂,不能简单地描述为相加或相乘模型.表2 分层情况下因素作用的分析E+ EG 病例对照病例对照+ a b c d- e f g h 分层 OR值意义单纯病例组 ag/ce 基于相乘模型的交互作用单纯对照组 bh/df 人群中暴露因素相互独立性相乘模型R11/(R01×R10)=adgf/bceh 基于存在相乘交互作用相加模型 R11-(R01+R10-1) 基于存在相加交互作用遗传因素分层1 ad/bc 暴露于G时,E的作用遗传因素分层2 eh/fg 未暴露于G时,E的作用环境因素分层1 af/be 暴露于E时,G的作用环境因素分层2 ch/dg 未暴露于E时,G的作用2 Logistic回归模型Logistic回归是分析分类预测变量与离散性结果之间关系的常用模型,是一种参数估计方法.Logistic回归中交互项回归系数的估计是以存在相乘交互作用为基础,在分析交互作用时引入一个相乘项进入回归模型,通过相乘项回归系数的估计来判断交互作用是否有意义及其作用大小. 适用于病例对照研究、横断面研究、封闭队列研究和临床研究的资料,当变量间存在多重共线性问题时,不宜用Logistic回归.通常 Logistic回归用于分析相乘模型下的交互作用,仅当自变量为二分类变量时可估计相加交互作用,Logistic回归对连续性自变量相加交互作用估计的可行性目前研究还较少. Knol等[10]采用模拟数据及临床实际例子证明了Logistic回归在分析一个二分类变量、一个连续性变量以及两个连续性变量相加交互作用时的可行性,并且运用SI、RERI和AP定量评价交互作用. 由于该研究数据来源和样本量的局限性,Logistic回归是否可以分析连续性变量的相加交互作用还需进一步研究.2.1 Logistic回归模型分析交互作用Logistic回归模型为logit(Π)=β0+β1G+β2E+β3G×E,其中: β0 为常数项,β1、β2、β3 为回归系数,ORG=exp(β1)、ORE=exp(β2)、ORG×E=exp(β3)分别为遗传因素、环境因素及交互作用项的调整优势比,反映了各因素对疾病发生的作用. β3=0时,ORG×E=1,G、E 间无交互作用; β3>1,ORG×E>1,G、E 间存在正交互作用; β3<1,ORG×E<1,G、E 间存在负交互作用.2.2 Logistic回归模型的扩展应用Logistic回归不仅能够估计基因-基因(环境)的交互作用,还能估计各自的主效应. 偏回归系数与调整优势比OR呈指数函数关系,其流行病学意义容易解释. Logistic 回归虽有着其独有的优势,但仍存在一定的局限性. 模型估计的参数个数有限,向模型中引入主效应项时,可能的交互项会呈现指数增长趋势,这时Logistic回归就不适用于处理这种含有多个因素的交互项. Hosmer等[11]建议当模型中纳入P个参数时,P+1≤min(N1,N0)/10时为最好,其中N1为出现阳性结果的例数,N0为阴性结果出现的例数. 此外,Logistic回归对维度较敏感,由于高维空间中数据稀疏或存在例数为 0的交互项,用 Logistic回归进行参数估计时标准误较大,假阳性率较高,难以检测真正有意义的交互作用.在候选基因位点较多,样本量相对较小的情况下,容易导致模型的过度拟合,随着交互作用阶数的增多,这种局限性就更显著.由于Logistic回归在分析高维数据方面的局限性,Park等[12]提出了用惩罚Logistic回归来分析基因-基因(环境)的交互作用. 惩罚 Logistic回归是对Logistic回归模型进行简单的修正,将修正系数λ与 Logistic 回归模型相结合,进行二次方调整.Logistic回归模型的二项分布对数似然函数为:惩罚Logistic 回归模型的函数为其中: λ为正常数,λ / 2 ||β| |2 为二次方惩罚项.运用牛顿迭代和岭回归对回归系数进行估计,λ选择使似然函数最大的值. 进行二次方惩罚后,采用哑变量对研究因素进行编码,变量间的多重共线性不会降低模型的拟合度,同时解除了样本量大小对模型中因素数目的限制. 另外,应用二次方惩罚解决了因样本量较小或考虑高阶交互作用存在时高维数据稀疏以及空格子的出现导致检验效能降低的问题,维持了模型参数估计的稳定性.3 多因子降维法多因子降维法(Multifactor Dimensionality Re-duction,MDR)将多个因子看作一个多因子组合,其中的因子指的是研究的变量(基因型或环境因素),维指的是研究的多因子组合中的因子数(如基因型数目). MDR方法的主要思想是将多位点基因型之间的基因-基因或基因-环境的交互作用转换成一个具有两水平的新变量(高危、低危),从而将高维的结构降低到一维,使高阶交互作用的分析更易实现. MDR方法分析的自变量为独立分类变量,例如基因型和环境因素,结局变量为二分类变量,例如病例或对照(患病或未患病),治疗的有效或无效. MDR是一种非参数统计方法,无需指定特定的遗传模式,适用于平衡的病例对照研究和不一致同胞对研究[13].MDR分析交互作用一般包括以下几个步骤:(1)随机将研究数据分为K等份,以便进行K重交叉验证. 通常将数据分为10等份,9份作为训练数据,构建MDR模型,另外的1份为检验数据,进行交叉验证. (2)从一系列基因或分类环境因素中选择N个需研究的因子,N个研究因子即可代表N个空间维度. (3)在N维列联表中,根据每个因子不同的观察值水平,列出N个因子的多水平组合,然后分别计数每一单元格内的病例、对照例数. 例如有N个SNP,每个有m个基因型,则有Nm种基因型组合. (4)对N维列联表中的每一单元格进行分类标记,若病例对照数之比大于或等于某一阈值(例如 1)则标记为高危,否则为低危. 如果某一单元格中只有病例无对照则标记为高危,反之则为低危. 这样所有的基因型组合都能被分成高危和低危两个水平,从而有效地达到 N维结构降低到单维两水平的目的. (5)依次列出各因子组合的分类误差,选出错分误差最小的模型. (6)通过检测样本的十重交叉验证来估计模型的预测误差. 模型由 9/10的训练样本拟合,通过1/10的检验样本来估计预测误差. 为了减少数据划分造成的偶然误差,十重交叉验证重复进行10次,取10次的平均误差作为预测误差的无偏估计. 最后用预测误差的平均值筛选出最有可能存在交互作用的模型.4 讨论上述3种方法各有其优缺点,应综合考虑各方法的适用性,在实际分析中几种方法结合使用. 叉生分析简单直观,但因其只能分析单个基因和单个环境因素的交互作用而受到限制. 应用于资料分析时,可先用Logistic回归筛选具有统计学意义的变量,再运用叉生分析具体分析每两个变量的交互作用大小及相对危险度. 惩罚Logistic回归不仅能够分析样本量相对较小的高阶交互作用,而且其拟合的模型比传统Logistic回归模型更稳定.并且应用惩罚Logistic回归的逐步选择法可以较准确地将具有交互作用的因素从众多研究变量中检测出来,这是传统Logistic回归模型所不能做到的.MDR在分析各因素、各水平间交互作用时并不考虑主效应,因此当主效应没有统计学意义时,MDR仍可发现高阶交互作用,但是MDR却不能发现主效应. MDR对高阶交互作用敏感,无论是何种类型的高阶交互作用(超相乘模型、相乘模型、超相加模型、相加模型等),MDR均具有较好的统计学检验效能. 而且惩罚Logistic回归模型和传统的Logistic回归模仅适用于相乘模型的交互作用分析.因此,可将MDR和惩罚Logistic回归方法联合使用,优势互补.人类基因组关联研究和高通量基因分型技术的深入发展,产生了大量有待分析的复杂生物信息数据,对于研究基因-基因(环境)交互作用,尤其是高阶交互作用的统计学计算方法是一项重大的挑战. 目前有学者提出,分阶段进行交互作用分析可以克服计算方法的困难[14]. 例如,在第1阶段,采用快速筛选方法(如 Tuning ReliefF)选择SNPs,使整个SNP集减少到一个子集. 第2阶段,采用复杂的模型方法(如MDR)来选择SNP子集中有意义的交互作用项. 第3阶段,用假设检验来检验交互项的统计学意义. 这一方法在实际应用中是否能真正克服计算困难还有待更多的研究来验证. 尽管用于基因-基因(环境)交互作用分析的方法有多种,但目前没有任何一种方法可以适用于所有的情况,因此仍需要探索更为合适的方法.基因组关联研究中,大量SNPs的识别对于交互作用的分析是一项挑战,但同时也为进一步的深入研究提供了机遇,如果能正确合理地运用各种复杂的统计学方法,可以提高交互作用的检验效能.未来应在寻找更普遍适用的交互作用检测方法、交互作用生物学意义解释方面作出更多的努力.参考文献:[1]Thornton-Wells T A,Moore J H,Haines J L. Genetics,statistics and human disease: Analytical retooling for complexity[J]. Trends Genet,2004,20:640-647.[2]Moore J H. The ubiquitous nature of epistasis in determining susceptibility to common human diseases[J].Hum Hered,2003,56:73-82.[3]Sing C F,Stengard J H,Kardia S L. Dynamic relationships between the genome and exposures to environments as causes of common human diseases[J].World Rev Nutr Diet,2004,93:77-91.[4]Chen L,Yu G,Langefeld C D,et al. Comparative analysis of methods for detecting interacting loci[J]. BMC Genomics,2011,12:344.[5]Garcia Magarinos M,Lopez-de-Ullibarri I,Cao R,et al.Evaluating the ability of tree-based methods and logistic regression for the detection of SNP-SNP interaction[J].Annals of Human Genetics,2009,73:360-369. [6]Ottman R. Gene-environment interaction: Definitions and study designs[J]. Prev Med,1996,25:764-770.[7]Botto L D,Khoury M J. Commentary: Facing the challenge of gene-environment interaction: The two-byfour table and beyond[J]. Am J Epidemiol,2001,153:1016-1020.[8]Rothman K J,Greenland S,Lash T L. Modern epidemiology[M]. 3nd. Philadelphia: Lippincott Williams& Wilkins Publishers,2008:71-85.[9]Khoury M J,Flanders W D. Nontraditional epidemiologic approaches in the analysis of gene-environment interaction: Case-control studies with no controls[J]. Am J Epidemiol,1996,144:207-213.[10]Knol M J,Van Der Tweel I,Grobbee D E,et al.Estimating interaction on an additive scale between continuous determinants in a logistic regression model[J].International Journal of Epidemiology,2007,36:1111.[11]Hosmer D W,Lemeshow S. Applied logistic regression[M]. 2nd. Hoboken: John Wiley & Sons Publishers,2000:260-263.[12]Park M Y,Hastie T. Penalized logistic regression for detecting geneinteractions[J]. Biostatistics,2008,9:30.[13]Ritchie M D,Hahn L W,Roodi N,et al. Multifactordimensionality reduction reveals high-order interactions among estrogen-metabolism genes in sporadic breast cancer[J]. Am J Hum Genet,2001,69: 138-147. [14]Yang C,Wan X,He Z,et al. The choice of null distributions for detecting gene-gene interactions in genome-wide association studies[J]. BMC Bioinformatics,2011,12(Suppl):S26.。
全基因组关联研究技术的最新进展全基因组关联研究(GWAS)技术是一种广泛应用于寻找和研究人类遗传疾病的方法。
该技术利用高通量DNA芯片,可同时检测数百万个单核苷酸多态性(SNP)标签,寻找与某个疾病相关的基因。
随着科技不断进步,全基因组关联研究技术也在不断提升。
本文将介绍全基因组关联研究技术的最新进展。
1. 大数据解析方法的发展全基因组关联研究技术利用大数据进行疾病基因的筛选,因此数据的分析和解释变得非常重要。
目前,研究人员通过开发更高级的计算方法和算法,处理基因组数据,提高数据处理的效率。
例如,最新的机器学习算法可以从基因组数据中提取更多信息,这对疾病研究具有重要意义。
2. 人工智能在全基因组关联研究中应用的开发人工智能(AI)正在改变我们的日常生活,并且在全基因组关联研究中也是如此。
最新技术的开发则可以使用AI技术分析和理解基因组数据,人工智能技术还可以准确预测疾病的发生率和预后。
人工智能在全基因组关联研究中的应用,尤其在疾病预测和治疗方案的优化方面具有非常重要的作用。
3. 基因组编辑的深度发展基因组编辑技术的发展已经推进全基因组关联研究的速度。
例如最新的CRISPR技术,可以精确地编辑人类基因组,快速和准确地识别有害突变以支持药物发现和开发。
4. 大数据的利用大规模基因组数据是全基因组关联研究技术不可或缺的。
最新进展,更多的研究人员可以在基因组数据上工作,并加深我们对基因的理解。
最新的“百万人基因组计划”正在推进基因组数据库的建立、管理和共享,这些数据也将有助于更多的疾病相关基因的研究。
5. 药物研发的加速全基因组关联研究技术已经对药物开发产生了影响。
研究人员通过全基因组关联研究技术,可以先确认哪些基因和疾病有关,使得药物研发更加精准高效,在特定群体里更加有效。
例如,研究人员使用全基因组关联研究技术发现了新的关于哮喘疾病基因突变,从而可以更好地开发针对哮喘的治疗药物。
总结全基因组关联研究技术的发展是一个不断进步的过程,可以改善基因组数据的工作效率,从而促进疾病预测、药物开发和人体健康的改善等方面。
万方数据
万方数据
708
图lMDR基本步骤示意图
划分为不同的分类,也就是图中的单元格。
单元格中左侧直方图表示病例,右侧直方图表示对照。
第4步:在n维的每个多因子分类(单元格)中,计算病例数和对照数的比值,若病例数与对照数之比达到或超过某个阈值(例如≥1),则标为高危,反之则为低危。
这样就把n维的结构降低到一维两水平。
第5步:多因子分类的集合中包含了MDR模型中各因子的组合。
在所有的两因子组合中,选择错分最小的那个MDR模型,该两位点模型在所有模型中将具有最小的预测误差。
第6步:通过十重交叉验证评估模型的预测误差,一以及单元格分配时的相对误差。
也就是说,模型拟合9/10的数据(训练样本),其预测误差将通过剩下1/10的数据(检验样本)来衡量。
选择预测误差最小的模型作为最终的模型,取lO次检验的预测误差平均值,作为模型相对预测误差的无偏估计。
由于数据分组的方式对交叉验证的结果影响较大,因此,十重交叉验证过程将重复进行10次,对n个因子可能的集合将重复进行10×10次的交叉验证。
通过十重交叉验证,在一定程度上可以避免因数据转换的偶然性,使I类错误增大而产生假阳性结果的影响。
预测误差是衡量MDR模型在独立检验的亚组中预测危险状态的指标,通过十重交叉验证的亚组中每一个的预测误差的平均值来计算。
根据交叉验证的预测误差的平均值,选择最佳的Tl因子模型,并根据不同的因子数重复以上过程。
最终筛选出最有可能存在交互作用的基因。
MDR的优势在于不需要考虑疾病的遗传模型,它利用计算机运算速度快的优势,对多个基因进行随机组合,按照上述方法找出存在交互作用的基因位点。
但当主效应存在时,用MDR方法很难得到最终模型,且同样受遗传异质性的影响;它只是一种数据挖掘方法,不是严格意义上的统计方法,还无法判断它的I类错误和检验功效。
MDR分析软件包可在http://www.epistasis.org/mdr.html免费下载。
4基于复合LD的交互作用分析法
吴学森等Ⅲ’提出基于复合LD的交互作用的分析法。
该方法以病例一对照试验设计为基础,基于LD计算方法,构建完全有别于以上方法的一种新型基因间交互作用的统计分析方法:(1)用两个位点(基因)单倍型的外显率(只。
)与等位基因的边际外显率的乘积(Pa·P。
)的偏差(6.口=PA。
一只·P8),分别定义病例组和对照组两个位点交互作用的度量.进而综合两组交互作用度量构造检验交互作用的统计量;(2)对于基因一环境交互作用模型的构建,则将环境(分类型变量)变量视为“虚拟位点”(例如E=l表示环境暴露。
E=0表示即非暴露),则同样依据上述方法构建其模型。
4.1基因型数据的联合概率分布及其表达对于基因之间、基因与环境之间的交互作用统计量的构建,无论是二阶或高阶情形,均至少涉及两个变量。
在本研究中,均以病例一对照试验设计为基础,个体的基因数据一律用其基因型表示。
无论是病例组还是对照组,均设两个位点的等位基因分别为A,a;B,b,则它们的联合基因型分布可表述为表3的形式:
则.配子的LD系数为:6.。
=%一PAP。
;非配子的LD系数为:乳口=九日一只-匕,其中,P.e=尸竺+PAB舳+碟+P竺;JD∥。
=P竺+P竺+P::+形:。
但是,当计算病例组或对照组的6.。
时,需要知道双杂合子的概率P苫、P::。
然而。
当它们的相未知时,则无法确定其值,只能进行单倍型推断。
由于单倍型推断总是存在误差,这给后面构造的检验交互作
用的统计量带来很多不确
万方数据
万方数据。