基于SNP的连锁不平衡分析
- 格式:docx
- 大小:37.01 KB
- 文档页数:2
GWAS原理和流程全基因组关联分析Linkagedisequilibrium(LD)连锁不。
GWAS⼊门必看教程:名词解释和基本问题:关联分析:就是AS的中⽂,全称是GWAS。
应⽤基因组中数以百万计的单核苷酸多态;SNP为分⼦遗传标记,进⾏全基因组⽔平上的对照分析或相关性分析,通过⽐较发现影响复杂性状的基因变异的⼀种新策略。
在全基因组范围内选择遗传变异进⾏基因分析,⽐较异常和对照组之间每个遗传变异及其频率的差异,统计分析每个变异与⽬标性状之间的关联性⼤⼩,选出最相关的遗传变异进⾏验证,并根据验证结果最终确认其与⽬标性状之间的相关性。
连锁不平衡:LD,P(AB)= P(A)*P(B)。
不连锁就独⽴,如果不存在连锁不平衡——相互独⽴,随机组合,实际观察到的群体中单倍体基因型 A和B 同时出现的概率。
P (AB) = D + P (A) * P (B) 。
D是表⽰两位点间LD程度值。
曼哈顿图:在⽣物和统计学上,做频率统计、突变分布、GWAS关联分析的时候,我们经常会看到⼀些⾮常漂亮的manhattan plot,能够对候选位点的分布和数值⼀⽬了然。
位点坐标和pvalue。
map⽂件⾄少包含三列——染⾊体号,SNP名字,SNP物理位置。
assoc⽂件包含SNP名字和pvalue。
haploview即可画出。
SNP的本质属性是什么?⼴义上讲是变异:most common type of genetic variation,平级的还有indel、CNV、SV。
Each SNP represents a difference in a single DNA building block, called a nucleotide. 狭义上讲是标记:biological markers,因为SNP是单碱基的,所以SNP⼜是⼀个位点,标记了染⾊体上的⼀个位置。
⼤部分⼈的基因组,99%都是⼀模⼀样的,还有些SNP的位点,就是⼀些可变的位点,在⼈群中有差异。
2004年 10月第24卷 第5期 基础医学与临床Basic Medical Sciences and Clinics October 2004Vol .24 No .5收稿日期:2004-09-10基金项目:国家“863”科技攻关计划(2002BA711A10)*通讯作者文章编号:1001-6325(2004)05-0487-04单核苷酸多态性与连锁不平衡研究进展何云刚1,2,金 力1,黄 薇2*(1.复旦大学生命科学院现代人类学研究中心,上海200433;2.国家人类基因组南方研究中心上海201203)摘要:单核苷酸多态性(sin gle nucleotide polymorphis m ,SNP )是人类基因组中最广泛的多态性现象,也是造成个体差异的最主要的遗传原因,发现和研究SNP 的工作在目前人类基因组研究中倍受关注。
连锁不平衡是不同遗传标记间存在着的非随机组合现象,SNP 作为极具优势的遗传标记为深入研究连锁不平衡、以及利用连锁不平衡进行群体遗传学的参数估计、基因精细定位、关联分析等提供了良好的先决条件。
最近,在SNP 研究及连锁不平衡的度量和连锁不平衡性质的研究方面取得的一系列进展为遗传学在将来发展奠定了基础。
关键词:单核苷酸多态性;连锁不平衡;关联分析;单倍域中图分类号:Q75 文献标识码:A 单核苷酸多态性(single nucleotide polymorphism ,SNP )是指在某种生物不同个体DNA 序列中,存在单个核苷酸变异的多态现象。
单核苷酸多态性是基因组中存在的一种数量非常丰富的变异形式,占人类基因组中遗传多态性的90%以上。
SNP 与罕见的变异不同,通常,在种群中频率等于或小于1%的此种变异被称为突变,而只有频率大于1%时才被称为单核苷酸多态性。
人类基因组中平均每500~1000个碱基对就有一个SNP ,估计整个基因组中有超过300万个单核苷酸多态位点。
大部分的单核苷酸多态性位点(约2/3)在不编码基因的DNA 序列中,少数(约1/3)位于基因内部,在同一条染色体上单核苷酸多态性的分布也是不均匀的[1]。
连锁不平衡连锁不平衡(linkage disequilibrium,LD)是指在某一个群体中,不同座位上两个基因同时遗传的频率明显高于预期的随机频率现象。
我们一般用D,D'和r2来表示LD的程度。
D是LD的基本单位,度量观察到的单倍型频率与平衡状态下期望频率的偏差。
假设两个位点分别有等位基因A,b 和 B,b,则D=P(AB)-P(A)*P(B); P(AB)表示实际观察到的AB频率,P(A)*P(B)表示AB频率的期望值(如果发生连锁不平衡,实际观测到的AB频率肯定不等于AB频率的期望值)。
如果D 值显著偏离0,则说明存在LD。
随着两个位点间重组的发生,它们之间的 LD 将逐渐衰减。
D 受两个位点间的重组率θ 和传递代数 t 的影响:Dt =(1-θ)tD。
因为所有的单倍型和等位基因的频率都在 0 到 1的范围内,因此 D 的取值范围也是有限的:Dmin =max(-PAPB, -PaPb) = min(PAPB, PaPb);Dmax = min(PAPb, PaPB)。
因为D 的取值强烈地依赖于人为指定的等位基因频率,所以它不利于 LD 程度的比较。
标准化的不平衡系数D’能够避免这种对等位基因频率地依赖。
D'的计算方法如下:D'=D/Dmax当D<0, Dmax=min{P(A)P(B),P(a)P(b)};当D>0,Dmax=min{P(A)P(b),P(a)P(B)};当D‘=1,说明两个位点没有被重组分开,处于完全的连锁不平衡状态,这时能观察到 2 或 3 种单倍型;当D‘=0,表示连锁完全平衡,随机组合,明两个位点完全独立。
但D'也有它的局限性,比如当单倍型为2中或3种时,|D'|一定等于1,但是当|D'|<1时,时的一些中间值的意义是很难解释的(比如D’为 0.3 和 0.7 究竟有怎样的不同意义)甚至在模拟情况下,相同距离的成对位点间的D’值也是高度可变的另外D'严格依赖于样品的大小,如果样本偏少时,snp数量比较少,这样算出来的D'就会偏大,尤其是某个位点其中一个等位基因频率很低时,因此较高D‘背后,实际上可能是连锁不平衡程度很低的两个位点。
脂联素基因SNPs+45 T>G和SNPs+276G>T与老年非糖尿病冠心病的相关性摘要目的:探讨老年人脂联素基因SNPs+45 T>G和SNPs+276G>T与老年非糖尿病冠心病的相关性。
对象与方法:选择2005年11月至2009年12月入住我院心内科病房,行冠状动脉造影、年龄大于等于65岁的非糖尿病患者688名,根据冠状动脉造影结果分为冠心病组396例,对照组292例。
采用PCR/LDR法检测多态性位点。
结果:SNPs+45 T>G基因表型为突变型GG者发生冠心病的危险性较具有TT型者显著增加(OR值为2.65,p<0.01);SNPs+276G>T基因表型为GG型者发生冠心病的危险性较具有TT型者显著增加(OR值为2.36,p=0.001,<0.01);杂合子GT型者发生冠心病的危险性也较具有TT型者显著增加(OR值为1.66,p=0.049,<0.05)。
logistic回归分析显示,SNPs+45T>G基因表型为GG型,SNPs +276 G>T基因表型为GG和GT型是冠心病发病独立的危险因素。
SNPs +45T>G和SNPs+276G>T位点存在连锁不平衡,脂联素基因SNPs+45 T>G基因表型为突变型GG型者SNPs+276 G>T基因表型均为GG型,而SNPs+276 G>T基因表型为突变型TT型者SNPs+45 T>G 基因表型均为TT型,即GGGG基因表型和TTTT基因表型。
且SNPs +45T>G和SNPs+276G>T位点基因表型为GGGG型者发生冠心病的危险性显著高于TTTT型者,OR值为4.77(p=0.000,p<0.01)。
结论:在老年非糖尿病者中,脂联素基因SNPs+45 T>G基因表型为GG型者,SNPs+276 G>T基因表型为GG或GT型者可能是冠心病的易感人群。
基于关联或连锁不平衡的分析方法中山大学公共卫生学院医学统计与流行病学系李彩霞博士licx@(020)87330673-83(引用时请注明资料来源以及作者信息)如果两个基因座上的等位基因是随机关联的,即不独立,这种情况就叫做等位基因关联(allelic association)或者连锁不平衡(linkage disequilibrium,LD)。
关联通常反映了分子标记与性状功能突变之间在统计学上的非独立性(连锁不平衡),但并不一定意味着因果关系。
如果一个群体在初始状态下连锁不平衡(δ0≠0),在随机婚配条件下,在n代以后,有δn=(1-θ)nδ0。
因此连锁不平衡状态随着代数增加逐渐演变为平衡状态。
当连锁很弱,即重组率θ很大(接近1/2)时,连锁不平衡参数将随着代数的增加而迅速减小。
如果两个基因座紧密连锁,重组率θ很小(接近0),则不平衡状态将持续很多代。
连锁分析考察重组,因此,考察连锁必须有家庭数据,而由等位基因关联性(或连锁不平衡性)可以由一般的群体数据观察到,有的连锁不平衡现象可能是因为群体混杂造成的,但过大的连锁不平衡通常被视为紧密连锁的证据。
传统的连锁分析的结果通常是将基因定位在较大(例如~30cM)的基因组区域,而连锁不平衡被视为一种精细定位的方法。
Ott(1999)指出,对于那些远系繁殖的大群体,连锁不平衡通常只能延伸到0.3cM。
群体关联分析传统的病例-对照研究是基于群体而非家系的疾病关联分析,它通过随机选择病例和对照,然后比较其在标记等位基因和基因型频率上的差异来说明位点与疾病的关联性。
其缺点是:阳性结果可能由混杂因素造成,如不同分层人群(stratified populations)混杂在一起造成的虚假联系。
为了克服不同分层人群混杂的影响,相应产生了基于家庭的病例-对照研究方法。
单倍型相对风险分析(HRR,haplotype relative risk)单倍型相对风险分析是基于家系的病例-对照研究方法。
基于 SNP 标记的 QTL 组合定位方法王倩雯;郭茂祖;王春宇;刘晓燕【摘要】QTL 的精确定位对数量性状遗传机制的研究及应用具有重要意义。
随着分子生物技术和遗传学的发展,产生了大量可用于 QTL 定位的遗传标记和分析方法。
然而,多数方法只能将 QTL 定位到一个区间而非具体位置,且具有较高的假阳性。
为此,提出利用全基因组上的 SNP 标记,通过 emBayesB 方法和性状-标记回归区间分析相结合的组合方法进行 QTL 定位研究。
组合方法能够筛选出与QTL 存在较强关联的 SNP 标记,具有较高的计算速度和计算效率;通过性状-标记区间检测,能够较为精确地计算出 QTL 的位置。
方法中考虑到染色体上其它标记的背景遗传信息,提高定位成功率和可信度。
%Search the precise position of QTL ,is very significant for understanding the genetic mechanisms of quantitative traits and its application.The development of molecular biology and genetics results in a large number of genetic markers and analytical methods can be used for QTL mapping.However,most methods can only map QTL to a interval rather than a specific location with a high false positive.This paper proposes that the use of genome -wide SNP markers and combina-tion strategy which combining emBayesB methods and traits - mark regression interval analysis conducted QTL mapping bination strategy could screen out SNP markers which associated with QTL in the presence of strong,and hav-ing a high computing speed and efficiency;through trait -mark interval detection,the location of the QTL can be calculat-ed more accurately.The method takes into account the background genetic information of other genetic markerson the chro-mosome,achieves higher position success rate,and improves the positioning reliability.【期刊名称】《智能计算机与应用》【年(卷),期】2014(000)004【总页数】4页(P17-20)【关键词】QTL 定位;组合方法;emBayesB 方法;SNP 标记【作者】王倩雯;郭茂祖;王春宇;刘晓燕【作者单位】哈尔滨工业大学计算机科学与技术学院,哈尔滨 150001;哈尔滨工业大学计算机科学与技术学院,哈尔滨 150001;哈尔滨工业大学计算机科学与技术学院,哈尔滨 150001;哈尔滨工业大学计算机科学与技术学院,哈尔滨150001【正文语种】中文【中图分类】TP391.410 引言具有连续表型测量值的性状称为数量性性状,许多重要农艺、经济性状都是数量性状,因此,研究数量性状的遗传机制并在生产中加以应用对动植物育种工作具有重要作用。
华中科技大学硕士学位论文基于连锁不平衡的标签SNP预测姓名:方哲翔申请学位级别:硕士专业:生物信息技术指导教师:周艳红20071110华中科技大学硕士学位论文摘要单核苷酸多态性(single nucleotide polymorphism, SNP)是人类基因组中最丰富的遗传变异,占人类基因组遗传多态性的90%以上。
基因组上的SNP位点及其相应单体型的信息已经广泛地应用于疾病易感基因定位和药物基因组学研究。
近来研究表明,许多SNP位点间存在着一定的关联性,小规模的SNP位点—标签SNP(tagSNP)就可以提供全体SNP的遗传模式信息。
将标签SNP位点应用于复杂遗传疾病以及药物反应的关联分析中,可以极大地减少SNP基因分型的费用,提高关联分析的效率。
因此,如何有效地预测标签SNP已经成为当前生物信息学领域的研究热点之一。
为此,开展了标签SNP预测的相关研究。
针对SNP基因型数据集,开发了基于连锁不平衡(linkage disequilibrium, LD)的标签SNP预测程序tagSNPPRE。
首先以SNP序列中成对SNP间的连锁不平衡为基础,划分模糊单体域(haplotype block);并使用贪心穷举的混合算法预测出所有候选标签SNP集;再融合单个SNP位点的基因型分型率(%genotype)、最小等位基因频率(MAF)以及哈迪-温伯格平衡P值(HWPval)三个统计特征对所有候选标签SNP集进行筛选,最终得出最佳的标签SNP集。
在广泛使用的基因型数据集上进行测试,测试结果显示tagSNPPRE具有较好的预测效果。
为了方便标签SNP相关新特征的挖掘和发现,初步构建了本地二级数据库—SNP数据库。
以国际知名的数据库dbSNP作为数据来源,对dbSNP数据库进行了分析和处理,完成了SNP数据库的初步构建工作,并提供SNP查询服务。
关键词:单核苷酸多态性; 标签SNP; 连锁不平衡; 单体域; 单体型华中科技大学硕士学位论文AbstractSingle nucleotide polymorphism (SNP) is the most common type of genetic variants in human genome,taking up more than 90% of human genetic polymorphisms. SNPs and haplotypes in the human genome have been widely used in the identification of disease-associated genes and the study of pharmacogenomics. Recent studies have revealed that many SNPs are strongly correlated, which makes it feasible to choose a small amount of SNPs that contain almost the entire genetic model information. The use of tagSNPs can greatly reduce genotyping expense and is promising to improve the effect of association studies. Therefore, how to effectively predict the tagSNP has become one of the most important studies in the field of Bioinformatics, and a study of tagSNP prediction is presented.A computational program tagSNPPRE is developed to predict tagSNPs on the genotype dataset. First, it partitions the haplotype blocks based on linkage disequilibrium of pairwise SNPs and uses the greedy exhaustive hybrid approach to work out all the potential tagSNP sets. Then it predicts the best tagSNP set out of potential tagSNP sets using three statistical features(%genotype、MAF and HWPval). Testing results on the widely used genotype dataset demonstrate that tagSNPPRE has better prediction accuracy.In order to mine new features for the prediction of tagSNPs, a secondary local SNP database is preliminarily constructed. The SNP database is built based on the information and biological data provided by the famous database dbSNP. The downloaded primary data is analyzed and processed, and then is successively shifted into local database for further research. The preliminary construction of SNP database has finished, and then the search service has been provided.Key words: single nucleotide polymorphism; tagSNP; linkage disequilibrium;haplotype block; haplotype独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。
基于SNP的连锁不平衡分析
SNP(单核苷酸多态性)是一种常见的遗传变异形式,它在人类基因
组中广泛存在。
SNP的分析对于研究基因和疾病之间的关联以及个体遗传
多样性具有重要意义。
连锁不平衡是指不同位点上的SNP之间存在非随机
的关联。
基于SNP的连锁不平衡分析是一种研究人类遗传变异和疾病相关
性的重要方法。
在过去的几十年中,研究人员已发现SNP在人类基因组中的定位,并
建立了全球多种族的SNP数据库。
借助这些数据库,研究人员可以对不同
个体和个体群体中的SNP进行分析,并研究这些SNP与特定疾病之间的关联。
连锁不平衡分析基于人类基因组中SNP之间的非随机关联进行。
通常,SNP之间的连接表现为连锁不平衡区块。
通过对大量SNP的分析,研究人
员可以确定这些区块,并评估它们与疾病之间的相关性。
在研究中,研究
人员通常使用统计学方法来确认这些关联,如皮尔逊卡方检验和Fisher
确切概率检验。
连锁不平衡分析的目标是确定SNP与疾病之间的关联,以便进一步研
究疾病的遗传机制。
通过分析SNP之间的连锁不平衡,研究人员可以发现
一些SNP与特定疾病之间的高度关联,从而提供了潜在的遗传变异标记。
这些标记可以用于疾病风险评估、个体遗传多样性研究、个性化医疗和药
物研发等领域。
在连锁不平衡分析中,研究人员通常需要考虑多个因素,如样本大小、个体群体的遗传背景和其他环境因素。
此外,SNP之间的连锁不平衡关系
可能存在种族和地理差异。
因此,在连锁不平衡分析中,研究人员需要对
样本进行严密的筛选和分类,并考虑这些因素的影响。
需要注意的是,虽然连锁不平衡分析可以揭示SNP与疾病之间的关联,但它并不能确定因果关系。
因此,研究人员在进行连锁不平衡分析时需要
谨慎解读结果,并结合其他实验证据来确定SNP与疾病之间的具体关系。
总之,基于SNP的连锁不平衡分析是一种有效的研究人类遗传变异和
疾病相关性的方法。
通过分析SNP之间的非随机关联,研究人员可以鉴定
潜在的遗传变异标记,并进一步研究这些标记与疾病之间的关系。
这种分
析方法对于个性化医疗、疾病风险评估和药物研发具有重要意义,并为人
类健康研究提供了新的研究途径。