单核苷酸多态性及其数据库的应用
- 格式:pdf
- 大小:221.76 KB
- 文档页数:4
SNP分析原理方法及其应用SNP(Single Nucleotide Polymorphism,单核苷酸多态性)是指在基因组中的一些位置上,不同个体之间存在的碱基差异,是常见的遗传变异形式之一、SNP分析是研究SNP在基因与表型之间关联性的方法,用于揭示SNP与遗传疾病、药物反应性等的关系。
本文将介绍SNP分析的原理、方法以及其应用。
一、SNP分析原理1.SNP检测技术:SNP检测技术包括基于DNA芯片的方法、测序技术、实时荧光PCR等。
其中,高通量测序技术是最常用的SNP检测方法,可以同时检测数千个SNP位点。
2.数据分析与统计学方法:通过SNP检测技术获得的数据可以分为基因型数据(AA、AB、BB等)和等位基因频率数据(A频率、B频率等)。
统计学方法常用的有卡方检验、线性回归、逻辑回归等,用于研究SNP与表型之间的关联性。
二、SNP分析方法1.关联分析:关联分析是研究SNP与表型之间关联性的基本方法。
常用的关联分析方法包括单基因型分析、单SNP分析、基因组关联分析(GWAS)等。
单基因型分析主要是比较单个SNP的基因型在表型不同组之间的差异;单SNP分析是研究单个SNP是否与表型相关;GWAS是通过分析数万个SNP与表型之间的关系来找到与表型相关的SNP。
2. 基因型预测:基因型预测是根据已有的SNP数据,通过统计模型来预测个体的基因型。
常用的基因型预测方法有HapMap、PLINK等。
3. 功能注释:功能注释是研究SNP位点的生物学功能,揭示SNP与基因功能、表达水平之间的关系。
常用的功能注释工具有Ensembl、RegulomeDB等。
三、SNP分析应用1.遗传疾病研究:SNP与遗传疾病之间存在着密切的关系。
通过SNP分析可以发现与遗传疾病相关的SNP位点,进一步揭示疾病发生的机制,为疾病的诊断、治疗提供依据。
2.药物反应性研究:个体对药物的反应性往往存在较大差异,这与个体的遗传背景密切相关。
1单核苷酸多态性及其生物学意义单核苷酸多态性(single nucleotide polymorph-ism,SNP)是指相同或不同物种个体的基因组DNA序列同一位置上的单个核苷酸存在差别的现象。
其中多态性(polymorphism)指的是形态多样性和状态(选择)多样性,在这里是基因水平上的多态性,指一个基因座位上存在多个等位基因(allele),它是基因组中发生频率最高的点突变(point mutation),在已知DNA的多态性中占了大约90%[1]。
同时,也发现每1000个碱基中就有一个会发生变异[2],它在一个种群中的发生率至少在1%水平[3]。
因此,具体地说,SNP指的是基因组序列中单核苷酸(A、T、C和G)改变时所发生的DNA序列的多态性变化,即基因组内特定的核苷酸位置上存在2种或更多不同的碱基,其中最少一种在群体中的频率不低于1%。
诚然,单就某一个体的某个基因座位(locus)而言,最多只能有2个等位基因,分别来自父母双方的同源染色体。
但是,SNP体现了多态性的群体概念特性,即在群体中不同个体在等位基因的拥有状态上所存在的差别,这样,一个座位上可以有多于2个的等位基因。
例如,位于6p21.3(6号染色体短臂2区1带3亚带)、有220多个不同功能基因的hla[人类白细胞抗原(HLA)的基因]复合物是人体中多态性最丰富的基因系统,其等位基因的数目有1031个之多,且均为共显性(codominance)基因,如果按随机组合的方式,在人群中的基因型可达1012种之多。
可以想见,除了同卵双生之外,任何2个个体间hla相关基因型完全相同的可能性是极其微小的。
这样的多态性使得种群能够针对各种病原体产生合适的免疫应答反应,从而能够应付多变的环境因素。
另一方面,多态意味着变异多端,其中包含了诸多不同于野生或正常等位基因的致病或异常等位基因信息。
现在,在SNP数据库中报道的SNP数量已经超过了9×106个[4]。
SNP芯片的原理及应用1. 引言单核苷酸多态性(Single Nucleotide Polymorphism,SNP)是基因组中最常见的变异形式,它在人类疾病的研究中起着重要的作用。
SNP芯片是一种高通量基因分型技术,可以用来检测个体基因组中的上万个SNP位点。
本文将介绍SNP芯片的原理以及其在各个领域的应用。
2. SNP芯片的原理SNP芯片是一种将DNA序列多态性引入到DNA芯片上的高通量基因分型工具。
其基本原理如下:1.选择SNP位点:根据研究目的和基因组数据库的数据,选择与感兴趣的生物学过程或疾病相关的SNP位点。
2.设计引物:根据选择的SNP位点序列设计引物,通常采用探针杂交的方式。
引物的设计需要考虑SNP的位点和碱基对应情况。
3.制备芯片:将设计好的引物固定在芯片表面上,并将每个SNP位点的引物排列成阵列状,以便同时检测多个SNP位点。
4.样品准备:从被检测的个体中提取DNA样品,并使用PCR扩增目标SNP位点的DNA片段。
5.杂交:将扩增好的DNA样品加入到芯片上,利用引物与样品中相应DNA片段的互补序列形成特异性的杂交。
6.洗涤:通过洗涤过程去除未结合的DNA片段,使只有与芯片上相应引物杂交的DNA片段留在芯片上。
7.形成芯片图像:利用特定的扫描仪扫描芯片,根据芯片上不同位置的荧光信号强度来分析每个SNP位点上的基因型。
3. SNP芯片的应用SNP芯片在各个领域的应用非常广泛,下面列举了几个典型的应用示例:3.1. 人类遗传疾病研究SNP芯片在人类遗传疾病研究中发挥着重要作用。
通过比较病例组和对照组的SNP芯片数据,可以发现与疾病相关的SNP位点,进而研究疾病的致病机制和发展规律。
例如,在癌症研究中,SNP芯片常用于寻找与癌症发生和进展相关的遗传变异。
3.2. 农业育种SNP芯片在农业育种中的应用越来越广泛。
农业科学家可以利用SNP芯片分析大量的植物或动物个体,筛选出具有优良基因型的品种或个体,从而加快优质农产品的培育速度。
第26卷第2期2006年4月国际病理科学与临床杂志I nternati onal Journal of Pathol ogy and ClinicalMedicineVol.26 No.2Ap r. 2006单核苷酸多态性及其数据库的应用赵 静 综述 周 韧 审校(浙江大学病理学与法医学研究所,杭州310031)[摘要] 随着人类基因组研究计划(hu man genome p r oject,HGP)DNA序列测定工作的迅速发展,研究人类基因组变异越来越受到重视。
基因组变异最常见的一种形式就是单核苷酸多态性(single nucleotide poly mor phis m, S NPs),S NPs已成为继限制性酶切片断长度多态性(restricti on frag ment length poly mor phis m,RF LP)和微卫星之后的第3代遗传标记,大规模的S NPs鉴定和S NP公共数据库已经建立。
研究S NPs不仅有利于基因组测序,更有利于复杂性疾病相关基因的研究和药学基因组学的发展。
[关键词] 单核苷酸多态性; S NP数据库; 等位基因[中图分类号] Q811.4 [文献标识码] A [文章编号] 167322588(2006)022*******S i n gle nucleoti de polym orph is m and appli ca ti on of its da t aba seZ HAO J ing,Z HOU Ren(Institute of Pathology and Forensic M edicine&Research Center of Environm ent Geno m ics,School of M edicine,Zhejiang U niversity,Hangzhou310031,China)[Abstract] A l ong with the rap id devel opment of DNA sequencing in hu man genome p r oject (HGP),researches on hu man genovariati on become more and more i m portant.The most common for m of human genovariati on is single nucleotide poly mor phis m(S NPs).A s a marker secondary t o restricti on frag2 ment length poly mor phis m(RF LP)and m icr osatellite,S NPs has been the third generati on of genetic rge2scale S NPs identificati on and public S NP database have been set up,researches on S NPs have great significance in revealing the essence of life.It not only contribute t o genome sequencing,but als o can supp ly useful inf or mati on for the further study of disease related gene and the devel opment of phar macogeno m ics.[Key words] single nucleotide poly mor phis m; S NP database; allele[In t J Pa thol C lin M ed,2006,26(2):0152204]1 SNPs的类型和分布S NPs是指在基因水平上由于单个核苷酸位置上存在转换、颠换、插入、缺失等变异而引起的DNA 序列多态性,且至少在一个人群中这种变异的发生频率在1%以上[1]。
因为在人类基因组中,其他形式(包括三、四等位基因)的S NPs非常罕见,因此S NPs有时也简单指双等位基因标记[2]。
在含30亿个碱基的人类基因组中,估计每1000个碱基可出现1个S NPs[3],那么整个基因组中有超过300万个核苷酸多态位点。
根据基因组中S NPs所处的位置的不同,S NPs可分为编码区S NPs (cS NPs)、基因调控区S NPs(pS NPs)和存在于连接两个连接基因之间的DNA中的随机非编码区的S NPs(rS NPs)3大类[4],大部分单核苷酸多态位点(2/3)位于非编码区DNA中,少数(1/3)位于基因内部,如果S NPs存在于基因的编码区或者调控区,它们能够导致基因功能改变,从而对表型产生明显的影响[4,5]。
人类基因组中共有25~40万个cS2收稿日期:2005210212 修回日期:2006202228作者简介:赵静(19812),女,安徽淮北人,硕士研究生,主要从事淋巴瘤分子生物学方面的研究。
基金项目:浙江省自然科学基金(M303818);浙江省医药卫生科研基金(2002ZX010,2003A020) 第2期赵 静,等:单核苷酸多态性及其数据库的应用 第26卷 NPs,其中有20%~30%能引起氨基酸的编码序列发生改变,导致蛋白质功能的改变,这部分cS NPs称为非同义编码S NPs(nonsynony mous S NPs,nsS2 NPs)[6]。
因此,对人类基因组S NPs进行大规模的研究具有重要的意义,可以用于阐明肿瘤和复杂性疾病的遗传机制,以及指导用药和药物的设计。
2 SNP数据库的建立S NPs作为第3代遗传标记,分布比微卫星更稳定,密度更高,且具有一定的代表性,并且与RF LP 及微卫星等DNA标记不同,不再以长度的差异作为检测手段,而是直接序列的变异作为标记,易实现分析的自动化。
这样人类开始了对S NPs数据的分析研究,并试图将所有S NPs数据收集和储存在S NP 公共数据库中,以方便研究者的研究。
1998年9月,美国国家生物技术情报中心(na2 ti onal center for bi otechnol ogy infor mati on,NCB I)与美国国立人类基因组研究所(nati onal human geno me research institute)合作,在原有的人类基因组数据库的基础上,增设S NP数据库,取名为dbS NP(the data2 base of S NP;htt p://www.ncbi.nl / S NP)[7]。
随后,欧洲生物信息学研究所(EB I),欧洲分子生物学实验室(E MBL),瑞典Kar olinska医学院基因组研究中心共同建立了人类基因组变异数据库,为HG Vbase(hu man geno me variati on database;ht2 t p://hgvbase.cgb.ki.se/)[8],这两个最大的公共数据库共包括几百万个S NPs。
另外也存在一些相对较小或特殊性的S NP数据库,如TSC(9),JS NP(10), HOWDY(11),GeneS NPs(12),其中JS NP为日本(the u2 ni on of Japanese science and technol ogy cor porati on, JST)建立的。
中国构建的第一个人类基因组多态性数据库是由四川华西医科大学疾病基因组学与法医学重点实验室和北京大学生命科学院国家生物信息中心合作所建立的,名为G O!Poly(gene oriented poly mor phis m s database,htt p://61.139.84.5/gopo2 ly),主要用于对中国人群的研究。
3 SNP数据库应用上存在的问题高血压、糖尿病和肥胖是威胁人类健康的主要疾病,这些复杂性疾病是由遗传和环境等多种因素共同作用引起,其发病机制至今未明。
通过对S NP 数据库中相关复杂性疾病候选基因的S NPs的分析研究,可有希望阐明这些疾病的遗传学发病机制,从而有效的指导疾病的治疗和预防。
随着新的分子生物学技术的发展,半自动和全自动识别和检测大量S NPs的方法也正在发展,如DNA芯片技术、Taq Man方法等,S NP公共数据库中的数据也不断扩充,然而这些已经存在的S NP数据库的质量和完整性还需要进一步评价。
对从公共和Celera数据库中获得的4百万个候选S NPs的质量和完整性评价表明,大约6%~12%的S NPs并不是有效的[13],它们所代表的是极少有变化且种群特异性的S NPs,而且存在序列上的错误。
其他一些研究报道,任何一种种族人群中,仅有50%S NPs是通用的,可见S NP数据库的精确性和完整性还有待进一步完善。
由于不同因素的影响,一些复杂性疾病如高血压、肥胖、哮喘等候选基因S NPs的等位基因分布有不同的频率,因此还需对数据库中S NPs的等位基因频率和连锁不平衡做更深的探索,以便在做种群相关复杂疾病研究过程中有效的选择少量特异性的S NPs,这与2003年Carls on等[14]报道的关于人类整个基因组相关研究中的S NPs的数据库评价结果一致。
首先,人种及其地域分布因素对S NP数据库的通用性可造成一定的影响。
Dvornyk等[15]对大量美国高加索人种肥胖和骨质疏松患者中的10个候选基因的41个S NPs做等位基因发生频率的研究,比较高加索人群和S NP公共数据库和文献中的同种人群以及不同种族人群(包括亚洲,美洲和西班牙)中的相对应S NPs的等位基因频率,发现部分S NPs 的等位基因频率存在明显的差异。
目前S NPs研究中样本包括不同种族的人群,但各个种族群体所占的比例并没有确定,由于其他研究中不同种族的样本量所占的比例也非完全相同,因此或多或少会影响等位基因的频率。
同样,同一种族的样本也可能含有与混合种族群体完全不同的等位基因频率,因此在复杂性疾病候选基因的一些S NPs标签(S NPs Tag)处,不同的种族群体会有明显不同的等位基因分布,即大量样本中的种族异源性会显著影响所观察的等位基因频率。
研究还发现最大的不同出现于亚洲和高加索种群之间,22个S NPs相比较,有13个S NPs的等位基因频率不同,这些结果与原先关于亚洲和高加索人骨肿块候选基因的明显不同的报道数据一致[16]。
研究中国浙江地区汉族人群cas pase2 3基因3个位点的单倍型,结果发现3个位点间存在强的连锁不平衡,且它们构成的主要单倍型明显不同于北美人群[17]。