当前位置：文档之家› Hapmap用户指南

Hapmap用户指南

国际人类基因组单倍体图计划

网站用户指南

Gudmundur A. Thorisson1*, Albert V. Smith*, Lalitha Krishnan, and Lincoln D. Stein Cold Spring Harbor Laboratory, 1 Bungtown Road, Cold Spring Harbor, NY 11724

翻译：Hejidong

国际人类基因组单体型计划网（https://www.doczj.com/doc/a68625800.html,）是获取国际人类单体型图计划部分基因分型数据的主要门户网站(Gibbs et al. 2003)。在计划的第一阶段，来自全世界4个人群的270个样本共检测出了110多万个SNP位点(Consortium 2005)。该网站向研究者提供用于数据分析的工具以及允许其下载数据以便进行本地分析。本文提供使用这些工具的详细指南，包括：检索基因分型和基因频率数据，关联性研究中标签SNP的选择，单体型作图，相互关系的排列测验。

国际人类单体型图计划的目标是对人类基因组中常见遗传多态性作图和推断，以推动针对人类疾病遗传因素的研究。该计划第一个重要的里程碑是在2005年春天，完成了对4个人群超过110万个SNP的基因分型检测，第二阶段准备完成另外460万个SNP的检测，并计划于2005年秋完成。

该计划的数据可在HapMap（https://www.doczj.com/doc/a68625800.html,）网站无限制获取。该网站提供数据集的批量下载，以及独有的交互数据浏览与分析工具。自2003年9月向公众开放以来，来自100多个国家的研究者已经下载了HapMap数据集50万余次。该网站目前每月处理超过3万余次的静态页面请求，其中1万4千次是批量下载请求，以及每月处理10万余次HapMap交互式浏览器登录。

本文介绍Hapmap网站及其用于查看、检索和分析数据的工具。我们将展示如何进行一些有用和常见的任务，以及概述正在完善和开发中的新工具。Hapmap网概述

Hapmap网（https://www.doczj.com/doc/a68625800.html,）主要由三个部分组成，均可从网页顶部的横标题进入。“主页”概述人类基因组单体型图计划，并列出相关新闻。“关于本计划”则更详细地描述了该计划，提供了遗传关联性作图的背景信息，由本计划引

出的伦理问题，计划执行协议，以及计划管理。“数据”提供HapMap数据和分析包的批量下载，以及交互式访问Hapmap数据库的通道。本文着重于介绍数据部分。

一、使用基因浏览器查看基因型数据

对人类疾病遗传影响的研究往往集中于少数候选基因。这种情况下研究者可能希望知道在候选基因附近是否有常见的单核苷酸多态性（SNPs）存在，单核苷酸多态性等位基因是什么，以及这些等位基因在人群中的相对频率。研究者可能也对编码SNP特别感兴趣，这些编码SNP的等位基因改变基因产物的氨基酸序列，由此可能表现出功能上的改变。

Hapmap网站的基因组浏览器提供交互式浏览，可查看小至中等大小的基因组区域。本基本方法将演示如何开始使用基因组浏览器：

1.使用任何网络浏览器，打开https://www.doczj.com/doc/a68625800.html,。

2.点击Hapmap网站主页“Project Data”下的“Browse Project Data”链接。也可通

过https://www.doczj.com/doc/a68625800.html,/cgi-perl/gbrowse/gbrowse/直接打开。

3.这将会打开基于GBrowse程序包的的基因组浏览器(Stein et al. 2002) (Figure

1)。根据你电脑的语言设置，该页面可能呈现几种语言的其中之一。本指南

假定使用英语。

4.将光标定位在“标志或区域”检索框，输入检索词。允许输入以下类型词：

a)染色体名（例如“Chr10”）。

b)染色体位置，格式：染色体：起..止（例如“Chr9:25000..300000”）。

c)使用其SNP数据库的“rs”号（例如“rs4285800”）

d)该基因的NCBI参考序列数据库收录号（例如“NM_214279”）

e)基因通用名（例如“BRCA2”）

f)染色体带（例如“10q23.1”）

5.录入标志后，按“Search”按钮（或点击Enter键）

6.这将返回一个页面，显示查询点周围区域的情况（Figure 2）。如果多个如

果符合查询要求，将以图表形式显示所有可能的结果，并提示选择其中之一。

返回页面的顶部是所选择染色体细胞遗传图谱的概述部分。红框表示染色体

在视图中所在的部分。之下的“细节”部分是横向显示各种类型数据的通道。

最有用的两个通道是“Genotyped SNPs”通道和RefSeq mRNAs通道，前者提供Hapmap计划具有特色的关于每一个SNP位置、等位基因及其频率的信息，后者显示人类蛋白编码基因的位置和结构。

7.使用页面顶端的控制按钮可以向左、向右滚动或者改变显示区域的大小。也

可以点击“概览”部分的任意部位或“细节”顶部的标尺以使位点居中。8.“Genotyped SNP”数据通道随着图像大小而改变其外观。在放大率较低时，

“Genotyped SNP”呈等边三角形。三角形的背景色显示其编码状态：SNP 代表氨基酸非同义编码改变的为黄色，位于外显子内但产生同义核苷酸替换的为粉红色，位于非编码区的为蓝绿色。可通过在“Reports and Analysis”

菜单中选择“Highlight SNP Properties”个性化定制这些显示颜色。

9.在放大率较高时，“Genotyped SNP”改为显示与SNP关联的等位基因。显示

为蓝色的是在该位置出现于参考基因组序列中的等位基因，红色的是SNP 中存在的其它等位基因。

10.当进一步放大时，“Genotyped SNP”数据通道变为显示饼图，代表已作基因

分型检测人群的等位基因频率。饼图的蓝色楔形部分表示出现于参考基因组序列的等位基因频率，而红色楔形部分表示对应的等位基因频率。

11.点击某个SNP的图标，可见到其文本页面，显示了详细的基因型、等位基因

分布情况以及相关鉴定信息。步骤（9）中出现的饼图可使研究者轻松地找出那些在4个Hapmap人群中呈现高度多态性的SNP，这些SNP很有可能在其它人群中也呈现多态性。换言之，研究者能够鉴定在某个人群中更有可能呈现多态性的SNP，而这些SNP因此适合作为人群特异性的遗传筛选标志。

点击“Genotyped SNP”（步骤10）获得的详细视图可向研究者提供该SNP的实验信息，包括用以产生PCR引物左右两侧的序列信息。指向

dbSNP(Wheeler et al. 2005)的超文本链接提供更多关于该SNP如何被发现的信息，以及任何可能存在于Hapmap计划之外的人群遗传信息，而Ensembl “Birney et al. 2004”链接则跳转至一个网站，该网站使研究者能够调查该SNP在编码序列、剪切位点的影响，以及临近基因的其它特性。

二、使用基因组浏览器生成基因分型列表文件

当研究者浏览了基因组区域视图并将候选基因置于区域视图中间后，他也许想生成一个以空格符隔开的文本文件，该文件包括了该区域的基因分析结果，其数据能被导入Excel电子表格或者其它数据分析工具中。

1. 从技巧一的步骤6开始，定位到感兴趣的区域

2. 光标定位到“报告与分析”菜单（位于细节菜单上面），选定“导出SNP 基因分型数据”，然后点击“配置”按钮。将会打开配置页面，使你可选择感兴趣的HapMap人群，选择是否将数据储存到磁盘，或直接在浏览器中查看。

3. 选定需要的选项后，点击“执行”按钮以检索数据和产生报告。报告文件格式同批量下载（如下）。导出配置的设置储存在浏览器Cookie中，以便你下次在主页上点击“执行”按钮时不用先配置导出选项，直接导出即可。文本导出格式中包括每个SNP的dbSNP的ID号，两个参考和互换的等位基因，SNP在基因组中的位置，选定人群中每个样本的SNP基因分型。因为这种格式与可批量下载文件相同，所以研究者可将其轻松导入自己电脑的HaploView程序中以进行详细的分析。

三、使用基因组浏览器产生基因分型频率文本

同样，研究者也希望下载感兴趣区域等位基因频率的摘要文本。这样研究者就能够选择某组SNP符合某种标准的数据，例如那些在某个特定研究人群多态性最显著的SNP。本技巧将描述如何创建一个由制表符隔开的摘要文本，文本内含有特定基因组区域内HapMap等位基因频率的数据。

1. 从技巧一的步骤6开始，定位到感兴趣的区域。

2. 定位到“报告和分析”菜单（细节面板之上），然后选择菜单项“导出SNP频率数据”，接着点击“配置…”按钮。将打开配置页面，你可以选择需要的HapMap人群，是否储存数据到磁盘，或者在浏览器上查看。

3. 点击“执行”按钮检索数据并生成报告。文件格式同批量下载（如下）。导出配置的设置储存在浏览器的Cookie中，以便你下次在主页上点击“执行”按钮时不用先配置导出选项，直接导出即可。生成的报告中，一个SNP一行，

包括SNP的dbSNP的ID号，染色体位置，在选定人群中可能基因型被观察到的次数，以及该SNP在人群中的杂合度。

四、使用浏览器查看连锁不平衡程度

当一个研究者设计一个实验，需要检测一个常见等位基因变异和研究疾病之间的相关性时，了解区段内连锁不平衡程度相关知识是非常必要的，如此可以减少区段内需要检测的SNP数量。如果区段内存在高度连锁不平衡，那么只有少数几个SNP需要检测。因为这些SNP与区段内其它SNP的连锁关系就已经代表了其它非标记SNP的基因分型。相反，如果区段内的连锁不平衡程度较低时，就需要大量的采样规模才行，因为根据已检测的SNP等位基因无法推测未检测SNP。事实上，HapMap计划具有特色的对四个人群连锁不平衡方式的检测，是该计划的主要目标之一。国际人类基因组单体型图计划已经预测出了已检测SNP 的连锁不平衡方式。可以从HapMap网站批量下载数据，或者使用HapMap基因组浏览器进行交互式浏览。后一种方法可使研究者在查看连锁不平衡方式的同时可以与研究基因分布情况联系起来。

1. 要查看可从HapMap获取的LD数据，首先要找到需要研究的区段。

2. 找到需要研究的区段后，选择“报告和分析”菜单的“注释LD plot”选项，然后点击“配置”按钮以显示配置页面，这样你就可以根据你的嗜好调整输出内容了。该页面的关键参数是选择哪种HapMap人群，使用何种测量LD的方法（选择D'，r2或LOD），三角图是否随着顶点朝上或朝下调整方向，色彩方案以及图片大小是否与基因组标记间的距离成比例或者采取固定大小（见Figure 3）。

3. 配置好需要的参数后，点击“配置”按钮返回主界面。此时将显示一个代表所选人群的三角图（见Figure 4）。该三角图是由每对SNP沿45度与水平线的交点构成。两个SNP交点处方块的颜色表示LD的量级：颜色越深LD程度越高。灰色方块表示数据缺失。图4显示了一个典型的LD区段，高LD的部分被界限相当清楚的低LD部分分割。

4. 在有许多已检测的SNP区段，LD插件明显需要更多时间来加载网页。你随时可以通过在浏览器的“数据通道”部分取消勾选相应的选项，来关闭LD

的显示。LD插件设置储存在浏览器的Cookie中，所以每当插件打开时你就没有必要去访问配置页面。常用D'和r2值反映了两个SNP的成对LD程度，但是在不同的测量尺度上具有不同的敏感性和特异性。参考（Mueller 2004）对上述两种方法在实践应用中的讨论。HapMap网站中所使用的LOD值参考（Daly et al. 2001）。

五、如何使用基因组浏览器生成一个连锁不平衡值列表文

件

在选择了所要研究的区段并目测了一个或几个基因的LD程度后，研究者可能希望下载这个区段LD值的文本文件（制表符隔开的数字）。该信息可用于选择“标签”SNP，这些“标签”SNP可以代表那些与其高度连锁不平衡的其它SNP。

1. 从技巧一的步骤6开始，找到所要研究的区段。

2. 在“报告和分析”菜单（在“细节”面板上面）中选择菜单项“导出HapMap LD数据”。然后点击“配置…”按钮，打开配置页面选择导出何种人群的数据、是否储存数据到磁盘或在浏览器中查看。

3. 点击“执行”按钮，检索数据并生成报告。文件格式同批量下载文件（如下）。导出配置的设置储存在浏览器Cookie中，所以当你下次进行同样的操作时只需在主界面点击“执行”按钮并直接导出数据即可，省略了配置的步骤。这样生成的报告将会显示500 kb范围内所有SNP相互之间的成对LD值（随着未来随着数据库的发布，窗口可能会减小）。报告中的每一行对应于一对SNP。前两列表示SNP在染色体上的位置，第三列是要计算LD值得人群，而第四和第五列表示这对SNP的dbSNP的ID号。其后是两个SNP间的D'值，r2值以及LOD 值。

六、如何使用基因组浏览器选择“标签”SNP

标签SNP是区段内一组具有许多连锁不平衡的SNP的简化；为检测研究特性与基因组区段之间以连锁不平衡为基础的关联，标签SNP可减少需要检测的

SNP数量。对于较小的区段来说，可以通过上述两种方法生成的关于LD的图形和数字来手动选择标签SNP，但是为获得最佳效果，推荐使用通过最大化标签组内连锁SNP数量的算法。没有单独的一组标签SNP满足每个关联性研究的不同需求。研究者可能希望选择那些在某个基因分型系统中高效率的SNP（例如，那些已包含在某种“SNP芯片”上的SNP），并且愿意接受在研究人群的检测成本与能检测出的关联强度之间的各种权衡。由于上述原因，HapMap 网站并没有提供一组预选的、固定的标签SNP，而是在用户提供的标准基础上向研究者提供交互式选择标签SNP的工具。要在一个区段内找到标签SNP，首先浏览该区段（见方法一）。

1. 从方法一的步骤6开始，找到相关区段。

2. 选择“报告和分析”菜单下的“注释tag SNP Picker”选项。

3. 点击“配置”，选择需要的选项（见figure 5）。选项包括人群选择和算法，上传要包括在标签SNP中的ID号列表，上传每个SNP的设计分数列表，选择可接受的最小LD值，以及SNP的等位基因频率。

4. 设置完所要的选项后，点击“配置”按钮进行分析并返回主界面。结果显示在一个新的数据通道上（见Figure 6，在标记为“tSNPs_Tagger_CEU”的下面）。与前面LD的输出一样，设置储存在浏览器的Cookie中，不需要时可关闭插件。

标签SNP列表由Tagger程序的算法生成（de Bakker 2005）。不久我们将通过增加另外的算法来升级标签选择服务，欢迎就此进行询问。

七、如何使用基因组浏览器生成标签SNP文本

在使用上述方法交互式选择标签SNP的过程中，研究者可以调整选择标准直到其满意为止。本方法就如何生成SNP数据组的导出文本，以利用其与其它HapMap报告相结合建立一个筛选组作一描述，

1. 首先找到所要研究的区域（见方法一）。

2. 在“结果和分析”菜单中选择菜单项“显示tag SNP Data”。点击“配置”以进行如方法6中所介绍的标签SNP选择的交互式选项设置。选项包括选择人群

及算法，上传必要的标签SNP列表，上传须排除的标签SNP列表，以及设置LD 和等位基因频率最小值。

3. 点击“执行”按钮进行数据检索并生成报告。

生成的报告（制表符分割的列表）中包括标签SNP名，染色体，位置以及

该区等位基因的频率。然后是标签SNP及其所代表的非标签SNP列表，每一标签SNP与其所代表的非SNP之间的LD强度。

八、如何在基因组浏览器中查看位相式单体型图

研究者可能希望将标签选择算法所筛选的标签SNP与所在区域相应的单体

型结构联系起来。一种方法是同时打开标签SNP和成对LD数据通道，如方法

四和方法六中所介绍的。不过另外一种方法则是直接激活位相式单体型数据通道。本方法中所描述的位相式单体型数据是由国际人类基因组单体型图计划联盟根

据PHASE 2.0版程序所创建。在确定位相过程中，使用最大似然算法（根据HapMap人群组中的家系连锁信息）将基因型中的每个等位基因分配给其中一个亲代染色体。如果无法得到家系信息，则将人群中所隐含的过去的重组数量最小化，使数据符合该模型。

在位相式单体型图中，用一条线（一个像素高）表示一条样本染色体，每个SNP等位基因可能为蓝色也可能为黄色。高度连锁不平衡的区域呈现为大段具有相同颜色等位基因的SNP，意味着它们之间很少发生重组。低度连锁不平衡的区域呈现为较短、更加碎片化的片段。

1. 找到所要研究的区域。

2. 在“结果和分析”菜单中选择“注释Phased Haplotype Display”菜单项。点击“配置”进行单体型输出的设置。可选择需要输出何种人群的单体型信息。

3. 选择完需要的人群后，点击“配置”按钮返回主界面。这时会为每个所选人群出现一个新的数据通道。每个数据通道用上述的双色图案显示了该人群的单体型情况（Figure 6, track“haplo_CEU”）。染色体的排列顺序由快速分层聚类分析法产生，该方法将共有类似单体型的染色体放置在一起。

4. 要得到详细的基因分型位相信息，点击相应人群的数据通道。将会打开一个以图表形式提供单体型信息的页面。表格的每一行是一条样本染色体，每一列是样本的SNP。每一个表格项目的背景颜色与图形化数据通道所见一致。

该图形显示优于前述成对LD“三角图”之处就是更加紧凑，因此更适合显示大段区域。这样就容易将大段常见单体型所在的位置与标签选择程序所选择的SNP联系起来。不足之处是该图隐藏了区域内大量LD的精细结构，特别是非临近区域SNP的高度连锁信息。

九、利用Haploview处理HapMap数据

高级用户也许希望使用Haploview软件进行数据分析，这样就能够对高度连锁区域的显示进行精细地控制，或者在选择标签SNP时尝试新的算法。

1. 安装Haploview，请至https://www.doczj.com/doc/a68625800.html,/mpg/haploview/下载。

2. 要求本地计算机已安装Java Runtime Environment（JRE）。如果未安装JRE，可在https://www.doczj.com/doc/a68625800.html,找到最新版本。

3. 下载适合自己操作系统的Haploview程序。安装了Windows的计算机，下载windows安装文件。双击安装文件将在开始菜单创建一个Haploview文件夹。对于MacOS X和Unix操作系统来说，则应下载HaploView.jar文件。

4. 使用方法二下载所要研究区域的基因分型数据。

5. 打开HaploView.jar文件，启动HaploView程序。在安装Windows的计算机上，从开始菜单的HaploView.文件夹中打开HaploView.jar程序，其它操作系统

则双击HaploView.jar文件。

6. 在Haploview欢迎窗口，点击“Load HapMap Data”按钮加载基因分型数据。找到包含基因分型数据的已下载文件并打开。

7. 一旦数据下载完成，Haploview将会提供选项让你能够查看区域内LD的高

分辨率“三角图”，查看共有单体型及其重组频率，多种方法选择选择标签SNP。你可以在Haploview窗口顶部选择合适的选项卡，来选择数据分析和可视化方法。

8. “显示”和“分析”菜单允许你改变LD三角图的大小和颜色，选择多种算法来定义那些区域内SNP互相处于高度LD的“单体型块”。

Haploview优于HapMap基因组浏览器的最大好处是，高度和低度LD的区域可以同时显示，并且在滚动和缩放操作时可以实时反馈。目前不足之处是它不能显示基因结构或其它基因组特性，不过已经计划在将来对此予以优化。

十、使用HapMart检索HapMap数据

因为考虑到效果的问题，通过基因组浏览器交互式访问HapMap 数据被限制在5 Mb 区域内。希望获取整个染色体或全基因组数据的研究者有两个选择：批量下载或HapMart 途径。前者（方法十所述）提供全部HapMap数据集的文本导出，尽管完整，却不提供任何过滤和筛选功能。本节要讲的HapMart，允许研究者使用多种标准选择SNP，并且仅仅显示数据集中他们感兴趣的部分。

1. 在https://www.doczj.com/doc/a68625800.html,/BioMart/martview打开MartView界面，点击“next”按钮，使用默认数据库和数据集开始新的查询。

2. 在筛选页面（见Figure 8），在众多标准（单独或者联合）基础上选择要检索的SNP。你可以按任意顺序进行筛选，可以使用“next”和“back”按钮筛选过滤设置。当你进行筛选时，被选的SNP数量显示在右边的摘要面板上。可用的筛选包括：

a. 纳入或排除SNP列表。

b. 所选SNP的最小次要等位基因频率。

c. 限定为在内含子区、mRNA/UTR、非同义编码或同义编码SNP。

d. 限定为在特定基因组区域的SNP。

e. 限定为覆盖特定基因ID号的那些SNP。

3. 在进行适当地选择和改进筛选条件之后，点击“next”按钮进入输出选择页面。该页面允许你选择要在报告中输出的字段。该页面有许多输出选项，以一系列选项卡的形式排列在屏幕顶端。例如要检索基因型，选择页面顶端的“Geno-types”选项卡。然后勾选“genotypes”选项。其它输出选项包括SNP染色体位置，等位基因，基因型频率和等位基因频率。

5. （可选）如果待检索的SNP数量过大，你可能希望选择“gzip file compression”。这样将会在发送结果到你的浏览器之前对文件进行压缩，而且可能节约下载报告的时间。

6. 检索结果，选择“Export”按钮。HapMart报告是由制表符分隔的格式文本，适合输入Excel或存入相关的数据库。HapMart的搜索引擎是名为BioMart的通用型数据挖掘架构（Gilbert et al. 2003）。

十一、通过批量下载检索数据

最后，用户可以通过批量下载获得所有未筛选的HapMap数据。

1. 获取批量数据，访问下载页面（https://www.doczj.com/doc/a68625800.html,/downloads/）。每种可获取数据均有下载链接及说明。

2. 下载基因型数据，点击“Genotypes”链接转到基因型下载目录。“latest/”子目录始终指向当前的数据冻结。

3. 也可以通过匿名文件传送协议访问下载资源库（网址ftp://https://www.doczj.com/doc/a68625800.html,）。数据的两个主要目录一方面是完整的全套染色体导出文件（'full/'子目录），另一方面是细分化的数据导出文件（'ENCODE/'子目录，数据来自10个可用SNP已分型的ENCODE区域）。两个目录的数据文件

a. non-redundant/ Cleaned在这些数据组中，每一SNP/人群仅包含一组基因型。所有基因型组均经过质量控制核查，同一SNP的多次重复提交（这种情况之所以发生，是因为质量保证措施的运用、修改后投稿以及该项目的计划内冗余）已被排除。

b. redundant-filtered/ All这些数据组已经过质量控制核查，但冗余数据未被消除。

c. redundant-unfiltered/ All该数据组包含所有该计划的SNP分型数据，不考虑质量控制核查。有些用户希望查看这些“原始”数据，这些数据在生物学上可能具有某种意义，通常情况下会被计划的质量控制核查过滤。

3. 下载LD值，点击“LD Data”链接到LD数据下载目录。“latest/”目录再次指向最近的可用数据冻结。LD值表示为D＇、LOD和r2。

4. 下载位相式基因分型数据，点击“Phased Data”链接到相应目录。该目录中的数据文件以PHASE程序的输出形式呈现。