当前位置：文档之家› SNP芯片数据库及其分析工具的构建和应用

SNP芯片数据库及其分析工具的构建和应用

东南大学

硕士学位论文

姓名：董献军

申请学位级别：硕士

专业：生物医学工程

指导教师：陆祖宏

20050601

东南大学硕士学位论文

进行筛选对于没有生物信息学背景的实验者来说也是一个很大的负担。在ＤｒＳＮＰ系统中．我们企图利用生物信息学方法为这种ｓＮＰ位点的筛选开发出计算机辅助工具，并且把这种筛选过程流程化。‘

目标：开发出一套ｓＮＰ位点筛选工具并把它整台在ＤｒｓＮＰ数据库中，这种筛选工具要达到几个基本目标友好的界面，综合运用各种方法从调控区、可变剪切位点、氨基酸性质改变以及蛋白空间结构变化等多角度分析，并可以根据实验的结果对筛选系统进行修改和扩展最终希望形成一个方便实验者使用的在生物信息学方面有创新性的综合筛选平台。

通过对现有各种筛选方法的收集比较，我们形成了一套自己的筛选思路，如图２．３所示，我们从５个方面筛选可能的候选ｓＮＰ：

１、同义、非同义ＳＮＰ

２、启动区（Ｐｒｏｍｏｔｅｒ）的ｓＮＰ

３、可变剪切位点上的ＳＮＰ

４、不同Ｈａｐｌｏｔｙｐｅｂｌｏｃｋ上的ｓＮＰ

５、连锁不平衡（ＬＤ）角度

我们认为这五类ｓＮＰ具有生物意义的ｓＮＰ应该予以优先考虑。结合这些标准，建立一个合适的评估机制，这是这一部分的主要工作。这一部分工作由组里另一个同事在负责完成。

图２－３候选ＳＮＰ的筛选策略

２．４．芯片结果分析

做完实验，我们得到位点的基因型频率（Ｇｅｎｏｔ），ｐｅＦｒｅｑｕｅｎｃｙ）和等位基因频率（Ａ１１ｅｌｅＦｒｅｑｕｅｎｃｙ），还有各个样本本身的数据（包括年龄、性别、职业、地域以及各种病理指标）。要研究位点和疾病的相关性，就需要对病人样本的实验结果作统计分析，包括和正常人的同类数据作方差分析，病人等位基因频率和病理指标的相关性分析，各个位点之间的连锁性研究等等。

２．４．１．总体设计

整合各种统计分析方法的数学模型，建立基于ＤｒｓＮＰ数据库的实验结果的在线分析平

第二章疾病相关的ｓＮＰ数据库平台

现这个功能。ＥＨ还可以用Ｔ５统计量检验单体型频率在ｃａｓｅ－ｃｏｎｔｒｏｌ组间是否有显著性差异。Ｔ５统计量的表达式为：Ｔ５＝２【Ｉｎ（Ｌ，ｃａｓｅｓ）十ｌｎ（Ｌ，ｃｏｎｔｒｏｌｓ）一ｌｎ（Ｌ，ｃａｓｅｓ＋ｃｏｎｔｒｏｌｓｔｏｇｅｔｈｅｒ）］，满足自由度为ｄ叠单体型数目．１的卡方分布。’

２．５．小结

这一章主要是介绍ＤｒｓＮＰ平台，包括系统构架、系统三个主要的数据库，以及跨在这三个数据库的前后的两个主要工作：ｓＮＰ筛选和实验结果的分析。简单说来，ＤｒｓＮＰ工作的整个流程是这样的（如图２．５所示）：一方面，我们从医院收集各种疾病的样本信息（ｃａｓｅｒｅｃｏｒｄｓ），包括病人和正常人，形成系统的样本数据库（ｓａｍｐＩｅＤＢ）：另一方面，我们从国际上公认的ｓＮＰ数据库（例如ｄｂｓＮＰ下载数据，经过选取、简化处理之后形成我们自己的本地ｓＮＰ数据库（ｓＮＰＤＢ）；在这两者基础上．开发了ｓＮＰ筛选的生物信息学平台，为实验人员（科研人员）探究ｓＮＰ与某种疾病的相关性提供服务。选定某种疾病的样本以及一定数量的候选ｓＮＰ之后，就开始进行基因定型（ｇｅｎｏＩｙｐｉｎｇ）的实验。这一部分工作是利用基因芯片（ＤＮＡＭｉｃｍａｒｒａｙ）的技术完成的。基因定型之后，我们得到了一系列芯片扫描的结果数据（图像或文本），这些数据，连同实验方法的描述都放在芯片数据库（ＡｒｒａＹＤＢ）里。这些数据都是实验室的资源，可供后续的研究继续使用。在上述三个数据库的基础上，平台开发了一套在线的分析平台，用于对数据库里的数据进行各种统计分析，从而帮助用户更方便的得到ｓＮＰｓ与所研究疾病之间的关系。

图２－５ＤｒＳＮＰ工作的流程

ＤｒｓＮＰ系统最终除了要在ｇｅｎｏｔｙｐｉｎｇ的技术上做出自己的特色来之外，在软件系统的搭建上也要做成一个面向服务的系统。

图２．６是我们目前设计的系统运行模式，有跟内部数据库的通讯，有跟外部的数据沟通，有各种ｗｅｂ服务，有自动的信息发布。当然，这只是系统目前的状态。我们正在跟计算机系合作，试图把Ｇｒｉｄ（网格计算）的技术应用到这个系统中来，将来这个系统的布局应该呈现网状结构，无论是数据来源，还是提供服务的网点，都是Ｇｒｉｄ中的一个格点。