当前位置:文档之家› SNP芯片数据库及其分析工具的构建和应用

SNP芯片数据库及其分析工具的构建和应用

东南大学

硕士学位论文

SNP芯片数据库及其分析工具的构建和应用

姓名:董献军

申请学位级别:硕士

专业:生物医学工程

指导教师:陆祖宏

20050601

东南大学硕士学位论文

进行筛选对于没有生物信息学背景的实验者来说也是一个很大的负担。在DrSNP系统中.我们企图利用生物信息学方法为这种sNP位点的筛选开发出计算机辅助工具,并且把这种筛选过程流程化。‘

目标:开发出一套sNP位点筛选工具并把它整台在DrsNP数据库中,这种筛选工具要达到几个基本目标友好的界面,综合运用各种方法从调控区、可变剪切位点、氨基酸性质改变以及蛋白空间结构变化等多角度分析,并可以根据实验的结果对筛选系统进行修改和扩展最终希望形成一个方便实验者使用的在生物信息学方面有创新性的综合筛选平台。

通过对现有各种筛选方法的收集比较,我们形成了一套自己的筛选思路,如图2.3所示,我们从5个方面筛选可能的候选sNP:

1、同义、非同义SNP

2、启动区(Promoter)的sNP

3、可变剪切位点上的SNP

4、不同Haplotypeblock上的sNP

5、连锁不平衡(LD)角度

我们认为这五类sNP具有生物意义的sNP应该予以优先考虑。结合这些标准,建立一个合适的评估机制,这是这一部分的主要工作。这一部分工作由组里另一个同事在负责完成。

图2-3候选SNP的筛选策略

2.4.芯片结果分析

做完实验,我们得到位点的基因型频率(Genot),peFrequency)和等位基因频率(A11eleFrequency),还有各个样本本身的数据(包括年龄、性别、职业、地域以及各种病理指标)。要研究位点和疾病的相关性,就需要对病人样本的实验结果作统计分析,包括和正常人的同类数据作方差分析,病人等位基因频率和病理指标的相关性分析,各个位点之间的连锁性研究等等。

2.4.1.总体设计

整合各种统计分析方法的数学模型,建立基于DrsNP数据库的实验结果的在线分析平

第二章疾病相关的sNP数据库平台

现这个功能。EH还可以用T5统计量检验单体型频率在case-control组间是否有显著性差异。T5统计量的表达式为:T5=2【In(L,cases)十ln(L,controls)一ln(L,cases+controlstogether)],满足自由度为d叠单体型数目.1的卡方分布。’

2.5.小结

这一章主要是介绍DrsNP平台,包括系统构架、系统三个主要的数据库,以及跨在这三个数据库的前后的两个主要工作:sNP筛选和实验结果的分析。简单说来,DrsNP工作的整个流程是这样的(如图2.5所示):一方面,我们从医院收集各种疾病的样本信息(caserecords),包括病人和正常人,形成系统的样本数据库(sampIeDB):另一方面,我们从国际上公认的sNP数据库(例如dbsNP下载数据,经过选取、简化处理之后形成我们自己的本地sNP数据库(sNPDB);在这两者基础上.开发了sNP筛选的生物信息学平台,为实验人员(科研人员)探究sNP与某种疾病的相关性提供服务。选定某种疾病的样本以及一定数量的候选sNP之后,就开始进行基因定型(genoIyping)的实验。这一部分工作是利用基因芯片(DNAMicmarray)的技术完成的。基因定型之后,我们得到了一系列芯片扫描的结果数据(图像或文本),这些数据,连同实验方法的描述都放在芯片数据库(ArraYDB)里。这些数据都是实验室的资源,可供后续的研究继续使用。在上述三个数据库的基础上,平台开发了一套在线的分析平台,用于对数据库里的数据进行各种统计分析,从而帮助用户更方便的得到sNPs与所研究疾病之间的关系。

图2-5DrSNP工作的流程

DrsNP系统最终除了要在genotyping的技术上做出自己的特色来之外,在软件系统的搭建上也要做成一个面向服务的系统。

图2.6是我们目前设计的系统运行模式,有跟内部数据库的通讯,有跟外部的数据沟通,有各种web服务,有自动的信息发布。当然,这只是系统目前的状态。我们正在跟计算机系合作,试图把Grid(网格计算)的技术应用到这个系统中来,将来这个系统的布局应该呈现网状结构,无论是数据来源,还是提供服务的网点,都是Grid中的一个格点。

相关主题
文本预览
相关文档 最新文档