数据挖掘技术在DNA数据分析中的应用.
- 格式:doc
- 大小:125.50 KB
- 文档页数:6
基因调控网络的发掘及应用随着科学技术的发展,人们对基因组学的研究逐渐深入,基因调控网络的发掘及应用成为当前研究热点。
基因调控网络是指基因之间相互作用和调节的复杂网络,通过研究基因调控网络可以揭示许多生物学过程的机制,并有效地应用于生物医学领域,具有重要意义。
一、基因调控网络的概念与特点基因调控网络是由基因之间的相互作用和调节组成的复杂网络,每个基因可以参与多个调控网络中,成为多个功能模块的组成部分。
从结构上看,基因调控网络通常呈现出小世界属性、无标度特征和模块化组织结构等特点。
其中小世界属性指的是网络中节点之间的平均路径长度相对较短,而聚集系数相对较高,这种特性也就意味着网络中节点之间可以通过较短的路径迅速沟通,这对于生物体内的信号传递和物质运输等过程非常重要。
无标度特征则指的是网络中存在一些高度连接的节点,也就是所谓的“枢纽节点”,这些节点在网络中的作用非常重要,一旦被攻击则会导致整个系统的崩溃。
模块化组织结构则意味着网络中存在若干个高度相互关联的社区,每个社区又包含着许多紧密相连的节点,这些社区也就是指基因调控网络的功能模块,每个功能模块负责特定的生物学功能。
二、基因调控网络的发掘方法基因调控网络的发掘方法可以分为两类,即基于实验和基于计算。
基于实验的方法通常是通过对转录因子、miRNA、蛋白质和代谢产物等的实验研究,建立基因调控网络模型。
例如,对转录因子的ChIP-seq、RNA-seq、ChIP-exo等技术研究可以揭示转录因子与DNA的相互作用和调节机制,从而建立转录因子-基因调控网络。
同时,利用miRNA的结构和相互作用关系建立miRNA-基因调控网络也成为了研究热点。
基于计算的方法则主要是通过大量的数据挖掘和分析,建立基因调控网络模型。
例如,利用转录因子、miRNA、代谢产物等的序列和表达数据,通过一系列统计学和机器学习方法的整合分析,可以建立基因调控网络。
三、基因调控网络的应用基因调控网络具有广泛的应用前景,在生物学领域中已经得到了广泛的研究和应用。
用于基因数据挖掘的基因表达数据库GEO余海浪;马文丽;郑文岭【期刊名称】《中国生物工程杂志》【年(卷),期】2007(27)8【摘要】使用高通量方法学来检测基因表达情况在最近几年已非常普遍。
微集芯片技术可同时定量成千上万的基因转录本。
基因表达综合数据库(Gene Expression Omnibus简称GEO)是目前最大的而且完全公开的高通量分子丰度数据库,主要储存基因表达数据。
该数据库以一个灵活开放的设计理念,允许用户或科研人员来递呈,保存和检索多种不同类型的数据。
综述了近年来该数据库在基因表达数据挖掘中的应用,同时介绍一些通过使用用户友好网络界面能有效探索、查询和再现数百个实验和数百万个基因表达谱的工具,以方便数据进行挖掘和可视化。
登录GEO公用数据库的网址为:/geo。
【总页数】8页(P96-103)【关键词】GEO;DNA微阵列;基因表达;数据挖掘【作者】余海浪;马文丽;郑文岭【作者单位】南方医科大学基因工程研究所【正文语种】中文【中图分类】Q819【相关文献】1.GEO-基因表达综合数据库的应用与数据挖掘 [J], 阴常欣;马文丽;郑文岭2.基于GEO和TCGA数据库分析促癌基因INHBA和抑癌基因CLCA4、CA4在结直肠癌中表达 [J], 王倩;袁莉莉;范文涛3.神经源性高血压小鼠差异靶基因分析——基于GEO数据库数据挖掘 [J], 刘镍;苏文渊;覃辉;何博;胥勇;刘信;罗晓舟;唐纯志;罗伦4.基于GEO数据库整合miRNA-mRNA表达谱筛选卵巢癌的关键基因分子及生物信息分析 [J], 李超;朱晓丹;张玲华;杨兴坤5.基于GEO数据库的肝细胞癌差异表达基因分析 [J], 贾乔迪;李莎莎;张红宇;黄炎清;梁红霞因版权原因,仅展示原文概要,查看原文内容请购买。
概率方法在计算生物学中的应用概率方法作为一种数学工具,在计算生物学中有着广泛的应用。
计算生物学是生物学和计算机科学的交叉领域,借助计算机技术和数学方法研究生物学中的生物信息和生物系统。
概率方法在计算生物学中可以用来解决生物信息的处理、分析、模拟等问题,为生物学研究提供了重要的支持。
一、DNA序列分析DNA序列是生物学研究中的重要对象,通过对DNA序列的分析可以研究基因的结构、功能和进化等问题。
概率方法可以用来分析DNA 序列中的基因组成、重复序列、启动子、编码区等特征。
通过概率模型和算法,可以对DNA序列进行比对、查找、分类和预测,帮助科学家更好地理解DNA序列的信息。
二、蛋白质结构预测蛋白质是生物体内重要的功能分子,其结构与功能密切相关。
概率方法可以用来预测蛋白质的二级结构、三维结构和功能域等特征,为研究蛋白质的功能和相互作用提供支持。
通过概率建模和机器学习算法,可以从蛋白质的氨基酸序列推断其结构和功能,为蛋白质工程和药物设计提供帮助。
三、基因组数据挖掘基因组数据是生物学研究中的重要数据源,包括基因组测序、转录组测序、蛋白组测序等数据。
概率方法可以用来挖掘基因组数据中的潜在规律和信息,发现基因的功能、调控机制和相互关系。
通过构建概率模型和统计方法,可以对基因组数据进行分析、挖掘和预测,为发现新基因和解析基因功能提供支持。
四、系统生物学建模系统生物学是一种从整体角度研究生物系统结构和功能的方法,其核心是建立数学模型和网络模型来描述生物系统的动态特性。
概率方法可以用来建立生物系统的动力学模型、代谢网络模型和信号传导网络模型,研究生物系统的稳态、振荡和调控机制。
通过融合概率建模和系统分析,可以揭示生物系统的内在规律和复杂性,为理解生物系统的整体行为提供支持。
综上所述,概率方法在计算生物学中具有重要的应用和意义。
通过运用概率模型、算法和统计方法,可以解决DNA序列分析、蛋白质结构预测、基因组数据挖掘和系统生物学建模等生物学问题。
法医工作中的物证收集与分析技术在犯罪现场调查中,物证收集与分析技术是法医工作中不可或缺的一部分。
物证是犯罪案件中可以提供重要证据的物质,如血迹、指纹、纤维等。
法医人员需要准确、科学地收集和分析这些物证,以便为刑事司法提供有力的依据。
本文将探讨法医工作中的物证收集与分析技术,并介绍一些常用的技术手段。
一、物证收集技术1. 现场勘查现场勘查是物证收集的第一步,法医人员需要到达现场,对环境进行全面细致的勘查。
勘查过程中,他们需要使用相机记录现场情况,包括环境、遗留物痕迹的位置等。
此外,也需要进行测量和制图,以便后续的分析和研究。
2. 物证采集物证采集是指在现场勘查的基础上,对具体的物证进行收集。
对于不同类型的物证,法医人员需要采用不同的方法进行采集。
例如,在鞋印采集中,他们可以使用铝箔或胶卷进行覆盖和采集;在指纹采集中,可以使用粉末或吸管进行粘取。
物证采集需要细致入微,确保物证的完整性和准确性。
3. 样本保护物证采集后,样本的保护至关重要。
法医人员需要选择合适的包装材料,并妥善保存物证样本。
同时,他们还应保留足够的样本进行进一步的分析和检验。
物证样本的储存条件要符合相关标准,以免样本受到污染或变质。
二、物证分析技术1. 光谱分析光谱分析是一种常见的物证分析技术,包括红外光谱、紫外光谱等。
通过对物证进行光谱分析,法医人员可以获取物证中成分的信息,从而判断其特征和来源。
2. DNA分析DNA分析是目前最为先进和可靠的物证分析技术之一。
通过提取物证样本中的DNA,并与嫌疑人的DNA进行比对,法医人员可以确定物证与嫌疑人之间的关系。
DNA分析在犯罪侦查和司法鉴定中发挥了重要作用。
3. 非接触式指纹识别传统的指纹识别需要接触物体表面,而非接触式指纹识别技术可以通过红外光或激光等方式,无需接触即可获取指纹信息。
这种技术可以避免对物证的二次污染,并提高指纹识别的准确性和效率。
4. 毒物分析毒物分析是一种常见的物证分析技术,主要用于鉴定中毒案件。
基于矩阵变换的层次聚类在基因表达数据分析中的应用研究摘要:随着基因测序技术的不断发展和完善,基因芯片技术逐渐成熟,产生了大量可供分析的基因表达数据,使得研究和比较大量基因成为了可能。
聚类分析能够检测出表达谱相似的基因群,将基因表达谱相似程度高的基因划分到同一类中,从而识别出未知功能的基因,是目前研究基因表达数据使用的主要技术之一。
本文在对基因表达数据分析方法的研究基础上,采用了一种改进的、基于矩阵变换的基因表达数据层次聚类(nhc)方法,用于改善聚类效果。
关键词:层次聚类;基因芯片;基因表达数据中图分类号:q786 文献标识码:a 文章编号:1007-9599 (2012)24-0046-031 引言生物信息学是20世纪80年代末兴起的新学科,他是涉及数学、生物学、计算机科学和工程学的交叉学科,是一门理论和实践相结合的学科。
基因芯片技术为生物信息学中的一项非常重要的前沿技术,该技术产生于20世纪90年代。
随着基因测序技术的发展,果蝇、小鼠、线虫等生物基因测序的完成,以及人类基因组计划的顺利进行,基因序列数据正在以前所未有的速度迅速增长。
生物信息学已经进入了一个全新的时代,确定每条基因在整个生物体的发育和活动中所起的调控功能,揭示成千上万基因间的相互作用关系已经为人类基因组计划研究的重点,人类基因组计划从此进入了后基因时代。
此时,需要一种能够监测基因行为变化的技术,使研究者能够同时监测不同发育阶段、不同组织、不同健康状态下的基因表达情况。
传统的实验技术此时已经无法满足这种需求了,于是基因芯片技术应运而生,为分析基因功能提供了一个十分理想的技术平台。
它能同步研究大规模基因在各种不同生理状态下的表达状况,使得同时研究和比较大量基因的功能和特性成为可能。
近年来,数据挖掘作为知识发现的重要手段已经在越来越多的领域得到广泛地应用。
在生物信息学领域,也已有多种数据挖掘技术应用于基因表达数据分析。
由于聚类分析能够根据基因之间的相似程度将基因表达谱相似程度高的基因划分到同一子类,识别出表达谱相似的基因群,从而使研究者可以通过抑制基因或者结合特征数据来对功能未知的基因进行研究,在基因表达数据分析中得到的广泛应用。
生物信息学期末考试答案Bioinformatics:生物信息学——是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法;以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析;并进一步挖掘和解读生物学数据。
Consensus sequence:共有序列——决定启动序列的转录活性大小。
各种原核启动序列特定区域内(通常在转录起始点上游-10及-35区域)存在共有序列;是在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。
Data mining:数据挖掘——数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。
数据挖掘通常是利用计算方法分析生物数据;即根据核酸序列预测蛋白质序列、结构、功能的算法等;实现对现有数据库中的数据进行发掘。
EST:(Expressed Sequence Tag)表达序列标签——是某个基因cDNA克隆测序所得的部分序列片段;长度大约为200~600bp。
Similarity:相似性——是直接的连续的数量关系;是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。
Homology:同源性——是两个对象间的肯定或者否定的关系。
如两个基因在进化上是否曾具有共同祖先。
从足够的相似性能够判定二者之间的同源性。
Alignment:比对——从核酸以及氨基酸的层次去分析序列的相同点和不同点;以期能够推测它们的结构、功能以及进化上的联系。
或是指为确定两个或多个序列之间的相似性以至于同源性;而将它们按照一定的规律排列。
BLOSUM:模块替换矩阵——是指在对蛋白质数据库搜索时;采用不同的相似性分数矩阵进行检索的相似性矩阵。
以序列片段为基础;从蛋白质模块数据库BLOCKS中找出一组替换矩阵;用于解决序列的远距离相关。
在构建矩阵过程中;通过设置最小相同残基数百分比将序列片段整合在一起;以避免由于同一个残基对被重复计数而引入的任何潜在的偏差。
大数据数据挖掘案例【篇一:大数据数据挖掘案例】本文为系列文,该篇为第一篇。
下面是正文:简而言之,数据挖掘(data mining)是有组织有目的地收集数据,通过分析数据使之成为信息,从而在大量数据中寻找潜在规律以形成规则或知识的技术。
在本文中,我们从数据挖掘的实例出发,并以数据挖掘中比较经典的分类算法入手,给读者介绍我们怎样利用数据挖掘的技术解决现实中出现的问题。
数据挖掘是如何解决问题的?本节通过几个数据挖掘实际案例来诠释如何通过数据挖掘解决商业中遇到的问题。
下面关于“啤酒和尿不湿”的故事是数据挖掘中最经典的案例。
而target公司通过“怀孕预测指数”来预测女顾客是否怀孕的案例也是近来为数据挖掘学者最津津乐道的一个话题。
尿不湿和啤酒很多人会问,究竟数据挖掘能够为企业做些什么?下面我们通过一个在数据挖掘中最经典的案例来解释这个问题——一个关于尿不湿与啤酒的故事。
超级商业零售连锁巨无霸沃尔玛公司(wal mart)拥有世上最大的数据仓库系统之一。
为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行了购物篮关联规则分析,从而知道顾客经常一起购买的商品有哪些。
在沃尔玛庞大的数据仓库里集合了其所有门店的详细原始交易数据,在这些原始交易数据的基础上,沃尔玛利用数据挖掘工具对这些数据进行分析和挖掘。
一个令人惊奇和意外的结果出现了:“跟尿不湿一起购买最多的商品竟是啤酒”!这是数据挖掘技术对历史数据进行分析的结果,反映的是数据的内在规律。
那么这个结果符合现实情况吗?是否是一个有用的知识?是否有利用价值?为了验证这一结果,沃尔玛派出市场调查人员和分析师对这一结果进行调查分析。
经过大量实际调查和分析,他们揭示了一个隐藏在“尿不湿与啤酒”背后的美国消费者的一种行为模式:在美国,到超市去买婴儿尿不湿是一些年轻的父亲下班后的日常工作,而他们中有30%~40%的人同时也会为自己买一些啤酒。
产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫不要忘了下班后为小孩买尿不湿,而丈夫们在买尿不湿后又随手带回了他们喜欢的啤酒。
156 数据挖掘技术在DNA 数据分析中的应用 戴银春 130022长春市口腔医院 摘 要 通过使用数据挖掘技术对已经被提取和记录的多个基因片段进行修整、比较、分析、寻找某个(多个突变位置,并确定该突变位置与其所有者身患的疾病之间的关系。
关键词 数据挖掘 基因序列 生物信息学 遗传疾病 患病家族连锁分析do:i 10.3969/.j issn .1007-614x .2011.03.155
在生物信息学的成果的理论基础之上,通过统计的方法查找未知的生物化学功能的疾病基因的位置。这个方法预先通过患病家族连锁分析,再推断包含这些基因的染色体区域片段,然后检查该区域来寻找基因[1]。 数据挖掘在DNA 数据分析的发展状况 现今所采用的是分子生物学与微电子技术相结合的核酸分析检测技术[2]。DNA 芯片技术的基本原理是将c DNA 或寡核昔酸探针以105~106位点/c m 2的密度结合在固相支持物(即芯片上,每个位点上的cDNA 或寡核昔酸探针的顺序是已知的,将该探针与荧光标记的待测样品DNA,RNA 或cDNA 在芯片上进行杂交,然后用激光共聚焦显微镜对芯片进行扫描,并配合计算机系统对杂交信号做出比较和检测,从而迅速得出所需的信息。
基因数据挖掘常用的方法: 核酸与蛋白质比较的预测分析:蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和pro file ,从而探索导致它们产生共同功能的序列模式。此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。 针对核酸序列的预测方法:针对核酸序列的预测就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。在此过程中,确认一段DNA 序列是一个基因需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DNA 片段的假想产物与某个已知的蛋白质或其他基因的产物具有较高序列相似性的话,那么这个DNA 片段就非常可能属于外显子片段;在一段DNA 序列上出现统计上的规律性,即所谓的 密码子偏好性 ,也是说明这段DNA 是蛋白质编码区的有力证据;其他的证据包括与 模板 序列的模式相匹配、简单序列模式如TATA Box 等相匹配等。
案例分析 疾病是由于基因的片段内的某个位置存在或发生改变而引起的,也就是发生突变。能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。对基因的数据挖掘,就是对这些突变位置的寻找,并且找出该位置与所有者身患的疾病之间的关系。 方法的选择:笔者在设计中选用单纯的DNA 序列进行比较,基因在计算机的表示和存储时,可以使用一条很长的字符串来表示基因的某一条序列,使用文件的形式进行对基因工作者的提取成果创建一级数据库,使用文件修整的方法进行数据的清洗,以满足数据在二级数据库中的一致性。同时在文件比较过程中,生成某两个数据文件的差异状况,保存在二级数
据库库中,进一步的操作是对差异的位置的某个类型所占的比例。最后通过事先的对患者患病信息的统计得到的某种疾病在群中所占的比例,与其相比较,如果这两个比例相等,则可以认为这个位置的某个类型引起疾病的发生。从医学院得到一些基因片段文件信息和患者(所有者患病情况。
系统的实现:基因片段在计算机中以文件形式存储,用文件名标识其所有者(源体。片段起始地址和长度信息和所有患者患病情况保存在本机数据库中。在程序测试过程中,将片段复制成40份,对其中部分文件的序列进行稍作修改,对所有患者的患病状况进行稍作修改,以创造测试环境。显示在与基因数据挖掘软件同在一根目录下的序列文件的集合。
其中一个文件所存储的基因信息,见图1。 启动统计程序界面,单击清空数据库中的临时用表数据,将数据库中有可能的杂音信息去掉。并对其中的所有文件进行统计前片段剪切,使所有片段的起始地址和长度都相同,避免发生序列移位。
没有进行片段剪切之前,浏览文件所存的片段信息,片段剪切完成之后,设置进行比较操作的甲、乙组的文件添加,因为本次测试只检验片段中的一块区域(文件中片段的所有信息,所以在起始序号那里添加为0,终止序号那里添加为175。这样则可以保证统计文件的所有信息都被统计。
单击结果显示按钮,可以见到程序以表格和条形图标方式。可以看到1、3、5、12、14、16、18、13、31、34、87、94、139、166位置的条形段较高。说明在这些接受统 图1 文件内序列信息
157 结肠癌术前行CT 检查的价值 张巍 021000内蒙古呼伦贝尔市海拉尔区 人民医院CT 室 摘 要 目的:探究结肠癌患者术前行CT 检查的临床价值。方法:从近3年术前行CT 检查的结肠癌患者中选取20例进行影像学分析及分期统计。结果:按照CT 分期, 期5例、 期7例、 a 期3例、 b 期2例、 期3例。结论:结肠癌患者术前行CT 检查对临床了解肿瘤肠管外浸润程度及有无淋巴结转移或肝、肾上腺等远处转移,从而制定适当的手术方案有着重要的价值。
关键词 结肠癌 术前 CT 检查do:i 10.3969/.j issn .1007-614x .2011.03.156 结肠癌是肠道常见恶性肿瘤之一,其发病率正呈逐年上升趋势。临床多采用手术切除治疗。近年来,随着CT 设备的完善及合理使用,肠壁软组织块影显示十分清楚,与周围结构关系一目了然,故临床于术前均行腹、盆部CT 扫描作术前评估。笔者从近3年我院结肠癌患者行术前CT 检查的影像资料中选取了具有代表性的20例进行分析,以探究术前行CT 扫描的必要性及临床价值,现报告如下。资料与方法
一般资料:选取结肠癌患者20例中,男12例,女8例;年龄46~68,平均57 6岁;均为经结肠镜活检病理证实后准备手术冶疗者。临床为作术前评估而行CT 扫描。
方法:患者于检查前1小时给水500m l 以使膀胱充盈。扫描前30~45分钟口服 1%造影剂复方泛影葡胺400~600m l 。病变部位位于降结肠及乙状结肠的患者于检查前1天晚上服用500m l 1%复方泛影葡胺,以使远端结肠充盈。扫描时常规采用仰卧位,扫描范围为膈顶至肛门。 结 果 20例患者中,肿瘤位于升结肠者3例,降结肠者6例,乙状结肠者11例。CT 表现为病变肠管球形或分叶状的软组织肿块,其中个别较大的肿瘤示中心有低密度坏死区。乙状结肠癌可见病变不对称,肠壁环形增厚伴有肠腔狭窄和变形等。其他的征象还有:结肠与邻近结构边界消失、肿瘤向周围脂肪和邻近组织扩展、肠系膜淋巴结增大、肾上腺及肝转移瘤、盆腔肌肉肿胀与肿块间脂肪层消失、骶骨破坏及肠梗阻等。将所见影像与结肠癌CT 分期[1]相对照进行统计,结果: 期(腔内肿块无肠壁增厚5例; 期(肠壁增厚>1cm ,无邻近器官侵犯7例; a 期(局部肌肉或器官侵犯未延伸至盆壁3例; b 期(盆壁被侵犯2例; 期(发生远处转移3例。
讨 论 结肠病变一向以钡灌检查及内镜检查为主要手段,但只能观察病变范围、形态及肠管内充盈缺损、僵硬等情况,而对于肿瘤深度、腔外情况、周围邻近器官组织及远处转移等情况则无法了解,而CT 检查则可以准确评估肠壁厚度、肿块的壁外部分、邻近肌肉和脏器侵犯及肝、肾上腺等远处转移并做出CT 分期,为临床制定手术方案或放射治疗计划提供了可靠的依据和帮助。本文所统计的20例患者因在术前进行了CT 扫描,根据CT 表现按照CT 分期与临床分期法,外科分别采取了根治性手术、姑息性切除术、和单纯肠造口术等不同术式,使患者得到了有效的治疗。
这足以说明结肠癌在术前行CT 检查是十分必要的,它对了解肿瘤肠管外浸润程度及有无淋巴结转移或肝转移有着重要意义和诊断价值。但不足之处在于不能显示早期黏膜改变及直径<1c m 的肿瘤,也不能确定无增大的淋巴结转移,有待于在今后的工作中探索和改进。最后,根据CT 检查的价值及特点,结合作者多年的工作体会提出一点:对于有临床表现的患者,如钡灌检查和内窥镜未发现明显病变或可疑者行CT 做进一步检查是十分必要的。
参考文献 1 徐夏萌,陈为民,等.主编.实用CT 诊断学.济南:山东大学出版社,2002:285. 计的片段中,在上面提到的位置处存在的差异较大,与某遗传疾病的关联的可能性就越大。
如果用户想要在初步统计结果的基础上,按照数据库中所有者的疾病状况进行详细统计的话,单击菜单栏的详细统计按钮,选择按疾病详细统计,则将弹出窗口。
选择弱视,输入,则在文本框中显示与其关联的位置为1、3、5、12、14、16、18、13、31、34、87、94、139、166。
由此,用户可以根据本系统所给出的预测对弱视遗传疾病与序列中的特定位置,选择适当算法进行进一步的计算及检验,证明预测结果是否符合关联理论。数据挖掘方法体系中的智能聚类的相关技术则可较好的解决类别数判定、结果验证等问题。
结 论 对于生物信息或基因的数据挖掘和 通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,需要一些新的和好的算法;但技术和软件还远没有达到成熟的地步,因此需要不断探索及研究。参考文献
1 黄诒森.生物化学[M ].北京:人民卫生出版社,2002:29-37. 2 张国良.遗传算法及其应用[M ].北京:人们邮电出版社,1996:130-150.