数据挖掘技术的应用及发展
- 格式:pdf
- 大小:122.45 KB
- 文档页数:4
第19卷第4期2004年7月
统计与信息论坛
Vol.19No.4July,2004
收稿日期:2004-05-08
作者简介:田 艳(1962-),女,四川省安岳人。副教授,西安统计研究院主任。研究方向为数据库、统计信息处理及信
息技术管理系统。先后主持或主要参与国家及省部级科研项目10余项,其中一项获国家统计科研优秀成果二等奖,四项获国家统计科研优秀成果三等奖。撰写相关论文及课题报告数十篇。
=编委之窗>
数据挖掘技术的应用及发展
田 艳
(西安财经学院西安统计研究院,陕西西安710061)
摘 要:数据挖掘是从大量的数据中发现其潜在规律的技术,是当前计算机科学及统计科学研究的热点之一。文章介绍了数据挖掘的概念、功能、数据挖掘过程、常用方法等;探讨了数据挖掘领域面临的问题;论述了数据挖掘与统计分析的关系,并对国内外研究现状及发展情况做了介绍。
关键词:数据挖掘;知识发现;数据库;统计分析
中图分类号:F224.1 文献标识码:A 文章编号:1007-3116(2004)04-0018-04
一、引 言
近年来,随着科学技术的飞速发展,经济和社会都取得了极大的进步,与此同时,在各个领域产生了大量的数据,激增的数据背后隐藏着许多重要的信息。人们不再满足于数据库的查询功能,希望能够对其进行更高层次的分析,以便能从数据中提取信息或者知识为决策服务。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致/数据爆炸但知识贫乏0的现象。同样,传统的统计技术也面临着极大的挑战。这就急需有新的方法来处理这些海量数据。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。
二、数据挖掘的概念
数据挖掘(Data M ining )是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。因为与数据库密切相关,又称为数据
库知识发现(Knowledge Discovery in Databases,KDD)。数据挖掘不但能够学习已有的知识,而且能够发现未知的知识;得到的知识是/显式0的,既能为人所理解,又便于存储和应用,因此它一出现就得到各个领域的重视
[1]
。
人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系型数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门广义的交叉学科,它包含了数据库、人工智能、统计学、可视化、并行计算等不同领域。数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和可实用三个特征。
先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信
18
息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。
三、数据挖掘的主要功能
数据挖掘综合了各个学科技术,有很多的功能,当前的主要功能如下。
(一)分类(classification)
分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。
(二)估计与预测(Estimation and Prediction)
估计(estimation)根据既有连续性数值之相关属性资料,以获得某一属性未知之值。例如按照信用申请者之教育程度、行为和性别来推估其信用卡消费量。使用的技巧包括统计方法上之相关分析、回归分析及人工神经网络方法。预测(prediction)是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,例如由顾客过去刷卡消费量预测其未来刷卡消费量;根据以往的统计数据对未来经济发展做出判断。
预测通常使用包括回归分析、时间数列分析及人工神经网络方法。
(三)关联分析(association analysis)
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。从而为某些决策提供必要支持。例如,从一家超市的数据仓库中,可以发现的一条典型关联规则可能是/买面包和黄油的顾客十有八九也买牛奶0,也可能是/买食品的顾客几乎都用信用卡0,这种规则对于商家开发和实施客户化的销售计划和策略是非常有用的。
(四)聚类分析(clustering)
数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。例如:将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。
(五)时序模式(tim e-series pattern)
时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。例如,今天银行调整利率,明天股市的变化。又如粮食涨价,不久副食品涨价。
(六)偏差分析(deviation)
在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。例如,在银行的100万笔交易中有200例的欺诈行为,银行为了经营安全,就要发现这200例的内在因素,减小以后经营的风险。
需要注意的是,数据挖掘的各项功能不是独立存在的,而是在互相联系中发挥作用。
四、数据挖掘的实施过程
数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。
(一)问题提出
在开始数据挖掘之前最基础的就是理解数据和实际的业务问题,在这个基础之上提出问题,对目标有明确的定义。
(二)数据准备
数据准备工作包括数据的选择(选择相关和合适的数据)、探索(了解数据分布情况和异常数据等)、修正(包括缺失数据的插值等)和变换(离散值数据与连续值数据的相互转换,数据的分组分类,数据项的计算组合等)。
(三)建立模型
选取数据挖掘工具提供的算法并应用于准备好的数据,选取相应参数,生成模型。
(四)评价和解释
对数据挖掘的结果进行评价,选择最优的模型,作出评价,运用于实际问题,并且要和专业知识结合对结果进行解释[2~3]。
五、数据挖掘的方法
数据挖掘常用的技术有神经网络、遗传算法、决
19
田艳:数据挖掘技术的应用及发展