数据挖掘技术
- 格式:pdf
- 大小:175.78 KB
- 文档页数:7
数据挖掘技术的发展历程数据挖掘技术是近年来快速发展的一种技术。
数据挖掘技术,也叫做知识发现技术,是面向大规模数据、自动发现隐藏于数据中的有用信息和知识的一项技术。
其目标是根据数据特征,自动分析和发掘数据中的未知关联、潜在规律和数据分布特征,从而支持智能决策。
一、数据挖掘技术的起源与发展数据挖掘技术起源于20世纪60年代末期,当时人们对计算机应用于信息处理方面提出了更深入的探索。
从那时起,人们开始使用高性能计算机进行数据分析和处理,最初是使用数据集合分析技术,但是,随着计算机技术的不断升级和改进,人们逐渐开始研究如何从庞大的数据中提取有价值的信息,于是数据挖掘技术便应运而生。
二、数据挖掘技术的发展历程1. 数据库技术的兴起20世纪70年代末20世纪80年代初,数据库技术开始兴起,其中最重要的突破之一是关系型数据库,它在以往的数据管理中取得了显著的成果,为数据挖掘技术的出现奠定了基础。
2. 人工智能技术的发展随着计算机技术的飞速发展和高性能计算机的出现,人们开始研究基于人工智能的技术,比如说神经网络、遗传算法、模糊逻辑等,它们在数据挖掘中发挥了重要的作用。
3. 统计学和数学方法的发展通过对数学和统计学基础方法的广泛应用,人们开始尝试各种算法和技术,比如聚类、决策树、回归分析、人工神经网络等。
这些方法在数据挖掘中取得了可喜的成果。
4. 机器学习算法的发展机器学习是最新的一项数据挖掘技术,它尤其强调数据的分析和模式识别,这种技术极大地扩展了数据挖掘的应用范围,它可以在医疗、金融、电子商务等领域得到广泛应用。
三、数据挖掘技术的应用1. 金融领域在金融领域,数据挖掘技术被广泛应用于股票交易、风险评估、消费信贷等方面,也可以帮助金融机构通过数据智能化管理风险。
2. 医疗领域在医疗领域,数据挖掘技术被广泛应用于疾病诊断、病情预测、药物研发等方面,通过对大量病例进行数据分析,可以准确判断病情并及时调整治疗方案。
3. 电子商务领域在电子商务领域,数据挖掘技术被广泛应用于消费者行为分析、销售预测等方面,帮助企业根据客户数据分析客户需求,制定个性化的营销策略。
什么叫数据挖掘_数据挖掘技术解析数据挖掘(data mining)是指从大量的资料中自动搜索隐藏于其中的有着特殊关联性的信息的过程。
在全世界的计算机存储中,存在未使用的海量数据并且它们还在快速增长,这些数据就像待挖掘的金矿,而进行数据分析的科学家、工程师、分析员的数量变化一直相对较小,这种差距称为数据挖掘产生的主要原因。
数据挖掘是一个多学科交叉领域,涉及神经网络、遗传算法、回归、统计分析、机器学习、聚类分析、特异群分析等,开发挖掘大型海量和多维数据集的算法和系统,开发合适的隐私和安全模式,提高数据系统的使用简便性。
数据挖掘与传统意义上的统计学不同。
统计学推断是假设驱动的,即形成假设并在数据基础上验证他;数据挖掘是数据驱动的,即自动地从数据中提取模式和假设。
数据挖掘的目标是提取可以容易转换成逻辑规则或可视化表示的定性模型,与传统的统计学相比,更加以人为本。
数据挖掘技术简述数据挖掘的技术有很多种,按照不同的分类有不同的分类法。
下面着重讨论一下数据挖掘中常用的一些技术:统计技术,关联规则,基于历史的分析,遗传算法,聚集检测,连接分析,决策树,神经网络,粗糙集,模糊集,回归分析,差别分析,概念描述等十三种常用的数据挖掘的技术。
1、统计技术数据挖掘涉及的科学领域和技术很多,如统计技术。
统计技术对数据集进行挖掘的主要思想是:统计的方法对给定的数据集合假设了一个分布或者概率模型(例如一个正态分布)然后根据模型采用相应的方法来进行挖掘。
2、关联规则数据关联是数据库中存在的一类重要的可被发现的知识。
若两个或多个变量的取值之I司存在某种规律性,就称为关联。
关联可分为简单关联、时序关联、因果关联。
关联分析的目的是找出数据库中隐藏的关联网。
有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
3、基于历史的MBR(Memory-based Reasoning)分析先根据经验知识寻找相似的情况,。
数据挖掘的概念与技术介绍数据挖掘的概念与技术介绍数据挖掘是指从大量的数据中发现隐藏在其中的有价值的信息、模式和规律的过程。
随着互联网时代的到来,越来越多的数据被收集和存储,数据挖掘成为了从这些海量数据中获取洞察和知识的重要工具。
本文将围绕数据挖掘的概念和技术展开讨论,帮助读者深入理解数据挖掘的核心要素和方法。
一、数据挖掘的概念1.1 数据挖掘的定义数据挖掘是一种通过自动或半自动的方式,从大量的数据中发现有用的信息、模式和规律的过程。
通过应用统计学、机器学习和人工智能等技术,数据挖掘可以帮助人们从数据中进行预测、分析和决策。
1.2 数据挖掘的目标数据挖掘的主要目标是从数据中发现隐藏的模式和规律,并将这些知识应用于实际问题的解决。
数据挖掘可以帮助企业提高市场营销的效果、改进产品设计、优化生产过程等。
数据挖掘也被广泛应用于科学研究、金融风险分析、医学诊断等领域。
1.3 数据挖掘的流程数据挖掘的流程通常包括数据收集、数据预处理、模型构建、模型评估和模型应用等步骤。
其中,数据预处理是数据挖掘流程中非常重要的一环,它包括数据清洗、数据集成、数据变换和数据规约等子任务。
二、数据挖掘的技术2.1 关联规则挖掘关联规则挖掘是数据挖掘的一个重要技术,它用于发现数据集中的项之间的关联关系。
通过挖掘关联规则,可以发现数据中隐藏的有用信息,如购物篮分析中的“啤酒和尿布”现象。
2.2 分类与回归分类与回归是数据挖掘中常用的技术,它们用于对数据进行分类或预测。
分类是指根据已有的样本数据,建立分类模型,然后将新的数据实例分到不同的类别中。
回归则是根据数据的特征和已知的输出值,建立回归模型,然后预测新的数据实例的输出值。
2.3 聚类分析聚类分析是一种将数据分成不同的类别或簇的技术。
通过发现数据之间的相似性,聚类可以帮助人们理解数据的内在结构和特点。
聚类分析在市场细分、社交网络分析等领域具有广泛的应用。
2.4 异常检测异常检测是指从数据中识别出与大多数数据显著不同的样本或模式。
数据挖掘技术含义1、数据挖掘概念数据挖掘(DataMining,DM),是随着数据库和人工智能发展起来的新兴的信息处理技术。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,其主要特点是对数据库中的大量数据实行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。
它可协助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。
数据挖掘是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。
2、数据挖掘技术关联规则是一种简单,实用的分析规则,描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。
绝大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所相关联关系,所挖掘出的关联规则量往往非常巨大,但是。
并不是所有通过关联得到的属性之间的关系都有实际应用价值,对这些关联规则实行有效的评价。
筛选出用户真正感兴趣的。
有意义的关联规则尤为重要。
分类就是假定数据库中的每个对象属于一个预先给定的类。
从而将数据库中的数据分配到给定的类中。
而聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异。
分类和聚类的区别在于分类事先知道类别数和各类的典型特征,而聚类则事先不知道。
聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价。
使用这些方法一般首先建立一个数据模型或统计模型,然后根据这种模型提取相关的知识。
传统的统计学为数据挖掘提供了很多判别和回归分析方法。
贝叶斯推理、回归分析、方差分析等技术是很多挖掘应用中有力的工具之一。
2.4神经网络方法神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适合水平的种种优点。
这些优点使得神经元网络非常适合解决数据挖掘的问题。
数据挖掘技术数据挖掘技术是一门涉及从大量数据中发掘出有用信息的学科。
随着信息时代的到来,各行各业积累了海量的数据,而数据挖掘技术的兴起,为我们利用这些数据提供了有效的手段。
本文将介绍数据挖掘技术的定义、主要方法和应用领域。
一、定义数据挖掘技术是指通过运用各种数学、统计学和计算机科学的方法,探索和发现大规模数据集中隐藏的模式、关联规则等有价值的信息。
数据挖掘技术可以帮助我们从数据中挖掘出隐藏的知识,辅助决策和问题解决。
二、主要方法1. 分类与预测:通过训练数据集来构建一个分类模型,用于对新数据进行分类或预测。
常用的算法有决策树、朴素贝叶斯、支持向量机等。
2. 关联规则挖掘:发现数据集中不同项之间的关联关系,用于推断和预测。
常用的算法有Apriori算法、FP-Growth算法等。
3. 聚类分析:将数据集中的对象划分成不同的组或类别,使得同一组内的对象相似度较高,组间的相似度较低。
常用的算法有K-means聚类、层次聚类等。
4. 异常检测:通过分析数据的特征和分布,发现与正常模式不符的异常数据。
常用的算法有LOF算法、孤立森林算法等。
5. 预测建模:通过对历史数据进行分析和建模,预测未来的趋势和情况。
常用的算法有时间序列分析、回归分析等。
三、应用领域1. 电商领域:数据挖掘技术可以通过对用户行为和购买记录的分析,为电商企业提供个性化推荐服务,提高用户购物体验和销售额。
2. 金融领域:数据挖掘技术可以帮助银行和保险公司进行风险评估和欺诈检测,提供准确的信用评分和保险赔付估计。
3. 医疗领域:数据挖掘技术可以通过分析临床数据和医疗记录,帮助医生进行疾病的预测和诊断,提供个体化的医疗方案。
4. 航空领域:数据挖掘技术可以通过对机票销售数据和历史航班信息的分析,优化航班调度和机票定价,提高航空公司的运营效率。
5. 社交媒体领域:数据挖掘技术可以通过对用户社交网络和行为数据的分析,为社交媒体平台提供个性化推荐和精准广告投放。
数据挖掘概念与技术数据挖掘概念与技术一、概念介绍数据挖掘是一种通过自动或半自动的手段,从大量数据中发现有用信息的过程。
它结合了多个领域的知识,如统计学、机器学习、人工智能、数据库技术等,旨在寻找隐藏在数据背后的规律和模式,以便做出更好的决策和预测。
二、数据挖掘技术1. 数据预处理数据预处理是指在进行数据挖掘之前对原始数据进行清洗和转换,以便更好地应用于后续分析。
常见的预处理方法包括缺失值填充、异常值处理、特征选择等。
2. 分类与回归分类和回归是两种最常用的数据挖掘技术。
分类是指将事物分为不同类别或标签,例如将电子邮件分为垃圾邮件和非垃圾邮件。
回归则是用来预测数值型变量,例如预测房价或股票价格。
3. 聚类分析聚类分析是一种无监督学习方法,它将相似的对象分组在一起,并将不相似的对象分开。
聚类可以帮助我们发现新的模式和关系,也可以用于数据压缩和降维。
4. 关联规则挖掘关联规则挖掘是一种发现数据集中项之间关系的方法。
例如,在购物篮分析中,我们可以使用关联规则挖掘来发现哪些商品经常被一起购买。
5. 异常检测异常检测是一种寻找异常值的方法。
异常值可能是数据输入错误或者表示了真实世界中的一个重要事件。
异常检测可以帮助我们发现这些重要事件并且对其进行进一步分析。
三、应用场景数据挖掘技术已经广泛应用于各个领域,如金融、医疗、电子商务等。
以下是一些具体的应用场景:1. 市场营销通过对大量客户数据进行分析,可以识别出潜在客户和他们的需求,并设计相应的市场营销策略。
2. 风险管理金融机构可以使用数据挖掘技术来预测贷款违约风险和股票价格波动,并采取相应的风险管理策略。
3. 医疗领域医疗机构可以使用数据挖掘技术来预测患者病情和治疗效果,并优化诊断和治疗方案。
4. 电子商务电子商务平台可以使用数据挖掘技术来个性化推荐商品和服务,提高用户满意度和销售额。
四、未来发展趋势数据挖掘技术正不断发展和完善,以下是一些未来的发展趋势:1. 深度学习深度学习是一种基于神经网络的机器学习方法,它可以自动从数据中提取特征,并在大规模数据上获得更好的性能。
数据挖掘的技术与方法数据挖掘是一种从大规模的数据集中提取有价值的信息和知识的过程。
它涉及到多种技术和方法,以帮助我们在海量数据中发现隐藏的模式和规律。
本文将介绍数据挖掘的一些常见技术和方法。
一、聚类分析聚类分析是一种无监督学习方法,可将数据集中的对象分成不同的组或簇。
聚类算法尝试将相似的数据对象放入同一组,同时将不相似的对象分配到不同的组。
常见的聚类方法包括K均值聚类、层次聚类和密度聚类等。
K均值聚类是一种常用的聚类算法,它将数据通过计算样本之间的距离,将样本划分为K个簇。
其基本思想是将数据集中的样本划分为K个簇,使得簇内的样本相似度最大化,而簇间的样本相似度最小化。
二、分类分析分类分析是一种有监督学习方法,旨在根据已知的数据样本进行分类预测。
分类算法将已知类别的训练集输入模型,并根据训练集中的模式和规律进行分类。
常见的分类算法包括决策树、朴素贝叶斯和支持向量机等。
决策树是一种基于树状图模型的分类算法,它通过一系列的判断节点将数据集划分为不同的类别。
朴素贝叶斯是一种基于贝叶斯定理的分类算法,它假设各个特征之间相互独立。
支持向量机是一种基于最大间隔的分类算法,它通过寻找一个最优超平面,将不同的类别分开。
三、关联规则挖掘关联规则挖掘是一种用于识别数据项之间关联关系的方法。
它可以用于发现频繁项集以及项集之间的关联规则。
Apriori算法是一种常用的关联规则挖掘算法。
它基于候选项集的生成和剪枝,通过逐层扫描数据集来发现频繁项集。
同时,根据频繁项集可以生成关联规则,以揭示数据项之间的关联关系。
四、异常检测异常检测是一种用于识别与预期模式和行为不符的数据项或事件的方法。
异常检测可以帮助我们发现数据中的异常值、离群点或潜在的欺诈行为。
常见的异常检测算法包括基于统计学的方法、聚类方法和支持向量机等。
基于统计学的方法通过对数据进行概率分布建模,来识别与模型不符的数据项。
聚类方法通过将数据进行分组,并检测离群点所在的簇。
什么是数据挖掘技术及其应用前景在当今数字化的时代,数据如同深埋在地下的宝藏,而数据挖掘技术就是那把能够开启宝藏之门的神奇钥匙。
那么,究竟什么是数据挖掘技术呢?简单来说,数据挖掘技术就是从大量的数据中,通过各种方法和手段,发现隐藏在其中有价值的信息和知识的过程。
想象一下,一个大型的超市,每天都会产生海量的销售数据,包括商品的种类、销售的数量、时间、地点等等。
如果只是简单地存储这些数据,而不加以分析和利用,那么它们就只是一堆毫无意义的数字。
但是,通过数据挖掘技术,我们可以发现一些有趣的模式和规律。
比如,哪些商品经常被一起购买,哪些商品在特定的季节或时间段销量特别好,哪些顾客是常客并且消费习惯是怎样的。
这些发现对于超市的经营决策非常有帮助,比如可以优化商品的摆放位置、制定更有针对性的促销策略、更好地管理库存等等。
数据挖掘技术并不是一项单一的技术,而是融合了多种学科和方法的综合性技术。
它涉及到统计学、数据库技术、机器学习、人工智能、模式识别等多个领域的知识和方法。
从技术层面来看,数据挖掘通常包括数据预处理、数据挖掘算法的应用以及结果的评估和解释等几个主要步骤。
数据预处理是非常重要的一步,因为原始数据往往是不完整、有噪声或者不一致的。
在这个阶段,我们需要对数据进行清理、集成、转换和规约等操作,以确保数据的质量和可用性。
接下来,就是应用各种数据挖掘算法,比如分类算法(如决策树、朴素贝叶斯等)、聚类算法(如 KMeans 算法、层次聚类等)、关联规则挖掘算法(如 Apriori 算法)等等,从数据中发现潜在的模式和规律。
最后,对挖掘出来的结果进行评估和解释,判断其是否有实际的价值和意义,并将其转化为可以指导决策的有用信息。
数据挖掘技术在各个领域都有着广泛的应用前景。
在商业领域,数据挖掘可以帮助企业更好地了解市场和客户需求,从而制定更加精准的营销策略。
比如,电商平台可以通过分析用户的浏览和购买行为,为用户推荐个性化的商品;银行可以通过分析客户的信用记录和交易数据,评估客户的信用风险,从而决定是否给予贷款以及贷款的额度和利率;电信运营商可以通过分析用户的通话和流量使用情况,为用户提供更适合的套餐服务。
数据挖掘技术数据挖掘技术是一种利用统计学、机器学习和数据库技术等方法,从大量数据中提取出有价值的信息和模式的过程。
这项技术的应用范围非常广泛,可以帮助企业发现潜在的商业机会,提高决策效率,改进产品和服务,甚至可以在医疗领域预测疾病风险。
本文将介绍数据挖掘技术的基本概念、方法和应用。
一、数据挖掘的概念和方法数据挖掘是从大量非结构化和半结构化数据中发现隐藏在其中的模式和关联的过程。
它可以通过对数据进行预处理、特征选择、模型建立和模型评估等步骤来实现。
常用的数据挖掘方法包括聚类、分类、关联规则和时序模型等。
1. 聚类聚类是一种将相似的数据对象归类到同一类别的方法。
它可以帮助我们找到数据中的群组结构,进而进行市场细分、用户分群等应用。
常见的聚类算法有K-means、层次聚类等。
2. 分类分类是一种将数据对象映射到预定义类别的方法。
它可以通过构建分类模型来预测新数据的类别,如垃圾邮件分类、客户流失预测等。
常用的分类算法有朴素贝叶斯、决策树、支持向量机等。
3. 关联规则关联规则是一种发现数据中项集之间关联关系的方法。
它可以帮助我们发现购物篮分析中的商品关联关系、推荐系统中的用户偏好等。
常见的关联规则算法有Apriori、FP-Growth等。
4. 时序模型时序模型是一种对时间序列数据进行预测和建模的方法。
它可以应用于股票预测、天气预报等领域。
常用的时序模型算法有ARIMA、LSTM等。
二、数据挖掘技术的应用数据挖掘技术在各行各业都有着广泛的应用。
以下是几个典型的应用案例:1. 金融领域在金融领域,数据挖掘技术可以用于信用评估、欺诈检测、风险管理等。
银行可以通过数据挖掘技术对客户进行分类,从而更好地提供个性化的金融服务。
2. 零售业零售业可以利用数据挖掘技术进行市场细分、用户推荐等。
通过分析顾客的购买历史和喜好,商家可以精准地进行产品推荐,提高销售额。
3. 医疗领域数据挖掘技术可以应用于疾病风险预测、医疗资源分配等。
第6卷(A版) 第8期2001年8月中国图象图形学报Jou rnal of I m age and Grap h icsV o l.6(A),N o.8A ug.2001基金项目:国家自然科学基金项目(79970092)收稿日期:2000206222;改回日期:2000212214数据挖掘技术吉根林1),2)孙志挥2)1)(南京师范大学计算机系,南京 210097) 2)(东南大学计算机系,南京 210096)摘 要 数据挖掘技术是当前数据库和人工智能领域研究的热点课题,为了使人们对该领域现状有个概略了解,在消化大量文献资料的基础上,首先对数据挖掘技术的国内外总体研究情况进行了概略介绍,包括数据挖掘技术的产生背景、应用领域、分类及主要挖掘技术;结合作者的研究工作,对关联规则的挖掘、分类规则的挖掘、离群数据的挖掘及聚类分析作了较详细的论述;介绍了关联规则挖掘的主要研究成果,同时指出了关联规则衡量标准的不足及其改进方法,提出了分类模式的准确度评估方法;最后,描述了数据挖掘技术在科学研究、金融投资、市场营销、保险业、制造业及通信网络管理等行业的应用情况,并对数据挖掘技术的应用前景作了展望.关键词 数据挖掘 决策支持 关联规则 分类规则 KDD中图法分类号:T P391 T P182 文献标识码:A 文章编号:100628961(2001)0820715207Survey of the Da ta M i n i ng Techn iquesJ I Gen2lin1,2),SU N Zh i2hu i2)1)(D ep art m ent of co mp u ter,N anj ing N or m al U niversity,N anj ing210097)2)(D ep art m ent of co mp u ter,S ou theast U niversity,N anj ing210096)Abstract D ata m in ing is an em erging research field in database and artificial in telligence.In th is paper,the data m in ing techn iques are in troduced b roadly including its p roducing background,its app licati on and its classificati on. T he p rinci pal techn iques u sed in the data m in ing are su rveyed also,w h ich include ru le inducti on,decisi on tree, artificial neu ral netw o rk,genetic algo rithm,fuzzy techn ique,rough set and visualizati on techn ique.A ssociati on ru le m in ing,classificati on ru le m in ing,ou tlier m in ing and clu stering m ethod are discu ssed in detail.T he research ach ievem en ts in associati on ru le,the sho rtcom ings of associati on ru le m easu re standards and its i m p rovem en t,the evaluati on m ethods of classificati on ru les are p resen ted.Ex isting ou tlier m in ing app roaches are in troduced w h ich include ou tlier m in ing app roach based on statistics,distance2based ou tler m in ing app roach,data detecti on m ethod fo r deviati on,ru le2based ou tlier m in ing app roach and m u lti2strategy m ethod.F inally,the app licati on s of data m in ing to science research,financial investm en t,m arket,in su rance,m anufactu ring indu stry and comm un icati on netw o rk m anagem en t are in troduced.T he app licati on p ro spects of data m in ing are described.Keywords D ata m in ing,D ecisi on suppo rt,A ssociati on ru le,C lassificati on ru le,KDD0 引 言数据挖掘(D ata M in ing),也称数据库中的知识发现(KDD:Know ledge D iscovery in D atabase),是指从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息,提取的知识一般可表示为概念(Concep ts)、规则(R u les)、规律(R egu larities)、模式(Pattern s)等形式[1].大家知道,如今已可以用数据库管理系统来存储数据,还可用机器学习的方法来分析数据和挖掘大量数据背后的知识,而这两者的结合就促成了数据挖掘技术的产生.数据挖掘是一门交叉性学科,涉及到机器学习、模式识别、归纳推理、统计学、数据库、数据可视化、高性能计算等多个领域.1989年8月在美国底特律召开的第11届国际人工智能会议上首先出现KDD 这个术语,随后引起了国际人工智能和数据库等领域专家的广泛关注.1995年在加拿大蒙特利尔召开了首届KDD &D ata M in ing 国际学术会议,从此以后,KDD &D ata M in ing 国际学术会议每年召开一次.经过十多年的努力,数据挖掘技术的研究已经取得了丰硕的成果,不少软件公司已研制出数据挖掘软件产品,并在北美、欧洲等国家得到应用[1].例如,I BM 公司开发的QU EST 和In telligen t M iner ;A ngo ss Softw are 开发的基于规则和决策树的Know ledge Seeker ,A dvanced Softw are A pp licati on 开发的基于人工神经网络的DB P rofile ;加拿大Si m on F raser 大学开发的DBM inner ;SG I 公司开发的M ineSet 等.在我国,数据挖掘技术的研究也引起了学术界的高度重视,已成为信息科学界的热点研究课题.数据挖掘研究具有广泛的应用前景,因为数据挖掘产生的知识可以用于决策支持、信息管理、科学研究等许多领域.Parsaye 把决策支持空间从应用层次上分成数据空间(D ata Sp ace )、聚合空间(A ggregati on Sp ace )、影响空间(Influence Sp ace )和变化空间(V ariati on Sp ace )等4个子空间[2](见图1).其中,数据空间是用于处理基于关键字的决策查询,其最典型的是联机事务处理(OL T P );而对数据空间中数据元素进行聚合运算(如Sum ,A verage ,M ax ,M in 等)所形成的空间就是聚合空间,它主要用于联机分析处理(OLA P );影响空间则用于处理逻辑性质的决策支持,比如回答“是什么因素影响公司的销售情况?”这样的问题,这些信息就是通过数据挖掘得到的;变化空间负责回答某种变化的过程和速度问题.在上述4个空间中,数据挖掘处于影响空间中,从中可以看出数据挖掘在决策支持中所处的重要地位.1 数据挖掘技术的分类数据挖掘技术有根据发现知识的种类分类、根据挖掘的数据库种类分类、根据采用的技术分类等几种分类方法[3].其中,根据发现知识的种类分类有关联规则挖掘、分类规则挖掘、特征规则挖掘、离群数据挖掘、聚类分析、数据总结、趋势分析、偏差分析、回归分析、序列模式分析等;根据挖掘的数据库种类分类有关系型、事务型、面向对象型、时间型、空间型、文本型、多媒体型、主动型和异构数据库等;根据采用的技术分类,最常用的数据挖掘技术有如下7种:(1)规则归纳 即通过统计方法归纳、提取有价值的if 2then 规则,例如关联规则挖掘.(2)决策树方法[4] 即用树形结构表示决策集合,这些决策集合是通过对数据集的分类来产生规则.决策树方法是首先利用信息熵来寻找数据库中具有最大信息量的字段,从而建立决策树的一个结点,再根据字段的不同取值来建立树的分支;然后在每个分支子集中,重复建立树的下层结点和分支,即可建立决策树.国际上最有影响的决策树方法是由Q u in lan 研制的I D 3方法.具体算法参见文献[4].其典型的应用是分类规则挖掘.(3)人工神经网络[5] 这种方法主要是模拟人脑神经元结构,也是一种通过训练来学习的非线性预测模型.它可以完成分类、聚类、特征规则等多种数据挖掘任务,同时它又以M P 模型和H EBB 学习规则为基础,来建立前馈式网络、反馈式网络、自组织网络3类神经网络模型.(4)遗传算法[6] 这是一种模拟生物进化过程的算法,最早由Ho lland 于20世纪70年代提出.它是基于群体的、具有随机和定向搜索特征的迭代过程,这些过程有基因组合、交叉、变异和自然选择4种典型算子.遗传算法作用于一个由问题的多个潜在解(个体)组成的群体上,并且群体中的每个个体都由一个编码表示,同时每个个体均需依据问题的目标函数而被赋予一个适应值.另外,为了应用遗传算法,还需要把数据挖掘任务表达为一种搜索的问题,以便发挥遗传算法的优势搜索能力.(5)模糊技术[7] 即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊617中国图象图形学报第6卷(A 版)聚类分析.这种模糊性是客观存在的,且系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的,而李德毅教授在传统模糊理论和概率统计的基础上,提出了定性定量不确定性转换模型——云模型[8],并形成了云理论.云模型是用期望值、熵和超熵来表达定性概念,同时将概念的模糊性和随机性结合在一起,因而它为数据挖掘提供了一种概念和知识表达、定性定量转换、概念的综合和分解的新方法.(6)粗(Rough)集方法[9] 它是1982年由波兰逻辑学家Paw lak提出的一种全新的数据分析方法,近年来在机器学习和KDD等领域获得了广泛的重视和应用.这种粗集方法是一种研究信息系统中不确定、不精确问题的有效手段,其基本原理是基于等价类的思想,而这种等价类中的元素在粗集中被视为不可区分的,其基本方法是首先用粗集近似的方法来将信息系统(关系)中的属性值进行离散化;然后对每一个属性划分等价类,再利用集合的等价关系来进行信息系统(关系)的约简;最后得到一个最小决策关系,从而便于获得规则.(7)可视化技术[10] 即采用直观的图形方式来将信息模式、数据的关联或趋势呈现给决策者,这样决策者就可以通过可视化技术来交互地分析数据关系,而可视化技术主要包括数据、模型和过程3方面的可视化,其中,数据可视化主要有直方图、盒须图和散点图;模型可视化的具体方法则与数据挖掘采用的算法有关,例如,决策树算法采用树形表示;而过程可视化则采用数据流图来描述知识的发现过程.上述数据挖掘技术虽各有各的特点和适用范围,但它们发现知识的种类不尽相同,其中规则归纳法一般适用于关联规则、特征规则、序列模式和离群数据的挖掘;决策树方法、遗传算法和粗集方法一般适用于分类模式的构造;而神经网络方法则可以用于实现分类、聚类、特征规则等多种数据挖掘;模糊技术通常被用来挖掘模糊关联、模糊分类和模糊聚类规则.2 关联规则的挖掘2.1 什么是关联规则关联规则的挖掘[11]是数据挖掘领域中一个非常重要的研究课题,它是由A graw al等人首先提出的.关联规则的挖掘问题可形式化描述如下:设I={i1,i2,…,i m}是由m个不同的项目组成的集合,给定一个事务数据库D,其中的每一个事务T是I中一组项目的集合,即TΑI,T有唯一的标识符T I D.一条关联规则就是一个形如X]Y的蕴含式,其中,XΑI,YΑI,X∩Y= .关联规则X]Y成立的条件是:①它具有支持度S,即事务数据库D中至少有S%的事务包含X∪Y;②它具有置信度C,即在事务数据库D所包含X的事务中,至少有C%的事务同时也包含Y,关联规则的挖掘问题就是在事务数据库D中找出具有用户给定的最小支持度S m in和最小置信度C m in的关联规则.挖掘关联规则可以分解为以下两个子问题:①找出存在于事务数据库中的所有大项集.大项集是指支持度不小于用户给定的最小支持度的项集.②利用大项集生成关联规则.对于每个大项集A,若a<A,a≠ ,且Suppo rt(A) Suppo rt(a)≥C m in,则a]A-a.这里,Suppo rt(A)、Suppo rt(a)分别表示A和a的支持度.第②个子问题比较容易,其生成算法可参见文献[11].目前大多数研究均集中在第一个子问题上,因为这个问题的主要挑战性在于数据量巨大,所以算法的效率是关键.3.2 关联规则的研究现状及研究领域如今,关联规则的挖掘已经取得了令人瞩目的成果,到目前为止,主要研究工作有:(1)多循环方式的挖掘算法[12]多循环方式的挖掘算法是关联规则挖掘的基本方法.此类算法包括A graw al等人提出的A IS;A p ri o ri和A p ri o ri H yb rid,Park等人提出的DH P算法和分割算法Partiti on以及To ivonen提出的抽样算法Sam p ling等等.其中,A p ri o ri算法的基本思想是重复扫描数据库,并在第K次扫描时产生出长度为K的大项集L K,而在第K+1次扫描时,只考虑由L K中的K项集产生长度为K+1的备选集C K+1;DH P算法是使用H ash ing技术来改进备选集C K的产生过程;Partiti on算法是将数据库进行分割,以减少挖掘过程中I O操作次数;Sam p ling算法则是首先对数据库进行抽样,然后对抽样数据库进行挖掘,从而提高了挖掘效率.国内研究人员还提出了一些A p ri o ri算法的改进算法.(2)并行挖掘算法目前已经提出的有关并行挖掘关联规则的算法717第8期吉根林等:数据挖掘技术有:A graw al等人提出的CD(Coun t D istribu ti on)算法、CaD(Candidate D istribu ti on)算法、DD(D ata D istribu ti on)算法[13]和由Park等人提出的PDM算法,以及由Chueng等人提出的算法DM A[14]算法和FDM算法,虽然这些算法均是基于分布式数据库的挖掘算法,但也适用于并行挖掘.(3)增量式更新算法关联规则的增量式更新问题主要有两种情况:①在给定的最小支持度和最小置信度条件下,当数据库添加了新记录后,如何生成数据库中的关联规则;②给定一个数据库,在最小支持度和最小置信度发生变化时,如何生成数据库中的关联规则.文献[15],[16]已对关联规则更新问题进行了讨论,并提出了相应算法FU P、I U A、P I U A和N E W I U A.(4)基于约束条件的关联规则挖掘基于约束条件的关联规则挖掘的主要目的就是发现更有趣、更实用、更特别的关联规则,文献[17]就研究了在提供布尔表达式约束情况下的关联规则发现问题.(5)挖掘多值属性关联规则关联规则可分为布尔型关联规则和多值属性关联规则,而多值属性又可分为数量关联规则和类别关联规则,性和连续属性的关联规则,如A graw al等人扩展布尔属性的关联规则算法,就将其应用于数量关联规则的挖掘,并提出了基于支持度的部分K度完全方法;Fukuda提出了等深度划分的实现方法[18];苑森淼教授提出的在数量关联规则挖掘中的聚类方法PKCCA[19]等.目前提出的类别属性关联规则的挖掘算法,大多是将类别属性关联规则的挖掘问题转化为布尔型关联规则的挖掘问题[20],即将类别属性中的每一个类别当作一个属性.2.3 关联规则衡量标准的不足目前,生成关联规则的标准主要有如下两个,即支持度和置信度,但如果仅仅使用用户给定的最小支持度和置小置信度来生成关联规则,则往往会生成大量冗余的、虚假的和用户不感兴趣的关联规则.下面用一个例子来说明这个问题.如表1所示,设有3个项目数据集分别为X,Y和Z,则可以发现关联规则X]Y和X]Z,其支持度与信任度见表1.但从表1中可看出,事实上Z与X之间并不相关,即X]Z是一个虚假规则.奇怪的是,虚假规则表1 X、Y、Z数据集及其相应的支持度、信任度数据集X Y Z规则支持度(%)信任度(%) 110111X]Y253715101101001001X]Z5075001001支持度和信任度,然而,还不可能找到合适的最低支持度和最低信任度,使得仅生成X]Y,而不生成虚假规则X]Z.这种问题已经引起了不少学者的注意,并提出在关联规则生成时要加限制条件,如将兴趣度这个标准加入到关联规则的定义之中.3 分类规则的挖掘3.1 分类的基本概念分类是数据挖掘的一种非常重要的任务,它是在已有数据的基础上学会一个分类函数或构造一个分类模型(即通常所说的分类器),而且该函数或模型能够把数据库中的数据记录映射到给定类别中的某一个,从而可以应用于数据预测;若要构造分类模型,则需要有一个训练样本数据集作为输入,该训练样本数据集由一组数据库记录或元组构成,其一个具体的样本记录形式可以表示为(V1,V2,…,V n,C),其中,V i表示样本的属性值,C表示类别.3.2 分类模型的构造方法分类模型的构造方法通常有统计方法(如贝叶斯方法)、机器学习方法(如决策树方法)、神经网络方法和等.其中,基于统计方法的分类算法包括N aive B ayes,K2nearest N eighbo r,Kernel den sity, L inear discri m inan t,Q uadratic discri m inan t, L ogistic regressi on,P ro jecti on p u rsu it,B ayesian netw o rk等算法;而基于机器学习的分类算法则包括CA R T,C415,N ew I D,A C2,CAL5,CN2, Itru le等;基于神经网络的分类算法包括B ackp rop agati on,R adial basis functi on,Kohonen 等;另外,基于粗集方法的分类方法国内外有关学者也提出了一些算法,如R SB I DM[21]等.其中,决策树方法、神经网络方法和粗集方法的817中国图象图形学报第6卷(A版)基本思想已在前面介绍,而贝叶斯方法的基本思想是:假定对研究对象已有一定的认识,那么即可先用先验概率分布来描述这种认识,然后用样本来修正已有的认识,得后验概率分布,最后通过后验概率分布来建立分类函数,其具体方法参见文献[22].3.3 分类模式的准确度评估方法由于分类模式正确率与训练集的记录数量、属性的数目及待测记录的分布等因素有关,且通常训练集越大,分类模式就越可靠,而属性数目越多,则生成分类模式的难度就越大,其需要的时间也越长,有时还会将分类器引入歧途,致使构造出不准确的分类模式,因此,如果可以通过常识确认某个属性与分类无关,则应将它从训练集中移走.对产生的分类模式,可以用如下两种方法来进行准确度评估[23]:①保留方法(Ho ldou t),即将数据库中的一部分(通常是2 3)作为训练集,而保留剩余的部分用作测试集,分类器是首先使用2 3的数据来构造分类模式,然后再使用该分类模式对测试集进行分类,其得出的正确率就是评估的正确率;②交叉纠错方法,即将数据集分成K个没有交叉数据的子集,且使所有子集的大小大致相同,这种分类器训练和测试共K次,且每一次,分类器使用其中(K-1)个子集来作为训练集,然后在另一个子集上进行测试,最后把所有得到的正确率的平均值作为评估正确率.4 聚类分析聚类是数理统计中研究“物以类聚”的一种方法,它的任务是把一组个体按照相似性归成若干类,其目的是使得属于同一个类别数据之间的相似性尽可能大,而不同类别的数据之间的相似性尽可能小.它与分类分析不同,聚类分析输入的是一组未分类的记录,并且这些记录应分成几类事先也不知道.聚类分析就是首先通过分析数据库中的数据,合理地来划分记录,然后再确定每个记录所在类别.另外,从技术上看,聚类分析可以采用统计方法、机器学习方法、人工神经网络方法、模糊技术来加以实现.其中,在统计方法中,聚类算法一般分为基于概率的聚类算法和基于距离的聚类算法两种[22],如欧氏距离等.其中,基于概率的聚类算法在挖掘海量数据集合时效率非常低;而基于距离的聚类算法在数据挖掘领域应用则相当广泛,而且其基本思想是属于同一类别的个体之间的距离尽可能小,而不同类别上的个体间距离尽可能大.5 离群数据挖掘所谓离群数据,是指明显偏离其它数据,不满足数据一般模式或行为,即与存在的其他数据不一致的数据.离群数据的挖掘是数据挖掘的重要内容,它包括离群数据的发现和离群数据的分析,其中离群数据的发现往往可以使人们发现一些真实的,但又出乎意料的知识;而离群数据的分析则可能比一般数据所包含的信息更有价值.据研究,离群数据挖掘有着广阔的应用前景,例如,在数据分析时,错误数据的查找;金融、通信领域的欺诈分析与检测;网络安全管理中,网络入侵的检测;市场分析中,分析消费极高或极低的客户的行为;治疗过程中,异常反映的发现等.目前这一领域正逐渐引起数据库、机器学习和统计学等方面学者的研究兴趣.离群数据的发现主要有下列几种方法[24,25]:(1)基于统计的离群数据发现方法它是根据已知的数据分布模型,使用不一致性检验(disco rdance test)来确定离群数据,但它的应用需要事先知道数据集参数(如正态分布)、分布参数(如均值、标准差)和离群数据的个数,而且这种方法通常对数值型数据有效,而对高维、周期性数据、分类数据则较难进行挖掘.(2)基于距离的离群数据发现方法通过数据间距离的计算,即可求得离群数据.设数据集T,T=t1,t2,…,t n;o为数据对象,如果数据集T中有p部分数据S,远离于对象o及与之距离为d 的邻域,则o即为基于距离d的离群数据,表示为DB(p,d).如今基于距离的离群数据发现算法主要有以下几种:①Index2based算法;②N ested2loop算法;③Cell2based算法.(3)基于偏离的离群数据检测方法这种方法是通过对各种形式的数据进行离群检测来发现离群数据.但由于要事先知道数据的特性,以便确定相异函数;如相异函数的选取不合适,就得不到满意的结果,故较难在实际问题中使用.(4)基于规则的分类数据离群发现方法这种方法是从大量数据中产生离群数据的规则.其主要步骤是:①首先根据属性值及其组合来构917第8期吉根林等:数据挖掘技术成数据项集,且这种离群数据发现可以看作是树的搜索问题,其根结点是空条件项集,第1层结点是由长度为1的条件项集组成;然后计算某一条件项的支持度,以产生包含此结点,且长度为2的第2层结点;其他层次结点的产生方法依此类推;②根据多层最大离群支持度来求得离群规则.(5)离群数据发现的多策略方法这种方法首先对要挖掘的数据进行聚类,并将其分成具有不同特征的数据子集,这样目标范围小,特征更为明显,然后再从不同的数据子集中来产生规则.6 数据挖掘应用数据挖掘技术旨在发现大量数据中所隐藏的知识,以用来解决“数据丰富、知识贫乏”的问题.近年来随着数据库和网络技术的广泛应用,加上使用先进的自动数据生成和采集工具,人们所拥有的数据量急剧增加,为数据挖掘技术的应用创造了必要条件.目前国际上数据挖掘技术在科学研究、金融投资、市场营销、保险、医疗卫生、产品制造业、通信网络管理等行业[26,27]已得到应用;国内在数据挖掘方面也有成功的应用,例如宝钢已应用数据挖掘系统辅助生产决策,每年能节省近千万元资金.现在我国的研究人员正在加紧研制有关领域的数据挖掘工具,且数据挖掘技术的应用领域正不断扩大.(1)科学研究 在信息量极为庞大的天文、气象、生物技术等领域中,由于所获得的大量实验和观测数据靠传统的数据分析工具已难以对付,因此对功能强大的智能化自动分析工具要求迫切,这种需求推动了KDD技术在科学研究领域的应用发展,并且已获得一些重要的应用成果,例如,美国加州理工学院喷气推进实验室与天文学家合作开发的SK I CA T系统通过对几百万个天体进行分类,已帮助天文学家发现了16个新的类星体.(2)金融投资 由于金融投资的风险很大,因此在进行投资决策时,需要对各种投资方向的有关数据进行分析,以选择最佳的投资方向,而数据挖掘则可以通过对已有数据进行处理,并利用学习得到的模式进行市场预测,例如,国内开发的指南针、神光、RM R等智能股票分析系统,即可以对股票行情进行分析预测.目前作者正在利用数据挖掘技术研制一个智能股票分析系统.(3)市场营销 主要用于商品的市场定位和消费者分析,以辅助制定市场策略;还可以用来分析购物模式,预测销售行情.例如,I BM公司开发的QU EST和In telligen t M iner系统就可以挖掘顾客的购物行为模式.(4)保险业 保险是一项风险业务,保险公司的一个重要工作就是进行风险评估.通过研究证明,可以利用数据挖掘来技术进行风险分析,在保险公司建立的保单及索赔信息数据库的基础上,寻找保单中风险较大的领域,从而得出一些实用的控制风险的规则,以指导保险公司的工作,例如,利用SG I公司的M ineSet系统提供的分类器就可以预测投保人在将来的索赔概率.(5)制造业可 制造业应用数据挖掘技术来进行零件故障诊断、资源优化、生产过程分析等,因为通过对生产数据进行分析,可发现容易产生质量问题的工序以及相关的故障因素等,例如,A ckno soft 公司开发的CA SS I O PEE系统已用于诊断和预测在波音飞机制造过程中可能出现的问题.(6)通信网络管理 在通信网络运行过程中,会产生一系列警告,虽然这些警告有的可以置之不理,而有的如果不及时采取措施,则会带来不可挽回的损失.由于警告产生的随机性很大,究竟哪些警告可以不予理睬,哪些警告必须迅速处理则往往很难判断,一般需要由人工根据经验来进行处理,因此效率不高,而数据挖掘则可以通过分析已有的警告信息的正确处理方法以及警告之间的前后关系,来得到警告之间的关联规则,这些有价值的信息可用于网络故障的定位检测和严重故障的预测,例如,芬兰H elsink i大学开发了一个基于通信网络中警报数据库的知识发现系统TA SA,将其用来寻找通信网络中警报序列规则,以便进行故障预测.7 结 语综上所述,数据挖掘涉及多种理论和技术问题,且它有着广泛的应用前景.最近的Gartner报告中就列举了今后3~5年对工业将产生重大影响的5项关键技术,而KDD技术就排列其中.数据挖掘在国外从理论研究到产品开发只用了5~6年时间,并且已经越来越多地用于大中型企业、商业、银行、保险业和电信业等部门,并表现出极强的发展潜力.数据挖掘这一新技术也必将在我国得到广泛的应用.027中国图象图形学报第6卷(A版)。