【PDF】数据挖掘技术介绍
- 格式:pdf
- 大小:625.20 KB
- 文档页数:16
数据挖掘技术
林源洪
集美大学理学院
(School of Sciences,Jimei University)
第一章引言
1什么激发了数据挖掘,为什么它是重要的
需要是发明之母。数据挖掘之所以引起信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛地用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索。所以,数据挖掘是信息技术自然演化的结果,因而是重要的。
2什么是数据挖掘
简单地说,数据挖掘是从大量数据中提取或“挖掘”知识。从广义上来说,数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。基于这种观点,典型的数据挖掘系统具有以下主要成分:
1)数据库、数据仓库或其他信息库
2)数据库或数据仓库服务器
3)知识库
4)数据挖掘引擎(用于特征化、关联、分类、聚类分析以及演变与偏差分析)
5)模式评估模块
6)图形用户界面
3在何种数据上进行数据挖掘
原则上讲,数据挖掘可以在任何类型的信息存储上进行。它包括以下几个方面:
1)关系数据库
2)数据仓库
3)事务数据库
4)高级数据库系统
5)展开文件和WWW
4数据挖掘功能---可以挖掘什么类型的模式
数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般可以分为两类:描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,并加以预测。通常我们把它们分为以下几个类型:
1)概念/类描述:特征化和区分(Characterization and Discrimination)2)关联分析(Association Analysis)
3)分类和预测(Classification and Predict)
4)聚类分析(Clustering Analysis)
5)孤立点分析(Outlier Analysis)
6)演变分析(Evolution Analysis)
5所有模式都是有趣的吗
答案显然是否定的。实际上,对于给定的用户,在可能产生的模式中,只有一小部分是他感兴趣的。这就对数据挖掘系统提出了一系
列的问题。你可能会想:“什么样的模式是有趣的?数据挖掘系统能够产生所有有趣的模式吗?数据挖掘系统能够仅产生有趣的模式吗?”
模式是有趣的,通常它含以下几点:(1)它易于被人理解;(2)在某种程度上,对于新的或测试数据是有效的;(3)是潜在有用的;(4)是新颖的。这样就存在一些模式兴趣度的客观度量。这些度量基于所发现模式的结构和关于它们的统计。
第二个问题涉及数据挖掘算法的完全性。期望数据挖掘系统产生所有可能的模式是不现实和低效的。实际上,应当根据用户提供的限制和兴趣度对搜索聚焦。
第三个问题是数据挖掘的优化问题。对于数据挖掘系统,仅产生有趣的模式是非常期望的。这对于用户和数据挖掘系统是非常有效的,因为这样就不需要搜索所产生的模式,以便识别真正有趣的模式。在这方面目前已经有了进展,然而,在数据挖掘中,这种优化仍然是个挑战。
6数据挖掘系统的分类
数据挖掘是一个交叉学科领域,受多个学科影响,包括数据库系统、统计学、机器学习不、可视化和信息科学。根据不同的标准,数据挖掘系统可以分类如下:
1)根据挖掘的数据库类型分类(不同标准如数据模型、涉及应用类型) 2)根据挖掘的知识类型分类(不同功能如特征化、区分、关联等)3)根据所用的技术分类(如机器学习、统计学、可视化、模式识别)
4)根据应用分类(如金融、电信、股票市场、DNA、e-mail等)7数据挖掘的主要问题
1)挖掘方法和用户交互问题
a.在数据库中挖掘不同类型的知识
b.多个抽象层的交互知识挖掘
c.结合背景知识
d.数据挖掘查询语言和特定的数据挖掘
e.数据挖掘结果的表示和显示
f.处理噪声和不完全数据
g.模式评估----兴趣度问题
h.数据挖掘算法的有效性和可伸缩性
I.并行、分布式和增量挖掘算法
2)关于数据库类型的多样性
a.关系的和复杂的数据类型的处理
b.由异种数据库和全球信息系统挖掘信息
第2章挖掘大型数据库中的关联规则
关联规则挖掘的一个典型例子是购物篮分析。该过程通过发现顾客放入其购物篮中不同商品之间的联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略。这就是说,数据是事务的或关系的,如何由大量的数据中发现关联规则?什么样的关联规则最有趣?我们如何帮助或指导挖掘过程发现有趣的关联规则?对于关联规则挖掘,什么样的语言结构对于定义关联挖掘查询是有用的?
1关联规则挖掘
1)购物篮分析:一个引发关联规则挖掘的例子
图1
2)基本概念
设是项的集合.设任务相关的数据是数据库事务的集合,其中每个事务},,,{21n i i i I L =D T 是项的集合,使得I T ⊆。每个事务都有标识符,称作。设TID A 是一个项集,事务T 包含A 当且仅当。关联规则是形如的蕴涵式,其中,并且T A ⊆B A ⇒I B I ,A ⊂⊂Φ=∩B A 。规则在事务集中成立,具有支持度,其中是中事务包含B A ⇒D s s D B A ∪的百分比,它是概率。规则在事务集中具有置信度,如果中包含)(B A P ∪B A ⇒D c D A 的事务同时也包含B 的百分比是。这是条件概率c )(A B P 。即是
support()=, confidence ()=B A ⇒)(B A P ∪B A ⇒)(A B P
同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则。
项的集合称为项集(itemset)。包含个项的项集称为k -项集。项集的出现频率是包含项集的时务数,简称为项集的频率、支持计数或计数。项集满足最小支持度min_sup ,如果项集的出现频率大于或等于min_sup 与中事务总数的乘积。如果项集满足最小支持度,则它称为频繁项集(frequent itemset)。频繁项集的集合通常记为项集.
k D k k L 关联规则的挖掘是一个两步的过程:
(1)找出所有频繁项集;
(2)由频繁项集产生强关联规则。
3)关联规则挖掘:一个路线图
购物篮分析只是关联规则挖掘的一种形式。事实上,有许多种关