【PDF】数据挖掘技术介绍

  • 格式:pdf
  • 大小:625.20 KB
  • 文档页数:16

下载文档原格式

  / 16
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘技术

林源洪

集美大学理学院

(School of Sciences,Jimei University)

第一章引言

1什么激发了数据挖掘,为什么它是重要的

需要是发明之母。数据挖掘之所以引起信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛地用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索。所以,数据挖掘是信息技术自然演化的结果,因而是重要的。

2什么是数据挖掘

简单地说,数据挖掘是从大量数据中提取或“挖掘”知识。从广义上来说,数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。基于这种观点,典型的数据挖掘系统具有以下主要成分:

1)数据库、数据仓库或其他信息库

2)数据库或数据仓库服务器

3)知识库

4)数据挖掘引擎(用于特征化、关联、分类、聚类分析以及演变与偏差分析)

5)模式评估模块

6)图形用户界面

3在何种数据上进行数据挖掘

原则上讲,数据挖掘可以在任何类型的信息存储上进行。它包括以下几个方面:

1)关系数据库

2)数据仓库

3)事务数据库

4)高级数据库系统

5)展开文件和WWW

4数据挖掘功能---可以挖掘什么类型的模式

数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般可以分为两类:描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,并加以预测。通常我们把它们分为以下几个类型:

1)概念/类描述:特征化和区分(Characterization and Discrimination)2)关联分析(Association Analysis)

3)分类和预测(Classification and Predict)

4)聚类分析(Clustering Analysis)

5)孤立点分析(Outlier Analysis)

6)演变分析(Evolution Analysis)

5所有模式都是有趣的吗

答案显然是否定的。实际上,对于给定的用户,在可能产生的模式中,只有一小部分是他感兴趣的。这就对数据挖掘系统提出了一系

列的问题。你可能会想:“什么样的模式是有趣的?数据挖掘系统能够产生所有有趣的模式吗?数据挖掘系统能够仅产生有趣的模式吗?”

模式是有趣的,通常它含以下几点:(1)它易于被人理解;(2)在某种程度上,对于新的或测试数据是有效的;(3)是潜在有用的;(4)是新颖的。这样就存在一些模式兴趣度的客观度量。这些度量基于所发现模式的结构和关于它们的统计。

第二个问题涉及数据挖掘算法的完全性。期望数据挖掘系统产生所有可能的模式是不现实和低效的。实际上,应当根据用户提供的限制和兴趣度对搜索聚焦。

第三个问题是数据挖掘的优化问题。对于数据挖掘系统,仅产生有趣的模式是非常期望的。这对于用户和数据挖掘系统是非常有效的,因为这样就不需要搜索所产生的模式,以便识别真正有趣的模式。在这方面目前已经有了进展,然而,在数据挖掘中,这种优化仍然是个挑战。

6数据挖掘系统的分类

数据挖掘是一个交叉学科领域,受多个学科影响,包括数据库系统、统计学、机器学习不、可视化和信息科学。根据不同的标准,数据挖掘系统可以分类如下:

1)根据挖掘的数据库类型分类(不同标准如数据模型、涉及应用类型) 2)根据挖掘的知识类型分类(不同功能如特征化、区分、关联等)3)根据所用的技术分类(如机器学习、统计学、可视化、模式识别)

4)根据应用分类(如金融、电信、股票市场、DNA、e-mail等)7数据挖掘的主要问题

1)挖掘方法和用户交互问题

a.在数据库中挖掘不同类型的知识

b.多个抽象层的交互知识挖掘

c.结合背景知识

d.数据挖掘查询语言和特定的数据挖掘

e.数据挖掘结果的表示和显示

f.处理噪声和不完全数据

g.模式评估----兴趣度问题

h.数据挖掘算法的有效性和可伸缩性

I.并行、分布式和增量挖掘算法

2)关于数据库类型的多样性

a.关系的和复杂的数据类型的处理

b.由异种数据库和全球信息系统挖掘信息

第2章挖掘大型数据库中的关联规则

关联规则挖掘的一个典型例子是购物篮分析。该过程通过发现顾客放入其购物篮中不同商品之间的联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略。这就是说,数据是事务的或关系的,如何由大量的数据中发现关联规则?什么样的关联规则最有趣?我们如何帮助或指导挖掘过程发现有趣的关联规则?对于关联规则挖掘,什么样的语言结构对于定义关联挖掘查询是有用的?

1关联规则挖掘

1)购物篮分析:一个引发关联规则挖掘的例子

图1

2)基本概念

设是项的集合.设任务相关的数据是数据库事务的集合,其中每个事务},,,{21n i i i I L =D T 是项的集合,使得I T ⊆。每个事务都有标识符,称作。设TID A 是一个项集,事务T 包含A 当且仅当。关联规则是形如的蕴涵式,其中,并且T A ⊆B A ⇒I B I ,A ⊂⊂Φ=∩B A 。规则在事务集中成立,具有支持度,其中是中事务包含B A ⇒D s s D B A ∪的百分比,它是概率。规则在事务集中具有置信度,如果中包含)(B A P ∪B A ⇒D c D A 的事务同时也包含B 的百分比是。这是条件概率c )(A B P 。即是

support()=, confidence ()=B A ⇒)(B A P ∪B A ⇒)(A B P

同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则。

项的集合称为项集(itemset)。包含个项的项集称为k -项集。项集的出现频率是包含项集的时务数,简称为项集的频率、支持计数或计数。项集满足最小支持度min_sup ,如果项集的出现频率大于或等于min_sup 与中事务总数的乘积。如果项集满足最小支持度,则它称为频繁项集(frequent itemset)。频繁项集的集合通常记为项集.

k D k k L 关联规则的挖掘是一个两步的过程:

(1)找出所有频繁项集;

(2)由频繁项集产生强关联规则。

3)关联规则挖掘:一个路线图

购物篮分析只是关联规则挖掘的一种形式。事实上,有许多种关