【PDF】数据挖掘技术介绍

格式：pdf
大小：625.20 KB
文档页数：16

下载文档原格式

/ 16

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据挖掘技术

林源洪

集美大学理学院

（School of Sciences，Jimei University）

第一章引言

1什么激发了数据挖掘，为什么它是重要的

需要是发明之母。数据挖掘之所以引起信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛地用于各种应用，包括商务管理、生产控制、市场分析、工程设计和科学探索。所以，数据挖掘是信息技术自然演化的结果，因而是重要的。

2什么是数据挖掘

简单地说，数据挖掘是从大量数据中提取或“挖掘”知识。从广义上来说，数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。基于这种观点，典型的数据挖掘系统具有以下主要成分：

1）数据库、数据仓库或其他信息库

2）数据库或数据仓库服务器

3）知识库

4）数据挖掘引擎（用于特征化、关联、分类、聚类分析以及演变与偏差分析）

5）模式评估模块

6）图形用户界面

3在何种数据上进行数据挖掘

原则上讲，数据挖掘可以在任何类型的信息存储上进行。它包括以下几个方面：

1）关系数据库

2）数据仓库

3）事务数据库

4）高级数据库系统

5）展开文件和WWW

4数据挖掘功能---可以挖掘什么类型的模式

数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般可以分为两类：描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断，并加以预测。通常我们把它们分为以下几个类型：

1）概念/类描述：特征化和区分（Characterization and Discrimination）2）关联分析（Association Analysis）

3）分类和预测（Classification and Predict）

4）聚类分析（Clustering Analysis）

5）孤立点分析（Outlier Analysis）

6）演变分析（Evolution Analysis）

5所有模式都是有趣的吗

答案显然是否定的。实际上，对于给定的用户，在可能产生的模式中，只有一小部分是他感兴趣的。这就对数据挖掘系统提出了一系

列的问题。你可能会想：“什么样的模式是有趣的？数据挖掘系统能够产生所有有趣的模式吗？数据挖掘系统能够仅产生有趣的模式吗？”

模式是有趣的，通常它含以下几点：（1）它易于被人理解；（2）在某种程度上，对于新的或测试数据是有效的；（3）是潜在有用的；（4）是新颖的。这样就存在一些模式兴趣度的客观度量。这些度量基于所发现模式的结构和关于它们的统计。

第二个问题涉及数据挖掘算法的完全性。期望数据挖掘系统产生所有可能的模式是不现实和低效的。实际上，应当根据用户提供的限制和兴趣度对搜索聚焦。

第三个问题是数据挖掘的优化问题。对于数据挖掘系统，仅产生有趣的模式是非常期望的。这对于用户和数据挖掘系统是非常有效的，因为这样就不需要搜索所产生的模式，以便识别真正有趣的模式。在这方面目前已经有了进展，然而，在数据挖掘中，这种优化仍然是个挑战。

6数据挖掘系统的分类

数据挖掘是一个交叉学科领域，受多个学科影响，包括数据库系统、统计学、机器学习不、可视化和信息科学。根据不同的标准，数据挖掘系统可以分类如下：

1）根据挖掘的数据库类型分类(不同标准如数据模型、涉及应用类型) 2）根据挖掘的知识类型分类（不同功能如特征化、区分、关联等）3）根据所用的技术分类（如机器学习、统计学、可视化、模式识别）

4）根据应用分类（如金融、电信、股票市场、DNA、e-mail等）7数据挖掘的主要问题

1）挖掘方法和用户交互问题

a．在数据库中挖掘不同类型的知识

b．多个抽象层的交互知识挖掘

c．结合背景知识

d．数据挖掘查询语言和特定的数据挖掘

e．数据挖掘结果的表示和显示

f．处理噪声和不完全数据

g．模式评估----兴趣度问题

h．数据挖掘算法的有效性和可伸缩性

I．并行、分布式和增量挖掘算法

2）关于数据库类型的多样性

a．关系的和复杂的数据类型的处理

b．由异种数据库和全球信息系统挖掘信息

第2章挖掘大型数据库中的关联规则

关联规则挖掘的一个典型例子是购物篮分析。该过程通过发现顾客放入其购物篮中不同商品之间的联系，分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买，这种关联的发现可以帮助零售商制定营销策略。这就是说，数据是事务的或关系的，如何由大量的数据中发现关联规则？什么样的关联规则最有趣？我们如何帮助或指导挖掘过程发现有趣的关联规则？对于关联规则挖掘，什么样的语言结构对于定义关联挖掘查询是有用的？

1关联规则挖掘

1）购物篮分析：一个引发关联规则挖掘的例子

图1

2）基本概念

设是项的集合.设任务相关的数据是数据库事务的集合,其中每个事务},,,{21n i i i I L =D T 是项的集合,使得I T ⊆。每个事务都有标识符,称作。设TID A 是一个项集，事务T 包含A 当且仅当。关联规则是形如的蕴涵式，其中，并且T A ⊆B A ⇒I B I ,A ⊂⊂Φ=∩B A 。规则在事务集中成立，具有支持度，其中是中事务包含B A ⇒D s s D B A ∪的百分比，它是概率。规则在事务集中具有置信度，如果中包含)(B A P ∪B A ⇒D c D A 的事务同时也包含B 的百分比是。这是条件概率c )(A B P 。即是

support()=, confidence ()=B A ⇒)(B A P ∪B A ⇒)(A B P

同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则。

项的集合称为项集(itemset)。包含个项的项集称为k -项集。项集的出现频率是包含项集的时务数，简称为项集的频率、支持计数或计数。项集满足最小支持度min_sup ，如果项集的出现频率大于或等于min_sup 与中事务总数的乘积。如果项集满足最小支持度，则它称为频繁项集(frequent itemset)。频繁项集的集合通常记为项集.

k D k k L 关联规则的挖掘是一个两步的过程：

（1）找出所有频繁项集；

（2）由频繁项集产生强关联规则。

3）关联规则挖掘：一个路线图

购物篮分析只是关联规则挖掘的一种形式。事实上，有许多种关

【PDF】数据挖掘技术介绍

相关主题

文档推荐

最新文档