数据挖掘导论第一章
- 格式:ppt
- 大小:3.37 MB
- 文档页数:43
《数据挖掘导论》⽬录⽬录什么是数据挖掘常见的相似度计算⽅法介绍决策树介绍基于规则的分类贝叶斯分类器⼈⼯神经⽹络介绍关联分析异常检测数据挖掘数据挖掘(英语:Data mining),⼜译为资料探勘、数据采矿。
它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的⼀个步骤。
数据挖掘⼀般是指从⼤量的数据中通过算法搜索隐藏于其中信息的过程。
数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多⽅法来实现上述⽬标。
常见的数据相似度计算汉密尔顿距离(r = 1)欧式距离(r = 2)上确界距离(r = max)⼆元数据相似性简单匹配系数(Simple Matching Coefficient,SMC):Jaccard 系数:余弦相似度:⼴义Jaccard系数:⽪尔逊相关系数(Pearson’s correlation):决策树(decision tree)(TODO)决策树是⼀个树结构(可以是⼆叉树或⾮⼆叉树)。
其每个⾮叶节点表⽰⼀个特征属性上的测试,每个分⽀代表这个特征属性在某个值域上的输出,⽽每个叶节点存放⼀个类别。
使⽤决策树进⾏决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分⽀,直到到达叶⼦节点,将叶⼦节点存放的类别作为决策结果。
构造决策树的关键步骤是分裂属性。
所谓分裂属性就是在某个节点处按照某⼀特征属性的不同划分构造不同的分⽀,其⽬标是让各个分裂⼦集尽可能地“纯”。
尽可能“纯”就是尽量让⼀个分裂⼦集中待分类项属于同⼀类别。
构造决策树的关键性内容是进⾏属性选择度量,属性选择度量是⼀种选择分裂准则,是将给定的类标记的训练集合的数据划分D“最好”地分成个体类的启发式⽅法,它决定了拓扑结构及分裂点split_point的选择。
属性选择度量算法有很多,⼀般使⽤⾃顶向下递归分治法,并采⽤不回溯的贪⼼策略。
1.数据挖掘定义:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
2.不能在原数据库上做决策而要建造数据仓库的原因:传统数据库的处理方式和决策分析中的数据需求不相称,主要表现在:⑴决策处理的系统响应问题⑵决策数据需求的问题⑶决策数据操作的问题3.数据仓库的定义W.H.Inmon的定义:数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。
公认的数据仓库概念基本上采用了W.H.Inmon的定义:数据仓库是面向主题的、集成的、不可更新的(稳定性)随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。
4.数据仓库与数据挖掘的关系:⑴数据仓库系统的数据可以作为数据挖掘的数据源。
数据仓库系统能够满足数据挖掘技术对数据环境的要求,可以直接作为数据挖掘的数据源。
⑵数据挖掘的数据源不一定必须是数据仓库系统。
数据挖掘的数据源不一定必须是数据仓库,可以是任何数据文件或格式,但必须事先进行数据预处理,处理成适合数据挖掘的数据。
5. 数据挖掘的功能——7个方面:⑴概念描述:对某类对象的内涵进行描述,并概括这类对象的有关特征。
①特征性描述②区别性描述⑵关联分析:若两个或多个变量间存在着某种规律性,就称为关联。
关联分析的目的就是找出数据中隐藏的关联网。
⑶分类与预测①分类②预测⑷聚类分析:客观的按被处理对象的特征分类,将有相同特征的对象归为一类。
⑸趋势分析:趋势分析——时间序列分析,从相当长的时间的发展中发现规律和趋势。
⑹孤立点分析:孤立点:数据库中包含的一些与数据的一般行为或模型不一致⑺偏差分析:偏差分析——比较分析,是对差异和极端特例的描述,揭示事物偏离常规的异常现象。
6. 数据挖掘常用技术:⑴数据挖掘算法是数据挖掘技术的一部分⑵数据挖掘技术用于执行数据挖掘功能。
⑶一个特定的数据挖掘功能只适用于给定的领域。
第一章引言本书是一个导论,介绍什么是数据挖掘,什么是数据库中知识发现。
书中的材料从数据库角度提供,特别强调发现隐藏在大型数据集中有趣数据模式的数据挖掘基本概念和技术。
所讨论的实现方法主要面向可规模化的、有效的数据挖掘工具开发。
本章,你将学习数据挖掘如何成为数据库技术自然进化的一部分,为什么数据挖掘是重要的,以及如何定义数据挖掘。
你将学习数据挖掘系统的一般结构,并考察挖掘的数据种类,可以发现的数据类型,以及什么样的模式提供有用的知识。
除学习数据挖掘系统的分类之外,你将看到建立未来的数据挖掘工具所面临的挑战性问题。
1.1 什么激发数据挖掘?为什么它是重要的?需要是发明之母。
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。
获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。
数据挖掘是信息技术自然进化的结果。
进化过程的见证是数据库工业界开发以下功能(图1.1):数据收集和数据库创建,数据管理(包括数据存储和提取,数据库事务处理),以及数据分析与理解(涉及数据仓库和数据挖掘)。
例如,数据收集和数据库创建机制的早期开发已成为稍后数据存储和提取、查询和事务处理有效机制开发的必备基础。
随着提供查询和事务处理的大量数据库系统广泛付诸实践,数据分析和理解自然成为下一个目标。
自60年代以来,数据库和信息技术已经系统地从原始的文件处理进化到复杂的、功能强大的数据库系统。
自70年代以来,数据库系统的研究和开发已经从层次和网状数据库发展到开发关系数据库系统(数据存放在关系表结构中;见 1.3.1小节)、数据建模工具、索引和数据组织技术。
此外,用户通过查询语言、用户界面、优化的查询处理和事务管理,可以方便、灵活地访问数据。
联机事务处理(OLTP)将查询看作只读事务,对于关系技术的发展和广泛地将关系技术作为大量数据的有效存储、提取和管理的主要工具作出了重要贡献。
习题一:1。
讨论是否每个以下活动是一个数据挖掘的任务。
(a)将公司的客户根据他们的性别。
不。
这是一个简单的数据库查询。
(b)将公司的客户根据他们的盈利能力。
不。
这是一个会计计算,紧随其后的是应用程序一个阈值。
然而,预测的盈利能力客户将数据挖掘。
(c)计算一个公司的总销售额。
不。
再次,这是简单的会计。
(d)排序一个学生数据库基于学生身份证号码。
不。
再一次,这是一个简单的数据库查询。
(e)预测结果掷双骰子(公平)。
不。
因为模具是公平的,这是一个概率计算。
如果死是不公平的,我们需要估计的概率每个结果的数据,那么这是更像的问题认为数据挖掘。
然而,在这种特定的情况下,解决方案这个问题是由数学家很长时间前,因此,我们不会认为它是数据挖掘。
(f)预测未来股价的公司使用历史记录。
是的。
我们将尝试创建一个模型,该模型可以预测连续价值的股票价格。
这是一个的例子数据挖掘领域称为预测模型。
我们可以使用回归建模,尽管在许多领域的研究者开发了各种各样的技术来预测时间吗系列。
(g)监测病人的心率异常。
是的。
我们可以建立一个模型,心脏的正常行为率和不同寻常的心行为发生时发出警报。
这将涉及到数据挖掘的区域称为异常检测。
这也可以被认为是一个分类问题如果我们有正常和异常的心行为的例子。
(h)监测地震活动的地震波。
是的。
在本例中,我们将构建一个不同类型的模型地震波与地震相关的活动和行为提高警报当其中一个不同类型的地震活动被观察到。
这是数据挖掘领域的一个例子被称为分类。
(i)提取声波的频率。
不。
这是信号处理。
2.假设你被录用,作为一个互联网数据挖掘咨询顾问搜索引擎公司。
描述数据挖掘可以帮助公司通过给具体的例子如何技术,如聚类,分类、关联规则挖掘和异常检测可以应用。
答:以下是可能的答案的例子。
•聚类可以把结果与类似的主题用户在一个更简洁的形式,例如通过报告集群中的十大最频繁的词语。
•分类可以将结果分配给预定义的类别等“体育”、“政治”,等等。
数据挖掘导论--第1章绪论数据挖掘导论-第⼀章-绪论为什么会出现数据挖掘?1. 因为随着社会不断快速发展,信息量在不断增加,由于**信息量太⼤** ,⽽⽆法使⽤传统的数据分析⼯具和技术处理它们;2. 即使数据集相对较⼩,但由于数据本⾝有⼀些**⾮传统特点**,也不能使⽤传统的⽅法进⾏处理。
什么是数据挖掘?数据挖掘是⼀种技术,它将传统的数据分析⽅法与处理⼤量数据的复杂算法相结合。
数据挖掘是在⼤型数据存储库中,⾃动地发现有⽤信息的过程。
数据挖掘是数据库中知识发现(knowledge discovery in database,KDD)不可缺少的⼀部分。
数据挖掘要解决的问题可伸缩⾼维性异种数据和复杂数据数据的所有权与分布⾮传统的分析数据挖掘任务通常,数据挖掘任务分为下⾯两⼤类预测任务:这些任务的⽬标是根据其他属性的值,预测特定属性的值。
被预测的属性⼀般称为⽬标变量或因变量⽤来做预测的属性称说明变量或⾃变量描述任务:其⽬标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。
本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证和解释结果下图展⽰了其余部分讲述的四种主要数据挖掘任务预测建模:以说明变量函数的⽅式为⽬标变量建⽴模型。
有两类预测建模任务:分类(classification):⽤于预测离散的⽬标变量回归(regression):⽤于预测连续的⽬标变量关联分析:⽤来发现描述数据中强关联特征的模式。
所发现的模式通常⽤蕴涵规则或特征⼦集的形式表⽰聚类分析:旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相⽐,属于同⼀簇的观测值相互之间尽可能类似异常检测:任务是识别其特征显著不同于其他数据的观测值。
这样的观测值称为异常点或离群点## 参考⽂献: 1. 数据挖掘导论(完整版)。