数据挖掘第六章-66页精选文档
- 格式:ppt
- 大小:1.02 MB
- 文档页数:33
3.1数据质量可以从多方面评估,包括准确性、完整性和一致性问题。
对于以上每个问题,讨论数据质量的评估如何依赖数据的应用目的,给出例子。
提出数据质量的其他两个尺度。
答:精确性:描述数据是否与其对应的客观实体的特征相一致。
完整性:描述数据是否存在缺失记录或缺失字段。
一致性:描述同一实体的同一属性的值在不同的系统或数据集中是否一致。
数据质量依赖于数据的应用。
对于给定的数据库,两个不同的用户可能有完全不同的评估。
例如,市场分析人员可能访问公司的销售事务数据库(该数据库里面并非是所有的顾客信息都是可以得到的。
其他数据没有包含在内,可能只是因为输入时认为是不重要的,相关的数据没有记录可能是由于理解错误,或者因为设备故障),得到顾客地址的列表。
有些地址已经过时或不正确,但毕竟还有80%的地址是正确的。
市场分析人员考虑到对于目标市场营销而言,这是一个大型顾客数据库,因此对该数据库的准确性还算满意,尽管作为销售的经理,你发现数据是不正确的。
另外两种度量尺度:有效性:描述数据是否满足用户定义的条件或在一定的域值范围内。
唯一性:描述数据是否存在重复记录。
3.3在习题2.2中,属性age包括如下值(以递增序):13、15、16、16、19、20、20、21、22、22、22、25、25、25、25、30、33、33、35、35、35、35、36、40、45、46、52、70(a)使用深度为3的箱,用箱均值光滑以上数据。
说明你的步骤,讨论这种技术对给定数据的效果。
答:划分为(等频的)箱:箱1:13、15、16、16、19、20、20、21、22箱2:22、25、25、25、25、30、33、33、35箱3:35、35、35、36、40、45、46、52、70用箱均值光滑:箱1:18、18、18、18、18、18、18、18、18箱2:28.1、28.1、28.1、28.1、28.1、28.1、28.1、28.1、28.1箱3:43.78、43.78、43.78、43.78、43.78、43.78、43.7843.78、43.78、43.78分箱方法通过考察数据的“近邻”来光滑有序数据值,进而去掉“噪声”,即去掉被测量的变量的随机误差或方差。
课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:课程数据挖掘班级:。
第一章1.数据挖掘定义:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
2.不能在原数据库上做决策而要建造数据仓库的原因:传统数据库的处理方式和决策分析中的数据需求不相称,主要表现在:⑴决策处理的系统响应问题⑵决策数据需求的问题⑶决策数据操作的问题3.数据仓库的定义W.H.Inmon的定义:数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。
公认的数据仓库概念基本上采用了W.H.Inmon的定义:数据仓库是面向主题的、集成的、不可更新的(稳定性)随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。
4.数据仓库与数据挖掘的关系:⑴数据仓库系统的数据可以作为数据挖掘的数据源。
数据仓库系统能够满足数据挖掘技术对数据环境的要求,可以直接作为数据挖掘的数据源。
⑵数据挖掘的数据源不一定必须是数据仓库系统。
数据挖掘的数据源不一定必须是数据仓库,可以是任何数据文件或格式,但必须事先进行数据预处理,处理成适合数据挖掘的数据。
5. 数据挖掘的功能——7个方面:⑴概念描述:对某类对象的内涵进行描述,并概括这类对象的有关特征。
①特征性描述②区别性描述⑵关联分析:若两个或多个变量间存在着某种规律性,就称为关联。
关联分析的目的就是找出数据中隐藏的关联网。
⑶分类与预测①分类②预测⑷聚类分析:客观的按被处理对象的特征分类,将有相同特征的对象归为一类。
⑸趋势分析:趋势分析——时间序列分析,从相当长的时间的发展中发现规律和趋势。
⑹孤立点分析:孤立点:数据库中包含的一些与数据的一般行为或模型不一致的数据。
⑺偏差分析:偏差分析——比较分析,是对差异和极端特例的描述,揭示事物偏离常规的异常现象。
6. 数据挖掘常用技术:⑴数据挖掘算法是数据挖掘技术的一部分⑵数据挖掘技术用于执行数据挖掘功能。
⑶一个特定的数据挖掘功能只适用于给定的领域。