- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
加强交互性
数据清理工具:Potter’s Wheel 开发数据变换操作规范说明语言
2.4 数据集成和变换
数据集成合并多个数据源中的数据, 存放在一个一致的数据库(如数据仓 库)中。
源数据可能包括多个数据库,数据立 方体或一般文件。
数据变换将数据转换或统一成适合于 挖掘的形式。
2.4.1 数据集成
整体度量 必须对整个数据集计算的度量。 中位数、众数
代数度量
mean():
1n x n i1 xi
加权平均:
n
wi xi
x
i 1 n
wi
i 1
截断均值:去掉高、低极端值得到的均 值。减小极端值对均值的影响。
中列数(midrange ):(max+min)/2
整体度量
中位数(median):适用于倾斜的数据。近
:用较高层的概念替换较低层的概念。
概念分层
(-$400 -$5,000)
(0 $200)
(0 - $1,000)
($200 $400)
($400 $600)
($600 $800)($800 $ Nhomakorabea,000)
($1,000 - $2, 000)
($1,000 $1,200)
($1,200 $1,400)
如:立方体内存储季度销售额,若对 年销售额感兴趣,可对数据执行聚集 操作,例如sum()等。
2.5.2 属性子集选择
通过删除不相关或冗余的属性(或维)减小数据 集。
其目标是找出最小属性集,使得数据类的概率分 布尽可能地接近使用所有属性得到的原分布。
通过穷举搜索找出有属性的最佳子集是不现实的 。通常采用压缩搜索空间的启发式算法。如贪心 算法:从局部最优到全局最优。
盒图的功能 1.直观明了地识别数据集中的离群点 2.判断数据集的偏态和尾重 3.比较几批数据的形状
2.2.3 基本描述数据汇总的图形显示
直方图、 分位数图、分位数-分位数图(q-q图) 散布图、散布图矩阵 局部回归(Loess)曲线
22
直方图 Histogram 概括给定属性分布的图形方法 每个矩形等宽
s个样本有放回简单随机抽样(SRSWR) 聚类抽样 分层抽样
2.6 数据离散化和概念分层产生
数据离散化技术用少数区间标记替换连续 属性的数值,从而减少和简化了原来的数 据。
可以对一个属性递归地进行离散化,产生 属性值的分层或多分辨率划分,称作概念 分层。
概念分层(concept hierarchy)用于归约数据
对海量数据进行复杂的数据分析和挖掘将需要很 长时间,使得这种分析不现实或不可行。
数据归约技术可以用来得到数据集的归约表示, 它小得多,但仍接近保持原数据的完整性。
对归约后的数据集挖掘将更有效,并产生相同( 或几乎相同)的结果。
数据归约
数据归约策略:
(1)数据立方体聚集:对数据立方体做聚集操作 (2)属性子集选择:检测并删除不相关、弱相关
或冗余的属性和维。 (3)维度归约:删除不重要的属性 (4)数值归约:
用规模较小的数据表示、替换或估计原始数据
(5)离散化和概念分层(concept hierarchy)产生
属性的原始数值用区间值或较高层的概念替换
2.5.1 数据立方体聚集
数据立方体存储多维聚集信息,提供 对预计算的汇总数据进行快速访问。
2.2 描述性数据汇总
获得数据的总体印象对于成功的数据预处理是 至关重要的。
描述性数据汇总技术可以用来识别数据的典型 性质,突显哪些数据值应当视为噪声或离群点 。
动机:更好的理解数据。 主要内容:度量数据的中心趋势和离散程度、
描述数据汇总的图形显示。
2.2.1 度量数据的中心趋势
算数平均值 最常用
逐步向前选择 逐步向后删除 向前选择和向后删除的结合 决策树归纳
2.5.3 维度归约
维度归约使用数据编码或变换,以便得到 原数据的归约或“压缩”表示。分为无损 和有损两种。
主要方法:
串压缩:无损,但只允许有限的数据操作。 小波变换(DWT):有损,适合高维数据。 主成分分析(PCA):有损,能更好地处理稀
实体识别
元数据可帮助避免错误
属性冗余
相关分析
数据重复(元组冗余) 数据值冲突的检测与处理
表示、比例或编码不同
37
2.4.2 数据变换
平滑:去掉数据中的噪声。技术包括分箱、回归、
聚类。
聚集Aggregation :对数据进行汇总或聚集。 数据泛化(概化):使用概念分层,用高层概念
疏数据。
2.5.4 数值归约
通过选择替代的、“较小的”数据 表示形式来减少数据量。
可以分为参数方法和非参数方法。
参数方法:回归(regression )和对 数线性模型
非参数方法:直方图、聚类、抽样
抽样
用数据的小得多的随机样本(子集) 不是大型数据集。
抽样方法
s个样本无放回简单随机抽样(SRSWOR )
30
分箱法光滑数据
Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
* Partition into equal-frequency (equi-depth) bins:
- Bin 1: 4, 8, 9, 15
mean mode 3(mean median)
中位数、均值和众数
16
2.2.2 度量数据的离散程度
极差
最大值与最小值之差
四分位数
中位数是第50个百分位数,是第2个四分位 数
第1个是第25个百分位数,Q1 中间四分位数极差 IQR = Q3 – Q1
离群点outlier
与数据的一般行为或模型不一致的数据对象
数据预处理的形式
小结
现实世界的数据一般是脏的、不完整的和不一 致的。
数据预处理技术可以改进数据的质量,从而有 助于提高其后的挖掘过程的精度和性能。
高质量的决策必然依赖于高质量的数据,因此 数据预处理是知识发现过程的重要步骤。
检测异常数据、尽早地调整数据并归约待分析 的数据,将在决策过程中得到高回报。
X1
x
聚类Cluster Analysis
2.3.3 数据清理作为一个过程
偏差检测
使用“元数据” 编码使用的不一致、数据表示的不一致、字段过载等 一些规则:唯一性规则、连续性规则、空值规则。 商业工具:数据清洗工具、数据审计工具
数据变换(纠正偏差)
数据迁移工具 提取/变换/载入(ETL)工具
($1,400 $1,600)
($1,600 $1,800)
($1,800 $2,000)
($2,000 - $5, 000)
右[Redmen],[Orr98]
5
数据错误的危害性
高昂的操作费用 糟糕的决策制定 组织的不信任 分散管理的注意力
数据预处理的形式
数据清理
补充缺失数据、平滑噪声数据、识别或 删除离群点,解决不一致
数据集成
集成多个数据库、数据立方或文件
数据变换
规范化和聚集
数据归约
简化数据、但产生同样或相似的结果 7
盒图 方差、标准差
反映了每个数与均值相比平均相差的数值 17
度量数据的离散程度…
盒图boxplot,也称箱线图 从下到上五条线分别表示最小值、下四分
位数Q1 、中位数、上四分位数Q3和最大值
盒的长度等于IRQ 中位数用盒内的横线表示 盒外的两条线(胡须) 分别延伸到最小和
最大观测值。
第2章 数据预处理
1
主要内容
2.1 为什么要预处理数据 2.2 描述性数据汇总 2.3 数据清理 2.4 数据集成和变换 2.5 数据归约 2.6 数据离散化和概念分层产生
2
2.1 数据预处理的原因
数据质量的含义
正确性(Correctness) 一致性(Consistency) 完整性(Completeness) 可靠性(Reliability)
回归:
用一个函数(回归函数)拟合数据来光 滑数据。
聚类:将类似的值聚集为簇。 其他:如数据归约、离散化和概念分
层。
29
2.3.2 噪声数据
分箱:
通过考察数据的“近邻”(周围的值) 来光滑有序数据的值。局部光滑。
划分:等频、等宽 光滑:用箱均值、用箱中位数、
用箱边界(去替换箱中的每个数 据)
分布式度量 可以通过如下方法计算度量(即函数):将 数据集划分成较小的子集,计算每个子集的 度量,然后合并计算结果,得到原(整个) 数据集的度量值。 sum()、count()、min()、max()
2.2.1 度量数据的中心趋势…
代数度量 可以通过应用一个代数函数于一个或多个分 布度量计算的度量。 mean()、中列数
3
现实世界的数据
不完整的
缺少属性值或某些感兴趣的属性,或仅包含聚 集数据。
含噪声的
包含错误或存在偏离期望的离群值。
不一致的
采用的编码或表示不同,如属性名称不同
冗余的
如属性之间可以相互导出
数据错误的不可避免性
数据输入和获得过程数据错误 数据集成所表现出来的错误 数据传输过程所引入的错误 据统计有错误的数据占总数据的5%左
似值计算如下:
median L1
(n
/
2 ( f me dian
f
)l )c
设N个数值排序,若N为奇数,中位数是有序 集的中间值;若N为偶数,中位数是中间两个 值的平均值。
例如:1,3,5,7 中位数4
1,3,5,6,7 中位数5
整体度量
众数(mode):集合中出现频率最高的值。 单峰、多峰(双峰、三峰…)、无众数 对于适度倾斜的单峰频率曲线,有如下 的经验关系: