数据采集设备的错误 数据录入问题 数据传输问题 部分技术的限制 数据转换中的不一致 重复的记录 不完整的数据 不一致的数据
数据清理中所需要处理的其它问题
9
噪音数据的处理
分箱(Binning)的方法 聚类方法
检测并消除异常点
对不符合回归的数据进行平滑处理 由计算机检测可疑的点,然后由用户确认
分箱(Binning) 方法举例
对数据进行排序: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 对数据进行分割(相同深度) :
- Bin 1: 4, 8, 9, 15
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
平滑处理: 从数据中消除噪音数据 聚集操作: 对数据进行综合,类似于Data Cube的构
建
数据概化:构建概念层次 数据规范化: 将数据集中到一个较小的范围之中
最大-最小规范化 z-score(零-均值)规范化
小数范围规范化(0–1规范化)
属性构造
18
最大-最小规范化
字符表示:优、良、及格、不及格
概念不清
最近交易额:前一个小时、昨天、本周、本月?
聚集冲突:根源在于表结构的设计
16
冗余数据的处理
从多个数据源中抽取不同的数据,容易导致数据的冗余
不同的属性在不同的数据源中是不同的命名方式
有些属性可以从其它属性中导出, 例如:销售额=单价×销售量