1.1数据清洗概述
1.1.3 数据清洗任务
● 数据清洗就是对原始数据进行重新审查和校验的过程,目的在于删除重 复信息、纠正存在的错误,并使得数据保持精确性、完整性、一致性、有 效性及唯一性,还可能涉及数据的分解和重组,最终将原始数据转换为满 足数据质量或应用要求的数据。
● 数据清洗对保持数据的一致和更新起着重要的作用,因此被用于如银行、 保险、零售、电信和交通的多个行业[3]。数据清洗主要有三个应用领域: 数据仓库(Data Warehouse, DW)、数据库中知识的发现(Knowledge Discovery in Database, KDD)和数据质量管理(Data Quality Management, DQM)。
1.分析数据并定义清洗规则 2.搜寻并标识错误实例 3.纠正发现的错误 4.干净数据回流 5.数据清洗的评判 数据清洗是一项十分繁重的工作,数据清洗在提高数据质量的同时要付出一定的代 价,包括投入的时间、人力和物力成本。通常情况下,大数据集的数据清洗是一个系 统性的工作,需要多方配合以及大量人员的参与,需要多种资源的支持。
大数据应用人才培养系列教材
第一章 概论
1 .1 数 据 清 洗 概 述 1.2 数据标准化 1.3 数据仓库
习题
1.3数据仓库简介
1.3.1 数据仓库定义
● 数据仓库(Data Warehouse, DW)是基于信息系统业务发展需要, 基于传统数据库系统技术发展形成能够并逐步独立出来的一系列新的应用 技术,目标是通过提供全面、大量的数据存储来有效支持高层决策分析。
1数据清洗概述114数据清洗流程数据清洗通过分析脏数据的产生原因和存在形式利用数据溯源的思想从脏数据产生的源头开始分析数据对数据流绊环节迚行考察提取数据清洗的规则和策略对原始数据集应用数据清洗规则和策略来发现脏数据并通过特定的清洗算法来清洗脏数据从而得到满足预期要求的数据