数据抽取、清洗与转换 BI项目中的ETL设计详解
- 格式:doc
- 大小:30.50 KB
- 文档页数:2
etl方案ETL方案ETL(Extract, Transform, Load)是一种常用的数据处理方式,用于从不同的数据源抽取数据、进行转换处理,最终加载到目标数据库中。
ETL方案是指根据具体的业务需求和数据处理要求,设计和实施ETL过程的一套方法和流程。
1. ETL概述ETL过程是将数据从不同的源头(如文件、数据库、API等)抽取出来,进行各种转换处理,然后加载到目标数据库中。
ETL方案的目标是实现数据的清洗、整合和转换,以便后续的数据分析和业务应用。
ETL方案通常由以下三个步骤组成:1. **抽取(Extract):** 数据从源头抽取出来,可以是从数据库中查询、从文件中读取、通过API调用等方式获取原始数据。
2. **转换(Transform):** 对抽取的数据进行清洗、处理和转换。
这一步包括数据清洗、数据筛选、数据格式转换等操作。
3. **加载(Load):** 将经过转换处理后的数据加载到目标数据库中,以便后续的数据分析和应用。
ETL方案的重点是在数据转换过程中的数据质量和数据准确性的保证。
ETL的目标是将数据从不同的源头整合到一起,以便进行深度分析和业务应用。
因此,可靠的ETL方案是建立高质量、准确的数据基础的重要一环。
2. 设计ETL方案的关键要素设计一个可靠、高效的ETL方案需要考虑以下几个关键要素:2.1 数据源和目标首先需要确定数据源和目标数据库的类型和结构。
数据源可以是多个不同的数据库、文件,甚至是API接口。
目标数据库可以是关系型数据库(如MySQL、SQL Server),也可以是非关系型数据库(如MongoDB、Elasticsearch)等。
在确定数据源和目标时,需要考虑数据源的数据结构、数据量以及数据质量等因素。
同时需要考虑目标数据库的性能、可扩展性和数据模型等方面的要求。
2.2 数据转换和处理数据转换和处理是ETL方案的核心环节,通过数据转换和处理可以实现数据清洗、数据整合、数据筛选、数据格式转换等功能。
etl原理
ETL(Extract, Transform, Load)是一种数据处理过程,用于将数据从源系统中提取出来,经过转换操作后加载到目标系统中。
首先,ETL的第一步是提取(Extract)数据,即从源系统中读取数据。
这可以通过直接连接到数据库、API调用、文件导入
等方式进行。
数据提取的目的是获取所需的数据集,并将其传送到下一个步骤。
接下来,是数据转换(Transform)的阶段。
在这个阶段,数
据经过清洗、修复或重构等处理操作。
清洗可以包括删除重复数据、纠正数据错误、填充缺失数据等。
转换还可以涉及将数据进行格式转换、计算新的衍生字段、合并数据集等操作,以满足目标系统的要求或分析需求。
最后,是数据加载(Load)阶段。
在这个阶段,转换后的数
据被加载到目标系统中。
目标系统可以是数据仓库、数据库、数据湖等。
加载过程可能还包括对目标系统中的数据进行更新、追加或替换等操作。
ETL的目标是将数据从源系统中提取出来,经过适当的转换
操作后加载到目标系统中,以满足数据分析、业务需求或决策支持等目的。
ETL过程可以是批处理的,也可以是实时的,
取决于具体的应用场景和需求。
总之,ETL是一个重要的数据处理过程,通过提取、转换和
加载操作,将数据从源系统中获取并转换为适合目标系统的格式,以支持业务和分析需求。
ETL设计实现ETL(Extract, Transform, Load)是一种数据仓库建设过程中常用的数据集成技术。
它的主要目标是从多个不同的数据源中抽取数据,经过一系列的转换操作之后,将数据加载到数据仓库中,以便进行数据分析和报告生成。
在ETL设计实现中,首先需要明确的是数据源和目标数据仓库,同时要了解数据源的结构和格式,以便进行后续的抽取和转换操作。
接下来,可以根据具体需求来设计ETL流程,并选择合适的工具和技术来实现。
ETL的设计实现主要包括以下几个步骤:1. 数据抽取(Extract):这是ETL过程的第一步,主要是从数据源中抽取需要的数据。
数据源可以是数据库、文件、Web服务等各种数据存储系统。
在抽取数据时,通常需要考虑数据源的连接、查询条件、字段选择等因素。
2. 数据转换(Transform):在数据抽取之后,需要对数据进行一系列的转换操作,以便满足目标数据仓库的需求。
数据转换可以包括数据清洗、数据整合、数据规范化、数据格式转换等。
在这一步中,可以使用一些ETL工具或编程语言来实现数据转换操作。
3. 数据加载(Load):数据加载是ETL过程的最后一步,即将转换后的数据加载到目标数据仓库中。
数据加载可以分为全量加载和增量加载两种方式。
全量加载是将所有转换后的数据一次性加载到目标数据仓库中,而增量加载是只将增量数据加载到目标数据仓库中,以提高数据加载效率。
在ETL设计实现过程中,还需要考虑以下几个方面:1.数据质量:在数据转换过程中,需要考虑数据的质量问题。
常见的数据质量问题包括缺失值、重复值、格式错误等。
可以通过数据清洗、数据验证等方式来提高数据质量。
2.并发和性能:在大规模数据加载情况下,需要考虑并发和性能问题。
可以采用多线程或分布式计算等方式来提高ETL的性能,并减少数据加载的时间。
3.错误处理与日志记录:在ETL过程中,可能会出现各种错误,如数据源连接错误、数据转换错误等。
需要对这些错误进行及时处理,并记录错误信息以便后续排查和修复。
数据抽取、清洗与转换81项目中ETL设计ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析的依据。
ETL是BI项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败。
ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为项目后期开发提供准确的数据。
ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。
在设计ETL 的时候也是从这三部分出发。
数据的抽取是从各个不同的数据源抽取到ODS 中(这个过程也可以做一些数据的清洗和转换),在抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率。
ETL三个部分中,花费时间最长的是T(清洗、转换)的部分,一般情况下这部分工作量是整个ETL的2/3。
数据的加载一般在数据清洗完了之后直接写入DW中去。
ETL的实现有多种方法,常用的有三种,第一种是借助ETL工具如Oracle的OWB、SQLserverXXXX 的DTS、SQLServerXXXX 的SSIS 服务、informatic 等实现,第二种是SQL方式实现,第三种是ETL工具和SQL相结合。
前两种方法各有优缺点,借助工具可以快速的建立起ETL工程,屏蔽复杂的编码任务,提高速度,降低难度,但是欠缺灵活性。
SQL的方法优点是灵活,提高ETL运行效率,但是编码复杂,对技术要求比较高。
第三种是综合了前面二种的优点,极大的提高ETL的开发速度和效率。
数据的抽取数据的抽取需要在调研阶段做大量工作,首先要搞清楚以下几个问题:数据是从几个业务系统中来?各个业务系统的数据库服务器运行什么DBMS?是否存在手工数据,手工数据量有多大?是否存在非结构化的数据?等等类似问题,当收集完这些信息之后才可以进行数据抽取的设计。
1、与存放DW的数据库系统相同的数据源处理方法这一类数源在设计比较容易,一般情况下,DBMS(包括SQLServer,Oracle) 都会提供数据库链接功能,在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写Select语句直接访问。
ETL开发流程详细设计ETL(Extract, Transform, Load)是一种数据集成的技术,用于从不同的数据源提取数据,进行转换和加载到目标系统。
ETL开发流程的详细设计是为了确保ETL过程能够顺利进行,并保证数据的完整性和准确性。
以下是一个1200字以上的ETL开发流程详细设计的示例:3.数据转换:在数据转换阶段,需要对提取的数据进行转换和清洗。
数据转换包括数据整合、字段重命名、数据类型转换、数据格式化等。
此外,在此阶段还可以应用一些数据处理规则,如数据筛选、数据合并和数据分割等。
在此阶段,还需要考虑到数据转换的目标和规则,并确保转换的结果能够满足业务需求。
4.数据加载:在数据加载阶段,需要将经过转换的数据加载到目标系统中。
数据加载可以采用插入、更新或追加的方式进行。
在此阶段,需要考虑到目标系统的数据结构和数据规则,并确保能够正确地加载数据。
此外,还需要考虑到数据的完整性和一致性,并设计适当的错误处理机制。
5.数据验证和测试:在数据加载完成后,需要进行数据验证和测试。
数据验证包括对数据的完整性、准确性和一致性的验证。
数据测试包括对数据加载过程和规则的测试。
在此阶段,需要编写相应的测试脚本和样本数据,并进行测试。
如果发现了问题或错误,需要及时进行修复和调整。
6.定时任务和监控:在ETL开发流程完成后,需要将ETL过程设置为定时任务,并进行监控。
定时任务包括定期执行ETL过程,并生成相应的日志和报告。
监控包括对ETL过程的监控和异常处理。
在此阶段,需要设计适当的定时任务和监控机制,并确保能够及时发现和解决问题。
7.文档编写和维护:在ETL开发流程完成后,需要编写相应的文档,并进行维护。
文档包括ETL的设计文档、数据字典、操作手册和维护记录等。
在此阶段,需要详细记录ETL开发过程和设计思路,并保持文档的更新和维护。
综上所述,ETL开发流程的详细设计包括需求分析和设计、数据提取、数据转换、数据加载、数据验证和测试、定时任务和监控、文档编写和维护等阶段。
ETL工具介绍解读ETL指的是Extract(提取)、Transform(转换)和Load(加载)。
ETL工具是一种用于将数据从源系统中提取、进行转换和加载到目标系统中的软件工具。
它们在数据仓库和商业智能项目中起到至关重要的作用。
本文将介绍ETL工具的定义、功能和一些常见的ETL工具。
ETL工具是一种用于实现ETL过程的软件工具。
ETL过程是将数据从源系统中提取出来,对数据进行清洗、转换和整合,再将转换后的数据加载到目标系统中的过程。
ETL工具可以帮助开发人员自动化这个过程,并提供一系列功能和工具来简化数据转换和数据加载的步骤。
1. 数据提取(Extract):ETL工具可以连接到多个源系统,并提取数据到一个目标位置。
它们能够从数据库、文件、Web API等各种源系统中提取数据,并提供强大的数据提取功能,如增量提取、全量提取、增量更新等。
2. 数据转换(Transform):ETL工具可以对提取出来的数据进行各种转换操作,以满足目标系统的需求。
这包括数据清洗、数据合并、数据重构、数据规范化、数据格式转换等。
ETL工具通常提供了可视化的转换操作界面,使开发人员能够轻松创建和管理转换规则。
3. 数据加载(Load):ETL工具可以将经过转换的数据加载到目标系统中,如数据仓库、数据集市、数据湖等。
它们提供了各种加载功能,如全量加载、增量加载、替换加载等,以及错误处理机制,如重试、异常处理、日志记录等。
常见的ETL工具1. Informatica PowerCenter:Informatica PowerCenter是最常用的商业ETL工具之一、它提供了强大的数据提取、转换和加载功能,支持大规模数据集成和处理。
它还提供了丰富的连接器,可以连接到各种异构数据源。
Informatica PowerCenter有一个用户友好的可视化界面,企业可以通过拖放和设置相应的连接以及转换规则来创建ETL流程。
2. Talend:Talend是一个开源的ETL工具,具有强大的数据集成和转换功能。
ETL数据抽取方法引言概述:ETL(Extract, Transform, Load)是一种常用的数据集成和数据处理方法,用于从源系统中提取数据,进行转换和清洗,最后加载到目标系统中。
在数据仓库和数据分析领域,ETL是非常重要的一环。
本文将介绍ETL数据抽取的方法,包括增量抽取、全量抽取和增量全量混合抽取。
一、增量抽取1.1 时间戳增量抽取时间戳增量抽取是一种常见的增量抽取方法,它通过记录源数据的最后更新时间戳来判断是否需要抽取新数据。
具体步骤如下:1.1.1 首次抽取:首次抽取时,将所有数据都抽取到目标系统中。
1.1.2 增量抽取:之后的抽取过程中,根据源数据的最后更新时间戳,只抽取更新时间戳大于上次抽取的数据。
1.2 日志增量抽取日志增量抽取是另一种常用的增量抽取方法,它通过解析源系统的日志文件来获取新增或者更新的数据。
具体步骤如下:1.2.1 解析日志文件:将源系统的日志文件解析成可读取的格式,提取出新增或者更新的数据。
1.2.2 增量抽取:根据解析得到的数据,将新增或者更新的数据抽取到目标系统中。
1.3 增量抽取的优势1.3.1 减少数据传输量:增量抽取只抽取新增或者更新的数据,减少了数据传输量,提高了抽取效率。
1.3.2 实时性较高:增量抽取能够及时将新增或者更新的数据抽取到目标系统中,保证数据的实时性。
1.3.3 减少对源系统的影响:增量抽取不会对源系统造成太大的负载,减少了对源系统的影响。
二、全量抽取2.1 全量抽取的过程全量抽取是将源系统中的所有数据都抽取到目标系统中的方法。
具体步骤如下:2.1.1 获取源数据:从源系统中获取所有数据,可以通过数据库查询、文件导出等方式。
2.1.2 数据清洗和转换:对源数据进行清洗和转换,使其符合目标系统的数据结构和要求。
2.1.3 加载到目标系统:将清洗和转换后的数据加载到目标系统中。
2.2 全量抽取的适合场景2.2.1 首次抽取:全量抽取常用于首次抽取数据的情况,将源系统中的所有数据都抽取到目标系统中。
解释说明bi中etl的概念及其过程。
BI中ETL的概念及其过程
BI(Business Intelligence)是指对企业内部和外部的数据进行收集、分析和处理,从而为企业决策提供有力的支持。
而ETL (Extract, Transform, Load)则是BI中的一个重要流程,用于将数据从不同的数据源中抽取出来,进行转换和加工,最终将数据加载到目标数据仓库中。
具体来说,ETL的过程包括以下三个步骤:
1. Extract(抽取)
在这个步骤中,数据从不同的数据源中被抽取出来,如数据库、文件、Web服务等,以准备进行后续的数据清洗、转换和加载等操作。
在抽取数据时,需要注意数据的完整性、准确性和一致性,以确保后续处理的可靠性。
2. Transform(转换)
在这个步骤中,数据被进行各种转换和加工,以满足目标数据仓库的需求。
具体的转换操作包括:字段映射、数据清洗、重复记录处理、数据合并、数据计算、数据转换等等。
这个步骤是整个ETL过程中最重要的一步,因为它决定了数据质量和数据分析的可靠性。
3. Load(加载)
在这个步骤中,经过转换和加工的数据被加载到目标数据仓库中,以供企业进行数据分析和决策。
在加载数据时,需要考虑数据
的速度、容量和可靠性,以确保数据能够被快速有效地读取和分析。
总结起来,BI中ETL的过程是一个数据处理的流程,用于将不同的数据源中的数据抽取出来,进行转换和加工,在最终加载到目标数据仓库中供企业决策使用。
这个过程的好坏直接影响到企业的数据质量和决策效果。
ETL数据处理技术实践与优化ETL(抽取、转换、加载)是指将多个数据源中的数据提取出来,转换成符合需求的格式,然后加载到目标数据库中。
在数据仓库的建设中,ETL技术被广泛使用。
本文将探讨ETL数据处理技术的实践与优化。
一、数据抽取阶段1.1 抽取方式选择在ETL工具中,抽取方式分为全量抽取和增量抽取两种方式。
全量抽取将源数据中的全部数据都抽取出来,需要一定的时间和资源;而增量抽取只抽取新刷新的数据,高效且实时性好。
因此,在抽取方式上,我们应当选择增量抽取方式。
1.2 数据过滤在数据抽取中,有时候需要筛选出符合业务需求的数据,可以使用SQL过滤数据,如WHERE语句、GROUP BY、HAVING等。
通过良好的SQL编写,可以提高数据抽取效率和准确度。
二、数据转换阶段2.1 数据清洗在数据抽取后,需要进行数据清洗操作,将数据中的噪声数据和错误数据进行清除,保证数据的准确性。
清洗的方法可以采用正则表达式、数据转换函数等方式。
2.2 数据合并在进行数据转换时,有时候需要将多个数据源的数据进行合并,产生新的数据。
在合并过程中,需要选择合适的方式,如集合、聚合等方式。
2.3 数据转换操作在数据转换阶段,需要对数据进行格式转换、数据类型转换、数据规范化、数据合并等操作。
在转换时,应该遵循一些规则和方法,保证数据的正确性和完整性。
三、数据加载阶段3.1 数据批量加载在数据加载阶段,需要将抽取和转换好的数据批量导入到数据仓库中。
为了提高加载速度和稳定性,应该将数据分批加载,每次加载适当的数量,以减轻系统负担。
3.2 数据质量验证在数据加载后,需要对数据进行质量验证,确保数据的正确性和完整性。
验证的方式可以通过比对源数据和目标数据的方式,如记录数、字段值、数据类型等。
3.3 数据转换操作在数据加载过程中,可能需要进行处理数据重复、重复数据合并等操作,以保证数据质量的完备性。
这些操作可以通过ETL工具的自动化控制来完成。
ETL数据抽取方法概述:ETL(Extract, Transform, Load)是一种常用的数据处理方法,用于从源系统中抽取数据,对数据进行转换和清洗,最后加载到目标系统中。
本文将介绍ETL数据抽取的几种常见方法,包括增量抽取、全量抽取和增量全量混合抽取,并对每种方法进行详细说明。
一、增量抽取方法:增量抽取是指每次抽取只获取源系统中发生变化的数据。
以下是一种常见的增量抽取方法:1. 使用时间戳:在源系统中的每一个数据记录中添加一个时间戳字段,记录数据的最后更新时间。
在进行增量抽取时,记录上一次抽取的时间戳,只抽取大于该时间戳的新数据。
这种方法适合于源系统中的数据记录有明确的更新时间戳。
2. 使用增量标志位:在源系统中的每一个数据记录中添加一个增量标志位字段,记录数据是否发生变化。
在进行增量抽取时,只抽取增量标志位为“是”的数据记录。
这种方法适合于源系统中的数据记录没有明确的更新时间戳,但可以通过标志位来判断数据是否发生变化。
二、全量抽取方法:全量抽取是指每次抽取源系统中的所有数据。
以下是一种常见的全量抽取方法:1. 使用全量抽取作业:创建一个定期运行的全量抽取作业,该作业会从源系统中抽取所有数据,并将其加载到目标系统中。
这种方法适合于源系统中的数据量较小或者数据更新频率较低的情况。
2. 使用数据快照:在源系统中创建一个数据快照,记录源系统中的所有数据。
在进行全量抽取时,直接从数据快照中获取所有数据,并将其加载到目标系统中。
这种方法适合于源系统中的数据量较大或者数据更新频率较高的情况。
三、增量全量混合抽取方法:增量全量混合抽取方法是指将增量抽取和全量抽取方法结合使用,根据不同的情况选择增量抽取或者全量抽取。
以下是一种常见的增量全量混合抽取方法:1. 使用增量抽取作业:创建一个定期运行的增量抽取作业,该作业会根据设定的规则进行增量抽取。
当满足某些条件(如数据量变化超过阈值)时,自动切换为全量抽取模式。
数据抽取、清洗与转换BI项目中的ETL设计详解
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析的依据。
ETL 是BI项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败。
ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为项目后期开发提供准确的数据。
ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。
在设计ETL的时候也是从这三部分出发。
数据的抽取是从各个不同的数据源抽取到ODS中(这个过程也可以做一些数据的清洗和转换),在抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率。
ETL三个部分中,花费时间最长的是T(清洗、转换)的部分,一般情况下这部分工作量是整个ETL的2/3。
数据的加载一般在数据清洗完了之后直接写入DW中去。
ETL的实现有多种方法,常用的有三种,第一种是借助ETL工具如Oracle的OWB、SQLserver2000的DTS、SQLServer2005的SSIS服务、informatic等实现,第二种是SQL方式实现,第三种是ETL工具和SQL相结合。
前两种方法各有优缺点,借助工具可以快速的建立起ETL工程,屏蔽复杂的编码任务,提高速度,降低难度,但是欠缺灵活性。
SQL的方法优点是灵活,提高ETL运行效率,但是编码复杂,对技术要求比较高。
第三种是综合了前面二种的优点,极大的提高ETL的开发速度和效率。
数据的抽取
数据的抽取需要在调研阶段做大量工作,首先要搞清楚以下几个问题:数据是从几个业务系统中来?各个业务系统的数据库服务器运行什么DBMS?是否存在手工数据,手工数据量有多大?是否存在非结构化的数据?等等类似问题,当收集完这些信息之后才可以进行数据抽取的设计。
1、与存放DW的数据库系统相同的数据源处理方法
这一类数源在设计比较容易,一般情况下,DBMS(包括SQLServer,Oracle)都会提供数据库链接功能,在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写Select 语句直接访问。
2、与DW数据库系统不同的数据源的处理方法。
这一类数据源一般情况下也可以通过ODBC的方式建立数据库链接,如SQLServer和Oracle之间。
如果不能建立数据库链接,可以有两种方式完成,一种是通过工具将源数据导出成.txt或者是.xls文件,然后再将这些源系统文件导入到ODS中。
另外一种方法通过程序接口来完成。
3、对于文件类型数据源(.txt,,xls),可以培训业务人员利用数据库工具将这些数据导入到指定的数据库,然后从指定的数据库抽取。
或者可以借助工具实现,如SQLSERVER2005的SSIS服务的平面数据源和平面目标等组件导入ODS中去。
4、增量更新问题
对于数据量大的系统,必须考虑增量抽取。
一般情况,业务系统会记录业务发生的时间,可以用作增量的标志,每次抽取之前首先判断ODS中记录最大的时间,然后根据这个时间去业务系统取大于这个时间的所有记录。
利用业务系统的时间戳,一般情况下,业务系统没有或者部分有时间戳。
数据的清洗转换
一般情况下,数据仓库分为ODS、DW两部分,通常的做法是从业务系统到ODS做清洗,将脏数据和不完整数据过滤掉,再从ODS到DW的过程中转换,进行一些业务规则的计算和聚合。
1、数据清洗
数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。
不符合要求的数据主要是有不完整的数据、错误的数据和重复的数据三大类。
A、不完整的数据
其特征是是一些应该有的信息缺失,如供应商的名称,分公司的名称,客户的区域信息缺失、业务系统中主表与明细表不能匹配等。
需要将这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全。
补全后才写入数据仓库。
B、错误的数据
产生原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车、日期格式不正确、日期越界等。
这一类数据也要分类,对于类似于全角字符、数据前后有不面见字符的问题只能写SQL的方式找出来,然后要求客户在业务系统修正之后抽取;日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误需要去业务系统数据库用SQL的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。
C、重复的数据
特别是维表中比较常见,将重复的数据的记录所有字段导出来,让客户确认并整理。
数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。
对于是否过滤、是否修正一般要求客户确认;对于过滤掉的数据,写入Excel文件或者将过滤数据写入数据表,在ETL开发的初期可以每天向业务单位发送过滤数据的邮件,促使他们尽快的修正错误,同时也可以作为将来验证数据的依据。
数据清洗需要注意的是不要将有用的数据过滤掉了,对于每个过滤规则认真进行验证,并要用户确认才行。
2、数据转换
数据转换的任务主要是进行不一致的数据转换、数据粒度的转换和一些商务规则的计算。
A、不一致数据转换
这个过程是一个整合的过程,将不同业务系统的相同类型的数据统一,比如同一个供应商在结算系统的编码是XX0001,而在CRM中编码是YY0001,这样在抽取过来之后统一转换成一个编码。
B、数据粒度的转换
业务系统一般存储非常明细的数据,而数据仓库中的数据是用来分析的,不需要非常明细的数据,一般情况下,会将业务系统数据按照数据仓库粒度进行聚合。
C、商务规则的计算
不同的企业有不同的业务规则,不同的数据指标,这些指标有的时候不是简单的加加减减就能完成,这个时候需要在ETL中将这些数据指标计算好了之后存储在数据仓库中,供分析使用。