数据仓库系统
- 格式:doc
- 大小:100.50 KB
- 文档页数:27
数据仓库的介绍(数据仓库和数据库的区别)数据仓库的介绍⼀、数据仓库的基本概念数据仓库,英⽂名称为Data Warehouse,可简写为DW或DWH。
数据仓库顾名思义,是⼀个很⼤的数据存储集合,出于企业的分析性报告和决策⽀持⽬的⽽创建,对多样的业务数据进⾏筛选与整合。
它为企业提供⼀定的BI(商业智能)能⼒,指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库的输⼊⽅是各种各样的数据源,最终的输出⽤于企业的数据分析、数据挖掘、数据报表等⽅向。
⼆、数据仓库的主要特征数据仓库是⾯向主题的(Subject-Oriented )、集成的(Integrated)、稳定的(Non-Volatile)和时变的(Time-Variant )数据集合,⽤以⽀持管理决策。
1.主题性不同于传统数据库对应于某⼀个或多个项⽬,数据仓库根据使⽤者实际需求,将不同数据源的数据在⼀个较⾼的抽象层次上做整合,所有数据都围绕某⼀主题来组织。
这⾥的主题怎么来理解呢?⽐如对于城市,“天⽓湿度分析”就是⼀个主题,对于淘宝,“⽤户点击⾏为分析”就是⼀个主题。
2.集成性数据仓库中存储的数据是来源于多个数据源的集成,原始数据来⾃不同的数据源,存储⽅式各不相同。
要整合成为最终的数据集合,需要从数据源经过⼀系列抽取、清洗、转换的过程。
3.稳定性数据仓库中保存的数据是⼀系列历史快照,不允许被修改。
⽤户只能通过分析⼯具进⾏查询和分析。
这⾥说明⼀点,数据仓库基本上是不许允许⽤户进⾏修改,删除操作的。
⼤多数的场景是⽤来查询分析数据。
4.时变性数据仓库会定期接收新的集成数据,反应出最新的数据变化。
这和稳定特点并不⽭盾。
三、数据仓库与数据库区别1、数据库数据库是⾯向交易的处理系统,它是针对具体业务在数据库联机的⽇常操作,通常对记录进⾏查询、修改。
⽤户较为关⼼操作的响应时间、数据的安全性、完整性和并发⽀持的⽤户数等问题。
传统的数据库系统作为数据管理的主要⼿段,主要⽤于操作型处理,也被称为联机事务处理 OLTP(On-Line Transaction Processing)。
大数据分析知识:数据存储与管理——数据仓库、云计算和数据库随着技术的不断发展,越来越多的数据产生并蓄积,如何进行有效管理和利用已成为人们关注的焦点之一。
本文将从数据存储和管理的角度出发,分别介绍数据仓库、云计算和数据库的概念、特点及其在大数据领域的应用。
一、数据仓库数据仓库(Data Warehouse)是指从各个数据源中提取数据并经过处理后存储到一个统一且独立的数据集合中,以方便用户进行分析和决策的系统。
数据仓库通过将数据分析和查询分离,实现了数据决策支持系统的高效运行,从而提高数据的利用率。
数据仓库的特点:1.面向主题:数据仓库是面向主题的,即数据集中一般针对某个主体领域或数据分析任务。
例如,销售数据仓库、人力资源数据仓库等。
2.集成性:数据仓库具有集成性,可以将不同类型的数据源通过ETL(Extract-Transform-Load)的方式进行标准化、转换和加载,并保证数据之间的一致性和完整性。
3.时间性:数据仓库关注历史数据的存储和分析,并提供不同时间维度的数据展示方式,为决策者提供多样化的选择。
数据仓库在大数据领域的应用:1.数据分析和挖掘:通过数据仓库中的数据进行多维分析和数据挖掘,为决策者提供全面的数据支持。
2.企业级统一视图:数据仓库可以实现企业级统一视图,使决策者可以获得一份全面的数据报告。
3.交互式查询:数据仓库提供交互式的查询功能,用户可以根据需要自定义查询条件和维度,获得满足自己需求的数据结果。
二、云计算云计算(Cloud Computing)是指通过网络以服务方式提供计算资源的一种模式。
云计算基于分布式计算、虚拟化技术和自动化管理,通过网络实现数据处理和存储,通过服务模式进行资源使用和计费。
云计算的特点:1.弹性伸缩:云计算可以根据需求进行弹性伸缩,为企业和个人提供更加灵活的资源使用方式,从而降低IT成本、提高效率。
2.服务化:云计算基于服务的方式提供资源,用户可以根据需要选择提供商和服务类型,并根据实际使用量进行计费,降低了技术和资金门槛。
数据仓库的基本架构数据仓库是一个用于集成、存储和管理企业数据的系统。
它提供了一个可靠的数据源,用于支持企业的决策制定、分析和报告。
数据仓库的基本架构包括以下几个关键组件和层次:1. 数据提取层(Extraction Layer):数据仓库的第一步是从各个源系统中提取数据。
这些源系统可以是企业内部的业务系统、关系数据库、日志文件等。
数据提取层负责从这些源系统中抽取数据,并将其转换成适合数据仓库的格式。
2. 数据转换层(Transformation Layer):在数据提取层之后,数据需要经过一系列的转换和清洗操作,以确保数据的一致性和准确性。
数据转换层包括数据清洗、数据集成、数据转换和数据加载等过程。
在这个层次上,数据被转换成适合数据仓库的结构和格式。
3. 数据存储层(Storage Layer):数据存储层是数据仓库的核心组件,用于存储经过转换的数据。
数据存储层通常采用多维数据模型,如星型模型或雪花模型,以支持复杂的查询和分析操作。
在数据存储层中,数据被组织成事实表和维度表的形式。
4. 数据访问层(Access Layer):数据访问层提供了对数据仓库的查询和分析功能。
用户可以使用各种工具和技术,如SQL查询、OLAP(联机分析处理)工具和数据挖掘工具,来访问和分析数据仓库中的数据。
数据访问层还可以提供数据报表、数据可视化和仪表板等功能。
5. 元数据管理层(Metadata Management Layer):元数据是描述数据仓库中数据的数据。
元数据管理层负责管理和维护数据仓库的元数据,包括数据定义、数据质量、数据血缘等信息。
元数据管理层可以帮助用户理解和使用数据仓库中的数据。
6. 安全和权限层(Security and Authorization Layer):安全和权限层用于保护数据仓库中的数据免受未经授权的访问和滥用。
这个层次上,可以实施各种安全措施,如用户认证、访问控制和数据加密等。
7. 数据质量管理层(Data Quality Management Layer):数据质量管理层用于监控和管理数据仓库中数据的质量。
空间数据仓库体系结构框架的概念模型随着信息技术的不断发展和应用,数据已成为现代社会中最重要的资源之一。
在各行各业中,数据的收集、存储、处理和应用都已成为必不可少的工作。
而在地理信息领域中,空间数据的重要性更是不言而喻。
空间数据是指与地理位置相关的数据,包括地理位置、地物、地形、地貌等信息。
这些数据的收集、管理和应用对于地理信息系统的开发和应用具有重要的作用。
随着空间数据的增多和应用需求的不断增加,空间数据仓库的开发和应用也变得越来越重要。
空间数据仓库是指将空间数据集成到一个统一的数据库中,通过数据仓库技术实现数据的快速查询、分析和应用的一种方式。
空间数据仓库的开发和应用可以帮助用户更加方便地获取和利用空间数据,提高工作效率和数据应用的质量。
在空间数据仓库的开发和应用中,数据仓库体系结构框架的概念模型是一个非常重要的工具。
数据仓库体系结构框架是指数据仓库系统中各个组成部分之间的关系模型,包括数据仓库的数据模型、数据存储、数据访问和数据应用等方面。
数据仓库体系结构框架的概念模型可以帮助用户更好地理解和应用数据仓库系统,提高数据仓库的开发和应用效率。
在空间数据仓库体系结构框架的概念模型中,数据仓库的数据模型是非常重要的一部分。
数据模型是指数据仓库系统中数据的组织和存储方式,包括维度模型和事实模型。
维度模型是指以业务过程和业务实体为基础的数据模型,用于描述数据之间的关系和属性。
事实模型是指描述事实和关系的数据模型,用于描述数据之间的关系和属性。
在空间数据仓库中,数据模型应该以地理位置为基础,将空间数据与其他数据进行关联和分析,实现空间数据的快速查询和分析。
数据存储是数据仓库体系结构框架的概念模型中的另一个重要组成部分。
数据存储是指数据仓库中数据的物理存储方式,包括数据仓库的数据结构、数据仓库的存储介质和数据仓库的备份和恢复等方面。
在空间数据仓库中,数据存储应该采用高效的存储技术,如多维数组、索引和压缩等技术,以提高数据的存储和查询效率。
第1章数据仓库建设1.1 数据仓库总体架构专家系统接受增购项目车辆TCMS或其她子系统通过车地通信传播实时或离线数据,通过一系列综合诊断分析,以各种报表图形或信息推送形式向顾客展示分析成果。
针对诊断出车辆故障将给出专家建议解决办法,为车辆故障根因修复提供必要支持。
依照专家系统数据仓库建设目的,结合系统数据业务规范,涉及数据采集频率、数据采集量等有关因素,设计专家系统数据仓库架构如下:数据仓库架构从层次构造上分为数据采集、数据存、数据分析、数据服务等几种方面内容:数据采集:负责从各业务自系统中汇集信息数据,系统支撑Kafka、Storm、Flume及老式ETL采集工具。
数据存储:本系统提供Hdfs、Hbase及RDBMS相结合存储模式,支持海量数据分布式存储。
数据分析:数据仓库体系支持老式OLAP分析及基于Spark常规机器学习算法。
数据服务总线:数据系统提供数据服务总线服务,实现对数据资源统一管理和调度,并对外提供数据服务。
1.2 数据采集专家系统数据仓库数据采集涉及两个某些内容:外部数据汇集、内部各层数据提取与加载。
外部数据汇集是指从TCMS、车载子系统等外部信息系统汇集数据到专家数据仓库操作型存储层(ODS);内部各层数据提取与加载是指数据仓库各存储层间数据提取、转换与加载。
1.2.1外部数据汇集专家数据仓库数据源涉及列车监控与检测系统(TCMS)、车载子系统等有关子系统,数据采集内容分为实时数据采集和定期数据采集两大类,实时数据采集重要对于各项检测指标数据;非实时采集涉及日检修数据等。
依照项目信息汇集规定,列车指标信息采集具备采集数据量大,采集频率高特点,考虑到系统后期扩展,因而在数据数据采集方面,规定采集体系支持高吞吐量、高频率、海量数据采集,同步系统应当灵活可配备,可依照业务需要进行灵活配备横向扩展。
本方案在数据采集架构采用Flume+Kafka+Storm组合架构,采用Flume和ETL工具作为KafkaProducer,采用Storm作为KafkaConsumer,Storm可实现对海量数据实时解决,及时对问题指标进行预警。
数据仓库和LOAP应用技术传统数据库以及OLTP(On-Line Transaction Processing联机事务处理)在日常的管理事务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足。
因为,管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的发展趋势。
而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量的历史信息。
为满足管理人员的决策分析需要,就需要在数据库的基础上产生适应决策分析的数据环境——数据仓库(Data Warehouse)。
数据仓库系统是一个信息提供平台,是决策支持系统和联机分析应用数据源的结构化数据环境。
数据仓库研究和解决从数据库中获取信息的问题。
从功能结构化分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三个关键部分。
其体系结构如下:业务处理系统即是数据库去实现的即时记录的功能,在数据准备区进行ETF处理,数据经过抽取、转换之后加载到数据仓库中,因此也说数据仓库是利用的已经存在的历史记录去整合,是利用原有数据分析下一步行动的决策,是有风险的。
分析完主题和数据元后建立数据模型(概念模型、逻辑模型、物理模型)并形成事实表和纬度表,然后通过粒度分析将历史记录先抽取整合,然后再根据决策者可能用到的数据集合分解成若干记录,以备不同决策者使用;再利用OLAP工具技术进行数据的分析导出。
当然,这些都在了解了管理者即客户的需求之后进行的,或者是由企业的管理者自己进行的技术应用或分析。
模型设计的过程如下:数据仓库是管理决策分析的基础,要有效地利用数据仓库的信息资源,必须要有强大的工具对数据仓库的信息进行分析决策。
On-line Analytical Processing(在线分析处理或联机分析处理)就是一个应用广泛的数据仓库使用技术。
它可以根据分析人员的要求,迅速灵活地对当量的数据进行复杂的查询处理,并以直观的容易理解的形式将查询结果提供给各种决策人员,使他们能够迅速准确地掌握企业的运营情况,了解市场的需求。
数据仓库的基本架构数据仓库是一个用于存储和管理大量结构化和非结构化的数据的系统。
它旨在支持企业决策制定过程,提供准确、一致且易于访问的数据。
数据仓库的基本架构包括以下几个主要组件:数据源、数据抽取、数据转换、数据加载、数据存储和数据访问。
1. 数据源数据源是指数据仓库所需的原始数据的来源。
数据源可以是企业内部的各种业务系统,如销售系统、财务系统、人力资源系统等,也可以是外部数据源,如市场调研数据、社交媒体数据等。
数据源可以是关系型数据库、文件、API接口等形式。
2. 数据抽取数据抽取是指从数据源中提取数据并将其导入到数据仓库的过程。
数据抽取可以通过各种方式进行,如全量抽取、增量抽取、定时抽取等。
在数据抽取过程中,需要考虑数据的完整性、一致性和准确性。
3. 数据转换数据转换是指将从数据源中提取的数据进行清洗、整合和转换的过程。
在数据转换过程中,可以对数据进行去重、过滤、格式化、计算等操作,以确保数据的质量和一致性。
数据转换可以使用ETL(抽取、转换和加载)工具来实现。
4. 数据加载数据加载是指将经过转换的数据加载到数据仓库中的过程。
数据加载可以采用批量加载或者实时加载的方式进行。
批量加载是指将数据按批次导入到数据仓库中,适合于数据量较大的情况;实时加载是指将数据实时地导入到数据仓库中,适合于需要及时分析的场景。
5. 数据存储数据存储是指数据仓库中数据的物理存储方式。
数据存储可以采用关系型数据库、列式数据库、分布式文件系统等形式。
关系型数据库适合存储结构化数据,列式数据库适合存储大规模数据,分布式文件系统适合存储非结构化数据。
6. 数据访问数据访问是指用户通过查询和分析工具来访问数据仓库中的数据。
数据访问可以通过SQL查询、OLAP(联机分析处理)、数据挖掘等方式进行。
数据访问工具可以提供丰富的数据可视化和分析功能,匡助用户更好地理解和利用数据。
总结:数据仓库的基本架构包括数据源、数据抽取、数据转换、数据加载、数据存储和数据访问六个主要组件。
数据仓库系统(DWS)由数据仓库、仓库管理和分析工具三部分组成。
源数据:数据仓库的数据来源于多个数据源,包括企业内部数据、市场调查报告及各种文档之类的外部数据。
仓库管理: 在确定数据仓库信息需求后,首先进行数据建模,然后确定从源数据到数据仓库的数据抽取、清理和转换过程,最后划分维数及确定数据仓库的物理存储结构。
元数据是数据仓库的核心,它用于存储数据模型和定义数据结构、转换规划、仓库结构、控制信息等。
数据仓库: 包括对数据的安全、归档、备份、维护、恢复等工作,这些工作需要利用数据库管理系统(DBMS)的功能。
分析工具用于完成实际决策问题所需的各种查询检索工具、多维数据的OLAP分析工具、数据开采DM工具等,以实现决策支持系统的各种要求。
数据仓库应用是一个典型的C/S结构。
其客户端的工作包括客户交互、格式化查询及结果和报表生成等。
服务器端完成各种辅助决策的SQL查询、复杂的计算和各类综合功能等。
现在,一种越来越普遍的形式是三层结构,即在客户与服务器之间增加一个多维数据分析服务器。
OLAP服务器能加强和规范决策支持的服务工作,集中和简化原客户端和DW服务器的部分工作,降低系统数据传输量,因此工作效率更高。
什么是联机分析处理(OLAP)联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。
OLAP的提出引起了很大的反响,OLAP作为一类产品同联机事务处理 (OLTP) 明显区分开来。
当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。
OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
下表列出了OLTP与OLAP之间的比较。
OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。
“维”是人们观察客观世界的角度,是一种高层次的类型划分。
“维”一般包含着层次关系,这种层次关系有时会相当复杂。
通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。
因此OLAP也可以说是多维数据分析工具的集合。
OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through等。
·钻取是改变维的层次,变换分析的粒度。
它包括向上钻取(roll up)和向下钻取(drill down)。
roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维。
·切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。
如果剩余的维只有两个,则是切片;如果有三个,则是切块。
·旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。
OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。
ROLAP 表示基于关系数据库的OLAP实现(Relational OLAP)。
以关系数据库为核心,以关系型结构进行多维数据的表示和存储。
ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。
维表和事实表通过主关键字和外关键字联系在一起,形成了"星型模式"。
对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为"雪花模式"。
MOLAP 表示基于多维数据组织的OLAP实现(Multidimensional OLAP)。
以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。
多维数据在存储中将形成"立方块(Cube)"的结构,在MOLAP 中对"立方块"的"旋转"、"切块"、"切片"是产生多维数据报表的主要技术。
HOLAP表示基于混合数据组织的OLAP实现(Hybrid OLAP)。
如低层是关系型的,高层是多维矩阵型的。
这种方式具有更好的灵活性。
还有其他的一些实现OLAP的方法,如提供一个专用的SQL Server,对某些存储模式(如星型、雪片型)提供对SQL查询的特殊支持。
OLAP 工具是针对特定问题的联机数据访问与分析。
它通过多维的方式对数据进行分析、查询和报表。
维是人们观察数据的特定角度。
例如,一个企业在考虑产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。
这里的时间、地区和产品就是维。
而这些维的不同组合和所考察的度量指标构成的多维数组则是OLAP分析的基础,可形式化表示为(维1,维2,……,维n,度量指标),如(地区、时间、产品、销售额)。
多维分析是指对以多维形式组织起来的数据采取切片(Slice)、切块(Dice)、钻取(Drill-down和Roll-up)、旋转(Pivot)等各种分析动作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。
根据综合性数据的组织方式的不同,目前常见的OLAP主要有基于多维数据库的MOLAP 及基于关系数据库的ROLAP两种。
MOLAP是以多维的方式组织和存储数据,ROLAP则利用现有的关系数据库技术来模拟多维数据。
在数据仓库应用中,OLAP应用一般是数据仓库应用的前端工具,同时OLAP工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。
数据抽取、清洗与转换 BI项目中ETL设计作者: , 出处:ITPub, 责任编辑: 叶江, 2007-05-14 13:39ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析的依据ETL是BI项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL 设计的好坏直接关接到BI项目的成败。
ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为项目后期开发提供准确的数据。
ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。
在设计ETL的时候也是从这三部分出发。
数据的抽取是从各个不同的数据源抽取到ODS中(这个过程也可以做一些数据的清洗和转换),在抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率。
ETL三个部分中,花费时间最长的是T(清洗、转换)的部分,一般情况下这部分工作量是整个ETL的2/3。
数据的加载一般在数据清洗完了之后直接写入DW中去。
ETL的实现有多种方法,常用的有三种,第一种是借助ETL工具如Oracle的OWB、SQL server 2000的DTS、SQL Server2005的SSIS服务、informatic等实现,第二种是SQL方式实现,第三种是ETL工具和SQL相结合。
前两种方法各有优缺点,借助工具可以快速的建立起ETL工程,屏蔽复杂的编码任务,提高速度,降低难度,但是欠缺灵活性。
SQL的方法优点是灵活,提高ETL运行效率,但是编码复杂,对技术要求比较高。
第三种是综合了前面二种的优点,极大的提高ETL的开发速度和效率。
数据的抽取数据的抽取需要在调研阶段做大量工作,首先要搞清楚以下几个问题:数据是从几个业务系统中来?各个业务系统的数据库服务器运行什么DBMS?是否存在手工数据,手工数据量有多大?是否存在非结构化的数据?等等类似问题,当收集完这些信息之后才可以进行数据抽取的设计。
1、与存放DW的数据库系统相同的数据源处理方法这一类数源在设计比较容易,一般情况下,DBMS(包括SQLServer,Oracle)都会提供数据库链接功能,在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写Select 语句直接访问。
2、与DW数据库系统不同的数据源的处理方法。
这一类数据源一般情况下也可以通过ODBC的方式建立数据库链接,如SQL Server和Oracle之间。
如果不能建立数据库链接,可以有两种方式完成,一种是通过工具将源数据导出成.txt或者是.xls文件,然后再将这些源系统文件导入到ODS中。
另外一种方法通过程序接口来完成。
3、对于文件类型数据源(.txt,,xls),可以培训业务人员利用数据库工具将这些数据导入到指定的数据库,然后从指定的数据库抽取。
或者可以借助工具实现,如SQL SERVER 2005 的SSIS服务的平面数据源和平面目标等组件导入ODS中去。
4、增量更新问题对于数据量大的系统,必须考虑增量抽取。
一般情况,业务系统会记录业务发生的时间,可以用作增量的标志,每次抽取之前首先判断ODS中记录最大的时间,然后根据这个时间去业务系统取大于这个时间的所有记录。
利用业务系统的时间戳,一般情况下,业务系统没有或者部分有时间戳。
数据的清洗转换一般情况下,数据仓库分为ODS、DW两部分,通常的做法是从业务系统到ODS做清洗,将脏数据和不完整数据过滤掉,再从ODS到DW的过程中转换,进行一些业务规则的计算和聚合。
1、数据清洗数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。
不符合要求的数据主要是有不完整的数据、错误的数据和重复的数据三大类。
A、不完整的数据,其特征是是一些应该有的信息缺失,如供应商的名称,分公司的名称,客户的区域信息缺失、业务系统中主表与明细表不能匹配等。
需要将这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全。
补全后才写入数据仓库。
B、错误的数据,产生原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车、日期格式不正确、日期越界等。
这一类数据也要分类,对于类似于全角字符、数据前后有不面见字符的问题只能写SQL的方式找出来,然后要求客户在业务系统修正之后抽取;日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误需要去业务系统数据库用SQL 的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。