当前位置:文档之家› 数据仓库解决方案

数据仓库解决方案

数据仓库解决方案v1.0

数据仓库解决方案

深圳太极云软技术股份有限公司

2016年1月

目录

(一)概述 (5)

一.国内信息化的现状

5

二.以应用驱动,数据仓库建设应由后向前

规划 (5)

三.“想大做小”(整体设计、分布实施)

6

(二)系统架构 (7)

数据仓库架构 (8)

系统功能架构 (9)

(三)数据仓库建设方法 (10)

数据仓库建设8大步骤 (11)

1.系统分析,确定主题 (11)

2.选择满足数据仓库系统要求的软件

平台 (12)

3.建立数据仓库的逻辑模型 (12)

4.逻辑数据模型转化为数据仓库数据

模型 (13)

5.数据仓库数据模型优化 (14)

6.数据清洗转换和传输 (15)

7.开发数据仓库的分析应用 (16)

8.数据仓库的管理 (17)

(四)系统功能详细介绍 (18)

企业数据门户 (18)

主题分析 (19)

即席查询 (20)

多维分析工具 (21)

ETL工具 (21)

报表工具 (23)

(一)概述

一. 国内信息化的现状

1.信息化建设的发展历史:

在国内信息化建设过程中,基本上是按照当时业务系统的需求进行建设,过一段时间,如果有新的业务推出,就再建设一个新的系统,或在原系统的基础上增加新的业务处理。这样的结果使每个系统和系统之间缺少真正的信息沟通和信息交换。

2.为何要建立数据仓库:

根据现状业务系统各自为政,相互独立。当很多业务系统建立后,由于领导的要求和决策的需求,需要一些指标的分析,在相应的业务系统基础上再增加分析和相应的报表功能,这样每个系统就增加了报表和分析功能。但是,由于数据源不统一导致了对同一个指标分析的结果不相同。为了解决该问题,为了分析和决策的需要,将相互分离的业务系统的数据源整合在一起,可以为领导和决策层提供分析和辅助决策。

二. 以应用驱动,数据仓库建设应由后向前规划

数据仓库到底应该怎么建设?我一贯的主张是应用驱动。什么样的应用呢?应用是应考虑政府管理的现状和决策层最关心的问题入手。分利用现有信息系统资源,进一步细化、量化权力清单,固化权

力运行流程和办理环节,达到规范业务流程、监督个体行为、记录执法诚信、科学考核评价和提升管理精度,最终使群众的合法权益得到保护,实现权力有效监督和提升政府效能。通过分析经济发展、卫生健康、教育科技、道路交通、机构团体、生活服务、文体娱乐、安全避险、资源环境、社保就业、财税金融、法律服务等这些主题的分析是否可行,应该先进行评估。这样从应用主题入手,就可以知道需要什么样的数据,来自那些业务系统和数据源,这些数据的全体进行一定的整合,按照分析的要求存储就组成了一个个数据集市(Data Mart)。

三.“想大做小”(整体设计、分布实施)

为了避免原有业务系统相对独立而形成的一个个信息孤岛,以应用驱动建设数据仓库,往往会造成新的信息孤岛。这是因为应用往往是部门级的或者是某一方面的应用,不能完全覆盖企业级的所有应用。当然我们这里不提倡一次建设的应用。如何避免这个问题,是我这里着重要要强调的。这里分两种情形进行设计,系统作用

1. 整合业务数据

在各业务系统中,数据不流通,形成信息孤岛,商业智能解决方案建立统一数据仓库,整合业务数据,给管理者提供统一视图,统一决策界面。

2. 支撑决策

从数据中分析企业发展趋势,挖掘新的机会方法,根据数据决策,

提高决策的及时性及准确率。

3. 提供管理效能,量化办事效率

基于系统分析内容,管理者能了解细化、量化权力清单,固化权力运行流程和办理环节,达到规范业务流程、监督个体行为、记录执法诚信、科学考核评价和提升管理精度,最终使群众的合法权益得到保护,实现权力有效监督和提升政府效能。

(二)系统架构

系统架构图

在建立数据仓库,数据仓库按主题域存储各业务数据。数据来源主要是政府管理结构的不同业务管理系统。通过数据交换平台定期采集各管理机构的业务数据,后台数据处理工具ETL抽取、清洗数据,并加载入数据仓库中。

架构于数据仓库上的系统功能主要包括大数据门户、专题主题分析、即系查询、多维分析、自助报表的功能模块,通过这些功能模块为管理者获取数据和分析数据提供简单易用、功能强大的方法,为管理者决策及提升管理精度,最终实现权力有效监督和提升政府效能。

数据仓库架构

数据仓库是一个建设过程,而不是产品。数据仓库是通过对来自不同的数据源进行统一的处理及管理,通过灵活的展示方法来帮助决策支持。

?数据获取层

实现如何从所有源系统中获得原始的业务数据,并对其进行一定的数据处理,按主题进行数据重组和格式转换,然后传送并装载到数据仓库系统中。

数据仓库系统需要从多个源数据系统中抽取和汇总各个业务数据,这些数据源系统是数据仓库系统的数据来源。

把上述数据源系统中的数据按照主题进行划分和组织,然后抽取并装载到数据仓库系统中。

数据需要经过三个过程:数据抽取、数据转换、数据装载。这三个过程是在保证各个数据源系统与数据仓库系统能够成功连接(包括网络协议标准的转换、不同平台之间的接口)的前提下实现的。保证

把来自不同的源数据系统的同类数据的一致性和完整性,转换完成的数据装载到数据仓库系统中。

?数据管理层

把数据存储到企业级数据仓库系统中进行集中管理。在数据存储层,数据是存放在两类数据库中:关系型数据库和多维数据库。数据存储是数据仓库系统的中心。取自多个数据源系统的明细数据,以及用于分析的集成汇总数据都存储在这个中心。它在逻辑上是一个完整的库。

?数据使用层

把数据仓库系统中的数据和分析结果提供给最终用户。按照用户的分析需求、使用报表、随即查询、多维度分析和数据挖掘进行数据展现。

数据输出层的功能是使最终用户通过报表、图形和其他分析工具的方式简便、快捷地访问数据仓库系统中的各种数据,得到分析结果。

提供多种数据分析方法,包括标准报表、即席查询报表、动态分析报表、多维分析、趋势预测、假设分析和数据挖掘等。

系统功能架构

多维分析OLDP多角度、立体化、灵活动态的分析业务数据。产品简单易用,无需编写任何的代码,用户只需要通过语义层的定义就可以轻松搭建自己的多维数据模型。

即席查询统计报表、指标的快速检索,帮助业务分析人员快速获得所需要的数据和统计信息。

数据门户Data Portal进行统一展现,展现方式包括仪表盘、表

格、报表、日历等内容,并支持用户个性化定制内容、指标等功能,实现真正的个性化服务。数据门户中展现的内容是管理者及业务人员最关注的指标,通过门户为他们获取数据提供最简单容易的方式。

主题分析根据资源的组织,支持数据的深入挖掘和分析应用,跟踪、监控政策的执行情况及实施效果,让管理层了解细化、量化权力清单,固化权力运行流程和办理环节,达到规范业务流程、监督个体行为、记录执法诚信、科学考核评价和提升管理精度,最终使群众的合法权益得到保护,实现权力有效监督和提升政府效能。

报表业商业智能系统建设的重要组成部分,主要对企业数据仓库中整合的各主题域业务数据,按照监督管理要求,面向各级部门,快速提供准确、全面、灵活的体现政府管理效能等方面实际的数据信息,为决策支持、业务管理提供有效的数据信息支撑。

ETL工具:ETL是数据仓库最核心的后台组件,通过对及汇总来的不同来源数据的抽取、清洗、加载实现数据仓库中数据的更新及流转。ETL工具(桥接器),实现了图形化及自动化的方式来配置ETL 流程,极大的减轻了数据加工的工作量,提高了数据准确性及处理效率。

(三)数据仓库建设方法

数据仓库决策分析的业务处理流程主要分为四个阶段。

1) 数据集中:各级政府部门业务数据统一汇总数据中心临时数据存储;

2) 数据整理和转换:汇总后的业务数据经过ETL 抽取、转换、加载到数据仓库中;

3) 数据存储和管理:对数据仓库数据进行集中存储和管理、备份和维护;

4) 数据挖掘和展现:用户通过前端的展现工具对数据仓库中数据进行挖掘、钻取和分析,在数据门户展现; 数据仓库建设8大步骤

1.系统分析,确定主题

确定一下几个因素:

·操作出现的频率,即业务部门每隔多长时间做一次查询分析。

各委办

局业务

交换政府数据中心 临时抽取 转换 加载

数据仓 决策 数据

·在系统中需要保存多久的数据,是一年、两年还是五年、十年。·用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。

·用户所能接受的响应时间是多长、是几秒钟,还是几小时。

2.选择满足数据仓库系统要求的软件平台

选择合适的软件平台,包括数据库、建模工具、分析工具等。有许多因素要考虑,如系统对数据量、响应时间、分析功能的要求等,以下是一些公认的选择标准:

·厂商的背景和支持能力,能否提供全方位的技术支持和咨询服务。·数据库对大数据量(TB级)的支持能力。

·数据库是否支持并行操作。

·能否提供数据仓库的建模工具,是否支持对元数据的管理。

·能否提供支持大数据量的数据加载、转换、传输工具(ETT)。·能否提供完整的决策支持工具集,满足数据仓库中各类用户的需要。

3.建立数据仓库的逻辑模型

具体步骤如下:

(1)确定建立数据仓库逻辑模型的基本方法。

(2)基于主题视图,把主题视图中的数据定义转到逻辑数据模型中。

(3)识别主题之间的关系。

(4)分解多对多的关系。

(5)用范式理论检验逻辑数据模型。

(6)由用户审核逻辑数据模型。

4.逻辑数据模型转化为数据仓库数据模型

具体步骤如下:

(1)删除非战略性数据:数据仓库模型中不需要包含逻辑数据模型中的全部数据项,某些用于操作处理的数据项要删除。

(2)增加时间主键:数据仓库中的数据一定是时间的快照,因此必须增加时间主键。

(3)增加派生数据:对于用户经常需要分析的数据,或者为了提高性能,可以增加派生数据。

(4)加入不同级别粒度的汇总数据:数据粒度代表数据细化程度,

粒度越大,数据的汇总程度越高。粒度是数据仓库设计的一个重要因素,它直接影响到驻留在数据仓库中的数据量和可以执行的查询类型。显然,粒度级别越低,则支持的查询越多;反之,能支持的查询就有限。

5.数据仓库数据模型优化

数据仓库设计时,性能是一项主要考虑因素。在数据仓库建成后,也需要经常对其性能进行监控,并随着需求和数据量的变更进行调整。优化数据仓库设计的主要方法是:

·合并不同的数据表。

·通过增加汇总表避免数据的动态汇总。

·通过冗余字段减少表连接的数量,不要超过3~5个。

·用ID代码而不是描述信息作为键值。

·对数据表做分区。

6.数据清洗转换和传输

由于业务系统所使用的软硬件平台不同,编码方法不同,业务系统中的数据在加载到数据仓库之前,必须进行数据的清洗和转换,保证数据仓库中数据的一致性。

在设计数据仓库的数据加载方案时,必须考虑以下几项要求:

·加载方案必须能够支持访问不同的数据库和文件系统。

·数据的清洗、转换和传输必须满足时间要求,能够在规定的时间范围内完成。

·支持各种转换方法,各种转换方法可以构成一个工作流。

·支持增量加载,只把自上一次加载以来变化的数据加载到数据仓库。

7.开发数据仓库的分析应用

建立数据仓库的最终目的是为业务部门提供决策支持能力,必须为业务部门选择合适的工具实现其对数据仓库中的数据进行分析的要求。信息部门所选择的开发工具必须能够:

·满足用户的全部分析功能要求。数据仓库中的用户包括了企业中各个业务部门,他们的业务不同,要求的分析功能也不同。如有的用户只是简单的分析报表,有些用户则要求做预测和趋势分析。

·提供灵活的表现方式。分析的结果必须能够以直观、灵活的方式表现,支持复杂的图表。使用方式上,可以是客户机/服务器方式,也可以是浏览器方式。

事实上,没有一种工具能够满足数据仓库的全部分析功能需求,一个完整的数据仓库系统的功能可能是由多种工具来实现,因此必须考虑多个工具之间的接口和集成性问题,对于用户来说,希望看到的是一致的界面。

8.数据仓库的管理

只重视数据仓库的建立,而忽视数据仓库的管理必然导致数据仓库项目的失败。数据仓库管理主要包括数据库管理和元数据管理。

数据库管理需要考以下几个方面:

·安全性管理。数据仓库中的用户只能访问到他的授权范围内的数据,数据在传输过程中的加密策略。

·数据仓库的备份和恢复。数据仓库的大小和备份的频率直接影响到备份策略。

·如何保证数据仓库系统的可用性,硬件还是软件方法。

·数据老化。设计数据仓库中数据的存放时间周期和对过期数据的老化方法,如历史数据只保存汇总数据,当年数据保存详细记录。

然而,元数据管理贯穿于整个系统的建设过程中,元数据是描述数据的数据。在数据采集阶段,元数据主要包括下列信息:

·源数据的描述定义:类型、位置、结构。

·数据转换规则:编码规则、行业标准。

·目标数据仓库的模型描述:星型/雪花模型定义,维/事实结构定义。

·源数据到目标数据仓库的映射关系:函数/表达式定义。

·代码:生成转换程序、自动加载程序等。

在数据管理阶段,元数据主要包括下列信息:

·汇总数据的描述:汇总/聚合层次、物化视图结构定义。

·历史数据存储规则:位置、存储粒度。

·多维数据结构描述:立方体定义、维结构、度量值、钻取层次定义等。

在数据展现阶段,元数据主要包括以下信息:

·报表的描述:报表结构的定义。

·统计函数的描述:各类统计分析函数的定义。

·结果输出的描述:图、表输出的定义。

元数据不但是独立存放,而且对用户是透明的,标准元数据之间可以互相转换

(四)系统功能详细介绍

企业数据门户

企业实施商业智能、数据仓库的目的之一为整合各系统的业务数据,统一指标口径,实现统一视图、统一决策界面。企业数据门户功能主要对整合的业务数据进行统一展现,展现方式包括仪表盘、表格、日历等内容。数据门户中展现的内容是管理者及业务人员最关注的指标,通过门户为他们获取数据提供最简单容易的方式。数据门户中展现的内容根据用户角色不同而有所差异,每个用户都可以定制自己

关注的内容,实现真正的个性化服务。

系统截图:

主题分析

数据仓库中的业务数据通常是面向主题进行组织的。主题分析是在较高层次上将企业信息系统的数据进行归并、抽象,形成对分析对象的一个完整的描述,体现分析数据之间的相互关系,揭示数据规律

和问题。

主题分析模块从主题域的角度入手,支撑数据资源的组织,支持数据的深入挖掘和分析应用,跟踪、监控政策的执行情况及实施效果,倒逼行政权力部门认真履职、规范执法、优化服务,努力提高政府效能。

考虑到国情特点和现状,主题分析涵盖了经济发展、卫生健康、教育科技、道路交通、机构团体、生活服务、文体娱乐、安全避险、资源环境、社保就业、财税金融、法律服务量等八个主题域相关的主题分析功能。

即席查询

即席查询针对数据仓库内的各主题数据、统计报表、指标的快速检索,帮助分析人员快速获得所需要的数据和统计信息。即席查询工具通过提供各种向导式界面、图形查询生成器、联机帮助等功能,为系统使用人员提供细粒度数据。

即席查询是分析人员的重要的辅助工具,它是在数据仓库的信息组织基础上,尽可能多的在后台按照分析人员关心的分析角度沉淀业务知识,在前端功能上屏蔽后台查询技术细节,为分析人员提供灵活的业务分析查询角度定制和结果定制功能,使分析人员在分析汇总数据的同时能够通过即席查询进一步深入到自己感兴趣的细节数据中,以便更全面地反映情况,做出正确决策。

相关主题
文本预览
相关文档 最新文档