当前位置:文档之家› 企业级数据仓库设计方法及其实施的关

企业级数据仓库设计方法及其实施的关

企业级数据仓库设计方法及其实施的关
企业级数据仓库设计方法及其实施的关

第19卷第12期V o l.19N o.12 控 制 与 决 策

 Con trol and D ecision 

2004年12月

D ec.2004

文章编号:100120920(2004)1221378205

企业级数据仓库设计方法及其实施的关键因素研究

鲍玉斌1,史 捷2,王大玲1,嵇 晓1,于 戈1

(1.东北大学信息科学与工程学院,辽宁沈阳110004;2.中铁九局集团有限公司信息中心,辽宁沈阳110013)

摘 要:数据仓库是支持企业全局决策的有效技术.首先讨论了数据仓库的基本结构和组成,并给出了数据仓库系统的形式化描述;然后给出了基于软件工程思想的具有7个阶段的数据仓库设计方法,并详细讨论了各个阶段的主要工作和技术;最后,给出了成功建设数据仓库的关键因素的分类.

关键词:数据仓库;体系结构;设计方法;关键因素

中图分类号:T P311 文献标识码:A

On the design of en terpr ise-w ide data warehouses and the cr itical factors i n the develop m en t

B A O Y u2bin1,S H I J ie2,W A N G D a2ling1,J I X iao1,YU Ge1

(1.Schoo l of Info r m ati on Science and Engineering,N o rtheastern U niversity,Shenyang110004,Ch ina;

https://www.doczj.com/doc/9b14038378.html, r m ati on Center,Ch ina R ail w ay N o.9Group Co L td,Shenyang110013,Ch ina.Co rrespondent:BAO Yu2bin,

E2m ail:baoyb@m https://www.doczj.com/doc/9b14038378.html,)

Abstract:D ata w arehousing is an effective technique fo r decisi on2m ak ing suppo rt in range of w ho le enterp rise.T he arch itecture and the component of data w arehouse system are discussed,and its fo r m al descri p ti on is p resented.

T hen,the fram ew o rk including seven phases fo r designing data w arehouse system is p resented based on softw are en2 gineering.A nd the m ain task s and techniques of each phase are discussed.F inally,the classificati on of the critical success facto rs fo r data w arehouse design is p ropo sed.

Key words:data w arehouse;arch itecture;m ethodo logy;critical facto rs

1 引 言

数据仓库是面向主题的、集成的、随时间改变的、持久的数据集合,主要用于支持经营管理中的决策制定过程[1].数据仓库系统是企业有效利用庞大信息资源的一个很好的解决方案.这不仅是因为数据仓库能提供庞大信息资源的有效管理,而且更为关键的是数据仓库技术一改以往数据库技术的“以数据为中心”的理念,它强调“以信息、业务为中心,以决策为目的”.数据仓库是企业开发各种应用系统,如企业资源规划(ER P),客户关系管理(CRM),供应链管理(SC M),数据挖掘(DM),联机分析处理(OLA P)等的基础.因此,构建企业级数据仓库是企业成功实施其他系统的关键.

文献[1~3]中提出了数据仓库设计方法,讨论了数据仓库的最核心部分的设计,但没有从整个数据仓库工程的角度出发.因此,本文在给出数据仓库形式化描述的基础上,通过某大型企业数据仓库的开发实践,提出企业数据仓库系统设计方法,总结了成功开发数据仓库系统的几个关键因素.

收稿日期:2003208204;修回日期:2004206215.

基金项目:国家自然科学基金资助项目(60173051).

作者简介:鲍玉斌(1968—),男,吉林集安人,副教授,从事数据仓库与数据挖掘等研究;于戈(1962—),男,辽宁大连人,教授,博士生导师,从事数据库理论和技术等研究.

2

 数据仓库的结构及其描述

图1 数据仓库的组成

数据仓库的组成如图1所示.一个数据仓库DW 可以表示为一个6元组

DW =〈D S,DD ,SD ,AD ,M D ,PS 〉.

D S 是数据仓库的数据来源,它是由操作型系统中的数据库表O ST 和外部数据源ED S (如电子表,平文本等)构成的集合,即D S ={O ST ,ED S ,…}.

DD 是数据仓库中的细节数据集合

.细节数据是数据仓库的核心,其数据直接来源于D S ,或者是原始数据的存储,或者是原始数据的聚合结果的存储.它是整个企业范围模式一致的数据集合.

SD ={数据集市DM t 的集合∪数据立方DC 的

集合}.其中数据集市DM t 用于企业中某一部门的

分析,它是由DD 中的细节数据集成汇总而来.而数据立方DC 汇总的粒度相对较高,用于完成某些探索性的分析,如OLA P 等.因此它也被称为探索数据仓库[4]

.

AD 指归档数据

.随着时间的推移,数据仓库中有许多数据很少被访问.出于性能的原因以及辅存容量的限制,需要将这些数据存储到近线或离线存储设备上.

M D 指数据仓库的元数据,它是数据仓库系统

的中枢.元数据定义了数据仓库的体系结构、数据仓库的数据模型以及业务规则等,为数据仓库的设计、维护和使用提供信息.

PS 指用于生成和管理数据仓库中各级数据的

程序集合,即

PS ={ETL s ∪PM arts ∪PCubes ∪

PU p dts ∪PR frsh s}.

其中:ETL s 是数据抽取、转换和装载程序的集合,而每个程序ETL 是一个从D S 到DD 的映射,即ETL :D S →DD ,它完成将D S 中的数据抽取出来,进

行转换后装入数据仓库的细节级数据库中;PM arts

是从细节数据生成数据集市的程序集合,其中的每个程序PM art 是一个从DD 到DM t 的映射,即PM art :DD →DM t ;PCubes 是从细节数据生成数据立方的程序集合,其中的每个程序PCube 是一个从DD 到DC 的映射,即PCube :DD →DC ;数据仓库的

更新是将数据源D S 的更新传播到数据仓库的DD 和SD 部分;PR frsh s 将数据仓库中过时数据迁移到近线存储设备上,实现从DD ,DC 和DM t 到AD 的映射,即PR frsh :DD ∪DC ∪DM t →AD .

3 数据仓库设计方法

数据仓库系统从数据组织到支持的分析处理都

与面向联机事务处理(OL T P )应用的数据库系统有较大差别,这就决定了数据仓库系统的设计方法与传统的数据库系统的设计开发方法不同.事实上,企业级数据仓库的建设涉及面广,是一项耗资巨大的系统工程,因此需要完善的设计开发方法学作为指导.

本文总结并提出一个开发企业级数据仓库的框架,其中包括7个步骤:评估与规划、项目准备、需求分析与描述、数据仓库设计与实现、测试与完善、部署与培训和总结回顾.其中第3~7个步骤是循环反复的过程,即任何一个步骤发现问题,都可以返回到上一步进行完善补充.另外这个反复也指一个主题开发完成后,进行下一个主题循环.下面详细解释各个步骤的工作.3.1 评估与规划

评估是进行任何项目必须经历的首要过程,尤其是数据仓库项目.对于耗资较大的数据仓库项目,在作出投资决策之前必须进行充分的评估论证,考察企业或机构是否有必要且有能力实施数据仓库项目;然后要对数据仓库项目进行规划.这个阶段的主要工作包括4个方面:

1)进行数据仓库的可行性和必要性评估.即结合单位的现状明确数据仓库建设的目标和任务.另外,要清楚数据仓库所面对的数据源所在系统和其中的数据状态,并对相关的信息技术(如数据源的数据库类型、工作平台、数据量、数据质量等)进行评估.通过对上述项目的评估,核查建立数据仓库是否可行,所建立的数据仓库是否是用户所希望的,是否有不可逾越的障碍等.另外,要建立评定数据仓库项目是否成功的一些指标和基本原则.

2)选择数据仓库的拓扑结构.数据仓库的拓扑结构有4种[5]:集中式企业级数据仓库,独立型部门级数据集市,分布式数据仓库,数据仓库与数据集市

第12期鲍玉斌等:企业级数据仓库设计方法及其实施的关键因素研究1379

混合型.大型企业一般选择数据仓库与数据集市的混合结构,即从数据仓库导出数据集市,以便为整个企业提供全局一致的数据视图.

3)选择开发策略.常用的开发策略有3种[4]:自顶向下方法、自底向上方法、自顶向下和自底向上的联合方法.数据集市的快速开发特性是解决这些企业需求的既快又节省投资的方案,但是数据集市的简单堆积或连接在一起并不能构成企业级数据仓库[6].因此,可利用自顶向下方法规划整个企业的数据仓库,再利用自底向上方法快速开发数据集市.

4)选择实现范围.在总体规划确定了总方向和目标之后,必须选定一个能够快速给企业带来效益的有限的实现范围,即确定最初的实现范围.对于企业而言,可选择质量分析主题作为首选实现目标. 3.2 项目准备

该阶段主要工作包括收集分析企业OL T P系统的结构和模型,建立项目管理委员会和项目开发组.

分析OL T P系统的目的是收集与现有OL T P 系统相关的文档资料,找出源系统的整个或某部分概念模式或逻辑模式,即收集元数据.

数据仓库项目是一个大工程,需要很好的组织管理以及开发方和用户方的密切合作.因此分清每

.关于这方面的详细论述见文献[7,8].

3.3 需求分析与描述

本阶段需要设计者和数据仓库的最终用户合作收集并过滤用户的需求,选择出用户分析处理所关心的事实,并给出事实的描述、查询需求、报表需求和数据分析需求描述,了解最终用户想进行的数据分析的类型,如OLA P或数据挖掘等.尽管基于数据仓库的OLA P或数据挖掘的需求很灵活,没有固定模式,但从上述各种不完全、甚至不明了的需求描述可以了解用户所关心并感兴趣的主要问题,以及这些问题的解决需要什么样的信息等.因此通过需求分析可以确定系统的边界,找出数据仓库中的主要主题域.

通过本阶段的分析可以确定决策者所关心的事实、关于这些事实的度量指标、度量指标的粒度以及从哪些角度对这些指标进行分析.进而,可以确定探索数据仓库(数据集市或数据立方)的维及维层次.

3.4 数据仓库设计与实现

数据仓库的设计与实现包括概念设计、逻辑设计、物理设计和各种处理过程及应用接口设计与实现.

细节数据基本与数据源相对应,所以细节数据中的数据集一般按第3范式设计.而对于汇总数据,尤其是数据立方,则需根据分析主题的要求,按多维方式进行组织.下面讨论的方法主要是针对数据集市或数据立方.

OL T P系统的E R模型不适合为数据仓库的概念设计建立模型[9].因为E R模型强调实体及它们之间的联系.Go lfarelli等[9]提出了维事实模型(D FM),该模型可由E R模型变换而成.文献[10]将E R模型和星型模式结合起来,提出一种Star2 ER模型.文献[11,12]则给出了从操作型系统的数据模型导出数据仓库或数据集市数据模型的方法.

这一阶段还要进行适当的粒度层次划分、合理的数据分割策略、关系模式的定义等.另外可将一些查询视图实例化,以便减少常用查询的响应时间.

物理设计所做的工作是确定数据的存储结构、索引策略、数据的存放位置和存储分配等[1].同时,还要确定数据仓库的数据更新和净化策略.数据仓库中数据的更新问题包括一致性要求、更新时间(即时的、周期的)、更新模式(在线、离线)和更新技术(重新计算、增量式)等.数据仓库运行一段时间后就会产生“老化”数据,清除老化数据的过程称为数据净化.数据净化技术主要包括全部清除、有选择清除以及数据归档等.

数据仓库的各级模型设计完成后,需要进行设计和编码,用于生成和管理数据仓库中各级数据的程序集合PS,即设计和编写ETL s,PM arts, PCubes,PU pdts和PR frsh s程序代码,并使用测试数据集对各个过程进行测试.

另外,需要建立安全控制机制.数据仓库系统中收集了企业和组织机构的重要敏感数据,因此数据仓库的安全控制非常重要.

3.5 测试与完善

测试与完善阶段的目的是通过一个独立的测试组来确保数据仓库满足设计说明文档中的功能要求,从而确保数据仓库的质量.因此,首先要建立测试数据仓库环境和元数据环境;然后运行各个处理过程,从数据质量、执行速度和安全性等方面评价它们的性能.对于发现的问题和错误进行更改,并记录有关的更改内容,建立更改管理控制信息.最后建立和提交集成测试文档.

3.6 部署与培训

测试完善之后,需要生成数据仓库的正式版本

1380控 制 与 决 策第19卷

并发布运行,即建立数据仓库的实际运行环境,填入数据.另外,还要将数据仓库的组织以及数据的存取方法等传授给最终用户,即培训用户.培训的主要内容包括:1)向用户介绍数据仓库的全部情况(其中数据是重点,不仅要介绍详尽的数据内容,而且要介绍数据仓库系统是如何保障数据的质量、完整性和可靠性);2)告诉用户元数据的存储位置以及如何使用;3)数据仓库系统的前端数据存取工具的使用培训;4)数据仓库中数据的更新策略介绍;5)数据仓库安全规范的培训.

如果数据仓库管理员(DW A)不是数据仓库系统的开发者,也需要培训DW A.培训内容包括:数据仓库的逻辑和物理模型、从OL T P系统到数据仓库的数据流、全部的数据转换操作、所有元数据的存储位置和内容、数据装载和更新的策略、所有安全性问题及其测度以及所有程序文档资料的管理等.

3.7 总结回顾

总结回顾包含两个层面的工作:一个是各个阶段的总结回顾,称为进行中总结;另一个是整个项目阶段性结束以及数据仓库运行一段时间后的总结回顾,称为完成后总结.

项目进行中的总结主要是不断地总结回顾:哪些地方可以做得更好,业务部门对开发的支持是否到位,双方如何合作得更好,什么是业务部门见效最快的,以及什么是开发部门见效最快的等,以便在后续项目或下一个主题的开发中扬长避短.另外,当开发有了一定进展之后,就要检查主题的范围选择是否恰当,应参与的部门是否都积极主动地参与了工作,有什么阶段性成果,这些成果发布之后的用户反映如何.

项目完成后总结的主要内容包括:数据仓库的建设是否对公司有所推进,是否提高了公司的竞争优势,投资回报率(RO I)是否达到了预计水平,是否公司的其他部门可利用数据仓库获得效益,是否得到未预料到的效益等.

上面给出了数据仓库开发的几个主要阶段.这个开发方法充分利用了软件工程的思想,既强调了系统开发的生命周期,又兼顾了螺旋式开发方法(即先总体评估规划,然后分步实施).

选择合适的数据仓库开发方法学对成功建设数据仓库尤为重要.然而,还有许多方面也会影响数据仓库项目的成功.下面给出影响数据仓库系统成功开发的几个关键因素.4 企业级数据仓库实施关键因素

数据仓库的建设不仅会给企业的各级决策者提供模式一致的数据,而且会改变企业的文化,即由以数据为中心转向以业务为中心,由定性决策转向定量决策.因此,数据仓库的建设对企业的经营理念产生了巨大的冲击.并不是每个企业都能成功地开发出有效的数据仓库,事实上,开发失败的案例要比成功的多[5].文献[5,13]总结了企业成功地开发数据仓库的关键因素.本文将这些因素归纳为5个方面,即:人的因素、需求因素、环境因素、技术支撑因素和质量因素.

4.1 人的因素

指企业管理者的支持和数据仓库潜在用户的广泛参与.企业管理者的支持包括提供足够的可用资源,同时将数据仓库作为企业度量指标和决策数据的唯一来源.各级别的用户,甚至包括高层领导,必须提出他们的需求,积极参与数据仓库的设计、开发和管理.

另外,参与仓库设计、开发、实现和管理的人员必须理解决策信息的重要性,能够分析和撰写业务需求文档,全身心地投入数据仓库工程,掌握和支配足够的资源,具有项目开发和管理经验以及相应的知识,熟悉开发工具和开发方法学等.

4.2 需求因素

指业务需求.没有决定性的战略需求,开发数据仓库注定要失败.企业需求的最佳源泉是企业的战略规划和运营指标.业务需求是企业信息体系结构和数据仓库体系结构设计的基础.战略规划不仅为有效的管理提供指导,也为企业内部改革提供了指导.由于运营指标包括了报表(报告)的内容,以及计算这些指标的数据来源,所有运营指标报告综合起来便构成了数据仓库和企业战略信息系统的基础.

4.3 环境因素

指企业信息体系.企业的信息体系是由企业的战略规划和企业数据体系(企业所需数据的完全范式化的数据模型)、信息系统体系(企业正在使用的用于生成、读取、更新企业数据的所有信息系统)以及企业技术体系(企业信息系统的硬件平台、操作系统、通信设施环境等)构成.它是企业数据仓库系统建立和运行的环境.因此,在建设数据仓库之前必须搞清楚它将实现和运行的环境.

4.4 技术支撑因素

指数据仓库技术和体系结构设计.数据仓库技术包括用户接口、数据仓库引擎、硬件平台、系统软

第12期鲍玉斌等:企业级数据仓库设计方法及其实施的关键因素研究1381

件和安全性问题.数据仓库用户通过用户接口获得有用的信息.选择用户接口的标准是所选择的数据仓库解决方案能够支持企业需求的变化、技术的提高和演进等.选择的数据仓库引擎应能加载信息到仓库、实现存取控制(安全性)和支持多种接口工具集.

数据仓库体系结构是成功开发可伸缩数据仓库的关键因素.企业数据仓库的体系结构设计应能反映企业的运营指标和业务需求.数据仓库的数据模型、结构、组件和元数据应该基于企业内部信息需求,而不是基于特殊的技术.另外,开发过程必须有成熟的开发方法学和相应的辅助工具加以支持.

4.5 质量因素

指信息质量.数据仓库中的数据质量好坏是数据仓库工程成功的重要因素.其数据必须正确、完整、及时、简洁和可理解[14].如果数据仓库中数据质量很差,从中得到的信息(报表、模式)也就失去了辅助决策的意义.如果用户对得到的结果产生了怀疑,或发现数据仓库中包含质量较差的数据,则用户就会很少或根本不再使用数据仓库中的数据.这便意味数据仓库工程失败了.如果仓库中包含错误的数据,但用户还没有发现,那么基于错误数据的决策将导致企业的经营失败.这个因素与数据仓库体系结构中的ETL s.因此,在将数据导入数据仓库的过程中必须严格进行数据质量的检查和校对,以保证进入数据仓库中数据的质量.

5 结 语

本文首先讨论了数据仓库的体系结构及其组成,给出了数据仓库组成的形式化的描述,这为数据仓库的构建提供了宏观的指导作用,并明确了建立数据仓库要进行的主要工作.然后,根据该形式化的描述以及软件工程的思想,提出了建立数据仓库的方法框架,并对各个阶段的具体任务进行了论述.最后,总结了成功建立数据仓库的几个关键因素.

参考文献(R eferences):

[1]W u M C,Buchm ann A P.R esearch issues in data

w arehousing[A].P roc of the Ger m an D atabase Conf

[C].U l m,1997.61282.

[2]王珊.数据仓库技术与连机分析处理[M].北京:科学

出版社,1998.

[3]Go lfarelliM,R izzi S.A m ethodo logical fram ew o rk fo r

data w arehousing design[A].A CM1st IntW orkshop on

D ata W arehousing and OL A P[C].M aryland,1998.329.

[4]Gill H S.数据仓库—客户 服务器计算指南[M].王仲

谋,等译.北京:清华大学出版社,1997.

[5]Gardner S R.Building the data w arehouse[J].Co mm u2

nication of A CM,1998,41(9):52260.

[6]Bontempo C,Zagelow G.T he I BM data w arehouse ar2

ch itecture[J].Co mm unication of A CM,1998,41(9):382

48.

[7]A del m an S,M o ss L T.数据仓库项目管理[M].薛宇,

王剑锋译.北京:清华大学出版社,2003.1872205.

[8]SA S Institute Inc.R ap id w arehousing m ethodo logy

[TR].N C:SA S Institute Inc,2000.18226.

[9]Go lfarelli M,M ai o D,R izzi S.Concep tual design of

data w arehouses from E R schem as[A].P roc31st

H aw aii Int Conf on S y ste m S ciences[C].H aw ain,1998.

( ):3342343.

[10]T ryfona N,Busbo rg F,Ch ristiansen J G B.StarER:

A concep tual model fo r data w arehouse design[A].

Int W orkshop on D ata W arehousing and OL A P[C].

Kansas,1999.328.

[11]M oody D L,Ko rtink M A R.F rom enterp rise models

to di m ensi onal models:A m ethodo logy fo r data w are2

house and data m art design[A].P roc of the2nd Int

W orkshop on D esig n and M anag e m ent of D ata W are2

houses[C].Stockho l m,2000.5:1212.

[12]Boehnlein M,Ende A U.D eriving initial data w are2

house structures from the concep tual data models of

the underlying operati onal info r m ati on system s[A].

Int W orkshop on D ata W arehousing and OL A P[C].

Kansas,1999.15221.

[13]Perk ins A.C ritical success facto rs fo r data w arehouse

engineering[EB OL].DM R ev ie w,2002.h ttp: www.dm https://www.doczj.com/doc/9b14038378.html,.

[14]R edm an T.T he i m pact of poo r data quality on the

typ ical enterp rise[J].Co mm unication of A CM,1998,

41(2):79282.

1382控 制 与 决 策第19卷

数据仓库模型的设计

2.5数据仓库模型的设计 数据仓库模型的设计大体上可以分为以下三个层面的设计151: .概念模型设计; .逻辑模型设计; .物理模型设计; 下面就从这三个层面分别介绍数据仓库模型的设计。 2.5.1概念模型设计 进行概念模型设计所要完成的工作是: <1>界定系统边界 <2>确定主要的主题域及其内容 概念模型设计的成果是,在原有的数据库的基础上建立了一个较为稳固的概念模型。因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合,所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等,然后再来考虑应当如何建立数据仓库系统的概念模型。一方面,通过原有的数据库的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的数据库中的内容有一个完整而清晰的认识;另一方面,数据仓库的概念模型是面向企业全局建立的,它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。 概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不用考虑具体技术条件的限制。 1.界定系统的边界 数据仓库是面向决策分析的数据库,我们无法在数据仓库设计的最初就得到详细而明确的需求,但是一些基本的方向性的需求还是摆在了设计人员的面前: . 要做的决策类型有哪些? . 决策者感兴趣的是什么问题? . 这些问题需要什么样的信息? . 要得到这些信息需要包含原有数据库系统的哪些部分的数据? 这样,我们可以划定一个当前的大致的系统边界,集中精力进行最需要的部分的开发。因而,从某种意义上讲,界定系统边界的工作也可以看作是数据仓库系统设计的需求分析,因为它将决策者的数据分析的需求用系统边界的定义形式反映出来。 2,确定主要的主题域 在这一步中,要确定系统所包含的主题域,然后对每个主题域的内

数据仓库设计指南

数据仓库设计指南 在一般的数据仓库应用系统中,根据系统体系结构的不同,数据仓库设计的内容和范围不尽相同,并且设计方法也不尽相同,下面的两幅图示分别表示带有ODS的数据仓库应用系统体系结构和不带ODS的数据仓库应用系统体系结构。本文将说明两个体系结构上的差异以及这种差异造成的设计方法的不同,并且重点介绍带有ODS的体系结构中数据仓库的设计方法。GV1 =p}` 在数据仓库的设计指导思想中,数据仓库的概念定义是非常重要的,数据仓库概念规定了数据仓库所具有的几个基本特性,这些特性也正是对数据仓库设计结果进行检验的重要依据。M)_m= }d 根据Bill.Inmon的定义,“数据仓库是面向主题的、集成的、稳定的、随时间变化的,主要用于决策支持的数据库系统”。_R)tJ Ro ODS(Operational Data Store)是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。4\&P~kI 一般在带有ODS的系统体系结构中,ODS都设计为如下几个作用:#:1< R\H6m 1)在业务系统和数据仓库之间形成一个隔离层。[t"C/;S! 一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存放在不同的地理位置、不同的数据库、不同的应用之中,从这些业务系统对数据进行抽取并不是一件容易的事。因此,ODS用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽取过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接口、数据量大小、抽取方式等方面的问题。,8mPV{U KU 2)转移一部分业务系统细节查询的功能 Cr

数据库与数据仓库的区别是什么

数据库与数据仓库的区别是什么 简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。 数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。 单从概念上讲,有些晦涩。任何技术都是为应用服务的,结合应用可以很容易地理解。以银行业务为例。数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记帐。数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。如果存款又多,消费交易又多,那么该地区就有必要设立ATM了。 显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。事务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的,它要提供关注时间段内所有的有效数据。这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。 数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。那么,数据仓库与传统数据库比较,有哪些不同呢?让我们先看看W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。 “面向主题的”:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。这一点,类似于传统农贸市场与超市的区别—市场里面,白菜、萝卜、香菜会在一个摊位上,如果它们是一个小贩卖的;而超市里,白菜、萝卜、香菜则各自一块。也就是说,市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的,超市里面则是按照菜的类型(同主题)归堆的。 “与时间相关”:数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。决策中,时间属性很重要。同样都是累计购买过九车产品的顾客,一位是最近三个月购买九车,一位是最近一年从未买过,这对于决策者意义是不同的。 “不可修改”:数据仓库中的数据并不是最新的,而是来源于其它数据源。数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库

数据仓库-系统设计说明书

归一大数据平台 数据仓库 系统设计说明书受控不受控

修改变更记录:

目录 1引言 (5) 1.1文档编制目的 (5) 1.2背景 (6) 1.3词汇表 (6) 1.4参考资料 (6) 2总体设计 (7) 2.1软件体系结构 (7) 2.2系统运行体系......................................................................... 错误!未定义书签。 2.2.1运行体系图..................................................................... 错误!未定义书签。 2.2.2程序/模块对应表............................................................ 错误!未定义书签。 2.3系统物理结构 (7) 2.4技术路线 (8) 3系统接口设计 (8) 3.1用户接口 (8) 4子系统/模块设计 (8) 4.1数据仓库 (8) 4.1.1ODL(操作数据)层设计 (8) 4.1.2BDL(数据仓库)层设计 (10) 4.1.3IDL(宽表)层设计 (11) 4.1.4PDL(应用)层设计 (12) 4.1.5PUB(维度)层设计 (15) 4.1.6数据导出设计 (16) 5数据结构与数据库设计 (17) 6外部存储结构设计 (17) 7故障处理说明 (17) 8尚需解决的问题 (18)

编写指南: 本模板力图给出系统设计阶段可能包括的基本信息,重点在于和需求分析文档相联系。描述系统整体情况。如果某个章节在项目或当前阶段中无法描述,则可保留其标题,注明“不

大数据仓库建设方案设计

第1章数据仓库建设 1.1数据仓库总体架构 专家系统接收增购项目车辆TCMS或其他子系统通过车地通信传输的实时或离线数据,经过一系列综合诊断分析,以各种报表图形或信息推送的形式向用户展示分析结果。针对诊断出的车辆故障将给出专家建议处理措施,为车辆的故障根因修复提供必要的支持。 根据专家系统数据仓库建设目标,结合系统数据业务规范,包括数据采集频率、数据采集量等相关因素,设计专家系统数据仓库架构如下: 数据仓库架构从层次结构上分为数据采集、数据存、数据分析、数据服务等几个方面的内容: 数据采集:负责从各业务自系统中汇集信息数据,系统支撑Kafka、Storm、Flume

及传统的ETL采集工具。 数据存储:本系统提供Hdfs、Hbase及RDBMS相结合的存储模式,支持海量数据的分布式存储。 数据分析:数据仓库体系支持传统的OLAP分析及基于Spark常规机器学习算法。 数据服务总线:数据系统提供数据服务总线服务,实现对数据资源的统一管理和调度,并对外提供数据服务。 1.2数据采集 专家系统数据仓库数据采集包括两个部分内容:外部数据汇集、内部各层数据的提取与加载。外部数据汇集是指从TCMS、车载子系统等外部信息系统汇集数据到专家数据仓库的操作型存储层(ODS);内部各层数据的提取与加载是指数据仓库各存储层间的数据提取、转换与加载。 1.2.1外部数据汇集 专家数据仓库数据源包括列车监控与检测系统(TCMS)、车载子系统等相关子系统,数据采集的内容分为实时数据采集和定时数据采集两大类,实时数据采集主要对于各项检测指标数据;非实时采集包括日检修数据等。 根据项目信息汇集要求,列车指标信息采集具有采集数据量大,采集频率高的特点,考虑到系统后期的扩展,因此在数据数据采集方面,要求采集体系支持高吞吐量、高频率、海量数据采集,同时系统应该灵活可配置,可根据业务的需要进行灵活配置横向扩展。 本方案在数据采集架构采用Flume+Kafka+Storm的组合架构,采用Flume和ETL 工具作为Kafka的Producer,采用Storm作为Kafka的Consumer,Storm可实现对海量数据的实时处理,及时对问题指标进行预警。具体采集系统技术结构图如下:

现代电信企业数据仓库系统建设

现代电信企业数据仓库系统建设 电信企业数据仓库建设的需求 电信行业目前主要的数据来自于计费系统和网管数据。电信系统经过多年的运行,已经存储了大量的历史数据。这些数据中蕴涵着丰富的信息,从中可以了解企业在电信市场经营过程中所处的态势、竞争对手的经营形势、客户群的分布状况、消费特征、企业经营发展的趋势等,对其进行分析处理可以得到很多令人欣喜的结论。强大的数据处理能力,加上丰富的企业数据,可以有力地促进企业经营和竞争。 目前,企业信息化建设呈现出“数据集中化、业务综合化、管理扁平化、决策科学化”的发展趋势。面对激烈的市场竞争,许多大型企业纷纷实施“以客户为中心,以服务求发展”的经营策略。如何优化客户关系,增强企业的竞争优势已经成为现代企业关注的焦点。现有的应用系统往往以“产品”为中心,以“单据(票证)”处理为基础,是面向联机事务处理(Online Transaction Processing,简称OLTP)的系统,而以客户为中心的经营管理模式要求对现有业务系统的数据进行有效的集成并加以重组,建立面向联机分析处理(Online Analysis Processing,简称OLAP)的系统。通过分析客户的行为,掌握不同类型客户的特征,进而为客户提供更加优质的服务,尤其是个性化的服务,同时全面掌握并理解、分析企业业务的发生情况,充分发挥企业现已积累的数据,为各级管理人员提供科学化管理和决策的有力依据,以提高企业的经营业绩,保证利润的持续增长。 面对纷繁复杂的市场竞争,众多企业立足于多年积累的数据和自身的核心业务,提出了建立企业级数据仓库的规划和实施方案,为企业的进一步发展奠定基础。 企业数据仓库系统的总体结构 一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、OLAP服务器以及前端工具与应用四个部分 从系统结构看,电信行业数据仓库解决方案系统一般包括应用系统部分、中央数据仓库系统部分,数据源系统部分三大部分。如图所示:

数据仓库设计的21条原则:7个步骤,7个禁忌和7种思路

高效实现数据仓库的七个步骤 数据仓库和我们常见的RDBMS系统有些亲缘关系,但它又有所不同。如果你没有实施过数据仓库,那么从设定目标到给出设计,从创建数据结构到编写数据分析程序,再到面对挑剔的用户的评估,整个过程都会带给你一种与以往的项目完全不同的体验。一句话,如果你试图以旧有的方式创建数据仓库,那你所面对的不是预算超支就是所建立的数据仓库无法良好运作。 在处理一个数据仓库项目时需要注意的问题很多,但同时也有很多有建设性的参考可以帮助你更顺利的完成任务。开放思维,不断尝试新的途径,对于找到一种可行的数据仓库实现方法来说也是必需的。 1. 配备一个全职的项目经理或你自己全面负责项目管理 在通常情况下,项目经理都会同时负责多个项目的实施。这么做完全是出于资金和IT资源方面的考虑。但是对于数据仓库项目的管理,绝对不能出现一人身兼数个项目的情况。由于你所处的领域是你和你的团队之前没有进入过的领域,有关数据仓库的一切-数据分析、设计、编程、测试、修改、维护-全都是崭新的,因此你或者你指派的项目经理如果能全心投入,对于项目的成功会有很大帮助。 2. 将项目管理职责推给别的项目经理 由于数据仓库实现过程实在是太困难了,为了避免自虐,你可以在当前阶段的项目完成后就将项目管理职责推给别的项目经理。当然,这个新的项目经理一定要复合第一条所说的具有全职性。为什么要这么做呢?首先,从项目经理的角度看,数据仓库实施过程的任何一个阶段都足以让人身心疲惫。从物理存储设备的开发到Extract-Transform-Load的实现,从设计开发模型到OLAP,所有阶段都明显的比以前接触的项目更加困难。每个阶段不但需要新的处理方法、新的管理方法,还需要创新性的观点。所以将管理职责推给别的项目经理不但不会对项目有损害,还可以起到帮助作用。 3.与用户进行沟通 这里所讲的内容远比一篇文章本身要重要的多。你必须明白,在数据仓库的设计阶段,那些潜在用户自己也不清楚他们到底需要数据仓库为他们做什么。他们在不断的探索和发现自己的需求,而你的开发团队也在和客户的接触中做着同样的事情。更加频繁的与客户接触,多做记录,

数据仓库的开发设计过程

数据仓库之路 FAQ FAQ目录 一、与数据仓库有关的几个概念 (3) 1.1 目录 (3) 二、数据仓库产生的原因 (8) 三、数据仓库体系结构图 (11) 四、数据仓库设计 (12) 4.1 数据仓库的建模 (12) 4.2 数据仓库建模的十条戒律: (13) 五、数据仓库开发过程 (14) 5.1 数据模型的内容 (14) 5.2 数据模型转变到数据仓库 (14)

5.3 数据仓库开发成功的关键 (15) 六、数据仓库的数据采集 (16) 6.1 后台处理 (17) 6.2 中间处理 (17) 6.3 前台处理 (18) 6.4 数据仓库的技术体系结构 (18) 6.5 数据的有效性检查 (20) 6.6 清除和转换数据 (20) 6.7 简单变换 (22) 6.8 清洁和刷洗 (24) 6.9 集成 (25) 6.10 聚集和概括 (27) 6.11 移动数据 (27) 七、如何建立数据仓库 (30) 7.1 数据仓库设计 (31) 7.2 数据抽取模块 (32) 7.3 数据维护模块 (33)

一、与数据仓库有关的几个概念 1.1 目录 ?Datawarehouse ?Datamart ?OLAP ?ROLAP ?MOLAP ?ClientOLAP ?DSS ?ETL ?Adhocquery ?EIS ?BPR ?BI ?Datamining ?CRM ?MetaData Data warehouse 本世纪80年代中期,“数据仓库之父”William H.Inmon先生在其《建立数据仓库》一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓

数据仓库数据库设计的心得总结

数据仓库数据库设计的心得总结 数据仓库是企业商业智能分析环境的核心,它是建立决策支持系统的基础。一个良好的数据仓库设计应该是构建商业智能和数据挖掘系统不懈的追求。下面把数据仓库数据库设计的心得做一小结。 一透彻理解数据仓库设计过程 商业智能和数据挖掘归根到底是“从实践中来,到实践中去”。也就是说现实需求决定系统需求,业务数据决定系统构架,最终使用的时候又必须作用于现实需求,同时通过决策的行为影响业务。那么可以把数据仓库的设计看做是前一部分,即“从实践中来”,数据仓库的应用可以看做是“到实践中去”。把“从实践中来”这个过程进行抽象,数据仓库的设计就是“客观世界→主观世界→关系世界”的过程。 在前面几节完成了6个任务:选择被建模主题的商业过程、确定事实表的粒度、区分每一个事实表的维和层、区分事实表的度量、确定每一个维表的属性、在D BMS中创建和管理数据仓库。实际上这些任务都可以归结到从客观世界到关系世界的过程。那么把这个过程再进行归纳,可以得到如图3-61所示的综合了模型、方法和过程的示意图。 图3-61 数据仓库设计过程的模型和方法示意图 二把握设计的关键环节

如果将时间、精力、金钱和人事优先花在前面的20%,那么这20%会创造出80% 的价值。这就是有名的2/8原则。下面将介绍在数据仓库设计中,哪些因素是属于这20%的范围。 1.需求 需求分析在任何如见项目中都是最为重要的因素之一。企业模型是从企业的各个视点对企业数据需求及数据间关系的抽象。通过将企业模型映射到数据库系统,可以很快地了解现有数据库系统完成了企业模型中的哪些部分,还缺少哪些部分。然后再将企业模型映射到数据仓库系统,发现企业需要的(或可以构造的)主题。通过这样的过程完成对企业数据需求和现有数据的了解,达到明了原有系统和需要建设的主题域间共性的目的。 2.关键性能指标(KPI) 一般而言,一个决策支持系统最重要的就是要呈现决策数据。而KPI就是决策过程中要显示的数据结果的部分,如销售数量、销售金额、毛利和运费等数值部分的数据。这些KPI是通过与相关的维表进行连接而映射出来的。在分析星形模式时,往往要首先确定KPI。 3.信息对象 信息对象是指在每个分析过程中那些会影响到决策的因素。以销售分析为例,时间、产品、员工与客户就是影响决策的大因子,而每个因子又可以分离出多个分层结构,如时间可分为年、季度、月、周和日等,员工可分为年龄层、年龄、年薪层、年薪和员工所在城市等,也就是影响决策的详细因子。这些都是信息对象。从这里我们可以看出,每个大因子如时间、产品、员工与客户等就可以构成如时间维表、产品维表、员工维表与客户维表等。而时间维表又可分为年、季度和日等字段。在分析和设计这些信息对象组成的维度时,需要注意维的唯一性和公用性,千万不要在不同的主题中定义多个表示同一内容的维,如果有可能,一个维表要尽量被多个主题共享。 4.数据粒度 在数据仓库的每个主题中,都必须考虑事实数据的粒度。粒度的具体划分将直接影响到数据仓库中的数据量及查询质量。在数据仓库开始进行分析时。就需要建立合适的数据粒度模型,指导数据仓库设计和其他问题的解决。如果数据粒度定义不当,将会影响数据仓库的使用效果,使数据仓库达不到设计数据仓库的目的。 5.数据之间的联系 在数据仓库中,不同主题的数据之间的物理约束或许不再存在,但无论这些数据如何变化,要知道必须有一些“键”在逻辑上保持着不同数据之间的联系,这样

数据仓库设计文档模板

数据仓库设计与实现 学号 128302106 姓名江晨婷 成绩 教师张丹平 二O一五年四月

数据仓库建设方案设计与实现 摘要:本文以博士学位调查为基础,创建方案,设计与实现数据仓库,通过对当前各种主流数据仓库软件在性能、价格等方面的对比,充分考虑统计业务、单位数量等实际情况,本系统决定采用SQL Server 2005数据仓库软件来构建综合信息分析系统的数据仓库。 关键词:数据仓库;联机分析;数据挖掘;博士学位 一、概述 数据仓库的设计一般从操作型数据开始,通常需要经过以下几个处理过程;数据仓库设计——数据抽取——数据管理。 1.数据仓库设计 根据决策主题设计数据仓库结构,一般采用星型和雪花模型设计其数据模型,在设计过程中应保证数据仓库的规范化和体系各元素的必要联系。 2.数据抽取 根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源进行清理、转换、对数据进行重新组织和加工,装载到数据仓库的目标库中。 3.数据管理 数据管理分为目标数据维护和元数据维护两方面。目标数据维护是根据元数据为所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库,以反映数据源的变化,且对时间相关性进行处理。元数据是数据仓库的组成部分,元数据的质量决定整个数据仓库的质量。当数据源的运行环境、结构及目标数据的维护计划发生变化时,需要修改元数据。 二、博士学位授予信息年度数据统计分析 1.按主管部门统计 从主管部门的角度,分析在一个时间段(年)内,各主管部门所授予的博士学位信息统计。可回答如“2008,由某部门主管的,博士学位授予一共有多少,其平均学习年限是多少,脱产学习的有多少人?”等问题。具有表格和图形两种方式来展示分析结果。典型报表格式如表1所示

数据仓库基本架构

数据仓库的基本架构 xiaoyi发表于 2013-07-31 23:57 来源:网站数据分析 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、数据仓库、数据应用: 从图中可以看出数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自上而下流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。 数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL(抽取Extra, 转化Transfer, 装载Load)的过程,ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。 下面主要简单介绍下数据仓库架构中的各个模块,当然这里所介绍的数据仓库主要是指网站数据仓库。 数据仓库的数据来源

其实之前的一篇文章已经介绍过数据仓库各种源数据的类型——数据仓库的源数据类型,所以这里不再详细介绍。 对于网站数据仓库而言,点击流日志是一块主要的数据来源,它是网站分析的基础数据;当然网站的数据库数据也并不可少,其记录这网站运营的数据及各种用户操作的结果,对于分析网站Outcome这类数据更加精准;其他是网站内外部可能产生的文档及其它各类对于公司决策有用的数据。 数据仓库的数据存储 源数据通过ETL的日常任务调度导出,并经过转换后以特性的形式存入数据仓库。其实这个过程一直有很大的争议,就是到底数据仓库需不需要储存细节数据,一方的观点是数据仓库面向分析,所以只要存储特定需求的多维分析模型;另一方的观点是数据仓库先要建立和维护细节数据,再根据需求聚合和处理细节数据生成特定的分析模型。我比较偏向后面一个观点:数据仓库并不需要储存所有的原始数据,但数据仓库需要储存细节数据,并且导入的数据必须经过整理和转换使其面向主题。简单地解释下: (1).为什么不需要所有原始数据?数据仓库面向分析处理,但是某些源数据对于分析而言没有价值或者其可能产生的价值远低于储存这些数据所需要的数据仓库的实现和性能上的成本。比如我们知道用户的省份、城市足够,至于用户究竟住哪里可能只是物流商关心的事,或者用户在博客的评论内容可能只是文本挖掘会有需要,但将这些冗长的评论文本存在数据仓库就得不偿失;

数据仓库和数据库

数据仓库和数据库有什么区别? 通常情况下基于业务数据库数据分析人员也能完成数据分析需求,但是为什么要建数据仓库? 没有数据仓库时,我们需要直接从业务数据库中取数据来做分析。 业务数据库主要是为业务操作服务的,虽然可以用于分析,但需要很多额度的调整。 一,业务数据库中存在的问题 基于业务数据库来做分析,主要有以下几个问题: 结构复杂,数据脏乱,难以理解,历史缺失,数据量大时查询缓慢。 结构复杂 业务数据库通常是根据业务操作的需要进行设计的,遵循3NF范式,尽可能减少数据冗余。这就造成表与表之间关系错综复杂。在分析业务状况时,储存业务数据的表,与储存想要分析的角度表,很可能不会直接关联,而是需要通过多层关联来达到,这为分析增加了很大的复杂度。 数据脏乱 因为业务数据库会接受大量用户的输入,如果业务系统没有做好足够的数据校验,就会产生一些错误数据,比如不合法的身份证号,或者不应存在的Null值,空字符串等。 理解困难 业务数据库中存在大量语义不明的操作代码,比如各种状态的代码,地理位置的代码等等,在不同业务中的同一名词可能还有不同的叫法。 这些情况都是为了方便业务操作和开发而出现的,但却给我们分析数据造成了很大负担。各种操作代码必须要查阅文档,如果操作代码较多,还需要了解储存它的表。同义异名的数据更是需要翻阅多份文档。 缺少历史 出于节约空间的考虑,业务数据库通常不会记录状态流变历史,这就使得某些基于流变历史的分析无法进行。比如想要分析从用户申请到最终放款整个过程中,各个环节的速度和转化率,没有流变历史就很难完成。 大规模查询缓慢 当业务数据量较大时,查询就会变得缓慢。 二,数据仓库解决方案 上面的问题,都可以通过一个建设良好的数据仓库来解决。 业务数据库是面向操作的,主要服务于业务产品和开发。 而数据仓库则是面向分析的,主要服务于我们分析人员。评价数据仓库做的好不好,就看我们分析师用得爽不爽。因此,数据仓库从产品设计开始,就一直是站在分析师的立场上考虑的,致力于解决使用业务数据进行分析带来的种种弊端。 数据仓库解决的问题 结构清晰,简单 数据仓库不需要遵循数据库设计范式,因此在数据模型的设计上有很大自由。 数据模型一般采用星型模型,表分为事实表和维度表两类。 其中事实表位于星星的中心,存储能描述业务状况的各种度量数据。

电信企业数据仓库的设计和应用.doc资料

电信企业数据仓库的设计和应用 漆晨曦 编者按: 竞争的加剧使得营销能力成为决定电信企业竞争力的最重要因素,也使得数据仓库作为营销决策分析支撑的手段日益盛行,如何设计数据仓库、数据仓库上可以展开哪些应用、如何展开等成为电信企业迫切需要解决的问题。本期的这一组文章将围绕数据仓库在电信企业的应用展开深入的阐述,同时也是对上述问题的解答。 数据仓库技术在电信企业的盛行是电信行业竞争的必然结果。竞争使得企业的营销能力成为决定企业竞争力的最重要因素,而营销能力则建立在对客户的购买行为、消费行为、服务要求、营销参与等方面信息的收集、整合、存储的数据基础和分析基础上。为了收集和整合客户购买、消费、服务、营销等方面的海量数据,数据仓库必然地进入电信企业的采购单,比如某电信企业有千万级的电信客户,每个客户每月几百次的本地电话和上百分钟的长途电话,上TB级的数据使得原来的数据存储、分析方法和处理能力力不从心,“仓库”的概念随之被引进数据存储过程中。简单地说,数据仓库就是为了保证数据查询和分析的效率,按照主题将所有的数据分门别类进行存储,需要的时候,再按主题提取数据并进行了进一步的分析处理。 构建电信企业数据仓库 目前,电信企业数据仓库的应用一般集中在经营分析和营销决策支撑两方面。一方面数据仓库从营业、计费账务、渠道、客服中心等生产、管理系统获取市场经营的所有相关信息,经过整合、清洗等环节,按主题存储,形成企业内部有关市场经营的统一数据平台,通过查询、报表、多维分析等方式提供给数据分析用户和营销决策人员; 而另一方面,数据仓库根据客户交互系统的需求,经过分析或挖掘,将客户异常消费、流失客户预警、营销活动目标客户等信息反馈到各客户接触系统,供营销经理、营业员、客服人员对相应客户提供针对性营销和服务(数据仓库与电信企业其他生产管理系统之间的关系见图1)。

数据仓库建设的几点建议.doc

北京甲骨文软件有限公司咨询经理鲁百年博士 一、国内信息化的现状 1、信息化建设的发展历史: 在国内信息化建设过程中,基本上是按照当时业务系统的需求进行建设,例如:在一个企业中,财务部门为了减少工资发放的差错,提高发放的效率,先建设一个工资发放和管理程序;为了报账和核对的需求,建设一个财务管理程序;在银行首先为了业务处理的方便,将最基本的手工记帐和处理的业务建成一个系统,过一段时间,如果有新的业务推出,就再建设一个新的系统,或在原系统的基础上增加新的业务处理。这样的结果使每个系统和系统之间缺少真正的信息沟通和信息交换。 2、为何要建立数据仓库: 前面我们讲过,业务系统各自为政,相互独立。当很多业务系统建立后,由于领导的要求和决策的需求,需要一些指标的分析,在相应的业务系统基础上再增加分析和相应的报表功能,这样每个系统就增加了报表和分析功能。但是,由于数据源不统一导致了对同一个指标分析的结果不相同。为了解决该问题,Bell Inman提出了数据仓库的概念,其目的是为了分析和决策的需要,将相互分离的业务系统的数据源整合在一起,可以为领导和决策层提供分析和辅助决策。 3、国内企业对数据仓库建设认识的误区: 大家对数据仓库的认识是将业务系统的数据进行数据抽取、迁移和加载(ETL),将这些数据进行整合存放在一起,统一管理,需要什么样的分析就可提供什么样的分析,这就是数据仓库。这样做的结果是花了一年到两年的时间都无法将整个企业业务系统的数据整合在一起,花钱多、见效慢、风险大。一年后领导问起数据仓库项目时,回答往往是资金不足,人力不够,再投入一些资源、或者再延长半年的时间就会见到效果,但是往往半年过后还是仅仅可以看到十几张或者几十张报表。领导不满意,项目负责人压力也很大,无法交待。这时,项目经理或者项目负责人才意识到,项目有问题,但是谁也不敢说项目有问题,因为这样显然是自己当时的决策失误。怎么办?寻找咨询公司或者一些大的厂商,答案往往是数据仓库缺乏数据模型,应该考虑数据模型。如果建设时考虑到整个企业的数据模型,就可以建设成企业级的数据仓库(EDW)。什么是数据模型,就是满足整

电信数据仓库设计的六个关键环节

电信数据仓库设计的六个关键环节 编者按 数据仓库技术经过了十几年的发展,在理论与工程实践上都取得了显著的成果。国际上许多重要的学术会议,如超大型数据库国际会议(VLDB)、数据工程国际会议(Data Engineering)等,都有大量专门研究数据仓库(Data Warehousing)、联机分析处理(On-Line Analytical Processing)、数据挖掘(Data Mining)的论文,各大数据库厂商纷纷推出相应产品支持数据仓库,比如NCR、SAS、Oracle、IBM、Informix、Sybase等都提出了相应的数据仓库解决方案。 随着信息技术的飞速发展,企业内部产生了越来越多的数据,但这些数据并没有产生应有的信息,困此,我们常常可以看到企业“数据爆炸、知识贫乏”的窘迫局面。如何有效地整合与充分利用信息资源,成为企业提高核心竞争力的关键。此外,数据仓库的设计与实现,在不同的行业存在着极大的差别,企业在设计过程中应该注意哪些细节问题? 本期“方案评析”专题中所选的几篇文章,以电信、银行、医疗行业为实例,在实际操作的基础上,分析了企业经营分析与决策支持系统的建设应用,分析了建设数据仓库及基于数据仓库的商业智能系统应具备的基本条件,从确定主题、数据准备、建立模型、评估和解释模型、运用和巩固模型等方面,对数据仓库的设计方法,以及解决关键环节问题的技巧进行了深入剖析,具有较高的实用价值。 大型企业数据仓库系统的建设是一项复杂的系统工程,在设计中会遇到各种各样的技术问题。本文以电信行业数据创库设计为例,提供数据仓库设计过程中的六个关键环节,从技术上给读者提供参考。 环节一:异种数据源集成 企业在经营分析与决策支持系统的建设时,必须将遗留系统(Legacy System)进行高效全面的集成。由于遗留系统是在企业发展的不同时期建设的,往往缺乏全局规划,所以拥有不同的操作系统、不同的数据库、不同的网络通信机制等,形成了所谓的“信息孤岛”。 系统中采用异种数据源企业应用集成接口,来实现对异种数据源的透明访问,包括数据源元数据访问及业务操作数据访问。数据源分为在线数据源和离线数据源,在线数据源是指允许在线抽取的业务数据源,如营业数据; 离线数据源是指不允许直接在线抽取的数据源,如计费样单数据就是采用以脱机文件数据格式及FTP方式集成进系统。 对数据源实现元数据级的管理,数据源的连接类型(ODBC、OLEDB、JDBC、Native)、连接字符串,以及数据结构信息都以元数据的形式存储于元数据库中,通过控制台对其进行业务语义定义,使用户对整个企业的信息系统有了全面的掌握。 环节二:ODS层的设计 操作数据存储ODS(Operation Data Storage)是一个集成了来自不同数据库数据的环境。其目的是为终端用户提供一致的企业数据集成视图。它可以帮助用户轻松应对跨多个商业功能的操作挑战,是面向主题的、集成的、近实时的数据存储。

数据仓库复习题

第一章概述 1.数据挖掘的定义?(书P2,PPT_P8) 从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 2.数据挖掘的源是否必须是数据仓库的数据?可以有哪些来源?(PPT_P14) 关系数据库、数据仓库、事务数据库、高级数据等 3.数据挖掘的常用方法?(P4、PPT_P29) 聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统计分析等 4.数据挖掘的过程包括哪些步骤,每一步具体包括哪些内容?(书P2-3,PPT_P17-19) 确定业务对象、数据准备、数据挖掘、结果分析与知识同化。 5.数据挖掘与数据仓库的关系(联系和区别)?书P6-7,PPT_P45-46 联系:1,数据仓库为数据挖掘提供了更好的,更广泛的数 据源 AHA12GAGGAGAGGAFFFFAFAF

2,数据仓库韦数据挖掘提供了新的支持平台。 3,数据仓库为更好地使用数据挖掘工具提供了方便 4,数据挖掘对数据仓库提供了更好的决策支持。 5,数据挖掘对数据仓库的数据组织提出了更高的要求 6,数据挖掘还为数据仓库提供了广泛的技术支持 区别:数据仓库是一种存储技术,它包含大量的历史数据、当前的详细数据以及综合数据,它能为不同用户的不同决策需要提供所需的数据和信息。~~数据挖掘是从人工智能机器学习中发展起来的,它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。 第二章数据仓库 1.数据仓库的定义 数据仓库——是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策定制过程。2.数据仓库数据的四大基本特征: 面向主题的、集成的、不可更新的、随时间变化的。 3.数据仓库体系结构有三个独立的数据层次: AHA12GAGGAGAGGAFFFFAFAF

数据仓库与数据库的区别

数据仓库与数据库的区别 数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。 数据库是面向事务的设计,数据仓库是面向主题设计的。 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。 数据库设计是尽量避免冗余,数据仓库在设计是有意引入冗余。 数据库是为捕获数据而设计,数据仓库是为分析数据而设计。 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策 面向主题:而数据仓库中的数据是按照一定的主题域进行组织。 集成:对原有分散的数据库数据经过系统加工,整理得到的消除源数据中的不一致性 相对稳定:一旦某个数据进入数据仓库以后只需要定期的加载、刷新 反映历史变化通过这些信息,对企业的发展历程和未来趋势做出定量分析预测数据仓库建设是一个工程,是一个过程,而不是一种可以购买的产品 企业数据处理方式: 以联机事务处理形式信息,以联机分析处理形式处理信息,并利用信息进行决策;在信息应用过程中管理信息。 OLAP基本概念 从动态的多维角度分析数据,对数据进行钻取,以获得更为精确的信息 数据库设计是信息系统开发和建设中的核心技术。 信息技术基础设施的定义 ? ?可以从技术和服务两个角度来 定义信息技术基础设施 从技术角度来看,信息技术基础设 施---运营整个企业所必需的硬件 设施和软件系统的集合。

?从服务角度定义信息技术基 础设施更为恰当,信息技术基 础设施是整个企业范围内由管 理层所决定的包括人和技术能 力的服务的组合。 信息技术的普及性已经达到相当成熟的阶段 ?信息技术本身对企业来说不 可或缺;尽管能为整个行业带 来彻底的变化,但它已经不能 为单个企业提供战略性的竞争 优势;因为资源的稀缺性。?另一方面,不同企业应用信息技术 的能力差异很大 ?企业在利用信息技术改进业 务流程、创新业务、管理技巧

Oracle数据仓库设计指南

Oracle数据仓库设计指南 在一般的数据仓库应用系统中,根据系统体系结构的不同,数据仓库设计的内容和范围不尽相同,并且设计方法也不尽相同,下面的两幅图示分别表示带有ODS的数据仓库应用系统体系结构和不带ODS的数据仓库应用系统体系结构。本文将说明两个体系结构上的差异以及这种差异造成的设计方法的不同,并且重点介绍带有ODS的体系结构中数据仓库的设计方法。 在数据仓库的设计指导思想中,数据仓库的概念定义是非常重要的,数据仓库概念规定了数据仓库所具有的几个基本特性,这些特性也正是对数据仓库设计结果进行检验的重要依据。 根据Bill.Inmon的定义,“数据仓库是面向主题的、集成的、稳定的、随时间变化的,主要用于决策支持的数据库系统”。 ODS(Operational Data Store)是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。 一般在带有ODS的系统体系结构中,ODS都设计为如下几个作用: 1)在业务系统和数据仓库之间形成一个隔离层 一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存放在不同的地理位置、不同的数据库、不同的应用之中,从这些业务系统对数据进行抽取并不是一件容易的事。因此,ODS用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽取过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接口、数据量大小、抽取方式等方面的问题。 2)转移一部分业务系统细节查询的功能 在数据仓库建立之前,大量的报表、分析是由业务系统直接支持的,在一些比较复杂的报表生成过程中,对业务系统的运行产生相当大的压力。ODS的数据从粒度、组织方式等各个方面都保持了与业务系统的一致,那么原来由业务系统产生的报表、细节数据的查询自然能够从ODS中进行,从而降低业务系统的查询压力。 3)完成数据仓库中不能完成的一些功能 一般来说,带有ODS的数据仓库体系结构中,DW层所存储的数据都是进行汇总过的数据,并不存储每笔交易产生的细节数据,但是在某些特殊的应用中,可能需要对交易细节数据进行查询,这时就需要把细节数据查询的功能转移到ODS来完成,而且ODS的数据模型按照面向主题的方式进行存储,可以方便地支持多维分析等查询功能。

建设数据仓库的八个步骤

大数据技术部 建设数据仓库的八个步骤2017年04月25日编制

建设数据仓库的八个步骤 摘要:建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题。 关键词:数据仓库元数据 建设数据仓库 建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题,从数据源中抽取哪些数据。因此数据仓库的项目小组应该由业务人员和信息部门的人员共同组成,双方需要相互沟通,协作开发数据仓库。 开发数据仓库的过程包括以下几个步骤。 1.系统分析,确定主题 建立数据仓库的第一个步骤就是通过与业务部门的充分交流,了解建立数据仓库所要解决的问题的真正含义,确定各个主题下的查询分析要求。 业务人员往往会罗列出很多想解决的问题,信息部门的人员应该对这些问题进行分类汇总,确定数据仓库所实现的业务功能。一旦确定问题以后,信息部门的人员还需要确定一下几个因素: ·操作出现的频率,即业务部门每隔多长时间做一次查询分析。 ·在系统中需要保存多久的数据,是一年、两年还是五年、十年。 ·用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。 ·用户所能接受的响应时间是多长、是几秒钟,还是几小时。 由于双方在理解上的差异,确定问题和了解问题可能是一个需要多次往复的过程,信息部门的人员可能需要做一些原型演示给业务部门的人员看,以最终确定系统将要实现的功能确实是业务部门所需要的。

2.选择满足数据仓库系统要求的软件平台 在数据仓库所要解决的问题确定后,第二个步骤就是选择合适的软件平台,包括数据库、建模工具、分析工具等。这里有许多因素要考虑,如系统对数据量、响应时间、分析功能的要求等,以下是一些公认的选择标准: ·厂商的背景和支持能力,能否提供全方位的技术支持和咨询服务。 ·数据库对大数据量(TB级)的支持能力。 ·数据库是否支持并行操作。 ·能否提供数据仓库的建模工具,是否支持对元数据的管理。 ·能否提供支持大数据量的数据加载、转换、传输工具(ETT)。 ·能否提供完整的决策支持工具集,满足数据仓库中各类用户的需要。 3.建立数据仓库的逻辑模型 具体步骤如下: (1)确定建立数据仓库逻辑模型的基本方法。 (2)基于主题视图,把主题视图中的数据定义转到逻辑数据模型中。 (3)识别主题之间的关系。 (4)分解多对多的关系。 (5)用范式理论检验逻辑数据模型。

相关主题
文本预览
相关文档 最新文档