当前位置:文档之家› 数据仓库技术及其在金融行业的应用

数据仓库技术及其在金融行业的应用

数据仓库技术及其在金融行业的应用
数据仓库技术及其在金融行业的应用

数据库技术及其在金融行业的应用

1. 前言

数据库仓库(DW)技术从1991年开始出现,经过多年的摸索和应用,目前在一些发达国家已经建设得比较成熟,为企业综合与灵活的分析型应用提供了强大的数据支撑,为管理层的分析决策和操作层的智能营销提供了技术保证,为企业带来了多方面的收益。而在国内,数据库仓库仍处于尝试或初级建设阶段。

国内的金融行业,随着外部监管和信息披露的压力、内部管理和决策分析的需要,在建设分析类应用时,也正在逐渐从孤立的数据层向统一的数据仓库层规划和转移。建立数据仓库能够减少对数据层的重复投资和资源浪费、统一数据标准、监管和提高数据质量、消除信息孤立、支持综合分析和灵活及时的分析型应用、适应管理和发展、提高业内竞争力。

本文对数据库技术做一个概括性的介绍,并对国内外金融行业数据仓库技术的应用现状做一个简单分析。

2. 数据仓库概念

2.1. DW的提出

2.1.1. 需求

业务系统的建设与逐渐完善,巨量数据信息的积累。

分析类需求不断增加,传统分析类应用造成巨大的资源浪费和管理困难。

业务数据平台异构、数据来源口径多、标准不统一、信息孤立。

整合部门级应用,建设企业级应用,满足综合分析、复杂查询、智能营销等高级需求。

2.1.2. DW概念的提出

MIT在20世纪70年代对业务系统和分析系统的处理过程进行研究,结论是只能采用完全不同的架构和设计方法。

1988年,IBM为解决全企业数据集成问题,提出了信息仓库的概念,确立了原理、架构和规范。但没有进行实际的设计。

1991年,Bill Inmon提出了数据仓库概念,并对为什么建设数据仓库和如何建设数据仓库进行了论述。Bill Inmon被称为数据仓库之父。

2.2. DW的四个特征

2.1.1. 面向主题

OLTP应用或支持独立分析的应用是面向应用组织数据,数据分散,不利于综合分析。

为OLAP应用提供数据支撑的DW是综合分析业务需求对不同源系统数据进行提取、提炼,按主题重新设计数据模型和重组数据,覆盖所有的应用。

主题是在较高层次上将企业信息系统中的数据综合、归类,并进行分析利用的抽象。例如对于一个银行来说,DW所面向的主题域可能包括当事人、协议、产品等。

2.1.2. 集成共享

由于源系统的数据平台异构、数据标准不统一、数据模型差别大,在建设数据仓库时要进行数据集成,为所有应用共享统一标准的数据。

数据集成的工作主要包括三个内容。

数据清洗:按照数据质量管理的要求进行数据清洗,保证进入数据仓库的数据都是符合规范且可以使用的。

数据转换:将不同标准的数据进行转换与统一,并保证可以回溯。

数据整合:不同源系统的数据在数据仓库中可能会进入到相同的模型中,要对源系统与数据仓库模型的差异进行分析整合。

2.1.

3. 随时间变化

DW自己不产生源数据,但需要根据源数据进行数据加工和汇总。DW中加工后的基础数据和汇总数据是随时间不断变化的。

2.1.4. 不可更新

这是指在DW中不会更新从源系统中传过来的细节数据。

在进行数据转换时,一般也并不删除原值。

2.2. DW与DM、ODS的关系

2.2.1. DW与DM

DM是数据集市(Data Mart),相当于部门级或应用级的数据仓库,一个企业内部一般建有多个DM,不为种类的分析型应用使用。各DM分别设计和建立,数据标准和数据模型没有统一。DM建设难度小,容易成功,但随着数据集市越来越多,无法解决数据冗余、数据质量、数据标准不统一、统计数据不一致等问题,无法满足综合分析和智能查询的业务需

要。

DW是指企业级数据仓库,一般一个企业内部只建立一个,数据层大集成,可以为所有分析型应用所使用。由于技术条件的限制,DW在前几年的建设初期,难度很大,遭到过大面积的失败。

目前所指的数据仓库实际上包含了数据集市和前期数据仓库的概念,可以说是数据集市和数据仓库的融合。数据仓库内部即可建立企业级整合统一的数据层,同时也可建立为部门级决策支持所设计的数据集市。

2.2.2. DW与ODS

ODS是操作型数据存储(Operational Data Store)。与DW相同的是,它也是面向主题的;是集成的(可能是部分集成)。与DW不同的是,ODS要具有同时支持分析型应用和操作型应用的特性,因此它存储的数据是当前的,需要实时刷新,却不一定要求存储非常大量的历史;基础数据是随业务而更新的。

ODS也经历了多种应用形式,它曾做在数据仓库的前端,做一些初级的数据整合,数据快进快出,例如这可以支持要求每小时做一次分析的应用。它也曾作为初级形式的数据仓库,例如支持面向电子商务的ODS。

ODS产生的技术背景是由于早期的DW因为技术条件的限制,不存储细节数据、难以实现频繁的更新和删除,不能支持实时性要求较高的分析应用。但ODS具有数据同步复杂(一般需要两次数据落地)、数据共享困难、数据冗余、管理复杂等问题。目前由于条件的成熟,ODS和DW也有走向融合的趋势,在数据仓库内部分为动态数据区和表态数据区,分别相当原来的ODS和DW概念。

2.2.

3. 走向融合后的DW

集成原来的DW、DM和ODS,融合后的企业级数据仓库,在内部划分出多个数据层次。在近期业务数据区,能够为一线业务人员提供战术性决策和操作智能;在长期历史数据区,能够为管理人员提供战略性决策分析和复杂查询。即可支持部门特色的应用,也可支持跨部门的企业级综合应用。

整合后的企业级数据仓库(EDW)简化了数据管理和维护流程,减少了数据冗余和延迟,减小了投资成本和协调工作,满足多种级别智能型应用的需要,为企业创造长期的价值。

3. 数据仓库架构

3.1. 数据仓库架构的构成

广义的企业级数据仓库(EDW)包括基础平台和分析型应用。

基础平台又可分为技术架构和数据架构。技术架构包括ETL体系、数据访问体系、数据存储体系、安全管理体系等;数据架构包括数据标准、数据质量、数据模型、数据管控、数据接口等。

3.2. 数据仓库技术架构

如上图所示,数据仓库技术架构由八个组件组成:源数据层、ETL服务层、数据服务层、中间服务层、访问控制层、用户层、元数据管理层、安全管理层。

源数据层:

作为ETL层的数据抽取源,为EDW提供原始数据支持。本层设计要考虑源系统状况和数据抽取方式,确定存储方式、数据量、交付时间、对时间窗口的影响,以及数据文件规范、文件压缩方式、传输模式、文件发送位置等规范信息。

ETL服务层:

完成数据文件转换和加载,并负责管理和调整数据仓库中所有作业的依赖关系,管理整体作业流。

数据服务层:

一般包括四个层次。数据缓冲区支持ETL处理;基础数据层基于面向主题的物理数据模型,用于保存数据仓库基础数据;汇总层是建立在基础数据之上的主题级汇总数据;应用数据层(数据集市)是建立在基础数据区和汇总数据区之上的一组数据库,分别对应一类应用主题。

中间服务层:

OLAP服务器通过ODBC等接口从数据仓库批量获取数据,按多维设计模型生成立方体,支持BI软件包的多维展现请求。

BI软件包通过ODBC等接口访问数据仓库,支持业务用户的灵活查询和固定报表请求;还可通过OLAP接口访问多维数据库支持业务用户的多维分析请求。

应用服务器:提供一个具有高可用性和负载均衡功能的基础平台,以支持BI软件包和其它应用软件包的运行。

访问控制层:

主要包括WEB、认证、安全、门户四方面的服务。该层为用户层提供HTTP服务、门户的单点登录、用户统一认证、提交用户层请求到中间服务层,对用户实施安全策略,为用户管理报表、查询文档,提供个性化定制等。

用户层:

数据仓库系统用户既包括进行系统建设的开发人员、系统运行人员和系统管理人员,又包括最终使用系统的业务用户,这里主要对业务用户进行描述。

业务分析人员主要是指使用应用界面访问数据仓库系统的总各业务部门、各分行的业务用户。该类人员使用数据仓库主要生成或预览定义报表,进行相对固定的查询和多维分析。

管理决策人员主要包括各部门的领导、总行和分行领导。数据仓库系统为管理决策人员分配专门的系统资源,建立最为直观方便的存取界面,为决策人员赋予最大的信息访问权,实现对信息的自由访问。

知识工作者是指各部门、各分行较为高级的用户。可以对指定的主题、指标进行自定义的灵活分析和比较。分析的方式包括自定义查询和报表、多维旋转和穿透钻取等。

元数据管理:

元数据管理是将分散在数据仓库各环节的、独立的元数据统一存储在元数据存储库中,并将各个元数据有机的联系在一起,实现对数据流的跟踪管理,向前可以进行数据的血缘分析,向后可进行影响性分析。

安全管理:

安全管理主要包括网络安全、操作系统安全、数据安全和应用安全,这里不做专门介绍。可参考相关技术资料。

3.3. 数据仓库数据架构

数据仓库的数据架构分数数据流向、数据模型、数据标准、数据质量、数据管控和数据保留策略与容量规划六个部分来简单介绍。

数据流向:

一种比较典型的数据仓库数据流设计模式是,先通过ETL服务将源系统数据加载到临时数据区,本区主要用于源系统数据和ETL运行数据暂存;然后通过数据加工将详细历史数据、客户信息、账户信息、交易信息等数据存储到基础数据区;然后可定期进行账户信息和客户信息等汇总,将数据存储到汇总数据区;最后可将应用分析所需的数据存放到应用数据区。

数据模型:

由于数据仓库建设经验的积累,各行业有其比较成熟的数据仓库数据模型,例如在金融行业,Teradata和IBM各有其自己的数据模型。成熟的数据模型产品对建设数据仓库有一个很好的经验和方法论指导,但客户化依然具有很大的工作量。

数据标准:

数据标准化是一项关键工作。进行数据标准化工作必须有专职数据管理员,制定配套的管理流程;数据标准化包括数据映射和制执行准规则,如识别规则、归并规则、重要口径等;数据标准化工作还包括统一的业务定义,进行总体规划。

数据质量:

数据质量也是一项关键工作,数据质量太差的数据仓库,其应用价值可以几乎为零。数据质量问题来源广泛、复杂,可以设计或借助现成的数据质量检查系统进行数据质量检查。保证质量的工作内容主要包括:定义及初始度量、分析及发现错误、查找问题根源、解决质量问题、监控改进过程、发现及分析改进中的异常。

数据管控:

建立统一的数据管理体系框架,主要有三个层面组成:管理策略、方法和内部体系,

其核心是工作内容包括数据规划、数据标准制订和管理、数据质量管理。数据管理体系的建立和完善是一个长期持续的过程。

数据保留策略和容量规划:

数据保存周期受三个关键需求驱动:业务分析的需求;法规需求、审计与投资者情况披露;基于历史数据为客户提供额外的服务。

在确定了数据仓库建设策略之后,可以进行数据容量规划,这包括计算用户数据量、计算磁盘空间需求、分析目前容量现状及对策等工作。

3.4. 数据仓库应用架构

国际先进银行的企业级数据仓库实践表明,实现需求主要有三种应用模式:灵活分析、数据挖掘(如评分系统)和应用开发。应用系统的开发离不开需求的成熟和稳定,只有通过大量的灵活分析和数据挖掘的应用,才能形成成熟稳定的应用需求,反之,使用系统在业务中的大量使用,又会促进分析人员更加深入、有效的分析探索数据。

灵活分析具有IT和业务两方面的知识和技能,利用查询工具进行任意的数据探索和查询,以回答各种未预定义的业务问题;

数据挖掘在灵活分析的基础上对某些业务问题进行数据属性层面的提炼和归纳,如典型的评分模型、违约模型等;

应用系统是指联机或批量访问数据仓库的应用系统,典型的应用有营销管理系统、利润贡献度模块、反洗钱应用、关键指标/平衡计分卡应用。

在进行分析应用的建设规划时,要根据业务需求的急迫程度确定业务实现的优先次序,并制定一个分析型应用的评估模型。

4. ETL设计与工具介绍

4.1. ETL概念

ETL具有如下的含义:E(Extraction,抽取)、T(Transformation,转换)、L(Loading,加载)、C(Cleansing,清洗)。ETL是DW系统的基础。DW中的数据来自源业务系统,ETL 的主要功能正是完成对源业务系统的数据抽取、清洗、转换和加工,生成DW中基础层和应用层数据。

ETL过程由处理单元和处理流程两部分组成。数据转换清洗规则主要体现在处理单元中;处理流程体现的是处理单元之间的正确顺序。ETL系统要有运行监控体系,监控是否有异常;ETL必须实现流程自动化。

4.2. ETL的模式

ETL有E-T-L和E-L-T两种模式。

E-T-L模式一般需要有一个强大的ETL服务器,而E-L-T模式则需要强大的数据库引擎,对ETL服务器的配置要求不高;

E-T-L模式将转换过程从数据库服务器脱离开来,减少ETL过程占用数据库服务器的

时间窗口。可以将查询和加载分离开来,互不影响。

E-T-L模式的工具通常利用元数据实现整个加载转换流程。

E-T-L模式更适合用于从外部数据源直接一步加入目标数据库,同时无需用到目标数据库现有数据的情况。E-T-L模式不太适用于在加工过程中需用到目标数据库中现有数据的情况,特别是当这个现有数据比较大的情况,例如数据仓库模型中常用的历史拉链算法。E-T-L 模式不太适用于目标数据库内部的再加工,如数据仓库基础层向中间及应用层的加工。

4.3. ETL任务与任务拆分原则

ETL任务:

制订数据接口规范

制订数据采集和传输规范

ETL策略设计

ETL体系结构设计

设计和开发数据采集/传输程序/脚本

设计和开发数据加载程序/脚本

进行数据质量检查

ETL设计和开发总结汇报

构建和测试初始加载的程序和处理流程

构建和测试日常加载的程序和处理流程

撰写ETL系统用户操作和使用手册

ETL任务拆分原则:

ETL任务拆分得太精或太细都不好。拆分需要考虑如下因素:性能;前续任务等候时间;事务的完整性和及最小化;任务的易管理性;脚本的可读性。

ETL任务拆分的最佳实践:以目标表为单位进行拆分;以源数据到达时间的不一致性进行拆分;以算法不同进行拆分。

4.4. 业界主流ETL工具简介

DA TASTAGE:Ascential公司,现已被IBM收购

POWERCENTER:Informatica公司

SUNOPSIS:SUNOPSIS公司,现已被ORACLE收购

SAGENT:GROUP 1公司

DA TA INTEGRATOR:BO公司

DECISIONSTREAM:COGNOS公司

TOS(TalendOpenStudio):开源软件

其中,Informatica和Ascential公司是领导者。

5. 数据仓库前端设计

5.1. 企业级数据仓库的应用模式

EDW应用模式可分为:固定报表、应用系统、灵活查询、数据挖掘。

OLAP/固定报表提供日常业务管理统计,辅助发现业务发展趋势。固定报表是数据仓库信息共享的主要途径之一,是最重要的展现方式。部分常用的、能够提炼出共性的灵活查询可能会转化为固定报表。固定报表信息所涉及的维度和度量是确定的、权威的;信息具有普遍性,简单和容易理解,对用户要求不高;固定报表不依赖单一业务系统,需要全局视图。

分析型应用系统绝不仅仅是固定报表随意的堆砌,而是特定的业务逻辑整合,可以帮助用户逐步访问与分析一系列交互式的报表。分析型应用一定是服务某个业务主题的,例如风险管理、营销管理等。

灵活查询提供解决那些无法预定义的查询分析需求以及查询问题时的详细钻取。灵活查询随时发生,可由任何部门发起;有应对突发需求的相应能力;可能是简单统计或某项明细数据查询,也可能是某种复杂逻辑的处理;灵活查询具有特定的目标、特有的度量、专用的视角和算法。

数据挖掘是从大量详细数据中提示出隐含的、先前未知的并有潜在价值的信息的过程,主要基于人工智能、机器学习、模式识别、统计学等技术,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。数据挖掘一般需要跨业务领域进行综合关联分析,信息全面;针对的是某个特定领域的特定问题,应用范围和服务领域具有专用性;数据挖掘使用的统计技术和模型的产生结果都具有高度的抽象性;数据挖掘模型需要进行周期性的回顾和调整。

5.2. 用户角色和统一用户管理

用户角色:

DW的数据可分为三层:缓冲层、基础层、语义层(即汇总和应用数据层)。不同用户访问不同的数据层。

80%的用户只需访问语义层,这一般是普通业务人员;20%的用户可能访问基础层,但其80%的时间仍然只访问语义层,这一般是高级业务人员和数据挖掘人员;只有很少的技术用户和审计可能偶尔需要访问缓冲层。

不同用户访问的数据权限不同,例如不同分行的用户需要访问不同的分行逻辑视图。

对不同角色用户需要制定不同的数据开放策略。

统一用户管理:

用户权限和用户角色设置比较复杂,不同工具和软件一般都有自己的用户管理机制。必须在整个系统范围内实现统一用户管理,由系统管理员对系统内各组件的用户进行统一规划和管理。

5.3. 应用系统体系架构

应用系统可以直接基于DW,也可以采用由DW导出数据给外部集市的方式,具体哪种应用采用哪种方式,需要根据实际情况具体分析。

直接基于DW的应用尽可能采用统一Portal入口,多采用B/S架构,绝大部分用户采种统一管理,单点登录。

基于DW也可以为少数高级用户独立开放C/S访问接口,这些用户具有较高的灵活性,通常直接通过数据库用户进行适当的权限管理即可。

基于导出集市的应用通常不集成于统一Portal,可根据自身情况合理选择架构方式,可采用B/S架构也可采用C/S架构。

5.4. 主流前端工具及应用

常用OLAP工具:

Hyperion Essbase

Microsoft Analysis Service

Oracle Express Server(9i) / Analytic Workspace Manager(10g)

Sybase IQ

IBM DB2 Server

Cognos Powerplay

常用前端工具:

Hyperion Client(Brio) -- 有业内最好的EIS

BO

Cognos

MSTR

Crystal Report

Excel

6. DW数据模型设计

6.1. 关系模型和多维模型

关系模型是使用规范的二维表表示数据以及数据间的关系,设计关系模型要使用规范化理论。

多维模型使用数据立方体(Cube)来表示现实世界中的复杂关系,基本组成是维(Dimension)、度量(Measure)。

维是对数据进行分类的一种结构,用于从特定角度观察数据,例如时间、地区、产品等。使用维主要用来选择针对期望详细程序的层次的数据、分组对细节数据综合(聚集)到相应的详细程序的数据层次。

度量(指标)是数据的实际意义,一般是一个数据值度量指标,例如销售量、销售额等。数字型指标和聚集函数是度量的两个组件。

Cube是一个多维模型构成的多维数据空间,其逻辑上相当于一个多维数组。

6.2. 多维分析的基本动作

多维模型的分析动作是将Cube中的数据进行可视化展现的方法。

切片:从立方体中切出一个二维。如选定时间维1998年1月,取出产品和地区两个维的数据关系。

切块:从立方体中切出一个小三维。如选定时间、产品和地区,取出分析数据。

旋转:改变一个报告或页面显示的内容。如把一个横向为时间纵向为产品的报表旋转为横向为产品纵向为时间的报表。

钻取:向上钻取获得更高层更宏观的数据,向下钻取获得到更低层更详细的数据。6.3. 多维数据模型的实现技术

ROLAP(Relational OLAP):

利用关系数据库来存储和管理基本数据和聚合数据,并利用一些中间件支持缺失数据的处理。具有良好的可扩展性。

关系二维表使用两类表(事实表和维表)来表示多维结构。事实表(Fact)用来存储变量值和维的码值。维表用来存储维的描述信息,包括层次和类等。

MOLAP(Multidimensional OLAP):

利用多维数据库来存放和管理基本数据和聚合数据,其中需要用到稀疏矩阵处理技术。对预综合的数据进行快速索引。

HOLAP(Hybrid OLAP):

利用关系数据库来存储和管理基本数据,利用多维数据库来存储和管理聚合数据。6.4. 维度建模步骤

选取业务处理过程:

业务处理过程由一个或多个源系统存储其活动数据。建立的第一个模型应该是一个最有影响的模型,它应该对最为紧迫的业务问题做出回答,并且数据是可获取的。

定义事实表的粒度:

事实表的粒度是指事实表每一行的具体含义。应优先考虑为业务处理获取最有原子性的信息而开发维度模型。原子数据是所集的最为详细的信息,该数据不能再做进一步的细分。

维度模型的细节性数据是安如泰山的,并随时准备接受业务用户各种分析的需求。

选取维度:

用一组维度表来描述事实,每个维表包含了若干离散值。这些维度包含所有可能的描述信息。常见的维表有日期、产品、客户、交易类型等。

维表不能太大,太大可能需要拆分。

确定数字事实:

事实确定要衡量和分析的内容。如数量或消费金融等。

6.5. Teradata公司的金融行业数据模型产品

Teradata公司有一套预先构建的金融行业DW逻辑数据模型FS-LDM,是一套较成熟的产品,利用它可以直接开始数据仓库模型客户化设计。FS-LDM包括十大主题。

PARTY(当事人)主题:

当人事是指银行作为一个金融机构所服务的任意对象和感兴趣进行分析的各种个人或团体客户、潜在客户、代理机构、雇员、分行、部门等。一个当事人可以同时是这当中许多种角色。

Internal Organization(内部机构)主题:

内部组织机构是指企业的内部组织和业务单元,如分行、客服中心、支行、储蓄所、部门、销售团队等。在技术上它是一种特殊的PARTY。不仅包括自身的内部组织机构,还包括其他的内部组织。

PRODUCT(产品)主题:

产品是金融机构销售或提供的可市场化的产品、产品包和服务。如果有必要,在模型中可以包括竞争对象所提供的产品。

AGREEMENT(协议)主题:

协议是当事人之间针对某种特定产品或服务而签立的契约关系。例如银行的账户,保险公司的保单等。包括协议的申请、报价、还价以及开立等完整信息。

ASSET(资产)主题:

当事人的资产主题是所有可能采集到的各种当事人的资产(负债)信息,包括有形的和无形的各种客户资产/负债,同时还可以存储银行向外租赁的各种资产信息。可能是客户

的不动产、商品存货、珠宝、机动车辆、以及在其他金融机构的存款、贷款等。

7. 数据仓库项目实施方法论

7.1. 重视数据管控

数据仓库建设是一项长期的持续改进的任务,仓库中的各层数据会不断的丰富、完整。在这个过程中,制定和实施一套数据管控策略、保证数据质量是至关重要的。

数据管控的工作内容包括制定管控任务和指导原则,建立组织结构,进行业务改善建议和结果追踪,规划好数据管理的落地功能,获得用户的支持和参与,调整方案计划确保满足用户期望的质量、可用性、实用性和性能。数据管控的重点是组织管理和流程。

好的实施经验有:持续推进元数据精细化管理;建立数据质量评估模型;做好数据生命周期管理;制定物理模型优化策略和ETL加载优化策略;推进主数据和参考数据标准体系建设

7.2. 制定数据质量改进方案

保证数据质量五个“一”工程:必须有一个跨部门以上领导的重视和牵头;必须有一个专门负责解决数据质量问题的组织;必须有一个专门负责解决数据质量问题的平台;必须有一个专门负责解决数据质量问题的流程;必须有一个专门负责侦测数据质量问题的工具。

数据质量保证工作的好建议:以源系统数据质量为重心,兼顾数据仓库的数据质量,特别是业务统计指标的计算规则的统一;从单个系统的数据质量向多个系统之间的数据整合质量问题转移,以数据标准为出发点,提出数据整合的业务规则以及异常处理;从数据质量问题的发现到数据质量问题的治理进行转移,协调业务和科技,进行上游数据质量治理和下游数据质量修复的工作流程的建立。

7.3. 数据仓库项目的特征七要素

数据仓库项目不是技术主导型项目,是一个大的集成项目,更注重方法和流程。

数据仓库项目需要持续的建设。

数据仓库项目需要持续的成熟度评估和改进和建议,逐渐找出合理的策略。

除了一般的项目管理方法外,更重要的是实施方法。

不同阶段的实施方法需要技术和业务紧密结合的组织架构的支撑。

需要坚持不懈地推动业务的参与。

基于基础平台结合应用建设的大项目群管理必须建立有效的管理机制。

8. DW在金融行业的应用与发展

8.1 BOA典型的成功DW建设情况

BOA的元数据管理:

15年前已建立元数据管理系统,IT和业务部门均设有元数据专家。

源系统的变化通过变革流程通知到DW。

详细到数据要素(Data Elements)

真正发挥DW窗口的作用,能够为业务人员及应用开发人员提供如下信息:DW中有什么数据,这些数据从哪里来,到何处去,加工逻辑是什么。

没有针对元数据管理的权限控制,BOA认为元数据信息对每个人都有价值,合法的局域网用户均可访问

DW对应用的支持模式是PULL,而不是国内普遍使用的PUSH,大大减轻了DW支持人员的工作量,很大程度上得益于元数据的广泛应用。

数据标准制定与维护:

BOA通过主参考数据(Master Reference Data)和客户参考数据(Customer Reference Data)达到支持DW的数据整合,保证进入DW的数据的一致性。

数据质量:

关于数据质量的基本原则:业务部门是数据的拥有者,因此他们应当对数据质量负责,DW只接收数据,不修改数据。

DW非常重视数据质量,有一个集中的DQ团队负责对数据质量的监控,同时每个业务部门和IT部门都设有数据管理员,他们也对数据质量进行检查。

重点监控300多个关键的数据元素。

首要解决的是数据缺失的问题。

每个业务部门在年初的计划中会设定数据质量目标,年终会考核相关人员的数据质量目标完成情况。

用户支持:

有一个32人的DW资源中心团队,定期发布更新数据;进行数据使用培训;监控前端应用,如找出并解决过度消耗资源的查询;指导各层应用对DW的数据使用。

访问情况:

2900多个活跃用户,包括ETL、应用、业务信息工具、SAS和许多通过其他DBMS实现的连接。

2008年每月查询次数在1~1.4亿之间。

数据访问工具:

包括SAS、Cognos、BO、Qqueryman、Hyperion、MSTR、DW分析平台等。

8.2 国内金融行业的DW建设情况

在国内金融业实施数据仓库项目比较成功的银行是ICBC,成功的主要因素有:成立了数据仓库决策委员会;

项目组织结构随项目进度而调整,前期组织结构面向开发,后期面向测试;

做好了ETL开发中两个关键环节:由模型到SDM(源数据映射)映射文档;由SDM 映射文档到ETL脚本;

重视元数据管理和优化、数据质量检查、系统监控和管理;

针对超大数据量制定了可行的备份恢复策略;

对现有数据集市制定了发行和建设计划;

使用挖掘技术引导ERM建设;

建立全行统一的统计指标库。

9. 结束语

建设企业级数据仓库是一项庞大的综合工程和长期持续的过程,成功的建设数据仓库一定需要丰富的实践经验和科学的实施方法论作指导。在DW建设过程中,要综合考虑系统和技术架构、组织结构和管理流程、数据监管和持续的数据质量改进、数据访问和用户支持方法、信息安全和可用性、应用系统建设模式和升级规划等多方面的因素。目前,成功建设DW的关键因素不是技术,而是科学的组织、流程和实施方法论。

参考资料:

《DW分析与设计方法培训》及课堂笔记

《数据仓库与数据挖掘技术》第1章:数据仓库与数据挖掘概述

数据仓库与数据挖掘技术

第1章数据仓库与数据挖掘概述1.1数据仓库引论1 1.1.1为什么要建立数据仓库1 1.1.2什么是数据仓库2 1.1.3数据仓库的特点7 1.1.4数据进入数据仓库的基本过程与建立数据仓库的步骤11 1.1.5分析数据仓库的内容12 1.2数据挖掘引论13 1.2.1为什么要进行数据挖掘13 1.2.2什么是数据挖掘18 1.2.3数据挖掘的特点21 1.2.4数据挖掘的基本过程与步骤22 1.2.5分析数据挖掘的内容26 1.3数据挖掘与数据仓库的关系28 1.4数据仓库与数据挖掘的应用31 1.4.1数据挖掘在零售业的应用31 1.4.2数据挖掘技术在商业银行中的应用36 1.4.3数据挖掘在电信部门的应用40 1.4.4数据挖掘在贝斯出口公司的应用42 1.4.5数据挖掘如何预测信用卡欺诈42 1.4.6数据挖掘在证券行业的应用43 思考练习题一44

1.1.1为什么要建立数据仓库 数据仓库的作用 建立数据仓库的好处

1.1.2 什么是数据仓库 1.数据仓库的概念 W.H.Inmon在《Building the Data Warehouse》中定义数据仓库为:“数据仓库是面向主题的、集成的、随时间变化的、历史的、稳定的、支持决策制定过程的数据集合。”即数据仓库是在管理人员决策中的面向主题的、集成的、非易失的并且随时间而变化的数据集合。 “DW是作为DSS基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需的信息。” “DW是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的。即与企业定义的时间区段相关,面向主题且不可更新的数据集合。” 数据仓库是一种来源于各种渠道的单一的、完整的、稳定的数据存储。这种数据存储提供给可以允许最终用户的可以是一种他们能够在其业务范畴中理解并使用的方式。 数据仓库是大量有关公司数据的数据存储。 仓库提供公司数据以及组织数据的访问功能,其中的数据是一致的(consistent),并且可以按每种可能的商业度量方式分解和组合;数据仓库也是一套查询、分析和呈现信息的工具;数据仓库 是我们发布所用数据的场所,其中数据的质量是业务再工程的驱动器(driver of business reengineering)。 定义的共同特征:首先,数据仓库包含大量数据,其中一些数据来源于组织中的操作数据,也有一些数据可能来自于组织外部;其次,组织数据仓库是为了更加便利地使用数据进行决策;最 后,数据仓库为最终用户提供了可用来存取数据的工具。

数据仓库与数据挖掘

数据仓库与数据挖掘 摘要 数据挖掘是一新兴的技术,近年对其研究正在蓬勃开展。本文阐述了数据仓库及数据挖掘的相关概念.做了相应的分析,同时共同探讨了两者共同发展的关系,并对数据仓库与挖掘技术结合应用的发展做了展望。用Data Miner作为对数据挖掘的工具,给出了应用于医院的数据仓库实例。指出了数据挖掘技术在医疗费用管理、医疗诊断管理、医院资源管理中具有的广泛应用性,为支持医院管理者的分析决策作出了积极探索。 Abstract The Data Mine is a burgeoning technology,the research about it is developing flourishing.In this paper,it expatiates and analyses the concepts of Data Warehouse and Data Mine Together,discussing the connections of how to expand the two technologies,and combining the two technologies with prospect.The data warehouse supports the mass data on the further handling and recycling.The paper points out the use of data mining in patient charge control,medical quality control, hospital resources allocation management. It helps the hospital to make decisions positively 关键字:数据仓库;数据挖掘;医院信息系统 Key words:Data Warehouse;Data Mine;Hospital information system

数据仓库技术在医院信息系统中的应用

数据仓库技术在医院信息系统中的应用 本文介绍了数据仓库技术的发展历程及特点,对数据仓库技术在医院信息管理平台的应用进行了分析,并对医院信息平台使用数据仓库技术提出了建议,为数据仓库技术在医院的建设及使用提供了一定有价值的参考。 标签:数据仓库;医院信息;应用 数据仓库可为所有类型的数据起到支持与集合作用,也是企业发展过程中对决策定制必须要用到的。数据仓库作为独立的数据存储,对企业业务报告进行分析以及作出决策等提供一定支持,对业务流程、所花费成本以及质量等进行控制的一种系统。 1 数据仓库技术 数据仓库由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累積的大量资料,透过数据仓库理论所特有的资料储存架构,有系统的进行分析整理,以利于各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)的进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)的创建,帮助决策者能快速有效的从大量资料中,分析出有价值的资讯,有利于决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)[1]。数据仓库技术主要对数据库中获得的信息进行研究和分析,以找出解决方法,因此,数据仓库最大的特点就是具有集成性、稳定性和实时性。 2 数据仓库的特点 数据仓库最大的特点就是可以在数据库存储大量数据的情况下,还可以对数据进行深度挖掘,以对企业在决策问题上提供支持。数据仓库同其他系统大型数据库不同,数据仓库存在的最主要目的就是为企业所得数据进行分析与查询,以为企业提供数据依靠,所以在所用的存储量上较多。数据仓库为了能为企业提供更多前端应用服务,在其实际应用过程中还存在以下几点特点: 2.1对数据仓库要求效率过高数据库对数据进行分析也是有其规律的,分别按照年、季、月、周、日为周期对数据进行分析。以日周期为例,对数据仓库的要求上尤其高,要求其分析数据的频率能够在客户所要求的时间内得出结果。但对于大型企业来说,每天企业所涉及的数据量非常多,如果数据仓库使用不恰当则会延误客户的需求,进而给企业造成影响。 2.2对数据质量要求严格数据仓库所收集到的各种信息必须保证准确,如果在某一数据或者某一代码中出现错误,那么往往就会造成部分数据失真。在数据仓库实际使用过程中所涉及环节较多,且内容复杂,因此,在为客户所提供的数据信息上仍会有错误数据存在,使客户作出错误的判断,进而对企业造成损失。

数据仓库设计的21条原则

数据仓库设计的21条原则:7个步骤,7个禁忌和7种思路(转) 高效实现数据仓库的七个步骤 数据仓库和我们常见的RDBMS系统有些亲缘关系,但它又有所不同。如果你没有实施过数据仓库,那么从设定目标到给出设计,从创建数据结构到编写数据分析程序,再到面对挑剔的用户的评估,整个过程都会带给你一种与以往的项目完全不同的体验。一句话,如果你试图以旧有的方式创建数据仓库,那你所面对的不是预算超支就是所建立的数据仓库无法良好运作。 在处理一个数据仓库项目时需要注意的问题很多,但同时也有很多有建设性的参考可以帮助你更顺利的完成任务。开放思维,不断尝试新的途径,对于找到一种可行的数据仓库实现方法来说也是必需的。 1. 配备一个全职的项目经理或你自己全面负责项目管理 在通常情况下,项目经理都会同时负责多个项目的实施。这么做完全是出于资金和IT资源方面的考虑。但是对于数据仓库项目的管理,绝对不能出现一人身兼数个项目的情况。由于你所处的领域是你和你的团队之前没有进入过的领域,有关数据仓库的一切-数据分析、设计、编程、测试、修改、维护-全都是崭新的,因此你或者你指派的项目经理如果能全心投入,对于项目的成功会有很大帮助。 2. 将项目管理职责推给别的项目经理 由于数据仓库实现过程实在是太困难了,为了避免自虐,你可以在当前阶段的项目完成后就将项目管理职责推给别的项目经理。当然,这个新的项目经理一定要复合第一条所说的具有全职性。为什么要这么做呢?首先,从项目经理的角度看,数据仓库实施过程的任何一个阶段都足以让人身心疲惫。从物理存储设备的开发到Extract-Transform-Load的实现,从设计开发模型到OLAP,所有阶段都明显的比以前接触的项目更加困难。每个阶段不但需要新的处理方法、新的管理方法,还需要创新性的观点。所以将管理职责推给别的项目经理不但不会对项目有损害,还可以起到帮助作用。 3.与用户进行沟通 这里所讲的内容远比一篇文章本身要重要的多。你必须明白,在数据仓库的设计阶段,那些潜在用户自己也不清楚他们到底需要数据仓库为他们做什么。他们在不断的探索和发现自己的需求,而你的开发团队也在和客户的接触中做着同样的事情。更加频繁的与客户接触,多做记录,并让你的团队更关注于项目需求讨论的结果而不是讨论的过程本身。 既然你和客户的交流是为了了解存储的数据是何种类型以及如何有效存储数据,你也许需要(和你的用户一起)采用一种新的方法观察数据,而不是直接处理数据。你可以尝试从中找出隐藏的信息,比如在一段时期内的数字涨落等。不要试图追寻项目需求的答案,而是要让答案找上门来。 4. 以技术/信息库作为领导 由于数据仓库实施的各个阶段都有很大不同,因此你需要有人能起到维持整个项目的连续进行的作用,不过这个职责并不需要那种全职性。项目实施有三个重要方面:架构、技术和业务。将架构作为重点可以保证在整个项目中,数据仓库的架构从物理层往上,都会受到良好的维护。而我们应该将技术作为重点,因为开发团队和关键用户都在使用他们以前从未用过的工具,必须有人监督开发过程以及工具使用的一致性。 最后,在数据仓库的应用过程中浮现出来的业务需求必须被详细分析和记录,以促机开发过程持续下去。如果用户不能很好的与开发人员以及其它用户沟通,那么数据分析和度量方面的开发进程就会延期,所以必须有人关注业务方面的开发,推动开发进入更高级别。 5. 跳出反复修改程序的陷阱 第一次实现的数据仓库肯定不会是最终交付的版本。为什么呢?实际上在真正见到产品前,你无法确定

数据仓库在证券业的应用

数据仓库在证券业的应用 随着数据仓库技术的发展,在线分析、数据挖掘已渐渐获得了券商的青睐,但数据仓库在证券业中却鲜有成功的案例,大部分券商对数据仓库也都持观望的态度,对数据仓库的应用仅限于研究阶段。那么究竟数据仓库的“行”在何处:它可以为我们带来什么?为什么“不行”:它的应用为什么不能达到其预期的效果?怎样才能使数据仓库从“不行”的模式转到到“行”的模式?本文试对此进行探讨,并认为数据的集中统一是数据仓库应用的基础;确立合理的数据模型是数据仓库应用的核心;高效的应用系统是数据仓库应用的动力;良好的外部环境是数据仓库成功应用的外部保障。 数据仓库的“行” 这里所说的数据仓库的“行”主要是指数据仓库可以做什么,它的使用能为证券业带来哪些好处,为什么对券商来说是一个行之有效的工具。 数据仓库(Data Warehouse)是在数据库基础上发展而来的,是一个面向主题的、集成的、稳定的、不同时期的数据集合,用以支持企业经

营管理中的决策过程。它通常由三个部分构成:数据仓库、联机分析处理及数据挖掘,它们之间具有极强的互补关系。数据仓库用来对大量的数据按一定的结构进行组织存储;联机分析处理则可进行灵活丰富的多维分析与查询,可以从不同的角度去分析企业的运作情况,并对未来进行预测;数据挖掘则是对现有数据进行深层次的研究分析,从中找出对经营管理有用的结论。 由上述对数据仓库的叙述,不难看出特别是对券商这种数据密集型的企业而言,数据仓库技术的应用在以下三个方面有其得天独厚之处和现实的意义: 提升客户服务虽然大部分券商已积累了大量的客户信息和交易数据,但现在还没有办法对客户的贡献度、盈亏情况、持仓情况及操作习惯等进行统计和分析,为客户提供针对其个人习惯的投资组合建议。而通过建立数据仓库,为客户资料的统计分析提供基本的信息源和辅助工具,已成为券商提高市场竞争能力和客户服务水平的关键。 提高资产质量数据仓库中强大的分析和预测功能为此提供了有力的支持,可根据股市行情走势、上市公司的资料以及宏观微观经济数据等对

如何构建银行数据仓库

如何构建银行数据仓库 数据仓库技术作为一项数据管理领域的新技术,其精髓在于针对联机分析处理(OLAP)提出了一种综合的解决方案,与以往很多技术不同的是,它主要是一种概念,在此概念指导下完成系统的构造。既没有可以直接购买到的现成产品,也没有具体的分析规X和实现方法,也就是说没有成熟、可靠且被广泛接受的数据仓库标准。在以往关系数据库的设计和实现中,不仅有详细的理论推导,还有无数的设计实例,无论你使用的是什么公司的数据库产品、开发工具,只要按照规X做,那么实现同一业务需求的方案都会很相似。而现有数据仓库的实现中,出现了MOLAP 方案和ROLAP方案的区别,出现了形形色色的数据仓库建模工具、表现工具,而设计人员的个人经验和素质也会在其中扮演很重要的角色。 数据仓库技术的实现方式 目前在数据仓库技术的实际应用中主要包括如下几种具体实现方式。 1、在关系数据库上建立数据仓库(ROLAP) 2、在多维数据库上建立数据仓库(MOLAP) MOLAP方案是以多维方式来组织数据,以多维方式来存储数据;ROLAP

方案则以二维关系表为核心表达多维概念,通过将多维结构划分为两类表:维表和事实表,使关系型结构能较好地适应多维数据的表示和存储。在多维数据模型的表达方面,多维矩阵比关系表更清晰且占用的存储更少,而通过关系表间的连接来查询数据的ROLAP系统,系统性能成为最大问题。MOLAP方案比ROLAP方案要简明,索引及数据聚合可以自动进行并自动管理,但同时丧失了一定的灵活性。ROLAP方案的实现较为复杂,但灵活性较好,用户可以动态定义统计和计算方式,另外能保护在已有关系数据库上的投资。 由于两种方案各有优劣,因此在实际应用中,往往将MOLAP和ROLAP 结合使用,即所谓的混合模型。利用关系数据库存储历史数据、细节数据或非数值型数据,发挥关系数据库技术成熟的优势,减少花费,而在多维数据库中存储当前数据和常用统计数据,以提高操作性能。 3、在原有关系库上建立逻辑上的数据仓库 由于目前正在运行的OLTP系统中已经积累了海量数据,如何从中提取出决策所需的有用信息就成为用户最迫切的需要。新建数据仓库固然能从功能、性能各方面给出一个完整的解决方案,但需要投入大量的人力、物力,并且数据仓库的建设和分析数据的积累需要一段时间,无法及时满足用户对信息分析的迫切需要。因此在筹建数据仓库的前期,可以采用一些合适的表现工具,在原有OLTP系统上建立起一个逻辑的数据仓库系统。尽管由于原有OLTP系统设计上的局限性,这样的系统可

互联网大数据与传统数据仓库技术比较研究

互联网大数据与传统数据仓库技术比较研究 韩路 1.Hadoop技术简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,是目前全世界最主流的大数据应用平台。以分布式文件系统(HDFS)和MapReduce为核心的Hadoop,目前已整合了其他重要组件如Hive、HBase、Spark,以及统一资源调度管理组件Yarn,形成了一个完成的Hadoop产品生态圈。 1.1.HDFS HDFS是一个分布式文件系统,可设计部署在低成本硬件上。它可以通过提供高吞吐率支持大量数据的批量处理,同时支持应用程序流式访问系统数据。 1.2.MapReduce MapReduce是一种编程模型,用于大规模数据机的并行运算。MapReduce可以将一个任务分发到Hadoop平台各个节点上并以一种可靠容错的方式并行处理大量数据集,实现Hadoop的并行任务处理功能。 1.3.Hive Hive是用于对Hadoop中文件进行数据整理、特殊查询和分析储存的工具。Hive提供了一种结构化数据的机制,支持类似传统结构化数据库中SQL元的查询语言,帮助熟悉SQL的用户查询HDFS中数据。 1.4.HBase HBase是一个分布式的、列式储存的开源数据库。HBase不同于传统关系型数据库,适合非结构化数据储存,同时可以为一个数据行定义不同的列。HBase 主要用于需要随机访问、实时读写的大数据。 1.5.Spark Spark是基于内存计算的分布式计算框架。Spark提出了RDD概念,弥补了MapReduce在并行计算各个阶段无法进行有效数据共享的缺陷。同时,Spark形成了自己的生态系统:SparkSQL、SparkStreaming、MLlib,并完全兼容Hadoop 生态系统。

数据仓库建设步骤

数据仓库建设步骤 1.系统分析,确定主题 确定一下几个因素: 操作出现的频率,即业务部门每隔多长时间做一次查询分析。 在系统中需要保存多久的数据,是一年、两年还是五年、十年 用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。 用户所能接受的响应时间是多长、是几秒钟,还是几小时。 2.选择满足数据仓库系统要求的软件平台 选择合适的软件平台,包括数据库、建模工具、分析工具等。有许多因素要考虑,如系统对数据量、响应时间、分析功能的要求等,以下是一些公认的选择标准: 厂商的背景和支持能力,能否提供全方位的技术支持和咨询服务。 数据库对大数据量(TB级)的支持能力。 数据库是否支持并行操作。 能否提供数据仓库的建模工具,是否支持对元数据的管理。 能否提供支持大数据量的数据加载、转换、传输工具(ETT)。 能否提供完整的决策支持工具集,满足数据仓库中各类用户的需要。 3.建立数据仓库的逻辑模型 具体步骤如下: 1)确定建立数据仓库逻辑模型的基本方法。 2)基于主题视图,把主题视图中的数据定义转到逻辑数据模型中。 3)识别主题之间的关系。 4)分解多对多的关系。 5)用范式理论检验逻辑数据模型。 6)由用户审核逻辑数据模型。 4.逻辑数据模型转化为数据仓库数据模型 具体步骤如下: 1)删除非战略性数据:数据仓库模型中不需要包含逻辑数据模型中的全部数据项,某些用于操作 处理的数据项要删除。 2)增加时间主键:数据仓库中的数据一定是时间的快照,因此必须增加时间主键。 3)增加派生数据:对于用户经常需要分析的数据,或者为了提高性能,可以增加派生数据。

4)加入不同级别粒度的汇总数据:数据粒度代表数据细化程度,粒度越大,数据的汇总程度越高。 粒度是数据仓库设计的一个重要因素,它直接影响到驻留在数据仓库中的数据量和可以执行的 查询类型。显然,粒度级别越低,则支持的查询越多;反之,能支持的查询就有限。 5.数据仓库数据模型优化 数据仓库设计时,性能是一项主要考虑因素。在数据仓库建成后,也需要经常对其性能进行监控,并随着需求和数据量的变更进行调整。 优化数据仓库设计的主要方法是: 合并不同的数据表。 通过增加汇总表避免数据的动态汇总。 通过冗余字段减少表连接的数量,不要超过3~5个。 用ID代码而不是描述信息作为键值。 对数据表做分区。 6.数据清洗转换和传输 由于业务系统所使用的软硬件平台不同,编码方法不同,业务系统中的数据在加载到数据仓库之前,必须进行数据的清洗和转换,保证数据仓库中数据的一致性。 在设计数据仓库的数据加载方案时,必须考虑以下几项要求: 加载方案必须能够支持访问不同的数据库和文件系统。 数据的清洗、转换和传输必须满足时间要求,能够在规定的时间范围内完成。 支持各种转换方法,各种转换方法可以构成一个工作流。 支持增量加载,只把自上一次加载以来变化的数据加载到数据仓库。 7.开发数据仓库的分析应用 建立数据仓库的最终目的是为业务部门提供决策支持能力,必须为业务部门选择合适的工具实现其对数据仓库中的数据进行分析的要求。 信息部门所选择的开发工具必须能够: 满足用户的全部分析功能要求。数据仓库中的用户包括了企业中各个业务部门,他们的业务不同,要求的分析功能也不同。如有的用户只是简单的分析报表,有些用户则要求做预 测和趋势分析。 提供灵活的表现方式。分析的结果必须能够以直观、灵活的方式表现,支持复杂的图表。 使用方式上,可以是客户机/服务器方式,也可以是浏览器方式。 事实上,没有一种工具能够满足数据仓库的全部分析功能需求,一个完整的数据仓库系统的功能可能是由多种工具来实现,因此必须考虑多个工具之间的接口和集成性问题,对于用户来说,希望看到的是一致的界面。 8.数据仓库的管理

数据仓库成功应用案例讨论

中国银行广东分行数据仓库成功应用案例 信用卡业务是商业银行业务中非常重要的一部分,中国的商业银行开展信用卡业务已多年,相关数据积累相对完备且真实,信用卡业务的经营运作也已从简单的扩大规模、以量取胜阶段进入到成熟竞争、以质取胜阶段,各商业银行不断推出新的服务品种和花样繁多的增值服务,提高市场占有率并强化品牌意识以获得利润。 中国加入WTO后,银行卡业务将在3至5年内对外资银行开放,而银行卡业务不依赖于分支机构的特点将使中国的商业银行信用卡业务面临更加严酷的竞争。信用卡业务竞争本质上就是客户的竞争,而且是优质客户的竞争。针对客户发现、客户提升、客户保持、市场细分、忠诚度、贡献度、个性化服务乃至个人信用风险等等一系列围绕客户关系的新问题,支持日常运作的信用卡生产系统是面向柜员和交易的日常营运和客户服务基础设施,无法提供众多分析、决策型用户对大量历史数据同时进行突发的、复杂的决策分析,而建立一套以客户为中心的信用卡业务分析系统则是实现上述命题的必要可行手段。 在这种情况下,中国银行广东分行引入了海波龙的Hyperion Intelligence,希望通过利用Hyperion Intelligence应用实现这样的目标:建立一套以客户为中心的信用卡业务分析系统,方便企业各级工作人员获取各类信息,实现对成本收益、风险控制、绩效评估、客户管理、营销战役等决策目标的支持,并达到风险管理和控制、客户关系管理与个性化服务、商户分析与市场策略、费用控制与利润分析四大应用目标。 成功典范 中国银行广东省分行是国内金融界最早成功实施数据仓库应用解决方案的单位,其在1996年投产的省市两级金融管理信息系统(FMIS)因首次采用并成功实施先进的数据仓库/OLAP技术而荣获“八五”国家科技攻关重大成果奖,并成为目前业界反复引用的典型成功案例。 在随后的数年中,中国银行广东省分行在决策支持/数据仓库应用研发方面的投入一直保持相当大的力度,陆续推出数项新的应用,应用领域也从最初的财务管理、资产负债指标监控等分析主题逐步延伸至目前的客户及消费行为分析、个人信用评估、授信风险监控、客户关系管理以及一对一个性化营销等分析主题。 广东华际友天信息科技有限公司和中国银行广东省分行共同实施的信用卡分析系统采用了Hyperion和IBM在业界领先的数据仓库技术和工具,专门针对信用卡业务的商业智能应用。此系统的研制目的是为与信用卡业务有关各级管理人员、统计分析人员、风险监控人员,特别是业务发展人员提供灵活有效的实时数据分析/决策支持环境,使他们能够便捷地获得并分析客户特征信息、各交易要素信息以及市场统计信息,从而支持成本收益、风险控制、绩效评估、客户管理、营销战役等决策目标的实现。

数据仓库技术及其在金融行业的应用

数据库技术及其在金融行业的应用 1. 前言 数据库仓库(DW)技术从1991年开始出现,经过多年的摸索和应用,目前在一些发达国家已经建设得比较成熟,为企业综合与灵活的分析型应用提供了强大的数据支撑,为管理层的分析决策和操作层的智能营销提供了技术保证,为企业带来了多方面的收益。而在国内,数据库仓库仍处于尝试或初级建设阶段。 国内的金融行业,随着外部监管和信息披露的压力、内部管理和决策分析的需要,在建设分析类应用时,也正在逐渐从孤立的数据层向统一的数据仓库层规划和转移。建立数据仓库能够减少对数据层的重复投资和资源浪费、统一数据标准、监管和提高数据质量、消除信息孤立、支持综合分析和灵活及时的分析型应用、适应管理和发展、提高业内竞争力。 本文对数据库技术做一个概括性的介绍,并对国内外金融行业数据仓库技术的应用现状做一个简单分析。 2. 数据仓库概念 2.1. DW的提出 2.1.1. 需求 业务系统的建设与逐渐完善,巨量数据信息的积累。 分析类需求不断增加,传统分析类应用造成巨大的资源浪费和管理困难。 业务数据平台异构、数据来源口径多、标准不统一、信息孤立。 整合部门级应用,建设企业级应用,满足综合分析、复杂查询、智能营销等高级需求。 2.1.2. DW概念的提出 MIT在20世纪70年代对业务系统和分析系统的处理过程进行研究,结论是只能采用完全不同的架构和设计方法。 1988年,IBM为解决全企业数据集成问题,提出了信息仓库的概念,确立了原理、架构和规范。但没有进行实际的设计。 1991年,Bill Inmon提出了数据仓库概念,并对为什么建设数据仓库和如何建设数据仓库进行了论述。Bill Inmon被称为数据仓库之父。

数据仓库的开发设计过程

数据仓库之路 FAQ FAQ目录 一、与数据仓库有关的几个概念 (3) 1.1 目录 (3) 二、数据仓库产生的原因 (8) 三、数据仓库体系结构图 (11) 四、数据仓库设计 (12) 4.1 数据仓库的建模 (12) 4.2 数据仓库建模的十条戒律: (13) 五、数据仓库开发过程 (14) 5.1 数据模型的内容 (14) 5.2 数据模型转变到数据仓库 (14)

5.3 数据仓库开发成功的关键 (15) 六、数据仓库的数据采集 (16) 6.1 后台处理 (17) 6.2 中间处理 (17) 6.3 前台处理 (18) 6.4 数据仓库的技术体系结构 (18) 6.5 数据的有效性检查 (20) 6.6 清除和转换数据 (20) 6.7 简单变换 (22) 6.8 清洁和刷洗 (24) 6.9 集成 (25) 6.10 聚集和概括 (27) 6.11 移动数据 (27) 七、如何建立数据仓库 (30) 7.1 数据仓库设计 (31) 7.2 数据抽取模块 (32) 7.3 数据维护模块 (33)

一、与数据仓库有关的几个概念 1.1 目录 ?Datawarehouse ?Datamart ?OLAP ?ROLAP ?MOLAP ?ClientOLAP ?DSS ?ETL ?Adhocquery ?EIS ?BPR ?BI ?Datamining ?CRM ?MetaData Data warehouse 本世纪80年代中期,“数据仓库之父”William H.Inmon先生在其《建立数据仓库》一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓

数据仓库和LOAP应用技术

数据仓库和LOAP应用技术 传统数据库以及OLTP(On-Line Transaction Processing联机事务处理)在日常的管理事务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足。 因为,管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的发展趋势。而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量的历史信息。 为满足管理人员的决策分析需要,就需要在数据库的基础上产生适应决策分析的数据环境——数据仓库(Data Warehouse)。 数据仓库系统是一个信息提供平台,是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。从功能结构化分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三个关键部分。其体系结构如下: 业务处理系统即是数据库去实现的即时记录的功能,在数据准备区进行ETF处理,数据经过抽取、转换之后加载到数据仓库中,因此也说数据仓库是利用的已经存在的历史记录去整合,是利用原有数据分析下一步行动的决策,是有风险的。分析完主题和数据元后建立数据模型(概念模型、逻辑模型、物理模型)并形成事实表和纬度表,然后通过粒度分析将历史记录先抽取整合,然后再根据决策者可能用到的数据集合分解成若干记录,以备不同决策者使用;再利用OLAP工具技术进行数据的分析导出。当然,这些都在了解了管理者即客户的需求之后进行的,或者是由企业的管理者自己进行的技术应用或分析。 模型设计的过程如下:

数据仓库是管理决策分析的基础,要有效地利用数据仓库的信息资源,必须要有强大的工具对数据仓库的信息进行分析决策。 On-line Analytical Processing(在线分析处理或联机分析处理)就是一个应用广泛的数据仓库使用技术。它可以根据分析人员的要求,迅速灵活地对当量的数据进行复杂的查询处理,并以直观的容易理解的形式将查询结果提供给各种决策人员,使他们能够迅速准确地掌握企业的运营情况,了解市场的需求。具体的说,OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义) OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。OLAP是连接数据仓库和用户的桥梁,通过OLAP服务器用户可以很方便的浏览信息,进行决策!按照数据的存储方式进行分类,OLAP分为MOLAP,ROLAP,HOLAP三类。 OLAP支持最终用户进行动态多维分析、预测分析;切片和切块并在屏幕上显示,从宏观到微观,对数据进行深入分析;可查询底层的细节数据,在观察区域中选转,进行不同维之间的比较,在OLAP中有变量、维、维的层次、维成员、多维数组、数据单元等基本概念降,变量是从现实系统中抽象出来的,用于描述数据的实际含义;维是观察者观察数据的特定角度;维的层次是数据的某个维还可以存在细节程度不同的多个描述方面,称为维的层次;维成员是维的一个取值。如果一个维是多层次的,那么维成员就是不同维层次取值的组合。例如时间维具有年、月、日这三个层次,分别在年、月、目上各取一个值组合起来,就得到了时间维的一个维成员,如:2005年6月6日;多维数据集是决策支持的支柱,也是OLAP的核心,有时也称为立方体或超立方体。 0LAP使用三层的体系结构:数据库服务器、0LAP服务器和客户端工具。 第一层是数据仓库服务器,它实现与基层运营的数据库系统的连接,完成企业级数据一致和数据共享的工作。 第二层是OLAP服务器,它根据最终客户的请求实现分解成OLAP分析的各种动作,并使用数据仓库中的数据完成这些动作。

数据仓库建设的几点建议.doc

北京甲骨文软件有限公司咨询经理鲁百年博士 一、国内信息化的现状 1、信息化建设的发展历史: 在国内信息化建设过程中,基本上是按照当时业务系统的需求进行建设,例如:在一个企业中,财务部门为了减少工资发放的差错,提高发放的效率,先建设一个工资发放和管理程序;为了报账和核对的需求,建设一个财务管理程序;在银行首先为了业务处理的方便,将最基本的手工记帐和处理的业务建成一个系统,过一段时间,如果有新的业务推出,就再建设一个新的系统,或在原系统的基础上增加新的业务处理。这样的结果使每个系统和系统之间缺少真正的信息沟通和信息交换。 2、为何要建立数据仓库: 前面我们讲过,业务系统各自为政,相互独立。当很多业务系统建立后,由于领导的要求和决策的需求,需要一些指标的分析,在相应的业务系统基础上再增加分析和相应的报表功能,这样每个系统就增加了报表和分析功能。但是,由于数据源不统一导致了对同一个指标分析的结果不相同。为了解决该问题,Bell Inman提出了数据仓库的概念,其目的是为了分析和决策的需要,将相互分离的业务系统的数据源整合在一起,可以为领导和决策层提供分析和辅助决策。 3、国内企业对数据仓库建设认识的误区: 大家对数据仓库的认识是将业务系统的数据进行数据抽取、迁移和加载(ETL),将这些数据进行整合存放在一起,统一管理,需要什么样的分析就可提供什么样的分析,这就是数据仓库。这样做的结果是花了一年到两年的时间都无法将整个企业业务系统的数据整合在一起,花钱多、见效慢、风险大。一年后领导问起数据仓库项目时,回答往往是资金不足,人力不够,再投入一些资源、或者再延长半年的时间就会见到效果,但是往往半年过后还是仅仅可以看到十几张或者几十张报表。领导不满意,项目负责人压力也很大,无法交待。这时,项目经理或者项目负责人才意识到,项目有问题,但是谁也不敢说项目有问题,因为这样显然是自己当时的决策失误。怎么办?寻找咨询公司或者一些大的厂商,答案往往是数据仓库缺乏数据模型,应该考虑数据模型。如果建设时考虑到整个企业的数据模型,就可以建设成企业级的数据仓库(EDW)。什么是数据模型,就是满足整

数据仓库技术与应用

数据仓库技术与应用 LEKIBM standardization office【IBM5AB- LEKIBMK08- LEKIBM2C】

文章编号 :5(2004 03 收稿日期 :27 基金项目 :教育部高等学校骨干教师资助计划项目 (GG 28 作者简介 :项军 (19792 , 男 , 四川绵阳人 , 空军工程大学导弹学院计算机工程系硕士研究生 , 研究方向 :智能信息处理与人工智能 ; 雷英杰 (19562 , 男 , 陕西渭南人 , 教授 , 博士生导师 , 研究方向 :智能信息处理 , 模式识别 , 人工智能。数据仓库技术与应用 项军 , 雷英杰 (空军工程大学导弹学院 , 陕西三原 713800 摘要 :对数据仓库、联机分析处理和数据挖掘等几个概念做了详细的介绍 , 在此基础上提出适用于电信系统应用的设计思想 , 详细介绍了该系统的系统结构、关键技术的实现和各子系统功能。关键词 :数据仓库 ; 联机分析处理 ; 数据挖掘中图分类号 :文献标识码 :A The T echnique and Application of Data W arehouse XI ANGJun ,LEI Y ing 2jie (Missile Institute of Air F orce Engineering University ,Sanyuan 713800,China Abstract :This paper introduces the concepts of data warehouse ,on 2line analytical processing and data mining ,puts forward the design thought of telecommunication system and briefly introduces the system structure ,the key techniques of the system and the functions of each sub 2system. K ey w ords :data warehouse ;on 2line analytical processing ;data mining 0引言

银行数据仓库构建的方法论

银行数据仓库构建的方法论 中国农业发展银行李小庆 (专注、专业、专长。作者为金融信息化专家,管理学博士) 银行数据仓库是用于决策支持的、面向主题的、集成的、稳定的和随时间变化的数据集合,它的目标是辅助决策,因此其历史的、概括的数据比详细的、个别的记录更重要。由于数据仓库中的数据是集成化的数据,它可能来自多个(异种)操作数据库,可能跨越较长的时间周期,它比操作数据库大几个数量级。一般而言,企业级的数据仓库其数据量可达几TB至几十TB之间,工作负荷主要是查询和分析。通常,复杂的查询可以访问几百万条记录,执行许多的扫描、连接和聚合操作,在这里查询吞吐量和响应时间比事务吞吐量更重要。 目前,各家银行已就相关业务建立了数据仓库,并初步取得了应用效果。但是,当前数据仓库都是根据具体业务分类进行建设,只能实现业务范围内的单目标决策,为了实现综合目标决策支持,就需要将不同类型数据仓库中的数据再次集成起来,并对其进行存储、管理和维护。因此,本文提出银行数据仓库的概念,通过建立全行综合性的数据仓库,采用分析软件或挖掘工具进行分析和挖掘,实施多目标决策。也就是说综合银行现有的货币经营数据仓库、信贷业务数据仓库、银行卡数据仓库、人事数据仓库等数据仓库的进行再次整合,建立一个面向主题的、集成的、综合的和持久的数据集合,在此基础上进行多维分析和数据挖掘,为银行的业务进行综合分析和战略决策提供有力的数据平台。 一、数据仓库模型和创建过程描述 尽管数据仓库是面向主题的,并为分析需求保存了许多综合数据,但对各类银行业务分类建立数据仓库,因此建立面向所有主要业务和内部管理流程、具有综合性特征的数据仓库,成为当前银行创新业务品种、提高服务质量的实际需求。数据仓库分析和决策目标众多,相关需求千变万化,数据仓库的主题面临不断增加、完善和调整,同时随着数据的不断加载,数据仓库会越来越庞大。如果仅仅基于单一层次建立数据仓库,将使系统的性能低下,因此,在实际应用中应建立分层的数据仓库体系化结构。根据管理层次的需求,数据仓库体系化结构环境可分为三个层级:基础层级、部门层级和高级管理层级的数据仓库。 基础层级数据仓库中存放的是一些细节性的操作型数据,服务于高性能的偏向事务类的分析和全行统计类的分析。部门层级数据仓库中一般仅包括某类业务的全部导出数据,用于部门决策类分析。而高级管理层级的数据仓库的数据都是综合粒度的,用于银行高管人员启发式分析。数据仓库的体系化结构环境能较好地与银行的“高-中-低”形式的组织结构相对应。如普通OLAP分析人员主要应用基础层级数据仓库,进行日常业务分析处理和统计;中层管理主要应用部门层级数据仓库,它既包括一般业务处理,又可进行定量分析,做出一般决策和控制;高层管理应用高级管理层级数据仓库,主要任务是进行战略决策,需要进行复杂的分析加工。 由于当前各个厂商提供的数据仓库解决方案从系统架构到具体硬件软件功能划分都或多或少的存在差异,所以相对应的在数据仓库项目的分析、开发和实施过程中遵从的方法论也不尽相同。建立银行数据仓库是一项系统工程,需要组织各方面的资源,协调各方面的关系。可扩展数据仓库建设方法论的三个阶段主要包括:统一规划,设计和实施,评估和提高三个阶段,如下图所示。

数据仓库与数据挖掘技术复习资料

数据仓库与数据挖掘技术复习资料 一、单项选择题 1.数据挖掘技术包括三个主要的部分( C ) A.数据、模型、技术 B.算法、技术、领域知识 C.数据、建模能力、算法与技术 D.建模能力、算法与技术、领域知识 2.关于基本数据的元数据是指: ( D ) A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息; B.基本元数据包括与企业相关的管理方面的数据和信息; C.基本元数据包括日志文件和简历执行处理的时序调度信息; D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。 3.关于OLAP和OLTP的说法,下列不正确的是: ( A) A.OLAP事务量大,但事务内容比较简单且重复率高 B.OLAP的最终数据来源与OLTP不一样 C.OLTP面对的是决策人员和高层管理人员 D.OLTP以应用为核心,是应用驱动的 4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C ) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘5.下面哪种不属于数据预处理的方法? ( D ) A.变量代换 B.离散化 C. 聚集 D. 估计遗漏值 6.在ID3 算法中信息增益是指( D ) A.信息的溢出程度 B.信息的增加效益 C.熵增加的程度最大 D.熵减少的程度最大 7.以下哪个算法是基于规则的分类器 ( A ) A. C4.5 B. KNN C. Bayes D. ANN 8.以下哪项关于决策树的说法是错误的( C ) A.冗余属性不会对决策树的准确率造成不利的影响 B.子树可能在决策树中重复多次 C.决策树算法对于噪声的干扰非常敏感 D.寻找最佳决策树是NP完全问题 9.假设收入属性的最小与最大分别是10000和90000,现在想把当前值30000映射到区间[0,1],若采用最大-最小数据规范方法,计算结果是( A ) 页9 共页1 第 A. 0.25 B. 0.375 C.0.125 D. 0.5 10.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:( D ) A.有放回的简单随机抽样 B.无放回的简单随机抽样

建设数据仓库的八个步骤

大数据技术部 建设数据仓库的八个步骤2017年04月25日编制

建设数据仓库的八个步骤 摘要:建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题。 关键词:数据仓库元数据 建设数据仓库 建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题,从数据源中抽取哪些数据。因此数据仓库的项目小组应该由业务人员和信息部门的人员共同组成,双方需要相互沟通,协作开发数据仓库。 开发数据仓库的过程包括以下几个步骤。 1.系统分析,确定主题 建立数据仓库的第一个步骤就是通过与业务部门的充分交流,了解建立数据仓库所要解决的问题的真正含义,确定各个主题下的查询分析要求。 业务人员往往会罗列出很多想解决的问题,信息部门的人员应该对这些问题进行分类汇总,确定数据仓库所实现的业务功能。一旦确定问题以后,信息部门的人员还需要确定一下几个因素: ·操作出现的频率,即业务部门每隔多长时间做一次查询分析。 ·在系统中需要保存多久的数据,是一年、两年还是五年、十年。 ·用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。 ·用户所能接受的响应时间是多长、是几秒钟,还是几小时。 由于双方在理解上的差异,确定问题和了解问题可能是一个需要多次往复的过程,信息部门的人员可能需要做一些原型演示给业务部门的人员看,以最终确定系统将要实现的功能确实是业务部门所需要的。

2.选择满足数据仓库系统要求的软件平台 在数据仓库所要解决的问题确定后,第二个步骤就是选择合适的软件平台,包括数据库、建模工具、分析工具等。这里有许多因素要考虑,如系统对数据量、响应时间、分析功能的要求等,以下是一些公认的选择标准: ·厂商的背景和支持能力,能否提供全方位的技术支持和咨询服务。 ·数据库对大数据量(TB级)的支持能力。 ·数据库是否支持并行操作。 ·能否提供数据仓库的建模工具,是否支持对元数据的管理。 ·能否提供支持大数据量的数据加载、转换、传输工具(ETT)。 ·能否提供完整的决策支持工具集,满足数据仓库中各类用户的需要。 3.建立数据仓库的逻辑模型 具体步骤如下: (1)确定建立数据仓库逻辑模型的基本方法。 (2)基于主题视图,把主题视图中的数据定义转到逻辑数据模型中。 (3)识别主题之间的关系。 (4)分解多对多的关系。 (5)用范式理论检验逻辑数据模型。

相关主题
文本预览
相关文档 最新文档