当前位置:文档之家› 银行数据仓库系统功能概述

银行数据仓库系统功能概述

银行数据仓库系统功能概述
银行数据仓库系统功能概述

商业银行数据仓库

系统功能规格

版本:1.0

(初稿)

目录

1.概述 (4)

1.1. 系统介绍 (4)

1.2. 系统架构 (4)

1.3. 体系结构 (5)

1.4. 数据仓库管理系统(DWMS) (6)

1.4.1. 数据采集模块 (6)

1.4.2. 数据转换模块 (6)

1.4.3. 增量计算模块 (6)

1.4.4. 调度模块 (6)

1.4.5. 配置模块 (6)

1.5. OLAP逻辑模型 (7)

1.5.1. 分析角度 (7)

1.5.1.1. 公共维 (7)

1.5.2. 分析主题 (8)

1.6. 银行业数据仓库E-R模型(Data Model) (10)

1.6.1.贷款客户分析(Data Model) (10)

1.6.2. 存款客户分析(Data Model) (11)

1.6.3. 内部账号分析(Data Model) (12)

1.6.4. 业务及流动性分析(Data Model) (13)

1.6.5. 资产负债财务分析(Data Model) (14)

1.6.6. 风险控制分析(Data Model) (15)

1.6.7. 现金配钞分析(Data Model) (16)

1.7. 例外处理 (16)

1.8. 准确性 (16)

1.9. 性能 (17)

1.10. 数据容量 (17)

1.11. 备份/恢复 (17)

1.12. 运行环境 (17)

1.12.1.数据仓库平台 (17)

1.12.2.数据仓库硬件平台 (17)

1.12.3.控制台平台 (17)

1.13. 安全性 (18)

2.报表系统 (18)

2.1. 业务分析 (18)

2.2. 财务分析报表系统 (18)

2.2.1. 资产业务分析(月) (18)

2.2.1.1. 资产规模增长情况分析 (19)

2.2.1.2. 资产增量变化情况分析 (19)

2.2.1.3. 资产结构变化情况分析 (19)

2.2.1.4. 贷款资产专项统计 (20)

2.2.2. 负债业务分析 (20)

2.2.2.1. 负债规模增长情况分析表 (20)

2.2.2.2. 负债增量变动情况分析表 (20)

2.2.2.3. 负债结构变化情况分析表 (21)

2.2.2.4. 存款负债专项统计 (21)

2.2.3. 所有者权益分析 (21)

2.2.3.1. 所有者权益增长情况分析 (21)

2.2.3.2. 所有者权益增量变动情况分析 (22)

2.2.3.3. 所有者权益结构变化情况分析 (22)

2.2.4. 财务收支分析 (22)

2.2.4.1. 收支规模增长情况分析 (22)

2.2.4.2. 收支增量变动情况分析 (22)

2.2.4.3. 当期收支情况分析 (23)

2.2.4.4. 财务收支结构变动情况分析 (23)

2.2.4.5. 财务收支计划完成情况分析 (23)

2.2.5. 财务比率分析 (24)

2.2.5.1. 各项财务比率分析表 (24)

2.3. 资金计划业务需求 (25)

2.3.1. 资金头寸统计 (25)

2.3.2. 资金负债管理指标 (25)

2.3.3. 现金管理 (25)

2.3.3.1. 结算备付金统计 (25)

2.3.3.2. 库存现金统计 (26)

2.3.3.2.1. 即时余额统计 (26)

2.3.3.2.2. 日均余额统计 (26)

2.3.3.3. 业务量统计 (26)

2.3.4. 票据贴现业务统计 (26)

2.4. 综合统计分析 (27)

2.4.1. 存款统计 (27)

2.4.1.1. 存款结构统计 (27)

2.4.1.1.1. 日均存款统计 (27)

2.4.1.1.2. 存款即时余额统计 (27)

2.4.1.1.3. 储蓄业务统计 (27)

2.4.1.2. 存款明细统计 (28)

2.4.2. 贷款统计 (28)

2.4.2.1. 贷款结构统计 (28)

2.4.2.1.1. 贷款日均统计 (28)

2.4.2.1.2. 贷款即时余额统计 (28)

2.4.2.2. 贷款明细统计 (29)

2.4.3. 业务量统计 (29)

2.4.3.1. 会计综合业务量统计 (29)

2.4.3.2. 现金收付量统计 (29)

2.5. 安全性 (30)

2.5.1. 安全控制逻辑 (30)

3.客户经理服务系统(ASS) (30)

3.1. 总体分析 (30)

3.1.1. 分析角度 (30)

3.1.2. 分析指标 (30)

3.2. 安全性 (30)

4.附录 (31)

4.1. 定义 (31)

4.2. 资金头寸项目说明和计算公式 (31)

4.3. 资金负债管理指标 (32)

4.4. 术语说明 (34)

4.4.1. Data warehouse (34)

4.4.2. Data mart (34)

4.4.3. OLAP (34)

4.4.4. ROLAP (35)

4.4.5. MOLAP (35)

4.4.6. Client OLAP (35)

4.4.7. DSS (35)

4.4.8. ETL (35)

4.4.9. Ad hoc query (36)

4.4.10. EIS (36)

4.4.11. BPR (36)

4.4.12. BI (36)

4.4.13. Data mining (36)

4.4.14. CRM (36)

4.4.15. Meta Data (36)

1.概述

1.1. 系统介绍

**商业银行数据仓库项目以OLAP(在线分析处理)为主要技术技术,由业务数

据采集、清洗,转换,加载、OLAP处理等步骤组成。处理数据涵盖银行内部方方面面的数据信息。通过对数据的重组、分类和关联,将银行内部分散的数据信息组织成一个高效实用的数据仓库,并且用第三方OLAP前端和报表工具,提供了方便快捷的查询,发布。

1.2. 系统架构

1.3. 体系结构

Essbase/关系DBMS/其它数据存取组件……

……

(系统体系结构)

1.4. 数据仓库管理系统(DWMS)

1、负责数据采集参数的配置,如:采集的数据源,采集的时点等;

2、负责数据的采集,转换,加载及OLAP处理任务的调度;

3、负责数据转换过程中转换参数的配置,如数据字典的定义,对应关系的设置等;

4、负责报表查询的参数的定义,如报表格式,查询组合的定义;

DWMS包括以下几个模块

1.4.1.数据采集模块

负责从银行的业务系统中采集建设数据仓库所需要的源数据。由于银行数据的安全性,在本系统设计过程中,采用NA SERVER用CGS中间件采集成文本文件。

1.4.

2.数据转换模块

数据仓库中的数据来源于联机事务处理系统(OLTP),这些系统由于建立时间不同,系统选型不同,开发人员不同等原因,使得各个业务系统的硬件环境和软件环境各不相同,数据结构不统一,要将这些系统中的有用数据提取出来,进行净化、整理、综合、概括,去掉没用的数据项,转换成统一格式加载到数据仓库中。数据转换模块负责将源数据经过清洗,整理,转换,编码后加载到数据仓库中。

1.4.3.增量计算模块

每天所采集的增量数据,加载到数据仓库后,处理OLAP的增量计算,加载这部分数据到OLAP数据库。

1.4.4.调度模块

负责每天数据转换(ETL)的调度

1.4.5.配置模块

各种参数的配置

1.5. OLAP逻辑模型1.5.1.分析角度

1.5.1.1. 公共维

注1:”可由用户设定”–由用户将设定类型对应到原有交易系统中一个或多个类型值。

注2:OLAP分析粒度到账号还是科目对于公共维的设计存在着差异

注3:数据仓库模型中所存储的数据的粒度将对信息系统的多方面产生影响。事实表中以各种维度的什么层次作为最细粒度,将决定存储的数据能否满足系统分析的功能需求,而粒度的层次划分、以及聚合表中粒度的选择将直接影响查询的响应时间。

1.5.

2.分析主题

1.6. 银行业数据仓库E-R模型(Data Model) 1.6.1.贷款客户分析(Data Model)

1.6.

2.存款客户分析(Data Model)

1.6.3.内部账号分析(Data Model)

1.6.4.业务及流动性分析(Data Model)

1.6.5.资产负债财务分析(Data Model)

1.6.6.风险控制分析(Data Model)

1.6.7.现金配钞分析(Data Model)

注:

1、黑点方向表示一对多关系

2、兰色实体均为实事表

3、灰色实体关系表示须保留动态变更

1.7. 例外处理

1.8. 准确性

对下面变更,系统的各项统计计算应能准确反映:

1.客户资产结构的变更

2.客户所属协款员的变更

3.客户状态变更

4.客户所属行业的变化

1.9. 性能

1、日数据处理时间

< 3Hours

2、客户端查询响应

一般查询< 15秒

3、数据即时性

每天日结以后从业务系统中抽取数据到数据仓库,所以只能查询前一交易日以前的数据。即时性的数据直接从业务数据中查询。

1.10. 数据容量

1.11. 备份/恢复

1.1

2. 运行环境

1.1

2.1.数据仓库平台

操作系统:AIX4.3

数据库系统:使用IBM DB2产品。

建模工具:ERWIN。

数据采集及转换工具:Visual Warehouse

多维数据库:DB/2 OLAP Server

前端分析工具:BRIO、MS Excel(Vba编程)。

1.1

2.2.数据仓库硬件平台

硬件平台推荐使用IBM的AS400系列产品。

1.1

2.

3.控制台平台

操作系统:WINDOWS 98,WINDOWS NT 4.X,WINDOWS2000

硬件平台:586CPU,256M以上内存,10G以上硬盘空间。

显示器分辨率:缺省支持800X600,但在其他模式下也应能显示正常

1.13. 安全性

角色

DWMS管理员数据仓库的修改、OLAP的修收

DWMS操作员运行DWMS控制程序

2.报表系统

2.1. 业务分析

业务分析的方法主要是多维分析法,根据业务决策的需要,可进行各种分析。利用多维分析的方法,可以对统计及明细记录进行分析、对比、排序,各种分析结果可以通过图表直观的反映。利用业务分析功能,可以及时、明了的掌握银行业务工作各方面的情况和进展。

DB2 OLAP服务器,提供100多种内置的财务、统计或者数学功能,可以进行复杂的趋势分析、创建比率等。同时,DB2 OLAP Server 拥有几种API 和一组可用于构建定制应用程序的ActiveX 控件。选择何种API 将取决于应用程序的复杂程度。使用Wired for OLAP(Hyperion Analyzer),可以非常快地构建一个简单的主管信息系统(EIS Executive Information System)应用程序。使用电子表格如MS Excel或Lotus 123的Add-In,可以构建相当复杂的应用程序。Essbase Objects是一组非常灵巧的ActiveX OLAP 控件,可以将其置入到Visual Basic 应用程序(可以按传统方式或通过网络部署)中。此外,还可以使用'C' API 和’Visual Basice’ API定制应用程序。

2.2. 财务分析报表系统

2.2.1.资产业务分析(月)

资产项目分类描述

资产总额资产负债表中的总资产

贷款资产122+123+124+125+126+127+128+129+130

存放央行及同行110+111+113+114+115+116+(407、408、411、412、413、

414、451、452、453、454科目借贷轧差数)

拆借及债券投资120+121+140+141+142+145

盈利资产贷款资产+存放央行及同行+拆借及债券投资+其他盈利

资产

非盈利资产资产总额- 盈利资产

2.2.1.1. 资产规模增长情况分析

多维分析表格分析角度或指标

列分析指标(日均金额、月末余额)

行资产类型项目

选择字段日期(月),分支机构

计算指标增减量:比上期(上年同期)的增减量

增减幅度:增减量/ 上期(上年同期)的实绩* 100%

增幅的差异:当期全行平均增幅

比较分析比上期,比上年同期

缺省图形风格

2.2.1.2. 资产增量变化情况分析

多维分析表格分析角度或指标

列分析指标(本期与上期比较的增量)

行资产类型项目

选择字段日期(月),分支机构

计算指标增减变化量:比上期(上年同期)的增减变化量

增减变化幅度:增减变化量/ 上期(上年同期)的实绩* 100%

增幅的差异:当期全行平均增幅

比较分析比上期,比上年同期(增减变化量,增减量变化差异)

缺省图形风格

2.2.1.

3. 资产结构变化情况分析

多维分析表格分析角度或指标

列分析指标(占比)

行资产项目类型

选择字段日期(月)

计算指标增减变化量、与全行比较差异

占比分析比上期,比上年同期

缺省图形风格

数据仓库概念的简单理解

数据仓库概念的简单理解 一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、OLAP服务器以及前端工具与应用四个部分。如下图所示: 数据源: 是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于企业操作型数据库中(通常存放在RDBMS中)的各种业务数据和办公自动化(OA)系统包含的各类文档数据。外部信息包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及各类文档等;数据的存储与管理: 是整个数据仓库系统的核心。在现有各业务系统的基础上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据(具体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。按照数据的覆盖范围,数据仓库存储可以分为企业级数据仓库和部门级数据仓库(通常称为“数据集市”,Data Mart)。数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。这些功能与目前的DBMS基本一致。 OLAP服务器: 对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多层次的分析,发现数据趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP 基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;而HOLAP是ROLAP与MOLAP的综合,基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。 前端工具与应用: 前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具既针对数据仓库,同时也针对OLAP服务器。? 集线器与车轮状结构的企业级数据仓库 ?

商业银行数据仓库系统功能概述

商业银行数据仓库 系统功能规格 版本:1.0 (初稿)

目录 1.概述 (4) 1.1.系统介绍 (4) 1.2.系统架构 (4) 1.3.体系结构 (5) 1.4.数据仓库治理系统(DWMS) (5) 1.4.1.................................. 数据采集模块 6 1.4. 2.................................. 数据转换模块 6 1.4.3.................................. 增量计算模块 6 1.4.4...................................... 调度模块 6 1.4.5...................................... 配置模块 6 1.5.O LAP逻辑模型 (7) 1.5.1...................................... 分析角度

7 1.5.1.1. ................................... 公共维 7 1.5. 2...................................... 分析主题 8 1.6.银行业数据仓库E-R模型 (Data Model) (10) 1.6.1.贷款客户分析(Data Model) (10) 1.6. 2...................... 存款客户分析(Data Model) 11 1.6.3...................... 内部账号分析(Data Model) 12 1.6.4...................业务及流淌性分析(Data Model) 13 1.6.5...................资产负债财务分析(Data Model) 14 1.6.6...................... 风险操纵分析(Data Model) 15 1.6.7...................... 现金配钞分析(Data Model) 16

数据仓库建设方案

1.数据仓库概述 经过多年IT的建设,信息对于XXX的日常管理已经日益重要,并逐渐成为重要的信息资产,信息资产的管理已经成为日常管理中一个非常重要的环节。如何管理和利用好XXX内部纷繁的数据也越来越成为信息管理的一项重要工作。 在过去相当一段时间内,XXX业务系统的构建主要围绕着业务的数据展开,应用的构建多是自下而上构建,主要以满足某个部门的业务功能为主,我们称之为业务处理的时代。这样的构建方式造成了一个个分立的应用,分立的应用导致了一个个的静态竖井。由于数据从属于应用,缺乏XXX全局的单一视图,形成了一个个信息孤岛,分立的系统之间缺乏沟通,同样数据的孤岛导致只能获得片面的信息,而不是全局的单一视图。存储这些信息的载体可能是各种异构或同构的关系型数据库,也有可能是XML、EXCEL等文件。因此,构建新一代的一体化平台提上了日程并最终促成全域数据的管理方式,目的是覆盖XXX各个环节的关键业务数据,完善元数据管理,形成全局的数据字典、业务数据规范和统一的业务指标含义,能够灵活的获取XXX业务数据的单一视图(需要保证数据的一致性、完整性、准确性和及时性)。数据的交换和共享主要发生在上下级组织机构之间或同级的不同部门之间。最终,这些数据可以为部队分析、决策支持(多维分析、即席查询、数据挖掘)等应用提供更及时、准确、有效的支持。 数据仓库的目标是实现跨系统数据共享,解决信息孤岛,提升数据质量,辅助决策分析,提供统一的数据服务。同时,数据仓库的构建也面临着各种挑战,比如信息整合在技术上的复杂度、信息整合的管理成本、数据资源的获取、信息整合的实施周期以及整合项目的风险等。

2. 全域数据库总体架构 边防一体化其他XML Excel Web 服务消息队列文本数据智能传感器 虚拟传感器摄像头全域数据库总体架构 全域数据库总体的层次,最下面是基础架构层,主要包括支撑这一架构运行的主机系统、存储备份系统、网络系统等内容。从下往上看,再上面是数据源层,既包括各个业务的关系型数据源、内容管理数据源也包括半结构化数据源比如XML 、EXCEL 等,也包括各个总队、支队的业务数据源。 数据源层之上是“交换服务体系”,主要包括信息服务总线和服务总线两部分。信息服务总线主要实现数据层的信息整合和数据转换,而服务总线主要实现应用层的信息交换和整合。信息服务总线主要依托联邦、复制、清洗、转换等技术实现,其主要包括信息整合服务和清洗转换加载服务两部分。通过信息服务总线的信息整合服务(数据联邦、复制),可以透明、实时的访问分布在总队和支队的各个业务系统中的

商业银行数据仓库报表设计分析

**商业银行数据仓库 报表设计 版本:1.0 4/18/2020

目录 1.报表系统 (3) 1.1. 业务分析 (3) 1.2. 财务分析报表系统 (3) 1.2.1.资产业务分析(月) (3) 1.2.1.1. 资产规模增长情况分析 (4) 1.2.1.2. 资产增量变化情况分析 (4) 1.2.1.3. 资产结构变化情况分析 (4) 1.2.1.4. 贷款资产专项统计 (5) 1.2.2.负债业务分析 (5) 1.2.2.1. 负债规模增长情况分析表 (5) 1.2.2.2. 负债增量变动情况分析表 (5) 1.2.2.3. 负债结构变化情况分析表 (6) 1.2.2.4. 存款负债专项统计 (6) 1.2.3.所有者权益分析 (6) 1.2.3.1. 所有者权益增长情况分析 (6) 1.2.3.2. 所有者权益增量变动情况分析 (7) 1.2.3.3. 所有者权益结构变化情况分析 (7) 1.2.4.财务收支分析 (7) 1.2.4.1. 收支规模增长情况分析 (7) 1.2.4.2. 收支增量变动情况分析 (8) 1.2.4.3. 当期收支情况分析 (8) 1.2.4.4. 财务收支结构变动情况分析 (8) 1.2.4.5. 财务收支计划完成情况分析 (8) 1.2.5.财务比率分析 (9) 1.2.5.1. 各项财务比率分析表 (9) 1.3. 资金计划业务需求 (10) 1.3.1.资金头寸统计 (10) 1.3.2.资金负债管理指标 (10) 1.3.3.现金管理 (10) 1.3.3.1. 结算备付金统计 (10) 1.3.3.2. 库存现金统计 (11) 1.3.3.2.1. 即时余额统计 (11) 1.3.3.2.2. 日均余额统计 (11) 1.3.3.3. 业务量统计 (11) 1.3.4.票据贴现业务统计 (12) 1.4. 综合统计分析 (12) 1.4.1.存款统计 (12) 1.4.1.1. 存款结构统计 (12) 1.4.1.1.1. 日均存款统计 (12) 1.4.1.1.2. 存款即时余额统计 (12)

数据仓库的粗略发展历程

数据仓库的粗略发展历程及相关概念 1.1 概述 数据仓库的概念可能比一般人想像的都要早一些,中间也经历比较曲折的过程。其最初的目标是为了实现全企业的集成(Enterprise Integration),但是在发展过程中却退而求其次:建立战术性的数据集市(Data Marts)。到目前为止,还有很多分歧、论争,很多概念模棱两可甚至是彻底的让人迷惑。本文试图从数据仓库的发展历史中看到一些发展的脉络,了解数据仓库应该是怎么样的,并展望一下未来的数据仓库发展方向。 同时,由于新应用的不断出现,出现了很多新的概念和新的应用,这些新的应用如何统一现成完整的企业BI应用方案还存在很多争论。本文试图对这些概念做一些简要的阐述,让大家对此有初步的了解。 1.2 粗略发展过程 1.2.1 开始阶段(1978-1988) 数据仓库最早的概念可以追溯到20世纪70年代MIT的一项研究,该研究致力于开发一种优化的技术架构并提出这些架构的指导性意见。第一次,MIT的研究员将业务系统和分析系统分开,将业务处理和分析处理分成不同的层次,并采用单独的数据存储和完全不同的设计准则。 同时,MIT的研究成果与80年代提出的信息中心(Information Center)相吻合:即把那些新出现的、不可以预测的、但是大量存在的分析型的负载从业务处理系统中剥离出来。但是限于当时的信息处理和数据存储能力,该研究只是确立了一个论点:这两种信息处理的方式差别如此之大,以至于它们只能采用完全不同的架构和设计方法。 之后,在80年代中后期,作为当时技术最先进的公司,DEC已经开始采用分布式网络架构来

支持其业务应用,并且DEC公司首先将业务系统移植到其自身的RDBMS产品:RdB。并且,DEC公司从工程部、销售部、财务部以及信息技术部抽调了不同的人员组建了新的小组,不仅研究新的分析系统架构,并要求将其应用到其全球的财务系统中。该小组结合MIT的研究结论,建立了TA2(T echnical Architecture 2)规范,该规范定义了分析系统的四个组成部分: ?数据获取 ?数据访问 ?目录 ?用户服务 其中的数据获取和数据访问目前大家都很清楚,而目录服务是用于帮助用户在网络中找到他们想要的信息,类似于业务元数据管理;用户服务用以支持对数据的直接交互,包含了其他服务的所有人机交互界面,这是系统架构的一个非常大的转变,第一次将交互界面作为单独的组件提出来。 1.2.2 全企业集成(Enterprise Intergration,1988) 同时,IBM也在处理信息管理不同方面的问题,其最烦人的问题是不断增加的信息孤岛,IBM 的很多客户要面对很多分立系统的数据集成问题,而这些系统有不同的编码方式和数据格式。1988年,为解决全企业集成问题,IBM爱尔兰公司的Barry Devlin 和Paul Murphy第一次提出了“信息仓库(Information Warehouse)”的概念,将其定义为:“一个结构化的环境,能支持最终用户管理其全部的业务,并支持信息技术部门保证数据质量”,并在1991年在DEC TA 2的基础上把信息仓库的概念包含进去,并称之为VITAL规范(virtually integrated technical architecture life cycle),将PC、图形化界面、面向对象的组件以及局域网都包含在VITAL 里,并定义了85种信息仓库的组件,包括数据抽取、转换、有效性验证、加载、Cube开发和图形化查询工具等。但是IBM只是将这种领先的概念用于市场宣传,而没有付诸实际的架构设计。这是IBM有一个领域上创新后停止不前导致丧失其领先地位。 因此,在90年代初期,数据仓库的基本原理、框架架构,以及分析系统的主要原则都已经确定,

如何构建银行数据仓库

如何构建银行数据仓库 数据仓库技术作为一项数据管理领域的新技术,其精髓在于针对联机分析处理(OLAP)提出了一种综合的解决方案,与以往很多技术不同的是,它主要是一种概念,在此概念指导下完成系统的构造。既没有可以直接购买到的现成产品,也没有具体的分析规X和实现方法,也就是说没有成熟、可靠且被广泛接受的数据仓库标准。在以往关系数据库的设计和实现中,不仅有详细的理论推导,还有无数的设计实例,无论你使用的是什么公司的数据库产品、开发工具,只要按照规X做,那么实现同一业务需求的方案都会很相似。而现有数据仓库的实现中,出现了MOLAP 方案和ROLAP方案的区别,出现了形形色色的数据仓库建模工具、表现工具,而设计人员的个人经验和素质也会在其中扮演很重要的角色。 数据仓库技术的实现方式 目前在数据仓库技术的实际应用中主要包括如下几种具体实现方式。 1、在关系数据库上建立数据仓库(ROLAP) 2、在多维数据库上建立数据仓库(MOLAP) MOLAP方案是以多维方式来组织数据,以多维方式来存储数据;ROLAP

方案则以二维关系表为核心表达多维概念,通过将多维结构划分为两类表:维表和事实表,使关系型结构能较好地适应多维数据的表示和存储。在多维数据模型的表达方面,多维矩阵比关系表更清晰且占用的存储更少,而通过关系表间的连接来查询数据的ROLAP系统,系统性能成为最大问题。MOLAP方案比ROLAP方案要简明,索引及数据聚合可以自动进行并自动管理,但同时丧失了一定的灵活性。ROLAP方案的实现较为复杂,但灵活性较好,用户可以动态定义统计和计算方式,另外能保护在已有关系数据库上的投资。 由于两种方案各有优劣,因此在实际应用中,往往将MOLAP和ROLAP 结合使用,即所谓的混合模型。利用关系数据库存储历史数据、细节数据或非数值型数据,发挥关系数据库技术成熟的优势,减少花费,而在多维数据库中存储当前数据和常用统计数据,以提高操作性能。 3、在原有关系库上建立逻辑上的数据仓库 由于目前正在运行的OLTP系统中已经积累了海量数据,如何从中提取出决策所需的有用信息就成为用户最迫切的需要。新建数据仓库固然能从功能、性能各方面给出一个完整的解决方案,但需要投入大量的人力、物力,并且数据仓库的建设和分析数据的积累需要一段时间,无法及时满足用户对信息分析的迫切需要。因此在筹建数据仓库的前期,可以采用一些合适的表现工具,在原有OLTP系统上建立起一个逻辑的数据仓库系统。尽管由于原有OLTP系统设计上的局限性,这样的系统可

《数据仓库与数据挖掘技术》第1章:数据仓库与数据挖掘概述

数据仓库与数据挖掘技术

第1章数据仓库与数据挖掘概述1.1数据仓库引论1 1.1.1为什么要建立数据仓库1 1.1.2什么是数据仓库2 1.1.3数据仓库的特点7 1.1.4数据进入数据仓库的基本过程与建立数据仓库的步骤11 1.1.5分析数据仓库的内容12 1.2数据挖掘引论13 1.2.1为什么要进行数据挖掘13 1.2.2什么是数据挖掘18 1.2.3数据挖掘的特点21 1.2.4数据挖掘的基本过程与步骤22 1.2.5分析数据挖掘的内容26 1.3数据挖掘与数据仓库的关系28 1.4数据仓库与数据挖掘的应用31 1.4.1数据挖掘在零售业的应用31 1.4.2数据挖掘技术在商业银行中的应用36 1.4.3数据挖掘在电信部门的应用40 1.4.4数据挖掘在贝斯出口公司的应用42 1.4.5数据挖掘如何预测信用卡欺诈42 1.4.6数据挖掘在证券行业的应用43 思考练习题一44

1.1.1为什么要建立数据仓库 数据仓库的作用 建立数据仓库的好处

1.1.2 什么是数据仓库 1.数据仓库的概念 W.H.Inmon在《Building the Data Warehouse》中定义数据仓库为:“数据仓库是面向主题的、集成的、随时间变化的、历史的、稳定的、支持决策制定过程的数据集合。”即数据仓库是在管理人员决策中的面向主题的、集成的、非易失的并且随时间而变化的数据集合。 “DW是作为DSS基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需的信息。” “DW是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的。即与企业定义的时间区段相关,面向主题且不可更新的数据集合。” 数据仓库是一种来源于各种渠道的单一的、完整的、稳定的数据存储。这种数据存储提供给可以允许最终用户的可以是一种他们能够在其业务范畴中理解并使用的方式。 数据仓库是大量有关公司数据的数据存储。 仓库提供公司数据以及组织数据的访问功能,其中的数据是一致的(consistent),并且可以按每种可能的商业度量方式分解和组合;数据仓库也是一套查询、分析和呈现信息的工具;数据仓库 是我们发布所用数据的场所,其中数据的质量是业务再工程的驱动器(driver of business reengineering)。 定义的共同特征:首先,数据仓库包含大量数据,其中一些数据来源于组织中的操作数据,也有一些数据可能来自于组织外部;其次,组织数据仓库是为了更加便利地使用数据进行决策;最 后,数据仓库为最终用户提供了可用来存取数据的工具。

数据仓库建设方案84099

1. 数据仓库概述 经过多年IT的建设,信息对于XXX的日常管理已经日益重要,并逐渐成为重要的信息资产,信息资产的管理已经成为日常管理中一个非常重要的环节。如何管理和利用好XXX内部纷繁的数据也越来越成为信息管理的一项重要工作。 在过去相当一段时间内,XXX业务系统的构建主要围绕着业务的数据展开,应用的构建多是自下而上构建,主要以满足某个部门的业务功能为主,我们称之为业务处理的时代。这样的构建方式造成了一个个分立的应用,分立的应用导致了一个个的静态竖井。由于数据从属于应用,缺乏XXX全局的单一视图,形成了一个个信息孤岛,分立的系统之间缺乏沟通,同样数据的孤岛导致只能获得片面的信息,而不是全局的单一视图。存储这些信息的载体可能是各种异构或同构的关系型数据库,也有可能是XML、EXCEL等文件。因此,构建新一代的一体化平台提上了日程并最终促成全域数据的管理方式,目的是覆盖XXX各个环节的关键业务数据,完善元数据管理,形成全局的数据字典、业务数据规范和统一的业务指标含义,能够灵活的获取XXX业务数据的单一视图(需要保证数据的一致性、完整性、准确性和及时性)。数据的交换和共享主要发生在上下级组织机构之间或同级的不同部门之间。最终,这些数据可以为部队分析、决策支持(多维分析、即席查询、数据挖掘)等应用提供更及时、准确、有效的支持。 数据仓库的目标是实现跨系统数据共享,解决信息孤岛,提升数据质量,辅助决策分析,提供统一的数据服务。同时,数据仓库的构建也面临着各种挑战,比如信息整合在技术上的复杂度、信息整合的管理成本、数据资源的获取、信息整合的实施周期以及整合项目的风险等。

2. 全域数据库总体架构 核心业务边防一体化其他XML Excel Web 服务消息队列文本数据智能传感器 虚拟传感器摄像头全域数据库总体架构 全域数据库总体的层次,最下面是基础架构层,主要包括支撑这一架构运行的主机系统、存储备份系统、网络系统等内容。从下往上看,再上面是数据源层,既包括各个业务的关系型数据源、内容管理数据源也包括半结构化数据源比如XML 、EXCEL 等,也包括各个总队、支队的业务数据源。 数据源层之上是“交换服务体系”,主要包括信息服务总线和服务总线两部分。信息服务总线主要实现数据层的信息整合和数据转换,而服务总线主要实现应用层的信息交换和整合。信息服务总线主要依托联邦、复制、清洗、转换等技术实现,其主要包括信息整合服务和清洗转换加载服务两部分。通过信息服务总线的信息整合服务(数据联邦、复制),可以透明、实时的访问分布在总队和支队的各个业务系统中的各种同构、异构数据(前提是拥有足够的权限)。信息整合服务在整个XXX 层面保证

银行信用卡数据仓库建设

银行信用卡数据仓库建设 一、需求分析 银行建立数据仓库的必要性。中国的银行业在发展过程中,已逐步实现了绝大多数核心业务的计算机处理,积累了大量的客户数据和经营数据,这些数据是银行的宝贵财富,如何利用这些数据,发掘有价值的信息,解决问题的关键是建立银行企业级的数据仓库,实现对银行所有经营信息和客户信息的有效存储,并针对银行不同部门的管理决策需要,进行多层次的数据加工处理,以多种方式呈现真正有价值的信息(例如,维度,商业需求用户数量等),满足银行管理决策和客户分析的需要。 由此可以看出,整合数据建立一个全银行统一的数据中心,对于银行来说是非常重要的。通过数据仓库技术,将x银行全国各地的数据整合,并对数据进行一系列的抽取、加工、清洗、加载,使得数据能够有很高的利用价值。通过智能化的报表加工工具Cognos来快速的生成多种多样的报表,从不同的维度来展现数据。这些报表对于管理层来说数据更准确、更有价值,而且还可以根据上级的不同需求来随时生成想要看到的报表。这些对于银行发展新的客户、改善与老客户的关系、提高市场竞争力和占有率是非常重要和迫切的。 二.维度分析 1)卡量分析 2)客户量分析

3)账户分析 通过对卡量、客户量和账户量分析指标的业务定义的分析,卡信息汇总表选取的入仓字段有卡号、开卡日期、激活日期、销卡日期、销卡日期、到期日、发卡机构。 通过对卡量、客户量和账户量分析指标的业务定义的分析,选取的入仓字段有机构代码、性别代码、客户号。 通过对卡量、客户量和账户量分析指标的业务定义的分析,选取的账号信息汇总表的入仓字段有账号、销户日期、账户状态、开户日期、销户日期、账户余额、逾期状态。 三、所用到的技术简单概述 1)ETL概述 E是Extraction的简写,表示数据的抽取;T是Transformation的简写,表示数据的转换;L是Loading的简写,表示数据的加载。ETL是数据抽取(Extraction)、转换(Transformation)、加载(Loading)的过程。 抽取(Extraction),在数据仓库系统的建设中是对数据的操作,就是将数据从 各种原始的业务系统中读取出来,这是要建立数据仓库系统的所有工作的前提。

国内某大型银行数据仓库系统招标书

数据仓库系统招标文件 二OO九年七月

目录 第一部分投标人须知..................................................... ... 招标人信息系统概况 .................................................. 总体说明............................................................ 适用范围 ........................................................ 招标人资料 ...................................................... 招标文件的解释权................................................ 投标文件的编写...................................................... 投标人基本条件 .................................................. 投标文件的组成 .................................................. 投标保证金 ...................................................... 投标报价 ........................................................ 投标文件的规定 .................................................. 递交投标文件的截止日期.......................................... 投标文件的修改和撤回............................................ 评标及中标通知...................................................... 保密事项............................................................ 第二部分招标项目要求………………………………………………………………………… 招标内容............................................................ 系统建设的总体原则 .................................................. 项目要求............................................................ 系统建设总体目标................................................ 数据仓库平台技术要求 (11) 系统一期建设需求 (12) 系统一期建设时间要求 (14) 系统建设方案要求……………………………………………………………… 系统技术方案要求..................................................... 数据仓库产品选型方案要求 (16) 系统硬件、软件及网络架构方案要求 (17) 系统实施方案要求 (17) 售后服务方案要求 (18) 系统安装、调试和验收 ................................................

银行数据仓库构建的方法论

银行数据仓库构建的方法论 中国农业发展银行李小庆 (专注、专业、专长。作者为金融信息化专家,管理学博士) 银行数据仓库是用于决策支持的、面向主题的、集成的、稳定的和随时间变化的数据集合,它的目标是辅助决策,因此其历史的、概括的数据比详细的、个别的记录更重要。由于数据仓库中的数据是集成化的数据,它可能来自多个(异种)操作数据库,可能跨越较长的时间周期,它比操作数据库大几个数量级。一般而言,企业级的数据仓库其数据量可达几TB至几十TB之间,工作负荷主要是查询和分析。通常,复杂的查询可以访问几百万条记录,执行许多的扫描、连接和聚合操作,在这里查询吞吐量和响应时间比事务吞吐量更重要。 目前,各家银行已就相关业务建立了数据仓库,并初步取得了应用效果。但是,当前数据仓库都是根据具体业务分类进行建设,只能实现业务范围内的单目标决策,为了实现综合目标决策支持,就需要将不同类型数据仓库中的数据再次集成起来,并对其进行存储、管理和维护。因此,本文提出银行数据仓库的概念,通过建立全行综合性的数据仓库,采用分析软件或挖掘工具进行分析和挖掘,实施多目标决策。也就是说综合银行现有的货币经营数据仓库、信贷业务数据仓库、银行卡数据仓库、人事数据仓库等数据仓库的进行再次整合,建立一个面向主题的、集成的、综合的和持久的数据集合,在此基础上进行多维分析和数据挖掘,为银行的业务进行综合分析和战略决策提供有力的数据平台。 一、数据仓库模型和创建过程描述 尽管数据仓库是面向主题的,并为分析需求保存了许多综合数据,但对各类银行业务分类建立数据仓库,因此建立面向所有主要业务和内部管理流程、具有综合性特征的数据仓库,成为当前银行创新业务品种、提高服务质量的实际需求。数据仓库分析和决策目标众多,相关需求千变万化,数据仓库的主题面临不断增加、完善和调整,同时随着数据的不断加载,数据仓库会越来越庞大。如果仅仅基于单一层次建立数据仓库,将使系统的性能低下,因此,在实际应用中应建立分层的数据仓库体系化结构。根据管理层次的需求,数据仓库体系化结构环境可分为三个层级:基础层级、部门层级和高级管理层级的数据仓库。 基础层级数据仓库中存放的是一些细节性的操作型数据,服务于高性能的偏向事务类的分析和全行统计类的分析。部门层级数据仓库中一般仅包括某类业务的全部导出数据,用于部门决策类分析。而高级管理层级的数据仓库的数据都是综合粒度的,用于银行高管人员启发式分析。数据仓库的体系化结构环境能较好地与银行的“高-中-低”形式的组织结构相对应。如普通OLAP分析人员主要应用基础层级数据仓库,进行日常业务分析处理和统计;中层管理主要应用部门层级数据仓库,它既包括一般业务处理,又可进行定量分析,做出一般决策和控制;高层管理应用高级管理层级数据仓库,主要任务是进行战略决策,需要进行复杂的分析加工。 由于当前各个厂商提供的数据仓库解决方案从系统架构到具体硬件软件功能划分都或多或少的存在差异,所以相对应的在数据仓库项目的分析、开发和实施过程中遵从的方法论也不尽相同。建立银行数据仓库是一项系统工程,需要组织各方面的资源,协调各方面的关系。可扩展数据仓库建设方法论的三个阶段主要包括:统一规划,设计和实施,评估和提高三个阶段,如下图所示。

数据仓库的概念

一、数据仓库的概念及使用情况介绍 1996年, Inmon 在他的专著《Building the Data Warehouse》中, 对数据仓库做了如下定义,即“面向主题的、完整的、非易失的、不同时间的、用于支持决策的数据集合”。这和传统的OLTP系统有很大的区别,它属在线分析(OLAP)系统的范畴。面向主题的,指的是它将依据一定的主题,比如经销商、产品、定单等汇总各个OLTP系统的数据。完整的, 指的是要求对各个系统数据表示进行转换,用统一编码表示,比如,A系统用001表示退货, 而B系统用999表示退货,在数据仓库中必须统一成一个编码。非易失的, 指的是系统用户只读数据,不得修改数据。数据仓库完整地记录了各个历史时期的数据,而OLTP系统不会保留全部的历史记录。OLTP系统也难以支持决策查询,例如从几千万笔记录中获取不同区域的汇总报表。 完整的数据仓库应包括: 1.数据源-> 2.ETL -> 3.数据仓库存储-> 4.OLAP -> 5.BI工具 现实中可以实现的方案有: 1.数据源-> BI工具 2.数据源-> OLAP -> BI工具 3.数据源-> 数据仓库存储-> BI工具 4.数据源-> 数据仓库存储-> OLAP -> BI工具 5.数据源-> ETL -> 数据仓库存储-> OLAP -> BI工具 可见其中必需的是数据源和前端,其他的部分都可根据具体情况决定取舍。 建立数据仓库的步骤: 1) 收集和分析业务需求 2) 建立数据模型和数据仓库的物理设计 3) 定义数据源 4) 选择数据仓库技术和平台 5) 从操作型数据库中抽取、净化、和转换数据到数据仓库 6) 选择访问和报表工具 7) 选择数据库连接软件 8) 选择数据分析和数据展示软件 9) 更新数据仓库 数据仓库设计的主要步骤如下: 1. 系统主题的确定 这要求系统设计人员多与业务人员沟通, 详细了解业务需求、报表需求,再归纳成数据仓库的主题。例如, 经销商主题,包含经销商各个历史时期的级别、销售额、信贷、活动区域等。产品主题,包含每个产品在各个历史时期、各个区域的销售额、促销力度、销售件数、产品类别等。 2. 数据库的逻辑设计 在确定主题后, 需要对主题包含的信息进行详细定义,并对事实表和维表的关系详细定义。比如, 经销商主题中的销售额, 定义为几个字段:NetSales (净销售额),表示扣除了一切优惠折扣,数据类型为Number(12,3); CusSales, 表示产品目录价的销售额, 数据类型为Number(12,3); TitleCode, 表示级别, 如101表示全国一级代理, 202表示省二级代理,数据类型为V arChar2(3)等。 3. 数据库的物理设计 物理设计主要考虑数据的存储方式, 使得系统有较好的性能。对于记录庞大的事实表,

数据仓库复习题

第一章概述 1.数据挖掘的定义(书P2,PPT_P8) 从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 2.数据挖掘的源是否必须是数据仓库的数据可以有哪些来源(PPT_P14) 关系数据库、数据仓库、事务数据库、高级数据等 3.数据挖掘的常用方法(P4、PPT_P29) 聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统计分析等 4.数据挖掘的过程包括哪些步骤,每一步具体包括哪些内容(书P2-3,PPT_P17-19) 确定业务对象、数据准备、数据挖掘、结果分析与知识同化。 5.数据挖掘与数据仓库的关系(联系和区别)书P6-7,PPT_P45-46 联系:1,数据仓库为数据挖掘提供了更好的,更广泛的数据源 2,数据仓库韦数据挖掘提供了新的支持平台。 3,数据仓库为更好地使用数据挖掘工具提供了方便 4,数据挖掘对数据仓库提供了更好的决策支持。 5,数据挖掘对数据仓库的数据组织提出了更高的要求 6,数据挖掘还为数据仓库提供了广泛的技术支持 区别:数据仓库是一种存储技术,它包含大量的历史数据、当前的详细数据以及综合数据,它能为不同用户的不同决策需要提供所需的数据和信息。~~数据挖掘是从人工智能机器学习中发展起来的,它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。 第二章数据仓库 1.数据仓库的定义 数据仓库——是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策定制过程。 2.数据仓库数据的四大基本特征: 面向主题的、集成的、不可更新的、随时间变化的。 3.数据仓库体系结构有三个独立的数据层次: 信息获取层、信息存储层、信息传递层。 4.粒度的定义它对数据仓库有什么影响 (1)是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多。 (2)影响存放在数据仓库中的数据量大小;影响数据仓库所能回答查询问题的细节程度。 5.在数据仓库中,数据按照粒度从小到大可分为四个级别: 早期细节级、当前细节级、轻度细节级和高度细节级。 6.数据分割的标准:可按日期、地域、业务领域、或按多个分割标准的组合,但一般包括日期项。 7.数据仓库设计中,一般存在着三级数据模型: 概念数据模型、逻辑数据模型、物理数据模型 8.数据仓库设计步骤 (1)概念模型设计 (2)技术准备工作 (3)逻辑模型设计 (4)物理模型设计 (5)数据仓库的生成

数据仓-数据仓库在招商银行的实施步骤 精品

数据仓库在招商银行的实施步骤 业务系统介绍 随着国家金融体制改革的不断深入和完善,金融业务处理能力不断扩展,大量新的服务手段不断应用,使得金融部门需处理的业务种类和业务量都远远超过了以前任何时候。招商银行是国内重要的商业银行,开办了各种币种的存取、自动转存、通存通兑、自动提款、代发代扣、购物消费、贷款融资、手机交费等多种业务,并提供"一卡通"、24小时自助银行、网上支付、电话银行、证券转款等高水平的金融服务。 招商银行的业务具有数据海量化的特点。招行自成立以来,由于业务种类多,客户量大,长期以来,不仅积累了大量重要的业务数据,而且随着业务的扩展和客户量的猛增,这些数据每天都在以惊人的速度增长,将业务数据加工整理成有价值的信息并对这些信息进行快速综合处理分析的需求不断增长。同时招行需要做到各个地域、各个时期的业务信息能够有机、有序联系,以保证信息的高可用性。基于这方面考虑,招行决定采用数据仓库系统来满足业务需求。 在综合对比多家数据库厂商的产品之后,招行选择了业界著名厂商Sybase 的数据仓库系统。Sybase是关系数据库的全球性供应商,在开发工具方面居于世界领先地位。Sybase产品在数据仓库应用方面具有产品线齐全、技术领先的优势,为企业提供了一整套基于全新技术和高可用性的解决方案。Sybase的数据仓库系统在招行的应用主要集中在以下方面:数据的收集和存储;有关业务和市场分析;利润分析、资金分析;专门侧重某一方面的专题应用等。 1998年,招商银行、奥尊电脑公司、SYBASE公司经过几个月的共同协作,联合开发招行数据仓库系统,包括人事、储蓄、会计等系统,成为国内业界第一个成功可用的数据仓库系统。 系统建立的原因及重要意义 招商银行是目前国内各商业银行中的佼佼者。计算机应用成绩显著,但随着业务的发展,对金融电子化的要求程度不断提高,招行的计算机应用也面临着新的挑战。为满足日益增长的各种查询、统计、报表以及分析的需求,也为了招商银行今后的进一步发展,经过长时间的反复对比、测试与论证,最终于1997年底签定购买协议,决定采用开放平台(Sun/Sybase)作为招商银行数据仓库应用平台。此次数据仓库的建设,招行采用了Sun公司具有极高性能的Starfire

(完整版)XX银行数据仓库建设项目方案

XX银行 EDW/数据仓库项目方案

目录 第一章系统总体架构............................................................................. 41.1总体架构设计概述 ........................................................................ 4 1.1.1总体架构的设计框架.............................................................. 4 1.1.2总体架构的设计原则.............................................................. 5 1.1.3总体架构的设计特点.............................................................. 51.2EDW执行架构................................................................................. 6 1.2.1执行架构概述 ........................................................................ 6 1.2.2执行架构设计原则 ................................................................. 6 1.2.3执行架构框架 ........................................................................ 71.3EDW逻辑架构.............................................................................. 14 1.3.1逻辑架构框架 ..................................................................... 14 1.3.2数据处理流程 ..................................................................... 201.4EDW运维架构.............................................................................. 21 1.4.1运维架构概述 ..................................................................... 21 1.4.2运维架构的逻辑框架........................................................... 221.5EDW数据架构.............................................................................. 27 1.5.1数据架构设计原则 .............................................................. 27 1.5.2数据架构分层设计 .............................................................. 291.6EDW应用架构.............................................................................. 31 1.6.1应用架构设计原则 .............................................................. 31 1.6.2数据服务 ............................................................................ 32 1.6.3应用服务 ............................................................................ 33第二章 ETL体系建设 ........................................................................... 34 2.1ETL架构概述.............................................................................. 34

数据仓库概论论文

数据仓库概论—数据仓库与数据挖掘

数据仓库与数据挖掘 在信息化时代来临、互联网高速发展的今天,社会已处于数据爆炸的状态下。当数据量极度增长时,人们感到面对信息海洋像大海捞针一样束手无策,而这些存在的数据可以被广泛的使用,并且也迫切需要将这些数据转换成有用的信息和知识。因此,需要一种从大量数据中去粗存精、去伪存真的技术。数据挖掘技术就是人们长期对数据库技术进行研究和开发的结果,是数据库、数据仓库或其他信息库中的知识发现,是信息技术自然演化的结果。 一、数据仓库 (一)什么是数据仓库 数据可以存放在不同类型的数据库中,最近出现的一种数据库结构是数据仓库。是从多个数据源收集数据,存储于一个统一的数据模式下的数据体,通常驻留在单一站点,以支持管理决策。首先它是面向主题的,每一行业甚至企业建立自己的数据仓库,它关注决策者的数据建模与分析。其次它集成存储了整个企业各部门各时期的数据,因此它是时变的和非易失的。数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到目前各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。而在实际数据挖掘中经常使用的是数据集市,它面向部门,关心某一主题,因此更灵活和实用。概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战略决策所需信息。 (二)数据仓库的数据组织 在数据仓库发展过程中,适当的数据组织非常重要,同样大小的数据仓库采用不同组织形式,完成数据分析和处理的时间会有所不同,它有以下不同的组织形式。简单堆积文件组织方式,是将每天由数据库提取并处理后的数据逐天存储起来。在定期综合文件组织方式中,数据存储单位被分成日、周、月、季度、年等多个级别,数据被逐一的添加到每天的数据集合中。当一个星期结束,每天数据被综合成周数据,周数据被综合成月数据,以此类推。后者的数据量比前者大大减少,但由于数据被进行高度的综合,造成数据的细节在综合中丢失。而连续文件是综合前两者的优点,既保留细节信息,又大大减少数据量。例如:它在进行数据存储过程中,可以将相关两个数据表中相同的表项合并,对于两表中不同

相关主题
文本预览
相关文档 最新文档