商业银行数据仓库建设

  • 格式:doc
  • 大小:31.50 KB
  • 文档页数:9

下载文档原格式

  / 9
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

商业银行数据仓库建设

摘要:目前国内几大商业银行的数据大集中基本完成,为企业级数据仓库的建设创造了先决条件。同时,银行管理层也希望从既有的海量数据库中获取信息,可以在精准营销、绩效考核、风险管理等方面发挥作用,这也成为建设企业级数据仓库的主要动力。结合作者的工作背景,对银行数据仓库建设过程中的几个方面进行了阐述,以期望

能对读者有所启发。

关键词:数据仓库;数据模型;数据标准;元数据管理;灵活查询

0 引言

数据挖掘是20世纪90年代中后期提出的概念,它是以传统的数据库技术作为存储数据和管理资源的基本手段,以统计分析技术作为分析数据和提取信息的有效方法。以人工智能技术作为挖掘知识和发现规律的科学途径的一种解决问题的方案。而数据仓库的建设,可以看作数据挖掘的一个重要预处理步骤。在数据仓库的建设过程中,可以将支持企业日常运作的各个独立系统中的数据进行清理、集成和统一,并且可以将数据加载入不同于日常交易系统结构的易于查询分析的数据模型中,为后续数据挖掘高效地获取准确明晰的数据扫清障碍。

1 数据仓库

根据数据仓库之父W.H.Inmon的说法,“数据仓库是一个面向主

题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程”。这个简短而又全面的定义指出了数据仓库的主要特征。4个关键词,面向主题的、集成的、时变的、非易失的,将数据仓库与其他数据存储系统(如关系数据库系统、事务处理系统和文件系统)相区别。

数据仓库领域的领导厂商,美国Teradata公司给企业级数据仓库下过一个定义,“一个企业级数据仓库是一个由集成的、明细的、可扩展的数据组成的,集中的,保留历史的数据机,可以支持多个部门的各种决策分析,是整个企业分析型数据的唯一来源”。这里有5个

关键字:集成的、明细的、可扩展的、集中的、保留历史的。

从以上两个定义来看,时变的包含了保留历史的意思,而面向主题的结构保证了其结构和设计是可扩展的。因此,从笔者的观点来看,数据仓库的关键字应该是:面向主题的、集成的、时变的、明细的、

集中的和非易失的。

为了进一步理解数据仓库的概念,我们可以将数据仓库系统和操

作型数据库系统进行一下比较,概括在表1中。

2 商业银行数据仓库

所谓商业银行数据仓库,是将数据仓库技术运用到商业银行的经营分析中,从而为商业银行的精准营销、绩效考核、风险管理等提供

强有力的数据支持。

从技术角度来看,商业银行的数据仓库与其他企业的数据仓库差别不大,具有数据仓库本身具有的一切技术特性。但是其数据模型的

设计,必须与商业银行的业务逻辑相切合,这样才能发挥其应有的作用。

商业银行数据仓库采集包括银行核心系统在内的交易系统数据,经过加载整理,按照银行业务主题(当事人、内部机构、资产、地址、产品、协议、事件、渠道、总账、营销等)进行组织和存储,形成商业银行数据仓库的基础模型区,特点为以数据驱动,保留基础、细节、

历史、整合的数据。

3 数据仓库模型

3.1 维度模型

该模型将数据看作数据立方体(data cube)形式,立方体由维和事实定义。

维是关于一个组织想要记录的透视或实体。每一个维都有一个表与之相联,该表称为维表,它进一步描述维。

维度数据模型围绕中心主题组织。该主题用事实表表示。事实是数值度量的。把它们看作数量,是因为我们想根据他们分析维之间的关系。事实表包括事实名称和度量,以及每个相关维表的关键字。

比如,银行想记录客户所持有的账户的相关信息,那么就要建一张账户的事实表来表示账户这个主题。在账户表中有账户的余额、开户日期、开户机构、账户持有人等信息。其中,账户余额就是账户表的度量字段。而开户日期、开户机构等字段则是与其他日期、机构等

维表关联的关键字。

3.2 星型模型

是维度模型的一种,包括一个大的包含大批数据和不含冗余的中心表(事实表),一组小的附属表(维表),每维一个。这种模型

很像星星爆发,维表围绕中心表显示在射线上。

3.3 雪花模型

雪花模型是星型模型的变种,其中某些维表是范式化的,因而把数据进一步分解到附加的表中。结果模式图形成类似于雪花的形状。

雪花模型和星型模型的主要不同在于,雪花模型的维度可能是范式化形式,以便减少冗余。这种表易于维护,并节省存储空间,因为当维结构作为列包含在内时,大维表可能非常大。然而,与巨大的事实表相比,这种空间的节省可以忽略。此外,由于执行查询需要更多的连接操作,雪花结构可能降低浏览的性能。这样,系统的性能可能相对受到影响。因此,在维度建模的数据仓库设计中,雪花模型不如星型模型流行。

3.4 范式化模型

根据企业的业务特点,将整个业务流程抽象为若干个主题,主题内部遵循三范式以上的范式进行建模(必要时可以适当降范式),主题与主题间通过关系表连接。比较类似于雪花纬度模型,但是范式化

程度比雪花模型更高,也没有事实表和纬度表的概念。

3.5 商业银行数据仓库模型的选择

从理论上来看,维度模型在查询上比较有优势,但是对于业务种类繁多,业务流程复杂的商业银行来说,用维度模型进行存储未必能

将各个操作型系统的数据进行很好地整合。

而范式化模型可以将操作系统的各类数据很好地整合存储,但是范式化的结构不利于快速分析查询,需要经过多次的表间联接才能完

成一次客户全视图查询。

因此,笔者认为单单使用维度建模或者范式化建模都不能很好地支持企业级数据仓库的建设和发展。根据国际最佳实践以及笔者的项目实施经验,比较好的做法是在数据模型层使用范式化模型,而后通

过视图将范式化模型转换为维度模型给数据集市供数。

4 商业银行数据仓库整体架构初探

4.1 源系统文件(Source file)

源系统文件就是将银行各操作型系统(比如客户信息系统、存贷款系统、中间业务系统、信用卡系统、电子银行系统等)数据表中的数据以文件形式下载给数据仓库系统。同时,视相关业务数据量大小决定每天是全量下载还是增量下载。

4.2 操作型数据存储(ODS)层及其视图

操作型数据存储区域的数据表结构一般与上游源表结构一致,数据也基本一致,等于是将上游数据复制一份到数据仓库系统,因此也称为源系统镜像(Source Image)。

操作型数据存储(ODS)视图,是为了数据安全性和查询性能等因素考虑建立的视图,其结构与ODS本身结构一致。操作型数据存储(ODS)的作用主要有以下几个:①如果上游源系统文件每日下载增量数据给数据仓库,则可以在ODS进行全量累加;②对于上游源系