上海浦东发展银行基于数据仓库的数据集市解决方案_v1.
- 格式:doc
- 大小:1.52 MB
- 文档页数:26
ⅩⅩ银行数据仓库方案建议书I目录第一章前言第二章建议方案简介第三章硬件产品介绍第四章软件产品介绍第五章项目计划附录一成功案例附录二IBM可以提供的服务附录三项目进度计划安排参考附录四产品报价第一章前言作为一个发展中的银行,总部位于我国南方著名经济特区深圳市的ⅩⅩ银行的成长令人瞩目。
为了在五年内成为全国著名的银行,进入世界大银行的排行榜,ⅩⅩ银行的决策者们制订了一整套行之有效的计划,而作为现代化管理的一部分,与国际上先进的模式接轨,计算机管理自然成为相当重要的一部分。
ⅩⅩ银行与世界信息产业的领导者,美国国际商业机器公司,简称IBM 合作,将其业务系统成功运行在AS/400 平台之上,成功地迈出了计算机管理的第一步。
但是他们并不满足于目前的状况,发扬一向紧跟新科技的传统,决定对目前的业务数据作进一步的处理,将静态的数据转化为决策支持的依据。
所以,准备采用目前信息产业界极为先进的数据仓库技术,完成ⅩⅩ银行的决策支持系统,以进一步提高公司的实力和竞争力。
而世界上最大的软件及咨询服务公司IBM,将以其在该行业雄厚的实力和数十年丰富的经验,为ⅩⅩ银行提供一套完整的解决方案,使ⅩⅩ银行的管理能力再上一个台阶。
本方案以先进性和可扩展性为原则,使ⅩⅩ银行的数据仓库系统既可以保证在几年内技术和设备不落后,使之站在世界计算机发展潮流之上,又可以根据业务的高速发展,很方便地升级,以达到业务发展需求的性能。
先进性方面,IBM 提供的硬件平台是具有最强劲处理能力的RS6000 SP 系列并行机,它综合业界的最高端技术,具备无与伦比的处理能力和可扩展性、可靠性。
例如战胜世界冠军、国际象棋特级大师卡斯帕罗夫的“深蓝”就是这种机型,其每秒数亿步的处理速度至今仍被人们称道;软件平台是IBM 提供最新推出的、业界好评如潮的通用数据库产品(Universal Database),这是IBM 的又一大师级力作;还有荣获本年度世界数据仓库产品大奖的数据采掘工具:Intelligent Miner;在应用上,IBM有成熟的整套数据仓库解决方案,和其他仅仅能提供某些方面产品的厂商有着本质的区别。
银行业大数据解决方案随着互联网技术的不断发展和普及,银行业也面临了新的挑战和机遇。
银行业需要利用现代化技术手段,提高企业管理水平,提高服务质量和效率,增强竞争力。
传统的数据处理模式已经不能满足银行业面临的新的需求,银行需要更加便捷、高效、智能的数据管理方式,这就需要银行业对大数据技术的应用。
银行业大数据解决方案主要包括以下几个方面:一、数据采集和存储银行需要对业务数据、客户数据、交易数据等进行采集和储存。
数据采集要做到准确、完整、及时、高效,并且保证数据的可信性。
数据存储则要求数据容量大、访问速度快、存储安全可靠、备份完善等。
现在最流行的数据存储技术是分布式系统,通过分布式存储技术可以进行数据冗余备份,可以保证数据在系统出现问题时依然可以正常使用。
二、数据分析和挖掘通过对大量的数据进行分析和挖掘,可以发现其中的规律和模式,可以帮助银行业制定更加准确有效的市场营销策略、产品设计和服务模式,提高盈利能力和客户满意度。
数据分析和挖掘还可以帮助银行业进行风险评估和预警,帮助银行业控制风险、提高资产质量。
三、智能风控系统基于大数据技术,银行业可以建立智能风控系统,通过对客户的信用记录、财务状况、交易行为等进行综合分析,预测客户可能出现的风险,及时提供预报警学报。
在客户申请贷款、信用卡、保险等产品时,自动进行风险控制和审核,减少了人工审核的时间和成本,提高了审核的准确性和效率。
四、客户关系管理和营销银行业可以借助大数据技术,对客户的行为、财务状况、需求等进行深入分析,实现对客户的精准识别和分类,提供个性化的服务和产品,有效提高客户满意度和忠诚度。
银行业也可以利用大数据技术,对不同时间段、不同地区的客户分布进行分析,制定更加精准有效的市场营销策略,如地域营销、精细化营销、跨界营销等。
五、自动化运营管理大数据技术可以帮助银行业构建智能化的自动化运营管理系统,提高业务的处理效率和客户服务质量。
银行业可以利用大数据技术,对企业内部流程和资源进行全面优化和管理,实现精细化、高效化、自动化管理,减少人工、时间、财力资源的浪费,从而加快企业的发展节奏。
数据仓库技术解决方案数据仓库技术解决方案是一种处理和管理大量数据的方法,它将大量的分散数据整合在一起,形成一个高效、安全、稳定的数据存储系统,在数据的利用、分析和挖掘等方面都具有重要作用。
本文将围绕数据仓库技术解决方案对其进行分析和介绍,包括以下几个阶段。
第一阶段:需求分析作为解决方案的开端,需求分析阶段是十分重要的。
只有明确了数据仓库解决方案的需求、目标和各种要求,才能为后续的设计、开发和维护提供指导和支持。
在需求分析阶段中,我们需要了解客户的实际情况和需求,例如其数据的类型、来源、数量、格式、结构等方面,同时还需要考虑到数据库的性能、安全性、可扩展性以及数据处理的复杂度。
第二阶段:设计和建模由于数据仓库技术解决方案是一项庞大复杂的工程,因此需要进行系统的设计和建模。
在这个过程中,我们需要确定系统架构、数据模型、物理存储等等。
系统架构方面,我们需要考虑到数据仓库是如何被流程化的,设计以何种方式实现数据的采集、存储、处理和展示等功能。
数据模型方面,我们需要研究不同的数据模型,在其之间进行比较和选定。
物理存储方面,我们需要考虑如何将数据物理存储(例如通过云环境或者服务器),以及如何提供良好的查询性能。
第三阶段:开发和测试在设计和建模之后,需要进行开发和测试工作。
该工作包括数据库的创建、ETL的开发(包括采集数据、清洗数据和转换数据等),以及基于数据仓库的报告和分析。
在测试阶段中,需要对数据进行全面的测试,特别是对数据准确性、完整性和质量等方面进行测试。
第四阶段:实施和部署实施和部署阶段是将整个解决方案交付给客户,并保证其能够满足客户的需求和要求。
这包括数据仓库支持、数据的集成、数据质量控制、运维和用户培训等方面。
客户可以根据需要,将数据仓库解决方案集成到现有环境中,以满足其特定业务需求。
第五阶段:维护和升级在项目实施之后,需要进行数据仓库的维护和升级。
这可以保证数据仓库的安全性和稳定性,同时也可以更好地适应客户的不断变化的商业需求。
华通伟业数据仓库解决方案北京华通伟业科技发展有限公司2011年8月目录概述 (4)系统作用 (4)系统架构 (5)数据仓库架构 (5)系统功能架构 (6)系统功能详细介绍 (7)企业数据门户 (7)主题分析 (8)收入总览 (9)收入预测 (10)客流量监控 (10)商品分析 (11)商品销售趋势 (11)分店分析 (12)会员卡分析 (12)会员卡用户分类 (13)即席查询工具 (13)多维分析工具 (15)表格组件 (16)柱状图分析 (18)曲线图分析 (19)仪表盘分析 (20)散点图分析 (21)气泡图分析 (21)ETL工具 (22)报表工具 (24)创建新报表 (25)创建数据源 (25)构建数据集 (27)构建表格 (29)报表预览 (31)报表格式化 (32)报表保存 (33)概述企业在经营过程中每天都会产生大量的业务数据,比如销售、采购、库存、客户、营销等数据,随着规模的不断扩大,数据越来越多,管理成本也越来越大,如何充分利用业务数据,让管理者看到数据背后的危机与机遇,提高决策准确性,降低管理成本是现阶段急需解决的问题。
另一方面,管理者对企业经营分析的要求越来越高,以前简单的报表系统已经不能满足需要,管理者需要功能更加强大的在线分析系统来帮助分析,以支持决策。
BI-商业智能解决方案及产品以数据仓库技术为依托,采用ETL抽取企业在经营过程中产生的业务数据并集中于总部数据中心,利用数据门户、多维分析、数据挖掘等技术构建商业智能平台,为管理者提供及时、准确、科学的决策依据,降低管理成本,助力客户构建智慧型企业。
系统作用1. 整合业务数据在各业务系统中,数据不流通,形成信息孤岛,商业智能解决方案建立统一数据仓库,整合业务数据,给管理者提供统一视图,统一决策界面。
2. 支撑决策从数据中分析企业发展趋势,挖掘新的商业机会,根据数据决策,提高决策的及时性及准确率。
3. 降低运营成本,提高利润基于系统分析内容,管理者能了解产品结构、分销渠道、工作流程和服务方式,通过优化企业资源及流程,从而降低运营成本,提高利润,增强企业在市场上的竞争能力。
河北省工商银行数据仓库系统建设方案建议书北京世纪明日网络科技有限公司二零零零年三月河北省工商银行数据仓库系统建设方案目录第一章前言1.1数据仓库发展史1.2竞争日趋激烈的金融市场1.3中国专业银行面临的挑战1.4中国专业银行实施数据仓库的意义1.5中国专业银行实施数据仓库已具备的条件第二章数据仓库总体概述2.1 数据仓库基础2.2 数据仓库技术概述2.3 一个可扩展数据仓库的基本框架2.4 一个数据仓库实施流程第三章系统体系结构设计3.1系统设计指导思想3.2 方案总体框架图3.3 系统体系结构设计3.4 系统方案的组成第四章银行数据仓库的建设4.1 面向应用的OLTP系统和面向主题的OLAP系统4.2 个性化服务的定义4.3 业务探索/业务发掘4.4 建立市场客户信息基础4.5 利用数据仓库实现的基本模块4.6 更高层次的开发应用4.7 综合信息发布第五章方案实施建议5.1 开发模式5.2 组织机构5.3 项目实施进程5.4 项目进度计划第六章产品报价6.1 软件产品报价6.2 硬件产品报价6.3 项目开发实施费用第一章前言1.1 数据仓库发展史相对于许多行业而言,信息处理技术还是一门新兴的技术,但是其发展速度却几乎是最快的。
随着计算机硬件技术的飞速发展,软件技术也是日新月异。
许多企业和机构已经建立了相对完善的OLTP(联机事物处理)系统。
随着时间的推移,这些系统中积累了大量的历史数据,其中蕴含了许多重要的信息。
通过对这些历史数据的分析和综合处理,可以找到那些对企业发展至关重要的业务信息,从而帮助有关主管和业务部门作出更加合理的决策。
70年代中期出现的MIS(管理信息系统)实际上就是在这种背景下产生的。
但MIS具有极大的局限性。
首先,它是按预先定义好的流程对数据作相应的处理,因此只能对预先描述好的业务问题进行回答。
其次由于开发工具的限制,对它的修改也不大方便,特别是业务流程发生变化,模型需要调整,这种修改更加困难。
数据集市构建思路建设方案数据集市是现代信息化建设中非常重要的一环,可以将企业内部数据资源聚集起来,形成完整的、高度集成化的数据平台,对企业的发展和管理起到重要的推动作用。
但是,在数据集市的建设中,存在着一系列的问题,需要有一套系统的构建思路和方案,才能保证数据集市的顺利建设。
数据集市的基本构建思路如下:1. 数据需求分析在数据集市建设前,必须进行全面的数据需求分析。
这包括对不同部门和业务单位的数据需求进行分析,明确数据集市的目标和功能,并针对不同的用户群体,设计出不同的数据产品。
只有满足用户的真实需求,数据集市才能发挥最大的作用。
2. 数据集成在将各个数据源集成为数据集市前,需要考虑不同的数据源间的差异,进行数据清洗和处理,使其符合标准数据模型,以保证数据质量和准确性。
同时,也需要对数据源进行分类、过滤和压缩等处理,以便于数据的统一管理和应用。
3. 数据维护在数据集市建设后,需要进行数据的版本管理和维护工作。
这包括对数据进行备份和恢复,数据追溯,数据变更监控等工作,以保证数据的安全和可靠性,同时也方便用户了解数据的变化和使用情况。
4. 数据查询和分析数据集市建设的最大意义在于方便用户进行数据查询与分析。
为了实现这个目标,需要考虑用户的查询需求,并开发相应的查询工具和分析功能,同时也需要对查询和分析结果进行维护和监控。
5. 数据安全数据集市包含很多的机密信息,因此数据安全是数据集市建设中非常重要的因素。
为了保证数据的安全,需要进行不同级别的数据访问权限设定,以确保不同用户只能访问其有权限的数据,并同时开发数据加密和数据备份机制等,以应对各种数据安全攻击和突发事件。
综上所述,数据集市建设的过程和构建思路是一个循序渐进的过程,需要进行全面的分析、设计、开发和维护工作。
只有在数据集市的各个环节中都严格遵循这个构建思路,才能确保数据集市的顺利建设,并为企业管理带来更高效的工具和方法。
数据仓库和数据集市上海复旦德门软件有限公司 朱建秋 博士企业从事数据仓库项目时,往往会遇到多个数据仓库软件供应商。
各供应商除了推销相关的软件工具外,同时会向企业灌输许多概念,其中,数据仓库和数据集市是最常见的。
由于术语定义不统一,另外各个供应商销售策略不一样,往往会给企业带来很大的混淆。
最典型的问题是:到底是先上一个企业级的数据仓库呢?还是先上一个部门级的数据集市?本文试图说明这两个概念之间的区别和联系,以期对具体的数据仓库项目有所裨益。
1.为什么会出现数据仓库和数据集市?“数据仓库”的概念可以追溯到80年代中期。
从本质上讲,最初数据仓库是想为操作型系统到决策支持环境的数据流提供一种体系结构模型,并尝试解决和这些数据流相关的各种问题。
在缺乏“数据仓库”体系结构的情况下,早期的决策支持环境如图1所示。
企业内部存在许多冗余的、重复建设的决策支持系统(通常是报表系统),这些系统被不同类型的用户使用,数据的抽取层次复杂,最初在OLTP 上抽取,再在抽取后的数据集上抽取,如此等等,呈“蜘蛛网”状,由于没有公共的数据源,并且数据没有时间点,导致了产生的报表可信度下降,数据不一致问题特别显著,更不用说转化为有效的决策信息。
为了解决上述问题,数据仓库应运而生。
数据仓库构建了一种以集中式的数据存储为核心的体系结构,数据存储的模式为了适应决策分析的要求,从而形成一种与原来业务系统构OLTP数据源 复制的数据集 最终用户开发的报表环境图1:早期的决策支持系统图2:数据仓库体系结构成的操作型环境(OLTP )相独立的决策支持环境。
数据仓库最基本的体系结构如图2所示。
图2所示的以数据仓库为基础的决策支持环境,要求数据仓库能够满足所有最终用户的需求。
然而,最终用户的需求是不断变化的,而且各种类型的用户对信息的需求也不一样,这就要求数据仓库存储的数据具有充分的灵活性,能够适应各类用户的查询和分析。
另一方面,最终用户对信息的需求必须易于访问,能够在较高的性能上获得结果。
数据集成解决方案篇一:大数据整合集成解决方案数据集成,主要是指基于企业分散的信息系统的业务数据进行再集中、再统一管理的过程,是一个渐进的过程,只要有新的、不同的数据产生,就不断有数据集成的步聚执行。
企业有了五年、八年的信息化发展,凌乱、重复、歧义的数据接踵而至,数据集成的空间与需求日渐迫切,企业需要一个主数据管理(Master Data Manager)系统来统一企业的产品信息、客户信息;企业需要一个数据仓库(Data Warehouse)系统来提高领导层的决策意识,加快市场战略调整行动;企业需要一个数据中心(Data Center)系统来集中交换、分发、调度、管理企业基础数据。
数据集成的必要性、迫切性不言而喻,不断被推至企业信息化战略规划的首要位置。
要实现企业数据集成的应用,不光要考虑企业急需集成的数据范围,还要从长远发展考虑数据集成的架构、能力和技术等方面内容。
从数据集成应用的系统部署、业务范围、实施成熟性看主要可分三种架构。
一种是单个系统数据集成架构、一种是企业统一数据集成架构、一种是机构之间数据集成架构。
企业统一数据集成架构,组织结构较复杂的大型企业、政府机构尤为偏爱这种数据集成的架构,因此类单位具有业务结构相对独立、数据权力尤为敏感、数据接口复杂繁多等特征,更需要多个部门一起协商来建立一个统一的数据中心平台,来解决部门之间频繁的数据交换的需求。
如金融机构、电信企业,公安、税务等政府机构,业务独立、层级管理的组织结构决定了内部数据交互的复杂性。
概括来说此类应用属于多对多的架构、数据交换频繁、要有独立的数据交换存储池、数据接口与数据类型繁多等特点。
对于企业管理性、决策性较强的信息系统如主数据管理系统、财务会计管理系统、数据仓库系统等数据可直接来源于数据中心,摆脱了没有企业数据中心前的一对多交叉的困扰,避免了业务系统对应多种管理系统时需要数据重复传送篇二:T1数据整合解决方案T1数据整合解决方案一、T1数据整合概念数据整合的概念在业界比较混乱,比如系统整合、应用整合、主机整合、存储整合、数据库整合、数据大集中等等。
数据仓库数据集市模型设计在当今信息化时代,数据已经成为企业最重要的资产之一。
数据仓库作为一种专门用于存储和管理企业数据的技术手段,不仅可以提供高效、可靠的数据支持,还可以通过数据集市模型的设计和构建实现对数据的高效管理和利用。
本文将从数据仓库数据集市模型的设计角度出发,探讨如何准确满足数据需求,并提出相应的解决方案。
1. 引言数据仓库是企业从不同业务系统中汇集数据并进行集中存储和管理的一种数据架构。
它通过提供多维数据的查询分析功能,帮助企业进行决策分析和业务管理。
数据集市则是数据仓库的一种常见模型,它以业务为中心,按照不同的主题或领域划分数据,形成独立的数据集市。
2. 数据需求分析在设计数据仓库数据集市模型之前,首先需要对数据需求进行充分的分析。
通过与企业管理层和业务部门的沟通,了解到他们对数据的需求和期望。
在需求分析阶段,可以采用数据采集、访谈、调查问卷等方法,收集并整理相关的需求和指标。
3. 数据集市设计基于数据需求分析的结果,进行数据集市的设计。
在设计阶段中,应该注意以下几个方面:a. 主题划分:根据不同的业务需求,将数据进行合理的主题划分。
比如可以将销售数据划分为“销售额分析”、“销售渠道分析”、“销售地区分析”等主题。
b. 建立维度模型:在数据集市的设计中,常常使用维度模型来组织数据,并通过事实表和维度表来描述数据间的关系。
维度模型由事实表和多个维度表组成,事实表用于存储度量数据,维度表用于存储描述性数据。
c. 数据抽取和转换:将源数据抽取到数据仓库中,并通过ETL(抽取、转换、加载)流程对数据进行清洗和转换。
在数据集市设计中,应该根据具体的业务需求,确定数据的抽取和转换规则。
d. 数据质量管理:数据质量是数据仓库数据集市模型设计中非常重要的一环。
在设计阶段,应该建立数据质量评估模型,对数据进行质量评估,以确保数据的准确性和可靠性。
4. 实施与维护在数据集市模型设计完成后,需要进行相应的实施与维护工作。
数据仓库方案数据仓库方案是组织、管理和分析大量数据的一种方法,适用于需要深入了解组织运营过程的企业。
随着企业数据量的不断增加和业务需求的提升,传统的数据库系统已经无法满足全面的数据分析和洞察需求。
数据仓库方案通过将数据从不同来源(如ERP系统、CRM系统、交易系统等)收集到一个集中的存储区域,构建一个统一、一致的数据视图,为用户提供高效、可靠的决策支持。
数据仓库方案包括以下几个关键步骤:1. 需求分析:与用户和业务部门合作,确定数据仓库的目标和需求。
包括分析业务过程、确定关键业务指标、定义维度和度量等。
2. 数据抽取和清洗:从不同的数据源中抽取数据,并进行清洗和转换。
清洗包括去除重复数据、处理缺失值、处理异常值等。
3. 数据集成和建模:将数据整合到一个统一的数据模型中,通常是星型、雪花型或多维模型。
数据集成和建模包括定义事实表、维度表和关联关系。
4. 数据加载:将经过清洗和转换的数据加载到数据仓库中。
数据加载可以采用全量加载或增量加载的方式,根据业务需求和数据量选择合适的加载策略。
5. 数据查询和分析:通过数据仓库提供的查询工具和分析工具,用户可以从多个维度对数据进行查询和分析。
数据仓库方案应支持多种查询方式,如OLAP查询、数据挖掘等。
6. 数据维护和更新:数据仓库的数据需定期更新和维护。
维护包括数据清洗、数据转换、数据加载等,以保持数据仓库的数据质量和准确性。
7. 性能优化:数据仓库方案需要对查询和分析的性能进行优化,以提高用户的查询响应时间。
性能优化包括索引优化、查询优化等。
8. 安全管理:数据仓库中存储着企业的核心数据,安全管理是非常重要的。
数据仓库方案应采取合适的安全措施,如用户权限管理、数据加密等。
数据仓库方案的好处是可以提供全面、准确、一致的数据来源,为决策者提供可信赖的决策支持。
数据仓库方案能够根据企业的不同业务需求和发展目标进行灵活的适配和拓展,为企业提供持续的数据分析能力和洞察力。
数据仓库、数据湖、数据中台技术方案V1随着大数据时代的到来,企业内部产生的数据量越来越大,如何高效地管理、利用这些数据已成为企业面临的挑战之一。
为了解决这一问题,出现了类似数据仓库、数据湖、数据中台等技术方案,本文将对这三种方案进行介绍和对比。
一、数据仓库数据仓库是一种面向主题的、集成的、相对稳定的数据存储,主要用于支持企业决策。
数据仓库以数据驱动,关注企业重要的主题、业务过程和绩效等指标。
数据仓库的两个主要特点是数据集成和数据一致性,它可以将多个数据源的数据集成到一个单一的、可查询的数据源中,确保数据的一致性和准确性。
数据仓库的优势在于较好地支持企业决策,缺点在于数据集成的复杂度较高,需要有专业的数据仓库建模、ETL等技术人员进行设计和维护。
二、数据湖数据湖是一种不加限制地存储所有原始数据的存储形式,相对于数据仓库更注重数据的存储和处理。
数据湖中包含的数据源可能是结构化、半结构化或非结构化的数据,数据的移动、转换和处理等都在数据湖中进行。
数据湖之所以受到关注,是因为它可以在数据被使用前,将未经过处理或加工的数据获取到,从而使分析师和数据科学家可以无需等待将数据集成到单一数据源,并对其进行处理。
然而,数据湖中数据的一致性较差,需要有更多的数据清洗等工作,此外,数据湖中的数据流动和兼容性问题也需要在使用前注意。
三、数据中台数据中台是继数据仓库和数据湖之后兴起的一种数据技术方案,主要关注企业数据化转型建设。
数据中台将数据和业务解耦,并在数据存储、计算、组织等方面进行统一,提供企业级别的数据服务。
数据中台采用微服务和数据开放接口(API)的方式,将支撑业务和分析的数据资源整合在一起。
数据中台的优势在于其架构相对清晰,开放性较好,提供了企业级别的数据服务;缺点在于需要进行为期较久的构建Phase,且工作的难度相对较高。
综上所述,数据仓库、数据湖和数据中台都有着各自的优势和缺点,在企业的选择中需要根据自身的情况进行评估。
上海浦东发展银行基于数据仓库的数据集市解决方案
文件状态:[ ] 草稿文件标识:SPDB-DATAMARKS 当前版本:V1.5
版本历史
目录
1系统综述 (5)
2总体解决方案 (5)
2.1基于数据仓库建立数据集市 (5)
2.2系统逻辑框架 (7)
2.2.1原业务系统逻辑框架 (7)
2.2.2架设统一数据集市后的系统逻辑框架 (8)
2.3数据集市模型概述 (9)
2.3.1统一数据集市模型概述 (9)
2.3.2ODS数据模型概述 (10)
2.4系统数据流程 (11)
2.5数据存储方案 (12)
2.6数据仓库到ODS的ETL数据采集方案 (12)
2.7ODS到数据集市转换方案 (13)
2.7.1公用数据部分 (13)
2.7.2应用特有数据部分 (13)
2.8应用时间窗口的解决方案 (13)
2.9后续应用对原应用的影响分析 (14)
2.10外部接口方案 (16)
2.10.1数据仓库接口 (16)
2.10.2外部系统接口 (16)
2.11实施方案 (17)
2.11.1工作界限划分 (17)
2.11.2实施方法 (18)
2.11.3实施计划 (23)
2.12系统软硬件建议 (25)
2.12.1系统硬件 (25)
2.12.2系统软件 (25)
3系统建设目标 (26)
1系统综述
上海浦东发展银行数据仓库的建设目前已经初具规模,随着相关数据逐步积累,数据仓库的资源已经完全可以满足各类分析系统的数据需求,按照浦发银行的技术架构,数据集市的建设已经迫在眉睫。
数据集市的建立可以解决各系统数据获取得问题,并在集市范围内得到最大程度的共享,数据集市可以根据各系统的数据需求,建设成一个高度整合的业务系统数据平台,经过整合后的数据便于应用的掘取、操作,发挥最大的效能。
数据集市的建立可以有效缓解数据仓库时间窗口的争用问题,加快各系统数据获取的速度。
同时统一的数据集市可以有效解决信息不对称等多方面的问题,而且方便将来的统一管理,降低费用,提升效能、增进安全,使得行内系统整体架构更加合理化、科学化。
2总体解决方案
2.1基于数据仓库建立数据集市
随着反洗钱系统、运行内控系统、审计系统等项目的启动,各个系统的技术架构必然都统一规划为从数据仓库获取数据。
数据仓库的建设是以数据的整合、历史存储为主,数据本身无法直接满足各类应用的需求,并且过多的应用直接访问数据仓库的并发需求对数据仓库造成的负荷是很严重的,按照总体架构科学化、合理化以及本着行内应用架构统一规划的大原则,建设统一数据集市的要求变得非常迫切,整个建设范围总体上包括统一的ETL过程、统一的ODS模型和统一的数据集市模型,以满足外围应用系统数据的需求,规范化以及合理化应用的系统框架。
按照浦发银行技术架构,数据仓库的建设采用“自顶向下”的建设思路,即首先建设全行统一的数据仓库,在数据层面对全行数据进行整合,做到各类数据
的完整、统一、准确、规范;再从业务层面,基于数据仓库建设各类应用的数据集市,满足应用的需求。
数据源数据仓库数据集市
数据仓库的数据来源于各类业务系统及外部数据;数据集市的数据来源于数据仓库;各类应用的数据源来自数据集市。
从数据的采集路径与环节看,路径清晰,环节简单,对原系统影响很小。
数据集市的数据单一来源于数据仓库,系统的安全性比较高,并且避免了重复的数据整合与转换工作。
因此浦发银行数据集市的建立必须基于数据仓库完成。
2.2系统逻辑框架
2.2.1原业务系统逻辑框架
原业务系统都具有一个ODS数据库和DM数据集市,ODS用以装载从数据仓库采集的数据,保证数据完整后再导入DM中供系统分析和使用,ODS的作用是起到一个缓冲,当从数据仓库中采集的数据由于种种意想不到的原因出现部分数据不完整等情况时不会影响到当前应用系统的数据正确性,避免出现计算结果无法从业务上得到解释的情况发生。
存在的问题:
1)数据仓库窗口征用,各业务系统数据来源都来自数据仓库,且数据量大,将
大量占用数据仓库留给业务系统抽取数据的时间窗口,并且各应用抽取数据中存在重复数据部分,若能将ODS进行整合,势必减少数据抽取总量,从而减少数据抽取总时间花费;
2)繁多的ETL工程,对于每个应用必须单独开发ETL工程取数,当应用不断增
加,开发和维护ETL工程将变成不小的负担,如果能从设计上合理规划ETL 过程达到各应用共用的目标,就可以减少ETL过程的数量;
3)ODS数据冗余,各业务系统都拥有一个ODS数据空间,且以面向应用的形式
存储,造成空间的冗余;
4)各DM存储的数据未最大程度利用,由于各业务系统需要用到一些相近甚至相
同的数据,所以各业务系统的DM中必然都存储着这些数据的”副本”,如果能够互相访问这些数据,那么可以节省存储空间。
2.2.2架设统一数据集市后的系统逻辑框架
建设统一的ODS逻辑数据结构,从数据仓库中采集的数据首先将进入统一的ODS数据空间中,数据通过完整性和一致性验证后再进入统一数据集市,统一数据集市将数据在逻辑上分为各应用系统特有数据和应用系统公用数据,在物理上存储在统一的数据空间中,而应用系统的数据源直接应用于统一数据集市上。
此框架中统一数据集市采用SybaseIQ,利用其成熟的功能,可以设置多个数据库引擎(节点)连接同一个数据存储,而各个逻辑数据部分通过不同的用户进行访问,由于SybaseIQ仅支持1个可读写节点,所以需要将应用系统中的写操作和读操作分别连接相应的节点以达到良好的性能,后期可以扩展多个只读节点,解决CPU和内存的瓶颈问题,使前端应用系统的查询等功能得到更快的响应。
解决的问题:。