商业银行数据集市概述
- 格式:pdf
- 大小:423.06 KB
- 文档页数:9
江苏辖内农村商业银行大数据应用调研赵远宽 史 玥 臧亚州摘要:随着金融科技的迅速发展,大数据在金融行业的应用也日益广泛。
本文阐述了大数据在江苏辖内农商行的实践模式及其效果,指出当前存在的不足,提出江苏辖内农商行大数据应用的对策与建议。
关键词:农村商业银行 大数据 数据治理中图分类号:F832.2 文献标识码:A 文章编号:1009 - 1246(2019)05 - 0078 - 06一、大数据在江苏辖内农商行应用模式分析2017年以来,江苏省农联社逐步搭建大数据服务和数字化营销平台,以期在分析处理大数据的基础上,推进精准化的营销,打造个性化的金融产品,建立产品优化创新机制,进而更好地满足大数据时代客户日渐碎片化、多样化的需求。
(一)以大数据拓宽获客渠道,提升业务办理效率经过前期的探索与实践,江苏省农联社各类业务与产品的线上化转型已完成了统计报送分析、运维大数据等系统平台的建设与投产。
而线上化平台项目的投产与应用,为业务产品向线上化转型创造了条件。
如基于税务部门税收申报数据的“税易通”业务,就是江苏省农联社在系统内应用大数据分析技术,融合“线上+线下”渠道,提升个人信贷业务开展质效的现实个案。
该业务支持全线上或线上线下结合的业务办理模式,能满足贷款行不同的风险偏好需要。
其中,通过智能化采集获取、处理分析的客户税收申报与征信等数据,是授信审查审批的重要依据,为客户筛选和准入、授信额度测算、确定授信期限,乃至后续的风险监测与处理(包括预警、额度冻结、提前终止合同等措施)提供了真实可靠、快捷便利的数据支撑。
此业务前期已在射阳、泰州、泗洪三家农商行试点,目前已在全省组织推广。
(二)以大数据支持产品创新,优化产品创新机制互联网、云计算、物联网等新一代信息技术的创新应用,进一步丰富了大数据的来源,有利于农商行实现覆盖产品研发、营销、使用维护等各环节的创新,高效融入热点领域、热点业务及热点技术,及时更新调整金融产品的组成要素与功能,提高其匹配客户需求的精准度,创建更加高效透明的产品创新环境和机制,创造出高于传统产品的价值,更好地推进转型发展。
数据仓库数据集市概念区别数据集市≠数据仓库NCR公司可扩展数据仓库解决⽅案⼩组王闯⾈编译我们知道,决策⽀持系统(DSS)主要有两种实现⽅式,即建⽴⼀个数据集市或者⼀个数据仓库。
到底哪⼀种更能满⾜决策⽀持的要求并且适合企业今后的发展,是近两年来学术界和有关供应商激烈争论的⼀个话题。
在数据集市领域,主要的供应商和拥护者以美国红砖(Red Brick)公司为代表,其总裁Ralph Kimball在1997年12⽉的⼀篇论⽂中提出,"数据仓库只不过是⼀些数据集市的集合⽽已"。
认为企业多建⽴⼀些数据集市,将来⾃然就形成了数据仓库。
⽽业界公认的数据仓库之⽗ Bill Inmon在今年1⽉⽴即撰⽂反驳,旗帜鲜明地指出,"你可以在⼤海中捕到很多的⼩鱼并堆积起来,但它们仍然不是鲸"。
在5⽉份的《数据管理综述》(DataManage ment Review)中,Bill Inmon⼜发表了"数据集市不等于数据仓库"的论⽂,进⼀步阐述两者在本质上的区别以及各⾃的适⽤场合,本⽂就是根据这篇论⽂的主要内容编译⽽成的。
问题的提出现在,各企业IT部门的经理所⾯临的最主要问题之⼀是先建⽴数据仓库还是先建⽴数据集市。
长期以来,数据集市供应商们不断地给他们灌输这样的观念,即建⽴数据仓库⽐较复杂,投资过⼤,设计与开发周期太长,难以集成和管理企业范围内的各种源数据;并认为,基于数据仓库的DSS投资⽅案难以得到企业管理层的批准。
数据集市供应商们给业界描绘了⼀幅数据仓库前景暗淡的图画,这完全是出于⾃⾝的⽬的,是不正确的。
数据集市供应商们把数据仓库当成其增加营业收⼊的绊脚⽯,⾃然要避开和攻击数据仓库。
事实上,他们在销售时强调数据集市的建设周期短,是以企业信息系统结构的长期规划为代价的。
持数据集市主张的⼈认为,决策⽀持系统的成功实现,除了数据仓库以外,还有更简便、更有效的其它途径。
⽅法之⼀就是建⽴多个数据集市,当它们增加得⾜够⼤时,那就是所谓的数据仓库了。
【佳文转载】概念解析:数据仓库与数据集市【佳文转载】概念解析:数据仓库与数据集市(2011-07-26 15:32:33)转载标签:数据仓库数据集市it分类:信息管税专题(推荐)概念解析:数据仓库与数据集市数据仓库20世纪80年代中期,“数据仓库之父”Wiliam H.Inmon 先生认为:数据仓库(Data Warehouse)是在企业管理和决策中面向主题的(Subject Oriented)、集成的(Integrate)、与时间相关的(Time Variant)、但信息本身又相对稳定的(Non-Volatile)数据集合。
与其他数据库应用不同的是,数据仓库更像一种过程,是对分布在企业内部各处业务数据的整合、加工和分析的过程,而不是一种可以购买的产品。
数据集市可称作“小数据仓库”,是用来分析相关专门业务问题或功能目标而做的专项数据集合。
它建立在具有统一数据存储模型的数据仓库下,各级业务人员按照各部门特定的需求把数据进行复制、处理、加工,并最终统一展现为有部门特点的数据集合。
1 数据仓库的体系结构Ralph Kimball和Bill Inmon一直是商业智能领域中的革新者,开发并测试了新的技术和体系结构。
Kimball和Inmon 同意组织需要一个与遗留系统和OLTP系统分开的数据仓库,以捕获组织的有关信息并使之可用。
数据仓库中的数据应该是净化的、一致的,并且不受其来源的遗留系统和OLTP系统设计的牵制。
在开始第一个数据集市之前,他们还同意用针对整个体系结构的思想重复构建数据仓库。
Bill Inmon将数据仓库定义为“一个面向主题的、集成的、随时间变化的、非易变的用于支持管理的决策过程的数据集合”。
Inmon通过“面向主题”表示应该围绕主题来组织数据仓库中的数据,每个主题区域仅仅包含与该主题相关的信息。
数据仓库应该一次增加一个主题,并且当需要容易地访问多个主题时,应该创建以数据仓库为来源的数据集市。
以我给的标题写文档,最低1503字,要求以Markdown文本格式输出,不要带图片,标题为:银行营销集市方案# 银行营销集市方案---## 摘要本文档介绍了一个银行营销集市方案,该方案旨在帮助银行提高客户留存率和销售业绩。
通过建立一个数据驱动的营销集市,银行可以更好地了解客户需求,并针对性地开展个性化营销活动。
本文将介绍该方案的背景、目标、关键要素以及实施步骤。
## 1. 背景如今,银行业面临着激烈的竞争和客户需求多样化的挑战。
传统的银行营销方式已经无法满足客户的个性化需求,银行需要借助数据分析和智能营销工具来提升营销效果。
银行营销集市方案的提出,旨在通过数据驱动的个性化营销,提高客户满意度和销售业绩。
## 2. 目标银行营销集市方案的主要目标包括:- 提高客户留存率:通过个性化的营销活动,增加客户的粘性,降低客户流失率。
- 提升销售业绩:通过精细化的客户分析和营销策略,提高交叉销售和潜在客户转化率。
- 提供更好的客户体验:通过个性化的产品和服务推荐,提升客户满意度和忠诚度。
## 3. 关键要素银行营销集市方案的关键要素包括数据收集与整合、客户分析、个性化推荐和营销策略。
### 3.1 数据收集与整合要实施银行营销集市方案,首先需要收集和整合各种关键数据,包括客户的个人信息、交易记录、产品购买情况、行为数据等。
可以借助数据挖掘和数据仓库技术来实现数据的存储和整合。
### 3.2 客户分析基于收集到的客户数据,可以进行深入的客户分析,包括客户细分、价值评估、购买偏好、风险评估等。
通过客户分析,可以更好地了解客户需求,为个性化推荐和营销策略提供依据。
### 3.3 个性化推荐根据客户分析的结果,可以针对每个客户提供个性化的产品推荐和服务定制。
个性化推荐可以通过机器学习和推荐算法来实现,根据客户的历史行为和偏好,为客户推荐最合适的产品和服务。
### 3.4 营销策略在实施银行营销集市方案时,需要制定相应的营销策略,包括定价策略、促销活动、客户关系管理等。
商业银行数据架构建设研究报告目录1 建设目标和意义................................................................................................................... 错误!未定义书签。
1.1概述 ........................................................................................................................ 错误!未定义书签。
1.2建设目标 ................................................................................................................ 错误!未定义书签。
1.3建设意义 ................................................................................................................ 错误!未定义书签。
2 数据构架整体规划............................................................................................................... 错误!未定义书签。
2.1当前数据架构所面临的问题与挑战 .................................................................... 错误!未定义书签。
2.2架构建设原则 ........................................................................................................ 错误!未定义书签。
商业银行常见的数据架构体系正文目录商业银行常见的数据架构体系 (3)1、数据采集层 (4)2、存储计算层 (4)(1)主数据区: (4)(2)指标汇总区: (5)(3)集市区(仓内): (6)(4)批量接口区: (6)(5)非结构化数据存储计算区: (6)(6)历史数据区: (6)(7)实时数据区: (6)(8)在线访问区: (6)3、仓外集市数据区 (7)4、报表区 (7)5、数据探索区 (8)商业银行常见的数据架构体系我国商业银行经过20多年的信息化建设,形成了比较完善的IT体系架构,但是随着银行业务和信息技术的迅速发展,却产生越来越多的不同种类的业务数据,它们分散在不同的系统中且无法作为一个整体被运用,给银行的数据管理和运用带来了巨大挑战;同时,竞争越来越激烈的商业银行意识到了通过分析运用数据来挖掘自身潜力和提高业绩,巩固其市场竞争力。
数据仓库通过集成、统一数据,使数据得到有效运用,为商业银行提高管理和服务水平提供了有效的手段。
狭义的数据仓库数据架构用来特指数据分布,广义的数据仓库数据架构还包括数据模型、数据标准和数据治理。
即包含相对静态部分如元数据、业务对象数据模型、主数据、共享数据,也包含相对动态部分如数据流转、ETL、整合、访问应用和数据全生命周期管控治理。
数据架构层面通过数据分类、分层部署等手段,从非功能性视角将数据合理布局。
通过整体架构管控和设计,支持业务操作类和管理分析类应用(系统),满足业务发展及IT转型对数据的需求,架构的扩展性和适应性能够提升数据分析应用的及时性、灵活性和准确性。
那实际情况下各个银行的数据架构体系会有所不同,根据各行的业务发展、客户数据量、交易数据量、功能需求等会有不同的演变路径以及发展方向。
银行业务较复杂,数据量也较多,数据架构也因此进化较快。
常见的数据架构分区如下图所示:。
农村商业银行大数据审计分析的难点与对策路前波发布时间:2021-11-05T03:40:30.843Z 来源:《中国经济评论》2021年第9期作者:路前波[导读] 基于大数据背景下,农村商业银行内部审计工作面临的挑战也越来越多。
为更好应对挑战,应该将大数据合理应用到审计分析中,并对大数据审计在技术层面存在的难点合理分析,掌握影响审计的因素,科学制定审计方案,保证审计质量和水平在整体提高的同时,农村商业银行的可持续发展进程还能得到稳定推进。
陕西汉阴农村商业银行股份有限公司陕西省安康市 725100摘要:随着大数据时代的到来,使得农村商业银行发生了巨大改变,尤其是在审计方面,传统审计工作方式已经无法处理庞大的数据,工作效率越来越低。
为促进农村商业银行审计工作质量的提升,必须强化对大数据的利用。
但结合当前大数据的应用成效来看,其在审计分析中还存在很多难点,对审计工作的高效完成影响很大。
对此,应该深入分析现存问题,合理制定应对措施。
关键词:农村商业银行;大数据审计;难点;对策引言:基于大数据背景下,农村商业银行内部审计工作面临的挑战也越来越多。
为更好应对挑战,应该将大数据合理应用到审计分析中,并对大数据审计在技术层面存在的难点合理分析,掌握影响审计的因素,科学制定审计方案,保证审计质量和水平在整体提高的同时,农村商业银行的可持续发展进程还能得到稳定推进。
1农村商业银行大数据审计分析的难点1.1 数据获取难度大农村商业银行内部审计工作在大数据审计分析方面,起步相对较晚,且受到理论储备以及技术投入等层面因素的干扰,致使数据分析还存在很多问题,最终导致在数据获取方面存在很大难度。
(1)数据来源于多个信息系统,复杂性很强。
农村商业银行从农村信用社改制而成,已有70多年的改革发展历程,经过长时间特别是信息科技和互联网金融的迅猛发展,信息系统越来越庞杂。
为了适应业务发展需求,需要依照业务条件进行细分细化各类信息系统。
分类号密级UDC注1学位论文民生银行监管报表及数据集市系统的设计与实现(题名和副题名)赵蒙(作者姓名)指导教师李建清教授电子科技大学成都孙婧高级工程师国家气象信息中心北京(姓名、职称、单位名称)申请学位级别硕士专业学位类别工程硕士工程领域名称软件工程提交论文日期2014.04 论文答辩日期2014.05学位授予单位和日期电子科技大学2014年6 月日答辩委员会主席评阅人注1:注明《国际十进分类法UDC》的类号。
REGULATION REPORT OF MINSHENG BANK AND IMPLEMENTATION OF DATA MARTSYSTEM DESIGNA Master Thesis Submitted toUniversity of Electronic Science and Technology of ChinaMajor: Master of EngineeringAuthor: Zhao MengAdvisor: Li Jian QingSchool : School of Physical Electronics独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。
据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。
与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。
作者签名:日期:年月日论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。
本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。
(保密的学位论文在解密后应遵守此规定)作者签名:导师签名:日期:年月日摘要摘要随着经济体制的改革,我国银行业发展步入了一个新的阶段,我国金融体制发生重大转变。
基于商业银行省分行的数据集市及应用设计【摘要】本文分析了商业银行建设省分行数据集市的必要性和意义,对省分行数据集市进行了定义和目标定位,研究和设计了省分行数据集市的应用框架及需求较为迫切的数据集市应用内容,对各商业银行省分行结合本省的业务发展和经营管理特色模式,规划建设和实施开展各领域精细化的管理支撑应用,具有重要的指导意义。
【关键词】省分行数据;集市应用随着信息科技和互联网应用的快速发展,银行面临着互联网金融和大数据应用的全新挑战,银行对自身的数据治理和数据分析能力提出了更高的要求。
1.银行省分行数据集市的意义当前,各大商业银行正在实施“应用大集中、数据大集中”,将生产处理系统全行统一版本、将业务数据集中在总行存储,而配套的数据治理和数据分析能力常常落后于系统集中和数据集中的进度,常常不能满足银行自身经营管理的需要,主要体现为:(1)在系统和数据大集中后,银行逐步建设了全国集中的数据仓库系统,满足了总行层面对全国数据进行集中分析和使用的需要。
但由于要求各省不能看到他省数据的安全保密限制,较少让各省分行直接使用总行数据仓库。
(2)银行省内各级分支行只能查询和使用总行业务和管理系统提供的固定数据。
对于总行系统无法满足的数据需求,如个性化的客户营销、绩效考核、风险防控、银企直联合作、监管检查配合等数据需求,则需要一次次层层申请审批、直至总行进行数据提取和支持。
商业银行网点点多面广,总行数据支撑团队人手紧张、数据支撑能力难以满足各级分支行日益发展的个性化数据提取需要,导致基层无法及时获得数据,会一定程度上限制和影响业务经营发展。
(3)中国幅员广阔,区域间差异很大,经济发展不平衡,各省分行都具有当地特色的业务发展和经营管理模式。
银行各个经营管理领域在全国都统一管理模式,实施难度较大,且不贴合各地实际情况。
因此,建设省分行数据集市,使各省分行能够及时准确地获取所需求数据,支撑本省精细化、个性化、专业化的管理需求,具有重大意义。
数据集市推进银行业务数据分析数据分析难、分析慢、分析不准确是中国邮政储蓄银行(以下简称“邮储银行”)各级业务部门数据分析工作面临的三大问题。
而在《中华人民共和国网络安全法》《中华人民共和国电子商务法》付诸实施、“业务协同、客户共享”等邮银协同发展的背景下,如何满足监管要求、保障消费者权益,并平衡好大数据精准营销、敏捷型业务合作伙伴关系的建设,是银行、速递、保险等集团各下属单位面临的共同问题。
本文从数据分析的应用场景出发,尝试分析、解答邮储银行业务部门数据分析工作合规拓展、邮银协同的可能框架,为建立邮储银行敏捷型数据分析工作机制、邮银互通的数据分析路径提供可行性方案。
1邮储银行业务部门数据分析的开展情况数据分析是指从既有的数据信息中提炼出有价值的数据结果。
基于邮储银行总行某业务部门20XX年1月至20XX年6月末的数据分析,整理得到了该条线数据分析工作的主要应用场景,见表1。
从统计结果看,该业务部门数据分析需求共计75份,其中监管报送类数据分析4份、内部决策类19份、客户营销类37份,不便分类的需求有15份,业务部门客户营销类数据分析需求呈绝对优势,符合业务部门的职能定位。
从数据分析的时长看:监管报送类数据分析需求以监管截止日期为准,一般每例数据分析的准备时间不超过1周;内部决策类数据分析需求,基本在部门领导提出后48小时内提交,如果数据结果可用,需求会固化成按月提取的报表继续推进;客户营销类数据分析需求,在没有数据集市或大数据平台数据实验室的情况下,从业务部门提出需求到获取数据结果,单例需求的平均完成周期最少是2周。
2业务部门数据分析工作存在困难的原因2.1监管报送类数据分析困难原因监管报送类数据分析,一般都是口径相对固定的长期数据报送需求,重点和难点都在报送口径的一致性。
尽管是长期性报送,但此类数据在缺乏全行型数据集市的情况下,更难保证数据的准确性、时序数据的可比性。
数据分析难、慢和不准确的原因大致包括两个方面。
商业银行基于数据仓库的数据集市的解决方案翟建国,李文生北京邮电大学计算机科学与技术学院,北京(100876)E-mail:zhaijg2008@摘要:在数据仓库建设的后期,由于企业的多个部门都开始使用数据仓库所提供的服务。
而这些部门之间往往又对数据仓库有不同的要求,很多人就提出了在数据仓库基础上构建数据集市的概念。
虽然在业务系统中拥有足够的信息来进行数据分析,但是很难从这些系统中提取有意义的信息而且速度也较慢。
而且虽然这些系统可支持预定义报表,但却无法支持一个部门对数据进行历史的、集成的、智能的和易于访问的分析。
因为业务数据分布在许多跨系统和平台的表中,而且通常是“脏的”,包含了不一致和无效的值,使得分析难于进行。
数据集市可以合并不同系统的数据源来满足业务信息需求。
本文针对某商业银行数据仓库建设本身的特点,提出了一整套切实可行的针对这家银行的数据集市建设的解决方案,并成功应用于实际项目中,希望对其他银行或者企业在建设自己的数据集市时具有参考意义。
关键字:数据仓库,ODS,ETL,数据集市。
0.引言某商业银行数据仓库的建设目前已经初具规模,随着相关数据逐步积累,数据仓库的资源已经完全可以满足各类分析系统的数据需求,按照这家银行的技术架构,数据集市的建设已经迫在眉睫。
数据集市的建立可以解决各系统数据获取得问题,并在集市范围内得到最大的共享,数据集市可以根据各系统的数据需求,建设成一个高度整合的业务系统数据平台,经过整合后的数据便于应用的掘取、操作,发挥最大的效能。
数据集市的建立可以有效缓解数据仓库时间窗口的争用问题,加快各系统数据获取的速度。
同时整合的数据集市不仅可以解决信息不对称等方面的问题,且整合后方便统一管理,降低费用,提升效能、增进安全,使得整体架构更加合理化、科学化。
1.数据仓库技术1.1数据仓库介绍数据仓库技术是数据库与人工智能两项计算机技术相结合的产物,是当今信息管理技术的主流,它利用人工智能中的机器学习、知识处理和神经网络等方法,从数据库中挖掘有用信息、发现知识、搞清数据库中大量数据之间的相互关联及众多数据之间存在的规律,可供使用者有效分析和利用数据库中的已存储的各种有用信息,以帮助决策者迅速做出决策,从而使企业产生巨大的经济效益。
数据仓库是“面向主题的、集成的、稳定的和随时间变化的数据集合,主要用于决策制定”(Bill Inmon,Building the Data Warehouse)。
数据仓库的这些特点决定了它与传统的面向事物处理的数据库有着本质的不同。
作为一个新兴的研究领域,数据仓库发展得很快,许多大学和公司都在这个领域进行着广泛深入的研究,其中尤以斯坦福大学、IBM Almaden研究中心、威斯康辛大学、微软和AT&T的研究最具代表性。
[1]1.2 基于数据仓库建立数据集市随着反洗钱系统、运行内控系统、审计系统等项目的启动,各个系统的技术架构必然都统一规划为从数据仓库获取数据。
数据仓库的建设是以数据的整合、历史存储为主,数据本身无法直接满足各类应用的需求,且过多的应用直接访问数据仓库并发等需求对数据仓库造成的负荷将越来越重,按照总体架构科学化、合理化以及本着行内应用架构统一规划的大原则,因此必须要建设统一的数据集市,包括统一的ETL过程、统一的ODS和统一的数据集市模型,以满足外围系统数据需求,规范应用的系统框架。
按照这家银行技术架构,数据仓库的建设采用“自顶向下”的建设思路,即首先建设全行统一的数据仓库,在数据层面对全行数据进行整合,做到各类数据的完整、统一、准确、规范;再从业务层面,基于数据仓库建设各类应用的数据集市,满足应用的需求。
图1 数据采集图数据仓库的数据来源于各类业务系统及外部数据;数据集市的数据来源于数据仓库;各类应用的数据源来自数据集市。
从数据的采集路径与环节看,路径清晰,环节简单,对原系统影响很小。
数据集市的数据单一来源于数据仓库,系统的安全性比较高,并且避免了重复的数据整合与转换工作。
[2]因此这家银行数据集市的建立必须基于数据仓库完成。
2.总体解决方案2.1系统逻辑框架2.1.1原业务系统逻辑框架图2 原业务系统逻辑框架原业务系统都具有一个ODS数据库和DM数据集市,ODS用以装载从数据仓库采集的数据,保证数据完整后再导入DM中供系统分析和使用,ODS的作用是当从数据仓库中采集的数据由于各种原先出现部分数据缺失后者错误等情况时不会影响到现在应用系统的正常使用。
存在的问题:1)数据仓库窗口征用,各业务系统数据来源都来自数据仓库,且数据量大,将大量占用数据仓库留给业务系统抽取数据的时间窗口,并且各应用抽取数据中存在部分重复部分,若能将ODS进行整合,势必减少数据抽取总量,减少数据抽取总时间花费;2)繁多的ETL过程,对于每个应用必须单独开发ETL工程为应用供应数据,当应用不断增多,开发和维护ETL工程将变成不小的负担;3)ODS数据冗余,各业务系统都拥有一个ODS数据空间,且以面向应用的形式存储,造成空间的冗余;4)各DM存储的数据未最大程度利用,各业务系统需要用到一些相近甚至相同的数据,包括衍生数据,所以各业务系统的DM中必然都存储着这些数据的”副本”,如果能够互相访问这些数据,那么可以节省存储空间。
2.1.2架设统一数据集市后的系统逻辑框架图3 统一数据集市的系统逻辑框架建设统一的ODS逻辑数据结构,从数据仓库中采集的数据首先将进入统一的ODS数据空间中,数据验证通过完整性和一致性后再进入统一数据集市,统一数据集市将数据在逻辑上分为各应用系统特有数据和应用系统公用数据,在物理上存储在统一的数据空间中,而应用系统的数据源直接应用于统一数据集市上。
此框架中统一数据集市采用SybaseIQ,通过其特有的功能,可以设置多个数据库引擎(节点)连接同一个数据存储,而各个逻辑数据部分通过不同的用户进行访问,由于SybaseIQ 仅支持1个可读写节点,所以需要将应用系统中的写操作和读操作分别连接相应的节点以达到良好的性能,后期可以扩展多个只读节点,解决CPU和内存的瓶颈问题,使前端应用系统的查询等功能得到更快的响应。
解决的问题:1)减少数据仓库窗口占用时间,整合ODS以后,装载数据的过程被统一成1个,当后续增加新的系统应用时,只需要扩展ODS模型结构,整个ETL过程仍然是唯一的;2)减少ODS的冗余,整合ODS后,原先的多个ODS重复数据占用的存储空间被释放,这样集中而单一的数据通过转换供应给各应用3)最大程度的利用数据资源,整合DM以后,将划出公用数据部分,供所有应用系统共同使用,这部分数据在存储中仅有1份,结合各应用特色部分数据,确保了各应用系统的数据是完整的,在 SybaseIQ中,各部分数据通过不同的用户来区隔,通过灵活配置用户权限来达到安全性的要求,这种结构同时可以很好的利用SybaseIQ在I/O方面的优势;4)良好的扩展性,当后续增加应用时,仅需要扩展ODS和统一数据集市以及ETL过程,并不会影响到原有系统。
2.2数据集市模型概述统一数据集市模型将基于反洗钱、运营内控、非现场审计3个应用的数据需求进行概要设计公用数据模型,未来在应用的扩充上以数据需求为驱动在模型上进行丰富和扩展,公用数据模型设计的原则是以后续应用的增加很好的融入这部分模型为目的。
数据集市模型分为4个部分:公用数据部分,主要包括:客户信息、帐户信息、交易流水等公用属性部分,以及地址(国家、地区、省份)、产品、机构和代码表等;运营内控特有数据部分,主要包括:指标数据、预警结果、预警规则配置数据等;非现场审计特有数据部分,主要包括:统计数据、审计预警等;反洗钱特有数据部分,主要包括:指标结果、衍生数据等。
图4 数据集市模型2.3系统数据流程1.图5 系统数据流程图数据集市的建立是由实际的业务需求驱动的,随着各类业务需求的提出,数据集市的建立会逐渐完善。
数据集市会根据数据仓库的实际情况,对业务需求进行分析,明确业务满足度;在数据集市需求分析期间,数据仓库提供充分的支持,并验证分析结果(业务模型与数据仓库模型的映射)的正确性;如果部分数据需求在当前数据仓库中没有,而在源系统中存在,建议数据仓库对这部分数据进行加载,使得获取数据的统一来源是数据仓库,在架构上做到统一;数据集市按照分析结果,将数据整合进数据集市模型,并由业务系统验证数据的正确性;进入生产阶段,数据集市每日会根据各个业务系统的综合需求进行数据的抽取。
2.4数据存储方案从数据仓库采集数据到ODS过程中,将尽量减少转换等操作,以减少数据仓库的征用时间,从ODS到统一数据集市过程中再进行衍生数据的计算等,之后数据集市保存所有应用的当前数据,而ODS中的数据在保存一段时间后将被删除。
数据集市数据获取以增量方式为主,对无法判断增量的数据以全量方式获取;数据在ODS中保留N天的时间(具体保留时间需要视应用需求而定),以达到对业务系统数据提供的缓冲,同时避免各个系统补数据时反复从数据仓库中抽取数据;每日从数据仓库获取数据在ODS中以切片方式保存,在系统频繁增删的情况下可以保持系统的高性能,避免产生大量数据碎片;ODS的数据空间要留有足够的冗余,以满足业务系统全量初始化的需求。
2.5数据仓库到ODS的ETL数据采集方案在应用业务数据需求通过数据仓库验证后,数据集市小组需要开发从数据仓库采集数据到ODS数据模型的ETL工程,通过优化和调试,确保ETL过程是高效率、高稳定的,主要目标减少对数据仓库时间窗口的占用,ETL过程将减少转换的过程。
为了便于ETL过程批量加载,设计和开发ETL过程应避免依赖性,这样在调度策略上可以更加灵活。
随着基于数据集市的应用的增多,对于资源以及时间窗口争用的矛盾会变得突出,在ETL过程调度策略上根据实际情况对各应用进行优先级排序,在ETL过程和ODS到数据集市的转换过程中避免应用间的依赖性,减少耦合性,这样通过2个方面加快应用获取数据的效率:批量优先加载优先级高的应用所需要数据的那部分ETL过程;采用在ETL过程和ODS到数据集市的转换过程分步并行的方式,以保障优先级高的应用对于数据需求时间点的要求。
例如:由于运营内控应用对于数据的需求时间点要求最高,可以优先加载运营内控需求数据的这部分ETL过程,一旦满足运营内控需求部分的源数据到达ODS,便激活ODS到数据集市转换过程关于运营内控部分的脚本,而ETL过程并不停止,执行脚本的过程可以充分利用ETL数据加载过程中闲置的CPU和内存资源。
2.6 ODS到数据集市转换方案2.6.1公用数据部分由于公用数据部分不涉及业务逻辑、算法等,也不包涵过多的转换等操作,所以ODS 到数据集市公用数据模型部分转换脚本由数据集市小组统一进行开发和验证,结果与应用之间进行确认。