数据仓库数据集市体系结构改进
- 格式:doc
- 大小:31.50 KB
- 文档页数:5
数据仓库的逻辑模型介绍
数据仓库是一种面向主题的、集成的、稳定的、不同时间的数据集合,用于支持管理决策过程。
逻辑模型是数据仓库的核心,它描述了数据仓库中数据的组织和存储方式,以及数据仓库的结构和功能。
本文将介绍数据仓库的逻辑模型,包括数据仓库的数据源、数据存储、数据集市和数据访问。
一、数据源
数据仓库的数据源可以是多种类型的,包括关系数据库、OLAP 数据库、文件系统、外部数据源等。
不同的数据源具有不同的特点和优势,需要根据实际情况选择合适的数据源。
二、数据存储
数据仓库的数据存储是指将数据源中的数据加载到数据仓库中,并对数据进行处理和转换,以满足数据仓库的需求。
数据存储通常采用分布式存储架构,以支持大量数据的存储和查询。
三、数据集市
数据集市是数据仓库中面向特定主题的数据集合,它将数据仓库中的数据按照业务需求进行分类和组织。
数据集市通常包括多个表,每个表代表一个主题,例如销售、客户、产品等。
数据集市中的数据可以根据业务需求进行查询和分析。
四、数据访问
数据访问是指数据仓库中的数据如何被访问和使用。
数据仓库的数据访问通常采用OLAP(联机分析处理)和数据挖掘技术。
OLAP技术支持用户对数据仓库中的数据进行快速查询和分析,数据挖掘技术则可以帮助用户从大量数据中发现有价值的信息和规律。
总之,数据仓库的逻辑模型是数据仓库的核心,它描述了数据仓
库中数据的组织和存储方式,以及数据仓库的结构和功能。
数据仓库的数据源、数据存储、数据集市和数据访问是数据仓库逻辑模型的重要组成部分,它们共同构成了一个完整的数据仓库系统。
基于数据仓库的财务数据集市构建探讨韩宏伟【摘要】论述财务数据集市与数据仓库关系,构建基于数据仓库的财务数据集市的设计方式、原则,以及建立统一的财务指标体系是财务数据集市的核心价值,在技术实现上实现财务应用与数据集市的直连,避免大规模的数据搬运,影响数据使用效率.【期刊名称】《金融经济(理论版)》【年(卷),期】2016(000)006【总页数】2页(P191-192)【关键词】数据仓库;财务数据集市【作者】韩宏伟【作者单位】国家开发银行股份有限公司,北京100037【正文语种】中文基于对收入和成本的财务大数据分析,在企业的经营管理方面,从前台的市场细分,客户营销,到中台的定价管理、风险管理,再到后台的绩效管理及战略规划,都离不开财务数据的支撑,财务数据的使用变得更加频繁和重要。
为进一步提升财务数据使用效率,提高财务数据质量,统一财务数据出入口,发挥财务数据整体业务价值,建立财务数据集市就变得非常必要。
数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源和决策需要产生的数据集合。
数据仓库之父W.H.Inmon给出了数据仓库的定义:数据仓库是一个面向主题的,集成的,相对稳定的,反映历史变化的数据集市,用于支持管理决策。
对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个数据源有效集成,集成后按照主体进行了重组,并包含历史数据,而且数据仓库一般不再进行历史数据修改。
数据集市是建立在统一数据存储模型的数据仓库之上,各级业务人员按照各部门特定的需求把数据进行复制、处理、加工,并最终统一为有部门特点的业务应用提供数据支持。
建立企业级的数据仓库基本的要求是整个企业能够共享统一的数据存储模型,为各级业务人员提供一致的信息视图。
数据集市通常用于为单位的职能部门提供信息,还可以用于将数据仓库数据分段以反映按地理划分的业务。
数据架构参考范文数据架构是指用于描述和组织数据的结构和组织方式。
它是数据管理和数据存储的基础,并为数据的收集、存储、处理和分析提供支持。
一个好的数据架构可以提高数据的质量、可靠性和可用性,促进数据的共享和集成,以及支持企业的决策和业务目标。
以下是一些数据架构的参考要点:1.数据模型:数据模型是数据架构的基础。
它描述了数据的实体、属性、关系和约束。
常用的数据模型包括层次模型、网络模型、关系模型和对象模型。
关系模型是最为常用的一种数据模型,它采用表格、行和列来表示数据。
2.数据仓库:数据仓库是一个面向主题的、集成的、稳定的、一致的、可分析的数据集合。
它通常用于支持决策支持系统和数据分析。
数据仓库有多个层次,包括原始数据层、清洗和转换层、集成层和决策支持层。
3. 数据湖:数据湖是一个用于存储和分析大数据的中心存储库。
它可以接收来自多个数据源的原始数据,并以其原始格式保存。
数据湖通常采用分布式文件系统,如Hadoop或Amazon S3、它可以存储结构化数据、半结构化数据和非结构化数据。
4. 数据流程:数据流程描述了数据在不同系统和组件之间的流动和转换。
它包括数据的输入、处理、存储和输出。
数据流程可以通过图表、流程图或文档来表示。
常见的数据流程技术包括ETL(Extract, Transform, Load)和ELT(Extract, Load, Transform)。
5.数据安全:数据安全是数据架构的重要组成部分,它涉及到数据的保密性、完整性和可用性。
数据安全包括身份验证、授权、加密、审计和备份等措施。
数据架构应该考虑到各种威胁和风险,并采取相应的安全措施来保护数据。
6.数据治理:数据治理是一套规范和流程,用于管理和保护数据资源。
它涉及到数据的定义、分类、命名、标准化和文档化等方面。
数据治理还包括数据质量的监控和改进,以确保数据的准确性、一致性和可靠性。
7.数据集成:数据集成是将多个数据源的数据合并为一个一致的数据集合,以支持决策和分析。
数据库、数据仓库、大数据平台、数据中台、数据湖对比分析一、概况层出不穷的新技术、新概念、新应用往往会对初学者造成很大的困扰,有时候很难理清楚它们之间的区别与联系。
本文将以数据研发相关领域为例,对比分析我们工作中高频出现的几个名词,主要包括以下几个方面:•数据▪什么是大数据▪数据分析与数据挖掘的区别是什么•数据库▪什么是数据库▪数据库中的分布式事务理论•数据仓库▪什么是数据仓库▪什么是数据集市▪数据库与数据仓库的区别是什么•大数据平台▪什么是大数据平台▪什么是大数据开发平台•数据中台▪什么是数据中台▪数据仓库与数据中台的区别与联系•数据湖▪什么是数据湖▪数据仓库与数据湖有什么区别与联系希望本文对你有所帮助,烦请读者诸君分享、点赞、转发。
二、数据什么是大数据?麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
我们再往深处思考一下,为什么会有大数据(大数据技术)?其实大数据就是在这个数据爆炸增长的时代,业务需求增长促进技术迭代,技术满足需求后又形成闭环促进业务持续增长,从而形成一个闭环。
数据分析与数据挖掘的区别是什么?数据分析可以分为广义的数据分析和狭义的数据分析。
广义的数据分析就包括狭义的数据分析和数据挖掘。
我们在工作中经常常说的数据分析指的是狭义的数据分析。
三、数据库据库什么是数据库?数据库是按照数据结构来组织、存储和管理数据的仓库。
是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。
一般而言,我们所说的数据库指的是数据库管理系统,并不单指一个数据库实例。
根据数据存储的方式不同,可以将数据库分为三类:分别为行存储、列存储、行列混合存储,其中行存储的数据库代表产品有Oracle、MySQL、PostgresSQL等;列存储的数据代表产品有Greenplum、HBASE、Teradata等;行列混合存储的数据库代表产品有TiDB,ADB for Mysql等。
数据管理平台管理办法一、背景介绍随着信息化时代的发展,各个行业和组织都面临着大量的数据产生和管理的挑战。
为了更好地管理和利用数据资源,提高数据的质量和价值,许多组织开始建立数据管理平台。
数据管理平台是一种集中管理和控制数据的系统,能够帮助组织实现数据的规范化、标准化、集中化和共享化。
二、目标和原则1. 目标:数据管理平台的目标是建立一个统一的数据管理框架,确保数据的一致性、完整性、准确性和安全性,提高数据的可信度和可用性,为组织的决策和业务提供可靠的数据支持。
2. 原则:数据管理平台的管理应遵循以下原则:- 统一性原则:建立统一的数据管理标准和规范,确保数据的一致性和标准化。
- 安全性原则:加强数据的安全管理,保护数据的机密性、完整性和可用性。
- 共享性原则:促进数据的共享和交流,提高数据的利用效率和价值。
- 可追溯性原则:建立数据的追溯机制,确保数据的来源可查和数据操作可追溯。
- 持续改进原则:不断完善数据管理平台,提高数据管理的水平和效果。
三、组织结构和职责1. 数据管理委员会:负责制定数据管理策略和规划,协调各部门之间的数据管理工作,解决数据管理中的重大问题和冲突。
2. 数据管理部门:负责具体的数据管理工作,包括数据采集、数据清洗、数据存储、数据分析等,确保数据的质量和可用性。
3. 数据管理员:负责数据管理平台的日常运维和管理,包括用户权限管理、数据备份和恢复、数据安全管理等。
4. 数据使用部门:各部门根据自身的业务需求使用数据管理平台提供的数据,确保数据的正确性和合法性。
四、数据管理流程1. 数据采集:根据业务需求和数据管理策略,采集相关的数据,包括内部数据和外部数据。
2. 数据清洗:对采集的数据进行清洗和预处理,包括去重、去噪、填充缺失值等,确保数据的准确性和完整性。
3. 数据存储:将清洗后的数据存储到数据管理平台的数据库中,建立数据仓库和数据集市,便于数据的管理和利用。
4. 数据分析:对存储的数据进行分析和挖掘,提取有价值的信息和知识,为组织的决策和业务提供支持。
数据仓库建设方案(范文大全)第一篇:数据仓库建设方案1.数据仓库概述经过多年IT的建设,信息对于XXX的日常管理已经日益重要,并逐渐成为重要的信息资产,信息资产的管理已经成为日常管理中一个非常重要的环节。
如何管理和利用好XXX内部纷繁的数据也越来越成为信息管理的一项重要工作。
在过去相当一段时间内,XXX业务系统的构建主要围绕着业务的数据展开,应用的构建多是自下而上构建,主要以满足某个部门的业务功能为主,我们称之为业务处理的时代。
这样的构建方式造成了一个个分立的应用,分立的应用导致了一个个的静态竖井。
由于数据从属于应用,缺乏XXX全局的单一视图,形成了一个个信息孤岛,分立的系统之间缺乏沟通,同样数据的孤岛导致只能获得片面的信息,而不是全局的单一视图。
存储这些信息的载体可能是各种异构或同构的关系型数据库,也有可能是XML、EXCEL等文件。
因此,构建新一代的一体化平台提上了日程并最终促成全域数据的管理方式,目的是覆盖XXX各个环节的关键业务数据,完善元数据管理,形成全局的数据字典、业务数据规范和统一的业务指标含义,能够灵活的获取XXX业务数据的单一视图(需要保证数据的一致性、完整性、准确性和及时性)。
数据的交换和共享主要发生在上下级组织机构之间或同级的不同部门之间。
最终,这些数据可以为部队分析、决策支持(多维分析、即席查询、数据挖掘)等应用提供更及时、准确、有效的支持。
数据仓库的目标是实现跨系统数据共享,解决信息孤岛,提升数据质量,辅助决策分析,提供统一的数据服务。
同时,数据仓库的构建也面临着各种挑战,比如信息整合在技术上的复杂度、信息整合的管理成本、数据资源的获取、信息整合的实施周期以及整合项目的风险等。
Page 2 of 7 2.全域数据库总体架构展示层应用层多维分析门户统一授权服务手机平板电脑单点登录PC即席查询报表统计统计分析预测分析分析型管理流程整合数据整合空间数据其他应用基础服务层应用服务器服务总线工作流引擎消息中间件OLAP引擎数据挖掘引擎事件驱动规则引擎协同工作主数据管理引擎大数据分析引擎知识内容管理引擎空间地理数据引擎数据存储区OSD数据仓库数据集市特征库模型库预测数据地理数据MDMHUB共享数据库大数据流媒体数据信息治理、元数据管理IT安全运维管理IT 综合监控交换服务体系数据联邦数据复制数据清洗数据转换大数据流消息队列流程服务信息服务交互服务消息服务数据层(ISB)应用层关系型数据源非关系型数据源传感器/监控数据源核心业务边防一体化其他XMLExcelWeb服务消息队列文本数据摄像头虚拟传感器智能传感器基础设施层(网络、存储、硬件、系统软件)全域数据库总体架构全域数据库总体的层次,最下面是基础架构层,主要包括支撑这一架构运行的主机系统、存储备份系统、网络系统等内容。
商业银行常见的数据架构体系正文目录商业银行常见的数据架构体系 (3)1、数据采集层 (4)2、存储计算层 (4)(1)主数据区: (4)(2)指标汇总区: (5)(3)集市区(仓内): (6)(4)批量接口区: (6)(5)非结构化数据存储计算区: (6)(6)历史数据区: (6)(7)实时数据区: (6)(8)在线访问区: (6)3、仓外集市数据区 (7)4、报表区 (7)5、数据探索区 (8)商业银行常见的数据架构体系我国商业银行经过20多年的信息化建设,形成了比较完善的IT体系架构,但是随着银行业务和信息技术的迅速发展,却产生越来越多的不同种类的业务数据,它们分散在不同的系统中且无法作为一个整体被运用,给银行的数据管理和运用带来了巨大挑战;同时,竞争越来越激烈的商业银行意识到了通过分析运用数据来挖掘自身潜力和提高业绩,巩固其市场竞争力。
数据仓库通过集成、统一数据,使数据得到有效运用,为商业银行提高管理和服务水平提供了有效的手段。
狭义的数据仓库数据架构用来特指数据分布,广义的数据仓库数据架构还包括数据模型、数据标准和数据治理。
即包含相对静态部分如元数据、业务对象数据模型、主数据、共享数据,也包含相对动态部分如数据流转、ETL、整合、访问应用和数据全生命周期管控治理。
数据架构层面通过数据分类、分层部署等手段,从非功能性视角将数据合理布局。
通过整体架构管控和设计,支持业务操作类和管理分析类应用(系统),满足业务发展及IT转型对数据的需求,架构的扩展性和适应性能够提升数据分析应用的及时性、灵活性和准确性。
那实际情况下各个银行的数据架构体系会有所不同,根据各行的业务发展、客户数据量、交易数据量、功能需求等会有不同的演变路径以及发展方向。
银行业务较复杂,数据量也较多,数据架构也因此进化较快。
常见的数据架构分区如下图所示:1、数据采集层数据缓冲区的数据主要是将数据从源系统加载到数据仓库中,作为数据在数据仓库的起点,数据缓存区数据只保留7-10天,以备数据问题处理,数据缓冲区的数据除了标准化的处理,最好直接获取源系统未经加工的数据,以便一次抽取,多次使用。
数据集市DataMart数据集市数据集市(Data Mart),也叫数据市场,为满⾜特定的部门或者⽤户需求,按照多维的⽅式进⾏存储,包括定义维度、需要计算的指标、维度的层次等,⽣成⾯向决策分析需求的数据⽴⽅体。
数据集市,迎合了专业⽤户群体的特殊需求,包括分析、内容、表现,以及易⽤性⽅⾯。
数据集市,是企业级数据仓库的⼀个⼦集,主要⾯向部门级业务,只⾯向某个特定的主题。
来源数据集市数据来源于企业范围的数据库、专业的数据仓库。
数据仓库与数据集市的区别指标数据仓库数据集市数据来源遗留系统、外部数据数据仓库范围企业级部门级或⼯作组级主题企业主题部门或特殊的分析主题数据粒度最细的粒度较粗的粒度数据结构规范化结构、星型模型、雪花模型星型模型、雪花模型历史数据⼤量的历史数据适度的历史数据优化处理海量数据/数据探索便于访问和分析/快速查询索引⾼度索引⾼度索引特征规模⼩特定的应⽤⾯向部门由业务部门定义、设计和开发业务部门管理和维护快速实现购买较便宜投资快速回收⼯具集的紧密集成提供更详细的、预先存在的、数据仓库的摘要⼦集可升级到完整的数据仓库数据结构通常为星型结构或雪花结构。
⼀个星型结构包括:事实表和维表。
事实表事实表描述数据集市中最密集的数据。
例如,呼叫中⼼的呼叫数据;银⾏中⾃动柜员机的数据;零售业的销售数据、库存数据等;维表维有围绕着事实表建⽴,通过外键与事实表相连。
数据集市类型独⽴型独⽴型数据集市的数据来⾃于操作型数据库,是为了满⾜特殊⽤户⽽建⽴的⼀种分析型环境。
优点:开发周期较短⽐较灵活缺点:脱离数据仓库容易形成信息孤岛不能以全局的视⾓去分析数据从属型从属型数据集市的数据来⾃于企业的数据仓库。
优点:体系结构⽐独⽴型数据集市更稳定提⾼了数据分析的质量保证了数据⼀致性缺点:开发周期较长。
数据仓库的发展历程简述v0.1数据仓库发展历程及相关概念1.1 概述数据仓库的概念可能⽐⼀般⼈想像的都要早⼀些,中间也经历⽐较曲折的过程。
其最初的⽬标是为了实现全企业的集成(Enterprise Integration),但是在发展过程中却退⽽求其次:建⽴战术性的数据集市(Data Marts)。
到⽬前为⽌,还有很多分歧、论争,很多概念模棱两可甚⾄是彻底的让⼈迷惑。
本⽂试图从数据仓库的发展历史中看到⼀些发展的脉络,了解数据仓库应该是怎么样的,并展望⼀下未来的数据仓库发展⽅向。
同时,由于新应⽤的不断出现,出现了很多新的概念和新的应⽤,这些新的应⽤如何统⼀现成完整的企业BI应⽤⽅案还存在很多争论。
本⽂试图对这些概念做⼀些简要的阐述,让⼤家对此有初步的了解。
1.2 粗略发展过程1.2.1 开始阶段(1978-1988)数据仓库最早的概念可以追溯到20世纪70年代MIT的⼀项研究,该研究致⼒于开发⼀种优化的技术架构并提出这些架构的指导性意见。
第⼀次,MIT的研究员将业务系统和分析系统分开,将业务处理和分析处理分成不同的层次,并采⽤单独的数据存储和完全不同的设计准则。
同时,MIT的研究成果与80年代提出的信息中⼼(Information Center)相吻合:即把那些新出现的、不可以预测的、但是⼤量存在的分析型的负载从业务处理系统中剥离出来。
但是限于当时的信息处理和数据存储能⼒,该研究只是确⽴了⼀个论点:这两种信息处理的⽅式差别如此之⼤,以⾄于它们只能采⽤完全不同的架构和设计⽅法。
之后,在80年代中后期,作为当时技术最先进的公司,DEC已经开始采⽤分布式⽹络架构来⽀持其业务应⽤,并且DEC公司⾸先将业务系统移植到其⾃⾝的RDBMS产品:RdB。
并且,DEC公司从⼯程部、销售部、财务部以及信息技术部抽调了不同的⼈员组建了新的⼩组,不仅研究新的分析系统架构,并要求将其应⽤到其全球的财务系统中。
该⼩组结合MIT的研究结论,建⽴了TA2(Technical Architecture 2)规范,该规范定义了分析系统的四个组成部分:数据获取、数据访问、⽬录、⽤户服务其中的数据获取和数据访问⽬前⼤家都很清楚,⽽⽬录服务是⽤于帮助⽤户在⽹络中找到他们想要的信息,类似于业务元数据管理;⽤户服务⽤以⽀持对数据的直接交互,包含了其他服务的所有⼈机交互界⾯,这是系统架构的⼀个⾮常⼤的转变,第⼀次将交互界⾯作为单独的组件提出来。
数据仓库与数据集市(1)数据仓库(DW)的定义有关数据仓库这一概念目前还没有统一的定义,其中比较公认的是由数据仓库之父W.HJnmon在《BulldingtheDatawarehouse》一书中给出的定义:数据仓库是一个面向主题的、集成的、非易失的、随时间变化的、用来支持管理人员决策的数据集合。
数据仓库处理的数据与一般的信息系统中的数据不同,它来自结构不同的、分布的数据源,包括细节数据、综合数据、历史数据和外部数据。
在美国,数据仓库技术和应用的发展很快,近年来已成为仅次于Intemet的又一技术热点。
数据仓库的发展是市场激烈竞争的结果,因为成功的数据仓库系统可以为企业带来巨大的经济效益以及良好的信息服务。
数据仓库技术的真正意义在于帮助人们制定能够改进商业活动的决策。
基于数据仓库的决策支持系统需要从企业长期的业务活动所积累的大量数据中分析企业的发展规律和市场变化趋势,一般不对数据仓库中的数据进行更新操作,主要进行经常性的复杂查询操作。
数据仓库与操作型数据库有很大的区别,所以需要将两种环境分开。
两种数据环境的区别主要表现在以下几个方面:①系统性能不同:在操作型系统中,数据的输人、更新和删除等操作很频繁,实时性要求高,一般要求在极短的时间内得到响应,否则会影响用户的使用。
而在面向分析的数据仓库中,数据一旦进人数据仓库,就很少被更新。
但决策用到大量数据的复杂查询分析,这些复杂的查询操作可能会花费较长的时间,如几分钟甚至几十分钟,如果在操作型数据环境中进行数据分析,会严重影响系统的性能。
②数据访问方式不同:各种数据源对数据仓库的用户来说是透明的,而数据库的用户需要考虑数据库的结构。
③数据格式不同:操作型系统存放的是细节数据,不同的数据源数据格式可以不同;而数据仓库中既存放细节数据,又存放各种粒度级别的综合数据,所有数据以提高查询速度为目的进行存储和管理。
除此,数据仓库中还需要包括来自外部数据源的数据、半结构化/非结构化数据和历史数据。
所以用于分析的数据仓库环境与操作型数据环境必须分开,以免相互影响、相互干扰。
数据仓库体系结构的要求:不能妨碍操作型数据系统,具有数据抽取和转换功能,管理当前数据和历史数据,快速响应复杂的查询,并提供有效的分析工具。
能满足这些要求的数据仓库一般具有以下特性:①基于维模型;②保留历史数据;③包括详细数据和概括性数据;④在保持一致性的前提下,将多个数据源的数据集成在一起;⑤面向主题,如销售、金融、保险等。
(2)数据集市(DMart一DataMart)企业级数据仓库中包含的是海量数据(TB数量级),信息涵盖整个企业,所以创建这样一个数据仓库往往需要花费大量的资金,以及大量的人力和物力,需要很长的开发周期,这样势必影响用户对系统的兴趣和信心。
相对而言,数据集市是针对企业某个部门的,规模较小,开发周期较短,可以很快投人应用,使用户尽早获益。
大型数据仓库的建设往往从数据集市的建设开始,这些数据集市在数据仓库建成之前就发挥作用了。
但为了防止各部门的数据集市成为信息孤岛,在开始建立数据集市前必须考虑数据集市的结构和管理方法,一般采用与数据仓库相同的规则和管理方法,使之成为未来数据仓库的一部分。
因此可以认为数据集市是一种简化的数据仓库,是企业级数据仓库的一个子集,面向某个特定的主题,主要为企业各部门的中层决策者提供服务。
数据集市具有以下特点:①规模小,灵活;②数据集市的粒度一般比数据仓库小,因为其需求更明细、更具体;③开发工作一般由业务部门来组织、设计、实施和维护;④能够快速实现,代价低,开发周期短,风险小;⑤有利于功能的扩展,数据集市可集成形成中心数据仓库或分布式数据仓库。
2 构建OMart/D讨体系方法创建数据集市的方法主要有自顶向下和自底向上两种方法,这两种方法各有特色,各有利弊。
理论上研究得较多的是自顶向下的方法,即由中心数据仓库通过分发数据构成非独立的数据集市。
(1)自底向上构建独立数据集市先开发各个部门的DMart,以递增、进化的方式逐步实现数据仓库13]。
这种方法的开发周期较短,在建好各部门数据集市的情况下,企业级的DW开发比较简单。
这种方式建立的数据集市,其数据来源于企业内、外的异构数据源,这种数据集市称为独立数据集市,如图1所示。
这种方式的不足之处与处理方法:①如果独立数据集市的构造和增殖不加控制,则不利于将数据集市集成到企业中心数据仓库中,这样在将这些数据集市集成到数据仓库时往往需要对它们进行较大的修改。
造成集成困难的主要原因有:商业规则不同、数据格式不统一、数据集市设计方案的表达方式不同,等等。
为了解决数据集市集成困难的问题,在开发数据集市时,应采用统一的数据仓库信息模型,可采用共享元数据中心库的方式,使企业主题域、通用维、度量、业务规则、数据的组织格式、数据源等在逻辑上统一,即事先制定一些必要的标准和规则,在设计数据集市时就遵守这些约定,以便日后可以方便地将数据集市集成到企业中心数据仓库中。
②随着数据集市的增多,用户可能会访问其他部门的数据集市进行交叉查询分析,而数据集市之间的连接必须依靠数据库中间件来完成,这些连接的透明性差,不易管理,所以执行多数据集市之间的交叉查询分析效果比较差。
③匆忙开发的独立型数据集市,其设计容易受操作型系统的影响,甚至匆忙开发的数据仓库也会受操作型系统的影响,其结构与OLTP系统类同,不能很好地反映用户面向主题分析的需求。
因此开发数据集市应该和开发数据仓库一样,遵循相应的一些原则。
(2)自顶向下方法构建非独立型数据集市构建(DM art/I)W体系的另一种模型如图2所示,就是先构建企业级DW,再将数据分发到各DMart中。
这种模型的每DMart的构建比较简单,数据可统一管理,但开发周期较长。
这种方式建立的数据集市,其数据来源于全局数据仓库,称为非独立数据集市。
这种方式的优点如下:①这是收集、建模和实现最终用户决策支持需求的严格而又普遍的方法,它将数据仓库的设计方法应用于数据集市的设计和实现中,技术上比较可靠;②这种方法建立了一个面向全企业的数据仓库,可使用户对企业的业务、组织和发展有全面的了解;③所有数据集市的数据均来自同一个中心数据仓库,所以数据格式是统一的。
这种方法的缺点是:①使用这种方法的开发周期长,开发费用高;②功能调整不易,不能及时根据客户反馈的意见进行改进;③由于初期效果不明显,如果处理不当,很容易使用户对新系统失去信心和耐心,从而导致系统的失败。
(3)联合方法构建混合型数据集市上面介绍的两种方法各有利弊,因此人们希望有一种折中解决的方案,既能控制成本,缩短投资回报时间,又能解决后期集成问题,从而提出了混合型数据集市的开发方案。
这种数据仓库系统包含独立数据集市、中心数据仓库、非独立数据集市气混合型数据集市克服了自顶向下方法开发周期长、开发成本高,以及自底向上方法后期集成困难等问题,但是仍然存在数据重复存储、数据冗余度大的问题。
3 DW/DMart体系结构的改进本文提出一种新的方法建立DW/DMart体系结构(如图4所示),它既不同于自顶向下方法和自底向上方法,也有别于传统意义的联合方法;在开发独立数据集市过程中采用和建立数据仓库相同的标准和规则,这样可使各数据集市的后期集成更加简单;而整个DW/DMart)W系统建好后,使用同一数据加载机制同时向各部门数据集市和企业中心数据仓库加载数据:将当前数据和轻度综合数据加载到数据集市,便于部门级领导针对各部门经营情况作出各部门的具体决策;将历史数据和共享数据加载到中心数据仓库,便于所有部门共享;并通过二次集成将各部门高度综合的数据加载到中心数据仓库,便于企业高层领导根据整个企业的总体经营情况快速地做出全局性的决策。
这种结构既具有自底向上方法的优点,有利于系统用原型法进行开发,缩短开发周期;又具有自顶向下方法的优点,独立数据集市和数据仓库具有相同的数据格式和管理规范,有利于数据集市的集成和数据的管理;而且与联合方法建成的混合型体系结构不同,数据存储结构更合理,数据冗余度较小,且提供给各级决策者的数据更符合他们的决策需要。
下面对该体系结构的设计思想进行具体说明。
①由于开发基于数据仓库的企业决策支持系统是一项复杂的系统工程,开发周期长,开发成本高;漫长的开发过程容易使用户丧失对系统的兴趣和耐心。
为了降低开发难度、缩短开发周期、使系统尽快投人使用,使用户尽快从系统获利,本系统开发过程采用原型法,即先建立企业某部门(例如营销部)的数据集市(DMart)做为一个原型,再以同样的方法建立各部门的数据集市,最后将这些数据集市通过数据上传的方法来构造企业级的中心数据仓库。
由于数据集市是针对部门级决策的,结构相对简单,规模比数据仓库小,只针对某一特定主题,所以开发周期短,见效快。
②对于细节数据和共享的数据并不存放在各部门的数据集市中,而是存放在企业的中心数据仓库的历史数据库和共享数据库中,对于超过一定年限的历史数据则导出到大容量的低速存储设备。
各部门的数据集市中只存储和本部门有关的当前数据及轻度综合数据,并不长期保留历史数据,这样既方便各部门领导进行具体决策,又使各数据集市不需要太多的空间,使数据的存储结构更合理,管理和使用更方便。
③企业级决策者一般无暇过问各部门的具体事务和具体经营情况,他们只关心跟整个企业发展有关的重大问题和企业的整体经营情况,所以只需要将各部门的高度综合数据上传至企业的中心数据仓库即可,不需要将各部门的轻度综合数据都上传至企业的中心数据仓库。
高度综合的数据更有利于企业高层领导更快地作出一些重大的决策。
④数据仓库和数据集市用相同的规范进行管理,数据在整个数据仓库系统中的格式是统一的,这样就解决了数据格式不一致、数据集市集成困难以及多个数据集市交叉查询困难等问题。