当前位置：文档之家› 关于数据仓库若干关键技术的研究

关于数据仓库若干关键技术的研究

收稿日期 2001-06-26

基金项目黑龙江省教育厅科学技术研究项目(9551104)。文章编号:1005-3751(2002)01-0029-03

关于数据仓库若干关键技术的研究

Study on critical techniques of Data Warehouse

周丽娟1,柳池2,刘大昕1(1.哈尔滨工程大学计算机科学技术学院,黑龙江哈尔滨150001;2.哈尔滨理工大学计算机与控制学院,黑龙江哈尔滨150080)

Z H O U Li j uan1,LI U Chi2,LI U Da x in1(1.College of Computer Science and Technology,Harbi n Engineering U niv., Harbin HLJ.150001;https://www.doczj.com/doc/2611394414.html,puter&Control College,Harbi n Univ.of Science and Technology,Harbin HLJ150080,China)

摘要:介绍数据仓库系统的基本结构,讨论了建立数据仓库的几个关键技术和实现方法,并比较了各种方法的优缺点,以便在数据仓库的实施中选择高效的技术方案。

关键词:数据仓库;实视图;联机分析处理

ABS TRACT:Introduces structure of data w arehouse system and discusses som e critical techniques and methods of i m plement in data w arehouse.These methods are compared so that w e choose efficient technical s oluti on.

KEYWO RDS:Data Warehouse;M aterilized View;On_li ne Ana lytical Processing

中图分类号:T P311.13文献标识码:A

1引言

随着数据库技术的成熟和广泛应用,人们积累了大量的数据,利用这些数据可以进行分析和推理,辅助企业的决策,使企业获得最大的效益。当今企业面临着一个激烈竞争的环境,自动快速获得有用的决策信息是企业获得最大效益的重要环节。因此有必要建立企业的决策支持系统(DSS)。但随着数据量的迅速增大以及查询要求的复杂化,建立在联机事务处理(OL T P)的数据库上的DSS,暴露出许多难以克服的问题:数据分散、没有统一的标准,缺乏组织性;只存储当前数据,难以满足决策分析对所需的历史数据的分析;数据访问效率低下。为了弥补数据库系统存在的不足,数据仓库(DW)的思想逐步形成。数据仓库是一个用以更好的支持企业或组织的决策分析处理的、面向主题的、集成的、稳定的、随时间不断变化的数据集合。

数据仓库系统不同于数据库系统,作为一个新兴的研究领域,数据仓库发展很快。本文侧重讨论数据仓库所需解决的主要问题和可采用的技术。2数据仓库系统的基本结构

数据仓库系统由数据仓库、仓库管理工具和分析工具三部分组成,如图1。

图1数据仓库系统的结构

数据仓库的数据来源于多个不同的数据源,它可以是通常的数据库系统,但也可以是非传统的数据,如文件、HT M L和SGM L文件、知识库等。

数据仓库管理包括:在确定了数据仓库的信息需求后,首先进行数据建模,然后确定从数据源到数据仓库的数据抽取、清理和转换过程,最后确定数据仓库的存储方法。元数据是数据仓库的核心,它是对数据库中各个对象的描述,它遍及数据仓库的所有方面。数据仓库管理包括对数据的安全、归档、维护、备份、恢复等工作,这些工作需要数据库管理系统的支持。

数据仓库是面向分析的,所以分析工具是数据仓库系统的一个重要组成部分。分析工具包括用于完成决策问题所需的各种查询工具、检索工具、OL AP分析工具和数据挖掘工具等,以实现决策支持系统的各种要求。

2002年第1期微机发展

3数据仓库若干关键技术

数据仓库中数据量十分庞大,其实现是一项复杂的任务,要考虑相应的技术支持,如索引优化、视图的一致性维护、实视图的选择、并行处理技术、数据集成、存储与管理、多维数据组织、查询优化等。

3.1索引优化

不论是数据库还是数据仓库,索引建立的好坏直接影响访问效率。索引查找是优化查询响应时间的重要方法,因而它在数据仓库中得以系统的应用以提高数据仓库的处理能力。在数据仓库中存在复杂的查询类型、海量数据和频繁的读操作,这些因素使在OL T P 系统中的查询处理/优化技术不适合数据仓库环境。

传统的B-T REE索引在数据库系统中作为外部索引已经被广泛应用,它对查询响应时间和空间提供了有效的结构。它非常适合于查找并取回少量记录的情况。但对于数据仓库的复杂交互查询,存在三个缺点:

(1)B-T R EE只在索引是高基数(基数是一个表列中不同值的个数与整个表中的行数的比值)的时候才有价值;

(2)B-T R EE索引在数据仓库中构造和维护的代价高;

(3)B-T R EE索引对于简单查询比较有效,而在数据仓库的复杂查询中,往往是无能为力的。

因此,在数据仓库中采用位图索引(Bit-M ap)技术,它可使查询处理和索引存取的效率提高许多倍。位图索引突破B-T REE索引的一些限制,它可以非常有效的对低基数数据进行索引。位图索引就是使用0或1来表明在元组中的属性值是否和一特定值相等。在位串中一位的状态表明了表中元组的状态。

索引的主要任务就是通过缩小搜索空间的范围来加速查询过程。无论是B-T REE还是位图索引都可以达到此目的。但是,在查询中给出两个或更多选择条件,比如A=a i和B=b j,在属性A和B上分别建立的B-T REE索引,它们不能有效的综合,共同完成查询。需要建立在复合关键字上的另外一个B-T REE 索引。然而,在A和B属性上分别建立的位图索引,它们能共同取回所需的数据,只要在相应的位图向量上实施一个!AN D?操作即可。因此,在用户查询中涉及的属性最大有n个,只要建立n个位图索引即可。选择条件的任何组合都包括n个属性的任意子集,可以通过在相应位图向量上实施逻辑操作即可被计算出来。但是如果在复合关键字上建立B-T REE索引,为了包含在n个属性上所有可能的选择条件,需要C n1+C n2+#+C n n=2n-1个B-T REE索引。维护如此多的B-T REE的代价是难以接受的。

在数据仓库环境中,位图索引优于B-T R EE索引:(1)建立和维护位图索引时间和空间代价小;(2)位图索引可以彼此一起工作达到减少搜索空间的目的。

然而,随着关键字的基数增加,建立和维护位图索引的时间和空间复杂度也迅速提高。在高基数情况下的另外一个问题是位图向量的稀疏。稀疏度平均是(m -1)/m,其中m是属性的基数。随着m的增长,空间利用率下降,这时,位图索引的性能迅速下降,可能比B -T REE索引的性能更差。因此位图索引不适合高基数数据,如对于姓名或地址等可能有数万个选值的数据往往需要取回全部原始数据值才能获得查询结果。

在数据仓库环境下,位图索引优于B-T R EE索引,但随着基数的增加,位图索引存在不可克服的缺点。如何高效地建立数据仓库的索引,提高查询性能,从整体上使系统得到最优,是需要进一步研究和探讨的问题。

3.2视图的维护

数据仓库中存储了大量的从多个、分布、异质数据源中集成的信息,这些信息数据仓库中以视图的形式存在,被称为实视图(M ater ialized View)。数据仓库主要是为O LAP提供支持。OLA P查询分析通常需要涉及大量的数据,不可能将查询传送到原始的数据源中去,因为这不仅很复杂,且非常耗时,尤其当数据源很多,而且分布在不同的场地时。因此在数据仓库中实视图即用作快速查询和分析,它有效的提高了查询速度和响应时间。但当基础关系表因元素的插入、删除和更新而发生变化时,实视图必须作相应更新以保证查询结果的正确性。这种对源数据发生变化后,保证视图也是最新的过程叫视图维护(V iew M aintenance)。保证实视图与源数据一致是数据仓库要解决的关键问题之一。

对视图维护问题的一种解决方法就是每次当原始数据发生改变时,在数据仓库端对实视图频繁的重新计算。这种方法会导致很大的额外存储和维护代价。而且这种作法有时也是不可能的,因为数据仓库的空间是有限的。因此,近几年对视图维护采用增量计算的方法比较多,即当数据源中的数据发生变化时报告给集成器,集成器计算相应的变化,然后将这些变化通告给数据仓库。Y.Zhuge等人提出了ECA方法(Eager Compensating Alg orithm)。该算法设计只针对单个数据源的情况,它通过补偿查询来解决更新问题。

30微机发展2002年第1期

后来,Y.Zhuge打破了ECA算法中单数据源的限制,提出了Strobe算法。该算法基于多数据源环境视图一致性维护。它要求所有基本关系的关键字都包含于视图中。除了此视图的定义限制外,还要求实视图更新时必须保证信息源是静止的。

对于多数据源的视图维护算法,Agraw al等人提出了SW EEP算法。和Strobe算法相比,它对视图的定义更灵活,它不要求基本关系的关键字必须保存在视图中。另外,它不要求视图更新时系统是静止的。

上述三种算法有一个共同的限制即是信息到达视图的顺序和在数据源产生时的顺序相同。

3.3实视图的选择

视图维护导致了所谓的视图维护代价。数据仓库中存储的许多实视图占据着大量的存储空间,而且它们的一致性维护也需要占用大量的CPU时间。在存储空间有限、用于维护的视图的CPU时间有限,同时又要最大限度缩短O LAP查询时间的情况下,对所有视图都进行实体化是不可能的,选择其中一部分实体化已成为目前数据仓库研究的重要课题。这个问题被称作视图选择问题(VSP),它直接影响用于决策支持的数据质量和数据仓库的效率和维护代价。

为了解决VSP问题,很多研究人员提出了一些解决方法。一个最显而易见的算法就是在一系列查询中应用完全搜索算法进行实视图选择。然而如果搜索空间很大时,这种算法代价很高,是不切实际的。H.

G upta使用Gr eedy算法,它检查一小部分状态空间,使实视图满足空间的条件限制,达到了时间要求,但这种方法性能不是很好的。Kenneth.A.Rose研究动态视图的修改问题。J.Y ang给出了一个结构和算法,其基本思想是选择大部分视图可以?共享%的公共子视图进行实体化。遗传算法是基于自然选择和基因遗传原理的优化和搜索算法,用它来解决VSP问题也不失为好的选择。利用遗传算法将视图选择问题的解决方法看成是染色体展现。每个染色体都由固定数目的二进制串组成(0或1),固定数目是指在A ND-OR图中候选视图的数目。0表明相应的结点在数据仓库中不被实体化,1则表明要实体化的视图。对每种方法返回代价函数,它是查询代价和维护代价的总和。得到的代价函数越小,这种方法越好。

3.4其他技术

数据仓库中所涉及的技术远远不止上述这些。还要考虑其他一些关键问题:

&数据仓库的建模与设计数据仓库多采用?雪片%(snow-flake)模式,其优点是可以方便的组织层次结构数据,体现维的不同粒度的划分。其通过最大限度地减少数据存储量及把较小的标准化表联合在一起来改善查询功能。

&数据集成数据仓库中的数据来自于多种业务数据源,这些数据源可能是在不同的硬件平台上,使用不同的操作系统,因而数据以不同的格式存在不同的数据库中。如何往数据仓库中加载这些数量大、种类多的数据,也是要解决的一个问题。

&数据仓库存贮与管理数据仓库中存储的主要是历史数据,不象常规视图,是当前数据的直接映射,因而对之进行有效的管理是数据仓库要解决的重要问题之一。

&并行处理技术为提高查询速度和响应时间,需要采用并行处理技术。它包括数据的并行加载,查询的并行执行、查询与数据加载的并行等。

4结束语

数据仓库是90年代发展起来的新技术,目前,国内应用数据仓库技术还处于起步阶段。在目前极其复杂而且竞争激烈的商业环境中,可以利用数据仓库中已存储的信息帮助决策者进行决策,以给企业带来经济效益。本文讨论了建立数据仓库的几个关键性技术,要真正发挥数据仓库的作用,开发一个灵活、高效的数据仓库,还有许多问题需要进一步研究和探讨。

[参考文献]

[1]Yue Zhuge,H ector Ga rcia-M oli na,Jane t L.Wi ene r.The Strobe

Algorithms f or Mul t i_Source Warehouse Co nsi stency[C].Interna

t i o nal Conference on Paral led and Di stri but e d Information System,

Dec.1996.

[2]王珊.数据仓库技术和联机分析处理[M].北京:科学出版社,

1998.6.

[3]Jorng-T zong H orng,Yu-Jan Chang,Baw-Jhiune L i u,Cheng_

Ya n Kao.M ateriali zed View Selec t i o n using Gene t i c Algori t hms in s

Data Warehouse[C].Evolut i onary Co mputation,1999.CEC99.

P roceedings o f the1999Cong ress on Publi she d1999.3.

[4]P a ul Gray,Hug h J.Wat son.Present and Future Dire ct i ons in Data

Warehousing[J].The DAT A BASE for Advanced in Information

System1998,29(3).

[5]Spac ecapietra,S.F e edi ng dat a Warehouse s[C].Proce edi ngs.1999

International Sym posi um on Publi she d:2000.16-18.

[6]Chuan Zhang,Jia n Yang.Materi alized V i ew Ev ol ution Support i n

Data Warehouse Env i ronm e nt[C].Database Systems fo r Ad

vanc edApplic at i o ns,1999.P roceedings.,6th International Conferece

on Publi shed:1999.247-254.

2002年第1期微机发展

数据仓库建设的几点建议.doc

北京甲骨文软件有限公司咨询经理鲁百年博士一、国内信息化的现状 1、信息化建设的发展历史：在国内信息化建设过程中，基本上是按照当时业务系统的需求进行建设，例如：在一个企业中，财务部门为了减少工资发放的差错，提高发放的效率，先建设一个工资发放和管理程序；为了报账和核对的需求，建设一个财务管理程序；在银行首先为了业务处理的方便，将最基本的手工记帐和处理的业务建成一个系统，过一段时间，如果有新的业务推出，就再建设一个新的系统，或在原系统的基础上增加新的业务处理。这样的结果使每个系统和系统之间缺少真正的信息沟通和信息交换。 2、为何要建立数据仓库：前面我们讲过，业务系统各自为政，相互独立。当很多业务系统建立后，由于领导的要求和决策的需求，需要一些指标的分析，在相应的业务系统基础上再增加分析和相应的报表功能，这样每个系统就增加了报表和分析功能。但是，由于数据源不统一导致了对同一个指标分析的结果不相同。为了解决该问题，Bell Inman提出了数据仓库的概念，其目的是为了分析和决策的需要，将相互分离的业务系统的数据源整合在一起，可以为领导和决策层提供分析和辅助决策。 3、国内企业对数据仓库建设认识的误区：大家对数据仓库的认识是将业务系统的数据进行数据抽取、迁移和加载（ETL），将这些数据进行整合存放在一起，统一管理，需要什么样的分析就可提供什么样的分析，这就是数据仓库。这样做的结果是花了一年到两年的时间都无法将整个企业业务系统的数据整合在一起，花钱多、见效慢、风险大。一年后领导问起数据仓库项目时，回答往往是资金不足，人力不够，再投入一些资源、或者再延长半年的时间就会见到效果，但是往往半年过后还是仅仅可以看到十几张或者几十张报表。领导不满意，项目负责人压力也很大，无法交待。这时，项目经理或者项目负责人才意识到，项目有问题，但是谁也不敢说项目有问题，因为这样显然是自己当时的决策失误。怎么办？寻找咨询公司或者一些大的厂商，答案往往是数据仓库缺乏数据模型，应该考虑数据模型。如果建设时考虑到整个企业的数据模型，就可以建设成企业级的数据仓库（EDW。什么是数据模型，就是满足整个企业分析要求的所有数据源。结果会如何，我个人认为：这样做企业级数据仓

数据库与数据仓库的区别是什么

数据库与数据仓库的区别是什么简而言之，数据库是面向事务的设计，数据仓库是面向主题设计的。数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余，一般采用符合范式的规则来设计，数据仓库在设计是有意引入冗余，采用反范式的方式来设计。数据库是为捕获数据而设计，数据仓库是为分析数据而设计，它的两个基本的元素是维表和事实表。维是看问题的角度，比如时间，部门，维表放的就是这些东西的定义，事实表里放着要查询的数据，同时有维的ID。单从概念上讲，有些晦涩。任何技术都是为应用服务的，结合应用可以很容易地理解。以银行业务为例。数据库是事务系统的数据平台，客户在银行做的每笔交易都会写入数据库，被记录下来，这里，可以简单地理解为用数据库记帐。数据仓库是分析系统的数据平台，它从事务系统获取数据，并做汇总、加工，为决策者提供决策的依据。比如，某银行某分行一个月发生多少交易，该分行当前存款余额是多少。如果存款又多，消费交易又多，那么该地区就有必要设立ATM了。显然，银行的交易量是巨大的，通常以百万甚至千万次来计算。事务系统是实时的，这就要求时效性，客户存一笔钱需要几十秒是无法忍受的，这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的，它要提供关注时间段内所有的有效数据。这些数据是海量的，汇总计算起来也要慢一些，但是，只要能够提供有效的分析数据就达到目的了。数据仓库，是在数据库已经大量存在的情况下，为了进一步挖掘数据资源、为了决策需要而产生的，它决不是所谓的“大型数据库”。那么，数据仓库与传统数据库比较，有哪些不同呢?让我们先看看W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。 “面向主题的”:传统数据库主要是为应用程序进行数据处理，未必按照同一主题存储数据;数据仓库侧重于数据分析工作，是按照主题存储的。这一点，类似于传统农贸市场与超市的区别—市场里面，白菜、萝卜、香菜会在一个摊位上，如果它们是一个小贩卖的;而超市里，白菜、萝卜、香菜则各自一块。也就是说，市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的，超市里面则是按照菜的类型(同主题)归堆的。 “与时间相关”:数据库保存信息的时候，并不强调一定有时间信息。数据仓库则不同，出于决策的需要，数据仓库中的数据都要标明时间属性。决策中，时间属性很重要。同样都是累计购买过九车产品的顾客，一位是最近三个月购买九车，一位是最近一年从未买过，这对于决策者意义是不同的。 “不可修改”:数据仓库中的数据并不是最新的，而是来源于其它数据源。数据仓库反映的是历史信息，并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库

数据仓库建设方案详细

第1章数据仓库建设 1.1数据仓库总体架构专家系统接收增购项目车辆TCMS或其他子系统通过车地通信传输的实时或离线数据，经过一系列综合诊断分析，以各种报表图形或信息推送的形式向用户展示分析结果。针对诊断出的车辆故障将给出专家建议处理措施，为车辆的故障根因修复提供必要的支持。根据专家系统数据仓库建设目标，结合系统数据业务规，包括数据采集频率、数据采集量等相关因素，设计专家系统数据仓库架构如下：数据仓库架构从层次结构上分为数据采集、数据存、数据分析、数据服务等几个方面的容：数据采集：负责从各业务自系统中汇集信息数据，系统支撑Kafka、Storm、Flume

及传统的ETL采集工具。数据存储：本系统提供Hdfs、Hbase及RDBMS相结合的存储模式，支持海量数据的分布式存储。数据分析：数据仓库体系支持传统的OLAP分析及基于Spark常规机器学习算法。数据服务总线：数据系统提供数据服务总线服务，实现对数据资源的统一管理和调度，并对外提供数据服务。 1.2数据采集专家系统数据仓库数据采集包括两个部分容：外部数据汇集、部各层数据的提取与加载。外部数据汇集是指从TCMS、车载子系统等外部信息系统汇集数据到专家数据仓库的操作型存储层（ODS）；部各层数据的提取与加载是指数据仓库各存储层间的数据提取、转换与加载。 1.2.1外部数据汇集专家数据仓库数据源包括列车监控与检测系统（TCMS）、车载子系统等相关子系统，数据采集的容分为实时数据采集和定时数据采集两大类，实时数据采集主要对于各项检测指标数据；非实时采集包括日检修数据等。根据项目信息汇集要求，列车指标信息采集具有采集数据量大，采集频率高的特点，考虑到系统后期的扩展，因此在数据数据采集方面，要求采集体系支持高吞吐量、高频率、海量数据采集，同时系统应该灵活可配置，可根据业务的需要进行灵活配置横向扩展。本方案在数据采集架构采用Flume+Kafka+Storm的组合架构，采用Flume和ETL 工具作为Kafka的Producer，采用Storm作为Kafka的Consumer，Storm可实现对海量数据的实时处理，及时对问题指标进行预警。具体采集系统技术结构图如下:

关于数据仓库若干关键技术的研究

收稿日期 2001-06-26 基金项目黑龙江省教育厅科学技术研究项目(9551104)。文章编号:1005-3751(2002)01-0029-03 关于数据仓库若干关键技术的研究 Study on critical techniques of Data Warehouse 周丽娟1,柳池2,刘大昕1(1.哈尔滨工程大学计算机科学技术学院,黑龙江哈尔滨150001;2.哈尔滨理工大学计算机与控制学院,黑龙江哈尔滨150080) Z H O U Li j uan1,LI U Chi2,LI U Da x in1(1.College of Computer Science and Technology,Harbi n Engineering U niv., Harbin HLJ.150001;https://www.doczj.com/doc/2611394414.html,puter&Control College,Harbi n Univ.of Science and Technology,Harbin HLJ150080,China) 摘要:介绍数据仓库系统的基本结构,讨论了建立数据仓库的几个关键技术和实现方法,并比较了各种方法的优缺点,以便在数据仓库的实施中选择高效的技术方案。关键词:数据仓库;实视图;联机分析处理 ABS TRACT:Introduces structure of data w arehouse system and discusses som e critical techniques and methods of i m plement in data w arehouse.These methods are compared so that w e choose efficient technical s oluti on. KEYWO RDS:Data Warehouse;M aterilized View;On_li ne Ana lytical Processing 中图分类号:T P311.13文献标识码:A 1引言随着数据库技术的成熟和广泛应用,人们积累了大量的数据,利用这些数据可以进行分析和推理,辅助企业的决策,使企业获得最大的效益。当今企业面临着一个激烈竞争的环境,自动快速获得有用的决策信息是企业获得最大效益的重要环节。因此有必要建立企业的决策支持系统(DSS)。但随着数据量的迅速增大以及查询要求的复杂化,建立在联机事务处理(OL T P)的数据库上的DSS,暴露出许多难以克服的问题:数据分散、没有统一的标准,缺乏组织性;只存储当前数据,难以满足决策分析对所需的历史数据的分析;数据访问效率低下。为了弥补数据库系统存在的不足,数据仓库(DW)的思想逐步形成。数据仓库是一个用以更好的支持企业或组织的决策分析处理的、面向主题的、集成的、稳定的、随时间不断变化的数据集合。数据仓库系统不同于数据库系统,作为一个新兴的研究领域,数据仓库发展很快。本文侧重讨论数据仓库所需解决的主要问题和可采用的技术。2数据仓库系统的基本结构数据仓库系统由数据仓库、仓库管理工具和分析工具三部分组成,如图1。图1数据仓库系统的结构数据仓库的数据来源于多个不同的数据源,它可以是通常的数据库系统,但也可以是非传统的数据,如文件、HT M L和SGM L文件、知识库等。数据仓库管理包括:在确定了数据仓库的信息需求后,首先进行数据建模,然后确定从数据源到数据仓库的数据抽取、清理和转换过程,最后确定数据仓库的存储方法。元数据是数据仓库的核心,它是对数据库中各个对象的描述,它遍及数据仓库的所有方面。数据仓库管理包括对数据的安全、归档、维护、备份、恢复等工作,这些工作需要数据库管理系统的支持。数据仓库是面向分析的,所以分析工具是数据仓库系统的一个重要组成部分。分析工具包括用于完成决策问题所需的各种查询工具、检索工具、OL AP分析工具和数据挖掘工具等,以实现决策支持系统的各种要求。 29 2002年第1期微机发展

数据库和数据仓库的区别

简而言之，数据库是面向事务的设计，数据仓库是面向主题设计的。数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余，一般采用符合范式的规则来设计，数据仓库在设计是有意引入冗余，采用反范式的方式来设计。数据库是为捕获数据而设计，数据仓库是为分析数据而设计，它的两个基本的元素是维表和事实表。维是看问题的角度，比如时间，部门，维表放的就是这些东西的定义，事实表里放着要查询的数据，同时有维的ID。单从概念上讲，有些晦涩。任何技术都是为应用服务的，结合应用可以很容易地理解。以银行业务为例。数据库是事务系统的数据平台，客户在银行做的每笔交易都会写入数据库，被记录下来，这里，可以简单地理解为用数据库记帐。数据仓库是分析系统的数据平台，它从事务系统获取数据，并做汇总、加工，为决策者提供决策的依据。比如，某银行某分行一个月发生多少交易，该分行当前存款余额是多少。如果存款又多，消费交易又多，那么该地区就有必要设立ATM了。显然，银行的交易量是巨大的，通常以百万甚至千万次来计算。事务系统是实时的，这就要求时效性，客户存一笔钱需要几十秒是无法忍受的，这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的，它要提供关注时间段内所有的有效数据。这些数据是海量的，汇总计算起来也要慢一些，但是，只要能够提供有效的分析数据就达到目的了。数据仓库，是在数据库已经大量存在的情况下，为了进一步挖掘数据资源、为了决策需要而产生的，它决不是所谓的“大型数据库”。那么，数据仓库与传统数据库比较，有哪些不同呢?让我们先看看W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。 “面向主题的”:传统数据库主要是为应用程序进行数据处理，未必按照同一主题存储数据;数据仓库侧重于数据分析工作，是按照主题存储的。这一点，类似于传统农贸市场与超市的区别—市场里面，白菜、萝卜、

《数据仓库与数据挖掘技术》第1章：数据仓库与数据挖掘概述

数据仓库与数据挖掘技术

第1章数据仓库与数据挖掘概述1.1数据仓库引论1 1.1.1为什么要建立数据仓库1 1.1.2什么是数据仓库2 1.1.3数据仓库的特点7 1.1.4数据进入数据仓库的基本过程与建立数据仓库的步骤11 1.1.5分析数据仓库的内容12 1.2数据挖掘引论13 1.2.1为什么要进行数据挖掘13 1.2.2什么是数据挖掘18 1.2.3数据挖掘的特点21 1.2.4数据挖掘的基本过程与步骤22 1.2.5分析数据挖掘的内容26 1.3数据挖掘与数据仓库的关系28 1.4数据仓库与数据挖掘的应用31 1.4.1数据挖掘在零售业的应用31 1.4.2数据挖掘技术在商业银行中的应用36 1.4.3数据挖掘在电信部门的应用40 1.4.4数据挖掘在贝斯出口公司的应用42 1.4.5数据挖掘如何预测信用卡欺诈42 1.4.6数据挖掘在证券行业的应用43 思考练习题一44

1.1.1为什么要建立数据仓库数据仓库的作用建立数据仓库的好处

1.1.2 什么是数据仓库 1．数据仓库的概念 W.H.Inmon在《Building the Data Warehouse》中定义数据仓库为：“数据仓库是面向主题的、集成的、随时间变化的、历史的、稳定的、支持决策制定过程的数据集合。”即数据仓库是在管理人员决策中的面向主题的、集成的、非易失的并且随时间而变化的数据集合。 “DW是作为DSS基础的分析型DB，用来存放大容量的只读数据，为制定决策提供所需的信息。” “DW是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的。即与企业定义的时间区段相关，面向主题且不可更新的数据集合。” 数据仓库是一种来源于各种渠道的单一的、完整的、稳定的数据存储。这种数据存储提供给可以允许最终用户的可以是一种他们能够在其业务范畴中理解并使用的方式。数据仓库是大量有关公司数据的数据存储。仓库提供公司数据以及组织数据的访问功能，其中的数据是一致的（consistent），并且可以按每种可能的商业度量方式分解和组合；数据仓库也是一套查询、分析和呈现信息的工具；数据仓库是我们发布所用数据的场所，其中数据的质量是业务再工程的驱动器（driver of business reengineering）。定义的共同特征：首先，数据仓库包含大量数据，其中一些数据来源于组织中的操作数据，也有一些数据可能来自于组织外部；其次，组织数据仓库是为了更加便利地使用数据进行决策；最后，数据仓库为最终用户提供了可用来存取数据的工具。

数据仓库与数据挖掘

数据仓库与数据挖掘摘要数据挖掘是一新兴的技术，近年对其研究正在蓬勃开展。本文阐述了数据仓库及数据挖掘的相关概念．做了相应的分析，同时共同探讨了两者共同发展的关系，并对数据仓库与挖掘技术结合应用的发展做了展望。用Data Miner作为对数据挖掘的工具，给出了应用于医院的数据仓库实例。指出了数据挖掘技术在医疗费用管理、医疗诊断管理、医院资源管理中具有的广泛应用性，为支持医院管理者的分析决策作出了积极探索。 Abstract The Data Mine is a burgeoning technology，the research about it is developing flourishing．In this paper，it expatiates and analyses the concepts of Data Warehouse and Data Mine Together，discussing the connections of how to expand the two technologies，and combining the two technologies with prospect．The data warehouse supports the mass data on the further handling and recycling．The paper points out the use of data mining in patient charge control，medical quality control， hospital resources allocation management． It helps the hospital to make decisions positively 关键字：数据仓库；数据挖掘；医院信息系统 Key words：Data Warehouse；Data Mine；Hospital information system

数据仓库技术制定方案

数据仓库制定方案在当下的数据仓库系统安全控制模块中，我国数据仓库安全分为不同的等级。总体来说，我国的数据仓库安全性是比较低。为更好的健全计算机数据仓库体系，进行数据仓库安全体系的研究是必要的。很多软件都是因为其比较缺乏安全性而得不到较大范围的应用，归根结底是数据仓库安全性级别比较低。为满足现阶段数据仓库安全工作的需要，有利于数据仓库保密性的控制，保证这些数据存储与调用的一致性。当前数据仓库安全控制过程中，首先需要对这些数据进行可用性的分析，从而有利于避免数据仓库遭到破坏，更有利于进行数据仓库的损坏控制及其修复。其次为了保证数据仓库的安全性、效益性，也离不开对数据仓库整体安全性方案的应用。最后必须对数据仓库进行的一切操作进行跟踪记录，以实现对修改和访问数据仓库的用户进行追踪，从而方便追查并防止非法用户对数据仓库进行操作。 2.1数据仓库安全整体规划本方案通过对电力行业敏感信息泄露安全威胁的分析，对数据仓库安全进行整体设计与规划，通过全系列数据仓库安全产品相互之间分工协作，共同形成整体的防护体系，覆盖了数据仓库安全防护的事前诊断、事中控制和事后分析。制定严密可行的实施计划，整个工程严格按照计划进行；公司质量控制部利用ISO9000质量管理规范对工程的软件开发及实施全过程进行监督和控制；建立完善的软件开发和工程实施的文档体系。对程序进行测试，对各个模块之间的关联情况下可能出现的问题进行严密的测试，并不断完善在测试过程中暴露出来的问题。在这过程中质量控制小组将全程参与，确保软件质量。需求调研是数据仓库开发的最重要的环节之一，在调研的过程中能否真实、准确地描述客户的需求，对于数据仓库的开发有着举足轻重的影响。与客户沟通不够导致对同一个事物的描述或者理解有分歧和差异，或者调研过程中流于表面文字，而没有进入实际的操作，都可能造成在需求调研的过程中造成对需求不精确的理解。失之毫厘，谬之千里，需求调研的微小差异可能会在软件的开发过程中造成较大的偏差，直接影响了工程的建设质量。为此我们为需求调研工作分配

建设数据仓库7个步骤

成功实施数据仓库项目的七个步骤建立一个数据仓库并不是一个简单的任务，不应该由一个人单独完成。由于数据仓库最佳结合了业务惯例和信息系统技术，因此，一个成功的数据仓库实施需要这两方面的不断协调，以均衡其所有的需要，要求，任务和成果。我很乐意与大家分享我在规划和管理任何数据库项目时采用的方法，这些数据库包括交易数据库，数据仓库，和混合型数据库。由于我生活在关系数据库和数据仓库以及用以支撑它们的数据提取，转换和加载(ETL )过程中，所以我会集中在这些领域讨论我的方法。然而，您可以将这些方法扩展到整个栈--OLAP立方体和如报告，特征分析(ad-hoc analysis)，记分卡和仪表盘展示之类的信息传递应用。我不是吃撑了要告诉一个真正的项目经理( PM )如何做他或她的工作，相反，我写的这些是为那些数据库管理员和开发者，他们没有好运气能与有经验的项目经理一起工作;同样也适合这样的IT专业人员，他们被突然要求：“建立一个数据仓库“，并且需要自己扮演项目经理的角色。我的讨论不会是完整的，但我希望这会给您足够的信息来让您的项目球滚起来。如图1所示，数据仓库项目有3个轨道(tracks)：数据轨道，技术轨道和应用层轨道。当您在整理任何数据库项目计划时，我建议您以这三个轨道为模板来管理和同步您的活动。当您向技术决策者( TDMs ) ，商业决策者( BDMs ) ，和所有其他该数据仓库项目参与者讲解您的计划时，您也可以把图1当作一个高级的概要图来使用。使用一种生命周期管理方法我鼓励您利用您的组织可以提供的资源，比如设计，开发和部署系统和软件的技术和方法。如果贵公司对于这些工作没有采用任何正式的方法，继续前进吧，您可采用我为我自己的数据库项目开发的7D数据库生

数据仓库建设方案84099

1.数据仓库概述经过多年IT的建设，信息对于XXX 的日常管理已经日益重要，并逐渐成为重要的信息资产，信息资产的管理已经成为日常管理中一个非常重要的环节。如何管理和利用好XXX 内部纷繁的数据也越来越成为信息管理的一项重要工作。在过去相当一段时间内，XXX 业务系统的构建主要围绕着业务的数据展开，应用的构建多是自下而上构建，主要以满足某个部门的业务功能为主，我们称之为业务处理的时代。这样的构建方式造成了一个个分立的应用，分立的应用导致了一个个的静态竖井。由于数据从属于应用，缺乏XXX 全局的单一视图，形成了一个个信息孤岛，分立的系统之间缺乏沟通，同样数据的孤岛导致只能获得片面的信息，而不是全局的单一视图。存储这些信息的载体可能是各种异构或同构的关系型数据库，也有可能是XML 、EXCEL 等文件。因此，构建新一代的一体化平台提上了日程并最终促成全域数据的管理方式，目的是覆盖XXX 各个环节的关键业务数据，完善元数据管理，形成全局的数据字典、业务数据规范和统一的业务指标含义，能够灵活的获取XXX 业务数据的单一视图（需要保证数据的一致性、完整性、准确性和及时性）。数据的交换和共享主要发生在上下级组织机构之间或同级的不同部门之间。最终，这些数据可以为部队分析、决策支持（多维分析、即席查询、数据挖掘）等应用提供更及时、准确、有效的支持。数据仓库的目标是实现跨系统数据共享，解决信息孤岛，提升数据质量，辅助决策分析，提供统一的数据服务。同时，数据仓库的构建也面临着各种挑战，比如信息整合在技术上的复杂度、信息整合的管理成本、数据资源的获取、信息整合的实施周期以及整合项目的风险等。

数据仓库技术在医院信息系统中的应用

数据仓库技术在医院信息系统中的应用本文介绍了数据仓库技术的发展历程及特点，对数据仓库技术在医院信息管理平台的应用进行了分析，并对医院信息平台使用数据仓库技术提出了建议，为数据仓库技术在医院的建设及使用提供了一定有价值的参考。标签：数据仓库；医院信息；应用数据仓库可为所有类型的数据起到支持与集合作用，也是企业发展过程中对决策定制必须要用到的。数据仓库作为独立的数据存储，对企业业务报告进行分析以及作出决策等提供一定支持，对业务流程、所花费成本以及质量等进行控制的一种系统。 1 数据仓库技术数据仓库由数据仓库之父比尔·恩门（Bill Inmon）于1990年提出，主要功能是将组织透过资讯系统之联机事务处理（OLTP）经年累月所累積的大量资料，透过数据仓库理论所特有的资料储存架构，有系统的进行分析整理，以利于各种分析方法如联机分析处理（OLAP）、数据挖掘（Data Mining）的进行，并进而支持如决策支持系统（DSS）、主管资讯系统（EIS）的创建，帮助决策者能快速有效的从大量资料中，分析出有价值的资讯，有利于决策拟定及快速回应外在环境变动，帮助建构商业智能（BI）[1]。数据仓库技术主要对数据库中获得的信息进行研究和分析，以找出解决方法，因此，数据仓库最大的特点就是具有集成性、稳定性和实时性。 2 数据仓库的特点数据仓库最大的特点就是可以在数据库存储大量数据的情况下，还可以对数据进行深度挖掘，以对企业在决策问题上提供支持。数据仓库同其他系统大型数据库不同，数据仓库存在的最主要目的就是为企业所得数据进行分析与查询，以为企业提供数据依靠，所以在所用的存储量上较多。数据仓库为了能为企业提供更多前端应用服务，在其实际应用过程中还存在以下几点特点： 2.1对数据仓库要求效率过高数据库对数据进行分析也是有其规律的，分别按照年、季、月、周、日为周期对数据进行分析。以日周期为例，对数据仓库的要求上尤其高，要求其分析数据的频率能够在客户所要求的时间内得出结果。但对于大型企业来说，每天企业所涉及的数据量非常多，如果数据仓库使用不恰当则会延误客户的需求，进而给企业造成影响。 2.2对数据质量要求严格数据仓库所收集到的各种信息必须保证准确，如果在某一数据或者某一代码中出现错误，那么往往就会造成部分数据失真。在数据仓库实际使用过程中所涉及环节较多，且内容复杂，因此，在为客户所提供的数据信息上仍会有错误数据存在，使客户作出错误的判断，进而对企业造成损失。

互联网大数据与传统数据仓库技术比较研究

互联网大数据与传统数据仓库技术比较研究韩路 1.Hadoop技术简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，是目前全世界最主流的大数据应用平台。以分布式文件系统（HDFS）和MapReduce为核心的Hadoop，目前已整合了其他重要组件如Hive、HBase、Spark，以及统一资源调度管理组件Yarn，形成了一个完成的Hadoop产品生态圈。 1.1.HDFS HDFS是一个分布式文件系统，可设计部署在低成本硬件上。它可以通过提供高吞吐率支持大量数据的批量处理，同时支持应用程序流式访问系统数据。 1.2.MapReduce MapReduce是一种编程模型，用于大规模数据机的并行运算。MapReduce可以将一个任务分发到Hadoop平台各个节点上并以一种可靠容错的方式并行处理大量数据集，实现Hadoop的并行任务处理功能。 1.3.Hive Hive是用于对Hadoop中文件进行数据整理、特殊查询和分析储存的工具。Hive提供了一种结构化数据的机制，支持类似传统结构化数据库中SQL元的查询语言，帮助熟悉SQL的用户查询HDFS中数据。 1.4.HBase HBase是一个分布式的、列式储存的开源数据库。HBase不同于传统关系型数据库，适合非结构化数据储存，同时可以为一个数据行定义不同的列。HBase 主要用于需要随机访问、实时读写的大数据。 1.5.Spark Spark是基于内存计算的分布式计算框架。Spark提出了RDD概念，弥补了MapReduce在并行计算各个阶段无法进行有效数据共享的缺陷。同时，Spark形成了自己的生态系统：SparkSQL、SparkStreaming、MLlib，并完全兼容Hadoop 生态系统。

数据仓库技术及其在金融行业的应用

数据库技术及其在金融行业的应用 1. 前言数据库仓库（DW）技术从1991年开始出现，经过多年的摸索和应用，目前在一些发达国家已经建设得比较成熟，为企业综合与灵活的分析型应用提供了强大的数据支撑，为管理层的分析决策和操作层的智能营销提供了技术保证，为企业带来了多方面的收益。而在国内，数据库仓库仍处于尝试或初级建设阶段。国内的金融行业，随着外部监管和信息披露的压力、内部管理和决策分析的需要，在建设分析类应用时，也正在逐渐从孤立的数据层向统一的数据仓库层规划和转移。建立数据仓库能够减少对数据层的重复投资和资源浪费、统一数据标准、监管和提高数据质量、消除信息孤立、支持综合分析和灵活及时的分析型应用、适应管理和发展、提高业内竞争力。本文对数据库技术做一个概括性的介绍，并对国内外金融行业数据仓库技术的应用现状做一个简单分析。 2. 数据仓库概念 2.1. DW的提出 2.1.1. 需求业务系统的建设与逐渐完善，巨量数据信息的积累。分析类需求不断增加，传统分析类应用造成巨大的资源浪费和管理困难。业务数据平台异构、数据来源口径多、标准不统一、信息孤立。整合部门级应用，建设企业级应用，满足综合分析、复杂查询、智能营销等高级需求。 2.1.2. DW概念的提出 MIT在20世纪70年代对业务系统和分析系统的处理过程进行研究，结论是只能采用完全不同的架构和设计方法。 1988年，IBM为解决全企业数据集成问题，提出了信息仓库的概念，确立了原理、架构和规范。但没有进行实际的设计。 1991年，Bill Inmon提出了数据仓库概念，并对为什么建设数据仓库和如何建设数据仓库进行了论述。Bill Inmon被称为数据仓库之父。

数据仓库和LOAP应用技术

数据仓库和LOAP应用技术传统数据库以及OLTP(On-Line Transaction Processing联机事务处理)在日常的管理事务处理中获得了巨大的成功，但是对管理人员的决策分析要求却无法满足。因为，管理人员常常希望能够通过对组织中的大量数据进行分析，了解业务的发展趋势。而传统数据库只保留了当前的业务处理信息，缺乏决策分析所需要的大量的历史信息。为满足管理人员的决策分析需要，就需要在数据库的基础上产生适应决策分析的数据环境——数据仓库(Data Warehouse)。数据仓库系统是一个信息提供平台，是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。从功能结构化分，数据仓库系统至少应该包含数据获取（Data Acquisition）、数据存储（Data Storage）、数据访问（Data Access）三个关键部分。其体系结构如下：业务处理系统即是数据库去实现的即时记录的功能，在数据准备区进行ETF处理，数据经过抽取、转换之后加载到数据仓库中，因此也说数据仓库是利用的已经存在的历史记录去整合，是利用原有数据分析下一步行动的决策，是有风险的。分析完主题和数据元后建立数据模型（概念模型、逻辑模型、物理模型）并形成事实表和纬度表，然后通过粒度分析将历史记录先抽取整合，然后再根据决策者可能用到的数据集合分解成若干记录，以备不同决策者使用；再利用OLAP工具技术进行数据的分析导出。当然，这些都在了解了管理者即客户的需求之后进行的，或者是由企业的管理者自己进行的技术应用或分析。模型设计的过程如下：

数据仓库是管理决策分析的基础，要有效地利用数据仓库的信息资源，必须要有强大的工具对数据仓库的信息进行分析决策。 On-line Analytical Processing(在线分析处理或联机分析处理)就是一个应用广泛的数据仓库使用技术。它可以根据分析人员的要求，迅速灵活地对当量的数据进行复杂的查询处理，并以直观的容易理解的形式将查询结果提供给各种决策人员，使他们能够迅速准确地掌握企业的运营情况，了解市场的需求。具体的说，OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义) OLAP的目标是满足决策支持或多维环境特定的查询和报表需求，它的技术核心是“维”这个概念，因此OLAP也可以说是多维数据分析工具的集合。OLAP是连接数据仓库和用户的桥梁，通过OLAP服务器用户可以很方便的浏览信息，进行决策！按照数据的存储方式进行分类，OLAP分为MOLAP，ROLAP，HOLAP三类。 OLAP支持最终用户进行动态多维分析、预测分析；切片和切块并在屏幕上显示，从宏观到微观，对数据进行深入分析；可查询底层的细节数据，在观察区域中选转，进行不同维之间的比较，在OLAP中有变量、维、维的层次、维成员、多维数组、数据单元等基本概念降，变量是从现实系统中抽象出来的，用于描述数据的实际含义；维是观察者观察数据的特定角度；维的层次是数据的某个维还可以存在细节程度不同的多个描述方面，称为维的层次；维成员是维的一个取值。如果一个维是多层次的，那么维成员就是不同维层次取值的组合。例如时间维具有年、月、日这三个层次，分别在年、月、目上各取一个值组合起来，就得到了时间维的一个维成员，如：2005年6月6日；多维数据集是决策支持的支柱，也是OLAP的核心，有时也称为立方体或超立方体。 0LAP使用三层的体系结构：数据库服务器、0LAP服务器和客户端工具。第一层是数据仓库服务器，它实现与基层运营的数据库系统的连接，完成企业级数据一致和数据共享的工作。第二层是OLAP服务器，它根据最终客户的请求实现分解成OLAP分析的各种动作，并使用数据仓库中的数据完成这些动作。

数据仓库技术与应用

数据仓库技术与应用 LEKIBM standardization office【IBM5AB- LEKIBMK08- LEKIBM2C】

文章编号 :5(2004 03 收稿日期 :27 基金项目 :教育部高等学校骨干教师资助计划项目 (GG 28 作者简介 :项军 (19792 , 男 , 四川绵阳人 , 空军工程大学导弹学院计算机工程系硕士研究生 , 研究方向 :智能信息处理与人工智能 ; 雷英杰 (19562 , 男 , 陕西渭南人 , 教授 , 博士生导师 , 研究方向 :智能信息处理 , 模式识别 , 人工智能。数据仓库技术与应用项军 , 雷英杰 (空军工程大学导弹学院 , 陕西三原 713800 摘要 :对数据仓库、联机分析处理和数据挖掘等几个概念做了详细的介绍 , 在此基础上提出适用于电信系统应用的设计思想 , 详细介绍了该系统的系统结构、关键技术的实现和各子系统功能。关键词 :数据仓库 ; 联机分析处理 ; 数据挖掘中图分类号 :文献标识码 :A The T echnique and Application of Data W arehouse XI ANGJun ,LEI Y ing 2jie (Missile Institute of Air F orce Engineering University ,Sanyuan 713800,China Abstract :This paper introduces the concepts of data warehouse ,on 2line analytical processing and data mining ,puts forward the design thought of telecommunication system and briefly introduces the system structure ,the key techniques of the system and the functions of each sub 2system. K ey w ords :data warehouse ;on 2line analytical processing ;data mining 0引言

数据仓库建设对数据量、硬件、软件的要求

1、不同数据量级别对服务器硬件、软件的要求（要考虑到数据的双向传输、压力等状况）（我们目前的数量级别是多少？如果考虑到服务明细数据、三年的增量等）不同数据量级别对服务器硬件、软件的要求：没什么特别要求，只要保证单台数据查询比较快就OK，数据量级别主要是靠横向扩展机器的台数来满足，只要数据是按照最初设计的存储方式来存储，满足我们查询的速度即可；目前我们数据量单表每天5000左右的量，整个数据库10g左右，未来三年可能是一年2000万的处理量，三年后数据量可能到达上亿条记录，整个数据库35g左右。 2、Oracle数据库对数据量有没有什么限制？在Oracle中，数据库是由实例和物理存储结构组成的。而物理存储结构是指存储在磁盘上的物理文件，包括数据文件（data file）、控制文件（control file）、联机重做日志（online redo log）、参数文件（spfile/pfile）、警告日志（alert log）、跟踪文件（trace file）等众多作用不同的文件所组成的。我们最关注的数据，则是保存在数据文件（data file）中。那我们在创建以及维护数据库时，该如何规划数据文件的大小和数量呢？这里面涉及较多的考量因素。主要有如下几点： 2.1操作系统的限制数据库是运行在操作系统之上的，操作系统是基础，因此，操作系统所能支持的最大文件容量和数量就成为数据库所能支持的限制。但不同操作系统之间，这个限制也是不同的。以下是较为常见的几种操作系统对此的限制： 2.1.1 WINDOWS 最大数据块：16K 最大文件数量：20000个（数据块2K时）/40000个(数据块4K时）/65536个（数据块为8K或16K时）最大文件容量：4GB（文件系统为FAT时）/ 64GB（文件系统为NTFS时） 2.1.2 UNIX和LINUX 最大数据块：32K (LINUX_X86为16K) 最大文件数量：65534个 2.2O RACLE数据库的限制每个数据库可管理的最大文件数量：65533个

BI_数据仓库基础

1 BI Business Intelligence，即商业智能，商务智能综合企业所有沉淀下来的信息，用科学的分析方法，为企业领导提供科学决策信息的过程。 BOSS业务运营支撑系 BPM企业绩效管理 BPR业务流程重整 CRM客户关系管理 CUBE立方体 DM（Datamart）数据集市数据仓库的子集，它含有较少的主题域且历史时间更短数据量更少，一般只能为某个局部范围内的管理人员服务，因此也称之为部门级数据仓库。 DM（DataMine）数据挖掘 DSS决策支持系统 EDM企业数据模型 3 ERP Enterprise Resourse Planning企业资源规划。它是一个以管理会计为核心的信息系统，识别和规划企业资源，从而获取客户订单，完成加工和交付，最后得到客户付款。换言之，ERP将企业内部所有资源整合在一起，对八个采购、生产、成本、库存、分销、运输、财务、人力资源进行规划，从而达到最佳资源组合，取得最佳效益。 4 ETL 数据抽取（Extract）、转换（Transform）、清洗（Cleansing）、装载（Load）的过程。构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗，最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。 KDD数据库中知识发现 5 KPI 企业关键业绩指标(KPI：KeyProcessIndication)是通过对组织内部流程的输入端、输出端的关键参数进行设臵、取样、计算、分析，衡量流程绩效的一种目标式量化管理指标，是把企业的战略目标分解为可操作的工作目标的工具，是企业绩效管理的基础。 LDM逻辑数据模型 6 MDD 多维数据库（Multi Dimesional Database,MDD）可以简单地理解为：将数据存放在一个n维数组中，而不是像关系数据库那样以记录的形式存放。因此它存在大量稀疏矩阵，人们可以通过多维视图来观察数据。多维数据库增加了一个时间维，与关系数据库相比，它的优势在于可以提高数据处理速度，加快反应时间，提高查询效率。 Metadata(元数据)，它是“关于数据的数据，其内容主要包括数据仓库的数据字典、数据的定义、数据的抽取规则、数据的转换规则、数据加载频率等信息。 MOLAP自行建立了多维数据库，来存放联机分析系统数据 7 ODS（四个特点） (Oprational Data Store)操作型数据存储，是建立在数据准备区和数据仓库之间的一个部件。用来满足企业集成的、综合的操作型处理需要，操作数据存储是个可选的部件。对于一些准实时的业务数据库当中的数据的暂时存储，支持一些同时关连到历史数据与实时数据分

数据仓库系统建设方案详细

河北省工商银行数据仓库系统建设方案建议书

北京世纪明日网络科技有限公司二零零零年三月河北省工商银行数据仓库系统建设方案目录第一章前言 1.1数据仓库发展史 1.2竞争日趋激烈的金融市场 1.3中国专业银行面临的挑战 1.4中国专业银行实施数据仓库的意义 1.5中国专业银行实施数据仓库已具备的条件第二章数据仓库总体概述 2.1 数据仓库基础 2.2 数据仓库技术概述 2.3 一个可扩展数据仓库的基本框架

2.4 一个数据仓库实施流程第三章系统体系结构设计 3.1系统设计指导思想 3.2 方案总体框架图 3.3 系统体系结构设计 3.4 系统方案的组成第四章银行数据仓库的建设 4.1 面向应用的OLTP系统和面向主题的OLAP系统 4.2 个性化服务的定义 4.3 业务探索/业务发掘 4.4 建立市场客户信息基础 4.5 利用数据仓库实现的基本模块 4.6 更高层次的开发应用 4.7 综合信息发布第五章方案实施建议 5.1 开发模式 5.2 组织机构 5.3 项目实施进程

5.4 项目进度计划第六章产品报价 6.1 软件产品报价 6.2 硬件产品报价 6.3 项目开发实施费用第一章前言 1.1 数据仓库发展史相对于许多行业而言，信息处理技术还是一门新兴的技术，但是其发展速度却几乎是最快的。随着计算机硬件技术的飞速发展，软件技术也是日新月异。许多企业和机构已经建立了相对完善的OLTP（联机事物处理）系统。随着时间的推移，这些系统中积累了大量的历史数据，其中蕴含了许多重要的信息。通过对这些历史数据的分析和综合处理，可以找到那些对企业发展至关重要的业务信息，从而帮助有关主管和业务部门作出更加合理的决策。70年代中期出现的MIS（管理信息系统）实际上就是在这种背景下产生的。但MIS具有极大的局限性。首先，它是按预先定义好的流程对数

数据仓库与数据挖掘技术复习资料

数据仓库与数据挖掘技术复习资料一、单项选择题 1.数据挖掘技术包括三个主要的部分（ C ） A．数据、模型、技术 B．算法、技术、领域知识 C．数据、建模能力、算法与技术 D．建模能力、算法与技术、领域知识 2.关于基本数据的元数据是指: ( D ) A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息； B.基本元数据包括与企业相关的管理方面的数据和信息； C.基本元数据包括日志文件和简历执行处理的时序调度信息； D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。 3.关于OLAP和OLTP的说法,下列不正确的是: ( A) A．OLAP事务量大,但事务内容比较简单且重复率高 B．OLAP的最终数据来源与OLTP不一样 C．OLTP面对的是决策人员和高层管理人员 D．OLTP以应用为核心，是应用驱动的 4．将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？( C ) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘5．下面哪种不属于数据预处理的方法？ ( D ) A.变量代换 B.离散化 C. 聚集 D. 估计遗漏值 6.在ID3 算法中信息增益是指（ D ） A.信息的溢出程度 B.信息的增加效益 C.熵增加的程度最大 D.熵减少的程度最大 7.以下哪个算法是基于规则的分类器 ( A ) A. C4.5 B. KNN C. Bayes D. ANN 8.以下哪项关于决策树的说法是错误的（ C ） A．冗余属性不会对决策树的准确率造成不利的影响 B．子树可能在决策树中重复多次 C．决策树算法对于噪声的干扰非常敏感 D．寻找最佳决策树是NP完全问题 9.假设收入属性的最小与最大分别是10000和90000，现在想把当前值30000映射到区间[0,1],若采用最大－最小数据规范方法，计算结果是（ A ）页9 共页1 第 A. 0.25 B. 0.375 C.0.125 D. 0.5 10.在抽样方法中，当合适的样本容量很难确定时，可以使用的抽样方法是：( D ) A.有放回的简单随机抽样 B.无放回的简单随机抽样