当前位置:文档之家› 联机分析处理

联机分析处理

联机分析处理

简介

联机分析处理,英文名称为On-Line Analysis Processing,简写为OLAP。

随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。操作型应用和分析型应用,特别是在性能上难以两全,人们常常在关系数据库中放宽了对冗余的限制,引入了统计及综合数据,但这些统计综合数据的应用逻辑是分散而杂乱的、非系统化的,因此分析功能有限,不灵活,维护困难。在国外,不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足,他们通过专门的数据综合引擎,辅之以更加直观的数据访问界面,力图统一分散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。1993年,E.F.Codd(关系数据库之父)将这类技术定义为“联机分析处理”。

作用

联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。决策数据是多维数据,多维数据就是决策的主要内容。OLAP专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。

联机分析处理具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利于迅速做出正确判断。它可用于证实人们提出的复杂的假设,其结果是以图形或者表格的形式来表示的对信息的总结。它并不将异常信息标记出来,是一种知识证实的方法。

起源

联机分析处理(OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响,OLAP 作为一类产品同联机事务处理(OLTP) 明显区分开来。

Codd提出OLAP的12条准则来描述OLAP系统:

准则1 OLAP模型必须提供多维概念视图

准则2 透明性准则

准则3 存取能力推测

准则4 稳定的报表能力

准则5 客户/服务器体系结构

准则6 维的等同性准则

准则7 动态的稀疏矩阵处理准则

准则8 多用户支持能力准则

准则9 非受限的跨维操作

准则10 直观的数据操纵

准则11 灵活的报表生成

准则12 不受限的维与聚集层次

分类

当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。下表列出了OLTP与OLAP之间的比较。

OLTP OLAP

用户操作人员,低层管理人员决策人员,高级管理人员

功能日常操作处理分析决策

DB 设计面向应用面向主题

数据当前的, 最新的细节的, 二维的分立的历史的, 聚集的, 多维的集成的, 统一的

存取读/写数十条记录读上百万条记录

工作单位简单的事务复杂的查询

用户数上千个上百个

DB 大小100MB-GB 100GB-TB

一、OLAP的发展背景

随着数据库技术的广泛应用,企业信息系统产生了大量的数据,如何从这些海量数据中提取对企业决策分析有用的信息成为企业决策管理人员所面临的重要难题。传统的企业数据库系统(管理信息系统)即联机事务处理系统(On-LineTransactionProcessing,简称OLTP)作为数据管理手段,主要用于事务处理,但它对分析处理的支持一直不能令人满意。因此,人们逐渐尝试对OLTP数据库中的数据进行再加工,形成一个综合的、面向分析的、更好的支持决策制定的决策支持系统(DecisionSupportSystem,简称DSS)。企业目前的信息系统的数据一般由DBMS管理,但决策数据库和运行操作数据库在数据来源、数据内容、数据模式、服务对象、访问方式、事务管理乃至无力存储等方面都有不同的特点和要求,因此直接在运行操作的数据库上建立DSS是不合适的。数据仓库(DataWarehouse)技术就是在这样的背景下发展起来的。数据仓库的概念提出于20世纪80年代中期,20世纪90年代,数据仓库已从早起的探索阶段走向实用阶段。业界公认的数据仓库概念创始人W.H.Inmon在《BuildingtheDataWarehouse》一书中对数据仓库的定义是:“数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的持久的数据集合”。

构建数据仓库的过程就是根据预先设计好的逻辑模式从分布在企业内部各处的OLTP 数据库中提取数据并对经过必要的变换最终形成全企业统一模式数据的过程。当前数据仓库的核心仍是RDBMS管理下的一个数据库系统。数据仓库中数据量巨大,为了提高性能,RDBMS一般也采取一些提高效率的措施:采用并行处理结构、新的数据组织、查询策略、索引技术等等。

包括联机分析处理(On-LineAnalyticalProcessing,简称OLAP)在内的诸多应用牵引驱动了数据仓库技术的出现和发展;而数据仓库技术反过来又促进了OLAP技术的发展。联机分析处理的概念最早由关系数据库之父E.F.Codd于1993年提出的。Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的要求,SQL 对大数据库的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,Codd提出了多维数据库和多维分析的概念,即OLAP。OLAP委员会对联机分析处理的定义为:使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP 也可以说是多维数据分析工具的集合。

二、联机分析处理的特点

在过去的二十年中,大量的企业利用关系型数据库来存储和管理业务数据,并建立相应的应用系统来支持日常业务运作。这种应用以支持业务处理为主要目的,被称为联机事务处理(OLTP,On-line Transaction Processing)应用,它所存储的数据被称为操作数据或者业务数据。

随着市场竞争的日趋激烈,近年来企业更加强调决策的及时性和准确性,这使得以支持决策管理分析为主要目的的应用迅速崛起,这类应用被称为联机分析处理,它所存储的数据被称为信息数据。

联机分析处理的用户是企业中的专业分析人员及管理决策人员,他们在分析业务经营的数据时,从不同的角度来审视业务的衡量指标是一种很自然的思考模式。例如分析销售数据,可能会综合时间周期、产品类别、分销渠道、地理分布、客户群类等多种因素来考量。这些分析角度虽然可以通过报表来反映,但每一个分析的角度可以生成一张报表,各个分析角度的不同组合又可以生成不同的报表,使得IT人员的工作量相当大,而且往往难以跟上管理决策人员思考的步伐。

联机分析处理的主要特点,是直接仿照用户的多角度思考模式,预先为用户组建多维的数据模型,在这里,维指的是用户的分析角度。例如对销售数据的分析,时间周期是一个维度,产品类别、分销渠道、地理分布、客户群类也分别是一个维度。一旦多维数据模型建立完成,用户可以快速地从各个分析角度获取数据,也能动态的在各个角度之间切换或者进行多角度综合

分析,具有极大的分析灵活性。这也是联机分析处理在近年来被广泛关注的根本原因,它从设计理念和真正实现上都与旧有的管理信息系统有着本质的区别。

事实上,随着数据仓库理论的发展,数据仓库系统已逐步成为新型的决策管理信息系统的解决方案。数据仓库系统的核心是联机分析处理,但数据仓库包括更为广泛的内容。

-概括来说,数据仓库系统是指具有综合企业数据的能力,能够对大量企业数据进行快速和准确分析,辅助做出更好的商业决策的系统。它本身包括三部分内容:

数据层。实现对企业操作数据的抽取、转换、清洗和汇总,形成信息数据,并存储在企业级的中心信息数据库中。

应用层。通过联机分析处理,甚至是数据挖掘等应用处理,实现对信息数据的分析。

表现层。通过前台分析工具,将查询报表、统计分析、多维联机分析和数据发掘的结论展现在用户面前。

从应用角度来说,数据仓库系统除了联机分析处理外,还可以采用传统的报表,或者采用数理统计和人工智能等数据挖掘手段,涵盖的范围更广;就应用范围而言,联机分析处理往往根据用户分析的主题进行应用分割,例如:销售分析、市场推广分析、客户利润率分析等等,每一个分析的主题形成一个OLAP应用,而所有的OLAP应用实际上只是数据仓库系统的一部分。

三、OLAP逻辑概念和典型操作

OLAP展现在用户面前的是一幅幅多维视图。

维(Dimension):是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。

维的层次(Level):人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。

维的成员(Member):维的一个取值,是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述)。

度量(Measure):多维数组的取值。(2000年1月,上海,笔记本电脑,0000)。

OLAP的基本多维分析操作有钻取(Drill-up和Drill-down)、切片(Slice)和切块(Dice)、以及旋转(Pivot)等。

钻取:是改变维的层次,变换分析的粒度。它包括向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)。Drill-up是在某一维上将低层次的细

节数据概括到高层次的汇总数据,或者减少维数;而Drill-down则相反,它从汇总数据深入到细节数据进行观察或增加新维。

切片和切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。

旋转:是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。

四、OLAP系统的体系结构和分类

数据仓库与OLAP的关系是互补的,现代OLAP系统一般以数据仓库作为基础,即从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到OLAP存储器中供前端分析工具读取。典型的OLAP系统体系结构如下图所示:

OLAP系统按照其存储器的数据存储格式可以分为关系OLAP (RelationalOLAP,简称ROLAP)、多维OLAP(MultidimensionalOLAP,简称MOLAP)和混合型OLAP(HybridOLAP,简称HOLAP)三种类型。

1.ROLAP

ROLAP将分析用的多维数据存储在关系数据库中并根据应用的需要有选择的定义一批实视图作为表也存储在关系数据库中。不必要将每一个SQL查询都作为实视图保存,只定义那些应用频率比较高、计算工作量比较大的查询作为实视图。对每个针对OLAP服务器的查询,优先利用已经计算好的实视图来生成查询结果以提高查询效率。同时用作ROLAP存储器的RDBMS也针对OLAP作相应的优化,比如并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQL的OLAP扩展(cube,rollup)等等。

2.MOLAP

MOLAP将OLAP分析所用到的多维数据物理上存储为多维数组的形式,形成“立方体”的结构。维的属性值被映射成多维数组的下标值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中。由于MOLAP采用了新的存储结构,从物理层实现起,因此又称为物理OLAP (PhysicalOLAP);而ROLAP主要通过一些软件工具或中间软件实现,物理层仍采用关系数据库的存储结构,因此称为虚拟OLAP(VirtualOLAP)。

3.HOLAP

由于MOLAP和ROLAP有着各自的优点和缺点(如下表所示),且它们的结构迥然不同,这给分析人员设计OLAP结构提出了难题。为此一个新的OLAP结构——混合型OLAP(HOLAP)被提出,它能把MOLAP和ROLAP两种结构的优点结合起来。迄今为止,对HOLAP还没有一个正式的定义。但很明显,HOLAP结构不应该是MOLAP与ROLAP结构的简单组合,而是这两种结构技术优点的有机结合,能满足用户各种复杂的分析请求。

rolap molap

沿用现有的关系数据库的技术

专为olap所设计

响应速度比molap慢;

现有关系型数据库已经对olap做了很多优化,包括并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、sql 的olap扩展(cube,rollup)等,性能有所提高

性能好、响应速度快

数据装载速度快

数据装载速度慢

存储空间耗费小,维数没有限制

需要进行预计算,可能导致数据爆炸,维数有限;无法支持维的动态变化

借用rdbms存储数据,没有文件大小限制

受操作系统平台中文件大小的限制,难以达到tb 级(只能10~20g)

可以通过sql实现详细数据与概要数据的存储

缺乏数据模型和数据访问的标准

–不支持有关预计算的读写操作

–sql无法完成部分计算

?无法完成多行的计算

?无法完成维之间的计算

–支持高性能的决策支持计算

?复杂的跨维计算

?多用户的读写操作

?行级的计算

维护困难

管理简便

五、联机分析处理的实现方式

同样是仿照用户的多角度思考模式,联机分析处理有三种不同的实现方法:

·关系型联机分析处理(ROLAP,Relational OLAP)

·多维联机分析处理(MOLAP,Multi-Dimensional OLAP)

·前端展示联机分析处理(Desktop OLAP)

其中,前端展示联机分析需要将所有数据下载到客户机上,然后在客户机上进行数据结构/报表格式重组,使用户能在本机实现动态分析。该方式比较灵活,然而它能够支持的数据量非常有限,严重地影响了使用的范围和效率。因此,随着时间的推移,这种方式已退居次要地位,在此不作讨论。

以下就ROLAP和MOLAP的具体实施方法进行讨论:

1、关系型联机分析处理的具体实施方法:

顾名思义,关系型联机分析处理是以关系型数据库为基础的。唯一特别之处在于联机分析处理中的数据结构组织的方式。

让我们考察一个例子,假设我们要进行产品销售的财务分析,分析的角度包括时间、产品类别、市场分布、实际发生与预算四方面内容,分析的财务指标包括:销售额、销售支出、毛利(=销售额-销售支出)、费用、纯利(=毛利-费用)等内容,则我们可以建立如下的数据结构:

该数据结构的中心是主表,里面包含了所有分析维度的外键,以及所有的财务指标,可计算推导的财务指标不计在内,我们称之为事实表(Fact Table)。周围的表分别是对应于各个分析角度的维表(Dimension Table),每个维表除了主键以外,还包含了描述和分类信息。无论原来的业务数据的数据结构为何,只要原业务数据能够整理成为以上模式,则无论业务人员据此提出任何问题,都可以用SQL语句进行表连接或汇总(table join and group by)实现数据查询和解答。(当然,有一些现成的ROLAP前端分析工具是可以自动根据以上模型生成SQL语句的)。这种模式被称为星型模式(Star-Schema),可应用于不同的联机分析处理应用中。

以下是另一个采用星型模式的例子,分析的角度和指标截然不同,但数据结构模式一样。我们看到的不是表的数据,而是表的结构。在联机分析处理的数据模型设计中,这种表达方式更为常见:

有时候,维表的定义会变得复杂,例如对产品维,既要按产品种类进行划分,对某些特殊商品,又要另外进行品牌划分,商品品牌和产品种类划分方法并不一样。因此,单张维表不是理想的解决方案,可以采用以下方式,这种数据模型实际上是星型结构的拓展,我们称之为雪花型模式

(snow-flake schema).

无论采用星型模式还是雪花型模式,关系型联机分析处理都具有以下特点:

·数据结构和组织模式需要预先设计和建立;

·数据查询需要进行表连接,在查询性能测试中往往是影响速度的关键;

·数据汇总查询(例如查询某个品牌的所有产品销售额),需要进行Group by 操作,虽然实际得出的数据量很少,但查询时间变得更长;

·为了改善数据汇总查询的性能,可以建立汇总表,但汇总表的数量与用户分析的角度数目和每个角度的层次数目密切相关。例如,用户从8个角度进行分析,每个角度有3个汇总层次,则汇总表的数目高达3的8次方。

可以采取对常用汇总数据建立汇总表,对不常用的汇总数据进行Group by 操作,这样来取得性能和管理复杂度之间的均衡。

2、多维联机分析处理的具体实施方法:

多维联机分析处理实际上是用多维数组的方式对关系型数据表进行处理。下图是ROLAP与MOLAP的对比:

图中左边是ROLAP方式,右边是MOLAP方式,两者对应的是同一个三维模型。MOLAP首先对事实表中的所有外键进行排序,并将排序后的具体指标数值一一写进虚拟的多维立方体中。当然,虚拟的多维立方体只是为了便于理解而构想的,MOLAP实际的数据存储放在数据文件(Data File)中,其数据放置的顺序与虚拟的多维立方体按x,y,z坐标展开的顺序是一致的(如上图)。同时,为了数据查找的方便,MOLAP需要预先建立维度的索引,这个索引被放置在MOLAP的概要文件(Outline)中。

概要文件是MOLAP的核心,相当于ROLAP的数据模型设计。概要文件包括所有维的定义(包括复杂的维度结构)以及各个层次的数据汇总关系(例如在时间维,日汇总至月,月汇总至季,季汇总至年),这些定义往往从关系型维表中直接引入即可。概要文件也包括分析指标的定义,因此可以在概要文件中包含丰富的衍生指标,这些衍生指标由基础指标计算推导出来(例如ROLAP例子1中的纯利和毛利)。概要文件的结构如下图所示:一旦概要文件定义好,MOLAP系统可以自动安排数据存储的方式和进行数据查询。从MOLAP的数据文件与ROLAP的事实表的对比可以看出,MOLAP的数据文件完全不需要纪录维度的外键,在维度比较多的情况下,这种数据存储方式大量地节省了空间。

但是,如果数据相当稀疏,虚拟的多维立方体中很多数值为空时,MOLAP的数据文件需要对相关的位置留空,而ROLAP的事实表却不会存储这些纪录。为了有效地解决这种情况,MOLAP采用了稀疏维和密集维相结合的处理方式,如下图。

上图的背景是某些客户只通过某些分销渠道才购买,但是只要该客户存在,他在各个月和各个地区内均有消费(例如,华南IBM只通过熊猫国旅定购南航机票,但在华南四省在每个月均有机票订购)。则时间和地区维是密集维,客户和分销渠道是稀疏维,MOLAP将稀疏维建成索引文件(Index File),密集维所对应的数值仍然保留在数据文件中,索引文件不存储空纪录。这样保持了对空间的合理利用。我们也可以看到,如果所有维都是稀疏维,则MOLAP的索引文件就退化成ROLAP的事实表,两者没有区别了。

在实际应用中,不可能所有分析的维度都是密集的,也绝少存在所有分析的维度都是稀疏的,因此稀疏维和密集维并用的模式几乎主导了所有的MOLAP应用。而稀疏维和密集维的定义全部集中在概要文件中,因此,只要预先定义好概要文件,所有的数据分布就自动确定了。

在这种模式中,密集维的组合组成了的数据块(Data Block),每个数据块是I/O读写的基础单位(如上图),所有的数据块组成了数据文件。稀疏维的组合组成了索引文件,索引文件的每一个数据纪录的末尾都带有一个指针,指向要读写的数据块。因此,进行数据查询时,系统先搜索索引文件纪

录,然后直接调用指针指向的数据块进行I/O读写(如果该数据块尚未驻留内存),将相应数据块调入内存后,根据密集维的数据放置顺序直接计算出要查询的数据距离数据块头的偏移量,直接提取数据下传到客户端。因此,MOLAP 方式基本上是索引搜索与直接寻址的查询方式相结合,比起ROLAP的表/索引搜索和表连接方式,速度要快得多。

多维联机分析处理有以下特点:

·需要预先定义概要文件;

·数据查询采用索引搜索与直接寻址的方式相结合,不需要进行表连接,在查询性能测试中比起ROLAP有相当大的优势;

·在进行数据汇总查询之前,MOLAP需要预先按概要文件中定义的数据汇总关系进行计算,这个计算通常以批处理方式运行。计算结果回存在数据文件中,当用户查询时,直接调用计算结果,速度非常快。

·无论是数据汇总还是计算衍生数据,预先计算的方式实际上是用空间来换时间。当然,用户也可以选择动态计算的方式,用查询时间来换取存储空间。MOLAP可以灵活调整时空的取舍平衡。

·用户难以使用概要文件中没有定义的数据汇总关系和衍生指标。

·在大数据量环境下,关系型数据库可以达到TB级的数据量,现有的MOLAP应用局限于基于文件系统的处理和查询方式,其性能会在100GB 级别开始下降,需要进行数据分区处理,因此扩展性不如ROLAP。因此,MOLAP多数用于部门级的主题分析应用。

3、其它考虑因素

联机分析处理其他要素包括假设分析(What-if),复杂计算,数据评估等等。这些因素对用户的分析效用至关重要,但是与ROLAP和MOLAP的核心工作原理的不一定有很紧密的关系,事实上,ROLAP和MOLAP都可以在以上三方面有所建树,只不过实现的方法迥异。因此,这些因素更取决于各个厂商为他们的产品提供的外延功能。对于像IBM的DB2 OLAP Server 这样一个成熟的产品来说,这三方面均有独特的优势:

假设分析

假设分析提出了类似于以下的问题:"如果产品降价5%,而运费增加8%,对不同地区的分销商的进货成本会有什么影响?"这些问题常用于销售预测、费用预算分配、奖金制度确定等等。据此,用户可以分析出哪些角度、哪些因素的变化将对企业产生重要影响;并且,用户可以灵活调节自己手中掌握的资源(例如费用预算等),将它用到最有效的地方中去。

假设分析要求OLAP系统能够随用户的思路调整数据,并动态反映出在调整后对其他数据的影响结果。事实上,进入OLAP的数据分两大类:事实数据和预算数据,例如本月实际发生的销售额是事实数据,上月对本月的销售额估算是预算数据。事实数据一般情况下不容修改,而预算数据则应常常进行调整。DB2 OLAP Server通过详细的权限定义区分了数据的读写

权限,允许用户对预算数据进行更改,系统可以对其他受影响的数据进行计算,以反映出"假如发生如上情况,将会引起以下结果"的结论。

复杂计算

分析人员往往需要分析复杂的衍生数据,诸如:同期对比、期初/期末余额、百分比份额计算、资源分配(按从顶向下的结构图逐级分配)、移动平均、均方差等等。对这些要求,DB2 OLAP Server提供丰富的功能函数以便用户使用。因为只有在无需编程的环境下,商业用户才能更好地灵活利用这些功能进行复杂的真实世界模拟。

数据评估

数据评估包括两方面内容,有效性评估和商业意义评估。在有效性评估方面,数据抽取、清洗和转换的规则的定义是至关重要的。而合理的数据模型设计能有效防止无效数据的进入。例如在ROLAP中,如果维表没有采用范式设计(normalise design),可能会接受如下的维表:

机构代码机构名称所属区县所属城市所属省份

001 越秀支行越秀区广州广东

002 祖庙支行佛山广州广东

003 翠屏支行佛山南海广东

004 。。。。。。。。。。。。

显然,002中显示的佛山属于广州市,与003中显示的佛山属于南海市是矛盾的。这显示出数据源有问题,但是如果采用星型模式设计,ROLAP 无法自动发现数据源的问题!

在类似情况下,MOLAP的表现稍占优势。因为MOLAP需要预先定义概要文件,而概要文件会详细分析维度的层次关系,因此生成概要文件时会反映数据源的错误。因此,在DB2 OLAP Server中,记录003会被拒收,并纪录在出错日志中,供IT人员更正。

但是,OLAP对数据源有效性的验证能力毕竟是有限的,因此,数据有效性必须从源数据一级和数据抽取/清洗/转换处理一级来进行保障。

对用户而言,数据的商业含义评估更有意义。在商业活动中,指标数值的取值范围是比较稳定的,如果指标数值突然发生变化,或者在同期比较、同类比较中有特殊表现,意味着该指标代表的方方面面具有特别的分析意义。普通的OLAP往往需要用户自己去观察发现异常指标,而DB2 OLAP Server的OLAP Minor(多维数据挖掘功能)能为用户特别地指出哪些条件下的哪些指标偏离常值,从而引起用户的注意和思考。例如:12月份南部的圣诞礼品销售额不到同期类似区域(东部、中部、西部)的50%。

综上所述,无论ROLAP还是MOLAP,都能够实现联机分析处理的基本功能,两者在查询效率,存储空间和扩展性方面各有千秋。IT人员在选择OLAP系统时,既要考虑产品内部的实现机制,同时也应考虑假设分析,复杂计算,数据评估方面的功能,为实现决策管理信息系统打下坚实的基础。

六、主要OLAP厂商产品介绍

Hyperion

HyperionEssbaseOLAPServer,在上面有超过100个的应用程序,有300多个用Essbase作为平台的开发商。具有几百个计算公式,支持过程的脚本预言,及统计和基于维的计算。

强大的OLAP查询能力,利用EssbaseQueryDesigner,商业用户可以不用IT人员的帮助自己构件复杂的查询。

广泛的应用支持,可以扩展数据仓库和ERP系统的价值,建立对电子商务、CRM、金融、制造业、零售和CPG(consumerpackagedgoods)等应用的分析程序。

Speed-of-Thought的响应时间,支持多用户同时读写

Web-Enabled的,以服务器为中心的体系结构,支持SMP

强大的合作伙伴提供完整的解决方案,60多个包装好的解决方案,300多个咨询和实施公司。

丰富的前端工具,有30多个前端工具可供选择,其中包括Hyperion

自己的WiredforOLAP、Spider-ManWebApplication、Objects、EssbaseSpreadsheetAdd-In、WebGateway、Reporting。

HyperionEnterprise,为跨国公司提供的财务整合、报告和分析的解决方案。有3000多家组织在使用此套系统。

功能丰富:支持多种财务标准USGAAP,CanadianGAAP,UKGAAP,国际会计标准(ISA),FASB,HGB。分公司间交易的自动平帐。FAS52货币转换。FAS94。

易用:可通过Excel,Lotus1-2-3和各种浏览器访问系统。

支持公司结构的调整。

跨国公司的支持:同时支持6种语言及各个不同国家的法律和税收要求。

完整的过程控制和审计跟踪,及安全等级的设置。

能与ERP或其他数据源集成

HyperionPillar,预算和计划工具。全球用户超过1500家,提供基于活动的预算,基于项目的计划,集中式计划,销售预测和综合计划。

分布式体系结构

详细计划的制订:允许一线经理制订详细的计划

复杂的建模和分析能力

Oracle ExpressServer提供全面的OLAP能力,有全球超过3000家用户

用户可通过Web和电子表格使用

灵活的数据组织方式,数据可以存放在ExpressServer内,也可直接在RDB上使用

有内建的分析函数和4GL来用户自己定制查询

Cognos PowerPlay,为商务效率评价BPM (BusinessPerformanceMeasurement)提供全面的报告和分析环境。向决策者提供企业运行效率的各种关键数据,进行各种各样的分析。

只用鼠标点击、拖拉就可以浏览多维数据

自动利用Web发布得到的分析报告

支持多种OLAPServer:MicrosoftOLAPServices、HyperionEssbase、SAPBW、IBMOLAPforDB2

完备的授权和安全体系

NovaView,是MicrosoftSQLServer7.0OLAPServices的客户端应用程序。

MicroStrategy

MicroStrategy7,是新一代的智能平台(IntelligencePlatform)面向电子商务应用e-business和电子客户关系管理eCRM。

具有强大的分析能力

以Web为中心的界面

支持上百万的用户和TB的数据

快速开发能力,可直接利用已有的数据模式

IntelligenceServer,Oneforallanalyticapplications

Microsoft SQLServer7.0OLAPServices,是SQLServer7.0的OLAP

模块,可以使用任何关系数据库或平面文件作为数据源,其中的PivotTableService提供了客户端的数据缓存和计算能力。

智能的Client/Server数据管理,提高响应速度,降低网络流量

通过OLEDBforOLAP,允许不同的客户端访问

BusinessObjects

BusinessObjects,是易用的BI工具,允许用户存取、分析和共享数据。

可应用多种数据源:RDB,ERP,OLAP,Excel等

可应用VBA和开放式对象模型来进行开发定制

IBM

DB2OLAPServer,是强大的多维分析工具,把HyperionEssbase的OLAP引擎和DB2的关系数据库集成在一起。

与EssbaseAPI完全兼容

数据用星型模型存放在关系数据库DB2中

Brio

Brio.Enterprise,是强大的易用的BI工具,提供查询,OLAP分析和报告的能力

支持多种语言,包括中文

Brio.Report,强大的企业级报告工具

OLAP相关标准

APB-1OLAPBenchmarkReleaseII(SPONSOREDBYOLAPCOUNCIL)

注:来源百度词条

[文档可能无法思考全面,请浏览后下载,另外祝您生活愉快,工作顺利,万事如意!]

数据仓库和LOAP应用技术

数据仓库和LOAP应用技术 传统数据库以及OLTP(On-Line Transaction Processing联机事务处理)在日常的管理事务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足。 因为,管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的发展趋势。而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量的历史信息。 为满足管理人员的决策分析需要,就需要在数据库的基础上产生适应决策分析的数据环境——数据仓库(Data Warehouse)。 数据仓库系统是一个信息提供平台,是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。从功能结构化分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三个关键部分。其体系结构如下: 业务处理系统即是数据库去实现的即时记录的功能,在数据准备区进行ETF处理,数据经过抽取、转换之后加载到数据仓库中,因此也说数据仓库是利用的已经存在的历史记录去整合,是利用原有数据分析下一步行动的决策,是有风险的。分析完主题和数据元后建立数据模型(概念模型、逻辑模型、物理模型)并形成事实表和纬度表,然后通过粒度分析将历史记录先抽取整合,然后再根据决策者可能用到的数据集合分解成若干记录,以备不同决策者使用;再利用OLAP工具技术进行数据的分析导出。当然,这些都在了解了管理者即客户的需求之后进行的,或者是由企业的管理者自己进行的技术应用或分析。 模型设计的过程如下:

数据仓库是管理决策分析的基础,要有效地利用数据仓库的信息资源,必须要有强大的工具对数据仓库的信息进行分析决策。 On-line Analytical Processing(在线分析处理或联机分析处理)就是一个应用广泛的数据仓库使用技术。它可以根据分析人员的要求,迅速灵活地对当量的数据进行复杂的查询处理,并以直观的容易理解的形式将查询结果提供给各种决策人员,使他们能够迅速准确地掌握企业的运营情况,了解市场的需求。具体的说,OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义) OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。OLAP是连接数据仓库和用户的桥梁,通过OLAP服务器用户可以很方便的浏览信息,进行决策!按照数据的存储方式进行分类,OLAP分为MOLAP,ROLAP,HOLAP三类。 OLAP支持最终用户进行动态多维分析、预测分析;切片和切块并在屏幕上显示,从宏观到微观,对数据进行深入分析;可查询底层的细节数据,在观察区域中选转,进行不同维之间的比较,在OLAP中有变量、维、维的层次、维成员、多维数组、数据单元等基本概念降,变量是从现实系统中抽象出来的,用于描述数据的实际含义;维是观察者观察数据的特定角度;维的层次是数据的某个维还可以存在细节程度不同的多个描述方面,称为维的层次;维成员是维的一个取值。如果一个维是多层次的,那么维成员就是不同维层次取值的组合。例如时间维具有年、月、日这三个层次,分别在年、月、目上各取一个值组合起来,就得到了时间维的一个维成员,如:2005年6月6日;多维数据集是决策支持的支柱,也是OLAP的核心,有时也称为立方体或超立方体。 0LAP使用三层的体系结构:数据库服务器、0LAP服务器和客户端工具。 第一层是数据仓库服务器,它实现与基层运营的数据库系统的连接,完成企业级数据一致和数据共享的工作。 第二层是OLAP服务器,它根据最终客户的请求实现分解成OLAP分析的各种动作,并使用数据仓库中的数据完成这些动作。

数据仓库、联机分析处理与数据挖掘

数据仓库、联机分析处理与数据挖掘08 广义概念上的数据仓库是一种帮助企业做决策的体系化解决方案,它包括了三个方面的内容: ?数据仓库技术(Data Warehouse,DW) ?联机分析处理技术(On-line Analytical Processing,OLAP) ?数据挖掘技术(Data Mining,DM) 数据仓库、联机分析处理和数据挖掘作为信息处理技术是独立出现的。数据仓库用于数据的存储和组织;联机分析处理则侧重于数据的分析;数据挖掘则致力于知识的自动发现。因此这三种技术之间并没有内在的依赖关系,可以独立地应用到企业信息系统的建设之中,以提高信息系统相应的能力。但是,这三种技术之间确实存在着一定的联系性和互补性,把它们结合起来,就可以使它们的能力更充分地发挥出来。这样就形成了一种决策支持系统的架构,即DW+OLAP+DM。 1、数据仓库技术 ⑴概述 数据仓库是一种只读的、用于分析的数据库,常常作为决策支持系统的底层。它从大量的事务性数据库中抽取数据、并将其清理、转换为新的存储格式,即为了决策目标而把数据聚合在一种特殊的格式中。数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合。其中,“主题”是指用户使用数据仓库辅助决策时所关心的重点问题,每一个主题对应一个客观分析领域,如销售、成本、利润的情况等。“面向主题”就是指数据仓库中的信息是按主题组织的,按主题来提供信息。“集成的”是指数据仓库中的数据不是业务处理系统数据的简单拼凑与汇总,而是经过系统的加工整理,是相互一致的、具有代表性的数据。“随时间变化”是指数据仓库中存储的是一个时间段的数据,而不仅仅是某一个时间的数据,所以主要用于进行时间趋势分析。一般数据仓库内的数据时限为5到10年,数据量也比较大。“信息本身相对稳定”是指数据一旦进入数据仓库,一般情况下将被长期保留,变更很少。 ⑵数据仓库组织和管理数据的方法与普通数据库的不同点 主要表现在三个方面: ①它依据决策要求,只从数据库中抽取那些需要的数据,并进行一定的处理。 ②数据仓库是多维的,即数据仓库中数据的组织方式有多层的行和列。 ③它支持决策处理,不同于普通的事务处理。 ⑶数据仓库需要的数据库技术的支持:

联机分析技术

1.特点:OLAP 在以数据仓库为数据源时,它有两个特点:在线性( On Line ):由客户机 /服务器这种体系结构来完成的;多维分析:这也是OLAP 的核心所在。 2 作用:. 联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。决策数据是多维数据,多维数据就是决策的主要内容。OLAP 专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。 3. OLAP的基本多维分析操作有钻取(Drill-up和Drill-down八切片(Slice ) 和切块( Dice )、以及旋转( Pivot )等。 钻取:是改变维的层次,变换分析的粒度。它包括向下钻取 ( Drill-down ) 和向上钻取(Drill-up ) /上卷(Roll-up) 。Drill-up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而Drill-down 则相反, 它从汇总数据深入到细节数据进行观察或增加新维。 切片和切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。 旋转:是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。 4. 五、联机分析处理的实现方式 同样是仿照用户的多角度思考模式,联机分析处理有三种不同的实现方法: •关系型联机分析处理(ROLAP,Relatio nal OLAP) •多维联机分析处理(MOLAP,Multi-Dime nsio nal OLAP) •前端展示联机分析处理(Desktop OLAP) 其中,前端展示联机分析需要将所有数据下载到客户机上,然后在客户机上进行数据结构/报表格式重组,使用户能在本机实现动态分析。该方式比较灵活,然而它能够支持的数据量非常有限,严重地影响了使用的范围和效率。因此,随着时间的推移,这种方式已退居次要地位,在此不作讨论。 以下就ROLAP 和MOLAP 的具体实施方法进行讨论: 1、关系型联机分析处理的具体实施方法:顾名思义,关系型联机分析处理是以关系型数据库为基础的。唯一特别之处在于联机分析处理中的数据结构组织的方式。 让我们考察一个例子,假设我们要进行产品销售的财务分析,分析的角度包括时间、产品类别、市场分布、实际发生与预算四方面内容,分析的财务指标包括:销售额、销售支出、毛利(=销售额-销售支出)、费用、纯 利(=毛利-费用)等内容,则我们可以建立如下的数据结构: 该数据结构的中心是主表,里面包含了所有分析维度的外键,以及所有的财务指标,可计算推导的财务指标不计在内,我们称之为事实表(Fact Table) 。周围的表分别是对应于各个分析角度的维表(Dimension Table) ,每个维表除了主键以外,

从事“大数据”工作的三大方向 十大职位

从事“大数据”工作的三大方向十大职位 随着大数据的趋势引起的越来越多的重视,各大企业对与大数据相关高端人才的需求也越来越紧迫。这一趋势,也给想要从事大数据方面工作的人员提供了难得的职业发展机遇。 目前,大数据方面的工作人员主要有三大就业方向:大数据系统研发类人才、大数据应用开发类人才和大数据分析类人才。在此三大方向中,各自的基础岗位一般为大数据系统研发工程师、大数据应用开发工程师和数据分析师。 从企业方面来说,大数据人才大致可以分为产品和市场分析、安全和风险分析以及商业智能三大领域。产品分析是指通过算法来测试新产品的有效性,是一个相对较新的领域。在安全和风险分析方面,数据科学家们知道需要收集哪些数据、如何进行快速分析,并最终通过分析信息来有效遏制网络入侵或抓住网络罪犯。 对于想从事大数据工作的求职者来说,如何根据自身条件进行职位选择?下面介绍十种与“大数据”相关的热门职位: 一、ETL研发 随着数据种类的不断增加,企业对数据整合专业人才的需求越来越旺盛。ETL开发者与不同的数据来源和组织打交道,从不同的源头抽取数据,转换并导入数据仓库以满足企业的需要。 ETL研发,主要负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。 目前,ETL行业相对成熟,相关岗位的工作生命周期比较长,通常由内部员工和外包合同商之间通力完成。ETL人才在大数据时代炙手可热的原因之一是:在企业大数据应用的早期阶段,Hadoop只是穷人的ETL。 二、Hadoop开发 Hadoop的核心是HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。随着数据集规模不断增大,而传统BI的数据处理成本过高,企业对Hadoop 及相关的廉价数据处理技术如Hive、HBase、MapReduce、Pig等的需求将持续增长。如今具备Hadoop框架经验的技术人员是最抢手的大数据人才。 三、可视化工具开发 海量数据的分析是个大挑战,而新型数据可视化工具如Spotifre,Qlikview和Tableau可以直观高效地展示数据。 可视化开发就是在可视开发工具提供的图形用户界面上,通过操作界面元素,由可视开发工具自动生成应用软件。还可轻松跨越多个资源和层次连接您的所有数据,经过时间考验,完全可扩展的,功能丰富全面的可视化组件库为开发人员提供了功能完整并且简单易用的组件集合,以用来构建极其丰富的用户界面。 过去,数据可视化属于商业智能开发者类别,但是随着Hadoop的崛起,数据可视化已经成了一项独立的专业技能和岗位。 四、信息架构开发 大数据重新激发了主数据管理的热潮。充分开发利用企业数据并支持决策需要非常专业的技能。信息架构师必须了解如何定义和存档关键元素,确保以最有效的方式进行数据管理和利用。信息架构师的关键技能包括主数据管理、业务知识和数据建模等。 五、数据仓库研究 数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单

联机分析处理

联机分析处理 简介 联机分析处理,英文名称为On-Line Analysis Processing,简写为OLAP。 随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。操作型应用和分析型应用,特别是在性能上难以两全,人们常常在关系数据库中放宽了对冗余的限制,引入了统计及综合数据,但这些统计综合数据的应用逻辑是分散而杂乱的、非系统化的,因此分析功能有限,不灵活,维护困难。在国外,不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足,他们通过专门的数据综合引擎,辅之以更加直观的数据访问界面,力图统一分散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。1993年,E.F.Codd(关系数据库之父)将这类技术定义为―联机分析处理‖。 作用 联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。决策数据是多维数据,多维数据就是决策的主要内容。OLAP专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。 联机分析处理具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利于迅速做出正确判断。它可用于证实人们提出的复杂的假设,其结果是以图形或者表格的形式来表示的对信息的总结。它并不将异常信息标记出来,是一种知识证实的方法。 起源 联机分析处理(OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响,OLAP 作为一类产品同联机事务处理(OLTP) 明显区分开来。 Codd提出OLAP的12条准则来描述OLAP系统: 准则1 OLAP模型必须提供多维概念视图 准则2 透明性准则 准则3 存取能力推测 准则4 稳定的报表能力 准则5 客户/服务器体系结构

数据挖掘实验二数据立方体与联机分析处理

数据挖掘实验二数据立方体与联机分析处理引言 数据挖掘是一种通过发现和提取数据中隐藏模式和信息的过程。数据挖掘技术广泛应用于各个领域,旨在提供有关数据集的深入洞察。其中一个重要的数据挖掘技术是数据立方体与联机分析处理。 本文将介绍数据立方体的概念、原理和应用,以及联机分析处理的 步骤和意义。 一、数据立方体 1.1 概念 数据立方体是一种多维数据模型,通常用于存储和分析大规模 数据集。它的基本结构是一个多维数组,可以通过多个维度进行灵 活的切片和切块。数据立方体允许用户从不同角度观察数据,并从 中发现模式和关联。 1.2 原理 数据立方体的构建基于OLAP技术(Online Analytical Processing)。OLAP技术是一种面向用户的数据分析方法,通过构

建维度和度量,利用数据立方体进行数据的快速查询和分析。数据立方体中的维度表示数据的不同特征,例如时间、地理位置、客户等。而度量则是用于度量和计算的数值,例如销售额、利润等。 1.3 应用 数据立方体广泛应用于商业智能和决策支持系统中。它可以帮助用户发现市场趋势、了解客户行为、进行销售预测等。通过使用数据立方体,用户可以轻松地根据不同的维度和度量进行多维度查询和分析,提取有用的信息。 二、联机分析处理 2.1 概念 联机分析处理(Online Analytical Processing)是一种对数据进行快速查询和分析的方法。它广泛应用于数据仓库和数据挖掘领域。通过联机分析处理,用户能够对大规模数据集进行交互式的查询和分析,从而获得即时的结果。 2.2 步骤 联机分析处理包括以下步骤:

- 数据准备:将原始数据导入到数据仓库中,并进行清洗和转换,以适应联机分析处理的需求。 - 维度设计:根据分析需求,设计合适的维度,并建立维度表。 - 事实表设计:根据分析需求,设计合适的事实表,并建立事实表。 - 数据填充:将数据填充到维度表和事实表中。 - 联机分析:根据用户的查询需求,对数据进行多维查询和分析。 - 结果呈现:将分析结果以可视化的形式展示给用户。 2.3 意义 联机分析处理能够帮助用户从大规模数据中快速获取有用的信息。它可以帮助用户分析市场趋势、预测销售量、了解产品偏好等。通过使用联机分析处理,用户可以更好地理解数据,做出更明智的 决策。 结论

数据仓库的基本架构

数据仓库的基本架构 数据仓库是一个用于集成、存储和分析企业数据的系统。它的基本架构由以下几个组成部分构成:数据源、数据抽取、数据转换、数据加载、数据存储和数据访问。 1. 数据源: 数据源是指数据仓库所需的数据的来源。数据源可以包括企业内部的各种业务系统、数据库、文件等。数据源可以是结构化的数据,如关系数据库中的表格,也可以是非结构化的数据,如日志文件、文档等。 2. 数据抽取: 数据抽取是指从数据源中提取数据并将其传输到数据仓库的过程。数据抽取可以采用多种方式,如全量抽取和增量抽取。全量抽取是指将整个数据源中的数据都抽取到数据仓库中,而增量抽取是指只抽取数据源中发生变化的数据。 3. 数据转换: 数据转换是指将抽取的数据进行清洗、整合和转换的过程。在这个过程中,数据会进行去重、格式转换、数据合并等操作,以确保数据的一致性和准确性。数据转换还可以包括数据的标准化和规范化,以便于后续的数据分析和查询。 4. 数据加载: 数据加载是指将经过转换的数据加载到数据仓库中的过程。数据加载可以采用批量加载或实时加载的方式。批量加载是指将一批数据一次性加载到数据仓库中,而实时加载是指将数据实时地加载到数据仓库中,以保持数据的及时性。 5. 数据存储:

数据存储是指数据仓库中存储数据的部分。数据存储一般采用多维数据库或关 系数据库来存储数据。多维数据库适用于存储多维数据,如OLAP(联机分析处理)数据,而关系数据库适用于存储结构化数据,如事务数据。 6. 数据访问: 数据访问是指用户通过查询和分析工具来访问和分析数据仓库中的数据。数据 访问可以通过SQL查询、OLAP查询、报表和可视化工具等方式进行。数据访问 还可以通过数据挖掘和数据分析来发现隐藏在数据中的模式和规律。 数据仓库的基本架构可以根据具体的需求和技术选择进行调整和扩展。例如, 可以在数据抽取和数据加载过程中引入ETL(抽取、转换、加载)工具来简化和 自动化数据处理的流程。同时,还可以引入数据治理和数据质量管理来确保数据的准确性和完整性。 总之,数据仓库的基本架构是一个集成、存储和分析企业数据的系统,它包括 数据源、数据抽取、数据转换、数据加载、数据存储和数据访问等组成部分。通过建立合理的数据仓库架构,企业可以更好地管理和利用自己的数据资源,提高决策的准确性和效率。

数据仓库与数据挖掘教程(第2版)陈文伟版课后答案

第一章数据仓库与数据挖掘概述 1.数据库与数据仓库的本质差别是什么? 答:数据库用于事务处理,数据仓库用于决策分析;数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;数据仓库的数据是大量数据库的集成;对数据库的操作比较明确,操作数据量少,对数据仓库操作不明确,操作数据量大。 数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向分析且支持决策。 6.说明OLTP与OLAP的主要区别。 答:OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时间要求高且面向应用,事务驱动; OLAP针对的是综合性数据、历史数据、不更新,但周期性刷新、一次处理的数据量大、响应时间合理且面向分析,分析驱动。 8.元数据的定义是什么? 答:元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。 9.元数据与数据字典的关系什么? 答:在数据仓库中引入了“元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。 18.说明统计学与数据挖掘的不同。 答:统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。 数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。 19.说明数据仓库与数据挖掘的区别与联系。 答:数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信;数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。 数据仓库与数据挖掘都是决策支持新技术。但它们有着完全不同的辅助决策方式。在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。数据仓库和数据挖掘的结合对支持决策会起更大的作用。 23.数据仓库与联机分析处理、数据挖据在决策知识方面有什么不同? 答:数据仓库中有大量的综合数据,为决策者提供了综合信息。数据仓库保存有大量历史数据,通过预测模型计算可以得到预测信息。 联机分析处理(OLAP)对数据仓库中的数据进行多维数据分析,即多维数据的切片、切块、旋转、钻取等,得到更深层中的信息和知识。 数据挖掘(DM)技术能获取关联知识、时序知识、聚类知识、分类知识等。 数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)等结合,形成决策支持系统。 25.画出基于数据仓库的决策支持系统的结构图。 答:

(完整版)数据挖掘_概念和技术[第三版]部分习题答案解析

1.4 数据仓库和数据库有何不同?有哪些相似之处? 答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。它用表组织数据,采用ER数据模型。 相似:它们都为数据挖掘提供了源数据,都是数据的组合。 1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。 答:特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息, 还有所修的课程的最大数量。 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。 关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒ owns(X, “personal computer”) [support=12%, confidence=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12% (支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。 分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具: 分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。 聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分 层结构,把类似的事件组织在一起。 数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。――――――――――――――――――――――――――――――――――――― 年龄频率――――――――――――――――――――――――――――――――――――― 1~5 200 5~15 450 15~20 300 20~50 1500 50~80 700 80~110 44 ―――――――――――――――――――――――――――――――――――――计算数据的近似中位数值。 解答:先判定中位数区间:N=200+450+300+1500+700+44=3194;N/2=1597 ∵ 200+450+300=950<1597<2450=950+1500; ∴ 20~50 对应中位数区间。

《大数据技术原理与应用》林子雨 课后简答题答案

《大数据技术原理与应用》林子雨课后简答题答案 第一章大数据概述 1. 试述大数据的四个基本特征。 数据量大:人类进入信息社会后,数据以自然方式增长,数据每两年就会增加一倍多。 数据类型繁多:大数据的数据类型非常丰富,包括结构化数据和非结构化数据,如邮件、音频、视频等,给数据处理和分析技术提出了新的挑战。 处理速度快:由于很多应用都需要基于快速生成的数据给出实时分析结果,因此新兴的大数据分析技术通常采用集群处理和独特的内部设计。 价值密度低:有价值的数据分散在海量数据中。 2. 举例说明大数据的关键技术。 大数据技术层面功能 数据采集与预处理利用ETL 工具将分布在异构数据源中的数据抽到临时中间层后进行清洗、转换和集成后加载到数据仓库中,成为联机分析处理、数据挖掘的基础,也可以利用日志采集工具(如 Flume、Kafka 等)将实时采集的数据作为流计算系统的输入,进行实时处理分析。 数据存储和管理利用分布式文件系统、NoSQL 数据库等实现对数据的存储和管理。 数据处理与分析利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析,并进行可视化呈现。 数据安全和隐私保护构建数据安全体系和隐私数据保护体系。 3. 详细阐述大数据、云计算和物联网三者之间的区别与联系 区别联系 大数据侧重于海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;云计算旨在整合和优化各种 IT 资源并通过网络以服务的方式,廉价地提供给用户;物联网的发展目标是实现“ 物物相连”,应用创新是物联网的核心。从整体上看,大数据、云计算和物联网这三者是相辅相成的。大数据根植于云计算,大数据分析的很多技术都来自于云计算,云计算的分布式存储和管理系统提供了海量数据的存储和管理能力,分布式并行处理框架MapReduce 提供了数据分析能力。没有这些云计算技术作为支撑,大数据分析就无从谈起。物联网的传感器源源不断的产生大量数据,构成了大数据的重要数据来源,物联网需要借助于云计算和大数据技术,实现物联网大数据的存储、分析和处理。

OLAP 服务器

OLAP 服务器 一、引言 本文档旨在为OLAP服务器的设计、部署和使用提供详细的指导和说明。通过本文档,用户可以了解OLAP服务器的概念、功能、架构以及注意事项,从而更好地利用OLAP服务器进行数据分析和决策支持。 二、概述 1:OLAP服务器概念和定义 2:OLAP服务器的作用和优势 3:OLAP服务器的主要功能和特性 4:OLAP服务器的架构和组成 三、部署和配置 1:OLAP服务器的硬件要求 2:OLAP服务器的软件要求 3:OLAP服务器的安装流程 4:OLAP服务器的配置和参数设置 四、数据提取和加载

1:数据源的选择和准备 2:数据提取的方法和工具 3:数据加载的流程和策略 4:数据同步和更新的处理 五、多维数据模型设计 1:多维数据模型的基本概念和原理 2:多维模型的维度设计和属性定义 3:多维模型的层次结构和维度关系 4:多维模型的度量和指标定义 六、查询和分析 1:OLAP查询的基本语法和语义 2:OLAP查询的优化和性能调优 3:多维数据分析的常用功能和工具 4:OLAP查询结果的展示和可视化 七、安全性和权限控制 1:OLAP服务器的安全性要求和考虑因素2:用户权限管理和角色分配

3:数据访问的控制和审计 4:数据保护和备份策略的制定 八、性能监控和调优 1:OLAP服务器性能监控的指标和方法 2:性能调优的常用技术和手段 3:性能优化的策略和注意事项 4:常见性能问题的解决方法和实例 九、故障处理和维护 1:OLAP服务器常见故障和错误的原因分析2:故障处理和排查的步骤和方法 3:OLAP服务器的维护和升级策略 4:故障恢复和容灾备份的处理 十、参考资料和扩展阅读 1:相关技术文档和标准 2:推荐的教程和书籍 3:在线资源和社区讨论 本文档涉及附件:

kylin原理

kylin原理 Kylin原理。 Kylin是一个开源的分布式分析引擎,最初由eBay公司开发, 后来成为Apache软件基金会的一个顶级项目。它的主要目标是为OLAP(联机分析处理)提供快速的查询能力,特别是在大规模数据 集上。Kylin的原理主要包括多维数据建模、预计算、查询优化和 查询执行等几个方面。 首先,Kylin的多维数据建模是其原理的核心之一。它通过对 数据进行多维建模,将数据按照不同的维度进行组织和存储,以便 于后续的快速查询和分析。在多维数据建模中,Kylin会将数据按 照时间、地域、产品等不同的维度进行切割和聚合,形成多维数据 模型,从而为用户提供多样化的分析视角和查询方式。 其次,Kylin利用预计算来加速查询。预计算是指在查询之前 对数据进行预先的计算和汇总,以便于加速后续的查询操作。Kylin 通过预先计算并存储汇总数据,可以大幅减少查询时需要扫描的数 据量,从而提高查询的速度和性能。这种预计算的方式可以有效地 应对大规模数据集上的复杂查询需求,为用户提供快速的分析结果。

另外,Kylin还通过查询优化来提升查询性能。在查询优化阶段,Kylin会对用户的查询请求进行解析和分析,通过优化器选择 合适的查询计划和执行策略,以最大程度地提高查询的效率和性能。通过查询优化,Kylin可以在保证查询结果准确的前提下,尽可能 地减少查询的时间和资源消耗,提升整体的查询体验。 最后,Kylin的查询执行是其原理中的最后一环。在查询执行 阶段,Kylin会根据查询计划和执行策略,调度和执行实际的查询 操作,从而得到用户需要的分析结果。在查询执行过程中,Kylin 会充分利用集群资源,并通过并行计算和分布式处理,以最快的速 度完成查询任务,为用户提供快速、高效的分析服务。 总的来说,Kylin的原理主要包括多维数据建模、预计算、查 询优化和查询执行等几个方面。通过这些原理的相互配合和协同作用,Kylin能够为用户提供快速、高效的OLAP查询能力,特别是在 大规模数据集上。希望通过本文的介绍,能够让读者对Kylin的原 理有一个更加深入和全面的了解。

大数据处理及分析理论方法技术

大数据处理及分析理论方法技术 (一)大数据处理及分析建设的过程 随着数据的越来越多,如何在这些海量的数据中找出我们需要的信息变得尤其重要,而这也是大数据的产生和发展原因,那么究竟什么是大数据呢?当下我国大数据研发建设又有哪些方面着力呢? 一是建立一套运行机制。大数据建设是一项有序的、动态的、可持续发展的系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,实现统合,搞好顶层设计。 二是规范一套建设标准。没有标准就没有系统。应建立面向不同主题、覆盖各个领域、不断动态更新的大数据建设标准,为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。

三是搭建一个共享平台。数据只有不断流动和充分共享,才有生命力。应在各专用数据库建设的基础上,通过数据集成,实现各级各类指挥信息系统的数据交换和数据共享。 四是培养一支专业队伍。大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支懂指挥、懂技术、懂管理的大数据建设专业队伍。 (二)大数据处理分析的基本理论 对于大数据的概念有许多不同的理解。中国科学院计算技术研究所李国杰院士认为:大数据就是“海量数据”加“复杂数据类型”。而维基百科中的解释为:大数据是由于规模、复杂性、实时性而导致的使之无法在一定时间内用常规软件工具对其进行获取、存储、搜索、分享、分析、可视化的数据集合。 对于“大数据”(Bigdata)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决

图2.1:大数据特征概括为5个V (三)大数据处理及分析的方向 众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定

客户关系管理练习题

第1章 1 客户关系管理强调的是以(C)为中心。 A、产品 B、利益 C、客户 D、企业 2以下对客户关系管理的相关描述不正确的是( C )。 A、Gartnet Group认为客户关系管理就是为企业提供全方位的管理视角,赋予企业更完善的客户交流能力,将客户的收益率最大化。 B、Carlson Marketing Group认为客户关系管理是一种营销策略,它通过培养公司的每一位员工、经销商或客户对该公司更积极的偏爱或偏好,留住他们并以此提高公司业绩。。 C、Hurwitz group认为客户关系管理系统的核心是对客户数据的管理。 D、IBM把客户关系管理分为三类:关系管理、流程管理和接入管理。 3客户关系管理的内涵包括除了以下哪项( D )。 A、客户关系管理是一种管理理念 B、客户关系管理是一种管理模式 C、客户关系管理是一种技术系统 D、客户关系管理是一种设计方式 4客户关系管理首先体现的是一种管理理念,其核心思想是( A ) A、以客户为中心,将企业的客户包括最终客户、分销商和合作伙伴视为最重要的企业资产 B、为企业的营销、销售、客户服务和决策支持等领域提供了一个智能化的解决方案 C、改善企业与客户之间的关系 D、强化企业跟踪服务与信息分析的能力,使他们与客户之间建立和维护亲密信任的关系 5激烈的市场竞争大大缩小了许多商品或服务在品质方面的区别,同质化使企业越来越重视( C ) A、客户满意度 B、客户忠诚度 C、客户满意度和客户忠诚度 D、客户关系 第2章 1.客户关系营销认为产品的价值既包括实体价值,也包括(B)。 A产品的包装 B附在实体产品之上的服务 C附产品的广告价值 D产品的使用价值 2客户关系营销将传统交易营销学研究的视角从关注一次性的交易转向关注(B )。 A客户价值 B保留客户 C竞争对手 D客户满意度 3下列哪一项不属于企业与客户之间依次递进的三个关系层次?(B ) A财务层次 B沟通层次 C等级层次 D结构层次

相关主题
文本预览
相关文档 最新文档