第13章_联机分析处理(OLAP)技术-完成
- 格式:ppt
- 大小:174.00 KB
- 文档页数:32
1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理和联机分析处理。
4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储于管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。
8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。
因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。
3、数据抽取的两个常见类型是静态抽取和增量抽取。
静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。
4、粒度是对数据仓库中数据的综合程度高低的一个衡量。
粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。
联机事务处理(OLTP)和联机分析处理(OLAP)1.概述当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。
OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
2.什么是联机事务处理(OLTP)联机事务处理系统(OLTP),也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。
这样做的最大优点是可以即时地处理输入的数据,及时地回答。
也称为实时系统(Real time System)。
衡量联机事务处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间(Response Time),即用户在终端上送入数据之后,到计算机对这个请求给出答复所需要的时间。
OLTP数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。
OLTP数据库通常具有以下特征:1.支持大量并发用户定期添加和修改数据;2.反映随时变化的单位状态,但不保存其历史记录;3.包含大量数据,其中包括用于验证事务的大量数据;4.具有复杂的结构;5.可以进行优化以对事务活动做出响应;6.提供用于支持单位日常运营的技术基础结构;7.个别事务能够很快地完成,并且只需访问相对较少的数据。
OLTP 系统旨在处理同时输入的成百上千的事务。
OLTP系统中的数据主要被组织为支持如下事务:1.记录来自销售点终端或通过网站输入的订单;2.当库存量降到指定级别时,订购更多的货物;3.在制造厂中将零部件组装为成品时对零部件进行跟踪;4.记录雇员数据。
通常在数据库系统中,事务是工作的离散单位。
例如,一个数据库事务可以是修改一个用户的帐户平衡或库存项的写操作。
联机分析处理(英语:On-Line Analytical Processing,简称OLAP),是一套以多维度方式分析数据,而能弹性地提供积存(英语:Roll-up)、下钻(英语:Drill-down)、和透视分析(英语:pivot)等操作,呈现集成性决策信息的方法,多用于决策支持系统、商务智能或数据仓库。
其主要的功能,在于方便大规模数据分析及统计计算,对决策提供参考和支持。
与之相区别的是联机交易处理(OLTP)。
∙OLAP需以大量历史数据为基础配合上时间点的差异并对多维度及汇整型的信息进行复杂的分析。
∙OLAP需要用户有主观的信息需求定义,因此系统效率较佳。
OLAP的概念,在实际应用中用广义和狭义两种不同的理解。
广义上的理解与字面意思相同,即针对于OLTP而言,泛指一切不对数据进行输入等事务性处理,而基于已有数据进行分析的方法。
但更多的情况下OLAP是被理解为其狭义上的含义,即与多维分析相关,基于立方体(CUBE)计算而进行的分析。
OLAP概述 OLAP分析,又称多维分析,是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
OLAP也可以简单定义成使用户能够以多维视图分析数据的工具。
通常用来进行多维分析的维有时间、地点、产品、度量值(如销售额)等。
例如,在销售经理查看销售数据时,他可能想了解某个产品在某个地区、某段时间的销售额,并通过交叉表的功能来按不同的维对销售数据进行分析和通过挖掘功能来了解深层次的信息。
图3-20:数据的多维形式通过三维方式展现数据,并在此基础上进行分析,能够揭示出在二维方式下隐藏的关系;并通过方便的数据导航功能,使用户更易比较数据变量之间的关系,从而可以发现数据中隐藏的信息。
关系型数据库往往不能支持对数据进行逻辑分析和统计分析。
而采用OLAP系统,用户无须编程就可以定义新的逻辑、统计等方面的计算,并可将其做为分析的一部分,并以用户理想的方式给出报告。
用户可以在OLAP平台上进行数据分析,也可以连接到其他外部分析工具上,如时间序列分析工具、数据挖掘工具等。
OLAP产品根据其实现多维分析的技术以及要实现的目标而分为三类: (1)、MOLAP(多维联机分析处理)。
MOLAP将事务型数据进行综合,通过多维结构的“立方体”的数据结构来储存经综合的数据。
MOLAP通过其层次型数据库及在内存内的索引来保障数据访问的性能。
用户可以利用数据导航工具来进行钻取、交叉查询及产生关于“立方体”的报告。
根据MOLAP的技术特点,MOLAP擅长于对一定数量的数据进行大量、复杂、快速的、反复的分析。
MOLAP通常用来进行假设分析和问题求解,如在预算应用中。
图3-21:MOLAP架构图(2)、ROLAP(关系型联机分析处理)。
ROLAP在分析数据是直接到关系型数据库中取数据,而不建立自己的“立方体”。
(1)地理空间数据立方体?地理空间数据立方体(Geospatial Data Cube)是一个面向对象的、集成的、以时间为变量的、持续采集空间与非空间数据的多维数据集合,组织和汇总成一个由一组维度和度量值定义的多维结构,用以支持地理空间数据挖掘技术和决策支持过程。
地理空间数据立方体绝非仅在数据库上加一层空间外衣,而是真正地以空间数据库为基础,进行复杂的空间分析,反映不同时空尺度下的动态变化趋势,为决策者提供及时、准确的信息。
地理空间数据立方体中的数据是经过选择、整理、集成等处理的,为空间数据挖掘提供了良好的数据基础,因而在地理空间数据立方体中进行数据挖掘比在原始数据库中更加有效。
(2)联机分析处理技术?联机分析处理(OLAP)是共享多维信息的、针对特定问题的联机数据访问和分析的软件技术,具有汇总、合并、聚集以及从不同角度观察消息的能力。
它可以跨越空间数据库模式的多个版本,处理来自不同组织的信息和由多个数据存储集成的信息。
联机分析处理对空间数据立方体进行的多维数据分析主要有切块、切片、旋转、钻取等分析动作,目的是进行跨维、跨层次的计算与建模。
(3)地理空间数据挖掘典型方法?1、地理空间统计方法2、地理空间聚类方法3、地理空间关联分析4、地理空间分类与预测分析5、异常值分析[地理空间数据挖掘系统包括三大支柱模块:地理空间数据立方体、联机分析处理(OLAP)模块和空间数据挖掘模块。
](4)空间分析的研究对象?空间分析的研究对象:空间分析主要通过对空间数据和空间模型的联合分析来挖掘空间目标的潜在信息。
空间目标是空间分析的具体研究对象。
空间目标具有空间位置、分布、形态、空间关系(距离、方位、拓扑、相关场)等基本特征。
空间关系是指地理实体之间存在的与空间特性有关的关系,是刻画数据组织、查询、分析和推理的基础。
不同类型的空间目标具有不同的形态结构描述,对形态结构的分析称为形态分析。
(5)空间分析的研究目标?空间分析研究的主要目标有:✓认知。
第一章数据仓库与数据挖掘概述1.数据库与数据仓库的本质差别是什么?答:数据库用于事务处理,数据仓库用于决策分析;数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;数据仓库的数据是大量数据库的集成;对数据库的操作比较明确,操作数据量少,对数据仓库操作不明确,操作数据量大。
数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向分析且支持决策。
6.说明OLTP与OLAP的主要区别。
答:OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时间要求高且面向应用,事务驱动; OLAP针对的是综合性数据、历史数据、不更新,但周期性刷新、一次处理的数据量大、响应时间合理且面向分析,分析驱动。
8.元数据的定义是什么?答:元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。
9.元数据与数据字典的关系什么?答:在数据仓库中引入了“元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。
18.说明统计学与数据挖掘的不同。
答:统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。
数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。
19.说明数据仓库与数据挖掘的区别与联系。
答:数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信;数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
数据仓库与数据挖掘都是决策支持新技术。
但它们有着完全不同的辅助决策方式。
在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。
它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。
数据仓库和数据挖掘的结合对支持决策会起更大的作用。
OS Java CORBA COM+ Middleware XML&WebService Patterns ONE&NET P2P Development Database Download Doc什么是联机分析处理(OLAP )(转载自北大高科网站,/)联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd 于1993年提出的,他同时提出了关于OLAP 的12条准则。
OLAP 的提出引起了很大的反响,OLAP 作为一类产品同联机事务处理 (OLTP) 明显区分开来。
当今的数据处理大致可以分成两大类:联机事务处理OLTP (on-line transaction processing )、联机分析处理OLAP (On-Line Analytical Processing )。
OLTP 是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
下表列出了OLTP 与OLAP 之间的比较。
OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。
“维”是人们观察客观世界的角度,是一种高层次的类型划分。
“维”一般包含着层次关系,这种层次关系有时会相当复杂。
通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。
因此OLAP也可以说是多维数据分析工具的集合。
OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through 等。
第一章1,数据挖掘(Data Mining),就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。
2,人工智能(Artific ial Intelli gence)它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
3,机器学习(Machine Learnin g)是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
4,知识工程(Knowled ge Enginee ring)是人工智能的原理和方法,对那些需要专家知识才能解决的应用难题提供求解的手段。
5,信息检索(Informa tion Retriev al)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。
6,数据可视化(Data Visuali zation)是关于数据之视觉表现形式的研究;其中,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。
7,联机事务处理系统(OLTP)实时地采集处理与事务相连的数据以及共享数据库和其它文件的地位的变化。
在联机事务处理中,事务是被立即执行的,这与批处理相反,一批事务被存储一段时间,然后再被执行。
8, 联机分析处理(OLAP)使分析人员,管理人员或执行人员能够从多角度对信息进行快速一致,交互地存取,从而获得对数据的更深入了解的一类软件技术。
8,决策支持系统(decisio n support)是辅助决策者通过数据、模型和知识,以人机交互方式进行半结构化或非结构化决策的计算机应用系统。
第一章作业1.数据库与数据仓库的本质差别是什么?书P2(1)数据库用于事务处理,数据仓库用于决策分析。
(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。
(3)数据仓库的数据是大量数据库的集成。
(4)对数据库的操作比较明确,操作数量较小。
对数据仓库操作不明确,操作数据量大。
2.从数据库发展到数据仓库的原因是什么?书P1(1)数据库数据太多,信息贫乏。
如何将大量的数据转化为辅助决策信息成为了研究热点。
(2)异构环境数据的转换和共享。
随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。
(3)利用数据进行事物处理转变为利用数据支持决策。
3.举例说明数据库与数据仓库的不同。
比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。
但是要对这些独立数据库进行决策分析就很复杂了。
因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。
4.OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。
OLAP(On Line Analytical Processing,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。
5.OLTP是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。
6.OLTP OLAP细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用,事务驱动面向分析,分析驱动7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。
8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。
第一章:组织、管理和网络化企业一、为什么信息系统对企业运营管理非常重要?(P10)1.答:企业持续寻求改进其运行效率以求达到高获利,信息系统和技术有助于企业提高效率和生产效率,配合企业过程和管理行为的改变.2.信息系统和技术是公司创造新产品和新服务甚至整个新企业模式的重要驱动器.3.利用信息系统和信息技术可以更好的服务顾客,拉近与顾客的距离,增加收入和利润,更好的与供应商来沟通以便降低成本。
4.信息系统有助于企业获得更准确的数据,以便做出更好的决策。
5.信息系统有助于企业形成自己的竞争优势.6.企业也投资于运营企业所必需的信息系统和技术。
二、什么是信息系统?信息系统的三个基本活动是什么?三个维度是什么?(注:学会用三个维度来分析案例)(P12)1.含义:信息系统技术上可以定义为相互连接的部件的集合,它可以进行信息收集、处理、储存和分发,以支持一个组织的决策和控制。
信息系统包括组织内或围绕它的环境的主要人员、地点和事情的信息。
2.三个基本活动:在一个信息系统中,生产信息主要有三个主要活动,这些活动是输入、处理和输出。
输入是在组织内部或其外部环境中捕捉或收集原始数据.处理是把这些数据转换成较有意义的形式。
输出是将处理后的信息转交给使用它的人或其他活动。
3.三个维度:组织维、管理维、技术维。
组织维:组织是由不同的层次和专业任务组成的结构。
管理维:管理工作在于对企业所面临的许多情况进行感知,作出决策,列出解决企业问题的正式计划。
技术维:计算机硬件是在信息系统汇总进行输入、处理和输出的物理设备。
计算机软件由详细的预编指令组成,用它来再一个信息系统中协调和控制计算机硬件.数据管理技术包括管理物理存储介质上数据的软件。
网络和通信技术由物理设备和软件组成,连接各种软件硬件,由一个地点到另一个地点传送数据。
三、辅助资产是什么?(P1801.辅助资产是由初始投资中引导出价值所需的资产。
主要的辅助资产有组织资产、管理资产和社会资产。
简述olap的基本操作OLAP(联机分析处理)是一种数据处理技术,它允许用户通过非常具有交互性的界面查询或分析数据,而无需编写复杂的SQL语句或程序。
因此,OLAP系统已成为商业智能的核心组成部分。
OLAP的基本操作通常包括以下几个方面:1. 切片(slice):即选定一个二维表,然后选取其中一行、一列或一个单元格,从而得到一个更小的子表。
切片操作可以帮助用户在数据集中快速找到特定行、列或单元格,从而更好地理解数据。
2. 切块(dice):即选定一个多维数据集,然后根据用户的选择,从中选择一个或多个维度和相应的切片,得到一个新的多维子集。
切块操作可以帮助用户更好地理解数据的关联关系。
3. 旋转(pivot):即将多维数据集的某些维度交换,以便更好地观察不同维度之间的关系。
例如,在一个销售数据库中,用户可以将销售日期作为列,将不同地区作为行,以便更好地分析不同地区的销售情况。
4. 过滤(filter):即根据用户的要求,从数据集中筛选特定的数据子集,该子集符合特定的条件或条件。
例如,在一个销售数据库中,可以根据特定的地区、时间范围或产品类型过滤数据,以便更好地分析数据。
5. 聚合(aggregate):即使用各种函数(如求和、平均值或计数)将多个数据点或值合并为一个值或汇总数据,以便更好地分析更大的数据集。
例如,在一个销售数据库中,可以根据某个地区、某个产品或某个时间段聚合数据,以便更好地理解数据。
总之,OLAP是一种非常强大的数据处理技术,它允许用户通过简单易用的界面快速地查询、分析和理解数据。
通过使用OLAP的基本操作,用户可以更好地了解数据,并在商务决策中做出更明智的选择。
OLAP 技术介绍刘可2004-08-20OLAP (on-line analytical processing) 联机分析处理,这一概念是由关系型数据库之父E.F.Codd于1993年提出的。
20世纪60年代末Codd提出关系型数据模型以后,关系型数据库与OLTP(on-line transaction processing)得到了快速的发展。
随着关系型数据库的快速发展,全球的数据量急剧膨胀,越来越多的数据被生产出来,同时人们对信息的需求也在快速的提升;而信息来源的最主要途径便是已掌握的海量数据,于是管理人员对数据的查询需求变得越来越复杂,他们贪婪的希望能够快速的尽可能多的从GB、TB甚至PB级数据中直观的了解到隐藏在这些数据背后的信息。
通俗的OLTP技术越来越力显得不从心。
于是数据仓库体系结构与OLAP技术应运而生。
数据仓库体系结构不是我在这里说的重点,这里我旨在从OLAP技术的特性(总体把握),OLAP技术的常用操作(前台分析操作),OLAP技术中数据存储方式(后台数据存储)三个角度全面介绍介绍OLAP技术。
一、O LAP技术的特性OLAP技术不同于OLTP技术,有非常多的特性,概括起来主要有如下几点特性:OLAP 技术是面向分析人员、管理人员的;OLAP技术对数据访问通常是只读的,并且一次访问大量数据;OLAP技术是面向主题的多维数据分析技术。
OLAP技术是面向分析人员、管理人员的区别于OLTP面向操作人员,OLAP技术主要面向分析人员、管理人员,他是提供分析人员、管理人员快速直观访问数据的一种途径。
使分析人员、管理人员能直观的从海量数据中获得有用信息以提供决策依据。
OLAP技术对数据访问通常是只读的,并且一次访问大量数据。
OLAP技术主要是针对海量数据的查询,通常不对数据做修改。
这种数据访问有别于OLTP中不断的对数据进行增删改操作。
同时这种查询不是简单的记录属性的检索,而是为了从海量数据中获取有用信息的针对大量数据的查询,通常一次需要查询会涉及到上百万条以上数据。
联机分析处理简介联机分析处理,英文名称为On-Line Analysis Processing,简写为OLAP。
随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。
操作型应用和分析型应用,特别是在性能上难以两全,人们常常在关系数据库中放宽了对冗余的限制,引入了统计及综合数据,但这些统计综合数据的应用逻辑是分散而杂乱的、非系统化的,因此分析功能有限,不灵活,维护困难。
在国外,不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足,他们通过专门的数据综合引擎,辅之以更加直观的数据访问界面,力图统一分散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。
1993年,E.F.Codd(关系数据库之父)将这类技术定义为“联机分析处理”。
作用联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。
它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
决策数据是多维数据,多维数据就是决策的主要内容。
OLAP专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。
联机分析处理具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利于迅速做出正确判断。
它可用于证实人们提出的复杂的假设,其结果是以图形或者表格的形式来表示的对信息的总结。