第四讲 联机分析处理
- 格式:ppt
- 大小:546.50 KB
- 文档页数:54
联机事务处理(OLTP)和联机分析处理(OLAP)1.概述当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。
OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
2.什么是联机事务处理(OLTP)联机事务处理系统(OLTP),也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。
这样做的最大优点是可以即时地处理输入的数据,及时地回答。
也称为实时系统(Real time System)。
衡量联机事务处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间(Response Time),即用户在终端上送入数据之后,到计算机对这个请求给出答复所需要的时间。
OLTP数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。
OLTP数据库通常具有以下特征:1.支持大量并发用户定期添加和修改数据;2.反映随时变化的单位状态,但不保存其历史记录;3.包含大量数据,其中包括用于验证事务的大量数据;4.具有复杂的结构;5.可以进行优化以对事务活动做出响应;6.提供用于支持单位日常运营的技术基础结构;7.个别事务能够很快地完成,并且只需访问相对较少的数据。
OLTP 系统旨在处理同时输入的成百上千的事务。
OLTP系统中的数据主要被组织为支持如下事务:1.记录来自销售点终端或通过网站输入的订单;2.当库存量降到指定级别时,订购更多的货物;3.在制造厂中将零部件组装为成品时对零部件进行跟踪;4.记录雇员数据。
通常在数据库系统中,事务是工作的离散单位。
例如,一个数据库事务可以是修改一个用户的帐户平衡或库存项的写操作。
数据仓库与联机分析处理一、基本概念数据仓库是面向主题的、集成的、时变的和非易失的有组织的数据集合,支持管理决策制定。
有一些要素区别数据仓库与操作数据库。
由于两种系统提供很不相同的功能,需要不同类型的数据,因此有必要将数据仓库与操作数据库分开维护。
A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of management’s decision-making process.”—W. H. Inmon1.1 什么是数据仓库数据仓库已被多种方式定义但没有一种严格的定义。
课本:数据仓库是一种数据库,它与单位的操作数据库分别维护。
数据仓库系统允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。
A decision support database that is maintained separately from the organization’s operational database一个与组织结构的操作数据库分别维护的决定支持数据库;Support information processing by providing a solid platform of consolidated, historical data for analysis.为统一的历史数据分析提供坚实的平台,对信息处理提供支持。
建立数据仓库(data warehousing):The process of constructing and using data warehouses 构建和使用数据仓库的过程1.2 subjected-oriented 面向主题的Organized around major subjects 围绕一些重要主题Focusing on the modeling and analysis of data for decision makers, not on daily operations or transaction 聚焦在为决策者的数据分析建模,而不是日常操作和交易Provide a simple and concise view around particular subject issues by excluding data that are not useful in the decision support process 排除对决策无用的数据1.3 integrated 集成的Constructed by integrating multiple, heterogeneous data sources 多个异构数据源,使用数据清理技术和数据集成技术,确保一致性Data cleaning and data integration techniques are applied1.4 Time-variant 时变的The time horizon for the data warehouse is significantly longer than that of operational systems 比操作数据库的时间更长数据仓库的关键结构都显式或者隐式地包含了时间元素1.5 nonvolatile 非易失的A physically separate store of data transformed from the operational environment 数据仓库总是物理地分离存放数据。
联机分析处理(英语:On-Line Analytical Processing,简称OLAP),是一套以多维度方式分析数据,而能弹性地提供积存(英语:Roll-up)、下钻(英语:Drill-down)、和透视分析(英语:pivot)等操作,呈现集成性决策信息的方法,多用于决策支持系统、商务智能或数据仓库。
其主要的功能,在于方便大规模数据分析及统计计算,对决策提供参考和支持。
与之相区别的是联机交易处理(OLTP)。
∙OLAP需以大量历史数据为基础配合上时间点的差异并对多维度及汇整型的信息进行复杂的分析。
∙OLAP需要用户有主观的信息需求定义,因此系统效率较佳。
OLAP的概念,在实际应用中用广义和狭义两种不同的理解。
广义上的理解与字面意思相同,即针对于OLTP而言,泛指一切不对数据进行输入等事务性处理,而基于已有数据进行分析的方法。
但更多的情况下OLAP是被理解为其狭义上的含义,即与多维分析相关,基于立方体(CUBE)计算而进行的分析。
OLAP概述 OLAP分析,又称多维分析,是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
OLAP也可以简单定义成使用户能够以多维视图分析数据的工具。
通常用来进行多维分析的维有时间、地点、产品、度量值(如销售额)等。
例如,在销售经理查看销售数据时,他可能想了解某个产品在某个地区、某段时间的销售额,并通过交叉表的功能来按不同的维对销售数据进行分析和通过挖掘功能来了解深层次的信息。
图3-20:数据的多维形式通过三维方式展现数据,并在此基础上进行分析,能够揭示出在二维方式下隐藏的关系;并通过方便的数据导航功能,使用户更易比较数据变量之间的关系,从而可以发现数据中隐藏的信息。
关系型数据库往往不能支持对数据进行逻辑分析和统计分析。
而采用OLAP系统,用户无须编程就可以定义新的逻辑、统计等方面的计算,并可将其做为分析的一部分,并以用户理想的方式给出报告。
用户可以在OLAP平台上进行数据分析,也可以连接到其他外部分析工具上,如时间序列分析工具、数据挖掘工具等。
OLAP产品根据其实现多维分析的技术以及要实现的目标而分为三类: (1)、MOLAP(多维联机分析处理)。
MOLAP将事务型数据进行综合,通过多维结构的“立方体”的数据结构来储存经综合的数据。
MOLAP通过其层次型数据库及在内存内的索引来保障数据访问的性能。
用户可以利用数据导航工具来进行钻取、交叉查询及产生关于“立方体”的报告。
根据MOLAP的技术特点,MOLAP擅长于对一定数量的数据进行大量、复杂、快速的、反复的分析。
MOLAP通常用来进行假设分析和问题求解,如在预算应用中。
图3-21:MOLAP架构图(2)、ROLAP(关系型联机分析处理)。
ROLAP在分析数据是直接到关系型数据库中取数据,而不建立自己的“立方体”。
OS Java CORBA COM+ Middleware XML&WebService Patterns ONE&NET P2P Development Database Download Doc什么是联机分析处理(OLAP )(转载自北大高科网站,/)联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd 于1993年提出的,他同时提出了关于OLAP 的12条准则。
OLAP 的提出引起了很大的反响,OLAP 作为一类产品同联机事务处理 (OLTP) 明显区分开来。
当今的数据处理大致可以分成两大类:联机事务处理OLTP (on-line transaction processing )、联机分析处理OLAP (On-Line Analytical Processing )。
OLTP 是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
下表列出了OLTP 与OLAP 之间的比较。
OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。
“维”是人们观察客观世界的角度,是一种高层次的类型划分。
“维”一般包含着层次关系,这种层次关系有时会相当复杂。
通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。
因此OLAP也可以说是多维数据分析工具的集合。
OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through 等。
联机分析处理简介联机分析处理,英文名称为On-Line Analysis Processing,简写为OLAP。
随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。
操作型应用和分析型应用,特别是在性能上难以两全,人们常常在关系数据库中放宽了对冗余的限制,引入了统计及综合数据,但这些统计综合数据的应用逻辑是分散而杂乱的、非系统化的,因此分析功能有限,不灵活,维护困难。
在国外,不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足,他们通过专门的数据综合引擎,辅之以更加直观的数据访问界面,力图统一分散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。
1993年,E.F.Codd(关系数据库之父)将这类技术定义为“联机分析处理”。
作用联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。
它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
决策数据是多维数据,多维数据就是决策的主要内容。
OLAP专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。
联机分析处理具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利于迅速做出正确判断。
它可用于证实人们提出的复杂的假设,其结果是以图形或者表格的形式来表示的对信息的总结。
联机分析处理 (OLAP)百科名片联机分析处理简写为OLAP,随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。
在国外,不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足,力图统一分散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。
目录[隐藏]作用起源分类[编辑本段]作用联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。
它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
决策数据是多维数据,多维数据就是决策的主要内容。
OLAP专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。
联机分析处理具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利于迅速做出正确判断。
它可用于证实人们提出的复杂的假设,其结果是以图形或者表格的形式来表示的对信息的总结。
它并不将异常信息标记出来,是一种知识证实的方法。
[编辑本段]起源联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。
OLAP的提出引起了很大的反响,OLAP 作为一类产品同联机事务处理 (OLTP) 明显区分开来。
Codd提出OLAP的12条准则来描述OLAP系统:准则1 OLAP模型必须提供多维概念视图准则2 透明性准则准则3 存取能力推测准则4 稳定的报表能力准则5客户/服务器体系结构准则6维的等同性准则准则7 动态的稀疏矩阵处理准则准则8 多用户支持能力准则准则9 非受限的跨维操作准则10 直观的数据操纵准则11灵活的报表生成准则12 不受限的维与聚集层次[编辑本段]分类当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-linetransaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。
商业智能之联机分析处理
商业智能(BI)的联机分析处理(OLAP)是一种数据分析技术,用于快速检索大量分散的数据,从而获得用于管理决策的信息。
OLAP用途广泛,包括数据挖掘,统计分析,成本估算,客户关系管理(CRM),市场评估,财务分析等。
BI的OLAP分析处理主要是指对多维数据的分析,而不是简单的数据查询,它可以帮助管理者确定公司目标,以及支持他们实现这些目标。
BI的OLAP分析处理包含以下几个关键步骤:数据集成,数据模型设计,查询优化,数据报表设计,分析和可视化。
1.特点:OLAP 在以数据仓库为数据源时,它有两个特点:在线性( On Line ):由客户机/服务器这种体系结构来完成的;多维分析:这也是OLAP 的核心所在。
2 作用:. 联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。
它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
决策数据是多维数据,多维数据就是决策的主要内容。
OLAP 专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。
3. OLAP的基本多维分析操作有钻取(Drill-up和Drill-down八切片(Slice )和切块( Dice )、以及旋转( Pivot )等。
钻取:是改变维的层次,变换分析的粒度。
它包括向下钻取 ( Drill-down ) 和向上钻取(Drill-up ) /上卷(Roll-up) 。
Drill-up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而Drill-down 则相反,它从汇总数据深入到细节数据进行观察或增加新维。
切片和切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布。
如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。
旋转:是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。
4. 五、联机分析处理的实现方式同样是仿照用户的多角度思考模式,联机分析处理有三种不同的实现方法:•关系型联机分析处理(ROLAP,Relatio nal OLAP)•多维联机分析处理(MOLAP,Multi-Dime nsio nal OLAP) •前端展示联机分析处理(Desktop OLAP)其中,前端展示联机分析需要将所有数据下载到客户机上,然后在客户机上进行数据结构/报表格式重组,使用户能在本机实现动态分析。
数据仓库、联机分析处理与数据挖掘08广义概念上的数据仓库是一种帮助企业做决策的体系化解决方案,它包括了三个方面的内容:⏹数据仓库技术(Data Warehouse,DW)⏹联机分析处理技术(On-line Analytical Processing,OLAP)⏹数据挖掘技术(Data Mining,DM)数据仓库、联机分析处理和数据挖掘作为信息处理技术是独立出现的。
数据仓库用于数据的存储和组织;联机分析处理则侧重于数据的分析;数据挖掘则致力于知识的自动发现。
因此这三种技术之间并没有内在的依赖关系,可以独立地应用到企业信息系统的建设之中,以提高信息系统相应的能力。
但是,这三种技术之间确实存在着一定的联系性和互补性,把它们结合起来,就可以使它们的能力更充分地发挥出来。
这样就形成了一种决策支持系统的架构,即DW+OLAP+DM。
1、数据仓库技术⑴概述数据仓库是一种只读的、用于分析的数据库,常常作为决策支持系统的底层。
它从大量的事务性数据库中抽取数据、并将其清理、转换为新的存储格式,即为了决策目标而把数据聚合在一种特殊的格式中。
数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合。
其中,“主题”是指用户使用数据仓库辅助决策时所关心的重点问题,每一个主题对应一个客观分析领域,如销售、成本、利润的情况等。
“面向主题”就是指数据仓库中的信息是按主题组织的,按主题来提供信息。
“集成的”是指数据仓库中的数据不是业务处理系统数据的简单拼凑与汇总,而是经过系统的加工整理,是相互一致的、具有代表性的数据。
“随时间变化”是指数据仓库中存储的是一个时间段的数据,而不仅仅是某一个时间的数据,所以主要用于进行时间趋势分析。
一般数据仓库内的数据时限为5到10年,数据量也比较大。
“信息本身相对稳定”是指数据一旦进入数据仓库,一般情况下将被长期保留,变更很少。
⑵数据仓库组织和管理数据的方法与普通数据库的不同点主要表现在三个方面:①它依据决策要求,只从数据库中抽取那些需要的数据,并进行一定的处理。
关于数据仓库与联机分析处理的概述一、数据仓库及数据库的概念及其特点1、数据仓库的概念及其特点“什么是数据仓库?”这恐怕是每一个刚刚开始接触数据仓库的技术人员都会提出的一个问题。
有人认为数据仓库就是一个大的数据库,也有人认为数据仓库是一项数据管理和分析的技术。
这些定义都从一定的侧面反映了数据仓库的概念,但并不全面。
目前,业界公认的数据仓库定义是由数据仓库之父the Data Warehouse》一书中给出:“数据仓库是面向主题的、集成的、随时间变化的、稳定的数据集合,用以支持管理中的决策制定过程。
”正如Inmon所描述的,数据仓库具有如下特点:(1)数据仓库的数据是面向主题的与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。
所谓主题,是指在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。
在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。
(2)数据仓库的数据是集成的建立数据仓库的主要目的就是为用户提供易于访问的商业信息。
为了减少用户查询的响应时间,应该把数据从数据源中提取出来,放到数据仓库中去。
在数据进入数据仓库之前,必须经过加工和集成,使原始数据结构做一个从面向应用到面向主题的大转变。
(3)数据仓库的数据是不可更新的数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。
数据仓库的数据不可更新使得数据仓库管理系统DWMS相比数据库管理系统DBMS而言要简单得多,同时也使我们可以对数据仓库进行最大限度的性能优化。
(4)数据仓库的数据是随时间不断变化的数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的用户进行分析处理时是不进行更新操作的。
但并不是说,在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变的。
数据仓库会随时间的变化不断增加新的数据内容和删去过时的数据内容。