第4章-OLAP-在线联机分析
- 格式:ppt
- 大小:1.92 MB
- 文档页数:50
联机事务处理(OLTP)和联机分析处理(OLAP)1.概述当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。
OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
2.什么是联机事务处理(OLTP)联机事务处理系统(OLTP),也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。
这样做的最大优点是可以即时地处理输入的数据,及时地回答。
也称为实时系统(Real time System)。
衡量联机事务处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间(Response Time),即用户在终端上送入数据之后,到计算机对这个请求给出答复所需要的时间。
OLTP数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。
OLTP数据库通常具有以下特征:1.支持大量并发用户定期添加和修改数据;2.反映随时变化的单位状态,但不保存其历史记录;3.包含大量数据,其中包括用于验证事务的大量数据;4.具有复杂的结构;5.可以进行优化以对事务活动做出响应;6.提供用于支持单位日常运营的技术基础结构;7.个别事务能够很快地完成,并且只需访问相对较少的数据。
OLTP 系统旨在处理同时输入的成百上千的事务。
OLTP系统中的数据主要被组织为支持如下事务:1.记录来自销售点终端或通过网站输入的订单;2.当库存量降到指定级别时,订购更多的货物;3.在制造厂中将零部件组装为成品时对零部件进行跟踪;4.记录雇员数据。
通常在数据库系统中,事务是工作的离散单位。
例如,一个数据库事务可以是修改一个用户的帐户平衡或库存项的写操作。
闭卷考试,时间120分钟,五种题型:选择题(10分)、判断题(10分)、名词解释题(30分)、简答题(30分)、论述题(20分)第1章商务智能基本知识(1)商务智能的概念、价值、驱动力。
概念:商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力-王茁专著《三位一体的商务智能》. IBM商务智能解决方案远远不只是数据和技术的组合,BI帮助用户获得正确的数据,发现它的价值,并共享价值。
价值:To support decision making at all levels of business management based on the facts and (scientific) predictions of current and future business situations that are obtained from intelligent analysis of historical business data.支持各级决策基于事实和商业管理的(科学)的预测当前和未来的业务情况下获得历史业务数据的智能分析。
Business decisions made with BI support are more-Correct 恰当-Accurate 准确-Objective 客观-Timely 及时驱动力:在商务智能背后有一些商业驱动力,例如:增加收入,减少费用和更有效地竞争的需求。
管理和模拟当前商业环境复杂性的需求。
减少IT费用和利用已有公司业务信息的需求。
(2)商务智能系统的功能、主要工具。
功能:在商务智能背后有一些商业驱动力,例如:增加收入,减少费用和更有效地竞争的需求。
管理和模拟当前商业环境复杂性的需求。
减少IT费用和利用已有公司业务信息的需求。
第一章一、解答题1、解释术语:数据、数据库、数据管理系统、数据库系统、数据库应用系统、视图、数据字典。
P19-20数据:是描述现实世界中各种具体事物或抽象概念的、可存储并具有明确意义的信息。
数据库:是相互关联的数据集合。
数据管理系统:是一个通用的软件系统,由一组计算机程序构成。
数据库系统:是一个用户的应用系统得以顺利运行的环境。
数据库应用系统:主要指实现业务逻辑的应用程序。
视图:指不同的用户对同一数据库的每一种理解称为视图。
数据字典:用于存储数据库的一些说明信息的特殊文件。
2、简述数据抽象、数据模型及数据模式之间的关系P26数据模型是数据抽象的工具,是数据组织和表示的方式;数据模式是数据抽象利用数据模型,将数据组织起来后得到的结果;总而言之,数据模式是数据抽象的结果。
3、DBMS应具备的基本功能有哪些?P9数据独立性、安全性、完整性、故障恢复、并发控制4、数据库中对数据最基本的4种操作是什么?P24增加、删除、修改、查询5、评价数据模型的3个要素是什么?P121)能够真实地描述现实系统2)能够容易为业务用户所理解3)能够容易被计算机实现6、数据模型的3个要素是什么?P24数据结构、数据操作、数据约束7、简述SQL语言的使用方式。
P13一般有两种方式:SQL的交互式使用;用户通过开发应用系统与RDBMS交互。
8、在数据库设计时,为什么涉及到多种数据模型?P12因为目前商用化DBMS没有一个能够同时满足3项要求,为此,人们不得不走折中路线,设计一些中间的数据模型。
9、数据库系统中的用户类型有哪些?P28-29最终用户、数据库应用开发人员、数据库管理员、其他与数据库系统有关的人员。
11、简述OLTP与OLAP间的区别。
P42-43OLTP(联机事务处理)主要面向日常的业务数据管理,完成用户的事务处理,提高业务处理效率,通常要进行大量的更新操作,同时对响应时间要求比较高。
OLAP(联机分析处理)注重数据分析,主要对用户当前及历史数据进行分析,辅助领导决策,通常要进行大量的查询操作,对时间的要求不太严格。
OLAP概述 OLAP分析,又称多维分析,是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
OLAP也可以简单定义成使用户能够以多维视图分析数据的工具。
通常用来进行多维分析的维有时间、地点、产品、度量值(如销售额)等。
例如,在销售经理查看销售数据时,他可能想了解某个产品在某个地区、某段时间的销售额,并通过交叉表的功能来按不同的维对销售数据进行分析和通过挖掘功能来了解深层次的信息。
图3-20:数据的多维形式通过三维方式展现数据,并在此基础上进行分析,能够揭示出在二维方式下隐藏的关系;并通过方便的数据导航功能,使用户更易比较数据变量之间的关系,从而可以发现数据中隐藏的信息。
关系型数据库往往不能支持对数据进行逻辑分析和统计分析。
而采用OLAP系统,用户无须编程就可以定义新的逻辑、统计等方面的计算,并可将其做为分析的一部分,并以用户理想的方式给出报告。
用户可以在OLAP平台上进行数据分析,也可以连接到其他外部分析工具上,如时间序列分析工具、数据挖掘工具等。
OLAP产品根据其实现多维分析的技术以及要实现的目标而分为三类: (1)、MOLAP(多维联机分析处理)。
MOLAP将事务型数据进行综合,通过多维结构的“立方体”的数据结构来储存经综合的数据。
MOLAP通过其层次型数据库及在内存内的索引来保障数据访问的性能。
用户可以利用数据导航工具来进行钻取、交叉查询及产生关于“立方体”的报告。
根据MOLAP的技术特点,MOLAP擅长于对一定数量的数据进行大量、复杂、快速的、反复的分析。
MOLAP通常用来进行假设分析和问题求解,如在预算应用中。
图3-21:MOLAP架构图(2)、ROLAP(关系型联机分析处理)。
ROLAP在分析数据是直接到关系型数据库中取数据,而不建立自己的“立方体”。
第一章数据仓库与数据挖掘概述1.数据库与数据仓库的本质差别是什么?答:数据库用于事务处理,数据仓库用于决策分析;数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;数据仓库的数据是大量数据库的集成;对数据库的操作比较明确,操作数据量少,对数据仓库操作不明确,操作数据量大。
数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向分析且支持决策。
6.说明OLTP与OLAP的主要区别。
答:OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时间要求高且面向应用,事务驱动; OLAP针对的是综合性数据、历史数据、不更新,但周期性刷新、一次处理的数据量大、响应时间合理且面向分析,分析驱动。
8.元数据的定义是什么?答:元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。
9.元数据与数据字典的关系什么?答:在数据仓库中引入了“元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。
18.说明统计学与数据挖掘的不同。
答:统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。
数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。
19.说明数据仓库与数据挖掘的区别与联系。
答:数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信;数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
数据仓库与数据挖掘都是决策支持新技术。
但它们有着完全不同的辅助决策方式。
在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。
它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。
数据仓库和数据挖掘的结合对支持决策会起更大的作用。
OS Java CORBA COM+ Middleware XML&WebService Patterns ONE&NET P2P Development Database Download Doc什么是联机分析处理(OLAP )(转载自北大高科网站,/)联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd 于1993年提出的,他同时提出了关于OLAP 的12条准则。
OLAP 的提出引起了很大的反响,OLAP 作为一类产品同联机事务处理 (OLTP) 明显区分开来。
当今的数据处理大致可以分成两大类:联机事务处理OLTP (on-line transaction processing )、联机分析处理OLAP (On-Line Analytical Processing )。
OLTP 是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
下表列出了OLTP 与OLAP 之间的比较。
OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。
“维”是人们观察客观世界的角度,是一种高层次的类型划分。
“维”一般包含着层次关系,这种层次关系有时会相当复杂。
通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。
因此OLAP也可以说是多维数据分析工具的集合。
OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through 等。
在线分析处理OLAP在数据分析中的应用近年来,随着数据量的快速增长和复杂性的增加,数据分析在各行各业中的重要性不断凸显。
为了能够高效地进行数据分析,许多组织和企业开始采用在线分析处理(OLAP)技术。
本文将介绍OLAP的基本原理、主要功能以及在数据分析中的应用。
一、OLAP基本原理OLAP是一种基于多维数据模型的数据分析技术。
它以多维数据立方体为基础,将数据按照不同的维度进行组织和存储,使得用户可以方便地从不同的角度对数据进行分析和探索。
OLAP具有以下几个基本概念:1. 多维数据模型:OLAP使用多维数据模型来描述分析对象和分析结果。
多维数据模型以立方体为基础,将数据按照事实表和维度表进行组织,形成多维数据空间。
2. 维度和指标:维度是描述事实的属性,如时间、地理位置、产品等;指标是需要分析的事实数据,如销售额、访问量等。
OLAP通过对维度和指标的组合,形成多维数据立方体。
3. 切片和钻取:切片是指根据某个维度或者指标对数据进行筛选,只保留满足条件的数据;钻取是指根据需要,从总体数据中逐步细化到更详细的细节。
4. 聚集和计算:OLAP可以对多维数据进行聚集操作,从而实现对数据进行汇总和计算。
聚集操作可以提高数据分析的效率。
二、OLAP主要功能OLAP具有以下几个主要的功能,这些功能使得OLAP成为数据分析的有力工具:1. 多维数据分析:OLAP可以根据不同的维度对数据进行切片、钻取和旋转等操作,从而使用户可以从不同的角度对数据进行分析,发现数据中的规律和趋势。
2. 查询和报表功能:OLAP可以通过灵活的查询和报表工具,帮助用户快速获取需要的数据,并生成丰富的报表和图表,便于数据的可视化展示和沟通。
3. 高性能计算:由于OLAP采用了多维数据模型和聚集技术,可以对大规模数据进行高效的计算和分析,减少了数据查询和分析的时间消耗。
4. 数据挖掘和预测:OLAP可以结合数据挖掘和预测算法,从海量的数据中挖掘出有价值的信息和规律,为组织和企业的决策提供支持。
第一章作业1.数据库与数据仓库的本质差别是什么?书P2(1)数据库用于事务处理,数据仓库用于决策分析。
(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。
(3)数据仓库的数据是大量数据库的集成。
(4)对数据库的操作比较明确,操作数量较小。
对数据仓库操作不明确,操作数据量大。
2.从数据库发展到数据仓库的原因是什么?书P1(1)数据库数据太多,信息贫乏。
如何将大量的数据转化为辅助决策信息成为了研究热点。
(2)异构环境数据的转换和共享。
随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。
(3)利用数据进行事物处理转变为利用数据支持决策。
3.举例说明数据库与数据仓库的不同。
比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。
但是要对这些独立数据库进行决策分析就很复杂了。
因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。
4.OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。
OLAP(On Line Analytical Processing,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。
5.OLTP是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。
6.OLTP OLAP细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用,事务驱动面向分析,分析驱动7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。
8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。
第1章数据仓库的概念与体系结构1.数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2.元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据元数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3.数据处理通常分成两大类:联机事务处理OLTP和联机分析处理OLAP。
4.多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片(Slice)、切块(dice)、钻取(Drill-down 和Roll-up 等)和旋转(pivot)等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5. ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6.数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7.数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集市、依赖型数据集市和操作型数据存储、逻辑型数据集市和实时数据仓库。
8.操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9.“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。
10.从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以营运导向为主、以实时数据仓库和自动决策为主。
11.什么是数据仓库?数据仓库的特点主要有哪些?答:数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。
数据仓库的特点包含以下几个方面:(1)面向主题。
文件的联机分析(OLAP)的开题报告题目:基于OLAP的数据分析系统设计与实现一、研究背景随着数据的数量和复杂度的不断增加,传统的数据分析方法已经无法满足企业的需求。
OLAP(联机分析处理)因其快速分析大规模数据的能力,成为越来越多企业的数据分析工具。
OLAP是一种多维数据分析技术,能够将海量数据高效的存储、查询、分析和可视化展示。
二、研究内容本研究将主要研究以下内容:1. OLAP技术的基础概念和分类2. 多维数据建模技术3. OLAP系统的架构设计和实现4. 数据挖掘算法的应用和扩展5. OLAP系统的可视化展示和交互设计三、研究方法本研究将采用如下方法:1.文献调研:对OLAP技术的研究进行深入调研和分析,包括相关论文、书籍、网络资源等。
2.功能需求分析:通过对企业需求的深入分析,明确本研究的功能需求,为系统架构的设计提供基础。
3.系统设计与实现:根据用户需求和领域知识,设计并实现OLAP数据分析系统。
4.系统测试与验证:对系统进行全面测试和验证,保证系统的稳定性、安全性和可用性。
四、研究目标与意义本研究的主要目标是设计和实现一个高效、可扩展、易用的OLAP 数据分析系统。
通过本研究的实施,我们希望可以:1.提高企业的数据分析效率和准确性2.拓展数据分析的应用领域3.提升企业的核心竞争力四、预期成果本研究预期的成果包括:1.设计和实现的OLAP数据分析系统2.一份详尽的设计文档和实现文档3.相关技术文章的发表4.开发文档和用户手册五、研究计划本研究计划在以下时间节点内完成:1.文献调研:1个月2.功能需求分析:2个月3.系统设计与实现:4个月4.系统测试与验证:1个月5.撰写论文和发表文章:2个月总计:10个月六、参考文献1. Han, J. and Kamber, M. (2011) Data Mining: Concepts and Techniques. 3rd Edition, Morgan Kaufmann Publishers, Inc.2. Kimball, R., et al. (1998) The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses. John Wiley and Sons, Inc.3. Ross, K.W. and Kimball, R. (2002) Mastering Data Warehouse Design: Relational and Dimensional Techniques. John Wiley and Sons, Inc.4. Uludag, U., et al. (2017) A Literature Review of OLAP Applications. In: Murgante B., et al., Eds., Computational Science and Its Applications – ICCSA 2017, Springer International Publishing, Cham, 758-772.。
联机分析处理简介联机分析处理,英文名称为On-Line Analysis Processing,简写为OLAP。
随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。
操作型应用和分析型应用,特别是在性能上难以两全,人们常常在关系数据库中放宽了对冗余的限制,引入了统计及综合数据,但这些统计综合数据的应用逻辑是分散而杂乱的、非系统化的,因此分析功能有限,不灵活,维护困难。
在国外,不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足,他们通过专门的数据综合引擎,辅之以更加直观的数据访问界面,力图统一分散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。
1993年,E.F.Codd(关系数据库之父)将这类技术定义为“联机分析处理”。
作用联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。
它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
决策数据是多维数据,多维数据就是决策的主要内容。
OLAP专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。
联机分析处理具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利于迅速做出正确判断。
它可用于证实人们提出的复杂的假设,其结果是以图形或者表格的形式来表示的对信息的总结。
1.特点:OLAP 在以数据仓库为数据源时,它有两个特点:在线性( On Line ):由客户机/服务器这种体系结构来完成的;多维分析:这也是OLAP 的核心所在。
2 作用:. 联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。
它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
决策数据是多维数据,多维数据就是决策的主要内容。
OLAP 专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。
3. OLAP的基本多维分析操作有钻取(Drill-up和Drill-down八切片(Slice )和切块( Dice )、以及旋转( Pivot )等。
钻取:是改变维的层次,变换分析的粒度。
它包括向下钻取 ( Drill-down ) 和向上钻取(Drill-up ) /上卷(Roll-up) 。
Drill-up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而Drill-down 则相反,它从汇总数据深入到细节数据进行观察或增加新维。
切片和切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布。
如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。
旋转:是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。
4. 五、联机分析处理的实现方式同样是仿照用户的多角度思考模式,联机分析处理有三种不同的实现方法:•关系型联机分析处理(ROLAP,Relatio nal OLAP)•多维联机分析处理(MOLAP,Multi-Dime nsio nal OLAP) •前端展示联机分析处理(Desktop OLAP)其中,前端展示联机分析需要将所有数据下载到客户机上,然后在客户机上进行数据结构/报表格式重组,使用户能在本机实现动态分析。