数据仓库5联机分析处理技术2.pptx
- 格式:pptx
- 大小:7.05 MB
- 文档页数:62
数据库系统概论新技术篇数据仓库与联机分析处理技术(5)陈红中国人民大学信息学院新的研究方向传统问题⏹实体化视图的增量维护⏹数据集成⏹……新的多维数据分析方法⏹SKYLINE⏹TOP-K⏹KNN 新的硬件环境⏹内存OLAP⏹多核OLAP⏹基于协处理器的OLAP⏹实时数据仓库新的应用场景⏹大数据OLAP⏹流数据的联机分析⏹物联网中的联机分析121内存OLAP和多核OLAP的困境OLAP不仅是数据密集型应用,更是计算密集型应用,即使数据全部放在内存中,数据的计算量也不是短时间内完成的;多核OLAP虽然在一定程度上缓解了计算瓶颈,但由于CPU缓存大小有限以及CPU缓存与内存之间的带宽较低,随着内存容量的增大,会进一步增加缓存缺页的次数,从而无法保证好的效率。
122基于协处理器的OLAP内存OLAP的性能瓶颈本质上由两个原因造成:第一,CPU计算速度慢;第二,存储器与处理器之间带宽低。
协处理器的高带宽及其先天具备的大数据量并行计算能力,为解决内存OLAP的性能问题提供了良好的硬件基础123协处理器产品体系Different families of technologies⏹GPGPU (Nvidia Tesla, AMD)⏹Manycores (Intel MIC, Adapteva)⏹FPGA (Convey etc.)124•与较大的CPU 内存(512G)相比,协处理设备缓存较小(4~8G); 与CPU 内存访问带宽(50GB/s)相比,协处理设备内存访问带宽更佳(100~200GB/s); •加速设备通过PCIe 通道与CPU 相连.•多个协处理设备之间的通信速度较慢(8GB/s).•整体架构中,PCIe 数据传输(16~32GB/s)通常被认为是性能制约最重要因素.PCIe busMemory (DDR3)32-512GBFast (GDDR5) memory 4-8GB100-200GB/s~8GB/s~8GB/s50GB/sAccelerator Interconnect~8GB/sCPU(s) 协处理器一般架构Accelerators and Coprocessor model today16-32GB/s125协处理器特性类型Xeon E7-4890 v2 Xeon Phi 7120X NVIDIA Tesla K40核心数量/线程数量15 /30 61/244 2880 CUDA cores主频 2.80 GHz 1.24 GHz 732MHz内存容量1536 GB 16GB 12GB缓存容量37.5MB 30.5MB 1.5MB内存类型DDR-3 GDDR5 ECC GDDR5内存带宽85GB/s 352 GB/s 288 GB/s价格$6619.00 $4129.00 $5500.00126the University of North Carolina⏹研究了包括比较运算,布尔运算以及范围查询等基本操作符在GPGPU上实现•Fast Computation of Database Operations usingGraphics Processors. SIGMOD, 2004:215--226.•Fast and Approximate Stream Mining of Quantiles andFrequencies Using Graphics Processors. SIGMOD,2005:611--622.•GPUTeraSort: High Performance Graphics Co-processorSorting for Large Database Management. SIGMOD 2006:325—336 127University of Virginia⏹基于CUDA的数据库操作•Accelerating SQL database operations on a GPU withCUDA. GPGPU 2010: 94-103• A Performance Study for Iterative Stencil Loops onGPUs with Ghost Zone Optimizations. InternationalJournal of Parallel Programming 39(1): 115-142 (2011)•Pannotia: Understanding irregular GPGPU graphapplications. IISWC 2013: 185-195•BenchFriend: Correlating the performance of GPUbenchmarks. IJHPCA 28(2): 238-250 (2014) 128University of Magdeburg⏹研究了混和平台上的查询计划自调优模型,及相应原型系统HyPE•Efficient co-processor utilization in database query processing.Inf. Syst. 38(8): 1084-1096 (2013)•Why it is time for a HyPE: A Hybrid Query Processing Enginefor Efficient GPU Coprocessing in DBMS. PVLDB 6(12): 1398-1403 (2013)•Towards Optimization of Hybrid CPU/GPU Query Plans inDatabase Systems. ADBIS Workshops 2012: 27-35•Self-Tuning Distribution of DB-Operations on Hybrid CPU/GPUPlatforms. Grundlagen von Datenbanken 2012: 89-94 129Hong Kong University of Science and Technology ⏹gather, scatter, join 等在GPU 上的实现 ⏹原型系统研发(GDB 系统)•Efficient gather and scatter operations on graphics processors. Nov. 2007 Proceedings of the 2007 ACM/IEEE conference on Supercomputing.•Bingsheng He, Wenbin Fang, Qiong Luo, Naga K. Govindaraju, Tuyong Wang: Mars: a MapReduceframework on graphics processors. PACT 2008: 260-269 •Relational query coprocessing on graphics processors. ACM Trans. Database Syst. 34(4) (2009) ---GDBGPU OLAP 的研究130GDB系统中, 将数据库操作细化并定义为一系列的原语, 原语是原子级操作, 通过原语构成关系操作符。
第一章数据仓库和联机分析处理(OLAP)概述1.1 数据仓库的概念及其特点“什么是数据仓库?”这恐怕是每一个刚刚开始接触数据仓库的技术人员都会提出的一个问题。
有人认为数据仓库就是一个大的数据库,也有人认为数据仓库是一项数据管理和分析的技术。
这些定义都从一定的侧面反映了数据仓库的概念,但并不全面。
目前,业界公认的数据仓库定义是由数据仓库之父W.H.Inmon在《Building the Data Warehouse》[7]一书中给出:“数据仓库是面向主题的、集成的、随时间变化的、稳定的数据集合,用以支持管理中的决策制定过程。
”正如Inmon所描述的,数据仓库具有如下特点[6,7]:(1) 数据仓库的数据是面向主题的与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。
所谓主题,是指在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。
在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。
(2) 数据仓库的数据是集成的建立数据仓库的主要目的就是为用户提供易于访问的商业信息。
为了减少用户查询的响应时间,应该把数据从数据源中提取出来,放到数据仓库中去。
在数据进入数据仓库之前,必须经过加工和集成,使原始数据结构做一个从面向应用到面向主题的大转变。
(3) 数据仓库的数据是不可更新的数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。
数据仓库的数据不可更新使得数据仓库管理系统DWMS相比数据库管理系统DBMS而言要简单得多,同时也使我们可以对数据仓库进行最大限度的性能优化。
(4) 数据仓库的数据是随时间不断变化的数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的用户进行分析处理时是不进行更新操作的。
但并不是说,在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变的。
数据仓库、联机分析处理与数据挖掘08广义概念上的数据仓库是一种帮助企业做决策的体系化解决方案,它包括了三个方面的内容:⏹数据仓库技术(Data Warehouse,DW)⏹联机分析处理技术(On-line Analytical Processing,OLAP)⏹数据挖掘技术(Data Mining,DM)数据仓库、联机分析处理和数据挖掘作为信息处理技术是独立出现的。
数据仓库用于数据的存储和组织;联机分析处理则侧重于数据的分析;数据挖掘则致力于知识的自动发现。
因此这三种技术之间并没有内在的依赖关系,可以独立地应用到企业信息系统的建设之中,以提高信息系统相应的能力。
但是,这三种技术之间确实存在着一定的联系性和互补性,把它们结合起来,就可以使它们的能力更充分地发挥出来。
这样就形成了一种决策支持系统的架构,即DW+OLAP+DM。
1、数据仓库技术⑴概述数据仓库是一种只读的、用于分析的数据库,常常作为决策支持系统的底层。
它从大量的事务性数据库中抽取数据、并将其清理、转换为新的存储格式,即为了决策目标而把数据聚合在一种特殊的格式中。
数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合。
其中,“主题”是指用户使用数据仓库辅助决策时所关心的重点问题,每一个主题对应一个客观分析领域,如销售、成本、利润的情况等。
“面向主题”就是指数据仓库中的信息是按主题组织的,按主题来提供信息。
“集成的”是指数据仓库中的数据不是业务处理系统数据的简单拼凑与汇总,而是经过系统的加工整理,是相互一致的、具有代表性的数据。
“随时间变化”是指数据仓库中存储的是一个时间段的数据,而不仅仅是某一个时间的数据,所以主要用于进行时间趋势分析。
一般数据仓库内的数据时限为5到10年,数据量也比较大。
“信息本身相对稳定”是指数据一旦进入数据仓库,一般情况下将被长期保留,变更很少。
⑵数据仓库组织和管理数据的方法与普通数据库的不同点主要表现在三个方面:①它依据决策要求,只从数据库中抽取那些需要的数据,并进行一定的处理。
第一章数据仓库和联机分析处理(OLAP)概述1.1 数据仓库的概念及其特点“什么是数据仓库?”这恐怕是每一个刚刚开始接触数据仓库的技术人员都会提出的一个问题。
有人认为数据仓库就是一个大的数据库,也有人认为数据仓库是一项数据管理和分析的技术。
这些定义都从一定的侧面反映了数据仓库的概念,但并不全面。
目前,业界公认的数据仓库定义是由数据仓库之父W.H.Inmon在《Building the Data Warehouse》[7]一书中给出:“数据仓库是面向主题的、集成的、随时间变化的、稳定的数据集合,用以支持管理中的决策制定过程。
”正如Inmon所描述的,数据仓库具有如下特点[6,7]:(1) 数据仓库的数据是面向主题的与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。
所谓主题,是指在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。
在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。
(2) 数据仓库的数据是集成的建立数据仓库的主要目的就是为用户提供易于访问的商业信息。
为了减少用户查询的响应时间,应该把数据从数据源中提取出来,放到数据仓库中去。
在数据进入数据仓库之前,必须经过加工和集成,使原始数据结构做一个从面向应用到面向主题的大转变。
(3) 数据仓库的数据是不可更新的数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。
数据仓库的数据不可更新使得数据仓库管理系统DWMS相比数据库管理系统DBMS而言要简单得多,同时也使我们可以对数据仓库进行最大限度的性能优化。
(4) 数据仓库的数据是随时间不断变化的数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的用户进行分析处理时是不进行更新操作的。
但并不是说,在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变的。