谈谈联机分析处理
- 格式:doc
- 大小:662.50 KB
- 文档页数:11
气相色谱/质谱联机分析的信息(1)总离子流色谱图总离子流色谱图(totaJ ionic chromatogram,TIc是指未经质量分离的各种质荷比离子的总强度与时间的对应关系图。
TIc的获得方式是在质谱仪的离子源和质量分析器之间设置总离子流检测器,当组分从Gc柱流出进入离子源时,总离子流强度增加,检测得到组分峰,在没有组分流出时只有本底。
因此获得的TIc与气相色谱图相似,可获得保留时间信息,其峰面积或峰高可用作定量。
这种方式记录的谱图,每个峰表示了在该峰时刻,存在于离子源中某个组分以不同质荷比存在的离子流的总强度,但不管其质量上的大小差异。
如果在此时进行质量扫描,把不同质荷比的离子流分开,便构成了质谱图。
如果在色谱流出的时问内按一定时问间隔进行质量扫描,便可以得到总离子流的三维图像。
将沿质荷比方向,即同一色谱流出时间的离子流强度(丰度)信号叠加,便得到了平面的总离子流色谱图。
(2)质量色谱图在质谱进行自动、重复扫描时,在色谱柱流出时段内可获得许多张质谱图,若将每一质谱图中指定质荷比离子的强度,按扫描序号即扫描时间作图,称为质量色谱图(mass chromatogmm,Mc),又称离子碎片色谱图。
它可从总离子流的三维图像中,以某一质荷比为断面截得。
九种正构烷烃的总离子流谱图和离子的质量色谱图。
而相应的质最色谱图中出现几个小峰,这些小峰是由于高碳数烷烃的断裂所致。
因此,质量色谱法可以从TIc图中快速寻找化合物或同系物。
当色谱分离效果不佳时,有时利用质量色谱图的信息对未分离混合物峰进行分析。
根据异构体对应质谱峰的强度差异,通过若干特征质量数作质量色谱图,从而对异构体进行分析。
(3)质谱图有机化合物的质谱图是指用其带正电荷的母离子和碎片离子的质荷比(m儿)与其相对强度作图。
图中的最强峰称为基峰,并定其强度为100%,其他峰以此为基准确定其相对强度。
一般讨论的是单电荷离子,因此峰的相应质荷比即为峰所对应离子的质量。
联机事务处理(OLTP)和联机分析处理(OLAP)1.概述当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。
OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
2.什么是联机事务处理(OLTP)联机事务处理系统(OLTP),也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。
这样做的最大优点是可以即时地处理输入的数据,及时地回答。
也称为实时系统(Real time System)。
衡量联机事务处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间(Response Time),即用户在终端上送入数据之后,到计算机对这个请求给出答复所需要的时间。
OLTP数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。
OLTP数据库通常具有以下特征:1.支持大量并发用户定期添加和修改数据;2.反映随时变化的单位状态,但不保存其历史记录;3.包含大量数据,其中包括用于验证事务的大量数据;4.具有复杂的结构;5.可以进行优化以对事务活动做出响应;6.提供用于支持单位日常运营的技术基础结构;7.个别事务能够很快地完成,并且只需访问相对较少的数据。
OLTP 系统旨在处理同时输入的成百上千的事务。
OLTP系统中的数据主要被组织为支持如下事务:1.记录来自销售点终端或通过网站输入的订单;2.当库存量降到指定级别时,订购更多的货物;3.在制造厂中将零部件组装为成品时对零部件进行跟踪;4.记录雇员数据。
通常在数据库系统中,事务是工作的离散单位。
例如,一个数据库事务可以是修改一个用户的帐户平衡或库存项的写操作。
数据仓库与联机分析处理一、基本概念数据仓库是面向主题的、集成的、时变的和非易失的有组织的数据集合,支持管理决策制定。
有一些要素区别数据仓库与操作数据库。
由于两种系统提供很不相同的功能,需要不同类型的数据,因此有必要将数据仓库与操作数据库分开维护。
A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of management’s decision-making process.”—W. H. Inmon1.1 什么是数据仓库数据仓库已被多种方式定义但没有一种严格的定义。
课本:数据仓库是一种数据库,它与单位的操作数据库分别维护。
数据仓库系统允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。
A decision support database that is maintained separately from the organization’s operational database一个与组织结构的操作数据库分别维护的决定支持数据库;Support information processing by providing a solid platform of consolidated, historical data for analysis.为统一的历史数据分析提供坚实的平台,对信息处理提供支持。
建立数据仓库(data warehousing):The process of constructing and using data warehouses 构建和使用数据仓库的过程1.2 subjected-oriented 面向主题的Organized around major subjects 围绕一些重要主题Focusing on the modeling and analysis of data for decision makers, not on daily operations or transaction 聚焦在为决策者的数据分析建模,而不是日常操作和交易Provide a simple and concise view around particular subject issues by excluding data that are not useful in the decision support process 排除对决策无用的数据1.3 integrated 集成的Constructed by integrating multiple, heterogeneous data sources 多个异构数据源,使用数据清理技术和数据集成技术,确保一致性Data cleaning and data integration techniques are applied1.4 Time-variant 时变的The time horizon for the data warehouse is significantly longer than that of operational systems 比操作数据库的时间更长数据仓库的关键结构都显式或者隐式地包含了时间元素1.5 nonvolatile 非易失的A physically separate store of data transformed from the operational environment 数据仓库总是物理地分离存放数据。
OLAP概述 OLAP分析,又称多维分析,是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
OLAP也可以简单定义成使用户能够以多维视图分析数据的工具。
通常用来进行多维分析的维有时间、地点、产品、度量值(如销售额)等。
例如,在销售经理查看销售数据时,他可能想了解某个产品在某个地区、某段时间的销售额,并通过交叉表的功能来按不同的维对销售数据进行分析和通过挖掘功能来了解深层次的信息。
图3-20:数据的多维形式通过三维方式展现数据,并在此基础上进行分析,能够揭示出在二维方式下隐藏的关系;并通过方便的数据导航功能,使用户更易比较数据变量之间的关系,从而可以发现数据中隐藏的信息。
关系型数据库往往不能支持对数据进行逻辑分析和统计分析。
而采用OLAP系统,用户无须编程就可以定义新的逻辑、统计等方面的计算,并可将其做为分析的一部分,并以用户理想的方式给出报告。
用户可以在OLAP平台上进行数据分析,也可以连接到其他外部分析工具上,如时间序列分析工具、数据挖掘工具等。
OLAP产品根据其实现多维分析的技术以及要实现的目标而分为三类: (1)、MOLAP(多维联机分析处理)。
MOLAP将事务型数据进行综合,通过多维结构的“立方体”的数据结构来储存经综合的数据。
MOLAP通过其层次型数据库及在内存内的索引来保障数据访问的性能。
用户可以利用数据导航工具来进行钻取、交叉查询及产生关于“立方体”的报告。
根据MOLAP的技术特点,MOLAP擅长于对一定数量的数据进行大量、复杂、快速的、反复的分析。
MOLAP通常用来进行假设分析和问题求解,如在预算应用中。
图3-21:MOLAP架构图(2)、ROLAP(关系型联机分析处理)。
ROLAP在分析数据是直接到关系型数据库中取数据,而不建立自己的“立方体”。
OLAP技术在数据分析中的应用摘要:首先介绍了olap的概念、功能特征,然后通过实例对多维数据库的概念、层次关系和多维数据分析的主要操作进行了详细描述。
最后,以oracle公司的hyperion产品作为多维数据库分析的平台,通过对一大型能源集团公司的财务预算系统中的预算数据进行分析,介绍了olap技术方法的实际应用,总结了olap技术在数据分析工作中的优势。
关键词:联机分析处理;多维数据库;数据分析;甲骨文产品;财务预算系统中图分类号:tp392 文献标识码:a 文章编号:1007-9599 (2013) 02-0000-03olap(on-line analytical processing,即联机分析处理)是一种多维数据库技术。
这种技术的设计目的是针对特定问题的实时数据访问和分析,并且提供直观易懂的查询结果。
还有一种处理技术oltp(on-line transaction processing,即联机事务处理),与olap不同,oltp是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理。
1 olap技术介绍1.1 olap技术的发展背景60年代,关系数据库之父e.f.codd提出了关系模型,促进了联机事务处理(oltp)的发展(数据以表格的形式而非文件方式存储)。
1993年,e.f.codd提出了olap概念,认为oltp已不能满足终端用户对数据库查询分析的需要,sql对大型数据库进行的简单查询也不能满足终端用户分析的要求。
用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。
因此,e.f.codd提出了多维数据库和多维分析的概念,即olap。
olap技术正是为了满足决策管理的需求而产生的。
1.2 olap特征olap的技术核心是”维”(dimension)这个概念。
“维”是指一种视角,是一个判断、说明、评价和确定一个事物的多方位、多角度、多层次的条件和概念。
OS Java CORBA COM+ Middleware XML&WebService Patterns ONE&NET P2P Development Database Download Doc什么是联机分析处理(OLAP )(转载自北大高科网站,/)联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd 于1993年提出的,他同时提出了关于OLAP 的12条准则。
OLAP 的提出引起了很大的反响,OLAP 作为一类产品同联机事务处理 (OLTP) 明显区分开来。
当今的数据处理大致可以分成两大类:联机事务处理OLTP (on-line transaction processing )、联机分析处理OLAP (On-Line Analytical Processing )。
OLTP 是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
下表列出了OLTP 与OLAP 之间的比较。
OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。
“维”是人们观察客观世界的角度,是一种高层次的类型划分。
“维”一般包含着层次关系,这种层次关系有时会相当复杂。
通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。
因此OLAP也可以说是多维数据分析工具的集合。
OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through 等。
OLAP服务器的比较1. 引言本文档旨在对不同的OLAP(联机分析处理)服务器进行比较和评估,以帮助用户选择适合其需求的最佳解决方案。
以下是针对各个方面细化讨论。
2. OLAP概述在这一章节中,我们将介绍什么是OLAP及其基本原理、功能和应用场景。
此外还会提供关于如何利用OLAP技术来支持企业决策制定过程等相关信息。
3. OLTP vs OLAP这里将详细阐述在线事务处理系统(Online Transaction Processing, 简称:OTLP)与联机分析处理系统之间的区别,并说明为什么需要专门设计并使用一个独立且高效率的数据库管理系统来满足数据分析需求。
4. 常见商业智能工具集成情况此部分主要列出常见商业智能(BI)工具所支持或整合了哪些市场上流行或者开源兼容性好得多种类型OALP服务端产品。
5. 关键特征比较对几款重点选取到相互竞品做深入剖析,在该章节下可以从查询速度、存储方式、可扩展性等角度去比较各个产品的优劣。
6. 性能和可扩展性在这一章节中,我们将重点讨论OLAP服务器在处理大规模数据集时的性能表现以及其可扩展性。
包括对于不同硬件配置、并发用户数等方面进行评估,并提供相应测试结果与分析。
7. 安全和权限控制本部分主要关注安全问题,如:多层次认证机制、基于角色或者对象级别精确到细致度(Granularity)去做权限管理。
8. 数据压缩技术这里会详述每种OLAP服务端所采用了哪些存储方式来实现高效率查询同时又保持低磁盘占有空间情况下达成最好平衡状态9. 高可用架构设计此处描述常见商业智能工具是怎么通过负载均衡器(Load Balancer),故障转移(Flover)策略去支撑企业生产环境10. 可视化报告功能对几款选取出得软件从图形界面友好程度上作一个简单介绍11 .附件:- OLAP服务器使用手册.pdf- 示例代码.zip12 .法律名词及注释:- OLTP: Online Transaction Processing,在线事务处理系统- OLAP: Online Analytical Processing,联机分析处理系统- BI:Business Intelligence, 商业智能。
doris rollup 原理Doris Rollup原理Doris Rollup是一个基于OLAP(联机分析处理)的数据预处理技术,用于加速大规模数据分析和查询的性能。
本文将详细介绍Doris Rollup的原理,并探讨其在数据预处理中的应用。
一、Doris Rollup的概述Doris Rollup是由阿里巴巴集团开发的一种数据预处理技术,旨在提高大规模数据分析和查询的性能。
它通过将原始数据按照特定的维度进行聚合和压缩,从而减少数据的存储空间和查询时间。
二、Doris Rollup的原理1. 数据聚合:Doris Rollup首先对原始数据进行聚合操作,将相同维度下的数据合并为一个聚合值。
例如,对于销售数据,可以按照年份、季度、月份等维度进行聚合。
2. 数据压缩:在数据聚合的基础上,Doris Rollup采用多种压缩算法,如字典编码、位图压缩等,将聚合后的数据进一步压缩存储,减少存储空间的占用。
3. 数据索引:为了加速查询速度,Doris Rollup采用了多级索引结构,如B+树和Bitmap索引。
这些索引结构可以快速定位到需要查询的数据,提高查询效率。
4. 数据分区:为了进一步提高查询性能,Doris Rollup将数据按照特定的规则进行分区,使得查询只需要访问部分数据,减少了不必要的IO操作。
三、Doris Rollup的应用场景Doris Rollup在大规模数据分析和查询中具有广泛的应用场景,以下是几个典型的应用场景:1. 商业智能分析:Doris Rollup可以用于对销售、用户行为等数据进行分析,帮助企业做出决策和优化业务流程。
2. 日志分析:Doris Rollup可以对大规模日志数据进行聚合和压缩,提高日志查询的效率和性能。
3. 数据仓库:Doris Rollup可以用于构建数据仓库,将庞大的数据集按照维度进行聚合和压缩,方便后续的数据分析和查询。
4. 在线广告系统:Doris Rollup可以用于对广告展示和点击数据进行聚合和压缩,提高广告系统的性能和响应速度。
关于数据仓库与联机分析处理的概述一、数据仓库及数据库的概念及其特点1、数据仓库的概念及其特点“什么是数据仓库?”这恐怕是每一个刚刚开始接触数据仓库的技术人员都会提出的一个问题。
有人认为数据仓库就是一个大的数据库,也有人认为数据仓库是一项数据管理和分析的技术。
这些定义都从一定的侧面反映了数据仓库的概念,但并不全面。
目前,业界公认的数据仓库定义是由数据仓库之父W.H.Inmon在《Building the Data Warehouse》一书中给出:“数据仓库是面向主题的、集成的、随时间变化的、稳定的数据集合,用以支持管理中的决策制定过程。
”正如Inmon所描述的,数据仓库具有如下特点:(1)数据仓库的数据是面向主题的与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。
所谓主题,是指在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。
在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。
(2)数据仓库的数据是集成的建立数据仓库的主要目的就是为用户提供易于访问的商业信息。
为了减少用户查询的响应时间,应该把数据从数据源中提取出来,放到数据仓库中去。
在数据进入数据仓库之前,必须经过加工和集成,使原始数据结构做一个从面向应用到面向主题的大转变。
(3)数据仓库的数据是不可更新的数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。
数据仓库的数据不可更新使得数据仓库管理系统DWMS相比数据库管理系统DBMS而言要简单得多,同时也使我们可以对数据仓库进行最大限度的性能优化。
(4)数据仓库的数据是随时间不断变化的数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的用户进行分析处理时是不进行更新操作的。
但并不是说,在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变的。
数据仓库会随时间的变化不断增加新的数据内容和删去过时的数据内容。
当然,数据仓库通常还具有一些其它的特点,如数据仓库中的数据量很大、数据仓库对系统软硬件的要求较高等等。
2、数据仓库与数据库的关系及比较传统的数据库作为数据管理的手段,主要面向一个或一组记录的查询和修改,为企业的特定应用服务,人们关心的是响应时间、数据的安全性和完整性。
为此要求数据库提供完善的数据锁、事务日志和并发控制等机制,以便安全可靠地处理具体业务。
数据仓库是在数据库基础之上发展起来的,数据仓库的作用就是为复杂的数据分析和高层决策提供支持。
尽管现有的数据仓库大多还是采用传统的关系数据库或改进后的关系数据库来实现,但由于两者面向的应用截然不同,因此不管是在数据模型的设计上还是在数据的物理组织上都存在着相当大的差异,如表1所示。
表1 数据仓库与数据库的对比表二、基于数据仓库的决策支持系统自从Inmon 首次提出数据仓库概念以后,数据仓库及其相关技术日益成熟,客观上带动了高性能和并行技术以及数据库中的知识发现等多领域的巨大进步。
数据库技术的发展和激烈的市场竞争为解决DSS 问题提供了可能,人们开始提出了以数据仓库为基础、OLAP 和数据挖掘工具为手段的一整套可操作、可实施的解决方案。
以数据仓库为核心的决策支持系统的结构如图1所示。
图1 基于数据仓库的决策支持系统的结构数据库、数据仓库和共用数据接口是系统的数据管理部分,构成了整个系统的核心和基础,为上层应用提供数据。
方法库、模型库、知识库、数据挖掘工具、多维分析工具(OLAP 工具)和统计查询工具共同构成了前端分析工具层,相互配合协调,完成用户的决策处理任务。
管理工具主要完成系统的模型维护、数据仓库元数据管理、数据提取任务的管理等任务。
在这种新的DSS构架中,数据仓库、OLAP、数据挖掘和数据可视化技术具有内在的统一性,很好地解决了相互之间的衔接问题。
数据仓库为OLAP和数据挖掘提供充实可靠的数据,数据挖掘所发现的知识可以用于指导OLAP的多维分析,而OLAP分析得出的新知识也可以补充到系统的知识库中。
如下图:数据仓库与OLAP的关系。
这种新的DSS构架的重要意义在于重新揭示了信息的本质,表明了信息系统的设计观念从处理驱动到数据驱动的转变。
过去的信息系统以大量复杂的处理过程和算法为特征,数据在这些处理中产生。
而在未来的时代,信息的重点将转移到数据模式分析,信息处理技术将随数据分析处理的需求而不断进步。
三、联机分析处理(OLAP)概述联机分析处理,英文名称为On-Line Analysis Processing,简写为。
随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。
操作型应用和分析型应用,特别是在性能上难以两全,人们常常在关系数据库中放宽了对冗余的限制,引入了统计及综合数据,但这些统计综合数据的应用逻辑是分散而杂乱的、非系统化的,因此分析功能有限,不灵活,维护困难。
在国外,不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足,他们通过专门的数据综合引擎,辅之以更加直观的数据访问界面,力图统一分散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。
1993年,E.F.Codd(关系数据库之父)将这类技术定义为“联机分析处理”。
联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。
它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
决策数据是多维数据,多维数据就是决策的主要内容。
OLAP专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。
联机分析处理具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利于迅速做出正确判断。
它可用于证实人们提出的复杂的假设,其结果是以图形或者表格的形式来表示的对信息的总结。
它并不将异常信息标记出来,是一种知识证实的方法。
它可以根据分析人员的要求,迅速灵活地对当量的数据进行复杂的查询处理,并以直观的容易理解的形式将查询结果提供给各种决策人员,使他们能够迅速准确地掌握企业的运营情况,了解市场的需求。
OLAP具有两个重要的特点:一是在线性,体现为对用户请求的快速响应和交互式操作;二是多维分析,也就是说,OLAP展现在用户面前的是一个多维视图,使用者可以对其进行各种多维分析操作。
下面我们具体介绍OLAP的多维分析特性。
在实际的决策制定过程中,决策者需要的不是某一指标单一的值,而是希望从多个角度或者从不同的考察范围来观察某一指标或多个指标,通过分析对比,从而找出这些指标间隐藏的内在关系,并预测这些指标的发展趋势,即决策所需的数据总是和一些分析角度和分析指标有关。
OLAP的主要工作就是将数据仓库中的数据转换到多维数据结构中,并且对上述多维数据结构执行有效且非常复杂的多维查询。
四、OLAP的多维分析以及特性1、基本概念(1)维维是人们观察数据的特定角度,它是一种高层次的类型划分。
例如,企业常常关心产品销售数据随时间推移而产生的变化情况,这时他是从时间的角度来观察产品的销售,所以时间就是一个维(时间维)。
(2)维的层次人们观察数据的某个特定角度(维)还可以存在细节程度不同的多个描述方面,我们称这多个描述方面为维的层次。
例如描述时间维时,可以从日、月、季度、年等不同的层次来描述,那么日、月、季度、年就是时间维的层次。
同一维的维层次结构可简可繁,这主要是因为不同分析应用对数据组织的详略程度的要求不同。
在某些维中可能存在着完全不同的几条层次路径,例如时间维通常存在日历层次路径和财政层次路径,如图2所示。
图2 时间维的层次路径图(3)维成员维成员是维的一个取值。
如果一个维是多层次的,那么该维的维成员是在不同维层次取值的组合。
例如,我们考虑时间维具有日、月、年三个层次,那么“2002年12月10日”就构成了时间维的一个维成员。
一个维成员并不一定在每个维层次上都要取值,例如,“2002年12月”、“2002年”都是时间维的维成员。
(4)度量度量是我们需要分析的目标数据,有时也被称为变量。
例如,用来反映一个企业经营效益好坏的销售量、销售额和库存量等。
(5)多维数据集多维数据集是OLAP 的核心,有时也称为立方体或超立方。
多维数据集是由一组维和度量组成的,可以用一个多维数组来表示:(维1,维2,……,维n ,度量)。
例如,按时间、地区、专利类型组织起来的专利申请量多维数据集可以表示为:(时间,地区,专利类型,专利申请量)。
对于三维数据集我们可采用图3的可视化方式表达得更清楚。
如果我们在上述三维数据集的基础上再添加申请人类型维,就得到一个四维结构,当然这种维数超过三维的多维数据结构很难用可视化的方式表达清楚。
时间维地区维北京上海广东河北图3 以时间、地区和专利类型三个维构成的多维数据集(6) 数据单元多维数据集的取值为数据单元。
当在多维数据集中的每个维上都选中一个维成员以后,这些维成员的组合就唯一确定了度量的值。
数据单元也就可以表示为:(维1成员,维2成员,……,维n 成员,度量值)。
例如,在图2中时间、地区和专利类型维上分别选取维成员“1999年”,“北京”,“发明”,则可以唯一确定观察度量“专利申请量”的一个取值2062,这样该数据单元可表示为(1999年,北京,发明,2062)。
2、OLAP 的多维分析操作多维分析操作是指对以多维形式组织起来的数据采取切片、切块、旋转等各种分析操作,以求剖析数据、使最终用户能从多个角度、多个侧面去观察数据库中的数据、从而深入地了解包含在数据中的信息、内涵。
多维分析的基本操作有:(1) 切片(Slice )切片操作是在给定的多维数据集的某一个维上选定一维成员,从而得到一个多维数据子集的动作。
如果有(维1,维2,……,维i ,……,维n ,度量)多维数据集,对维i 选定了某个维成员,那么(维1,维2,……,维i 成员,……,维n ,度量)就是多维数据集(维1,维2,……,维i ,……,维n ,度量)在维i 上的一个切片。
对于图2.4所示的三维数据集,我们选定专利类型维上的一个维成员(设为“发明”),就得到了在专利类型维上的一个切片,如图4所示。