BI、数据仓库基础概念
- 格式:doc
- 大小:49.00 KB
- 文档页数:7
基本BI知识一、什么是BI?BI(Business Intelligence)即商业智能,是指通过对企业内部和外部数据的分析,帮助企业管理者做出更明智的决策,提高企业运营效率和市场竞争力的一种管理和分析方法。
BI通过收集、整理、分析数据,将数据转化为有价值的信息和洞察,并提供可视化的报表和仪表盘,帮助企业管理层全面了解企业状况,识别业务机会和风险,以及进行业务规划和预测。
二、BI的核心要素1. 数据源数据源是BI系统的基础,它可以包括内部数据库、企业应用系统、云端存储、第三方数据供应商等。
通过合理选择和整合数据源,可以确保BI系统获得准确、全面的数据,并提高数据的可靠性和一致性。
2. 数据仓库数据仓库是BI系统中存储和管理数据的中心库,它采用多维数据模型,将不同数据源的数据整合到一个统一的数据模型中,方便用户对数据进行分析和查询。
数据仓库通常采用ETL(Extract, Transform, Load)的流程,对数据进行抽取、转换和加载,确保数据的质量和一致性。
3. 数据分析工具数据分析工具是BI系统中用于对数据进行处理、分析和可视化的软件工具,包括数据挖掘工具、报表工具、可视化工具等。
这些工具可以帮助用户从不同角度和层次理解数据,发现数据中的隐藏信息和关联规律,支持决策者进行数据驱动的决策。
4. 数据可视化数据可视化是BI系统的重要功能,它通过图表、仪表盘等可视化手段展示数据分析结果,提高用户对数据的理解和洞察能力。
数据可视化可以帮助用户直观地呈现数据,发现数据中的趋势和异常,以及进行数据的比较和分析。
三、BI的应用场景1. 销售分析BI系统可以帮助企业对销售数据进行分析,包括销售额、销售渠道、客户分布等方面的数据。
通过对销售数据的分析,企业可以了解销售情况,找出销售瓶颈和机会,制定销售策略和预测销售趋势。
2. 运营分析BI系统可以对企业的运营数据进行分析,包括生产效率、成本控制、供应链管理等方面的数据。
bi基础知识-回复BI基础知识: 了解商业智能商业智能(Business Intelligence,BI)是一个涵盖多个领域的概念,包括数据分析、数据可视化、报告和仪表板等。
它综合运用技术和工具来帮助企业从海量数据中提取有价值的信息,以支持决策制定和业务运营。
本文将从BI的定义、组成部分以及关键性步骤展开,详细介绍BI基础知识。
第一部分:商业智能的定义与概述1. 什么是商业智能?商业智能是指利用技术和工具来收集、整理、分析企业内外部数据,提供有意义的信息以支持决策制定和业务运营的一种智能化方法。
2. 商业智能的价值和意义商业智能可以帮助企业实现数据驱动的决策,并从中获得以下几方面的价值:- 改善决策质量:通过分析和可视化数据,帮助决策者深入了解企业状况,从而做出更明智的决策;- 提高工作效率:通过自动化数据收集和分析过程,减少人工工作量,节省时间和成本;- 发现商机或问题:通过挖掘数据中隐藏的模式和趋势,帮助企业发现新的商机或解决问题;- 优化业务流程:通过数据分析和报表,帮助企业识别业务流程中的瓶颈和改进机会。
第二部分:商业智能的组成部分1. 数据仓库与数据集成数据仓库是商业智能的基础,它是一个集成的、主题导向的、相对稳定的数据存储区域,用于支持业务智能分析和决策制定。
数据集成则是将来自不同数据源的数据整合到数据仓库中。
2. 数据清洗与转换数据清洗与转换是将原始数据进行清洗、过滤、整理和重构,以使其符合数据分析和报表的要求。
这一步骤包括数据去重、格式标准化、缺失数据填充等。
3. 数据分析与挖掘数据分析与挖掘是应用统计学和机器学习技术来发现数据中的模式、趋势和关联性。
常见的分析技术包括数据探索、预测分析、聚类分析等。
4. 可视化与报表可视化与报表是利用图表、图形和仪表板等方式将分析结果可视化呈现,以便于业务人员理解和使用。
这可以通过数据可视化工具或自定义开发实现。
第三部分:构建商业智能系统的关键步骤1. 确定业务目标和需求首先,明确商业智能系统的目标和需求,了解企业的业务需求和决策制定过程,以帮助指导后续的数据模型设计和分析内容。
SAP BI基本概念2010-02-07 12:47SAP BI基本概念基本概念数据仓库基本理论数据仓库是体系结构化环境的核心,是决策支持系统(DSS)处理的基础;它的概念提出者、美国著名信息工程专家 William Inmon 博士在90年代初提出了数据仓库的一个表述。
他认为:“一个数据仓库通常是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的用来支持管理人员决策的数据集合。
”主题,是指用户使用数据仓库进行决策时所关心的重点方面,如:收入、客户、销售渠道等;面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的。
集成,是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。
随时间变化,是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。
通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
本身相对稳定,是指一旦某个数据进入数据仓库以后,一般很少进行修改,更多的是对信息进行查询操作。
依据上面的定义,有人可能会把数据仓库简单地理解为仅仅是一个大型的数据存储机制,是一个静态的概念。
实际上,数据仓库更像一个过程,这个过程涉及数据的收集、整理和加工,生成决策所需要的信息,并且最终把这些信息提供给需要这些信息的使用者,供他们做出改善业务经营的正确决策。
数据仓库的重点与要求就是能够准确、安全、可靠地从业务系统中取出数据,经过加工转换成有规律信息之后,供管理人员进行分析使用。
因此数据仓库是一个动态的概念,应该称为数据仓库工程(Data Warehousing)。
SAP BI7.0介绍SAP BI(Business Intelligence)商务智能,是SAP公司的数据仓库解决方案,BI7.0以前的版本称为BW(Business Information Warehouse)业务信息仓库,它将来自源系统的数据(可以是SAP R3,也可以是其它事务处理系统、文本文件、数据库、或其它BW/BI系统),经过抽取、转换、上载至BI数据仓库,以EXCEL、WEB等形式的报表展示给用户。
什么是BI(Business Intelligence)谈谈对BI的理解,从BI的定义、基本技术、专业名词、实例应用及扩展等方面进行重新描述,巩固对BI的理解。
一、BI的定义BI是Business Intelligence的英文缩写,中文解释为商务智能,用来帮助企业更好地利用数据提高决策质量的技术集合,是从大量的数据中钻取信息与知识的过程。
简单讲就是业务、数据、数据价值应用的过程。
用图解的方式可以理解为下图:图(1)这样不难看出,传统的交易系统完成的是Business到Data的过程,而BI要做的事情是在Data的基础上,让Data产生价值,这个产生价值的过程就是Business Intelligence analyse的过程。
如何实现Business Intelligence analyse的过程,从技术角度来说,是一个复杂的技术集合,它包含ETL、DW、OLAP、DM等多环节,基本过程可用下图描述。
图(2)上图流程,简单的说就是把交易系统已经发生过的数据,通过ETL工具抽取到主题明确的数据仓库中,OLAP后生成Cube或报表,透过Portal 展现给用户,用户利用这些经过分类(Classification)、聚集(Clustering)、描述和可视化(Description and Visualization)的数据,支持业务决策。
说明:BI不能产生决策,而是利用BI过程处理后的数据来支持决策。
哪么BI所谓的智能到底是什么呢?(理清这个概念,有助于对BI的应用。
)BI最终展现给用户的信息就是报表或图视,但它不同于传统的静态报表或图视,它颠覆了传统报表或图视的提供与阅读的方式,产生的数据集合就象玩具“魔方”一样,可以任意快速的旋转组合报表或图视,有力的保障了用户分析数据时操作的简单性、报表或图视直观性及思维的连惯性。
我想这是大家热衷于BI的根本原因。
二、BI的诞生随着IT技术的进步,传统的业务交易系统有了长足的发展,已经实现了业务信息化,每一笔业务数据都记录在数据库中,星转斗移,累积了以TB为计量单位的业务数据记录。
数据仓库-数据集市-BI-数据分析-介绍数据仓库数据集市BI数据分析介绍在当今数字化的时代,数据已经成为企业和组织最宝贵的资产之一。
如何有效地管理、分析和利用这些数据,以获取有价值的信息和洞察,成为了摆在众多企业面前的重要课题。
在这个过程中,数据仓库、数据集市、商业智能(BI)和数据分析等技术和概念发挥着至关重要的作用。
接下来,让我们一起深入了解一下这些概念。
数据仓库,简单来说,就是一个用于存储和管理企业数据的大型数据库系统。
它的目的是将来自不同数据源(如操作系统、数据库、文件等)的数据整合到一个统一的、一致的环境中,以便进行分析和决策支持。
数据仓库中的数据通常是经过清洗、转换和集成的,以确保数据的质量和一致性。
它采用了特定的架构和技术,如星型模式、雪花模式等,来优化数据的存储和查询性能。
数据仓库就像是一个大型的数据仓库,将各种各样的数据收集起来,经过整理和分类,以便后续的使用。
与数据仓库密切相关的是数据集市。
数据集市可以看作是数据仓库的一个子集,它专注于特定的业务领域或主题,例如销售数据集市、客户数据集市等。
数据集市的数据来源于数据仓库,经过进一步的筛选和加工,以满足特定业务部门或用户的需求。
数据集市的规模通常比数据仓库小,但更具针对性和灵活性,能够更快地提供相关的数据和分析结果。
接下来,我们谈谈商业智能(BI)。
BI 是一套用于将数据转化为有价值的信息和知识的技术和工具。
它包括数据报表、数据可视化、数据挖掘、联机分析处理(OLAP)等功能。
通过 BI 系统,用户可以以直观的方式查看和分析数据,从而发现数据中的趋势、模式和关系。
BI 帮助企业管理层做出更明智的决策,提高企业的竞争力和运营效率。
例如,通过数据报表,管理层可以清晰地了解企业的销售业绩、成本支出等情况;通过数据可视化,复杂的数据可以以图表、地图等形式展现,更容易理解和分析。
数据分析则是一个更广泛的概念,它涵盖了从数据收集、数据处理、数据分析到结果解释和报告的整个过程。
bi基础知识【原创实用版】目录1.BI 的含义2.BI 的发展历程3.BI 的应用领域4.BI 的关键技术5.我国在 BI 领域的发展正文1.BI 的含义BI,即商业智能(Business Intelligence),是一种通过运用数据分析、数据挖掘等技术,使企业能够更加准确地了解其业务状况,从而辅助决策和提升业务效率的管理方法。
BI 可以帮助企业实现对业务的实时监控、数据驱动的决策以及智能化的运营。
2.BI 的发展历程商业智能的发展可以分为以下几个阶段:(1)早期数据分析:20 世纪 60 年代,企业开始使用计算机进行数据分析,主要用于财务管理和库存管理。
(2)数据仓库和 OLAP:20 世纪 90 年代,数据仓库和联机分析处理(OLAP)技术的出现,使得企业可以大规模地存储和分析数据,从而为决策者提供更加全面和准确的信息。
(3)数据挖掘和大数据:随着互联网的普及和数据量的快速增长,数据挖掘和大数据技术逐渐成为 BI 领域的热点。
这些技术可以帮助企业从海量数据中发现有价值的信息,为决策提供支持。
3.BI 的应用领域商业智能的应用领域非常广泛,主要包括:(1)销售与营销:通过分析销售数据、客户行为等,为企业制定更加有效的销售策略和营销活动。
(2)生产与供应链:通过对生产、库存、物流等环节的数据分析,优化生产流程,降低成本,提高供应链效率。
(3)财务管理:通过对财务数据的实时监控和分析,帮助企业实现财务风险的防范和控制,提高资金使用效率。
(4)人力资源管理:通过对员工的招聘、培训、绩效等方面的数据分析,优化人力资源配置,提高员工的工作效率和满意度。
4.BI 的关键技术商业智能领域的关键技术主要包括:(1)数据仓库:用于存储和管理企业级数据,为 BI 系统提供数据支持。
(2)数据挖掘:通过挖掘大量数据,发现潜在的规律、趋势和关联关系,为决策者提供有价值的信息。
(3)数据可视化:将复杂的数据以直观、易懂的方式呈现出来,帮助决策者快速理解数据信息。
BI、数据仓库、OLTP、OLAP⼀、BI 商业智能(Business Intelligence,简称:BI),⼜称商业智慧或商务智能,指⽤现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进⾏数据分析以实现商业价值。
商业智能的概念在1996年最早由加特纳集团(Gartner Group)提出,加特纳集团将商业智能定义为:商业智能描述了⼀系列的概念和⽅法,通过应⽤基于事实的⽀持系统来辅助商业决策的制定。
商业智能技术提供使企业迅速分析数据的技术和⽅法,包括收集、管理和分析数据,将这些数据转化为有⽤的信息,然后分发到企业各处。
⼆、数据仓库 Data Warehouse,可简写为DW或DWH。
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据⽀持的战略集合。
它是单个数据存储,出于分析性报告和决策⽀持⽬的⽽创建。
为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库是⾯向主题的;操作型数据库的数据组织⾯向事务处理任务,⽽数据仓库中的数据是按照⼀定的主题域进⾏组织。
主题是指⽤户使⽤数据仓库进⾏决策时所关⼼的重点⽅⾯,⼀个主题通常与多个操作型信息系统相关。
数据仓库是集成的,数据仓库的数据有来⾃于分散的操作型数据,将所需数据从原来的数据中抽取出来,进⾏加⼯与集成,统⼀与综合之后才能进⼊数据仓库 概括来说,数据仓库系统是指具有综合企业数据的能⼒,能够对⼤量企业数据进⾏快速和准确分析,辅助做出更好的商业决策的系统。
它本⾝包括三部分内容:1、数据层:实现对企业操作数据的抽取、转换、清洗和汇总,形成信息数据,并存储在企业级的中⼼信息数据库中。
2、应⽤层:通过联机分析处理,甚⾄是数据挖掘等应⽤处理,实现对信息数据的分析。
3、表现层:通过前台分析⼯具,将查询报表、统计分析、多维联机分析和数据发掘的结论展现在⽤户⾯前。
从应⽤⾓度来说,数据仓库系统除了联机分析处理外,还可以采⽤传统的报表,或者采⽤数理统计和⼈⼯智能等数据挖掘⼿段,涵盖的范围更⼴;就应⽤范围⽽⾔,联机分析处理往往根据⽤户分析的主题进⾏应⽤分割,例如:销售分析、市场推⼴分析、客户利润率分析等等,每⼀个分析的主题形成⼀个OLAP应⽤,⽽所有的OLAP应⽤实际上只是数据仓库系统的⼀部分。
数据仓库的名词解释数据仓库的名词解释数据仓库(Data Warehouse)是指一个用于存储、整合和管理企业各个部门产生的大规模数据的集中式数据库系统。
它主要用于支持企业决策制定、战略规划以及业务分析。
数据仓库的设计和构建需要考虑数据的采集、转换、加载以及存储等多个方面,以确保数据的准确性和可用性。
一、数据仓库的基本概念数据仓库是一个面向主题的、集成的、时间一致的、非易失的数据集合,用于支持企业决策制定和业务分析。
它将来自不同数据源的数据进行抽取、转换和加载,形成一个统一的、易于查询和分析的数据源。
数据仓库的特点:1. 面向主题:数据仓库以主题为中心,将数据按照主题进行组织和存储,以满足不同部门和用户的信息需求。
2. 集成:数据仓库将来自不同数据源的数据进行整合,消除了数据冗余和不一致性。
3. 时间一致性:数据仓库中的数据是按照一致的时间标准进行存储和管理的,以支持历史数据分析和趋势预测。
4. 非易失性:数据仓库中的数据一旦存储,不会轻易被删除或修改,以确保数据的可追溯性和可靠性。
二、数据仓库的架构和组成部分数据仓库的架构通常包括数据采集、数据转换、数据加载、数据存储和数据查询等几个关键组成部分。
1. 数据采集:数据仓库的数据采集涉及到从各个数据源中提取和抽取数据的过程。
这些数据源可以是企业内部的关系型数据库、操作型数据源,也可以是外部的数据源,如Web数据、日志数据等。
数据采集可以通过ETL(Extract、Transform、Load)工具进行,在此过程中可以对数据进行清洗、转换和加工。
2. 数据转换:数据采集后,需要进行数据转换的操作,将采集到的数据进行整合和规范化。
这包括数据清洗、数据集成、数据变换等一系列处理,以确保数据的一致性和质量。
3. 数据加载:数据加载是将经过转换的数据加载到数据仓库中的过程。
数据加载可以是全量加载,也可以是增量加载。
在加载过程中,还可以对数据进行校验和验证,以确保数据的准确性和完整性。
bi什么意思
BI(BusinessIntelligence商业智能)的概念,是由全球最专业权威的IT研究咨询公司GartnerGroup在1996年首次提出,定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的的技术及其应用。
在Gartner定义前后,不同的企业、专家和行业领袖,都对这一概念进行过自己的解读。
但总的来看,关键的要素仍然不变:即通过数据原材料和相关分析技术,产生知识/信息/判断,应用于企业经营管理决策。
可以说,企业需求和数据技术的双重驱动,是BI诞生的根本原因。
自从1956年IBM发明硬盘之后,数据存储的研究和应用突飞猛进。
在IBM的推动下,关系型数据库、数据仓库技术逐渐成熟,从数据存储自然过渡到数据挖掘。
随后,数据抽取转换加载、数据仓库和联机分析处理等技术也逐渐成熟。
技术基础有了,再说市场需求。
在商业智能发展初期,报表是企业最大的痛点和需求。
因为当时只有具备专业技术的IT人才会使用工具,大多数业务人员无法使用数据。
特别是财务人员每天将大量的时间花在不同报表的数据导入上,往往需要耗费大量的时间精力。
导致数据分析的速度,远远赶不上业务发展的速度,无法对决策提供及时有效的支持。
商业智能技术培训——BI、数据仓库基础概念目录1 商业智能(Business Intelligence)简介 (3)2 数据仓库概念及发展 (4)2.1.1 什么是数据仓库 (4)2.1.2 数据仓库的关键技术 (4)3 在线分析处理(OLAP) (5)4 数据挖掘(Data Mining) (6)1商业智能(Business Intelligence)简介随着经济的发展,企业所面临的竞争日益激烈。
同时,信息技术的发展也使企业获取信息的手段和渠道也在不断增加,企业所面对的信息浩如烟海。
而任何好的决策都需要事实和真实的数据。
企业决策的正确程度也取决于所使用的事实和数字的准确程度。
另一方面,随着竞争的增加,决策需要在较短的时间内做出。
因此,在特定的时间段内,能够尽可能多地获得相关信息就变得越来越关键。
而为了使决策具有较好的正确度,却又需要更长的时间。
因此,企业需要高效数据分析工具,以减少高速、精确分析大量数据所需时间。
商业智能技术正是一种能够帮助企业迅速地完成信息采集、分析的先进技术。
它以数据仓库(Data Warehousing)、在线分析处理(OLAP)、数据挖掘(Data Mining)3种技术的整合为基础,建立企业数据中心和业务分析模型,以提高企业获取经营分析信息的能力,从而提高企业经营和决策的质量与速度。
一、数据仓库(Data Warehousing)数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程。
目的是为了解决在信息技术发展中存在的拥有大量数据、然而有用信息贫乏的问题。
它是集成各系统的历史数据而建立的面向主题的企业数据中心,其特点是面向主题、集成性—企业数据框架、历史性和稳定性。
二、在线分析处理(OLAP)OLAP是一种高度交互式的过程,它能够将原始的数据转化成为真正能够为用户所理解的、真实反映数据维特性的信息,以便分析人员从多种角度对这些信息进行快速、一致、交互地访问和反复的分析从而获得有用信息、达到对数据更深入了解的目的。
在线分析处理同时也是对存储在多维数据库(MDD)或关系型数据库(RDBMS)中的数据进行分析、处理的过程。
这种分析可以是多维在线分析处理、关系型在线分析处理,也可以是混合在线分析处理。
在线分析处理的特点是灵活、动态、快速的多维分析、可以进行随机查询、产生即席报表。
三、数据挖掘(Data Mining)数据挖掘是通过数学模型从浩如瀚海的数据和文档中发现以前未知的、隐藏的、潜在的规律和可以理解的信息,以辅助决策的过程。
也就是说从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘的特点是涉及数据库、统计分析和人工智能等多种技术,具有预测和验证功能并且能够进行特征和规律的描述。
2数据仓库概念及发展2.1.1什么是数据仓库业界公认的数据仓库概念创始人W.H.Inmon在《建立数据仓库》一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。
数据仓库中的数据面向主题,与传统数据库面向应用相对应。
主题是一个在较高层次上将数据归类的标准,每一个主题对应一个分析领域:数据仓库的集成特性是指在数据进入数据仓库之前,必须对数据加工和集成,这是建立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变;数据仓库的稳定性是指数据仓库反映的是历史数据,而不是日常事务处理产生的数据,数据经加工和集成进入数据仓库后是极少或根本不修改的;数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时限能满足进行决策分析的需要,而且数据仓库中的数据都要标明该数据的历史时期。
数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其它数据库的。
数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。
数据仓库是数据库技术的一种新的应用,而且到目前为止,大多数据仓库还是用关系数据库管理系统来管理其中的数据,例如Oracle8i/9i、DB2、SQL Server SYBASE IQ等。
2.1.2数据仓库的关键技术一、数据抽取数据抽取又成为ETL(data extraction, transformation and loading),是对数据进行抽取、清洗、转换和整合的过程,是数据进入数据仓库的入口。
通过ETL的过程,数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。
数据抽取在技术上主要涉及互连、复制、增量、转换、调度、监控以及数据安全性等方面。
在技术发展上,数据抽取所涉及的单个技术环节都已相对成熟,市场上提供了很多数据抽取工具,例如Microsoft DTS、DataStage等。
二、数据的存储和管理数据仓库的真正关键是数据的存储和管理。
数据仓库的组织管理方式决定了它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。
首先,数据仓库的数据量比传统事务处理大得多,且随时间的推移还在不断累积。
因此,对大量数据的存储和管理是数据仓库首先要解决的问题。
不过从现有技术和产品来看,关系数据库经过近30年的发展,在数据存储和管理方面已经非常成熟,能够支持数据分割技术,能够将一个大的数据库表分散在多个物理存储设备中,进一步增强了系统管理大数据量的扩展能力。
其次是支持多维分析的查询模式,这也是关系数据库在数据仓库领域遇到的最严峻的挑战之一。
在使用数据仓库时的访问方式与传统的关系数据库有很大的不同。
对于数据仓库的访问往往不是简单的表和记录的查询,而是基于业务分析主题的,如果用传统的关系型数据库设计方法来实现这种多维查询模式效率非常低下、并且查询处理的过程也难以自动化。
但是,关系数据库若采用“星型模式”来组织数据则能很好地解决多维分析的问题。
那么什么是“星型模式”?这将在数据仓库的数据组织方式中详细描述。
三、数据仓库的数据组织结构数据仓库中的数据组织将多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。
维表和事实表通过主关键字和外关键字联系在一起,形成“星型模式”。
对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为“雪花模式”。
3在线分析处理(OLAP)联机分析处理(On-Line Analytical Process OLAP)技术是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
OLAP技术是对由语义动态对象建立的、以动态微立方结构形式存储的表进行向下钻取、向上钻取、跨越钻取、切片和切块等操作。
OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合,是数据仓库中大容量数据得以有效利用的重要保障。
其基本思想是:企业的决策者应能灵活地操纵企业的数据,以多维的形式从多方面和多角度来观察企业的状态、了解企业的变化。
OLAP的一个重要特点是多维数据分析,这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。
OLAP技术中比较典型的应用是对多维数据的切片和切块、钻取、旋转等,它便于使用者从不同角度提取有关数据。
OLAP技术还能够利用分析过程对数据进行深入分析和加工。
例如,关键指标数据常常用代数方程进行处理,更复杂的分析则需要建立模型进行计算OLAP所涉及的常用术语:•元数据元数据(Metadata)是关于数据的数据,它描述了多维数据库的数据和环境。
它是对源数据及其内容、分析主题、维信息、指标信息等多维数据库结构信息的描述。
•主题:在OLAP分析中,用户所关注业务的一个考核方面;如:电信行业中可能的客户信用度分析、客户帐务、话务量分析等,而分析类型相近的主题可能会划分在一个分组中。
•维:在OLAP分析中,维是作为主题的一个分析角度,比如:客户分析中对其年龄、性别、所在地区、行业分布等因素有关,这样,地区和行业等就是该客户的维。
•层次:在一个维中,划分各成员之间的父子关系的方式,称层次;如时间维通常可分为年、季、月、日等层。
•成员:特定层次中的某一特定元素,称为该层上的一个成员;如“JAN”为时间维月这一层次上的成员。
•指标:一种考核标准,由多个因素(维)共同决定,如:某个时段的话务量、话务员坐席数等;有时指标也称为测量值。
•上钻:通过上钻,可以查看所选维成员的上一级聚合值,即显示该成员的父级数据;如在“05JAN99”这个成员上执行上钻,可以查看99年一月份的数据。
•下钻:与上钻相反,该操作是实现从父级信息查看下一级的详细数据,即从“JAN99”执行下钻后,可以看到99年一月各天的数据;•层钻:维通常是以一种层次关系展现出来的,要查看某一层次上所有数据时,可以使用层钻,比如时间维通常分为年、季、月、日这些层次,要查看所有月(包括所有年的各个月份)的数据,则可在月这一层次上执行层钻;它与下钻的区别在于:下钻只对选定的成员,查看其下一级的数据,它的操作必须遵从从父到子的顺利,也就是说必须在父成员上执行下钻;而在BI系统中,层钻通常没限制可以任意跨层,并且显示的是所有成员在该层次的成员,与所选的成员无关。
•旋转:对一次查询的返回结果中,把数据表的行和列调换位臵,即转换分析点或观察角度。
•切片:以分页的形式列出某一范围内的数据,一页里只显示切片维的一个成员内的数据。
•切块获取多维数据集中数据的一个子集,由维度的成员限制一个或多个维度来指定。
多个切片构成一个切块。
例如,特定月份的事实构成该年数据的一个切片,那么该年多个月份的数据集合就是一个切块。
4数据挖掘(Data Mining)数据挖掘是从浩如瀚海的数据和文档中发现以前未知的、可以理解的的信息的过程。
由于数据挖掘的价值在于扫描数据仓库或建立非常复杂的查询,数据和文本挖掘工具必须提供很高的吞吐量,并拥有并行处理功能,而且可以支持多种采集技术。
数据挖掘工具应该拥有良好的扩展功能,并且能够支持将来可能遇到的各种数据(或文档)和计算环境。
数据挖掘的特点是涉及数据库、统计分析和人工智能等多种技术,具有预测和验证功能并且能够进行特征和规律的描述。
常用的数据挖掘分析模型有模型、预测模型、聚类模型和评分模型∙分类模型:把数据进行分类,并发现各类数据的共同属性,当然也可以分析一些本身就相关的数据,了解各个数据之间关系的紧密程度。