数据仓库技术简介13页
- 格式:doc
- 大小:36.50 KB
- 文档页数:13
数据仓库的描述数据仓库是一种技术性的建模工具,它可以为企业提供有用的信息,有助于实现组织的商业目标。
近年来,由于企业对数据分析的日益重视,数据仓库的需求也在不断增长。
这里,我将介绍数据仓库的概念、特征以及建造方法。
一、念数据仓库是一种特殊的数据库,它用于存储和管理组织的历史数据,有助于组织实现其商业目标。
它是一个集中的,统一的,完整的数据存储库,它被设计成可以满足决策支持系统的要求。
数据仓库通常包括一个大型的数据库,用于存储组织数据。
这些数据可以是历史数据、实时数据、混合数据或经过处理的数据。
它们可以从不同的数据源中提取,例如企业资源计划系统(ERP)、交易处理系统(TPS)、会计系统等。
二、特征数据仓库具有以下特点:(1)集中:数据仓库可以把企业的数据集中存放在一起,减少数据的冗余,提高数据的准确性。
(2)统一:数据仓库可以将来自不同数据源的数据统一进行分类和管理,提高数据的一致性和可比性。
(3)完整:数据仓库在存储数据时,可以把企业的所有历史数据都存储起来,从而支持更好地决策分析。
(4)可靠:数据仓库可以提供可靠和弹性的数据存储,可以不受客观环境的影响,充分保护企业数据的安全。
(5)可扩展性:数据仓库可以根据企业业务的发展情况,对数据存储进行扩容,以满足企业对数据存储的需求。
(6)可分析性:数据仓库可以支持复杂的数据分析,例如商业智能、数据挖掘和机器学习等,可以提供企业更有效的决策分析支持。
三、建造方法建造数据仓库通常需要经过以下步骤:(1)数据收集:收集并清洗企业信息,将企业的业务数据以结构化的形式存储在数据仓库中。
(2)数据整合:将企业的来自不同部门的数据进行整合,以满足数据仓库的需求。
(3)数据质量:定义数据的质量指标,对数据仓库中的数据进行检查,以确保数据的准确性。
(4)数据建模:根据组织的业务需求,使用结构化概念技术(SDT)来建模数据,以便于后续数据分析。
(5)数据应用:利用数据仓库中的数据,以及运用数据挖掘和机器学习等技术,为企业提供决策支持。
数据仓库技术入门指南随着互联网的迅速发展和信息爆炸式增长,企业和组织在管理和使用大量数据方面面临着很大的挑战。
许多企业意识到,只有将数据变成有用的信息和洞察力,才能在激烈的市场竞争中立于不败之地。
正因如此,数据仓库技术逐渐成为越来越多组织和企业关注的焦点。
一、什么是数据仓库技术数据仓库技术是一种用于收集、存储、管理和分析大量数据的技术。
数据仓库的基本思想是将分散在不同系统中不同地方的数据进行汇总,以便更好地进行分析和决策。
数据仓库技术的核心是将数据从多个操作性系统中抽取出来,清理、转换和加载到一个统一的数据存储中。
这个数据存储通常以星型或雪花型的结构组织,便于查询和分析。
二、数据仓库技术的构成数据仓库技术是一个复杂的系统,涉及多个组成部分。
其中最重要的包括:1. 数据抽取和转换工具:这些工具用于从不同的数据源中提取数据,并将其转换成统一的格式。
常用的数据抽取和转换工具有Informatica、IBM DataStage、Microsoft SSIS等。
2. 数据存储:数据仓库中的数据需要以一种统一的方式进行组织和存储。
最常见的方法是采用关系数据库管理系统(RDBMS),如Oracle、SQL Server等。
此外,还可以使用列式数据库和内存数据库等进行存储。
3. 数据清洗和集成:从多个系统中抽取的数据通常存在重复、错误或不一致的问题。
数据清洗和集成工具可以帮助解决这些问题,并确保数据的一致性和准确性。
4. 数据查询和分析:数据仓库的主要目的是支持数据分析和决策。
为了实现这一目标,需要具备强大的查询和分析能力。
常见的工具包括OLAP(联机分析处理)工具如MicroStrategy、Tableau等,以及数据挖掘工具如RapidMiner、Weka等。
三、数据仓库技术的应用领域数据仓库技术在各个行业和领域都有广泛的应用。
以下是其中几个典型的应用领域:1. 零售业:通过对销售数据、顾客数据和供应链数据进行分析,零售商可以更好地了解市场需求,优化库存管理,提高销售效率。
数据仓库技术数据仓库技术是一种广泛应用于数据管理和商业智能的技术。
它的主要目的是将各种异构的数据源整合到一个单一的数据存储中,并提供基于这些数据的分析和报告功能。
首先,数据仓库技术使用抽取、转换和加载(ETL)过程将来自不同源的数据提取出来。
这些源可以是关系型数据库、平面文件、Web服务或其他任何形式的数据。
然后,数据经过转换和清洗处理,使之能够被仓库接受和使用。
最后,数据被加载到数据仓库中,通常是一个专门设计的数据库系统,采用维度模型或星型模型的结构。
这种结构能够更好地支持数据的分析和查询。
数据仓库技术有许多优点。
首先,它提供了一个统一的数据视图,使得数据分析更加方便和高效。
通过整合不同的数据源,用户可以从一个地方获取到所有的相关数据,节省了时间和努力。
其次,数据仓库还可以提高数据的质量和准确性。
在ETL过程中,数据经过了转换和清洗处理,从而减少了数据错误和不一致性的可能性。
此外,数据仓库还支持历史数据的保存和查询,使得用户可以分析和了解数据发展的趋势和模式。
然而,数据仓库技术也有一些挑战和限制。
首先,数据仓库的建设和维护成本较高。
由于涉及到多个数据源和复杂的ETL过程,数据仓库的搭建需要大量的资源和专业知识。
其次,数据仓库的性能和扩展性可能会受到限制。
随着数据量的增加,仓库数据库的查询和处理速度可能会变慢,需要采取一些优化措施来提高性能。
同时,随着数据需求的增加,仓库的存储容量可能会成为一个瓶颈,需要进行适当的扩展。
总之,数据仓库技术是一种重要的数据管理和商业智能工具。
它能够将各种异构的数据整合到一个统一的视图中,并为用户提供强大的分析和报告功能。
尽管数据仓库技术存在一些挑战和限制,但随着技术的不断发展和创新,相信它将继续发挥重要的作用,并在企业决策和业务分析中发挥越来越大的价值。
数据仓库技术在现代企业中扮演着重要的角色,它不仅为企业提供了业务分析和决策支持的基础,而且也促进了企业的创新和竞争力的提升。
数据仓库概述数据仓库概述随着计算机技术的飞速进展与企业界不断提出新的需求,数据仓库技术应运而生。
传统的数据库技术是单一的数据资源,即数据库为中心,进行从事事务处理、批处理到决策分析等各类类型的数据处理工作。
近年来,随着计算机应用,,网络计算,开始向两个不一致的方向拓展,一是广度计算,一是深度计算,广度计算的含义是把计算机的应用范围尽量扩大,同时实现广泛的数据交流,互联网就是广度计算的特征,另一方面就是人们对以往计算机的简单数据操作,提出了更高的要求,希望计算机能够更多的参与数据分析与决策的制定等领域。
特别是数据库处理能够大致地划分为两大类:操作型处理与分析型处理(或者信息型处理)。
这种分离,划清了数据处理的分析型环境与操作型环境之间的界限,从而由原先的以单一数据库为中心的数据环境进展为一种新环境:体系化环境。
数据库系统作为数据管理手段,从它的诞生开始,就要紧用于事务处理。
通过数十年的进展,在这些数据库中已经储存了大量的日常业务数据。
传统的业务系统通常是直接建立在这种事务处理环境上的。
随着技术的进步,人们试图让计算机担任更多的工作,而数据库技术也一直力图使自己能胜任从事务处理、批处理到分析处理的各类类型的信息处理任务。
后来人们逐步认识到,在目前的计算机处理能力上,根本无法实现这种功能,而且,另一方面,事物处理与分析处理具有极不相同的性质,直接使用事务处理环境来支持决策是行不通的。
事务处理环境不适宜D S S应用的原因要紧有下列五条:(1)事务处理与分析处理的性能特性不一致。
在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短;在分析处理环境中,用户的行为模式与此完全不一致,某个D S S应用程序可能需要连续几个小时,从而消耗大量的系统资源。
将具有如此不一致处理性能的两种应用放在同一个环境中运行显然是不适当的。
(2)数据集成问题。
D S S需要集成的数据。
全面而正确的数据是有效的分析与决策的首要前提,有关数据收集得月完整,得到的结果就越可靠。
数据仓库技术简介数据仓库是近年来兴起的一种新的数据库应用。
在各大数据库厂商纷纷宣布产品支持数据仓库并提出一整套用以建立和使用数据仓库的产品是,业界掀起了数据库热。
比如INFORMIXGONGSIDE公司的数据仓库解决方案;ORACLE公司的数据仓库解决方案;Sybase公司的交互式数据仓库解决方案等等。
这同时也引起了学术界的极大兴趣,国际上许多重要的学术会议,如超大型数据库国际会议(VLDB),数据工程国际会议(Data Engineering)等,都出现了专门研究数据仓库(Data Warehousing,简记为DW)、联机分析处理(On-Line Analytical Processing,简记为OLAP)、数据挖掘(Data Mining, 简记为DM)的论文。
对我国许多企业而言,在建立或发展自己的信息系统常常困扰于这样的问题:为什么要在原有的数据库上建立数据仓库?数据仓库能否代替传统的数据库?怎样建立数据仓库?等等。
本章将简要介绍一下用到的数据仓库技术背景,并在下一章结合数据清理系统设计实例,更深一步阐述数据仓库技术在现实中的重大意义一.从数据库到数据仓库传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批处理、决策分析等各种数据处理工作,主要的划分为两大类:操作型处理和分析型处理(或信息型处理)。
操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组纪录的查询和修改,主要为企业的特定应用服务的,注重响应时间,数据的安全性和完整性;分析型处理则用于管理人员的决策分析,经常要访问大量的历史数据。
而传统数据库系统优于企业的日常事务处理工作,而难于实现对数据分析处理要求,已经无法满足数据处理多样化的要求。
操作型处理和分析型处理的分离成为必然。
近年来,随着数据库技术的应用和发展,人们尝试对DB中的数据进行再加工,形成一个综合的,面向分析的环境,以更好支持决策分析,从而形成了数据仓库技术(Data Warehousing,简称DW)。
数据仓库简介数据仓库的类型根据数据仓库所管理的数据类型和它们所解决的企业问题范围,一般可将数据仓库分为下列3种类型:企业数据仓库(EDW)、操作型数据库(ODS)和数据市集(DataMart)o数据仓库主要工作的对象为多维数据,因此又称为多维数据库。
1.数据仓库的概念数据仓库领域的权威W.H.Inmon给出了数据仓库的一个简短而全面的定义:数据仓库是一个面向主题、集成、时变、非易失的数据集合,是支持管理部门的决策过程。
根据该定义,数据仓库具备以下四个关键特征:1.1面向主题(SUbjeCtOriented)的数据集合数据仓库通常围绕一些主题,如产品“、嘲售商“、嘴费者等KS行组织。
数据仓库关注的是决策者的数据建模与分析,而不针对日常操作和事务的处理。
因此,数据仓库提供了特定主题的简明视图,排除了对于决策无用的数据。
1.2集成(Imegrated)的数据集合数据仓库通常是结合多个异种数据源构成的,异种数据源可能包括关系数据库、面向对象数据库、文本数据库、Web数据库、一般文件等。
1.3时变(TimeVariam)的数据集合数据存储从历史的角度提供信息,数据仓库中包含时间元素,它所提供的信息总是与时间相关联的。
数掘仓库中存储的是一个时间段的数据,而不仅仅是某一个时刻的数据。
1.4非易失(NOnVoIatile)的数据集合数据仓库总是与操作环境下的实时应用数据物理地分离存放,因此不需要事务处理、恢复和并发控制机制。
数据仓库里的数据通常只需要两种操作:初始化载入和数据访问,因此其数据相对稳定,极少或根本不更新。
综上所述,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战略决策所需信息。
数据仓库也常常被视为一种体系结构,通过将异种数据源中的数据集成在一起而构成,支持结构化和专门的查询、分析报告和决策制定。
2数据仓库的类型数据仓库的类型根据数据仓库所管理的数据类型和它们所解决的企业问题范围,一般可将数据仓库分为下列3种类型:企业数据仓库(EDW),操作型数据库(ODS)和数据市集(DataMart)。
数据仓库技术介绍数据仓库技术是企业数据管理和分析的关键工具。
它用于集成、存储和管理大量企业数据,为企业决策提供准确、一致和及时的信息。
数据仓库是一个面向主题的、集成的、稳定的、非易失性的数据集合,用于支持企业的决策制定过程。
数据仓库技术主要包括数据抽取、转换、加载(ETL)、数据建模、数据存储和数据查询等关键步骤。
首先,数据抽取是将源系统的数据提取到数据仓库中的过程。
它可以通过多种方式进行,如批量抽取、增量抽取和实时抽取等。
数据抽取还可以包括数据清洗、数据转换和数据集成等处理步骤,以确保抽取的数据质量和一致性。
其次,数据转换是将源系统的数据进行转换和处理,以满足数据仓库的需求。
这包括数据格式转换、数据清洗、数据合并、数据分割和数据聚合等操作。
数据转换可通过各种数据转换工具和编程语言来实现,如ETL工具和SQL语言等。
然后,数据加载是将转换后的数据加载到数据仓库中的过程。
数据加载可以采用批量加载或实时加载方式,具体取决于数据仓库的需求和实时性要求。
数据加载还可以包括数据质量检查和数据索引等步骤,以确保加载的数据准确性和高效性。
此外,数据建模是数据仓库中最重要的环节之一。
数据建模用于定义数据仓库的结构和关系,以满足用户查询和分析的需求。
常用的数据建模方法包括星型模型、雪花模型和事实表-维度表模型等。
数据建模还可以使用各种建模工具和规范来实现,如ER图表和维度建模等。
最后,数据存储是将转换后的数据存储在数据仓库中的过程。
数据存储可以使用各种存储技术,如关系型数据库、多维数据库和列式数据库等。
不同的存储技术具有不同的优点和适用场景,可以根据数据仓库的特点和需求来选择合适的存储技术。
总之,数据仓库技术是企业管理和决策的重要工具。
它通过数据抽取、转换、加载、建模和存储等关键步骤,为企业提供准确、一致和及时的数据信息,以支持企业的决策制定和业务发展。
数据仓库技术在企业中的应用越来越广泛。
它不仅可以帮助企业管理者更好地了解企业运营情况,还可以提供支持决策的可靠数据基础。
数据仓库的描述随着数据库技术的发展,存储在计算机内的信息量日益增大。
仅靠主机和存储器已不能满足信息处理的需要,还需要其他各种各样的辅助工具,把大量的数据加以组织,并进行统一的管理。
这就产生了以计算机为核心的信息处理系统——数据仓库系统(DW),而数据仓库的重点则是如何进行数据的组织与管理。
按照管理员和数据模型的分类标准,可将数据仓库划分成不同的数据仓库,即综合数据仓库、行业数据仓库、应用数据仓库和战略数据仓库。
目前国内数据仓库的建设大多采用的是第二类数据仓库,以下我们仅对战略数据仓库的特征及结构做些介绍:数据仓库的概念具有抽象性、模块化、独立性和统一性等特征,它通常以某个业务系统或管理系统为基础,根据应用分析阶段提供的信息对现有的数据仓库进行改造,它包含了原数据仓库的所有内容,并且是企业信息系统的一部分,反映了数据仓库与其他系统的关联性和统一性。
它除了必须具备原数据仓库的功能外,还必须支持多种决策支持分析方法,如:综合查询分析、主题查询分析、数据挖掘等。
数据仓库的功能与应用数据源有很大的关系,数据仓库由不同层次、不同来源的多个数据源构成。
这些数据源既可以来自业务处理系统,也可以来自企业管理系统;它们之间又可以相互独立。
应用数据仓库是最早开发出来的,它首先提供对应用程序的支持,在此基础上才开发出综合数据仓库,也就是通常所说的信息仓库。
目前,大部分应用系统都是以某个应用为中心来开发的,信息分散在各个系统中,没有形成一个完整的信息集合,在查询时,要从许多系统中逐一地查找信息,十分繁琐。
为了使数据资源得到有效利用,首先要实现数据的共享,其次,在数据共享的基础上,能够进行多方面的数据挖掘,并且能够利用这些数据,提高系统本身的处理能力和决策能力,因此,应用数据仓库对系统整体水平提出了更高的要求。
企业信息系统的发展必然促进数据仓库的发展,传统数据仓库由于考虑不周全或受认识上的局限性,或者忽视了数据仓库的动态建设,导致数据仓库系统只能提供静态的数据,而无法对数据进行分析,所以大多数数据仓库在建成后不久便失去了应用价值,这也证明了数据仓库的变化速度是惊人的。
数据仓库技术简介数据仓库是近年来兴起的一种新的数据库应用。
在各大数据库厂商纷纷宣布产品支持数据仓库并提出一整套用以建立和使用数据仓库的产品是,业界掀起了数据库热。
比如INFORMIXGONGSIDE公司的数据仓库解决方案;ORACLE公司的数据仓库解决方案;Sybase公司的交互式数据仓库解决方案等等。
这同时也引起了学术界的极大兴趣,国际上许多重要的学术会议,如超大型数据库国际会议(VLDB),数据工程国际会议(Data Engineering)等,都出现了专门研究数据仓库(Data Warehousing,简记为DW)、联机分析处理(On-Line Analytical Processing,简记为OLAP)、数据挖掘(Data Mining, 简记为DM)的论文。
对我国许多企业而言,在建立或发展自己的信息系统常常困扰于这样的问题:为什么要在原有的数据库上建立数据仓库?数据仓库能否代替传统的数据库?怎样建立数据仓库?等等。
本章将简要介绍一下用到的数据仓库技术背景,并在下一章结合数据清理系统设计实例,更深一步阐述数据仓库技术在现实中的重大意义一.从数据库到数据仓库传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批处理、决策分析等各种数据处理工作,主要的划分为两大类:操作型处理和分析型处理(或信息型处理)。
操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组纪录的查询和修改,主要为企业的特定应用服务的,注重响应时间,数据的安全性和完整性;分析型处理则用于管理人员的决策分析,经常要访问大量的历史数据。
而传统数据库系统优于企业的日常事务处理工作,而难于实现对数据分析处理要求,已经无法满足数据处理多样化的要求。
操作型处理和分析型处理的分离成为必然。
近年来,随着数据库技术的应用和发展,人们尝试对DB中的数据进行再加工,形成一个综合的,面向分析的环境,以更好支持决策分析,从而形成了数据仓库技术(Data Warehousing,简称DW)。
作为决策支持系统(Decision-making Support System,简称DSS),数据仓库系统包括:①数据仓库技术;②联机分析处理技术(On-Line Analytical Processing,简称OLAP);③数据挖掘技术(Data Mining,简称DM);数据仓库弥补了原有的数据库的缺点,将原来的以单一数据库为中心的数据环境发展为一种新环境:体系化环境。
1.什么是数据仓库业界公认的数据仓库概念创始人W.H.Inmon在《建立数据仓库》一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程数据仓库中的数据面向主题,与传统数据库面向应用相对应。
主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域:数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变;数据仓库的稳定性是指数据仓库反映的是历史数据的内,而不是日常事务处理产生的数据,数据经加工和集成进入数据仓库后是极少或根本不修改的;数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时限能满足进行决策分析的需要,而且数据仓库中的数据都要标明该数据的历史时期。
数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其它数据库的。
数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。
数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管理其中的数据。
2.数据仓库的产生计算机系统的功能从数值计算扩展到数据管理距今已有三十多年了。
最初的数据管理形式主要是文件系统,少量的以数据片段之间增加一些关联和语义而构成层次型或网状数据库,但数据的访问必须依赖于特定的程序,数据的存取方式是固定的、死板的。
到了1969年,E.F.Codd博士发表了他著名的关系数据模型的论文。
此后,关系数据库的出现开创了数据管理的一个新时代。
近几十年来,大量新技术、新思路的涌现出来并被用于关系型数据库系统的开发和实现:客户/服务器系统结构、存储过程、多线索并发内核、异步I/O、代价优化,等等,这一切足以使得关系数据库系统的处理能力毫不逊色于传统封闭的数据库系统。
而关系数据库在访问逻辑和应用上所带来的好处则远远不止这些,SQL的使用已成为一个不可阻挡的潮流,加上近些年来计算机硬件的处理能力呈数量级的递增,关系数据库最终成为联机事务处理系统的主宰。
整个80年代直到90年代初,联机事务处理一直是数据库应用的主流。
然而,应用在不断地进步。
当联机事务处理系统应用到一定阶段后,用户便发现单靠拥有联机事务处理已经不足以获得市场竞争的优势,他们需要对其自身业务的运作以及整个市场相关行业的情况进行分析,而做出有利的决策。
这种决策需要对大量的业务数据包括历史业务数据进行分析才能得到。
在如今这样激烈的市场竞争环境下,这种基于业务数据的决策分析,我们把它称为联机分析处理,比以往任何时候都显得更为重要。
如果说传统联机事务处理强调的是更新数据库--向数据库中添加信息,那么联机分析处理就是从数据库中获取信息、利用信息。
因此,著名的数据仓库专家Ralph Kimball写道:"我们花了二十多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。
"事实上,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法。
但在实际的操作中,人们却发现要获得有用的信息并非如想象的那么容易,这主要表现在以下几点:➢所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷。
联机分析和事务处理对系统的要求不同,同一个数据库在理论上都难以做到两全。
➢业务数据往往存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设。
➢业务数据的模式针对事务处理系统而设计,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和查询。
因此有人感叹:20年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。
针对这一问题,人们设想专门为业务的统计分析建立一个数据中心,它的数据从联机的事务处理系统中来、从异构的外部数据源来、从脱机的历史业务数据中来…… 。
这个数据中心是一个联机的系统,它是专门为分析统计和决策支持应用服务的,通过它可以满足决策支持和联机分析应用所要求的一切。
这个数据中心就叫做数据仓库。
这个概念在90年代初被提出来。
如果需要给数据仓库一个定义的话,那么数据仓库就是一个作为决策支持系统和联机分析应用数据源的结构化数据环境。
数据仓库所要研究和解决的问题就是从数据库中获取信息的问题。
那么数据仓库与数据库(主要指关系数据库)又是什么关系呢?回想当初,人们固守封闭式系统是出于对事务处理的偏爱,人们选择关系数据库是为了方便地获得信息。
我们只要翻开 C.J.Date博士的经典之作《An Introduction to Database Systems》便会发现:今天数据仓库所要提供的正是当年关系数据库所要倡导的。
然而,由于关系数据库系统在联机事务处理应用中获得的巨大成功,使得人们已不知不觉将它划归为事务处理的范畴;过多地关注于事务处理能力的提高,使得关系数据库在面对联机分析应用时又遇到了新的问题--今天的数据仓库对关系数据库的联机分析能力提出了更高的要求,采用普通关系型数据库作为数据仓库在功能和性能上都是不够的,它们必须有专门的改进。
因此,数据仓库与数据库的区别不仅仅表现在应用的方法和目的方面,同时也涉及到产品和配置上的不同。
以辨证的眼光看,数据仓库的兴起实际是数据管理的一种回归,是螺旋式的上升。
今天的数据库就好比当年的层次数据库和网状数据库,它们面向事务处理;今天的数据仓库就好比是当年的关系数据库,它针对联机分析。
所不同的是,今天的数据仓库不必再为联机事务处理的特性而无谓奔忙,由于技术的专业化,它可更专心于联机分析领域的发展和探索数据仓库的概念一经出现,就首先被用于金融、电信、保险等主要传统数据处理密集型行业。
国外许多大型的数据仓库在1996-1997年建立。
那么,什么样的行业最需要和可能建立数据仓库呢?有两个基本条件:第一,该行业有较为成熟的联机事务处理系统,它为数据仓库提供客观条件;第二,该行业面临市场竞争的压力,它为数据仓库的建立提供外在的动力。
二.数据仓库中的数据组织数据仓库中数据的四个基本特征在本章中已经介绍过了,下面就要分析清楚这些问题:数据仓库存储哪些数据呢?数据如何组织,存储?组织形式有哪些?等等。
通过对数据仓库中存放的数据内容及其组织形式的介绍,本节将对这些问题做出回答,以加深对数据仓库数据四个基本特征的理解。
1.数据仓库的数据组织结构数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高度综合级。
源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级由此可见,数据仓库中存在着不同的综合级别,一般称之为"粒度"。
粒度越大,表示细节程度越低,综合程度越高。
数据仓库中还有一种重要的数据--元数据(metadata)。
元数据是"关于数据的数据",如在传统数据库中的数据字典就是一种元数据。
在数据仓库环境下,主要有两种元数据:第一种是为了从操作性环境向数据仓库转化而建立的元数据,包含了所有源数据项名。
2.粒度与分割(1) 粒度粒度是数据仓库的重要概念。
粒度可以分为两种形式,第一种粒度是对数据仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。
在数据仓库中,多维粒度是必不可少的。
由于数据仓库的主要作用是DSS分析,因而绝大多数查询都基于一定程度的综合数据之上的,只有极少数查询涉及到细节。
所以应该将大粒度数据存储于快速设备如磁盘上,小粒度数据存于低速设备如磁带上。
还有一种粒度形式,即样本数据库。
它根据给定的采样率从细节数据库中抽取出一个子集。
这样样本数据库中的粒度就不是根据综合程度的不同来划分的,而是有采样率的高低来划分,采样粒度不同的样本数据库可以具有相同的数据综合程度。
(2)分割分割是数据仓库中的另一个重要概念,它的目的同样在于提高效率。