当前位置:文档之家› oracle与ibm的数据仓库比较

oracle与ibm的数据仓库比较

oracle与ibm的数据仓库比较
oracle与ibm的数据仓库比较

数据仓库比较

O r a c l e v s D B2

1文档简介 (2)

1.1 文档目的 (2)

1.2 文档范围 (2)

1.3 缩写约定 (2)

1.4 参考文档和文献 (2)

1.5 文档概述 (3)

2相关的产品比较.............................................................................................. 错误!未定义书签。

2.1 数据仓库 (4)

2.2 ETL工具 (4)

2.3 OLAP (4)

2.4 展示工具 (5)

3开发过程 (5)

3.1 O RACLE的开发过程 (5)

3.2 DB2的开发过程 (7)

4应用性 (8)

1 文档简介

1.1 文档目的

此文档,用来介绍Oracle的数据仓库产品与IBM公司数据仓库产品的比较文档。通过本文,使开发团队及最终使用者对两个数据仓库有初步的认识,为数据仓库及相关产品的选择提供依据。

1.2 文档范围

所以文中没有具体实施的细节,适用读者:

?开发人员

?项目经理

?开发经理

?最终用户

1.3 缩写约定

1.4 参考文档和文献

1.5 文档概述

本文档主要是从各各角度对ORACLE的数据仓库和IBM的数据仓库的分析,下面就两方面的产品做一下简单的概述:

IBM IBM公司提供了一套基于可视数据仓库的商业智能(BI)解决方案,包括:Warehouse manager、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及来自第三方的前端数据展现工具(如BO)和数据挖掘工具(如SAS)。其中,Warehouse manager是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。

Essbase/DB2 OLAP Server支持“维”的定义和数据装载。Essbase/DB2 OLAP Server不是

ROLAP(Relational OLAP)服务器,而是一个(ROLAP和MOLAP)混合的HOLAP服务器,在Essbase完成数据装载后,数据存放在系统指定的DB2 UDB数据库中。

严格说来,IBM自己并没有提供完整的数据仓库解决方案,该公司采取的是合作伙伴战略。

也就是说IBM公司在展现和多维分析上留有接口,所有第3方的公司可以利用这个接口来连接到IBM的系统中提取想要的数据.例如,它的前端数据展现工具可以是Business Objects的BO、Lotus的Approach、Cognos的Impromptu或IBM的Query Management Facility;多维分析工具支持Arbor Software的Essbase和IBM(与Arbor联合开发)的DB2 OLAP服务器;

统计分析工具采用SAS系统。

Oracle Oracle数据仓库解决方案主要包括OWB和Oracle Discoverer两个部分。然而Express 是和Oracle 8i配合使用的OLAP Server。从Oracle 9i开始(包括10g),Oracle 把OLAP Server整合进了数据库,作为了数据库的一个选件,Oracle Express Server是一个MOLAP (多维OLAP)服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能够访问多种关系数据库;OWB(Warehouse builder) 可以完成数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度以及多维模型的建立; Oracle Discoverer属于查询工具是专门为最终用户设计的,分为最终用户版和管理员版。Discoverer是Oracle 的OLAP展示工具,无需编程。

1.6 数据仓库

ORACLE采用Cluster体系结构,多个节点共享硬盘,存在磁盘I/O瓶颈,可伸缩性较差,少见超过4个节点的实例。ORACLE基本上没有真正TB级的数据仓库,客户往往被要求将其海量数据分解到多个数据库中。

IBM采用MPP体系结构,每个节点独享各自的硬盘空间,各个节点间通过高速网络交换数据。可伸缩性强,最多可以扩充到1000个节点。国内有32节点的实例,国外有512节点的实例。每个数据库中单个表的大小可以达到512GB*1000=500TB。在全球范围有许多TB 级的数据仓库。

1.7 ETL工具

ORACLE的ETL工具使用的是Oracle Warehouse Builder(OWB),此工具中做维过程就是构建星形结构的过程,在作mapping,执行的过程则是数据抽取的过程,全都用Oracle warehouse Builder来实现。OWB全部开发过程通过图形界面完成,对于简单的数据转换实现简单,开发速度快。但是对于复杂的转换过程,由于整个转换过程全部都是由工具完成,用户不能干涉,导致在转换中一些复杂查询速度缓慢,而且没有可能优化。

IBM Warehouse Manager 是IBM 数据仓库解决方案的重要组成部分,它主要由以下几部分功能组成:数据访问,数据转换,数据分布,数据存储,靠描述性数据查找和理解数据,显示、分析和发掘数据,数据转换过程的自动化及其管理。它缩短了复杂的海量数据与有洞察力的商务决策之间的差距。IBM 的Warehouse Manager 可获取的数据源可以是DB2 家族中的任一数据库,也可以是Oracle、Sybase、Informix、SQL Server 数据库和IMS、VSAM 文件系统;存放数据仓库的数据库可以是DB2 UDB for Windows NT、OS/2、AIX/600、HP-UX、Sun Solaris、SCO、SINIX 和DB2/400、DB2 for OS/390;Warehouse Manager 的管理平台为Windows NT 和OS/2;而且以上适用的平台仍在不断地扩展。

1.8 OLAP

DB2 OLAP Server

在线分析处理(OLAP)在IBM 的商务智能中扮演着重要角色,IBM 为此提供一个分析工具--DB2 OLAP Server,深入最终用户的业务,对桌面上的数据进行实时操作。DB2 OLAP Server 是一套独特的商务工具,能够快速地分布传统监视和报告范围之外的应用程序数据。

IBM DB2 OLAP Server 是一种功能强大的工具,结合了业界领先的Arbor Essbase OLAP 功能以及DB2 的可靠性、可管理性和访问能力。Arbor Essbase是OLAP市场领先的厂商。同其它OLAP 相比,有更多的前端工具和应用程序利用了Essbase API,使其成为事实上的业界标准。同大多数基于SQL 的应用程序结合时,DB2 OLAP Server 和Warehouse Manager 将为端用户提供更多的前端工具和业务智能应用程序选择余地。如今,用户可以享受到多种OLAP 应用程序的优势,如通过Arbor 的OLAP 引擎集成预算功能,充分利用机构在相关技术上的投资,管理基本设施和DB2 数据。

通过集成IBM的Warehouse Manager 和DB2 OLAP Server,这套解决方案将具有三方面的重要价值:完全、自动地把OLAP 集成到数据仓库,数据抽取和生成自动地由规则和数据源支持,直接进入DB2 OLAP Server 的立方体。

利用Warehouse Manager OLAP 版本还有一项附加收益,就是在可视化数据仓库上创建了一个中间信息仓库。这个中间数据仓库包含干净、抽取的数据,用来在OLAP 系统上装载多维数据。一旦OLAP 系统装载并上线,或者作为干净数据源来进行OLAP 以外的分析比如查询客户地址等,这些中间数据就可以废弃。

DB2 OLAP Analyzer使用DB2 OLAP Analyzer,可以达到企业的"商业智能化",并提高信息技术组织的效率。信息技术人员可以让用户利用分析和报表的功能获得他们所需的信息,而不会失去对信息、数据完整性、系统性能和系统安全的控制。

1.9 展示工具

Oracle的展示工具是使用Oracle公司的discover工具,使用此工具,有某些局限性,实现方式不灵活,且需使用专用前端工具,开发复杂。

IBM采用业界领先的多维分析服务器OLAP Server和智能挖掘工具Intelligent Miner。

开放的前端界面和开发接口。

IBM的展示没有特定的工具,而是提供标准的数据借口,它可以采取第三方的展现工具,或者独立开发展现工具,比较灵活的实现前端的展现过程。

2 开发过程

2.1 Oracle的开发过程

ORACLE 的开发过程主要分为两大部分: 1.OWB开发 2.IDS 开发

SOURCE Oracle warehouse builder TARGET Internet Developer Suite

一.OWB开发过程:

1在开发之前必须先建立Owb中的两个资料档案库,一个叫repository,另一个叫runtime repository(运行时资料档案库)。其中repository用来存放owb设计过程中的对象。Runtime repository用来存放运行所需的数据,包括元数据、映射定义、转换规则等等。

2 每个资料档案库都有相应的用户。一般来说至少需要创建四个用户:repository所有者、runtime repository所有者、runtime repository访问者、目标数据库所有者。

3 用所有者用户登陆到OWB以后就可以创建一个新的project, 在新的project 里需要创建数据源(soruce),目标库(target),位置(location)

4 系统配置完成后,进入到开发阶段,首先需要制作维表(dimension),此操作的作用是定义出维表的表结构以及维表的层次.部署的时候系统会在目标数据库内创建一个维表(table)用来存放纬度数据.

5 维表定义完成后,需要定义维表对应的映射(mapping),此操作的作用是制定从数据源(soruce)抽取符合那些条件的数据放到维表中.在部署的时候系统会在目标数据库内创建一个包(package),

(维表和维表的mapping是一一对应的)

6 所有维表都定义完成后,需要定义事实表(cube), 此操作的作用是定义出事实表的表结构以及事实表和维表的关系(也就是星型结构).部署的时候系统会在目标数据库内创建一个事实表(table)用来存放度量值.

7.事实表定义完成后,需要定义事实表对应的映射(mapping),此操作的作用是制定从数据源(soruce)抽取符合那些条件的数据放到事实表中.在部署的时候系统会在目标数据库内创建一个包(package),

(事实表和事实表的mapping是一一对应的)

8执行所有部署成功的维表的mapping,向维表内插入数据,成功后在执行所有部署成功的事实表的mapping,向事实表内插入数据.

ORACLE的owb 的整个开发过程完成了数据的抽取.转换.装载(ETL)和星型结构的构建,在owb的所有操作没有脱离开ORACLE的数据库.

二.IDS开发过程:

1在owb的开发告一段落后,我们就可以进入到展现工具的开发过程中来,首先我们需要进入IDS的Discoverer administrator里,在这里制定一个EUL用户,这个EUL用户是用来是用来管理desktop 的,还做一些层次管理,例如可以制定一些计算方式和管理那些数据可以显示给用户那些数据不可以显示给用户看.

2 在Discoverer administrator里完成了制定工作后,我们就可以进入IDS的另一个工具进行展现方面的开发了(desktop),进入这个工具后,我们开始制作展现需要的表单.

3.在desktop里你所能看到的所有数据项都是EUL用户给你的权限,你可以根据客户的要求去制作表单,增加一些特殊的计算项,在这里你可以使用ORACLE公司提供给你的所有聚集函数.

ORACLE的ids 工具主要是用来满足展现方面的需要,而desktop是开发表单的主要工具. 2.2 DB2的开发过程

IBM 的开发过程主要分为三大部分: 1 warehouse manager开发2 olap server 开发3 BI开发SOURCE warehouse manager TARGET Essbase administration server BI

一.Warehouse manager开发过程:

1.在DB2数据库内通过II工具和ORACLE数据库做好映射,将ORACLE数据库内的所有表映射到DB2数据库内.

2.进入到数据仓库中心,首先我们现配置<仓库源>,在仓库源内加入你需要的数据源表(也就是映射过来的ORACLE表).

3.接下来我们需要在<仓库目标>内加入你需要的目标表(也就是在DB2数据库内创建的事实表).

4.我们现在就可以进入<主题区域>,在这里我们来建立一个主题,这个主题是的作用是制定一系列的数据抽取和转换的规则,将ORACLE数据库内的原始记录,经过ETL的过程存放到DB2数据库的事实表内.

5.我现在测试主题无误后,可以进入到运行界面,点击运行该主题,这样数据仓库就开始抽取数据到目标表内了,至此在warehouse manager里的工作我们就结束了,现在我们得到的只是一些过滤好

的原始数据,至于这些数据之间到底有什么关系和结构,还有根据什么来汇总,我们需要到IBM的Essbase administration server 这个工具里来实现它.

二.OLAP SERVER开发过程:

1.在打开Essbase administration server之前我们需要现启动OLAP SEREVER这个服务,启动它后,我们需要再启动administration server 的服务,这样我们就可以进入到dministration console里开发了.

2.进入后,我们选择Essbase analytic servers ,需要新建立一个application,在这个application里还需要建立一个datebase ,建立完这个datebase后我们就可以正是进入OLAP的开发中.

3.我们现在datebase里进入到它的outline,在这里我们可以定义一个主题到底有那些维(dimension),和事实数据(date load),当定义完成后我们就可以制作规则文件了.

4.我们在datebase 里选着rules files在制定维和事实数据的规则文件,制定完成后就验证和保存.

5.在这里我们可以选着load date 项,来想你的规则文件中填入数据,系统会根据你定义的规则文件和维与事实数据之间的关系从DB2数据库内抽取需要的数据,load到文件中,到此,OLAP的工作我们也开发完成了.

三.BI开发过程:

(注:这里使用的是第三方BI产品—北京博易智软产品BI-PILOT)

1. 开发前需要先安装BI的产品,BI-PILOT BUILDER AND BI-PILOT SERVER, BUILDER的作用主要用来开发报表,SERVER主要用来发布部署报表和在服务器上建立服务.

2. 进入到BUILDER PROFESSIONAL 里我们需要先配置它与OLAP SERVER 的连接,新建立一个项目在项目上选择新建ODS文件,在这里需要填写OLAP的驱动和地址,用户名和密码,验证成功后,这样连接就建立起来了.

3. 连接建立起来后我们可以选择需要的OLAP里的datebase,这样我们还需要在项目上新建立一个OLAP 文件,在这里我们可以选择需要的datebase.

4. 现在就可以制作交叉报表了新建立一个报表,选择插入交叉表,在这里我们可以看到datebase 里的所有的维表和事实表里的数据点,可以选择横表头显示什么,每列显示什么,制作完成后可以预览报表,

5.开发完成后,就可以发布和部署了,现在就需要启动BI-PILOT SERVER了.部署以后就可以通过B/S结构来观看报表.

3 应用性

3.1 Oracle的OWB和IBM的warehouse manager . OLAP server的比较

1总体理解上:

Oracle的产品使用图形化界面,可以快速设计、部署数据仓库,上手比较容易,理解上比较快一些,比较适合出学者.

而IBM的产品比较多,安装和配置还有使用上比较复杂,所有比较适合有一定的数据

库基础和一定的数据仓据知识的人来操作.

2操作使用上:

Oracle产品控制上太严禁,没有多少发挥的余地,不可以修改已生成的SQL.

而IBM产品就可以修改你生成的任何SQL,比较开放.编程人员可以自己发挥.

3.从结构上:

Oracle的WAREHOUSE BUILDER工具可以完成数据的抽取转换(ETL)和多维结构的建立.

而IBM的ETL部分是由WAREHOUSE MANAGER完成的,多维结构的建立是由OLAP SERVER来实现的,这样会需要多花时间来掌握更多的工具.

4 数据结构上:

Oracle的整个流程都是在操作ORACLE的数据库,已ORACLE数据库为基础,即使到了展现的时候数据的保存还是在数据库里,对数据库操作比较频繁.

而IBM在WAREHOUSE MANAGER的操作还是已数据库为基础,但是到了OLAP SERVER的时候就可以脱离对数据库的操作了,已文件的形式保存下来.

5 流程顺序上:

Oracle的整个流程是先建立维表和事实表,然后建立他们之间的层次和关系,最后根据抽取条件从数据源抽取数据放到目标表内,它的ETL和OLAP的多维结构是一步完成的.

而IBM是先根据抽取条件从源数据库内整理好数据放到DB2数据库内,在建立多维的规则文件,根据多维的规则文件再从DB2数据库内抽取数据存放到最终的一个文件中.

3.2由于数据仓库开发过程相对复杂,在两个产品的使用过程中都出现了一些问题。

3.2.1 用ORACLE开发过程中遇到的问题:

1.在展现方面oracle 的IDS工具,在报表的表头中无法实现多层嵌套和自定义表头。

2.增量抽取数据有问题,oracle的OWB工具不能实现自动定时间增量抽取数据,只能人工抽取数据,这样会给以后的维护产生问题。

3.如果设计的维比较多,对于报表查询的性能会有一定影响,两者是成正比的,纬度越多,性能越底。

4.所有数据全部动态计算,没有预算机制,延长了统计时间。

5.在OWB工具里作数据抽取时,如果主辅表关联,会产生统计金额的加倍的问题。

6.有关上月数与同期数的问题在IDS里无法解决。Oracle提供的聚集函数并不能满足这样的要求。

7.Owb工具,如果今后需求有变动,需要修改开发成果从新抽取数据,但是owb工具不支持修改,只能删除原来的关系线从新作,比较耗费时间。

8.最大弱点,在OWB的开发中,如果数据库或网络断线,那就意味这你没有保存的信息都将丢失.

3.2.2 用IBM开发过程中遇到的问题:

1.开发过程分为多部(oracle到db2映射,etl,olap,展现),需要安装使用的软件较多(现阶段需要掌握7个软件安装4个软件的使用),掌握这些软件需要更多的时间,还需要对

数据仓库的理念有一定的了解。

2.业务数据库为oracle,需要映射到db2的数据库中才能进行开发,这样会对数据的ETL 部分有影响,具体影响有多大,还需要具体分析。

3.开发过程中完全使用db2 的数据库及管理软件,对想应的数据库SQL和函数并不熟悉,需要时间来进行学习和掌握,可能会影响项目的进度。

4.数据抽取过程中,需要写大量的sql脚本,对数据库不熟悉的开发人员很难完成。

5.在warehouse manager方面,由于源数据是ORACLE,而目标表是DB2的,所以会碰到数据类型的转换问题,例如,varchar2---varhcar,timestamp---date

6.在OLAP server 里制作晚结构文件后在根据纬度GOURP BY 数据的时候,事实表里的数据点,只能实现累(加,减,乘,除),不能实现COUNT等功能.

7.在OLAP server 里当load date 的时候,如果你的事实表里的数据有写纬度的值为null,将会产生这个load date 过程失败,所有记录都不能load.

8.最大问题,在OLAP server里,不同的维的代码和别名不能够重复,这点将会对客户造成影响,目前代码不能重复可以已转换的方式来解决,但别名就不好解决了.例如*经济类

型维*里有名称维<街道>的代码,但*隶属关系维*里也有名称维<街道>的代码,但

OLAP 开发中名称不能重复,只能找客户去解决.

2.2.3 用BI开发过程中遇到的问题

1.bi-pilot builder 中暂时不能实现两个CUB的关联,这样会产生不能做出比较复杂的报表.

2.如果OLAP server 里的CUB结构有了变化,在bi-pilot builder 里是不能实现自动更新的,

只能手动去重新配置OLAP文件.

3.就目前来讲,bi-pilot builder 功能上,问题还很多,例如,多CUB关联,显示别名的问题,纬度

多层次上显示不规则,等一系列问题,可能会影响到开发的进度.

ORACLE 数据库管理系统介绍

ORACLE 数据库管理系统介绍 1.ORACLE的特点: 可移植性ORACLE采用C语言开发而成,故产品与硬件和操作系统具有很强的独立性。从大型机到微机上都可运行ORACLE的产品。可在UNIX、DOS、Windows等操作系统上运行。可兼容性由于采用了国际标准的数据查询语言SQL,与IBM的SQL/DS、DB2等均兼容。并提供读取其它数据库文件的间接方法。 可联结性对于不同通信协议,不同机型及不同操作系统组成的网络也可以运行ORAˉCLE数据库产品。 2.ORACLE的总体结构 (1)ORACLE的文件结构一个ORACLE数据库系统包括以下5类文件:ORACLE RDBMS的代码文件。 数据文件一个数据库可有一个或多个数据文件,每个数据文件可以存有一个或多个表、视图、索引等信息。 日志文件须有两个或两个以上,用来记录所有数据库的变化,用于数据库的恢复。控制文件可以有备份,采用多个备份控制文件是为了防止控制文件的损坏。参数文件含有数据库例程起时所需的配置参数。 (2)ORACLE的内存结构一个ORACLE例程拥有一个系统全程区(SGA)和一组程序全程区(PGA)。 SGA(System Global Area)包括数据库缓冲区、日志缓冲区及共

享区域。 PGA(Program Global Area)是每一个Server进程有一个。一个Server进程起动时,就为其分配一个PGA区,以存放数据及控制信息。 (3)ORACLE的进程结构ORACLE包括三类进程: ①用户进程用来执行用户应用程序的。 ②服务进程处理与之相连的一组用户进程的请求。 ③后台进程ORACLE为每一个数据库例程创建一组后台进程,它为所有的用户进程服务,其中包括: DBWR(Database Writer)进程,负责把已修改的数据块从数据库缓冲区写到数据库中。LGWR(Log Writer)进程,负责把日志从SGA中的缓冲区中写到日志文件中。 SMON(System Moniter)进程,该进程有规律地扫描SAG进程信息,注销失败的数据库例程,回收不再使用的内存空间。PMON (Process Moniter)进程,当一用户进程异常结束时,该进程负责恢复未完成的事务,注销失败的用户进程,释放用户进程占用的资源。 ARCH(ARCHIVER)进程。每当联机日志文件写满时,该进程将其拷贝到归档存储设备上。另外还包括分布式DB中事务恢复进程RECO和对服务进程与用户进程进行匹配的Dnnn进程等。 3.ORACLE的逻辑结构 构成ORACLE的数据库的逻辑结构包括: (1)表空间

ORACLE数据库简介

1ORACLE数据库简介 一、概论 ORACLE 是以高级结构化查询语言(SQL)为基础的大型关系数据库,通俗地讲它是用方便逻辑管理的语言操纵大量有规律数据的集合。是目前最流行的客户/服务器(CLIENT/SERVER)体系结构的数据库之一。 二、特点 1、ORACLE7.X以来引入了共享SQL和多线索服务器体系结构。这减少了ORACLE 的资源占用,并增强了ORACLE的能力,使之在低档软硬件平台上用较少的资源就可以支持更多的用户,而在高档平台上可以支持成百上千个用户。 2、提供了基于角色(ROLE)分工的安全保密管理。在数据库管理功能、完整性检查、安全性、一致性方面都有良好的表现。 3、支持大量多媒体数据,如二进制图形、声音、动画以及多维数据结构等。 4、提供了与第三代高级语言的接口软件PRO*系列,能在C,C++等主语言中嵌入 SQL语句及过程化(PL/SQL)语句,对数据库中的数据进行操纵。加上它有许多优秀的前台开发工具如 POWER BUILD、SQL*FORMS、VISIA BASIC 等,可以快速开发生成基于客户端PC 平台的应用程序,并具有良好的移植性。 5、提供了新的分布式数据库能力。可通过网络较方便地读写远端数据库里的数据,并有对称复制的技术。 三、存储结构 1、物理结构 ORACLE数据库在物理上是存储于硬盘的各种文件。它是活动的,可扩充的,随着 数据的添加和应用程序的增大而变化。 下图为ORACLE数据库扩充前后在硬盘上存储结构的示意图:

2、逻辑结构 ORACLE数据库在逻辑上是由许多表空间构成。主要分为系统表空间和非系统 表空间。非系统表空间内存储着各项应用的数据、索引、程序等相关信息。我们准备上马一个较大的ORACLE应用系统时,应该创建它所独占的表空间,同时定义 物理文件的存放路径和所占硬盘的大小。 下图为ORACLE数据库逻辑结构与物理结构的对照关系: 四、分布式数据库管理介绍 1、原理 物理上存放于网络的多个ORACLE数据库,逻辑上可以看成一个单个的大数据库。 用户可以通过网络对异地数据库中的数据同时进行存取,而服务器之间的协同处理对于工作站用户及应用程序而言是完全透明的:开发人员无需关心网络的连接

Oracle数据库简介

oracle数据库是一种大型数据库系统,一般应用于商业,政府部门,它的功能很强大,能够处理大批量的数据,在网络方面也用的非常多。不过,一般的中小型企业都比较喜欢用SQL数据库系统,它的操作很简单,功能也非常齐全。只是比较oracle 数据库而言,在处理大量数据方面有些不如。 Oralce数据库的发展历程 Oralce数据库简介 Oracle简称甲骨文,是仅次于微软公司的世界第二大软件公司,该公司名称就叫Oracle。该公司成立于1979年,是加利福尼亚州的第一家在世界上推出以关系型数据管理系统(RDBMS)为中心的一家软件公司。 Oracle不仅在全球最先推出了RDBMS,并且事实上掌握着这个市场的大部分份额。现在,他们的RDBMS被广泛应用于各种操作环境:Windows NT、基于UNIX系统的小型机、IBM大型机以及一些专用硬件操作系统平台。 事实上,Oracle已经成为世界上最大的RDBMS供应商,并且是世界上最主要的信息处理软件供应商。由于Oracle公司的RDBMS都以Oracle为名,所以,在某种程度上Oracle己经成为了RDBMS的代名词。 Oracle数据库管理系统是一个以关系型和面向对象为中心管理数据的数据库管理软件系统,其在管理信息系统、企业数据处理、因特网及电子商务等领域有着非常广泛的应用。因其在数据安全性与数据完整性控制方面的优越性能,以及跨操作系统、跨硬件平台的数据互操作能力,使得越来越多的用户将Oracle作为其应用数据的处理系统。 Oracle数据库是基于“客户端/服务器”模式结构。客户端应用程序执行与用户进行交互的活动。其接收用户信息,并向“服务器端”发送请求。服务器系统负责管理数据信息和各种操作数据的活动。 Oracle数据库有如下几个强大的特性: 支持多用户、大事务量的事务处理 数据安全性和完整性的有效控制 支持分布式数据处理 可移植性很强 Oracle大体上分两大块,一块是应用开发,一块是系统管理。 开发主要是写存储过程、触发器什么的,还有就是用Oracle的Develop工具做form。有点类似于程序员,需要有较强的逻辑思维和创造能力。管理则需要对Oracle 数据库的原理有深刻的认识,有全局操纵的能力和紧密的思维,责任较大,因为一个小的失误就会丢失整个数据库,相对前者来说,后者更看重经验。 Oracle数据库服务器: Oracle数据库包括Oracle数据库服务器和客户端 Oracle Server是一个对象一关系数据库管理系统。它提供开放的、全面的、和集成的信息管理方法。每个Server由一个 Oracle DB和一个 Oracle Server实例组成。它具有场地自治性(Site Autonomy)和提供数据存储透明机制,以此可实现数据存储透明性。每个 Oracle数据库对应唯一的一个实例名SID,Oracle数据库服务器启动后,一般至少有以下几个用户:Internal,它不是一个真实的用户名,而是具有SYSDBA优

Oracle数据仓库-电信行业应用案例

转眼,从事电信行业BI/DW已经有三年时间了,一直想写点东西,给大家共同分享,感谢ERP 100给我了一个展示的平台! 连载时间:一周一篇 连载提纲: 第一篇数据仓库建设目标、系统规模及项目面临的技术挑战 第二篇选择数据仓库平台的考虑 第三篇选择Oracle产品的原因 第四篇系统现状分析、DW数据仓库建设原则及整体规划的实现 第五篇整体规划的实现、新增应用优先级的确定及螺旋式建设方法 第六篇数据仓库的效益、成本和风险控制 第七篇数据模型设计方法 第八篇构建闭环的信息流、数据模型-分层设计、DW中的数据功能划分 第九篇数据抽取策略、数据抽取过程管理、对脏数据的管理、数据去重及元数据管理及 第十篇典型的应用流程、主题分析及应用推广方法 (第一篇)数据仓库建设目标、系统规模及项目面临的技术挑战 1 数据仓库项目建设目标: 建立统一的数据信息平台,实现客户资料和生产数据的集中存储。利用先进的数据仓库技术和决策分析技术为市场营销和客户服务工作提供有效的支撑: 2 目前系统规模: 包含12个月的话单;数据库容量为65TB,其中原始数据为25TB;最大的表包含1800亿话单

3 项目面临的技术挑战: 数据存储-系统要求存储12-18个月的详单数据; 数据装载-按小时装载详单数据,要求每天在8小时内装载5亿条详单;高峰时一个小时装载6500万条详单;在8小时内同时完成1亿7000万个汇总操作 数据访问-支持680个并发用户,支持8000个系统用户;5%的预定义查询操作在5秒钟内完成;每秒钟23个查询操作 Sina微薄互动地址:https://www.doczj.com/doc/69593711.html,/2186879022/zDx5x29Cw 感谢大家的参与和鼓励,pathwide的建议很好,下面列举出该连载的计划提纲,如下: 连载周期:一周一篇 连载提纲: 第一篇数据仓库建设目标、系统规模及项目面临的技术挑战 第二篇选择数据仓库平台的考虑 第三篇选择Oracle产品的原因 第四篇系统现状分析、DW数据仓库建设原则及整体规划的实现 第五篇整体规划的实现、新增应用优先级的确定及螺旋式建设方法 第六篇数据仓库的效益、成本和风险控制 第七篇数据模型设计方法 第八篇构建闭环的信息流、数据模型-分层设计、DW中的数据功能划分 第九篇数据抽取策略、数据抽取过程管理、对脏数据的管理、数据去重及元数据管理及 第十篇典型的应用流程、主题分析及应用推广方法 希望大家积极参与,共同分享BI/DW的项目经验,同时,有不到位的地方,还请大家多多指正,谢谢! 选择数据仓库平台时的考虑 4 选择数据仓库平台时的考虑 4.1 强大的ETL支持能力-支持按小时的数据装载 4.2 高效的数据访问-硬件的支持:多CPU 大内存并发处理 分区技术 索引技术 数据库内置分析能力 4.3 高可用性7 * 24小时不间断运行 4.4 数据访问每秒钟23到100个并发查询操作; 95%的查询在1秒内完成 4.5 数据表分区-混合分区 按地区建立列表分区; 按时间建立范围分区; 4.6 可传输的表空间 操作系统文件的直接复制;不需要数据的导入、导出

提升数据保护:Oracle数据仓库的实时数据采集

提升数据保护:Oracle数据仓库的实时数据采集在使用数据仓库软件时,最常见的约束之一是源系统数据批量提取处理时的可用时间窗口。通常,极其耗费资源的提取流程必须在非工作时间进行,而且仅限于访问关键的源系统。 低影响实时数据整合软件可以释放系统的批处理时间。当提取组件使用非侵入式方法时,如通过读取数据库事务日志,只会捕捉发生变化的数据,不会对源系统产生影响。因此,数据提取流程可以在任意时段全天候执行,即使用户在线也可以。 当以实时方式提取数据时,虽然必须改变数据采集流程中各个元素支持实时数据的方式,但是这些数据可以带来不一般的业务价值。而且,这些数据必须得到有效的保护,同时也很难针对这些不停变化的数据应用灾难恢复和备份技术。 但是,在数据仓库中应用实时数据整合的技术也可以进一步保护数据。毕竟,实时移动数据的技术也可以实时操作数据,从而形成一个数据保护技术入口。但是,变化数据的速度和效率可能会受制于数据保护流程的延迟。

这意味着,在转到整合数据仓库的主动数据采集模式时,首要考虑的问题之一是数据经过IT系统的流程和可能产生的延迟。换而言之,实时数据整合要求理解变化的数据,以及促进或妨碍这种变化的组件。 显然,企业希望保护他们的数据。然而,随着数据容量需求的增长,存储技术也成为业务持续性依赖的重要业务资产。而且,随着实时分析成为业务流程的一部分,它也归入到业务持续性的范畴之中。实现数据安全性和持续性的最基本方法是硬件或软件复制,它会自动保存第二个关键数据副本。此外,自行创建或基于开源软件创建的备份方法也不存在。 企业级数据管理应用主要涉及5个重要领域:灾难恢复、高可用性、备份、数据处理性能和更高级数据库移植。这促使IT不停地追寻先进技术,如实现数据整合及其相关基础架构元素。此外,这些战略投资能够提供符合预算的资源,在加快实时技术应用的同时,提高投资回报和修正实时数据整合项目的商业提案。

Oracle数据仓库中的OLAP及ODM技术分析

1Oracle数据仓库中的OLAP多维分析技术 在传统的数据仓库技术中,数据访问技术经常分为两部分,复杂度较低的、简单的查询应用可直接访问基于关系数据库的数据仓库服务器,而复杂度较高的联机分析处理应用(OLAP)程序则需要通过专门的多维数据库和工具实现。虽然专门的多维数据库提供一整套的分析功能,查询性能更好,但系统的维护十分困难。多维数据库需要从数据仓库复制数据,获取数据的时间延迟相当长,并需要独立的管理过程,专门的数据建模、ETL过程、安全措施和灾难恢复方案。特别是当数据仓库的容量迅速膨胀时,系统性能会急剧下降,使数据访问应用变得不可使用。 1.1OLAP的体系结构 Oracle数据库作为数据仓库的核心和引擎,它集成了OLAP,Oracle数据库的OLAP选项是一种可用的关系多维数据库。多维技术和关系技术共存在同一平台上,实现了数据可管理性和分析能力之间的平衡。通过对SQL的扩充以及在关系数据库中提供OLAP功能,支持复杂分析查询和提供卓越性能的同时,简化了数据迁移过程并降低了维护数据的费用。 1.2Oracle数据仓库中OLAP的相关特点 与传统的多维数据库相比,它集成了oracle数据库管理系统的优势。 (1)由于OLAP集成在Oracle数据库中,将所有的管理任务整合到单一的数据库中,从而简化了管理。 (2)Oracle数据库提供了基于角色的权限管理,没有授权的用户是无法访问Oracle数据库的。数据库中的所有数据,包括OLAP数据,都得到了单一安全策略的保护。所有的用户都被定义在单一的用户目录中,通过标准的Oracle安全功能,例如GRANT和PRIVILEGE来分配权限。 (3)Oracle数据库是能够对关系和多维数据同时提供SQL和OLAPAPI访问的数据库。应用程序开发者可选择使用OLAPAPI的计算和多维数据功能,或使用标准的SQL访问多维数据,任何OLAP计算都可通过SQL进行查询。 提供AnalyticWorkspaceManage(简称AVM)。 它是完全集中于分析工作区中维度模型定义和实施的管理工具。通过它可以方便地创建维表及其结构、事实表以及多维数据库与关系数据库之间的映射,并不需要编程就可实现各种运算。如最大、最小、平均、加权平均、比率和求和运算。并通过oracle提供的OLAPDML语言,这是一种过程编程语言,可用于表达各种类型的计算、设计自定义分析函数以及控制与多维数据类型相关的数据加载和计算过程。O-LAPDML集成了大量的分析函数,可用于产生任何类型的多维计算。如汇总、分配/n分摊、数据选择、财务、预测和回归、数学和统计、模型、定制维度成员等函数类型。通过SQL和PL/SQL以及OLAPWorksheet工具可以访问OLAPDML。2Oracle数据仓库中的ODM应用技术 数据挖掘可以帮助用户发现在数据中隐含的有用信息和规律。Oracle数据库中集成了数据挖掘功能,它避免了把大量数据卸载到外部专用分析服务器的复杂过程。所有的数据挖掘功能都嵌入到了Oracle数据库中,这样,数据准备、模型建立以及模型评估活动都在数据库内进行。ODM可通过Java和PL/SQL应用程序程序员接口(API)以及数据挖掘客户端访问ODM模型构建和模型计分函数,并提供了多种模型建立向导(Wizard),能够协助业务分析人员和开发人员快速地建立数据挖掘模型和对模型进行检验。Oracle数据挖掘可以为多种数据挖掘算法提供支持,这些算法包括属性重要性、分类和回归、集群、关联、特性提取、文本挖掘、序列匹配和比对—BLAST等算法。 3结语 随着数据仓库技术的广泛应用,许多数据库厂商纷纷提出数据仓库解决方案。作为全球最大的关系数据库厂商,Oracle公司也提出了自己的数据仓库解决方案。与传统的数据仓库解决方案相比,Oracle公司提出了完整的数据仓库架构与集成方案。 Oracle数据仓库中的OLAP及ODM技术分析 □李发军 (西北民族大学榆中校区计算机科学与信息工程学院甘肃?兰州730124) 摘要:本文对Oracle数据仓库中的OLAP多维分析技术,以及Oracle数据仓库中的ODM应用技术进行分析研究。 关键词:OracleOLAPODM 中图分类号:C914文献标识码:A文章编号:1007-3973(2007)10-088-1 信息化之窗 88 科协论坛?2007年第10期(下)

数据仓库和Oracle-BI

数据仓库和Oracle-BI

一、数据仓库和Oracle BI ORACLE数据库11GR2:数据仓库- 网上课程 二、甲骨文快递/ OLAP 打不开 三、商业智能 1.Oracle商务智能11g的R1:创建分析和仪表盘 2.Oracle商务智能11g的R1:BUILD库 3.Oracle商业智能套件企业版10g第3版:BUILD库 4.Oracle商业智能套件企业版10g第3版:创建报表和仪表板 5.ORACLE BI EE10g第3版:报表/仪表板及商业智能发布加速 6.Oracle商业智能发布11G R1:基本面 7.Oracle商业智能10G:分析概述 8.Oracle BI应用7.9:对于Oracle EBS实施 9.Oracle商业智能套件企业版10g BOOTCAMP 10.Oracle BI应用7.9:开发数据仓库 11.ORACLE的实时决策(RTD)开发 12.ORACLE的实时决策3.0(RTD)开发 13.Oracle商业智能10G:分析概述– RWC 14.Oracle商业智能应用7.9.6实施

15.到Siebel商业分析7.7:第二部分- 网上课程 16.Oracle BI应用7.9:概述- 网上课程 17.到Siebel商业分析7.7:第一部分- 网上课程 18.Data WarehousingOracle商务智能11g的简介:最终用户工具- 网上课程 四、数据挖掘 打不开 五、Oracle Warehouse Builder将10g的 1.Oracle Warehouse Builder中10G:实现部分我 2.Oracle Warehouse Builder中10G:第二部分实施 3.Oracle Warehouse Builder中10G:新功能- 在线课程 4.Oracle9i的仓库构建器:脚本- 网上课程 六、Oracle商务智能 1.Oracle商务智能11g的升级和新功能 2.ORACLE BI Discoverer管理员11G:制定一个EUL 3.Oracle商务智能Discoverer Plus中11G:关系型和OLAP数据进行分析 4.Oracle商业智能发布10g第3版:基本面 5.ORACLE BI Discoverer管理员11G:制定一个EUL 6.Oracle商务智能11g的R1:系统管理- 网络课程

Oracle和IBM数据仓库方案对比

Oracle和IBM数据仓库方案对比 概述 成功地实施一个数据仓库项目,通常需要很长的时间。如果仅仅着眼于短期成果,缺乏整体考虑,采用一种不健全的体系结构,不仅会增加系统开发和维护成本,而且必将对发挥数据仓库的作用造成不利的影响。 Oracle公司是世界上最大的数据仓库厂家,能够提供完整的数据仓库解决方案。根据第三方专业咨询机构TDWI-Forrester所做的市场调查显示,Oracle是大多数IT主管选择数据仓库平台时的首选。 IBM数据仓库的市场占有率低于Oracle。权威市场分析机构IDC发布《全球数据仓库平台工具2006年度供应商市场份额》报告,根据2006年度软件收入,把甲骨文评为数据仓库平台工具领域的领先供应商(数据仓库平台工具包括ETL工具、数据仓库存储平台、多维数据库、前端展现工具)。IDC把甲骨文评为数据仓库管理领域的领先供应商,是因为甲骨文的市场份额已接近41%。在数据仓库管理工具市场,甲骨文排名最近的竞争对手的各项指标几乎只有甲骨文的一半,市场份额仅占22.8%。下图是另一家权威市场分析机构Gartner的数据仓库象限图: IBM同样低于Oracle。 ETL工具 IBM的ETL工具有三个:收购的DataStage(通常市场上说的IBM的ETL工具指的就是Datastage,不提供增量数据捕获功能,价格昂贵),数据联邦工具:Information Integrator(异构连接性好、提供增量数据捕获功能,但是不提供完整的数据源到目标数据库的ETL功能,尤其是数据转换功能很弱,没有ETL步骤打包、流程编排功能,没有按照事件或者时间触发ETL流程的功能,价格昂贵),包在Data Warehouse Edition中的ETL工具SQL Warehousing(功能很弱,异构连接性差,不提供增量数据捕获,是一个新工具,没有什么用户,不是IBM的主流ETL工具)。 功能点 使用场景或者益处 Oracle IBM 增量数据捕获 增量数据加载时,如果数据源系统没有时间戳,或者时间戳不可靠,需要利用读取数据源系统日志或者触发器方式获取增量数据,然后根据需要可以复制到目标数据库上或者批量同步到目标数据库上。 Oracle Data Integrator,对于Oracle数据库和DB2 400可以采用读取日志方式,其他数据库采用触发器方式

三种数据仓库的类型

一、Oracle 产品特点:Oracle公司的数据仓库解决方案包含了业界领先的数据库平台、开发工具和应用系统,它能够提供一系列的数据仓库工具集和服务。它具有多用户数据仓库管理能力,多种分区方式,较强的与OLAP 工具的交互能力,及快速和便捷的数据移动机制等特性。 主要工具:Oracle公司提供了一系列的数据仓库工具: Oracle 8I 是数据仓库的核心。Oracle Warehouse Builder 集成数据建模、数据抽取、数据转移和装载、聚合、元数据的管理等功能。Oracle Developer Server 使企业级的应用系统开发工具,支持面向对象和多媒体,可同时生成Client/Server及Web下的应用,具有极高的开发效率及网络伸缩性。 Oracle Discoverer 是最终用户查询、报告、深入、旋转和WEB 公布工具,能够帮助用户迅速访问关系型数据仓库,从而使他们作出基于充分信息的决策。Oracle Darwin 使基于数据仓库的数据挖掘工具,简单易用的图形化界面,提供决策树、神经网络等多种数据挖掘方法,支持海量数据的并行处理,分析结果可以和现有系统集成。 应用提示:Oracle的数据转移工具需手工编写SQL脚本,在处理复杂的数据转换需求时困难很多。Oracle的前端工具易用性较差,需较多地依赖第三方产品。 二、Microsoft 主要特点:Microsoft公司的SQL Server 2000已经在性能和可扩展性方面确立了世界领先的地位,是一套完全的数据库和数据分析解决方

案,使用户可以快速创建下一代的可扩展电子商务和数据仓库解决方案。Microsoft将OLAP功能集成到Microsoft SQL Server中,提供可扩充的基于COM的OLAP接口。Microsoft Office 2000套件中的Access 和Excel可以作为数据展现工具,另外SQL Server还支持第三方数据展现工具。 主要工具:Sql server通过一系列服务程序支持数据仓库应用。数据传输服务DTS(Data Transformation Services)提供数据输入/输出和自动调度功能,在数据传输过程中可以完成数据的验证、清洗和转换等操作,通过与Microsoft Repository集成,共享有关的元数据;Microsoft Repository 存储包括元数据在内的所有中间数据; SQL Server OLAP Services 支持在线分析处理; PivotTable Services 提供客户端OLAP数据访问功能,通过这一服务,开发人员可以用VB或其他语言开发用户前端数据展现程序,PivotTable Services还允许在本地客户机上存储数据; MMC(Microsoft Management Console)提供日程安排、存储管理、性能监测、报警和通知的核心管理服务。 应用提示:数据仓库是Microsoft公司刚刚进入的一个全新领域,与该公司的传统产品差别较大。同时,Microsoft也缺少在数据仓库实施方面的咨询经验。 三、CA CA于1999年收购Platinum Technology公司后,得到了完整的数据仓库解决方案,它具有丰富的行业知识和经验,能够向用户提供完善的数

九大数据仓库方案特点比较

九大数据仓库方案特点比较 九大数据仓库方案特点 IBM、Oracle、Sybase、CA、NCR、Informix、Microsoft、和SAS等有实力的公司相继(通过收购或研发的途径)推出了自己的数据仓库解决方案,BO和Brio等专业软件公司也在前端在线分析处理工具市场上占有一席之地。 下面针对这些数据仓库解决方案的性能和特点做分析和比较。IBM IBM公司提供了一套基于可视数据仓库的商业智能(BI)解决方案,包括:Visual Warehouse(VW)、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及来自第三方的前端数据展现工具(如BO)和数据挖掘工具(如SAS)。其中,VW是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。Essbase/DB2 OLAP Server支持“维”的定义和数据装载。 Essbase/DB2 OLAP Server不是ROLAP(Relational OLAP)服务器,而是一个(ROLAP和MOLAP)混合的HOLAP服务器,在Essbase完成数据装载后,数据存放在系统指定的DB2 UDB数据库中。严格说来,IBM自己并没有提供完整的数据仓库解决方案,该公司采取的是合作伙伴战略。例如,它的前端数据展现工具可以是Business Objects的BO、Lotus的Approach、Cognos的Impromptu或IBM的Query Management Facility;多维分析工具支持Arbor Software的Essbase和IBM(与Arbor 联合开发)的DB2 OLAP服务器;统计分析工具采用SAS系统。Oracle Oracle数据仓库解决方案主要包括Oracle Express和Oracle Discoverer两个部分。 Oracle Express由四个工具组成:Oracle Express Server是一个MOLAP (多维OLAP)服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能够访问多种关系数据库;Oracle Express Web Agent通过CGI或Web插件支持基于Web的动态多维数据展现;Oracle Express Objects前端数据分析工具(目前仅支持Windows平台)提供了图形化建模和假设分析功能,支持可视化开发和事件驱动编程技术,提供了兼容Visual Basic语法的语言,支持OCX和OLE;Oracle Express Analyzer是通用的、面向最终用户的报告和分析工具(目前仅支持Windows平台)。Oracle Discoverer即席查询工具是专门为最终用户设计的,分为最终用户版和管理员版。在Oracle数据仓库解决方案实施过程中,通常把汇总数据存储在Express多维数据库中,而将详细数据存储在Oracle 关系数据库中,当需要详细数据时,Express Server通过构造SQL语句访问关系数据库。但目前的Express还不够灵活,数据仓库设计的一个变化往往导致数据库的重构。另外,目前的Oracle 8i和Express 之间集成度还不够高,Oracle 8i和Express之间需要复制元数据,如果Oracle Discoverer (或BO)需要访问汇总数据,则需要将汇总数据同时存放在Oracle和Express中,系统维护比较困难。值得注意的是,刚刚问世的Oracle 9i把OLAP和数据挖掘作为重要特点。 Sybase Sybase提供的数据仓库解决方案称为Warehouse Studio,包括数据仓库的建模、数据抽取与转换、数据存储与管理、元数据管理以及可视化数据分析等工具。其中,Warehouse Architect 是PowerDesigner中的一个设计模块,它支持星形模型、雪花模型和ER模型;数据抽取与转换工具包括PowerStage、Replication Server、Carleton PASSPORT,PowerStage是Sybase提供的可视化数据迁移工具。Adaptive Server Enterprise是Sybase企业级关系数据库,Adaptive Server IQ是Sybase公司专为数据仓库设计的关系数据库,它为高性能决策支持系统和数据仓库的建立作了优化处理,Sybase IQ支持各种流行的前端展现工具(如Cognos Impromptu、Business Objects、Brio Query 等);数据分析与展现工具包括PowerDimensions、EnglishWizard、InfoMaker、PowerDynamo等,PowerDimensions是图形化的OLAP分析工具,它支持SMP和多维缓存技术,能够集成异构的关系型数据仓库和分布式数据集市,从而形成单一的、新型的多维模式;数据仓库的维护与管理工具包括Warehouse Control Center、Sybase Central、Distribution Director,其中Warehouse Control Center 是为数据仓库开发人员提供的元数据管理工具。Sybase提供了完整的数据仓库解决方案

数据仓库与数据挖掘(陈志泊)课后习题答案

数据仓库与数据挖掘习题答案 第1章数据仓库的概念与体系结构 1. 面向主题的,相对稳定的。 2. 技术元数据,业务元数据。 3. 联机分析处理OLAP。 4. 切片(Slice),钻取(Drill-down和Roll-up等)。 5. 基于关系数据库。 6. 数据抽取,数据存储与管理。 7. 两层架构,独立型数据集市,依赖型数据集市和操作型数据存储,逻辑型数据集市和实时数据仓库。 8. 可更新的,当前值的。 9. 接近实时。 10. 以报表为主,以分析为主,以预测模型为主,以营运导向为主。 11. 答:数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。数据仓库的特点包含以下几个方面:(1)面向主题。操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分离;而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。(2)集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。(3)相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。(4)反映历史变化。操作型数据库(OLTP)主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含较久远的历史数据,因此总是包括一个时间维,以便可以研究趋势和变化。数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)到目前的所有时期的信息,通过这些信息,可以对单位的发展历程和未来趋势做出定量分析和预测。 12. 答:(1)两层架构(Generic Two-Level Architecture)。(2)独立型数据集市(Independent Data Mart)。(3)依赖型数据集市和操作型数据存储(Dependent Data Mart and Operational Data Store)。(4)逻辑型数据集市和实时数据仓库(Logical Data Mart and Real-Time Data Warehouse)。 13. 答:数据仓库技术的发展包括数据抽取、存储管理、数据表现和方法论等方面。在数据抽取方面,未来的技术发展将集中在系统集成化方面。它将互连、转换、复制、调度、监控纳入标准化的统一管理,以适应数据仓库本身或数据源可能的变化,使系统更便于管理和维护。在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库引擎,作为数据仓库服务器产品与数据库服务器并驾齐驱。在这一方面,带有决策支持扩展的并行关系数据库将最具发展潜力。在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中,并与Internet/Web技术紧密结合。按行业应用特征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案的一部分。数据仓库实现过程的方法论将更加普及,将成为数据库设计

简述Oracle数据仓库的体系结构

简述Oracle数据仓库的体系结构 Oracle数据仓库的体系结构可以分成三个层次: 数据获取层:Oracle Database Enterprise ETL Option + Oracle Database Data Quality Option 在Oracle Database 10g 同一个软件中实现了从数据模型设计,数据质量管理,ETL 流程设计和元数据管理的全部功能。所有的 ETL 过程可以通过Oracle数据仓库中提供的工具: Oracle Warehouse Builder 生成的ETL 脚本存储在Oracle 10g 数据库中执行,按照数据仓库系统的要求,定时地完成数据的抽取并加载到数据仓库系统中。由于ETL 的执行是在Oracle 10g 数据库中,可以充分利用Oracle 10g 数据库提供的强大并行处理能力,保证数据获取的高效、可靠执行。 数据存储层:Oracle 10g数据库实现对数据仓库系统各种类型数据的集中存储和管理,包括各种结构化数据和非结构化数据。Oracle 10g数据库内置OLAP 和数据挖掘功能,不需要进行复杂的数据迁移,就可以直接在关系数据库中完成复杂的统计分析功能。Oracle 10g数据库通过使用分区技术可以支持海量数据的存储,一个数据库最大数据量为8,000 PB(1PB=1024TB)。Oracle 10g提供强大的并行处理能力,满足数据仓库系统对于性能和扩展性方面的要求。而且系统通过网格控制台(Grid Control)进行数据仓库统一管理。 数据展现层:Oracle提供全新的商务智能解决方案Oracle BI EE、OLAP分析开发工具(JDeveloper+BI Beans)和数据挖掘工具(Oracle Data Miner),将统计分析的结果通过各种方式展现。Oracle的数据展现方案使用Java和 HTML 两种方式实现,基于标准的J2EE平台。由于使用统一的元数据库,不需要进行元数据的交换,能够最大限度地减少系统的维护工作。同时,Oracle的数据展现方案提供具有强大分析功能和非常易用的分析仪表板,并支持通过门户(Portal)技术进行集成,为不同类型的用户提供一致的访问界面。 相关阅读 数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理。 数据仓库,英文名称为Data Warehouse,可简写为DW。 数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

Oracle数据库完全入库过程介绍(doc 7页)

Oracle数据库完全入库过程介绍(doc 7页)

第一部分简单空间数据入库 1.利用shp2sdo分割shapefile文件。假设shapefile 文件(集贸市场)和shp2sdo工具存储路径为C:\data ①打开命令符窗口(开始→运行→cmd),设置当前目录为存放.shp文件的目录。在命令行窗口中输入:cd C:\data ②运行SHP2SDO.EXE,参数1:SHAPE文件名(不带扩展名), 参数2:ORACLE中的表名 其他参数,默认 运行后生成3中文件(*.SQL,*.DAT,*.CTL) 在命令行中输入:shp2sdo 集贸市场jimaoshichang

2.执行SQL语句。 方法一: ①重新打开一个命令窗口(开始→运行→cmd) ②s qlplus scott/tiger@orcl517,连接到数据库。 ③打开jimaoshichang.sql,复制粘贴,执行SQL语句。DROP TABLE JIMAOSHICHANG; CREATE TABLE JIMAOSHICHANG ( 区县VARCHAR2(10), 乡镇名VARCHAR2(10), 村名VARCHAR2(10), 企业VARCHAR2(50), GEOM MDSYS.SDO_GEOMETRY);

DELETE FROM USER_SDO_GEOM_METADATA WHERE TABLE_NAME = 'JIMAOSHICHANG' AND COLUMN_NAME = 'GEOM' ; INSERT INTO USER_SDO_GEOM_METADATA (TABLE_NAME, COLUMN_NAME, DIMINFO) VALUES ('JIMAOSHICHANG', 'GEOM', MDSYS.SDO_DIM_ARRAY (MDSYS.SDO_DIM_ELEMENT('X', 39373833.909274168, 39519763.519715697, 0.000000050), MDSYS.SDO_DIM_ELEMENT('Y', 4369176.981283660, 4507295.457671791, 0.000000050) ) ); COMMIT;

oracle与ibm的数据仓库比较

数据仓库比较 O r a c l e v s D B2 1文档简介2 1.1文档目的2 1.2文档X围2 1.3缩写约定2 1.4参考文档和文献2 1.5文档概述2 2相关的产品比较错误!未定义书签。 2.1数据仓库3 2.2ETL工具4 2.3OLAP4 2.4展示工具5 3开发过程5 3.1O RACLE的开发过程5 3.2DB2的开发过程6 4应用性8

1文档简介 1.1文档目的 此文档,用来介绍Oracle的数据仓库产品与IBM公司数据仓库产品的比较文档。通过本文,使开发团队及最终使用者对两个数据仓库有初步的认识,为数据仓库及相关产品的选择提供依据。 1.2文档X围 所以文中没有具体实施的细节,适用读者: ?开发人员 ?项目经理 ?开发经理 ?最终用户 1.3缩写约定 1.4参考文档和文献 1.5文档概述 本文档主要是从各各角度对ORACLE的数据仓库和IBM的数据仓库的分析,下面就两方面的产品做一下简单的概述:

IBM IBM公司提供了一套基于可视数据仓库的商业智能(BI)解决方案,包括: Warehouse manager、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及来自第三方的前端数据展现工具(如BO)和数据挖掘工具(如SAS)。其中,Warehouse manager是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。 Essbase/DB2 OLAP Server支持“维”的定义和数据装载。Essbase/DB2 OLAP Server不是ROLAP(Relational OLAP)服务器,而是一个(ROLAP和MOLAP)混合的HOLAP服务器,在Essbase完成数据装载后,数据存放在系统指定的DB2 UDB数据库中。 严格说来,IBM自己并没有提供完整的数据仓库解决方案,该公司采取的是合作伙伴战略。 也就是说IBM公司在展现和多维分析上留有接口,所有第3方的公司可以利用这个接口来连接到IBM的系统中提取想要的数据.例如,它的前端数据展现工具可以是Business Objects的BO、Lotus的Approach、Cognos的Impromptu或IBM的Query Management Facility;多维分析工具支持Arbor Software的Essbase和IBM(与Arbor联合开发)的DB2 OLAP服务器; 统计分析工具采用SAS系统。 Oracle Oracle数据仓库解决方案主要包括OWB和Oracle Discoverer两个部分。然而Express 是和Oracle 8i配合使用的OLAP Server。从Oracle 9i开始(包括10g),Oracle 把OLAP Server整合进了数据库,作为了数据库的一个选件,Oracle Express Server是一个MOLAP (多维OLAP)服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能够访问多种关系数据库;OWB(Warehouse builder)可以完成数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度以及多维模型的建立; Oracle Discoverer属于查询工具是专门为最终用户设计的,分为最终用户版和管理员版。 Discoverer是Oracle的OLAP展示工具,无需编程。 1.6数据仓库 ORACLE采用Cluster体系结构,多个节点共享硬盘,存在磁盘I/O瓶颈,可伸缩性较差,少见超过4个节点的实例。ORACLE基本上没有真正TB级的数据仓库,客户往往被要求将其海量数据分解到多个数据库中。 IBM采用MPP体系结构,每个节点独享各自的硬盘空间,各个节点间通过高速网络交换数据。可伸缩性强,最多可以扩充到1000个节点。国内有32节点的实例,国外有512节点的实例。每个数据库中单个表的大小可以达到512GB*1000=500TB。在全球X围有许多TB级的数据仓库。

相关主题
文本预览
相关文档 最新文档