当前位置：文档之家› 基于卫生行业信息系统的数据仓库和数据挖掘设计

基于卫生行业信息系统的数据仓库和数据挖掘设计

上海交通大学

硕士学位论文

姓名：石景明

申请学位级别：硕士

专业：软件工程

指导教师：王英林;周浩

20061201

上海交通大学

学位论文原创性声明

本人郑重声明：所呈交的学位论文，是本人在导师的指导下，独立进行研究工作所取得的成果。除文中已经注明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。

学位论文作者签名：石景明

日期： 2007 年 2 月 9 日

上海交通大学

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

保密□，在年解密后适用本授权书。

本学位论文属于

不保密□。

（请在以上方框内打“√”）

学位论文作者签名：石景明指导教师签名：王英林

日期： 2007年 2月9日日期：2007年 2月9日

摘要

国内卫生行业信息化经过10多年的发展，已经在卫生行业里很多业务部门得到了广泛的应用，但目前各类业务系统都还是基于关系型数据库以日常业务操作为主的OLTP系统阶段，还没有发展到基于数据仓库以数据分析为主的OLAP/DSS系统阶段，通过计算机采集的各种业务数据，如果不能有效的挖掘，是得不到有价值的信息的！因此本课题的研究是从满足行业需求为目的，充分从数据中挖掘出信息的利用价值，从而更好的为卫生行业服务！

本文的研究内容是实现对医疗卫生信息的数据挖掘分析研究，选择了一个实际的卫生资源数据库为研究对象，完整的实现了从构建数据仓库到数据分析挖掘、再到数据展现的各个阶段，主要内容包括构建专题数据仓库、数据仓库的ETL和应用一些数据挖掘算法对医疗卫生信息进行的数据挖掘分析研究。

在设计构建数据仓库方面，涵盖了概念模型设计、逻辑模型设计、物理模型设计和数据仓库生成的整个过程；ETL设计开发则创新性的在标准的元数据模型CWM基础上，设计开发了基于XML数据交换技术的标准ETL工具。

在数据分析挖掘方面，主要根据卫生信息应用的需求重点研究了基于关联规则的分析挖掘、基于聚类分析的数据挖掘算法等相关技术在医疗卫生信息数据上挖掘应用，获得了对卫生管理尤其疾病控制很有意义的研究成果。

在数据展现方面，重点介绍了数据分析结果的前台展现，主要是应用了一些好的前台展现工具实现。

本文的意义在于，本文通过ETL技术不仅成功的整合了以前分散的各类卫生信息资源，形成了初具规模的卫生信息数据仓库，并且应用了一些数据挖掘算法实现了对医疗卫生信息数据的分析挖掘，这些方法对于卫生管理和疾病控制、提高社区居民医疗卫生保健水平有一定的参考和指导意义。

关键词：医疗卫生信息，数据仓库，ETL，数据挖掘

Abstract

Informatization course of homeland hygiene industry developed more than 10 years, and now has already got broad application in many business branches within hygiene industry. But at present lots of business systems are still in OLTP system stage which mainly concludes daily business operations and based on relational-type data base, and still do not run to OLAP/DSS system stage which mainly concludes data analysis and based on data warehouse. The information collected by computer can't be valuable unless be mined efficiently. Therefore the paper satisfies industry need, and sufficiently mines value of information, so as to serve hygiene industry better.

The research of this paper realizes medical health information data mining analysis, and has chosen an actual hygienic resources database as the research object. The paper completely realizes all stages from data warehouse constructing, data mining, to data presentation. The main content of which concludes special data warehouse constructing, ETL of data warehouse and applying data-mining algorithms to the medical health information. Constructing data warehouse covers entire process including the conceptual model design, logical model design, physical model design and data warehouse building. ETL based on the standard Meta data model CWM, designed and developed standard ETL tools based on XML data exchange technology.

Mainly considers requirement emphasis of hygienic information application, the paper mainly studied data analysis and data mining which are based on the relation rule, data mining algorithms which based on gathered kind of analysis and so on, and obtained significant research results on hygienic management especially on disease control.

The paper also introduced data presentation of the data analysis results, and mainly utilizes some efficient tools to realize it.

The paper's significance lies in that the project based on ETL technology so not only successfully integrated distributed information into hygienic information data warehouse which began to take shape, but also applied some data mining algorithms to realize the medical health information data analysis and mining, and these methods can be a reference or instruction to health management, disease control and society residents health improvement.

Keywords：Medical health information，Data warehourse，ETL，Data mining

第1章概述

1.1 应用背景和问题的提出

计算机信息管理系统在医疗卫生机构的广泛应用，促进了医学信息的数字化,同时，电子病历和病案的大量应用、医疗设备和仪器的数字化，使得医疗卫生数据库的信息容量不断地膨胀。这些宝贵的医学信息资源对于疾病的诊断、治疗和医学研究都是非常有价值的。然而，目前大多数医疗卫生机构对数据库的处理仅限数据的录入、修改、查询、删除等平凡过程，属于医疗卫生数据库的低端操作，缺乏数据的集成和分析，更谈不上医学决策和知识的自动获取。如何利用这些海量的信息资源来为疾病的预防、诊断和治疗提供科学的决策，总结各种医治方案的疗效，更好地为医疗卫生机构的决策管理、医疗、疾病控制、卫生管理、科研和教学服务，已越来越为人们关注。另一方面，随着人们生活水平的提高、保健意识的增强以及我国医疗体制改革的深入，基于计算机技术、通信技术的远程医疗和社区医疗，已经逐渐成为各大医院的另一个潜在市场。如何对医疗卫生数据库进行自动提升和处理，使其更好地为远程医疗和社区医疗提供全面的、准确的诊断决策和保健措施，已成为促进医疗卫生事业发展、提高服务质量而必须解决的新问题。正是在这种背景下、医学数据挖掘应运而生。

1.2 研究内容的介绍

本课题研究的信息资源主要基于上海市嘉定区卫生信息数据库，该数据库始建于2000年，包括一个全区所有医疗机构的病案数据库、一个包括全体居民的疾病信息库、一个包括全体居民的社区健康保健数据库、一个包括农村居民的合作医疗数据库，涵盖了全区75万人口的大部分的医疗卫生数据资源。我们感兴趣的主要是疾病信息，只有这部分数据才能为疾病控制服务，医疗卫生数据挖掘的主要对象也是针对这部分信息资源的。

本文研究的主要内容包括构建医疗卫生行业的专题数据仓库、数据仓库的ETL和应用一些数据挖掘算法对医疗卫生信息进行的数据挖掘分析研究。

由于本课题所研究的信息资源数据库在不同的时期、出于不同的应用目的、由不同的开发厂商来完成开发的，在开发这些业务系统时，并没有考虑到将来可能会建立数据仓库系统，所以，其数据格式、存储平台、系统平台是各不相同，存在很大的异构性，这就给数据的集成带来了许多困难。如何将这些异构的数据集成到数据仓库中，是本课题必须解决的问题，本文将主要讨论数据仓库设计中的ETL技术。

卫生信息数据的特点具有关联性、时间性、地域性、人群属性等特点，因此本课题研究了数据挖掘中的基于关联规则的分析挖掘、基于聚类分析的数据挖掘算法等相关技术，并将这些技术应用在卫生信息数据挖掘上，对医疗卫生信息进行有效分析，从而为卫生管理决策支持和指导工作服务。

1.3 文章结构的介绍

在以下的章节中，本文将做如下安排：

在第2章将介绍医疗卫生的数据仓库设计。数据仓库设计涵盖了概念模型设计、逻辑模型设计、物理模型设计和数据仓库生成的整个过程。

在第3章将重点介绍ETL的设计开发。ETL设计开发则创新性的在标准的元数据模型CWM基础上，设计开发了基于XML的通用ETL工具。

在第4章将介绍数据分析挖掘。本章首先分析了医疗卫生行业数据挖掘应用的现状，然后根据应用的需求重点研究了基于关联规则的分析挖掘、基于聚类分析的数据挖掘等相关技术在医疗卫生信息数据上挖掘应用，获得了对卫生管理尤其疾病控制很有意义的研究成果。

在第5章将介绍数据展现。重点介绍了数据分析结果的前台展现，主要是应用了一些好的前台展现工具实现。

在第6章是本文结论，并将提出系统的不足和展望。

第2章数据仓库设计

在数据仓库的设计上我大体上进行了以下几个阶段的研究设计：

概念模型设计；

技术准备工作；

逻辑模型设计；

物理模型设计；

数据仓库生成；

2.1 概念模型设计

数据仓库的概念模型是联系主观与客观的桥梁，它是一个为一定的目标设计系统、收集信息而服务的概念性工具，具体到计算机系统设计中，概念模型是客观世界到计算机世界的一个中间层次]1[。人们首先将显示世界抽象为信息世界，然后将信息世界转化为计算机世界。概念模型的作用就是信息世界的一种架构。因此，概念模型的设计要求创建一种基于对象的，代表实际业务的模型。由于概念模型是面向现实的，所以在认识和设计系统时，概念模型易于修改而且适应性很强。建立医疗卫生信息数据仓库的模型，首先要熟悉医疗行业业务，理解用户的需求，用户将来可以从数据仓库中得到什么信息，如何定义这个模型，以及设计这个模型能体现实际业务是关键。本课题在概念模型的设计阶段大致分为了用户的需求调查、模型定义、模型分析和模型设计以及模型文档与评审五个子阶段。

2.1.1 概念模型的需求调查

在概念模型设计阶段完成的工作有：

（1）界定系统边界：数据仓库是面向决策分析的数据库，因为无法在数据仓库设计的最初就得到详细而明确的需求，我只能通过和一些业务管理人员的沟通，大致知道他们想要做的决策类型有哪些? 最感兴趣的是什么问题? 这些问题

需要什么样的信息? 要得到这些信息需要包含原有数据库系统的哪些部分的数据? 然后根据这些划定了一个当前的大致的系统边界，因为是研究性的，所以只能集中精力进行最需要的部分的开发。通过和嘉定区卫生局的相关业务人员以及统计科室的人员的沟通，也听取了信息管理人员的建议，针对疾病控制这个主题归纳出他们想研究的一些信息有：

社区疾病的分布状况（疾病谱）

吸烟、饮酒等不良生活习惯与疾病的关系

年龄、职业、性别、地域等个人属性与一些常见病的关系

饮食习惯等行为危险因素与一些常见病的关系

……

（2）确定主要的主题域及其内容：在这一步中，先确定系统所包含的主题域，然后对每个主题域的内容进行较明确的描述，描述的内容包括：主题域的公共码键；

主题域之间的联系；

充分代表主题的属性组。

2.1.2 概念模型的定义

完成概念模型的需求调查后，可以开始进行概念模型的定义。在概念模型的定义过程中需要确定系统的范围以及所涉及的对象。模型的设计先要明确所要构建的内容，设计模型的起点是所选择的主题域。数据仓库是面向决策进行分析的数据库，无法在数据仓库设计时就确定用户明确而详细的需求，只有一些基本的需求方向、基本的数据需求摆在设计着面前：要做的决策有哪些？决策者感兴趣的是什么问题？解决这些问题需要什么样的信息？

作为传统的业务处理系统的开发，在其开发分析中需要明确业务处理的具体功能，即系统的开发是基于功能驱动的，数据仓库开发人员在数据仓库形成与应用之前是不可能了解数据仓库的功能的。因此，无法采用功能驱动开发方法进行数据仓库的开发，但是，数据仓库的开发人员可以在数据仓库开发之前通过数据

仓库的需求分析，了解数据仓库用户的大致需求，即在决策过程中需要什么信息。这样，就可以界定一个数据仓库的大致系统边界，集中精力进行主要部分的开发。因而，界定边界的工作也可看作是数据仓库系统设计的需求分析，因为它将决策者的数据分析的需求用系统边界的定义形式反映出来。

目前嘉定区卫生局数据中心已经建立多个业务数据库，以慢性病管理为主的疾病业务管理数据库、以社区居民健康服务为主的社区健康档案数据库、以临床医疗为主的医院管理数据库、以免疫预防业务管理为主的计划免疫数据库等等，各个数据库是按照各个部门的具体需求建立起来的，这样的组织的数据是各自为政、缺乏全局性，卫生局的管理层想要在这些数据库的基础上得到一些全局报表，进行一些综合分析工作是比较困难的。通过对需求的分析，加上自己长期的业务经验积累，本课题需要建立的数据仓库的一些模型基本上勾勒出来了。

1、数据仓库用户的决策分析

从决定数据仓库的开发初衷来说，卫生管理者最迫切的需求是能更准确地把握疾病的分布与控制管理情况。

2、支持决策的数据需求分析

管理决策者完成以上的决策分析，需要疾病报告的数量、人口资料情况、健康档案等一些数据。

3、数据需求分析工具

为了对数据进行完整的、规范的分析，可以采用表2-1所示的用户信息需求表来描述用户的信息需求状况。在用户信息需求表中列出概念模型定义中所确定的数据仓库用户决策分析问题以及所要的信息。在列出所有需要信息的同时，还要明确这些信息的详略程度。例如，对疾病分布情况分析时，可能根据发病患者的籍贯、性别、所在年龄组、职业、生活习惯进行分析。此时，应将这些不同层次的信息按照层次的高低一次填写在用户信息需求表中，并且在所需要的信息名称后面表明这些信息可能分成多少个组别，才能满足决策分析的需要。利用这张表可以为疾病分布的主题确定不同的维：时间、地点和职业等，并且可以进一步确定维的层次。

表2-1 用户信息需求表

Table2-1 Userinfor requirement table

决策分析问题疾病分布的情况

需求信息类日期地点性别年龄组职业生活习惯

需求信息1层需求信息2层需求信息3层需求信息4层需求信息5层…… 年（4）

季度（16）

月（48）

……

省（12）

城市（60）

街道（300）

……

男（1）

女（1）

……

年龄组

（8）

……

高危职业

（12）

吸烟饮酒

等（5）

信息需求单位：信息需求采集人：信息需求表填写时间：

4、CRUD矩阵

CRUD矩阵是指利用矩阵的形式来表示各个不同用户对不同操作的动作行为。其中，C是Creat——产生，R是Read——引用，U是Update——更新，D 是Delete——删除]2[。

概念模型的定义，不仅需要构建一个ERD模型，还要了解ERD模型中每一个实体的诞生与消亡事件。因为只有在实体诞生以后，数据仓库才能从数据源中获取关于这一实体的数据。当这个实体消亡后，还需要将该实体的消亡状况在数据仓库的元数据中记录下来。为了提高系统的处理效率，在业务处理系统中常将一些历史数据删除，但是在数据仓库中这些历史数据却要保留下来]2[。

例如，在疾病管理系统中，某个高血压病人建立了疾病报告，系统会将一些相关信息记录在案，并定期的记录随访情况，但是如果病人愈痊了，就要在业务系统中将其置于停顿状态，不再进行随访跟踪了，如果病人死亡了，通常在新的管理年度里系统将会删除该病人的记录。而在数据仓库中，该病人的信息将长期存在，因为管理人员可能需要了解五年中的病人所有的信息，数据仓库就需要提供疾病情况的五年快照。这些快照的信息包含病人的第一次报告信息、历次随访记录、目前的状况等信息。为了获取这些信息，在数据仓库的高层模型中就需要

使用CRUD矩阵反映实体的生成、引用、更新和删除状况。利用CRUD矩阵还可以使数据源与数据仓库的联系得到确认。在CRUD矩阵中使用只描述那些重要的数据实体事件，对并不重要的实体可以不考虑。

在实体的CRUD时间中，最重要的是CD事件，因为CD事件提供了数据仓库的数据源的数据质量和数据完整性信息。同时，CD事件对数据仓库的时间标识机制会产生较大的影响；而U事件对数据仓库的维护具有重要意义，只有了解了数据源的更新状况，才能确定数据仓库中数据的刷新处理。在使用CRUD矩阵进行概念模型的分析是，可以了解到数千种潜在的数据仓库应用关系，这些应用将会产生大量的实体与功能关系CRUD矩阵，如表2-2所示。因此，在使用该矩阵时，我和用户以及业务系统的使用人员进行了紧密的联系和沟通，对实体和功能关系的CRUD矩阵进行仔细的分析，存在对数据仓库真正有用的数据源。

表2-2 实体与功能关系CRUD矩阵

Table2-2 Relation of Entity and function CRUD matrix

医生报告单疾控管理人员病人

报告输入 C CRUD CRU R 报告处理 RUD CRUD RUD R 随访输入 C CRUD CRU R 随访处理 RUD CRUD RUD R

5、业务处理系统数据存储表

在数据仓库的概念模型定义中还要了解组织现行业务处理系统的数据存储方式，从中找到数据仓库的数据映射源的物理状况，这对数据仓库的创建与刷新十分重要。因此，需要使用数据存储模式表，如表3所示，将所有的数据源存储模式列出。数据存储表的第一列给出组织现有的各种业务处理系统，其他列为这些业务处理系统中数据的存储模式。根据这张表，我还需要对每个数据源进行分析：

?这些数据源存储模式的管理者是否能为数据仓库的建设提供某种程度的支持？

?客户/服务器之间的联接通过那种通信协议予以支持？

?数据源的存储模式使用哪些数据操作语言？

在了解这些情况后，才可将数据仓库与特定的业务处理系统中的数据源成功地联结在一起。在了解组织现有的数据源的存储模式时，还要了解现有业务处理系统的数据库是如何管理的，便于为数据仓库与数据源的连接寻找合适的。

表2-3 现行业务处理系统的数据存储模式表

Table2-3 Data storage model table of operation manager system

Oracle Sysbase SQL Server VFP 其他存储模式社区健康档案（老）√√

社区健康档案（新）√

疾病报告系统√

医院管理系统√√

合作医疗系统√

人口资料信息√（Excel）

2.1.3 概念模型的分析

完成概念模型的定义后，还要进一步考察模型中的用户要求和系统环境。分析数据仓库范围内的主要对象，确定系统的主要主题域以及主要主题域之间的关系。分析阶段将详细检查定义阶段所提出的要求，并且研究任何可能提供解决方案的环境。通过对用户的访问，得到用户对数据仓库结构以及数据仓库存在环境的要求，并将分析结果转变成概念模型，提交给被访问者进行确认，以保证设计者对当前环境的正确理解。

根据以上对原有分散的数据库系统的分析，考虑到卫生管理者的决策分析需求，再上一步划分系统边界的基础上，首先确定疾病分析数据仓库的三个基本主题：疾病主题、行为危险因素主题和客观因素主题。

图2-1 基本主题关系图

Fig2-1 Relation graph of base topic

主题之间的联系有：

?吸烟、饮酒等行为危险因素与疾病具有关系；

?性别、年龄、地区、职业等客观因素与疾病之间的关系；

?行为危险因素、基本因素和疾病之间的综合关系。

这样，在疾病主题与行为危险因素主题之间就存在多对多的关系、基本因素与疾病之间也存在多对多的关系。基本因素和行为危险因素之间也有一定的关系，但不是本课题研究的重点。这样三个主题的概念模型就可以用ERD图表示，如图2-2所示。

2.1.4 概念模型的设计

概念模型的设计是整个概念模型开发过程的第三阶段。设计阶段依据概念模型分析以及分析过程中收集的任何数据，完成星型模型和雪花型模型的设计。如果仅依赖ERD，那只能对疾病、行为危险因素、基本因素主题设计成如图2-2所示的概念模型。这种模型适合于传统的数据库设计，但不适合于数据仓库的设计。

图2-2 三大主题的概念模型

Fig2-2 Concept model graph of three topic

1、星型模型设计

在数据仓库的概念模型设计中，常常使用星型模型和雪花模型，为设计星型模型，需要确定概念模型中的指标实体和维度实体]3[。在表2-1的用户信息需求表中，可以确定该用户的主题是疾病的分布分析。因此，用户的指标实体是疾病分布状况，该指标实体应位于星型模型的中心。此为，从表2-1中还可以发现，用户对疾病分布分析中所需要的信息有患病日期、地点、病人年龄、病人职业、病人的生活习惯（行为危险因素）等，这些信息就构成了星型模型的维实体。因

此，最终可以获得疾病主题的星型模型，如图2-3所示：

图2-3 疾病主题的星型模型

Fig2-3 Starriness model graph of disease topic

2、雪花模型设计

当构成了星型模型后，与用户进行了一些沟通，用户希望对相关的维度进行深入的分析，了解疾病分布的更深层次的原因，这就需要对星型模型进行修改，使其更深入地反映疾病分布的状况。为此，就需要设计一个雪花模型。在星型模型的维度实体增加需要进行深入分析的详细类别实体：疾病报告卡细节实体和病人细节实体，产生疾病主题的雪花模型，如图2-4所示：

图2-4 疾病主题的雪花模型

Fig2-4 Snow model graph of disease topic

2.2 技术准备工作

2.2.1 技术准备工作

这一阶段的工作主要有：技术评估，技术环境准备。

（1）技术评估: 进行技术评估，就是确定数据仓库的各项性能指标，其主要目的是数据仓库的选型。我重点考虑了数据仓库的以下性能指标包括：管理大数据量数据的能力；

进行灵活数据存取的能力；

根据数据模型重组数据的能力；

周期性成批装载数据的能力；

可设定完成时间的作业管理能力。

对XML技术的支持能力

（2）技术环境准备:主要是确定对软硬件配置的要求；包括以下几个方面：预期在数据仓库上分析处理的数据量有多大?

如何减少或减轻竞争性存取程序的冲突?

数据仓库的数据量有多大?

进出数据仓库的数据通信量有多大?等等。

通过技术评估和技术环境的准备，最终确定了系统总体设计方案。

2.2.2 数据仓库选型

IBM、Oracle、Sybase、Microsoft和SAS等数据库厂商均有自己的数据仓库解决方案，下面针对这些典型的数据仓库解决方案的性能和特点做分析和比较]4[。

IBM

IBM公司提供了一套基于可视数据仓库的商业智能（BI）解决方案，包括：Visual Warehouse（VW）、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB，以及来自第三方的前端数据展现工具（如BO）和数据挖掘工具（如SAS）。其中，VW 是一个功能很强的集成环境，既可用于数据仓库建模和元数据管理，又可用于数据抽取、转换、装载和调度。Essbase/DB2 OLAP Server支持“维”的定义和数据装载。Essbase/DB2 OLAP Server不是ROLAP（Relational OLAP）服务器，而是一个（ROLAP和MOLAP）混合的HOLAP服务器，在Essbase完成数据装载后，数据存放在系统指定的DB2 UDB数据库中。

严格说来，IBM自己并没有提供完整的数据仓库解决方案，该公司采取的是合作伙伴战略。例如，它的前端数据展现工具可以是Business Objects的BO、Lotus的Approach、Cognos的Impromptu或IBM的Query Management Facility；多维分析工具支持Arbor Software的Essbase和IBM（与Arbor联合开发）的DB2 OLAP服务器；统计分析工具采用SAS系统。

Oracle

ORACLE10g的数据仓库具有许多优异的特性使其在业界应用广泛，ORACLE10g 支持超大的数据库，可支持到 8E 的数据量。改进的存储、备份、恢复管理也对超大数据库有着很好的支持。分区可以支持索引组织表。Oracle10g 提供了加强的 ETL 功能。可以方便的构建大型数据仓库和多个数据集市。一个新的变化数

据捕捉的框架允许管理员能够轻易的捕捉并发布数据的变化。对于大数据量的转移，ORACLE提供了对可传输表的跨平台的支持，允许大批量数据快速从数据库上的脱离并附接到第二个数据库上。增强的外部表功能，SQL Loader 的功能加强，增强的 SQL 分析能力，SQL 语句的功能针对 BI 得到了极大地增强。增强的 OLAP 分析功能，Oracle 内建的分析功能得到增强。提供了新的基于 PL/SQL 和 XML 的接口。提供了新的并行能力，以便于进行聚合和 SQL IMPERT 操作。一些算法得到改进。同时 OEM 能够用来监视并管理数据挖掘环境。

ORACLE10g具有很强的数据挖掘的能力，其数据管理能力也非常优异，首先在XML 方面的数据管理能力的增强，在多媒体数据管理方面，在ORACLE9以前的版本中，存在着媒体文件4G的限制。现在媒体文件的 4G 大小限制去掉了(现在限制是：8-128T)。通过 SQL 多媒体标准能够访问多媒体数据。对更多的新的多媒体格式提供支持。 ORACLE数据仓库还提供了自动发现未知文档的语言和字符集的功能。本地分区的文本索引可以联机创建。文档可以在索引创建和重建的时候插入。文档服务，如高亮功能无须重建索引。检索文档的能力也得到提高。

Sybase

Sybase提供的数据仓库解决方案称为Warehouse Studio，包括数据仓库的建模、数据抽取与转换、数据存储与管理、元数据管理以及可视化数据分析等工具。其中，Warehouse Architect是PowerDesigner中的一个设计模块，它支持星形模型、雪花模型和ER模型；数据抽取与转换工具包括PowerStage、Replication Server、Carleton PASSPORT，PowerStage是Sybase提供的可视化数据迁移工具。Adaptive Server Enterprise是Sybase企业 Adaptive Server IQ Adaptive Server IQ是一个高度可扩展的分析型数据库引擎，专门为分析型应用与数据仓库而设计，使数据仓库应用拥有卓越的查询性能与最低的总拥有成本。通过将革新的专利查询技术和性能优化的算法合并，它提供的即席查询性能比传统的RDBMS要快100倍以上。其专门为分析而设计的垂直存储、专利索引技术以及独特的架构使其成为数据仓库的最佳选择。

Adaptive Server IQ Multiplex Adaptive Server IQ Multiplex 是Adaptive Server IQ运行的多丛结构，是为了提高并发性而设计。这种结构能够通过多个

Sybase IQ配置来处理高度并发的即兴式与批方式的查询，而效率不会有明显的下降。这种体系架构能够满足面向Web的数据仓库的所有需求：大数据量、快速响应、大量用户并发、易学易用且维护简单等等。它的并行架构能够将系统扩充到数百个节点而不需要对应用或DBA控制程序做任何的修改，并且不需要中断系统的运行。

Sybase Industry Warehouse Studio (IWS) IWS是一个预建的，打包的数据仓库基础架构，包括一个面向垂直行业的商业模型、一个数据库结构、应用组件、一个方法学、元数据和管理这些元数据的工具、以及客户化这些模型，从而增强或裁减以满足特定的客户的需求。IWS是一个可伸缩的开放的系统。

Sybase提供了完整的数据仓库解决方案Quick Start DataMart，具有良好的性能，并支持第三方数据展现工具。从Quick Start DataMart的名称不难看出，它尤其适合于数据集市应用。

Microsoft

Microsoft将OLAP功能集成到Microsoft SQL Server数据库中，提供可扩充的基于COM的OLAP接口。它通过一系列服务程序支持数据仓库应用。数据传输服务DTS（Data Transformation Services）提供数据输入/输出和自动调度功能，在数据传输过程中可以完成数据的验证、清洗和转换等操作，通过与Microsoft Repository集成，共享有关的元数据；Microsoft Repository存储包括元数据在内的所有中间数据；SQL Server OLAP Services支持在线分析处理；PivotTable Services提供客户端OLAP数据访问功能。

通过这一服务，开发人员可以用VB或其他语言开发用户前端数据展现程序，PivotTable Services还允许在本地客户机上存储数据；MMC（Microsoft Management Console）提供日程安排、存储管理、性能监测、报警和通知的核心管理服务；Microsoft Office 2000套件中的Access和Excel可以作为数据展现工具，另外SQL Server还支持第三方数据展现工具。

SAS

SAS公司在20世纪70年代以“统计分析”和“线性数学模型”而享誉业界，90年代以后，SAS公司也加入了数据仓库市场的竞争，并提供了特点鲜明的数据仓库解决方案，包括30多个专用模块。其中，SAS/WA（Warehouse Administrator）