第1章数据仓库的概念与体系结构

格式：ppt
大小：1.89 MB
文档页数：54

下载文档原格式

数据仓库概述(概念、应用、体系结构)

使用浏览分析工具在数据仓库中寻找有用的信息；基于数据仓库，在数据仓库系统上建立应用，形成决策支持系统。
事务处理分析处理
DB
从数据 OLTP 数据
DW
从数据信息（知识） OLAP（DM、OLAM）
18
数据仓库与传统数据库的区别
19
OLTP和OLAP的区别

用户和系统的面向性:

转换描述从操作数据库到数据仓库的映射方法以及转换数据的算法访问权限备份历史存档历史信息传输历史数据获取历史数据访问等等29主题区和信息对象类型包括查询报表图像音频视频等支持数据仓库的其它信息例如信息传输系统包括的预约信息调度信息传送目标的详细描述商业查询对例如数据历史快照版本拥有权数据抽取的审计跟踪数据的使用方法30与数据访问和分析工具的集成31元数据库metadatarepository和工具32主要使用数据来源的物理结构信息企业数据模型和仓库数据模型最终用户最关心两类元数据
4
业务系统不适宜DSS应用

事务处理和分析处理的性能要求和特性不同

事务处理对数据的存取操作频率高而每次操作处理的时间短；在分析处理环境中，某个DSS应用程序可能需要连续几个小时，会消耗大量的系统资源。

数据集成问题历史数据问题数据的综合问题（更高粒度）
5
建立数据仓库的投资回报
数据模型：（1）逻辑数据结构，包括为有效进行数据
用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩展后得到的一个混合形式。四个基本特点：面向主题的、集成的、可变的、当前或接近当前的。库处理由DBMS提供的操作和约束；（2）数据表示系统（例如，ER图和关系模型）。
25
元数据

数据仓库的概念和体系结构概述

数据仓库的概念和体系结构概述数据仓库是指将企业各个部门和业务系统产生的大量数据进行整合、清洗、集成和存储，以满足企业决策分析和业务需求的信息系统。

数据仓库的设计和建设需要考虑到数据的整合、一致性、稳定性、易用性和安全性等方面的需求。

它是一个面向主题的、集成的、相对稳定的、可供企业管理者和决策者使用的数据集合。

1.数据源层：数据仓库的数据源可以来自企业内部的各个部门和业务系统，也可以来自外部的合作伙伴和第三方数据提供商。

数据源的选择和集成是数据仓库建设的关键环节，需要确定数据的提取方式、频率、粒度和格式等。

2.数据提取层：数据提取层负责从各个数据源中提取数据，并进行初步的清洗和转换。

数据提取可以通过批量处理、定时任务或实时流数据处理等方式进行。

在数据提取过程中，需要解决数据一致性、完整性和准确性等问题。

3. 数据集成层：数据集成层是将从各个数据源提取的数据进行整合和合并的地方。

这里的数据整合包括数据清洗、数据转换和数据聚合等操作。

数据集成层可以使用ETL（Extract、Transform、Load）工具进行数据的清洗和转换。

在数据集成层，还需要对数据进行一致性校验和冲突解决。

4.数据存储层：数据存储层是数据仓库最核心的组成部分，它负责存储整合后的数据。

数据存储层可以采用关系数据库、数据仓库等不同的技术来进行存储。

在设计数据存储层时，需要考虑到数据的存储结构、索引方式、数据分区和冗余备份等问题。

6. 数据访问层：数据访问层是用户直接访问数据仓库的接口，它提供了用户对数据仓库的查询、分析和报表生成等功能。

数据访问层可以使用OLAP（Online Analytical Processing）工具、报表工具、数据挖掘工具和BI（Business Intelligence）平台等进行实现。

7.数据安全层：数据安全是数据仓库设计和建设过程中必须要考虑的问题之一、数据安全层负责保护数据仓库中的数据不受未经授权的访问、修改和破坏。

产业数据仓第1部分总体框架和技术要求

产业数据仓是指一个用于存储和管理企业或行业内各种数据的系统。

它能够将来自不同数据源的数据进行整合和存储，同时通过数据分析和挖掘技术，为企业决策提供支持。

在当今信息化的时代，数据已经成为企业竞争力的重要组成部分，而产业数据仓的建设和运营则成为了企业信息化战略中的重要环节。

一、总体框架1.1 数据仓库架构产业数据仓的总体框架包括数据仓库、数据存储、数据集成、元数据管理、数据分析和报告等模块。

在建设数据仓库时，需要根据企业的业务特点和数据特点，设计合理的数据模型和架构，以支持数据的高效存储和查询。

1.2 数据采集与清洗数据仓库的数据主要来源于企业内部系统和外部数据源，其中包括基础数据、交易数据、日志数据等。

在进行数据的采集和清洗时，需考虑数据的质量和完整性，以确保后续的数据分析和挖掘工作能够顺利进行。

1.3 数据安全与保护由于产业数据仓存储的是企业重要的商业数据，因此数据安全和隐私保护是至关重要的。

在建设数据仓库的过程中，需要严格遵守相关的数据安全标准和法律法规，保护企业数据的安全和隐私。

二、技术要求2.1 数据存储技术数据仓库中需要存储大量的数据，因此对数据存储技术有着较高的要求。

传统的关系型数据库可以满足一定的需求，但随着数据量的增加和数据类型的多样化，企业需要将目光投向更先进的数据存储技术，如分布式存储、列存储等。

2.2 数据集成技术产业数据仓的数据源多样化，需要将来自不同系统的数据进行集成和整合。

数据集成技术成为了数据仓库中的关键技术之一，企业需要选用成熟可靠的数据集成工具，以确保数据的完整性和一致性。

2.3 数据分析技术数据仓库中的数据分析包括数据挖掘、统计分析、预测分析等多方面内容。

为了有效进行数据分析，企业需要掌握多种数据分析技术和工具，以支持对数据的深度挖掘和分析。

产业数据仓的建设是企业信息化战略中的重要环节，其总体框架和技术要求对企业数据的管理和利用具有重要意义。

只有建设出合理高效的数据仓库系统，企业才能更好地利用数据资源，提高运营效率和竞争力。

数据仓库概述PPT(共 57张)

决策支持系统：需要花数小时甚至更长时间的处理、需要遍历数据库中的大部分数据，进行复杂的计算，需要消耗大量的系统资源。
16
细节的
操1作.型1.数3据两者数据处理模式的分析差型数别据
综合的，或提炼的
当前数据
历史数据
更新的
不可更新，只读的
生命周期符合SDLC （软件开发生命周期）
完全不同的生命周期
对性能要求高一个时刻操作一个单元事务驱动面向应用一次操作数据量小，计算简单支持日常操作
29
1.2 数据仓库的基本概念
数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合，通常用于企业的决策支持。
30
1.2.1 面向主题
主题：是一个抽象的概念，是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑上，它对应于企业中某一宏观分析领域所涉及的分析必须把分析数据从事务处理环境中提取出来，按照决策支持系统处理的需要进行重新组织，建立单独的分析型处理环境。数据仓库正是为了构建这种新的分析型处理环境而出现的一种数据存储和组织技术。
27
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
第1讲数据仓库概述
1
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
2
数据仓库概述
1.1 数据仓库产生的原因 1.1.1 操作型数据处理 1.1.2 分析型数据处理 1.1.3 两种数据处理模式的差异 1.1.4 数据库系统的局限性
对性能要求宽松一个时刻操作一个集合分析驱动面向分析一次操作数据量大，计算复杂支持管理需求

医学信息学

第一章1、医学信息学研究范畴的四个层次⏹原始健康数据⏹从原始健康数据中分析出来的有组织的综合数据库⏹从数据库中抽象出来的知识库⏹从知识库中验证出的可直接应用的知识结晶和理论，协议，临床使用手册，概论。

2、组织机构的全称和缩写计算机辅助诊断（CAD）人工智能专家系统（MYCIN）计算机断层扫描仪（computed tomography, CT）⏹国际医学信息学会（IMIA）⏹医疗信息与管理系统协会（HIMSS）⏹欧洲医学信息学联盟（EFMI）⏹亚太医学信息学协会（APAMI）⏹美国医学信息学会（ＡＭＩＡ⏹国际标准化组织⏹美国国家标准局（ANSI）⏹欧洲标准化委员会（CEN）⏹美国实验和材料协会（ASTM第二章1、数据库、数据仓库的概念数据仓库的概念：⏹面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用以支持经营管理中的决策制定过程。

⏹是一个环境，而不是一件产品，提供用户用于决策支持的当前和历史数据。

为分析数据而设计，设计时有意引入冗余，两个基本元素是维表和事实表。

2、数据挖掘的过程确定业务对象数据准备数据挖掘结果分析知识应用3、数据挖掘系统组成数据库管理模块挖掘前处理模块挖掘操作模块模式评估模块知识输出模块4、熟悉几种常用的数据挖掘算法及其原理1.决策树2.神经网络对人脑的某种程度上的抽象、简化和模仿，由人工神经元相互连接组成。

每个神经元是一个节点，通过方向性连接组成网络结构，是一个数学模型。

结构上可分成3层：输入层，隐含层，输出层。

每一层可以包含若干个节点。

层与层之间的节点互相联系3.关联规则关联规则：在同一事件中出现不同项的相关性4.OLAP联机规则5.粗糙集理论6.传统统计方法第四章1、元数据和数据元的概念、数据元的组成元数据（meta data）⏹关于数据的数据。

按照一定的标准，从信息资源中抽取出相应的特征，组成一个特征元素集合。

数据元（data element）⏹用一组属性描述定义、标识、表示以及允许值的数据单元，不可再分的最小数据单元2、数据分类的概念、方法，数据编码的概念、要素，代码类型数据分类的概念：–根据数据的属性或特征，将分类对象按一定的原则和方法进行区分和归类，并建立一定的分类体系和排序顺序的过程。

数据仓库系统的体系结构

体系结构数据源是数据仓库系统的基础,是整个系统的数据源泉;通常包括企业内部信息和外部信息;内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据;外部信息包括各类法律法规、市场信息和竞争对手的信息等等；数据的存储与管理是整个数据仓库系统的核心;数据仓库的真正关键是数据的存储和管理;数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式;要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析;针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织;数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库通常称为数据集市;OLAP联机分析处理服务器对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势;其具体实现可以分为：ROLAP关系型在线分析处理、MOLAP多维在线分析处理和HOLAP混合型线上分析处理;ROLAP基本数据和聚合数据均存放在RDBMS之中；MOLAP基本数据和聚合数据均存放于多维数据库中；HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中;数据仓库系统的体系结构数据仓库系统通常是对多个异构数据源的有效集成,集成后按照主题进行重组,包含历史数据;存放在数据仓库中的数据通常不再修改,用于做进一步的分析型数据处理;数据仓库系统的建立和开发是以企事业单位的现有业务系统和大量业务数据的积累为基础的;数据仓库不是一个静态的概念,只有把信息适时的交给需要这些信息的使用者,供他们做出改善业务经营的决策,信息才能发挥作用,信息才有意义;因此,把信息加以整理和重组,并及时提供给相应的管理决策人员是数据仓库的根本任务;数据仓库的开发是全生命周期的,通常是一个循环迭代的开发过程; 一个典型的数据仓库系统通常包含数据源、数据存储和管理、OLAP服务器以及前端工具与应用四个部分;1、数据源数据源是数据仓库系统的基础,即系统的数据来源,通常包含企业或事业单位的各种内部信息和外部信息;内部信息,例如存于操作型数据库中的各种业务数据和办公自动化系统中包含的各类文档数据；外部数据,例如各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及其它有关文档等;2、数据的存储与管理数据的存储与管理是整个数据仓库系统的核心;在现有各业务系统的基础上,对数据进行抽取、清理、并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库的元数据包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息;按照数据的覆盖范围和存储规模,数据仓库可以分为企业级数据仓库和部门级数据仓库;对数据仓库系统的管理也就是对其相应数据库系统的管理,通常包括数据的安全、归档、备份、维护和恢复等工作;3、 OLAP服务器OLAP服务器对需要分析的数据按照多维数据模型进行重组,以支持用户随时从多角度、多层次来分析数据,发现数据规律与趋势;如前所述,OLAP服务器通常有如下3种实现方式：1 ROLAP基本数据和聚合数据均存放在RDBMS之中2 MOLAP基本数据和聚合数据存放于多维数据集中3 HOLAP是ROLAP与MOLAP的综合,基本数据存放于RDBMS之中,聚合数据存放于多维数据集中;4、前端工具与应用前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用;其中,数据分析工具主要针对OLAP服务器；报表工具、数据挖掘工具既可以用于数据仓库,也可针对OLAP服务器;数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型：1、两层架构generic two-level architecture2、独立型数据集市independent data mart3、依赖型数据集市和操作型数据存储dependent data mart and operational data store4、逻辑型数据集市和实时数据仓库logical data mart and real-time data warehouse独立的数据仓库体系结构通常的数据仓库是两层体系结构,如图所示,构造这种体系结构需要以下4个基本步骤：1、数据是从各种内外部的源系统文件或数据库中抽取得到;在一个大的组织中,可能有几十个甚至几百个这样的文件和数据库系统2、不同源系统中的数据在加载到数据仓库之前需要被转换和集成;甚至可能需要发送一些事务信息到源系统中,以纠正在数据分段传输中发现的错误;3、建立为决策支持服务的数据库,即数据仓库,它通常会同时包括详细的和概括的数据4、用户通常SQL查询语言谨分析工具访问数据仓库,其结果又会反馈到数据仓库和操作型数据库中;数据仓库环境最重要的三个环节包括：抽取extract、转换transform、加载load,把数据从源数据库系统加载到数据仓库,即ETL过程;抽取和加载通常是定期的,即每天、每星期或每个月;因此,数据仓库常常没有或者说不需要当前的数据;数据仓库不支持操作型事务处理,虽然它含有事务型数据但更多的是事务的概括和变量状态的快照,如帐户余额和库存级别;对大多数数据仓库应用来说,用户寻找的不是对个别事务的反应,而是寻求包括在整个数据仓库中的一个特定的子集上的企业或其它组织状态的趋势和模式;例如,通常会有5个季度以上的财务数据保存在数据仓库中,以便识别趋势和模式;太陈旧的数据,如果确定对决策分析已没有意义,也可被清除或者存档;基于独立的数据集市的数据仓库的体系结构一些企业或事业组织由于其特殊的业务需求或历史原因,刚开始时并没有建立数据仓库,而是创建了许多分离的数据集市;其实,每一个数据集市都是基于数据仓库技术的,而不是基于事务处理的数据库技术;数据集市是范围受限的小型数据仓库,常适用于特定终端用户群决策应用;在这种情况下,每个独立数据集市的内容都来自于独立的ETL处理过程;数据集市被设计用来优化定义明确的和可预测的使用性能,通常包括单个或一组针对某特殊应用的查询功能,如市场数据集市、财务数据集市、供应链数据集市等; 相对于其它数据仓库体系结构,独立型数据集市策略的一个明显的特征是：当需要访问分离的数据集市的中的数据时,对终端用户来说具有相对的复杂性;这个复杂性不仅来自于从分离的数据集市数据库访问数据,而且可能来自于不一致的数据系统产生的数据集市;如果有一个元数据集合跨越所有的数据集市,且数据集市上的数据通过数据分段传输时保存一致即数据分段传输中拥有“一致维”,那么,对用户来说复杂性就减小了;另一方面是其ETL处理的复杂性,因为需要为每一个独立的数据集市创建一个抽取、转换、加载过程;因为一个企业或事业组织集中于一系列的短期的业务目的,独立的数据集市经常被建立;有限的短期目标同需要相对较低成本来实现更加独立的数据集市相兼容;然而,从数据仓库体系结构的角度来说,围绕一些不同的短期目标来设计整个数据仓库环境,意味着失去了应用长期目标及业务环境变化的能力和灵活性;而这种应对能力对决策支持来说是至关重要的;采用这种体系结构的优点是其方便性,可快速启动,这种数据仓库架构可通过一系列的小项目来实现;在一个大的企业或事业单位中,相对于使所有的下属组织在一个中心数据仓库中形成一致视图来说,在组织上,政策上更容易拥有独立的,小型数据仓库;另外,一些数据仓库技术在它们支持的数据仓库大小上有一定的局限性或称为可扩展性,但是,如果在理解数据仓库业务需求之前就把自己局限在特定的数据仓库技术上,则是由技术决定的数据仓库体系结构,而通常的情况是业务需求才是最关键的技术架构决定因素;独立型数据集市架构的局限性包括如下方面：1 为每一个数据集市开发一个独立的ETL过程,它可能产生高代价的冗余数据和重处理工作2 数据集市可能是不一致的,因为它们常常是用不同的技术来开发的;因此,不能提供一个清晰的企业数据视图,而这样的数据视图可能涉及到重要的主题,如客户、供应商和产品等;3 没有能力下钻到更小的细节或其它数据集市有关的事实或共享的数据信息库,因此分析是有局限性的;要想获得全面数据,则需要在不同数据集市的分离平台上做连接,但跨数据集市的数据关联任务要由数据集市的外部系统来执行;4 规模扩大的成本高,因为每一个新的应用创建了一个分离的数据集市,都要重复所有的抽取和加载步骤;通常情况下,对批数据抽取来说,操作型系统有有限的时间窗口如每天的0~5点;如果想让分离的数据集市一致,成本将会更高;基于依赖型数据集市和操作型数据存储的数据仓库体系结构解决独立数据集市架构局限性的方法之是是使用基于依赖型数据集市dependent data mart和操作型数据存储operational data store,ODS的数据仓库的的体系结构;通过企业级数据仓库Enterprise data warehouse,EWD中加载依赖型数据集市,在整个体系架构中只使用单一的ETL过程,确保了ETL的效率和数据集市数据的一致性;企业级数据仓库是一个集中的、集成的数据仓库,它拥有一致的数据版本,并可以对数据作统一控制,对终端用户的决策支持也是可用的;依赖型数据集市的主要目标就是提供一个简单、高性能的数据环境,用户群可以访问数据集市、当需要访问其它数据时,也可以访问企业数据仓库;另外,跨依赖型数据集市的冗余在控制之内,且冗余的数据是一致的;因为每一个数据集市都是从一个共同的源数据以一种同步的方式加载而来的;基于依赖型数据集市和操作型数据存储的数据仓库体系架构常常被称为“中心和辐射”架构,其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出的两端;这种体系结构也被称为合作信息工厂corporate information factory,CIF;在支持所有用户的数据需求中,它被认为是一个全面的企业级的数据视图;相对于一般的两层体系结构而言,依赖型数据集市的的优势是它们可以处理各个用户群的需求,甚至是探索性数据仓库的需求;探索性数据仓库是一种专门的数据仓库版本,它使用先进的统计学、数学模型和可视化工具来优化,通常用于数据挖掘和商业智能等业务模型应用的探索;独立型数据集市的主要优点是可以采用分段方法业开发数据仓库;事实上,分段方法也可以在基于依赖型数据集市和操作型数据存储的体系结构中实现;ODS为所有的业务数据提供了一个集成的数据源,同时也解决了独立数据集市架构不能下钻到更小细节的问题;ODS实际上是一个集成的、面向主题的、可更新的、当前值的但是可“挥发”的企业级的、详细的数据库,也叫运营数据存储; 一个ODS是一个典型的关系数据库,像在务系统中的数据库一样被规范化,但它是面向决策支持应用系统的,因此,如索引等其它关系数据库设计理念都是面向检索大量数据的,而不是面向事务处理或者查询个别记录的情况;因为ODS有易变的、当前的数据,在ODS下的相同查询在不同的时间很有可能会产生不同的结果,这也称为ODS可“挥发性”;一个ODS一般不包括历史数据,而EWD而保存了企业或事业组织状态的历史快照;一个ODS可能来自于一个ERP应用数据库,也可能来自其它业务数据库,因此,ODS通常是区别于ERP数据库的;ODS同样作为分段传输区域,为将数据加载到EWD提供服务;ODS可能立即接收数据或者有一定的延迟,无论哪一种情况它的决策支持需求都是可行的和可接受的;ODS存储的逻辑结构是企事业组织范围内所有相关业务系统的数据以全面、统一的关系型实体来体现的；ODS中的数据是基于分析主题进行组织,而不是基于业务系统的功能进行组织；ODS只是存储了当前的数据且数据是挥发性的,因此其数据的刷新很快,过期的数据将要被挥发掉;因此,ODS的存储量取决于业务接口数据的抽取和刷新频率,取决于企业的服务客户的数量;从ODS的作用和实现来说,ODS将各个孤立业务系统的运营数据集成起来,实现企业的统一数据视图,同时也实现了ODS的数据共享;ODS扮演的是用于数据稽核与交互的角色,它反映了在一个时间切片瞬间;数据仓库系统和外围业务系统相互交换数据的集合,可用于数据仓库及其分析系统与外围业务系统之间关键数据的一致性校验,以及分析系统对外围业务系统的决策支持数据的反馈如以客户扩展属性为主体的详细资料等反馈信息;ODS数据稽核功能是根据ODS参与工作的实际情况建立相应的ODS,并控制其权限;ODS数据稽核主要涵盖下面的内容：界定关键数据稽核的项别与内容、获取数据稽核所需数据、稽核据所需数据的完整性、数据稽核报告的存储和稽核数据的更正等过程;ODS数据交互的价值体现在数据仓库及其分析系统的高度综合数据向外围业务系统的回流;如果从安全上考虑,回流数据的格式可以采用文本的方式,用户只需要登录到分析系统,进入ODS数据交互应用,下载文本即可;ODS数据交互程序会自动在指定周期,把预定义的内容上传到指定路径;但如果从实现的方便、快捷、可维护性考虑,可以采用数据库方式,即外围业务系统与分析系统之间相互约定好数据格式,由外围系统连到分析系统ODS数据库,直接把ODS的高度综合数据导入到自己的数据库系统；也可以选择由ODS数据交互调度模块自动在指定周期,把预定义的内容通过事先建立的数据库连接,直接导入到外围数据库;基于逻辑型数据集市和实时数据仓库的体系结构逻辑型数据集市logical data mart和实时数据仓库体系结构实际上只用于一些特定环境的数据仓库系统,或使用一些高性能的数据仓库技术时,例如NCR Teradata系统;这种系统结构具有如下特征：1 逻辑数据集市并不是物理上分离的数据库,而是在同一个物理数据库里的,稍微有些不规范的关系数据仓库的不同关系视图2 数据被放到数据仓库而不是分离的分段传输区域中,利用数据仓库技术的高性能计算能力来执行清洗和转换步骤3 新的数据集市可以非常快的创建,因为不需要创建或获得获得物理数据库或数据库技术,且不需要书写加载驱动程序4 数据集市总是最新的,因为涉及到某个视图时,视图中的数据将被建立,如果用户有一系列的查询和分析来清理数据集市中相同的实例,视图可以被物化;实时的数据仓库也叫动态数据仓库active data warehouse,它意味着源数据系统,决策支持服务和数据仓库之间以一相接近实时的速度交换数据和业务规则;事实上,有许多的分析系统需要快速响应系统当前的、全面的组织状况的描述;例如,一些分析型CRM系统特别是呼叫中心的回答问题和日志记录问题,会需要客户最近的销售信息、欠账和付款事务信息、维护活动和订单的有关信息描述;一个重要事件,如输入一个新的产品订单,可以立即对客户和客户所在组织的最新状况有一个全面了了解;一个有关客户的实时数据仓库分析系统可能的需求目标包括：1 在一个业务事件发生什么中获取客户数据,减少从事件到行为的延迟2 分析客户行为为什么会发生并且预言客户的可能行为及其反应将发生什么3 制定规则来优化客户的交互,规则包括适当的反应和达到最好的结果的途径4 为了使期望的结果发生,在适当的时间点对客户立即采取行动,当确定了决策规则时,适当的行动时间点是基于对客户的最佳反应实时的数据仓库系统还包括如下一些应用领域：1 运输;及时的运输是基于最新的存货水平2 电子商务;例如在用户下线之前,一个取消的购物车能引起电子邮件信息的增加3 信用卡交易的欺骗检测;一个特殊的交易类型可能会使销售员或在线购物车程序警惕以采取额外的预防措施这样的应用常被在线用户一天24小时、一周7天、一年365天访问,用户可能是雇员、客户或商业伙伴;随着高性能计算机和实时数据仓库技术的出现,ODS和EWD在这种情况下事实上是一个系统,这样在解决一系列问题的过程中,对用户来说上钻和下钻都比较容易;逻辑或物理的数据集市和数据仓库在数据仓库技术环境中起着不同的作用,其主要区别如下表所示：对比内容数据仓库数据集市范围应用独立特定的DSS系统集中式的、企业级可能用户域的离散化规划的可能是临时组织的无规划数据历史的、详细的和概括的一些历史的、详细的和概括的轻微不规范化高席不规范化主题多个主题用户关心的某一个主题源多个内部和外部源很少的内部和外部源其它特征灵活的严格的面向数据面向工程长期短期大开始小,逐渐变大单一的复杂结构多、半复杂性结构、合并复杂虽然数据集市的范围有限,但数据集市可能也并不小,因此,可扩展技术对数据仓库系统是致关重要的;当用户需要在几个物理上分离的数据集市上集成数据时如果这是可能的,负载和代价就会分担给用户;因此,逻辑型数据集市和实时数据仓库的体系结构不失为建立数据仓库的一种较佳的有效方法,特别是在硬件性能不断提高,成本不断下降的条件下;。

数据库原理及应用教案

数据库原理及应用教案第一章：数据库概述1.1 数据库基本概念介绍数据库的定义、发展历程和分类解释数据、数据项、数据结构、数据模型等基本概念1.2 数据库系统结构介绍数据库系统的三级模式结构：模式、外模式和内模式解释映像和数据库管理系统（DBMS）的作用1.3 数据库设计与管理介绍数据库设计的原则和方法讲解数据库管理的基本任务和功能第二章：关系数据库理论2.1 关系模型介绍关系模型的基本概念：关系、属性、元组、域等解释关系运算：选择、投影、连接等2.2 关系数据库的规范化讲解函数依赖、码的概念介绍范式理论：第一范式、第二范式、第三范式等2.3 数据库设计方法讲解E-R模型向关系模型的转换方法介绍数据库设计的过程和步骤第三章：SQL语言及其应用3.1 SQL基本概念介绍SQL语言的组成部分：数据定义、数据操纵、数据查询、数据控制等解释SQL中的基本操作：创建表、插入数据、查询数据等3.2 数据库的增、删、改、查操作讲解SQL语言中数据的增加、删除、修改和查询的具体语法和操作步骤3.3 数据库的高级查询介绍SQL语言中的聚合函数、分组查询、排序等操作讲解子查询、连接查询等高级查询技术第四章：数据库安全与保护4.1 数据库安全性讲解数据库安全性的概念和意义介绍SQL语言中的权限管理和角色管理4.2 数据库完整性解释完整性约束的概念和作用讲解实体完整性、参照完整性、用户定义的完整性等约束的实现方法4.3 数据库备份与恢复介绍数据库备份的方法和策略讲解数据库恢复的概念、原理和实现方法第五章：数据库应用系统设计与实现5.1 数据库应用系统概述介绍数据库应用系统的概念、特点和架构讲解数据库应用系统的设计原则和方法5.2 数据库应用系统的设计与实现介绍数据库应用系统的设计过程：需求分析、概念设计、逻辑设计、物理设计等讲解数据库应用系统的实现步骤：数据库创建、应用程序开发、系统测试等5.3 数据库应用系统的案例分析分析实际数据库应用系统的案例，讲解其设计思路和实现方法第六章：事务管理6.1 事务基本概念介绍事务的定义、属性（ACID）解释事务的作用和事务日志的重要性6.2 事务控制讲解并发控制的概念和必要性介绍封锁机制、事务隔离级别和并发调度策略6.3 事务的持久化解释事务提交和回滚的过程讲解事务的持久化机制和事务崩溃后的恢复策略第七章：数据库性能优化7.1 查询优化概述介绍查询优化的目的和基本方法解释查询优化器的作用和工作原理7.2 查询优化技术讲解索引、统计信息在查询优化中的作用介绍查询优化中的各种算法和策略，如规则优化、启发式优化等7.3 数据库性能监控与调整讲解数据库性能监控的工具和方法介绍性能调整的策略和技巧，包括索引调整、缓存管理、参数调整等第八章：分布式数据库与数据仓库8.1 分布式数据库系统介绍分布式数据库的概念、体系结构解释分布式数据库中的数据分片、复制和站点协调机制8.2 数据仓库与OLAP讲解数据仓库的概念、结构和组件介绍在线分析处理（OLAP）工具和多维数据模型8.3 数据挖掘与知识发现解释数据挖掘的概念、任务和过程介绍数据挖掘中常用的算法和技术，如分类、聚类、关联规则等第九章：数据库新技术与发展9.1 云计算与数据库介绍云计算的概念和数据库在云计算中的应用讲解云数据库服务模型和数据库即服务（DBaaS）9.2 物联网与数据库解释物联网的基本架构和数据库在物联网中的作用介绍物联网数据库的设计考虑和应用案例9.3 大数据技术与数据库讲解大数据的概念、特征和处理技术介绍大数据数据库解决方案和分布式文件系统如Hadoop的运用第十章：数据库项目实践10.1 项目需求分析讲解需求分析的方法和步骤解释如何从用户角度出发，明确项目需求和预期目标10.2 数据库设计介绍数据库设计的原则和方法讲解如何根据需求分析结果设计数据库模式和表结构10.3 数据库实施与测试解释数据库实施的过程和注意事项讲解数据库测试的目的和方法，以及如何评估测试效果10.4 项目维护与升级介绍数据库项目维护的内容和策略讲解数据库升级的原因和方法，以及如何处理升级过程中的问题重点和难点解析重点一：数据库基本概念和数据库系统结构数据库基本概念的掌握是理解数据库其他知识的基础。

数据仓库的概念

一、数据仓库的概念及使用情况介绍1996年, Inmon 在他的专著《Building the Data Warehouse》中, 对数据仓库做了如下定义,即“面向主题的、完整的、非易失的、不同时间的、用于支持决策的数据集合”。

这和传统的OLTP系统有很大的区别,它属在线分析(OLAP)系统的范畴。

面向主题的,指的是它将依据一定的主题,比如经销商、产品、定单等汇总各个OLTP系统的数据。

完整的, 指的是要求对各个系统数据表示进行转换,用统一编码表示,比如,A系统用001表示退货, 而B系统用999表示退货,在数据仓库中必须统一成一个编码。

非易失的, 指的是系统用户只读数据,不得修改数据。

数据仓库完整地记录了各个历史时期的数据,而OLTP系统不会保留全部的历史记录。

OLTP系统也难以支持决策查询,例如从几千万笔记录中获取不同区域的汇总报表。

完整的数据仓库应包括：1.数据源->2.ETL ->3.数据仓库存储->4.OLAP ->5.BI工具现实中可以实现的方案有：1.数据源-> BI工具2.数据源-> OLAP -> BI工具3.数据源-> 数据仓库存储-> BI工具4.数据源-> 数据仓库存储-> OLAP -> BI工具5.数据源-> ETL -> 数据仓库存储-> OLAP -> BI工具可见其中必需的是数据源和前端，其他的部分都可根据具体情况决定取舍。

建立数据仓库的步骤：1) 收集和分析业务需求2) 建立数据模型和数据仓库的物理设计3) 定义数据源4) 选择数据仓库技术和平台5) 从操作型数据库中抽取、净化、和转换数据到数据仓库6) 选择访问和报表工具7) 选择数据库连接软件8) 选择数据分析和数据展示软件9) 更新数据仓库数据仓库设计的主要步骤如下:1. 系统主题的确定这要求系统设计人员多与业务人员沟通, 详细了解业务需求、报表需求,再归纳成数据仓库的主题。

数据仓库与数据挖掘课后答案 (陈志泊著) 清华大学出版社

第1章数据仓库的概念与体系结构1.数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2.元数据是描述数据仓库内数据的结构和建立方法的数据，它为访问数据仓库提供了一个信息目录，根据元数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3.数据处理通常分成两大类：联机事务处理OLTP和联机分析处理OLAP。

4.多维分析是指对以“维”形式组织起来的数据（多维数据集）采取切片（Slice）、切块（dice）、钻取（Drill-down 和Roll-up 等）和旋转（pivot）等各种分析动作，以求剖析数据，使用户能从不同角度、不同侧面观察数据仓库中的数据，从而深入理解多维数据集中的信息。

5. ROLAP是基于关系数据库的OLAP实现，而MOLAP是基于多维数据结构组织的OLAP实现。

6.数据仓库按照其开发过程，其关键环节包括数据抽取、数据存储与管理和数据表现等。

7.数据仓库系统的体系结构根据应用需求的不同，可以分为以下4种类型：两层架构、独立型数据集市、依赖型数据集市和操作型数据存储、逻辑型数据集市和实时数据仓库。

8.操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的（但是可“挥发”的）、企业级的、详细的数据库，也叫运营数据存储。

9.“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。

10.从应用的角度看，数据仓库的发展演变可以归纳为5个阶段：以报表为主、以分析为主、以预测模型为主、以营运导向为主、以实时数据仓库和自动决策为主。

11.什么是数据仓库？数据仓库的特点主要有哪些？答：数据仓库就是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，通常用于辅助决策支持。

数据仓库的特点包含以下几个方面：（1）面向主题。

什么是数据仓库

目录什么是数据仓库 (1)数据库和数据仓库的不同 (3)数据仓库及其体系结构建设 (4)什么是数据仓库当你听到数据仓库（data warehousing）这个词的时候会想到什么呢？也许是一个满是货架的房间，而货架上按一定次序放满了各种信息等待用户提取。

如果你是这么想的，那么恭喜你已经向数据仓库迈进了一步。

在传统的仓库中，货物通过一定的规则来摆放，以便于管理者快速检索和确认货品种类，并最终以最快速度提交给提货人员。

而数据仓库的模式与之类似。

现在，你也许又会问：那到底数据仓库和传统仓库相比有什么不同呢？答案是它们非常类似，但在定义上有所不同。

在一个典型的企业中，由于部门的分别，不同的数据总是存储在不同的数据库中。

比如市场部、销售部、财务部或者是技术部，每个部门都有自己单独的一套数据库，他们之间在物理上是完全分离的，可是在逻辑上也许有着这样那样的关联。

如果有一个业务问题需要利用其中多个数据库中的数据才能作出结论，那么这个工作就变得很麻烦了。

它需要有人熟悉每个部门的数据库结构，并在数据库管理员的协助下进行相关数据的采集和分析。

一般来说，公司的普通员工是无法完成这个工作的。

定义数据仓库可以将上面所提的各种数据整合在一个中央存储库中，为了便于分析，它还会重新整理和排列数据，这意味着新的数据库比传统的分散应用数据库更复杂。

一般来说，控制程序会在非忙碌时间将数据批量转换到中央存储库，不过这个工作也可以实时进行。

当数据被导入数据仓库后，借助一些数据库连接和操作工具，比如联机分析处理（OLAP）工具，管理者或者其他用户就可以轻松的操作数据库并得到所需的商务数据。

让我们再想象一下，在传统的仓库中，铲车在货架间穿梭，不断的将一箱箱货物放到相应的货架上。

在这个过程中，铲车驾驶员清楚的知道货品该放在什么地方，并且可以选择最快的途径将铲车驶到相应位置。

而在数据仓库中，OLAP工具扮演的就是铲车和驾驶员的双重角色，它可以让用户通过简单的操作在数据库中对所需数据进行快速检索。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据挖掘选择与转换清洗与集成评估与表示
数据仓库
特定数据集
知识
模式
数据库
2015-5-11
知识发现过程示意
数据仓库与数据挖掘 27
补充：2.知识发现&数据挖掘是什么

数据挖掘（Data Mining）：就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程，简单的说，数据挖掘就是从大量数据中提取或“挖掘” 知识。可以看出数据挖掘仅是知识发现的一个主要步骤。
2015-5-11
数据仓库与数据挖掘
28
补充：2.知识发现&数据挖掘是什么
图形用户界面
典型的数据挖掘系统结构
模式评估
数据挖掘引擎
数据库或数据仓库服务器
数据清理数据集成过滤
知识库
数据库
2015-5-11
数据仓库与数据挖掘
数据仓库
29
Data Mining in Business Intelligence
Algorithm
Database Technology
数据仓库与数据挖掘
High-Performance Computing
2015-5-11
31
1.2 数据挖掘的概念与方法

数据挖掘的概念

数据挖掘 (Data Mining) ，就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程，简单的说，数据挖掘就是从大量数据中提取或“挖掘” 知识，又被称为数据库中的知识发现 (Knowledge Discovery in Database, KDD)。

2015-5-11
数据仓库与数据挖掘
3
实验作业上交地址
ftp://172.19.11.4 用户名：stq 密码：无
2015-5-11
数据仓库与数据挖掘
4
数据仓库与数据挖掘
第1章数据仓库的概念与体系结构
2015-5-11
5
如何处理历史数据？
删除已经失效的历史数据。先对历史数据作介质备份，然后删除，以防万一需要查看。建立一个数据仓库系统，通过建立分析模型，从中挖掘出符合规律的知识并用于未来的预测与决策中。
Increasing potential to support business decisions
Decision Making Data Presentation Visualization Techniques Data Mining Information Discovery
End User
数据仓库与数据挖掘
34
1.2 数据挖掘的概念与方法

数据仓库与数据挖掘的关系

若将数据仓库（ Data Warehouse ）比作矿井，那么数据挖掘（Data Mining）就是深入矿井采矿的工作数据挖掘是从数据仓库中找出有用信息的一种过程与技术
2015-5-11
数据仓库与数据挖掘
35
补充：数据挖掘与传统分析方法的区别
2015-5-11
数据仓库与数据挖掘
22
补充：1.知识发现&数据挖掘的引入
客观世界收集
数据
分析
信息
深入分析
决策与行动
知识
2015-5-11
数据仓库与数据挖掘
23
补充：1.知识发现&数据挖掘的引入

当今世界正处于一个“信息爆炸”的时代。据估计全世界的信息总量每18个月翻一番，随着近年来Internet的迅速发展，大量的数据好像一下子涌到我们的面前，可以说我们不是缺少信息，而是被信息淹没了，不知道如何才能从中迅速找到我们真正需要的知识。面对信息社会中数据的爆炸式增长，人类分析数据和从中提取有用信息的能力，远远不能满足实际需要。虽然数据库管理系统可以高效、实现数据录入、检索和维护等管理功能，但不能发现数据中关联和规则，也不能根据现有的数据预测未来的发展趋势。因此目前人类陷入了一个尴尬的境地，即 “丰富的数据”（data rich）和“贫乏的知识” （knowledge poor）并存。所以迫切需要一种能够智能地自动地把数据转换成知识的技术和工具。这样就导致了知识发现、数据挖掘理论的提出。

数据仓库的组成：

数据仓库数据库；数据抽取工具；元数据：技术元数据与业务元数据；访问工具；数据集市（Data Marts）；数据仓库管理；信息发布系统。
数据仓库与数据挖掘 18
2015-5-11
数据仓库与数据库的区别
数据仓库的出现，并不是要取代数据库。目前，大部分数据仓库还是用关系数据库管理系统来管理的。可以说，数据库、数据仓库相辅相成、各有千秋。
数据仓库与数据挖掘 8
2015-5-11
数据仓库是面向主题的(SubjectOriented)

数据仓库的数据是以分析主题为中心来组织的。主题是一个抽象的概念，是企业决策分析所涉及的分析对象。按照面向主题的方式进行数据组织时，首先确定主题，然后根据主题，确定相应的数据内容。例如，若企业决策人员预分析客户的财务信息，则需要把关于客户的各种财务信息综合在“Customer Financial ”这一主题中。
数据仓库与数据挖掘 11
2015-5-11
2015-5-11
数据仓库与数据挖掘
12
数据仓库是反映历史变化的(TimeVariant)

数据仓库中的数据是历史数据，应该随时间的延长不断增加新的数据内容。（周期性更新）数据仓库中的数据是综合数据，这些综合数据一般都与时间有关，如按照时间段进行综合的数据。这些综合数据要随着时间的延长而不断地变化。
数据仓库与数据挖掘 24
2015-5-11
我们数据丰富，但知识贫乏
2015-5-11 数据仓库与数据挖掘 25
数据挖掘：在数据中搜索知识（有趣的模式）
2015-5-11
数据仓库与数据挖掘
26
补充：2.知识发现&数据挖掘是什么

知识发现（Knowledge Discovery from Database）是从数据集中抽取和精化新的模式。它是一门交叉性学科，涉及机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等领域。
数据仓库与数据挖掘 9
2015-5-11
2015-5-11
数据仓库与数据挖掘
10
数据仓库是集成的（Integrated）

数据仓库的数据来自于多个不同的数据源。多个数据源经常是异种或异构的，存在数据重复和语义不一致问题不是对这些数据源中某些数据的复制，而是对这些数据源中数据的进一步抽象。它需要按照统一的结构、一致的格式、一致的度量单位、一致的语义，从不同的数据源提取数据并进行清洗、转换、综合、抽象，最后集成为面向主题的数据集合，确保数据的综合性、宏观性和一致性。
数据仓库与数据挖掘 14
2015-5-11
2015-5-11
数据仓库与数据挖掘
15
Hale Waihona Puke 2015-5-11数据仓库与数据挖掘
16
1.1 数据仓库的概念、特点与组成

数据仓库的特点：

面向主题；集成的；相对稳定的；反映历史变化。
2015-5-11
数据仓库与数据挖掘
17
1.1 数据仓库的概念、特点与组成
2015-5-11
数据仓库与数据挖掘
33
1.2 数据挖掘的概念与方法
2.
间接数据挖掘
没有选出某一具体的变量并用模型进行描述，而是在所有的变量中建立某种关系，如相关性分组（affinity grouping）关联规则（association）和聚类（clustering）等分析方法。
2015-5-11
2015-5-11 数据仓库与数据挖掘 DBA
30
Data Mining: Confluence of Multiple Disciplines
Machine Learning Pattern Recognition
Statistics
Applications
Data Mining
Visualization
数据仓库与数据挖掘 19

2015-5-11
数据库技术的进化
2015-5-11 数据仓库与数据挖掘 20
补充：1.知识发现&数据挖掘的引入

数据到知识：数据是原材料，它只描述发生了什么事情，并不能构成决策或行动的可靠基础。通过对数据进行分析找出其中关系，赋予数据以某种意义和联系，这就形成了所谓的信息。信息虽然给出了数据中一些有一定意义的东西，但是它往往和人们所要完成的任务没有直接的联系，也还不能作为判断、决策和行动的依据。对信息进行再加工，即进行更深入的归纳分析，才能获得更有用的信息，即知识。
2015-5-11
数据仓库与数据挖掘
21
补充：1.知识发现&数据挖掘的引入

何为知识?从广义上理解，数据、信息也是知识的表现形式，但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉，好像从矿石中采矿或淘金一样。数据挖掘是一门交叉学科，它把人们对数据的应用从低层次的简单查询，提升到从数据中挖掘知识，提供决策支持。在这种需求牵引下，汇聚了不同领域的研究者，尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员，投身到数据挖掘这一新兴的研究领域，形成新的技术热点。
数据仓库与数据挖掘

第1章数据仓库的概念与体系结构

合集下载

数据仓库概述(概念、应用、体系结构)

数据仓库的概念和体系结构概述

产业数据仓第1部分总体框架和技术要求

数据仓库概述PPT(共 57张)

医学信息学

数据仓库系统的体系结构

数据库原理及应用教案

数据仓库的概念

数据仓库与数据挖掘课后答案 (陈志泊著) 清华大学出版社

什么是数据仓库

文档推荐

最新文档

第1章数据仓库的概念与体系结构

合集下载

数据仓库概述(概念、应用、体系结构)

数据仓库的概念和体系结构概述

产业数据仓 第1部分 总体框架和技术要求

数据仓库概述PPT(共 57张)

医学信息学

数据仓库系统的体系结构

数据库原理及应用教案

数据仓库的概念

数据仓库与数据挖掘 课后答案 (陈志泊 著) 清华大学出版社

什么是数据仓库

文档推荐

最新文档

产业数据仓第1部分总体框架和技术要求

数据仓库与数据挖掘课后答案 (陈志泊著) 清华大学出版社