第4章数据仓库的设计

格式：ppt
大小：1.06 MB
文档页数：66

下载文档原格式

数据仓库建设管理制度范本

第一章总则第一条为规范数据仓库的建设与管理，确保数据仓库的稳定运行和数据质量，提高数据利用率，根据《中华人民共和国数据安全法》、《中华人民共和国网络安全法》等相关法律法规，结合本单位的实际情况，制定本制度。

第二条本制度适用于本单位数据仓库的建设、运维、管理和使用。

第三条数据仓库的建设和管理应遵循以下原则：（一）统一规划，分步实施；（二）安全可靠，保障数据安全；（三）高效运行，提高数据利用率；（四）持续优化，提升服务质量。

第二章数据仓库建设第四条数据仓库建设应遵循以下流程：（一）需求分析：明确数据仓库建设的目标、功能、性能等要求；（二）方案设计：制定数据仓库建设方案，包括数据源、数据模型、技术架构等；（三）系统开发：根据设计方案进行系统开发，包括数据采集、数据存储、数据清洗、数据转换等；（四）系统测试：对数据仓库系统进行测试，确保系统稳定运行；（五）系统部署：将数据仓库系统部署到生产环境，进行试运行；（六）系统验收：根据验收标准对数据仓库系统进行验收。

第五条数据仓库建设应遵循以下要求：（一）数据源：选择具有权威性、准确性和可靠性的数据源；（二）数据模型：根据业务需求设计合理的数据模型，确保数据的一致性和完整性；（三）技术架构：采用成熟、稳定的技术架构，提高系统性能和可扩展性；（四）数据质量：对数据进行清洗、转换、融合等处理，确保数据质量。

第三章数据仓库运维管理第六条数据仓库运维管理应遵循以下要求：（一）系统监控：实时监控数据仓库系统的运行状态，确保系统稳定运行；（二）数据备份：定期进行数据备份，防止数据丢失；（三）故障处理：对系统故障进行及时处理，确保系统正常运行；（四）性能优化：根据业务需求，对系统进行性能优化，提高数据访问速度。

第七条数据仓库运维管理应设立以下岗位：（一）数据仓库管理员：负责数据仓库系统的日常运维管理；（二）数据分析师：负责数据仓库系统的数据分析和挖掘；（三）数据安全员：负责数据仓库系统的数据安全管理工作。

数据仓库的设计和实现

数据仓库的设计和实现一、数据仓库的定义数据仓库(Data Warehouse)是指从不同数据源种搜集的信息，经过多维分析后形成的一个集中式且具备分析能力的数据存储库。

二、数据仓库设计的基本原则1. 集成性：数据仓库应该整合多个数据源的数据，具有全局性视角。

2. 时效性：数据应该是最新的，而非历史的，数据之间应该有时间关系。

3. 一致性：数据应该是唯一的、标准化的，并应该尽可能的与同一机构的不同业务应用和不同数据源适配。

4. 可访问性：数据应该是用户友好的，对多种数据操作的查询方式都要满足。

5. 稳定性：为避免影响公司核心业务，数据仓库必须保障数据的一致性，同时也保障数据的灵活性，以适应业务发展的方向。

三、数据仓库的设计流程数据仓库的设计流程可以大致分为以下几个步骤：1. 确定数据仓库的业务目标，指出数据仓库用于集成的数据源和数据仓库必须包含的内容。

2. 设计维度模型，理解主题业务流程，建立数据源和数据仓库之间的映射。

3. 设计度量模型，设定可计算的指标和各类跟踪指标。

这些指标是基于业务主题的分析，包括财务、物流和顾客等。

4. 设计 ETL 流程，其包括抽取阶段、转换阶段和装载阶段。

5. 设计物理架构，建立数据仓库到数据仓库工作台（作为交互的接口）的架构。

四、数据仓库的实现1. ETL 流程的实现，包括实现数据抽取、数据清洗、数据变换和数据装载为一体的各工作点，以完成 ETL 的流程。

2. 数据模型的实现，包括维度模型的物理模型和星型模型的物理模型。

物理模型也会设计纵向分区的间隔，同时也会考虑使用分区以便支撑大表的运行。

3. 明星和雪花分型的实现，考虑到性大数据、性能提升和系统的可维护性，将设计数据仓库的分层体系结构。

4. 单点登录、按权限进行数据授权，数据科技化越来越深，数据授权也会随之上升，因此数据仓库的权限设计也变得越来越重要。

5. 多维查询分析，利用数据挖掘、多维分析等技术把数据信息分析出来，是数据仓库的理解和利用它的关键。

数据仓库模型的设计

数据仓库模型的设计数据仓库模型的设计大体上可以分为以下三个层面的设计151:.概念模型设计;.逻辑模型设计;.物理模型设计;下面就从这三个层面分别介绍数据仓库模型的设计。

2.5.1概念模型设计进行概念模型设计所要完成的工作是:<1>界定系统边界<2>确定主要的主题域及其内容概念模型设计的成果是，在原有的数据库的基础上建立了一个较为稳固的概念模型。

因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合，所以数据仓库的概念模型设计，首先要对原有数据库系统加以分析理解，看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等，然后再来考虑应当如何建立数据仓库系统的概念模型。

一方面，通过原有的数据库的设计文档以及在数据字典中的数据库关系模式，可以对企业现有的数据库中的内容有一个完整而清晰的认识;另一方面，数据仓库的概念模型是面向企业全局建立的，它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。

概念模型的设计是在较高的抽象层次上的设计，因此建立概念模型时不用考虑具体技术条件的限制。

1.界定系统的边界数据仓库是面向决策分析的数据库，我们无法在数据仓库设计的最初就得到详细而明确的需求，但是一些基本的方向性的需求还是摆在了设计人员的面前:. 要做的决策类型有哪些?. 决策者感兴趣的是什么问题?. 这些问题需要什么样的信息?. 要得到这些信息需要包含原有数据库系统的哪些部分的数据?这样，我们可以划定一个当前的大致的系统边界，集中精力进行最需要的部分的开发。

因而，从某种意义上讲，界定系统边界的工作也可以看作是数据仓库系统设计的需求分析，因为它将决策者的数据分析的需求用系统边界的定义形式反映出来。

2，确定主要的主题域在这一步中，要确定系统所包含的主题域，然后对每个主题域的内容进行较明确数据仓库建模技术在电信行业中的应用的描述，描述的内容包括:. 主题域的公共码键;. 主题域之间的联系:. 充分代表主题的属性组。

数据仓库设计方案

数据仓库设计方案【正文】一、引言数据驱动的决策已经成为企业中不可或缺的一部分。

为了有效地管理和分析海量的数据，数据仓库设计方案应运而生。

本文将介绍数据仓库的概念、设计原则和关键步骤，帮助企业构建高效可靠的数据仓库。

二、数据仓库概述数据仓库是指将各类数据整合、清洗、转化并存储于统一的数据存储区域，旨在为决策支持系统提供准确可靠的数据服务。

其设计方案需要考虑多个方面，包括数据源、数据的抽取与转换、数据建模和数据的加载等。

三、数据仓库设计原则1. 一致性：数据仓库应该保持与源系统的数据一致性，确保决策所依据的数据准确无误。

2. 高性能：数据仓库需要具备高性能的查询和分析能力，以满足用户对数据的实时性和响应性要求。

3. 安全性：严格管理数据仓库的访问权限，确保敏感数据的安全性和隐私保护。

4. 可扩展性：数据仓库需要具备良好的扩展能力，能够适应数据量的增长和业务需求的变化。

5. 可维护性：数据仓库的设计应该具备良好的可维护性，便于数据的更新、维护和监控。

四、数据仓库设计步骤1. 需求分析：明确数据仓库的功能和目标，分析业务需求和数据源的特点，为后续的设计提供指导。

2. 数据抽取与转换：根据需求分析的结果，选择合适的数据抽取方式，并进行数据的清洗、转换和集成。

3. 数据建模：根据业务需求和数据源的特点，设计数据仓库的物理和逻辑模型，并建立相应的维度表和事实表。

4. 数据加载：将清洗和转换后的数据加载到数据仓库中，并进行合理的存储和索引，以便进行后续的查询和分析。

5. 数据质量控制：定期监控数据仓库的数据质量，并进行必要的修复和优化，确保数据准确无误。

6. 安全管理：建立合适的权限控制机制，确保数据仓库的安全性和合规性。

五、数据仓库设计工具和技术1. ETL工具：ETL（Extract-Transform-Load）工具可以帮助实现数据的抽取、转换和加载，实现数据仓库的数据集成和清洗。

2. 数据建模工具：数据建模工具可以辅助设计数据仓库的物理和逻辑模型，提供建模、维护和文档化的功能。

数据仓库概要设计

数据仓库概要设计数据仓库（Data Warehouse）是指把企业分散在不同数据库中的数据统一整合到一个数据库中进行存储和管理，并对这些数据进行分析和管理的一种数据库应用系统。

数据仓库的建设是企业信息化建设的重要组成部分，是企业对内部外部信息资源进行整合、挖掘和利用最有效的平台之一。

因此，进行数据仓库的概要设计是非常重要的一步。

1.数据仓库概述数据仓库，是一个能够存储大量历史数据的集合体，使得企业能够快速地进行数据分析、查询和决策。

数据仓库通常包括存储、管理和查询技术。

数据仓库的设计是基于自底向上的过程，通过收集各种应用中的数据来建立。

数据仓库的需求分析是设计的第一个步骤，通过需求分析可以把握到数据的来源、数据的主要特征、数据的处理方法、数据的处理效果等。

2.数据仓库的工作过程a.数据的收集数据收集的目的是获取各个分散在企业内部外部的数据源，并把这些数据源整合成数据集。

数据收集包括了跟踪源数据、数据的标准化、数据的清洗、数据的转换等。

b.数据的整合数据整合意味着将不同的数据源集成到一起，通常是通过ETL工具来实现。

ETL（Extract, Transform, Load）工具的主要功能是提取、转换和加载。

c.数据的存储数据仓库的存储方式一般有两种：关系型数据库和非关系型数据库。

d.数据的查询与分析数据仓库的用户可以通过BI工具（Business Intelligence）来进行数据的查询、分析和报表生成。

3.数据仓库的概要设计步骤a.数据仓库设计的第一步是需求分析，需求分析的目的是明确数据仓库的目标、范围和需求。

需求分析应该包括数据仓库的使用者、数据仓库所需数据的类型、数据的来源、数据的质量要求等。

b.数据仓库的概念设计是在需求分析的基础上，开始进行数据仓库的抽象模型的设计。

概念设计包括了数据仓库的模型设计、元数据的设计等。

c.数据仓库的逻辑设计是在概念设计的基础上，开始进行数据仓库的逻辑结构的设计。

数据仓库的设计和构建

数据仓库的设计和构建数据仓库（Data Warehouse）是指将组织机构内部各种分散的、异构的数据整合起来，形成一个共享的、一致的、易于查询和分析的数据环境。

数据仓库的设计和构建是数据管理和分析的重要环节。

本文将结合实践经验，介绍数据仓库的设计与构建过程。

一、需求分析数据仓库的设计与构建首先需要进行需求分析。

在需求分析阶段，我们需要明确以下几个问题：1. 数据来源：确定数据仓库所需要的数据来源，包括内部系统和外部数据源。

2. 数据维度：确定数据仓库中需要关注的维度，如时间、地理位置、产品等。

3. 数据粒度：确定数据仓库中的数据粒度，即需要对数据进行何种程度的聚合。

4. 数据可用性：确定数据仓库中数据的更新频率和可用性要求。

5. 分析需求：明确数据仓库所需满足的分析需求，如报表查询、数据挖掘等。

二、数据模型设计在数据仓库设计过程中，数据模型的设计尤为重要。

常用的数据模型包括维度建模和星型模型。

维度建模是基于事实表和维度表构建的，通过定义事实和维度之间的关系，建立多维数据结构。

星型模型则将事实表和各个维度表之间的关系表示为星型结构，有助于提高查询效率。

根据具体需求和数据特点，选择合适的数据模型进行设计。

三、数据抽取与转换数据仓库的构建过程中，需要从各个数据源中抽取数据，并进行清洗和转换。

数据抽取常用的方法包括全量抽取和增量抽取。

全量抽取是指将数据源中的全部数据抽取到数据仓库中，适用于数据量较小或变动频率较低的情况。

增量抽取则是在全量抽取的基础上，只抽取发生变动的数据，提高了数据抽取的效率。

数据在抽取到数据仓库之前还需要进行清洗和转换。

清洗的目标是去除数据中的错误、冗余和不一致之处，保证数据的准确性和完整性。

转换的目标是将数据格式进行统一，并进行必要的计算和整合，以满足数据仓库的需求。

四、数据加载与存储数据加载是指将抽取、清洗和转换后的数据加载到数据仓库中的过程。

数据加载的方式可以分为批量加载和实时加载。

数据仓库与数据挖掘教程(第2版)陈文伟版课后答案

第一章数据仓库与数据挖掘概述1.数据库与数据仓库的本质差别是什么？答：数据库用于事务处理，数据仓库用于决策分析;数据库保持事务处理的当前状态，数据仓库既保存过去的数据又保存当前的数据;数据仓库的数据是大量数据库的集成;对数据库的操作比较明确，操作数据量少,对数据仓库操作不明确，操作数据量大。

数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理；数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向分析且支持决策。

6.说明OLTP与OLAP的主要区别。

答：OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时间要求高且面向应用，事务驱动； OLAP针对的是综合性数据、历史数据、不更新，但周期性刷新、一次处理的数据量大、响应时间合理且面向分析，分析驱动。

8.元数据的定义是什么？答：元数据（metadata）定义为关于数据的数据（data about data），即元数据描述了数据仓库的数据和环境。

9.元数据与数据字典的关系什么？答：在数据仓库中引入了“元数据”的概念，它不仅仅是数据仓库的字典，而且还是数据仓库本身信息的数据。

18.说明统计学与数据挖掘的不同。

答：统计学主要是对数量数据（数值）或连续值数据（如年龄、工资等），进行数值计算（如初等运算）的定量分析，得到数量信息。

数据挖掘主要对离散数据（如职称、病症等）进行定性分析（覆盖、归纳等），得到规则知识。

19.说明数据仓库与数据挖掘的区别与联系。

答：数据仓库是一种存储技术，它能适应于不同用户对不同决策需要提供所需的数据和信；数据挖掘研究各种方法和技术，从大量的数据中挖掘出有用的信息和知识。

数据仓库与数据挖掘都是决策支持新技术。

但它们有着完全不同的辅助决策方式。

在数据仓库系统的前端的分析工具中，数据挖掘是其中重要工具之一。

它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。

数据仓库和数据挖掘的结合对支持决策会起更大的作用。

数据仓库设计步骤

数据仓库设计步骤数据仓库是一个用于集中存储、管理和分析大量数据的系统。

它的设计过程是一个复杂的任务，需要经历多个步骤。

下面是数据仓库设计的主要步骤：1.需求分析：首先，需要与业务用户和利益相关者合作，了解业务需求和目标。

这包括理解他们的数据分析需求、业务流程和决策支持要求。

这一步骤有助于确定数据仓库应该包含哪些数据和所需的数据分析功能。

2.数据源分析：在这一步骤中，需要识别和分析所有可用的数据源，包括内部和外部系统。

需要评估这些数据源的数据质量、结构和可用性，以确定应该选择哪些数据源。

3.数据抽取、转换和加载（ETL）：在这个步骤中，需要确定如何从不同的数据源中提取数据，并将其转换为适合数据仓库的格式。

这包括数据清洗、数据集成和数据转换等过程。

ETL过程还应该能够处理数据的增量更新和历史数据的保留。

4.数据模型设计：在这一步骤中，需要设计数据仓库的逻辑模型和物理模型。

逻辑模型通常使用维度建模技术，包括维度表和事实表来描述数据。

物理模型则定义了如何将逻辑模型映射到实际的存储结构，包括数据库表和索引设计等。

5.数据仓库架构设计：在这一步骤中，需要确定数据仓库的整体架构。

这包括确定数据仓库的结构、数据存储和访问机制。

需要考虑到数据仓库的可伸缩性、性能和可用性等方面。

6.数据仓库实施：在这个步骤中，需要根据设计的数据模型和架构来实施数据仓库。

这包括创建数据库表、索引、视图等。

还需要实施ETL过程和相关的数据访问工具。

7.数据质量管理：数据质量是数据仓库设计中一个重要的方面。

在这一步骤中，需要定义数据质量规则和度量，并实施数据质量管理的过程。

这包括数据清洗、数据验证和数据监控等活动。

8.元数据管理：在数据仓库中，元数据是描述数据的数据。

在这一步骤中，需要定义和管理元数据，以便用户能够理解数据的含义和含义。

这包括建立元数据仓库、元数据标准和元数据管理工具等。

9.安全和访问控制：在这一步骤中，需要制定数据仓库的安全策略和访问控制机制。

第4章数据仓库设计与开发[1]

（5）设计事实表和维表。设计事实表和维表的具体属性。在事实表中应该记录哪些属性是由维表的数量决定的。一般来说，与事实表相关的维表的数量应该适中，太少的维表会影响查询的质量，用户得不到需要的数据，太多的维表又会影响查询的速度。
PPT文档演模板
第4章数据仓库设计与开发[1]
概念模型到逻辑模型的转换
第4章数据仓库设计与开发
PPT文档演模板
2020/11/26
第4章数据仓库设计与开发[1]
第四章数据仓库设计与开发
o 本章内容
n 4.1 数据仓库开发应用过程 n 4.2 数据仓库的规划 n 4.3 数据仓库的分析与设计 n 4.4 数据仓库的实施 n 4.5 数据仓库技术与开发的困难
PPT文档演模板
o 星型模型的设计步骤如下：
（6）按使用的DBMS和分析用户工具，证实设计方案的有效性。根据系统使用的DBMS，确定事实表和维表的具体实现。由于不同的DBMS对数据存储有不同的要求，因此设计方案是否有效还要放在DBMS中进行检验
（7）随着需求变化修改设计方案。随着应用需求的变化，整个数据仓库的数据模式也可能会发生变化。因此在设计之初，充分考虑数据模型的可修改性可以节省系统维护的代价。
PPT文档演模板
第4章数据仓库设计与开发[1]
4.3.1 需求分析
o 确定主题域 o 支持决策的数据来源 o 数据仓库的成功标准和关键性能指标 o 数据量与更新频率
PPT文档演模板
第4章数据仓库设计与开发[1]
确定主题域
（1）明确对于决策分析最有价值的主题领域有哪些？
（2）每个主题域的商业维度是哪些？每个维度的粒度层次有哪些？
o 整个企业看，建立数据仓库的目的之一是获得对整个企业业务信息的视图。以便能把握和管理企业的经营运行，并对企业进行业务重组。

数据仓库设计与建模的数据仓库与OLTP系统的设计方法(四)

数据仓库设计与建模的数据仓库与OLTP系统的设计方法引言数据仓库（Data Warehouse）是指将来源于多个操作性系统（OLTP，Online Transaction Processing）的数据集中存储、整合、加工和分析，以支持企业决策的一种信息系统。

数据仓库和OLTP系统在设计方法上存在一些不同，本文将探讨这两种系统的设计方法及其差异。

一、数据仓库的设计方法数据仓库建模数据仓库建模是数据仓库设计的重要环节，主要目标是根据业务需求抽象数据并定义维度模型和事实表。

维度模型的设计基于维度和指标，以及它们之间的关系，通过对事实表的建模来提高查询性能和易理解性。

通常使用星型模型或雪花模型进行建模。

ETL流程设计ETL（抽取、转换和加载）是数据仓库中重要的数据流程，负责将数据从源系统中抽取出来，并经过清洗、转换和加载等处理，最终加载到数据仓库中。

在设计ETL流程时，需要考虑数据抽取的稳定性、数据清洗的准确性以及性能的优化。

数据仓库查询性能优化数据仓库的查询性能对决策支持的效果至关重要。

为了优化查询性能，需要考虑合理的索引设计、分区和分片策略、数据压缩和聚集等手段。

此外，数据仓库通常使用列存储方式而非行存储方式，以提高查询效率。

二、OLTP系统的设计方法数据库模式设计OLTP系统主要用于日常的交易处理，因此数据模型的设计更注重事务的一致性和效率。

传统的OLTP系统通常采用关系数据库，并使用第三范式进行建模，以消除数据冗余。

此外，OLTP系统的数据库模式也需符合基本的数据库设计原则，如主键、外键、索引等。

事务管理和并发控制OLTP系统在设计时需要考虑事务管理和并发控制，以保证数据的完整性和一致性。

通过合理地设置事务边界、使用锁机制和并发控制算法，可以确保多个用户同时访问系统时的数据一致性和效率。

实时性要求相比数据仓库的历史数据，OLTP系统对数据的实时性要求较高。

因此，在OLTP系统的设计中，需要考虑如何实时地记录和更新数据，以确保及时的交易处理和信息查询。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2020/6/18
二、确定粒度
确定粒度是数据仓库设计过程中最重要的问题之一，因为它影响存放在数据仓库中的数据量的大小，同时影响数据仓库所能回答的查询类型。
通过粒度的划分，决定在数据仓库中采取单一粒度还是双重粒度以及粒度划分的级别层次。
1、数据量估计
要确定合理的数据粒度，首先要粗略估算未来数据仓库的数据量，下面是一个简单的估算方法。首先要确定将要建立的所有表，假设表的个数为n，对于每个表i（0＜i≤n）计算表的大小Si和表的主关键字大小Ki，然后估计每张表i在单位时间内最大记录数Lmax和最小记录数Lmin。数据仓库数据量=（表记录的大小+主关键字的大小）×单位时间内记录的数量×存储时间×冗余因子则数据仓库的粗略数据量在如下范围： [Si+Ki）T），Si+Ki）T）] 其中，T为数据仓库的存储周期，通常轻度综合的数据在数据仓库中存放的周期是5～10年；是考虑由于数据索引和数据冗余而使得数据量增大的冗余因子，通常可取 1.2～2。
一、概念模型的设计任务
1．界定系统边界数据仓库面向决策分析，我们在设计数据仓库时不能得到明确的需求，但是设计人员还是面临一些基本的方向性需求问题：要做的决策类型有哪些？决策者感兴趣的是什么问题？这些问题需要哪些数据？这些数据要从哪些数据库系统中获得？因此，我们可以界定系统边界，即进行任务和环境评估、了解决策者迫切需要解决的问题及解决这些问题所需要的信息，要对现有数据库中的内容有一个完整而清晰的认识。 2．确定主要的主题域及其内容要确定系统所包含的主题域，然后对每个主题域进行较明确的描述，包括主题域的公共键码、主题域之间的联系和代表主题B
2020/6/18
应用B
应用C
收集应用需求
分析应用需求
构建数据库
应用编程
DB
外部数
DB
据
数据仓库建模
数据获取与集成构建数据仓库 DW DSS应用编程
系统测试
系统测试
系统实施
理解需求
SDLC方法
CLDS方法
SDLC方法和CLDS方法比较
2020/6/18
二、数据仓库设计的步骤
2020/6/18
2020/6/18
4.5 逻辑模型设计
逻辑模型设计是在概念模型设计的基础上完成的。逻辑模型设计是数据仓库设计中的一个重要环节，因为它能直接反映业务部门的需求，同时对系统的物理实施有着重要的指导作用。设计数据仓库的数据模型时，常用的逻辑建模工具是以维数据建模来表示事实、维度和粒度的关系。逻辑模型设计的目的是对每个要装载主题的逻辑实现进行定义，并将相关的内容记录在数据仓库的元数据中。在逻辑模型设计阶段，主要完成的工作有：（1）分析主题域，确定要装载的主题；（2）确定粒度；（3）确定数据分割的策略；（4）维度建模；（5）定义记录系统。
3、定义开发者的需求数据仓库的开发人员希望能够有对所开发系统的完全、正确且清晰的描述，这意味着需要对拥有者的商业需求进行细化，将商业需求转换为可以为数据仓库开发人员使用的详细、可测及完全的规范。
2020/6/18
2、数据仓库需求分析需要确定的内容
1、主题域
需要明确数据仓库的主题域，例如，明确对于决策分析最有价值的主题域有哪些、每个主题域的商业维度有哪些、每个维度的粒度层次有哪些等。
2020/6/18
4.3 数据仓库需求分析
一、数据仓库需求分析层次
数据仓库需求分析需要对数据仓库应当具有的功能进行说明，需要数据仓库的拥有者、最终用户和数据仓库开发者的密切合作。
拥有者
商业需求
文档、系统环境图
商业目标、信息主题领域
用户需求
用例、数据分析脚本
商业查询集
用户
开发者
2020/6/18
2020/6/18
4、区分优先级
区分优先级过程是基于业务价值和可行性来区分业务过程的优先级，以确保理解需求和业务过程。区分优先级过程使用两–两矩阵来表示，如下图是区分优先级的矩阵示例。
高
A
业务价值
C
B D
低
低
可行性
高
区分优先级矩阵中，Y轴表示业务价值，越向上业务价值越高，越向下业务价值越低；X轴代表可行性，即实现每个业务过程的难易程度，业务过程越向右越容易即可行性高，越向左越困难即具有低可行性。
2020/6/18
4.1数据仓库设计的三级数据模型
2、逻辑模型逻辑模型指数据仓库数据的逻辑表现形式，是从概念模型过渡到物理模型的中间层次，因此又称为中间层模型。逻辑模型是对高层概念模型的细分，在高层模型中所标识的每个主题域或指标实体都需要与一个逻辑模型想对应。通过逻辑模型的设计，可向用户提供一个比概念模型更详细的设计结果，使用户了解到数据仓库能够给他们提供什么信息。逻辑模型是数据仓库开发与使用者相互之间进行数据仓库开发的交流工具。数据仓库逻辑结构设计主要是维表和事实表的结构设计及相互关系的定义，确定粒度策略和数据分割策略，定义记录系统等。
2020/6/18
1 2 3 4 5 4 3
2020/6/18
第四章数据仓库设计
数据仓库设计的三级数据模型数据仓库设计的方法和步骤数据仓库需求分析数据仓库概念模型设计数据仓库逻辑模型设计数据仓库物理模型设计 ETL设计
4.1 数据仓库设计的三级数据模型
细化细化
概念模型逻辑模型物理模型
工作流程分析
数据仓库所提供的功能如何能满足最终用户的工作流程。
决策的查询需求
不同的用户对查询所提出的要求不同，例如来自销售部门、采购部门和生产部门的用户所关心的问题和数据是不同的，因而对于查询的需求也不一样。
报表需求每数个据部仓门库的的报所表有需报求表的要范求例。格例式如不，同销，售单部一门的的报报表表工需具求很范难例满可足能
2020/6/18
4.1数据仓库设计的三级数据模型
1、概念模型
概念模型描述的是从客观世界到主观认识的映射，是客观世界到计算机世界的一个中间层次，通过概念模型，可以用适合计算机世界的语言和模型对客观世界的具体问题进行描述。概念模型是一种高层模型，是对应用主题较高层次的抽象。数据仓库的概念模型是面向全局建立的，它为来自多个面向应用的数据源的集成提供了统一的概念视图。设计概念模型首先要对原有数据库系统加以分析理解，分析原有数据库系统中数据内容、组织结构以及分布特点，然后考虑如何建立数据仓库的概念模型。通过概念模型设计，可以确定主要的主题并划分出各个主题的边界范围。概念模型的设计是在较高的抽象层次上的设计，因此建立概念模型不用考虑具体的技术条件的限制。
需求分析概念模型设计
逻辑模型设计
2020/6/18
物理模型设计
界定系统边界确定主要的主题域
分析主题域确定粒度确定数据分割策略维度建模定义记录系统
确定数据的存储结构确定数据的存储策略确定索引策略
4.3 数据仓库需求分析
数据仓库的需求分析是数据仓库设计的基础。数据仓库不同于事务处理系统，事务处理系统完成日常业务运行活动，对于用户的需求有明确的定义，而数据仓库不能清楚地定义用户的需求，即不能确定用户真正想要从数据仓库中获取哪些信息，也不能说明如何使用和处理这些信息。但是，在数据仓库设计之前，可以确定哪些是重要衡量指标信息以及一些基本的需求。数据仓库需求分析决定了系统的功能以及可以获得的信息，例如，哪些数据必须被访问、这些数据如何组织以及如何对这些数据进行聚合和计算。
需求规范
初始维模型、文本型附录
信息元素、信息处理元素
1、定义数据仓库拥有者的需求数据仓库拥有者一般为企业活动中的决策人员，对商业活动分析有着迫切的需求，是数据仓库的投资者。数据仓库的拥有者关心的是创建数据仓库的目标，建立数据仓库给组织带来的影响，创建数据仓库需要的投资费用以及所具有的应有前景。数据仓库需求使得拥有者能够表达出他们的想法、确定项目发展的正确方向并给出企业的信息化目标。对于数据仓库拥有者而言，其最终目的就是利用数据仓库来提高其商业过程的效率，商业视图描述了其目标和期望，这也正是数据仓库需求的基础。
2、数据源
需要确定哪些源数据与商业主题有关、在已有报表和在线查询中得到哪些信息、这些信息的细节程度等。
3、关键性能指标
需要确定衡量数据仓库成功的标准是什么、有哪些关键性能指标、如何监控这些关键性能指标、对数据仓库的期望用途有哪些等。
4、数据量与更新频率
2020/6/18
需要明确数据仓库的总数据量是多大、数据更新频率是多少等。
报表需求
为前4个季度中每个地区每个季度的产品销售情况如何，而仓库部门的报表需求范例可能为过去24个月中每个客户的送货情况如
何。
数据需求
2020/6/18
最终用户还可以指定数据查询和数据分析需求。数据的查询需求，例如，快速存取，易于操作；允许用户利用自己掌握的语言创建自己的查询等。数据的分析操作主要是对数据项进行揭示更多细节的分片和细剖，进行数据挖掘等。
2020/6/18
二、概念模型设计的方法
概念模型设计可以采用E-R（实体-关系）方法和建立信息包图的方法。E-R方法与关系数据库逻辑模型设计类似，这里主要介绍信息包图方法。
由于数据仓库的多维特性，利用传统的数据流程图进行概念模型设计已经不能满足需求。信息包图提供了一个在多维空间建立用户信息模型的方法，是一种描述多维数据信息的模型。信息包图包含三个重要对象：指标、维度和类别。（1）指标是用于分析的数值化信息，是访问数据仓库的关键所在，是用户最关心的信息。它表明在维度空间衡量业务活动的关键信息和重要商业性能指标。（2）维度提供用户访问数据仓库的角度，位于信息包图第一行的每个栏目，如时间维、地区维、客户维、产品维等。（3）类别用于定义维度的详细类别。

第4章数据仓库的设计

合集下载

数据仓库建设管理制度范本

数据仓库的设计和实现

数据仓库模型的设计

数据仓库设计方案

数据仓库概要设计

数据仓库的设计和构建

数据仓库与数据挖掘教程(第2版)陈文伟版课后答案

数据仓库设计步骤

第4章数据仓库设计与开发[1]

数据仓库设计与建模的数据仓库与OLTP系统的设计方法(四)

文档推荐

最新文档

第4章 数据仓库的设计

合集下载

数据仓库建设管理制度范本

数据仓库的设计和实现

数据仓库模型的设计

数据仓库设计方案

数据仓库概要设计

数据仓库的设计和构建

数据仓库与数据挖掘教程(第2版)陈文伟版课后答案

数据仓库设计步骤

第4章数据仓库设计与开发[1]

数据仓库设计与建模的数据仓库与OLTP系统的设计方法(四)

文档推荐

最新文档

第4章数据仓库的设计