当前位置：文档之家› 数据仓库--外文翻译

数据仓库--外文翻译

数据仓库

数据仓库为商务运作提供结构与工具，以便系统地组织、理解和使用数据进行决策。大量组织机构已经发现，在当今这个充满竞争、快速发展的世界，数据仓库是一个有价值的工具。在过去的几年中，许多公司已花费数百万美元，建立企业范围的数据仓库。许多人感到，随着工业竞争的加剧，数据仓库成了必备的最新营销武器——通过更多地了解客户需求而保住客户的途径。

“那么”，你可能会充满神秘地问，“到底什么是数据仓库？”

数据仓库已被多种方式定义，使得很难严格地定义它。宽松地讲，数据仓库是一个数据库，它与组织机构的操作数据库分别维护。数据仓库系统允许将各种应用系统集成在一起，为统一的历史数据分析提供坚实的平台，对信息处理提供支持。

按照W. H. Inmon，一位数据仓库系统构造方面的领头建筑师的说法，“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合，支持管理决策制定”。这个简短、全面的定义指出了数据仓库的主要特征。四个关键词，面向主题的、集成的、时变的、非易失的，将数据仓库与其它数据存储系统（如，关系数据库系统、事务处理系统、和文件系统）相区别。让我们进一步看看这些关键特征。

(1)、面向主题的：数据仓库围绕一些主题，如顾客、供应商、产品和销售组织。数据仓库关注决策者的数据建模与分析，而不是构造组织机构的日常操作和事务处理。因此，数据仓库排除对于决策无用的数据，提供特定主题的简明视图。

(2)、集成的：通常，构造数据仓库是将多个异种数据源，如关系数据库、一般文件和联机事务处理记录，集成在一起。使用数据清理和数据集成技术，确保命名约定、编码结构、属性度量的一致性等。

(3)、时变的：数据存储从历史的角度（例如，过去5-10 年）提供信息。数据仓库中的关键结构，隐式或显式地包含时间元素。

(4)、非易失的：数据仓库总是物理地分离存放数据；这些数据源于操作环境下的应用数据。由于这种分离，数据仓库不需要事务处理、恢复和并行控制机制。通常，它只需要两种数据访问：数据的初始化装入和数据访问。

概言之，数据仓库是一种语义上一致的数据存储，它充当决策支持数据模型的物理实现，并存放企业决策所需信息。数据仓库也常常被看作一种体系结构，通过将异种数据源中的数据集成在一起而构造，支持结构化和启发式查询、分析报告和决策制定。

“好”，你现在问，“那么，什么是建立数据仓库？”

根据上面的讨论，我们把建立数据仓库看作构造和使用数据仓库的过程。数据仓库的构造需要数据集成、数据清理、和数据统一。利用数据仓库常常需要一些决策支持技术。这使得“知识工人”（例如，经理、分析人员和主管）能够使用数据仓库，快捷、方便地得到数据的总体视图，根据数据仓库中的信息做出准确的决策。有些作者使用术语“建立数据仓库”表示构造数据仓库的过程，而用术语“仓库DBMS”表示管理和使用数据仓库。我们将不区分二者。

“组织机构如何使用数据仓库中的信息？”许多组织机构正在使用这些信息支持商务决策活动，包括:

(1)、增加顾客关注，包括分析顾客购买模式（如，喜爱买什么、购买时间、预算周期、消费习惯）；

(2)、根据季度、年、地区的营销情况比较，重新配置产品和管理投资，调整生产策略；

(3)、分析运作和查找利润源；

(4)、管理顾客关系、进行环境调整、管理合股人的资产开销。

从异种数据库集成的角度看，数据仓库也是十分有用的。许多组织收集了形形色色数据，并由多个异种的、自治的、分布的数据源维护大型数据库。集成这些数据，并提供简便、有效的访问是非常希望的，并且也是一种挑战。数据库工业界和研究界都正朝着实现这一目标竭尽全力。

对于异种数据库的集成，传统的数据库做法是：在多个异种数据库上，建立一个包装程序和一个集成程序（或仲裁程序）。这方面的例子包括IBM 的数据连接程序和Informix的数据刀。当一个查询提交客户站点，首先使用元数据字典对查询进行转换，将它转换成相应异种站点上的查询。然后，将这些查询映射和发送到局部查询处理器。由不同站点返回的结果被集成为全局回答。这种查询驱动的方法需要复杂的信息过滤和集成处理，并且与局部数据源上的处理竞争资源。这种方法是低效的，并且对于频繁的查询，特别是需要聚集操作的查询，开销很大。

对于异种数据库集成的传统方法，数据仓库提供了一个有趣的替代方案。数据仓库使用更新驱动的方法，而不是查询驱动的方法。这种方法将来自多个异种源的信息预先集成，并存储在数据仓库中，供直接查询和分析。与联机事务处理数据库不同，数据仓库不包含最近的信息。然而，数据仓库为集成的异种数据库系统带来了高性能，因为数据被拷贝、预处理、集成、注释、汇总，并重新组织到一个语义一致的数据存储中。在数据仓库中进行的查询处理并不影响在局部源上进行的处理。此外，数据仓库存储并集成历史信息，支持复杂的多维查询。这样，建立数据仓库在工业界已非常流行。

1.操作数据库系统与数据仓库的区别

由于大多数人都熟悉商品关系数据库系统，将数据仓库与之比较，就容易理解什么是数据仓库。

联机操作数据库系统的主要任务是执行联机事务和查询处理。这种系统称为联机事务处理（OLTP）系统。它们涵盖了一个组织的大部分日常操作，如购买、库存、制造、银行、工资、注册、记帐等。另一方面，数据仓库系统在数据分析和决策方面为用户或“知识工人”提供服务。这种系统可以用不同的格式组织和提供数据，以便满足不同用户的形形色色需求。这种系统称为联机分析处理（OLAP）系统。

OLTP 和OLAP 的主要区别概述如下。

(1)、用户和系统的面向性：OLTP 是面向顾客的，用于办事员、客户、和信息技术专业人员的事务和查询处理。OLAP 是面向市场的，用于知识工人（包括经理、主管、和分析人员）的数据分析。

(2)、数据内容：OLTP 系统管理当前数据。通常，这种数据太琐碎，难以方便地用于决策。OLAP 系统管理大量历史数据，提供汇总和聚集机制，并在不同的粒度级别上存储和管理信息。这些特点使得数据容易用于见多识广的决策。

(3)、数据库设计：通常，OLTP 系统采用实体-联系（ER）模型和面向应用的数据库设计。而OLAP 系统通常采用星形或雪花模型和面向主题的数据库设计。

(4)、视图：OLTP 系统主要关注一个企业或部门内部的当前数据，而不涉及历史数据或不同组织的数据。相比之下，由于组织的变化，OLAP 系统常常跨越数据库模式的多个版本。OLAP 系统也处理来自不同组织的信息，由多个数据存储集成的信息。由于数据量巨大，OLAP 数据也存放在多个存储介质上。

(5)、访问模式：OLTP 系统的访问主要由短的、原子事务组成。这种系统需要并行控制和恢复机制。然而，对OLAP 系统的访问大部分是只读操作（由于大部分数据仓库存放历史数据，而不是当前数据），尽管许多可能是复杂的查询。

OLTP 和OLAP 的其它区别包括数据库大小、操作的频繁程度、性能度量等。

2.但是，为什么需要一个分离的数据仓库

“既然操作数据库存放了大量数据”，你注意到，“为什么不直接在这种数据库上进行联机分析处理，而是另外花费时间和资源去构造一个分离的数据仓库？”

分离的主要原因是提高两个系统的性能。操作数据库是为已知的任务和负载设计的，如使用主关键字索引和散列，检索特定的记录，和优化“罐装的”查询。另一方面，数据仓库的查询通常是复杂的，涉及大量数据在汇总级的计算，可能需要特殊的数据组织、存取方法和基于多维视图的实现方法。在操作数据库上处理OLAP 查询，可能会大大降低操作任务的性能。

此外，操作数据库支持多事务的并行处理，需要加锁和日志等并行控制和恢复机制，以确保一致性和事务的强健性。通常，OLAP 查询只需要对数据记录进行只读访问，以进行汇总和聚集。如果将并行控制和恢复机制用于这种OLAP 操作，就会危害并行事务的运行，从而大大降低OLTP 系统的吞吐量。

最后，数据仓库与操作数据库分离是由于这两种系统中数据的结构、内容和用法都不相同。决策支持需要历史数据，而操作数据库一般不维护历史数据。在这种情况下，操作数据库中的数据尽管很丰富，但对于决策，常常还是远远不够的。决策支持需要将来自异种源的数据统一（如，聚集和汇总），产生高质量的、纯净的和集成的数据。相比之下，操作数据库只维护详细的原始数据（如事务），这些数据在进行分析之前需要统一。由于两个系统提供很不相同的功能，需要不同类型的数据，因此需要维护分离的数据库。

Data warehousing provides architectures and tools for business executives to systematically organize, understand, and use their data to make strategic decisions. A large number of organizations have found that data warehouse systems are valuable tools in today's competitive, fast evolving world. In the last several years, many firms have spent millions of dollars in building enterprise-wide data warehouses. Many people feel that with competition mounting in every industry, data warehousing is the latest must-have marketing weapon ——a way to keep customers by learning more about their needs.

“So", you may ask, full of intrigue, “what exactly is a data warehouse?"

Data warehouses have been defined in many ways, making it difficult to formulate a rigorous definition. Loosely speaking, a data warehouse refers to a database that is maintained separately from an organization's operational databases. Data warehouse systems allow for the integration of a variety of application systems. They support information processing by providing a solid platform of consolidated, historical data for analysis.

According to W. H. Inmon, a leading architect in the construction of data warehouse systems, “a data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of management's decision making process." This short, but comprehensive definition presents the major features of a data warehouse. The four keywords, subject-oriented, integrated, time-variant, and nonvolatile, distinguish data warehouses from other data repository systems, such as relational database systems, transaction processing systems, and file systems. Let's take a closer look at each of these key features.

(1).Subject-oriented: A data warehouse is organized around major subjects, such as customer, vendor, product, and sales. Rather than concentrating on the day-to-day operations and transaction processing of an organization, a data warehouse focuses on the modeling and

analysis of data for decision makers. Hence, data warehouses typically provide a simple and concise view around particular subject issues by excluding data that are not useful in the decision support process.

(2) Integrated: A data warehouse is usually constructed by integrating multiple heterogeneous sources, such as relational databases, flat files, and on-line transaction records. Data cleaning and data integration techniques are applied to ensure consistency in naming conventions, encoding structures, attribute measures, and so on.

(3).Time-variant: Data are stored to provide information from a historical perspective (e.g., the past 5-10 years). Every key structure in the data warehouse contains, either implicitly or explicitly, an element of time.

(4)Nonvolatile: A data warehouse is always a physically separate store of data transformed from the application data found in the operational environment. Due to this separation, a data warehouse does not require transaction processing, recovery, and concurrency control mechanisms. It usually requires only two operations in data accessing: initial loading of data and access of data.

In sum, a data warehouse is a semantically consistent data store that serves as a physical implementation of a decision support data model and stores the information on which an enterprise needs to make strategic decisions. A data warehouse is also often viewed as an architecture, constructed by integrating data from multiple heterogeneous sources to support structured and/or ad hoc queries, analytical reporting, and decision making.

“OK", you now ask, “what, then, is data warehousing?"

Based on the above, we view data warehousing as the process of constructing and using data warehouses. The construction of a data warehouse requires data integration, data cleaning, and data consolidation. The utilization of a data warehouse often necessitates a collection of decision support technologies. This allows “knowledge workers" (e.g., managers, analysts, and executives) to use the warehouse to quickly and conveniently obtain an overview of the data, and to make sound decisions based on information in the warehouse. Some authors use the term “data warehousing" to refer only to the process of data warehouse construction, while the term warehouse DBMS is used to refer to the management and utilization of data warehouses. We will not make this distinction here.

“How are organizations using the information from data warehouses?" Many organizations are using this information to support business decision making activities, including:

(1) increasing customer focus, which includes the analysis of customer buying patterns (such as buying preference, buying time, budget cycles, and appetites for spending),

(2) repositioning products and managing product portfolios by comparing the performance of sales by quarter, by year, and by geographic regions, in order to fine-tune production strategies,

(3) analyzing operations and looking for sources of profit,

(4) managing the customer relationships, making environmental corrections, and managing the cost of corporate assets.

Data warehousing is also very useful from the point of view of heterogeneous database integration. Many organizations typically collect diverse kinds of data and maintain large databases from multiple, heterogeneous, autonomous, and distributed information sources. To integrate such data, and provide easy and efficient access to it is highly desirable, yet challenging.

Much effort has been spent in the database industry and research community towards achieving this goal.

The traditional database approach to heterogeneous database integration is to build wrappers and integrators (or mediators) on top of multiple, heterogeneous databases. A variety of data joiner and data blade products belong to this category. When a query is posed to a client site, a metadata dictionary is used to translate the query into queries appropriate for the individual heterogeneous sites involved. These queries are then mapped and sent to local query processors. The results returned from the different sites are integrated into a global answer set. This query-driven approach requires complex information filtering and integration processes, and competes for resources with processing at local sources. It is inefficient and potentially expensive for frequent queries, especially for queries requiring aggregations.

Data warehousing provides an interesting alternative to the traditional approach of heterogeneous database integration described above. Rather than using a query-driven approach, data warehousing employs an update-driven approach in which information from multiple, heterogeneous sources is integrated in advance and stored in a warehouse for direct querying and analysis. Unlike on-line transaction processing databases, data warehouses do not contain the most current information. However, a data warehouse brings high performance to the integrated heterogeneous database system since data are copied, preprocessed, integrated, annotated, summarized, and restructured into one semantic data store. Furthermore, query processing in data warehouses does not interfere with the processing at local sources. Moreover, data warehouses can store and integrate historical information and support complex multidimensional queries. As a result, data warehousing has become very popular in industry.

1. Differences between operational database systems and data warehouses

Since most people are familiar with commercial relational database systems, it is easy to understand what a data warehouse is by comparing these two kinds of systems.

The major task of on-line operational database systems is to perform on-line transaction and query processing. These systems are called on-line transaction processing (OLTP) systems. They cover most of the day-to-day operations of an organization, such as, purchasing, inventory, manufacturing, banking, payroll, registration, and accounting. Data warehouse systems, on the other hand, serve users or “knowledge workers" in the role of data analysis and decision making. Such systems can organize and present data in various formats in order to accommodate the diverse needs of the different users. These systems are known as on-line analytical processing (OLAP) systems.

The major distinguishing features between OLTP and OLAP are summarized as follows.

(1). Users and system orientation: An OLTP system is customer-oriented and is used for transaction and query processing by clerks, clients, and information technology professionals. An OLAP system is market-oriented and is used for data analysis by knowledge workers, including managers, executives, and analysts.

(2). Data contents: An OLTP system manages current data that, typically, are too detailed to be easily used for decision making. An OLAP system manages large amounts of historical data, provides facilities for summarization and aggregation, and stores and manages information at different levels of granularity. These features make the data easier for use in informed decision making.

(3). Database design: An OLTP system usually adopts an entity-relationship (ER) data model and an application -oriented database design. An OLAP system typically adopts either a star or snowflake model, and a subject-oriented database design.

(4). View: An OLTP system focuses mainly on the current data within an enterprise or department, without referring to historical data or data in different organizations. In contrast, an OLAP system often spans multiple versions of a database schema, due to the evolutionary process of an organization. OLAP systems also deal with information that originates from different organizations, integrating information from many data stores. Because of their huge volume, OLAP data are stored on multiple storage media.

(5). Access patterns: The access patterns of an OLTP system consist mainly of short, atomic transactions. Such a system requires concurrency control and recovery mechanisms. However, accesses to OLAP systems are mostly read-only operations (since most data warehouses store historical rather than up-to-date information), although many could be complex queries.

Other features which distinguish between OLTP and OLAP systems include database size, frequency of operations, and performance metrics and so on.

2. But, why have a separate data warehouse?

“Since operational databases store huge amounts of data", you observe, “why not perform on-line analytical processing directly on such databases instead of spending additional time and resources to construct a separate data warehouse?"

A major reason for such a separation is to help promote the high performance of both systems. An operational database is designed and tuned from known tasks and workloads, such as indexing and hashing using primary keys, searching for particular records, and optimizing “canned" queries. On the other hand, data warehouse queries are often complex. They involve the computation of large groups of data at summarized levels, and may require the use of special data organization, access, and implementation methods based on multidimensional views. Processing OLAP queries in operational databases would substantially degrade the performance of operational tasks.

Moreover, an operational database supports the concurrent processing of several transactions. Concurrency control and recovery mechanisms, such as locking and logging, are required to ensure the consistency and robustness of transactions. An OLAP query often needs read-only access of data records for summarization and aggregation. Concurrency control and recovery mechanisms, if applied for such OLAP operations, may jeopardize the execution of concurrent transactions and thus substantially reduce the throughput of an OLTP system.

Finally, the separation of operational databases from data warehouses is based on the different structures, contents, and uses of the data in these two systems. Decision support requires historical data, whereas operational databases do not typically maintain historical data. In this context, the data in operational databases, though abundant, is usually far from complete for decision making. Decision support requires consolidation (such as aggregation and summarization) of data from heterogeneous sources, resulting in high quality, cleansed and integrated data. In contrast, operational databases contain only detailed raw data, such as transactions, which need to be consolidated before analysis. Since the two systems provide quite different functionalities and require different kinds of data, it is necessary to maintain separate databases.

数据仓库模型的设计

2.5数据仓库模型的设计数据仓库模型的设计大体上可以分为以下三个层面的设计151: .概念模型设计; .逻辑模型设计; .物理模型设计; 下面就从这三个层面分别介绍数据仓库模型的设计。 2.5.1概念模型设计进行概念模型设计所要完成的工作是: <1>界定系统边界 <2>确定主要的主题域及其内容概念模型设计的成果是，在原有的数据库的基础上建立了一个较为稳固的概念模型。因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合，所以数据仓库的概念模型设计，首先要对原有数据库系统加以分析理解，看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等，然后再来考虑应当如何建立数据仓库系统的概念模型。一方面，通过原有的数据库的设计文档以及在数据字典中的数据库关系模式，可以对企业现有的数据库中的内容有一个完整而清晰的认识;另一方面，数据仓库的概念模型是面向企业全局建立的，它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。概念模型的设计是在较高的抽象层次上的设计，因此建立概念模型时不用考虑具体技术条件的限制。 1.界定系统的边界数据仓库是面向决策分析的数据库，我们无法在数据仓库设计的最初就得到详细而明确的需求，但是一些基本的方向性的需求还是摆在了设计人员的面前: . 要做的决策类型有哪些? . 决策者感兴趣的是什么问题? . 这些问题需要什么样的信息? . 要得到这些信息需要包含原有数据库系统的哪些部分的数据? 这样，我们可以划定一个当前的大致的系统边界，集中精力进行最需要的部分的开发。因而，从某种意义上讲，界定系统边界的工作也可以看作是数据仓库系统设计的需求分析，因为它将决策者的数据分析的需求用系统边界的定义形式反映出来。 2，确定主要的主题域在这一步中，要确定系统所包含的主题域，然后对每个主题域的内

数据仓库与数据挖掘实验指导书王浩畅资料

数据仓库与数据挖掘
实验指导书
东北石油大学计算机与信息技术系王浩畅

实验一 Weka 实验环境初探
一、实验名称: Weka 实验环境初探
二、实验目的：通过一个已有的数据集，在 weka 环境下，测试常用数据挖掘算法，熟悉 Weka
环境。三、实验要求
1. 熟悉 weka 的应用环境。 2. 了解数据挖掘常用算法。 3. 在 weka 环境下，测试常用数据挖掘算法。四、实验平台新西兰怀卡托大学研制的 Weka 系统五、实验数据 Weka 安装目录下 data 文件夹中的数据集 weather.nominal.arff，weather.arff
六、实验方法和步骤 1、首先，选择数据集 weather.nominal.arff，操作步骤为点击 Explorer，进入主界面，点击左上角的“Open file...”按钮，选择数据集 weather.nominal.arff 文件，该文件中存储着表格中的数据，点击区域 2 中的“Edit”可以看到相应的数据：

选择上端的 Associate 选项页，即数据挖掘中的关联规则挖掘选项，此处要做的是从上述数据集中寻找关联规则。点击后进入如下界面：
2、现在打开 weather.arff，数据集中的类别换成数字。

选择上端的 Associate 选项页，但是在 Associate 选项卡中 Start 按钮为灰色的，也就是说这个时候无法使用 Apriori 算法进行规则的挖掘，原因在于 Apriori 算法不能应用于连续型的数值类型。所以现在需要对数值进行离散化，就是类似于将 20-30℃划分为“热”，0-10℃定义为“冷”，这样经过对数值型属性的离散化，就可以应用 Apriori 算法了。Weka 提供了良好的数据预处理方法。第一步：选择要预处理的属性 temperrature

数据仓库设计指南

数据仓库设计指南在一般的数据仓库应用系统中，根据系统体系结构的不同，数据仓库设计的内容和范围不尽相同，并且设计方法也不尽相同，下面的两幅图示分别表示带有ODS的数据仓库应用系统体系结构和不带ODS的数据仓库应用系统体系结构。本文将说明两个体系结构上的差异以及这种差异造成的设计方法的不同，并且重点介绍带有ODS的体系结构中数据仓库的设计方法。GV1 =p}` 在数据仓库的设计指导思想中，数据仓库的概念定义是非常重要的，数据仓库概念规定了数据仓库所具有的几个基本特性，这些特性也正是对数据仓库设计结果进行检验的重要依据。M)_m= }d 根据Bill.Inmon的定义，“数据仓库是面向主题的、集成的、稳定的、随时间变化的，主要用于决策支持的数据库系统”。_R)tJ Ro ODS（Operational Data Store）是数据仓库体系结构中的一个可选部分，ODS具备数据仓库的部分特征和OLTP系统的部分特征，它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。4\&P~kI 一般在带有ODS的系统体系结构中，ODS都设计为如下几个作用：#:1< R\H6m 1）在业务系统和数据仓库之间形成一个隔离层。[t"C/;S! 一般的数据仓库应用系统都具有非常复杂的数据来源，这些数据存放在不同的地理位置、不同的数据库、不同的应用之中，从这些业务系统对数据进行抽取并不是一件容易的事。因此，ODS用于存放从业务系统直接抽取出来的数据，这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致，因此在抽取过程中极大降低了数据转化的复杂性，而主要关注数据抽取的接口、数据量大小、抽取方式等方面的问题。,8mPV{U KU 2）转移一部分业务系统细节查询的功能 Cr

数据库与数据仓库的区别是什么

数据库与数据仓库的区别是什么简而言之，数据库是面向事务的设计，数据仓库是面向主题设计的。数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余，一般采用符合范式的规则来设计，数据仓库在设计是有意引入冗余，采用反范式的方式来设计。数据库是为捕获数据而设计，数据仓库是为分析数据而设计，它的两个基本的元素是维表和事实表。维是看问题的角度，比如时间，部门，维表放的就是这些东西的定义，事实表里放着要查询的数据，同时有维的ID。单从概念上讲，有些晦涩。任何技术都是为应用服务的，结合应用可以很容易地理解。以银行业务为例。数据库是事务系统的数据平台，客户在银行做的每笔交易都会写入数据库，被记录下来，这里，可以简单地理解为用数据库记帐。数据仓库是分析系统的数据平台，它从事务系统获取数据，并做汇总、加工，为决策者提供决策的依据。比如，某银行某分行一个月发生多少交易，该分行当前存款余额是多少。如果存款又多，消费交易又多，那么该地区就有必要设立ATM了。显然，银行的交易量是巨大的，通常以百万甚至千万次来计算。事务系统是实时的，这就要求时效性，客户存一笔钱需要几十秒是无法忍受的，这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的，它要提供关注时间段内所有的有效数据。这些数据是海量的，汇总计算起来也要慢一些，但是，只要能够提供有效的分析数据就达到目的了。数据仓库，是在数据库已经大量存在的情况下，为了进一步挖掘数据资源、为了决策需要而产生的，它决不是所谓的“大型数据库”。那么，数据仓库与传统数据库比较，有哪些不同呢?让我们先看看W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。 “面向主题的”:传统数据库主要是为应用程序进行数据处理，未必按照同一主题存储数据;数据仓库侧重于数据分析工作，是按照主题存储的。这一点，类似于传统农贸市场与超市的区别—市场里面，白菜、萝卜、香菜会在一个摊位上，如果它们是一个小贩卖的;而超市里，白菜、萝卜、香菜则各自一块。也就是说，市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的，超市里面则是按照菜的类型(同主题)归堆的。 “与时间相关”:数据库保存信息的时候，并不强调一定有时间信息。数据仓库则不同，出于决策的需要，数据仓库中的数据都要标明时间属性。决策中，时间属性很重要。同样都是累计购买过九车产品的顾客，一位是最近三个月购买九车，一位是最近一年从未买过，这对于决策者意义是不同的。 “不可修改”:数据仓库中的数据并不是最新的，而是来源于其它数据源。数据仓库反映的是历史信息，并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库

如何测试数据仓库

如何测试数据仓库在数据仓库环境下进行测试时如何处理需求与质量的关系?虽然数据仓库的测试是一个惊奇而神秘的过程，但实际上它与其它测试项目并无多大区别。基本的系统分析和测试过程在这里仍然有效。我们来看一下其中的几个步骤，并研究如何在数据仓库环境中应用。分析源文件与其它项目一样，测试数据仓库部署时，通常都会有一份相关的说明文件。虽然这些文件对于创建基本的测试策略非常有用，但经常会缺少一些关于测试开发与执行的详细资料。有时会有一些其它文件解释技术上的细节问题，即从源到目标的转化(source-to-target mappings)说明文件。这些文件详细说明了数据的来源、如何对数据进行操作，以及存储到哪里。如果能拿到这些文件，关于系统设计的文件在设计测试策略时也会变得更加有用。开发策略和测试计划分析了各种各样的源文件后，就要开始创建测试策略。我发现从生命周期和质量的角度来看，增量测试是测试数据仓库的最好办法。这从本质上意味着开发团队会从开发过程的早期开始，将各种小组件交付给测试团队。这个办法的主要优点是避免交付让人吃惊的“大块”组件，可以从早期开始检验缺陷，并使调试变得简单。此外，这个方法还有助于在开发与测试周期中建立详细的过程。具体到数据仓库测试，即是对数据获取分段表，然后是增量表、基本的历史表格、BI视图等的测试。另一个制定数据仓库测试策略的主要问题是基于分析(analysis-based)的测试方式和基于查询(analysis-based)的测试方式的选择。纯基于分析的方法是让测试分析师通过分析目标数据和相关标准计算出预期结果。基于查询的方法有相同的基本分析步骤，但更进一步，用SQL 查询语言编写预期结果。这为将来建立回归测试过程节省了很大精力。如果测试是一次性的，那么用基于分析的方式就足够了，因为通常这种方式较快一些。反之，如果企业对回归测试有持续的需求，那么基于查询的方式会更为合适。

数据仓库-系统设计说明书

归一大数据平台数据仓库系统设计说明书受控不受控

修改变更记录：

目录 1引言 (5) 1.1文档编制目的 (5) 1.2背景 (6) 1.3词汇表 (6) 1.4参考资料 (6) 2总体设计 (7) 2.1软件体系结构 (7) 2.2系统运行体系......................................................................... 错误！未定义书签。 2.2.1运行体系图..................................................................... 错误！未定义书签。 2.2.2程序/模块对应表............................................................ 错误！未定义书签。 2.3系统物理结构 (7) 2.4技术路线 (8) 3系统接口设计 (8) 3.1用户接口 (8) 4子系统/模块设计 (8) 4.1数据仓库 (8) 4.1.1ODL(操作数据)层设计 (8) 4.1.2BDL(数据仓库)层设计 (10) 4.1.3IDL(宽表)层设计 (11) 4.1.4PDL(应用)层设计 (12) 4.1.5PUB(维度)层设计 (15) 4.1.6数据导出设计 (16) 5数据结构与数据库设计 (17) 6外部存储结构设计 (17) 7故障处理说明 (17) 8尚需解决的问题 (18)

编写指南：本模板力图给出系统设计阶段可能包括的基本信息，重点在于和需求分析文档相联系。描述系统整体情况。如果某个章节在项目或当前阶段中无法描述，则可保留其标题，注明“不

数据仓库项目常见管理问题

1.项目管理问题 1．企业经历过两次失败的数据仓库建设，现在是第三次，人们普遍认为这次也将会失败。项目经理应该作些什么来消除人们对数据仓库的消极看法？ 2．企业的业务系统方，即OLTP方的工作人员对数据仓库方不配合，比如对数据仓库的源数据申请置之不理。项目经理应该如何来应付这种情况？ 3．企业的管理层变动较频繁，支持数据仓库的企业领导可能会离开，面对这种情况，项目经理应该如何应付？ 4．企业雇佣一家咨询公司来实现一个数据仓库，但是企业的CIO认为数据仓库的建设是对其职位和权威的挑战，不断给咨询人员和项目设置障碍。咨询人员应该如何来应付这种情况？ 5．企业管理层希望试验系统（原型系统）具有和生产系统相同级别的数据质量。项目经理应该如何做，才能让管理层相信，试验系统不必和生产系统具有相同级别的数据质量？ 6．用户部门领导对共享数据不配合或者只在表面上配合。他们希望能够控制谁能查看什么数据以及什么时候可以查看。数据仓库团队怎样才能让部门领导把数据的访问权共享出来？ 7．建立好的数据几乎满足所有的成功标准。但是企业的高级管理层对数据仓库的反应很冷淡。数据仓库团队应该如何应付这种情况？ 2.项目需求问题 1．数据仓库项目已经开发了6个月的时间，在项目的开发过程中，数据仓库团队发现业务源系统正在被重写，业务系统在不断的变化，一个新的系统开发出来预计只有8个月的寿命。数据仓库团队应该如何应付这种情况？ 2．源系统和数据仓库系统同期建设。但是源系统在不断的变化中，而且源系统的开发团队没有将变化告知数据仓库团队，数据仓库团队在测试过程中出现故障才发现这些变化。这种没有告知有可能是故意的。数据仓库团队应该如何来应付这种情况？ 3．数据仓库项目开始时，企业制定了一套有效的数据仓库目标。但是，随着时间的流逝，企业又制定了一些决策，采取了一些行动，这些决策和行动与最初的目标背道而驰。数据仓库团队应该如何应付这种情况? 4．数据仓库项目进展十分顺利，但是根本没有办法判断项目将来是否能够成功。要想为数据仓库确立一个完全合适的目标是不可能的。企业应该如何来面对这种状况？

数据仓库测验集

一、选择填空. 数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小，细节程度越高，综合程度越低，回答查询的种类越多。维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类。连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。在数据挖掘的分析方法中，直接数据挖掘包括（ＡＣＤ） A 分类 B 关联 C 估值 D 预言数据仓库的数据ETL过程中，ETL软件的主要功能包括（ＡＢＣ） A 数据抽取 B 数据转换 C 数据加载 D 数据稽核数据分类的评价准则包括（ ABCD ） A 精确度 B 查全率和查准率 C F-Measure D 几何均值层次聚类方法包括（ BC ） A 划分聚类方法 B 凝聚型层次聚类方法 C 分解型层次聚类方法 D 基于密度聚类方法贝叶斯网络由两部分组成，分别是（ A D ） A 网络结构 B 先验概率 C 后验概率 D 条件概率表置信度(confidence)是衡量兴趣度度量（ A ）的指标。 A、简洁性 B、确定性 C.、实用性 D、新颖性关于OLAP和OLTP的区别描述,不正确的是: (C) A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同. B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务. C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高. D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集中，这种聚类类型称作（ B ） A、层次聚类 B、划分聚类 C、非互斥聚类 D、模糊聚类将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘为数据的总体分布建模；把多维空间划分成组等问题属于数据挖掘的哪一类任务？(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 6.在数据挖掘的分析方法中，直接数据挖掘包括（ＡＣＤ） A 分类 B 关联 C 估值 D 预言 7.数据仓库的数据ETL过程中，ETL软件的主要功能包括（ＡＢＣ） A 数据抽取 B 数据转换 C 数据加载 D 数据稽核 8.数据分类的评价准则包括（ ABCD ） A 精确度 B 查全率和查准率 C F-Measure D 几何均值

浅谈数据仓库中的元数据管理技术

浅谈数据仓库中的元数据管理技术孙力君仇道霞方峻峰宋楠山东省烟草公司信息中心摘要：数据仓库是数据库的发展方向之一，对企业管理和决策支持起着重要的辅助作用。简要介绍了数据仓库和元数据的基本概念，重点阐述了元数据的概念、作用、CWM标准、来源，并就元数据具体应用进行了初步的研究和探讨。关键词：数据仓库；元数据； 1. 引言随着市场竞争的越来越激烈，烟草行业的信息化建设不断的深入发展，全行业形成了“以信息化带动烟草行业现代化建设”的基本共识，明确了“统一标准、统一平台、统一数据库、统一网络”，逐步实现系统集成、资源整合、信息共享的信息化建设总体要求，走过了“由基础性向应用性、由局部性向全局性、由分散性向集中性建设”的三个转变历程，初步形成了“数字烟草”的行业信息化建设格局，既对行业数据中心的建设提出了迫切的要求，也为行业数据中心建设奠定了坚实的基础。随着数据库技术尤其是数据仓库技术的发展，人类能更容易获得自己需要的数据和信息，由于元数据是数据仓库中非常重要的组成部分，因此讨论和研究元数据在数据仓库中的作用和应用，具有非常重要的意义。元数据管理是山东烟草数据中心建设的重要组成部分，元数据管理平台为用户提供高质量、准确、易于管理的数据，它贯穿数据中心构建、运行和维护的整

个生命周期。同时，在数据中心构建的整个过程中，数据源分析、ETL过程、数据库结构、数据模型、业务应用主题的组织和前端展示等环节，均需要通过相应的元数据的进行支撑。元数据管理的生命周期包括元数据获取和建立、元数据的存储、元数据浏览、元数据分析、元数据维护等部分。通过元数据管理，形成整个系统信息数据资的准确视图，通过元数据的统一视图，缩短数据清理周期、提高数据质量以便能系统性地管理数据中心项目中来自各业务系统的海量数据，梳理业务元数据之间的关系，建立信息数据标准完善对这些数据的解释、定义，形成企业范围内一致、统一的数据定义，并可以对这些数据来源、运作情况、变迁等进行跟踪分析。完善数据中心的基础设施，通过精确把握经营数据来精确把握瞬息万变的市场竞争形式，使山东烟草在市场竞争中保持优势。总的来说，元数据管理平台集成相关的元数据，形成企业的全局数据视图，提供企业级共享元数据的平台，是烟草业务系统的基础设施，对业务系统的发展、应用和数据质量的提升有着深远影响。 2.数据仓库概述目前有关数据仓库的概念有多种，其中最经典的，引用最为广泛的定义是W.H.Inmon在《Building the Data Warehouse》一书中给出的，他指出：“数据仓库是面向主题的、集成的、随时间变化的、非易失的数据集合，用于支持管理层的决策过程”。[1] 之所以要引入数据仓库，是因为随着信息时代的到来，如何从大量已存在的数据中提取出自己所感兴趣的信息并进行分析和预测越来越成为企业管理者和决策者所关心的问题。为了更好的进行管理和决策，许多企业都选择了数据仓库，利用数据仓库可以对各种源数据进行抽取、清理、加工

数据仓库面试题

数据仓库及BI工程师面试题集锦前言 1、介绍一下项目经验、项目中的角色。一、数据库 1、Oracle数据库，视图与表的区别？普通视图与物化视图的区别？物化视图的作用？ i.视图与表的区别 1. 1、视图是已经编译好的sql语句。而表不是 2. 视图没有实际的物理记录。而表有。 3. 表是内容，视图是窗口 4. 表只用物理空间而视图不占用物理空间，视图只是逻辑概念的存在，表可以及时四对它进行修改，但视图只能有创建的语句来修改ii. 物化视图与视图区别 1.物化视图和视图差别非常大，不是几句能说清物化视图是自动刷新或者手动刷新的，视图不用刷新物化视图也可以直接update，但是不影响b ase table，对视图的update反映到base table上物化视图主要用于远程数据访问，物化视图中的数据需要占用磁盘空间，视图中不保存数据。 2、Oracle数据库，有哪几类索引，分别有什么特点？ a) 1.单列索引与复合索引一个索引可以由一个或多个列组成，用来创建索引的列被称为“索引列”。单列索引是基于单列所创建的索引，复合索引是基于两列或者多列所创建的索引。 2.唯一索引与非唯一索引唯一索引是索引列值不能重复的索引，非唯一索引是索引列可以重复的索引。

无论是唯一索引还是非唯一索引，索引列都允许取NULL值。默认情况下，Oracle 创建的索引是不唯一索引。 3.B树索引 B树索引是按B树算法组织并存放索引数据的，所以B树索引主要依赖其组织并存放索引数据的算法来实现快速检索功能。 4.位图索引位图索引在多列查询时，可以对两个列上的位图进行AND和OR操作，达到更好的查询效果。 5.函数索引 Oracle中不仅能够直接对表中的列创建索引，还可以对包含列的函数或表达式创建索引，这种索引称为“位图索引”。 3、Union与Union All的区别？ a)Union会对查询结果进行排序去重，效率比union all 低，union all只是两个查询集的合并操作。建议使用Union all，查询出来后再对数据进行去重操作。 4、对游标的理解？游标的分类？使用方法？游标是映射在结果集中一行数据的位置实体，有了游标，用户就可以访问结果集中的任何一条数据。游标分为静态游标和REF游标，静态游标分为显示游标和隐式游标，显示游标使用步骤是声明游标，打开游标，获取记录，关闭游标。所有的DML语句为隐式游标，可以从游标的属性获得sql语句的信息。REF游标是动态关联结果集的临时对象，使用步骤也是先要进行声明游标，然后打开游标，获取记录，关闭游标。 5、如何查找和删除表中的重复数据？给出方法或SQL。查询表中重复数据。 Select * from people where id in (Select id from people group by id having count(id)>1); Delete from people where id in(select id from people group by id having count(id)>1) and rowid not in (select min(rowid) from people group by id hacing count(id)>1);

数据仓库系统的体系结构

体系结构数据源是数据仓库系统的基础，是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等；数据的存储与管理是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库，同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心，则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据，进行抽取、清理，并有效集成，按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库（通常称为数据集市）。 OLAP(联机分析处理)服务器对分析需要的数据进行有效集成，按多维模型予以组织，以便进行多角度、多层次的分析，并发现趋势。其具体实现可以分为：ROLAP（关系型在线分析处理）、MOLAP （多维在线分析处理）和HOLAP（混合型线上分析处理）。ROLAP基本数据和聚合数据均存放在RDBMS之中；MOLAP基本数据和聚合数据均存放于多维数据库中；HOLAP基本数据存放于RDBMS之中，聚合数据存放于多维数据库中。数据仓库系统的体系结构数据仓库系统通常是对多个异构数据源的有效集成，集成后按照主题进行重组，包含历史数据。存放在数据仓库中的数据通常不再修改，用于做进一步的分析型数据处理。数据仓库系统的建立和开发是以企事业单位的现有业务系统和大量业务数据的积累为基础的。数据仓库不是一个静态的概念，只有把信息适时的交给需要这些信息的使用者，供他们做出改善业务经营的决策，信息才能发挥作用，信息才有

数据仓库的开发设计过程

数据仓库之路 FAQ FAQ目录一、与数据仓库有关的几个概念 (3) 1.1 目录 (3) 二、数据仓库产生的原因 (8) 三、数据仓库体系结构图 (11) 四、数据仓库设计 (12) 4.1 数据仓库的建模 (12) 4.2 数据仓库建模的十条戒律： (13) 五、数据仓库开发过程 (14) 5.1 数据模型的内容 (14) 5.2 数据模型转变到数据仓库 (14)

5.3 数据仓库开发成功的关键 (15) 六、数据仓库的数据采集 (16) 6.1 后台处理 (17) 6.2 中间处理 (17) 6.3 前台处理 (18) 6.4 数据仓库的技术体系结构 (18) 6.5 数据的有效性检查 (20) 6.6 清除和转换数据 (20) 6.7 简单变换 (22) 6.8 清洁和刷洗 (24) 6.9 集成 (25) 6.10 聚集和概括 (27) 6.11 移动数据 (27) 七、如何建立数据仓库 (30) 7.1 数据仓库设计 (31) 7.2 数据抽取模块 (32) 7.3 数据维护模块 (33)

一、与数据仓库有关的几个概念 1.1 目录 ?Datawarehouse ?Datamart ?OLAP ?ROLAP ?MOLAP ?ClientOLAP ?DSS ?ETL ?Adhocquery ?EIS ?BPR ?BI ?Datamining ?CRM ?MetaData Data warehouse 本世纪80年代中期，“数据仓库之父”William H.Inmon先生在其《建立数据仓库》一书中定义了数据仓库的概念，随后又给出了更为精确的定义：数据仓

数据仓库数据库设计的心得总结

数据仓库数据库设计的心得总结数据仓库是企业商业智能分析环境的核心，它是建立决策支持系统的基础。一个良好的数据仓库设计应该是构建商业智能和数据挖掘系统不懈的追求。下面把数据仓库数据库设计的心得做一小结。一透彻理解数据仓库设计过程商业智能和数据挖掘归根到底是“从实践中来，到实践中去”。也就是说现实需求决定系统需求，业务数据决定系统构架，最终使用的时候又必须作用于现实需求，同时通过决策的行为影响业务。那么可以把数据仓库的设计看做是前一部分，即“从实践中来”，数据仓库的应用可以看做是“到实践中去”。把“从实践中来”这个过程进行抽象，数据仓库的设计就是“客观世界→主观世界→关系世界”的过程。在前面几节完成了6个任务：选择被建模主题的商业过程、确定事实表的粒度、区分每一个事实表的维和层、区分事实表的度量、确定每一个维表的属性、在D BMS中创建和管理数据仓库。实际上这些任务都可以归结到从客观世界到关系世界的过程。那么把这个过程再进行归纳，可以得到如图3-61所示的综合了模型、方法和过程的示意图。图3-61 数据仓库设计过程的模型和方法示意图二把握设计的关键环节

如果将时间、精力、金钱和人事优先花在前面的20%，那么这20%会创造出80% 的价值。这就是有名的2/8原则。下面将介绍在数据仓库设计中，哪些因素是属于这20%的范围。 1．需求需求分析在任何如见项目中都是最为重要的因素之一。企业模型是从企业的各个视点对企业数据需求及数据间关系的抽象。通过将企业模型映射到数据库系统，可以很快地了解现有数据库系统完成了企业模型中的哪些部分，还缺少哪些部分。然后再将企业模型映射到数据仓库系统，发现企业需要的（或可以构造的）主题。通过这样的过程完成对企业数据需求和现有数据的了解，达到明了原有系统和需要建设的主题域间共性的目的。 2．关键性能指标（KPI）一般而言，一个决策支持系统最重要的就是要呈现决策数据。而KPI就是决策过程中要显示的数据结果的部分，如销售数量、销售金额、毛利和运费等数值部分的数据。这些KPI是通过与相关的维表进行连接而映射出来的。在分析星形模式时，往往要首先确定KPI。 3．信息对象信息对象是指在每个分析过程中那些会影响到决策的因素。以销售分析为例，时间、产品、员工与客户就是影响决策的大因子，而每个因子又可以分离出多个分层结构，如时间可分为年、季度、月、周和日等，员工可分为年龄层、年龄、年薪层、年薪和员工所在城市等，也就是影响决策的详细因子。这些都是信息对象。从这里我们可以看出，每个大因子如时间、产品、员工与客户等就可以构成如时间维表、产品维表、员工维表与客户维表等。而时间维表又可分为年、季度和日等字段。在分析和设计这些信息对象组成的维度时，需要注意维的唯一性和公用性，千万不要在不同的主题中定义多个表示同一内容的维，如果有可能，一个维表要尽量被多个主题共享。 4．数据粒度在数据仓库的每个主题中，都必须考虑事实数据的粒度。粒度的具体划分将直接影响到数据仓库中的数据量及查询质量。在数据仓库开始进行分析时。就需要建立合适的数据粒度模型，指导数据仓库设计和其他问题的解决。如果数据粒度定义不当，将会影响数据仓库的使用效果，使数据仓库达不到设计数据仓库的目的。 5．数据之间的联系在数据仓库中，不同主题的数据之间的物理约束或许不再存在，但无论这些数据如何变化，要知道必须有一些“键”在逻辑上保持着不同数据之间的联系，这样

数据仓库中元数据的管理

数据仓库中元数据的管理M etadata M anagem en t i n a Data W arehouse 同济大学计算机科学与工程系(上海200092) 史金红　吴永明【摘要】　介绍了数据仓库中四种基本类型的元数据,说明了不同类型元数据的收集和维护方法,并着重对分布式元数据的集成和管理进行了详细的阐述。关键词:数据仓库,数据商场,决策支持,元数据【Abstract】　T h is p ap er in troduces fou r typ es of m etadata and the m ethods of co llecting and m ain tain ing them.It focu ses on the m etadata m anagem en t and in tegrity. Key words:　da ta warehouse,da ta mart, dec ision support,m etada ta 1　引言随着社会的发展和计算机技术的进步,人们已不满足于用计算机只作简单的数据处理和事务处理。进一步用现有的数据进行分析和推理,从而为决策提供依据的需求导致了决策支持系统(D SS)的出现。90年代以来计算机技术、网络技术和数据库技术的迅速发展为D SS提供了必要的技术环境, OL T P和办公自动化普遍应用积累的大量数据为D SS提供了必要的数据基础,日趋激烈的市场竞争促进了各级管理和决策人员对D SS的实际需求,因此自从1991年W.H.Inm on提出数据仓库的概念和1993年E.F.Codd提出OLA P概念以来,已有许多商品化的数据仓库管理系统和联机分析处理工具软件面市。以上诸因素的共同作用促成许多公司、机构纷纷为提高自己的竞争能力建立数据仓库系统以进行决策支持。元数据是成功的数据仓库的重要组成部分,它可以帮助数据仓库项目小组明确而全面地理解潜在数据源的物理布局以及所有数据元的业务定义,帮助数据仓库用户有效地使用仓库中的信息,帮助数据库管理员了解某些表的变化将对数据仓库产生怎样的影响以及不同商业过程对应的应用等等。项目小组在开发过程中应当识别元数据并将它收入到元数据商店中,实施适当的过程捕作企业数据结构和应用的变化,从而修改相应的元数据,并向用户提供适当的工具访问元数据。 2　元数据的基本类型元数据按照其用户可以分为技术元数据和商业元数据。技术元数据提供给数据仓库的技术人员,数据仓库技术人员在仓库的开发和维护中使用这类元数据。商业元数据是商业用户在仓库中寻找他们所需商业信息的一个辅助。但是,技术人员可能也需要访问几种类型的商业元数据,如和商业用户讨论信息需求和建立企业的数据模型。同样,商业用户也需要尝试高水平的技术元数据。元数据按其内容可以分为四个基本类型: 1)关于数据仓库潜在数据来源的信息,包括现有的业务系统、可得到的外部数据和目前手工维护的信息。例如,一个组织可以从中识别数据来源的潜在仓库数据源有:几个现有的应用程序,由财务部门保存的基于PC机的电子报表,从某一卖主处购买的销售数据,目前由顾客服务部门在纸上保存的顾客联系记录。 2)关于数据模型的信息,包括业务实体、关系、企业规则和企业数据模型。 3)关于业务数据与仓库数据结构间的映射信息。只要那些来源中的一个数据元与仓库建立了映射关系,就应该记录下这些数据元间的逻辑联系以及发生的任何变换或变动。 4)关于数据仓库中信息的使用情况。了解这类信息对更好地调整仓库性能、更多地利用现有查询以及理解仓库中的信息怎样用于解决企业问题是很重要的。 3　元数据的收集和维护在适当的时间收集适当的元数据是成功实施元数据驱动的数据仓库的基础。为保证较高的准确

数据仓库项目数据类测试流程

1编写目的................................................ 错误!未定义书签。2角色与职责.............................................. 错误!未定义书签。3过程活动描述............................................ 错误!未定义书签。单元测试......................................... 错误!未定义书签。单元测试活动流程图........................... 错误!未定义书签。单元测试准备................................. 错误!未定义书签。单元测试计划准备..................... 错误!未定义书签。目的............................. 错误!未定义书签。角色和职责....................... 错误!未定义书签。进入条件......................... 错误!未定义书签。输入............................. 错误!未定义书签。任务描述......................... 错误!未定义书签。输出............................. 错误!未定义书签。退出条件......................... 错误!未定义书签。单元测试数据和环境准备............... 错误!未定义书签。目的............................. 错误!未定义书签。角色和职责....................... 错误!未定义书签。进入条件......................... 错误!未定义书签。输入............................. 错误!未定义书签。任务描述......................... 错误!未定义书签。输出............................. 错误!未定义书签。退出条件......................... 错误!未定义书签。单元测试..................................... 错误!未定义书签。目的................................. 错误!未定义书签。角色和职责........................... 错误!未定义书签。进入条件............................. 错误!未定义书签。输入................................. 错误!未定义书签。任务描述............................. 错误!未定义书签。测试目标及测试方法................... 错误!未定义书签。模型脚本单元测试目标及测试方法... 错误!未定义书签。应用脚本单元测试目标及测试方法... 错误!未定义书签。输出................................. 错误!未定义书签。退出条件............................. 错误!未定义书签。集成测试......................................... 错误!未定义书签。集成测试活动流程图........................... 错误!未定义书签。集成测试准备................................. 错误!未定义书签。集成测试计划和方案准备............... 错误!未定义书签。目的............................. 错误!未定义书签。角色和职责....................... 错误!未定义书签。进入条件......................... 错误!未定义书签。输入............................. 错误!未定义书签。任务描述......................... 错误!未定义书签。输出............................. 错误!未定义书签。退出条件......................... 错误!未定义书签。

数据仓库基本架构

数据仓库的基本架构 xiaoyi发表于 2013-07-31 23:57 来源：网站数据分析数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）。其实数据仓库本身并不“生产”任何数据，同时自身也不需要“消费”任何的数据，数据来源于外部，并且开放给外部应用，这也是为什么叫“仓库”，而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程，可以分为三层——源数据、数据仓库、数据应用：从图中可以看出数据仓库的数据来源于不同的源数据，并提供多样的数据应用，数据自上而下流入数据仓库后向上层开放应用，而数据仓库只是中间集成化数据管理的一个平台。数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL（抽取Extra, 转化Transfer, 装载Load）的过程，ETL是数据仓库的流水线，也可以认为是数据仓库的血液，它维系着数据仓库中数据的新陈代谢，而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。下面主要简单介绍下数据仓库架构中的各个模块，当然这里所介绍的数据仓库主要是指网站数据仓库。数据仓库的数据来源

其实之前的一篇文章已经介绍过数据仓库各种源数据的类型——数据仓库的源数据类型，所以这里不再详细介绍。对于网站数据仓库而言，点击流日志是一块主要的数据来源，它是网站分析的基础数据；当然网站的数据库数据也并不可少，其记录这网站运营的数据及各种用户操作的结果，对于分析网站Outcome这类数据更加精准；其他是网站内外部可能产生的文档及其它各类对于公司决策有用的数据。数据仓库的数据存储源数据通过ETL的日常任务调度导出，并经过转换后以特性的形式存入数据仓库。其实这个过程一直有很大的争议，就是到底数据仓库需不需要储存细节数据，一方的观点是数据仓库面向分析，所以只要存储特定需求的多维分析模型；另一方的观点是数据仓库先要建立和维护细节数据，再根据需求聚合和处理细节数据生成特定的分析模型。我比较偏向后面一个观点：数据仓库并不需要储存所有的原始数据，但数据仓库需要储存细节数据，并且导入的数据必须经过整理和转换使其面向主题。简单地解释下： (1).为什么不需要所有原始数据？数据仓库面向分析处理，但是某些源数据对于分析而言没有价值或者其可能产生的价值远低于储存这些数据所需要的数据仓库的实现和性能上的成本。比如我们知道用户的省份、城市足够，至于用户究竟住哪里可能只是物流商关心的事，或者用户在博客的评论内容可能只是文本挖掘会有需要，但将这些冗长的评论文本存在数据仓库就得不偿失；

大数据仓库建设方案设计

第1章数据仓库建设 1.1数据仓库总体架构专家系统接收增购项目车辆TCMS或其他子系统通过车地通信传输的实时或离线数据，经过一系列综合诊断分析，以各种报表图形或信息推送的形式向用户展示分析结果。针对诊断出的车辆故障将给出专家建议处理措施，为车辆的故障根因修复提供必要的支持。根据专家系统数据仓库建设目标，结合系统数据业务规范，包括数据采集频率、数据采集量等相关因素，设计专家系统数据仓库架构如下：数据仓库架构从层次结构上分为数据采集、数据存、数据分析、数据服务等几个方面的内容：数据采集：负责从各业务自系统中汇集信息数据，系统支撑Kafka、Storm、Flume

及传统的ETL采集工具。数据存储：本系统提供Hdfs、Hbase及RDBMS相结合的存储模式，支持海量数据的分布式存储。数据分析：数据仓库体系支持传统的OLAP分析及基于Spark常规机器学习算法。数据服务总线：数据系统提供数据服务总线服务，实现对数据资源的统一管理和调度，并对外提供数据服务。 1.2数据采集专家系统数据仓库数据采集包括两个部分内容：外部数据汇集、内部各层数据的提取与加载。外部数据汇集是指从TCMS、车载子系统等外部信息系统汇集数据到专家数据仓库的操作型存储层（ODS）；内部各层数据的提取与加载是指数据仓库各存储层间的数据提取、转换与加载。 1.2.1外部数据汇集专家数据仓库数据源包括列车监控与检测系统（TCMS）、车载子系统等相关子系统，数据采集的内容分为实时数据采集和定时数据采集两大类，实时数据采集主要对于各项检测指标数据；非实时采集包括日检修数据等。根据项目信息汇集要求，列车指标信息采集具有采集数据量大，采集频率高的特点，考虑到系统后期的扩展，因此在数据数据采集方面，要求采集体系支持高吞吐量、高频率、海量数据采集，同时系统应该灵活可配置，可根据业务的需要进行灵活配置横向扩展。本方案在数据采集架构采用Flume+Kafka+Storm的组合架构，采用Flume和ETL 工具作为Kafka的Producer，采用Storm作为Kafka的Consumer，Storm可实现对海量数据的实时处理，及时对问题指标进行预警。具体采集系统技术结构图如下: