数据仓库与数据挖掘复习
- 格式:doc
- 大小:402.00 KB
- 文档页数:9
《数据仓库与数据挖掘》复习大纲三、简答题(5×6分=30分)四、分析计算题(3×10分=30分)考试范围:第一讲数据挖掘概述考点:1、数据挖掘、知识发现(KDD)基本概念;2、数据挖掘的过程;3、数据挖掘过技术的三个主要部分。
复习参考题:一、填空题(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示。
(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理。
(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习。
(4)在万维网(WWW)上应用的数据挖掘技术常被称为:WEB挖掘。
(5)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据。
二、单选题(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:BA、所涉及的算法的复杂性;B、所涉及的数据量;C、计算结果的表现形式;D、是否使用了人工智能技术(2)孤立点挖掘适用于下列哪种场合?DA、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测(3)下列几种数据挖掘功能中,( D )被广泛的应用于股票价格走势分析。
A. 关联分析B.分类和预测C.聚类分析D. 演变分析(4)下面的数据挖掘的任务中,( B )将决定所使用的数据挖掘功能。
A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示(5)下列几种数据挖掘功能中,(A )被广泛的用于购物篮分析。
A、关联分析B、分类和预测C、聚类分析D、演变分析(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是( B)。
A.关联分析B.分类和预测C. 演变分析D. 概念描述(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是( C )。
A.关联分析B.分类和预测C.聚类分析D. 孤立点分析E. 演变分析(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( E )A.关联分析B.分类和预测C. 孤立点分析D. 演变分析E. 概念描述三、简答题1、何谓数据挖掘?它有哪些方面的功能?答:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。
数据仓库与数据挖掘复习大全湖北文理学院湖北襄阳王茂林1.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准?(A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。
(b)描述有多少比例的小偷给警察抓了的标准。
A. Precision, RecallB. Recall, PrecisionC. Precision, ROCD. Recall, ROC分类是一种重要的数据挖掘算法。
分类的目的是构造一个分类函数或分类模型(即分类器),通过分类器将数据对象映射到某一个给定的类别中。
分类器的主要评价指标有准确率(Precision)、召回率(Recall)、F b-score、ROC、AOC等。
准确率(Precision) 和召回率(Recall)是信息检索领域两个最基本的指标。
准确率也称为查准率,召回率也称为查全率。
它们的定义如下:Precision=系统检索到的相关文件数量/系统检索到的文件总数量Recall=系统检索到的相关文件数量/系统所有相关文件数量F b-score是准确率和召回率的调和平均:F b=[(1+b2)*P*R]/(b2*P+R),比较常用的是F1。
在信息检索中,准确率和召回率是互相影响的,虽然两者都高是一种期望的理想情况,然而实际中常常是准确率高、召回率就低,或者召回率低、但准确率高。
所以在实际中常常需要根据具体情况做出取舍,例如对一般搜索的情况是在保证召回率的情况下提升准确率,而如果是疾病监测、反垃圾邮件等,则是在保证准确率的条件下,提升召回率。
但有时候,需要兼顾两者,那么就可以用F-score指标。
在信息检索中,准确率和召回率是互相影响的,虽然两者都高是一种期望的理想情况,然而实际中常常是准确率高、召回率就低,或者召回率低、但准确率高。
数据仓库和数据挖掘复习第一章数据仓库和数据挖掘概述一、概念题1、数据仓库的定义是什么?答:数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中央决策制定过程。
2、数据仓库的特点是什么?答:数据仓库的特点是:(1)数据仓库是面向主题的;(2)数据仓库是集成的;(3)数据仓库是稳定的;(4)数据仓库是随时间变化的;(5)数据仓库中的数据量大;(6)数据仓库软硬件要求较高。
3、什么是商业智能?答:商业智能以数据库为基准,通过联机分析处理和数据挖掘技术帮助企业领导者针对市场变化的环境,做出快速、准确的决策。
二、简答题1、数据仓库和数据挖掘的区别和联系。
区别:数据仓库是一种存储技术,它的数据存储量是一般数据库的100倍,它包含大量的历史数据、当前的详细数据以及综合数据。
它能适应于不同用户对不同决策需要提供所需的数据和信息。
数据挖掘是从人工智能机器学习中发展起来的。
它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
联系:数据仓库和数据挖掘都是决策支持新技术。
但他们有着完全不同的辅助决策方式。
数据仓库中存储着大量辅助决策的数据,它为不同的用户随时提供各种辅助决策的随机查询、综合信息或趋势分析信息。
数据挖掘是利用一系列算法挖掘数据中隐含的信息和知识,让用户在进行决策中使用。
第二章 数据仓库原理一、概念题1、数据仓库结构图是什么?2、数据集市的定义是什么?答:数据集市是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用,支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的具体解决方案,它包括两种,即独立的数据集市,它的数据直接来源于各生产系统;从属数据集市,它的数据直接来自于中央数据仓库。
3、多维数据模型有哪些?答:对于逻辑数据模型,使用的多维数据模型主要有星型模型、雪花模型、星网模型、第三范式等。
4、ETL 过程是什么?答:数据仓库的数据获取需要经过抽取、转换、装载三个过程,即ETL 过程。
数据仓库与数据挖掘期末综合复习第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理和联机分析处理。
4、多维分析是指以维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP 实现。
OLAP技术的有关概念:OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAP6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。
&操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9、实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
11、什么是数据仓库?数据仓库的特点主要有哪些?数据仓库通常是指一个数据库环境,而不是支一件产品,它是提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中通常不方便得到。
数据仓库就是一个面向主题的(Subject Oriented )、集成的(Integrate )、相对稳定的(Non-Volatile )、反映历史变化(Time Variant )的数据集合,通常用于辅助决策支持。
数据挖掘与数据仓库复习资料2010—04—07 16:511数据仓库与数据挖掘的关系大多数数据挖掘工具需要在集成的、一致的、经过清理的数据上进行挖掘.数据挖掘过程中所需要的数据处理与分析工具完全可以在数据仓库的数据处理与数据分析工具中找到,数据仓库中的OLAP完全可以为数据挖掘提供有关的数据操作支持数据挖掘技术在数据仓库中的应用,正好弥补了数据仓库只能提供大量数据,而无法进行深度信息分析的缺陷。
2数据仓库与传统数据库长期共存首先,企业内数据库与数据仓库将长期共存。
其次,数据库是数据仓库的基础。
第三,在技术实现方面,数据库与数据仓库几乎没有差别。
第四,不要脱离企业的实际,盲目地、片面地、甚至是赶时髦地去实施数据仓库.第五,数据仓库在能够为企业带来利益的同时,在支持企业信息决策中也存在一些局限性。
总之,不要过分夸大数据仓库与传统数据库的差异,不要过分夸大数据仓库系统的作用、贬低数据库系统的作用。
数据库与数据仓库将长期共存下去。
3挖掘与信息的关系4弥补传统数据库不足传统数据库的主要任务是进行事务处理,它所关注的是事务处理的及时性、完整性与正确性,而在数据的分析处理方面,则存在着诸多的不足,主要体现在缺乏集成性、主题不明确等几个方面.1.集成性的缺乏首先,业务数据库系统的条块与部门分割,导致数据分布的分散化与无序化.其次,业务数据库缺乏统一的定义与规划,导致数据定义存在歧义。
2.主题不明确3.分析处理效率低5数据仓库的特点和主题特点:数据仓库是面向主题的数据仓库是集成的数据仓库是稳定的数据仓库是随时间变化的数据仓库的数据量很大数据仓库软硬件要求较高6体系结构(三个层次)数据集市结构数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库,没有一个独立的数据仓库.系统的数据不存储在同一数据仓库中,每个主题有自己的物理存储区。
单一数据仓库结构将所有的主题都集中到一个大型数据库中的体系结构.数据源中数据被按照同一标准抽取到独立的数据仓库中,用户在使用时再根据主题将数据仓库中的数据发布到数据集市中。
数据仓库与数据挖掘复习提纲-标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII数据库应用技术(数据仓库与数据挖掘复习提纲)说明:考试形式:闭卷考试题型:填空、选择、判断、名词解释、简答题、综合题。
(由于试题是随机从试题库中抽取,有可能抽取的试题中不会全部包含上述的所有题型)另外:本提纲仅针对试题中的名词解释、简答题和综合题提供复习参考,不包括填空、选择、判断等其它题型的参考。
一:名词解释数据仓库、数据挖掘、OLAP、ODS(操作数据存储)二.简答题1.试述数据仓库系统与数据库系统的区别与相似之处。
2.试述数据仓库设计的步骤以及每一步所完成的工作。
3.OLAP与OLTP的区别有哪些?它们适合于运行在同一个服务器上吗为什么4.在数据挖掘前,为什么要对数据进行预处理,数据预处理的有哪些主要的处理方法?5.在现实世界的数据中,元组在某些属性上缺少值是常有的。
描述处理该问题的各种方法。
6.什么是数据仓库中的元数据,元数据包含哪些内容其重要性体现在哪些方面7.试述ODS在“DB-ODS-DW”体系结构中的作用。
8.请解释OLAP中维、维层次与维成员的概念,并举例说明。
9. 数据仓库中的数据是数据库中数据的简单堆积吗它有哪些常用的数据组织方式10.数据仓库和数据集市的区别是什么数据仓库的体系环境具有什么特点有哪些建立数据仓库体系化环境的方法它们各有何优劣11.数据仓库的设计包括哪些内容?12.在内容和使用者方面,数据仓库环境中的元数据与操作型环境中的元数据有何异同?13.为了提高数据仓库的性能,可以在哪些方面作一些努力在各个方面分别采用什么样的技术这些技术易于实现吗14.OLAP提供哪些基本操作?15.OLAP服务器有哪些实现方法它们的优劣是什么16.为什么不能依靠传统的业务处理系统进行决策分析17.自然演化体系结构中存在的问题?18.试述建立多维数据库的过程。
19.数据挖掘的主要方法。
第一章数据仓库与数据挖掘概述无习题第二章数据仓库概述一.判断题在分析型处理产生后,数据处理的环境由原来的以单一数据库为中心的数据环境发展为以数据仓库为基础的体系化环境。
在事务型(操作型)数据处理下,数据处理的环境主要是以单一数据库为中心的数据环境。
数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术.面向应用,是数据仓库区别于传统的操作型数据库的关键特征。
一个数据仓库是通过集成多个异种数据源来构造的。
由于在数据仓库中只进行数据的初始装载和查询操作,所以,数据一旦进入数据仓库,就是稳定的,基本上不会被更新。
数据立方体必须是3维的。
在数据仓库中,概念分层定义了一个映射序列,可以将低层概念映射到更一般的高层概念。
方体的格,是在单个维上定义的映射序列,可以将低层概念映射到更一般的高层概念。
雪花模型通过在每个维表基础上,增加附加维表的方式来降低星型模型中可能会存在的冗余现象。
在事实星座模型中,有且仅能有一个事实表。
在数据仓库的设计过程中,要坚持“数据驱动和需求驱动双驱动,且以需求驱动为中心”的原则。
二.单选题在以下人员中,被誉为“数据仓库之父”的是:()(知识点:数据仓库的基本概念;易)A. H.Inmon B. E.F.Codd C. Simon D. Pawlak以下关于数据仓库的说法正确的是:()(知识点:数据仓库的基本概念;难)A. 数据仓库中的数据只能来源于组织内部的操作型数据库B. 数据仓库是为应对事务型数据处理的需要而产生的C. 数据仓库是面向主题的,这是其区别于操作型数据库的关键特征D. 数据仓库必须是面向企业全局的,不能以部门为单位建立数据仓库以下哪项不是“信息包图”中的元素?()(知识点:数据仓库的三级模型;难)A. 维度B. 维的概念层次及相应层次上的数量C. 度量D. 方体的格以下哪项不属于数据仓库的逻辑模型?()(知识点:数据仓库的三级模型;中)A. 星型模型B. 雪花模型C. 度量模型D. 事实星座模型在数据仓库的设计过程中,下列描述正确的是()(知识点:数据仓库的设计;难)A. 数据仓库是“数据驱动+需求驱动”双驱动,但必须以需求驱动为中心B. 数据仓库主要面向分析型处理环境,在设计时很难完全明确用户的需求C. 数据仓库与数据库一样,其数据主要来自于企业的业务流程D. 数据仓库的设计目标是要提高事务处理的性能下面哪项关于星型模型的说法是不正确的:()(知识点:数据仓库的三级模型;难)A. 有一个事实表,且事实表中的属性由指向各个维表的外键和一些相应的度量数据组成B. 有一组小的附属表,称为维表,且每维一个维表C. 事实表的每个字段都是事实度量字段D. 由于每维只能建立一个维表,使得维表中有些信息会产生冗余在数据仓库的概念模型中,通过()来实现数据从客观世界到主观认识的映射。
数据仓库和数据挖掘技术复习提纲一.数据仓库导论1.数据仓库的定义及其基本特征。
2.数据仓库与传统数据库的区别。
.综述建设数据仓库的必要性。
二.数据仓库的体系结构1.数据仓库系统的结构及各部分的主要功能。
2.数据仓库的结构及各部分的主要功能。
3.简述星型模型的结构特征。
.综述元数据的定义及作用。
三.数据仓库设计1.简述数据仓库开发的生命周期。
2.简述数据仓库的技术体系结构及各模块的功能。
3.数据仓库高层建摸与中间层建摸的区别和联系。
4.在数据仓库物理建摸时,如何提高的性能。
5.什么是粒度,进行粒度设计的基本方法是什么。
.综述数据仓库开发的步骤及各步骤之间的联系。
四.数据仓库管理技术1.什么是休眠数据,产生休眠数据的原因是什么。
2.综述邻线存储方案的基本思想及实现方法。
3.简述元数据的管理方法和使用方法。
4.数据仓库增量式更新的主要技术是什么.防止数据仓库中数据急剧增长的主要方法是什么五.联机分析处理1.的定义及主要特征。
2.图示与的关系。
3.举例说明什么是的切片、切块、下钻操作。
4.和的主要区别是什么。
5.和(多维数据库)的区别是什么。
6.分析的基本步骤。
.什么是,它有什么意义。
六.数据挖掘技术1.什么是数据挖掘,它与传统分析方法的主要区别是什么。
2.数据挖掘有那些主要方法。
3.什么是关联规则?举例说明。
4.简述关联规则的支持度,可信度的定义,并举例说明。
5.简述算法的基本思想。
6.设有交易数据库如图所示。
若最小支持度计数阈值为,最小可信度计数阈值为,试按算法求出<> 频繁项集<> 关联规则<> 根据你的理解,说明这些关联规则的意义,并指出使用那一条规则,公司可能赢利。
数据仓库与挖掘复习资料一、第一章1、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据元数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
2、数据处理通常分成两大类:联机事务处理和联机分析处理。
3、多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5.ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
12、简述数据仓库4种体系结构的异同点及其适用性。
(1)两层架构。
(2)独立型的数据集市。
采用这种体系结构的优点是其方便性,可快速启动,这个数据仓库架构可通过一系列的小项目来实现。
(3)依赖型数据集市和操作型数据存储。
优势是它们可以处理各个用户群的需求,甚至是探索性数据仓库的需求。
(4)逻辑型数据集市和实时数据仓库。
是建立数据仓库的一种较佳方法,特别是在硬件性能不断提高,成本不断下降的条件下。
14、请列出3种数据仓库产品,并说明其优缺点。
答:1、IBM公司提供了一套基于可视化数据仓库的商业智能BI解决方案。
2、Oracle数据仓库解决方案主要包括Oracle Express和Oracle Discover两个部分。
3、Microsoft 将OLAP功能集成到SQL Server数据库中,其解决方案包括BI平台、BI终端工具、BI门户和BI应用四个部分。
二、什么是数据挖掘?(p4)数据挖掘就是从从大量数据数据中提取或“挖掘”知识,又被称为数据库中的知识发现。
三、数据仓库与传统的数据库有何区别?(1)数据库是面向事务的设计,数据仓库是面向主题设计的。
(2)数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
(3)数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计时有意引入冗余,采用反范式的方式来设计。
2011春《数据仓库与数据挖掘》复习提纲1、商务智能【参考:是一种解决方案,它的目的是把用户积累下来的、大量的数据转化为业务容易理解的信息,进而辅助决策。
】2、对数据仓库的定义【参考:仅仅是构成它的数据集市的联合。
】3、对数据仓库的定义【参考:一个面向主题的、集成的、随时间变化的、非易逝的用于支持管理的决策过程的数据集合。
】4、【参考:数据的提取、转换和装载,预处理数据并装在中。
】5、数据仓库总线矩阵【参考:该矩阵将公司业务过程映射到参与这些过程的实体或对象。
矩阵的每一行对应一个业务过程,每一列描述对象,它们参与了各种业务过程。
】6、事实【参考:对一些事件发生结果的度量。
】7、维度【参考:维度是维度模型的基础,用来描述业务的对象。
】8、粒度【参考:事实表中包含信息的详尽程度。
】9、维度模型【参考:由一个中心事实表(或者多个事实表)和与其相关的维度构成。
事实表位于中心,而所有维度表环绕在其周围,类似于星形结构,因此又把维度模型称为星形模式。
】10、业务过程维度模型【参考:关于一个业务过程所有的维度模型的集合。
】11、多维数据集(又称为数据立方体)由维度和一个或多个度量组构成的多维分析结构,用于12、部署【参考:将多维数据集的定义发布到服务器上的过程。
】13、联机分析处理采用多维数据结构和层次结构作为导航,探查汇总数据,辅助决策。
14、代理键【参考:对于系统,需要在数据仓库数据库中建立一组与事务处理源系统中的键分离开来的全新的键,称这种键为代理键。
】独立于业务键的用于数据仓库中的从中的人工键15、渐变维度【参考:属性值可以改变的维度。
分为值的改变需要跟踪和不需要跟踪两种。
】16、聚合【参考:经过预先计算后形成的汇总表,主要目标是用来改进查询性能。
】17、星型模型【参考:由一个事实表和多个维度表构成的模型。
事实表与维度表是1对多关系。
事实表位于中心,而所有维度表环绕在其周围,类似于星形结构。
】18、雪花模型【参考:雪花模型是将维度表中的字段和查找表相连接而得到的结果。
】19、事实星座模型由多个星型模型或雪花模型通过共享维度形成的多事实表多维度表的模型20、多维数据库【参考:采用多维数据组存储数据,主要应用于服务器的数据存储结构。
】21、 2005的维度层次22、 2005的属性层次默认为每个维度每个属性构成的单层结构23、数据挖掘【参考答案:从海量数据中提取有趣模式或知识(有趣是指:隐含的、非平凡的、事先未知的、潜在有用的)】24、数据挖掘的两大类通用功能【参考答案:描述型数据挖掘和预测型数据挖掘。
前者用于刻画数据集的一般特征,后者对现有数据进行推演以用于新实例(某个属性的取值)的预测。
】25、【参考答案:,联机分析挖掘,将与数据挖掘相互融合进行数据探查分析,是未来基于数据仓库的数据分析的一种趋势】26、简单了解关联分析(又称为关联规则挖掘或购物篮分析)、分类、回归、聚类分析的功能关联分析:发现交易数据库中不同商品(项)之间的联系分类:预测离散属性的取值回归:预测连续属性的取值聚类分析:将数据分类到不同的类或者簇27、数据仓库各环节工具(如)的市场占有率最高的公司【参考:(1)市场,微软第一;(2)市场三大主流:(美国公司)—市场老大;(公司);(数据仓库(引擎)老大美国公司)。
((公司)28、数据库和数据仓库的区别【参考答案:(1)应用目的不同:数据库主要用于构建联机事务处理()系统,这种系统自己产生新数据,每次事务处理涉及的记录数较少,通常为几条;而数据仓库主要用于构建分析型决策支持系统,这种系统自己不产生新数据,所使用的数据来自于系统或其他数据源。
(2)数据的时间跨度不同:数据库通常存放较新的业务数据;而数据仓库中存放的是历史业务数据,其时间跨度为5~10年。
(3)数据的业务范围不同:数据库系统通常关注局部业务范围的事务处理;数据仓库通常要关注整个企业的全部业务。
(4)所采用的设计技术不同:数据库面向事务,采用三范式(3)建模;数据仓库则面向主题,采用三范式(3)或维度模型建模。
(5)注重的技术不同:数据库系统存在大量的数据查询和数据更新,需要重点考虑包括数据更新和并发控制技术在内的各种数据处理技术,而数据仓库以数据查询为主,数据更新较少,所以不需过多的考虑数据更新和并发控制,主要考虑数据查询性能的提升。
】29、数据仓库的两大技术流派及主要差异。
【参考:和。
(1)数据仓库定义的差异:将数据仓库定义为“一个面向主题的、集成的、随时间变化的、非易逝的用于支持管理的决策过程的数据集合”。
说“数据仓库仅仅是构成它的数据集市的联合”。
(2)数据仓库构建方法之争:恩门的“”主张建立数据仓库时采用自上而下()方式,以第3范式进行数据仓库模型设计,而他生活上的好朋友在“”则是主张自下而上()的方式,力推数据集市建设,以致他们的吵闹得差点打了起来,直至恩门推出新的架构(),把的数据集市包括了进来才算平息。
恩门认为星型模型只适用于数据集市(星型模型对于数据集市是十分理想的),而不适用于数据仓库。
(3) 对数据集市的理解差异: :面向部门()的小型数据仓库——, :面向业务过程()的小型数据仓库——。
】30、流派主张基于哪四个主要原则的迭代方法来构建数据仓库体系【参考:(1)从业务着手——出发点;(2)构建一个信息基础设施——设计一个单一、集成、易用、高效的信息基础平台能够满足企业内部的各种需求;(3)按时间周期增量交付——根据业务价值进行优先级排序,每个时间周期对应时间轴上的6—12个月;(4)发布整个解决方案——交付仅仅是个开始,还要交付即席查询、报表、、等应用。
】31、多对多维度(或多值维度)怎样表达?包括哪两类?【参考答案:多对多维度需要增加一个桥接表来表示。
它包括维度表和事实表之间的多对多、维度表与维度表之间的多对多两类。
前者将桥接表与事实表相连,后者将其中的一个维度表与事实表相连。
】32、如何使用2×2矩阵确定各业务过程所对应子项目的优先级。
【参考:区分优先级过程是规划会议,涉及小组、项目的业务赞助商,以及公司各部门的其他关键高层管理人员。
在会议中,要描述在企业需求收集过程中所标识的业务过程,以便每个人都能理解每个业务过程的可能性。
参加这个会议要准备演示,以便描述每个业务过程,要列举几个将支持的相关分析的示例,以增加对这些分析的业务价值的感性认识,包括实现业务过程(可行性)所需付出努力的级别。
描述要尽可能明快、清晰。
试着把演示时间控制在2个小时以内。
当描述每个业务过程的时候,也就描述了提供必要数据所涉及的有关努力。
一旦每个人都理解了业务过程和术语,可以休息一会儿。
会议的后半部分包括区分业务过程的优先级。
引导会议小组把每个棘手的业务过程注释放置到两-两()网格上。
】33、 2005的三个版本及区别。
【参考:标准版、企业版和开发版。
对多数小型和中等规模的实现,标准版可能就足够了。
如果按照不带索引的数据来度量,数据卷为50或者更少,那么不需要使用企业版中的可伸缩特性即可实现。
根据增量加载的卷、频率和正常运行时间的需求,中等规模的、高达250数据量的实现也可以运行在标准版上。
对于任何大型的、实时的、或者其他具有挑战性的实现,应该计划使用企业版。
无论生产中采用哪个版本,开发人员都应该使用开发版。
除了选择标准版还是企业版外,还需要决定使用32位平台还是64位平台。
】34、 2005的主动缓存技术。
【参考:对于低延迟的数据库来说,主动缓存相当有意义——它针对的是实时多维数据集(或者接近实时的多维数据集)。
当用户建立主动缓存时,要求监控针对度量组分区的关系源,并在数据发生变化时自动执行增量处理。
】35、事实表分哪三类?有什么区别?【参考:事务、周期快照及累积快照。
迄今为止提到的大多数事实表都属于事务类型。
事务事实表跟踪发生在非连续时间点上的每次事务。
周期快照事实表捕获特定时间间隔的累积性能,并且对于跨越同一值链中的几个业务过程组合数据相当有用。
周期快照事实也跨越时间间隔聚合许多事实,并且向用户提供获得事实总数的快速方法。
在特定的时间点获得快照的位置,例如月末停业后,累积快照会随时间而经常更新。
一般来说,累积快照的设计包括几个日期字段,用来捕获当问题中的项经过值链中的每个业务过程或者里程碑时的日期。
累积快照提供了延期交付的订单在任意时间点上的状态,以及已完成订单的历史纪录,通过详细检查历史记录以获得感兴趣的度量。
】36、列出行业2007-2008年最大的三笔企业收购案和现在的四大主宰公司。
【参考:甲骨文公司(,下称甲骨文)收购了海波龙公司(,下称海波龙),公司买下了博奥杰软件公司( ,下称博奥杰),国际商用机器公司()则吞并了公司。
、、、。
】37、业务需求定义的主要步骤(1)初始项目作用域,定义业务范围(2)定义企业级业务需求(3)区分需求优先级(4)项目规划(5)定义项目业务需求38、企业级业务需求定义过程的主要步骤【参考:(1)准备;(2)采访业务人员和人员;(3)采访摘要和分析主题;(4)数据审核/数据记录;(5)标识支持分析主题的业务过程;(6)构建初始总线矩阵;(7)创建全局需求文档。
】39、典型的数据仓库/商务智能()系统三层体系结构。
【参考:数据获取层()、数据存储层(和数据仓库)和数据展现层(随即查询、报表、和数据挖掘)。
】40、数据库数据的物理存储有等三种可选模式,试简述事实数据和维度数据可以采取的存储模式以及每种模式中数据的存放位置。
这三种模式中哪种最节省存储空间?【参考::叶子数据和聚合存储为的格式。
:叶子数据存储在关系数据库中,聚合存储为格式。
:叶子数据和聚合都存储在源关系数据库中。
最节省存储空间。
】41、维度建模的主要步骤及每个步骤的主要成果(或检查点)【参考:首先是高级维度模型设计会话/过程(),该会话定义业务过程维度模型的边界;然后是详细模型开发阶段,包括逐个表地填充属性列表、解决各种问题和不确定性等;最后阶段是一系列模型评审、重新设计、确认步骤。
高层维度模型设计的3个检查点是高级图形模型、初始属性列表和初始问题列表。
】42、简要描述建立数据库的步骤。
【参考:(1) 建立设计和开发环境(2) 创建数据源视图(3) 创建并调整维度(4) 运行多维数据集(或立方体)向导并编辑所生成的多维数据集(5) 在开发服务器上部署数据库(6) 创建计算()及其他修饰(7) 重复以上步骤(, , )。
】43、请画出业务维度生命周期框图并标明每个环节上微软()的可用工具集业务需求定义 项目规划 维度建模 技术体系结构设计 产品选择和 安装所有产品物理设计ETL 设计 和开发 部署增长 全部产品 维护 BI 应用程序开发BI 应用程序 规范 项目管理: 第三方工具 第三方产品 脚本 脚本。