数据仓库、商业智能相关面试题(带答案)

  • 格式:docx
  • 大小:33.15 KB
  • 文档页数:11

下载文档原格式

  / 22
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1商务智能

1.1数据仓库

1.1.1数据仓库的4大特点(特征)?

面向主题的,集成的,相对稳定的,反映历史变化的。

1.1.2数据仓库的四个层次体系结构?

1.数据源

是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信

息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信

息包括各类法律法规、市场信息和竞争对手的信息等等;

2.数据的存储与管理

是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库

的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形

式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术

特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照

主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数

据仓库(通常称为数据集市)

3.OLAP服务器

对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次

的分析,并发现趋势。其具体实现可以分为:ROLAP(关系型在线分析处理)、MOLAP

(多维在线分析处理)和HOLAP(混合型线上分析处理)。ROLAP基本数据和聚合

数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;

HOLAP 基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。

4.前端工具

主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以数据挖掘及各

种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP 服

务器,报表工具、数据挖掘工具主要针对数据仓库。

1.1.3描述一下联机分析处理OLAP?(维的概念,基本多维

操作,层次结构,与OLTP的区别)

OLAP(联机分析处理On-Line Analytical Processing)也叫多维DBMS。

OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直

观易懂的查询结果。

OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。

“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。也叫做多维数据集。一般一个多维数据集可以用一个立方体的方式进行描述。

多维数据集是联机分析处理(OLAP) 中的主要对象,是一项可对数据仓库中的数据进行快速访问的技术。多维数据集是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构。

每个多维数据集都有一个架构,架构是数据仓库中已联接的各表的集合,多维数据集从数据仓库提取其源数据。架构中的核心表是事实数据表,事实数据表是多维数据集度量值的源。

OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through等。·钻取是改变维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维。·切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。·旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。

1.1.4多维数据集为什么显示有些表即是事实表又是维度

表?

退化维度。

1.1.5描述一下粒度?维度?Cube?

粒度反映了数据仓库按照不同的层次组织数据,根据不同的查询需要,存储不同细节的数据。在数据仓库中,粒度越小,数据越细,查询范围就越广泛。相反,粒度级别越高,表示细节程度越低,查询范围越小。

1.1.6描述一下ODS,统一数据视图

运营数据存储(The operational data store, ODS)或称操作型数据存储是一个面向主题的、集成的、当前的并且是可"挥发"的数据集合,它反映了在某一个时间切片瞬间,经营分析系统和外围系统(BOSS、MIS...)用以相互交换数据的集合,主要用于经营分析系统与外围系统关键数据一致性校验、以及经营分析系统对其它外围系统的决策支持数据的回馈,回馈数据包括以客户扩展属性为主体的详细资料等。运营数据存储扮演的是用于数据稽核与交互的

角色。

ODS 的存储结构是以企业范围所有相关业务系统的数据,以全面、统一进行关系型实体来体现的,ODS中的数据是基于分析主题进行组织,而不是基于业务系统的功能进行组织。ODS只是存储了当前的数据且数据是“挥发”性的,因此其数据的刷新是很快,过期的数据将要被挥发掉。因此ODS的存储量取决于业务接口数据的抽取与刷新频率,取决于企业的服务客户的数量。

从ODS的作用和实现来说,ODS将各个孤立的业务系统的运营数据集成起来,现成全企业的统一数据视图,同时可实现ODS的数据共享。

1.1.7描述一下企业信息工厂

数据仓库领域里,有一种构建数据仓库的架构,叫Corporate Information Factory,中文一般翻译为“企业信息工厂”。企业信息工厂的创始人是数据仓库之父Inmon。

企业信息工厂主要包括集成转换层(I&T)、操作数据存储(ODS)、数据仓库(EDW)、数据集市(DM)、探索仓库(EW)等部件。这些部件有机的结合在一起,为企业提供信息服务。

集成转换层的目的是将来自操作型源系统的数据集成转换到数据仓库中,它通常由一组程序组成,而其它部件如数据仓库和数据集市等则主要由数据组成。当业务数据来源多,业务复杂时,集成转换层会建立一些临时表,为数据处理提供方便。这时,集成转换层包括程序和数据,也称数据准备区(Data Staging Area)。通常中等规模及以上的数据仓库系统都会建立数据准备区。

操作数据存储(ODS)是建立在数据准备区和数据仓库之间的一个部件。用来满足企业集成的、综合的操作型处理需要。例如,出尽可能实时的集成的操作报表等需求。一般,也称操作数据存储是用来满足企业战术决策的需要。操作数据存储是个可选的部件。

数据仓库是企业信息工厂的核心部件,用来保存整个企业的数据。一般,也称数据仓库是用来满足企业战略决策的需要。数据仓库的数据来自数据准备区和操作数据存储。

数据集市是为了满足企业特定部门的分析需求而专门建立的数据的集合。数据集市的数据来源是数据仓库。企业信息工厂中的数据集市一般来说是非规范化的、定制的和汇总的。而多维体系架构中的数据集市分为两种,分别是原子数据集市和聚集数据集市。一般来说,企业信息工厂中的数据集市相当于多维体系架构中的聚集数据集市。

1.1.8数据是数据集市?

数据集市中的数据具有数据仓库中数据的特点,只不过数据集市专为某一部门或某个特定商业需求定制,而不是根据数据容量命名。

数据集市面向部门、业务单元或特定应用,因而规模较小,便于快速实现,且成本较低,短期内即可获得明显效果。数据集市的应用不仅满足了部门的数据处理需求,而且作为数据仓库的子集有助于构建完整的企业级数据仓库。