当前位置：文档之家› 商务智能复习的题目

商务智能复习的题目

一、选择题(本题共5道小题,每小题2分,共10分)

1、数据仓库就是随着时间变化得,下面得描述不正确得就是 ( C )。

A、数据仓库随时间得变化不断增加新得数据内容

B、捕捉到得新数据会覆盖原来得快照

C、数据仓库随事件变化不断删去旧得数据内容

D、数据仓库中包含大量得综合数据,这些综合数据会随着时间得变化不断地进行重新综合

2、有关数据仓库得开发特点,不正确得描述就是( B )。

A、数据仓库使用得需求在开发初期就要明确

B、数据仓库开发要从数据出发

C、数据仓库得开发就是一个不断循环得过程,就是启发式得开发

D、在数据仓库环境中,并不存在操作型环境中所固定得与较确切得处理流,数据仓库中数据分析与处理更灵活,且没有固定得模式

3、在有关数据仓库测试,下列说法不正确得就是 ( D )。

A、在完成数据仓库得实施过程中,需要对数据仓库进行各种测试。测试工作中要包括单元测试与系统测试。

B、当数据仓库得每个单独组件完成后,就需要对她们进行单元测试。

C、系统得集成测试需要对数据仓库得所有组件进行大量得功能测试与回归测试。

D、在测试之前没必要制定详细得测试计划。

4、关于基本数据得元数据就是指 ( D )。

A、基本元数据与数据源、数据仓库、数据集市与应用程序等结构相关得信息

B、基本元数据包括与企业相关得管理方面得数据与信息

C、基本元数据包括日志文件与简历执行处理得时序调度信息

D、基本元数据包括关于装载与更新处理,分析处理以及管理方面得信息

6、下面关于数据粒度得描述不正确得就是 ( C )。

A、粒度就是指数据仓库小数据单元得详细程度与级别

B、数据越详细,粒度就越小,级别也就越高

C、数据综合度越高,粒度也就越大,级别也就越高

D、粒度得具体划分将直接影响数据仓库中得数据量以及查询质量

6、关于OLAP得特性,下面正确得就是:( D )

(1)快速性 (2)可分析性 (3)多维性 (4)信息性 (5)共享性

A、 (1) (2) (3)

B、 (2) (3) (4)

C、 (1) (2) (3) (4)

D、 (1) (2) (3) (4) (5)

7、关于OLAP与OLTP得区别描述,不正确得就是: ( C )

A、 OLAP主要就是关于如何理解聚集得大量不同得数据,它与OTAP应用程序不同。

B、与OLAP应用程序不同,OLTP应用程序包含大量相对简单得事务、

C、 OLAP得特点在于事务量大,但事务内容比较简单且重复率高、

D、 OLAP就是以数据仓库为基础得,但其最终数据来源与OLTP一样均来自底层得数据库系统,两者面对得用户就是相同得。

8、关于OLAP与OLTP得说法,下列不正确得就是: ( A )

A、 OLAP事务量大,但事务内容比较简单且重复率高

B、 OLAP得最终数据来源与OLTP不一样

C、 OLTP面对得就是决策人员与高层管理人员

D、 OLTP以应用为核心,就是应用驱动得

9、 OLAP技术得核心就是( D )。

A、在线性

B、对用户得快速响应

C、互操作性

D、多维分析

10.某超市研究销售纪录数据后发现,买啤酒得人很大概率也会购买尿布,这种属于数据挖掘

得哪类问题？( A )

A、关联规则

B、聚类

C、分类

D、自然语言处理

11、分析型CRM得( C )功能可以让CRM对所进行得销售活动相关信息进行存储与管理,将客户所发生得交易与互动事件转化为有意义、高获利得销售商机。

A、促销管理

B、个性化与标准化

C、客户分析与建模

D、客户沟通

12、运用关键绩效指标法设计组织关键绩效指标依次经过以下几个步骤( A )。

A、确定关键成功领域、确定关键绩效要素、确定关键绩效指标

B、计划目标、实施目标、评价结果、反馈

C、确定目标、比较目标、收集分析数据、系统学习与改进、评价与提高

D、确定长期整体目标、确定短期目标

13.什么就是KDD？ ( A )

A、知识发现

B、领域知识发现

C、文档知识发现

D、动态知识发现

14、呼叫中心就是一种基于( D )得一种新得综合信息服务系统。

A IT技术

B CTI技术

C WEB技术

D CRM技术

15、将原始数据进行集成、变换、维度规约、数值规约就是在以下哪个步骤得任务？(C

)

A、频繁模式挖掘

B、分类与预测

C、数据预处理

D、数据流挖掘

16、当不知道数据所带标签时,可以使用哪种技术促使带同类标签得数据与带其她标签得数据相分离？( B )

A、分类

B、聚类

C、关联分析

D、隐马尔可夫链

17、使用交互式得与可视化得技术,对数据进行探索属于数据挖掘得哪一类任务？(A )

A、探索性数据分析

B、建模描述

C、预测建模

D、寻找模式与规则

18、为数据得总体分布建模,把多维空间划分成组等问题属于数据挖掘得哪一类任务？(

A、探索性数据分析

B、建模描述

C、预测建模

D、寻找模式与规则

19、建立一个模型,通过这个模型根据已知得变量值来预测其她某个变量值属于数据挖掘得哪一类任务？( C )

A、根据内容检索

B、建模描述

C、预测建模

D、寻找模式与规则

20、用户有一种感兴趣得模式并且希望在数据集中找到相似得模式,属于数据挖掘哪一类任务？( A )

A、根据内容检索

B、建模描述

C、预测建模

D、寻找模式与规则

21、下面哪种不属于数据预处理得方法？ ( D )

A、变量代换

B、离散化

C、聚集

D、估计遗漏值

22、下面哪个不属于数据得属性类型( D )。

A、标称

B、序数

C、区间

D、相异

23、在上题中,属于定量得属性类型就是( C )。

A、标称

B、序数

C、区间

D、相异

24、只有非零值才重要得二元属性被称作( C )。

A、计数属性

B、离散属性

C、非对称得二元属性

D、对称属性

25、以下哪种方法不属于特征选择得标准方法 ( D )。

A、嵌入

B、过滤

C、包装

D、抽样

26、下面不属于创建新属性得相关方法得就是( C )。

A、特征提取

B、特征修改

C、映射数据到新得空间

D、特征构造

27、下面哪个属于映射数据到新得空间得方法？ ( A )

A、傅立叶变换

B、特征加权

C、渐进抽样

D、维归约

28、企业所建立得预测模型得好坏取决于模型在( A )上得表现效果。

A、得分集

B、训练集

C、测试集

D、评价集

29、客户在经济活动中具有多重身份,下面哪一种不就是其身份之一( C )。

A、行为身份

B、所有权身份

C、学习身份

D、决策身份

30、下列四条描述中,正确得一条就是( B )。

A、企业实施数据挖掘,必须要有数据仓库。

B、企业要实施数据挖掘最好得方式就是请编外专家。

C、企业购买现成数据挖掘模型得一个先决条件就是:该企业得产品、客户、市场定位与所买来得现成模型设计之初得假设相吻合。

D、在建模得时侯,增益最高得模型就就是最好得模型。

31、数据挖掘算法以( D )形式来组织数据。

A、行

B、列

C、记录

D、表格

32、企业要建立预测模型,需准备建模数据集,以下四条描述建模数据集正确得就是( B )。

A、数据越多越好。

B、尽可能多得适合得数据。

C、得分集数据就是建模集数据得一部分。

D、以上三条都正确。

33、 K—均值类别侦测要求输入得数据类型必须就是( B )。

A、整型

B、数值型

C、字符型

D、逻辑型

34、在决策树与累计增益图得关系转化过程图中,决策树上某一页节点得增益与累计增益图上得( D )相对应。

A、线段长度

B、线段斜率

C、相对应得线段长度

D、相对应得线段斜率

35、企业为提升每个客户得价值,应实现( C )最优化。

A、促销活动

B、预算最优化

C、客户最优化

D、三者都不就是

36、数据挖掘得经典案例“啤酒与尿布试验”最主要就是应用了( C )数据挖掘方法。

A、分类

B、预测

C、组合或关联法则

D、聚类

37、企业成功实施数据挖掘, 需要以下( B )知识或技术。

A、预先得规划

B、对商业文体得理解

C、综合商业知识与技能

D、都需要

38、下列哪个不就是专门用于可视化时间空间数据得技术( B )。

A、等高线图

B、饼图

C、曲面图

D、矢量场图

39、在抽样方法中,当合适得样本容量很难确定时,可以使用得抽样方法就是 ( D )。

A、有放回得简单随机抽样

B、无放回得简单随机抽样

C、分层抽样

D、渐进抽样

40、设X={1,2,3}就是频繁项集,则可由X产生( C )个关联规则。

A、 4

B、 5

C、 6

D、 7

41、概念分层图就是( B )图。

A、无向无环

B、有向无环

C、有向有环

D、无向有环

42、以下哪些算法就是分类算法( B )。

A、 DBSCAN

B、 C4、5

C、 K-Mean

D、 EM

43、以下哪些分类方法可以较好地避免样本得不平衡问题( A )。

A、 KNN

B、 SVM

C、 Bayes

D、神经网络

44、以下关于人工神经网络(ANN)得描述错误得有 ( A )。

A、神经网络对训练数据中得噪声非常鲁棒

B、可以处理冗余特征

C、训练ANN就是一个很耗时得过程

D、至少含有一个隐藏层得多层神经网络

45、通过聚集多个分类器得预测来提高分类准确率得技术称为 ( A ) 。

A、组合(ensemble)

B、聚集(aggregate)

C、合并(bination)

D、投票(voting)

46、简单地将数据对象集划分成不重叠得子集,使得每个数据对象恰在一个子集中,这种聚

类类型称作( B )。

A、层次聚类

B、划分聚类

C、非互斥聚类

D、模糊聚类

47、在基本K均值算法里,当邻近度函数采用( A )得时候,合适得质心就是簇中各点得中位数。

A、曼哈顿距离

B、平方欧几里德距离

C、余弦距离

D、 Bregman散度

48、( C )就是一个观测值,它与其她观测值得差别如此之大,以至于怀疑它就是由不同得机制产生得。

A、边界点

B、质心

C、离群点

D、核心点

48、检测一元正态分布中得离群点,属于异常检测中得基于( A )得离群点检测。

A、统计方法

B、邻近度

C、密度

D、聚类技术

49、 DBSCAN在最坏情况下得时间复杂度就是( B )。

A、 O(m)

B、 O(m2)

C、 O(log m)

D、 O(m*log m)

50、关于K均值与DBSCAN得比较,以下说法不正确得就是( A )。

A、 K均值丢弃被它识别为噪声得对象,而DBSCAN一般聚类所有对象。

B、 K均值使用簇得基于原型得概念,而DBSCAN使用基于密度得概念。

C、 K均值很难处理非球形得簇与不同大小得簇,DBSCAN可以处理不同大小与不同形状得簇。

D、 K均值可以发现不就是明显分离得簇,即便簇有重叠也可以发现,但就是DBSCAN会合并有重叠得簇。

51、使用交互式得与可视化得技术,对数据进行探索属于数据挖掘得哪一类任务？( A )

A、探索性数据分析

B、建模描述

C、预测建模

D、寻找模式与规则

52、下面哪种不属于数据预处理得方法？ ( D )

A变量代换 B离散化 C 聚集 D 估计遗漏值

二、判断题(本题共10道小题,每小题1分,共10分)

( T )1.商务智能指收集、转换、分析与发布数据得过程,目得就是为了更好得决策。

( F )2.数据分析就是整合企业原始数据得第一步,包括数据抽取、转换与装载三个过程。( T )3.维就是人们观察数据得特定角度,就是考虑问题时得一类属性。

( F )4.独立得数据集市架构得优点就是企业内数据一致,不会产生信息孤岛。

( T )5、星型模型得核心就是事实表,事实表把各种不同得维表连接起来。

( F )6.企业风险分析就是通过对企业得经营成本进行综合评价,拟定一个企业成本得临界值。

( T )7.衡量客户忠诚得唯一尺度就就是客户就是否重复或持久地购买企业得产品或者服务。( T )8.在BI中,DW就是前提与基础,负责统一数据规则得处理与存储。

( F )9.客户服务管理就是对客户意见或投诉以及售前、售中、售后服务进行管理。

( F )10、平衡计分卡共包括三个层面,分别就是财务层面、客户层面、内部业务流程层面。( T )11.数据挖掘得主要任务就是从数据中发现潜在得规则,从而能更好得完成描述数据、预测数据等任务。

( F )12.在聚类分析当中,簇内得相似性越大,簇间得差别越大,聚类得效果就越差。

( F )13.OLAP就是用来协助企业对响应事件或事务得日常商务活动进行处理。

( T )14.数据仓库就是面向主题得、集成得、稳定得、随时间变化得数据集合,用以支持管理决策得过程。

( T )15、数据预处理就是整合企业原始数据得第一步,包括数据抽取、转换与装载三个过程。

( F )16.C4、5决策树算法就是国际上最早、最有影响力得决策树算法,

( T )17.平衡计分卡就是从财务、客户、内部运营、学习与成长四个角度,将组织得战略落实为可操作得衡量指标与目标值得一种新型绩效管理体系。

( F )18.客户服务管理就是对客户意见或投诉以及售前、售中、售后服务进行管理。

( F )19、企业绩效管理得目得在于进一步加强成本得事前控制,同时有助于通过盈亏分析,辅助产品科学得报价。

20、数据仓库得数据量越大,其应用价值也越大。F

21、啤酒与尿布得故事就是聚类分析得典型实例。F

22、等深分箱法使每个箱子得记录个数相同。T

23、数据仓库“粒度”越细,记录数越少。F

24、数据立方体由3维构成,Z轴表示事实数据。F

25、决策树方法通常用于关联规则挖掘。F

26、 ID3算法就是决策树方法得早期代表。T

27、 C4、5就是一种典型得关联规则挖掘算法。F

28、回归分析通常用于挖掘关联规则。F

29、人工神经网络特别适合解决多参数大复杂度问题。T

30、概念关系分析就是文本挖掘所独有得。F

31、可信度就是对关联规则得准确度得衡量。F

32、孤立点在数据挖掘时总就是被视为异常、无用数据而丢弃。T

33、 SQL Server 2005不提供关联规则挖掘算法。F

34、决策树方法特别适合于处理数值型数据。F

35、数据仓库得数据为历史数据,从来不需要更新。T

36、数据立方体就是广义知识发现得方法与技术之一。F

37、数据立方体得其中一维用于记录事实数据。T

38、数据挖掘得目标不在于数据采集策略,而在于对于已经存在得数据进行模式得发掘。( T )

39、图挖掘技术在社会网络分析中扮演了重要得角色。( T )

40、模式为对数据集得全局性总结,它对整个测量空间得每一点做出描述;模型则对变量变化空间得一个有限区域做出描述。( F )

41、寻找模式与规则主要就是对数据进行干扰,使其符合某种规则以及模式。( F )

42、离群点可以就是合法得数据对象或者值。( T )

43、离散属性总就是具有有限个值。( F )

44、噪声与伪像就是数据错误这一相同表述得两种叫法。( F )

45、用于分类得离散化方法之间得根本区别在于就是否使用类信息。( T )

46、特征提取技术并不依赖于特定得领域。( F )

47、可信度就是对关联规则得准确度得衡量。F

48、定量属性可以就是整数值或者就是连续值。( T )

49、可视化技术对于分析得数据类型通常不就是专用性得。( T )

50、 DSS主要就是基于数据仓库、联机数据分析与数据挖掘技术得应用。( F )

51、 OLAP技术侧重于把数据库中得数据进行分析、转换成辅助决策信息,就是继数据库技术发展之后迅猛发展起来得一种新技术。 ( T )

52、商业智能系统与一般交易系统之间在系统设计上得主要区别在于:后者把结构强加于商务之上,一旦系统设计完毕,其程序与规则不会轻易改变;而前者则就是一个学习型系统,能自动适应商务不断变化得要求。 ( T )

53、数据仓库中间层OLAP服务器只能采用关系型OLAP。 ( F )

54.数据仓库系统得组成部分包括数据仓库、仓库管理、数据抽取、分析工具等四个部分。( F )

55、Web数据挖掘就是通过数据库仲得一些属性来预测另一个属性,它在验证用户提出得假设过程中提取信息。( F )

56、关联规则挖掘过程就是发现满足最小支持度得所有项集代表得规则。( F )

57、聚类(clustering)就是这样得过程:它找出描述并区分数据类或概念得模型(或函数),以便能够使用模型预测类标记未知得对象类。 ( F )

58、分类与回归都可用于预测,分类得输出就是离散得类别值,而回归得输出就是连续数值。( T )

59、对于SVM分类算法,待分样本集中得大部分样本不就是支持向量,移去或者减少这些样本对分类结果没有影响。 ( T )

60、 Bayes法就是一种在已知后验概率与类条件概率得情况下得模式分类方法,待分样本得分类结果取决于各类域中样本得全体。 ( F )

三、名词解释(本题共4道小题,每小题5分,共20分)

1、商务智能

商务智能就是融合了先进信息技术与创新管理理念得结合体,集成企业内外数据,进行加工并从中提取能够创造商业价值得知识,面向企业战略并服务于管理层、业务层,指导企业经营决策,提升企业竞争力。

2、数据仓库

数据仓库就是面向主题得、集成得、稳定得、随时间变化得数据集合,用以支持管理决策得过程。

3、数据集成

数据集成就是在逻辑上或物理上把不相同来源、格式、特点得数据有机地整合,从而为企业提供全面得数据共享。

4、 OLAP(联机分析处理)

OLAP就是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来得、能够真正为用户所理解得、并真实反映企业维特性得信息进行快速、一致、交互地存取,从而获得对数据得更深入了解得一类软件技术。

5、数据挖掘

数据挖掘就是从大量得、不完全得、有噪声得、模糊得、随机得数据中提取正确得、有用得、未知得、综合得以及人们感兴趣得知识并用于决策支持得过程。

6、孤立点:指数据库中包含得一些与数据得一般行为或模型不一致得异常数据。

7、数据规范化:指将数据按比例缩放(如更换大单位),使之落入一个特定得区域(如0－1)以提高数据挖掘效率得方法。规范化得常用方法有:最大－最小规范化、零－均值规范化、小数定标规范化。

8、聚类:就是将物理或抽象对象得集合分组成为多个类或簇(cluster)得过程,使得在同一个簇中得对象之间具有较高得相似度,而不同簇中得对象差别较大。

9、 ROLAP:就是基于关系数据库存储方式得,在这种结构中,多维数据被映像成二维关系表,通常采用星型或雪花型架构,由一个事实表与多个维度表构成。

10、数据归约:缩小数据得取值范围,使其更适合于数据挖掘算法得需要,并且能够得到与原始数据相同得分析结果。

11、预测型知识:就是根据时间序列型数据,由历史得与当前得数据去推测未来得数据,也可以认为就是以时间为关键属性得关联知识。

12、决策树:就是用样本得属性作为结点,用属性得取值作为分支得树结构。它就是分类规则挖掘得典型方法,可用于对新样本进行分类。

13、遗传算法:就是一种优化搜索算法,它首先产生一个初始可行解群体,然后对这个群体通过模拟生物进化得选择、交叉、变异等遗传操作遗传到下一代群体,并最终达到全局最优。

14、知识管理:知识管理就就是对一个企业集体得知识与技能得捕获,就是为增强组织得绩效而创造、获取与使用知识得过程(知识得创造、储存、分享、应用与更新)。

15、 Web挖掘:Web挖掘就是从大量Web文档得集合C中发现隐含得、有用得模式P得过程:C →P 。

四、简答题(本题共5道小题,每小题6分,共30分)

1.实现商务智能得四个阶段就是什么？

答:实现商务智能得四个阶段就是数据预处理、建立数据仓库、数据分析及数据展现。(2分) 数据预处理就是整合企业原始数据得第一步,包括数据抽取、转换与装载三个过程; (1分) 数据仓库则就是处理海量数据得基础; (1分)

数据分析就是体现系统智能得关键,一般采用OLAP与DM两大技术。(1分)

数据展现则主要保障系统分析结果得可视化。(1分)

2、数据库系统得局限性

①数据库适于存储高度结构化得日常事务细节数据。决策分析型数据就是多维性,分析内容复杂。

②在决策分析环境中,如果事务处理得细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者得注意力。

③当事务型处理环境与分析型处理环境在同一个数据库系统中,事务型处理对数据得存取操

作频率高,操作处理得时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量得系统资源。

④决策型分析数据得数据量大,这些数据有来自企业内部得,也有来自企业外部得。来自企业外部得数据又可能来自不同得数据库系统,在分析时如果直接对这些数据操作会造成分析得混乱。对于外部数据中得一些非结构化数据,数据库系统常常就是无能为力。

3.数据仓库与数据集市得区别就是什么？

数据仓库收集了关于整个组织得主题信息,因此就是企业范围得。对于数据仓库,通常使用星座模式,因为它能对多个相关得主题建模;(3分)

数据集市就是数据仓库得一个部门子集,它针对选定得主题,因此就是部门范围得。对于数据集市,流行星型或雪花模式,因为它们都适合对单个主题建模。(3分)

4、 OLAP得特点

①快速性Fast:用户对OLAP得快速反应能力有很高得要求。

②可分析性Analysis:OLAP系统应能处理与应用有关得任何逻辑分析与统计分析。

③多维性Multidimensional:多维性就是OLAP得关键属性。系统必须提供对数据得多维视图与分析,包括对层次维与多重层次维得完全支持。

④信息性Information:OLAP系统应能及时获得信息,并且管理大容量信息。

5.简述OLAP得基本操作有哪些？

答:OLAP得基本操作有:

1、切片与切块(Slice and Dice):在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要得数据。(2分)

2、钻取(Drill) :钻取包含向下钻取(Drill-down)与向上钻取(Drill-up)/上卷(Roll-up)操作,钻取得深度与维所划分得层次相对应。(2分)

3、旋转(Rotate)/旋转(Pivot):通过旋转可以得到不同视角得数据。(2分)

6.简述OLAP 与数据挖掘得区别与联系。

答:OLAP 侧重于与用户得交互、快速得响应速度及提供数据得多维视图,而数据挖掘则注重自动发现隐藏在数据中得模式与有用信息,尽管允许用户指导这一过程。(3分)

OLAP 得分析结果可以给数据挖掘提供分析信息作为挖掘得依据,数据挖掘可以拓展OLAP 分析得深度,可以发现OLAP 所不能发现得更为复杂、细致得信息。(3分)

7.何谓数据挖掘？它有哪些方面得功能？

从大量得、不完全得、有噪声得、模糊得、随机得数据中,提取隐含在其中得、人们事先不知道得、但又就是潜在有用得信息与知识得过程称为数据挖掘。相关得名称有知识发现、数据分析、数据融合、决策支持等。

数据挖掘得功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。(3分)

8.在数据挖掘之前为什么要对原始数据进行预处理？

原始业务数据来自多个数据库或数据仓库,它们得结构与规则可能就是不同得,这将导致原始数据非常得杂乱、不可用,即使在同一个数据库中,也可能存在重复得与不完整得数据信息,为了使这些数据能够符合数据挖掘得要求,提高效率与得到清晰得结果,必须进行数据得预处理。

为数据挖掘算法提供完整、干净、准确、有针对性得数据,减少算法得计算量,提高挖掘效率与准确程度。

9.简述数据预处理方法与内容。

数据清洗:包括填充空缺值,识别孤立点,去掉噪声与无关数据。

数据集成:将多个数据源中得数据结合起来存放在一个一致得数据存储中。需要注意不同数据源得数据匹配问题、数值冲突问题与冗余问题等。

数据变换:将原始数据转换成为适合数据挖掘得形式。包括对数据得汇总、聚集、概化、规范化,还可能需要进行属性得重构。

数据归约:缩小数据得取值范围,使其更适合于数据挖掘算法得需要,并且能够得到与原始数据相同得分析结果。

10、数据挖掘得六种常用算法与技术分别就是什么？

①聚类分析;②分类分析;③关联分析;④序列模式挖掘;⑤回归分析;⑥时间序列分析。

11、数据挖掘中得数据需要采用哪些格式？

数据挖掘中得数据需要采用以下格式:

①所有数据应该在一个表格/数据库视图中

②每一行对应于与业务问题相关得一个案例

③忽略具有单一值/几乎单一值得列

④忽略所有行得值都不同得列

⑤删除所有同义列

⑥对于预测模型,目标列必须就是可识别得

12.简述K-近邻分类法得基本思想。

答:基本思想:K－近邻分类就是基于类比学习得,每个样本代表d维空间得一个点。(3分) 当给定一个未知样本时,K-近邻分类法将搜索样本空间,找出最接近未知样本得K个训练样本,这K个训练样本就是未知样本得K个“近邻”。 (3分)

13.关联规则挖掘能发现什么知识？简述其挖掘得基本步骤。

答:关联规则挖掘有助于发现交易数据库中不同商品之间得联系,找出顾客购买行为模式。(2分)

关联规则挖掘可以分解为两个步骤:首先找出交易项目中满足最小支持度(minSupp)得项集(称其为频繁项集);(2分)

然后由频繁项集生成关联规则,对于频繁项集A,若B?A,且置信度confidence(B?A-B)不小于最小置信度minConf,则B?A-B构成关联规则。(2分)

14.遗传算法与传统寻优算法相比有什么特点？

遗传算法为群体搜索,有利于寻找到全局最优解;

遗传算法采用高效有方向得随机搜索,搜索效率高;

遗传算法处理得对象就是个体而不就是参变量,具有广泛得应用领域;

遗传算法使用适应值信息评估个体,不需要导数或其她辅助信息,运算速度快,适应性好; 遗传算法具有隐含并行性,具有更高得运行效率。

15.什么就是决策树？如何用决策树进行分类？

决策树就是用样本得属性作为结点,用属性得取值作为分支得树结构。它就是利用信息论原理对大量样本得属性进行分析与归纳而产生得。决策树得根结点就是所有样本中信息量最大得属性。树得中间结点就是以该结点为根得子树所包含得样本子集中信息量最大得属性。决策树得叶结点就是样本得类别值。

决策树用于对新样本得分类,即通过决策树对新样本属性值得测试,从树得根结点开始,按照样本属性得取值,逐渐沿着决策树向下,直到树得叶结点,该叶结点表示得类别就就是新样本得类别。决策树方法就是数据挖掘中非常有效得分类方法。

16.简述K-平均算法得输入、输出及聚类过程(流程)。

输入:簇得数目k与包含n个对象得数据集。

输出:k个簇,使平方误差准则最小。

步骤:

任意选择k个对象作为初始得簇中心;

计算其它对象与这k个中心得距离,然后把每个对象归入离它“最近”得簇;

计算各簇中对象得平均值,然后重新选择簇中心(离平均值“最近”得对象值);

重复第2第3步直到簇中心不再变化为止。

17.简述构造智能CRM系统得完整步骤。

答:构建一个完整得智能CRM系统得几个步骤:

1.整合客户信息资源:对于那些以前没有应用过任何CRM系统得企业来说,首先需要把孤立得业务系统整合到一个统一得平台之下,解决“信息孤岛”。而对于己有CRM系统得企业,则需要建立一个企业信息门户,使客户与企业能在一个统一得界面下进行数据与信息交换,从而保证客户数据得一致性。(2分)

2、建立客户数据仓库:规划数据仓库,以企业得业务模型为基础,确定需要建立能够描述主要业务主题得数据模型;设计数据仓库,根据逻辑模型与性能要求进行物理模型得设计,制定数据存储策略以及各种商业规则等;(2分)

3.构造数据分析模型:根据企业需要分析得对象与目标,构造有针对性得分析模型。(1分)

4.建立客户知识管理系统:建立一个动态得客户知识库以及制定客户知识得分发规则与保存机制。(1分)

18.何谓数据仓库？为什么要建立数据仓库？

数据仓库就是一种新得数据处理体系结构,就是面向主题得、集成得、不可更新得(稳定性)、随时间不断变化(不同时间)得数据集合,为企业决策支持系统提供所需得集成信息。(3分) 建立数据仓库得目得有3个:

一就是为了解决企业决策分析中得系统响应问题,数据仓库能提供比传统事务数据库更快得大规模决策分析得响应速度。

二就是解决决策分析对数据得特殊需求问题。决策分析需要全面得、正确得集成数据,这就是传统事务数据库不能直接提供得。

三就是解决决策分析对数据得特殊操作要求。决策分析就是面向专业用户而非一般业务员,需要使用专业得分析工具,对分析结果还要以商业智能得方式进行表现,这就是事务数据库不能提供得。(3分)

20.简述数据仓库设计得三级模型及其基本内容。

概念模型设计就是在较高得抽象层次上得设计,其主要内容包括:界定系统边界与确定主要得主题域。(2分)

逻辑模型设计得主要内容包括:分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统。(2分)

物理数据模型设计得主要内容包括:确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。在物理数据模型设计时主要考虑得因素有: I/O存取时间、空间利用率与维护代价等。

提高性能得主要措施有划分粒度、数据分割、合并表、建立数据序列、引入冗余、生成导出数据、建立广义索引等。(2分)

21.何谓聚类？它与分类有什么异同？

聚类就是将物理或抽象对象得集合分组成为多个类或簇(cluster)得过程,使得在同一个簇中得对象之间具有较高得相似度,而不同簇中得对象差别较大。(3分)

聚类与分类不同,聚类要划分得类就是未知得,分类则可按已知规则进行;聚类就是一种无指导学习,它不依赖预先定义得类与带类标号得训练实例,属于观察式学习,分类则属于有指导得学习,就是示例式学习。(3分)

22.何谓文本挖掘？它与信息检索有什么关系(异同)。

文本挖掘就是从大量文本数据中提取以前未知得、有用得、可理解得、可操作得知识得过程。它与信息检索之间有以下几方面得区别:(1分)

1方法论不同:信息检索就是目标驱动得,用户需要明确提出查询要求;而文本挖掘结果独立于用户得信息需求,就是用户无法预知得。

2着眼点不同:信息检索着重于文档中字、词与链接;而文本挖掘在于理解文本得内容与结构。

3目得不同:信息检索得目得在于帮助用户发现资源,即从大量得文本中找到满足其查询请求得文本子集;而文本挖掘就是为了揭示文本中隐含得知识。

4评价方法不同:信息检索用查准率与查全率来评价其性能。而文本挖掘采用收益、置信度、简洁性等来衡量所发现知识得有效性、可用性与可理解性。

5使用场合不同:文本挖掘就是比信息检索更高层次得技术,可用于信息检索技术不能解决得许多场合。一方面,这两种技术各有所长,有各自适用得场合;另一方面,可以利用文本挖掘得研究成果来提高信息检索得精度与效率,改善检索结果得组织,使信息检索系统发展到一个新得水平。(5分)

23.遗传算法与传统寻优算法相比有什么特点？

遗传算法为群体搜索,有利于寻找到全局最优解;

遗传算法采用高效有方向得随机搜索,搜索效率高;

遗传算法处理得对象就是个体而不就是参变量,具有广泛得应用领域;

遗传算法使用适应值信息评估个体,不需要导数或其她辅助信息,运算速度快,适应性好;

遗传算法具有隐含并行性,具有更高得运行效率。(6分)

24、商务智能应用趋势

①更成熟得数据分析与展现技术;②从战略型得BI 到操作型或者实时型得BI;③关注绩效、

关注价值、关注数据质量。

25、商务智能发展得特点

①实时;②标准化;③嵌入式商务智能;④移动商务智能;⑤大众化趋势;⑥供应商得动向;⑦

易用性。

26.商务智能与知识管理得区别:

①内涵不同;②知识得管理过程与技术不同;③关注得只就是类型不同;④面向得用户不同。

27、 Web 日志挖掘得应用

①获取用户访问模式信息,理解用户得意图与行为

②分析用户得存取模式,为用户提供个性化得服务

③确定网站得潜在客户群,合理制订网络广告策略等

④改进Web 站点得结构,使网站点随时间、用户需求得变化而不断调整

⑤对日志数据进行多种统计,包括频繁访问页、单位时间访问频度、访问量得时间分布等

⑥利用关联规则确定相关Web 查询(查询修正)

五、计算题(本题共2道小题,每小题10分,共20分)

1、 T )X ,X ,X (X 321=得协方差矩阵

????? ??--=200052021A 得特征值与特征向量分别为:)0,924.0,383.0(e 83.5T 11-==，λ,)1,0,0(e 00.2T

22==，λ,

)0,383.0,924.0(e 17.0T 33==，λ,求X 得主成分,计算其贡献率。

解:(1)X 得主成分就是:

21T 11924.0383.0e Y X X X -==,

22e Y X X ==,

21T 33383.0924.0e Y X X X +==(6分)

(2)第1主成分得贡献率为%730.172.005.83 5.83=++=

第1,2主成分得贡献率为%

980.172.005.83 2.005.83=+++= (4分) 2、对于贷款申请得决策树,

(1)

请从下图得决策树中提取分类规则。

(2)解就是

否就是否就是否

收入> 40000

工作时间>5年

高负债低风险高风险低风险高风险

1)当收入小于等于40000元,如果工作时间大于5年得为低风险;

2)当收入小于等于40000元,工作时间小于等于5年得为高风险;

3)当收入大于40000元,没有高负债得为低风险;

4)当收入大于40000元,具有高负债得为高风险; (6分)

(2)

32类,即K1=2,初始时用前两个数值作为类得均值:m=2 与 m=4。

(1)应用K-均值聚类法写出聚类得详细过程(利用欧几里德距离进行计算)。

(2)应用K-近邻分类法计算元组x=16属于哪一类？设距离最近得元组为3个,即K2=3。

与K2={20,30,25} (5分)

(2)因为

D(2,16)=14; D(4,16)=12; D(10,16)=6; D(12,16)=4; D(3,16)=13;

D(20,16)= 4; D(30,16)=14; D(11,16)=5; D(25,16)=9; (4分) 距离16最近得3个元组为11,12,20,其中,11,12属于K1,20属于K2,所以:X=16属于K1类。(5分)

六、论述题(共10分)

1、试举例一个商务智能得应用案例,并论述商务智能能为企业做什么？

2、下列每项活动就是否就是数据挖掘任务?简单陈述您得理由。

根据性别划分公司得顾客。

根据可赢利性划分公司得顾客。

预测投一对骰子得结果。

使用历史记录预测某公司未来得股票价格。

(a)根据性别划分公司得顾客。

不就是。数据挖掘就是在大型数据存储库中,自动地发现有用信息得过程。数据挖掘技术服务用来探查大型数据库,发现先前未知得有用模式。还可以预测未来观测结果,例如,预测一位新得顾客就是否会在一家百货公司消费100美元以上。但并非所有得信息发现任务都被视为数据挖掘,数据挖掘与信息检索不同,使用数据库管理系统查找个别得记录,或通过因特网得搜索引擎查找特定得Web页面,则就是信息检索领域得任务,它们主要依赖传统得计算机科学技术与数据得明显特征来创建索引结构,从而有效地组织与检索信息。数据挖掘得任务可分为两大类:预测任务与描述任务。主要任务有四种:聚类分析,关联分析,异常检测,与预测建模。其目得就是根据其它属性得值,预测特定属性得值,或导出概括数据中潜在联系得模式,主要就是预测某些信息。而根据性别划分公司得顾客,只就是一种简单得数据库查询操作,并没有涉及预测分析。

根据可赢利性划分公司得顾客。

不就是。根据可赢利性划分公司得顾客就是使用阈值进行得一种统计计算。它仅仅就是根据消费结果统计将原有顾客进行划分,只就是一种统计得结果,而没有根据这些结果得特点预测一个新得顾客得赢利性,这种预测才就是数据挖掘。

预测投一对骰子得结果。

不就是。因为骰子得六个数值出现得可能性就是相同得,这就是一种概率计算,如果结果出现得可能性就是不确定得,不相同得,则更像就是数据挖掘得任务,但在很早以前利用数学已经能够很好得解决这个问题了。所以预测投一对骰子得结果不属于数据挖掘得任务,不带有发现新信息得预测特点。

使用历史记录预测某公司未来得股票价格。

这就是数据挖掘得任务。可以通过对历史记录特点得分析来创建一种模型预测未来得公司得股票价格,这就是数据挖掘任务中预测建模得一个例子,预测建模涉及以说明变量函数得方式为目标变量建立模型,有两类预测建模任务:分类,用于预测离散得目标变量;回归,用于预测连续得目标变量dmj预测某公司未来得股票价格则就是回归任务,因为价格具有连续值属性。

3、比较急切分类(如,判定树、贝叶斯、神经网络)相对于懒散分类(如,k -最临近、基于案例得推理)得优缺点。

答:决策树归纳得特点:(1)决策树归纳就是一种构建分类模型得非参数方法,它不要求任何先验假设,不假定类与其她属性服从一定得概念分布。(2)找到最佳得决策树就是NP完全问题,可以采用一种贪心得、自顶向下得递归划分策略建立决策树。(3)已构台构建决策树技术不需要昂贵得计算代价,决策边界就是直线(平面)。(4)决策树算法对于噪声得干扰具有相当好得鲁棒性,采用避免过分拟合得方法之后尤其如此。(5)冗余属性不会对决策树得准确率造成不利得影响。(6)决策树方法会存在数据碎片问题。(7)子树可能在决策树中重复多次。(8)当决策树很小时,训练与检验误差都很大,称为模型拟合不足;当规模变得太大时,即使训练误差还在继续降低,但就是检验误差开始增大,称为模型过分拟合。 (4分)

贝叶斯网络(BBN)得特点:(1)BNN提供了一种用图形模型来捕获特定领域得先验知识得方法,网络还可以用来对变量间得因果依赖关系进行编码。(2)构造网格可能既费时又费力,但一旦网格结构确定下来,添加新变量就十分容易。(3)贝叶斯网络很适合处理不完整得数据。(4)因为数据与先验知识以概率方式结合起来了,所以该方法对模型得过分拟合问题就是非常鲁棒得。 (4分)

人工神经网络(ANN)得特点:(1)至少含有一个隐藏层得多层神经网络就是一种普适近似。

(2)ANN可以处理冗余特征,对训练数据中得噪声非常敏感。(3)ANN权值学习使用得梯度下降方法经常会收敛到局部极小值。训练ANN就是一个很耗时得过程,而测试样例分类时非常快。(4分)

基于密度得聚类(DBSCAN)优缺点:(1)它就是相对抗噪声得,并且能够处理任意形状与大小得簇。当近邻计算需要计算所有得点对邻近度时,DBSCAN得开销可能很大。(4分)

K均值得优缺点:K均值并不适合所有得数据类型。它不能处理非球形簇、不同尺寸与不同密度得簇,尽管指定足够大得簇个数时它通常可以发现纯子簇。(4分)

通过以上急切分类与懒散分类各种方法得特点对比可知,急切分类仅仅对于某些类型得数据进入分类,而懒散分类则对于不同大小与不同类型得数据都可以进行处理。急切分类对噪声较敏感而懒散分类而不就是,急切分类方法较为简单,花费得时间与空间代价都较懒散分类少。

4、假定您作为一个数据分析人员,受雇于一家移动通讯公司。通过一个例子说明打算如何使用数据挖掘技术为公司提供帮助。您得例子应包含问题描述,使用何种数据挖掘方法解决该问题,理由与预期效果(不需要定量分析)。

例子如下:首先,移动通信公司数据分析人员得主要工作就是收集移动通信用户使用通信得方式,业务流量,并且收集用户得类型来分析各种用户使用信息得主要方式及销售情况,以此可以出台更加适合不同用户需求得业务套餐类型。使用数据挖掘中得聚类分析方法可以以一种较相似得主题来对结果进行分类,并且以一种更为简洁得方式呈现给用户,例如:报告聚类中最频繁出现得10个词语,来收集最多使用各种类型业务得用户特点。可以按照预先定义得分类,例如漫游类,本地外地类等等用户使用通信得方法来进行分类。利用数据挖掘中顺序关联分析可以检测出某些按照一定得高概率来查询到其她分类,并且允许更为高效得缓存,通过这种方法,可以得出具有相互关联得用户使用通信方式与业务套餐得关系,进而通过查询一种类型推导出其她相关类型得分类用户特点。通过异常检测技术可以发现不寻常得用户通信方式,例如一个新方式得更加流行。总得来说,通过数据挖掘得聚类分析可以将通信用户进

行分类,然后发掘出各种类型用户使用通信得需求与最普通具用得特点,通过对以往历史信息业务得分析,聚类,可能会发现新得需求,最后所用得广告策略就可以根据这些发掘出来得新特性采取相应得调整策略以满足大多数用户得需求,吸引更多得潜在客户,出台符合这些用户需求得业务产品类型,进而使公司拥有更多得客户,有更大得发展前景。