数据挖掘导论 第六章 中文答案
- 格式:doc
- 大小:648.00 KB
- 文档页数:8
大学课程《数据挖掘》试题参考答案范围:∙ 1.什么是数据挖掘?它与传统数据分析有什么区别?定义:数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。
数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
区别:(1)数据挖掘的数据源与以前相比有了显著的改变;数据是海量的;数据有噪声;数据可能是非结构化的;(2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来。
即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。
在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”-里面的数据几乎不再被访问。
也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。
因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。
∙ 2.请根据CRISP-DM(Cross Industry Standard Process for Data Mining)模型,描述数据挖掘包含哪些步骤?CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段.1: business understanding: 即商业理解. 在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来.2.data understanding: 数据的理解以及收集,对可用的数据进行评估.3: data preparation: 数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求.4:modeling: 即应用数据挖掘工具建立模型.5:evaluation: 对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的.6: deployment: 部署,即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)∙ 3.请描述未来多媒体挖掘的趋势随着多媒体技术的发展,人们接触的数据形式不断地丰富,多媒体数据库的日益增多,原有的数据库技术已满足不了应用的需要,人们希望从这些媒体数据中得到一些高层的概念和模式,找出蕴涵于其中的有价值的知识。
数据挖掘智慧树知到课后章节答案2023年下山东建筑大学山东建筑大学第一章测试1.下列属于大数据时代特征的是:答案:非结构化数据越来越多;数据类型越来越复杂;大人群产生了大量数据2.对数据挖掘内涵描述正确的是答案:数据挖掘的对象一般是大量的不完整的数据;挖掘的结果可以是出乎意料的规则和内容3.聚类分析是预测型的数据挖掘,而关联分析是描述型的。
答案:错4.描述“性别”的属性是二元分类属性。
答案:对5.下列是分类型属性的是:答案:信用等级:3(级别为1-5,数值越高信用级别越高);邮政编码:250101 6.区间属性可以计算两个属性之间的倍数。
答案:错7.具有有限个值的属性才是离散属性。
答案:错8.定量属性可以取整数值。
答案:对9.关于连续属性与离散属性,下列说法正确的是:答案:连续属性的比率不一定有意义;连续属性有无限个取值10.连续属性可以进行离散转化成离散属性。
答案:对第二章测试1.和数据库中的数据一样,数据仓库中的数据也可以进行修改和删除。
答案:错2.以下哪项是元数据的包含的内容?答案:数据的更新频率;数据所做的转换;数据元素的含义;数据的来源3.事实表中存储的是维度。
答案:错4.数据仓库的数据是面向主题的,主题与业务系统中的数据库是一一对应的。
答案:错5.下列哪项不是OLAP多维分析操作?答案:透视6.维的层次越高,数据的粒度越大。
答案:对7.在OLAP多维分析操作中,旋转操作不改变数据,只是改变了数据集的展示方位。
答案:对8.星型模型不能表达维度的层次。
答案:对9.OLTP系统中的数据是数据仓库数据的主要来源。
答案:对10.数据仓库中不存储早期细节的数据。
答案:错第三章测试1.Mondrian中Schema是以XML文件的形式定义的。
Cube由维度构建出来的多维空间,是一系列Dimension Measure的集合区域,它们共用一个事实表。
答案:对2.维度表是事实表的一部分。
答案:错3.事实表是维表的一部分。
第1章数据仓库的概念与体系结构1.数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2.元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据元数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3.数据处理通常分成两大类:联机事务处理OLTP和联机分析处理OLAP。
4.多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片(Slice)、切块(dice)、钻取(Drill-down 和Roll-up 等)和旋转(pivot)等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5. ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6.数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7.数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集市、依赖型数据集市和操作型数据存储、逻辑型数据集市和实时数据仓库。
8.操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9.“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。
10.从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以营运导向为主、以实时数据仓库和自动决策为主。
11.什么是数据仓库?数据仓库的特点主要有哪些?答:数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。
数据仓库的特点包含以下几个方面:(1)面向主题。
智慧树知道网课《数据挖掘》课后章节测试满分答案第一章测试1【单选题】(20分)什么是KDD?A.C.文档知识发现B.A.数据挖掘与知识发现C.D.动态知识发现D.B.领域知识发现2【判断题】(20分)数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。
A.错B.对3【多选题】(20分)数据挖掘的预测建模任务主要包括哪几大类问题?A.分类B.模式匹配C.模式发现D.回归4【多选题】(20分)以下哪些学科和数据挖掘有密切联系?A.人工智能B.计算机组成原理C.矿产挖掘D.统计5【判断题】(20分)离群点可以是合法的数据对象或者值。
A.错B.对第二章测试1【单选题】(20分)下面哪个属于定量的属性类型:A.区间B.序数C.标称D.相异2【单选题】(20分)只有非零值才重要的二元属性被称作:A.非对称的二元属性B.离散属性C.对称属性D.计数属性3【判断题】(20分)定量属性可以是整数值或者是连续值。
A.对B.4【单选题】(20分)中心趋势度量模(mode)是指A.数据集中出现频率最高的值B.算术平均值C.最大值D.最小值5【多选题】(20分)以下哪些是属于中心趋势的度量A.标准差B.中位数五数概括D.平均值第三章测试1【单选题】(20分)数据清洗的方法不包括A.一致性检查。
习题一:1。
讨论是否每个以下活动是一个数据挖掘的任务。
(a)将公司的客户根据他们的性别。
不。
这是一个简单的数据库查询。
(b)将公司的客户根据他们的盈利能力。
不。
这是一个会计计算,紧随其后的是应用程序一个阈值。
然而,预测的盈利能力客户将数据挖掘。
(c)计算一个公司的总销售额。
不。
再次,这是简单的会计。
(d)排序一个学生数据库基于学生身份证号码。
不。
再一次,这是一个简单的数据库查询。
(e)预测结果掷双骰子(公平)。
不。
因为模具是公平的,这是一个概率计算。
如果死是不公平的,我们需要估计的概率每个结果的数据,那么这是更像的问题认为数据挖掘。
然而,在这种特定的情况下,解决方案这个问题是由数学家很长时间前,因此,我们不会认为它是数据挖掘。
(f)预测未来股价的公司使用历史记录。
是的。
我们将尝试创建一个模型,该模型可以预测连续价值的股票价格。
这是一个的例子数据挖掘领域称为预测模型。
我们可以使用回归建模,尽管在许多领域的研究者开发了各种各样的技术来预测时间吗系列。
(g)监测病人的心率异常。
是的。
我们可以建立一个模型,心脏的正常行为率和不同寻常的心行为发生时发出警报。
这将涉及到数据挖掘的区域称为异常检测。
这也可以被认为是一个分类问题如果我们有正常和异常的心行为的例子。
(h)监测地震活动的地震波。
是的。
在本例中,我们将构建一个不同类型的模型地震波与地震相关的活动和行为提高警报当其中一个不同类型的地震活动被观察到。
这是数据挖掘领域的一个例子被称为分类。
(i)提取声波的频率。
不。
这是信号处理。
2.假设你被录用,作为一个互联网数据挖掘咨询顾问搜索引擎公司。
描述数据挖掘可以帮助公司通过给具体的例子如何技术,如聚类,分类、关联规则挖掘和异常检测可以应用。
答:以下是可能的答案的例子。
•聚类可以把结果与类似的主题用户在一个更简洁的形式,例如通过报告集群中的十大最频繁的词语。
•分类可以将结果分配给预定义的类别等“体育”、“政治”,等等。
习题参考答案第1章绪论1.1 数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。
答:数据挖掘处理的对象是某一专业领域中积累的数据,对象既可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。
数据形式和结构也各不相同,可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web数据信息。
实际生活的例子:①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所开通的服务等,据此进行客户群体划分以及客户流失性分析。
②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文学家发现其他未知星体。
③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。
④市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。
1.2 给出一个例子,说明数据挖掘对商务的成功是至关重要的。
该商务需要什么样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?答:例如,数据挖掘在电子商务中的客户关系管理起到了非常重要的作用。
随着各个电子商务网站的建立,企业纷纷地从“产品导向”转向“客户导向”,如何在保持现有的客户同时吸引更多的客户、如何在客户群中发现潜在价值,一直都是电子商务企业重要任务。
但是,传统的数据分析处理,如数据查询处理或简单的统计分析,只能在数据库中进行一些简单的数据查询和更新以及一些简单的数据计算操作,却无法从现有的大量数据中挖掘潜在的价值。
而数据挖掘技术却能使用如聚类、关联分析、决策树和神经网络等多种方法,对数据库中庞大的数据进行挖掘分析,然后可以进行客户细分而提供个性化服务、可以利用挖掘到的历史流失客户的特征来防止客户流失、可以进行产品捆绑推荐等,从而使电子商务更好地进行客户关系管理,提高客户的忠诚度和满意度。
1.3 假定你是Big-University 的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库。
数据挖掘作业答案第二章数据准备5.推出在[-1,1]区间上的数据的最小-最大标准化公式。
解:标准化相当于按比例缩放,假如将在[minA,maxA]间的属性A的值v映射到区间[new_minA,new_maxA],根据同比关系得:(v-minA)/(v’-new_minA)=(maxA-minA)/(new_maxA-new_minA)化简得:v’=(v-minA)* (new_maxA-new_minA)/ (maxA-minA)+ new_minA6.已知一维数据集X={-5.0 , 23.0 , 17.6 , 7.23 , 1.11},用下述方法对其进行标准化:a) 在[-1,1]区间进行小数缩放。
解:X’={-0.050 ,0.230 ,0.176 ,0.0723 ,0.0111}b) 在[0,1]区间进行最小-最大标准化。
解:X’={0 , 1 , 0.807 ,0.437 ,0.218 }c) 在[-1,1]区间进行最小-最大标准化。
解:X’={-1 , 1 , 0.614 , -0.126 , 0.564}d) 标准差标准化。
解:mean=8.788 sd=11.523X’={-1.197 , 1.233 , 0.765 , -0.135 , -0.666}e) 比较上述标准化的结果,并讨论不同技术的优缺点。
解:小数缩放标准化粒度过大(以10为倍数),但计算简单;最小-最大值标准化需要搜索整个数据集确定最小最大数值,而且最小最大值的专家估算可能会导致标准化值的无意识的集中。
标准差标准化对距离测量非常效,但会把初始值转化成了未被认可的形式。
8.已知一个带有丢失值的四维样本。
X1={0,1,1,2}X2={2,1,*,1}X3={1,*,*,-1}X4={*,2,1,*}如果所有属性的定义域是[0,1,2],在丢失值被认为是“无关紧要的值”并且都被所给的定义域的所有可行值替换的情况下,“人工”样本的数量是多少?解:X1 “人工”样本的数量为 1X2 “人工”样本的数量为 3X3 “人工”样本的数量为9X4 “人工”样本的数量为9所以“人工”样本的数量为1×3×9×9=24310.数据库中不同病人的子女数以矢量形式给出:C={3,1,0,2,7,3,6,4,-2,0,0,10,15,6}a)应用标准统计参数——均值和方差,找出C中的异常点:mean=3.9286 sd=4.4153在3个标准差下的阈值:阈值=均值±3*标准差=3.928±3*4.4153=[-9.318,17.174]根据实际情况子女数不可能为负数,所以其范围可缩减为:[0,17.174]C中的异常点有:-2b)在2个标准差下的阈值:阈值=均值±2*标准差=3.928±2*4.4153=[-4.903,12.758]根据实际情况子女数不可能为负数,所以其范围可缩减为:[0,12.758]C中的异常点有:-2, 1511.已知的三维样本数据集X:X=[{1,2,0},{3,1,4},{2,1,5},{0,1,6},{2,4,3},{4,4,2},{5,2,1},{7,7,7},{0,0,0},{3,3,3}]。
介绍数据挖掘教师的解决方案手册陈甘美华Pang-NingMichael教授Vipin Kumar版权所有2006年Pearson Addison-Wesley。
保留所有权利。
内容。
1 Introduction 52 Data 53 Exploring Data 224 Classification: Basic Concepts, Decision Trees, and Model28 Evaluation 285 Classification: Alternative Techniques 536 Association Analysis: Basic Concepts and Algorithms 857 Association Analysis: Advanced Concepts 1158 Cluster Analysis: Basic Concepts and Algorithms 1539 Cluster Analysis: Additional Issues and Algorithms 17710 Anomaly Detection 187三1介绍1.讨论是否执行下列每项活动的是一种数据miningtask。
(a)把客户的公司根据他们的性别。
否。
这是一种简单的数据库查询。
(b)把客户的公司根据他们的盈利能力。
第这是一种会计计算、应用程序的门限值。
然而,预测盈利的一种新的客户将数据挖掘。
(c)计算的总销售公司。
否。
这又是简单的会计工作。
(d)排序的学生数据库基于学生的身份证号码。
第再次,这是一种简单的数据库查询。
(e)预测结果丢(公平)的一对骰子。
否。
既然死是公正的,这是一种概率的计算。
如果死是不公平的,我们需要估计的概率对每个结果的数据,那么这更象研究的问题数据挖掘。
然而,在这种特定的情况下,要解决这一问题是由数学家很长一段时间前,因此,我们不认为它是数据挖掘。
(f)预测未来股价的公司使用。
数据挖掘——概念概念与技术Jiawei Han Micheline Kamber 著范明孟晓峰译第1章引言什么是数据挖掘在你的回答中,针对以下问题:定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。
使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。
解答:�特征化是一个目标类数据的一般特性或特性的汇总。
例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Gradepoint aversge) 的信息,还有所修的课程的最大数量。
�区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例如,具有高 GPA 的学生的一般特性可被用来与具有低 GPA 的一般特性比较。
最终的描述可能是学生的一个一般可比较的轮廓,就像具有高 GPA 的学生的 75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。
�关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。
例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒owns(X, “personal computer”) [support=12%,confid ence=98%]其中,X 是一个表示学生的变量。
这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。
这个组一个学生拥有一台个人电脑的概率是 98%(置信度,或确定度)。
�分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。
它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。
�聚类分析的数据对象不考虑已知的类标号。
对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。
第六章数据挖掘导论
1。
对于每个下列问题,提供一个关联规则的一个例子
从市场购物篮域,满足下列条件。
同样,
这些规则是主观地描述是否有趣。
(一)一个规则,具有较高的支持和高的信心。
答:牛奶−→面包。
这种明显的规则往往是无趣的。
(b)规则,有相当高的支持,但信心不足。
答:牛奶−→金枪鱼。
而出售金枪鱼和牛奶可能是
高于阈值,并不是所有的事务,包含牛奶
也包含金枪鱼。
这种低规则往往是无趣的。
(c)一个规则,低的支持和信心不足。
答:食用油−→洗衣粉。
如此低的信心规则
往往是无趣的。
(d)规则,低支持和高的信心。
答:伏特加−→鱼子酱。
这样的规则往往是有趣的
2。
考虑到数据集显示于表格6.1。
(一)计算支持项集{ e },{ b、d },{ b、d、e }通过治疗
每个事务ID作为一个市场购物篮。
答:
(b) Use the results in part (a) to compute the confidence for the association rules {b, d} −→{e} and {e} −→{b, d}. Is confidence a symmetric
measure?
c、重复部分(一)通过将每个客户ID作为一个市场购物篮。
每个项目应被视为一个二进制变量(1如果一个项目出现在至少有一个交易购买的顾客,和0否则。
)
d
e 没有明显关系s1,s2,c1和c2
所以c2有最低的置信度
4、
因为年代(A,B,C)≤年代(A,B)和max(s(一个),s(B),s(C))≥max(s(一个),s(B)), 因此ζ({ A、B })≥ζ({ A,B,C })。
(b)
因为s(A,B,C)≤s(A,B)和最小(s(A,B),s(A,C),s(B,C))≤min(s(一个),s(B),s(C)) ≤min(s(一个),s(B))、η({ A,B,C })可以大于或小于η({ A、B })。
因此,这些措施是单调。
(一)的最大数量,可以提取关联规则
从这个数据(包括规则,零支持)?
答:有六项数据集。
因此总
规则的数量是602。
(b)什么是频繁项集的最大大小,可以提取
(假设用来> 0)?
答:因为最长的事务包含4项,最大
频繁项集的大小是4。
(c)编写一个表达式最大数量的大小3项集,
可以源自这个数据集。
答:
(d)找到itemset(大小为2或更大),拥有最大的支持。
答:{面包、黄油}。
(e)找到一双项目,a和b,这样的规则{一}−→{ b }和{ b }−→{一}有同样的信心。
答:(啤酒,饼干)或(面包、黄油)。
比例的频繁项集= 16/32 = 50.0%(包括null 设置)。
修剪比率的比例是N的总数量的项目集。
因为的计数N = 11,因此修剪比例是11/32 = 34.4%。
误警率的比值我总数量的项目集。
因为计数的我= 5,因此误警率是5/32 = 15.6%。