数据挖掘考试题目——聚类

格式：doc
大小：37.50 KB
文档页数：5

下载文档原格式

/ 5

12《数据仓库与数据挖掘》复习题

《数据仓库与数据挖掘》复习大纲三、简答题（5×6分=30分）四、分析计算题（3×10分=30分）考试范围：第一讲数据挖掘概述考点：1、数据挖掘、知识发现（KDD）基本概念；2、数据挖掘的过程；3、数据挖掘过技术的三个主要部分。

复习参考题：一、填空题（1）数据库中的知识挖掘(KDD)包括以下七个步骤：数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示。

（2）数据挖掘的性能问题主要包括：算法的效率、可扩展性和并行处理。

（3）当前的数据挖掘研究中，最主要的三个研究方向是：统计学、数据库技术和机器学习。

（4）在万维网(WWW)上应用的数据挖掘技术常被称为：WEB挖掘。

（5）孤立点是指：一些与数据的一般行为或模型不一致的孤立数据。

二、单选题（1）数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于：BA、所涉及的算法的复杂性；B、所涉及的数据量；C、计算结果的表现形式；D、是否使用了人工智能技术（2）孤立点挖掘适用于下列哪种场合？DA、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测（3）下列几种数据挖掘功能中，（ D ）被广泛的应用于股票价格走势分析。

A. 关联分析B.分类和预测C.聚类分析D. 演变分析（4）下面的数据挖掘的任务中，（ B ）将决定所使用的数据挖掘功能。

A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示（5）下列几种数据挖掘功能中，（A ）被广泛的用于购物篮分析。

A、关联分析B、分类和预测C、聚类分析D、演变分析（6）根据顾客的收入和职业情况，预测他们在计算机设备上的花费，所使用的相应数据挖掘功能是（ B）。

A.关联分析B.分类和预测C. 演变分析D. 概念描述（7）帮助市场分析人员从客户的基本信息库中发现不同的客户群，通常所使用的数据挖掘功能是（ C ）。

A.关联分析B.分类和预测C.聚类分析D. 孤立点分析E. 演变分析（8）假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述，通常所使用的数据挖掘功能是（ E ）A.关联分析B.分类和预测C. 孤立点分析D. 演变分析E. 概念描述三、简答题1、何谓数据挖掘？它有哪些方面的功能？答：从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。

数据挖掘(练习)考试答案

数据挖掘（练习）1、(单选，4分)以下哪项不属于知识发现的过程？( )A、数据清理B、数据挖掘C、知识可视化表达D、数据测试答案：D2、(单选，4分)以下哪些不属于数据挖掘的内容？（）A、分类B、聚类C、离群点检测D、递归分析答案：D3、(单选，4分)以下哪个不是常见的属性类型？（）A、A．标称属性B、数值属性C、高维属性D、序数属性答案：C4、(单选，4分)以下哪个度量属于数据散度的描述？（）A、均值B、中位数C、标准差D、众数答案：C5、(单选，4分)以下哪个度量不属于数据中心趋势度描述？（D ）A、A．均值B、中位数C、众数D、四分位数答案：D6、(单选，4分)对数据进行数据清理、集成、变换、规约是数据挖掘哪个步骤的任务？( )A、频繁模式挖掘B、分类和预测C、数据预处理D、噪声检测答案：C7、(单选，4分)聚类分析是数据挖掘的一种重要技术，以下哪个算法不属于聚类算法？( )A、K-MeansB、DBSCANC、SVMD、EM 答案：C8、(单选，4分)建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？( )A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则答案：C9、(单选，4分)当不知道数据所带标签时. 可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？( )A、分类B、聚类C、关联分析D、隐马尔可夫链答案：B10、(单选，4分)在构造决策树时，以下哪种不是选择属性的度量的方法？( )A、信息增益B、信息增益率C、基尼指数D、距离答案：D11、(单选，4分)知识发现流程最核心的步骤是什么？( )A、数据挖掘B、数据预处理C、模式评估D、知识表示答案：A12、(单选，4分)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？( )A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘答案：C13、(单选，4分)以下哪个度量属于数据中心性的描述？（）A、均值B、极差C、众数D、标准差答案：A14、(单选，4分)类分析是数据挖掘的一种重要技术，以下哪个算法不属于聚类算法？( )A、K-MeansB、DBSCANC、KNND、EM 答案：C15、(单选，4分)某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？( ) A、关联规则发现B、聚类C、分类D、自然语言处理答案：A16、(单选，4分)以下哪些算法是分类算法？( ) A、DBSCAN B、C4.5 C、K-Mean D、EM 答案：B17、(单选，4分)K-means算法的缺点不包括？( ) A、K必须是事先给定的B、选择初始聚类中心C、对于“噪声”和孤立点数据是敏感的D、可伸缩、高效答案：D18、(单选，4分)机器学习中，下面哪些方法不可以避免分类中的过拟合问题？（）A、增加样本数量B、增加模型复杂度C、去除噪声D、正则化答案：B19、(单选，4分)下面那个不属于知识发现过程。

数据挖掘考试题

数据挖掘考试题数据挖掘考试题⼀．选择题1. 当不知道数据所带标签时，可以使⽤哪种技术促使带同类标签的数据与带其他标签的数据相分离？( )A.分类B.聚类C.关联分析D.主成分分析2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是⼀种凝聚层次聚类技术。

A.MIN(单链)B.MAX(全链)C.组平均D.Ward⽅法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应⽤了( )数据挖掘⽅法。

A 分类B 预测C关联规则分析D聚类4.关于K均值和DBSCAN的⽐较，以下说法不正确的是( )A.K均值丢弃被它识别为噪声的对象，⽽DBSCAN⼀般聚类所有对象。

B.K均值使⽤簇的基于原型的概念，DBSCAN使⽤基于密度的概念。

C.K均值很难处理⾮球形的簇和不同⼤⼩的簇，DBSCAN可以处理不同⼤⼩和不同形状的簇D.K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇5.下列关于Ward’s Method说法错误的是：( )A.对噪声点和离群点敏感度⽐较⼩B.擅长处理球状的簇C.对于Ward⽅法，两个簇的邻近度定义为两个簇合并时导致的平⽅误差D.当两个点之间的邻近度取它们之间距离的平⽅时，Ward⽅法与组平均⾮常相似6.下列关于层次聚类存在的问题说法正确的是：( )A.具有全局优化⽬标函数B.Group Average擅长处理球状的簇C.可以处理不同⼤⼩簇的能⼒D.Max对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中，说法错误的事：( )A.⼀旦两个簇合并，该操作就不能撤销B.算法的终⽌条件是仅剩下⼀个簇C.空间复杂度为()2m O D.具有全局优化⽬标函数8.规则{⽜奶，尿布}→{啤酒}的⽀持度和置信度分别为：( ) TID项集 12345{⾯包，⽜奶} {⾯包，尿布，啤酒，鸡蛋} {⽜奶，尿布，啤酒，可乐} {⾯包，⽜奶，尿布，啤酒} {⾯包，⽜奶，尿布，可乐}A.0.4,0.4B.0.67,0.67C.0.4,0.67D.0.67,0.49.下列( )是属于分裂层次聚类的⽅法。

数据挖掘第5章聚类

在PAM算法中，可以把过程分为两个步骤：（1）建立：随机选择k个对象点作为初始的簇中心点；（2）交换：对所有可能的对象对进行分析，找到交换后可以使误差减少的对象，代替原中心点。
13 of 55
5.2.2 k 中心点算法
第五章聚类
算法5.2 PAM(k-中心点算法) 输入：簇的数目k，包含n个对象的数据集D 输出：k个簇，使得所有对象与其最近代表对象点的距离总和最小 1：任意选择k个对象作为初始的簇中心点； 2：将每个剩余对象指派给离它最近的中心点所代表的簇； 3：任意选择一个非中心对象orandom； 4：计算用orandom代替中心对象的总代价S； 5：如果S为负，则可以用orandom代替以构成新聚类的k个中心对象； 6：重复(2)(3)(4)(5)，直到每个簇不再发生变化为止。
k均值算法对离群数据对象点是敏感的，一个极大值的对象可能在相当大的程度上扭曲数据的分布。目标函数(5.3)的使用更是进一步恶化了这一影响。
k中心点算法：在每个簇中选出一个最靠近均值的实际的对象来代表该簇，其余的每个对
象指派到与其距离最近的代表对象所在的簇中。
每次迭代后的簇的代表对象点都是从簇的样本点中选取，选取的标准就是当该样本点成为新的代表对象点后能提高簇的聚类质量，使得簇更紧凑。
k—means聚类算法将各个聚类子集内的所有数据样本的均值作为该聚类的代表点，算法的主要思想是通过迭代过程把数据集划分为不同的类别，使得评价聚类性能的准则函数达到最优，从而使生成的每个聚类类内紧凑，类间独立。k—means聚类算法不适合处理离散型属性，但是对于连续型属性具有较好的聚类效果。
7 of 55
4 of 55
高级大数据人才培养丛书之一，大数据挖掘技术与应用

数据挖掘考试习题汇总

第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、元数据是描述数据仓库内数据的结构和建立方法的数据，它为访问数据仓库提供了一个信息目录，根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3、数据处理通常分成两大类：联机事务处理和联机分析处理。

4、多维分析是指以“维”形式组织起来的数据（多维数据集）采取切片、切块、钻取和旋转等各种分析动作，以求剖析数据，使拥护能从不同角度、不同侧面观察数据仓库中的数据，从而深入理解多维数据集中的信息。

5、ROLAP是基于关系数据库的OLAP实现，而MOLAP是基于多维数据结构组织的OLAP实现。

6、数据仓库按照其开发过程，其关键环节包括数据抽取、数据存储与管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同，可以分为以下4种类型：两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。

8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的（但是可“挥发”的）、企业级的、详细的数据库，也叫运营数据存储。

9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。

10、从应用的角度看，数据仓库的发展演变可以归纳为5个阶段：以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。

第二章1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。

2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。

因此，我们要求ETL 过程产生的数据（即调和数据层）是详细的、历史的、规范的、可理解的、即时的和质量可控制的。

3、数据抽取的两个常见类型是静态抽取和增量抽取。

静态抽取用于最初填充数据仓库，增量抽取用于进行数据仓库的维护。

4、粒度是对数据仓库中数据的综合程度高低的一个衡量。

粒度越小，细节程度越高，综合程度越低，回答查询的种类越多。

数据挖掘考试题

数据挖掘考试题一．选择题１。

当不知道数据所带标签时,可以使用哪种技术促使带同类标签得数据与带其她标签得数据相分离?( )A.分类B、聚类 C.关联分析Ｄ。

主成分分析2. ( )将两个簇得邻近度定义为不同簇得所有点对邻近度得平均值,它就是一种凝聚层次聚类技术。

A。

MIN(单链) B。

MAX(全链) C、组平均 D.Waｒd方法3、数据挖掘得经典案例“啤酒与尿布试验”最主要就是应用了( )数据挖掘方法、A 分类B 预测C关联规则分析D聚类4。

关于K均值与DBＳCAN得比较,以下说法不正确得就是( )A.K均值丢弃被它识别为噪声得对象,而DBSＣＡN一般聚类所有对象。

B、Ｋ均值使用簇得基于原型得概念,DBSCＡＮ使用基于密度得概念。

Ｃ。

K均值很难处理非球形得簇与不同大小得簇,DBSCAN可以处理不同大小与不同形状得簇Ｄ.K均值可以发现不就是明显分离得簇,即便簇有重叠也可以发现,但就是DBSCAN会合并有重叠得簇５、下列关于Warｄ'sＭethod说法错误得就是:( )A、对噪声点与离群点敏感度比较小B、擅长处理球状得簇C。

对于Ward方法,两个簇得邻近度定义为两个簇合并时导致得平方误差D。

当两个点之间得邻近度取它们之间距离得平方时,Waｒd方法与组平均非常相似6.下列关于层次聚类存在得问题说法正确得就是:( )A.具有全局优化目标函数B.GrouｐＡverage擅长处理球状得簇C.可以处理不同大小簇得能力D.Maｘ对噪声点与离群点很敏感７。

下列关于凝聚层次聚类得说法中,说法错误得事:( )A。

一旦两个簇合并,该操作就不能撤销B、算法得终止条件就是仅剩下一个簇C.空间复杂度为D。

具有全局优化目标函数8。

规则｛牛奶,尿布｝→｛啤酒}得支持度与置信度分别为:( )TID 项集1２345｛面包,牛奶}｛面包,尿布,啤酒,鸡蛋｝{牛奶,尿布,啤酒,可乐}{面包,牛奶,尿布,啤酒｝｛面包,牛奶,尿布,可乐｝A。

《数据挖掘方法》期末考试试卷附答案

《数据挖掘方法》期末考试试卷附答案数据挖掘方法期末考试试卷一、选择题（每题5分，共25分）1. 数据挖掘的目的是从大量数据中发现有价值的模式和知识。

以下哪项不是数据挖掘的主要任务？A. 分类B. 聚类C. 预测D. 图像识别答案：D2. 决策树是一种常见的分类算法，它在哪个阶段进行剪枝？A. 生成阶段B. 修剪阶段C. 测试阶段D. 应用阶段答案：B3. K-近邻算法中，K值一般取多少比较合适？A. 1B. 3C. 5D. 10答案：B4. 在关联规则挖掘中，最小支持度是指？A. 一条规则必须满足的最小条件概率B. 一条规则必须满足的最小置信度C. 数据集中满足条件概率的最小值D. 数据集中满足条件的最小实例数答案：D5. 以下哪种技术不属于聚类分析？A. 层次聚类B. 基于密度的聚类C. 基于距离的聚类D. 基于规则的聚类答案：D二、填空题（每题5分，共25分）1. 在分类算法中，将数据集中的每个实例分配给一个类别的过程称为________。

答案：分类2. 决策树算法中，用于评估节点纯度的指标有________、________和________等。

答案：信息熵、增益、增益率3. K-均值聚类算法中，簇心的初始值通常通过________算法来确定。

答案：随机初始化4. 在关联规则挖掘中，________、________和________是三个基本的概念。

答案：项集、频繁项集、关联规则5. 在基于距离的聚类算法中，常用的距离度量有________、________和________等。

答案：欧氏距离、曼哈顿距离、余弦相似度三、简答题（每题10分，共30分）1. 请简要解释什么是决策树，以及它的工作原理。

答案：决策树是一种常见的分类和回归算法，它通过一系列的判断条件将数据集划分为不同的子集，最终达到分类或回归的目的。

它的工作原理是从根节点开始，根据特征值的不同，选择合适的分支，一直递归到叶节点，得到最终的预测结果。

数据挖掘考试题库及答案

数据挖掘考试题库及答案一、单项选择题1. 数据挖掘的主要任务不包括以下哪一项？A. 分类B. 聚类C. 预测D. 数据清洗答案：D2. 以下哪个算法不是用于分类的？A. 决策树B. 支持向量机C. K-均值D. 神经网络答案：C3. 在数据挖掘中，哪个指标用于衡量分类模型的性能？A. 准确率B. 召回率C. F1分数D. 所有以上答案：D4. 以下哪个不是数据挖掘中的聚类算法？A. K-均值B. DBSCANC. AprioriD. 层次聚类答案：C5. 在关联规则挖掘中，哪个算法是最著名的？A. AprioriB. FP-GrowthC. EMD. K-均值答案：A二、多项选择题6. 数据挖掘过程中可能需要进行的预处理步骤包括哪些？A. 缺失值处理B. 异常值检测C. 数据标准化D. 特征选择答案：ABCD7. 以下哪些是监督学习算法？A. 线性回归B. 逻辑回归C. 决策树D. K-均值答案：ABC8. 在数据挖掘中，以下哪些是评估模型性能的指标？A. 精确度B. 召回率C. 混淆矩阵D. ROC曲线答案：ABCD9. 以下哪些是无监督学习算法？A. K-均值B. 主成分分析C. 自动编码器D. 支持向量机答案：ABC10. 在数据挖掘中，以下哪些是特征工程的步骤？A. 特征提取B. 特征选择C. 特征转换D. 特征降维答案：ABCD三、填空题11. 数据挖掘中的________是指从大量数据中提取模式或知识的过程。

答案：知识发现12. 在分类问题中，________是指模型预测正确的样本数量占总样本数量的比例。

答案：准确率13. 在聚类分析中，________是一种基于密度的聚类算法，它将具有足够高密度的区域划分为一个簇。

答案：DBSCAN14. 在关联规则挖掘中，________算法通过减少候选项集来提高挖掘效率。

答案：FP-Growth15. 在数据挖掘中，________是指通过算法自动从数据中学习并构建模型的过程。

数据挖掘（练习）考试答案

数据挖掘（练习）考试答案数据挖掘（练习）1、(单选，4分)以下哪项不属于知识发现的过程？( )A、数据清理B、数据挖掘C、知识可视化表达D、数据测试答案：D2、(单选，4分)以下哪些不属于数据挖掘的内容？（）A、分类B、聚类C、离群点检测D、递归分析答案：D3、(单选，4分)以下哪个不是常见的属性类型？（）A、A．标称属性B、数值属性C、高维属性D、序数属性答案：C4、(单选，4分)以下哪个度量属于数据散度的描述？（）A、均值B、中位数C、标准差D、众数答案：C5、(单选，4分)以下哪个度量不属于数据中心趋势度描述？（D ）A、A．均值B、中位数C、众数D、四分位数答案：D6、(单选，4分)对数据进行数据清理、集成、变换、规约是数据挖掘哪个步骤的任务？( )A、频繁模式挖掘B、分类和预测C、数据预处理D、噪声检测答案：C7、(单选，4分)聚类分析是数据挖掘的一种重要技术，以下哪个算法不属于聚类算法？( )A、K-MeansB、DBSCANC、SVMD、EM 答案：C8、(单选，4分)建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？( )A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则答案：C9、(单选，4分)当不知道数据所带标签时. 可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？( )A、分类B、聚类C、关联分析D、隐马尔可夫链答案：B10、(单选，4分)在构造决策树时，以下哪种不是选择属性的度量的方法？( )A、信息增益B、信息增益率C、基尼指数D、距离答案：D11、(单选，4分)知识发现流程最核心的步骤是什么？( )A、数据挖掘B、数据预处理C、模式评估D、知识表示答案：A12、(单选，4分)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？( )A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘答案：C13、(单选，4分)以下哪个度量属于数据中心性的描述？（）A、均值B、极差C、众数D、标准差答案：A14、(单选，4分)类分析是数据挖掘的一种重要技术，以下哪个算法不属于聚类算法？( )A、K-MeansB、DBSCANC、KNND、EM 答案：C15、(单选，4分)某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？( ) A、关联规则发现B、聚类C、分类D、自然语言处理答案：A16、(单选，4分)以下哪些算法是分类算法？( ) A、DBSCAN B、C4.5 C、K-Mean D、EM 答案：B17、(单选，4分)K-means算法的缺点不包括？( ) A、K必须是事先给定的B、选择初始聚类中心C、对于“噪声”和孤立点数据是敏感的D、可伸缩、高效答案：D18、(单选，4分)机器学习中，下面哪些方法不可以避免分类中的过拟合问题？（）A、增加样本数量B、增加模型复杂度C、去除噪声D、正则化答案：B19、(单选，4分)下面那个不属于知识发现过程。

数据挖掘期末考试试题及答案详解

数据挖掘期末考试试题及答案详解一、选择题（每题2分，共20分）1. 数据挖掘中，关联规则分析主要用于发现数据中的哪种关系？A. 因果关系B. 相关性C. 聚类关系D. 顺序关系答案：B2. 在决策树算法中，哪个指标用于评估特征的重要性？A. 信息增益B. 支持度C. 置信度D. 覆盖度答案：A3. 以下哪个是数据挖掘的常用方法？A. 线性回归B. 逻辑回归C. 神经网络D. 所有选项答案：D4. K-means聚类算法中，K值的选择是基于什么？A. 数据的维度B. 聚类中心的数量C. 数据的分布情况D. 数据的规模答案：B5. 以下哪个是数据挖掘中常用的数据预处理技术？A. 数据清洗B. 数据转换C. 数据归一化D. 所有选项答案：D...（此处省略其他选择题）二、简答题（每题10分，共30分）1. 简述什么是数据挖掘，并列举其主要的应用领域。

答案：数据挖掘是从大量数据中自动或半自动地发现有趣模式的过程。

它主要应用于市场分析、风险管理、欺诈检测、客户关系管理等领域。

2. 解释什么是朴素贝叶斯分类器，并说明其在数据挖掘中的应用。

答案：朴素贝叶斯分类器是一种基于贝叶斯定理的分类算法，它假设特征之间相互独立。

在数据挖掘中，朴素贝叶斯分类器常用于文本分类、垃圾邮件检测等任务。

3. 描述K-means聚类算法的基本原理，并举例说明其在实际问题中的应用。

答案：K-means聚类算法是一种基于距离的聚类方法，其目标是将数据点划分到K个簇中，使得每个数据点与其所属簇的中心点的距离之和最小。

例如，在市场细分中，K-means聚类可以用来将客户根据购买行为划分为不同的群体。

三、计算题（每题25分，共50分）1. 给定一组数据点：{(1,2), (2,3), (3,4), (4,5)}，请使用K-means算法将这些点分为两个簇，并计算簇的中心点。

答案：首先随机选择两个点作为初始中心点，然后迭代地将每个点分配到最近的中心点，接着更新中心点。

数据挖掘与分析考试题库(含答案)

数据挖掘与分析考试题库(含答案)选择题1. 数据挖掘的主要功能是什么？A. 挖掘数据潜在的信息B. 对数据进行记录和处理C. 提高数据存储的效率D. 对数据进行分类和排序Answer: A2. 下列哪种算法不属于聚类算法？A. K-MeansB. BP神经网络C. DBSCAND. 层次聚类Answer: B3. 数据挖掘中使用最多的算法是什么？A. 决策树B. 关联规则C. 神经网络D. 贝叶斯Answer: A4. 数据挖掘的预处理不包括下列哪项？A. 数据压缩B. 数据清洗C. 数据变换D. 数据标准化Answer: A5. 下列哪项不是数据挖掘的步骤？A. 数据预处理B. 特征选择C. 模型评价D. 问题求解Answer: D填空题1. 数据挖掘的类型有分类、聚类和__________。

(回归)2. 决策树分类的根节点对应的是__________。

(最优属性)3. 聚类算法的优化目标是__________。

(最小化)4. 在SPSS Modeler中可以通过“数据变换”节点进行数据__________。

(离散化)5. 数据挖掘可以发现数据中的__________规律。

(潜在)论述题1. 请简要介绍数据挖掘的主要任务及其流程。

答：数据挖掘的主要任务是挖掘数据中潜在的信息，包括分类、聚类、关联规则等。

其流程通常包括数据预处理、特征选择、模型构建和模型评价等步骤。

其中，数据预处理是数据挖掘的重要步骤，包括数据清洗、数据变换、数据标准化等，主要是为了提高数据的质量和可用性。

特征选择是指选择最具有代表性的特征，以便于数据的分析和建模，主要是为了降低模型的复杂度和提高模型的精度。

模型构建是依据所选的算法来构建数据模型，包括决策树、神经网络、关联规则等。

模型评价则是通过对构建的模型进行测试和评价，以便于知道模型的优劣和改进方向。

2. 请论述聚类分析的常用算法及其优缺点。

答：聚类分析的常用算法包括K-Means、层次聚类和DBSCAN等。

(完整版)数据挖掘考试题库

干馏处理污泥制造生物炭(论文)10-7-28LT干馏法处理污泥制备生物炭Dry Distillation Sludge Treatment Preparation of Biochar〔干馏法为污水处理厂解决污泥处理难题〕(Dry Distillation for Wastewater Treatment Plants to Solve Sludge Treatment Difficulties) 摘要：污泥处置难，究竟难在哪？传统的污泥处置技术有填埋、堆肥、固化、土地利用、制造建材、干化燃烧、发电厂掺烧、水泥窑协同处理等等。

为什么有如此多的处置方法，而污泥处置却成为全国性难题呢？如果对污泥问题全面分析，就会发现并不是污泥本身难处理，而是传统的污泥处置技术难实施！以往的研究过多地关注污泥本身的处理，缺乏从污水处理厂的角度去研究污泥处理需要克服的技术和非技术难题！作为污泥处理的责任实体，当一个污水处理厂方案进行污泥处理时，他们必须要解决：〔1〕污泥处理工程实施的独立性，〔2〕污泥处理工程的经济性，〔3〕污泥处理过程的可控性，〔4〕污泥处理系统的稳定性。

干馏法处理污泥技术是专为污水处理厂解决其所面临的上述问题而开发的！干馏法处理污泥，使污水处理厂掌握了实施污泥处理工程的主动权，并使污泥处理工程实施具有了可操作性以及可控性。

干馏法处理污泥解决了污水处理领域的一个难题，同时也解决了各国面临的土壤退化难题和无法大规模、低本钱制造土壤改进急需的生物炭难题！科学家们将以生物质为原料，在无氧状态下干馏、热解所形成的一种炭质材料称为“生物炭〞。

理论上，任何植物或动物都可以在无氧环境下热解后形成生物炭。

制造生物炭的生物质来源广泛，如污水处理厂污泥、生活垃圾，以及动物粪肥、稻米谷壳、花生壳、玉米秆、树木废料等。

生物炭被称为“黑金〞，广泛用于土壤改进。

生物炭富含微孔，不但可以补充土壤的有机物含量，还可以改善土壤的透气性和排水性，蓄留植物根部所需水分，有效地保存水分和养料，提高土壤肥力。

数据挖掘聚类分析(第六章)

❖ 具体过程如表：
m1
m2
K1
K2
2
4
{2,3}
{4,10,12,20,30,11,25}
2.5
16
{2,3,4}
{10,12,20,30,11,25}
3
18
{2,3,4,10}
{12,20,30,11,25}
4.75
19.6 {2,3,4,10,11,12}
{20,30,25}
7
25
{2,3,4,10,11,12}
❖ 2、考虑下一个数据项，把它分配到目前某个类中或一个新类中。给分配是基于一些准则的，例如新数据项到目前类的重心的距离。在这种情况下，每次添加一个新数据项到一个目前的类中时，需要重新计算重心的值。
❖ 3、重复步骤2，直到所有的数据样本都被聚类完毕。
❖ 例如：设 x1=(0,2),x2=(0,0),x3=(1.5,0),x4=(5,0),X5=(5,2) 假定样本的顺序是：X1,X2,X3,X4,X5, 类间相似度的阈值水平是s=3。
❖ 聚类结果的质量也取决于它发现隐藏模式的能力。.
K-均值聚类
❖ K-均值聚类方法是最简单、最常用的使用使用准则的方法。
❖ K-均值聚类是属于划分方法中的基于质心技术的一种方法。划分的思路是以k 为参数，把n个对象分为k 个类，以使类内具有较高的相似度，而类间的相似度较低。相似度的计算根据一个类中对象的平均值(被看作类的重心)来进行。
1、第一个样本X1将变成第一个类C1={x1}.x1的坐标就是重心坐标M1={0，2}。
2、开始分析其他样本。 a)把第2个样本x2和M1比较，距离d为:
d(x2,M1)= 02 22 =2.0<3

数据挖掘考试题

数据挖掘考试题一．选择题1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？( )A.分类B.聚类C.关联分析D.主成分分析2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。

A.MIN(单链)B.MAX(全链)C.组平均D.Ward方法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。

A 分类B 预测 C关联规则分析 D聚类4.关于K均值和DBSCAN的比较，以下说法不正确的是( )A.K均值丢弃被它识别为噪声的对象，而DBSCAN一般聚类所有对象。

B.K均值使用簇的基于原型的概念，DBSCAN使用基于密度的概念。

C.K均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处理不同大小和不同形状的簇D.K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN 会合并有重叠的簇5.下列关于Ward’s Method说法错误的是：( )A.对噪声点和离群点敏感度比较小B.擅长处理球状的簇C.对于Ward方法，两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似6.下列关于层次聚类存在的问题说法正确的是：( )A.具有全局优化目标函数B.Group Average擅长处理球状的簇C.可以处理不同大小簇的能力D.Max对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中，说法错误的事：( )A.一旦两个簇合并，该操作就不能撤销B.算法的终止条件是仅剩下一个簇C.空间复杂度为()2mOD.具有全局优化目标函数8.规则{牛奶，尿布}→{啤酒}的支持度和置信度分别为：( )TID 项集1 2 3 4 5 {面包，牛奶}{面包，尿布，啤酒，鸡蛋} {牛奶，尿布，啤酒，可乐} {面包，牛奶，尿布，啤酒} {面包，牛奶，尿布，可乐}9.下列( )是属于分裂层次聚类的方法。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据挖掘考试题目——聚类
一、填空题
1、密度的基于中心的方法使得我们可以将点分类为：__________、________ 、_________。
2、DBSCAN算法在最坏的情况下，时间复杂度是__________、空间复杂度是__________。
3、DBSCAN算法的优点是_______、__________________________。
4、DBSCAN算法的缺点是处理_________________、_____________的数据效果不好。
5、DBSCAN算法的参数有：___________、____________。
6、簇的有效性的非监督度量常常可以分为两类：__________、__________，它常采用的指
标为__________。
7、簇的有效性的监督度量通常称为___________，它度量簇标号与外部提供的标号的匹配程
度主要借助____________。
8、在相似度矩阵评价的聚类中，如果有明显分离的簇，则相似度矩阵应当粗略地是
__________。
9、DBSCAN算法的参数确定的基本方法是观察____________________的特性。
10、不引用附加的信息，评估聚类分析结果对数据拟合情况属于__________技术。

答案：
1、核心点边界点噪声点
2、 O(n2) O(n)
3、耐噪声能够处理任意大小和形状的簇
4、高维数据变密度的
5、 EPS MinPts
6、簇的凝聚性簇的分离性均方差(SSE)
7、外部指标监督指标的熵
8、块对角的
9、点到它的第K个最近邻的距离（K-距离）
10、非监督
二、选择题
1、DBSCAN算法的过程是（B）。
① 删除噪声点。
② 每组连通的核心点形成一个簇。
③ 将所有点标记为核心点、边界点和噪声点。
④ 将每个边界点指派到一个与之关联的核心点的簇中。
⑤ 为距离在Eps之内的所有核心点之间赋予一条边。
A：①②④⑤③
B：③①⑤②④
C：③①②④⑤
D：①④⑤②③

2、如果有m个点，DBSCAN在最坏的情况下的时间复杂度度为（C）。
A O(m) B O(mlogm) C O(m2) D O(logm)

3、在基本DBSCAN的参数选择方法中，点到它的K个最近邻的距离中的K选作为哪一个
参数（B）。
A Eps B MinPts C 质心 D 边界

4、当采用K-距离的方法选择DBSCAN的Eps和MinPts参数时，如果设置的K的值太大，
则小簇（尺寸小于K的簇）可能会被标记为（A）。
A 噪声 B 核心簇 C 边界簇 D以上都不对

5、如果处理以下形状的数据时，适宜采用DBSCAN的是（B）
A 球形 B SS形 C 椭球形 D 方形

6、DBSCAN之所以难以有效处理高维数据，其主要原因是（D）
A 数据的形状太复杂 B 簇的大小未知 C 噪声点过多 D 开销过大
7、簇评估能够做到（D）
①确定数据集的聚类趋势。
②确定正确的簇个数。
③比较两个簇集，确定那个更好。
④不引用附加信息，评估聚类分析结果对数据拟合情况
A ①② B ②③④ C ①②③ D①②③④

8、如果不考虑外部信息，聚类结构的有良性度量应当采用（A）。
A 均方差 B 方差 C 中位数 D 均值

9、比较不同的聚类或簇时，通常采用相对的簇评估度量，相对的簇评估以（）来评价不同
的聚类或簇。
A SSE或熵 B 簇的大小 C 簇的形状 D 簇的密度

10、对于DBSCAN，参数Eps固定，当MinPts取值较大时，会导致（B）
A 能很好的区分各类簇
B 只有高密度的点的聚集区划为簇，其余划为噪声
C 低密度的点的聚集区划为簇，其余的划为噪声
D 无影响

三、判断题
1、DBSCAN的参数Eps固定时，MinPts的值越大越好。（错）
2、DBSCAN会把所有点划分到各自的簇中。（错）
3、在所有核心点的Eps半径邻域内的点数都不少于MinPts阈值。（对）
4、SSE在无监督的簇评估中能起到很好的作用。（对）
5、在通过相似度矩阵评估簇时，如果相似度矩阵是块对角的，说明具有明显分离的簇（对）。
6、DBSCAN能够很好的区分原始数据的形状，但受限于用户指定的参数。（对）
7、判断簇的个数不属于簇评估。（错）
8、在做聚类时，DBSCAN会删掉它认为是噪声点的数据点。（对）
9、DBSCAN的空间复杂度始终都是O(m)。（对）
10、K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并
有重叠的簇。（对）

四、简答题
1、描述DBSCAN的算法过程。
①将所有点标记为核心点、边界点和噪声点。
②删除噪声点。
③为距离在Eps之内的所有核心点之间赋予一条边。
④每组连通的核心点形成一个簇。
⑤将每个边界点指派到一个与之关联的核心点的簇中。

2、简答DBSCAN的优点与不足。
答，优点：DBSCAN是相对抗噪声的，并且能够处理任意形状和大小的簇，
缺点：当簇的密度变化过大时，DBSCAN就很难敏感的发现数据集中的簇。同时，
DBSCAN在处理高维数据时，会有很大的开销。

3、简述DBSCAN算法的核心思想。
DBSCAN算法的核心思想是一个簇中除了边界点，每个点在给定的半径Eps内必须包
含不少于PinPts个数据点，这样的点称为核心点。

4、确定DBSCAN参数的基本的方法是什么。
答：观察点到它的K个最近邻的距离的特性。对于某个K，计算所有点的K距离，以递增
的次序排序，绘制排序后的值。在图中找到曲线拐点，拐点处的函数值为Eps半径，K的值
为Minpts。

5、簇评估的主要任务是什么。
答：① 确定数据集的聚类趋势。
② 确定正确的簇个数。
③ 不引用附加的信息，评估聚类分析结果对数据的拟合情况。
④ 将聚类分析结果与已知的客观结果比较。
⑤ 比较两个簇集，确定哪个更好。

数据挖掘考试题目——聚类

合集下载

12《数据仓库与数据挖掘》复习题

数据挖掘(练习)考试答案

数据挖掘考试题

数据挖掘第5章聚类

数据挖掘考试习题汇总

数据挖掘考试题

《数据挖掘方法》期末考试试卷附答案

数据挖掘考试题库及答案

数据挖掘（练习）考试答案

数据挖掘期末考试试题及答案详解

数据挖掘与分析考试题库(含答案)

(完整版)数据挖掘考试题库

数据挖掘聚类分析(第六章)

数据挖掘考试题

文档推荐

最新文档

数据挖掘考试题目——聚类

合集下载

12《数据仓库与数据挖掘》复习题

数据挖掘(练习)考试答案

数据挖掘考试题

数据挖掘第5章 聚类

数据挖掘考试习题汇总

数据挖掘考试题

《数据挖掘方法》期末考试试卷附答案

数据挖掘考试题库及答案

数据挖掘（练习）考试答案

数据挖掘期末考试试题及答案详解

数据挖掘与分析考试题库(含答案)

(完整版)数据挖掘考试题库

数据挖掘 聚类分析(第六章)

数据挖掘考试题

文档推荐

最新文档

数据挖掘第5章聚类

数据挖掘聚类分析(第六章)