数据挖掘试卷一
- 格式:doc
- 大小:66.00 KB
- 文档页数:6
数据库数据挖掘与分析考试试卷(答案见尾页)一、选择题1. 数据挖掘的主要目的是什么?A. 提取数据库中的数据B. 分析数据库中的数据以发现隐藏的模式和关联C. 存储和管理数据库中的数据D. 传输数据库中的数据2. 在数据挖掘中,以下哪个过程是用来发现数据项之间的有趣关系和关联的?A. 数据清理B. 数据集成C. 数据转换D. 数据挖掘3. 数据挖掘任务通常不包括以下哪项?A.分类B.聚类C.回归D. 数据库优化4. 关联规则学习是数据挖掘中的一个重要技术,它主要关注什么?A. 发现数据集中不同项之间的因果关系B. 发现数据集中频繁出现的模式和关联C. 建立数据模型以预测未来趋势D. 优化数据库查询性能5. 在聚类分析中,以下哪个选项不是常用的距离度量方法?A. 曼哈顿距离B. 欧氏距离C. 切比雪夫距离D. 余弦相似度6. 数据挖掘中经常使用哪种图表来展示聚类结果?A. 条形图B. 饼图C. 网络图D. 散点图7. 在数据挖掘中,以下哪个算法主要用于发现连续数值型数据中的异常值或离群点?A. K-均值算法B. DBSCANC. 谱聚类算法D. 决策树算法8. 数据挖掘中,以下哪个步骤不是数据预处理的一部分?A. 数据清洗B. 数据集成C. 数据转换D. 数据降维9. 在建立数据挖掘模型时,以下哪个步骤不是特征选择的一部分?A. 特征提取B. 特征选择C. 特征验证D. 特征排序10. 数据挖掘中,以下哪个工具不是常用的数据挖掘工具?A. SQLB. ExcelC. PythonD. R二、问答题2. 什么是SQL语言?请列举几种常见的SQL语句。
3. 什么是数据库的完整性约束?请举例说明。
4. 什么是数据库的设计原则?请列举几个常用的设计原则。
5. 什么是数据库的范式?请简要解释第一范式和第二范式。
6. 什么是数据库索引?请简述索引的作用和分类。
7. 什么是数据库的事务处理?请简述事务的定义和特性。
《数据挖掘方法》期末考试试卷附答案数据挖掘方法期末考试试卷一、选择题(每题5分,共25分)1. 数据挖掘的目的是从大量数据中发现有价值的模式和知识。
以下哪项不是数据挖掘的主要任务?A. 分类B. 聚类C. 预测D. 图像识别答案:D2. 决策树是一种常见的分类算法,它在哪个阶段进行剪枝?A. 生成阶段B. 修剪阶段C. 测试阶段D. 应用阶段答案:B3. K-近邻算法中,K值一般取多少比较合适?A. 1B. 3C. 5D. 10答案:B4. 在关联规则挖掘中,最小支持度是指?A. 一条规则必须满足的最小条件概率B. 一条规则必须满足的最小置信度C. 数据集中满足条件概率的最小值D. 数据集中满足条件的最小实例数答案:D5. 以下哪种技术不属于聚类分析?A. 层次聚类B. 基于密度的聚类C. 基于距离的聚类D. 基于规则的聚类答案:D二、填空题(每题5分,共25分)1. 在分类算法中,将数据集中的每个实例分配给一个类别的过程称为________。
答案:分类2. 决策树算法中,用于评估节点纯度的指标有________、________和________等。
答案:信息熵、增益、增益率3. K-均值聚类算法中,簇心的初始值通常通过________算法来确定。
答案:随机初始化4. 在关联规则挖掘中,________、________和________是三个基本的概念。
答案:项集、频繁项集、关联规则5. 在基于距离的聚类算法中,常用的距离度量有________、________和________等。
答案:欧氏距离、曼哈顿距离、余弦相似度三、简答题(每题10分,共30分)1. 请简要解释什么是决策树,以及它的工作原理。
答案:决策树是一种常见的分类和回归算法,它通过一系列的判断条件将数据集划分为不同的子集,最终达到分类或回归的目的。
它的工作原理是从根节点开始,根据特征值的不同,选择合适的分支,一直递归到叶节点,得到最终的预测结果。
数据挖掘整理(熊熊整理-----献给梦中的天涯)单选题1.下面哪种分类方法是属于神经网络学习算法?()A. 判定树归纳B. 贝叶斯分类C. 后向传播分类D. 基于案例的推理2.置信度(confidence)是衡量兴趣度度量( A )的指标。
A、简洁性B、确定性C.、实用性D、新颖性3.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则4.数据归约的目的是()A、填补数据种的空缺值B、集成多个数据源的数据C、得到数据集的压缩表示D、规范化数据5.下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?A.数据清理B.数据集成C.数据变换D.数据归约6.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。
等频(等深)划分时,15在第几个箱子内?(B)A 第一个B 第二个C 第三个D 第四个7.下面的数据操作中,()操作不是多维数据模型上的OLAP操作。
A、上卷(roll-up)B、选择(select)C、切片(slice)D、转轴(pivot)8.关于OLAP和OLTP的区别描述,不正确的是: (C)A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高.D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的9.下列哪个描述是正确的?()A、分类和聚类都是有指导的学习B、分类和聚类都是无指导的学习C、分类是有指导的学习,聚类是无指导的学习D、分类是无指导的学习,聚类是有指导的学习10简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作(B )A、层次聚类B、划分聚类C、非互斥聚类D、模糊聚类11将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘12 什么是KDD?(A)A. 数据挖掘与知识发现B. 领域知识发现C. 文档知识发现D. 动态知识发现为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则判断题1. 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。
(对)2. 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。
(对)3. 图挖掘技术在社会网络分析中扮演了重要的角色。
(对)4. 模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。
(错)5. 寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。
(错)6. 离群点可以是合法的数据对象或者值。
(对)7. 离散属性总是具有有限个值。
(错)8. 噪声和伪像是数据错误这一相同表述的两种叫法。
(错)9. 用于分类的离散化方法之间的根本区别在于是否使用类信息。
(对)10. 特征提取技术并不依赖于特定的领域。
(错)11. 序列数据没有时间戳。
(对)12. 定量属性可以是整数值或者是连续值。
(对)13. 可视化技术对于分析的数据类型通常不是专用性的。
(错)14. DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。
(对)15. OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。
(对)16. 商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则是一个学习型系统,能自动适应商务不断变化的要求。
(对)17. 数据仓库中间层OLAP服务器只能采用关系型OLAP (错)18.数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分. (错) 19.Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息. (错)21. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。
(错)22. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数(对)。
23. 先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。
(错24. 如果规则不满足置信度阈值,则形如的规则一定也不满足置信度阈值,其中是X的子集。
(对)25. 具有较高的支持度的项集具有较高的置信度。
(错)26. 聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。
(错)27. 分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。
(对)28. 对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。
(对)29. Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。
(错)30.分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization error). (对)31. 在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。
(错)32. SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier)(错)33. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
(错)34. 聚类分析可以看作是一种非监督的分类。
(对)35. K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。
(错36. 给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。
(错)37. 基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。
(对)38. 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。
(对)39. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。
(错)40. DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。
(对)简答题1.简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。
(7分)答:面向属性归纳的基本思想是:首先使用关系数据库查询收集任务相关的数据;然后通过考察任务相关数据中每个属性的不同值的个数,进行概化(通过属性删除或者属性概化)。
聚集通过合并相等的广义元组,并累计他们相应的计数值进行。
这压缩了概化后的数据集合。
结果广义关系可以映射到不同形式,如图表或规则,提供用户。
(3分)使用属性删除的情况:如果初始工作关系的一个属性上有大量的不同值,但是(1)在此属性上没有概化操作符,或(2)它的较高层概念用其他属性表示;(2分)使用属性概化的情况:如果初始工作关系的一个属性上有大量的不同值,并且该属性上存在着概化操作符。
(2分)2.为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。
(6分)答:使用一个独立的数据仓库进行OLAP处理是为了以下目的:(1)提高两个系统的性能操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处理OLAP 查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为复杂的OLAP查询, 多维视图,汇总等OLAP功能提供了优化。
(2)两者有着不同的功能操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著降低OLAP的性能。
(3)两者有着不同的数据数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。
3.对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?各有什么特点?(6分)答:具有递减支持度的多层关联规则挖掘中使用的搜索策略包括:逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝。
考察每一个节点,不管其父节点是否频繁。
特点是条件很松,可能导致在低层考察大量非频繁的项,找出一些不重要的关联;(2分)层交叉k-项集过滤:一个第i层的k-项集被考察,当且仅当它在第(i-1)层的对应父节点的k-项集是频繁的。
特点是限制太强,有些有价值的模式可能被该方法过滤掉;(2分)层交叉单项过滤:一个第i层的项被考察,当且仅当它在第(i-1)层的父节点是频繁的。
它是上述两个极端策略的折中。
(2分)4.跟其他应用领域相比,在电子商务中进行数据挖掘有哪些优势?(6分)答:跟其他应用领域相比,在电子商务中进行数据挖掘的优势包括:电子商务提供海量的数据:“点击流”(Clickstreams)将会产生电子商务挖掘的大量数据;丰富的记录信息:良好的WEB站点设计将有助于获得丰富的关于商品、分类、访客等等信息;干净的数据:从电子商务站点收集的都是电子数据,无需人工输入或者是从历史系统进行整合;研究成果容易转化:在电子商务中,很多知识发现都可以进行直接应用;投资收益容易衡量:所有数据都是电子化的,可以非常方便的生成各种报表和计算各种收益。
5什么是数据仓库?简述数据仓库的几种常用模型。
6数据挖掘过程中为什么要进行数据预处理?数据预处理有哪些方面?7请简述数据挖掘过程.1确定挖掘对象2准备数据3建立模型4数据挖掘5结果分析6知识应用8请叙述元数据的定义及其在数据仓库中的作用。
元数据是关于数据的数据,从元数据的类型与作用来看,元数据实际上是解决何人在何时、何地为了什么原因、怎样使用数据仓库的问题。
1、数据仓库元数据的重要性(1)为数据仓库服务和DSS分析员及高层决策人员服务提供便利(2)解决操作型环境和数据仓库的复杂关系(3)数据仓库中数据的管理2、元数据在数据仓库开发期间的使用数据仓库的开发过程是一个构造工程的过程,它必须提供清晰的文档。
该过程产生的元数据主要用于数据仓库的应用管理(1)元数据的设计需要改变传统数据库设计的观念(2)突出操作系统的当前元数据(3)在抽取、求精、和重构过程中,时刻保持从资源到数据仓库之间的映射关系。