数据挖掘考试题目——关联分析
- 格式:docx
- 大小:17.51 KB
- 文档页数:5
数据收集及处理数据描述:本文的所采用的数据集来源于网络数据中心数据堂所提供的,来自主要电商平台:京东,淘宝,天猫,亚马逊,一号店的2013年10月20日至2013年10月22日的爽肤水交易信息。
数据集主要分为3个部分,第一部分为各平台上爽肤水的交易记录,单日的交易数据包含了19203条交易记录,14个变量,变了包括商品ID,电商名称,日期,商品名称,商品URL,促销价,商品销量销售额,店铺名称,店铺等级,品牌功效,适合皮肤,容量,如图所示为在EXCEL中打开的京东在2013年10月20日的交易数据。
第二部分为买家购买后的评价,单日包含925条的评论信息,6个变量,变量包含商品ID,购买时间,评论时间,昵称,评分,评论内容,如图所示就是2013年10月20日京东的评论信息。
第三部分为品牌数据集,一共51990条数据,7个变量,包括类目,品牌,电商平台,平均价格,日总销量,对应商品ID。
如图所示就是2013年10月20日所有电商平台的评判信息。
本论文所采用的数据全部来自于知名网络数据中心数据堂,具有相当的可信度。
经过对数据的观察,为了使得研究过程能够更加方便,我们选择数据较为完整并且有序的自于京东平台的交易信息。
由于本文目的是建立如何选择商品的模型,因此不会对结果造成影响。
数据初步处理:本轮问所有的数据都采用SAS中SQL语言与EXCEL相结合进行处理。
先对对京东平台上爽肤水的交易记录进行处理。
首先应该去掉与本文研究不相关的信息。
由于电商名称,日期,店铺名称与本文研究目标不匹配,同时在京东平台上并没有店铺信息,商品名称内容包含于品牌名称等其他变量中。
因此我们只选择其中的变量:商品ID,促销价,商品销量销售额,品牌功效,适合皮肤,容量。
将源数据导入SAS之后采用EM模块的InputData节点对销量变量进行描述性统计如图所示:我们可以发现,其中大多数商品的销售额都为0,是因为这里仅仅采用3天的交易数据,所以大多都没有销量。
数据挖掘计算题考试题库1. 数据挖掘中的“分类”任务是用来做什么的?A. 识别数据集中的异常值B. 将数据集分成不同的类别C. 预测数值型数据D. 找出数据集中的相关性答案: B2. 下面哪种算法不是分类算法?A. 决策树B. K-均值聚类C. 随机森林D. 支持向量机(SVM)答案: B3. 在数据挖掘过程中,“数据清洗”指的是什么?A. 删除重复的记录B. 提取关键特征C. 创建可视化D. 选择重要的数据子集答案: A4. 下面哪个是关联规则学习中的一个常见算法?A. AprioriB. AdaBoostC. 梯度提升机D. 主成分分析甮案: A5. 在数据挖掘中,“过拟合”指的是什么?A. 模型在新数据上的表现很差B. 模型没有捕捉到数据的关键特征C. 模型在训练集上的表现过于完美D. 模型参数过于简单答案: C6. “集成学习”在数据挖掘中指的是什么?A. 使用一个单一的模型进行预测B. 结合多个模型的预测以提高性能C. 对数据进行分层抽样D. 应用一个算法在不同的数据集上答案: B7. 哪个度量标准经常用来评估分类器的性能?A. 均方误差(MSE)B. 精确率和召回率C. 相关系数D. K-均值答案: B8. 下面哪个不是数据预处理的一部分?A. 归一化B. 主成分分析(PCA)C. 数据编码D. 计算数据均值答案: D9. 下面哪个算法适合于处理大量未标记数据?A. 监督学习B. 半监督学习C. 无监督学习D. 强化学习答案: C10. 下面哪个不是异常检测的算法?A. Local Outlier Factor (LOF)B. One-Class SVMC. Isolation ForestD. Linear Regression答案: D11. 在数据挖掘中,“特征选择”是为了什么?A. 减少数据的维度B. 增加更多的数据特征C. 创建数据的可视化D. 计算数据的主成分答案: A12. 下面哪个是决策树算法的一种?A. C4.5B. K-最近邻(K-NN)C. 随机森林D. 线性判别分析(LDA)答案: A13. 在聚类问题中,"轮廓系数"是用来做什么的?A. 评估聚类的紧密度和分离度B. 计算每个点到其最近的聚类中心的距离C. 确定最佳的聚类数D. 预测新数据点的类别答案: A14. 下面哪个技术用于减少过拟合?A. 正则化B. 增加更多的特征C. 使用更复杂的模型D. 删除数据集中的一些样本答案: A15. 支持向量机(SVM)的主要目的是什么?A. 最大化分类器的边界B. 最小化预测误差C. 找到数据的最佳表示D. 减少计算成本答案: A16. 数据挖掘中的“回归分析”用于什么?A. 预测数值型的目标变量B. 分类数据C. 数据的可视化D. 数据的归一化处理答案: A17. 下面哪个算法是基于概率的分类算法?A. 决策树B. 朴素贝叶斯C. 支持向量机(SVM)D. K-最近邻(K-NN)答案: B18. “梯度提升机”(Gradient Boosting Machine)主要用于什么?A. 数据预处理B. 特征选择C. 优化模型性能D. 聚类分析答案: C19. 在K-最近邻(K-NN)算法中,K代表什么?A. 选择的特征数B. 数据点将考虑的最近邻居的数量C. 聚类的数量D. 数据维度的数量答案: B20. 下面哪个不是数据挖掘任务?A. 预测B. 聚类C. 分类D. 数据录入答案: D21. 数据挖掘中的“提升”技术是用来做什么的?A. 减少模型的计算复杂度B. 减小数据集的规模C. 增强模型的预测能力D. 清洗数据集答案: C22. 下面哪个算法通常用于文本数据的分类?A. 朴素贝叶斯B. 线性回归C. K-均值聚类D. 随机森林答案: A23. 时间序列分析在数据挖掘中用于什么?A. 识别数据中的异常点B. 预测未来的数据点C. 分类数据点D. 查找数据集的子集答案: B24. 下面哪个方法不适用于缺失数据的处理?A. 使用均值填充缺失值B. 删除包含缺失值的记录C. 使用模型预测缺失值D. 增加更多的数据特征答案: D25. “维度的诅咒”指的是什么?A. 数据越多越好B. 数据维度增加导致分析变得更加困难C. 低维度数据不足以解释现象D. 高维度数据易于可视化答案: B26. 在数据挖掘中,下面哪个是一个常见的数据变换方法?A. 数据归一化B. 数据扩充C. 数据删除D. 数据复制答案: A27. 什么是数据挖掘中的“支持”?A. 一个数据集的所有数据点B. 关联规则中项集出现的频率C. 分类算法的准确率D. 聚类质量的度量答案: B28. 决策树中的“节点”代表什么?A. 数据特征的一个可能值B. 一个分类规则C. 数据集的一个子集D. 一个概率分布答案: B29. “随机森林”算法中的“森林”是由什么组成的?A. 决策树B. 数据集C. 神经网络D. 聚类答案: A30. 在数据挖掘中,“基于实例的学习”通常指什么?A. 构建一般化模型B. 用大量的数据实例来做决策C. 用少量的代表性实例来做决策D. 仅使用单个实例进行训练答案: C31. 在数据挖掘中,什么是“过度拟合”?A. 模型不能适应新数据B. 模型在训练数据上表现不佳C. 模型对训练数据的噪声也进行了学习D. 模型过于简化,丢失了重要信息答案: C32. 下面哪个是数据挖掘中的一种特征提取方法?A. 主成分分析(PCA)B. 决策树分析C. 线性回归D. 逻辑回归答案: A33. “聚类”在数据挖掘中的目的是什么?A. 找出数据集中的异常值B. 预测数据点的值C. 将数据集分组成相似的子集D. 减少数据维度答案: C34. 数据挖掘中,“神经网络”主要用于什么?A. 数据预处理B. 特征选择C. 复杂模式识别和预测建模D. 数据压缩答案: C35. “深度学习”在数据挖掘中通常用来处理哪些问题?A. 只有小规模数据集的问题B. 高维度和复杂结构的数据问题C. 简单线性问题D. 无需特征工程的问题答案: B36. 关联规则分析中的“置信度”是指什么?A. 规则中的项集出现的频繁程度B. 一条规则被证实为真的次数C. 给定前件时后件出现的条件概率D. 数据集中项集的独立概率答案: C37. 数据挖掘中的“决策树”算法主要用于解决哪类问题?A. 聚类B. 分类和回归C. 关联规则学习D. 数据预处理答案: B38. “模型评估”在数据挖掘中的目的是什么?A. 选择最好的数据预处理方法B. 确定最合适的特征集C. 选择合适的算法D. 评价模型的预测性能答案: D39. 下面哪个是数据挖掘中的一种无监督学习方法?A. 逻辑回归B. 线性判别分析C. 聚类D. 决策树答案: C40. “文本挖掘”通常用于处理什么类型的数据?A. 数值型数据B. 类别数据C. 文本数据D. 时间序列数据答案: C41. 数据挖掘中的“关联分析”用于发现什么之间的关系?A. 数据特征和预测变量之间B. 不同数据库之间C. 数据项之间的频繁模式、关联或相关性D. 模型和算法之间答案: C42. 在数据挖掘中,哪种方法通常用于异常值检测?A. 分类B. 聚类C. 关联规则学习D. 神经网络答案: B43. 数据挖掘中的“Apriori”算法用于解决哪一类问题?A. 分类B. 聚类C. 关联规则挖掘D. 回归分析答案: C44. “数据归约”在数据挖掘中指的是什么?A. 减少数据集的大小,同时尽量保持数据的完整性B. 通过算法提高数据的质量C. 删除数据集中的重复项D. 对数据进行加密保护答案: A45. 在数据挖掘中,什么是“多层感知器”?A. 一种基于规则的分类方法B. 一种数据预处理技术C. 一种基于神经网络的学习算法D. 一种数据可视化工具答案: C46. 下面哪种技术不是用来处理不平衡数据集的?A. 过采样少数类B. 欠采样多数类C. 生成合成样本D. 使用回归分析答案: D47. 在数据挖掘中,“bagging”是用来做什么的?A. 减少模型的偏差B. 增加模型的方差C. 减少模型的方差D. 增加模型的偏差答案: C48. 下面哪个算法适合于大规模数据集?A. 支持向量机B. 朴素贝叶斯C. 线性回归D. K-最近邻答案: B49. “分层聚类”和“K-均值聚类”有什么不同?A. 分层聚类需要预先指定聚类数目B. K-均值聚类是一种分层聚类方法C. 分层聚类不需要预先指定聚类数目D. K-均值聚类可以处理任何形状的数据集答案: C50. 在数据挖掘中,下面哪个是评估聚类质量的指标?A. 准确率B. 召回率C. 轮廓系数D. 均方误差答案: C51. “逻辑回归”通常用于解决哪类数据挖掘问题?A. 聚类B. 分类C. 回归D. 关联规则学习答案: B52. 数据挖掘中的“时间序列分析”通常用于分析什么类型的数据?A. 空间数据B. 文本数据C. 时间相关的数据D. 图像数据答案: C53. 数据挖掘中的“特征工程”包括哪些任务?A. 特征选择、特征提取、特征构造B. 模型选择、模型评估、模型部署C. 数据清洗、数据集成、数据转换D. 模型训练、模型测试、模型优化答案: A54. “随机森林”是什么类型的数据挖掘算法?A. 聚类算法B. 分类和回归算法C. 关联规则挖掘算法D. 异常检测算法答案: B55. 数据挖掘中的“神经网络”可以用于处理哪些问题?A. 仅分类B. 仅回归C. 分类和回归D. 仅聚类答案: C56. 下面哪个不是数据挖掘中的关键挑战?A. 数据质量B. 数据量的大小C. 数据的可视化D. 选择打印机答案: D57. 数据挖掘中的“假设检验”用于什么?A. 验证模型的预测准确性B. 确定数据样本中观察到的模式是否具有统计意义C. 预测未来的数据趋势D. 检测数据集中的异常值答案: B58. 在数据挖掘中,“K-均值聚类”算法的主要缺点是什么?A. 无法处理非线性数据B. 需要预先确定聚类的数量C. 无法处理大规模数据集D. 只能用于二维数据答案: B59. 下面哪个术语描述了一个数据挖掘算法在未见过的数据上的泛化能力?A. 过拟合B. 训练误差C. 模型容量D. 泛化误差答案: D60. 数据挖掘中的“集成方法”通常包括哪些类型?A. Bagging、Boosting和StackingB. 分类、回归和聚类C. 关联、序列模式和预测D. 决策树、神经网络和支持向量机答案: A61. 下面哪个不是在数据挖掘中常用的数据变换技术?A. 平滑B. 聚合C. 泛化D. 分类答案: D62. 在数据挖掘中,如果一个数据集很“稀疏”,这意味着什么?A. 数据集中有很多缺失值B. 数据集非常小C. 数据集分布非常广泛D. 数据点非常接近答案: A63. 数据挖掘中的“朴素贝叶斯”分类器是基于什么原理?A. 支持向量机B. 贝叶斯定理C. 决策树D. 神经网络答案: B64. 下面哪个参数在决策树算法中非常关键?A. 学习率B. 聚类数量C. 树的深度D. 特征数量答案: C65. 数据挖掘中的“支持向量机”算法主要解决什么类型的问题?A. 聚类B. 分类和回归C. 时间序列分析D. 数据预处理答案: B66. 数据挖掘中的“模型选择”是基于什么原则?A. 模型的复杂度B. 训练时间的长短C. 预测的准确性D. 所有上述因素答案: D67. 在数据挖掘中,什么是“抽样”?A. 从一个大的数据集中选出一个代表性的子集B. 收集新的数据点C. 数据的分类D. 数据的排序答案: A68. 数据挖掘中的“关联规则”用于发现数据中的哪种模式?A. 预测模式B. 时间序列模式C. 频繁项集和它们之间的关联D. 回归线答案: C69. 下面哪个是度量分类模型性能的方法?A. 均方误差B. 准确率C. 轮廓系数D. 平均绝对误差答案: B70. 数据挖掘中的“深度学习”通常需要什么?A. 小量的标记数据B. 强大的计算资源C. 一维数据D. 无监督的学习方法答案: B71. 数据挖掘中的“过拟合”通常如何解决?A. 增加更多的数据B. 简化模型C. 增加模型的复杂度D. A和B都是答案: D72. 数据挖掘中的“主成分分析”(PCA)主要用于什么?A. 数据分类B. 降维C. 数据预测D. 数据清洗答案: B73. 在数据挖掘中,哪种算法适合处理文本挖掘?A. K-均值聚类B. 随机森林C. 支持向量机D. 朴素贝叶斯答案: D74. 数据挖掘中的“决策树”通常在哪个阶段剪枝?A. 在构建树的过程中B. 构建树之后C. 选择模型之前D. 在数据预处理阶段答案: B75. 下面哪个不是评价回归模型的指标?A. 均方误差(MSE)B. 决定系数(R²)C. 准确率D. 平均绝对误差(MAE)答案: C76. 在数据挖掘中,什么是“集成学习”?A. 单个模型的学习过程B. 一个学习算法的集合C. 多个模型的组合,用于提高预测性能D. 数据集的集合答案: C77. 数据挖掘中的“神经网络”中的“隐藏层”有什么作用?A. 直接处理输入数据B. 对输入数据进行分类C. 提取输入数据的特征D. 输出预测结果答案: C78. 下面哪个算法是基于树的模型?A. 逻辑回归B. 支持向量机C. 随机森林D. 主成分分析答案: C79. 数据挖掘中的“无监督学习”与“监督学习”有什么不同?A. 无监督学习不需要任何数据B. 监督学习不使用数据标签C. 无监督学习不使用数据标签D. 监督学习用于聚类分析答案: C80. 数据挖掘中,下面哪个方法适合于特征选择?A. 递归特征消除B. K-均值聚类C. 主成分分析D. 线性回归答案: A81. 数据挖掘中的“特征缩放”主要用于什么目的?A. 转换特征到相同的尺度B. 增加数据集的特征数量C. 减少每个特征的值域D. 创建新的特征组合答案: A82. 下面哪个方法通常用于减少一个模型的方差?A. 增加更多特征B. 增加数据点C. 减少模型复杂度D. 进行特征选择答案: B83. 在数据挖掘中,哪种算法可以处理非线性问题?A. 线性回归B. 朴素贝叶斯C. 决策树D. 主成分分析答案: C84. 数据挖掘中的“异常检测”主要用于发现什么?A. 频繁项集B. 数据集中的主要趋势C. 数据中的奇异点D. 数据集中的相关性答案: C85. 在数据挖掘中,“相似性度量”用于什么?A. 比较不同模型的性能B. 确定数据点之间的相似度C. 测量数据集的大小D. 评价算法的运行时间答案: B86. 数据挖掘中的“集群分析”是用来做什么的?A. 预测数据点的类别B. 将数据点分为不同的组C. 分析数据中的基本模式D. 评估分类模型的性能答案: B87. 下面哪个是数据挖掘中的一种预测建模技术?A. K-均值聚类B. Apriori算法C. 线性回归D. 主成分分析答案: C88. 数据挖掘中的“分类器的集成”指的是什么?A. 一个分类器的集合B. 多个分类器的组合用于提高整体性能C. 使用单个分类器进行多次训练D. 集成不同类型的数据挖掘算法答案: B89. 数据挖掘中的“数据压缩”有什么作用?A. 减少数据的存储空间B. 加快算法的运行速度C. 提高数据的质量D. A和B都是答案: D90. 在数据挖掘中,什么是“数据立方体”?A. 数据仓库中的一个三维数据模型B. 一个可视化工具C. 数据挖掘算法的一种D. 用于数据预处理的技术答案: A91. “梯度下降”在数据挖掘中用于什么?A. 数据分类B. 寻找最优的模型参数C. 数据的聚类D. 关联规则的挖掘答案: B92. 在数据挖掘中,“半监督学习”是什么?A. 使用未标记数据进行学习B. 使用一小部分标记数据和大量未标记数据进行学习C. 不使用任何标记数据进行学习D. 仅使用标记数据进行学习答案: B93. 下面哪个是数据挖掘中的一种分类算法?A. 主成分分析B. 决策树C. K-均值聚类D. 均方误差答案: B94. 数据挖掘中的“数据集成”有什么目的?A. 将来自不同源的数据合并在一起B. 分离数据集C. 创建数据的备份D. 增加数据的维度答案: A95. 数据挖掘中的“数据规约”技术包括哪些?A. 数据归一化和标准化B. 数据清洗和数据集成C. 数据压缩和特征提取D. 数据转换和数据平滑答案: C96. 下面哪个概念与“数据挖掘”最不相关?A. 数据可视化B. 大数据C. 数据加密D. 机器学习答案: C97. 数据挖掘中的“数据变换”可能包括哪些操作?A. 平滑、聚合、泛化B. 分类、回归、聚类C. 训练、测试、验证D. 编码、解码、压缩答案: A98. 数据挖掘中的“预处理”是为了什么?A. 提高算法的准确性B. 减少计算时间C. 提高数据的质量D. 所有上述答案: D99. 下面哪个不是数据挖掘中的挑战?A. 数据的多样性B. 数据的质量C. 数据的存储D. 数据的颜色答案: D100. 数据挖掘中的“模型部署”指的是什么?A. 选择合适的模型B. 构建数据挖掘模型C. 在实际环境中实施数据挖掘模型D. 评估数据挖掘模型答案: C101. 在数据挖掘中,“标准化”和“归一化”有什么区别?A. 标准化是缩放到0和1之间,归一化是缩放到特定的平均和标准差B. 标准化是缩放到特定的平均和标准差,归一化是缩放到0和1之间C. 标准化和归一化是同一个概念D. 标准化是数据清洗过程,归一化是数据转换过程答案: B102. 数据挖掘中的“偏差-方差权衡”是什么意思?A. 增加模型的偏差会减少方差B. 减少模型的偏差会增加方差C. 增加模型的方差会减少偏差D. 增加偏差和方差可以提高模型的准确率答案: A103. 下面哪个是时间序列数据挖掘中的一个关键任务?A. 分类B. 聚类C. 预测D. 关联规则挖掘答案: C104. 数据挖掘中的“聚类分析”和“分类”有什么不同?A. 聚类是监督学习,分类是无监督学习B. 聚类和分类都是监督学习C. 聚类是无监督学习,分类是监督学习D. 聚类和分类都是无监督学习答案: C105. 在数据挖掘中,“多维缩放”主要用于什么?A. 降维B. 特征提取C. 数据可视化D. 数据清洗答案: C106. 数据挖掘中的“熵”通常与哪个概念相关?A. 关联规则的强度B. 聚类的紧密度C. 决策树的信息增益D. 回归分析的系数答案: C107. 下面哪个不是构建数据挖掘模型时考虑的因素?A. 数据的质量B. 数据的数量C. 模型的颜色D. 算法的选择答案: C108. 数据挖掘中的“序列模式挖掘”主要用于发现什么?A. 数据中的异常值B. 时间序列数据中的重复模式C. 数据集中的分类标签D. 数据属性之间的相关性答案: B109. 下面哪个技术是处理缺失数据的有效方法?A. 数据删除B. 数据插补C. 数据变换D. A和B都是答案: D110. 数据挖掘中的“关联规则挖掘”用于解决哪类问题?A. 预测问题B. 分类问题C. 聚类问题D. 市场篮子分析答案: D111. 在数据挖掘中,“深度学习”主要用于处理哪种类型的数据?A. 小规模数据集B. 结构化数据集C. 非结构化或半结构化数据集D. 一维数据答案: C112. 下面哪个是度量聚类质量的指标?A. 支持度B. 置信度C. Davies-Bouldin指数D. 平均绝对误差答案: C113. 数据挖掘中的“决策树”用于哪些类型的数据?A. 仅数值型数据B. 仅分类数据C. 数值型和分类数据D. 时间序列数据答案: C114. 数据挖掘中的“神经网络”与“深度学习”有什么关系?A. 完全不相关B. 深度学习是神经网络的一个子集C. 神经网络是深度学习的一个子集D. 完全相同答案: C115. 在数据挖掘中,“梯度提升”算法主要用于什么?A. 数据预处理B. 特征选择C. 预测建模D. 数据可视化答案: C116. 下面哪个算法适用于大规模数据集的分类问题?A. 随机森林B. 支持向量机C. 神经网络D. 逻辑回归答案: A117. 数据挖掘中的“协同过滤”是用于推荐系统的哪个部分?A. 用户界面设计B. 数据存储C. 预测用户偏好D. 数据清洗答案: C118. 在数据挖掘中,什么是“文本挖掘”?A. 从文本数据中提取有用信息的过程B. 创建新文本数据C. 对文本数据进行归类D. 提高文本数据的质量答案: A119. 下面哪个是衡量数据挖掘模型泛化能力的方法?A. 交叉验证B. 决策树C. 特征选择D. 神经网络答案: A120. 数据挖掘中的“支持向量机”主要用于解决什么类型的问题?A. 数据可视化B. 数据预处理C. 分类和回归问题D. 聚类问题答案: C121. 在数据挖掘中,“项集”的概念最常用于哪种分析?A. 聚类分析B. 分类分析C. 关联规则分析D. 回归分析答案: C122. 数据挖掘中的“过采样”和“欠采样”技术用于处理什么问题?A. 缺失数据B. 高维数据C. 不平衡数据集D. 大规模数据集答案: C123. 在数据挖掘中,一条“规则”的“提升度”(lift)指的是什么?A. 规则的支持度与预期支持度的比值B. 规则的支持度与置信度的比值C. 规则的置信度与预期置信度的比值D. 规则的准确率答案: C124. 数据挖掘中的“属性选择”是什么意思?A. 从数据集中选取有用的属性进行分析B. 修改属性的类型C. 删除数据集中的某些属性D. 重命名属性答案: A125. 下面哪个算法是一种基于树的回归方法?A. 线性回归B. 逻辑回归C. 随机森林D. 支持向量机答案: C126. 在数据挖掘中,“模型过度复杂”可能导致什么问题?A. 欠拟合B. 过拟合C. 更快的训练时间D. 更好的用户体验答案: B127. 数据挖掘中的“自编码器”通常用于哪种任务?A. 分类B. 回归C. 数据降维D. 数据增强答案: C128. 在数据挖掘中,“分箱”技术用于什么?A. 数据分类B. 数据聚类C. 将连续变量转换为离散变量D. 预测模型的输出答案: C129. 数据挖掘中的“交叉售卖”是基于哪种分析?A. 聚类分析B. 分类分析C. 关联规则分析D. 时间序列分析答案: C130. 下面哪个是度量模型性能的时间复杂度的方法?A. AUC-ROC曲线B. 计算模型训练时间C. 均方误差D. 准确率答案: B131. 数据挖掘中的“Gini指数”用于评估什么?A. 回归模型的性能B. 关联规则的强度C. 决策树分裂的纯度D. 聚类的质量答案: C132. 在数据挖掘中,什么是“集合外估计”?A. 使用测试集以外的数据评估模型的方法B. 估计模型的准确率C. 使用模型预测集合中没有的数据D. 在数据集之外收集新数据答案: A133. 数据挖掘中的“学习曲线”展示了什么?A. 不同算法的性能比较B. 训练集大小对模型性能的影响C. 特征数量对模型性能的影响D. 不同参数设置对模型性能的影响答案: B134. 下面哪个是数据挖掘中的非线性模型?A. 线性回归B. 朴素贝叶斯C. 决策树D. 线性判别分析答案: C135. 在数据挖掘中,什么是“验证数据集”?A. 用来训练模型的数据集B. 用来测试模型的数据集C. 在模型训练过程中用来调整模型参数的数据集D. 用于最终评估模型性能的数据集答案: C136. 数据挖掘中的“层次聚类”有哪些类型?A. 顺序聚类和并行聚类B. 聚合聚类和分裂聚类C. K-均值聚类和谱聚类D. 监督聚类和无监督聚类答案: B137. 数据挖掘中的“ROC曲线”用于评估哪种类型的模型?A. 聚类模型B. 分类模型C. 回归模型D. 关联规则模型答案: B138. 下面哪个是评估数据挖掘模型“泛化能力”的好方法?A. 增加模型的复杂度B. 减少训练集的大小C. 使用多个测试集D. 使用交叉验证答案: D139. 在数据挖掘中,“强化学习”通常用于解决什么类型的问题?A. 数据分类B. 数据预处理C. 决策过程中的序列化问题D. 数据集成答案: C140. 数据挖掘中的“特征哈希”是用于什么?A. 减少数据的维度B. 加密数据C. 增强数据的特征D. 创建数据的哈希表答案: A141. 数据挖掘中的“时间序列分析”主要用于分析哪种类型的数据?A. 文本数据B. 图像数据C. 音频数据D. 有时间戳的数据答案: D142. 在数据挖掘中,“正则化”用于解决什么问题?A. 缺失数据B. 不平衡数据集C. 过拟合D. 高维数据答案: C143. 下面哪个是数据挖掘中的一种用于减少特征数量的技术?A. 特征增强B. 特征提取C. 特征识别D. 特征映射答案: B144. 数据挖掘中的“聚类”方法通常用于什么?A. 为每个数据点分配一个类别标签B. 预测数值型的目标变量C. 发现数据中的自然分组D. 找出数据中的异常点答案: C145. 数据挖掘中“多元线性回归”主要用于解决什么类型的问题?A. 分类B. 聚类C. 回归D. 关联规则发现答案: C146. 下面哪个是数据挖掘中用于分类任务的算法?A. 主成分分析(PCA)B. K-均值聚类C. 决策树D. 相关系数分析答案: C147. 数据挖掘中的“模型融合”是什么意思?A. 使用不同类型的模型处理不同的数据集B. 将多个模型的预测结果结合起来以改善性能C. 在同一个数据集上训练多个模型D. 合并两个不同的数据集答案: B148. 下面哪个是用于在数据挖掘中评估聚类算法性能的指标?A. 准确率B. 召回率C. Jaccard指数D. F1分数答案: C149. 数据挖掘中的“AdaBoost”算法主要用于什么?A. 数据降维B. 异常检测C. 分类和回归任务D. 关联规则挖掘答案: C150. 在数据挖掘中,“文本预处理”可能包括哪些步骤?A. 词干提取B. 停用词去除C. 词袋模型创建D. 所有上述答案: D151. 数据挖掘中的“特征选择”和“特征提取”有什么区别?A. 特征选择是选择重要的特征,特征提取是创建新的特征B. 特征选择是创建新的特征,特征提取是选择重要的特征C. 它们是同一个概念的不同名称D. 它们都用于降低模型的复杂度答案: A152. 数据挖掘中的“决策边界”是用于哪种类型的任务?A. 聚类。
数据挖掘技术(三)——关联分析3、关联分析3.1、基本概念(1)通常认为项在事物中出现⽐不出现更重要,因此项是⾮对称⼆元变量。
(2)关联规则是形如X->Y的蕴涵表达式,其中X和Y是不相交的项集,即X交Y=空。
(3)由关联规则作出的推论并不必然蕴涵因果关系。
它只表⽰规则前件和后件中的项明显地同时出现。
(4)通常,频繁项集的产⽣所需的计算开销远⼤于规则产⽣所需的计算开销。
(5)任何具有反单调性的度量都能够结合到数据挖掘算法中,对候选项集的指数搜索空间有效地进⾏剪枝。
3.2、Apriori算法:算法主要利⽤了如下性质:如果⼀个项集是频繁的,则它的所有⼦集⼀定也是频繁的(这个性质也称⽀持度度量的反单调性)。
也就是说如果当前的项集不是频繁的,那么它的超集也不在是频繁的。
(该算法的计算复杂度依赖于数据中的项数和事物的平均长度等性质)算法步骤:(1)算法初始通过单遍扫描数据集,确定每个项的⽀持度。
⼀旦完成这⼀步,就得到所有频繁1项集的集合F1;(2)接下来,该算法使⽤上⼀次迭代发现的频繁(k-1)项集,产⽣新的候选k项集;(3)为了对候选项的⽀持度计数,算法需要再次扫描⼀遍数据库,使⽤⼦集函数确定包含在每⼀个事物t中的C k中的所有候选k项集;(4)计算候选项的⽀持度计数后,算法将删除⽀持度计数⼩于minsup的所有候选项集;(5)当没有新的频繁项集产⽣时,算法结束。
Apriori算法第⼀它是逐层算法,第⼆它使⽤产⽣—测试策略来发现频繁项集。
注意:在由k-1项集产⽣k项集的过程中有以下⼏点注意:(1)新产⽣的k项集先要确定它的所有的k-1项真⼦集都是频繁的(其实如果k个⼦集中的m个⽤来产⽣候选项集,则在候选项集剪枝时只需检查剩下的k-m个⼦集),如果有⼀个不是频繁的,那么它可以从当前的候选项集中去掉。
(2)候选项集的产⽣⽅法:A)蛮⼒法:从2项集开始以后所有的项集都从1项集完全拼出来。
如:3项集有3个⼀项集拼出(要列出所有的3个⼀项集拼出的可能)。
数据挖掘之关联分析1. 什么是关联分析关联分析是数据挖掘领域常用的一类算法,主要用于发现隐藏在大型数据集中有意义的联系。
举一个大家最耳熟能详的例子,就是尿布和啤酒,表示成关联规则的形式就是{尿壶}——> {啤酒}。
这就是使用关联分析方法所得到的结果,而关联分析所得到的结果,我们可以用关联规则或者频繁项集的形式表示。
在进行关联分析时,我们常常会遇到这样两个问题:A. 从大型数据集中发现模式一般来说需要在计算上付出巨大的代价,甚至往往是impossble的,我们往往采用置信度和支持度的剪枝来解决这个问题。
B. 所发现的某些模式可能是虚假的,这个我们需要采用一些关联规则的评估来解决这个问题。
2. 基本概念A. 项集:在关联分析中,包含0个或者多个的项的集合称为项集。
如果一个项集包含k个项,那么就称为k-项集。
比如{牛奶,咖啡}则称为2项集。
B. 支持度:支持度用来确定给定数据集的频繁程度,即给定数据集在所有的数据集中出现的频率,例如s(X -> Y) = P(X,Y) / NC. 置信度:置信度则是用来确定Y在包含X的事务中出现的频繁程度,即 c(X -> Y) = P(X,Y) / P(X)3. 关联分析算法的基本原理支持度和置信度的意义在于,支持度是一个重要的度量,如果支持度很低,代表这个规则其实只是偶然出现,基本没有意义。
因此,支持度通常用来删除那些无意义的规则。
而置信度则是通过规则进行推理具有可靠性。
用c(X->Y)来说,只有置信度越高,Y出现在包含X的事务中的概率才越大,否则这个规则也没有意义。
通常我们在做关联规则发现的时候都会设定支持度和置信度阈值 minsup 和minconf ,而关联规则发现则是发现那些支持度大于等于minsup 并且置信度大于 minconf的所有规则。
所以,提高关联分析算法效率最简单的办法则是提高支持度和置信度的阈值。
所以,通过上面的概念,我们可以很自然地想到,关联分析的基本算法:A. 找到满足最小支持度阈值的所有项集,我们称之为频繁项集。
数据挖掘之关联分析⼀(基本概念)许多商业企业运营中的⼤量数据,通常称为购物篮事务(market basket transaction)。
表中每⼀⾏对应⼀个事务,包含⼀个唯⼀标识TID。
利⽤关联分析的⽅法可以发现联系如关联规则或频繁项集。
关联分析需要处理的关键问题:1. 从⼤型事务数据集中发现模式可能在计算上要付出很⾼的代价。
2. 所发现的某些模式可能是假的,因为它们可能是偶然发⽣的。
⼆元表⽰没按过对应⼀个事务,每列对应⼀个项,项⽤⼆元变量表⽰项在事务中出现⽐不出现更重要,因此项是⾮对称的的⼆元变量。
项集(Itemset):包含0个或多个项的集合,如果包含k个项,则称为k-项集。
事务的宽度:事务中出现的项的个数⽀持度数(Support count):包含特定项集的事务个数,项集X的⽀持度数为σ(X)=|t i|X⊆t i,t i∈T|,其中T为事务集合关联规则(association rule):如X→Y的蕴含表达式,其中X和Y是不相交的项集,X∩Y=∅。
关联规则的强度可以⽤⽀持度(support)和置信度(confidence)度量。
⽀持度确定规则可以⽤于给定数据集的频繁程度,⽽置信度确定Y在包含X的事务中出现的频繁程度。
⽀持度s和置信度c:s(X→Y)=σ(X∪Y)Nc(X→Y)=σ(X∪Y)σ(X)使⽤⽀持度和置信度原因:1. ⽀持度很低的规则只能偶然出现,⽀持度通常⽤来删除那些⽆意义的规则。
还具有⼀种期望的性质,可以⽤于关联规则的发现。
2. 置信度度量通过规则进⾏推理具有可靠性。
对于给定的规则,置信度越⾼,Y在包含X的事务中出现的可能性越⼤。
置信度也可以估计Y在给定X的条件下概率。
在解析关联分析的结果时,应当⼩⼼,规则做出去的推论并不必然蕴含因果关系。
它只表⽰规则前件和后件中的项明显地同时出现。
另⼀⽅⾯,因果关系需要关于数据中原因和结果属性的知识,并且通常涉及长期出现的联系。
关联规则发现:给定事务集合T,关联规则发现是指找到⽀持度⼤于等于阈值minsup并且置信度⼤于等于minconf的所有规则。
数据挖掘之关联分析⼆(频繁项集的产⽣)频繁项集的产⽣格结构(lattice structure)常常⽤来表⽰所有可能的项集。
发现频繁项集的⼀个原始⽅法是确定格结构中每个候选项集的⽀持度。
但是⼯作量⽐较⼤。
另外有⼏种⽅法可以降低产⽣频繁项集的计算复杂度。
1. 减少候选项集的数⽬。
如先验(apriori)原理,是⼀种不⽤计算⽀持度⽽删除某些候选项集的⽅法。
2. 减少⽐较次数。
利⽤更⾼级得到数据结构或者存储候选项集或者压缩数据集来减少⽐较次数。
先验原理(Apriori)使⽤⽀持度对候选项集进⾏剪枝。
先验原理:如果⼀个项集是频繁的,则它的所有⼦集也⼀定是频繁的。
相反,如果⼀个项集是⾮频繁的,则它所有的超集都是⾮频繁的,这种基于⽀持度度量修剪指数搜索空间的策略称为基于⽀持度的剪枝,依赖于⼀个性质,即⼀个项集的⽀持度决不会超过它的⾃⼰的⽀持度,这个性质称为反之尺度度量的反单调性(anti-monotone)。
Apriori算法的频繁项集产⽣Apriori算法是第⼀个关联规则挖掘算法,它开创性地使⽤基于⽀持度的剪枝技术,系统地控制候选项集指数增长。
算法:1. 初始通过单遍扫描数据集,确定每个项的⽀持度,得到所有频繁1-项集的集合F1.2. 迭代地使⽤上⼀步得到的k-1项集,产⽣新的候选k项集。
3. 为了对候选项的⽀持度技术,算法需要再次扫描⼀遍数据集。
4. 计算候选项的⽀持度,⼭区⽀持度⼩于minsup的左右后选集。
5. 当没有新的频繁项集产⽣,算法结束。
Apriori算法的频繁项集产⽣的部分有两个重要的特点:(1)逐层算法,从频繁1-项集到最长的项集,每次遍历项集格中的⼀层。
(2)它使⽤产⽣-测试(generate-and-test)策略来发现频繁项集,每次迭代后的候选项集都由上⼀次迭代发现的频繁项集产⽣。
算法总迭代次数为k_{max+1},其中k_{max}为频繁项集最⼤长度。
候选的产⽣与剪枝剪枝:考虑候选k项集X={i_1,i_2,i_3……},如果X的⼀个真⼦集⾮频繁,则X将会被剪枝。
数据挖掘试题及答案
1.数据挖掘的定义是什么?
数据挖掘是指从大量数据中通过算法自动发现和提取有用的信息,并对其进行分析和解释,以帮助企业做出决策的过程。
1.数据挖掘的主要任务是什么?
数据挖掘的主要任务包括关联分析、聚类分析、分类和预测、偏差检测等。
1.什么是关联分析?
关联分析是指通过发现大量数据中项集之间的关联性或相关性来进行分析的一种方法。
常见的关联分析算法有Apriori算法和FP-Growth算法。
1.什么是聚类分析?
聚类分析是指将物理或抽象对象组成的多个组或类按照它们的相似性进行分类。
聚类分析的目标是将相似的对象归为一类,同时将不相似或不同的对象分离出来。
1.什么是分类和预测?
分类是指根据历史数据和经验建立模型,然后使用该模型对新的未知数据进行预测或分类。
预测则是利用已知的变量和参数来预测未来的结果或趋势。
1.什么是偏差检测?
偏差检测是指通过检测数据中的异常值、离群点或不寻常的模式来发现异常情况或错误的过程。
偏差检测可以帮助企业发现数据中的问题和不一致性,及时纠正错误或采取相应措施。
Data Mining Take Home Exam学号: xxxx 姓名: xxx(1)计算整个数据集的Gini指标值。
(2)计算属性性别的Gini指标值(3)计算使用多路划分属性车型的Gini指标值(4)计算使用多路划分属性衬衣尺码的Gini指标值(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么?(3)=26/160=0.1625]*2=8/25+6/35=0.4914(5)比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。
2. ((1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。
(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。
(3)将每个顾客ID作为一个购物篮,重复(1)。
应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。
(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。
答:(1)由上表计数可得{e}的支持度为8/10=0.8;{b,d}的支持度为2/10=0.2;{b,d,e}的支持度为2/10=0.2。
(2)c[{b,d}→{e}]=2/8=0.25; c[{e}→{b,d}]=8/2=4。
(3)同理可得:{e}的支持度为4/5=0.8,{b,d}的支持度为5/5=1,{b,d,e}的支持度为4/5=0.8。
(4)c[{b,d}→{e}]=5/4=1.25,c[{e}→{b,d}]=4/5=0.8。
3. (20分)以下是多元回归分析的部分R输出结果。
> ls1=lm(y~x1+x2)> anova(ls1)Df Sum Sq Mean Sq F value Pr(>F)x1 1 10021.2 10021.2 62.038 0.0001007 ***x2 1 4030.9 4030.9 24.954 0.0015735 **Residuals 7 1130.7 161.5> ls2<-lm(y~x2+x1)> anova(ls2)Df Sum Sq Mean Sq F value Pr(>F)x2 1 3363.4 3363.4 20.822 0.002595 **x1 1 10688.7 10688.7 66.170 8.193e-05 ***Residuals 7 1130.7 161.5(1)用F检验来检验以下假设(α = 0.05)H0: β1 = 0H a: β1≠ 0计算检验统计量;是否拒绝零假设,为什么?(2)用F检验来检验以下假设(α = 0.05)H0: β2 = 0H a: β2≠ 0计算检验统计量;是否拒绝零假设,为什么?(3)用F检验来检验以下假设(α = 0.05)H0: β1 = β2 = 0H a: β1和β2 并不都等于零计算检验统计量;是否拒绝零假设,为什么?解:(1)根据第一个输出结果F=62.083>F(2,7)=4.74,p<0.05,所以可以拒绝原假设,即得到不等于0。