数据挖掘试卷及答案
- 格式:doc
- 大小:94.00 KB
- 文档页数:3
一、解答题(满分30分,每小题5分)1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。
知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。
流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。
2. 时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。
例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。
2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。
若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。
3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。
由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。
假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。
3. 数据挖掘的分类方法有哪些,请详细阐述之分类方法归结为四种类型:1)、基于距离的分类方法:距离的计算方法有多种,最常用的是通过计算每个类的中心来完成,在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。
数据挖掘考试题及答案### 数据挖掘考试题及答案#### 一、选择题(每题2分,共20分)1. 数据挖掘的目的是发现数据中的:- A. 错误- B. 模式- C. 异常- D. 趋势答案:B2. 以下哪项不是数据挖掘的常用算法:- A. 决策树- B. 聚类分析- C. 线性回归- D. 神经网络答案:C3. 关联规则挖掘中,Apriori算法用于发现:- A. 频繁项集- B. 异常值- C. 趋势- D. 聚类答案:A4. K-means算法是一种:- A. 分类算法- B. 聚类算法- C. 预测算法- D. 关联规则挖掘算法答案:B5. 以下哪个指标用于评估分类模型的性能:- A. 准确率- B. 召回率- C. F1分数- D. 所有以上答案:D#### 二、简答题(每题10分,共30分)1. 描述数据挖掘中的“过拟合”现象,并给出避免过拟合的策略。
答案:过拟合是指模型对训练数据拟合得过于完美,以至于失去了泛化能力。
避免过拟合的策略包括:使用交叉验证、正则化技术、减少模型复杂度、获取更多的训练数据等。
2. 解释什么是“数据清洗”以及它在数据挖掘中的重要性。
答案:数据清洗是指从原始数据中识别并纠正(或删除)错误、重复或不完整的数据的过程。
它在数据挖掘中至关重要,因为脏数据会导致分析结果不准确,影响最终的决策。
3. 描述“特征选择”在数据挖掘中的作用。
答案:特征选择是数据挖掘中用来降低数据维度、提高模型性能和减少计算成本的过程。
通过选择最有信息量的特征,可以去除冗余或无关的特征,从而提高模型的准确性和效率。
#### 三、应用题(每题25分,共50分)1. 假设你正在分析一个电子商务网站的用户购买行为,描述你将如何使用数据挖掘技术来识别潜在的营销机会。
答案:首先,我会使用聚类分析来识别不同的用户群体。
然后,通过关联规则挖掘来发现不同用户群体的购买模式。
接着,利用分类算法来预测用户可能感兴趣的产品。
历年数据挖掘期末考试试题及答案2019年春选择题1. 关于数据挖掘下列叙述中,正确的是:- A. 数据挖掘只是寻找数据中的有用信息- B. 数据挖掘就是将数据放置于数据仓库中,方便查询- C. 数据挖掘是指从大量有噪音数据中提取未知、隐含、先前未知的、重要的、可理解的模式或知识- D. 数据挖掘就是从数据中提取出数值型变量2. 下列关于聚类分析的说法中,正确的是:- A. 聚类分析是无监督研究- B. 聚类分析的目的是找到一组最优特征- C. 聚类分析只能用于数值型变量- D. 聚类分析是一种监督研究方法3. 一般的数据挖掘流程包括以下哪些步骤:- A. 数据采集- B. 数据清洗- C. 数据转换- D. 模型构建- E. 模型评价- F. 模型应用- G. A、B、C、D、E- H. A、B、C、D、E、F- I. B、C、D、E、F- J. C、D、E、F简答题1. 什么是数据挖掘?介绍一下数据挖掘的流程。
数据挖掘是从庞大、复杂的数据集中提取有价值的、对决策有帮助的信息。
包括数据采集、数据清洗、数据转换、模型构建、模型评价和模型应用等步骤。
2. 聚类分析和分类分析有什么不同?聚类分析和分类分析都是数据挖掘的方法,不同的是聚类分析是无监督研究,通过相似度,将数据集分为不同的组;分类分析是监督研究,通过已知的训练集数据来预测新的数据分类。
也就是说在分类中有“标签”这个中间过程。
3. 请介绍一个你知道的数据挖掘算法,并简单阐述它的流程。
Apriori算法:是一种用于关联规则挖掘的算法。
主要流程包括生成项集、计算支持度、生成候选规则以及计算可信度四步。
首先生成单个项集,计算各项集在数据集中的支持度;然后根据单个项集生成项集对,计算各项集对在数据集中的支持度;接着从项集对中找出支持度大于某个阈值的,生成候选规则;最后计算规则的置信度,保留置信度大于某个阈值的规则作为关联规则。
数据挖掘原理与应用 试题及答案试卷一、(30分,总共30题,每题答对得1分,答错得0分)单选题1、在ID3算法中信息增益是指( D )A、信息的溢出程度B、信息的增加效益C、熵增加的程度最大D、熵减少的程度最大2、下面哪种情况不会影响K-means聚类的效果?( B )A、数据点密度分布不均B、数据点呈圆形状分布C、数据中有异常点存在D、数据点呈非凸形状分布3、下列哪个不是数据对象的别名 ( C )A、样品B、实例C、维度D、元组4、人从出生到长大的过程中,是如何认识事物的? ( D )A、聚类过程B、分类过程C、先分类,后聚类D、先聚类,后分类5、决策树模型中应如何妥善处理连续型属性:( C )A、直接忽略B、利用固定阈值进行离散化C、根据信息增益选择阈值进行离散化D、随机选择数据标签发生变化的位置进行离散化6、假定用于分析的数据包含属性age。
数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70。
问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。
第二个箱子值为:( A )A、18.3B、22.6C、26.8D、27.97、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( C )A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则8、如果现在需要对一组数据进行样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量,应该采取( A )A、聚类分析B、回归分析C、相关分析D、判别分析9、时间序列数据更适合用( A )做数据规约。
A、小波变换B、主成分分析C、决策树D、直方图10、下面哪些场景合适使用PCA?( A )A、降低数据的维度,节约内存和存储空间B、降低数据维度,并作为其它有监督学习的输入C、获得更多的特征D、替代线性回归11、数字图像处理中常使用主成分分析(PCA)来对数据进行降维,下列关于PCA算法错误的是:( C )A、PCA算法是用较少数量的特征对样本进行描述以达到降低特征空间维数的方法;B、PCA本质是KL-变换;C、PCA是最小绝对值误差意义下的最优正交变换;D、PCA算法通过对协方差矩阵做特征分解获得最优投影子空间,来消除模式特征之间的相关性、突出差异性;12、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘13、假设使用维数降低作为预处理技术,使用PCA将数据减少到k维度。
数据挖掘考试题库及答案一、选择题1. 数据挖掘是从大量数据中提取有价值信息的过程,以下哪项不是数据挖掘的主要任务?A. 预测B. 分类C. 聚类D. 数据可视化答案:D2. 以下哪种技术不属于数据挖掘的常用方法?A. 决策树B. 支持向量机C. 关联规则D. 数据仓库答案:D3. 数据挖掘中,以下哪项技术常用于分类和预测?A. 神经网络B. K-均值聚类C. 主成分分析D. 决策树答案:D4. 在数据挖掘中,以下哪个概念表示数据集中的属性?A. 数据项B. 数据记录C. 数据属性D. 数据集答案:C5. 数据挖掘中,以下哪个算法用于求解关联规则?A. Apriori算法B. ID3算法C. K-Means算法D. C4.5算法答案:A二、填空题6. 数据挖掘的目的是从大量数据中提取______信息。
答案:有价值7. 在数据挖掘中,分类任务分为有监督学习和______学习。
答案:无监督8. 决策树是一种用于分类和预测的树形结构,其核心思想是______。
答案:递归划分9. 关联规则挖掘中,支持度表示某个项集在数据集中的出现频率,置信度表示______。
答案:包含项集的记录中同时包含结论的记录的比例10. 数据挖掘中,聚类分析是将数据集划分为若干个______的子集。
答案:相似三、判断题11. 数据挖掘只关注大量数据中的异常值。
()答案:错误12. 数据挖掘是数据仓库的一部分。
()答案:正确13. 决策树算法适用于处理连续属性的分类问题。
()答案:错误14. 数据挖掘中的聚类分析是无监督学习任务。
()答案:正确15. 关联规则挖掘中,支持度越高,关联规则越可靠。
()答案:错误四、简答题16. 简述数据挖掘的主要任务。
答案:数据挖掘的主要任务包括预测、分类、聚类、关联规则挖掘、异常检测等。
17. 简述决策树算法的基本原理。
答案:决策树算法是一种自顶向下的递归划分方法。
它通过选择具有最高信息增益的属性进行划分,将数据集划分为若干个子集,直到满足停止条件。
数据挖掘知识竞赛题库及答案一、选择题1. 数据挖掘的目的是从大量的数据中发现有价值的信息和知识。
以下哪个不是数据挖掘的主要任务?A. 分类B. 聚类C. 预测D. 图像识别答案:D2. 在数据挖掘过程中,特征工程是指什么?A. 选择与目标变量相关的特征B. 对特征进行标准化处理C. 特征降维D. 以上都是答案:D3. K-近邻算法是一种基于什么的分类方法?A. 决策树B. 支持向量机C. 神经网络D. 实例匹配答案:D4. 在数据挖掘中,什么是衡量分类器性能的主要指标?A. 准确率B. 召回率C. F1值D. AUC值答案:D5. 在关联规则挖掘中,最小支持度是指什么?A. 出现在至少一半的事务中的项集B. 出现在至少一定比例的事务中的项集C. 出现在至少一个事务中的项集D. 出现在至少多数事务中的项集答案:B6. 以下哪种技术不属于聚类分析?A. K-均值B. 层次聚类C. 密度聚类D. 决策树聚类答案:D7. 在时间序列分析中,什么是时间序列的前向扩散?A. 过去的信息对当前信息的影响B. 当前的信息对过去信息的影响C. 未来的信息对当前信息的影响D. 当前的信息对未来信息的影响答案:C8. 在数据挖掘中,什么是基于模型的预测方法?A. 利用已有数据建立模型,对新数据进行预测B. 直接对原始数据进行预测C. 利用专家经验进行预测D. 利用机器学习算法进行预测答案:A9. 在数据挖掘中,什么是维度归一化?A. 将特征值缩放到一个固定范围B. 减少特征的数量C. 特征选择D. 特征提取答案:A10. 在数据挖掘中,什么是过拟合?A. 模型在训练集上的性能很好,但在测试集上的性能较差B. 模型在训练集上的性能较差,但在测试集上的性能很好C. 模型在训练集和测试集上的性能都很好D. 模型在训练集和测试集上的性能都较差答案:A二、填空题1. 数据挖掘的主要任务包括分类、聚类、预测和__________。
数据挖掘测试题及答案一、选择题1. 数据挖掘的目的是:A. 数据清洗B. 数据转换C. 模式发现D. 数据存储答案:C2. 以下哪项不是数据挖掘的常用算法?A. 决策树B. 聚类分析C. 线性回归D. 关联规则答案:C二、填空题1. 数据挖掘中的_________是指在大量数据中发现的有意义的模式。
答案:知识2. 一种常用的数据挖掘技术是_________,它用于发现数据中隐藏的分组。
答案:聚类三、简答题1. 简述数据挖掘与数据分析的区别。
答案:数据挖掘是一种自动或半自动的过程,旨在从大量数据中发现模式和知识。
数据分析通常涉及更具体的查询和问题,使用统计方法来理解数据。
2. 描述什么是关联规则挖掘,并给出一个例子。
答案:关联规则挖掘是一种用于发现变量之间有趣关系的技术,特别是变量之间的频繁模式、关联或相关性。
例如,在市场篮子分析中,关联规则挖掘可以用来发现顾客购买行为中的模式,如“购买面包的顾客中有80%也购买了牛奶”。
四、计算题1. 给定以下数据集,计算支持度和置信度:| 事务ID | 购买的商品 |||-|| 1 | A, B || 2 | A, C || 3 | B, C || 4 | A, B, C || 5 | B, D |(1) 计算项集{A}的支持度。
(2) 计算规则A => B的置信度。
答案:(1) 项集{A}的支持度为4/5,因为A出现在4个事务中。
(2) 规则A => B的置信度为3/4,因为A和B同时出现在3个事务中,而A出现在4个事务中。
五、论述题1. 论述数据挖掘在电子商务中的应用,并给出至少两个具体的例子。
答案:数据挖掘在电子商务中的应用非常广泛,包括:- 客户细分:通过数据挖掘技术,商家可以识别不同的客户群体,为每个群体提供定制化的服务或产品。
- 推荐系统:利用关联规则挖掘,电商平台可以推荐用户可能感兴趣的商品,提高用户满意度和购买率。
- 欺诈检测:通过分析交易模式,数据挖掘可以帮助识别异常行为,预防信用卡欺诈等风险。
数据挖掘测试题及答案一、单项选择题(每题2分,共10题,共20分)1. 数据挖掘中,用于发现数据集中的关联规则的算法是:A. K-meansB. AprioriC. Naive BayesD. Decision Tree答案:B2. 以下哪个选项不是数据挖掘的步骤之一:A. 数据预处理B. 数据探索C. 数据收集D. 数据分析答案:C3. 在分类问题中,以下哪个算法属于监督学习:A. 聚类B. 决策树C. 关联规则D. 异常检测答案:B4. 数据挖掘中,用于发现数据集中的频繁项集的算法是:A. K-meansB. AprioriC. Naive BayesD. Decision Tree5. 在数据挖掘中,以下哪个选项不是数据预处理的步骤:A. 数据清洗B. 数据集成C. 数据变换D. 数据分类答案:D6. 以下哪个算法主要用于聚类问题:A. K-meansB. AprioriC. Naive BayesD. Decision Tree答案:A7. 在数据挖掘中,以下哪个选项不是数据挖掘的应用领域:A. 市场分析B. 医疗诊断C. 社交网络分析D. 视频游戏开发答案:D8. 以下哪个算法主要用于异常检测:A. K-meansB. AprioriC. Naive BayesD. One-Class SVM答案:D9. 在数据挖掘中,以下哪个选项不是数据挖掘的输出结果:B. 规则C. 趋势D. 软件答案:D10. 以下哪个算法主要用于分类问题:A. K-meansB. AprioriC. Naive BayesD. Decision Tree答案:D二、多项选择题(每题3分,共5题,共15分)1. 数据挖掘中,以下哪些算法可以用于分类问题:A. K-meansB. Decision TreeC. Naive BayesD. Logistic Regression答案:BCD2. 在数据挖掘中,以下哪些步骤属于数据预处理:A. 数据清洗B. 数据集成C. 数据变换D. 数据分类答案:ABC3. 以下哪些算法可以用于聚类问题:A. K-meansB. AprioriC. Hierarchical ClusteringD. DBSCAN答案:ACD4. 在数据挖掘中,以下哪些步骤属于数据探索:A. 数据可视化B. 数据摘要C. 数据分类D. 数据变换答案:AB5. 以下哪些算法可以用于异常检测:A. K-meansB. One-Class SVMC. Isolation ForestD. Apriori答案:BC三、简答题(每题5分,共3题,共15分)1. 简述数据挖掘中关联规则挖掘的主要步骤。
数据挖掘考试和答案一、单项选择题(每题2分,共20分)1. 数据挖掘的主要任务不包括以下哪一项?A. 分类B. 聚类C. 预测D. 数据清洗答案:D2. 以下哪个算法不是用于分类的?A. 决策树B. 支持向量机C. K-均值D. 神经网络答案:C3. 在数据挖掘中,以下哪个概念与“异常检测”相对应?A. 频繁模式挖掘B. 聚类C. 关联规则学习D. 异常检测答案:D4. 以下哪个算法是用于聚类的?A. Apriori算法B. K-最近邻算法C. 逻辑回归D. 随机森林答案:B5. 在关联规则学习中,以下哪个指标用于衡量规则的置信度?A. 支持度B. 置信度C. 增益D. 覆盖度答案:B6. 数据挖掘中的“过拟合”是指模型:A. 过于复杂,无法泛化到新数据B. 过于简单,无法捕捉数据的复杂性C. 训练时间过长D. 计算成本过高答案:A7. 在时间序列分析中,ARIMA模型的全称是什么?A. 自回归积分滑动平均模型B. 自回归移动平均模型C. 自回归积分滑动平均模型D. 自回归条件异方差模型答案:A8. 以下哪个是监督学习算法?A. K-均值聚类B. 决策树C. 主成分分析D. Apriori算法答案:B9. 在数据挖掘中,以下哪个概念与“特征选择”相对应?A. 特征提取B. 特征工程C. 降维D. 数据清洗答案:C10. 以下哪个算法是用于降维的?A. 线性回归B. 主成分分析C. 逻辑回归D. 支持向量机答案:B二、多项选择题(每题3分,共15分)11. 数据挖掘中的“关联规则学习”可以应用于以下哪些场景?A. 市场篮分析B. 异常检测C. 推荐系统D. 聚类分析答案:A, C12. 以下哪些是数据挖掘中常用的距离度量?A. 欧氏距离B. 曼哈顿距离C. 余弦相似度D. 杰卡德相似系数答案:A, B, C, D13. 在数据挖掘中,以下哪些是常用的聚类算法?A. K-均值B. DBSCANC. 层次聚类D. 支持向量机答案:A, B, C14. 以下哪些是数据挖掘中的特征选择方法?A. 过滤方法B. 包装方法C. 嵌入方法D. 随机森林答案:A, B, C15. 在数据挖掘中,以下哪些是模型评估指标?A. 准确率B. 召回率C. F1分数D. 均方误差答案:A, B, C, D三、填空题(每题2分,共20分)16. 数据挖掘中的________是指通过分析数据来发现数据中未知的、有价值的信息和知识的过程。
数据挖掘及应用考试试题及答案第一部分:选择题(每题4分,共40分)1.数据挖掘的定义是以下哪一个选项?A)从大数据中提取有用的信息B)从数据库中提取有用的信息C)从互联网中提取有用的信息D)从文件中提取有用的信息2.以下哪个是数据挖掘的一个主要任务?A)数据的存储和管理B)数据的可视化展示C)模型的建立和评估D)数据的备份和恢复3.下列哪个不是数据挖掘的一个常用技术?A)关联规则挖掘B)分类算法C)聚类分析D)数据编码技术4.以下哪个不属于数据预处理的步骤?A)数据清洗B)数据集成C)数据转换D)模型评估5.以下哪个是数据挖掘任务中的分类问题?A)预测数值B)聚类分析C)异常检测D)关联规则挖掘6.以下哪个不属于数据可视化的一种方法?A)散点图B)柱状图C)热力图D)关联规则图7.在使用决策树算法进行分类任务时,常用的不纯度度量指标是:A)基尼指数B)信息增益C)平方误差D)均方根误差8.以下哪个算法常用于处理文本数据挖掘任务?A)K-means算法B)Apriori算法C)朴素贝叶斯算法D)决策树算法9.以下哪种模型适用于处理离散型目标变量?A)线性回归模型B)逻辑回归模型C)支持向量机模型D)贝叶斯网络模型10.数据挖掘的应用领域包括以下哪些?A)金融风控B)医疗诊断C)社交网络分析D)所有选项都正确第二部分:填空题(每题4分,共20分)1.数据挖掘的基础是______和______。
答案:统计学、机器学习2.数据挖掘的任务包括分类、聚类、预测和______。
答案:关联规则挖掘3.常用的数据预处理方法包括数据清洗、数据集成和______。
答案:数据转换4.决策树算法的基本思想是通过选择最佳的______进行分类。
答案:划分属性5.支持向量机(SVM)算法适用于______问题。
答案:二分类问题第三部分:简答题(每题10分,共40分)1.请简述数据挖掘的流程及各个阶段的主要任务。
答:数据挖掘的流程一般包括问题定义、数据收集、数据预处理、模型选择与建立、模型评估与选择、知识应用等阶段。
12/13 年第2学期《数据挖掘与知识发现》期末考试试卷及答案
一、什么是数据挖掘?什么是数据仓库?并简述数据挖掘的步
骤。
(20分)
数据挖掘是从大量数据中提取或发现(挖掘)知识的过程。
数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中的决策制定过程。
步骤:
1)数据清理(消除噪声或不一致数据)
2) 数据集成(多种数据源可以组合在一起)
3 ) 数据选择(从数据库中检索与分析任务相关的数据)
4 ) 数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作)
5) 数据挖掘(基本步骤,使用智能方法提取数据模式)
6) 模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式;)
7) 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)
二、元数据的定义是什么?元数据包括哪些内容?(20分)
元数据是关于数据的数据。
在数据仓库中, 元数据是定义仓库对象的数据。
元数据包括:
数据仓库结构的描述,包括仓库模式、视图、维、分层结构、导出数据的定义, 以及数据集市的位置和内容。
操作元数据,包括数据血统(移植数据的历史和它所使用的变换序列)、数据流通(主动的、档案的或净化的)、管理信息(仓库使用统计量、错误报告和
审计跟踪)。
汇总算法,包括度量和维定义算法, 数据所处粒度、划分、主题领域、聚集、汇总、预定义的查询和报告。
由操作环境到数据仓库的映射,包括源数据库和它们的内容,网间连接程序描述, 数据划分, 数据提取、清理、转换规则和缺省值, 数据刷新和净化规则, 安全(用户授权和存取控制)。
关于系统性能的数据,刷新、更新定时和调度的规则与更新周期,改善数据存取和检索性能的索引和配置。
商务元数据,包括商务术语和定义, 数据拥有者信息和收费策略。
三、在O L A P 中,如何使用概念分层? 请解释多维数据模型中的OLAP上卷下钻切片切块和转轴操作。
(20分)
在多维数据模型中,数据组织成多维,每维包含由概念分层定义的多个抽象层。
这种组织为用户从不同角度观察数据提供了灵活性。
有一些O L A P 数据立方体操作用来物化这些不同视图,允许交互查询和分析手头数据。
因此,O L A P 为交互数据分析提供了友好的环境。
上卷:上卷操作通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集。
下钻:下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。
下钻可以通过沿维的概念分层向下或引入新的维来实现。
切片:在给定的数据立方体的一个维上进行选择,导致一个子方。
切块:通过对两个或多个维执行选择,定义子方。
转轴:转轴是一种目视操作,它转动数据的视角,提供数据的替代表示。
四、什么是数据变换?数据变换涉及的内容有哪些?(20分)
数据变换是将数据转换成适合于挖掘的形式。
数据变换可能涉及如下内容:
1).平滑:去掉数据中的噪声。
这种技术包括分箱、聚类和回归。
2).聚集:对数据进行汇总和聚集。
例如,可以聚集日销售数据,计算月和年销售额。
通常,这一步用来为多粒度数据分析构造数据立方体。
3).数据概化:使用概念分层,用高层次概念替换低层次“原始”数据。
例如,分类的属性,如s t re e t ,可以概化为较高层的概念,如 c i t y 或 c o u n t ry 。
类似地,数值属性,如 a g e ,可以映射到较高层概念,如young, middle-age 和s e n i o r 。
4).规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1 .
0 到1 . 0 或0 . 0 到1 . 0 。
5).属性构造(或特征构造):可以构造新的属性并添加到属性集中,以帮助挖掘过程。
五、用Apriori、FP-growth、GSP、Prefixspan、SPAM算法中任意一到两种算法,挖掘出所有的频繁项集(表1)或频繁序列(表2),并写出具体过程。
假设事务数据库D如下:最小支持度计数为2。
(20分)以Apriori算法为例。