数据挖掘概念与技术习题答案-第3章
- 格式:docx
- 大小:20.51 KB
- 文档页数:6
数据挖掘习题答案数据挖掘习题答案数据挖掘作为一门重要的技术和方法,广泛应用于各个领域。
在学习数据挖掘的过程中,习题是不可或缺的一部分。
通过解答习题,我们可以更好地理解和掌握数据挖掘的原理和应用。
以下是一些常见的数据挖掘习题及其答案,供大家参考。
一、选择题1. 数据挖掘的目标是什么?A. 发现隐藏在大数据中的模式和关联B. 提供数据存储和管理的解决方案C. 分析数据的趋势和变化D. 优化数据的存储和传输速度答案:A. 发现隐藏在大数据中的模式和关联2. 下列哪个不是数据挖掘的主要任务?A. 分类B. 聚类C. 回归D. 排序答案:D. 排序3. 数据挖掘的过程包括以下几个步骤,哪个是第一步?A. 数据清洗B. 数据集成C. 数据转换D. 数据选择答案:B. 数据集成4. 下列哪个不是数据挖掘中常用的算法?A. 决策树B. 支持向量机C. 朴素贝叶斯D. 深度学习答案:D. 深度学习5. 下列哪个不是数据挖掘的应用领域?A. 金融B. 医疗C. 娱乐D. 政治答案:D. 政治二、填空题1. 数据挖掘是从大量数据中发现________和________。
答案:模式,关联2. 数据挖掘的主要任务包括分类、聚类、回归和________。
答案:预测3. 数据挖掘的过程包括数据集成、数据清洗、数据转换和________。
答案:模式识别4. 决策树是一种常用的________算法。
答案:分类5. 数据挖掘可以应用于金融、医疗、娱乐等多个________。
答案:领域三、简答题1. 请简要介绍数据挖掘的主要任务和应用领域。
答:数据挖掘的主要任务包括分类、聚类、回归和预测。
分类是将数据集划分为不同的类别,聚类是将数据集中相似的样本归为一类,回归是根据已有的数据预测未知数据的值,预测是根据已有的数据预测未来的趋势和变化。
数据挖掘的应用领域非常广泛,包括金融、医疗、娱乐等。
在金融领域,数据挖掘可以用于信用评估、风险管理等方面;在医疗领域,数据挖掘可以用于疾病诊断、药物研发等方面;在娱乐领域,数据挖掘可以用于推荐系统、用户行为分析等方面。
第3章关系数据库1. 试述关系模型的三个组成部分。
解:关系模型的三个组成部分 (1) 关系数据模型的数据结构 (2) 关系数据模型的操纵与完整性约束 (3) 关系数据模型的存储结构2. 解释下列术语的含义: ①笛卡尔积;②主码;③候选码;④外码;⑤关系;⑥关系模式;⑦关系数据库 解:①笛卡尔积:两个分别为n 目和m 目的关系R 和S 的笛卡尔积是一个(n+m)列的元组的集合。
元组的前n 列是关系R 的一个元组,后m 列是关系S 的一个元组。
若R 有k 1个元组,S 有K 2个元组,则关系R 和关系S 的笛卡尔积有k 1×k 2个元组。
记作:R ×S ={t r t s ̂|t r ∈R⋀t s ∈S}②主码:若关系中的某一属性组的值能唯一的标识一个元组,则称该属性组为候选码。
若一个关系有多个候选码,则选定其中一个为主码。
③候选码:若关系中的某一属性组的值能唯一的标识一个元组,则称该属性组为候选码。
④外码:如果关系模式R 中的某属性集是另一个关系模式S 的主码,则该属性集为关系模式R 的外码。
⑤关系:关系是集合论的一个概念,也是关系模型的数据结构,它只包含单一的数据结构——关系。
在关系模型中,现实世界的实体以及实体间的各种联系均用关系来表示。
在用户看来,一个关系就是一张二维表,这种简单的数据结构能够表达丰富的语义。
⑥关系模式:关系的描述称为关系模式。
它可以形式化地表示为R(U ,D ,DOM ,F)其中R 为关系名,U 为组成该关系的属性名集合,D 为属性组U 中属性所来自的域,DOM 为属性向域的映像集合,F 为属性间数据的依赖关系集合。
⑦关系数据库:在关系模型中,实体以及实体之间的联系都是通过关系来表示的。
因此,在一个给定的应用领域中,所有实体以及实体之间的联系所对应的关系的集合就构成一个关系数据库。
3. 关系数据库的三个完整性约束是什么?各是什么含义? 解:关系模式中有3类完整性约束:实体完整性、参照完整性和用户自定义完整性。
1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。
它用表组织数据,采用ER数据模型。
相似:它们都为数据挖掘提供了源数据,都是数据的组合。
1.3定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。
使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。
答:特征化是一个目标类数据的一般特性或特性的汇总。
例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。
区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。
最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。
关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。
例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒owns(X, “personal computer”)[support=12%, confidence=98%]其中,X 是一个表示学生的变量。
这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。
这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。
分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。
数据挖掘概念与技术(原书第3版)第一章课后习题及解答1.9习题1.1什么是数据挖掘?在你的回答中,强调以下问题:(a)它是又一种广告宣传吗?(b)它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗?(c)我们提出了一种观点,说数据挖掘是数据库技术进化的结果。
你认为数据挖掘也是机器学习研究进化的结果吗?你能基于该学科的发展历史提出这一观点吗?针对统计学和模式识别领域,做相同的事。
(d)当把数据挖掘看做知识发现过程时,描述数据挖掘所涉及的步骤。
答:狭义的数据挖掘是知识发现过程中的一个步骤,广义的数据挖掘通常用来表示整个知识发现过程,我们一般采用广义的观点:数据挖掘是从大量数据中挖掘有趣模式和知识的过程。
数据源包括数据库、数据仓库、WEB、其他信息存储库或动态地流入系统的数据。
a.它不是一种广告宣传,它基于实际的需求,提供从数据中发现知识的工具。
b。
数据挖掘不是从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用,它可以看做是信息技术的自然进化,是一些相关学科和应用领域的交汇点.c。
数据挖掘是数据库技术进化的结果,也是机器学习、统计学和模式识别领域技术进化的结果。
机器学习是一个快速成长的学科,这一领域中的监督学习、无监督学习、半监督学习和主动学习问题,与数据挖掘高度相关,数据挖掘和机器学习有许多相似之处,对于分类和聚类任务,机器学习研究通常关注模型的准确率。
除准确率之外,数据挖掘研究非常强调挖掘方法在大型数据集上的有效性和可伸缩性,以及处理复杂数据类型的方法,开发新的非传统的方法.统计学研究数据的收集、分析、解释和表示。
数据挖掘和统计学具有天然联系。
(1)统计模型是一组数学函数,它们利用随机变量及其概率分布刻画目标类对象的行为,可以是数据挖掘的结果,也可以是数据挖掘任务的基础。
(2)统计学研究开发一些使用数据和统计模型进行预测和预报的工具,描述统计可以帮助理解数据;推理统计学用某种方式对数据建模,可以解释观测中的随机性和确定性,并用来提取关于所考察的过程中或总体的结论.(3)统计假设检验使用实验数据进行统计判决,可以用来验证数据挖掘结果。
数据挖掘试题及答案一、单项选择题(每题2分,共20分)1. 数据挖掘的目的是()。
A. 数据清洗B. 数据转换C. 数据探索和模式发现D. 数据存储答案:C2. 以下哪个不是数据挖掘的常用算法()。
A. 决策树B. 聚类C. 线性回归D. 矩阵运算答案:D3. 在数据挖掘中,关联规则挖掘主要用于()。
A. 分类B. 预测C. 描述性分析D. 频繁项集的发现答案:D4. K-均值聚类算法中,K的值是指()。
A. 聚类中心的数量B. 聚类半径C. 聚类数量D. 聚类成员的数量答案:C5. 以下哪个算法是用于分类的()。
A. Apriori算法B. K-均值聚类C. 神经网络D. 遗传算法答案:C6. 在数据挖掘中,过拟合是指()。
A. 模型过于复杂,无法泛化到新数据B. 模型过于简单,无法捕捉数据的复杂性C. 模型无法处理缺失值D. 模型无法处理异常值答案:A7. 以下哪个是数据挖掘中的降维技术()。
A. 主成分分析(PCA)B. 决策树C. 随机森林D. 支持向量机答案:A8. 在数据挖掘中,异常检测通常用于()。
A. 欺诈检测B. 聚类C. 分类D. 预测答案:A9. 以下哪个不是数据挖掘中的特征选择方法()。
A. 过滤方法B. 包装方法C. 嵌入方法D. 随机方法答案:D10. 在数据挖掘中,时间序列分析主要用于()。
A. 预测未来趋势B. 聚类C. 关联规则挖掘D. 分类答案:A二、多项选择题(每题3分,共15分)1. 数据挖掘过程中可能涉及的步骤包括()。
A. 数据清洗B. 数据转换C. 数据探索D. 模型训练E. 结果评估答案:ABCDE2. 以下哪些是数据挖掘中常用的评估指标()。
A. 准确率B. 召回率C. F1分数D. 均方误差E. 支持度答案:ABCD3. 在数据挖掘中,以下哪些可以作为特征()。
A. 数值型数据B. 分类数据C. 文本数据E. 时间戳答案:ABCDE4. 以下哪些是数据挖掘中常用的聚类算法()。
第3章关系数据库1. 试述关系模型的三个组成部分。
解:关系模型的三个组成部分(1) 关系数据模型的数据结构(2) 关系数据模型的操纵与完整性约束(3) 关系数据模型的存储结构2. 解释下列术语的含义:①笛卡尔积;②主码;③候选码;④外码;⑤关系;⑥关系模式;⑦关系数据库解:①笛卡尔积:两个分别为n目和m目的关系R和S的笛卡尔积是一个(n+m)列的元组的集合。
元组的前n列是关系R的一个元组,后m列是关系S的一个元组。
若R有k1个元组,S有K2个元组,则关系R和关系S的笛卡尔积有k1×k2个元组。
记作:R×S={trts|tr∈R⋀ts∈S}②主码:若关系中的某一属性组的值能唯一的标识一个元组,则称该属性组为候选码。
若一个关系有多个候选码,则选定其中一个为主码。
③候选码:若关系中的某一属性组的值能唯一的标识一个元组,则称该属性组为候选码。
④外码:如果关系模式R中的某属性集是另一个关系模式S的主码,则该属性集为关系模式R的外码。
⑤关系:关系是集合论的一个概念,也是关系模型的数据结构,它只包含单一的数据结构——关系。
在关系模型中,现实世界的实体以及实体间的各种联系均用关系来表示。
在用户看来,一个关系就是一张二维表,这种简单的数据结构能够表达丰富的语义。
⑥关系模式:关系的描述称为关系模式。
它可以形式化地表示为R(U,D,DOM,F)其中R为关系名,U为组成该关系的属性名集合,D为属性组U中属性所来自的域,DOM为属性向域的映像集合,F为属性间数据的依赖关系集合。
⑦关系数据库:在关系模型中,实体以及实体之间的联系都是通过关系来表示的。
因此,在一个给定的应用领域中,所有实体以及实体之间的联系所对应的关系的集合就构成一个关系数据库。
3.关系数据库的三个完整性约束是什么?各是什么含义?解:关系模式中有3类完整性约束:实体完整性、参照完整性和用户自定义完整性。
实体完整性:若属性(指一个或一组属性)A是基本关系R的主属性,则A不能取空值。
习题一:1。
讨论是否每个以下活动是一个数据挖掘的任务。
(a)将公司的客户根据他们的性别。
不。
这是一个简单的数据库查询。
(b)将公司的客户根据他们的盈利能力。
不。
这是一个会计计算,紧随其后的是应用程序一个阈值。
然而,预测的盈利能力客户将数据挖掘。
(c)计算一个公司的总销售额。
不。
再次,这是简单的会计。
(d)排序一个学生数据库基于学生身份证号码。
不。
再一次,这是一个简单的数据库查询。
(e)预测结果掷双骰子(公平)。
不。
因为模具是公平的,这是一个概率计算。
如果死是不公平的,我们需要估计的概率每个结果的数据,那么这是更像的问题认为数据挖掘。
然而,在这种特定的情况下,解决方案这个问题是由数学家很长时间前,因此,我们不会认为它是数据挖掘。
(f)预测未来股价的公司使用历史记录。
是的。
我们将尝试创建一个模型,该模型可以预测连续价值的股票价格。
这是一个的例子数据挖掘领域称为预测模型。
我们可以使用回归建模,尽管在许多领域的研究者开发了各种各样的技术来预测时间吗系列。
(g)监测病人的心率异常。
是的。
我们可以建立一个模型,心脏的正常行为率和不同寻常的心行为发生时发出警报。
这将涉及到数据挖掘的区域称为异常检测。
这也可以被认为是一个分类问题如果我们有正常和异常的心行为的例子。
(h)监测地震活动的地震波。
是的。
在本例中,我们将构建一个不同类型的模型地震波与地震相关的活动和行为提高警报当其中一个不同类型的地震活动被观察到。
这是数据挖掘领域的一个例子被称为分类。
(i)提取声波的频率。
不。
这是信号处理。
2.假设你被录用,作为一个互联网数据挖掘咨询顾问搜索引擎公司。
描述数据挖掘可以帮助公司通过给具体的例子如何技术,如聚类,分类、关联规则挖掘和异常检测可以应用。
答:以下是可能的答案的例子。
•聚类可以把结果与类似的主题用户在一个更简洁的形式,例如通过报告集群中的十大最频繁的词语。
•分类可以将结果分配给预定义的类别等“体育”、“政治”,等等。
第一章6.1 数据特征化是目标类数据的一般特性或特征的汇总。
(1)岁、有工5040—元以上的顾客特征的汇总描述是:年龄在例如,在某商店花费1000 作和很好的信誉等级。
数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比)(2 较。
由可与低平均分数的学生的一般特点进行比较。
例如,高平均分数的学生的一般特点,%的学生是大四的计算机科学专业75此产生的可能是一个相当普遍的描述,如平均分高达的学生则不是。
的学生,而平均分低于65% )关联和相关分析是指在给定的频繁项集中寻找相关联的规则。
(3”X,)=>拥有(X 例如,一个数据挖掘系统可能会发现这样的规则:专业(,“计算机科学”是一个变量,代表一个学生,该规,其中Xconfidence = 98%]%,个人电脑“)[support= 12的置信度或可信性表示,如果一个学生是属于计算机科学专业的,则拥有个人则表明,98%显示属于计算机科学专的支持度意味着所研究的所有事务的12%98%。
12%电脑的可能性是业的学生都会拥有个人电脑。
(4)分类和预测的不同之处在于前者是构建了一个模型(或函数),描述和区分数据类或概念,而后者则建立了一个模型来预测一些丢失或不可用的数据,而且往往是数值,数据集的预测。
它们的相似之处是它们都是为预测工具:分类是用于预测的数据和预测对象的类标签,预测通常用于预测缺失值的数值数据。
例如:某银行需要根据顾客的基本特征将顾客的信誉度区分为优良中差几个类别,此时用到的则是分类;当研究某只股票的价格走势时,会根据股票的历史价格来预测股票的未来价格,此时用到的则是预测。
(5)聚类分析数据对象是根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类和分组。
聚类还便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。
例如:世界上有很多种鸟,我们可以根据鸟之间的相似性,聚集成n类,其中n可以认为规定。
数据挖掘概念与技术(原书第3版)第三章课后习题及解答3.7习题3.1数据质量可以从多方面评估,包括准确性、完整性和一致性问题。
对于以上每个问题,讨论数据质量的评估如何依赖于数据的应用目的,给出例子。
提出数据质量的两个其他尺度。
答:数据的质量依赖于数据的应用。
准确性和完整性:如对于顾客的地址信息数据,有部分缺失或错误,对于市场分析部门,这部分数据有80%是可以用的,就是质量比较好的数据,而对于需要一家家拜访的销售而言,有错误地址的数据,质量就很差了。
一致性:在不涉及多个数据库的数据时,商品的编码是否一致并不影响数据的质量,但涉及多个数据库时,就会影响。
数据质量的另外三个尺度是时效性,可解释性,可信性。
3.2在现实世界的数据中,某些属性上缺失值得到元组是比较常见的。
讨论处理这一问题的方法。
答:对于有缺失值的元组,当前有6种处理的方法:(1)忽略元组:当缺少类标号时通常这么做(假定挖掘任务涉及分类)。
除非元组有多个属性缺少值,否则该方法不是很有效。
当每个属性缺失值的百分比变化很大时,它的性能特别差。
采用忽略元组,你不能使用该元组的剩余属性值。
这些数据可能对手头的任务是有利的。
(2)人工填写缺失值:一般来说,该方法很费时,并且当数据集很大、缺失值很多时,该方法可能行不通。
(3)使用一个全局常量填充缺失值:将缺失的属性值用同一个常量(如“u nknown”或-)替换。
如果缺失值都用“u nknown”替换,则挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值——“u nknown”。
因此,尽管该方法简单,但是并不十分可靠。
(4)使用属性的中心度量(如均值或中位数)填充缺失值:第2章讨论了中心趋势度量,它们指示数据分布的“中间”值。
对于正常的(对称的)数据分布,可以使用均值,而倾斜分布的数据则应使用中位数。
(5)使用与给定元组属同一类的所有样本的属性均值或中位数(6)使用最可能的值填充缺水值:可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。
3.3在习题2.2中,属性age包括如下值(以递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.(a)使用深度为3的箱,用箱均值光滑以上的数据。
说明你的步骤,讨论这种技术对给定数据的效果。
答:首先将排好序的age数据划分到大小为3的等频的箱中,如下:13,15,16;16,19,20;20,21,22;22,25,25;25,25,30;33,33,35;35,35,35;36,40,45;46,52,70.其次用箱均值光滑数据:13,15,16;16,19,20;20,21,22;22,25,25;25,25,30;33,33,35;35,35,35;36,40,45;46,52,70.14.7,14.7,14.7;18.3,18.3,18.3;21,21,21;24,24,24;26.7,26.7,26.7;33.7,33.7,33.7;35,35,35;40.3,40.3,40.3;56,56,56箱均值光滑技术确实使给定的数据光滑了。
(b)如何确定该数据中的离群点?答:可以用聚类来检测离群点。
聚类将类似的值组织成群或“簇”,直观的,落在簇之外的值被视为离群点。
(c)还有什么其他方法来光滑数据?答:还可以用回归来光滑数据。
3.4讨论数据集成需要考虑的问题。
答:1.实体识别问题;2.冗余和相关分析;3.元组重复;4.数据值冲突的检测与处理。
3.5如下规范化方法的值域是什么?(a)最小-最大规范化(b)z分数规范化(c)z分数规范化,使用均值绝对偏差而不是标准差(d)小数定标规范化答:(a)最小-最大规范化:[指定的最小,最大值](b)z分数规范化:(-∞,+∞)(c)z分数规范化,使用均值绝对偏差而不是标准差:(-∞,+∞)(d)小数定标规范化:(-1,1)3.6使用如下方法规范化如下数据组:200,300,400,600,1000(a)另min=0,max=1,最小-最大规范化(b)z分数规范化(c)z分数规范化,使用均值绝对偏差而不是标准差(d)小数定标规范化答:(a)另min=0,max=1,最小-最大规范化200变为0300变为(300-200)/(1000-200)*(1-0)+0=0.125400变为(400-200)/(1000-200)*(1-0)+0=0.25600变为(600-200)/(1000-200)*(1-0)+0=0.51000变为(1000-200)/(1000-200)*(1-0)+0=1规范化后的数据组为:0,0.125,0.25,0.5,1(b)z分数规范化求得数据组均值为500,标准差为316.2200变为-0.95300变为-0.63400变为-0.32600变为0.321000变为1.58规范化后的数据组为:-0.95,-0.63,-0.32,0.32,1.58(c)z分数规范化,使用均值绝对偏差而不是标准差求得数据组均值为500,均值绝对差为240200变为-1.25300变为-0.83400变为-0.42600变为0.421000变为2.08规范化后的数据组为:-1.25,-0.83,-0.42,0.42,2.08(d)小数定标规范化0.02,0.03,0.04,0.06,0.13.7使用习题3.3中给出的age数据,回答以下问题:(a)使用最小-最大规范化将age值35变换到[0.0,1.0]区间(b)使用z分数规范化变换age值35,其中age的标准差为12.94岁(c)使用小数定标规范化变换age值35(d)指出对于给定的数据,你愿意使用哪种方法。
陈述你的理由。
答:(a)(35-13)/(70-13)*(1-0)+0=0.39(b)(35-29.96)/12.94=0.39(c)0.35(d)对于给定的数据,我愿意使用小数定标规范化,最简单3.8使用习题2.4中给出的age和%fat数据,回答如下问题:(a)基于z分数规范化,规范化这两个属性(b)计算相关系数(pearson矩阵系数)。
这两个变量是正相关还是负相关?计算他们的协方差。
答:这两个变量是正相关协方差cov(A,B)=100.023.9假设12个销售记录价格已经排序,如下所示:5,10,11,13,15,35,50,55,72,92,204,215使用如下方法使它们划分成三个箱(a)等频(等深)划分(b)等宽划分(c)聚类答:(a)箱1: 5,10,11,13箱2: 15,35,50,55箱3: 72,92,204,215(b)箱1: 5,10,11,13,15,35,50,55箱2: 72,92箱3: 204,215(c)使用k-means聚类,聚为三类箱1: 5,10,11,13,15,35箱2: 50,55,72,92箱3: 204,2153.10使用流程图概述如下属性子集选择过程:(a)逐步向前选择(b)逐步向后删除(c)结合逐步向前选择和逐步向后删除3.11使用习题3.3中给出的age数据(a)画一个宽度为10的等宽的直方图(b)简要描述如下每种抽样技术的例子:SRSWOR,SRSWR,簇抽样,分层抽样。
使用大小为5的样本以及层“young”、“middle_aged”和“senior”答:(a)略。
横轴为age,纵轴为频次(b)SRSWOR:无放回简单随机抽样,从age中抽取5个样本,每次抽取一个,不放回age中SRSWR:有放回简单随机抽样,从age中抽取5个样本,每次抽取一个,放回age中簇抽样:用无放回简单随机抽样将age数据分为几个不相交的簇。
分层抽样:将age数据对年龄层进行分层,分为“young”、“middle_aged”和“senior”,对每层数据,分别随机抽取2,2,1个3.12ChiMerge[Ker92]是监督的、自底向上的(即基于合并的)数据离散化方法。
它依赖于卡方分析:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止标准。
(a)简略描述ChiMerge如何工作(b)取鸢尾花数据集作为待离散化的数据集合,鸢尾花数据集可以从UCI机器学习数据库得到。
使用ChiMerge方法,对四个数值属性分别进行离散化。
(令停止条件为:max-interval=6)。
你需要写一个小程序,以避免麻烦的数值计算。
提交你的简要分析和检验结果:分裂点、最终的区间以及源程序文档。
答:3.13对如下问题,使用伪代码或你喜欢用的程序设计语言,给出一个算法:(a)对于标称数据,基于给定模式中属性的不同值的个数,自动产生概念分层(b)对于数值数据,基于等宽划分规则,自动产生概念分层(c)对于数值数据,基于等频划分规则,自动产生概念分层答:3.14数据库系统中鲁棒的数据加载提出了一个挑战,因为输入数据常常是脏的。
在许多情况下,数据记录可能缺少多个值,某些记录可能被污染(即某些数据值不在期望的值域内或具有不同的类型)。
设计一种自动数据清理和加载算法,使得有错误的数据被标记,被污染的数据在数据加载时不会错误地插入到数据库中。
答:。