数据挖掘 主题:第五章作业
- 格式:docx
- 大小:430.75 KB
- 文档页数:12
《数据挖掘》作业第一章引言一、填空题(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习(4)在万维网(WWW)上应用的数据挖掘技术常被称为:WEB挖掘(5)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据二、单选题(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:(B )A、所涉及的算法的复杂性;B、所涉及的数据量;C、计算结果的表现形式;D、是否使用了人工智能技术(2)孤立点挖掘适用于下列哪种场合?(D )A、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测(3)下列几种数据挖掘功能中,( D )被广泛的应用于股票价格走势分析A. 关联分析B.分类和预测C.聚类分析D. 演变分析(4)下面的数据挖掘的任务中,( B )将决定所使用的数据挖掘功能A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示(5)下列几种数据挖掘功能中,(A )被广泛的用于购物篮分析A、关联分析B、分类和预测C、聚类分析D、演变分析(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是( B )A.关联分析B.分类和预测C. 演变分析D. 概念描述(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是( C )A.关联分析B.分类和预测C.聚类分析D. 孤立点分析E. 演变分析(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( E )A.关联分析B.分类和预测C. 孤立点分析D. 演变分析E. 概念描述三、简答题(1)什么是数据挖掘?答:数据挖掘是指从大量数据中提取或“挖掘”知识。
(完整版)数据挖掘概念课后习题答案第 1 章1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。
使⽤你熟悉的现实⽣活的数据库,给出每种数据挖掘功能的例⼦。
特征化是⼀个⽬标类数据的⼀般特性或特性的汇总。
例如,学⽣的特征可被提出,形成所有⼤学的计算机科学专业⼀年级学⽣的轮廓,这些特征包括作为⼀种⾼的年级平均成绩(GPA:Grade point a ve r s ge) 的信息,还有所修的课程的最⼤数量。
区分是将⽬标类数据对象的⼀般特性与⼀个或多个对⽐类对象的⼀般特性进⾏⽐较。
例如,具有⾼GPA 的学⽣的⼀般特性可被⽤来与具有低GPA 的⼀般特性⽐较。
最终的描述可能是学⽣的⼀个⼀般可⽐较的轮廓,就像具有⾼GPA 的学⽣的75%是四年级计算机科学专业的学⽣,⽽具有低GPA 的学⽣的65%不是。
关联是指发现关联规则,这些规则表⽰⼀起频繁发⽣在给定数据集的特征值的条件。
例如,⼀个数据挖掘系统可能发现的关联规则为:m a j or(X,“c omput i ng s c i e nc e”) ?owns(X, “pe r s ona l c omput e r”)[s uppor t=12%,c on f i d e nc e=98%]其中,X 是⼀个表⽰学⽣的变量。
这个规则指出正在学习的学⽣,12%(⽀持度)主修计算机科学并且拥有⼀台。
个⼈计算机。
这个组⼀个学⽣拥有⼀台个⼈电脑的概率是98%(置信度,或确定度)分类与预测不同,因为前者的作⽤是构造⼀系列能描述和区分数据类型或概念的模型(或,⽽后者是建⽴⼀个模型去预测缺失的或⽆效的、并且通常是数字的数据值。
它们的功能)相似性是他们都是预测的⼯具:分类被⽤作预测⽬标数据的类的标签,⽽预测典型的应⽤是预测缺失的数字型数据的值。
聚类分析的数据对象不考虑已知的类标号。
对象根据最⼤花蕾内部的相似性、最⼩化类之间的相似性的原则进⾏聚类或分组。
形成的每⼀簇可以被看作⼀个对象类。
第五次作业Weihua Wang 1、假设数据挖掘的任务是将如下八个点聚类为三个类.A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9)距离函数为欧几里得函数.假设初始我们选择A1,B1,C1为每个聚类的中心,用K-means 方法给出:a)在第一次循环后的三个聚类中心b)最后的三个簇解:首先计算A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) A1(2,10) 0 5 8.49 3.61 7.08 7.21 8.06 2.24 B1(5,8) 3.61 4.24 5 0 3.61 4.12 7.21 1.41 C1(1,2) 8.06 3.16 7.28 7.21 6.71 5.36 0 7.62由上表可得,各点的归属簇为:A1:A1,B1:A3,B1,B2,B3,C2C1:A2,C1第一次循环后三个聚类中心为First1:(2,10)First2:((8+5+7+6+4)/5,(4+8+5+4+9)/5)=(6,6)First3:((2+1)/2,(5+2)/2)=(1.5,3.5)继续计算各点到簇中心的距离A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) F1(2,10) 0 5 8.49 3.61 7.08 7.21 8.06 2.24 F2(6,6) 5.66 4.12 2.83 2.24 1.41 2 6.40 3.61 F3(1.5,3.5) 6.52 1.58 6.52 5.70 5.70 4.53 1.58 6.04由上表可得,各点的归属簇为:F1:A1,C2F2:A3,B1,B2,B3F3:A2,C1Second1:((2+4)/2,(10+9)/2)=(3,9.5)Second2:((8+5+7+6)/4,(4+8+5+4)/4)=(6.5,5.25)Second3:((2+1)/2,(5+2)/2)=(1.5,3.5)继续计算各点到簇中心的距离A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) S1(3,9.5) 1.12 4.61 7.43 2.50 6.02 6.26 7.76 1.12 S2(6.5,5.25) 6.54 4.51 1.96 3.13 0.56 1.35 6.39 4.51 S3(1.5,3.5) 6.52 1.58 6.52 5.70 5.70 4.53 1.58 6.04由上表可知,各点的归属簇为:S1:A1,B1,C2S2:A3,B2,B3S3:A2,C1Third1:((2+5+4)/3,(10+8+9)/3)=(3.67,9)Third2:((8+7+6)/3,(4+5+4)/3)=(7,4.33)Third3: ((2+1)/2,(5+2)/2)=(1.5,3.5)A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) T1(3.67,9) 1.95 4.33 6.61 1.66 5.20 5.52 7.49 0.33 T2(7,4.33)7.56 5.04 1.05 4.18 0.67 1.05 6.44 5.55 T3(1.5,3.5) 6.52 1.58 6.52 5.70 5.70 4.53 1.58 6.04由上表可知,各点的归属簇为:T1:A1,B1,C2T2:A3,B2,B3T3:A2,C1各点的归属簇至此已不发生变化,故最后的三个簇为:Final1:A1,B1,C2Final2:A3,B2,B3Final3:A2,C12、进行单链和全链层次聚类,绘制树状图显示结果,树状图应当清楚地显示合并的次序。
数据挖掘——探索数据的奥秘智慧树知到课后章节答案2023年下青岛工学院青岛工学院第一章测试1.数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
()A:对 B:错答案:对2.下面哪些是时空数据的应用()。
A:气象学家使用人造卫星和雷达观察飓风 B:从多媒体数据库中发现有趣的模式 C:机动车辆管理者把GPS安装在汽车上,以便更好地监管和引导车辆 D:动物学家把遥感设备安装在野生动物身上,以便分析生态行为答案:气象学家使用人造卫星和雷达观察飓风;机动车辆管理者把GPS安装在汽车上,以便更好地监管和引导车辆;动物学家把遥感设备安装在野生动物身上,以便分析生态行为3.数据挖掘生命周期的数据理解阶段,起于原始数据收集,止于熟悉数据、识别数据质量问题。
()A:对 B:错答案:错4.以下关于数据挖掘规律的描述中,不正确的是()。
A:业务知识是数据挖掘过程每一步的中心 B:对所有领域的每个数据挖掘问题,总有模式可循。
C:数据准备超过数据挖掘过程的3/4 D:给定应用的正确模型只能通过实验发现答案:数据准备超过数据挖掘过程的3/45.关于数据挖掘生命周期的部署阶段,说法正确的是()。
A:部署阶段要完成模型的创建 B:执行部署步骤的通常是数据分析师 C:部署通常是数据挖掘项目的终点 D:建立模型的目的不能仅仅是增加对数据的了解答案:部署阶段要完成模型的创建6.“8,000”和“10,000”表示:()。
A:数据 B:信息 C:知识 D:智慧答案:数据7.“8,000米是飞机飞行最大高度”与“10,000米的高山”表示:()。
A:数据 B:知识 C:信息 D:智慧答案:信息8.“飞机无法飞过高山”表示:()。
A:知识 B:智慧 C:数据 D:信息答案:知识9.数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。
本科生实验报告
实验课程数据挖掘
学院名称信息科学与技术学院
专业名称计算机科学与技术
学生姓名代星
学生学号201413030317
指导教师
实验地点
实验成绩
二〇一六年11月二〇一六年11月
第五章作业题一
第1章实验内容
在UCI上下载一个用于分类的数据集,使用C4.5算法,设置不同的参数建立两个有指导的学习,记录检验集错误率。
使用式(5,9)确定两个模型的检验集错误率是否存在显著差异。
第2章实验目的
对于一个用于分类的数据集,使用C4.5算法,设置不同的参数建立两个有指导的学习,记录检验集错误率。
使用式(5,9)确定两个模型的检验集错误率是否存在显著差异,从而学会评估有指导的学习模型。
第3章算法思想
选择具有最大增益率的属性作为分支节点来分类实例数据。
第4章实验过程
4.1数据准备
数据集名为IRIS.xls,选择所有150个实例和5个属性,其中4个属性作为输入属性,第5个属性Iris_type作为输出属性,生成.csv文件,加载到Weka。
4.2 建立模型
使用Weka进行有指导的学习训练,选择C4.5数据挖掘算法,在Weka中名为J48,将test options 设置为 Percentage split ,使用百分比72%,选择Iris_type 作为输出属性。
单击Moreoptions按钮,打开Classifier evaluation options 对话框,在Output predictions点击choose选中PlainText。
表示将在输入结果中显示作为检验集实力的计算输出。
单击Start按钮,执行程序。
查看混淆矩
阵,计算错误率为9.5%。
通过分析混淆矩阵,重新设置参数使用百分比66%,重复上述步骤,执行程序,计算错误率为3.9%,较之前有了些许提升。
接下来通过假设检验来比较两个用同样训练集创建的有指导的学习模型。
公式如上图所示。
其中E1为模型M1的检验集分类错误率;E2为模型M2的检验集分类错误率;q为两个模型分类错误率的平均值,即q=(E1+E2)/2;n1和n2分别是检验集A和B的实例个数;q(1-q)是用E1和E2计算出来的方差值。
代入数据可得最后的Z=0.057,如果Z值大于等于1.96,就有95%的把握认为M1和M2的检验集性能差别是显著的。
此时算出来的是0.057,就说明两个聚类算法的性能差别不是显著的。
第5章实验结果
1、修改参数前:C4.5数据挖掘算法:
2、修改参数后:C4.5数据挖掘算法:
第6章结果分析
通过观察混淆矩阵,并记录检验集错误率,从而修改参数使错误率减小,虽然通过计算结果改进的不明显,但是通过实验掌握了学习方法。
第7章心得体会
通过这次试验,在以前的基础上更加深入的了解了C4.5决策树算法以及Weka 软件的使用。
第五章作业题二
第1章实验内容
使用心脏病人数据集(CardiologyNumerical)的前150个实例作为训练集实例,剩下的153个实例作为检验集实例,选择两种或多种数据挖掘技术建立有指导的学习模型,利用混淆矩阵和检验集错误率评估所建模型,并使用假设检验确定这些模型之间是否存在显著性差异。
第2章实验目的
选择两种或多种数据挖掘技术建立有指导的学习模型,利用混淆矩阵和检验集错误率评估所建模型,并使用假设检验确定这些模型之间是否存在显著性差异,从而学会评估有指导的学习模型。
第3章算法思想
一、k-means 算法:
(1)随机选择一个K值,用以确定簇的总数。
(2)在数据集中任意选择K个实例,将它们作为初始的簇中心。
(3)计算K个簇中心与其他剩余实例简单欧氏距离,用这个距离作为实例之间相似性的度量,将与某个簇相似度高的实例划分到该簇中,成为其成员之一。
(4)使用每个簇中的实例来计算该簇新的簇中心。
(5)如果计算得到新的簇中心等于上次迭代的簇中心,终止算法过程。
否则用新的簇中心作为簇中心并重复步骤(3)~(5)。
二、最大期望(EM)算法:是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variable)。
最大期望经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。
最大期望算法经过两个步骤交替进行计算:第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在 E 步上求得的最大似然值来计算参数的值。
M 步上找到的参数估计值被用于下一个 E 步计算中,这个过程不断交替进行。
第4章实验过程
4.1数据准备
心脏病人数据集(CardiologyNumerical)的前150个实例作为训练集实例,剩下的153个实例作为检验集实例,生成.csv文件,加载到Weka。
4.2 建立模型
(1)加载数据集,选择Instance列,单击Remove按钮,使该属性不参加训练。
切换到Cluster选项卡,单击Choose按钮,打开算法选择对话框,选择SimpleKMeans算法。
(2)单击Choose按钮右方的文本框,打开参数设置对话框,查看参数,并保持默认。
注意将K值(numCluster)设置为2,距离函数选择欧氏距离。
(3)单击Start按钮,查看结果。
(4)结果中将151个实例分为0和1两个参数分别由91个和60个实例。
使用Kmeans算法最终分类为0的有84个,分类为1的有68个。
与原始的数据集中
的分类有一定的偏差。
计算得分类错误率为5.6%。
(5)单击Choose按钮,打开算法选择对话框,使用EM算法进行实验,结果中分类为0的有74个,分类为1的有78个。
与原始数据集中的分类有一定差别,分类错误率为4.9%。
(6)
接下来通过假设检验来比较两个用同样训练集创建的有指导的学习模型。
公式如上图所示。
其中E1为模型M1的检验集分类错误率;E2为模型M2的检验集分类错误率;q为两个模型分类错误率的平均值,即q=(E1+E2)/2;n1和n2分别是检验集A和B的实例个数;q(1-q)是用E1和E2计算出来的方差值。
代入数据可得最后的Z=1.076,如果Z值大于等于1.96,就有95%的把握认为M1和M2的检验集性能差别是显著的。
此时算出来的是1.076,就说明两个聚类算法的性能差别是不显著的。
第5章实验结果
SimpleKMeans算法:
EM算法:
第6章结果分析
结果中将151个实例分为0和1两个参数分别由91个和60个实例。
使用Kmeans 算法最终分类为0的有84个,分类为1的有68个。
与原始的数据集中的分类有一定的偏差。
计算得分类错误率为5.6%。
使用EM算法进行实验,结果中分类为0的有74个,分类为1的有78个。
与原始数据集中的分类有一定差别,分类错误率为4.9%。
第7章心得体会
从这次的作业中更加深入的了解了Kmeans算法以及Weka软件的使用,还学习了新的算法。
第五章作业题三
第1章实验内容
使用MS Excel的CORREL函数和散点图确定心脏病人数据集(CardiologyNumerical)的maximun heart rate和peak属性之间的关系。
第2章实验目的
学会使用MS Excel的CORREL函数和散点图确定心脏病人数据集(CardiologyNumerical)的maximun heart rate和peak属性之间的关系。
第3章算法思想
函数作用:返回单元格区域 array1 和 array2 之间的相关系数。
使用相关系数可以确定两种属性之间的关系。
第4章实验过程
4.1数据准备
在Excel中加载心脏病人数据集(CardiologyNumerical)
4.2 建立模型
4.2.1 CORREL函数
(1)在Excel中加载心脏病人数据集(CardiologyNumerical)。
(2)在一个空白单元格中输入=CORREL(H2:H304,J2:J304),单机确定按钮。
得出的结果为-0.34419,说明maximun heart rate和peak属性具有一定的但较小的负相关性。
4.2.2 散点图
(1)在Excel中加载心脏病人数据集(CardiologyNumerical)。
(2)选中maximun heart rate和peak列,打开“插入”菜单,单机“散点图”按钮,插入以这两个属性为x坐标和y坐标的散点图,结果如下。
选中maximun heart rate和peak列,打开“插入”菜单,单机“散点图”按钮,插入以这两个属性为x坐标和y坐标的散点图。
第5章实验结果
1.由函数计算得出的结果为-0.34419,说明maximun heart rate和peak属性具有一定的但较小的负相关性。
2.散点图:
第6章结果分析
1.由函数计算得出的结果为-0.34419,说明maximun heart rate和peak属性具有一定的但较小的负相关性。
2.散点图中的点没有明显的线性分布,说明这两个属性的相关性很小。
第7章心得体会
通过这次试验,学会使用MS Excel的CORREL函数和散点图确定相关度。