数据挖掘 主题:第五章作业
- 格式:docx
- 大小:430.75 KB
- 文档页数:12
《数据挖掘》作业第一章引言一、填空题(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习(4)在万维网(WWW)上应用的数据挖掘技术常被称为:WEB挖掘(5)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据二、单选题(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:(B )A、所涉及的算法的复杂性;B、所涉及的数据量;C、计算结果的表现形式;D、是否使用了人工智能技术(2)孤立点挖掘适用于下列哪种场合?(D )A、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测(3)下列几种数据挖掘功能中,( D )被广泛的应用于股票价格走势分析A. 关联分析B.分类和预测C.聚类分析D. 演变分析(4)下面的数据挖掘的任务中,( B )将决定所使用的数据挖掘功能A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示(5)下列几种数据挖掘功能中,(A )被广泛的用于购物篮分析A、关联分析B、分类和预测C、聚类分析D、演变分析(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是( B )A.关联分析B.分类和预测C. 演变分析D. 概念描述(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是( C )A.关联分析B.分类和预测C.聚类分析D. 孤立点分析E. 演变分析(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( E )A.关联分析B.分类和预测C. 孤立点分析D. 演变分析E. 概念描述三、简答题(1)什么是数据挖掘?答:数据挖掘是指从大量数据中提取或“挖掘”知识。
(完整版)数据挖掘概念课后习题答案第 1 章1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。
使⽤你熟悉的现实⽣活的数据库,给出每种数据挖掘功能的例⼦。
特征化是⼀个⽬标类数据的⼀般特性或特性的汇总。
例如,学⽣的特征可被提出,形成所有⼤学的计算机科学专业⼀年级学⽣的轮廓,这些特征包括作为⼀种⾼的年级平均成绩(GPA:Grade point a ve r s ge) 的信息,还有所修的课程的最⼤数量。
区分是将⽬标类数据对象的⼀般特性与⼀个或多个对⽐类对象的⼀般特性进⾏⽐较。
例如,具有⾼GPA 的学⽣的⼀般特性可被⽤来与具有低GPA 的⼀般特性⽐较。
最终的描述可能是学⽣的⼀个⼀般可⽐较的轮廓,就像具有⾼GPA 的学⽣的75%是四年级计算机科学专业的学⽣,⽽具有低GPA 的学⽣的65%不是。
关联是指发现关联规则,这些规则表⽰⼀起频繁发⽣在给定数据集的特征值的条件。
例如,⼀个数据挖掘系统可能发现的关联规则为:m a j or(X,“c omput i ng s c i e nc e”) ?owns(X, “pe r s ona l c omput e r”)[s uppor t=12%,c on f i d e nc e=98%]其中,X 是⼀个表⽰学⽣的变量。
这个规则指出正在学习的学⽣,12%(⽀持度)主修计算机科学并且拥有⼀台。
个⼈计算机。
这个组⼀个学⽣拥有⼀台个⼈电脑的概率是98%(置信度,或确定度)分类与预测不同,因为前者的作⽤是构造⼀系列能描述和区分数据类型或概念的模型(或,⽽后者是建⽴⼀个模型去预测缺失的或⽆效的、并且通常是数字的数据值。
它们的功能)相似性是他们都是预测的⼯具:分类被⽤作预测⽬标数据的类的标签,⽽预测典型的应⽤是预测缺失的数字型数据的值。
聚类分析的数据对象不考虑已知的类标号。
对象根据最⼤花蕾内部的相似性、最⼩化类之间的相似性的原则进⾏聚类或分组。
形成的每⼀簇可以被看作⼀个对象类。
第五次作业Weihua Wang 1、假设数据挖掘的任务是将如下八个点聚类为三个类.A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9)距离函数为欧几里得函数.假设初始我们选择A1,B1,C1为每个聚类的中心,用K-means 方法给出:a)在第一次循环后的三个聚类中心b)最后的三个簇解:首先计算A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) A1(2,10) 0 5 8.49 3.61 7.08 7.21 8.06 2.24 B1(5,8) 3.61 4.24 5 0 3.61 4.12 7.21 1.41 C1(1,2) 8.06 3.16 7.28 7.21 6.71 5.36 0 7.62由上表可得,各点的归属簇为:A1:A1,B1:A3,B1,B2,B3,C2C1:A2,C1第一次循环后三个聚类中心为First1:(2,10)First2:((8+5+7+6+4)/5,(4+8+5+4+9)/5)=(6,6)First3:((2+1)/2,(5+2)/2)=(1.5,3.5)继续计算各点到簇中心的距离A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) F1(2,10) 0 5 8.49 3.61 7.08 7.21 8.06 2.24 F2(6,6) 5.66 4.12 2.83 2.24 1.41 2 6.40 3.61 F3(1.5,3.5) 6.52 1.58 6.52 5.70 5.70 4.53 1.58 6.04由上表可得,各点的归属簇为:F1:A1,C2F2:A3,B1,B2,B3F3:A2,C1Second1:((2+4)/2,(10+9)/2)=(3,9.5)Second2:((8+5+7+6)/4,(4+8+5+4)/4)=(6.5,5.25)Second3:((2+1)/2,(5+2)/2)=(1.5,3.5)继续计算各点到簇中心的距离A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) S1(3,9.5) 1.12 4.61 7.43 2.50 6.02 6.26 7.76 1.12 S2(6.5,5.25) 6.54 4.51 1.96 3.13 0.56 1.35 6.39 4.51 S3(1.5,3.5) 6.52 1.58 6.52 5.70 5.70 4.53 1.58 6.04由上表可知,各点的归属簇为:S1:A1,B1,C2S2:A3,B2,B3S3:A2,C1Third1:((2+5+4)/3,(10+8+9)/3)=(3.67,9)Third2:((8+7+6)/3,(4+5+4)/3)=(7,4.33)Third3: ((2+1)/2,(5+2)/2)=(1.5,3.5)A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) T1(3.67,9) 1.95 4.33 6.61 1.66 5.20 5.52 7.49 0.33 T2(7,4.33)7.56 5.04 1.05 4.18 0.67 1.05 6.44 5.55 T3(1.5,3.5) 6.52 1.58 6.52 5.70 5.70 4.53 1.58 6.04由上表可知,各点的归属簇为:T1:A1,B1,C2T2:A3,B2,B3T3:A2,C1各点的归属簇至此已不发生变化,故最后的三个簇为:Final1:A1,B1,C2Final2:A3,B2,B3Final3:A2,C12、进行单链和全链层次聚类,绘制树状图显示结果,树状图应当清楚地显示合并的次序。
数据挖掘——探索数据的奥秘智慧树知到课后章节答案2023年下青岛工学院青岛工学院第一章测试1.数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
()A:对 B:错答案:对2.下面哪些是时空数据的应用()。
A:气象学家使用人造卫星和雷达观察飓风 B:从多媒体数据库中发现有趣的模式 C:机动车辆管理者把GPS安装在汽车上,以便更好地监管和引导车辆 D:动物学家把遥感设备安装在野生动物身上,以便分析生态行为答案:气象学家使用人造卫星和雷达观察飓风;机动车辆管理者把GPS安装在汽车上,以便更好地监管和引导车辆;动物学家把遥感设备安装在野生动物身上,以便分析生态行为3.数据挖掘生命周期的数据理解阶段,起于原始数据收集,止于熟悉数据、识别数据质量问题。
()A:对 B:错答案:错4.以下关于数据挖掘规律的描述中,不正确的是()。
A:业务知识是数据挖掘过程每一步的中心 B:对所有领域的每个数据挖掘问题,总有模式可循。
C:数据准备超过数据挖掘过程的3/4 D:给定应用的正确模型只能通过实验发现答案:数据准备超过数据挖掘过程的3/45.关于数据挖掘生命周期的部署阶段,说法正确的是()。
A:部署阶段要完成模型的创建 B:执行部署步骤的通常是数据分析师 C:部署通常是数据挖掘项目的终点 D:建立模型的目的不能仅仅是增加对数据的了解答案:部署阶段要完成模型的创建6.“8,000”和“10,000”表示:()。
A:数据 B:信息 C:知识 D:智慧答案:数据7.“8,000米是飞机飞行最大高度”与“10,000米的高山”表示:()。
A:数据 B:知识 C:信息 D:智慧答案:信息8.“飞机无法飞过高山”表示:()。
A:知识 B:智慧 C:数据 D:信息答案:知识9.数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。
数据仓库与数据挖掘智慧树知到课后章节答案2023年下济南大学济南大学绪论单元测试1.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。
()A:错 B:对答案:对第一章测试1.图挖掘技术在社会网络分析中扮演了重要的角色。
()A:对 B:错答案:对2.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。
( )A:对 B:错答案:对3.DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。
()A:对 B:错答案:对4.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( )A:建模描述B:根据内容检索C:寻找模式和规则D:预测建模答案:预测建模5.以下哪些学科和数据挖掘有密切联系?( )A:计算机组成原理B:矿产挖掘C:统计D:人工智能答案:统计;人工智能第二章测试1.下面哪个不属于数据的属性类型:( )A:区间B:序数C:相异D:标称答案:相异2.在上题中,属于定量的属性类型是:( )A:序数B:区间C:相异D:标称答案:区间3.只有非零值才重要的二元属性被称作:( )A:计数属性B:对称属性C:离散属性D:非对称的二元属性答案:非对称的二元属性4.以下哪种方法不属于特征选择的标准方法: ( )A:嵌入B:包装C:过滤D:抽样答案:抽样5.离群点可以是合法的数据对象或者值。
()答案:对第三章测试1.下面哪些属于可视化高维数据技术 ( )A:星形坐标B:平行坐标系C:矩阵D:Chernoff脸E:散布图答案:星形坐标;平行坐标系;矩阵;Chernoff脸2.下面哪种不属于数据预处理的方法? ( )A:聚集B:离散化C:变量代换D:估计遗漏值答案:估计遗漏值3.联机分析处理包括以下哪些基本分析功能? ( )A:转轴B:聚类D:分类E:切片答案:转轴;切块;切片4.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。
数据挖掘习题参考答案数据挖掘习题参考答案数据挖掘作为一门热门的学科,已经在各个领域得到广泛应用。
它的目标是从大量的数据中发现有用的信息,并且用这些信息来解决实际问题。
为了帮助读者更好地理解数据挖掘的概念和技术,本文将提供一些数据挖掘习题的参考答案,希望能够对读者有所帮助。
习题一:什么是数据挖掘?它有哪些应用领域?答案:数据挖掘是指从大量的数据中发现有用的信息,并且用这些信息来解决实际问题的过程。
它可以帮助我们发现数据中的模式、规律和趋势,从而提供决策支持和预测能力。
数据挖掘的应用领域非常广泛,包括但不限于市场营销、金融风险管理、医疗诊断、社交网络分析等。
习题二:数据挖掘的主要任务有哪些?答案:数据挖掘的主要任务包括分类、聚类、关联规则挖掘和异常检测。
分类是指根据已有的数据样本来预测新的数据样本所属的类别。
聚类是指将数据样本分成几个不同的组,使得同一组内的数据样本相似度较高,而不同组之间的相似度较低。
关联规则挖掘是指发现数据中的关联关系,例如购物篮分析中的“如果购买了商品A,则更有可能购买商品B”。
异常检测是指发现与其他样本不同的数据点,可能是潜在的异常或异常行为。
习题三:数据挖掘的过程有哪些步骤?答案:数据挖掘的过程通常包括问题定义、数据收集、数据预处理、特征选择和转换、模型选择和建立、模型评估和模型应用等步骤。
首先,我们需要明确问题的定义,确定我们需要从数据中挖掘出什么样的信息。
然后,我们收集相关的数据,并对数据进行预处理,包括数据清洗、数据集成、数据变换和数据规约等。
接下来,我们选择合适的特征,并进行特征转换,以便于模型的建立和分析。
在模型选择和建立阶段,我们选择合适的数据挖掘算法,并进行模型的训练和优化。
最后,我们评估模型的性能,并将模型应用于实际问题中。
习题四:数据挖掘中常用的算法有哪些?答案:数据挖掘中常用的算法包括决策树、朴素贝叶斯、支持向量机、神经网络、聚类算法(如K-means算法和DBSCAN算法)、关联规则挖掘算法(如Apriori算法)等。
第5章关联分析5.1 列举关联规则在不同领域中应用的实例。
5.2 给出如下几种类型的关联规则的例子,并说明它们是否是有价值的。
(a)高支持度和高置信度的规则; (b)高支持度和低置信度的规则; (c)低支持度和低置信度的规则; (d)低支持度和高置信度的规则。
5.3 数据集如表5-14所示:(a) 把每一个事务作为一个购物篮,计算项集{e}, {b, d}和{b, d, e}的支持度。
(b) 利用(a)中结果计算关联规则{b, d}→{e} 和 {e}→{b, d}的置信度。
置信度是一个对称的度量吗?(c) 把每一个用户购买的所有商品作为一个购物篮,计算项集{e}, {b, d}和{b, d, e}的支持度。
(d) 利用(b)中结果计算关联规则{b, d}→{e} 和 {e}→{b, d}的置信度。
置信度是一个对称的度量吗?5.4 关联规则是否满足传递性和对称性的性质?举例说明。
5.5 Apriori 算法使用先验性质剪枝,试讨论如下类似的性质 (a) 证明频繁项集的所有非空子集也是频繁的(b) 证明项集s 的任何非空子集s ’的支持度不小于s 的支持度(c) 给定频繁项集l 和它的子集s ,证明规则“s’→(l – s’)”的置信度不高于s →(l – s)的置信度,其中s’是s 的子集(d) Apriori 算法的一个变形是采用划分方法将数据集D 中的事务分为n 个不相交的子数据集。
证明D 中的任何一个频繁项集至少在D 的某一个子数据集中是频繁的。
5.6 考虑如下的频繁3-项集:{1, 2, 3},{1, 2, 4},{1, 2, 5},{1, 3, 4},{1, 3, 5},{2, 3, 4},{2, 3, 5},{3, 4, 5}。
(a)根据Apriori 算法的候选项集生成方法,写出利用频繁3-项集生成的所有候选4-项集。
(b)写出经过剪枝后的所有候选4-项集5.7 一个数据库有5个事务,如表5-15所示。
数据挖掘知到章节测试答案智慧树2023年最新青岛大学第一章测试1.数据挖掘就是从大量的、()数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
()。
参考答案:不完全的;随机的;模糊的;有噪声的2.互联网本身具有()的特征,这种属性特征给数据搜集、整理、研究带来了革命性的突破。
()。
参考答案:数字化;互动性3.KDD和数据挖掘可以应用在很多领域中,它们具有如下一些公共特征:()。
参考答案:数据利用非常不足;在开发知识发现系统时,领域专家对该领域的熟悉程度至关重要;最终用户专门知识缺乏;海量数据集4.大数据的特征有()。
参考答案:Velocity;Value;Variety;Volume5.从宏观上看,数据挖掘过程主要由三个部分组成,即()。
参考答案:数据挖掘;结果的解释评估;数据整理第二章测试1.不完整数据的成因有()。
参考答案:数据收集的时候就缺乏合适的值;人为/硬件/软件问题;数据收集时和数据分析时的不同考虑因素2.处理空缺值的主要方法有()。
参考答案:使用属性的平均值填补空缺值。
;忽略元组;使用与给定元组属同一类的所有样本的平均值。
;使用一个全局常量填补空缺值3.给定一个数值属性,怎样才能平滑数据,去掉噪声?()。
参考答案:回归;聚类;分箱(binning);计算机和人工检查结合4.数据集成时需解决的三个基本问题为()。
参考答案:模式集成的过程中涉及到的实体识别问题;冗余问题;数据集成过程中数值冲突的检测与处理5.常用的数据转换方法有()。
参考答案:聚集;平滑;属性构造;数据概化第三章测试1.下列哪个算法不属于层次聚类算法?()。
参考答案:K-means2.下列哪个算法属于层次聚类算法?()。
参考答案:DIANA3.下列哪个算法属于密度聚类算法?()。
参考答案:DBSCAN4.聚类分析中,通常使用()来衡量两个对象之间的相异度。
()。
参考答案:距离5.下列哪个选项不是DBSCAN算法的缺点?()。
数据挖掘作业答案数据挖掘作业题⽬+答案华理计算机专业选修课第⼆章:假定⽤于分析的数据包含属性age。
数据元组中age值如下(按递增序):13 ,15 ,16 ,16 ,19 ,20 ,20,21 ,22 ,22,25 ,25 ,25 ,25 ,30 ,33 ,33 ,35 ,35 ,35,35,36,40,45,46,52,70.分别⽤按箱平均值和边界值平滑对以上数据进⾏平滑,箱的深度为3.使⽤最⼩-最⼤规范化,将age值35转换到[0.0,1.0]区间使⽤z-Score规范化转换age值35 ,其中age的标准差为12.94年。
使⽤⼩数定标规范化转换age值35。
画⼀个宽度为10的等宽直斱图。
该数据的均值是什么?中位数是什么?该数据的众数是什么?讨论数据的峰(即双峰,三峰等)数据的中列数是什么?(粗略地)找出数据的第⼀个四分位数(Q1 )和第三个四分位数(Q3 )给出数据的五数概括画出数据的盒图第三章假定数据仓库包含三个维:time doctor和patient ;两个度量:count和charge;其中charge是医⽣对病⼈⼀次诊治的收费。
画出该数据仓库的星型模式图。
由基本⽅体[day, doctor, patient]开始,为列出2004年每位医⽣的收费总数,应当执⾏哪些OLAP操作。
如果每维有4层(包括all ),该⽴⽅体包含多少⽅体(包括基本⽅体和顶点⽅体)?第五章数据库有4个事务。
设min_sup=60%,min_conf=80%TID Itmes_boughtT100 {K,A,D,B}T200 {D,A,C,E,B}T300 {C,A,B,E}T400 {B,A,D}分别使⽤Apriori和FP-增长算法找出频繁项集。
列出所有的强关联规则(带⽀持度s和置信度c ),它们不下⾯的元规则匹配,其中,X是代表顼客的变量,itmei是表⽰项的变量(例如:A、B等)下⾯的相依表会中了超级市场的事务数据。
本科生实验报告
实验课程数据挖掘
学院名称信息科学与技术学院
专业名称计算机科学与技术
学生姓名代星
学生学号201413030317
指导教师
实验地点
实验成绩
二〇一六年11月二〇一六年11月
第五章作业题一
第1章实验内容
在UCI上下载一个用于分类的数据集,使用C4.5算法,设置不同的参数建立两个有指导的学习,记录检验集错误率。
使用式(5,9)确定两个模型的检验集错误率是否存在显著差异。
第2章实验目的
对于一个用于分类的数据集,使用C4.5算法,设置不同的参数建立两个有指导的学习,记录检验集错误率。
使用式(5,9)确定两个模型的检验集错误率是否存在显著差异,从而学会评估有指导的学习模型。
第3章算法思想
选择具有最大增益率的属性作为分支节点来分类实例数据。
第4章实验过程
4.1数据准备
数据集名为IRIS.xls,选择所有150个实例和5个属性,其中4个属性作为输入属性,第5个属性Iris_type作为输出属性,生成.csv文件,加载到Weka。
4.2 建立模型
使用Weka进行有指导的学习训练,选择C4.5数据挖掘算法,在Weka中名为J48,将test options 设置为 Percentage split ,使用百分比72%,选择Iris_type 作为输出属性。
单击Moreoptions按钮,打开Classifier evaluation options 对话框,在Output predictions点击choose选中PlainText。
表示将在输入结果中显示作为检验集实力的计算输出。
单击Start按钮,执行程序。
查看混淆矩
阵,计算错误率为9.5%。
通过分析混淆矩阵,重新设置参数使用百分比66%,重复上述步骤,执行程序,计算错误率为3.9%,较之前有了些许提升。
接下来通过假设检验来比较两个用同样训练集创建的有指导的学习模型。
公式如上图所示。
其中E1为模型M1的检验集分类错误率;E2为模型M2的检验集分类错误率;q为两个模型分类错误率的平均值,即q=(E1+E2)/2;n1和n2分别是检验集A和B的实例个数;q(1-q)是用E1和E2计算出来的方差值。
代入数据可得最后的Z=0.057,如果Z值大于等于1.96,就有95%的把握认为M1和M2的检验集性能差别是显著的。
此时算出来的是0.057,就说明两个聚类算法的性能差别不是显著的。
第5章实验结果
1、修改参数前:C4.5数据挖掘算法:
2、修改参数后:C4.5数据挖掘算法:
第6章结果分析
通过观察混淆矩阵,并记录检验集错误率,从而修改参数使错误率减小,虽然通过计算结果改进的不明显,但是通过实验掌握了学习方法。
第7章心得体会
通过这次试验,在以前的基础上更加深入的了解了C4.5决策树算法以及Weka 软件的使用。
第五章作业题二
第1章实验内容
使用心脏病人数据集(CardiologyNumerical)的前150个实例作为训练集实例,剩下的153个实例作为检验集实例,选择两种或多种数据挖掘技术建立有指导的学习模型,利用混淆矩阵和检验集错误率评估所建模型,并使用假设检验确定这些模型之间是否存在显著性差异。
第2章实验目的
选择两种或多种数据挖掘技术建立有指导的学习模型,利用混淆矩阵和检验集错误率评估所建模型,并使用假设检验确定这些模型之间是否存在显著性差异,从而学会评估有指导的学习模型。
第3章算法思想
一、k-means 算法:
(1)随机选择一个K值,用以确定簇的总数。
(2)在数据集中任意选择K个实例,将它们作为初始的簇中心。
(3)计算K个簇中心与其他剩余实例简单欧氏距离,用这个距离作为实例之间相似性的度量,将与某个簇相似度高的实例划分到该簇中,成为其成员之一。
(4)使用每个簇中的实例来计算该簇新的簇中心。
(5)如果计算得到新的簇中心等于上次迭代的簇中心,终止算法过程。
否则用新的簇中心作为簇中心并重复步骤(3)~(5)。
二、最大期望(EM)算法:是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variable)。
最大期望经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。
最大期望算法经过两个步骤交替进行计算:第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在 E 步上求得的最大似然值来计算参数的值。
M 步上找到的参数估计值被用于下一个 E 步计算中,这个过程不断交替进行。
第4章实验过程
4.1数据准备
心脏病人数据集(CardiologyNumerical)的前150个实例作为训练集实例,剩下的153个实例作为检验集实例,生成.csv文件,加载到Weka。
4.2 建立模型
(1)加载数据集,选择Instance列,单击Remove按钮,使该属性不参加训练。
切换到Cluster选项卡,单击Choose按钮,打开算法选择对话框,选择SimpleKMeans算法。
(2)单击Choose按钮右方的文本框,打开参数设置对话框,查看参数,并保持默认。
注意将K值(numCluster)设置为2,距离函数选择欧氏距离。
(3)单击Start按钮,查看结果。
(4)结果中将151个实例分为0和1两个参数分别由91个和60个实例。
使用Kmeans算法最终分类为0的有84个,分类为1的有68个。
与原始的数据集中
的分类有一定的偏差。
计算得分类错误率为5.6%。
(5)单击Choose按钮,打开算法选择对话框,使用EM算法进行实验,结果中分类为0的有74个,分类为1的有78个。
与原始数据集中的分类有一定差别,分类错误率为4.9%。
(6)
接下来通过假设检验来比较两个用同样训练集创建的有指导的学习模型。
公式如上图所示。
其中E1为模型M1的检验集分类错误率;E2为模型M2的检验集分类错误率;q为两个模型分类错误率的平均值,即q=(E1+E2)/2;n1和n2分别是检验集A和B的实例个数;q(1-q)是用E1和E2计算出来的方差值。
代入数据可得最后的Z=1.076,如果Z值大于等于1.96,就有95%的把握认为M1和M2的检验集性能差别是显著的。
此时算出来的是1.076,就说明两个聚类算法的性能差别是不显著的。
第5章实验结果
SimpleKMeans算法:
EM算法:
第6章结果分析
结果中将151个实例分为0和1两个参数分别由91个和60个实例。
使用Kmeans 算法最终分类为0的有84个,分类为1的有68个。
与原始的数据集中的分类有一定的偏差。
计算得分类错误率为5.6%。
使用EM算法进行实验,结果中分类为0的有74个,分类为1的有78个。
与原始数据集中的分类有一定差别,分类错误率为4.9%。
第7章心得体会
从这次的作业中更加深入的了解了Kmeans算法以及Weka软件的使用,还学习了新的算法。
第五章作业题三
第1章实验内容
使用MS Excel的CORREL函数和散点图确定心脏病人数据集(CardiologyNumerical)的maximun heart rate和peak属性之间的关系。
第2章实验目的
学会使用MS Excel的CORREL函数和散点图确定心脏病人数据集(CardiologyNumerical)的maximun heart rate和peak属性之间的关系。
第3章算法思想
函数作用:返回单元格区域 array1 和 array2 之间的相关系数。
使用相关系数可以确定两种属性之间的关系。
第4章实验过程
4.1数据准备
在Excel中加载心脏病人数据集(CardiologyNumerical)
4.2 建立模型
4.2.1 CORREL函数
(1)在Excel中加载心脏病人数据集(CardiologyNumerical)。
(2)在一个空白单元格中输入=CORREL(H2:H304,J2:J304),单机确定按钮。
得出的结果为-0.34419,说明maximun heart rate和peak属性具有一定的但较小的负相关性。
4.2.2 散点图
(1)在Excel中加载心脏病人数据集(CardiologyNumerical)。
(2)选中maximun heart rate和peak列,打开“插入”菜单,单机“散点图”按钮,插入以这两个属性为x坐标和y坐标的散点图,结果如下。
选中maximun heart rate和peak列,打开“插入”菜单,单机“散点图”按钮,插入以这两个属性为x坐标和y坐标的散点图。
第5章实验结果
1.由函数计算得出的结果为-0.34419,说明maximun heart rate和peak属性具有一定的但较小的负相关性。
2.散点图:
第6章结果分析
1.由函数计算得出的结果为-0.34419,说明maximun heart rate和peak属性具有一定的但较小的负相关性。
2.散点图中的点没有明显的线性分布,说明这两个属性的相关性很小。
第7章心得体会
通过这次试验,学会使用MS Excel的CORREL函数和散点图确定相关度。