数据挖掘作业(第5章)
- 格式:doc
- 大小:41.00 KB
- 文档页数:2
第5章 Clementine使用简介5.1Clementine 概述Clementine数据挖掘平台是一个可视化的、强大的数据分析平台。
用户可以通过该平台进行与商业数据操作相关的操作。
数据流区域:它是Clementine窗口中最大的区域,这个区域的作用是建立数据流,或对数据进行操作。
选项板区域:它是在Clementine的底部,每个选项卡包含一组相关的可以用来加载到数据流区域的节点组成。
它包括:数据源、记录选项、字段选项、图形、建模和输出。
管理器:它位于Clementine的右上方,包括流、输出和模型三个管理器。
项目区域:它位于Clementine的右下方,主要对数据挖掘项目进行管理。
并且,它提供CRISP-DM和类两种视图。
另外,Clementine还包括类似于其他windows软件的菜单栏、工具栏和状态栏。
Clementine非常容易操作,包含很多经典数据挖掘算法和一些较新的数据挖掘算法通常,大多数数据挖掘工程都会经历以下过程:检查数据以确定哪些属性可能与相关状态的预测或识别有关。
保留这些属性(如果已存在),或者在必要时导出这些属性并将其添加到数据中。
使用结果数据训练规则和神经网络。
使用独立测试数据测试经过训练的系统。
Clementine的工作就是与数据打交道。
最简单的就是“三步走”的工作步骤。
首先,把数据读入Clementine中,然后通过一系列的操作来处理数据,最后把数据存入目的文件。
Clementine数据挖掘的许多特色都集成在可视化操作界面中。
可以运用这个接口来绘制与商业有关的数据操作。
每个操作都会用相应的图标或节点来显示,这些节点连接在一起,形成数据流,代表数据在操作间的流动。
Clementine用户界面包括6个区域。
数据流区域(Stream canvas):数据流区域是Clementine窗口中最大的区域,在这个区域可以建立数据流,也可以对数据流进行操作。
每次在Clementine中可以多个数据流同时进行工作,或者是同一个数据流区域有多个数据流,或者打开一个数据流文件。
第五次作业Weihua Wang 1、假设数据挖掘的任务是将如下八个点聚类为三个类.A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9)距离函数为欧几里得函数.假设初始我们选择A1,B1,C1为每个聚类的中心,用K-means 方法给出:a)在第一次循环后的三个聚类中心b)最后的三个簇解:首先计算A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) A1(2,10) 0 5 8.49 3.61 7.08 7.21 8.06 2.24 B1(5,8) 3.61 4.24 5 0 3.61 4.12 7.21 1.41 C1(1,2) 8.06 3.16 7.28 7.21 6.71 5.36 0 7.62由上表可得,各点的归属簇为:A1:A1,B1:A3,B1,B2,B3,C2C1:A2,C1第一次循环后三个聚类中心为First1:(2,10)First2:((8+5+7+6+4)/5,(4+8+5+4+9)/5)=(6,6)First3:((2+1)/2,(5+2)/2)=(1.5,3.5)继续计算各点到簇中心的距离A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) F1(2,10) 0 5 8.49 3.61 7.08 7.21 8.06 2.24 F2(6,6) 5.66 4.12 2.83 2.24 1.41 2 6.40 3.61 F3(1.5,3.5) 6.52 1.58 6.52 5.70 5.70 4.53 1.58 6.04由上表可得,各点的归属簇为:F1:A1,C2F2:A3,B1,B2,B3F3:A2,C1Second1:((2+4)/2,(10+9)/2)=(3,9.5)Second2:((8+5+7+6)/4,(4+8+5+4)/4)=(6.5,5.25)Second3:((2+1)/2,(5+2)/2)=(1.5,3.5)继续计算各点到簇中心的距离A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) S1(3,9.5) 1.12 4.61 7.43 2.50 6.02 6.26 7.76 1.12 S2(6.5,5.25) 6.54 4.51 1.96 3.13 0.56 1.35 6.39 4.51 S3(1.5,3.5) 6.52 1.58 6.52 5.70 5.70 4.53 1.58 6.04由上表可知,各点的归属簇为:S1:A1,B1,C2S2:A3,B2,B3S3:A2,C1Third1:((2+5+4)/3,(10+8+9)/3)=(3.67,9)Third2:((8+7+6)/3,(4+5+4)/3)=(7,4.33)Third3: ((2+1)/2,(5+2)/2)=(1.5,3.5)A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) T1(3.67,9) 1.95 4.33 6.61 1.66 5.20 5.52 7.49 0.33 T2(7,4.33)7.56 5.04 1.05 4.18 0.67 1.05 6.44 5.55 T3(1.5,3.5) 6.52 1.58 6.52 5.70 5.70 4.53 1.58 6.04由上表可知,各点的归属簇为:T1:A1,B1,C2T2:A3,B2,B3T3:A2,C1各点的归属簇至此已不发生变化,故最后的三个簇为:Final1:A1,B1,C2Final2:A3,B2,B3Final3:A2,C12、进行单链和全链层次聚类,绘制树状图显示结果,树状图应当清楚地显示合并的次序。
一、填空题1、每一个分类规则可以表示为如下形式:():i i i r y →条件规则左边称为 ,规则右边称为 ,包含预测类i y 。
2、给定数据集D 和分类规则:r A y →,将D 中触发规则r 的记录所占的比例称为规则的 。
3、给定数据集D 和分类规则 :r A y →,将D 中触发r 的记录中类标号等于y 的记录所占的比例称为规则的 。
4、分类规则的质量可用规则的 和 表示。
5:r (胎生=是 )∧ (体温=恒温)→哺乳类的覆盖率是 ;规则的准确率是 。
6、规则集的两个重要性质是 和 。
7、如果规则集R 中不存在两条规则被同一条记录触发,则称规则集R 中的规则是 ,这个性质确保每条记录至多被R 中的一条规则覆盖。
8、如果对属性值的任一组合,R 中都存在一条规则加以覆盖,则称规则集R 具有 ,这个性质确保每一条记录都至少被R 中的一条规则覆盖。
9、以下是脊椎动物分类问题的规则集:1:r (胎生=否)∧ (飞行动物=是)→鸟类2:r (胎生=否 )∧(水生动物=是)→鱼类3:r(胎生=是)∧(体温=恒温)→哺乳类4:r(胎生=否)∧(飞行动物=否)→爬行类5:r(水生动物=半)→两栖类、提取分类规则的方法有和两大类。
11、提取分类规则的直接方法是指。
12、提取分类规则的间接方法是指。
13、规则的排序方案有和两种。
14、常见的分类规则增长策略有和两种。
二、问答题1、如果基于规则的分类器中的规则集不是穷举的,应该如何解决?2、如果基于规则的分类器中的规则集不是互斥的,应该如何解决?3、使用无序规则来建立基于规则的分类器有什么利弊?4、k-近邻分类器中,k值的大小对分类器的性能会产生什么影响?5、考虑一个二值分类问题,属性集和属性值如下:空调={可用,不可用}引擎={好,差}行车里程={高,中,低}生锈={是,否}假设一个基于规则的分类器产'生的规则集如下:1:r行车里程=高→价值=低2:r行车里程=低→价值=高3:r空调=可用,引擎=好→价值=高4:r空调=可用,引擎=差→价值=低5:r空调=不可用→价值=低(1)这些规则是互斥的吗?(2)这些规则集是完全的吗?(3)规则需要排序吗?(4)规则集需要默认类吗?三、计算题1、设有一个训练集,它包含60个正例和100个反例。
数据挖掘作业答案第二章数据准备5.推出在[-1,1]区间上的数据的最小-最大标准化公式。
解:标准化相当于按比例缩放,假如将在[minA,maxA]间的属性A的值v映射到区间[new_minA,new_maxA],根据同比关系得:(v-minA)/(v’-new_minA)=(maxA-minA)/(new_maxA-new_minA)化简得:v’=(v-minA)* (new_maxA-new_minA)/ (maxA-minA)+ new_minA6.已知一维数据集X={-5.0 , 23.0 , 17.6 , 7.23 , 1.11},用下述方法对其进行标准化:a) 在[-1,1]区间进行小数缩放。
解:X’={-0.050 ,0.230 ,0.176 ,0.0723 ,0.0111}b) 在[0,1]区间进行最小-最大标准化。
解:X’={0 , 1 , 0.807 ,0.437 ,0.218 }c) 在[-1,1]区间进行最小-最大标准化。
解:X’={-1 , 1 , 0.614 , -0.126 , 0.564}d) 标准差标准化。
解:mean=8.788 sd=11.523X’={-1.197 , 1.233 , 0.765 , -0.135 , -0.666}e) 比较上述标准化的结果,并讨论不同技术的优缺点。
解:小数缩放标准化粒度过大(以10为倍数),但计算简单;最小-最大值标准化需要搜索整个数据集确定最小最大数值,而且最小最大值的专家估算可能会导致标准化值的无意识的集中。
标准差标准化对距离测量非常效,但会把初始值转化成了未被认可的形式。
8.已知一个带有丢失值的四维样本。
X1={0,1,1,2}X2={2,1,*,1}X3={1,*,*,-1}X4={*,2,1,*}如果所有属性的定义域是[0,1,2],在丢失值被认为是“无关紧要的值”并且都被所给的定义域的所有可行值替换的情况下,“人工”样本的数量是多少?解:X1 “人工”样本的数量为 1X2 “人工”样本的数量为 3X3 “人工”样本的数量为9X4 “人工”样本的数量为9所以“人工”样本的数量为1×3×9×9=24310.数据库中不同病人的子女数以矢量形式给出:C={3,1,0,2,7,3,6,4,-2,0,0,10,15,6}a)应用标准统计参数——均值和方差,找出C中的异常点:mean=3.9286 sd=4.4153在3个标准差下的阈值:阈值=均值±3*标准差=3.928±3*4.4153=[-9.318,17.174]根据实际情况子女数不可能为负数,所以其范围可缩减为:[0,17.174]C中的异常点有:-2b)在2个标准差下的阈值:阈值=均值±2*标准差=3.928±2*4.4153=[-4.903,12.758]根据实际情况子女数不可能为负数,所以其范围可缩减为:[0,12.758]C中的异常点有:-2, 1511.已知的三维样本数据集X:X=[{1,2,0},{3,1,4},{2,1,5},{0,1,6},{2,4,3},{4,4,2},{5,2,1},{7,7,7},{0,0,0},{3,3,3}]。
第5章关联分析
5.1 列举关联规则在不同领域中应用的实例。
5.2 给出如下几种类型的关联规则的例子,并说明它们是否是有价值的。
(a)高支持度和高置信度的规则; (b)高支持度和低置信度的规则; (c)低支持度和低置信度的规则; (d)低支持度和高置信度的规则。
5.3 数据集如表5-14所示:
(a) 把每一个事务作为一个购物篮,计算项集{e}, {b, d}和{b, d, e}的支持度。
(b) 利用(a)中结果计算关联规则{b, d}→{e} 和 {e}→{b, d}的置信度。
置信度是一个对称的度量吗?
(c) 把每一个用户购买的所有商品作为一个购物篮,计算项集{e}, {b, d}和{b, d, e}的支持度。
(d) 利用(b)中结果计算关联规则{b, d}→{e} 和 {e}→{b, d}的置信度。
置信度是一个对称的度量吗?
5.4 关联规则是否满足传递性和对称性的性质?举例说明。
5.5 Apriori 算法使用先验性质剪枝,试讨论如下类似的性质 (a) 证明频繁项集的所有非空子集也是频繁的
(b) 证明项集s 的任何非空子集s ’的支持度不小于s 的支持度
(c) 给定频繁项集l 和它的子集s ,证明规则“s’→(l – s’)”的置信度不高于s →(l – s)的置信度,其中s’是s 的子集
(d) Apriori 算法的一个变形是采用划分方法将数据集D 中的事务分为n 个不相交的子数据集。
证明D 中的任何一个频繁项集至少在D 的某一个子数据集中是频繁的。
5.6 考虑如下的频繁3-项集:{1, 2, 3},{1, 2, 4},{1, 2, 5},
{1, 3, 4},{1, 3, 5},{2, 3, 4},{2, 3, 5},{3, 4, 5}。
(a)根据Apriori 算法的候选项集生成方法,写出利用频繁3-项集生成的所有候选4-项集。
(b)写出经过剪枝后的所有候选4-项集
5.7 一个数据库有5个事务,如表5-15所示。
设min_sup=60%,min_conf = 80%。
(a) 分别用Apriori
(b) 比较穷举法和Apriori算法生成的候选项集的数量。
(c) 利用(1)所找出的频繁项集,生成所有的强关联规则和对应的支持度和置信度。
5.8 购物篮分析只针对所有属性为二元布尔类型的数据集。
如果数据集中的某个属性为连续
型变量时,说明如何利用离散化的方法将连续属性转换为二元布尔属性。
比较不同的离散方法对购物篮分析的影响。
5.9 分别说明利用支持度、置信度和提升度评价关联规则的优缺点。
5.10 表5-16所示的相依表汇总了超级市场的事务数据。
其中hot dogs指包含热狗的事务,
hot dogs指不包含热狗的事务。
hamburgers指包含汉堡的事务,hamburgers指不包含汉堡的事务。
和最小置信度阈值50%,这个关联规则是强规则吗?
计算关联规则“hot dogs ⇒hamburgers”的提升度,能够说明什么问题?购买热狗和购买汉堡是独立的吗?如果不是,两者间存在哪种相关关系?
5.11对于表5-17所示序列数据集,设最小支持度计数为2,请找出所有的频繁模式。
表5-17 习题5.11数据集。