数据挖掘作业(第5章)
- 格式:doc
- 大小:41.00 KB
- 文档页数:2
第5章 Clementine使用简介5.1Clementine 概述Clementine数据挖掘平台是一个可视化的、强大的数据分析平台。
用户可以通过该平台进行与商业数据操作相关的操作。
数据流区域:它是Clementine窗口中最大的区域,这个区域的作用是建立数据流,或对数据进行操作。
选项板区域:它是在Clementine的底部,每个选项卡包含一组相关的可以用来加载到数据流区域的节点组成。
它包括:数据源、记录选项、字段选项、图形、建模和输出。
管理器:它位于Clementine的右上方,包括流、输出和模型三个管理器。
项目区域:它位于Clementine的右下方,主要对数据挖掘项目进行管理。
并且,它提供CRISP-DM和类两种视图。
另外,Clementine还包括类似于其他windows软件的菜单栏、工具栏和状态栏。
Clementine非常容易操作,包含很多经典数据挖掘算法和一些较新的数据挖掘算法通常,大多数数据挖掘工程都会经历以下过程:检查数据以确定哪些属性可能与相关状态的预测或识别有关。
保留这些属性(如果已存在),或者在必要时导出这些属性并将其添加到数据中。
使用结果数据训练规则和神经网络。
使用独立测试数据测试经过训练的系统。
Clementine的工作就是与数据打交道。
最简单的就是“三步走”的工作步骤。
首先,把数据读入Clementine中,然后通过一系列的操作来处理数据,最后把数据存入目的文件。
Clementine数据挖掘的许多特色都集成在可视化操作界面中。
可以运用这个接口来绘制与商业有关的数据操作。
每个操作都会用相应的图标或节点来显示,这些节点连接在一起,形成数据流,代表数据在操作间的流动。
Clementine用户界面包括6个区域。
数据流区域(Stream canvas):数据流区域是Clementine窗口中最大的区域,在这个区域可以建立数据流,也可以对数据流进行操作。
每次在Clementine中可以多个数据流同时进行工作,或者是同一个数据流区域有多个数据流,或者打开一个数据流文件。
第五次作业Weihua Wang 1、假设数据挖掘的任务是将如下八个点聚类为三个类.A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9)距离函数为欧几里得函数.假设初始我们选择A1,B1,C1为每个聚类的中心,用K-means 方法给出:a)在第一次循环后的三个聚类中心b)最后的三个簇解:首先计算A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) A1(2,10) 0 5 8.49 3.61 7.08 7.21 8.06 2.24 B1(5,8) 3.61 4.24 5 0 3.61 4.12 7.21 1.41 C1(1,2) 8.06 3.16 7.28 7.21 6.71 5.36 0 7.62由上表可得,各点的归属簇为:A1:A1,B1:A3,B1,B2,B3,C2C1:A2,C1第一次循环后三个聚类中心为First1:(2,10)First2:((8+5+7+6+4)/5,(4+8+5+4+9)/5)=(6,6)First3:((2+1)/2,(5+2)/2)=(1.5,3.5)继续计算各点到簇中心的距离A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) F1(2,10) 0 5 8.49 3.61 7.08 7.21 8.06 2.24 F2(6,6) 5.66 4.12 2.83 2.24 1.41 2 6.40 3.61 F3(1.5,3.5) 6.52 1.58 6.52 5.70 5.70 4.53 1.58 6.04由上表可得,各点的归属簇为:F1:A1,C2F2:A3,B1,B2,B3F3:A2,C1Second1:((2+4)/2,(10+9)/2)=(3,9.5)Second2:((8+5+7+6)/4,(4+8+5+4)/4)=(6.5,5.25)Second3:((2+1)/2,(5+2)/2)=(1.5,3.5)继续计算各点到簇中心的距离A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) S1(3,9.5) 1.12 4.61 7.43 2.50 6.02 6.26 7.76 1.12 S2(6.5,5.25) 6.54 4.51 1.96 3.13 0.56 1.35 6.39 4.51 S3(1.5,3.5) 6.52 1.58 6.52 5.70 5.70 4.53 1.58 6.04由上表可知,各点的归属簇为:S1:A1,B1,C2S2:A3,B2,B3S3:A2,C1Third1:((2+5+4)/3,(10+8+9)/3)=(3.67,9)Third2:((8+7+6)/3,(4+5+4)/3)=(7,4.33)Third3: ((2+1)/2,(5+2)/2)=(1.5,3.5)A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) T1(3.67,9) 1.95 4.33 6.61 1.66 5.20 5.52 7.49 0.33 T2(7,4.33)7.56 5.04 1.05 4.18 0.67 1.05 6.44 5.55 T3(1.5,3.5) 6.52 1.58 6.52 5.70 5.70 4.53 1.58 6.04由上表可知,各点的归属簇为:T1:A1,B1,C2T2:A3,B2,B3T3:A2,C1各点的归属簇至此已不发生变化,故最后的三个簇为:Final1:A1,B1,C2Final2:A3,B2,B3Final3:A2,C12、进行单链和全链层次聚类,绘制树状图显示结果,树状图应当清楚地显示合并的次序。
一、填空题1、每一个分类规则可以表示为如下形式:():i i i r y →条件规则左边称为 ,规则右边称为 ,包含预测类i y 。
2、给定数据集D 和分类规则:r A y →,将D 中触发规则r 的记录所占的比例称为规则的 。
3、给定数据集D 和分类规则 :r A y →,将D 中触发r 的记录中类标号等于y 的记录所占的比例称为规则的 。
4、分类规则的质量可用规则的 和 表示。
5:r (胎生=是 )∧ (体温=恒温)→哺乳类的覆盖率是 ;规则的准确率是 。
6、规则集的两个重要性质是 和 。
7、如果规则集R 中不存在两条规则被同一条记录触发,则称规则集R 中的规则是 ,这个性质确保每条记录至多被R 中的一条规则覆盖。
8、如果对属性值的任一组合,R 中都存在一条规则加以覆盖,则称规则集R 具有 ,这个性质确保每一条记录都至少被R 中的一条规则覆盖。
9、以下是脊椎动物分类问题的规则集:1:r (胎生=否)∧ (飞行动物=是)→鸟类2:r (胎生=否 )∧(水生动物=是)→鱼类3:r(胎生=是)∧(体温=恒温)→哺乳类4:r(胎生=否)∧(飞行动物=否)→爬行类5:r(水生动物=半)→两栖类、提取分类规则的方法有和两大类。
11、提取分类规则的直接方法是指。
12、提取分类规则的间接方法是指。
13、规则的排序方案有和两种。
14、常见的分类规则增长策略有和两种。
二、问答题1、如果基于规则的分类器中的规则集不是穷举的,应该如何解决?2、如果基于规则的分类器中的规则集不是互斥的,应该如何解决?3、使用无序规则来建立基于规则的分类器有什么利弊?4、k-近邻分类器中,k值的大小对分类器的性能会产生什么影响?5、考虑一个二值分类问题,属性集和属性值如下:空调={可用,不可用}引擎={好,差}行车里程={高,中,低}生锈={是,否}假设一个基于规则的分类器产'生的规则集如下:1:r行车里程=高→价值=低2:r行车里程=低→价值=高3:r空调=可用,引擎=好→价值=高4:r空调=可用,引擎=差→价值=低5:r空调=不可用→价值=低(1)这些规则是互斥的吗?(2)这些规则集是完全的吗?(3)规则需要排序吗?(4)规则集需要默认类吗?三、计算题1、设有一个训练集,它包含60个正例和100个反例。
数据挖掘作业答案第二章数据准备5.推出在[-1,1]区间上的数据的最小-最大标准化公式。
解:标准化相当于按比例缩放,假如将在[minA,maxA]间的属性A的值v映射到区间[new_minA,new_maxA],根据同比关系得:(v-minA)/(v’-new_minA)=(maxA-minA)/(new_maxA-new_minA)化简得:v’=(v-minA)* (new_maxA-new_minA)/ (maxA-minA)+ new_minA6.已知一维数据集X={-5.0 , 23.0 , 17.6 , 7.23 , 1.11},用下述方法对其进行标准化:a) 在[-1,1]区间进行小数缩放。
解:X’={-0.050 ,0.230 ,0.176 ,0.0723 ,0.0111}b) 在[0,1]区间进行最小-最大标准化。
解:X’={0 , 1 , 0.807 ,0.437 ,0.218 }c) 在[-1,1]区间进行最小-最大标准化。
解:X’={-1 , 1 , 0.614 , -0.126 , 0.564}d) 标准差标准化。
解:mean=8.788 sd=11.523X’={-1.197 , 1.233 , 0.765 , -0.135 , -0.666}e) 比较上述标准化的结果,并讨论不同技术的优缺点。
解:小数缩放标准化粒度过大(以10为倍数),但计算简单;最小-最大值标准化需要搜索整个数据集确定最小最大数值,而且最小最大值的专家估算可能会导致标准化值的无意识的集中。
标准差标准化对距离测量非常效,但会把初始值转化成了未被认可的形式。
8.已知一个带有丢失值的四维样本。
X1={0,1,1,2}X2={2,1,*,1}X3={1,*,*,-1}X4={*,2,1,*}如果所有属性的定义域是[0,1,2],在丢失值被认为是“无关紧要的值”并且都被所给的定义域的所有可行值替换的情况下,“人工”样本的数量是多少?解:X1 “人工”样本的数量为 1X2 “人工”样本的数量为 3X3 “人工”样本的数量为9X4 “人工”样本的数量为9所以“人工”样本的数量为1×3×9×9=24310.数据库中不同病人的子女数以矢量形式给出:C={3,1,0,2,7,3,6,4,-2,0,0,10,15,6}a)应用标准统计参数——均值和方差,找出C中的异常点:mean=3.9286 sd=4.4153在3个标准差下的阈值:阈值=均值±3*标准差=3.928±3*4.4153=[-9.318,17.174]根据实际情况子女数不可能为负数,所以其范围可缩减为:[0,17.174]C中的异常点有:-2b)在2个标准差下的阈值:阈值=均值±2*标准差=3.928±2*4.4153=[-4.903,12.758]根据实际情况子女数不可能为负数,所以其范围可缩减为:[0,12.758]C中的异常点有:-2, 1511.已知的三维样本数据集X:X=[{1,2,0},{3,1,4},{2,1,5},{0,1,6},{2,4,3},{4,4,2},{5,2,1},{7,7,7},{0,0,0},{3,3,3}]。
数据挖掘分析技术作业指导书第1章数据挖掘概述 (3)1.1 数据挖掘的基本概念 (3)1.2 数据挖掘的主要任务与过程 (3)1.3 数据挖掘的应用领域 (4)第2章数据预处理 (4)2.1 数据清洗 (4)2.1.1 缺失值处理 (4)2.1.2 异常值处理 (4)2.1.3 重复值处理 (4)2.2 数据集成 (4)2.2.1 数据集成方法 (4)2.2.2 数据集成策略 (5)2.2.3 数据集成质量控制 (5)2.3 数据变换 (5)2.3.1 数据规范化 (5)2.3.2 属性构造 (5)2.3.3 数据离散化 (5)2.4 数据归一化与离散化 (5)2.4.1 数据归一化 (5)2.4.2 数据离散化 (5)2.4.3 离散化方法 (5)2.4.4 离散化策略 (5)第3章数据仓库与联机分析处理 (5)3.1 数据仓库的基本概念 (5)3.1.1 定义与特点 (6)3.1.2 数据仓库架构 (6)3.1.3 数据仓库与操作型数据库的区别 (6)3.2 数据仓库的构建与维护 (6)3.2.1 数据仓库构建策略 (6)3.2.2 数据抽取与转换 (6)3.2.3 数据仓库维护 (6)3.3 联机分析处理技术 (6)3.3.1 基本概念与分类 (7)3.3.2 OLAP操作 (7)3.3.3 OLAP关键特性 (7)3.4 数据立方体的构建与应用 (7)3.4.1 数据立方体的构建 (7)3.4.2 数据立方体的应用 (7)3.4.3 数据立方体的优化 (7)第4章关联规则挖掘 (7)4.1 关联规则的基本概念 (7)4.2 Apriori算法 (8)4.3 FPgrowth算法 (8)4.4 关联规则挖掘的应用 (8)第5章分类与预测 (8)5.1 分类的基本概念 (8)5.2 决策树算法 (9)5.3 朴素贝叶斯算法 (9)5.4 支持向量机算法 (9)第6章聚类分析 (10)6.1 聚类的基本概念 (10)6.2 Kmeans算法 (10)6.3 层次聚类算法 (10)6.4 密度聚类算法 (11)第7章时间序列分析与预测 (11)7.1 时间序列的基本概念 (11)7.2 时间序列的预处理 (11)7.3 时间序列预测方法 (11)7.4 时间序列模型的选择与应用 (12)第8章异常检测与空间数据挖掘 (12)8.1 异常检测的基本概念 (12)8.2 基于距离的异常检测方法 (12)8.3 基于密度的异常检测方法 (13)8.4 空间数据挖掘及其应用 (13)第9章文本挖掘与情感分析 (13)9.1 文本挖掘的基本概念 (13)9.2 文本预处理技术 (13)9.3 文本分类与聚类 (14)9.4 情感分析与观点挖掘 (14)第10章数据挖掘项目实施与评估 (14)10.1 数据挖掘项目实施流程 (14)10.1.1 项目启动 (14)10.1.2 数据准备 (15)10.1.3 数据挖掘建模 (15)10.1.4 模型评估与优化 (15)10.1.5 模型部署与应用 (15)10.2 数据挖掘模型的评估与优化 (15)10.2.1 模型评估指标 (15)10.2.2 模型优化策略 (15)10.2.3 模型调参技巧 (15)10.3 数据挖掘项目的管理与风险控制 (15)10.3.1 项目管理 (15)10.3.2 风险识别与评估 (15)10.3.3 风险应对措施 (15)10.3.4 项目沟通与协作 (16)10.4 数据挖掘成果的应用与推广 (16)10.4.1 成果应用 (16)10.4.2 成果推广 (16)10.4.3 持续优化 (16)第1章数据挖掘概述1.1 数据挖掘的基本概念数据挖掘(Data Mining),又称知识发觉,是指从大量数据中通过算法和统计分析方法,挖掘出潜在的、有价值的信息和知识的过程。
数据挖掘课后习题数据挖掘作业1——6第一章绪论1)数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。
1、关系数据库2、数据仓库3、事务数据库4、高级数据库系统和数据库应用如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是 Web 数据信息。
实际生活的例子:①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所开通的服务等,据此进行客户群体划分以及客户流失性分析。
②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文学家发现其他未知星体。
③市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。
2)给出一个例子,说明数据挖掘对商务的成功是至关重要的。
该商务需要什么样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?以一个百货公司为例,它可以应用数据挖掘来帮助其进行目标市场营销。
运用数据挖掘功能例如关联规则挖掘,百货公司可以根据销售记录挖掘出强关联规则,来诀定哪一类商品是消费者在购买某一类商品的同时,很有可能去购买的,从而促使百货公司进行目标市场营销。
数据查询处理主要用于数据或信息检索,没有发现关联规则的方法。
同样地,简单的统计分析没有能力处理像百货公司销售记录这样的大规模数据。
第二章数据仓库和OLAP技术1)简述数据立方体的概念、多维数据模型上的OLAP操作。
●数据立方体数据立方体是二维表格的多维扩展,如同几何学中立方体是正方形的三维扩展一样,是一类多维矩阵,让用户从多个角度探索和分析数据集,通常是一次同时考虑三个维度。
数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据。
●多维数据模型上的OLAP操作a)上卷(roll-up):汇总数据通过一个维的概念分层向上攀升或者通过维规约b)下卷(drill-down):上卷的逆操作由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现c)切片和切块(slice and dice)投影和选择操作d)转轴(pivot)立方体的重定位,可视化,或将一个3维立方体转化为一个2维平面序列2)OLAP多维分析如何辅助决策?举例说明。
第5章关联分析
5.1 列举关联规则在不同领域中应用的实例。
5.2 给出如下几种类型的关联规则的例子,并说明它们是否是有价值的。
(a)高支持度和高置信度的规则; (b)高支持度和低置信度的规则; (c)低支持度和低置信度的规则; (d)低支持度和高置信度的规则。
5.3 数据集如表5-14所示:
(a) 把每一个事务作为一个购物篮,计算项集{e}, {b, d}和{b, d, e}的支持度。
(b) 利用(a)中结果计算关联规则{b, d}→{e} 和 {e}→{b, d}的置信度。
置信度是一个对称的度量吗?
(c) 把每一个用户购买的所有商品作为一个购物篮,计算项集{e}, {b, d}和{b, d, e}的支持度。
(d) 利用(b)中结果计算关联规则{b, d}→{e} 和 {e}→{b, d}的置信度。
置信度是一个对称的度量吗?
5.4 关联规则是否满足传递性和对称性的性质?举例说明。
5.5 Apriori 算法使用先验性质剪枝,试讨论如下类似的性质 (a) 证明频繁项集的所有非空子集也是频繁的
(b) 证明项集s 的任何非空子集s ’的支持度不小于s 的支持度
(c) 给定频繁项集l 和它的子集s ,证明规则“s’→(l – s’)”的置信度不高于s →(l – s)的置信度,其中s’是s 的子集
(d) Apriori 算法的一个变形是采用划分方法将数据集D 中的事务分为n 个不相交的子数据集。
证明D 中的任何一个频繁项集至少在D 的某一个子数据集中是频繁的。
5.6 考虑如下的频繁3-项集:{1, 2, 3},{1, 2, 4},{1, 2, 5},
{1, 3, 4},{1, 3, 5},{2, 3, 4},{2, 3, 5},{3, 4, 5}。
(a)根据Apriori 算法的候选项集生成方法,写出利用频繁3-项集生成的所有候选4-项集。
(b)写出经过剪枝后的所有候选4-项集
5.7 一个数据库有5个事务,如表5-15所示。
设min_sup=60%,min_conf = 80%。
(a) 分别用Apriori
(b) 比较穷举法和Apriori算法生成的候选项集的数量。
(c) 利用(1)所找出的频繁项集,生成所有的强关联规则和对应的支持度和置信度。
5.8 购物篮分析只针对所有属性为二元布尔类型的数据集。
如果数据集中的某个属性为连续
型变量时,说明如何利用离散化的方法将连续属性转换为二元布尔属性。
比较不同的离散方法对购物篮分析的影响。
5.9 分别说明利用支持度、置信度和提升度评价关联规则的优缺点。
5.10 表5-16所示的相依表汇总了超级市场的事务数据。
其中hot dogs指包含热狗的事务,
hot dogs指不包含热狗的事务。
hamburgers指包含汉堡的事务,hamburgers指不包含汉堡的事务。
和最小置信度阈值50%,这个关联规则是强规则吗?
计算关联规则“hot dogs ⇒hamburgers”的提升度,能够说明什么问题?购买热狗和购买汉堡是独立的吗?如果不是,两者间存在哪种相关关系?
5.11对于表5-17所示序列数据集,设最小支持度计数为2,请找出所有的频繁模式。
表5-17 习题5.11数据集。