Clementine关联规则实验论文
- 格式:doc
- 大小:882.00 KB
- 文档页数:7
第5章 Clementine使用简介5.1Clementine 概述Clementine数据挖掘平台是一个可视化的、强大的数据分析平台。
用户可以通过该平台进行与商业数据操作相关的操作。
数据流区域:它是Clementine窗口中最大的区域,这个区域的作用是建立数据流,或对数据进行操作。
选项板区域:它是在Clementine的底部,每个选项卡包含一组相关的可以用来加载到数据流区域的节点组成。
它包括:数据源、记录选项、字段选项、图形、建模和输出。
管理器:它位于Clementine的右上方,包括流、输出和模型三个管理器。
项目区域:它位于Clementine的右下方,主要对数据挖掘项目进行管理。
并且,它提供CRISP-DM和类两种视图。
另外,Clementine还包括类似于其他windows软件的菜单栏、工具栏和状态栏。
Clementine非常容易操作,包含很多经典数据挖掘算法和一些较新的数据挖掘算法通常,大多数数据挖掘工程都会经历以下过程:检查数据以确定哪些属性可能与相关状态的预测或识别有关。
保留这些属性(如果已存在),或者在必要时导出这些属性并将其添加到数据中。
使用结果数据训练规则和神经网络。
使用独立测试数据测试经过训练的系统。
Clementine的工作就是与数据打交道。
最简单的就是“三步走”的工作步骤。
首先,把数据读入Clementine中,然后通过一系列的操作来处理数据,最后把数据存入目的文件。
Clementine数据挖掘的许多特色都集成在可视化操作界面中。
可以运用这个接口来绘制与商业有关的数据操作。
每个操作都会用相应的图标或节点来显示,这些节点连接在一起,形成数据流,代表数据在操作间的流动。
Clementine用户界面包括6个区域。
数据流区域(Stream canvas):数据流区域是Clementine窗口中最大的区域,在这个区域可以建立数据流,也可以对数据流进行操作。
每次在Clementine中可以多个数据流同时进行工作,或者是同一个数据流区域有多个数据流,或者打开一个数据流文件。
实验一Clementine12.0数据挖掘分析方法与应用一、[实验目的]熟悉Clementine12.0进行数据挖掘的基本操作方法与流程,对实际的问题能熟练利用Clementine12.0开展数据挖掘分析工作。
二、[知识要点]1、数据挖掘概念;2、数据挖掘流程;3、Clementine12.0进行数据挖掘的基本操作方法。
三、[实验内容与要求]1、熟悉Clementine12.0操作界面;2、理解工作流的模型构建方法;3、安装、运行Clementine12.0软件;4、构建挖掘流。
四、[实验条件]Clementine12.0软件。
五、[实验步骤]1、主要数据挖掘模式分析;2、数据挖掘流程分析;3、Clementine12.0下载与安装;4、Clementine12.0功能分析;5、Clementine12.0决策分析实例。
六、[思考与练习]1、Clementine12.0软件进行数据挖掘的主要特点是什么?2、利用Clementine12.0构建一个关联挖掘流(购物篮分析)。
实验部分一、Clementine简述Clementine是ISL(Integral Solutions Limited)公司开发的数据挖掘工具平台。
1999年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点。
作为一个数据挖掘平台,Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。
强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。
同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比,Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。
为了解决各种商务问题,企业需要以不同的方式来处理各种类型迥异的数据,相异的任务类型和数据类型就要求有不同的分析技术。
设备维修信息数据挖掘摘要随着市场竞争的日益激烈,维修售后服务成为了企业的重要竞争能力之一。
然而由于产品故障的不确定性使得备件需求难于预测,维修备件越来越多使得备件库存维护成本不断增加。
这些问题使得维修企业面临的负担加重。
因此针对产品的备件需求问题,本文利用某设备生产企业的维修数据记录,基于数据挖掘技术对不同型号的手机常见故障进行分析,从而为公司的设备储藏提供意见。
首先,本文对原始维修数据记录进行了简单分析。
在对噪声数据和“服务商代码”进行预处理之后,将数据集中的手机维修信息提取出来。
接着利用clementine12.0软件分析得知“反映问题描述”属性与手机使用时长、市场级别、服务商所在地区、产品型号相关性较强。
其次,为了分析故障与其他属性的关系,本文采用关联规则Apriori和GRI算法分析手机使用时长、产品型号分别与故障之间的关联性。
观察关联结果,发现最近买的手机(使用时间低于两个月)主要故障集中在LCD显示故障和网络故障;较早买的手机主要出现开机故障和通话故障。
但是GRI算法得出的结果支持度或置信度较低,不具有说服力。
所以本文主要利用基于协同过滤的推荐算法来分析反映问题描述属性与其他属性的关联规则,并得出了如下结果:地理位置上相近的地区,其手机常见故障也类似;不同种手机型号或不同地区的手机出现的常见故障都是:开机故障,触屏故障,按键故障和通话故障;在不同级别的市场购买手机,,其经常出现故障的手机的手机型号都是T818,T92,EG906,T912和U8。
最后,为了验证推荐算法的可信性,本文对该算法进行质量评价,利用Celmentine 将数据分为训练集和测试集,然后进行算法检验。
结果表明,推荐算法能够比较准确地得出推荐结果。
关键词:设备维修、clementine12.0软件、GRI算法、基于协同过滤的推荐算法Data mining of equipment maintenance informationAbstractAs the competition in the market is increasing, maintenance after-sale service becomes one of the important competition ability of enterprise. However, due to the uncertaint breakdown of product, the spare parts demand is difficult to predict. And with the emergence of a growing number of maintenance spare parts ,the cost of Inventory maintenance is increasing. All of these problems make maintenance enterprises are faced with the burden. Therefore, aiming at Spare parts demand for the product, we use the maintenance record of a equipment manufacturing enterprise to analyse common breakdown of different kinds of mobile phones based on data mining technology and provide equipment storage advices to the mobile phone company.First of all, the article analyses the original maintenance data records. After preprocessing the noise data and ‘Service providers code’, we extract the data set of mobile phone repair information. Then we use clementine12.0 software to analyse the correlation between the properties and learn that ‘The description of reflecting problem’ has a strong correlation with ’The usage time of mobile phone‘ , ’The market level’, ’Service area’ and ’Product model’.Then, In order to analyze the correlation between ‘The description of reflecting problem’and other attributes, We use Apriori and GRI algorithm to analyze the correlation between ’The description of reflecting problem’ and ’The usage time of mobile phone‘ , ’Product model’. Observing the correlation results,we find that the breakdown or the cellphone bought within a month is focused on the LCD display and Network fault,and the cellphone buy early appears starting up fault and communication falut mainly.However, the support or confidence of the results are so low that the results are not convincing. So we mainly use recommendation algorithm which is based on the collaborative fitering to analyse the correlation between ‘The description of reflecting proble m’and other attributes.Finally,we get the following results:1.The geographical position which is close its mobile phone common faults is similar;2. Although the product model or service area is different,the cellphone appears the same following common faults: starting up fault , touch screen fault, button fault and communication falut;3. Although the market level is different, the cellphone which appear fault usually is T818,T92,EG906,T912和U8.Finally, in order to verify the credibility of the recommendation algorithm, this article is to evaluate the quality of the algorithm.The data is divided into training set and test set used Celmentine, and then test the algorithm. The results show that, the recommendation algorithm can obtain more accurate recommendation results. Key: Equipment maintenance,Clementine12.0 software,The GRI algorithm,The recommendation algorithm which is based on the collaborative fitering目录1.挖掘目标 (7)2.分析方法与过程 (7)2.1.总体流程 (7)2.2.具体步骤 (8)2.2.1.维修数据集的特点分析 (8)2.2.2.维修数据集的预处理 (10)2.2.3.关联分析 (13)2.3.结果分析 (16)2.3.1 预处理的结果分析 (16)2.3.2手机数据集基于Clementine结果分析 (17)2.3.3 基于推荐算法的手机数据集分析 (19)2.3.4 推荐算法的评价 (25)3.结论 (26)4.参考文献 (27)5.附件 (27)1.挖掘目标本次建模目标是利用维修记录的海量真实数据,采用数据挖掘技术,分析手机各类故障与手机型号、手机各类故障与市场的相互关系,构建反映各类型号手机的常见故障评价指标体系、不同市场和地区手机质量的评价体系,为手机公司的设备储藏提供意见,同时也可为消费者提供购买意见。
数据挖掘技术与应用 实 验 报 告专业:_______________________班级:_______________________学号:_______________________姓名:_______________________2012-2013学年 第二学期经济与管理学院实验名称:SPSS Clementine 软件安装、功能演练指导教师: 实验日期: 成绩:实验目的1、熟悉SPSS Clementine 软件安装、功能和操作特点。
2、了解SPSS Clementine 软件的各选项面板和操作方法。
3、熟练掌握SPSS Clementine 工作流程。
实验内容1、打开SPSS Clementine 软件,逐一操作各选项,熟悉软件功能。
2、打开一有数据库、或新建数据文件,读入SPSS Clementine,并使用各种输出节点,熟悉数据输入输出。
(要求:至少做access数据库文件、excel文件、txt文件、可变文件的导入、导出)实验步骤一 实验前准备:1.下载SPSS Clementine 软件安装包和一个虚拟光驱。
2.选择任意盘区安装虚拟光驱,并把下载的安装包的文件(后缀名bin)添加到虚拟光驱上,然后双击运行。
3.运行安装完成后,把虚拟光驱中CYGiSO文件中的lservrc文件和PlatformSPSSLic7.dll文件复制替换到安装完成后的bin文件中,完成破解,获得永久免费使用权。
4.运行中文破解程序,对SPSS Clementine 软件进行汉化。
二 实验操作:从 Windows 的“开始”菜单中选择:所有程序/SPSS 1、启动 Clementine:Clementine 12.0/SPSS Clementine client 12.02、Clementine窗口当第一次启动 Clementine 时,工作区将以默认视图打开。
中中,这将是用来工作的主要区域。
间的区域称作流工作区。
clementine算法原理Clementine算法原理Clementine算法是一种常用的数据挖掘算法,用于发现数据集中的隐含模式和关联规则。
它是一种基于决策树的分类算法,可以用于预测未知数据的类别。
本文将介绍Clementine算法的原理及其应用。
一、Clementine算法的基本原理Clementine算法的基本原理是通过对已知数据集的学习,构建一个决策树模型,然后利用该模型对未知数据进行分类。
算法的核心思想是将数据集划分为多个子集,每个子集对应一个决策树节点,通过比较不同特征的取值来划分数据。
在构建决策树的过程中,算法会根据某种准则选择最佳的特征作为划分依据,直到所有数据都被正确分类或无法继续划分为止。
二、Clementine算法的具体步骤1. 数据预处理:对原始数据进行清洗、去噪、缺失值处理等操作,保证数据的质量和完整性。
2. 特征选择:根据特征的重要性和相关性对数据进行特征选择,筛选出对分类结果有影响的特征。
3. 数据划分:将数据集划分为训练集和测试集,通常采用70%的数据作为训练集,30%的数据作为测试集。
4. 构建决策树:根据训练集的数据,利用信息增益、基尼系数等准则选择最佳的特征进行划分,递归地构建决策树。
5. 决策树剪枝:为了避免过拟合现象,需要对决策树进行剪枝操作,去除一些不必要的节点和分支。
6. 模型评估:使用测试集对构建好的决策树模型进行评估,计算分类准确率、召回率、F1值等指标,评估模型的性能。
三、Clementine算法的应用领域Clementine算法在数据挖掘领域有着广泛的应用。
它可以用于市场分析、客户分类、信用评估等多个领域。
1. 市场分析:通过对市场数据的分析,可以预测产品的销售情况、消费者的购买偏好等,为企业的市场决策提供依据。
2. 客户分类:通过对客户的个人信息、购买记录等进行分析,可以将客户划分为不同的类别,为企业的客户管理和营销活动提供指导。
3. 信用评估:通过对个人信用记录、收入状况等进行分析,可以评估个人的信用水平,为银行等金融机构的信贷决策提供参考。
基于关联规则探讨心身疾病用药共性规律和个性差异张继伟;吴宏赟;胡志强【摘要】目的探讨心身疾病用药共性规律和个性差异.方法检索中国知网近10年有关经典心身疾病高血压病、甲亢、偏头痛、荨麻疹、胃溃疡治疗的文献,提取其中的方剂,经数据清洗后建立数据集.最小支持度和最小置信度分别设置为15%和90%,运用SPSS Clementine 12.0进行关联规则分析.结果 5种心身疾病常用药物组合共性特点为以风药为主,而个性差异体现了不同心身疾病用药特色.结论心身疾病用药存在共性规律和个性差异,关联规则可以对其进行快捷直观的展示.【期刊名称】《中国中医药现代远程教育》【年(卷),期】2016(014)015【总页数】3页(P46-48)【关键词】心身疾病;共性规律;个性差异;关联规则;风药【作者】张继伟;吴宏赟;胡志强【作者单位】山东中医药大学学生工作处,济南250355;山东中医药大学附属医院脑病科,济南250014;山东中医药大学附属医院脑病科,济南250014【正文语种】中文哲学认为,共性是不同事物的普遍性质,决定事物的基本性质;个性指一事物区别于他事物的特殊性质,揭示事物之间的差异性。
共性与个性的辨证关系在中医学中具有重要地位[1]。
心身疾病是一类与精神应激有关的疾病,其发生、发展、预后与心理社会因素密切相关。
这一共同点提示该类疾病在治疗上存在共性特点,前期研究也证实这一点[2]。
而不同心身疾病的差异又提示用药各有特点。
把握心身疾病用药共性规律与个性差异,有助于从根本上治疗疾病并兼顾不同疾病特点。
本文采用关联规则方法从高血压病、甲亢、偏头痛、荨麻疹、胃溃疡5种经典心身疾病文献,探索其用药共性规律和个性差异。
1.1 方剂来源检索中国知网中近10年有关高血压病、甲亢、偏头痛、荨麻疹、胃溃疡治疗的文献,并进一步筛选。
纳入标准:原始文献为中国知网收录的临床试验论文;原始文献内容中干预措施为中药内服;不同的临床试验采用同一基础方,研究者不同,处方加减思路不同,计为不同处方;相同作者的、处方相同的文献,纳入发表年限最新的一篇。
Clementine关联规则
试验目的:
通过使用SPSS Clementine数据挖掘平台,了解数据挖掘的目的、过程,理解数据挖掘的结果,并能够根据所学习的数据挖掘的相关知识,对挖掘的过程参数和结果数据进行分析。
试验内容:
建立数据源,进行关联规则挖掘。
试验步骤:
1、导入数据源
a)选择“可变文件”节点,把节点图标拖入数据流区域
b)右键点击“可变文件”节点,弹出节点细节选择界面
c)导入BASKETS.txt数据
2、查看导入的数据
a)点击节点选项卡“输出”,双击“表格”节点
b)右键点击“BASKETS.txt”节点,选择“Connect”选项,单击“Table”(在两个节点中产生一个箭头,从“BASKETS.txt”指向“Table”节点。
)
c)右键点击“表格”节点,弹出细节选择界面,单击“执行”
d)查看结束,单击“确定”退出查看表格
3、对数据进行清洗
a)选择节点选项卡的“字段选项”,把“类型”节点拖入数据流区域。
b)连接“BASKETS.txt”节点和“类型”节点
c)双击数据流区域中的“类型”节点,单击“读取值”按钮
d)对值为“T/F”的“方向”改为“两者”,把其他行的“方向”的值改为“无”
4. 使用Apriori节点分析
a)双击“建模”选项卡的“Apriori”节点
b)连接“类型”节点与“Apriori”节点 (箭头指向“Apriori”节点)
c)双击“Apriori”节点,弹出选项界面
d)单击“执行”按钮
5、查看挖掘结果
a)左键单击管理器的“模型”选项卡,右键点击第5部执行以后出现的模型图标
b)选择“浏览”,弹出图表
c)查看结果
如图可以得到最少置信度百分之八十以上,frozenmeal,cannedveg,beer三者
之间支持度的关系,也就是购买者在购买其中之二同时购买其他另外一样东西的关联性大小。
6、提升
a)双击“Apriori”节点,弹出选项界面,修改参数
b)选择“模型”选项卡修改参数
c)修改“最低规则置信度”为50(或者修改“最低条件支持度”和“最大前项数”)
d)查看结果
Wine confectionery
50.174%
下面做关于GRI的生成关联分析
在选择面板中的建模目录中我们选择GRI结点加入到数据流中。
执行该数据流,它的结果将在管理器的模型栏中以与模型同名的结点显示,右键选择浏览该结点,如下图所示:
分析结果如下:该结果数据显示了各种商品之间的关系,这个表的每一行表明了购买某种商品的时候还有哪些商品有被购买的可能性,它是基于关联分析中的支持度和置信度来分析的。
支持度越大,说明同时被购买的可能性越大。
比如我们就第一行来分析,支持度为3.0%,置信度为96.67,顾客在购买cannedveg 时有可能会同时购买freshmeat,frozenmeal,beer这三种商品。
其他行的相关信息,我们用同样的方法进行分析得出结果。
步骤三:图形化显示各个商品之间的关系我们除了用模型外,还可以用图形目录下的网络结点。
选择网络结点将其连入数据流中,此时对网络结点的设置如下:
在plot面板中选择“仅选择真值标志”栏,这可以帮助我们简化输出网络,执行结果如下图所示:
其中该图中各色的结点代表了不同种类的商品,任意两点之间连线越策表明这两点之间的关系越强烈,这也正说明购买其中某件商品时,另外一个很有可能也会被同时购买。
我们还可以通过改变浮标值设置不同的显示,当浮标值越大时候网络图将显示关系越强烈关系的点。
如下图所示:
分析结果如下:就上述网状图,各个节点之间有连线说明两线两端的商品在购买时可能被购买。
连线的粗细也表面关系的密切程度,即同时被购买的可能性的大小。
在本问题中,我们分析当浮标设置在122时候这种情况,此时购买fish 时很大可能会购买fruitveg,购买confectionery时很有可能购买wine,其中cannedveg,beer,frozenmeal这三种商品时因为三者之间存在密切联系,所以购买其中一种时,其他两种被购买的可能性很大。
同样,当浮标的值改变时,我们可以用同样的方法来分析数据之间的关系。
因此总的数据流和模型如下。