数据挖掘实验报告
- 格式:doc
- 大小:264.00 KB
- 文档页数:7
管理学院实验(实训)报告
课程:商务智能与数据挖掘地点:2607 时间:2014年5月7日
该界面的左下部分是所有的属性,右下部分是相应属性的类别分布图,数字代表取值的次数。
单击上图中的Edit,则可以显示集的内容,如图:
3.单击Filter选区中的Choose按扭,选择unsupervised/attribute/Discretize命令,进行无监督离散化,单击Close按扭,如下界面:
4.Choose后面的文本框中的discretize –B 10 –M -1.0 –R first-last处,看到如下图:
此图中的attributeIndices中的first-last,表示第一个属性用first代表,最后一个属性用last代表,则其他属性用数字代表,应数据要求,可作相应调整.在useEqualFrequency中的选项False表示的是采用的等间隔的离散化方法,True表示的是等频率的方法.
5.离散化第二和第三个属性,则将first-last改为2-3,在bins后修改间隔个数为3,单击ok回到主界面.单击Apply按钮,执行离散化,离散化结束,单击Edit,离散化后的数据如图所示:
关联分析:
1进行关联分析.打开数据集weather-disc.arff.选择Associate选项卡,单击Choose后面的文本框,得到如下图:
改变其属性得下图:
True代表发现的关联规则的右边是类别属性;-1代表数据表中的最后一列是类别属性;0.05代表最小支持度阀值的递减幅度。在这之中,从支持度阀值等于1开始找,每次降低0.05,最低不得低于0.14,关联规则的数目为10.关联规则的另一个约束由metricType指定,如果用置信度,则选择Confidence.相应的,0.8指的是最小置信度为0.8.outputItemSets:Ttue指的是输出满足支持度阀值的频繁项集。
2单击Start执行关联规则的发现,挖掘结果如下图:
分类
决策树分类器部分输出结果
打开weather数集,选择classify选项卡后单击choose,选择tree类型下的J48决策树算法。,在test options中选择use traiing set选项,将数据集作为训练集使用。在more options中选取output predictions选项,看到样本类别的预测情况。在result list区域
右键选择Visualize tree,生成决策树。
可视化决策树
数据规范化与聚类
数据预处理
通过normalize命令预处理数据。设置scale为1,0。Translation为0.0。
数据集K-均值聚类结果
在cluster选项卡中采取simplekmeans命令。在参数设置框中,将numclustres改为3.执行聚类分析。
数据集DBscan聚类结果
选择DBSCan命令,调整参数epsilon为0.2和minpoints为20。选择执行输出
数据集层次积累结果
选择hierachicalclusterer命令,设置linktype为average。选择输出
基于密度的聚类方法DBSCAN和层次聚类方法操作方法同上。