数据挖掘实验报告

  • 格式:doc
  • 大小:264.00 KB
  • 文档页数:7

下载文档原格式

  / 7
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

管理学院实验(实训)报告

课程:商务智能与数据挖掘地点:2607 时间:2014年5月7日

该界面的左下部分是所有的属性,右下部分是相应属性的类别分布图,数字代表取值的次数。

单击上图中的Edit,则可以显示集的内容,如图:

3.单击Filter选区中的Choose按扭,选择unsupervised/attribute/Discretize命令,进行无监督离散化,单击Close按扭,如下界面:

4.Choose后面的文本框中的discretize –B 10 –M -1.0 –R first-last处,看到如下图:

此图中的attributeIndices中的first-last,表示第一个属性用first代表,最后一个属性用last代表,则其他属性用数字代表,应数据要求,可作相应调整.在useEqualFrequency中的选项False表示的是采用的等间隔的离散化方法,True表示的是等频率的方法.

5.离散化第二和第三个属性,则将first-last改为2-3,在bins后修改间隔个数为3,单击ok回到主界面.单击Apply按钮,执行离散化,离散化结束,单击Edit,离散化后的数据如图所示:

关联分析:

1进行关联分析.打开数据集weather-disc.arff.选择Associate选项卡,单击Choose后面的文本框,得到如下图:

改变其属性得下图:

True代表发现的关联规则的右边是类别属性;-1代表数据表中的最后一列是类别属性;0.05代表最小支持度阀值的递减幅度。在这之中,从支持度阀值等于1开始找,每次降低0.05,最低不得低于0.14,关联规则的数目为10.关联规则的另一个约束由metricType指定,如果用置信度,则选择Confidence.相应的,0.8指的是最小置信度为0.8.outputItemSets:Ttue指的是输出满足支持度阀值的频繁项集。

2单击Start执行关联规则的发现,挖掘结果如下图:

分类

决策树分类器部分输出结果

打开weather数集,选择classify选项卡后单击choose,选择tree类型下的J48决策树算法。,在test options中选择use traiing set选项,将数据集作为训练集使用。在more options中选取output predictions选项,看到样本类别的预测情况。在result list区域

右键选择Visualize tree,生成决策树。

可视化决策树

数据规范化与聚类

数据预处理

通过normalize命令预处理数据。设置scale为1,0。Translation为0.0。

数据集K-均值聚类结果

在cluster选项卡中采取simplekmeans命令。在参数设置框中,将numclustres改为3.执行聚类分析。

数据集DBscan聚类结果

选择DBSCan命令,调整参数epsilon为0.2和minpoints为20。选择执行输出

数据集层次积累结果

选择hierachicalclusterer命令,设置linktype为average。选择输出

基于密度的聚类方法DBSCAN和层次聚类方法操作方法同上。