分类实验报告
- 格式:doc
- 大小:4.07 MB
- 文档页数:14
2.导入数据源
a)选择“可变文件”节点,把节点图标拖入数据流区域
b)双击“可变文件”节点,弹出节点细节选择界面
c)单击“browser for file”按钮,选择Demos文件夹下的“BASKETS1n”文件,点击“打开”按钮。
d)单击“确定”按钮
e)节点自动改名字为“BASKETS1n”
4.为数据添加新的列
注:假设同时购买鲜肉和奶制品的顾客为健康食品购买者,添加一个新列叫:health。凡是对应鲜肉和奶制品都为T的顾客新列为T,否则为F。
a)点击节点选项卡“字段选项”,双击“导出”节点
5.查看添加新列数据
a)点击节点选项卡“输出”,双击“表”节点
b)右键点击“Health”节点,选择“Connect”选项,单击“表”(在两个节点中产生一个箭头,从“Health”指向“表”节点。)
c)双击“表”节点,弹出细节选择界面,单击“执行”
d)查看结束,单击“确定”退出查看表格
7.使用C5.0节点分析
a)双击“建模”选项卡的“C5.0”节点
8.查看挖掘结果
a)左键单击管理器的“模型”选项卡,右键点击执行以后出现的模型图标;右键选择“浏览”,弹出图表
b)点击“模型”和“查看器”选项卡查看结果
9.将“模式”改为“专家”,修改“修剪严重性”和“每个子分支的最小记录数”,查看结果并进行比较分析。
分析:结果表明同时购买鲜肉和奶制品的顾客在1000个人中只有33人,概率仅为3.3%,对其进行分类不能得出健康食品购买者的特征,所以没有分类。
10.使用二元分类器节点分析
分析:其结果与C5节点分析的相同。不能得出购买自定义的健康食品的顾客的特征。分类方法
方法原理算法优点缺点适用范围
算法:Generate_decision_tree由给定的训练数据产生一棵决策树
输入:训练数据集samples,用离散值属性表示;候选属性的集合attribute_list。
输出:一棵决策树ID3算法的基本
思想描述如下:
(1)任意选取一
个属性作为决策
树的根结点,然
后就这个属性所
有的取值创建树
的分支;(2)用
ID3
算法
速度
快:计
算量
相对
较小,
且容
易转
化成
缺乏伸缩性:由
于进行深度优
先搜索,所以算
法受内存大小
限制,难于处理
大训练集。为了
处理大数据集
或连续量的种
早期
的ID
算法
只能
就两
类数
据进
行挖