《数据挖掘与商务智能实验》
实验报告
实验题目:数据挖掘的基本数据分析
姓名:王俊
学号:201430850164
指导教师:张大斌
实验时间:201611.10
2016年11月10日
实验题纲:
一、 实验目的
1)
熟悉基本数据分析的处理流程。 2) 进一步熟练掌握拍SPSS Modeler 工具的操作。
二、 实验内容
内容一:数据的质量探索
步骤1建立数据流
1)
在“源”中通过拖入“ Statistics ”文件节点读入 Telepho ne.sav 数据。 2) 建立“类型”节点,并说明各个变量角色。这里指定“流失”为目
标变量。
选择“输出”选项卡中“数据审核”节点并将其连接到数据流的恰
当位置,点击鼠标右键,在“质量”选项卡下,选择检测方法为平均值的标准差。
3) **£- ■■& 砂香 !TB?i ■也a
巧H
k ■£ "亠
Ulfliil U**?
I J
xuitaJt
? ■?仍 尊 曲血詡 * rriurto ?. ?MT" ! ■ tudi
i?B —
fl ?U>Ti _ Q 邈禽念◎曹仓甜?侖◎?會舍念的曲
£?■? *?*? 礴? 2卡 AufllF ?*
W4*> ?* 祁H ?r — ■ 「■? °::d 匸■ * ■ ■比E 亘 步骤2结果输出 实验结果输出如图所示。 图中蓝色部分表示输出变量取YES即客户流失的样本数,可以看出,各 个变量上流失客户的取值均不同。 内容二:基本描述分析 开通月数、免费部分和无线这里分析的目标是对电信客户数据的基本服务、 费用之间的相关系数以反映变量之间的相互关系。 步骤1建立数据流 选择“输出”选项卡中的“统计量”节点 步骤2设置相关参数 1) 双击“统计量”节点,进行相应的设置。在“检查”框中添加开通月数、基本费用、免费部分和无线费用 2) 在“相关”框中添加年龄、收入和家庭人数。如图所示 MkL ■>??!IMi HIM曲■口昭?M < & 用 . a 知? r# I ■ r.?aa-.i- Ll ■#■ ■Flu 4A■>>?* 巾i 3)在“相关设置”中,勾选“按重要性定义相关强度”。如图所示 计算结果如图所示。可以看出,以“基本费用”为例,它与“年龄”和“收 入”都有相关性,它们之间简单相关系数虽然为0.401和0.195,但从统计量的角度来看有95%^上的把握认为它们之间是非0相关。“基本费用”与“家庭人数”呈负弱相关 内容三:绘制散点图 数值之间变量的相关性可以采用上一个实验,也可以通过散点图来直接观察,此次主要观察基本费用和年龄之间的相关性。 步骤1构建数据流 选择“图形”选项卡中的“图”节点。 步骤2设置相关参数 1) 双击“图”节点,选择编辑菜单,进行参数窗口的设置。 2) 在“X字段”和“ Y”字段框中分别选择“基本费用”和“年龄” 在“交叠字段”下,选择“颜色”-“流失”,不同颜色表示流失量不同取值的 样本点。如图所示“图”节点的参数设置窗口 “流失”。设置线值为“绝对值” 0 输出的结果如图所示 内容四:两分类变量相关性的研究 两分类变量相关性研究可以从图形分析入手,然后采用数值分析的方法。 面采用网状图分析 步骤1设置相关参数 选择图形中的网络节点,进入编辑状态,在“字段”下选择“套餐类型”和 U 卅泌: ■ 口 . i Vfrllji! JJUl 卅池 ■口中f i 尉