SPSS操作方法:判别分析报告例题
- 格式:doc
- 大小:521.23 KB
- 文档页数:16
一、实验目的及要求:1、目的用SPSS软件实现判别分析及其应用.2、内容及要求用SPSS对实验数据利用Fisher判别法和贝叶斯判别法,建立判别函数并判定宿州、广安等13个地级市分别属于哪个管理水平类型。
二、仪器用具:三、实验方法与步骤:准备工作:把实验所用数据从Word文档复制到Excel,并进一步导入到SPSS 数据文件中,同时,由于只有当被解释变量是属性变量而解释变量是度量变量时,判别分析才适用,所以将城市管理的7个效率指数变量的变量类型改为“数值(N)”,度量标准改为“度量(S)”,以备接下来的分析。
四、实验结果与数据处理:表1 组均值的均等性的检验Wilks 的 Lambda F df1 df2 Sig.综合效率标准指数.582 23.022 2 64 .000 经济效率标准指数。
406 46.903 2 64 .000 结构效率标准指数.954 1。
560 2 64 .218 社会效率标准指数.796 8。
225 2 64 。
001 人员效率标准指数。
342 61。
645 2 64 。
000 发展效率标准指数。
308 71。
850 2 64 .000 环境效率标准指数。
913 3.054 2 64 .054表1是对各组均值是否相等的检验,由该表可以看出,在0。
05的显著性水平上我们不能拒绝结构效率标准指数和环境效率标准指数在三组的均值相等的假设,即认为除了结构效率标准指数和环境效率标准指数外,其余五个标准指数在三组的均值是有显著差异的。
表2 对数行列式group 秩对数行列式1 6 —33.4102 6 -33.1773 6 —40。
584汇聚的组内 6 -32.308 打印的行列式的秩和自然对数是组协方差矩阵的秩和自然对数。
表3 检验结果箱的 M 140.196F 近似。
2。
498df1 42df2 1990.001Sig. .000 对相等总体协方差矩阵的零假设进行检验。
以上是对各组协方差矩阵是否相等的Box’M检验,表2反映协方差矩阵的秩和行列式的对数值。
判别分析实验报告SPSS实验目的:判别分析(Discriminant Analysis)是一种经典的多元统计分析方法,用于解释和预测分类变量。
该实验旨在使用SPSS软件进行判别分析,探索一组变量对分类结果的贡献和预测能力。
实验步骤:1.数据收集:从一些公司的人力资源数据库中随机选择了200个员工作为样本,收集了以下变量:性别(男、女)、教育程度(本科、研究生、博士)、工龄(年)、绩效评分(0-5)、离职与否(是、否)。
2.数据清洗:检查数据中是否存在缺失值,并对缺失值进行处理。
删除离职与否变量中缺失值。
3.数据探索:使用SPSS进行描述性统计分析,了解样本的基本情况。
分别计算男女性别比例和各教育程度及离职状态的分布情况。
4. 变量选择:使用SPSS进行判别分析,将离职与否作为分类变量,性别、教育程度、工龄和绩效评分作为预测变量。
使用Wilks' Lambda检验选择预测变量,确定对分类结果的贡献。
5.判别函数计算:根据选择的预测变量,计算判别函数。
使用判别函数对样本进行分类,并计算分类结果的准确率。
实验结果:1.数据探索结果显示,样本中男女性别比例约为1:1,教育程度主要集中在本科和研究生,离职比例为14%。
2. 判别分析结果显示,Wilks' Lambda检验结果为0.632,p值小于0.05,说明选取的预测变量对分类结果有统计上显著的贡献。
3.计算得到的判别函数为D=-0.311(性别)+0.236(教育程度)+0.011(工龄)+0.585(绩效评分)。
4.使用判别函数对样本进行分类,分类准确率为81.5%。
其中,离职样本的分类准确率为75%,非离职样本的分类准确率为82%。
实验结论:通过判别分析实验,我们得出以下结论:1.性别、教育程度、工龄和绩效评分这四个变量对员工的离职与否有显著的预测能力。
2.预测变量中绩效评分对离职结果的贡献最大,说明绩效评分较低的员工更容易离职。
第五节判别分析判别分析是根据观察或测量到的若干变量值,判断研究对象如何分类的方法。
判别函数一般形式是:F1= a i1x1+a i2x2+a i3x3...+a in x nF2= a i1x1+a i2x2+a i3x3...+a in x n: :F m= a m1x1+a m2x2+a m3x 3...+a mn x nSPSS提供的判别分析过程是Discriminant过程。
【例3-9】浙江北部地区1950~1982年小麦赤霉病发生程度与气象因子研究,总结出上年12月降雨量(x1)、上年10月下旬至11月中旬和当年1~2月总降雨(x2)、上年10月下旬至11月上旬日照时数(x3)、上年10月下旬至12月中旬和当年2月总雨量(x4)以及当年3月中旬平均温度(x5)等5个因子,并将赤霉病情分为轻中重三级(y,分别用1、2、3表示)。
用这些数据建立气象因子与小麦赤霉病发生程度的判别模型。
年份x1x2x3x4x5y195014.3107.3140.0105.3 6.91 195146.5129.1154.191.311.91 195243.0143.183.9157.413.02 195371.2280.582.5317.413.93 1954.769.3145.669.511.31 1955123.9297.364.6307.213.73 195685.4115.439.4144.711.11 195738.477.394.6143.213.92 195879.696.885.499.09.62 195933.474.7129.5103.49.91 196048.195.9155.392.010.511955123.9297.364.6307.213.73 195685.4115.439.4144.711.11 195738.477.394.6143.213.92 195879.696.885.499.09.62 195933.474.7129.5103.49.91 196048.195.9155.392.010.51 19617.7116.3158.2148.115.11 19628.9225.3104.2195.513.81 196334.8150.7165.0124.611.91 196444.4147.288.3158.712.72 196574.2232.794.1154.613.53 1966.180.9148.881.311.01 1967119.6208.070.9217.813.83 196894.0130.249.2176.211.02 196932.983.6115.3135.713.82 197065.588.1126.9102.59.71 197131.359.3105.182.910.01 197252.393.3173.791.210.01 19737.298.2154.3120.715.01 1974 5.3245.8100.4200.213.711准备分析数据在SPSS数据管理窗口,定义变量名x1、x2、x3、x4、x5、y分别表示表中对应变量。
专题16 用SPSS进行判别分析1 用默认方法作判别分析2 选项的设置简介1 用默认方法作判别分析用默认方法作判别分析,可按如下步骤进行。
①建立或读入数据文件在数据窗中输入待分析的数据,或利用File菜单中的Open功能打开已存在的数据文件。
②展开主对话框在SPSS主界面中依次逐层选择“Analyze”、“Classify”、“Discriminant”,展开判别分析主对话框(如图)。
③选择分类变量及其取值范围在如图14.1的主对话框左边的矩形框中选定分类变量,并用上面一个箭头按钮将其移到“Grouping Variable”框中。
然后用其下面的“Define Range”按钮打开如图14.2的对话框。
分别在“Minimum”和“Maximum”后面的矩形框中键入分类变量的最大值与最小值,然后按“Continue”按钮返回主对话框。
分类变量须是数值型的,其值必须是整数,每个值代表一类,如1代表健将、2代表一级运动员、3代表二级运动员。
④选择判别变量在主对话框左边的矩形框中选择判别变量,并用下面一个箭头按钮将它们移到“Independents”矩形框中。
⑤选择是否作逐步判别若不用逐步判别筛选变量,在主对话框中选择“Enter independents together”。
若作逐步判别,则选择“Use stepwise method”。
⑥运行程序检查所选变量是否有误,若选择有误,则选定错误变量,用边上的箭头按钮将其移出。
若变量选择无误,按“OK”按钮即可运行程序。
返回2 选项的设置简介①在主对话框中单击“Statistics”按钮可以打开选择输出统计量的对话框。
●选定“Means”可得到各类的均数、标准差等统计量●选定“Univariate ANOVAs”可得到各单变量的方差分析●选定“Box’s M”可得到各类协差阵相等性的Box检验●选择“Fisher’s”可得到费歇的线性分类函数●选定“Unstandardized”可以得到非标准化的典型判别函数系数●选定“Within-groups covariance”可以得到合并组内协差阵。
SPSS操作方法:判别分析例题为研究1991年中国城镇居民月平均收入状况,按标准化欧氏平方距离、离差平方和聚类方法将30个省、市、自治区.分为三种类型。
试建立判别函数,判定广东、西藏分别属于哪个收入类型。
判别指标及原始数据见表9-4。
1991年30个省、市、自治区城镇居民月平均收人数据表单位:元/人 x1:人均生活费收入 x6:人均各种奖金、超额工资(国有+集体) x2:人均国有经济单位职工工资 x7:人均各种津贴(国有+集体)x3:人均来源于国有经济单位标准工资x8:人均从工作单位得到的其他收入x4:人均集体所有制工资收入 x9:个体劳动者收入5贝叶斯判别的SPSS操作方法:1. 建立数据文件2.单击Analyze→ Classify→ Discriminant,打开Discriminant Analysis 判别分析对话框如图1所示:图1 Discriminant Analysis判别分析对话框3.从对话框左侧的变量列表中选中进行判别分析的有关变量x1~x9进入Independents 框,作为判别分析的基础数据变量。
从对话框左侧的变量列表中选分组变量Group进入Grouping Variable 框,并点击Define Range...钮,在打开的Discriminant Analysis: Define Range对话框中,定义判别原始数据的类别数,由于原始数据分为3类,则在Minimum(最小值)处输入1,在Maximum(最大值)处输入3(见图2)。
选择后点击Continue按钮返回Discriminant Analysis主对话框。
图2 Define Range对话框4、选择分析方法Enter independent together 所有变量全部参与判别分析(系统默认)。
本例选择此项。
Use stepwise method 采用逐步判别法自动筛选变量。
单击该项时Method 按钮激活,打开Stepwise Method对话框如图3所示,从中可进一步选择判别分析方法。
判别分析实验报告 SPSS一、实验目的判别分析是一种用于分类和预测的统计方法。
本次实验旨在通过使用 SPSS 软件,掌握判别分析的基本原理和操作流程,能够运用判别分析方法对实际数据进行分类,并对分类结果进行评估和解释。
二、实验数据本次实验使用的数据集包含了两个类别(类别 A 和类别 B)的样本,每个样本具有若干个特征变量,如年龄、收入、教育程度等。
数据集共有 200 个样本,其中类别 A 有 100 个样本,类别 B 有 100 个样本。
三、实验步骤1、数据导入首先,打开 SPSS 软件,选择“文件”菜单中的“打开”选项,将实验数据文件导入到 SPSS 中。
2、变量定义在 SPSS 数据视图中,对各个变量进行定义,包括变量名称、变量类型、变量标签等。
3、判别分析操作选择“分析”菜单中的“分类”子菜单,然后点击“判别分析”选项。
在弹出的判别分析对话框中,将类别变量选入“分组变量”框中,将其他特征变量选入“自变量”框中。
4、选择判别方法SPSS 提供了多种判别方法,如费希尔判别法、贝叶斯判别法等。
本次实验选择费希尔判别法。
5、模型评估在判别分析结果中,查看判别函数的系数、判别函数的显著性检验、分类结果的准确性等指标,以评估模型的性能。
四、实验结果与分析1、判别函数系数判别函数的系数反映了各个自变量对判别函数的贡献程度。
通过查看系数的大小和符号,可以了解各个变量在区分不同类别中的重要性。
例如,年龄变量的系数为正,说明年龄越大,越有可能属于某个类别;而收入变量的系数为负,说明收入越低,越有可能属于另一个类别。
2、判别函数的显著性检验通过对判别函数的显著性检验,可以判断判别函数是否能够有效地区分不同的类别。
如果检验结果显著,说明判别函数具有统计学意义,可以用于分类。
3、分类结果SPSS 会给出每个样本的分类结果,以及分类的准确性。
通过比较实际类别和预测类别,可以评估模型的分类效果。
如果分类准确性较高,说明模型能够较好地对样本进行分类;如果分类准确性较低,则需要进一步分析原因,可能是数据质量问题、变量选择不当或者判别方法不合适等。
实验指导之二判别分析的SPSS软件的基本操作[实验例题]为研究1991年中国城镇居民月平均收入状况,按标准化欧氏平方距离、离差平方和聚类方法将30个省、市、自治区.分为三种类型。
试建立判别函数,判定、分别属于哪个收入类型。
判别指标及原始数据见表9-4。
1991年30个省、市、自治区城镇居民月平均收人数据表单位:元/人x1:人均生活费收入x6:人均各种奖金、超额工资(国有+集体)x2:人均国有经济单位职工工资x7:人均各种津贴(国有+集体)x3:人均来源于国有经济单位标准工资x8:人均从工作单位得到的其他收入x4:人均集体所有制工资收入x9:个体劳动者收入6 湖南124.00 84.66 44.05 13.5 7.47 19.11 20.49 10.3 1.76待判1 广东211.30 114.0 41.44 33.2 11.2 48.72 30.77 14.9 11.12 西藏175.93 163.8 57.89 4.22 3.37 17.81 82.32 15.7 0.00贝叶斯判别的SPSS操作方法:1. 建立数据文件2.单击Analyze→Classify→Discriminant,打开Discriminant Analysis判别分析对话框如图1所示:图1 Discriminant Analysis判别分析对话框3.从对话框左侧的变量列表中选中进行判别分析的有关变量x1~x9进入Independents 框,作为判别分析的基础数据变量。
从对话框左侧的变量列表中选分组变量Group进入Grouping Variable 框,并点击Define Range...钮,在打开的Discriminant Analysis: Define Range 对话框中,定义判别原始数据的类别数,由于原始数据分为3类,则在Minimum(最小值)处输入1,在Maximum(最大值)处输入3(见图2)。
选择后点击Continue按钮返回Discriminant Analysis主对话框。
图2 Define Range对话框4、选择分析方法✧Enter independent together 所有变量全部参与判别分析(系统默认)。
本例选择此项。
✧Use stepwise method 采用逐步判别法自动筛选变量。
单击该项时Method 按钮激活,打开Stepwise Method对话框如图3所示,从中可进一步选择判别分析方法。
图3 Stepwise Method对话框✧Method栏,选择变量的统计量方法Wilks’lambda (默认)按统计量Wilks λ最小值选择变量;Unexplained variance :按照所有组方差之和最小值选择变量;Mahalanobis’distance:按照相邻两组的最大马氏距离选择变量;Smallest F ratio:按组间最小F值比的最大值选择变量;Rao’s V按照统计量Rao V最大值选择变量。
✧Criteria 选择逐步回归的标准(略)选择系统默认项。
5.单击Statistics 按钮,打开Statistics对话框如图4所示,从中指定输出的统计量。
✧Descriptives描述统计量栏Means -各类中各自变量的均值,标准差std Dev 和各自变量总样本的均值和标准差(本例选择)。
Univariate ANOV----对各类中同一自变量均值都相等的假设进行检验,输出单变量的方差分析结果(本例选择)。
Box’s M --对各类的协方差矩阵相等的假设进行检验(本例选择)。
图4 Statistics对话框✧Function coefficients 选择输出判别函数系数Fisherh’s 给出贝叶斯判别函数系数(本例选择)Unstandardized 给出未标准化的典型判别(也称典则判别)系数(费舍尔判别函数)。
✧Matrices 栏选择给出的自变量系数矩阵Within-groups correlation 合并类相关系数矩阵(本例选择)Within-groups covariance 合并类协方差矩阵(本例选择)Separate-groups covariance 各类协方差矩阵(本例选择)Total covariance 总协方差矩阵(本例选择)6.单击Classify按钮,打开Classify对话框如图5所示:图5 Classify对话框✧Prior Probabilities栏,选择先验概率。
All groups equal 各类先验概率相等(系统默认);Compute from groups sizes 各类的先验概率与其样本量成正比. (本例选择)✧Use Covariance Matrix 栏,选择使用的协方差矩阵Within-groups --使用合并类协方差矩阵进行分类(系统默认)(本例选择)Separate-groups --使用各类协方差矩阵进行分类✧Display栏,选择生成到输出窗口中的分类结果Casewise results 输出每个观测量包括判别分数实际类预测类(根据判别函数求得的分类结果)和后验概率等。
Summary table 输出分类的小结给出正确分类观测量数(原始类和根据判别函数计算的预测类相同)和错分观测量数和错分率(本例选择)。
Leave-one-out classification 输出交互验证结果。
✧Plots栏,要求输出的统计图Combined-groups 生成一包括各类的散点图(本例选择);Separate-groups 每类生成一个散点图;Territorial map 根据生成的函数值把各观测值分到各组的区域图。
(本例选择)6.单击Save 按钮,打开Save对话框,见图6.图6 Save对话框✧Predicted group membership 建立一个新变量,系统根据判别分数,把观测量按后验概率最大指派所属的类;(本例选择)✧Discriminant score 建立表明判别得分的新变量,该得分是由未标准化的典则判别函数计算。
(本例选择)Probabilities of group membership 建立新变量表明观测量属于某一类的概率。
有m 类,对一个观测量就会给出m 个概率值,因此建立m 个新变量。
(本例选择)全部选择完成后,点击OK,得到输出结果如下:Group Statistics 各类统计分析个体劳动者收入 1.3845 .73428 11 11.000 3 人均生活费收入(元/人)133.5150 17.11642 6 6.000人均国有经济单位职工工资76.1700 6.06280 6 6.000 人均来源于国有经济单位标准工资44.3033 .91825 6 6.000 人均集体所有制工资收入20.3333 4.09031 6 6.000 人均集体所有制职工标准工资12.4783 3.04592 6 6.000 人均各种奖金、超额工资(国有+集体) 20.3033 5.39344 6 6.000人均各种津贴(国有+集体) 13.2732 4.34722 6 6.000 均从工作单位得到的其他收入10.1500 2.80907 6 6.000个体劳动者收入 1.9233 1.11631 6 6.000 Total 人均生活费收入(元/人)125.4796 22.22549 28 28.000 人均国有经济单位职工工资82.7143 12.09003 28 28.000 人均来源于国有经济单位标准工资49.4636 6.09033 28 28.000 人均集体所有制工资收入12.3282 5.36546 28 28.000 人均集体所有制职工标准工资7.7046 3.54143 28 28.000 人均各种奖金、超额工资(国有+集体) 16.5630 6.10883 28 28.000 人均各种津贴(国有+集体) 15.9147 5.54104 28 28.000均从工作单位得到的其他收入9.0811 2.98513 28 28.000 个体劳动者收入 1.6136 1.26601 28 28.000a The covariance matrix has 25 degrees of freedom.3 人均生活费收入(元/人)292.972 38.451 14.013 37.178 13.567 78.758 -8.776 29.547 16.466 人均国有经济单位职工工资38.451 36.758 2.665 -13.730 -14.286 16.990 19.297 3.658 4.120人均来源于国有经济单位标准工资14.013 2.665 .843 1.649 .400 4.905 -.783 1.806 .732人均集体所有制工资收入37.178 -13.730 1.649 16.731 11.802 8.488 -15.180 5.753 .532人均集体所有制职工标准工资13.567 -14.286 .400 11.802 9.278 1.340 -11.632 3.026 -.549人均各种奖金、超额工资(国有+集体)78.758 16.990 4.905 8.488 1.340 29.089 -3.967 10.556 4.171人均各种津贴(国有+集体)-8.776 19.297 -.783 -15.180 -11.632 -3.967 18.898 -2.998 1.312 均从工作单位得到的其他收入29.547 3.658 1.806 5.753 3.026 10.556 -2.998 7.891 .680个体劳动者收入16.466 4.120 .732 .532 -.549 4.171 1.312 .680 1.246Tot al人均生活费收入(元/人)493.973 182.382 51.722 40.606 15.154 123.390 24.245 39.841 1.513 人均国有经济单位职工工资182.382 146.169 52.685 -20.328 -19.362 40.532 42.118 11.447 2.648 人均来源于国有经济单位标准工资51.722 52.685 37.092 -12.222 -7.958 7.157 5.158 -.595 -.133人均集体所有制工资收入40.606 -20.328 -12.222 28.788 18.414 15.043 -11.572 5.872 -.720人均集体所有制职工标准工资15.154 -19.362 -7.958 18.414 12.542 6.755 -10.523 2.711 -1.031 人均各种奖金、超额工资(国有+集体)123.390 40.532 7.157 15.043 6.755 37.318 1.737 13.194 .106人均各种津贴(国有+集体)24.245 42.118 5.158 -11.572 -10.523 1.737 30.703 .708 2.548 均从工作单位得到的其他收入39.841 11.447 -.595 5.872 2.711 13.194 .708 8.911 .335 个体劳动者收入 1.513 2.648 -.133 -.720 -1.031 .106 2.548 .335 1.603a The total covariance matrix has 27 degrees of freedom.标准文案Box's Test of Equality of Covariance Matrices 协方差矩阵相等的检验Log Determinants分类RankLog Determinant1914.087291.5733.(a).(b)Pooled within-groups915.603The ranks and natural logarithms of determinants printed are those of the group covariance matrices.a Rank < 6b Too few cases to be non-singular Test Results(a)检验结果Box's M FApprox.195.630 2.155df145df21314.073Sig..000Tests null hypothesis of equal population covariance matrices.a Some covariance matrices are singular and the usual procedure will not work. The non-singular groups will betested against their own pooled within-groups covariance matrix. The log of its determinant is 17.611.注意,检验没有通过,即各类的协方差相等的假设在显著性水平下是不成立的。