判别分析实例
- 格式:doc
- 大小:224.50 KB
- 文档页数:20
例:研究某年全国各地区农民家庭收支的分布规律,根据抽样调查资料进行分类,共抽取28个省、市、自治区的六个指标数据。
先采用聚类分析,将28个省、市、自治区分为三组。
北京、上海、广州3个城市属于待判样本。
(家庭收支.sav)1.选中判别分析,2.选择Fisher 即bayes判别分析方法,易混!!!3.确定组别4. 选择保存结果5. 模型检验(即判别准确率)重要结果分类函数系数类别1 2 3食品.480 .473 .429 衣着 1.612 1.354 .933 燃料 2.421 2.189 .777 住房.555 .335 .052 用品及其它 1.032 .580 .847 文化支出 5.387 5.446 4.317(常量) -117.620 -89.052 -53.616Fisher 的线性判别式函数按照案例顺序的统计量案例数目实际组最高组第二最高组判别式得分预测组P(D>d |G=g)P(G=g| D=d)到质心的平方Mahalanobis距离组P(G=g| D=d)到质心的平方Mahalanobis距离函数1函数2 p df初始 1 1 1 .320 2 1.000 2.282 2 .000 22.754 3.163 -2.7172 1 1 .799 2 1.000 .449 2 .000 17.611 3.559 -1.6593 1 2**.095 2 .688 4.705 1 .312 6.283 2.737 1.2754 1 1 .797 2 .984 .453 2 .016 8.670 2.855 -.5695 1 1 .504 2 1.000 1.372 2 .000 20.770 4.205 -1.4616 1 1 .313 2 .996 2.321 2 .004 13.305 1.847 -2.1317 2 2 .788 2 .986 .476 1 .011 9.482 .566 .5958 2 2 .405 2 .992 1.806 1 .008 11.456 1.756 1.9139 2 2 .532 2 .987 1.263 1 .013 9.942 1.645 1.60710 2 2 .451 2 .999 1.593 1 .001 15.008 1.358 2.26911 2 2 .826 2 .984 .383 1 .015 8.758 .816 .71812 2 2 .769 2 .994 .524 1 .006 10.742 1.252 1.52313 2 2 .378 2 .861 1.945 3 .139 5.594 -.611 .53914 2 2 .219 2 .639 3.034 3 .361 4.179 -1.036 .60515 2 2 .304 2 .941 2.379 3 .059 7.903 -.943 1.59616 2 2 .935 2 .997 .134 1 .003 12.046 .874 1.48517 3 3 .387 2 .994 1.899 2 .006 12.039 -1.570 -1.44818 3 3 .801 2 1.000 .443 2 .000 19.449 -3.157 -1.07619 3 3 .413 2 .991 1.767 2 .009 11.104 -1.531 -1.30320 3 3 .570 2 .984 1.124 2 .016 9.398 -1.635 -.84721 3 3 .880 2 .997 .255 2 .003 11.791 -2.562 -.12822 3 3 .826 2 .993 .383 2 .007 10.155 -2.282 -.14023 3 3 .130 2 1.000 4.077 2 .000 29.305 -4.643 -.18324 3 3 .078 2 .995 5.095 2 .005 15.558 -3.369 1.52625 3 3 .323 2 1.000 2.260 2 .000 25.638 -3.294 -1.98926 未分组的1 .0002 1.000 20.223 2 .000 62.899 7.054 -3.27827 未分组的1 .0002 1.000 82.160 2 .000 150.236 11.796 -3.63028 未分组的1 .0052 1.000 10.431 2 .000 25.808 5.621 .759交叉验证a 1 1 1 .349 6 1.000 6.707 2 .000 27.3012 1 1 .025 6 .999 14.400 2 .001 29.4123 1 2**.087 6 1.000 11.051 1 .000 37.7404 1 1 .233 6 .900 8.064 2 .100 12.4595 1 1 .136 6 1.000 9.738 2 .000 28.7186 1 1 .182 6 .975 8.851 2 .025 16.1797 2 2 .249 6 .945 7.850 1 .043 14.0428 2 2 .734 6 .984 3.575 1 .016 11.8079 2 2 .039 6 .880 13.285 1 .120 17.26810 2 2 .078 6 .996 11.349 1 .004 22.46511 2 2 .701 6 .967 3.819 1 .031 10.68312 2 2 .461 6 .984 5.669 1 .016 13.90313 2 3**.129 6 .703 9.898 2 .297 11.62214 2 3**.444 6 .684 5.820 2 .316 7.36815 2 2 .123 6 .635 10.047 3 .365 11.15116 2 2 .000 6 .878 35.006 1 .121 38.97317 3 3 .114 6 .955 10.252 2 .044 16.40718 3 3 .925 6 1.000 1.939 2 .000 20.37119 3 3 .288 6 .959 7.373 2 .041 13.67820 3 3 .652 6 .963 4.186 2 .037 10.70721 3 3 .526 6 .991 5.139 2 .009 14.63422 3 3 .834 6 .986 2.792 2 .014 11.30223 3 3 .101 6 1.000 10.616 2 .000 39.41124 3 3 .018 6 .917 15.261 2 .083 20.05725 3 3 .268 6 1.000 7.611 2 .000 32.555对初始数据来说,平方Mahalanobis 距离基于典则函数。
判别分析练习题判别分析练习题在统计学中,判别分析是一种用于分类和预测的方法。
它通过对不同类别的样本进行分析,构建一个分类模型,以便将未知样本分配到正确的类别中。
判别分析在各个领域都有广泛的应用,如医学诊断、金融风险评估等。
下面我将给大家提供一些判别分析的练习题,希望能够帮助大家更好地理解和应用这一方法。
1. 假设有两个类别的样本,每个样本都有两个变量。
已知两个类别的样本均值和协方差矩阵如下:类别1:均值为(1, 2),协方差矩阵为[[2, 1], [1, 2]]类别2:均值为(3, 4),协方差矩阵为[[3, 1], [1, 3]]现有一个未知样本(2, 3),请利用判别分析方法判断该样本属于哪个类别。
解答:首先,我们需要计算两个类别的判别函数值。
对于类别1,判别函数为:g1(x) = -0.5 * (x - μ1) * Σ1^-1 * (x - μ1)T - 0.5 * ln(|Σ1|) + ln(P1)其中,x为未知样本,μ1为类别1的均值,Σ1为类别1的协方差矩阵,P1为类别1的先验概率。
类似地,对于类别2,判别函数为:g2(x) = -0.5 * (x - μ2) * Σ2^-1 * (x - μ2)T - 0.5 * ln(|Σ2|) + ln(P2)其中,μ2为类别2的均值,Σ2为类别2的协方差矩阵,P2为类别2的先验概率。
根据给定的均值和协方差矩阵,我们可以计算出:μ1 = (1, 2), Σ1 = [[2, 1], [1, 2]]μ2 = (3, 4), Σ2 = [[3, 1], [1, 3]]假设两个类别的先验概率相等,即P1 = P2 = 0.5。
将未知样本(2, 3)代入判别函数中,可以计算出:g1(2, 3) = -4.5g2(2, 3) = -5.5由于g2(2, 3)的值较小,所以未知样本更有可能属于类别2。
2. 现有一个三类别的样本,每个样本有三个变量。
已知三个类别的样本均值和协方差矩阵如下:类别1:均值为(1, 2, 3),协方差矩阵为[[2, 1, 1], [1, 2, 1], [1, 1, 2]]类别2:均值为(4, 5, 6),协方差矩阵为[[3, 1, 2], [1, 3, 2], [2, 2, 3]]类别3:均值为(7, 8, 9),协方差矩阵为[[4, 1, 2], [1, 4, 2], [2, 2, 4]]现有一个未知样本(3, 4, 5),请利用判别分析方法判断该样本属于哪个类别。
实验、判别分析
一、实验名称:判别分析
二、实验目的:通过本实验掌握使用SPSS进行判别分析
三、实验过程:
1.判断解释变量是属性变量而解释变量是度量变量。
2.判断各组的变量得协方差矩阵相等,并用很简单的公式来计算判别函数和进行显著性检验。
3. 各判别变量间具有多元正态分布,精确计算显著性检验值和分组归属的概率。
四、分析结果:
特征值
函数特征值方差的 % 累积 % 正则相关性
1 18.207a91.6 91.6 .974
2 1.460a7.
3 98.9 .770
3 .212a 1.1 100.0 .419
a. 分析中使用了前 3 个典型判别式函数。
从表显示出典型分析最终形成三个判别函数,判别函数F1的特征值为18.207,判别函数F2的特征值为1.460,判别函数F3的特征值为0.212.可见判别函数F1的判别能力大于F2和F3。
该表是非标准化的典型判别函数系数,写成函数为:
对原始数据中未进行分类的职工进行典型的判别分析。
得到结果如上图,可知职工号为26、27、28三个职工分别被判入了第三类和第四类。
数据:
表示工作产量,表示工作质量,表示工作出勤
表示工作损耗,表示工作态度,表示工作能力
五、心得体会:
通过判别,我们知道了当遇到需要识别一个个体所属类别的情况时,就能够运用自己所学的判别分析的知识,去解决这一类的问题,并能够准确的将其分类,甚至在遇到多重共线性问题,也能使用判别分析来解决。
通过此次的报告过程,我们对判别分析有了更进一步得认识,受益颇多。
判别分析实例 例:人文与发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。该报告建议,目前对人文发展的衡量指标应当以人生的三大要素为重点。衡量人生的三大要素的指标分别为:实际人均GDP指数、出生时的预期寿命指数、受教育程度指数(由成人识字率指数和综合总人学率指数按2/3、1/3的权重加权而得),将一生三个指数合成为一个指数就是人文发展指数。今从2007年世界各国人文发展指数(2005年)的排序中,选取高发展水平、中等发展水平和低发展水平国家各6个作为三组样品,另选四个国家作为待判样品,资料如下表所示。试用判别分析过程对以下数据资料进行判别分析,并据此对待选的四个国家进行判别归类。 国家 人均GDP(美元) 出生时的预期寿命(岁) 成人识字率(%) 初等、中等和高等教育入学率(%) 第一类:高发展美国 41890 77.9 99.5 93.3 德国 29461 79.1 99.2 88 希腊 23381 78.9 96 99 水平国家 新加坡 29663 79.4 92.5 87.3 意大利 28529 80.3 98.4 90.6 韩国 22029 77.9 99 96 第二类:中等发展水平国家 古巴 6000 77.7 99.8 87.6 罗马尼亚 9060 71.9 97.3 76.8
巴西 8402 71.7 88.6 87.5 泰国 8677 69.6 92.6 71.2 菲律宾 5137 71 92.6 81.1
土耳其 8407 71.4 87.4 68.7 第三类:低发展水平国家 尼泊尔 1550 62.6 48.6 58.1 尼日利亚 1128 46.5 69.1 56.2 喀麦隆 2299 49.8 67.9 62.3 巴基斯坦 2370 64.6 49.9 40 越南 3071 73.7 90.3 63.9 印度尼西亚 3843 69.7 90.4 68.2
待判组 日本 31267 82.3 99 85.9 印度 3452 63.7 61 63.8 中国 6757 72.5 90.9 69.1 南非 11110 50.8 82.4 77
data develop; input type gdp life rate zhrate@@; cards; 1 41890 77.9 99.5 93.3 1 29461 79.1 99.2 88 1 23381 78.9 96 99 1 29663 79.4 92.5 87.3 1 28529 80.3 98.4 90.6 1 22029 77.9 99 96 2 6000 77.7 99.8 87.6 2 9060 71.9 97.3 76.8 2 8402 71.7 88.6 87.5 2 8677 69.6 92.6 71.2 2 5137 71 92.6 81.1 2 8407 71.4 87.4 68.7 3 1550 62.6 48.6 58.1 3 1128 46.5 69.1 56.2 3 2299 49.8 67.9 62.3 3 2370 64.6 49.9 40 3 3071 73.7 90.3 63.9 3 3843 69.7 90.4 68.2 . 31267 82.3 99 85.9 . 3452 63.7 61 63.8 . 6757 72.5 90.9 69.1 . 11110 50.8 82.4 77 ; proc discrim simple wcov distance list;/*simple:要求技术各类样品的简单描述统计量;选项WCOV要求计算类内协方差阵;选项DISTANCE要求计算马氏距离;选项LIST要求输出重复替换归类结果。由于没有给出方法选项,所以系统按缺省时的正态分布进行有关参数的估计和归类。*/ class type; var gdp life rate zhrate; run;
proc discrim pool=test slpool=0.05 list; /*simple: */ class type; priors '1'=0.3 '2'=0.4 '3'=0.3 ; run;
proc discrim method=npar k=2 list; /*simple: */ class type; run;
proc candisc out=result ncan=2; /*simple: */ class type; var gdp life rate zhrate; run; proc gplot data=reult; plot can1*can2=type; run; proc discrim data=result distance list; class type; var can1 can2; run;
表1 已知样本分类水平信息 表2 样本统计量信息 表3 类间距离及三类总体均值差异的显著性检验
表3给出了类1与类2之间的马氏距离为37.58288,类1与类3之间的马氏距离为75.97603,类2与类3之间的马氏距离为10.91428.类与类之间总体均值的F检验统计量值分布为22.54978,45.58562,22.54973,对应的检验概率分别为<0.0001, <0.0001,<0.0001, 说明三类总体均值两辆之间的差异是显著的,因此判别分析有意义。 表4 线形判别函数 由表4可写出线形判别函数如下: 高发展水平:y1=-157.18932+0.00204gdp+1.66582life-0.37085rate+1.72851zhrate 中等发展水平Y2=-99.12840+0.0006250gdp+1.49389life-0.09262rate+1.19559zhrate 低发展水平:Y3=-62.22473+0.0002576gdp+1.31631life-0.08940rate+0.85253zhrate
表5:用距离判别法判别分析结果 由表5得,最后四个观测的归类结果为19
号(日本)观测为高发展水平国家,第20号(印度)为第3类,即低发展水平国家,21号(中国)和22号(南非)归为中等发展水平国家。
表6 距离判别法判别分析结果小结 表6给出了分类错误信息,由输出结果可知分类错误的比率为0,即正确的比率为100%。
本程序中第二个判别分析过程的选项“pool=test”,要求进行类内协方差阵一致性检验,检验的显著性水平由选项”slpool=0.05”给出为0.05. priors语句给出了各发展水平国家的先验概率。 表7 分类信息及类内协方差阵一致性检验结果 表7表明3个类的先验概率分别为0.3,0.4,0.3,类内协方差阵行列式的自然对数不相等,表明类内协方差阵不相等,而卡方统计量值为46.068898,对应的概率是0.0008,在0.05的显著性水平下是显著的,即类内协方差阵存在显著差异。由于类内协方差阵不等,所以判别函数应是二次函数。
表8 类间配对广义马氏距离 由表8可知,类内广义马氏距离不再为0,而且类间的广义马氏距离也不再相等,因而类内协方差和先验概率对后验概率的计算是起作用的。
表9 用 Bayes判别法得到的判别分析部分结果 由表9可知,用BAYES判别法对待判样品的判别结果与距离判别法结果一致。
本程序中的第三个过程要求进行非参数分析,即对类密度函数进行非参数估计。选项K=2要求用最近邻的两个样品进行密度函数估计,选项list要求输出重复替换归类结果。该过程运行 结果如下: 表10 用NPAR方法得到的判别分析部分结果
由表10可知,4个待判的样品中19号和21号归类结果与BAYES判别归类结果是一致的,但20号和22号所属类别则不能确定,这是与前面2中判别方法结果不一致的地方。 第四种FISHER判别:第一个过程执行典型判别分析。第二个过程要求绘制第一个典型变量CAN1和第二个典型变量CAN2的散点图,以便更加直观了解分类情况。第一、二个过程输出结果如下:
表11 典型相关的多变量检验结果
由上表对相关阵的显著性检验结果可知,至少有
表12 典型相关与特征值 上表可知,第一典型相关为0.969875,而第二典型相关为0.653396。第一个特征值为15.8514,所占比例为95.51%,第二个特征值为0.7450,所占比例仅有4.49%,说明只需用第一个典型变量即可。
表13 原始变量的典型相关系数
由表12可得两个典型变量分别为: CAN1=0.0002096544gdp+0.0382960552life-0.0346472260rate+0.0988009134zhrate Can2=-0.0001135485gdp+0.0394378902life+0.0500655661rate+0.0390500134zhrate