判别分析作业3
- 格式:doc
- 大小:100.00 KB
- 文档页数:5
判别分析与聚类分析不同。
判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。
表3-1 分析案例处理摘要未加权案例N 百分比有效28 90.3排除的缺失或越界组代码 3 9.7至少一个缺失判别变量0 .0缺失或越界组代码还有至少一个缺失判别变量0 .0合计 3 9.7合计31 100.0注:参与判别分析的观测量数据总结,共有31个样品,其中3个样品为待判样品。
表3-2 组统计量案例的类别号均值标准差有效的 N(列表状态)未加权的已加权的1 农业1359.700 342.1673 13 13.000林业146.517 73.3137 13 13.000牧业895.907 333.6804 13 13.000渔业304.403 310.4489 13 13.0002 农业408.396 315.2450 10 10.000林业37.247 49.3953 10 10.000牧业203.285 128.0568 10 10.000渔业39.380 61.9882 10 10.0003 农业2821.154 591.4155 5 5.000林业124.150 69.0856 5 5.000牧业1717.854 429.8756 5 5.000渔业525.066 463.0711 5 5.000合计农业1280.923 928.0349 28 28.000林业103.498 80.6531 28 28.000牧业795.318 612.0639 28 28.000渔业249.156 328.2521 28 28.000 分类统计结果:均值、方差、未加权的权重和加权的权重,从表3-2中可以看出“农业”最发达的处在第3类中;“林业”最发达的处在第1类中;“牧业”相对比较发达的处在第3类中;“渔业”比较发达的处在第3类中.表3-3 汇聚的组内矩阵a农业林业牧业渔业协方差农业147937.808 32.329 53946.036 38237.523林业32.329 4221.968 763.564 5011.382牧业53946.036 763.564 88914.814 -1202.757渔业38237.523 5011.382 -1202.757 81954.578相关性农业 1.000 .001 .470 .347林业.001 1.000 .039 .269牧业.470 .039 1.000 -.014渔业.347 .269 -.014 1.000a. 协方差矩阵的自由度为 25。
1. 为明确诊断出小儿肺炎三种类型, 某研究单位测得30名结核性、12名化脓性和18细菌性肺炎患儿共60名的7项生理、生化指标(见下表), 试进行判别分析。
三种类型小儿肺炎7项生理、生化指标观测结果X1 X2 X3 X4 X5 X6 X7 肺炎类型X1 X2 X3 X4 X5 X6 X7肺炎类型问题:(1)建立判别函数;(2)判别回代后的正确判断率为多少?(3)现有两个未知类别的小儿肺炎患者,他们的7项指标分别为:4.0、1、0、0、0、7.0、4.571和18.0、1、0、0、0、60.0、1.727,分别判断他们的类别。
操作:开始建数据库的时候就把(3)的数据输入直接参与操作analyse--classify——Discriminant 肺炎类型放入grouping 其余为自变量其中define range 填入组别最大最小值分别为1 和3Statistics 里面,fisher’s为bayes判别选择fisher’s Classify——display——summary table显示结果Save —(全选)—predicted group membership新数据的预测分类Probabilities of group membership 回代正确率Discriminant scores 判别得分结果中:classification function coefficients下标为fisher’s linear分为几类就有几个判别函数:y=0.033x1+1.617x2+…..Classification rescult’s 下标的88.3%为正确率2. 下表是10名健康人(group=1)和6名心肌梗塞患者(group=2)的三个心电图指标(X1,X2,X3)。
试进行判别分析。
group X1 X2 X31 436.70 49.59 2.321 290.67 30.02 2.461 352.53 36.23 2.361 340.91 38.28 2.441 332.83 41.92 2.281 319.97 31.42 2.491 361.31 37.99 2.021 366.5 39.87 2.421 292.56 26.07 2.161 276.84 16.60 2.912 510.47 67.64 1.732 510.41 62.71 1.582 470.30 54.40 1.682 364.12 46.26 2.092 416.07 45.37 1.902 515.70 84.59 1.75问题:(1)建立判别函数;(2)判别回代后的正确判断率为多少?(3)现有一人,他的3项指标为:420.50、32.42、1.98,判断他是健康人还是心肌梗塞患者?操作与上相同,要注意的是:F判别对数据分布无要求,适用于两组判别分析;B要求数据为多元正态分布,适用于多组判别分析。
判别分析练习题判别分析练习题在统计学中,判别分析是一种用于分类和预测的方法。
它通过对不同类别的样本进行分析,构建一个分类模型,以便将未知样本分配到正确的类别中。
判别分析在各个领域都有广泛的应用,如医学诊断、金融风险评估等。
下面我将给大家提供一些判别分析的练习题,希望能够帮助大家更好地理解和应用这一方法。
1. 假设有两个类别的样本,每个样本都有两个变量。
已知两个类别的样本均值和协方差矩阵如下:类别1:均值为(1, 2),协方差矩阵为[[2, 1], [1, 2]]类别2:均值为(3, 4),协方差矩阵为[[3, 1], [1, 3]]现有一个未知样本(2, 3),请利用判别分析方法判断该样本属于哪个类别。
解答:首先,我们需要计算两个类别的判别函数值。
对于类别1,判别函数为:g1(x) = -0.5 * (x - μ1) * Σ1^-1 * (x - μ1)T - 0.5 * ln(|Σ1|) + ln(P1)其中,x为未知样本,μ1为类别1的均值,Σ1为类别1的协方差矩阵,P1为类别1的先验概率。
类似地,对于类别2,判别函数为:g2(x) = -0.5 * (x - μ2) * Σ2^-1 * (x - μ2)T - 0.5 * ln(|Σ2|) + ln(P2)其中,μ2为类别2的均值,Σ2为类别2的协方差矩阵,P2为类别2的先验概率。
根据给定的均值和协方差矩阵,我们可以计算出:μ1 = (1, 2), Σ1 = [[2, 1], [1, 2]]μ2 = (3, 4), Σ2 = [[3, 1], [1, 3]]假设两个类别的先验概率相等,即P1 = P2 = 0.5。
将未知样本(2, 3)代入判别函数中,可以计算出:g1(2, 3) = -4.5g2(2, 3) = -5.5由于g2(2, 3)的值较小,所以未知样本更有可能属于类别2。
2. 现有一个三类别的样本,每个样本有三个变量。
已知三个类别的样本均值和协方差矩阵如下:类别1:均值为(1, 2, 3),协方差矩阵为[[2, 1, 1], [1, 2, 1], [1, 1, 2]]类别2:均值为(4, 5, 6),协方差矩阵为[[3, 1, 2], [1, 3, 2], [2, 2, 3]]类别3:均值为(7, 8, 9),协方差矩阵为[[4, 1, 2], [1, 4, 2], [2, 2, 4]]现有一个未知样本(3, 4, 5),请利用判别分析方法判断该样本属于哪个类别。
SPSS操作方法:判别分析例题为研究1991年中国城镇居民月平均收入状况,按标准化欧氏平方距离、离差平方和聚类方法将30个省、市、自治区.分为三种类型。
试建立判别函数,判定广东、西藏分别属于哪个收入类型。
判别指标及原始数据见表9-4。
1991年30个省、市、自治区城镇居民月平均收人数据表单位:元/人 x1:人均生活费收入 x6:人均各种奖金、超额工资(国有+集体) x2:人均国有经济单位职工工资 x7:人均各种津贴(国有+集体)x3:人均来源于国有经济单位标准工资x8:人均从工作单位得到的其他收入x4:人均集体所有制工资收入 x9:个体劳动者收入5贝叶斯判别的SPSS操作方法:1. 建立数据文件2.单击Analyze→ Classify→ Discriminant,打开Discriminant Analysis 判别分析对话框如图1所示:图1 Discriminant Analysis判别分析对话框3.从对话框左侧的变量列表中选中进行判别分析的有关变量x1~x9进入Independents 框,作为判别分析的基础数据变量。
从对话框左侧的变量列表中选分组变量Group进入Grouping Variable 框,并点击Define Range...钮,在打开的Discriminant Analysis: Define Range对话框中,定义判别原始数据的类别数,由于原始数据分为3类,则在Minimum(最小值)处输入1,在Maximum(最大值)处输入3(见图2)。
选择后点击Continue按钮返回Discriminant Analysis主对话框。
图2 Define Range对话框4、选择分析方法Enter independent together 所有变量全部参与判别分析(系统默认)。
本例选择此项。
Use stepwise method 采用逐步判别法自动筛选变量。
单击该项时Method 按钮激活,打开Stepwise Method对话框如图3所示,从中可进一步选择判别分析方法。
第五章 判别分析1、 已知两总体的概率密度分别为f 1(x )和f 2(x ),且总体的先验分布为p1=0.2,p2=0.8,误判损失为c (2|1)=50,c (1|2)=100. (1) 建立Bayes 判别准则(2) 设有一个新样品x 0满足f1(x 0)=6.3,f 2(x 0)=0.5,判定x 0的归属 解: (1)在X 处的值,判定:X ∈G 1,1()2()f x f x ≥2(1|2)1(2|1)q c q c ,即1()2()f x f x ≥8X ∈G 2,1()2()f x f x 2(1|2)1(2|1)q c q c ,即1()2()f x f x 8(2)1(0)2(0)f x f x =12.6≥8,故x 0∈G 12、某商学院在招收研究生时,以学生在大学期间的平均学分x 1与管理能力考试成绩x 2帮助录取研究生,对申请者划分为3类。
G 1:录取;G 2:未录取;G 3:待定。
下表记录了近期报考者的值和录取情况。
(1)在先验概率相等的假定下,进行Bayes 判别,并确定回代和交叉确认误判率;(2)在先验概率由样本比例计算的假定下,进行Bayes 判别,并确定回代和交叉确认误判率;(3)设有两名新申请者的(x 1,x 2)分别为(3.61,513)和(2.91,497),利用所建立判别准则判别他们应该归为哪一类? 解:(1)回代误判率:8/85=0.0941,交叉确认误判率同样为8/85=0.0941,第2号、3号、24号、30号、31号、58号、74号、75号被误判。
(2)号、30号、31号、58号、74号、75号被误判。
(3)建立Fisher线性判别准则W1=-151.902+60.431X1+0.172X2W2=-89.815+45.255X1+0.138X2W3=-110.818+53.024X1+0.137X2把(3.61,513)代入以上三式,W1=154.48991,W2=144.34955,W3=150.87964把(2.91,497)代入以上三式,W1=109.43621,W2=110.46305,W3=111.57084故第一个申请者判为W1(W1最大),第二个申请者判为W3(W3最大)。
第三章判别分析范文判别分析,也称为判别函数分析,是一种统计分析方法,旨在通过建立判别函数来确定样本的类别归属。
判别分析被广泛应用于各个领域,包括医学、经济学、社会科学等。
本章将介绍判别分析的基本原理、应用以及一些相关的方法和技巧。
3.1判别分析的基本原理判别分析的基本原理是通过在高维空间中找到一个判别函数,将样本划分为不同的组别。
这个判别函数的设计目标是使得同一组别内的样本尽可能相似,而不同组别之间的样本尽可能不同。
判别函数可以是线性或非线性的,具体的形式取决于具体的问题。
对于线性判别分析而言,判别函数可以表示为:D(x)=w'x+w0其中,x是样本的特征向量,w是权重向量,w0是一个常数。
为了找到最佳的权重向量 w,我们需要定义一个目标函数,常用的目标函数包括 Fisher 判别准则和最小误分类准则。
3.2判别分析的应用场景判别分析可以应用于多个场景,以下是一些常见的应用场景:1.医学诊断判别分析在医学领域中被广泛用于疾病的诊断和预测。
通过对患者的生理指标进行测量,可以建立一个判别函数,将患者分为患病组和健康组。
例如,在癌症诊断中,医生可以通过对患者的肿瘤大小、形状和血液指标等进行测量,来建立一个判别函数,判断患者是否患有癌症。
2.金融风险评估判别分析在金融领域中被广泛应用于风险评估。
通过对客户的个人信息、信用评级等进行分析,可以建立一个判别函数,将客户分为高风险组和低风险组。
这可以帮助银行机构评估客户的信用风险,并做出相应的贷款决策。
3.社会科学研究判别分析在社会科学研究中也有着广泛的应用。
例如,在心理学研究中,可以通过对被试者的个人特征、心理问卷得分等进行分析,来建立一个判别函数,将被试者分为不同的心理类型。
这有助于研究人员理解人类行为和心理特征之间的关系。
3.3判别分析的相关方法和技巧在进行判别分析时,有一些方法和技巧可以提高分析的准确性和可解释性。
1.特征选择在建立判别函数时,选择合适的特征是非常重要的。
判别分析作业对教科书第P133页习题6做判别分析答:上述两个表对总体数据进行了一个基本的分析,由表我们得知根据分组,不同的数据在分组之后显著性差异有所不同.在分组后55岁组死亡概率、80岁组死亡概率,有明显的差异。
答:上表我们得知,由于0.299〉0.05,所以接受原假设,即个总体之间的协方差矩阵无显著差异,即相等。
答:上表说明:得出来的一个判别式,对原方差的解释为百分之百。
答:此表为Wilks' Lambda检验,目的是检验所得判别方程的显著性,从结果看判别方程是显著的。
上面两个表为标准化判别函数的系数(判别权重)与因子载荷,通过左面两个表,我们可以清楚地揭示出各个自变量对判别函数的贡献多少。
由此我们得出此判别函数主要是根据80岁组死亡概率,来判定其属于哪组的。
答:由上述两张表,我们可以清楚地看到未标准化判别系数及各组的重心,因此我们可以计算其临界点为-1.373,0.803,从而我们可以判断位置数据应属的组。
判别方程:Y1=0.076*X6-8.77答:此为先验概率,我们假设其相等Classification Function Coefficients答:上表为三个fisher判别函数Y1=0.582X6-30.209Y2=0.878X6-67.417Y3=0.546X6-26.761答:上表为经过保存后,数据窗口所保存的简历它们的意思依次为原序号,原组数,预测组数,根据Bayes判别函数所得的得分,在第一组的可能性,在第二组的可能性,在第三组的可能性。
由此我们看到,在原组数中有4个值为缺失值,此为待被判别组,由此我们得出结论。
根据判别函数我们推测原未知组1号,推断为属于第二组,原未知组2号,推断为属于第三组,原未知组3号,推断为属于第二组,原未知组4号,推断为属于第一组,判别结束。
判别分析法
一、筛选变量
1、通过单因素方差分析剔除不显著变量:在SPSS软件中建立变量和已知数据表,通过Analyze-Classify-Discriminant进入判别分析对话框,由题意知分组变量group即为因变量,其范围定义为:最小值1,最大值2。
自变量为X1、X
2、X
3、X4,通过勾选Statistics选项中的单因素方差分析得到表3-1如下
3-1
由表中可看出收益性指标(X2)和生产效率指标(X4)的显著性水平均大于0.05,接受原假设,即这两个判别变量在各组间差异不显著,所以剔除X2、X4。
2、对判别变量选择逐步进入,得到表3-2至3-4
(3-2)
(3-3)
(3-4)
表3-2至3-3表示逐步判别法中每一步进入的变量;表3-4表示最终删除的变量,通过上表可以明显地看出最终删除的变量是收益性指标(X2)和生产效率指标(X4)。
二、判别分析
1.Box’s 检验:通过第一步将不显著变量剔除后,在SPSS软件中勾选Box’s M判断协方差阵是否相等,得到表3-5和3-6
(3-5)
(3-6)
表3-5反映的是协方差矩阵的秩和行列式的对数值,由行列式的值可以看出,协方差阵不是病态矩阵。
由表3-6可以看出总体协方差矩阵检验的P值0.01<0.05,拒绝原假设,即总体协方差阵不相等。
所以将Winthin-groups换为Separate-groups看两种协方差阵是否存在显著差异,结果表明两种方法没有差异,因此任选一种继续进行判别。
2、Fisher判别
通过在软件中选择非标准化判别得到表3-7至3-12
(3-7)
(3-8)
(3-9)
(3-10)
(3-11)
(3-12)
表3-11是非标准化的判别函数,由此可以写出判别函数的表达式:
y=-1.823+2.321*X1+0.777*X3
表3-7和3-8分析的是典型判别函数,其中表3-7反映了判别函数的特征值、解释方差的比例和典型相关系数,从表中可清楚的看出只有一个判别函数,而且它解释了100%的方差。
表3-8是对判别函数的显著性检验,由表中的P值可以看出显著的小于0.05,即该判别函数的检验是显著的。
表3-9是标准化的判别函数,标准化变量的系数是判别权重,表3-10是结构矩阵,即判别载荷。
从这两个表中可以看出判别变量对判别函数的影响大小,绝对值越大的影响越大,因此从表中系数可以看出短期支付能力(X3)对判别函数的影响要大于总负债率(X1)对判别函数的影响。
(3-13)
表3-13是分类矩阵表,这里交叉验证是“留一个在外”的。
即,每个观测都是通过除了这个观测以外的其他观测所推导出的判别函数来分类的。
由该表交错验证法得到的数据可以看出,在17个破产企业中有14个被判对,判对率为
82.4%;21个正常运行企业中有17个被判对,判对率为81%。
所以在38个企业中,共有31个企业的分类是正确的,故原始数据的判对率为31/38=94.7%。
由表3-13中的原始数据(original)中还可以看出8个待判企业中有4个第1类的,4个第2类的。
将待判的八个企业的X1和X3的值分别带入判别方程
计算得到y1、y2、 y3…… y8然后分别计算与表3-12的两种类型的重心的距
离,哪个距离小就判给哪一类,通过对save中的选项的勾选可以在SPSS数据表中输出待判企业的分类结果为前4个待判企业被判为第1类,后4个待判企业被判为第2类。