判别分析实例
- 格式:doc
- 大小:251.00 KB
- 文档页数:14
图1由前面分析发现,协方差矩阵不等,可以考虑采用Separate-groups协方差矩阵。
输出结果表1-10:分類結果a被解释变量預測的群組成員資格總計Setosa 鸢尾花Versico-lor 鸢尾花Virginica 鸢尾花原始計數Setosa 鸢尾花50 0 0 50 Versico-lor 鸢尾花0 47 3 50Virginica 鸢尾花0 1 49 50 %Setosa 鸢尾花100.0 .0 .0 100.0 Versico-lor 鸢尾花.0 94.0 6.0 100.0 Virginica 鸢尾花.0 2.0 98.0 100.0a. 97.3% 個原始分組觀察值已正確地分類。
图2分類處理摘要已處理31 已排除遺漏或超出範圍群組代碼0至少一個遺漏識別變數0已在輸出中使用31群組的事前機率地区在前分析中使用的觀察值未加權加權1 .3332 2.0002 .333 2 2.0003 .333 1 1.000總計 1.000 5 5.000分類函數係數地区1 2 3人均食品支出.014 -.004 .021 人均衣着支出-.058 .024 -.092 (常數)-10.708 -3.645 -19.157 費雪 (Fisher) 線性區別函數图4 分類結果a地区預測的群組成員資格總計1 2 3原始計數 1 2 0 0 22 0 2 0 23 1 0 0 1未分組的觀察值8 18 0 26% 1 100.0 .0 .0 100.02 .0 100.0 .0 100.03 100.0 .0 .0 100.0未分組的觀察值30.8 69.2 .0 100.0a. 80.0% 個原始分組觀察值已正確地分類。
由表1-10可以看出,通过判别函数预测,有146个观测是分类正确的,其中,y=1组50个观测全部被判对,y=2组50个观测中有47个被判对,y=3组50个观测中有49个被判对,从而有97.3%的原始观测被判对。
Wilks的Lambda函数检验Wilks的Lambda 卡方df Sig.1到2 .025 538.950 8 .0002 .774 37.3513 .000标准化的典型判别式函数系数函数1 2花萼长-.346 .039花萼宽-.525 .742花瓣长.846 -.386花瓣宽.613 .555=0.613-⨯⨯0.8460.525+.0346-1花萼长z花萼宽花瓣长⨯z花瓣宽+zD⨯z=0.555⨯0.386⨯0.742⨯20.039-+花萼宽花瓣长花瓣宽+花萼长zD⨯zzz结构矩阵函数1 2花瓣长.726*.165花萼宽-.121 .879*花瓣宽.651 .718*花萼长.221 .340*判别变量和标准化典型判别式函数之间的汇聚组间相关性按函数内相关性的绝对大小排序的变量。
*.每个变量和任意判别式函数间最大的绝对相关性典型判别式函数系数0.155=0.299---.01.2526⨯0630.196花萼长zz花萼宽⨯花瓣宽z花瓣长⨯z++D⨯=0.2710.089-+-0.0072.6978⨯0.218花萼宽z+花瓣长花瓣宽z花萼长z⨯⨯+D⨯z区域图典则判别函数2-16.0-12.0-8.0-4.0.04.08.012.016.0+---------+---------+---------+---------+---------+---------+---------+---------+16.0+13+I13II13II123II123II1223I12.0++++1223++++I1223II1223II1223II1223II1223I8.0++++12+23++++I1223II1223II1223II1223II1223I4.0++++12+23++++I1223II1223II1223II1223II1223*I.0+++*+12+23+++I12*23II1223II1223II1223II1223I-4.0++++12++23+++I1223II1223II1223II1223II1223I-8.0++++12++23+++I1223II1223II1223II1223II1223I-12.0+++12++23++I1223II1223II1223II1223II1223I-16.0+1223++---------+---------+---------+---------+---------+---------+---------+---------+-16.0-12.0-8.0-4.0.04.08.012.016.0典则判别函数1区域图中使用的符号符号组标签--------------------11刚毛鸢尾花22变色鸢尾花33佛吉尼亚鸢尾花*表示一个组质心。
例1. 现有分别来自总体A 和总体B 的两组随机样本,样本量分别为5和6,样本均值分别为⎪⎪⎭⎫⎝⎛00和⎪⎪⎭⎫⎝⎛23,样本离差阵分别为⎪⎪⎭⎫⎝⎛4004和⎪⎪⎭⎫ ⎝⎛5005.2。
今欲判别一个新样本⎪⎪⎭⎫⎝⎛2.11来自哪一个总体:(1). 请使用距离判别法(采用马氏距离)对上述新样本进行判别(不假设两个总体有相同的自协方差阵)。
(2). 请采用Fisher 判别法求出判别函数,并利用此判别函数对上述新样本进行判别。
解答:(1)、先求取新样本到不同总体均值的马氏距离: 44.22.11002.114004151002.112212=+=⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛-'⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫⎝⎛=-AMD64.88.022232.115005.2161232.112212=+⨯=⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛-'⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫⎝⎛=-B MD显然有22B AMD MD<,故此,应判别新样本来自总体A 。
(2) 、先求取线性判别函数: ⎪⎪⎭⎫ ⎝⎛=⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛+⎪⎪⎭⎫⎝⎛=-+=--9/213/600235005.24004)()(11)2()1(A BX XSSu线性判别函数为:X X u y u '⎪⎪⎭⎫⎝⎛='=9/213/6)(。
新样本的判别函数值:7282.02.119/213/6)()0(≈⎪⎪⎭⎫⎝⎛'⎪⎪⎭⎫ ⎝⎛=X u ; 总体A 的均值的判别函数值:0)(=A X u ;总体B 的均值的判别函数值:829.1239/213/6)(≈⎪⎪⎭⎫⎝⎛'⎪⎪⎭⎫⎝⎛=B X u ; 临界值:9977.00116829.1)()(≈+⨯=+++BA B B BA A A n n n X u n n n X u ;由于)()(B A X u X u <,且7282.0)()0(≈X u 小于临界值0.9977,所以应判别新样本来自总体A 。
判别分析法案例
人们到医院就诊时,通常要化验一些指标来协助医生的诊断。
诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量。
表B.1(见附表)是确诊病例的化验结果,其中1-30号病例是已经确诊为肾炎病人的化验结果;31-60号病例是已经确诊为健康人的结果。
表B.2是就诊人员的化验结果。
问题一:根据表B.1中的数据,提出一种或多种简便的判别方法,判别属于患者或健康人的方法,并检验你提出方法的正确性。
然后按照提出的方法,判断表B.2(附表)中的30名就诊人员的化验结果进行判别,判定他(她)们是肾炎病人还是健康人。
问题二:能否根据表B.1的数据特征,确定哪些指标是影响人们患肾炎的关键或主要因素,以便减少化验的指标。
并根据得到的结果,重复判断表B.2(见附表)中的30名就诊人员是肾炎病人还是健康人。
问题三:对2和4的结果作进一步的分析。
实验、判别分析
一、实验名称:判别分析
二、实验目的:通过本实验掌握使用SPSS进行判别分析
三、实验过程:
1.判断解释变量是属性变量而解释变量是度量变量。
2.判断各组的变量得协方差矩阵相等,并用很简单的公式来计算判别函数和进行显著性检验。
3. 各判别变量间具有多元正态分布,精确计算显著性检验值和分组归属的概率。
四、分析结果:
特征值
函数特征值方差的 % 累积 % 正则相关性
1 18.207a91.6 91.6 .974
2 1.460a7.
3 98.9 .770
3 .212a 1.1 100.0 .419
a. 分析中使用了前 3 个典型判别式函数。
从表显示出典型分析最终形成三个判别函数,判别函数F1的特征值为18.207,判别函数F2的特征值为1.460,判别函数F3的特征值为0.212.可见判别函数F1的判别能力大于F2和F3。
该表是非标准化的典型判别函数系数,写成函数为:
对原始数据中未进行分类的职工进行典型的判别分析。
得到结果如上图,可知职工号为26、27、28三个职工分别被判入了第三类和第四类。
数据:
表示工作产量,表示工作质量,表示工作出勤
表示工作损耗,表示工作态度,表示工作能力
五、心得体会:
通过判别,我们知道了当遇到需要识别一个个体所属类别的情况时,就能够运用自己所学的判别分析的知识,去解决这一类的问题,并能够准确的将其分类,甚至在遇到多重共线性问题,也能使用判别分析来解决。
通过此次的报告过程,我们对判别分析有了更进一步得认识,受益颇多。
例:人文与发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。
该报告建议,目前对人文发展的衡量指标应当以人生的三大要素为重点。
衡量人生的三大要素的指标分别为:实际人均GDP指数、出生时的预期寿命指数、受教育程度指数(由成人识字率指数和综合总人学率指数按2/3、1/3的权重加权而得),将一生三个指数合成为一个指数就是人文发展指数。
今从2007年世界各国人文发展指数(2005年)的排序中,选取高发展水平、中等发展水平和低发展水平国家各6个作为三组样品,另选四个国家作为待判样品,资料如下表所示。
试用判别分析过程对以下数据资料进行判别分析,并据此对待
data develop;
input type gdp life rate zhrate@@;
cards;
1 41890 77.9 99.5 93.3
1 29461 79.1 99.
2 88
1 23381 78.9 96 99
1 29663 79.4 92.5 87.3
1 28529 80.3 98.4 90.6
1 22029 77.9 99 96
2 6000 77.7 99.8 87.6
2 9060 71.9 97.
3 76.8
2 8402 71.7 88.6 87.5
2 8677 69.6 92.6 71.2
2 5137 71 92.6 81.1
2 8407 71.4 87.4 68.7
3 1550 62.6 48.6 58.1
3 1128 46.5 69.1 56.2
3 2299 49.8 67.9 62.3
3 2370 64.6 49.9 40
3 3071 73.7 90.3 63.9
3 3843 69.7 90.
4 68.2
. 31267 82.3 99 85.9
. 3452 63.7 61 63.8
. 6757 72.5 90.9 69.1
. 11110 50.8 82.4 77
;
proc discrim simple wcov distance list;/*simple:要求技术各类样品的简单描述统计量;选项WCOV要求计算类内协方差阵;选项DISTANCE要求计算马氏距离;选项LIST要求输出重复替换归类结果。
由于没有给出方法选项,所以系统按缺省时的正态分布进行有关参数的估计和归类。
*/
class type;
var gdp life rate zhrate;
run;
proc discrim pool=test slpool=0.05list; /*simple: */
class type;
priors'1'=0.3'2'=0.4'3'=0.3 ;
run;
proc discrim method=npar k=2list; /*simple: */
class type;
run;
proc candisc out=result ncan=2; /*simple: */
class type;
var gdp life rate zhrate;
run;
proc gplot data=reult;
plot can1*can2=type;
run;
proc discrim data=result distance list;
class type;
var can1 can2;
run;
表1 已知样本分类水平信息
表2 样本统计量信息
表3 类间距离及三类总体均值差异的显著性检验
表3给出了类1与类2之间的马氏距离为37.58288,类1与类3之间的马氏距离为75.97603,类2与类3之间的马氏距离为10.91428.类与类之间总体均值的F检验统计量值分布为22.54978,45.58562,22.54973,对应的检验概率分别为<0.0001, <0.0001,<0.0001, 说明三类总体均值两辆之间的差异是显著的,因此判别分析有意义。
表4 线形判别函数
由表4可写出线形判别函数如下:
高发展水平:y1=-157.18932+0.00204gdp+1.66582life-0.37085rate+1.72851zhrate
中等发展水平Y2=-99.12840+0.0006250gdp+1.49389life-0.09262rate+1.19559zhrate
低发展水平:Y3=-62.22473+0.0002576gdp+1.31631life-0.08940rate+0.85253zhrate
表5:用距离判别法判别分析结果
由表5得,最后四个观测的归类结果为19号(日本)观测为高发展水平国家,第20号(印度)为第3类,即低发展水平国家,21号(中国)和22号(南非)归为中等发展水平国家。
表6 距离判别法判别分析结果小结
表6给出了分类错误信息,由输出结果可知分类错误的比率为0,即正确的比率为100%。
本程序中第二个判别分析过程的选项“pool=test”,要求进行类内协方差阵一致性检验,检验的显著性水平由选项”slpool=0.05”给出为0.05. priors语句给出了各发展水平国家的先验概率。
表7 分类信息及类内协方差阵一致性检验结果
表7表明3个类的先验概率分别为0.3,0.4,0.3,类内协方差阵行列式的自然对数不相等,表明类内协方差阵不相等,而卡方统计量值为46.068898,对应的概率是0.0008,在0.05的显著性水平下是显著的,即类内协方差阵存在显著差异。
由于类内协方差阵不等,所以判别函数应是二次函数。
表8 类间配对广义马氏距离
由表8可知,类内广义马氏距离不再为0,而且类间的广义马氏距离也不再相等,因而类内协方差和先验概率对后验概率的计算是起作用的。
表9 用Bayes判别法得到的判别分析部分结果
由表9可知,用BAYES判别法对待判样品的判别结果与距离判别法结果一致。
本程序中的第三个过程要求进行非参数分析,即对类密度函数进行非参数估计。
选项K=2要求用最近邻的两个样品进行密度函数估计,选项list要求输出重复替换归类结果。
该过程运行结果如下:
表10 用NPAR方法得到的判别分析部分结果
由表10可知,4个待判的样品中19号和21号归类结果与BAYES判别归类结果是一致的,但20号和22号所属类别则不能确定,这是与前面2中判别方法结果不一致的地方。
第四种FISHER判别:第一个过程执行典型判别分析。
第二个过程要求绘制第一个典型变量CAN1和第二个典型变量CAN2的散点图,以便更加直观了解分类情况。
第一、二个过程输出结果如下:
表11 典型相关的多变量检验结果
由上表对相关阵的显著性检验结果可知,至少有
表12 典型相关与特征值
上表可知,第一典型相关为0.969875,而第二典型相关为0.653396。
第一个特征值为15.8514,所占比例为95.51%,第二个特征值为0.7450,所占比例仅有4.49%,说明只需用第一个典型变量即可。
表13 原始变量的典型相关系数
由表12可得两个典型变量分别为:
CAN1=0.0002096544gdp+0.0382960552life-0.0346472260rate+0.0988009134zhrate
Can2=-0.0001135485gdp+0.0394378902life+0.0500655661rate+0.0390500134zhrate
表14 类间马氏距离及各类总体均值的显著性检验
由上表的显著性概率可知,在0.05的显著性水平下,三个类的总体均值两两显著不等。
表15 线性判别函数
由表15得3个类的线形判别函数分别为:
第一类:Y1=-12.01131+4.88922can1-0.34378can2
第二类:Y2=-1.16768-1.07130can1+1.08981can2
第三类:y3=-7.56654-3.81792can1-0.74604can2
表16 由DISCRIM利用两个典型变量进行判别部分样品归类结果
上表分类结果与前几种分类方法结果一样,总错判率为0.。