多元统计分析应用 第四章课后习题
- 格式:docx
- 大小:47.41 KB
- 文档页数:9
多元统计分析课后练习答案第1章多元正态分布1、在数据处理时,为什么通常要进⾏标准化处理?数据的标准化是将数据按⽐例缩放,使之落⼊⼀个⼩的特定区间。
在某些⽐较和评价的指标处理中经常会⽤到,去除数据的单位限制,将其转化为⽆量纲的纯数值,便于不同单位或量级的指标能够进⾏⽐较和加权。
其中最典型的就是0-1标准化和Z 标准化。
2、欧⽒距离与马⽒距离的优缺点是什么?欧⽒距离也称欧⼏⾥得度量、欧⼏⾥得度量,是⼀个通常采⽤的距离定义,它是在m 维空间中两个点之间的真实距离。
在⼆维和三维空间中的欧⽒距离的就是两点之间的距离。
缺点:就⼤部分统计问题⽽⾔,欧⽒距离是不能令⼈满意的。
每个坐标对欧⽒距离的贡献是同等的。
当坐标表⽰测量值时,它们往往带有⼤⼩不等的随机波动,在这种情况下,合理的⽅法是对坐标加权,使变化较⼤的坐标⽐变化较⼩的坐标有较⼩的权系数,这就产⽣了各种距离。
当各个分量为不同性质的量时,“距离”的⼤⼩与指标的单位有关。
它将样品的不同属性之间的差别等同看待,这⼀点有时不能满⾜实际要求。
没有考虑到总体变异对距离远近的影响。
马⽒距离表⽰数据的协⽅差距离。
为两个服从同⼀分布并且其协⽅差矩阵为Σ的随机变量与的差异程度:如果协⽅差矩阵为单位矩阵,那么马⽒距离就简化为欧⽒距离,如果协⽅差矩阵为对⾓阵,则其也可称为正规化的欧⽒距离。
优点:它不受量纲的影响,两点之间的马⽒距离与原始数据的测量单位⽆关。
由标准化数据和中⼼化数据计算出的⼆点之间的马⽒距离相同。
马⽒距离还可以排除变量之间的相关性的⼲扰。
缺点:夸⼤了变化微⼩的变量的作⽤。
受协⽅差矩阵不稳定的影响,马⽒距离并不总是能顺利计算出。
3、当变量X1和X2⽅向上的变差相等,且与互相独⽴时,采⽤欧⽒距离与统计距离是否⼀致?统计距离区别于欧式距离,此距离要依赖样本的⽅差和协⽅差,能够体现各变量在变差⼤⼩上的不同,以及优势存在的相关性,还要求距离与各变量所⽤的单位⽆关。
如果各变量之间相互独⽴,即观测变量的协⽅差矩阵是对⾓矩阵, 则马⽒距离就退化为⽤各个观测指标的标准差的倒数作为权数的加权欧⽒距离。
多元统计分析课后习题解答_第四章(共12页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--第四章判别分析简述欧几里得距离与马氏距离的区别和联系。
答:设p维欧几里得空间中的两点X=和Y=。
则欧几里得距离为。
欧几里得距离的局限有①在多元数据分析中,其度量不合理。
②会受到实际问题中量纲的影响。
设X,Y是来自均值向量为,协方差为的总体G中的p维样本。
则马氏距离为D(X,Y)=。
当即单位阵时,D(X,Y)==即欧几里得距离。
因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。
试述判别分析的实质。
答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。
设R1,R2,…,Rk 是p 维空间R p 的k 个子集,如果它们互不相交,且它们的和集为,则称为的一个划分。
判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间构造一个“划分”,这个“划分”就构成了一个判别规则。
简述距离判别法的基本思想和方法。
答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。
其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。
①两个总体的距离判别问题设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是1和 2,对于一个新的样品X ,要判断它来自哪个总体。
计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2(X ,G 2),则X ,D2(X ,G1)D 2(X ,G 2)X,D 2(X ,G 1)> D 2(X ,G 2, 具体分析,2212(,)(,)D G D G -X X111122111111111222*********()()()()2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2()22()2()---''=-++-'+⎛⎫=--- ⎪⎝⎭''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为X ,W(X)X ,W(X)<0②多个总体的判别问题。
第四章4-1 设⎪⎩⎪⎨⎧++=+-=+=,2,2,332211εεεb a y b a y a y ).,0(~323321I N σεεεε⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=(1)试求参数b a ,的最小二乘估计;(2)试导出检验b a H =:0的似然比统计量,并指出当假设成立时,这个统计量是分布是什么?解:(1)由题意可知.,,,211201321321⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⎥⎦⎤⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡-=εεεεβ b a y y y Y C 则⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡-⎪⎪⎪⎪⎭⎫ ⎝⎛⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡-⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡-==--321'1''1'211201************)(ˆy y y Y C C C β .ˆˆ)2(51)2(6132321⎥⎦⎤⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡+-++b ay y y y y (2)由题意知,检验b a H =:0的似然比统计量为23202ˆ⎪⎪⎭⎫⎝⎛=σσλ 其中,])ˆ2ˆ()ˆˆ2()ˆ[(31ˆ2322212b a y b a y a y --++-+-=σ。
当0H 成立时,设0a b a ==,则⎪⎩⎪⎨⎧+=+=+=,3,,303202101εεεa y a y a y ,311⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=C 可得,ˆ)3y (111311311311)(ˆ0321321'1''1'a y y y y y Y C C C =++=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡⎪⎪⎪⎪⎭⎫ ⎝⎛⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡==--β ],)ˆ3()ˆ()ˆ[(31ˆ20320220120a y a y ay -+-+-=σ 因此,当假设0H 成立时,与似然比统计量λ等价的F 统计量及其分布为).1,1(~ˆˆˆ2202F F σσσ-=第五章5-1 已知总体)1(=m G i 的分布为)2,1)(,(2)(=i N i i σμ,按距离判别准则为(不妨设21)2()1(,σσμμ<>)⎩⎨⎧≥≤∈<<∈,,,,**2**1μμμμx x G x x G x 或 若 若 其中 .,121221*211221*σσσμσμμσσσμσμμ--=++=)()()()( 试求错判概率)1|2(P 和)2|1(P 。
4.8 某超市经销十种品牌饮料,其中四种畅销,三种平销,三种滞销。
下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。
销售情况 产品序号销售价格 口味评分 信任度评分畅销1 2.2 5 8 2 2.5 6 73 3 3 94 3.2 8 6 平销5 2.8 76 6 3.5 87 7 4.89 8 滞销8 1.7 3 4 9 2.2 4 2 102.7 4 3(1) 根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。
(2) 现有一新品牌的饮料在该超市试销,其销售价格为3.0,顾客对其口味的评分平均为8,信任评分平均为5,试预测该饮料的销售情况。
4.9 银行的贷款部门需要判别每个客户的信用好坏(是否为履行还贷责任),以决定是否给予贷款。
可以根据贷款申请人的年龄(1X )、受教育程度(2X )、现在所从事工作的年数(3X )、未变更住址的年数(4X )、收入(5X )、负债收入比例(6X )、信用卡债务(7X )、其他债务(8X )等来判断其信用情况。
下表是从银行的客户资料中抽取的部分数据,(1)根据样本资料分别用距离判别法、贝叶斯判别法和费希尔判别法建立判别函数和判别规则。
(2)某客户的如上情况资料为(53,1,918,50,11.20,2.02,3.58),对其进行信用好坏的评。
目前信用好坏 客户序号X1 X2 X3 X4 X5 X6 X7 X8 已履行还贷责任1 23 1 72 31 6.6 0.34 1.71 2 34 1 173 59 8 1.81 2.91 3 42 2 7 23 41 4.6 0.94 0.94 4 39 1 195 48 13.1 1.93 4.36 5 35 1 9 1 34 5 0.4 1.3 未履行还贷责任6 37 1 1 3 24 15.1 1.8 1.82 7 29 1 13 1 42 7.4 1.46 1.65 8 32 2 11 6 75 23.3 7.76 9.72 9 28 2 2 3 23 6.4 0.19 1.29 1026 1 4 3 27 10.5 2.47 0.365.8 下表是15个上市公司2001年的一些主要财物指标,使用系统聚类法和K 均值法分别对这些公司进行聚类,并对结果进行比较分析。
第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。
在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
其中最典型的就是0-1标准化和Z 标准化。
2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。
在二维和三维空间中的欧氏距离的就是两点之间的距离。
缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。
每个坐标对欧氏距离的贡献是同等的。
当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。
当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。
它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。
没有考虑到总体变异对距离远近的影响。
马氏距离表示数据的协方差距离。
为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。
优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。
由标准化数据和中心化数据计算出的二点之间的马氏距离相同。
马氏距离还可以排除变量之间的相关性的干扰。
缺点:夸大了变化微小的变量的作用。
受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。
3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。
如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。
第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。
在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
其中最典型的就是0-1标准化和Z 标准化。
2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。
在二维和三维空间中的欧氏距离的就是两点之间的距离。
缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。
每个坐标对欧氏距离的贡献是同等的。
当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。
当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。
它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。
没有考虑到总体变异对距离远近的影响。
马氏距离表示数据的协方差距离。
为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。
优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。
由标准化数据和中心化数据计算出的二点之间的马氏距离相同。
马氏距离还可以排除变量之间的相关性的干扰。
缺点:夸大了变化微小的变量的作用。
受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。
3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。
如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。
第四章判别分析
习题4.8
(1)根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。
(2)现有一新品牌的饮料在该超市试销,其销售价格为3.0,顾客对其口味评分为8,信任度评分平均为5,试预测该饮料的销售情况。
将数据导入SPSS,分析得到以下结果:
1.典型判别函数的特征函数的特征值表
表1-1 特征值表
表1-1所示是典型判别函数的特征值表,只有两个判别函数,所以特征值只有2个。
函数1的特征值为17.791,函数2的特征值为0.720,判别函数的特征值越大,说明函数越具有区别判断力。
函数1方差的累积贡献率高达96.1%,且典型相关系数为0.973,而函数2方差的贡献率仅为3.9%,典型相关系数为0.647。
由此,说明函数1的区别判断力比函数2的强,函数1更具有区别判断力。
2.Wilks检验结果
表1-2 Wilks 的Lambda
上表中判别函数1和判别函数2的Wilks’Lambda值为0.031,判别函数2的Wilks’Lambda值为0.581。
“1到2”表示两个判别函数的平均数在三个类间的差异情况,P值=0.002<0.05表示差异达到显著水平“2”表示在排除了第一个判别函数后,第二个判别函数在三个组别间的差异情况,P值=0.197>0.05表示判别函数2未达到显著水平。
3.建立贝叶斯判别函数
表1-3 贝叶斯判别法函数系数
上表为贝叶斯判别函数的系数矩阵,用数学表达式表示各类的贝叶斯判别函数为:
第一组:
F1=-81.843-11.689X1+12.97X2+16.761X3
第二组:
F2=-94.536-10.707X1+13.361X2+17.086X3
第三组:
F3=-17.499-2.194X1+4.960X2+6.447X3
将新品牌饮料样品的自变量值分别代入上述三个贝叶斯判别函数,得到三个函数值为:
F1=65.271,F2=65.661,F3=47.884
比较三个值,可以看出F2=65.661最大,据此得出新品牌饮料样品应该属于第二组,即该饮料的销售情况为平销。
4.个案观察结果表
表1-4 个案观察结果表
3 1 1 0.531 2 0.97
4 1.268 1.153 -1.528
4 1 2**0.734 2 0.714 0.619 1.948 0.791
5 2 1**0.535 2 0.633 1.249 1.394 0.176
6 2 2 0.951 2 0.822 0.1 2.954 0.721
7 2 2 0.342 2 0.985 2.148 3.816 1.911
8 3 3 0.26 2 1 2.695 -4.112 -0.961
9 3 3 0.538 2 1 1.239 -6.386 0.548
10 3 3 0.811 2 1 0.418 -5.613 0.693
11 未分
组的
2 0.165 2 0.597 3.598 0.825 0.969
表1-4所示为原始数据逐一回代的判别结果和预测分类的结果显示,其中畅销组有1个样品被判错(标注**者,产品序号为4),平销组有1个样品被判错(标注**者,产品序号为5)。
通过预测得知新品牌饮料的销售情况为平销。
习题4.9
(1)根据样本资料分别用距离判别法、贝叶斯判别法和费希尔判别法建立判别函数和判别规则。
(2)某客户的如上情况资料为,(53,1,9,18,50,11,20,2.02,3.58)对其进行信用好坏的判别。
将数据导入SPSS,分析得到以下结果:
1.典型判别函数的特征函数的特征值表
表2-1 特征值表
表2-1所示是典型判别函数的特征值表,只有1个判别函数,所以特征值只有1个。
函数1的特征值为8.145。
函数1方差的累积贡献率为100%,典型相关系数为0.944。
由此,说明对于两类总体的判别只需一个判别函数就可以对样品进行分类。
2.Wilks检验结果
表1-2 Wilks 的Lambda
上表中判别函数1的Wilks’Lambda值为0.109,P值=0.355>0.05表示判别函数1未达到显著水平。
3.建立费希尔判别函数
表2-3(a)未标准化的典型判别函数系数
由表2-3(a)可知,费希尔判别函数为:
y=-11.337-0.047X1+7.083X2+0.195X3-0.367X4+0.028X5
+0.783X6+0.833X7-2.613X8
将待判样品的自变量值代入上述判别函数,得y=-9.059
表2-3(b)组重心处的费希尔判别函数值
如表2-3(b)所示,实际上为两类别重心在空间中的坐标位置,因为由费希尔判别函数计算得,待判样品的费希尔判别函数值为y=-9.059,所以待判样品属于第一组,即该客户的信用判定为已履行还贷责任,信用较好。
4.建立贝叶斯判别函数
表2-4 贝叶斯判别法函数系数
上表为贝叶斯判别函数的系数矩阵,用数学表达式表示各类的贝叶斯判别函数为:
第一组:
F1=-117.963+0.239X1+99.051X2+1.472X3-5.159X4
+2.794X5+14.067X6-7.916X7-40.212X8
第二组:
F2=-175.844+0.001X1+135.212X2+2.47X3-7.033X4
+2.938X5+18.064X6-3.665X7-53.55X8
将待判样品的自变量值分别代入上述两个贝叶斯判别函数,得到两个函数值为:
F1=51.442,F2=5.1615
比较两个值,可以看出51.442>5.1615,据此得出待判样品应该属于第一组,即该客户的信用判定为已履行还贷责任,信用较好。
5. 个案观察结果表
表2-5 个案观察结果表
表2-5所示为个案观察结果表,表中实际组和预测组的判别结果相同,说明个样品没有判错的,判别的准确率较高。
用马氏距离对待判样品进行判别,可得,到质心的平方Mahalanobis 距离为42.336,待判样品属于第一组,从而,说明该客户的信用判定为已履行还贷责任,信用较好。
习题4.10
试用距离判别法建立判别函数,并根据此判别函数对原样本进行回判。
将数据导入SPSS,分析得到以下结果:
1.典型判别函数的特征函数的特征值表
表3-1 特征值表
表3-5所示是典型判别函数的特征值表,只有两个判别函数,所以特征值只有2个。
函数1的特征值为3.044,函数2的特征值为0.207,判别函数的特征值越大,说明函数越具有区别判断力。
函数1方差的累积贡献率高达93.6%,且典型相关系数为0.868,而函数2方差的贡献率仅为6.4%,典型相关系数为0.414。
由此,说明函数1的区别判断力比函数2的强,函数1更具有区别判断力。
2.Wilks检验结果
表1-2 Wilks 的Lambda
上表中判别函数1和判别函数2的Wilks’Lambda值为0.205,判别函数2的Wilks’Lambda值为0.828。
“1到2”表示两个判别函数的平均数在三个类间的差异情况,P值=0.034<0.05表示差异达到显著水平,“2”表示在排除了第一个判别函数后,第二个判别函数在三个组别间的差异情况,P值=0.577>0.05表示判别函数2未达到显著水平。
3.建立费希尔判别函数
表3-3(a)为未标准化的典型判别函数系数
由表2-3(a)可知,费希尔判别函数为:
y1=-8.784+0.01X1+0.04X2+0.176X3-0.031X4
y2=5.448-0.004X1-0.055X2+0.16X3+0.062X4
表3-3(b)组重心处的费希尔判别函数值
如表3-3(b)所示,实际上为各类别重心在空间中的坐标位置。
根据计算出各观测值的具体位置和它们分别离各重心的距离,判别它们所属的类别。
4.建立贝叶斯判别函数
表2-4 贝叶斯判别法函数系数
上表为贝叶斯判别函数的系数矩阵,用数学表达式表示各类的贝叶斯判别函数为:
第一组:
F1=-79.212+0.164X1+0.753X2+0.778X3+0.073X4
第二组:
F2=-46.721+0.13X1+0.595X2+0.317X3+0.012X4
第三组:
F3=-49.598+0.13X1+0.637X2+0.1X3-0.059X4
将个样品自变量的值代入上述三个贝叶斯判别函数,得到三个函数值。
比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。
5. 个案观察结果表
表3-5 个案观察结果表
表3-5所示为原始数据逐一回代的判别结果和预测分类的结果显示,其中胃
癌患者组有1个病人被判错(标注**者,病人序号为4),实际为胃癌患者,预测分类时被判为非胃炎患者;萎缩性胃炎患者组有1个病人被判错(标注**者,病人序号为8),实际为萎缩性胃炎患者,预测分类时被判为非胃炎患者;非胃炎患者组也有1个病人被判错(标注**者,病人序号为11),实际为非胃炎患者,预测分类时被判为萎缩性胃炎患者。