多元统计分析课后练习答案.doc
- 格式:doc
- 大小:373.88 KB
- 文档页数:11
第二章课后习题1.现选取内蒙古、广西、贵州、云南、西藏、宁夏、新疆、甘肃和青海等9个内陆边远省区。
选取人均GDP、第三产业比重、人均消费支出、人口自然增长率及文盲半文盲人口占15岁以上人口等五项能够较好的说明各地区社会经济发展水平的指标,验证一下边远及少数民族聚居区的社会经济发展水平与全国平均水平有无显著差异。
边远及少数民族聚居区社会经济发展水平的指标数据地区人均GDP(元)三产比重(%)人均消费(元)人口增长(%)文盲半文盲(%)内蒙古506831.121418.2315.83广西407634.220409.0113.32贵州234229.8155114.2628.98云南435531.3205912.125.48西藏371643.5155115.957.97宁夏427037.3194713.0825.56新疆622935.4 274512.8111.44甘肃345632.8161210.0428.65青海436740.9204714.4842.92资料来源:《中国统计年鉴(1998)》,北京,中国统计出版社,1998。
五项指标的全国平均水平为:)15.789.5297232.8701.6212(0'=μ解:(1)先利用SPSS软件检验各变量是否遵从多元正态分布(见输出结果1-1)输出结果1-1正态性检验Kolmogorov-Smirnov a Shapiro-Wilk统计量Df Sig. 统计量df Sig.人均GDP .219 9 .200*.958 9 .781 三产比重.145 9 .200*.925 9 .437 人均消费.209 9 .200*.873 9 .131 人口增长.150 9 .200*.949 9 .682 文盲半文盲.246 9 .124 .898 9 .242 *. 这是真实显著水平的下限。
a. Lilliefors 显著水平修正上表给出了对每一个变量进行正态性检验的结果,因为该例中样本数n=9,所以此处选用Shapiro-Wilk 统计量。
7.1 设随机变量12X(X ,X )'=的协差阵为21,12⎡⎤∑=⎢⎥⎣⎦试求X的特征根和特征向量,并写出主成分。
解:先求X的特征根λ,λ满足方程:21012-λ=-λ,即2(2)10-λ-=,因此两个特征根分别为123, 1.λ=λ=设13λ=对应的单位特征向量为()1121a ,a ',则()1121a ,a '满足:1121a 110a 110-⎛⎫⎡⎤⎛⎫= ⎪ ⎪⎢⎥-⎣⎦⎝⎭⎝⎭,故可以取1121a a ⎛⎛⎫ = ⎪ ⎝⎭ ⎝,其对应主成分为:112F X X 22=+;设21λ=对应的单位特征向量为()1222a ,a ',则()1222a ,a '满足:1222a 110a 110⎛⎫⎡⎤⎛⎫=⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取1222a a ⎛⎫⎛⎫ ⎪= ⎪ ⎝⎭- ⎝,其对应的主成分为:212F 22=-.7.2设随机变量123X (X ,X ,X )'=的协差阵为120250,002-⎡⎤⎢⎥∑=-⎢⎥⎢⎥⎣⎦试求X的主成分及主成分对变量X的贡献率。
解:先求X的特征根λ,λ满足方程:12025002-λ---λ=-λ,即()2(2)610-λλ-λ+=,因此三个特征根分别为1235.8284,2,0.1716λ=λ=λ=设1 5.8284λ=对应的单位特征向量为()112131a ,a ,a ',则它满足:1121314.828420a 020.82840a 000 3.8284a 0--⎡⎤⎛⎫⎛⎫⎪ ⎪⎢⎥--=⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥-⎣⎦⎝⎭⎝⎭,故可以取 112131a 10.38271a 2.41420.92392.6131a 00⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪=-=- ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭,其对应主成分为: 112F 0.3827X 0.9239X =-,其贡献率为5.828472.86%5.828420.1716=++;设22λ=对应的单位特征向量为()122232a,a ,a ',则它满足:122232120a 0230a 0000a 0--⎡⎤⎛⎫⎛⎫ ⎪ ⎪⎢⎥-= ⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取122232a 0a 0a 1⎛⎫⎛⎫⎪ ⎪= ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭,其对应主成分为: 23F X =,其贡献率为225%5.828420.1716=++;设30.1716λ=对应的单位特征向量为()132333a ,a ,a ',则它满足:1323330.828420a 02 4.82840a 000 1.8284a 0-⎡⎤⎛⎫⎛⎫⎪ ⎪⎢⎥-=⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取132333a 10.92391a 0.41420.38271.0824a 00⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪== ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭,其对应主成分为: 312F 0.9239X 0.3827X =+,其贡献率为0.17162.14%5.828420.1716=++.7.3 设随机变量12X (X ,X )'=的协差阵为14,4100⎡⎤∑=⎢⎥⎣⎦试从∑和相关阵R出发求出总体主成分,并加以比较。
多元统计分析陈钰芬课后答案第1章多元正态分布1、在数据处理时,为什么通常要进行标准化处理?第1章多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。
在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
其中最典型的就是0-1标准化和Z标准化。
2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。
在二维和三维空间中的欧氏距离的就是两点之间的距离。
缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。
每个坐标对欧氏距离的贡献是同等的。
当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。
当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。
它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。
没有考虑到总体变异对距离远近的影响。
马氏距离表示数据的协方差距离。
为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。
优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。
由标准化数据和中心化数据计算出的二点之间的马氏距离相同。
马氏距离还可以排除变量之间的相关性的干扰。
缺点:夸大了变化微小的变量的作用。
受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。
3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。
一、填空题:1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法.2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著.3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。
通常聚类分析分为 Q型聚类和 R型聚类。
4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。
5、因子分析把每个原始变量分解为两部分因素:一部分为公共因子,另一部分为特殊因子。
6、若()(,), Px N αμα∑:=1,2,3….n且相互独立,则样本均值向量x服从的分布为_x~N(μ,Σ/n)_。
二、简答1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。
在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。
选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。
被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。
2、简述相应分析的基本思想。
相应分析,是指对两个定性变量的多种水平进行分析。
设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。
对这两组因素作随机抽样调查,得到一个rc的二维列联表,记为。
要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。
相应分析即是通过列联表的转换,使得因素 A 和因素B具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。
把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A、B的联系。
3、简述费希尔判别法的基本思想。
从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数系数:确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。
将新样品的p 个指标值代入线性判别函数式中求出 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。
一、填空题:1、多元统计剖析是运用数理统计方法来研究解决多指标问题的理论和方法 .2、回归参数明显性查验是查验解说变量对被解说变量的影响能否著.3、聚类剖析就是剖析怎样对样品(或变量)进行量化分类的问题。
往常聚类分析分为Q型聚类和R型聚类。
4、相应剖析的主要目的是追求列联表行要素A和列要素B的基本剖析特点和它们的最优联立表示。
5、因子剖析把每个原始变量分解为两部分要素:一部分为公共因子,另一部分为特别因子。
6、若x( ): N P( ,),=1,2,3 .n且互相独立,则样本均值向量x 听从的散布为 _ x ~N(μ,Σ /n)_。
二、简答1、简述典型变量与典型有关系数的观点,并说明典型有关剖析的基本思想。
在每组变量中找出变量的线性组合,使得两组的线性组合之间拥有最大的有关系数。
选用和最先精选的这对线性组合不有关的线性组合,使其配对,并选用有关系数最大的一对,这样下去直到两组之间的有关性被提取完成为止。
被选出的线性组合配对称为典型变量,它们的有关系数称为典型有关系数。
2、简述相应剖析的基本思想。
相应剖析,是指对两个定性变量的多种水平进行剖析。
设有两组要素A和B,此中要素 A 包括 r 个水平,要素 B 包括 c 个水平。
对这两组要素作随机抽样检查,获得一个 rc 的二维列联表,记为。
要追求列联表列要素 A 和行要素 B 的基本剖析特点和最优列联表示。
相应剖析即是经过列联表的变换,使得要素 A和要素 B 拥有平等性,进而用同样的因子轴同时描绘两个要素各个水平的情况。
把两个要素的各个水平的情况同时反应到拥有同样坐标轴的因子平面上,进而获得要素 A 、 B 的联系。
3、简述费希尔鉴别法的基本思想。
从 k 个整体中抽取拥有 p 个指标的样品观察数据,借助方差剖析的思想结构一个线性鉴别函数系数:确立的原则是使得整体之间差别最大,而使每个整体内部的离差最小。
将新样 品的 p 个指标值代入线性鉴别函数式中求出 值,而后依据鉴别必定的规则,就能够鉴别新的样品属于哪个整体。
2 XNnμσ2InAArr≤n 因A为对称幂等阵而对称幂等阵的特征值非0即1且只有r个非0特征值即存在正交阵Γ其列向量ri为相应特征向量使34 其中非中心参数为5 Xnμσ2In ABnABX′AXX′BX Ar AnΓΓ AΓλ1…λr YΓ′XYNnΓμσ2In riiiYAΓΓΓYAΓΓΓYAXX126 XBXYΓBΓ YYHY HΓBΓ XBX Yr1…YnH0 XAX XBX 7ArrnABOBOn×nX′AXX′BXrArn.AnΓ8 λiAi…r r 由ABO可得DrH11O DrH12O . 因Dr为满秩阵故有H11Or×rH12Or×n-r . 由于H为对称阵所以H21On-r×r .于是9 Y1…YrYr1 …YnX′AXX′BX 令YΓ′X则Y nΓ′μσ2In 且riiiYAΓΓΓYAΓΓΓYAXX12nrnrYYHYYHYYBΓΓΓYBXX122 1BΓΓH10 设XNpμ∑∑0A和B为p阶对称阵试证明X-μ′AX-μ与X-μ′BX-μ相互独立∑A∑B∑0p×p. 3-3 记1212111 ”ξη OBAOBAOCD2121212112 性质4 分块Wishart 矩阵的分布:设Xα Np0∑ α1…n相互独立其中又已知随机矩阵rpr22211211W222112111nrprWWWWXXWpn试证明Wishart分布的性质4和T2分布的性质5. 3-4 13 证明: 设21rpnrnijpnXXxX00则22211121rprNXNXrprXXX记则2212211122211211WWWWXXXXXXXXXXW22112211XX WXXW即14 .221222222nrpnWXXXXW∑12 O α12…n 相互独立.故有W11与W22相互独立. 21与XX111111111nrnWXXXXW由定义3.1.4可知15 性质5 在非退化的线性变换下T2统计量保持不变. 证明:设Xα α1…n 是来自p元总体Npμ∑的随机样本X和Ax分别表示正态总体X的样本均值向量和离差阵则由性质1有.11212npTXAXnnTxx 1...iiYCXdin其中C是pp非退化常数矩阵d是p1常向量。
第1章 多元正态分布 1、在数据处理时,为什么通常要进行标准化处理? 数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是0-1标准化和Z标准化。
2、欧氏距离与马氏距离的优缺点是什么? 欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。在二维和三维空间中的欧氏距离的就是两点之间的距离。 缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。每个坐标对欧氏距离的贡献是同等的。当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。没有考虑到总体变异对距离远近的影响。 马氏距离表示数据的协方差距离。为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。 优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。由标准化数据和中心化数据计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。 缺点:夸大了变化微小的变量的作用。受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。
3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致? 统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。
4、如果正态随机向量12(,,)pXXXXL的协方差阵为对角阵,证明X的分量是相互独立的随机变量。 解: 因为12(,,)pXXXXL的密度函数为
1/21111(,...,)exp()()22ppfxx
ΣxμΣxμ 又由于21222pΣO 22212p
ΣL
21
2122111p
ΣO
则1(,...,)pfxx 21
1/22222121221111exp()()221ppp
ΣxμΣxμLO
222
123111222212()()()1111exp...2222pppppxxx
L
2121()1exp()...()22piipiiixfxfx
则其分量是相互独立。 5.1y和2y是相互独立的随机变量,且1y~)1,0(N,2y~)4,3(N。
(a)求21y的分布。 (b)如果2/)3(21yyy,写出yy关于1y与2y的表达式,并写出yy的分布。 (c)如果21yyy且y~),(N,写出1yy关于1y与2y的表达式,并写出1yy的分布。 解:(a)由于1y~)1,0(N,所以1y~)1(2。 (b)由于1y~)1,0(N,2y~)4,3(N;
所以232y~)1,0(N;
故2221)23(yyyy,且yy~)2(2 第2章 均值向量和协方差阵的检验 1、略
2、试谈Wilks统计量在多元方差分析中的重要意义。
3、题目此略 多元均值检验,从题意知道,容量为9的样本 ,总体协方差未知
假设H0:0 , H1:0 (n=9 p=5) 检验统计量/(n-1) )()(0102XSXnT服从P,n-1的2T分布
统计量2T实际上是样本均值与已知总体均值之间的马氏距离再乘以n*(n-1),这个值越大,相等的可能性越小,备择假设成立时,2T有变大的趋势,所以拒绝域选择2T值较大的右侧部分,也可以转变为F统计量 零假设的拒绝区域 {(n-p)/[(n-1)*p]}*2T >,()pnpF 1/10*2T >F5,4(5) μ0=
( 6212.01 32.87 2972 9.5 15.78)’
样本均值(4208.78 35.12 1965.89 12.21 27.79)’
(样本均值-μ0)’=(-2003.23 2.25 -1006.11 2.71 12.01) 协方差矩阵(降维——因子分析——抽取)
Inter-Item Covariance Matrix 人均GDP(元) 三产比重(%) 人均消费(元) 人口增长(%) 文盲半文盲(%) 人均GDP(元) 1020190.840 582.460 331693.531 -599.784 -6356.325
三产比重(%) 582.460 19.480 -105.464 6.625 43.697
人均消费(元) 331693.531 -105.464 125364.321 -213.634 -3130.038
人口增长(%) -599.784 6.625 -213.634 6.099 25.410
文盲半文盲(%) -6356.325 43.697 -3130.038 25.410 196.884
协方差的逆矩阵 1.88034E-05 -0.000440368 -6.09781E-05 0.00279921 -0.000625893 -0.00044037 0.207023949 -0.000210374 -0.0237044 -0.06044981 -6.0978E-05 -0.000210374 0.00022733 -0.0105019 0.003047474 0.002799208 -0.023704352 -0.010501881 0.85288927 -0.18139981 -0.00062589 -0.06044981 0.003047474 -0.1813998 0.070148804
计算:边远及少数民族聚居区社会经济发展水平的指标数据.xls 2T
=
9* (-2003.23 2.25 -1006.11 2.71 12.01)*s^-1* (-2003.23 2.25
-1006.11 2.71 12.01)’=9*50.11793817=451,06144353 F统计量=45.2>6.2 拒绝零假设,边缘及少数民族聚居区的社会经济发展水平与全国平均水平有显著差异。
4、略
第3章 聚类分析 1.、聚类分析的基本思想和功能是什么? 聚类分析的基本思想是研究的样品或指标之间存着程度不同的相似性,于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品聚合为一类,把另外一些彼此之间相似程度较大的样品又聚合为另外一类,直到把所有的样品聚合完毕,形成一个有小到大的分类系统,最后再把整个分类系统画成一张分群图,用它把所有样品间的亲疏关系表示出来。功能是把相似的研究对象归类。
2、试述系统聚类法的原理和具体步骤。 系统聚类是将每个样品分成若干类的方法,其基本思想是先将各个样品各看成一类,然后规定类与类之间的距离,选择距离最小的一对合并成新的一类,计算新类与其他类之间的距离,再将距离最近的两类合并,这样每次减少一类,直至所有的样品合为一类为止。 具体步骤: 1、对数据进行变换处理;(不是必须的,当数量级相差很大或指标变量具有不同单位时是必要的) 2、构造n个类,每个类只包含一个样本; 3、计算n个样本两两间的距离ijd; 4、合并距离最近的两类为一新类; 5、计算新类与当前各类的距离,若类的个数等于1,转到6;否则回4; 6、画聚类图; 7、决定类的个数,从而得出分类结果。
3、试述K-均值聚类的方法原理。 K-均值法是一种非谱系聚类法,把每个样品聚集到其最近形心(均值)类中,它是把样品聚集成K个类的集合,类的个数k可以预先给定或者在聚类过程中确定,该方法应用于比系统聚类法大得多的数据组。步骤是把样品分为K个初始类,进行修改,逐个分派样品到期最近均值的类中(通常采用标准化数据或非