应用多元统计分析课后答案 第八章
- 格式:ppt
- 大小:162.00 KB
- 文档页数:18
多元应用统计第八章答案1、对某高中一年级男生38人进行体力测试(共7项指标)及运动能力测试(共5项指标),试对两组指标做典型相关分析。
体力测试指标:x1-反复横向跳(次),x 2-纵跳(cm),x 3-臂力(kg),x 4-握力(kg),x 5-台阶试验(指数),x 6-立定体前屈(cm),x 7-俯卧上体后仰(cm)。
运动能力测试指标: x8-50米跑(秒),x 9-跳远(cm),x 10-投球(m),x11-引体向上(次),x12-耐力跑(秒)。
矩阵Run MATRIX procedure:一、两组变量间的相关系数Correlations for Set-1X1 X2 X3 X4 X5 X6 X7X1 1.0000 .2701 .1643 -.0286 .2463 .0722 -.1664X2 .2701 1.0000 .2694 .0406 -.0670 .3463 .2709X3 .1643 .2694 1.0000 .3190 -.2427 .1931 -.0176X4 -.0286 .0406 .3190 1.0000 -.0370 .0524 .2035X5 .2463 -.0670 -.2427 -.0370 1.0000 .0517 .3231X6 .0722 .3463 .1931 .0524 .0517 1.0000 .2813X7 -.1664 .2709 -.0176 .2035 .3231 .2813 1.0000Correlations for Set-2X8 X9 X10 X11 X12X8 1.0000 -.4429 -.2647 -.4629 .0777X9 -.4429 1.0000 .4989 .6067 -.4744X10 -.2647 .4989 1.0000 .3562 -.5285X11 -.4629 .6067 .3562 1.0000 -.4369X12 .0777 -.4744 -.5285 -.4369 1.0000Correlations Between Set-1 and Set-2X8 X9 X10 X11 X12X1 -.4005 .3609 .4116 .2797 -.4709X2 -.3900 .5584 .3977 .4511 -.0488X3 -.3026 .5590 .5538 .3215 -.4802X4 -.2834 .2711 -.0414 .2470 -.1007X5 -.4295 -.1843 -.0116 .1415 -.0132X6 -.0800 .2596 .3310 .2359 -.2939X7 -.2568 .1501 .0388 .0841 .1923首先给出的是Correlations for Set-1、Correlations for Set-2为两组变量的内部各自相关矩阵。
第八章 典型相关分析在对经济问题的研究和管理研究中,不仅经常需要考察两个变量之间的相关程度,而且还经常需要考察多个变量与多个变量之间即两组变量之间的相关性。
典型相关分析就是测度两组变量之间相关程度的一种多元统计方法。
第一节 典型相关的基本原理(一)典型相关分析的基本思想 典型相关分析方法(canonical correlation analysis)最早源于荷泰林(H ,Hotelling)于1936年在《生物统计》期刊上发表的一篇论文《两组变式之间的关系》。
他所提出的方法经过多年的应用及发展,逐渐达到完善,在70年代臻于成熟。
由于典型相关分析涉及较大量的矩阵计算,其方法的应用在早期曾受到相当的限制。
但随着当代计算机技术及其软件的迅速发展,弥补了应用典型相关分析中的困难,因此它的应用开始走向普及化。
典型相关分析是研究两组变量之间相关关系的一种统计分析方法。
为了研究两组变量1X ,2X ,…,p X 和1Y , 2Y ,…,q Y 之间的相关关系,采用类似于主成分分析的方法,在两组变量中,分别选取若干有代表性的变量组成有代表性的综合指标,通过研究这两组综合指标之间的相关关系,来代替这两组变量间的相关关系,这些综合指标称为典型变量。
(二)典型相关分析的数学描述设有两随机变量组=X (1X ,2X ,…,)'pX 和=Y (1Y , 2Y ,…,qY )',不妨设p ≤q 。
对于X ,Y ,不妨设第一组变量的均值和协方差为矩阵为 ()X E =1μ Cov ()X =∑11第二组变量的均值和协方差为矩阵为()Y E =2μ Cov ()Y =∑22第一组与第二组变量的协方差为矩阵为Cov ()Y X ,=∑12= ∑21'于是,对于矩阵 Z = ⎥⎦⎤⎢⎣⎡Y X 有 (9—1—1) 均值向量 μ=E ()Z =E ()()⎥⎦⎤⎢⎣⎡Y E X E =⎥⎦⎤⎢⎣⎡21μμ (9—1—2)协方差矩阵()()∑+⨯+q p q p =E ()μ-Z ()'-μZ=()()()()()()()()⎥⎥⎦⎤⎢⎢⎣⎡'--'--'--'--22122111μμμμμμμμY Y E X Y E Y X E X X E =()()()()⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡∑∑∑∑⨯⨯⨯⨯q q p q qp p p 22211211要研究两组变量1X ,2X ,…,p X 和1Y , 2Y ,…,q Y 之间的相关关系,首先分别作两组变量的线性组合,即p p X a X a X a U +++= 2211=X a 'V =q q Y b Y b Y b +++ 2211=Y b '()'=p a a a a ,,,21 ,()'=q b b b b ,,,21 分别为任意非零常系数向量,则可得,Var ()U =a 'Cov ()a X = a '∑11a Var ()V =b 'Cov ()b Y = b '∑22bCov ()V U ,=a 'Cov ()Y X ,b = a '∑12b则称U 与V 为典型变量,它们之间的相关系数ρ称为典型相关系,即ρ=Corr ()V U ,=bb a a b a ∑∑∑'''221112典型相关分析研究的问题是,如何选取典型变量的最优线性组合。
第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。
在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
其中最典型的就是0-1标准化和Z 标准化。
2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。
在二维和三维空间中的欧氏距离的就是两点之间的距离。
缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。
每个坐标对欧氏距离的贡献是同等的。
当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。
当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。
它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。
没有考虑到总体变异对距离远近的影响。
马氏距离表示数据的协方差距离。
为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。
优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。
由标准化数据和中心化数据计算出的二点之间的马氏距离相同。
马氏距离还可以排除变量之间的相关性的干扰。
缺点:夸大了变化微小的变量的作用。
受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。
3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。
如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。
2.1.试叙述多元联合分布和边际分布之间的关系。
解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=的联合分布密度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=的子向量的概率分布,其概率密度函数的维数小于p 。
2.2设二维随机向量12()X X '服从二元正态分布,写出其联合分布。
解:设12()X X '的均值向量为()12μμ'=μ,协方差矩阵为21122212σσσσ⎛⎫ ⎪⎝⎭,则其联合分布密度函数为1/21222112112222122121()exp ()()2f σσσσσσσσ--⎧⎫⎛⎫⎛⎫⎪⎪'=---⎨⎬ ⎪ ⎪⎝⎭⎝⎭⎪⎪⎩⎭x x μx μ。
2.3已知随机向量12()X X '的联合密度函数为121212222[()()()()2()()](,)()()d c x a b a x c x a x c f x x b a d c --+-----=--其中1ax b ≤≤,2c x d ≤≤。
求(1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数;(3)判断1X 和2X 是否相互独立。
(1)解:随机变量1X 和2X 的边缘密度函数、均值和方差;112121222[()()()()2()()]()()()dx cd c x a b a x c x a x c f x dx b a d c --+-----=--⎰12212222222()()2[()()2()()]()()()()dd c c d c x a x b a x c x a x c dx b a d c b a d c -------=+----⎰ 121222202()()2[()2()]()()()()dd c c d c x a x b a t x a t dt b a d c b a d c ------=+----⎰ 2212122222()()[()2()]1()()()()d cdc d c x a x b a t x a t b a d c b a d c b a------=+=----- 所以 由于1X 服从均匀分布,则均值为2b a+,方差为()212b a -。
第二章2.1 试述多元联合分布和边缘分布之间的关系。
设X =(X 1,X 2,⋯X p )′是p 维随机向量,称由它的q (<p )个分量组成的子向量X (i)=(X i1,X i2,⋯X iq )′的分布为X 的边缘分布,相对地把X 的分布称为联合分布。
当X 的分布函数为F (x 1,x 2,⋯x p )时,X (1)的分布函数即边缘分布函数为F (x 1,x 2,⋯x p )=P(X 1≤x 1,⋯X q ≤x q ,X q+1≤∞,⋯X p ≤∞) = F (x 1,x 2,⋯x q ,∞,⋯∞)当X 有分布密度f (x 1,x 2,⋯x p )则X (1)也有分布密度,即边缘密度函数为:f (x 1,x 2,⋯x q )=∫⋯+∞−∞∫f (x 1,x 2,⋯x p )dx q+1⋯d +∞−∞x p 2.2 设随机向量X =(X 1,X 2)′服从二元正态分布,写出其联合分布密度函数和X 1,X 2各自的边缘密度函数。
联合分布密度函数12πσ1σ2(1−ρ)exp{−12(1−ρ)[(x 1−μ1)2σ12−2ρ(x 1−μ1)(x 2−μ2)σ1σ2+f (x 1,x 2)= (x 2−μ2)2σ22]} , x 1>0,x 2>00 , 其他(x 1−μ1)2σ12−2ρ(x 1−μ1)(x 2−μ2)σ1σ2+ (x 2−μ2)2σ22=(x 1−μ1)2σ12−2ρ(x 1−μ1)(x 2−μ2)σ1σ2+ (x 2−μ2)2σ22+ρ2(x 1−μ1)2σ12−ρ2(x 1−μ1)2σ12=[ρ(x 1−μ1)σ1−(x 2−μ2)σ2]2+(1−ρ2)(x 1−μ1)2σ12所以指数部分变为−12{[1121−2222]2+(x 1−μ1)2σ12}令t=2222−1121 ∴dt =222∴f (x 1)=∫f (x 1,x 2)+∞−∞dx 2=12πσ1σ2(1−ρ)exp{−(x 1−μ1)22σ12∫exp(+∞−∞−12t 222dt =√2πσexp[−(x 1−μ1)22σ12]√2πσexp[−(x 1−μ1)22σ12] , x 1>0f (x 1)= 0 ,其他同理,√2πσ2exp[−(x 2−μ2)22σ22] , x 2>0 f (x 2)=0 ,其他2.3 已知随机向量X =(X 1,X 2)′的联合分布密度函数为f (x 1,x 2)=2[(d−c )(x 1−a )+(b−a )(x 2−c )−2(x 1−a)(x 2−c)(b−a)(d−c),其中,a ≤x 1≤b,c ≤x 2≤d 。
多元统计分析智慧树知到课后章节答案2023年下浙江工商大学浙江工商大学第一章测试1.在采用多元统计分析技术进行数据处理、建立宏观或微观系统模型时,可以解决下面哪几方面的问题。
()A:简化系统结构、探讨系统内核 B:进行数值分类,构造分类模型 C:变量之间的相依性分析 D:构造预测模型,进行预报控制答案:简化系统结构、探讨系统内核;进行数值分类,构造分类模型;变量之间的相依性分析;构造预测模型,进行预报控制2.只有调查来的才是数据。
()A:对 B:错答案:错3.以下都属于大数据范畴。
()A:行车轨迹 B:交易记录 C:问卷调查 D:访谈文本答案:行车轨迹;交易记录;问卷调查;访谈文本4.只要是数据,就一定有价值。
()A:对 B:错答案:错5.统计是研究如何搜集数据,如何分析数据的学问,它既是科学,也是艺术.()A:错 B:对答案:对第二章测试1.考虑了量纲影响的距离测度方法有()。
A:欧氏距离 B:Minkowski距离 C:马氏距离 D:切比雪夫距离答案:马氏距离2.不具有单调性的系统聚类方法有()。
A:离差平方和法 B:最短距离法 C:中间距离法 D:重心法 E:类平均距离法答案:中间距离法;重心法3.聚类分析是研究分类问题的一种多元统计分析方法。
()A:对 B:错答案:对4.聚类分析是有监督学习。
()A:错 B:对答案:错5.动态聚类法的凝聚点可以人为主观判别。
()A:对 B:错答案:对第三章测试1.判别分析是通过对已知类别的样本数据的学习、构建判别函数来最大程度区分各类,Fisher判别的准则要求()。
A:各类之间各个类内部变异尽可能大B:各类之间和各类内部变异尽可能小 C:各类之间变异尽可能大、各类内部变异尽可能小D:各类之间变异尽可能小、各类内部变异尽可能大答案:各类之间变异尽可能大、各类内部变异尽可能小2.常用判别分析的方法有()。
A:逐步判别法 B:贝叶斯判别法 C:费舍尔判别法 D:距离判别法答案:逐步判别法;贝叶斯判别法;费舍尔判别法;距离判别法3.较聚类分析,判别分析是根据已知类别的样本信息,对新样品进行分类。
第八章作业8.10解:首先对数据进行标准化处理,消除不同的度量带来的差异标准化的数据如下表:表1对处理的数据做主成分分析样本相关系数矩阵即为相应的样本协方差矩阵S即相应的协方差矩阵为:表2从表3可以得出,五个主因子解释的总体方差比重表3五个主因子间的协方差矩阵如下表4:表4从表4可以看出,这两个因子之间的相关程度比较低表5从表5可以得出五个主成分的表达式:F1=0.302X1+0.403X2+0.342X3+0.277X4+0.242X5F2=(-0.245)X1+(-0.14)X2+(-0.339)X3+0.46X4+0.492X5F3=1.016X1+(-0.517)X2+(-0.365)X3+0.005X4+0.102X5F4=(-0.163)X1+(-1.058)X2+1.096X3+0.216X4+0.169X5F5=(-0.044)X1+0.056X2+0.1X3+(-1.157)X4+1.144X5(b)五个特征值分别为:λ1,λ2,λ3,λ4,λ5,从表三可以得出: 第一主成分的总方差贡献为:λ1λ1+λ2+λ3+λ4+λ5=39.502% 第二主成分的总方差贡献为:λ2λ1+λ2+λ3+λ4+λ5=30.879% 第三主成分的总方差贡献为:λ3λ1+λ2+λ3+λ4+λ5=13.856%(c )第一主成分的特征值λ1对应的庞弗罗尼联合置信区间为【0.00106,0.00195】第二主成分的特征值λ2对应的庞弗罗尼联合置信区间为【0.00054,0.001】第三主成分的特征值λ3对应的庞弗罗尼联合置信区间为【0.00019,0.00036】 (d )从(a )~(c )的结果,前三个主成分的方差贡献超过80%,我们可以得出,综合股票回报率数据能在小于五维的空间中得到解释。
8.13(a )变量的相关系数矩阵如下表:(b)有相应的相关系数表可以求出相应的特征值及特征向量表1从表1可以得出相应的特征值表2从上表可以得出相应的特征向量e1=(0.872,0.903,0.659,0.79,0.977,0.134)ˋe2=(0.361,-0.151,-0.23,-0.128,-0.037,0.955)ˋe3=(-0.382, -0.372,0.576, 0.246,0.044, 0.259)ˋe4=(0.189,0.071,0.423,-0.541,-0.068,-0.033)ˋe5=(-0.016,0.128,0.042,0.065 ,-0.191,0.038)ˋe6=(-0.061,0.049,-0.01,-0.028,0.032,0.026)ˋ第一主成分的总方差贡献为:λ1=58.846%λ1+λ2+λ3+λ4+λ5+λ6=18.925%第二主成分的总方差贡献为:λ2λ1+λ2+λ3+λ4+λ5+λ6=12.433%第三主成分的总方差贡献为:λ3λ1+λ2+λ3+λ4+λ5+λ6第四主成分的总方差贡献为:λ4=8.641%λ1+λ2+λ3+λ4+λ5+λ6=1.010%第五主成分的总方差贡献为:λ5λ1+λ2+λ3+λ4+λ5+λ6=0.145%第六主成分的总方差贡献为:λ6λ1+λ2+λ3+λ4+λ5+λ6(c)从(b)的结果可以看出,第一个主成解释了总方差的58.846%,低于80%,所以用一个指标来反映综合放射法数据是不合理的(d)从(b的结果可以得出,提取前三个主成分比较合适,前三个主成分的的累积方差贡献超过80%,前三个主成分与x1,x2,x3,x4.x5及x6的相关系数表如下:表3第九章作业9.20(a)空气污染变量X1,X2,X5,X6的样本协方差矩阵如表1:表1(a)先求出m=1时的因子矩阵,然后计算响应的主成分得分,再利用公式Xi=∝F1 其中∝为第一主成分的方差贡献,由此可以得到m=1的因子模型的主成分解如表2:表2m=2表3。
第八章 相应分析8.1 什么是相应分析?它与因子分析有何关系?答:相应分析也叫对应分析,通常意义下,是指两个定性变量的多种水平进行相应性研究。
其特点是它所研究的变量可以是定性的。
相应分析与因子分析的关系是: 在进行相应分析过程中,计算出过渡矩阵后,要分别对变量和样本进行因子分析。
因此,因子分析是相应分析的基础。
具体而言,Σr (Zu j )=λj (Zu j )式表明Zu j 为相对于特征值λj 的关于因素A 各水平构成的协差阵Σr 的特征向量。
从而建立了相应分析中R 型因子分析和Q 型因子分析的关系。
8.2试述相应分析的基本思想。
答:相应分析,是指对两个定性变量的多种水平进行分析。
设有两组因素A 和B ,其中因素A 包含r 个水平,因素B 包含c 个水平。
对这两组因素作随机抽样调查,得到一个r c ⨯的二维列联表,记为()ij r c k ⨯=K 。
要寻求列联表列因素A 和行因素B 的基本分析特征和最优列联表示。
相应分析即是通过列联表的转换,使得因素A 和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。
把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。
8.3 试述相应分析的基本步骤。
答:(1)建立列联表设受制于某个载体总体的两个因素为A 和B ,其中因素A 包含r 个水平,因素B 包含c 个水平。
对这两组因素作随机抽样调查,得到一个r c ⨯的二维列联表,记为()ij r c k ⨯=K 。
(2)将原始的列联资料K =(kij) r ⨯c 变换成矩阵Z =(zij) r ⨯c ,使得zij 对因素A 和列因素B 具有对等性。
通过变换Z ij =k −k i.k .jr k k 。
得c '=ΣZ Z ,r '=ΣZZ 。
(3)对因素B 进行因子分析。
计算出c '=ΣZ Z 的特征向量λ1,λ2⋯,λm 及其相应的特征向量 t 1,t 2,⋯t m 计算出因素B 的因子 U 1,U 2⋯U =( λ1t 1, λ2t 2,⋯ λm t m )(4)对因素A 进行因子分析。
书P213
1.解:由题已知可得,r=∂∂y x xy
2=
9
.775.972⨯=0.9348 r=0.9348,所以中文成绩和英文成绩为高度正相关
2. 解:(1)相关系数为:
n xy-x y
=0.7195
(2)根据已知数据,利用最小二乘法可得:
b = 22)
(x x n y x xy n ∑-∑∑∑-∑=0.68 a =y x b -=1.6667-0.68⨯15=-8.5333
所建立的直线回归方程为:y =-8.5333+0.68x
回归系数b =0.68表示销售额每增加1万元,公司的利润会平均增加0.68万元;截距a =-8.5333,表示在销售额为0的情况下,公司的利润为-8.5333万元。
(3)当销售额x =360万元时,预测销售利润的可能值为:
y =-8.533+0.68⨯360=236.2667(万元)
4.解:(1)相关系数为:
n xy-x y
= 181476302686441796426
2114816-⨯-⨯⨯-⨯
= r=-0.909
所以说明产量与单位成本高度负相关
(2)b = 22)
(x x n y x xy n ∑-∑∑∑-∑=-1.818 a =y x b -=77.364
单位成本对产量的回归直线方程:y =77.364-1.818x 其中:y ——成本 x ——产量 ,产量每增加1000件时,单位成本平均下降1.818元。
(3)当y=70时,70=77.364-1.818x 解得x=4.05千件。