厦门大学《应用多元统计分析》习题第10章 多维标度法
- 格式:pdf
- 大小:82.54 KB
- 文档页数:2
课程名称:应用多元统计学英文名称:Applied Multivariate Statistical Analysis课程编号:180018开课学期:第5学期学分/周学时:3/54课程类型:学科类方向性课程先修课程:概率论数理统计选用教材:《应用多元统计分析》朱建平主编2006.08 科学出版社主要参考书:多元统计分析引论张尧庭,方开泰97 科学出版社一、课程性质、目的与任务随着计算机应用的广泛和深入,多元统计分析已在包括社会、经济等人文学科在内的许多领域,愈显得重要和光彩。
作为知名大学重点学科得学生,应该知其概貌,懂得相关的必要理论且掌握一些常用的分析方法,为其就业与继续深造打下必要而有用的基础。
为了让学生较系统、全面地了解多元统计分析内容,并掌握多元统计分析的基本方法,我们将按照高等学校大学生的培养目标,有计划、有步骤地讲授《应用多元统计分析》的基本理论方法。
其目的是,在该课程讲授过程中,使学生从学习理论中看到多元统计分析方法的实用价值,通过实证分析,让学生掌握数据处理的多元统计分析方法。
二、教学基本要求根据以往学生的教学实践,现将该课程教学的基本要求概括如下:1、为夯实学习基础,先重点理解一元统计分析(数理统计)的相关知识要点与基本分析工具。
由于该课程需要用到较广且有一定深度的矩阵代数知识,所以在授课进程中相机进行复习和补充。
2、为尽量减轻学生对多元且随机对象得困惑,从一开始就着手建立一套较为严格的符号含义与表叙规则。
让同学们逐渐熟悉“胖字母”(多元对象)并对之产生好感,体会面对多元现象时如何化繁为简抓住要点科学表述的必要性。
3、涉及多元,自然升入高维空间。
虽超传统三维,但对分析对象的几何形式处理,不是不能而是更有必要,因此需要探讨和引入高维随机空间,并考察其与传统高维欧氏空间的位置关系和联系。
4、没有背景的方法和技巧死水一潭,而背景不是解说文字的堆砌。
抓住对空间形式结构的处理,让许多从字面上看十分专深的概念和方法,在中学的几何课堂里找到他们的身影,从而使学生有一种温故而知新的情感,自然产生学习新知识的兴趣和动力。
、判断题(对)1X (兀公2丄,X p)的协差阵一定是对称的半正定阵(对)2标准化随机向量的协差阵与原变量的相关系数阵相同。
(对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。
(对)4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。
(错)5X (X-X2,,X p) ~ N p( , ),X,S分别是样本均值和样本离S差阵,则X,—分别是,的无偏估计。
n(对)6X (X「X2, ,X p) ~ N p( , ),X作为样本均值的估计,是无偏的、有效的、一致的。
(错)7因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化(对)8因子载荷阵A (a j)中的a ij表示第i个变量在第j个公因子上的相对重要性。
(对)9判别分析中,若两个总体的协差阵相等,则Fisher判别与距离判别等价。
(对)10距离判别法要求两总体分布的协差阵相等,Fisher判别法对总体的分布无特定的要求。
二、填空题1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵.2、设是总体X (X」,X m)的协方差阵,的特征根i(i 1,L ,m)与相应的单位正交化特征向量i (盼无丄,a m),则第一主成分的表达式是y1 Q1X1 812X2 L QmX m 方差为1。
3设是总体X (X1,X2,X3, X4)的协方差阵,的特征根和标准正交特征向量分别为: 1 2.920 U;(0.1485, 0.5735, 0.5577, 0.5814)2 1.024 U2(0.9544, 0.0984,0.2695,0.0824)3 0.049 U3(0.2516,0.7733, 0.5589, 0.1624)0.007U4 ( 0.0612,0.2519,0.5513, 0.7930),则其第二个主成分的表达式是41 1 32 13y 2 0.9544X 1 0.0984X 2 0.2695X 3 0.0824X 4,方差为 1.0244-若X ()~N p ( , ) , ( 1,2, ,n )且相互独立,则样本均值向量 X 服从的分布是N p (,—).n5.设X i : N p ( ,),i1,2,L ,16,X 和A 分别是正态总体的样本均值和样本离差阵,则 T 2 15[4(X)] A 1[4(X)]服从_T 2(15,p)或: F(p,n p)16 p6设X i 10:N a (,),i 1,2丄,10,则 W(X i)(X i)服从 W 3(10,)i 144 37.设随机向量X(X 1 ,X 2,X a ),且协差阵4 9 2 ,则其相关矩阵321612 3R =382 1 1 363 1 1862 18. 设X (X 1 ,X 2): :2(,),,其中(1,2),2,则Cov(X 1 X 2,X 1 X 2)0_9设X,Y 是来自均值向量为,协差阵为 的总体G 的两个样品,则 X ,Y 间的马氏平2 1方距离 d (X,Y) (X Y) (X Y) 10设X,Y 是来自均值向量为 ,协差阵为的总体G 的两个样品,则 X 与总体G 的马氏平方距离d 2(X,G) =(X) 1(X )11设随机向量X (X1,X2,X3)的相关系数矩阵通过因子分析分解为0.934 0 0.1280.934 0.417 0.8350.417 0.894 0.0270 0.894 0.4470.1030.835 0.4471 1 32 132则X i 的共性方差hi 0.9342 =0.872 ,其统计意义是:描述了全部公因子对变量X1的总方差所作的贡献,称为变量X1的共同度,反映了公共因子对变量X1的影响程度。
第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。
在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
其中最典型的就是0-1标准化和Z 标准化。
2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。
在二维和三维空间中的欧氏距离的就是两点之间的距离。
缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。
每个坐标对欧氏距离的贡献是同等的。
当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。
当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。
它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。
没有考虑到总体变异对距离远近的影响。
马氏距离表示数据的协方差距离。
为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。
优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。
由标准化数据和中心化数据计算出的二点之间的马氏距离相同。
马氏距离还可以排除变量之间的相关性的干扰。
缺点:夸大了变化微小的变量的作用。
受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。
3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。
如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。
多元统计分析课后练习答案第1章多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。
在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
其中最典型的就是0-1标准化和Z 标准化。
2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。
在二维和三维空间中的欧氏距离的就是两点之间的距离。
缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。
每个坐标对欧氏距离的贡献是同等的。
当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。
当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。
它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。
没有考虑到总体变异对距离远近的影响。
马氏距离表示数据的协方差距离。
为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。
优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。
由标准化数据和中心化数据计算出的二点之间的马氏距离相同。
马氏距离还可以排除变量之间的相关性的干扰。
缺点:夸大了变化微小的变量的作用。
受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。
3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。
如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。
多元复习1、多元统计分析是运用数理统计方法来解决多指标问题的理论和方法。
2、多元分析研究的是多个随机变量和相关关系的统计总体。
3、如果A与B是两个P×P维的方阵,则AB与BA有完全相同的特征值。
4、随机向量X的协方差矩阵一定是非负定矩阵。
5、若A为P阶对称矩阵,则存在正交矩阵T与对角矩阵∧,则三者的关系有A=T∧T’。
6、设x是多元向量,服从正太分布即X~,a为P维常熟向量,则其线性型a’x服从一元正态分布,即a’x~。
7、方差相同的两个随机变量的差与和是不相关关系。
8、协方差和相关系数是变量间离散程度的一种变量,并不能刻画变量间可能存在的关联程度的关系。
9、变量的类型按尺度划分为间隔变量、有序变量、名义变量类型。
10、公共因子方差与特殊因子方差之和为1。
11、聚类分析是建立一种分析方法,它将一批样品或变量按照它们在性质上的亲疏关系进行科学的分类。
12、聚类分析是分析如何对样品或变量进行量化分析,通常分为Q型聚类和R型聚类。
13、聚类分析中Q型聚类是对样品进行聚类,R型聚类是对变量进行聚类。
14、进行判别分析时,通常指定一种判别规则用来判定新样品的归属,常见的判别准则有:费希尔判别准则、贝叶斯判别准则。
15、费希尔判别法就是要找P个变量组成的线性判别函数使得各组内点的离差尽可能接近,而不同组间的点尽可能疏远。
16、当X~,则-)服从卡方分布,即-) ~。
17、威尔克斯统计量表达式:∧=。
18、霍特林统计量表达式:。
19、两个变量间的平方马氏距离:;总体的马氏距离:。
20、方差相等的两个随机变量的关系:。
21、几个变量间服从正态分布,各自独立,样品的均值向量服从正态分布。
22、从代数观点看主成分是P个原始相关变量的线性组合。
23、变量共同度是指因子载荷矩阵中的第i行元素的平方和。
24、因子分析是指把每个原始变量分为两部分因素,一部分是公共因子,另一部分是特殊因子。
1、判别分析的目标。
答:判别分析的目标有两个:一是根据已知所属组的样本给出判别函数,并制定判别规则,再依此判断(或预测)每一新样品应归属的组别。