多元统计分析均值向量与协方差阵的检验
- 格式:ppt
- 大小:3.54 MB
- 文档页数:224
多元统计分析课后练习答案第1章多元正态分布1、在数据处理时,为什么通常要进⾏标准化处理?数据的标准化是将数据按⽐例缩放,使之落⼊⼀个⼩的特定区间。
在某些⽐较和评价的指标处理中经常会⽤到,去除数据的单位限制,将其转化为⽆量纲的纯数值,便于不同单位或量级的指标能够进⾏⽐较和加权。
其中最典型的就是0-1标准化和Z 标准化。
2、欧⽒距离与马⽒距离的优缺点是什么?欧⽒距离也称欧⼏⾥得度量、欧⼏⾥得度量,是⼀个通常采⽤的距离定义,它是在m 维空间中两个点之间的真实距离。
在⼆维和三维空间中的欧⽒距离的就是两点之间的距离。
缺点:就⼤部分统计问题⽽⾔,欧⽒距离是不能令⼈满意的。
每个坐标对欧⽒距离的贡献是同等的。
当坐标表⽰测量值时,它们往往带有⼤⼩不等的随机波动,在这种情况下,合理的⽅法是对坐标加权,使变化较⼤的坐标⽐变化较⼩的坐标有较⼩的权系数,这就产⽣了各种距离。
当各个分量为不同性质的量时,“距离”的⼤⼩与指标的单位有关。
它将样品的不同属性之间的差别等同看待,这⼀点有时不能满⾜实际要求。
没有考虑到总体变异对距离远近的影响。
马⽒距离表⽰数据的协⽅差距离。
为两个服从同⼀分布并且其协⽅差矩阵为Σ的随机变量与的差异程度:如果协⽅差矩阵为单位矩阵,那么马⽒距离就简化为欧⽒距离,如果协⽅差矩阵为对⾓阵,则其也可称为正规化的欧⽒距离。
优点:它不受量纲的影响,两点之间的马⽒距离与原始数据的测量单位⽆关。
由标准化数据和中⼼化数据计算出的⼆点之间的马⽒距离相同。
马⽒距离还可以排除变量之间的相关性的⼲扰。
缺点:夸⼤了变化微⼩的变量的作⽤。
受协⽅差矩阵不稳定的影响,马⽒距离并不总是能顺利计算出。
3、当变量X1和X2⽅向上的变差相等,且与互相独⽴时,采⽤欧⽒距离与统计距离是否⼀致?统计距离区别于欧式距离,此距离要依赖样本的⽅差和协⽅差,能够体现各变量在变差⼤⼩上的不同,以及优势存在的相关性,还要求距离与各变量所⽤的单位⽆关。
如果各变量之间相互独⽴,即观测变量的协⽅差矩阵是对⾓矩阵, 则马⽒距离就退化为⽤各个观测指标的标准差的倒数作为权数的加权欧⽒距离。
2.1.试叙述多元联合分布和边际分布之间的关系。
解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=L 的联合分布密度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=L 的子向量的概率分布,其概率密度函数的维数小于p 。
2.2设二维随机向量12()X X '服从二元正态分布,写出其联合分布。
解:设12()X X '的均值向量为()12μμ'=μ,协方差矩阵为21122212σσσσ⎛⎫ ⎪⎝⎭,则其联合分布密度函数为1/21222112112222122121()exp ()()2f σσσσσσσσ--⎧⎫⎛⎫⎛⎫⎪⎪'=---⎨⎬ ⎪⎪⎝⎭⎝⎭⎪⎪⎩⎭x x μx μ。
2.3已知随机向量12()X X '的联合密度函数为其中1ax b ≤≤,2c x d ≤≤。
求(1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数;(3)判断1X 和2X 是否相互独立。
(1)解:随机变量1X 和2X 的边缘密度函数、均值和方差;所以 由于1X 服从均匀分布,则均值为2b a+,方差为()212b a -。
同理,由于2X 服从均匀分布[]2121,()0x x c d f x d c⎧∈⎪=-⎨⎪⎩其它,则均值为2d c+,方差为()212d c -。
(2)解:随机变量1X 和2X 的协方差和相关系数;(3)解:判断1X 和2X 是否相互独立。
1X 和2X 由于121212(,)()()x x f x x f x f x ≠,所以不独立。
2.4设12(,,)p X X X X '=L 服从正态分布,已知其协方差矩阵∑为对角阵,证明其分量是相互独立的随机变量。
解: 因为12(,,)p X X X X '=L 的密度函数为又由于21222p σσσ⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭ΣO 212122111p σσσ-⎛⎫ ⎪ ⎪ ⎪ ⎪=⎪ ⎪ ⎪ ⎪ ⎪⎝⎭ΣO则1(,...,)p f x x2121()()...()2pi i p i i x f x f x μσ=⎧⎫-=-=⎨⎬⎩⎭则其分量是相互独立。
实验一SPSS软件的基本操作与均值向量和协方差阵的检验【实验目的】通过本次实验,了解SPSS的基本特征、结构、运行模式、主要窗口等,了解如何录入数据和建立数据文件,掌握基本的数据文件编辑与修改方法,对SPSS有一个浅层次的综合认识。
同时能够掌握对均值向量和协方差阵进行检验。
【实验性质】必修,基础层次【实验仪器及软件】计算机及SPSS软件【实验内容】1.操作SPSS的基本方法(打开、保存、编辑数据文件)2.问卷编码3.录入数据并练习数据相关操作4.对均值向量和协方差阵进行检验,并给出分析结论。
【实验学时】4学时【实验方法与步骤】1.开机2.找到SPSS的快捷按纽或在程序中找到SPSS,打开SPSS3.认识SPSS数据编辑窗、结果输出窗、帮助窗口、图表编辑窗、语句编辑窗4.对一份给出的问卷进行编码和变量定义5.按要求录入数据6.练习基本的数据修改编辑方法7.检验多元总体的均值向量和协方差阵8.保存数据文件9.关闭SPSS,关机。
【实验注意事项】1.实验中不轻易改动SPSS的参数设置,以免引起系统运行问题。
2.遇到各种难以处理的问题,请询问指导教师。
3.为保证计算机的安全,上机过程中非经指导教师和实验室管理人员同意,禁止使用移动存储器。
4.每次上机,个人应按规定要求使用同一计算机,如因故障需更换,应报指导教师或实验室管理人员同意。
5.上机时间,禁止使用计算机从事与课程无关的工作。
【上机作业】1.定义变量:试录入以下数据文件,并按要求进行变量定义。
表1学号姓名性别生日身高(cm)体重(kg)英语(总分100分)数学(总分100分)生活费($代表人民币)200201 刘一迪男1982.01.12 156.42 47.54 75 79 345.00 200202 许兆辉男1982.06.05 155.73 37.83 78 76 435.00 200203 王鸿屿男1982.05.17 144.6 38.66 65 88 643.50 200204 江飞男1982.08.31 161.5 41.68 79 82 235.50 200205 袁翼鹏男1982.09.17 161.3 43.36 82 77 867.00 200206 段燕女1982.12.21 158 47.35 81 74200207 安剑萍女1982.10.18 161.5 47.44 77 69 1233.00 200208 赵冬莉女1982.07.06 162.76 47.87 67 73 767.80 200209 叶敏女1982.06.01 164.3 33.85 64 77 553.90 200210 毛云华女1982.09.12 144 33.84 70 80 343.00200211 孙世伟男1981.10.13 157.9 49.23 84 85 453.80200212 杨维清男1981.12.6 176.1 54.54 85 80 843.00男1981.11.21 168.55 50.67 79 79 657.40 200213 欧阳已祥200214 贺以礼男1981.09.28 164.5 44.56 75 80 1863.90200215 张放男1981.12.08 153 58.87 76 69 462.20200216 陆晓蓝女1981.10.07 164.7 44.14 80 83 476.80200217 吴挽君女1981.09.09 160.5 53.34 79 82200218 李利女1981.09.14 147 36.46 75 97 452.80200219 韩琴女1981.10.15 153.2 30.17 90 75 244.70200220 黄捷蕾女1981.12.02 157.9 40.45 71 80 253.00要求:1)变量名同表格名,以“()”内的内容作为变量标签。
第一章 多元正态分布的参数估计一、填空题1.设X 、Y 为两个随机向量,对一切的u 、v ,有 ,则称X 与Y 相互独立。
2.多元分析处理的数据一般都属于 数据。
3.多元正态向量()'=p X X X ,,1 的协方差阵∑是 ,则X 的各分量是相互独立的随机变量。
4.一个p 元函数()p x x x f ,,,21 能作为p R 中某个随机向量的密度函数的主要条件是 和 。
5.若p 个随机变量1X ,2X , ,p X 的联合分布等于 ,则称1X ,2X , ,p X 是相互独立的。
6.多元正态分布的任何边缘分布为 。
7.若()∑,~μp N X ,A 为p s ⨯阶常数阵,d 为s 维常数向量,则~d AX + 。
8.多元正态向量X 的任何一个分量子集的分布称为X 的 。
9.多元样本中,不同样品的观测值之间一定是 。
10.多元正态总体均值向量和协差阵的极大似然估计量分别是 。
11.多元正态总体均值向量μ和协差阵∑的估计量X 、S n 11-具有 、 和 。
12.设X 和S 分别是多元正态总体()∑,μp N 的样本均值向量和离差阵,则~X ,X 和S 。
13.若()()∑,~μαp N X ,n ,,2,1 =α且相互独立,则样本离差阵()()()()∑='--=nX X X X S 1~ααα 。
14.若()∑,~i p i n W S ,k i ,,1 =,且相互独立,则~21k S S S S +++= 。
二、判断题1.多元分布函数()x F 是单调不减函数,而且是右连续的。
2.设X 是p 维随机向量,则X 服从多元正态分布的充要条件是:它的任何组合()p R X ∈'αα都是一元正态分布。
3.μ是一个P 维的均值向量,当A 、B 为常数矩阵时,具有如下性质:(1)E (AX )=AE (X ) (2)E (AXB )=AE (X )B4.若P 个随机变量X 1,…X P 的联合分布等于各自边缘分布的乘积,则称X 1,… X P 是相互独立的。
第二章2.1.试表达多元联合分布和边际分布之间的关系。
解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=的联合分布密度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=的子向量的概率分布,其概率密度函数的维数小于p 。
2.2设二维随机向量12()X X '服从二元正态分布,写出其联合分布。
解:设12()X X '的均值向量为()12μμ'=μ,协方差矩阵为21122212σσσσ⎛⎫ ⎪⎝⎭,则其联合分布密度函数为1/21222112112222122121()exp ()()2f σσσσσσσσ--⎧⎫⎛⎫⎛⎫⎪⎪'=---⎨⎬ ⎪⎪⎝⎭⎝⎭⎪⎪⎩⎭x x μx μ。
2.3已知随机向量12()X X '的联合密度函数为121212222[()()()()2()()](,)()()d c x a b a x c x a x c f x x b a d c --+-----=-- 其中1a x b ≤≤,2c x d ≤≤。
求〔1〕随机变量1X 和2X 的边缘密度函数、均值和方差; 〔2〕随机变量1X 和2X 的协方差和相关系数; 〔3〕判断1X 和2X 是否相互独立。
〔1〕解:随机变量1X 和2X 的边缘密度函数、均值和方差;112121222[()()()()2()()]()()()dx cd c x a b a x c x a x c f x dx b a d c --+-----=--⎰12212222222()()2[()()2()()]()()()()ddcc d c x a x b a x c x a x c dx b a d c b a d c -------=+----⎰12122222()()2[()2()]()()()()dd cc d c x a x b a t x a t dt b a d c b a d c ------=+----⎰2212122222()()[()2()]1()()()()d cdcd c x a x b a t x a t b a d c b a d c b a------=+=----- 所以由于1X 服从均匀分布,则均值为2b a +,方差为()212b a -。
第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。
在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
其中最典型的就是0-1标准化和Z 标准化。
2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。
在二维和三维空间中的欧氏距离的就是两点之间的距离。
缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。
每个坐标对欧氏距离的贡献是同等的。
当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。
当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。
它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。
没有考虑到总体变异对距离远近的影响。
马氏距离表示数据的协方差距离。
为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。
优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。
由标准化数据和中心化数据计算出的二点之间的马氏距离相同。
马氏距离还可以排除变量之间的相关性的干扰。
缺点:夸大了变化微小的变量的作用。
受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。
3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。
如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。
第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。
在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
其中最典型的就是0-1标准化和Z 标准化。
2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。
在二维和三维空间中的欧氏距离的就是两点之间的距离。
缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。
每个坐标对欧氏距离的贡献是同等的。
当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。
当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。
它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。
没有考虑到总体变异对距离远近的影响。
马氏距离表示数据的协方差距离。
为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。
优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。
由标准化数据和中心化数据计算出的二点之间的马氏距离相同。
马氏距离还可以排除变量之间的相关性的干扰。
缺点:夸大了变化微小的变量的作用。
受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。
3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。
如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。