第2章 多元正态分布均值向量和协差阵的检验
- 格式:doc
- 大小:611.50 KB
- 文档页数:18
多元统计分析陈钰芬课后答案第1章多元正态分布1、在数据处理时,为什么通常要进行标准化处理?第1章多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。
在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
其中最典型的就是0-1标准化和Z标准化。
2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。
在二维和三维空间中的欧氏距离的就是两点之间的距离。
缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。
每个坐标对欧氏距离的贡献是同等的。
当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。
当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。
它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。
没有考虑到总体变异对距离远近的影响。
马氏距离表示数据的协方差距离。
为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。
优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。
由标准化数据和中心化数据计算出的二点之间的马氏距离相同。
马氏距离还可以排除变量之间的相关性的干扰。
缺点:夸大了变化微小的变量的作用。
受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。
3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。
第一章 多元正态分布的参数估计一、填空题1。
设X 、Y 为两个随机向量,对一切的u 、v,有 ,则称X 与Y 相互独立。
2。
多元分析处理的数据一般都属于 数据。
3.多元正态向量()'=p X X X ,,1 的协方差阵∑是 ,则X 的各分量是相互独立的随机变量。
4.一个p 元函数()p x x x f ,,,21 能作为pR 中某个随机向量的密度函数的主要条件是和 。
5.若p 个随机变量1X ,2X , ,p X 的联合分布等于 ,则称1X ,2X , ,p X 是相互独立的。
6。
多元正态分布的任何边缘分布为 。
7。
若()∑,~μp N X ,A 为p s ⨯阶常数阵,d 为s 维常数向量,则~d AX + 。
8.多元正态向量X 的任何一个分量子集的分布称为X 的 . 9.多元样本中,不同样品的观测值之间一定是 。
10。
多元正态总体均值向量和协差阵的极大似然估计量分别是 。
11.多元正态总体均值向量μ和协差阵∑的估计量X 、S n 11-具有 、 和 。
12.设X 和S 分别是多元正态总体()∑,μp N 的样本均值向量和离差阵,则~X ,X 和S 。
13。
若()()∑,~μαp N X ,n ,,2,1 =α且相互独立,则样本离差阵()()()()∑='--=nX X X X S 1~ααα .14.若()∑,~i p i n W S ,k i ,,1 =,且相互独立,则~21k S S S S +++= 。
二、判断题1。
多元分布函数()x F 是单调不减函数,而且是右连续的。
2.设X 是p 维随机向量,则X 服从多元正态分布的充要条件是:它的任何组合()p R X ∈'αα都是一元正态分布.3。
μ是一个P 维的均值向量,当A 、B 为常数矩阵时,具有如下性质: (1)E (AX )=AE (X ) (2)E (AXB)=AE (X )B4.若P 个随机变量X 1,…X P 的联合分布等于各自边缘分布的乘积,则称X 1,… X P 是相互独立的。
多元统计分析——均值向量和协方差阵检验均值向量检验是评估两个或多个总体均值是否相等的方法。
在多元统计分析中,均值向量检验常用于比较不同组别或条件下的均值是否有差异。
假设有k个样本组别,每个组别有n个观测值,那么总共有nk个观测值。
假设每个观测值有p个测量变量,那么每个样本组别的均值向量可以表示为一个p维的向量。
我们的目标是比较这k个均值向量是否相等。
常用的均值向量检验方法有Hotelling's T-squared统计量和Wilks' Lambda统计量。
Hotelling's T-squared统计量是基于方差-协方差阵的一个推广,它考虑了样本组别的大小和协方差结构。
它的计算公式为:T^2=n(p-k)/(k(n-1))*(x1-x)^TS^(-1)(x1-x)其中,n是每个组别的观测数,p是变量的个数,k是组别的个数,x1是第一个组别的均值向量,x是总体均值向量,S是协方差阵。
T^2的分布是一个自由度为k,维度为p的非中心F分布。
Wilks' Lambda统计量是基于协方差阵的特征值的一个变换,它的计算公式为:Lambda = ,W,/,B其中,W是所有组别的散布矩阵(Within-groups scatter matrix),B是总体的散布矩阵(Between-groups scatter matrix)。
Wilks' Lambda的分布是一个自由度为k和n-k-1的F分布。
协方差阵检验是评估两个或多个总体协方差阵是否相等的方法。
在多元统计分析中,协方差阵检验常用于比较不同组别或条件下的变量之间的协方差结构是否有差异。
假设有k个样本组别,每个组别有n个观测值,那么总共有nk个观测值。
假设每个观测值有p个测量变量,那么每个样本组别的协方差阵可以表示为一个p维的矩阵。
我们的目标是比较这k个协方差阵是否相等。
常用的协方差阵检验方法有Hotelling-Lawley's Trace统计量和Pillai-Bartlett's Trace统计量。
第二章 多元正态分布均值向量和协差阵的检验一、填空题1.在一个正态总体均值向量的假设检验中,在∑已知的情况下,构造的检验统计量为 ,服从 分布;在∑未知的情况下,构造的检验统计量为 ,服从 分布。
2.若()∑,0~p N X ,()∑,~n W S p ,且X 与S 相互独立,令X S X n T 12-'=,则~12T np p n +- 。
3.若()∑,~μp N X ,()∑,~n W S p ,且X 与S 相互独立,p n ≥,则称统计量X S X n T 12-'=的分布为 分布,记为 。
4.在两个正态总体均值向量的假设检验中,假定其协差阵∑相等,则在∑已知的情况下,构造的统计量为 ,服从的分布为 ;在∑未知的情况下,构造的检验统计量为 ,服从的分布为 。
二、判断题1.设()∑,~μp N X ,()∑,~n W Sp ,p n ≥,则称统计量X S X n T 12-'=的分布为非中心2HotellingT 分布,记为()μ,,~22n p T T 。
2.在协差阵∑未知的情况下对均值向量进行检验,需要用样本协差阵S n 1去代替∑。
3.2HotellingT 分布是一元统计分布中t 分布的推广。
4.在一个正态总体均值向量的假设检验中,在∑已知的情况下,构造的检验统计量服从2HotellingT 分布。
5.在一个正态总体均值向量的假设检验中,在∑未知的情况下,构造的检验统计量服从2χ分布。
6.在两个正态总体均值向量的假设检验中,假定其协差阵∑相等,则在∑已知的情况下,构造的统计量服从多元正态分布。
7.在两个正态总体均值向量的假设检验中,假定其协差阵∑相等, 在∑未知的情况下,构造的检验统计量服从2HotellingT分布。
三、简答题1.试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。
2.试述多元统计分析中2HotellingT分布和一元统计中t分布的关系。
第2章均值向量和协⽅差阵的检验作业及解答
第2章均值向量和协⽅差阵的检验作业及解答
2.1 ⼤学⽣的素质⾼低要受各⽅⾯因素的影响,其中包括家庭环境与家庭教育(x1)、学校⽣活环境(x2)、学校周围环境(x3)和个⼈向上发展的⼼理动机(x4)等。
从某⼤学在校学⽣中抽取了20 ⼈对以上因素在⾃⼰成长和发展过程中的影响程度给予评分(以9分制),数据如下表所⽰:
假定x=(x1,x2,x3,x4)’服从四元正态分布。
试检验
H0:µ=µ0=(7,5, 4,8),H1:µ≠µ0,(α= 0.05).
解:这是⼀个总体的多元均值检验。
2.2 测量30名出⽣到3周岁婴幼⼉的⾝⾼和体重数据(见下表),其中男⼥各15名,
1),假定这两组都服从正态分布且协⽅差阵相等,试在显著性⽔平0.05下检验男⼥婴幼⼉的这两项指标是否有显著差异?请将下表的数据输⼊到SPSS⽂件中,并进⾏检验。
解:这是两总体均值检验。
2.3 1992年美国总统选举的三位候选⼈为布什、佩罗特和克林顿。
从⽀持三位候选⼈的选民中分别抽取了20 ⼈,登记他们的年龄段(x1)、受教育程度(x2)和性别(x3)资料如下
1),假定三组都服从多元正态分布,检验这三组的总体均值是否有显著性差异(α=0.05)。
2),检验三位候选⼈的协差阵是否相等(α=0.05)。
解:这是多总体均值检验。
多元正态总体均值及协方差检验1. 检验目的通过对竞争性工商业企业的评价指标体系,对三个不同行业上市公司的经营能力的水平进行比较。
2. 检验过程2.1 检验统计量是否服从多元正态分布每个变量的检验结果如图所示:Tests of Normality.15235.039.94435.077.13735.095.94235.064.14435.065.93935.052.23535.000.68335.000.15935.026.85035.000.17235.011.88035.001.11635.200*.98235.836.25235.000.69535.000净资产收益率总资产报酬率资产负债率总资产周转率流动资产周转率已获利息倍数销售增长率资本积累率S tatistic df S ig.S tatisticdf S ig.Kolmogorov-S mirn ovaS hapiro-W ilkT his is a lower bound of the true significance.*. Lilliefors Significance Correctiona.因为样本数较小,所以我们选择Shapiro-Wilk 统计量,分析每个变量的sig 值,我们可以看出在0.05水平下,只用净资产收益率,总资产报酬率,资产负载率及销售增长率遵从正态分布,多我们以下只对这四项指标在进行比较,并认为这四项指标组成的向量服从整台分布。
2.2 均值及方差的检验 2.2.1 均值的检验运用GLM 模块对四个指标构成的总体进行相应有关均值及方差的检验,分析图如图所示:Multivariate Tests c.947130.278a 4.00029.000.000.053130.278a 4.00029.000.00017.969130.278a 4.00029.000.00017.969130.278a 4.00029.000.000.712 4.1498.00060.000.001.388 4.387a 8.00058.000.0001.317 4.6118.00056.000.0001.0778.079b 4.00030.000.000P illai's Trace W ilks' Lambda Hotelling's T race Roy's Largest Root P illai's Trace W ilks' Lambda Hotelling's T race Roy's Largest RootE ffe ct Intercept行业Valu eF Hypoth esis dfE rror dfS ig.Exact statistica. T he statistic is an upper bound on F that yields a lower bound on the significance level.b. Design: Intercept+行业c.我们可以很清楚的看出,无论是那个统计量,从他们的sig 值可以看出,根据净资产收益率,总资产报酬率,资产负载率及销售增长率这四个指标,这三个行业的运营能力至少有两个是有显著差别的。
第一章 多元正态分布的参数估计一、填空题1.设X 、Y 为两个随机向量,对一切的u 、v ,有 ,则称X 与Y 相互独立。
2.多元分析处理的数据一般都属于 数据。
3.多元正态向量()'=p X X X ,,1 的协方差阵∑是 ,则X 的各分量是相互独立的随机变量。
4.一个p 元函数()p x x x f ,,,21 能作为p R 中某个随机向量的密度函数的主要条件是 和 。
5.若p 个随机变量1X ,2X , ,p X 的联合分布等于 ,则称1X ,2X , ,p X 是相互独立的。
6.多元正态分布的任何边缘分布为 。
7.若()∑,~μp N X ,A 为p s ⨯阶常数阵,d 为s 维常数向量,则~d AX + 。
8.多元正态向量X 的任何一个分量子集的分布称为X 的 。
9.多元样本中,不同样品的观测值之间一定是 。
10.多元正态总体均值向量和协差阵的极大似然估计量分别是 。
11.多元正态总体均值向量μ和协差阵∑的估计量X 、S n 11-具有 、 和 。
12.设X 和S 分别是多元正态总体()∑,μp N 的样本均值向量和离差阵,则~X ,X 和S 。
13.若()()∑,~μαp N X ,n ,,2,1 =α且相互独立,则样本离差阵()()()()∑='--=nX X X X S 1~ααα 。
14.若()∑,~i p i n W S ,k i ,,1 =,且相互独立,则~21k S S S S +++= 。
二、判断题1.多元分布函数()x F 是单调不减函数,而且是右连续的。
2.设X 是p 维随机向量,则X 服从多元正态分布的充要条件是:它的任何组合()p R X ∈'αα都是一元正态分布。
3.μ是一个P 维的均值向量,当A 、B 为常数矩阵时,具有如下性质:(1)E (AX )=AE (X ) (2)E (AXB )=AE (X )B4.若P 个随机变量X 1,…X P 的联合分布等于各自边缘分布的乘积,则称X 1,… X P 是相互独立的。
5.一般情况下,对任何随机向量()'=XXX p,,1,协差阵∑是对称阵,也是正定阵。
6.多元正态向量()'=X X X p,,1的任意线性变换仍然服从多元正态分布。
7.多元正态分布的任何边缘分布为正态分布,反之一样。
8.多元样本中,不同样品之间的观测值一定是相互独立的。
9.多元正态总体参数均值μ的估计量X 具有无偏性、有效性和一致性。
10.S n1是∑的无偏估计。
11.Wishart 分布是2χ分布在p 维正态情况下的推广。
12.若()()∑,~μαp N X ,n ,,1 =α,且相互独立,则样本离差阵()()()()()∑-'--=∑=,1~1n W X X X X S np ααα13.若()∑,~n W X p ,C 为奇异矩阵,则()c c n W C CX p '∑',~ 三、简答题1.多元正态分布有哪些基本性质?2.均值向量和协差阵的最大似然估计量有哪些优良性质?3.维希特分布有哪些基本性质?4.试述多元联合分布和边缘分布之间在关系。
四、证明题1.样本均值向量和离差阵也可以用样本资料X 直接表示如下:n X n X 11'=,X n I X S n n n ⎪⎭⎫⎝⎛'-'=111其中:()'=1,,1,11 n ,⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=1001I试分别给以证明。
五、计算题1.已知随机向量()'=21,X X X 的联合分布密度函数为()()()()()()()[]()()2221212122,c b a b c x a x c x a b a x c d x x f -------+--=其中,b x a ≤≤1,d x c ≤≤2.求:(1)随机变量1X 和2X 各自的边缘密度函数、均值与方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断1X 和2X 是否相互独立。
第二章 多元正态分布均值向量和协差阵的检验一、填空题1.在一个正态总体均值向量的假设检验中,在∑已知的情况下,构造的检验统计量为 ,服从 分布;在∑未知的情况下,构造的检验统计量为 ,服从 分布。
2.若()∑,0~p N X ,()∑,~n W S p ,且X 与S 相互独立,令X S X n T 12-'=,则~12T npp n +- 。
3.在两个正态总体均值向量的假设检验中,假定其协差阵∑相等,则在∑已知的情况下,构造的统计量为 ,服从的分布为 ;在∑未知的情况下,构造的检验统计量为 ,服从的分布为 。
二、判断题1.设()∑,~μp N X ,()∑,~n W S p ,p n ≥,则称统计量X S X n T 12-'=的分布为非中心2HotellingT 分布,记为()μ,,~22n p T T。
2.在协差阵∑未知的情况下对均值向量进行检验,需要用样本协差阵S n1去代替∑。
3.2HotellingT 分布是一元统计分布中t 分布的推广。
三、简答题1.试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。
2.试述多元统计分析中2HotellingT 分布和一元统计中t 分布的关系。
第三章 主成分分析 一、填空题1.2.主成分分析的数学模型可简写为 ,该模型的系数要求3 4.第k 个主成分k yk 个主成分的累积贡献率为5spss6.主成分的协方差矩阵为_________矩阵。
7.原始变量协方差矩阵的特征根的统计含义是________________。
8.原始数据经过标准化处理,转化为均值为__ __,方差为__ __的标准值,且其________矩阵与相关系数矩阵相等。
9.在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为________。
10.SPSS 中主成分分析采用______________命令过程。
二、判断题1.主成分分析就是设法将原来众多具有一定相关性的指标,重新组合成一组新的相互无关的综合指标来代替原来指标。
( )2.主成分y 的协差阵为对角矩阵。
( )3.p x x x ,,,21 的主成分就是以∑的特征向量为系数的一个组合,它们互不相关,其方差为∑的特征根。
( )4.原始变量i x 的信息提取率()m i V 表示这m 个主成分所能够解释第i 个原始变量变动的程度。
( )5.在spss 中,可以直接进行主成分分析。
( ) 6.主成分分析可用于筛选回归变量。
( )7.SPSS 中选取主成分的方法有两个:一种是根据特征根≥1来选取; 另一种是按照累积贡献率≥85%来选取。
( )8.主成分方差的大小说明了该综合指标反映p 个原始观测变量综合变动程度的能力的大小。
( )9.主成分表达式的系数向量是协方差矩阵∑的特征向量。
( )10.主成分k y 与原始变量i x 的相关系数()i k x y ,ρ反映了第k 个公共因子对第i 个原始变量的解释程度。
( ) 三、简答题1.简述主成分的概念及几何意义。
2.主成分分析的基本思想是什么? 3.简述主成分分析的计算步骤。
4.主成分有哪些性质? 5.主成分主要应用在哪些方面? 四、计算题1.假设3个变量1x 、2x 和3x 的协方差矩阵为:⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡--=∑20053032要求用此协差阵和相应的相关阵对这3个变量进行主成分分析,根据计算结果说明应选取多少个主成分以代表原来的3个变量,并说明理由。
2.在一项研究中,测量了376只鸡的骨骼,并利用相关系数矩阵进行主成分分析,见下表:(1)解释6个主成分的实际意义。
(2)计算前三个主成分各自的贡献率和累积贡献率。
(3)对于y4,y5,y6的方差很小这一点,你怎样对实际情况作出推断。
3.假设某商场棉鞋1x 、凉鞋2x 、布鞋3x 三种商品销售量的协方差矩阵如下:⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡--=∑20052021 试求各主成分,并对各主成分的贡献率和各个原始观测变量的信息提取率进行讨论。
4.对某市15个大中型工业企业进行经济效益分析,经研究确定,从有关经济效益指标中选取7个指标作分析,即固定资产产值率(X1),固定资产利税率(X2),资金利润率(X3),资金利税率(X4),流动资金周转天数(X5),销售收入利税率(X6)和全员劳动生产率(X7)。
数据资料如下:根据下面SPSS软件的输出信息,回答:(1)这个数据的7个变量可以用几个综合变量(主成分)来表示?(2)这几个综合变量(主成分)包含有多少原来的信息?(3)写出这几个综合变量(主成分)的模型。
(4)构造综合评价函数为。
Total Variance ExplainedExtraction Method: Principal Component Analysis.Component Matrix(a)Extraction Method: Principal Component Analysis.a 2 components extracted.(1)这个数据的7个变量可以用二个综合变量来表示(2)前二个成分特征值对应的方差累计占了总方差的84.577%,它们已经代表了原来7个变量绝大部分的信息。
(3)由Component1、2的系数除以635.4、285.1,得到:7653.4/585.0653.4/943.0653.4/984.0653.4/888.03211xxxxY+++=7285.1/594.0285.1/028.0285.1/213.0212x x x Y -+-=(4)利用选取得二个主成分,以各主成分的方差贡献率作为权数,构造综合评价函数为:21ˆ%358.18ˆ%219.66Y Y F +=五、证明题主成分有三个重要性质: ⑴F 的协差阵为对角阵Λ; ⑵11ppiii i i σλ===∑∑;⑶(),k i F X ρ=试分别加以证明。
第四章 因子分析一、填空题1.因子分析常用的两种类型为 和 。
2.因子分析是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现_____________与____________之间的相互关系。
3.因子分析就是通过寻找众多变量的 来简化变量中存在的复杂关系的一种方法。
4.因子分析是把每个原始变量分解成两个部分即 、 。
5.变量共同度是指因子载荷矩阵中_______________________。
6.公共因子方差与特殊因子方差之和为_______。
7.求解因子载荷矩阵常用的方法有 和 。
8.常用的因子旋转方法有 和 。
9.Spss 中因子分析采用 命令过程。
10.变量i X 的方差由两部分组成,一部分为 ,另一部分为 。