应用多元统计分析第三章多元正态总体参数的假设检验(一)
- 格式:ppt
- 大小:902.50 KB
- 文档页数:58
多元统计分析第三章假设检验与⽅差分析第3章多元正态总体的假设检验与⽅差分析从本章开始,我们开始转⼊多元统计⽅法和统计模型的学习。
统计学分析处理的对象是带有随机性的数据。
按照随机排列、重复、局部控制、正交等原则设计⼀个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进⾏统计推断,是⾃然科学和⼯程技术领域常⽤的⼀种研究⽅法。
由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论⽅法研究的出发点。
所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要⽤概率来表明其可靠程度。
统计推断的任务是“观察现象,提取信息,建⽴模型,作出推断”。
统计推断有参数估计和假设检验两⼤类问题,其统计推断⽬的不同。
参数估计问题回答诸如“未知参数θ的值有多⼤?”之类的问题,⽽假设检验回答诸如“未知参数θ的值是0θ吗?”之类的问题。
本章主要讨论多元正态总体的假设检验⽅法及其实际应⽤,我们将对⼀元正态总体情形作⼀简单回顾,然后将介绍单个总体均值的推断,两个总体均值的⽐较推断,多个总体均值的⽐较检验和协⽅差阵的推断等。
3.1⼀元正态总体情形的回顾⼀、假设检验在假设检验问题中通常有两个统计假设(简称假设),⼀个作为原假设(或称零假设),另⼀个作为备择假设(或称对⽴假设),分别记为0H 和1H 。
1、显著性检验为便于表述,假定考虑假设检验问题:设1X ,2X ,…,n X 来⾃总体),(2σµN 的样本,我们要检验假设100:,:µµµµ≠=H H (3.1)原假设0H 与备择假设1H 应相互排斥,两者有且只有⼀个正确。
备择假设的意思是,⼀旦否定原假设0H ,我们就选择已准备的假设1H 。
当2σ已知时,⽤统计量nX z σµ-=在原假设0H 成⽴下,统计量z 服从正态分布z )1,0(~N ,通过查表,查得)1,0(N 的上分位点2αz 。
第三章 多元假设检验3.1 实例从本节开始,我们转入多元统计的实际应用。
在实际问题中,有时要同时考虑多个随机性的指标,而且这些指标之间还存在着一定的联系。
例如,检查某人的健康情况,就得检查这个人的体重、体温、血压、心脏等多项指标。
一般仅是单项指标异常还不能立即诊断是什么原因,而必须对各项指标综合分析,才能作出结论。
多元统计分析的精髓之一就是必须对p 个相关变量同时进行分析。
首先让我们看2个例子:例3.1测量20名健康女性排汗量1x 、钠含量2x 、钾含量3x 得表3.1。
问健康女性1x 、2x 、3x 的均值是不是4、50、10?表3.1 20名健康女性排汗量1x 、钠含量2x 、钾含量3x 数据例 3.2 为了研究日美两国在华企业对中国经营环境的评价是否存在差异,从两国在华企业对中国的政治、经济、法律、文化等环境打分,得表3.2。
试分析日美两国在华企业对中国经营环境的评价是否存在差异?表3.2这些问题涉及多个项目同时比较,例如例3.1要检验3个指标(1x )=4,E(2x )=50,E(3x )=10是否同时成立?例3.2要检验美日两国企业四个评价指标是否相同?Ey1=Ex1,Ey2=Ex2,Ey3=Ex3,Ey4=Ex4是否同时成立?本章总作多元正态假设:设)',...,(21p x x x x =服从),(∑μN 。
例3.1和例3.2即是要做复合检验⎥⎥⎦⎤⎢⎢⎣⎡=⎥⎥⎦⎤⎢⎢⎣⎡10504321μμμ和⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡43214321y y y y x x x x μμμμμμμμ 按照概率论基础知识的方法,我们可以对每个指标进行t 检验或F 检验。
例如对例1先检验E(1x )=4, 再检验E(2x )=50,然后再检验E(3x )=10。
但是可能会遇到这样的情况:单独检验E(1x )=4不否定原命题(例如接受概率P(A)=0.4),再单独检验E(2x )=50也不否定原命题(例如接受概率P(B)=0.5);而单独检验E(3x )=10也不否定原命题(例如接受概率P(C)=0.6);但是联合起来检验E(1x )=4,E(2x )=50,E(3x )=10,接受域概率P(ABC)是0与0.4间的不定数,依A 、B 、C 的关系而定:若A 、B 、C 重合,则P(ABC)=0.4;若A 和B 互斥,则P(ABC)=0。
应用多元统计分析第3章 多元正态总体的假设检验- 1-•在一元正态总体 中,关于参数 的假设检验涉及到一个总体和多个总体情况,推广到多元正态总体 ,关于参数 的假设检验问题也涉及一个总体和多个总体情况。
本章我们只讨论关于均值向量 的假设检验问题。
•在多元统计中,用于检验 的抽样分布有维希特(Wishart)分布、霍特林(Hotelling)分布和威尔克斯(Wilks)分布,它们都是由来自多元正态总体 的样本构成的统计量。
在第2章中,我们已经讨论了维希特分布的定义和性质,本章我们讨论后两个统计量的分布。
霍特林 分布在一元统计中,若 ,且 相互独立,则或等价地下面把 的分布推广到多元正态总体。
定义3.1 设 , ,其中 ,且 与 相互独立。
则称统计量 为 统计量,其分布称为自由度为n的霍特林 分布,记为分布的性质性质1 设 是来自正态总体 的随机样本, 和A 分别是样本均值向量和样本离差阵,则性质2 分布与F分布的关系为:若 则分布的性质性质3 设 是来自正态总体 的随机样本, 和A 分别是样本均值向量和样本离差阵,记则性质4 分布只与n,p有关,而与 无关。
威尔克斯 分布定义3.2 设 ,称协方差阵 的行列式 为的广义方差。
若 是来自总体 的随机样本,A为样本离差阵,则称或 为样本广义方差。
定义3.3设 ,这里 ,且 与 独立,则称广义方差比为 统计量,其分布称为威尔克斯 分布,记为 。
当p=1时, 分布正是一元统计中参数为 的贝塔分布,即。
分布的性质性质1当 时,若 ,则当 时,若 ,则当p=1时,当p=2时,若 ,则当 时有下列极限分布其中 。
下面是 分布的两个有用性质。
性质6 若 ,则存在 , 且 之间相互独立,使得性质7 若 则单总体均值向量的假设检验设总体为 , 为来自该总体的随机样本。
欲检验下列假设:其中 为已知常数向量。
1. 当 已知时均值向量的假设检验此时于是有若检验统计量取为则当原假设 成立时, 。
第三章 多元正态总体参数的假设检验3.1 几个重要统计量的分布一、正态变量二次型的分布1、分量独立的n 维随机向量X 的二次型设),,1)(,(~21n i N X i i =σμ,且相互独立,记⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=n X X X 1,则),(~2n n I N X σμ,其中)',,(1n μμμ =。
X 的二次型具有以下一些结论:结论1 当),,1(0n i i ==μ,12=σ时,则)(~'212n XX X ni iχξ∑===;当),,1(0n i i ==μ,12≠σ时,则)(~'122n X X χσ(或记为)(~'22n X X χσ)。
结论2 当),,1(0n i i =≠μ,X X '的分布常称为非中心2χ分布。
Def3.1.1 设n 维随机向量)0)(,(~≠μμn n I N X ,则称随机向量X X '=ξ为服从n 个自由度、非中心参数∑===ni i 12'μμμδ的2χ分布,记为)(~'),(~'22δχδχn X X n X X 或。
若时且1),0)(,(~22≠≠σμσμn n I N X ,有)(~'122δχσn X X 。
结论3 设),0(~2n n I N X σ,A 为对称矩阵,且r A rank =)(,则二次型 A A r AX X =⇔222)(~/'χσ(A 为对称幂等矩阵)。
结论4 设),(~2n n I N X σμ,'A A =,则),(~'122δχσr AX X ,其中A A A =⇔=22'1μμσδ,且)()(n r r A rank ≤=。
结论5 二次型与线性函数的独立性:设),(~2n n I N X σμ,A 为n 阶对称矩阵,B 为n m ⨯矩阵,令)(,'维随机向量为m Z BX Z AX X ==ξ,若O BA =,则AX X BX '和相互独立。
§3.2例3.2.1x=[3.7 48.5 9.3;5.7 65.1 8;3.8 47.2 10.9;3.2 53.2 12;3.1 55.5 9.7; 4.6 36.1 7.9;2.4 24.8 14;7.2 33.1 7.6;6.7 47.4 8.5;5.4 54.1 11.3;3.9 36.9 12.7;4.5 58.8 12.3;3.5 27.8 9.8;4.5 40.2 8.4;1.5 13.5 10.1;8.5 56.4 7.1;4.5 71.6 8.2;6.5 52.8 10.9;4.1 44.1 11.2;5.5 40.9 9.4]u0=[4 50 10]';n=20;T2=n*(n-1)*(mean(x)'-u0)'*inv(19*cov (x))*(mean(x)'-u0),p=3;F=(n-p)*T2/((n-1)*p),p=1-fcdf(F,3,17)T2 =9.7388F =2.9045p =0.0649在显著性水平0.05下,接受原假设。
第二类错误的计算,用非中心的F分布计算,非中心的参数为p67页,中间的参数。
ncfcdf(3.2,3,17,20*(mean(x)-[4 50 10])*inv(cov(x))*(mean(x)-[4 50 10])')ans =0.36218248472391例3.2.2x=[3.7 48.5 9.3;5.7 65.1 8;3.8 47.2 10.9;3.2 53.2 12;3.1 55.5 9.7; 4.6 36.1 7.9;2.4 24.8 14;7.2 33.1 7.6;6.7 47.4 8.5;5.4 54.1 11.3;3.9 36.9 12.7;4.5 58.8 12.3;3.5 27.8 9.8;4.5 40.2 8.4;1.5 13.5 10.1;8.5 56.4 7.1;4.5 71.6 8.2;6.5 52.8 10.9;4.1 44.1 11.2;5.5 40.9 9.4]S=cov(x),[v,d]=eig(S),n=20;p=3;c2=(n-1)*p*3.2/ (n*(n-p)),d123=diag(sqrt(d))*sqrt(c2)S =2.8794 10.0100 -1.809110.0100 199.7884 -5.6400-1.8091 -5.6400 3.6277v =-0.8175 0.5737 0.05080.0249 -0.0530 0.9983-0.5754 -0.8173 -0.0291d =1.3014 0 00 4.5316 00 0 200.4625c2 =0.5365d123 =0.83561.559210.37032、联立置信区间由3.2.4式计算的T2区间为:x=[3.7 48.5 9.3;5.7 65.1 8;3.8 47.2 10.9;3.2 53.2 12;3.1 55.5 9.7; 4.6 36.1 7.9;2.4 24.8 14;7.2 33.1 7.6;6.7 47.4 8.5;5.4 54.1 11.3;3.9 36.9 12.7;4.5 58.8 12.3;3.5 27.8 9.8;4.5 40.2 8.4;1.5 13.5 10.1;8.5 56.4 7.1;4.5 71.6 8.2;6.5 52.8 10.9;4.1 44.1 11.2;5.5 40.9 9.4]S=cov(x),[v,d]=eig(S),n=20;p=3;c2=(n-1)*p*3.2/ (n*(n-p)),d123=diag(sqrt(d))*sqrt(c2)[ mean(x)'-sqrt((n-1)*p*3.2/(n-p))*sqrt(diag(S )/n)mean(x)'+sqrt((n-1)*p*3.2/(n-p))*sqrt(diag(S)/ n)]ans =3.3971 5.882935.0472 55.75288.5700 11.3600按3.2.5计算的区间为:[ mean(x)'-tinv(0.975,n-1)*sqrt(diag(S)/n) mean(x)'+tinv(0.975,n-1)*sqrt(diag(S)/n)] ans =3.8458 5.434238.7848 52.01529.0736 10.8564§3.3例3.3.1一、假定两总体方差相同x=[65 35 25 60;75 50 20 55;60 45 35 65;75 40 40 70;70 30 30 50;55 40 35 65;60 45 30 60;65 4025 60;60 50 30 70;55 55 35 75]y=[55 55 40 65;50 60 45 70;45 45 35 75;50 50 50 70;55 50 30 75;60 40 45 60;65 55 45 75;50 60 35 80;40 45 30 65;45 50 45 70]n=10;m=10;p=4;mx=mean(x)',my=mean(y)',A1=( n-1)*cov(x),A2=(m-1)*cov(y),D2=(n+m-2)*(mx-my) '*inv(A1+A2)*(mx-my),T2=n*m*D2/(m+n),F=(n+m-p-1)*T2/((n+m-2)*p),p=1-fcdf(F,4,15)mx =64.000043.000030.500063.0000my =51.500051.000040.000070.5000A1 =490.0000 -170.0000 -120.0000 -245.0000-170.0000 510.0000 10.0000 310.0000-120.0000 10.0000 322.5000 260.0000-245.0000 310.0000 260.0000 510.0000A2 =502.5000 60.0000 175.0000 -7.500060.0000 390.0000 50.0000 195.0000175.0000 50.0000 450.0000 -100.0000-7.5000 195.0000 -100.0000 322.5000D2 =5.9725T2 =29.8625F =6.2214p =0.0037二、假定两总体方差不相同z=x-y;n=10;p=4,T2=(n-1)*n*mean(z)*inv((n*c ov(z,1)))*mean(z)',F=(n-p)*T2/((n-1)*p),p=1-fc df(F,p,n-p)p =4T2 =31.55365.2589p =0.0364在显著性水平0.05下拒绝原假设。