多元统计分析-第三章 多元正态分布
- 格式:doc
- 大小:1.37 MB
- 文档页数:25
实验零多元正态总体检验(均值向量检验)1.实验目的:本实验讨论利用多元正态总体检验中的均值向量检验方法去判断满足多元正态分布的总体的均值是否等于预先判断的向量(单正态总体检验)或判断两个独立的、满足多元正态分布的总体的均值是否相等(双正态总体检验)。
通过该实验,能够起到如下的效果:(1) 理解多元正态总体检验中的均值向量检验方法的作用、思想、数学基础、方法和步骤;(2) 熟悉如何利用多元正态总体检验中的均值向量检验方法,提出问题、分析问题、解决问题、得出结论;(3)会调用SAS软件实现多元正态总体检验中的均值向量检验方法的各个步骤,根据计算的结果进行分析,得出正确的结论,解决实际的问题。
2.知识准备:多元正态总体检验中的均值向量检验是从判断满足多元正态分布的总体的均值是否等于预先判断的向量(单正态总体检验)或判断两个独立的、满足多元正态分布的总体的均值是否相等(双正态总体检验)。
其思想和步骤是:1.假设“需判断的总体均值等于预先判断的向量(单正态总体检验)”或“需判断的两个总体的均值相等(双正态总体检验)”;2.在该假设下,构造适当的统计量并给出其分布;3.根据观测数据算出其统计量的值;4.根据预先确定的检验水平查阅相应的分布表确定临界值和拒绝域;5.根据结果判断接受或拒绝原假设,得出结论。
(具体见书【1】第三章)3.实验内容:一、单正态总体检验:人出汗多少与人体内钠、钾含量有一定关系。
今测20名健康成年女性出汗多少(X1)、钠含量(X2)、钾含量(X3),其数据如下表1:表1 健康成年女性出汗情况的基本数据序号X1 X2 X3 序号X1 X2 X31 3.7 48.5 9.3 11 3.9 36.9 12.72 5.7 65.1 8 12 4.5 58.8 12.33 3.8 47.2 10.9 13 3.5 27.8 9.84 3.2 53.2 12 14 4.5 40.2 8.45 3.1 55.5 9.7 15 1.5 13.5 10.16 4.6 36.1 7.9 16 8.5 56.4 7.17 2.4 24.8 14 17 4.5 71.6 8.28 7.2 33.1 7.6 18 6.5 52.8 10.99 6.7 47.4 8.5 19 4.1 44.1 11.210 5.4 54.1 11.3 20 5.5 40.9 9.4利用多元正态总体检验中的单正态均值向量检验方法判断“(X1,X2,X3)的均值是否等于(4,50,10)”【1】(假设总体服从正态分布,分别取检验水平为0.05、0.01)。
第一章多元分析概述第一节引言多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。
近30年来,随着计算机应用技术的发展和科研生产的迫切需要,多元统计分析技术被广泛地应用于地质、气象、水文、医学、工业、农业和经济等许多领域,已经成为解决实际问题的有效方法。
然而,随着Internet的日益普及,各行各业都开始采用计算机及相应的信息技术进行管理和决策,这使得各企事业单位生成、收集、存储和处理数据的能力大大提高,数据量与日俱增,大量复杂信息层出不穷。
在信息爆炸的今天,人们已经意识到数据最值钱的时代已经到来。
显然,大量信息在给人们带来方便的同时也带来一系列问题。
比如:信息量过大,超过了人们掌握、消化的能力;一些信息真伪难辩,从而给信息的正确应用带来困难;信息组织形式的不一致性导致难以对信息进行有效统一处理等等,这种变化使传统的数据库技术和数据处理手段已经不能满足要求.Internet的迅猛发展也使得网络上的各种资源信息异常丰富,在其中进行信息的查找真如大海捞针。
这样又给多元统计分析理论的发展和方法的应用提出了新的挑战。
多元统计分析起源于上世纪初,1928年Wishart发表论文《多元正态总体样本协差阵的精确分布》,可以说是多元分析的开端。
20世纪30年代R.A. Fisher 、H.Hotelling、S.N.Roy、许宝騄等人作了一系列得奠基性工作,使多元分析在理论上得到了迅速得发展。
20世纪40年代在心理、教育、生物等方面有不少得应用,但由于计算量大,使其发展受到影响,甚至停滞了相当长得时间。
20世纪50年代中期,随着电子计算机得出现和发展,使多元分析方法在地质、气象、医学、社会学等方面得到广泛得应用。
20世纪60年代通过应用和实践又完善和发展了理论,由于新的理论、新的方法不断涌现又促使它的应用范围更加扩大。
20世纪70年代初期在我国才受到各个领域的极大关注,并在多元统计分析的理论研究和应用上也取得了很多显著成绩,有些研究工作已达到国际水平,并已形成一支科技队伍,活跃在各条战线上。
目录一元正态分布回顾多元正态分布多元正态分布及 的极大似然估计 及 的抽样分布多元正态的估计一元正态性多元正态性评估正态性多元正态分布的性质多元正态分布的性质多元正态的估计一元情形的回顾基于服从正态分布 的总体的独立同分布样本 :样本均值 服从:样本方差 服从:与 相互独立多元正态的估计多元情形类似于一元的情形,基于服从正态分布 总体的独立同分布样本 :样本均值 服从:样本方差 服从:这里的 表示 个自由度的Wishart分布 与 相互独立多元正态的估计Wishart分布Wishart 分布的定义:假设 维向量 独立同分布且服从 ,则:假设两个 的随机矩阵 和 分别服从分布 、且彼此独立,则:如果 , , 为 的常数矩阵,则有:目录一元正态分布回顾多元正态分布多元正态分布及 的极大似然估计 及 的抽样分布多元正态的估计一元正态性多元正态性评估正态性多元正态分布的性质多元正态分布的性质评估一元正态性图像方法:直方图、QQ图偏度和峰度统计检验:•Shapiro-Wilks 检验•Kolmogorov-Smirnov 检验•Cramer-von Mises 检验•Anderson-Darling 检验•……Histogram for 100 random numbers from N (0,1)y1F r e q u e n c y-4-20240102030Histogram for 100 random numbers from Exp(2)y2F r e q u e n c y0.00.5 1.0 1.52.0 2.53.0 3.50204060Histogram for 100 random numbers from t(1)y3F r e q u e n c y-4-202451020Histogram for 100 random numbers from -Exp(2)y4F r e q u e n c y-3.5-3.0-2.5-2.0-1.5-1.0-0.50.00204060-2-112-3-1012Q-Q plot for Y1 from N (0,1)Theoretical Quantiles S a m p l e Q u a n t i l e s-2-10120.01.02.03.0Q-Q plot for Y2 from Exp(2)Theoretical QuantilesS a m p l e Q u a n t i l e s-2-112-60-40-2020Q-Q plot for Y3 from t(1)Theoretical Quantiles S a m p l e Q u a n t i l e s-2-1012-3.0-2.0-1.00.0Q-Q plot for Y4 from -Exp(2)Theoretical QuantilesS a m p l e Q u a n t i l e s根据QQ图的形状来判断正态性:直线(公式箭头) 正态反“S”形 比正态厚尾“S”形比正态薄尾凸弯曲右偏凹弯曲左偏评估一元正态性偏度和峰度我们可以用偏度和峰度对正态性进行粗略的判断,它们应该在(0,3)左右评估一元正态性统计检验图像方法的缺点:•图像方法对于小样本并不适用•图像方法以及偏度峰度法只提供了一个粗糙而不正式的检验方法,没有一个明确的决定准则。
第三章 多元正态分布多元正态分布是一元正态分布在多元情形下的直接推广,一元正态分布在统计学理论和应用方面有着十分重要的地位,同样,多元正态分布在多元统计学中也占有相当重要的地位。
多元分析中的许多理论都是建立在多元正态分布基础上的,要学好多元统计分析,首先要熟悉多元正态分布及其性质。
第一节 一元统计分析中的有关概念多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵,学习多元统计分析,首先要对随机向量和随机矩阵有所把握,为了学习的方便,先对一元统计分析中的有关概念和性质加以复习,并在此基础上推广给出多元统计分析中相应的概念和性质。
一、随机变量及概率分布函数 (一)随机变量随机变量是随机事件的数量表现,可用X 、Y 等表示。
随机变量X 有两个特点:一是取值的随机性,即事先不能够确定X 取哪个数值;二是取值的统计规律性,即完全可以确定X 取某个值或X 在某个区间取值的概率。
(二)随机变量的概率分布函数随机变量X 的概率分布函数,简称为分布函数,其定义为:)()(x X P x F ≤=随机变量有离散型随机变量和连续型随机变量,相对应的概率分布就有离散型概率分布和连续型概率分布。
1、离散型随机变量的概率分布若随机变量X 在有限个或可列个值上取值,则称X 为离散型随机变量。
设X 为离散型随机变量,可能取值为1x ,2x ,…,取这些值的概率分别为1p ,2p ,…,记为k k p x X P ==)((Λ,2,1=k )称k k p x XP ==)((Λ,2,1=k )为离散型随机变量X 的概率分布。
离散型随机变量的概率分布具有两个性质: (1)0≥k p ,Λ,2,1=k(2)11=∑∞=k k p2、连续型随机变量的概率分布若随机变量X 的分布函数可以表示为dt t f x F x⎰∞-=)()(对一切R x ∈都成立,则称X 为连续型随机变量,称)(x f 为X 的概率分布密度函数,简称为概率密度或密度函数。
连续型随机变量的概率密度函数具有两个性质:(1)0)(≥x f(2)1)(=⎰∞∞-dx x f二、随机变量的数字特征(一)离散型随机变量的数字特征若X 为离散型随机变量,其概率分布为),2,1()(Λ===k p x X P k k ,则X 的数学期望(或称均值)和方差分别定义为:∑∞===1)(k k k p x X E μ[]()∑∞=-=-===1222)()()(k k k p x X E X E X Var X D μσ(二)连续型随机变量的数字特征 若X 为连续型随机变量,其密度函数为)(x f ,则X 的数学期望和方差分别定义为:⎰∞∞-==)()()(x d x xf X E μ()dx x f x X Var X D )()()(22⎰∞∞--===μσ方差的一个简便计算公式为222)]([)(X E X E -=σ(三)数学期望的数学性质1、设c 是常数,则c c E =)(2、设X 是随机变量,c 是常数,则)()(X cE cX E =3、设X 、Y 是任意两个随机变量,则)()()(Y E X E Y XE +=+4、设X 、Y 是任意两个相互独立的随机变量,则)()()(Y E X E XY E =(四)方差的数学性质 1、设c 是常数,则0)(=c D2、设X 是随机变量,c 是常数,则)()(2X D ccX D =3、设X 、Y 是任意两个相互独立的随机变量,则)()()(Y D X D Y X D +=+三、一些重要的一元分布 1、二项分布重复进行n 次相互独立的试验,若每次实验仅有两个可能结果,每次实验成功的概率均为p ,设X 为n 次独立实验中成功出现的次数,则离散型随机变量X 的分布律为:kn k p p k n k X P --⎪⎪⎭⎫ ⎝⎛==)1()(, n k ;,2,1,0Λ= 其中,p q p -=<<1,10,n 为自然数,称X 服从二项分布。
二项分布中np X E =)(,方差为)1()(2p np X Var -==σ。
2、超几何分布若N 个产品中有M 个不合格品,从N 中随机不放回地抽取n 个进行调查,X 为出现的不合格品数,则离散型随机变量X 的分布律为:⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛--⎪⎪⎭⎫ ⎝⎛==n N k n M N k M k X P )(,),min(,,2,1,0M n k Λ=则称X 服从超几何分布。
当N 很大,n 相对较少时,超几何分布近似于二项分布。
3、泊松分布若离散型随机变量X 的分布律为:!)(k e k X P k λλ-==, Λ,2,1,0=k其中0>λ,则称X 服从泊松分布。
泊松分布中λ=)(X E ,λσ==)(2X Var 。
在np =λ恒定的条件下,当n 趋于无穷,p 趋于零时,二项分布趋向于泊松分布。
4、正态分布若连续型随机变量X 的概率密度函数为:⎭⎬⎫⎩⎨⎧--=222)(exp 21)(σμσπx x f ,∞><∞-x 则称X 服从正态分布,记作),(~2σμN X ,其中参数μ、2σ分别是随机变量X 的数学期望和方差。
当0=μ,12=σ时,随机变量X 的分布为标准正态分布。
当n 很大,p 和q 都不太大时,二项分布可用正态分布近似计算。
5、卡方分布设随机变量n X X X ,,,21Λ皆服从)1,0(N ,且相互独立,则其平方和∑=ni i X 12所服从的分布称为卡方分布,记为:)(~2n X χ,n 为自由度,表示平方和∑=ni i X 12中独立随机变量的个数。
6、t 分布设随机变量)1,0(~N X,)(~2n Y χ,且X 与Y 相互独立,则随机变量nY X t =的分布称为t 分布。
记为)(~n t t ,n 为自由度。
随着自由度n 趋向于无穷大,t 分布以标准正态分布为极限。
7、F 分布 设随机变量)(~2n Xχ,)(~2m Y χ,且X 与Y 相互独立,则随机变量mY n X F =服从第一自由度为n 、第二自由度为m 的F 分布,记为),(~m n F F 。
第二节 多元统计分析中的基本概念在社会、经济及自然科学等许多领域,常常需要同时研究多个指标,例如,要研究上市公司的盈利状况,就涉及到公司的主营业务利润、营业利润、利润总额和净利润等总量指标,主营业务利润率、经营净利率、资产利润率、资产净利率、净资产收益率、总资产报酬率等相对指标,每股收益、加权每股收益等平均指标。
这些变量都是随机变量,随机变量之间往往存在一定的联系,因而需要把这些随机变量作为一个整体来研究。
一、随机向量及概率分布 (一)随机向量设有p 个随机变量p X X X ,,,21Λ,且它们之间有一定的联系,这些随机变量组成的整体就是随机向量,记为()'=p X X X X ,,,21Λ。
在多元统计分析中,仍将所研究对象的全体称为总体,它是由许多个体构成的集合,如果构成总体中的个体是有p 个观测指标的个体,称这样的总体为p 维总体,或p 元总体。
由于从p 维总体中随机抽到一个个体,其p 个指标观测值不能事先精确知道,它依赖于被抽到的个体,因此,p 维总体可用p 维随机向量来表示,这里的维或元表示共有几个分量。
(二)随机向量的概率分布 设()'=pX X X X ,,,21Λ是p 维随机向量,它的多元概率分布函数定义为:),,,(),,,()(221121p p p x X x X x X P x x x F x F ≤≤≤==ΛΛ,记为)(~x F X ,其中:()p p R x x x x∈=,,,21Λ,p R 表示p 维空间。
1、离散型随机向量的概率分布 定义3.1:若()'=p X X X X ,,,21Λ是p 维随机向量,若存在有限个或可列个p 维数向量,,,21Λx x 记k k p x X P ==)((Λ,2,1=k ),且满足121=++Λp p ,则称X 为离散型随机向量,并称k k p x XP ==)((Λ,2,1=k )为离散型随机向量X 的概率分布。
2、连续型随机向量的概率分布 定义3.2:设()p x x x F x F X ,,,)(~21Λ=,若存在一个非负函数()p x x x f ,,,21Λ,使得()()p xxp p dt dt dt t t t f x x x F x F pΛΛΛΛ2121211,,,,,,)(⎰⎰∞-∞-==对一切()p p R x x x x∈=Λ,,21都成立,则称X 为连续型随机向量,称()p x x x f ,,,21Λ为分布密度函数。
一个p 维变量的函数()p x x x f ,,,21Λ能作为p R 中某个随机向量的分布密度函数,当且仅当(1)0),,(21≥p x x x f Λ,()p p R x x x ∈'∀,,,21Λ(2)()⎰⎰∞∞-∞∞-=1,,,2121p p dx dx dx x x x f ΛΛΛ例3.1:试证函数⎩⎨⎧=+-0),()(2121x x e x x f , 其它,0021≥≥x x为随机向量()'=21,X X X的密度函数。
证:只要验证函数满足密度函数的两个条件即可。
(1) 显然,0),(21≥x x f(2)()⎰⎰⎰⎰∞∞+-∞∞-∞∞-=0021)(212121,dx dx e dx dx x x f x x⎰⎰∞∞+-=0201)(][21dx dx e x x⎰∞-=022dx e x∞--=02x e =1二、边际分布 设()'=pX X X X ,,,21Λ是p 维随机向量,由它的)(p q <个分量组成的子向量),,,(21)('=q i i i i X X X X Λ的分布为X 的边际(或边缘)分布,相对的把X 的分布称为联合分布。
通过变换X 中各分量的次序,总可假定)1(X正好是X 的前q 个分量,其余qp -个分量为)2(X,即⎥⎦⎤⎢⎣⎡=)2()1(X X X ,相应的取值也可以分为两部分,即⎥⎦⎤⎢⎣⎡=)2()1(x x x ,当X 的分布函数是),,,()(21p x x x F x F Λ=时,)1(X 的分布函数即边际函数为:),,,()(21)1(q x x x F x F Λ=),,,(2211q q x X x X x X P ≤≤≤=Λ),,,,,,(12211∞≤∞≤≤≤≤=+p q q q X X x X x X x X P ΛΛ ),,,,,,(21∞∞=ΛΛq x x x Fp p x x dx dx x x f qΛΛΛΛ11),(1⎰⎰⎰⎰∞-∞-∞∞-∞∞-=q x x p q p dx dx dx dx x x f qΛΛΛΛΛ1111),(⎰⎰⎰⎰∞-∞-+∞∞-∞∞-⎥⎦⎤⎢⎣⎡=所以)1(X的边际密度为p q p q dx dx x x f x x x f ΛΛΛΛ1121)1(),(),,,(+∞∞-∞∞-⎰⎰=例3.2:对例1中的()'=21,X X X 求边际密度函数。