第二章多元正态分布
- 格式:ppt
- 大小:418.50 KB
- 文档页数:24
第二章多元正态分布(一)教学目的通过本章的学习,要求对多元分布的基本概念有所了解,掌握多元正态分布数字特征及其参数估计,尤其是多元正态分布的假设检验。
(二)基本要求要求了解多元分布的基本概念,掌握多元正态分布的参数估计和假设检验。
(三)教学要点1、多维随机向量的边缘密度、条件分布、数字特征2、多元正态分布数字特征及其参数估计3、三个常用的抽样分布4、正态分布总体均值向量的检验(四)教学时数3课时(五)教学内容1、多元分布的基本概念2、多元正态分布数字特征及其参数估计3、三个常用的抽样分布及多元正态分布的假设检验第一节多元分布的基本概念多元统计分析主要方法是建立在多元正态分布的假设之上的。
而多元正态分布又是多元分布中应用最广泛的一种.为此,在介绍多元统计分析方法之前,首先有必要介绍多元正态分布的有关内容.另外,多元统计分析涉及到的都是随机向量或着将多个随机向量放在一起组成的随机矩阵。
为此,学习多元正态分布还需要首先从随机向量的基本概念开始。
多元统计分析,简称多元分析,是指当总体的分布是多维(多元)概率分布时,处理该类总体的数理统计理论和方法的总称,是统计学中的一个重要的分支学科。
早在19世纪就出现了处理二维正态总体的一些方法,但系统地处理多维概率分布总体的统计分析问题,则开始于20世纪。
人们常把1928年维希特(Wishart)分布的导出作为多元分析成为一个独立学科的标志。
20世纪30年代,R。
A。
费希尔、H。
霍特林、许宝騄以及S.N。
罗伊等人做出了一系列奠基性的工作,使多元统计分析在理论上得到了迅速的进展。
20世纪40年代,多元分析在心理、教育、生物等方面获得了一些应用。
由于应用时常需要大量的计算,加上第二次世界大战的影响,使其发展停滞了相当长的时间。
50年代中期,随着电子计算机的发展和普及,它在地质、气象、标准化、生物、图像处理、经济分析等许多领域得到了广泛的应用,也促进了理论的发展。
一、随机向量我们知道,所谓随机变量通俗理解就是“其值随机会而定”的变量.比如,在某厂大批产品中随机地抽取出100个,其中所含废品数X 就是一个随机变量。
思考与练习2.1 试述多元联合分布和边缘分布之间的关系。
2.2 设随机向量12(,)X X ′=X 服从二元正态分布,写出其联合分布密度函数和1X 、2X 各自的边缘密度函数。
2.3 已知随机向量12(,)X X ′=X 的联合分布密度函数为:()()()()()()()()()121122222,d c x a b a x c x a x c f x x b a d c −−+−−−−−2⎡⎤⎣⎦=−−其中,。
求:12,a x b c x d ≤≤≤≤⑴ 随机变量1X 和2X 各自的边缘密度函数、均值与方差。
⑵ 随机变量1X 和2X 的协方差和相关系数。
⑶ 判断1X 和2X 是否相互独立。
2.4 设随机向量12(,,,)p X X X ′=X L 服从正态分布,已知其协差阵为对角阵,证明ΣX 的分量是相互独立的随机变量。
2.5 从某企业全部职工中随机抽取一个容量为6的样本,该样本中各职工的目前工资、受教育年限、初始工资和工作经验资料如下表所示: 职工编号目前工资 (美元)受教育年限(年)初始工资 (美元)工作经验(月)11 2 3 4 5 6 57,000 40,200 21,450 21,900 45,000 28,350 15 16 12 8 15 8 27,000 18,750 12,000 13,200 21,000 12,000 144 36 381 190 138 26设职工总体的以上变量服从多元正态分布,根据样本资料求出均值向量和协差阵的最大似然估计。
2.6 均值向量和协差阵的最大似然估计量具有哪些优良性质? 2.7 试证多元正态总体的样本均值向量(,)p N μΣ1~(,p N nX μΣ)。
2.8 试证多元正态总体的样本协差阵S 为(,)p N μΣΣ的无偏估计。
2.9 设()1x 、()2x 、…、()n x 是从多元正态总体中独立抽取的一个随机样本,试求样本协差阵的分布。
第2章多元正态分布的参数估计多元正态分布是统计学中常用的一种概率分布模型,在实际应用中经常被用来描述多个变量之间的关系。
在参数估计的过程中,我们通常需要估计多元正态分布的均值向量和协方差矩阵。
本章将介绍多元正态分布的参数估计方法。
多元正态分布的均值向量和协方差矩阵分别用μ和Σ表示。
在参数估计的过程中,我们可以使用样本的均值向量和协方差矩阵来估计总体的均值向量和协方差矩阵。
首先,我们需要收集一个包含n个样本的数据集,其中每个样本有d 个变量。
我们将这个数据集表示为X=[x1, x2, ..., xn],其中xi是一个d维向量。
均值向量的估计可以通过计算样本向量的平均值来得到。
均值向量的估计公式为:μ̂ = (1/n) * Σxi其中,μ̂是均值向量的估计值。
协方差矩阵的估计可以通过计算样本向量之间的协方差来得到。
协方差矩阵的估计公式为:Σ̂ = (1/n) * Σ(xi - μ̂)(xi - μ̂)T其中,Σ̂是协方差矩阵的估计值。
这里需要注意的是,协方差矩阵是一个对称正定矩阵,因此需要对估计值进行修正,以保证估计出的协方差矩阵是对称正定的。
修正的常用方法有Ledoit-Wolf修正和修正。
在进行参数估计之后,我们还可以计算估计值的标准误差(standard error),以衡量估计值的可靠性。
在多元正态分布的参数估计中,均值向量估计值的标准误差为:SE(μ̂) = (√((2/n)(d(d+1)/2))) * (√(Σi î))协方差矩阵估计值的标准误差为:SE(Σ̂) = (√((1/n)(d(d+1)/2))) * (√(Σi î(Σj ĵ -Σi ĵ^2)))其中,Σi î表示协方差矩阵估计值的第i个对角元素,Σi ĵ表示协方差矩阵估计值的第i行第j列元素。
参数估计的过程中,还需要考虑到样本量的大小。
当样本量较大时,参数估计的精度会提高;而当样本量较小时,参数估计的精度会降低。
第2章多元正态分布§2.1 多元分布§2.2 多元正态分布的定义及基本性质§2.3 正态分布的条件分布和独立性§2.4 矩阵正态分布§2.5 参数的极大似然估计§2.6 极大似然估计的性质13),21′=p ξξξ (ξ随机向量:pn ij ξξ×=)(随机矩阵:注:随机矩阵拉直后就是随机向量,二者都是由多个随机变量组成,只是摆放形势不同.4一、多元分布函数1212121122122.1.1 (,,,)()(,,,) ()(,,,)(,,,)(,,,)~.p p p p p pp ξξξξξξF x F x x x P ξx ξx ξx x x x x R F ξξ′===≤≤≤′=∈ 定义设是一随机向量,它的多元分布函数的联合分布函数定义为式中,记作512122112(1)(,,,)(1,2,,)(2)0(,,,)1(3)(,,,)(,,,)(,,,)0(4)(,,,)1p i p p p F x x x x i p F x x x F x x F x x F x x F =≤≤−∞=−∞==−∞=+∞+∞+∞= 是每个变量的单调非降右连续函数.多元分布函数的性质:71)( )2( ,0)( )1()(=∈∀≥⋅∫dx x f R x x f R f pR pp 当且仅当随机向量的分布密度,中某个能作为一个多元函数9二、边缘分布.)( 3.1.2)1(的边缘分布的分布称为个分量组成的随机向量的维随机向量,由它为若定义ξξξp q q p <10),,,,,,(),,,,,),,)111111)1()2()1(∞∞∞=∞≤∞≤≤≤=≤≤=≤⎟⎟⎠⎞⎜⎜⎝⎛=+ q p q q q q q u u F u ξu ξP u ξu ξP u ξP ξξξξξξ((((1)的分布函数为,则不妨假设11(1)(1212112111)(,,)(,,)q q u u u p p u u u p q p q P ξu f t t dt dt dt f t t dt dt dt dt ∞∞∞−∞−∞−∞−∞−∞−∞∞∞∞+−∞−∞−∞−∞−∞−∞≤=⎡⎤=⎢⎥⎣⎦∫∫∫∫∫∫∫∫∫∫∫∫ 若ξ有分布密度函数f (x ),则12p q p q q q dt dt t t x x f x x f ξ1111)1(),,,,,(),,(++∞∞−∞∞−∞∞−∫∫∫=的边缘分布密度为(1)13注:(1)有分布密度函数,则它的任何边缘分布也有分布密度函数;(2)若的任何边缘分布有分布密度函数,并不能推出有分布密度.ξξξ两个随机向量独立的充分必要条件:①联合分布函数等于边缘分布函数的乘积;②若随机向量为连续型的,联合分布密度等于边缘分布密度的乘积;③若随机向量为离散型,联合分布列等于边缘分布列的乘积;④联合特征函数等于边缘特征函数的乘积.1621).()(~),(~),(~,)4(t t t t ηηηξηξηξΦΦ+ΦΦξξ则量的随机向是相互独立且维数相同与若).()(),( ,)()(,,)5()2()1()2()1(t t t t t t q p ηξξΦΦ=Φ⇔ΦΦ⎟⎟⎠⎞⎜⎜⎝⎛Φ独立和则的特征函数和分别为和特征函数的表示维随机向量和分别为和若ηξηξηξηξη22(7) .p a ξξ′若为维随机向量,则它的分布由一切形如的分布所唯一决定).()exp()( ,),(~ )6(t A a t i t a A t ′Φ′=Φ+=Φξηξηξ则若ξ23).()exp()])([exp()exp()][exp()exp())]([exp()][exp()(t A a t i t A i E a t i A t i E a t i a A t i E t i E t ′Φ′=′′′=′′=+′=′=Φξηξξξη证明:(6)24.,3,,),()][exp()1( 1)][exp()( )7(:的分布它决定了知由性质的特征函数恰好是的函数把它看成得取的特征函数为证明ξξξξa a a i E t a it E t a a a Φ=′=Φ=′=Φ′′′ξξξξ25五、矩2.1.6 ()(), 1, 2, , ,1, 2, , ,()(), .ij ij ij n p E i n j p E ξξξεξξξ=×=== 定义设为随机矩阵,假定存在且有限记称为随机矩阵的均值)()( ij E ξξε=26,(1) ,,,( )(),()()A B C A B C A B CA A εξεξξεξεξ+=+=若为常数矩阵则特别当为随机向量时有注:以下总假定公式中用到的随机矩阵的矩是存在的.均值的性质:27)]([)]([)] )4()()( , )3()()( ,, )2(ξεξεξξηεξεηξεηεξεηξεA tr A tr A E n p A p n b a b a b a B A B A B A ==××+=++=+[tr()()(则常数矩阵,为随机矩阵,为若为常数,则若则为常数矩阵若注:以上四个性质均体现均值的线性性.28().),,cov()(),cov(])()][([),cov( ),,cov(,)(),), 7.2.1 2121的协方差称为时,记作当即其元素是矩阵定义为一个简称协差阵阵的协方差维随机向量,它们之间维和分别为和设定义ξξξξηξηξηεηξεξεηξηξηηηηξ===′−−=×′=′=D p n p n ξξξj i j i p n ((29() ),cov(),cov( j i ηξηξ=()),cov(),cov(j i ξξξξ=31.])(][)([)())()()( ,)2(.})(){() (),cov(,})(){() (),cov()1(′−−+=′−−=+′−′=′−′=a a D a a D a D a ξεξεξξξεξξξεξεξξεξξηεξεηξεηξ(则为常向量若特别协差阵的性质:32A AD A DB A B A B A ′=′=)()( ),cov(),cov( ,)3(ξξηξηξ特别则为常数矩阵和设协差阵的性质(续)35则记值和协差阵存在的均若随机向量定理 ),( ),( ,),,, 1.1.221ξξεμD ξξξξn =Σ=′= ()()( μμξξA A tr A E ′+Σ=′36μμμμξξξξξξA A tr A tr A Etr A Etr A E ′+Σ=′+Σ=′=′=′)()}({)()()(μμξξεξεξεξξεξ′+Σ=′′−′=) (,})(){() ()(:所以因为证明D。
第2章 多元正态分布多元正态分析是一元正态分布向多元的自然推广。
多元正态分布是多元分析的基础,多元分析的许多理论都是建立在多元正态总体基础上的。
虽然实际的数据不一定恰好是多元正态的,但是正态分布常常是真实的总体分布的一种有效的近似。
所以研究多元正态分布在理论上或实际上都有重大意义。
限于篇幅,本章仅简介多元正态简单理论,细节可参看王学民(2004),张尧庭(2002),余锦华(2005),Richard (2003),朱道元(1999)等。
现实世界的许多问题都可以纳入正态理论的范围内,正态分布可以作为许多统计量的近似的抽样分布。
2.1随机向量2.1.1随机向量定义2.1.1:称每个分量都是随机变量的向量为随机向量。
类似地,所有元素都是随机变量的矩阵称为随机矩阵。
设()1,,p X X X '= 是1p ⨯随机向量,其概率分布函数定义为:(){}111,,,,p p p F x x P X x X x =≤≤ ,1,,p x x 为任意实数多元分布函数()1,,p F x x 有如下性质: (1)()10,,1p F x x ≤≤ ;(2)()1,,p F x x 是每个变量,1,2,,i x i p = 的非降右连续函数; (3)(),,1F ∞∞= ;(4)()()()211,,,,,,,0p p F x x F x x F x -∞=-∞==-∞= 。
多元分布和一元分布一样也分为离散型和连续型。
连续型随机向量()1,,pX X X '= 的分布函数可以表示为 : ()()1111,,,,px x p p p F x x f t t dt dt -∞-∞=⎰⎰,()1,,pp x x R ∈ (2.1)称()1,,p f x x 是()1,,p X X X '= 的多元联合概率密度,简称多元概率密度或多元密度。
多元概率密度()1,,p f x x 有以下性质: (1)()1,,p f x x 非负; (2)()11,,1p p f x x dx dx ∞∞-∞-∞=⎰⎰ ;(3)()()111,,,,p p p nF x x f x x x x ∂=∂∂2.1.2边缘分布、条件分布和独立性 边缘分布设()1,,p X X X '= 是p 维连续型随机向量,由其q 个分量组成的向量()1X (不妨设()()11,,q X X X '= )的分布称为的边缘分布,其边缘概率密度为:()()()1111,,,,X q p q p f x x f x x dx dx ∞∞+-∞-∞=⎰⎰ (2.2)条件分布设()1,,p X X X '= 是p 维连续型随机向量,()()11,,q X X X '= ,()()()()2112,,,,,0q p X q p X X X f x x ++'=> ,在给定()2X 的条件下,()1X 的条件概率密度函数为:()()()()21111,,,,,,,,p q q p X q p f x x f x x x x f x x ++=(2.3)独立性设()1,,n X X 是连续型随机向量,则1,,n X X 相互独立当且仅当()()()111,,n n X X n f x x f x f x = 对任意1,,n x x 成立。
第2章多元正态分布参数估计多元正态分布是多元随机变量的一种常见模型。
在实际问题中,我们常常需要通过已有的数据对多元正态分布的参数进行估计,便于进行后续的统计分析和预测。
多元正态分布的参数估计主要包括均值向量和协方差矩阵的估计。
对于均值向量的估计,最简单的方法是直接计算样本均值。
假设我们有一个包含n个样本的数据集,其中每个样本有d个维度的观测值,我们可以将样本数据表示为一个n×d的矩阵X。
则样本均值向量的估计值μ可以通过以下公式得到:μ = (1/n) * Σxi其中,xi表示第i个样本观测值。
对于协方差矩阵的估计,最常用的方法是样本协方差矩阵的估计。
样本协方差矩阵S的估计值可以通过以下公式得到:S = (1/n) * Σ(xi - μ)(xi - μ)T其中,T表示矩阵的转置。
需要注意的是,样本协方差矩阵的估计是基于样本的二阶矩估计,因此在数据量较小的情况下,估计结果可能存在偏差。
为了减小估计结果的偏差,可以使用修正样本协方差矩阵的估计。
修正样本协方差矩阵的估计值可以通过以下公式得到:S = ((n-1)/n) * Σ(xi - μ)(xi - μ)T其中,n-1是修正系数。
除了样本协方差矩阵,也可以使用样本相关系数矩阵来估计多元正态分布的协方差矩阵。
样本相关系数矩阵R的估计值可以通过以下公式得到:rij = sij / (si * sj)其中,sij表示样本协方差矩阵的元素,si和sj分别表示样本标准差。
需要注意的是,当样本量较小或者存在样本相关系数为1的情况时,样本相关系数矩阵的估计结果可能不可靠,此时推荐使用样本协方差矩阵来估计。
在实际问题中,参数估计是多元正态分布分析的重要步骤。
通过对样本数据进行参数估计,我们可以对多元正态分布的均值和协方差矩阵有一个初步的认识,从而便于进行后续的模型建立、参数推断和预测。
同时,合理的参数估计方法也有助于提高分析结果的精度和可靠性。
总之,多元正态分布参数估计是一个对多元随机变量的观测数据进行统计分析的重要任务。
多元统计分析第二章多元正态分布多元正态分布(Multivariate Normal Distribution),是指多个随机变量服从正态分布的情况。
在统计学中,多元正态分布是一个重要的概率分布,广泛应用于多个领域,如经济学、金融学、生物学、工程等。
多元正态分布的概率密度函数可以表示为:f(x;μ,Σ) = (2π)^(-k/2) ,Σ,^(-1/2) exp(-(x-μ)'Σ^(-1)(x-μ)/2)其中,x表示一个k维向量(k个随机变量),μ是一个k维向量,表示均值向量,Σ是一个k*k维协方差矩阵,Σ,表示协方差矩阵的行列式,'表示向量的转置,Σ^(-1)表示协方差矩阵的逆矩阵,exp表示指数函数。
多元正态分布具有以下特点:1.对称性:多元正态分布的密度函数是关于均值向量对称的。
2.线性组合:多元正态分布的线性组合仍然服从正态分布。
3.条件分布:给定其他变量的取值,多元正态分布的边缘分布和条件分布仍然服从正态分布。
4.独立性:多元正态分布的随机变量之间相互独立的充要条件是它们的协方差矩阵为对角矩阵。
对于多元正态分布,可以使用协方差矩阵来描述不同随机变量之间的相关程度。
协方差矩阵的对角线元素表示各个随机变量的方差,非对角线元素表示各个随机变量之间的协方差。
多元正态分布的参数估计也是统计学中一个重要的问题。
通常可以使用最大似然估计方法来估计均值向量和协方差矩阵。
在实际应用中,多元正态分布可以用来描述多个相关变量的联合分布。
例如,在金融学中,可以使用多元正态分布来建模多个股票的收益率。
在生物学中,可以使用多元正态分布来建模多个基因的表达水平。
除了多元正态分布,还存在其他的多元分布,如多元t分布、多元卡方分布等。
这些分布可以用来处理更一般的随机变量,具有更广泛的应用领域。
总之,多元正态分布是统计学中一个重要的概率分布,具有许多重要的性质和应用。
通过对多元正态分布的研究,可以更好地理解和分析多个相关变量的联合分布,推断和预测相关变量的取值,并为实际问题提供可靠的解决方案。
第二章多元正态分布的参数估计多元正态分布是在多个随机变量之间存在相互依赖关系时使用的一种概率分布。
它在许多统计分析和机器学习领域中都有广泛的应用。
在实际应用中,我们通常需要使用样本数据对多元正态分布的参数进行估计。
多元正态分布由均值向量和协方差矩阵两个参数来描述。
均值向量表示各个随机变量的平均值,而协方差矩阵表示各个随机变量之间的协方差。
参数估计的目标就是通过样本数据来估计这两个参数。
首先,我们需要收集一个具有充分样本量的数据集。
对于一个具有n个样本的多元正态分布,我们可以将样本数据表示为一个n行d列的矩阵X,其中每一行是一个d维的样本向量。
其中n表示样本数量,d表示随机变量的个数。
接下来,我们可以根据样本数据来估计多元正态分布的均值向量和协方差矩阵。
1.均值向量的估计:多元正态分布的均值向量可以通过样本均值向量来估计。
样本均值向量的计算公式如下:μ = (1/n) * Σxi其中μ是估计得到的均值向量,xi表示样本矩阵X的第i行。
2.协方差矩阵的估计:多元正态分布的协方差矩阵可以通过样本协方差矩阵来估计。
Σ=(1/(n-1))*(X-μ)'*(X-μ)其中Σ是估计得到的协方差矩阵,X是样本矩阵,μ是估计得到的均值向量。
需要注意的是,在计算协方差矩阵时,我们使用的是样本协方差矩阵而不是总体协方差矩阵。
这是因为样本协方差矩阵能更好地反映样本数据的真实情况。
以上就是多元正态分布的参数估计方法。
通过样本数据,我们可以使用样本均值向量和样本协方差矩阵来估计多元正态分布的参数。
这些参数估计能为我们提供关于多元正态分布的统计属性和特征,进而用于进一步的分析和应用。
第二章 多元正态分布均值向量和协差阵的检验一、填空题1.在一个正态总体均值向量的假设检验中,在∑已知的情况下,构造的检验统计量为 ,服从 分布;在∑未知的情况下,构造的检验统计量为 ,服从 分布。
2.若()∑,0~p N X ,()∑,~n W S p ,且X 与S 相互独立,令X S X n T 12-'=,则~12T np p n +- 。
3.若()∑,~μp N X ,()∑,~n W S p ,且X 与S 相互独立,p n ≥,则称统计量X S X n T 12-'=的分布为 分布,记为 。
4.在两个正态总体均值向量的假设检验中,假定其协差阵∑相等,则在∑已知的情况下,构造的统计量为 ,服从的分布为 ;在∑未知的情况下,构造的检验统计量为 ,服从的分布为 。
二、判断题1.设()∑,~μp N X ,()∑,~n W Sp ,p n ≥,则称统计量X S X n T 12-'=的分布为非中心2HotellingT 分布,记为()μ,,~22n p T T 。
2.在协差阵∑未知的情况下对均值向量进行检验,需要用样本协差阵S n 1去代替∑。
3.2HotellingT 分布是一元统计分布中t 分布的推广。
4.在一个正态总体均值向量的假设检验中,在∑已知的情况下,构造的检验统计量服从2HotellingT 分布。
5.在一个正态总体均值向量的假设检验中,在∑未知的情况下,构造的检验统计量服从2χ分布。
6.在两个正态总体均值向量的假设检验中,假定其协差阵∑相等,则在∑已知的情况下,构造的统计量服从多元正态分布。
7.在两个正态总体均值向量的假设检验中,假定其协差阵∑相等, 在∑未知的情况下,构造的检验统计量服从2HotellingT分布。
三、简答题1.试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。
2.试述多元统计分析中2HotellingT分布和一元统计中t分布的关系。
《多元统计分析》MOOC2.1 多元分布王学民一、多元概率分布函数v随机向量:一个向量,若它的分量都是随机变量。
v 随机变量x 的分布函数:v 随机变量x 1和x 2的联合分布函数:v 随机向量的分布函数:v本课程主要讨论连续型的分布。
()12,,,p x x x '=x ()()F a P x a =≤()()121122,,,,,,p p p F a a a P x a x a x a =≤≤≤ ()()121122,,F a a P x a x a =≤≤二、多元概率密度函数v一元的情形:v二元的情形:vp 元的情形:v概率密度函数,简称概率密度或密度函数或密度。
()()d a F a f x x -∞=⎰12121212(,)(,)d d a a F a a f x x x x -∞-∞=⎰⎰1111(,,)(,,)d d pa a p p pF a a f x x x x -∞-∞=⎰⎰分布函数的概念主要用于理论上的讨论,本课程仅在此提一下,后面将不再提及。
分布用密度来描述较为方便。
概率密度的性质v一元密度f (x )的性质:v多元密度f (x 1,⋯,x p )的性质:1111(,,)0,,(,,)d d 1p p p p f x x x x f x x x x ∞∞-∞-∞≥=⎰⎰(1),对一切实数;(2)。
()0()d 1f x x f x x ∞-∞≥=⎰(1),对一切实数;(2)。
三、边缘分布v 边缘分布:p 维随机向量 的任意子向量的分布。
v边缘分布可以是关于一个变量,两个变量,…,p −1个变量的边缘分布。
()12,,,p x x x '=x四、条件分布v条件分布:在一些已知条件下的分布。
v例1研究某人群,x1——身高,x2——体重,该人群中x2的分布为f(x2)。
如果已知某人的x1=1.80(米),则对该人体重的推断应依据f(x2|x1=1.80),而不是f(x2)。