第三讲多元正态分布
- 格式:ppt
- 大小:1.51 MB
- 文档页数:67
多元正态分布的性质正态分布是统计分析中最重要的概率分布之一,它能够帮助我们更好地理解数据的特性,也可以帮助我们做出更好的决策。
多元正态分布可以用来描述一组随机变量之间的关系,在许多计量方法和定量分析中,它被广泛应用。
本文尝试回答以下三个问题:一是什么是多元正态分布?二是多元正态分布的性质是什么?三是多元正态分布如何使用?首先,什么是多元正态分布?多元正态分布是指一个有两个或多个变量的正态分布,可以用来描述一组随机变量之间的关系,可以用来解释一个变量的分布特征。
与单变量正态分布不同的是,多元正态分布的特征取决于对角矩阵中的参数,即协方差矩阵或协方差矩阵。
与单变量正态分布不同,多元正态分布是以向量形式定义的,但可以使用同样的统计分析理论来描述多变量正态分布的性质,例如期望和方差。
其次,多元正态分布的性质是什么?多元正态分布存在着许多性质,根据多元数学理论可以列举出以下性质:1.元正态分布的期望向量表示为 m = (m_1,m_2,...,m_n),这里的m_i表示每个随机变量的期望值;2.元正态分布的协方差矩阵S表示为:S=[s_ij],sij表示第i 个和第j个随机变量之间的协方差;3.元正态分布的方差向量表示为:var=(var_1,var_2,...,var_n),其中var_i表示第i个随机变量的方差;4.元正态分布的对称性,即对于n个随机变量X_1,X_2,...,X_n 及其期望向量m和协方差矩阵S,当存在变换矩阵A,使得AX=y有解,则有:E(X) = mvar(X) = S5.元正态分布的共轭性,即如果X_1,X_2,...,X_n是一组多元正态分布随机变量,则任意一组X_1X_2...,X_n也是多元正态分布随机变量,且具有相同的期望向量m和协方差矩阵S。
最后,多元正态分布怎么使用?多元正态分布的使用是建立在统计分析的基础之上的。
在使用多元正态分布时,可以根据观测数据来估计期望向量m和协方差矩阵S。
多元统计分析-第三章多元正态分布第三章多元正态分布多元正态分布是⼀元正态分布在多元情形下的直接推⼴,⼀元正态分布在统计学理论和应⽤⽅⾯有着⼗分重要的地位,同样,多元正态分布在多元统计学中也占有相当重要的地位。
多元分析中的许多理论都是建⽴在多元正态分布基础上的,要学好多元统计分析,⾸先要熟悉多元正态分布及其性质。
第⼀节⼀元统计分析中的有关概念多元统计分析涉及到的都是随机向量或多个随机向量放在⼀起组成的随机矩阵,学习多元统计分析,⾸先要对随机向量和随机矩阵有所把握,为了学习的⽅便,先对⼀元统计分析中的有关概念和性质加以复习,并在此基础上推⼴给出多元统计分析中相应的概念和性质。
⼀、随机变量及概率分布函数(⼀)随机变量随机变量是随机事件的数量表现,可⽤X 、Y 等表⽰。
随机变量X 有两个特点:⼀是取值的随机性,即事先不能够确定X 取哪个数值;⼆是取值的统计规律性,即完全可以确定X 取某个值或X 在某个区间取值的概率。
(⼆)随机变量的概率分布函数随机变量X 的概率分布函数,简称为分布函数,其定义为:)()(x X P x F ≤=随机变量有离散型随机变量和连续型随机变量,相对应的概率分布就有离散型概率分布和连续型概率分布。
1、离散型随机变量的概率分布若随机变量X 在有限个或可列个值上取值,则称X 为离散型随机变量。
设X 为离散型随机变量,可能取值为1x ,2x ,…,取这些值的概率分别为1p ,2p ,…,记为k k p x X P ==)(( ,2,1=k )称k k p x XP ==)(( ,2,1=k )为离散型随机变量X 的概率分布。
离散型随机变量的概率分布具有两个性质:(1)0≥k p , ,2,1=k(2)11=∑∞=k kp2、连续型随机变量的概率分布若随机变量X 的分布函数可以表⽰为dt t f x F x∞-=)()(对⼀切R x ∈都成⽴,则称X 为连续型随机变量,称)(x f 为X 的概率分布密度函数,简称为概率密度或密度函数。
第三讲多元正态分布参数估计多元正态分布是指具有多个随机变量的正态分布。
在多元正态分布参数估计中,我们要估计的是均值向量和协方差矩阵。
估计均值向量可以使用样本均值。
给定一个样本集合$X=\{x_1,x_2,...,x_n\}$,其中每个$x_i$是一个m维向量,样本均值可以通过对每个维度上的观测值的平均值进行计算。
即$\hat{\mu}=\frac{1}{n}\sum_{i=1}^{n} x_i$。
估计协方差矩阵可以使用样本协方差矩阵。
样本协方差矩阵是通过计算样本集合与均值向量的差的转置乘以差的平均值进行计算的。
即$\hat{\Sigma}=\frac{1}{n}\sum_{i=1}^{n} (x_i-\hat{\mu})(x_i-\hat{\mu})^T$。
然而,在实际应用中,样本量有限,样本集合可能包含较少的观测值,这可能会导致估计不准确。
为了解决这个问题,可以使用更健壮的估计方法,如Shrunkage估计。
Shrunkage估计是通过在样本协方差矩阵与总体协方差矩阵之间做权衡来获得更准确的估计。
它通过引入收缩参数$\lambda \in [0,1]$来平衡两个协方差矩阵。
Shrunkage估计的公式为$\hat{\Sigma}_{sh}=(1-\lambda)\hat{\Sigma}+\lambda \hat{\Sigma}_{pool}$,其中$\hat{\Sigma}_{pool}=\frac{1}{n}\sum_{i=1}^{n} x_ix_i^T$是样本数据的池化协方差矩阵。
Shrunkage估计的优点在于它能够通过权衡样本数据与总体数据来获得更准确的估计。
当样本量较小或样本协方差矩阵存在较大误差时,Shrunkage估计可以减小估计偏差,提高估计的准确性。
此外,还可以使用最大似然估计(MLE)来估计多元正态分布的参数。
MLE是通过最大化给定数据的概率函数来确定参数的值。
对于多元正态分布,MLE可以通过最大化对数似然函数来实现。
目录一元正态分布回顾多元正态分布多元正态分布及 的极大似然估计 及 的抽样分布多元正态的估计一元正态性多元正态性评估正态性多元正态分布的性质多元正态分布的性质多元正态的估计一元情形的回顾基于服从正态分布 的总体的独立同分布样本 :样本均值 服从:样本方差 服从:与 相互独立多元正态的估计多元情形类似于一元的情形,基于服从正态分布 总体的独立同分布样本 :样本均值 服从:样本方差 服从:这里的 表示 个自由度的Wishart分布 与 相互独立多元正态的估计Wishart分布Wishart 分布的定义:假设 维向量 独立同分布且服从 ,则:假设两个 的随机矩阵 和 分别服从分布 、且彼此独立,则:如果 , , 为 的常数矩阵,则有:目录一元正态分布回顾多元正态分布多元正态分布及 的极大似然估计 及 的抽样分布多元正态的估计一元正态性多元正态性评估正态性多元正态分布的性质多元正态分布的性质评估一元正态性图像方法:直方图、QQ图偏度和峰度统计检验:•Shapiro-Wilks 检验•Kolmogorov-Smirnov 检验•Cramer-von Mises 检验•Anderson-Darling 检验•……Histogram for 100 random numbers from N (0,1)y1F r e q u e n c y-4-20240102030Histogram for 100 random numbers from Exp(2)y2F r e q u e n c y0.00.5 1.0 1.52.0 2.53.0 3.50204060Histogram for 100 random numbers from t(1)y3F r e q u e n c y-4-202451020Histogram for 100 random numbers from -Exp(2)y4F r e q u e n c y-3.5-3.0-2.5-2.0-1.5-1.0-0.50.00204060-2-112-3-1012Q-Q plot for Y1 from N (0,1)Theoretical Quantiles S a m p l e Q u a n t i l e s-2-10120.01.02.03.0Q-Q plot for Y2 from Exp(2)Theoretical QuantilesS a m p l e Q u a n t i l e s-2-112-60-40-2020Q-Q plot for Y3 from t(1)Theoretical Quantiles S a m p l e Q u a n t i l e s-2-1012-3.0-2.0-1.00.0Q-Q plot for Y4 from -Exp(2)Theoretical QuantilesS a m p l e Q u a n t i l e s根据QQ图的形状来判断正态性:直线(公式箭头) 正态反“S”形 比正态厚尾“S”形比正态薄尾凸弯曲右偏凹弯曲左偏评估一元正态性偏度和峰度我们可以用偏度和峰度对正态性进行粗略的判断,它们应该在(0,3)左右评估一元正态性统计检验图像方法的缺点:•图像方法对于小样本并不适用•图像方法以及偏度峰度法只提供了一个粗糙而不正式的检验方法,没有一个明确的决定准则。
多元正态分布随即变量概率分布我们将p个随机变量X1,X2,X3...Xp整体称为p维随机向量,记为X=(X1,X2,X3....Xp)' 。
我们可以将X理解为一个p维欧式空间中的一个向量。
其概率分布参照一维随机变量即可离散型随机变量:连续型随机变量:考点:1.证明某函数是密度函数首先密度函数在定义域内处处不为负,其次密度函数从负无穷到正无穷的积分值为0。
2.求某分量的边缘密度函数,即是对除去该分量以外的所有分量进行积分。
3.询问多个随机变量是否相互独立,对每个分量求解其边缘密度函数,若这些边缘分量函数的乘积等于联合分布密度函数,则说明它们相互独立。
随机向量的数字特征离散型随机变量:连续型随机变量:D(X)有一个简单的计算公式:均值向量的简单性质:1.E(AX)=AE(X)2.E(AXB)=AE(X)B3.E(AX+BY)=AE(X)+BE(Y)一些随机变量的相关矩阵:1.协差阵2.相关阵3.标准离差阵三者相关关系:因为 D(X)>=0 ,所以可知 R>=0 。
多元正态分布前情提要:对于一个p维随机变量X,若其密度函数为:则称X服从p元正态分布,也称X为p维正态随机向量,简记为:基本性质:1.若,为对角阵,则X1,...,Xp相互独立2.多元正态分布随机向量X的所有子集都服从正态分布3.若总体,则随机变量的任意线性组合:反过来,如果任意向量a,,则4.若,A为s*p阶的常数阵,d为s维的常数向量,则即正态随机向量的线性函数还是正态的。
5.,做如下拆分则6.若,,则注:对于数据来源于多元正态总体的判断,目前来看没有很好的办法,但是我们可以通过一些简单的方法来验证数据不来源于多元正态总体,依据为:如果一个p维的向量服从p元正态分布,则它的每一个分量都服从一元正态分布。
多元样本样本均值向量:样本离差阵:样本协差阵:样本相关阵:。