多元正态分布的检验
- 格式:ppt
- 大小:366.00 KB
- 文档页数:51
第三章 多元正态分布多元正态分布是一元正态分布在多元情形下的直接推广,一元正态分布在统计学理论和应用方面有着十分重要的地位,同样,多元正态分布在多元统计学中也占有相当重要的地位。
多元分析中的许多理论都是建立在多元正态分布基础上的,要学好多元统计分析,首先要熟悉多元正态分布及其性质。
第一节 一元统计分析中的有关概念多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵,学习多元统计分析,首先要对随机向量和随机矩阵有所把握,为了学习的方便,先对一元统计分析中的有关概念和性质加以复习,并在此基础上推广给出多元统计分析中相应的概念和性质。
一、随机变量及概率分布函数 (一)随机变量随机变量是随机事件的数量表现,可用X 、Y 等表示。
随机变量X 有两个特点:一是取值的随机性,即事先不能够确定X 取哪个数值;二是取值的统计规律性,即完全可以确定X 取某个值或X 在某个区间取值的概率。
(二)随机变量的概率分布函数随机变量X 的概率分布函数,简称为分布函数,其定义为:)()(x X P x F ≤=随机变量有离散型随机变量和连续型随机变量,相对应的概率分布就有离散型概率分布和连续型概率分布。
1、离散型随机变量的概率分布若随机变量X 在有限个或可列个值上取值,则称X 为离散型随机变量。
设X 为离散型随机变量,可能取值为1x ,2x ,…,取这些值的概率分别为1p ,2p ,…,记为k k p x X P ==)((Λ,2,1=k )称k k p x XP ==)((Λ,2,1=k )为离散型随机变量X 的概率分布。
离散型随机变量的概率分布具有两个性质: (1)0≥k p ,Λ,2,1=k(2)11=∑∞=k k p2、连续型随机变量的概率分布若随机变量X 的分布函数可以表示为dt t f x F x⎰∞-=)()(对一切R x ∈都成立,则称X 为连续型随机变量,称)(x f 为X 的概率分布密度函数,简称为概率密度或密度函数。
多元线性回归模型的各种检验方法多元线性回归模型是常用于数据分析和预测的方法,它可以用于研究多个自变量与因变量之间的关系。
然而,仅仅使用多元线性回归模型进行参数估计是不够的,我们还需要对模型进行各种检验以确保模型的可靠性和有效性。
下面将介绍一些常用的多元线性回归模型的检验方法。
首先是模型的整体显著性检验。
在多元线性回归模型中,我们希望知道所构建的模型是否能够显著解释因变量的变异。
常见的整体显著性检验方法有F检验和显著性检查表。
F检验是通过比较回归模型的回归平方和和残差平方和的比值来对模型的整体显著性进行检验。
若F值大于一定的临界值,则可以拒绝原假设,即模型具有整体显著性。
通常,临界值是根据置信水平和自由度来确定的。
显著性检查表是一种常用的汇总表格,它可以提供关于回归模型的显著性水平、标准误差、置信区间和显著性因素的信息。
通过查找显著性检查表,我们可以评估模型的显著性。
其次是模型的参数估计检验。
在多元线性回归模型中,我们希望知道每个自变量对因变量的影响是否显著。
通常使用t检验来对模型的参数估计进行检验。
t检验是通过对模型的回归系数进行检验来评估自变量的影响是否显著。
与F检验类似,t检验也是基于假设检验原理,通过比较t值和临界值来决定是否拒绝原假设。
通常,临界值可以通过t分布表或计算机软件来获取。
另外,我们还可以使用相关系数来评估模型的拟合程度。
相关系数可以用来衡量自变量与因变量之间的线性关系强度,常见的相关系数包括Pearson相关系数和Spearman相关系数。
Pearson相关系数适用于自变量和因变量都是连续变量的情况,它衡量的是两个变量之间的线性关系强度。
取值范围为-1到1,绝对值越接近1表示关系越强。
Spearman相关系数适用于自变量和因变量至少有一个是有序变量或者都是有序变量的情况,它衡量的是两个变量之间的单调关系强度。
取值范围也是-1到1,绝对值越接近1表示关系越强。
最后,我们还可以使用残差分析来评估模型的拟合程度和误差分布。
第 3 章多元正态总体的假设检验与方差分析从本章开始,我们开始转入多元统计方法和统计模型的学习。
统计学分析处理的对象是带有随机性的数据。
按照随机排列、重复、局部控制、正交等原则设计一个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进行统计推断,是自然科学和工程技术领域常用的一种研究方法。
由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论方法研究的出发点。
所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要用概率来表明其可靠程度。
统计推断的任务是“观察现象,提取信息,建立模型,作出推断”。
统计推断有参数估计和假设检验两大类问题,其统计推断目的不同。
参数估计问题回答诸如“未知参数的值有多大?”之类的问题, 而假设检验回答诸如“未知参数的值是吗?”之类的问题。
本章主要讨论多元正态总体的假设检验方法及其实际应用,我们将对一元正态总体情形作一简单回顾,然后将介绍单个总体均值的推断,两个总体均值的比较推断,多个总体均值的比较检验和协方差阵的推断等。
3.1 一元正态总体情形的回顾一、假设检验在假设检验问题中通常有两个统计假设(简称假设), 一个作为原假设(或称零假设),另一个作为备择假设(或称对立假设),分别记为和。
1、显著性检验2为便于表述,假定考虑假设检验问题:设X1, X2,…,X n来自总体N(,)的样本,我们要检验假设3.1)原假设H。
与备择假设H i应相互排斥,两者有且只有一个正确。
备择假设的意思是,一旦否定原假设H0 ,我们就选择已准备的假设H1。
2当 已知时,用统计量 z在原假设H 。
成立下,统计量z 服从正态分布z 〜N (0 ,1),通过查表,查得N(0 ,1)的上对于检验问题(3.1.1,我们制定这样一个检验规则(简称检验)(3.2)分位点z 2。
当z z 2时,拒绝H 0 ; 当z z 2时,接受H o 。
Lab2:多元正态分布的特征1.内容:练习多元正态分布特征的计算手段2.作业提交:完成后面的作业,现场演示给助教并解释结果.1多元正态的特征多元正态分布随机数可以通过R包MASS中的函数mvrnorm来获得.#二元正态随机数mu<-c(0,1)Sigma<-matrix(c(1,0.5,0.5,1),2,2)n<-1000library(MASS)biv<-mvrnorm(n,mu,Sigma)colnames(biv)<-c("X","Y")#参数估计mu.hat<-colMeans(biv)Sigma.hat<-cov(biv)#常数密度轮廓线install.packages("mixtools")library(mixtools)plot(biv)ellipse(mu<-colMeans(biv),sigma<-cov(biv),alpha=.05,col=’red’)points(t(mu),col=’red’,pch=19)练习 1.设一个五元正态分布的均值为µ=c(1,0,0,1,1),协方差为2R,其中R为参数是θ=0.5的AR(1)结构的相关系数阵(即其i,j元ρij=0.5|i−j|)。
试(1)利用outer函数,写函数ar1(θ,n)以生成n维参数为θ的AR(1)相关系数矩阵;(2)取θ=0.5,从此五元正态分布中随机生成1000组随机数并绘制散点图阵,在散点图阵中的每个图上添加值为χ25(0.95)的常数密度轮廓线(提示,使用car包里的spm函数).从图上你能发现什么?若θ=0和0.9呢?2多元正态分布的检验多元正态分布的检验可以通过验证其一些特征是否具有来进行.比如一维边际正态性,卡方Q-Q图,一维投影正态性,energy检验统计量等等方法.#Create a normal probability plot.qqnorm(biv[,1],pch=20,main="Normal Probability Plot")qqline(biv[,1])#Chi-squre Q-Q plotD2<-mahalanobis(biv,mu,Sigma)qqplot(qchisq(ppoints(n),df=2),D2,main=expression("Q-Q plot for"~~{chi^2}[nu==2]))abline(c(0,1))#一维投影下的多重假设检验方法pvals<-testnormality(biv,numproj=10000)#testnormality函数见课件sum(sort(pvals)<1:length(pvals)*0.05/length(pvals))#Energy Statisticslibrary(energy)mvnorm.etest(biv)当数据存在异常点时,一般需要仔细处理.可以基于一些距离工具来发现异常点.R包mvoutlier (http://www.statistik.tuwien.ac.at/public/filz/papers/ArticleFGR05.pdf)提供了一些工具来发现异常点.dat<-read.table("T1-11.dat")pairs(dat)chisq.plot(dat)abline(c(0,1))library(rgl)plot3d(dat1,col=c(rep(1,300),2))##automatic detectioninstall.packages("mvoutlier")library(mvoutlier)aq.plot(dat)练习2.使用表1.10(T1-10.dat)数据,考察变量YrHgt,FtFrBody,PrctFFB,BkFat,SaleHt和SaleWt是否具有联合正态性?是否存在异常点?3正态化变换当数据的正态性假设不满足时,有时可以通过一些变换使其近似满足正态性要求.install.packages("car")library(car)m1<-read.table(file="datafiles/T4-1.dat",header=F)#microwave.door.closem2<-read.table("datafiles/T4-5.dat",header=F)#microwave.door.openmdat1<-as.matrix(cbind(m1,m2))colnames(mdat1)<-c("close","open")bc<-powerTransform(mdat1~1)#find the optimal box-cox parameter vector lambda summary(bc)bc.mdat<-bcPower(mdat1,bc$lambda)#save the transformed values#check the normalityplot(bc.mdat)chiqqplot(bc.mdat)mvnorm.etest(bc.ndat,R=999)练习3.对表3.2数据(T3-2.dat),试考察(1)对每一个变量使用散点图,盒形图判断是否存在异常值?(2)基于边际正态和联合正态两种方法分别对两个变量进行Box-Cox变换,对比两种方法下得到的Box-Cox参数值.使用正态QQ图和卡方QQ图对比原始数据和变换后的数据。
多元正态分布的性质多元高斯分布向量随机变量X=[X1...Xn]TX=[X1...Xn]T服从多元高斯分布,均值为μ∈Rnμ∈Rn(这里μμ是一个n维向量),协方差矩阵为Σ∈S++nΣ∈S++n,(S++nS++n是对称的正定矩阵),概率密度函数:。
p(x;μ,Σ)=1(2π)n2|Σ|12exp(−12(x−μ)TΣ−1(x−μ)) p ( x ;μ , Σ ) = 1 ( 2 π ) n 2 | Σ | 1 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) 。
单变量高斯分布的密度函数:p(x;μ,σ2)=1(2π)12σexp(−12σ2(x−μ)2) p ( x ; μ , σ 2 ) = 1 ( 2 π ) 1 2 σ e x p ( − 1 2 σ 2 ( x − μ ) 2 ) 。
系数1(2π)12σ 1 ( 2 π ) 1 2 σ 是一个不依赖x的常量,可以简单看做正则化因子(normalization foctor)确保:∫∞−∞1(2π)12σexp(−12σ2(x−μ)2)=1 ∫ − ∞ ∞ 1 ( 2 π ) 1 2 σ e x p ( − 1 2 σ 2 ( x − μ ) 2 ) = 1推广到多元高斯分布,即1(2π)n2|Σ|121(2π)n2|Σ|12也是一个不依赖向量X的常数,做为正则化因子:1(2π)n2|Σ|12∫∞−∞∫∞−∞...∫∞−∞exp(−12(x−μ)TΣ−1(x−μ)) 1 ( 2 π ) n 2 | Σ | 1 2 ∫ − ∞ ∞ ∫ − ∞ ∞ . . . ∫ −∞ ∞ e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) 。
协方差矩阵ΣΣ 是一个n×n n × n 矩阵,(i,j)位置代表Cov[Xi,Xj] C o v [ X i , X j ]命题1:对任意均值为μμ,协方差矩阵为ΣΣ的随即向量X,有:Σ=E[(X−μ)(X−μ)T]=E[XXT]−μμTΣ=E[(X−μ)(X−μ)T]=E[XXT]−μμT命题2:协方差矩阵ΣΣ是对称半正定的矩阵。