多元统计分析第二章
- 格式:doc
- 大小:81.50 KB
- 文档页数:3
第2章 多元正态分布多元正态分析是一元正态分布向多元的自然推广。
多元正态分布是多元分析的基础,多元分析的许多理论都是建立在多元正态总体基础上的。
虽然实际的数据不一定恰好是多元正态的,但是正态分布常常是真实的总体分布的一种有效的近似。
所以研究多元正态分布在理论上或实际上都有重大意义。
限于篇幅,本章仅简介多元正态简单理论,细节可参看王学民(2004),张尧庭(2002),余锦华(2005),Richard (2003),朱道元(1999)等。
现实世界的许多问题都可以纳入正态理论的范围内,正态分布可以作为许多统计量的近似的抽样分布。
2.1随机向量2.1.1随机向量定义2.1.1:称每个分量都是随机变量的向量为随机向量。
类似地,所有元素都是随机变量的矩阵称为随机矩阵。
设()1,,p X X X '= 是1p ⨯随机向量,其概率分布函数定义为:(){}111,,,,p p p F x x P X x X x =≤≤ ,1,,p x x 为任意实数多元分布函数()1,,p F x x 有如下性质: (1)()10,,1p F x x ≤≤ ;(2)()1,,p F x x 是每个变量,1,2,,i x i p = 的非降右连续函数; (3)(),,1F ∞∞= ;(4)()()()211,,,,,,,0p p F x x F x x F x -∞=-∞==-∞= 。
多元分布和一元分布一样也分为离散型和连续型。
连续型随机向量()1,,pX X X '= 的分布函数可以表示为 : ()()1111,,,,px x p p p F x x f t t dt dt -∞-∞=⎰⎰,()1,,pp x x R ∈ (2.1)称()1,,p f x x 是()1,,p X X X '= 的多元联合概率密度,简称多元概率密度或多元密度。
多元概率密度()1,,p f x x 有以下性质: (1)()1,,p f x x 非负; (2)()11,,1p p f x x dx dx ∞∞-∞-∞=⎰⎰ ;(3)()()111,,,,p p p nF x x f x x x x ∂=∂∂2.1.2边缘分布、条件分布和独立性 边缘分布设()1,,p X X X '= 是p 维连续型随机向量,由其q 个分量组成的向量()1X (不妨设()()11,,q X X X '= )的分布称为的边缘分布,其边缘概率密度为:()()()1111,,,,X q p q p f x x f x x dx dx ∞∞+-∞-∞=⎰⎰ (2.2)条件分布设()1,,p X X X '= 是p 维连续型随机向量,()()11,,q X X X '= ,()()()()2112,,,,,0q p X q p X X X f x x ++'=> ,在给定()2X 的条件下,()1X 的条件概率密度函数为:()()()()21111,,,,,,,,p q q p X q p f x x f x x x x f x x ++=(2.3)独立性设()1,,n X X 是连续型随机向量,则1,,n X X 相互独立当且仅当()()()111,,n n X X n f x x f x f x = 对任意1,,n x x 成立。
第二章课后习题1.现选取内蒙古、广西、贵州、云南、西藏、宁夏、新疆、甘肃和青海等9个内陆边远省区。
选取人均GDP、第三产业比重、人均消费支出、人口自然增长率及文盲半文盲人口占15岁以上人口等五项能够较好的说明各地区社会经济发展水平的指标,验证一下边远及少数民族聚居区的社会经济发展水平与全国平均水平有无显著差异。
边远及少数民族聚居区社会经济发展水平的指标数据地区人均GDP(元)三产比重(%)人均消费(元)人口增长(%)文盲半文盲(%)内蒙古506831.121418.2315.83广西407634.220409.0113.32贵州234229.8155114.2628.98云南435531.3205912.125.48西藏371643.5155115.957.97宁夏427037.3194713.0825.56新疆622935.4274512.8111.44甘肃345632.8161210.0428.65青海436740.9204714.4842.92资料来源:《中国统计年鉴(1998)》,北京,中国统计出版社,1998。
五项指标的全国平均水平为:)15.789.5297232.8701.6212(0'=μ解:(1)先利用SPSS软件检验各变量是否遵从多元正态分布(见输出结果1-1)输出结果1-1上表给出了对每一个变量进行正态性检验的结果,因为该例中样本数n=9,所以此处选用Shapiro-Wilk 统计量。
则Sig.值分别为0.781、0.437、0.131、0.682、0.242均大于显著性水平,由此可以知道,人均GDP 、三产比重、人均消费、人口增长、文盲半文盲这五个变量组成的向量均服从正态分布,即我们认为这五个指标可以较好对各地区社会经济发展水平做出近似的度量。
(2)提出原假设及备选假设0:μμ=H 01:μμ≠H (3)做出统计判断,最后对统计判断作出具体的解释SPSS 的GLM 模块可以完成多元正态分布有关均值与方差的检验。
多元统计分析第二章多元正态分布多元正态分布(Multivariate Normal Distribution),是指多个随机变量服从正态分布的情况。
在统计学中,多元正态分布是一个重要的概率分布,广泛应用于多个领域,如经济学、金融学、生物学、工程等。
多元正态分布的概率密度函数可以表示为:f(x;μ,Σ) = (2π)^(-k/2) ,Σ,^(-1/2) exp(-(x-μ)'Σ^(-1)(x-μ)/2)其中,x表示一个k维向量(k个随机变量),μ是一个k维向量,表示均值向量,Σ是一个k*k维协方差矩阵,Σ,表示协方差矩阵的行列式,'表示向量的转置,Σ^(-1)表示协方差矩阵的逆矩阵,exp表示指数函数。
多元正态分布具有以下特点:1.对称性:多元正态分布的密度函数是关于均值向量对称的。
2.线性组合:多元正态分布的线性组合仍然服从正态分布。
3.条件分布:给定其他变量的取值,多元正态分布的边缘分布和条件分布仍然服从正态分布。
4.独立性:多元正态分布的随机变量之间相互独立的充要条件是它们的协方差矩阵为对角矩阵。
对于多元正态分布,可以使用协方差矩阵来描述不同随机变量之间的相关程度。
协方差矩阵的对角线元素表示各个随机变量的方差,非对角线元素表示各个随机变量之间的协方差。
多元正态分布的参数估计也是统计学中一个重要的问题。
通常可以使用最大似然估计方法来估计均值向量和协方差矩阵。
在实际应用中,多元正态分布可以用来描述多个相关变量的联合分布。
例如,在金融学中,可以使用多元正态分布来建模多个股票的收益率。
在生物学中,可以使用多元正态分布来建模多个基因的表达水平。
除了多元正态分布,还存在其他的多元分布,如多元t分布、多元卡方分布等。
这些分布可以用来处理更一般的随机变量,具有更广泛的应用领域。
总之,多元正态分布是统计学中一个重要的概率分布,具有许多重要的性质和应用。
通过对多元正态分布的研究,可以更好地理解和分析多个相关变量的联合分布,推断和预测相关变量的取值,并为实际问题提供可靠的解决方案。
第二章主成分分析
一、填空题
1.主成分分析是通过适当的变量替换,使新变量成为原变量的线性组合,并寻求降维的一种方法。
2.主成分分析的基本思想是_将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原指标_____________。
3.主成分的协方差矩阵为____对称_____矩阵。
4.主成分表达式的系数向量是______相关矩阵特征值_________的特征向量。
5.原始变量协方差矩阵的特征根的统计含义是___主成分的方差_____________。
6.原始数据经过标准化处理,转化为均值为0____,方差为__1__的标准值,且其____协方差____矩阵与相关系数矩阵相等。
7.因子载荷量的统计含义是__第k个样本主成分与第j个变量样本之间的相关系数___(根号下懒么大*u下标kj)________________________。
10.SPSS中主成分分析采用___因子分析_命令过程。
二、简答题
4.简述主成分分析的适用范围及基本步骤。
利用较少主成分,得到较多的信息量;以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在较低数据“维数”的同时又保留了原数据的大部分信息;
相关系数矩阵特征值和特征向量主成分选取和建立主成分模型综合评价。
三、计算题
1.在一项研究中,测量了376只鸡的骨骼,并利用相关系数矩阵进行主成分分析,见下表:
(1)计算前三个主成分各自的贡献率和累积贡献率。
(2) 对于y4,y5,y6的方差很小这一点,你怎样对实际情况作出推断。
主成分中舍弃,方差小,包含信息量少 2.在一项对杨树的性状的研究中,测定了20株杨树树叶,每个叶片测定了四个变量:叶长(x1),2/3处宽(x2),1/3处宽(x3),1/2处宽(x4)。
这四个变量的相关系数矩阵的特征根和标准正交特征向量分别为:
)
7930.0,5513.0,2519.0,0612.0(007
.0)
1624.0,5589.0,7733.0,2516.0(049.0)
0824.0,2695.0,0984.0,9544.0(024.1)
5814.0,5577.0,5735.0,1485.0(920.244332211--='=--='=-='=---='=U U U U λλλλ
写出四个主成分,计算它们的贡献率。
Z1=0.1485x1-0.5735x2-0.5577x3-0.5814x4(以下类似) Z2=0.9544x1-0.0984x2+0.2695x3+0.0824x4 Z3= Z4=
贡献率:w=lanmeda(1-4)求和 1的贡献率=2.920/(2.920+1.024+0.049+0.007)(以下类似)
3.对纽约股票市场上的五种股票的周回升率x1,x2,x3,x4,x5进行了主成分分析,其中x1,x2,x3分别表示三个化学工业公司的股票回升率,x4,x5表示两个石油公司的股票回升率,主成分分析是从相关系数矩阵出发进行的,前两个特征根和对应的标准正交特征向量为:
)582.0,526.0,260.0,509.0,240.0(809.0)
421.0,421.0,470.0,457.0,464.0(857.22
211--='=='=U U λλ
(1) 计算这两个主成分的方差贡献率。
同上问
(2) 能否对这两个主成分的意义作一个合理的解释,并给两个主成分命名。
1反应的是
命名:一,化学工业公司股票回升率
二 石油公司股票回升率
四、SPSS 操作题
3.根据下列某地区11年数据
(1) 计算地区总产值、存储量和总消费的相关系数矩阵。
相关矩阵a
(2)求特征根及其对应的特征向量。
(3)求出主成分及每个主成分的方差贡献率;
(4)利用主成分方法建立y与x1,x2,x3的回归方程(取两个主成分)。