多元统计分析讲义(第四章)
- 格式:doc
- 大小:1.35 MB
- 文档页数:17
多元统计分析课后习题解答_第四章(共12页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--第四章判别分析简述欧几里得距离与马氏距离的区别和联系。
答:设p维欧几里得空间中的两点X=和Y=。
则欧几里得距离为。
欧几里得距离的局限有①在多元数据分析中,其度量不合理。
②会受到实际问题中量纲的影响。
设X,Y是来自均值向量为,协方差为的总体G中的p维样本。
则马氏距离为D(X,Y)=。
当即单位阵时,D(X,Y)==即欧几里得距离。
因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。
试述判别分析的实质。
答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。
设R1,R2,…,Rk 是p 维空间R p 的k 个子集,如果它们互不相交,且它们的和集为,则称为的一个划分。
判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间构造一个“划分”,这个“划分”就构成了一个判别规则。
简述距离判别法的基本思想和方法。
答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。
其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。
①两个总体的距离判别问题设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是1和 2,对于一个新的样品X ,要判断它来自哪个总体。
计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2(X ,G 2),则X ,D2(X ,G1)D 2(X ,G 2)X,D 2(X ,G 1)> D 2(X ,G 2, 具体分析,2212(,)(,)D G D G -X X111122111111111222*********()()()()2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2()22()2()---''=-++-'+⎛⎫=--- ⎪⎝⎭''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为X ,W(X)X ,W(X)<0②多个总体的判别问题。
多元统计分析第四章多元回归分析第4章多元回归分析简单说,回归分析是根据统计资料建⽴经验公式的统计⽅法。
例如统计若⼲焊接点数据,从⽽建⽴由焊接点直径预报焊点剪切强度的预报公式;⼜如统计若⼲棵松树的胸径与材积(可利⽤⽊材体积),建⽴由胸径预报材积公式,也⽤到回归分析⽅法。
当然回归分析不只是建⽴预报公式,还要对预报误差的⼤⼩,预报公式的合理性等问题讨论,有着⾮常丰富的内容。
回归分析可⽤于预测和控制,在⾃然科学,社会科学和应⽤技术中都有重要应⽤,它是统计学最重要的⼯具。
回归分析⽅法和理论从Gauss提出最⼩⼆乘法开始,⾄今已近200年,⽬前仍在蓬勃发展,例如在回归诊断、维度缩减、半参数回归、⾮参数回归、LOGISTIC 回归等⽅向不断有新的突破。
本章介绍参数回归分析模型及其参数估计、检验、模型选择等理论和有关计算⽅法。
参数回归分析主要分三类:线性回归、可以转化为线性回归的回归和⾮线性回归。
本章依次介绍这三类模型。
有关回归分析的⼀般理论可参见陈希儒(1984),⽅开泰(1988),Seber(1976),何晓群(1997),何晓群、刘⽂卿(2001)、Richard(2003)。
Robert(1999)和王吉利(2004)提供了许多有趣的应⽤例⼦。
4.1多元线性回归模型⾸先让我们看⼀个例⼦:x表⽰⽬标例4.1 对15个地区调查某种护肤霜销量得表4-1,其中y表⽰销量(打),1x表⽰⼈均可⽀配收⼊(美元)。
试建⽴由⽬标⼈⼝和⼈均可⽀配收⼊预⼈⼝数(千⼈),2测销量的公式。
表4-1 护肤霜销量数据这个问题中,每个地区销量受该地区⽬标⼈⼝数和⼈均可⽀配收⼊数影响,3个变量y 、1x 、2x 间存在密切关系。
但是它们的关系不是确定性关系⽽是相关关系。
常见的变量间关系分为两⼤类:确定性关系和相关关系。
确定性关系也称为函数关系。
具有确定性关系时,⾃变量完全确定因变量的值。
例如存款的年利率c 固定,那么存款数z 与总利息y 的关系就是确定性关系;z 知道后,y 就由y=cz 确定。
多元统计分析讲义(第四章)(总16页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--《多元统计分析》Multivariate Statistical Analysis主讲:统计学院许启发()统计学院应用统计学教研室School of Statistics2004年9月第三章主成分分析【教学目的】1.让学生了解主成分分析的背景、基本思想;2.掌握主成分分析的基本原理与方法;3.掌握主成分分析的操作步骤和基本过程;4.学会应用主成分分析解决实际问题。
【教学重点】1.主成分分析的几何意义;2.主成分分析的基本原理。
§1 概述一、什么是主成分分析1.研究背景在实际问题的研究中,为了全面分析问题,往往涉及众多有关的变量。
但是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。
一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同。
实际上,在很多情况下,众多变量间有一定的相关关系,人们希望利用这种相关性对这些变量加以“改造”,用为数较少的新变量来反映原变量所提供的大部分信息,通过对新变量的分析达到解决问题的目的。
主成分分析及典型相关分析便是在这种降维的思维下产生的处理高维数据的统计方法。
本章主要介绍主成分分析。
主成分分析的基本方法是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们含有尽可能多的原变量带有的信息,从而使得用这几个新变量代替原变量分析问题和解决问题成为可能。
当研究的问题确定之后,变量中所含“信息”的大小通常用该变量的方差或样本方差来度量。
概括地说,主成分分析(principal component analysis)就是一种通过降维技术把多个指标约化为少数几个综合指标的综合统计分析方法,而这些综合指标能够反映原始指标的绝大部分信息,它们通常表现为原始几个指标的线性组合。
第四章 判别分析4、1 简述欧几里得距离与马氏距离得区别与联系。
答: 设p 维欧几里得空间中得两点X =与Y =。
则欧几里得距离为。
欧几里得距离得局限有①在多元数据分析中,其度量不合理。
②会受到实际问题中量纲得影响。
设X,Y 就是来自均值向量为,协方差为得总体G 中得p 维样本。
则马氏距离为D(X,Y)=。
当即单位阵时,D(X,Y)==即欧几里得距离。
因此,在一定程度上,欧几里得距离就是马氏距离得特殊情况,马氏距离就是欧几里得距离得推广。
4、2 试述判别分析得实质。
答:判别分析就就是希望利用已经测得得变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别得样本点尽可能地区别开来。
设R1,R2,…,Rk 就是p 维空间R p 得k 个子集,如果它们互不相交,且它们得与集为,则称为得一个划分。
判别分析问题实质上就就是在某种意义上,以最优得性质对p 维空间构造一个“划分”,这个“划分”就构成了一个判别规则。
4、3 简述距离判别法得基本思想与方法。
答:距离判别问题分为①两个总体得距离判别问题与②多个总体得判别问题。
其基本思想都就是分别计算样本与各个总体得距离(马氏距离),将距离近得判别为一类。
①两个总体得距离判别问题设有协方差矩阵∑相等得两个总体G 1与G 2,其均值分别就是μ1与μ 2,对于一个新得样品X ,要判断它来自哪个总体。
计算新样品X 到两个总体得马氏距离D 2(X,G 1)与D 2(X,G 2),则X ,D 2(X ,G 1)D 2(X ,G 2)X ,D 2(X ,G 1)> D 2(X ,G 2, 具体分析,111122111111111222111211122()()()()2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ记 则判别规则为X ,W(X) X ,W(X)<0②多个总体得判别问题。
《多元统计分析》课程教课纲领(M utilvariate Analysis For Economics)一、课程基本信息1、课程类型:专业限选课2、课程学时:总学时643、学分: 34、合用专业:5、纲领执笔者:6、订正时间:二、课程教课目标多元统计分析引进数理统计的多元分析方法对社会经济现象进行多维度、深层次分析、刻画、综合的方法。
是以统计学方法中的综合指标法为基础,对现象用指标进行描绘,而后再考虑指标的引进与删除、指标的抽象与综合、样本的聚类和类间的差别、以及回归模型的成立等问题,能够对经济问题深入分析,纵向横向对照研究。
本课程在方法的数理推导上不作较高要求,主要弄清方法的原理和基本思路;要点是方法的适应范围、解决问题的实质是什么、各样方法之间的互相关系是什么、各样方法在计算机上怎么实现、特别在 SPSS 怎样操作、输出结果的数学意义是什么、经济上又怎样分析。
在掌握上述各基本问题此后,本课程侧重培育学生的口头表述能力和书面表达能力,口头上要能针对一个问题,提出解决思路,叙述门路和分析可能性,大概判断最后结果,必需上讲台讲。
多元统计分析是高年级专业课程,要为学生写作毕业论文和参加其余科研创作活动作好准备。
三、课程教课的基本要求第一章多元正态散布学生采集现象的多指标数据,简单考证大样本状况下绝大多数问题是可用多元正态散布来描绘现象的特色的。
第二章多元正态整体均值向量和协差阵的假定查验1.认识几个常有的统计查验量听从的概率散布;2.深刻理解样本统计量和依据明显性水平查表所得值之间的比较与最后接受或拒绝原假定之间的关系;3.学生必需举例说明均值向量查验在实质经济研究中的应用和其已知与未知的意义和存在性分析,理解两整体及多整体均值向量查验的应意图义;4.理解协方差阵查验的应意图义,特别要学会两个查验联合运用。
第三章聚类分析1.理解各样距离和相像系数的意义和其各样定义计算方法下表现出来的数目特征;2.理解 R型和 Q型聚类的差别和联系;3.深刻理解样本间距离计算与聚类时类间距离的规定之间的关系;掌握八种系统聚类法在实质应用中各自的特色和适应范围;4.选择一个问题,每人写出一篇对于聚类问题分析的小论文,论文在5000 字左右,要求有问题的提出、指标选择和数据采集,聚类分析结论等四个部分。
Equation Chapter 1 Section 1 Array《多元统计分析》Multivariate Statistical Analysis;^)主讲:统计学院许启发()统计学院应用统计学教研室School of Statistics2004年9月第三章 主成分分析【教学目的】1.让学生了解主成分分析的背景、基本思想; 2.掌握主成分分析的基本原理与方法; 3.掌握主成分分析的操作步骤和基本过程; 4.]5.学会应用主成分分析解决实际问题。
【教学重点】1.主成分分析的几何意义; 2.主成分分析的基本原理。
§1 概述一、什么是主成分分析1.研究背景在实际问题的研究中,为了全面分析问题,往往涉及众多有关的变量。
但是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。
一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同。
实际上,在很多情况下,众多变量间有一定的相关关系,人们希望利用这种相关性对这些变量加以“改造”,用为数较少的新变量来反映原变量所提供的大部分信息,通过对新变量的分析达到解决问题的目的。
主成分分析及典型相关分析便是在这种降维的思维下产生的处理高维数据的统计方法。
本章主要介绍主成分分析。
主成分分析的基本方法是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们含有尽可能多的原变量带有的信息,从而使得用这几个新变量代替原变量分析问题和解决问题成为可能。
当研究的问题确定之后,变量中所含“信息”的大小通常用该变量的方差或样本方差来度量。
>概括地说,主成分分析(principal component analysis )就是一种通过降维技术把多个指标约化为少数几个综合指标的综合统计分析方法,而这些综合指标能够反映原始指标的绝大部分信息,它们通常表现为原始几个指标的线性组合。
主成分概念最早是由Karl Parson 于1901年引进的,1933年Hotelling 把这个概念推广到随机向量。
在实践中,主成分分析既可以单独使用,也可和其它方法结合使用,如主成分回归可克服多重共线性。
2.基本思想及意义哲学理念:抓住问题的主要矛盾。
主成分分析将具有一定相关性的众多指标重新组合成新的无相互关系的综合指标来代替。
通常数学上的处理就是将这p 个指标进行线性组合作为新的综合指标。
问题是:这样的线性组合会很多,如何选择如果将选取的第一个线性组合即第一个综合指标记为1F ,希望它能尽可能多地反映原来指标的信息,即1()Var F 越大,1F 所包含的原指标信息①就越多,1F 的方差应该最大,称1F 为第一主成分。
如果第一主成分1F 不足以代表原来p 个指标的信息,再考虑选取2F 即选择第二个线性组合。
为了有效地反映原来的信息,1F 中已包含的信息,无须出现在2F 中,即12(,)0Cov F F ,称2F 为第二主成分。
仿此可以得到p 个主成分。
①度量信息最经典的方差是方差。
我们可以发现这些主成分之间互不相关且方差递减,即数据的信息包含在前若干个主成分中,因而只需挑选前几个主成分就基本上反映了原始指标的信息。
这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的解决。
二、主成分分析的数学模型及几何意义[1.数学模型(总体主成分)设有n 个样品,每个样品观测p 个指标:12,,,p X X X ,得到原始数据资料阵:()11121212221212,,,p p p n n np X X X X X X X X XX X X X ⎛⎫⎪⎪= ⎪ ⎪ ⎪⎝⎭。
其中,12i i i ni X X X X ⎛⎫⎪ ⎪= ⎪ ⎪⎝⎭。
其协方差矩阵为()[][]ijp pE X EX X EX σ⨯'∑--它是一个p 阶半正定矩阵。
设()12,,,(1,2,,)i i i pi a a a a i p '==为p 个常数向量,考虑如下的线性组合1111121212212122221122p p p p p p p p pp p F a X a X a X a X F a X a X a X a X F a X a X a X a X '⎧=+++⎪'=+++⎪⎨⎪⎪'=+++⎩简记为1122i i i i pi pF a X a X a X a X '=+++(1,2,,)i p =易知有()()i i i i Var F Var a X a a ''=∑(,)(,),i j i j i jCov F F Cov a X a X a a i j '''==∑≠(,1,2,,)i j p =…如果我们希望用1F 代替原来p 个变量12,,,p X X X ,这就要求1F 尽可能地反映原p 个变量的信息。
这里,“信息”用1F 的方差来度量,即1()Var F 越大,表示1F 所含的12,,,p X X X 中的信息越多。
但由方差的表达式可知,必须对i a 加以限制,否则1()Var F 无界。
而最方便的限制是要求所有i a 具有单位长度,即1i i a a '=因此,我们希望在约束条件111a a '=之下,求1a 使1()Var F 达到最大,由此1a 所确定的随机变量11F a X '=称为12,,,p X X X 的第一主成分。
如果第一主成分1F 还不足以反映原变量的信息,考虑采用2F 。
为了有效地反映原变量的信息,1F 中已有的信息就不必要再包含在2F 中,用统计的语言来讲,要求1F 与2F 不相关,即1212(,)0Cov F F a a '=∑= 于是,在约束条件221a a '=及120a a '∑=之下,求2a 使2()Var F 达到最大,由此2a 所确定的随机变量22F a X '=称为12,,,p X X X 的第二主成分。
一般地,在约束条件1i i a a '=及()(,)01,2,,1i k i k Cov F F a a k i '=∑==-之下,求i a 使()i Var F 达到最大,由此i a 所确定的随机变量i i F a X '=称为12,,,p X X X 的第i 主成分。
2.主成分的几何意义从代数学观点看主成分就是12,,,p X X X 的一些特殊的线性组合,而在几何上这些线性组合正是把12,,,p X X X 构成的坐标系旋转产生的新的坐标系,新坐标系使之通过样品方差最大化方向。
下面以二元正态变量为例说明主成分的几何意义。
当2p =时,原变量是12,X X ,设122(,)~(,)X X X N μ'=∑,它们有下图的相关关系:}对于二元正态变量,n 个点的散布大致是一个椭圆,在其长轴方向取坐标轴1F ,在其短轴方向取坐标轴2F 。
这相当于在平面上作一坐标变换,即按逆时针方向旋转θ角度,得112212cos sin sin cos F X X F X X θθθθ=+⎧⎨=-+⎩ 或1122cos sin sin cos F X U X F X θθθθ⎛⎫⎛⎫⎛⎫= ⎪ ⎪ ⎪-⎝⎭⎝⎭⎝⎭这里的U 为正交矩阵,即U U I '=。
因此,在12F oF 坐标系中有如下性质:}(1)1F 和2F 为12,X X 的线性组合; (2)1F 与2F 不相关;(3)1X 与2X 的总方差大部分归结为1F 轴上,而2F 轴上很少。
几何意义:一般情况,p 个变量组成p 维空间,n 个样品点就是p 维空间的n 个点,对p 元正态分布变量来说,找主成分的问题就是找p 维空间中椭球体的主轴问题。
§2 主成分的推导及性质这里首先从理论上给出总体主成分,探讨总体主成分的性质,而后再给出样本主成分。
一、总体主成分1.总体主成分的推导 设1122p p Fa X a X a X a X '=+++,其中()12,,,p a a a a '=且1a a '=,()12,,,p X X X X '=。
求主成分的过程就是寻找X 的线性组合a X ',使相应的方差尽可能地大的过程。
()()()()Var F Var a X a E X EX X EX a a a ''''=--=∑:设协差阵∑的特征根为120p λλλ≥≥≥>,相应的正交单位特征向量为()12,,,p U U U U '=,则11p i i i i p U U U U λλλ=⎛⎫ ⎪''∑==⎪ ⎪⎝⎭∑因此,()()()()()21111ppppi i i i i i i i i i i i i i i a a a U U a a U U a a U a U a U λλλλ===='''''''''∑====∑∑∑∑所以,()()()2111111pi i a a a U a U a U a UU a a a λλλλλ=''''''''∑≤====∑而事实上,当1a U =时有()()()2111111111111p pi i i i i i i i U U U U U U U U U U U U λλλλ==⎛⎫''''''∑==== ⎪⎝⎭∑∑由此可知,在约束条件1a a '=之下,当1a U =时,使()Var a X a a ''=∑达到最大值,且1111()Var U X U U λ''=∑=。
同理可求()i i i i Var U X U U λ''=∑=,且()()()11(,)0p p i j i j i k k k j k i k k j k k Cov U X U X U U U U U U U U U U i j λλ==⎡⎤⎡⎤'''''''=∑===≠⎢⎥⎢⎥⎣⎦⎣⎦∑∑【结论:()12,,,p X X X X '=的主成分就是以∑的特征向量为系数的线性组合,它们互不相关,其方差为∑的特征根,主成分的名次是按照特征根大小的顺序排列的。
2.总体主成分的性质性质1:设F a X '=为X 的主成分,则其协差阵为由X 的协差所对应特征根组成的对角阵。
性质2:1111()()ppppi ii i i i i i i Var X Var F σλ=======∑∑∑∑。