当前位置:文档之家› 多元统计分析简答题..

多元统计分析简答题..

多元统计分析简答题..
多元统计分析简答题..

1、简述多元统计分析中协差阵检验的步骤

第一,提出待检验的假设H0和H1;

第二,给出检验的统计量及其服从的分布;

第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。

协差阵的检验

检验0=ΣΣ

0p H =ΣI : /2/21exp 2np n e tr n λ????=-?? ?????S S

00p H =≠ΣΣI : /2/2**1exp 2np n e tr n λ????=-?? ?????

S S 检验12k ===ΣΣΣ012k H ===ΣΣΣ: 统计量/2/2/2/211i i k k n n pn np k i i i i n

n λ===∏∏S S

2. 针对一个总体均值向量的检验而言,在协差阵已知和未知的两种情形下,如何分别构造的统计量?

3. 作多元线性回归分析时,自变量与因变量之间的影响关系一定是线性形式的吗?多元线性回归分析中的线性关系是指什么变量之间存在线性关系?

答:作多元线性回归分析时,自变量与因变量之间的影响关系不一定是线性形式。当自变量与因变量是非线性关系时可以通过某种变量代换,将其变为线性关系,然后再做回归分析。

多元线性回归分析的线性关系指的是随机变量间的关系,因变量y 与回归系数βi 间存在线性关系。

多元线性回归的条件是:

(1)各自变量间不存在多重共线性;

(2)各自变量与残差独立;

(3)各残差间相互独立并服从正态分布;

(4)Y 与每一自变量X 有线性关系。

4.回归分析的基本思想与步骤

基本思想:

所谓回归分析,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。

步骤:

1)确定回归方程中的解释变量和被解释变量。

2)确定回归模型

根据函数拟合方式,通过观察散点图确定应通过哪种数学模型来描述回归线。如果被解释变量和解释变量之间存在线性关系,则应进行线性回归分析,建立线性回归模型;如果被解释变量和解释变量之间存在非线性关系,则应进行非线性回归分析,建立非线性回归模型。

3)建立回归方程

根据收集到的样本数据以及前步所确定的回归模型,在一定的统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。

4)对回归方程进行各种检验

由于回归方程是在样本数据基础上得到的,回归方程是否真实地反映了事物总体间的统计关系,以及回归方程能否用于预测等都需要进行检验。

5)利用回归方程进行预测

5.多重共线性问题、不良后果、解决方法

多重共线性是指线性回归模型中的自变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。常见的是近似的多重共线性关系,即存在不全为0的p个常数C1,C2,…,Cp使得C1X i1+C2X i2+…+CpXip≈0,i=1,2,…n

不良后果:模型存在完全的多重共线性,则资料阵X的秩

检验方法:方差扩大因子(VIF)法和特征根判定法

方差扩大因子表达式为:VIF i=1/(1-R i2),其中R i为自变量xi对其余自变量作回归分析的复相关系数。当VIF i很大时,表明自变量间存在多重共线性。

解决方法:当发现自变量存在严重的多重共线性时,可以通过剔除一些不重要的自变量、增大样本容量、对回归系数做有偏估计(如采用岭回归法、主成分法、偏最小二乘法等)等方法来克服多重共线性。

6.为什么要进行回归方程的显著性检验?

答:对于任意给定的一组观测数据(xi1,xi2,...,xip;yi),(i=1,2,...,n) ,我们都可以建立回归方程。但实际问题很可能y与自变量x1,x2,...,xp之间根本不存在线性关系,这时建立起来的回归方程的效果一定很差,即回归值yi实际上不能拟合真实的

值yi。即使整个回归方程的效果是显著的,在多元的情况下,是否每个变量都起着显著的作用呢?因此还需要对各个回归系数进行显著性检验,对于回归效果不显著的自变量,我们可以从回归方程中剔除,而只保留起重要作用的自变量,这样可以使回归方程更简练。

7.统计性的依据是什么?给出一个回归方程如何做显著性检验?

统计性的依据是方差分析。

对于多元线性回归方程作显著性检验就是要看自变量x1,x2,...xp从整体上对随机变量y是否有明显的影响,即检验假设H0:β1=β2=...=βp=0 H1:至少有某个βi≠0,1<=i<=p

如果H0被接受,则表明y与x1,x2,...xp之间不存在线性关系,为了说明如何进行检验,我们首先要建立方差分析表。

在进行显著性检验中,我们可以用F统计量来检验回归方程的显著性,也可以用P值法做检验。F统计量是:F=MSR/MSE=[SSR/p]/[SSE/(n-p-1)]

当H0为真时,F~F(p,n-p-1)。给定显著性水平α,查F分布表得临界值F1-α(p,n-p-1),计算F的观测值,若F0<=F1-α(p,n-p-1),则接受H0,即认为在显著性水平α之下,认为y与x1,x2,...xp之间线性关系不显著。

利用P值法做显著性检验十分方便,这里的P值是P(F>F0),定显著性水平α,若p<α,则拒绝H0,反之接受H0。

回归系数的显著性检验

回归方程通过了显著性检验并不意味着每个自变量xi都对y有显著影响。而回归系数的显著性检验的目的就是从回归方程中剔除那些对y的影响不显著的自变量,从而建立一个较为有效的回归方程。如果自变量xi对y无影响,则在线性模型中,βi=0

检验xi的影响是否显著等价于检验假设

H0:βi=0,H1:βi≠0

对给定的显著性水平α,当|ti|>tα/2(n-p-1)时,拒绝H0。反之,则接受H0。

数据的中心化和标准化

目的:解决利用回归方程分析实际问题时遇到的诸多自变量量纲不一致的问题。数据中心化处理的几何意义:相当于将坐标原点移至样本中心,而坐标系的平移并不改变直线的斜率,只改变了截距。

通过对残差进行分析,可以在一定程度上回答下列问题:

1)回归函数线性假定的可行性;

2)误差项的等方差假设的合理性;

3)误差项独立性假设的合理性;

4)误差项是否符合正态分布;

5)观测值中是否存在异常值;

6)是否在模型中遗漏了某些重要的自变量。

8.标准化回归方程与非标准化回归方程有何不同?在怎样的情况下需要将变量标准化?

标准化回归方程就是将自变量因变量都标准化后的方程。在spss输出的回归系数中有一列是标准化的回归系数,由于都标准化了,因此标准化方程中没有常数项了。

对数据标准化,即将原始数据减去相应变量的均数后再除以该变量的标准差,计算得到的回归方程称为标准化回归方程,相应的回归系数为标准化回归系数。

一般情况下的回归,并不必须标准化,直接回归即可。在做主成分分析包括因子分析时,则必须标准化。

9.回归分析和相关分析的区别和联系

相关分析和回归分析都是对客观事物数量依存关系的分析,均有一元和多元,线性与非线性之分,在应用中相互结合渗透,但仍有差别,主要是:

(1)相关分析主要刻画两类变量间线性相关的密切程度,而回归分析则是揭示一个变量如何与其他变量相联系,并可由回归方程进行控制和预测

(2)在相关分析中,变量y与x处于平等的地位,在回归分析中,因变量y处于被解释的特殊地位

(3)在相关分析中所涉及的变量y与x完全是随机变量;而在回归分析中因变量y是随机变量,自变量可以是随机变量也可以是非随机变量。一般来说,只有存在相关关系才可以进行回归分析,相关程度越高,回归分析的结果就越可靠。

10.回归方程的基本假定?

(1)回归函数的线性假设

(2)误差项的等方差假设

(3)误差项的独立性假设

(4)误差项的正态分布假设

11.运用回归分析解决问题时,回归变量的选择理论依据的什么?选择回归变量时应注意哪些问题?

(1)从拟合角度考虑,可以采用修正的复相关系数达到最大的准则

准则1:修正的复相关系数R a2达到最大。因为:

R a2=1-MSE/(SST/(n-1))从这个关系式容易看出,R a2达到最大时,MSE达到最小。(2)从预测的角度考虑,可以采用预测平方和达到最小的准则及C p准则

准则2:预测平方和PRESS p达到最小

准则3:(C p准则)

(3)从极大似然估计角度考虑,可以采用赤池信息量化准则(AIC准则)

准则4:赤池信息量达到最小

AIC=nln(SSE p)+2p选择AIC值最小的回归方程为最优回归方程

自变量的选择问题可以看成是应该采用全模型还是选模型的问题

全模型正确误用选模型:全模型相应参数为有偏估计,选模型预测也是有偏的。选模型的参数估计和预测残差以及均方差都有较小的方差。

选模型正确误用全模型,全模型参数估计和预测是有偏估计,而全模型预测值的方差和均方差大于选模型相应的方差。上述结论说明丢掉那些对应变量影响不大的,或虽有影响,但难于观测的自变量是有利的。

12.逐步回归方法的基本思想与步骤

基本思想:有进有出。具体做法是将变量一个一个引入,引入变量的条件是通过了偏F统计量的检验,同时,每引入一个新变量后,对已入选方程的老变量进行检测,将经检验认为不显著的变量剔除,此过程经过若干步,直到既不能引入新变量又不能剔除老变量为止。

基本步骤:

(1)对于每个自变量x i(1≤i≤m),拟合m个一元线性回归模型,若F i1(1)>F E,则所选择含有自变量x i1的回归模型为当前模型,否则,没有变量引入模型,选择过程结束,即认为所有自变量对y的影响均不显著。

(2)在第一步的基础上,再将其余的m-1个自变量分别加入此模型中,得到m-1

个二元回归方程,若若F

i1(2)>F

E

则将自变量x

i2

引入模型,进一步考察x

i2

引入模

型后,x

i1对y的影响是否仍显著,若F

i1

(2)≤F

D

,则剔除x

i

(3)在第二步的基础上再将其余的m-2个自变量分别加入此模型中,拟合各个模型并计算偏F统计量值,与F

E

比较决定是否又新变量引入,如果有新的变量引入,还需要检验原模型中的老变量是否因为这个新变量的引入而不再显著,那样就应该被剔除。

重复以上步骤,直到没有新的变量进入模型,同时在模型中的老变量都不能被剔除,则结束选择过程。

13.在作判别分析时,如何检验判别效果的优良性?

当一个判别准则提出以后,还要研究其优良性,即要考察误判概率。一般使用以训练样本为基础的回代估计法与交叉确认估计法。

(1)误判率回代估计法

回判过程中,用n12表示将本属于G1的样本误判为G2的个数,n21表示将本属于G2的样本误判为G1的个数,总的误判个数是n12+n21,误判率的回代估计为(n12+n21)/(n1+n2),但往往比真实的误判率要小。

(2)误判率的交叉确认估计

每次剔除训练样本中的一个样本,利用其余容量为n1+n2-1个训练样本来建立判别准则,再利用所建立的判别准则对删除的那个样本作判别,对训练样本中的每个样本做上述分析,以其误判的比例作为误判概率的估计。

14、简述费希尔判别法的基本思想。

从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数系数:确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p个指标值代入线性判别函数式中求出值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。

15.Fisher判别法的基本思想

基本思想是投影。将k组m元数据投影到某一个方向,使得投影后组与组之间尽可能地分开,其中利用了一元差分的思想导出判别函数。这个函数可以是线性的,也可以是其他类型的函数。

贝叶斯判别法的基本思想

基本思想是假定对所研究是对象(总体)在抽样前就有一定的认识,常用先验概率分布来描述这种认识。然后基于抽取的样本再对先验概率做修正,得到后验概率分布,再基于后验概率分布做判别分析。

16.简述费歇尔准则下两类判别分析的基本思想。

答:费歇尔的判别方法,其基本思想是把p个变量x

1,x

2

,...,x

p

综合成一个新变

量y,y=c

1x

1

+c

2

x

2

+...+c

p

x

p

=c’x ,也即产生一个综合判别指标,要求已知的g

个类G

k

,k=1,2,...,g在这个新变量下能最大程度地区分开,于是可用这个综合

判别指标判别未知样品的归属。其中c=(c

1,c

2

,c

p

)’为待定参数。判别方程除没

有常数外,与回归方程非常相似,但两者有着本质的区别。在回归方程中,y为因变量,是一个已知的随机变量,有其样本测试值,回归分析的任务是选择一组参数,使得根据回归方程预测的因变量的值与实测值尽可能地接近;而判别模型中y只是一个综合变量,实际上并不存在这样一个变量,因而也没有实测值。判别模型的几何意义是把p维空间的点投影到一维空间(直线)上去,使各已知类在该直线上的投影尽可能分离。

17.比较费歇尔准则下的两类判别方程与回归方程的异同。为什么判别方程中不需要常数项?

答:除没有常数项外,与回归方程非常相似,但两者有着本质的区别。在回归方程中,y为因变量,是一个已知的随机变量,有其样本测试值,回归分析的任务是选择一组参数,使得根据回归方程预测的因变量的值与实测值尽可能地接近;而判别模型中y只是一个综合变量,实际上并不存在这样一个变量,因而也没有实测值。

判别模型的几何意义是把p维空间的点投影到一维空间(直线)上去,使各已知类在该直线上的投影尽可能分离。

18.判别分析与聚类分析有何不同?

聚类分析和判别分析有相似的作用,都是起到分类的作用。但是判别分析是已知分类然后总结出判别规则,是一种有指导的学习;而聚类分析则是有了一批样本,不知道它们的分类,甚至连分成几类都不知道,希望用某种方法把观测进行合理的分类,使得同一类的观测比较接近,不同类的观测相差较多,这是无指导的学习。所以聚类分析依赖于对观测间的接近程度(距离)或相似程度的理解,定义不同的距离量度和相似性量度就可以产生不同的聚类结果。

19.简述聚类分析的基本思想。有哪两类聚类分析?各自的作用?

聚类分析就是根据空间点群的“亲疏”关系进行分类的一种方法。为此要给出表示空间点与点之间“亲疏”关系的相似性度量,然后讨论根据相似性度量进行点群簇分的方法和应用。

聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中对象趋向于不相似。聚类分析根据对象不同分为Q型聚类分析(对样本进行聚类)和R型聚类(对变量进行聚类)。

对样品或变量进行聚类时,我们常用距离和相似系数来对样品或变量之间的相似

性进行度量。距离用来度量样品之间的相似性,而相似系数常用来度量变量间的相似性。

20.距离系数需要满足的基本条件?

答:点i和点j之间的距离dij可有各种不同的定义,只要其满足所谓的距离公理:

对一切是i,j,dij>=0;

dij=0等价于点i和点j为同一点,即X(i)=X(j);

对一切的i,j,dij=dji;

三角不等式成立,即对一切的i,j,k,有dij<=dik+dkj

21.系统聚类法的基本思想和步骤。有哪些常用的系统聚类法?

基本思想:

(1)将聚类的n个样品(或者变量)各自看成一类,共有n类;

(2)按照事先选定的方法计算每两类之间的聚类统计量,即某种距离(或者相似系数),将关系最密切的两类并为一类,其余不变,即得n-1类;

(3)按前面的计算方法计算新类与其他类之间的距离(或者相似系数),将关系最密切的两类并为一类,其余不变,即得n-2类;

(4)如此继续下去,直到最后所有样品(或者变量)归为一类为止。

基本步骤:

(1)n个样品(或者变量)各自成一类,一共有n类。计算两两之间的距离,显然D(G p,G q)=d pq,构成一个对称矩阵D(0)=(d ij)n×n,其对角线上的元素全为0.

(2)选择D(0)中对角线元素以外的上(或者下)三角部分中的最小元素,设其为D(G p,G q),与其下标相对应,将类G p与G q合并成一个新类,记为G r。计算G r与其他类G k(k≠p,q)之间的距离。

(3)在D(0)中划去与G p、G q所对应的两行和两列,并加入由新类G r与其他各类之间的距离所组成的一行和一列,得到一个新的n-1阶对称距离矩阵D(1)。(4)由D(1)出发,重复步骤(2)(3)得到对称矩阵D(2);再由D(2)出发,重复步骤(2)(3)得到对称矩阵D(3),...,依次类推,直到n个样品(或者变量)聚为一个大类为止。

(5)在合并某两类的过程中记下两类样品(或者变量)的编号以及所对应的距离(或者相似系数),并绘制成果聚类图。

(6)决定类的个数以及聚类结果。

常用的系统聚类法有:最短距离法、最长距离法、中间距离法、重心法、来平均法、离差平方和法

22.模糊聚类法的基本思想和步骤

基本思想:

采用模糊数学语言对事物按一定的要求进行描述和分类的数学方法称为模糊聚类分析,模糊聚类分析一般是指根据研究对象本身的属性来构造模糊矩阵,并在此基础上根据一定的隶属度来确定聚类关系,即用模糊数学的方法把样本之间的模糊关系定量的确定,从而客观且准确地进行聚类。模糊聚类分析所讨论的对象,

事先没有给定任何模式供分类参考,要求按照样本各自的属性特征加以分类。聚类就是将数据集分成多个类或簇,使得各个类之间的数据差别应尽可能大,类内之间的数据差别应尽可能小,即为“最小化类间相似性,最大化类内相似性”原则。

基本步骤:

(1)选定一种计算距离或相似系数的公式。

(2)由观测数据矩阵计算样品间的距离d ij (1≤i,j ≤n)或变量间的相似系数r ij (1≤i,j ≤m),形成距离矩阵D=(d ij )n ×n 或相似系数矩阵R=(r ij )m ×m

(3)将距离矩阵D 或相似系数矩阵R 中的元素压缩到0与1之间,形成模糊矩阵A=(a ij )

(4)将模糊矩阵A 改造成为模糊等价矩阵

(5)选取截取水平λ(0<λ<1),对样本进行模糊聚类

(6)按λ的值画出聚类的谱系图。

23如何确定合理的聚类数目?

聚类数目的真正确定在于研究的问题是什么,以及事先有无一个大致的判断标准。分类的数目应该符合使用的目的。确定聚类数的问题属于聚类有效性问题。比如在模糊聚类分析中,可以根据方差分析理论,应用混合F 统计量来确定最佳分类数。

24、在进行系统聚类分析时,不同的类间距离计算方法有何区别?请举例说明。 设d ij 表示样品X i 与X j 之间距离,用D ij 表示类G i 与G j 之间的距离。

(1). 最短距离法

,min i k j r kr ij X G X G D d ∈∈=

min{,}kp kq D D =

(2)最长距离法 ,max i p j q pq ij X G X G D d ∈∈=

,max i k j r kr ij X G X G D d ∈∈=

max{,}kp kq D D = (3)中间距离法

其中 (4)重心法

2()()pq p q p q D X X X X '=-- )(1q q p p r

r X n X n n X += ij G X G X ij

d D j j i i ∈∈=,min

22222

121pq kq kp kr D D D D β++=

2

2222p q p q kr kp kq pq r r r n n n n D D D D n n n =+-

(5)类平均法

221

i p j j pq ij X G X G p q D d n n ∈∈=∑∑ 221i k j r kr ij X G X G k r D d n n ∈∈=∑∑22p q kp kq r r n n D D n n =+

(6)可变类平均法

其中β是可变的且β <1

(7)可变法

22221()2

kr kp kq pq D D D D ββ-=++ 其中β是可变的且β <1 (8)离差平方和法 1

()()t n t it t it t t S X X X X ='=--∑

2

222k p k q k kr kp kq pq r k r k r k

n n n n n D D D D n n n n n n ++=+-+++

25.数据变换

由于每个样品各个变量的观测值具有不同的数量级和不同的测量单位,所以有必要进行变换,得到无量纲数据,以消除其中的不合理现象,提高分类效果,常用的数据变换方法有:标准化法、正规化法、极差标准化法、极大值正规化法、均值正规化法

26.Q 型聚类统计量

考虑对样品进行聚类,描述变量之间的接近程度常用“距离”来度量。两个样品之间的距离越小,表示两者之间的共同点越多;距离越大,共同点越少。常用距离有:绝对值距离、欧式距离、闵克夫斯基距离、切比雪夫距离、马哈拉诺比斯距离

27.R 型聚类统计量

考虑对样品进行聚类,描述变量之间的接近程度常用“相似系数”来度量。两个变量之间的相似系数的绝对值越接近于1,表示两者关系越密切;绝对值越接近于0,关系越疏远。常用相似距离有:夹角余弦和相似系数。

2222(1)()p q kr kp kq pq r r n n D D D D n n ββ=-++

28.简述主成分分析的基本思想。

答:主成分分析的基本思想是构造原始变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息,从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。

29.主成分的求取

首先,求其协方差矩阵Σ的各特征值及相应的正交单位化特征向量,然后,以特征值从大到小所对应的特征向量为组合系数所得到的X1,X2,...,Xp的线性组合分别取作X的第一、第二、直至第p个主成分,而各主成分的方差等于相应的特征值。

30.主成分分析的基本思想,可以做什么应用及在应用中要选几个主成分?

主成分分析的基本思想:构造原始变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息,从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。通常变量中所含信息的多少用该变量的方差(或样本方差)来度量,这是经典的信息量的表示方法。

解决的问题:

(1)研究的问题当中,随机变量的个数比较大,将增大计算量和分析问题的复杂性;

(2)随机变量之间存在着一定的相关性,它们的观测样本所反映的信息在一定程度上存在着重叠的。

一般地,在约束条件①l

i T l

i

=1②Cov(Y

i

,Y

k

)=l

i

TΣl

k

=0,k=1,2,...,i-1之下,使得

Var(Y

i )达到最大,由此l

i

确定的Y

i

=l

i

T X称为X1,X

2

,...,X

p

的第i个主成分。

31.比较主成分分析与判别分析的基本思想。

主成分分析就是一种通过降维技术把多个指标约化为少数几个综合指标的统计分析方法。其基本思想是:设法将原来众多具有一定相关性的指标(设为p个),重新组合成一组新的相互无关的综合指标来代替原来指标。数学上的处理就是将原来P个指标作线性组合,作为新的指标。第一个线性组合,即第一个综合指标记为Y1,为了使该线性组合具有唯一性,要求在所有线性组合中Y1的方差最大,即Var(Y1)越大,那么包含的信息越多。如果第一个主成分不足以代表原来p个指标的信息,再考虑选取第二个主成分Y2,并要求Y1已有的信息不出现在Y2中,即主成分分析是将分散在一组变量上的信息集中到某几个综合指标上的探索性统计分析方法。以便利用主成分描述数据集内部结构,实际上也起着数据降维作用。

聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中对象趋向于不相似。聚类分析根据对象不同可分为Q型聚类分析(对样本进行聚类)和R型聚类分析(对变量进行聚类)。

对样本或变量进行聚类时,我们常用距离和相似系数来对样品或变量之间的相似性进行度量。距离常用来度量样品之间的相似性,而相似系数常用来度量变量间的相似性。

32、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。

33.因子分析的基本思想?

因子分析是主成分分析的推广,它也是利用降维的思想,从研究原始变量相关矩阵内部结构出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的多元统计分析方法,因子分析的基本思想是根据相关性大小将变量分组,使得同组内的变量之间相关性较高,不同组的变量相关性较低。每一组变量代表一个基本结构,用一个不可观测的综合变量表示,这个基本结构称为公共因子。对于所研究的问题就可用最少个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。

34、比较主成分分析与因子分析的异同点。

相同点:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。

主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。

35、简述相应分析的基本思想。

相应分析指受制于某个载体总体的两个因素为A和B,其中因素A包含r个水平,即A1,A2,…,A r;因素B包含即c个水平,即B1,B2,…,B c。对这两组因素作

,主要目随机抽样调查,记为得到一个r×c的二维列联表,记为K=(K ij)r

×c

的是寻求列联表行因素A和列因素B的基本分析特征和它们的最优联立表示。基本思想为通过列联表的转换,使得因素A和列因素B具有对等性,这样就可以用相同的因子轴同时描述两个因素各个水平的情况,把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,直观地描述两个因素A和因素B 以及各个水平之间的相关关系。

36、进行相应分析时在对因素A和因素B进行相应分析之前有没有必要进行独立性检验?为什么?

有必要,如果因素A和因素B独立,则没有必要进行相应分析;如果因素A和因素B 不独立,可以进一步通过相应分析考察两因素各个水平之间的相关关系。

37. 解释因子分析模型中,变量共同度与公因子方差贡献的统计意义。为什么有时候需要作因子旋转?有哪些估计因子得分的方法?因子得分的计算是不是通常意义下的参数估计?

变量共同度的统计意义:

Xi*=a i1F1+...+a im F m+εi

两边求方差Var(X i)=a2i1Var(F1)+...+ a2im Var(F m)+Var(εi)

1=Σa ij2+σi2=h i2+σi2

所有的公共因子和特殊因子对变量X i*的贡献为1。h i2反映了全部公共因子对变量X i*影响,是全部公共因子对变量方差所作出的贡献,或者说X i*对公共因子的共同依赖程度,称为公共因子对变量X i*的方差贡献。

h i2接近于1,表明该变量的原始信息几乎都被选取的公共因子说明了。

σi2特殊因子的方差,反映了原有变量方差中无法被公共因子描述的比例。

公因子方差贡献的统计意义:

是衡量公共因子相对重要性的指标,g j2越大,表明公共因子F j对x的贡献越大,或者说对x的影响和作用就越大。

一个正交变换对应坐标系的旋转,而且主因子的任一解均可由已求得的A经过旋转(右乘一个正交阵)得到。经过旋转后,公共因子对x i的贡献h i2并不改变,但公共因子本身可能有较大变化,即g j2不再与原来的值相同,从而可通过适当的旋转来得到我们比较满意的公共因子。

估计因子得分的方法较多,常用的有回归估计法,Bartlett估计法,Thomson估计法。

⑴回归估计法

F = X b = X (X ¢X)-1A¢= XR-1A¢(这里R为相关阵,且R = X ¢X )。

⑵Bartlett估计法

Bartlett估计因子得分可由最小二乘法或极大似然法导出。

F = [(W-1/2A)¢W-1/2A]-1(W-1/2A)¢W-1/2X = (A¢W-1A)-1A¢W-1X

⑶Thomson估计法

在回归估计法中,实际上是忽略特殊因子的作用,取R = X ¢X,若考虑特殊因子的作用,此时R = X ¢X+W,于是有:

F = XR-1A¢= X (X ¢X+W)-1A¢

这就是Thomson估计的因子得分,使用矩阵求逆算法(参考线性代数文献)可以将其转换为:

F = XR-1A¢= X (I+A¢W-1A)-1W-1A¢

将公共因子用变量的线性组合来表示,也即由地区经济的各项指标值来估计它的因子得分。

设公共因子F由变量x表示的线性组合为:

F j = u j1 x j1+ u j2 x j2+…+u jp x jp j=1,2,…,m

但因子得分函数中方程的个数m小于变量的个数p,所以并不能精确计算出因子得分,只能对因子得分进行估计。

38.试比较主成分分析、因子分析、对应分析这三种方法的异同之处并简要介绍它们的应用。

主成分分析的基本思想是构造原始变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息,从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。通常变量中所含信息的多少用该变量的方差(或样本方差)来度量,这是经典的信息量的表示方法。例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。利用主成分分析既可以大大减少参与建模的变量个数,同时也不会造成信息的大量丢失。能够有效降低变量维数。

因子分析是主成分分析的推广,它也是利用降维的思想,从研究原始变量相关矩阵内部结构出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的多元统计分析方法,因子分析的基本思想是根据相关性大小将变量分组,使得同组内的变量之间相关性较高,不同组的变量相关性较低。每一组变量代表一个基本结构,用一个不可观测的综合变量表示,这个基本结构称为公共因子。对于所研究的问题就可用最少个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。例如,某企业招聘人才,对每位应聘者进行外贸、申请书的形式、专业能力、讨人喜欢的能力、自信心、洞察力、诚信、推销本领、经验、工作态度、抱负、理解能力、潜在能力、实际能力、适应性的15个方面考核。这15个方面可归结为应聘者的表现力、亲和力、实践经验、专业能力4个方面,每一方面称为一个公告因子。企业可根据这4个公共因子的情况来衡量应聘者的综合水平。

对应分析是因子分析的进一步推广,也称关联分析、R-Q型因子分析,是近年新发展起来的一种多元相依变量统计分析技术,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。

它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。

相应分析指受制于某个载体总体的两个因素为A和B,其中因素A包含r个水平,即A1,A2,…,A r;因素B包含即c个水平,即B1,B2,…,B c。对这两组因素作随机抽样调查,记为得到一个r×c的二维列联表,记为K=(K ij)r

,主要目

×c

的是寻求列联表行因素A和列因素B的基本分析特征和它们的最优联立表示。基本思想为通过列联表的转换,使得因素A和列因素B具有对等性,这样就可

以用相同的因子轴同时描述两个因素各个水平的情况,把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,直观地描述两个因素A和因素B 以及各个水平之间的相关关系。

共同点:

(1)都是用少数的几个变量(因子)来反映原始变量(因子)的主要信息。并且新的变量彼此不相关,消除了多重共线性。

(2)求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。

不同点:

(1)相对于主成分分析,因子分析更倾向于描述原始变量之间的相关关系。(2)线性表示方向不同,因子分析和对应分析是把变量表示成公共因子的线性组合,而主成分分析则是把主成分表示成各变量的线性组合。

(3)主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析和对应分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析和对应分析要构造因子模型。

(4)对应分析克服了因子分析的不足之处,可以寻找出R型和Q型分析间的内在联系,由R型分析的结果可以方便地得到Q型分析结果,克服了做Q型分析样品容量n很大时计算上的困难。

40.因子分析的一般步骤

1)将原始数据标准化

2)建立变量的相关系数矩阵R

3)求R的特征根及相应的单位特征向量,根据累积贡献率要求,取前m个特征根及相应的特征向量,写出因子载荷阵A

4)对A施行因子旋转

5)计算因子得分

41.试述主成分分析的基本思想。由协方差矩阵出发和由相关系数矩阵出发求主成分有何不同?

答:主成分分析的基本思想是构造原始变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息,从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。一般而言,对于度量单位不同的指标或是取值范围彼此差异非常大的指标,我们不直接由其协方差矩阵出发进行主成分分析,而应该考虑将数据标准化,由相关阵出发求解主成分。对同度量或是取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。实际表明,这种差异有时很大。由协方差阵出发求解主成分所得的结果及由相关阵出发求解主成分所得的结果有很大不同,所得主成分解释原始变量方差比例与主成分表达式均有显著差别,且两者之间不存在简单的线性关系。

42.如果回归方程通过了显著性检验而有部分系数(变量)没有通过显著性检验,你觉得应该如何处理?谈谈你对回归方程形式设定和自变量选择的想法或经验。

答:根绝具体情况,找准原因。如果是变量对Y有很强的影响,而该变量对应的系数却没有通过检验,则修改回归模型。

常用的可选的回归方程形式有:线性函数、线性对数函数、倒数函数、线性多项式函数、交互作用函数等等。选择的标准:第一,看散点图,根据散点图的形态进行选择;第二,经济实质,这个根据回归系数的含义;第三,数据特征,有的是绝对数据有的是相对数据。但是,以上这些判断非常依赖经验,经验不足的话可以进行试错,对于样本选择所有的函数形式进行回归,再根据回归统计量的优劣确定最佳的函数形式。

自变量的选择问题可以看成是应该采用全模型还是选模型的问题

全模型正确误用选模型:全模型相应参数为有偏估计,选模型预测也是有偏的。选模型的参数估计和预测残差以及均方差都有较小的方差。

选模型正确误用全模型,全模型参数估计和预测是有偏估计,而全模型预测值的方差和均方差大于选模型相应的方差。上述结论说明丢掉那些对应变量影响不大的,或虽有影响,但难于观测的自变量是有利的。

43.简述动态聚类法的基本思想和步骤,在实际应用中如何确定合理的聚类数目?

答:基本思想:首先选择若干个样本作为聚类中心,再按照事先确定的聚类准则进行聚类。在聚类过程中,根据聚类准则对聚类中心反复修改,直到分类合理为止。

步骤:(1)选择凝聚点,凝聚点就是一批有代表性的样品。可以凭经验选择,或将所有样品随机分成k份,计算每一类的均值,将这些均值作为凝聚点;也可以采用最大最小原则或密度法。

(2)初始分类

(3)判断分类是否合理,若不合理,则修改分类,重复步骤(2)

(4)至分类结果合理,结束分类。

聚类数目的真正确定在于研究的问题是什么,以及事先有无一个大致的判断标准。分类的数目应该符合使用的目的。确定聚类数的问题属于聚类有效性问题。比如在模糊聚类分析中,可以根据方差分析理论,应用混合F统计量来确定最佳分类数。

44.试述有序样品最优分割法的基本思想和步骤。

答:基本思想:先将n个样品看成一类,然后依据分类的误差函数逐渐增加分类。步骤:1)计算类的直径{D(I,j)}

2)计算最小分类损失函数L[b(n,K)]

3)决定K

4)最优解分类

45.简要介绍逐步回归的基本思想和步骤,实际应用中,如何确定最优的回归方

程?

答:基本思想:有进有出。具体做法是将变量一个一个引入,引入变量的条件是通过了偏F统计量的检验,同时,每引入一个新变量后,对已入选方程的老变量进行检测,将经检验认为不显著的变量剔除,此过程经过若干步,直到既不能引入新变量又不能剔除老变量为止。

基本步骤:

(1)对于每个自变量x i(1≤i≤m),拟合m个一元线性回归模型,若F i1(1)>F E,则所选择含有自变量x i1的回归模型为当前模型,否则,没有变量引入模型,选择过程结束,即认为所有自变量对y的影响均不显著。

(2)在第一步的基础上,再将其余的m-1个自变量分别加入此模型中,得到m-1

个二元回归方程,若若F

i1(2)>F

E

则将自变量x

i2

引入模型,进一步考察x

i2

引入模

型后,x

i1对y的影响是否仍显著,若F

i1

(2)≤F

D

,则剔除x

i

(3)在第二步的基础上再将其余的m-2个自变量分别加入此模型中,拟合各个模型并计算偏F统计量值,与F

E

比较决定是否又新变量引入,如果有新的变量引入,还需要检验原模型中的老变量是否因为这个新变量的引入而不再显著,那样就应该被剔除。

重复以上步骤,直到没有新的变量进入模型,同时在模型中的老变量都不能被剔除,则结束选择过程。

最优回归方程的选择准则:

(1)基于RSS的自变量的选择准则

(2)Cp统计量,Cp愈小愈好

具体方法:

(1)从变量所有可能组合的回归方程中选择最优者

(2)前进法与后退法

(3)逐步回归法

46.简述典型相关分析的基本思想与步骤,试举例说明它的应用。

答:基本思想:在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。

步骤:(1)确定典型相关分析的目标

(2)设计典型相关分析

(3)检验典型相关分析的基本假设

(4)估计典型模型,评价模型拟合程度

(5)解释典型变量

(6)验证模型

典型相关分析的用途很广。在实际分析问题中,当我们面临两组多变量数据,并希望研究两组变量之间的关系时,就要用到典型相关分析。例如,为了研究扩张性财政政策实施以后对宏观经济发展的影响,就需要考察有关财政政策的一系列指标如财政支出总额的增长率、财政赤字增长率、国债发行额的增长率、税率降低率等与经济发展的一系列指标如国内生产总值增长率、就业增长率、物价上涨率等两组变量之间的相关程度。

47.多元线性回归方程有哪些基本假定?在实际应用中,若这些假定并不满足,会造成怎样的不良后果?

答:多元线性回归模型的基本假定有:零均值假定、随机项独立同方差假定、解释变量的非随机性假定、解释变量之间不存在线性相关关系假定、随机误差项μi服从均值为0方差为σ2的正态分布假定。在证明最小二乘估计量的无偏性中,利用了解释变量与随机误差项不相关的假定;在有效性的证明中,利用了随机项独立同方差假定。

若这些假定不满足,会遇到较多问题,主要有多重共线性问题以及自相关、异方差等问题。

48.回归系数的普通最小二乘估计具有哪些统计性质?要想获得理想的系数估计以及较好的预测效果,对观测样本有何要求?

答:1)线性。估计量βi是yi的线性函数;

2)无偏性。βi是βi的无偏估计。

3)有效性。估计量在所有的无偏估计量中有最小方差。

观测样本的x取值要尽可能分散些,样本容量也尽可能大些。

49.试解释回归方程的样本决定系数和检验回归方程显著性的P值的含义。

答:样本决定系数用回归平方和与总离差平方和的比例来表示,是用来评判一个模型拟合优度的标准。其值越接近于1,意味着模型的拟合优度越高。

P值是P(F>F0),它表示第一、第二自由度分别为p,n-p-1的F变量取值大于F0的概率。

50.如何考虑两个自变量对因变量的交叉作用?对于实际应用问题,如何设定回归方程的形式?

答:若某一自变量的单独效应随另一自变量的变化而变化时,说明两自变量间有交叉作用。检验两自变量间有无交叉作用,普遍的做法是在方程中加入它们的乘积再做检验,如考察x1,x2间的交叉作用,可在模型中加入x1x2项。或是通过两变量不同水平的均数作线图,得到交互作用图,若图中两条直线几乎平行,则说明两交叉作用很小或不存在。反之,若两条直线互不平行,则说明两变量可能存在交叉作用,需要进一步假设检验进行确认。

回归方程的形式应包含某些变量的高次项或交叉乘积项。

51.如何考察自变量之间是否存在多重共线性问题?如果存在多重共线性,会有怎样的不良后果?如何在尽量不降低模型解释能力的前提下消除多重共线性问题?

答:多重共线性可从以下几个方面识别:

1)变量的重要性与专业不符

2)R2高,但各自变量对应的回归系数均不显著

3)方差膨胀因子(VIF)>10

4)回归系数的符号与专业知识不符

不良后果:

1)参数估计值的标准误差变得很大,从而t值变得很小

2)回归方程不稳定,增加或减少某几个观察值,估计值可以发生很大变化

3)t检验不准确,误将应保留在方程中的重要变量舍弃

4)估计值的客观符号与客观实际不一致

解决方法:当发现自变量存在严重的多重共线性时,可以通过剔除一些不重要的自变量、增大样本容量、对回归系数做有偏估计(如采用岭回归法、主成分法、偏最小二乘法等)等方法来克服多重共线性。

52.如何诊断数据中的异常数据?是否只要存在异常数据,都会对回归方程的参数估计以及预测效果造成较大的影响?为什么?

答:在常规回归模型中,异常值是指对既定模型偏离较大的数据点。通过建立数据删除模型来分析某一数据点对回归分析的影响,如果该点对回归方程估计量的影响超过临界值,那么就判定该点为异常值。可以从残差分布的角度分析预测值与实际值之差的误差百分率的分布是否服从某种分布,并在该分布下检验误差百分率这列数据中的异常值。可以根据杠杆值、库克距离、标准化回归系数的变化和标准化预测值的变化来探测解释变量中的异常值。

53.为什么要对回归方程和变量进行检验?

答:对回归方程的检验是指对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立。对变量检验的目的是检验解释变量对被解释变量的单独作用是否显著,为某个解释变量是否保留在模型中,提供重要参考依据。

54.如何解释多元线性回归系数的含义?如何度量回归方程拟合优度?拟合优度的好坏是否可作为回归方程优劣是重要标志?

答:回归系数表示自变量x对因变量y的影响程度。回归系数越大表示x对y 影响越大,正的回归系数表示y随x增大而增大,负的回归系数表示y随x增大而减小。

用样本决定系数(回归平方和与总离差平方和的比例)作为评判一个模型拟合优度的标准。

拟合优度的好坏可以作为回归方程优劣的重要标志,但不是判断模型质量的唯一标准,有时为了追求模型的实际意义,可以在一定程度上放宽对拟合优度的要求。

55.作因子分析时,如何确定公共因子的个数?如何解释这些公共因子的实际意义?

答:有3个方法可以用来确定因子的个数:

1)方差贡献率

2)设定特征值条件

3)碎石图

公共因子的实际意义,需结合具体问题来定。

56.主成分分析与因子分析有哪些应用?

答:主成分分析是构造原始变量的适当线性组合,以产生一系列互不相关的变量,并从中选取少量几个新变量来分析和解决问题,例如高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。利用主成分分析既可以大大减少参与建模的变量个数,同时也不会造成信息的大

量丢失。能够有效降低变量维数。

因子分析是主成分分析的推广,它也是利用降维的思想,从研究原始变量相关矩

阵内部结构出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的

多元统计分析方法。例如,某企业招聘人才,对每位应聘者进行外贸、申请书的

形式、专业能力、讨人喜欢的能力、自信心、洞察力、诚信、推销本领、经验、

工作态度、抱负、理解能力、潜在能力、实际能力、适应性的15个方面考核。

这15个方面可归结为应聘者的表现力、亲和力、实践经验、专业能力4个方面,

每一方面称为一个公告因子。企业可根据这4个公共因子的情况来衡量应聘者的

综合水平。

57.距离判别法采用何种距离?这种距离有什么特点?

答:距离判别法采用马氏距离。

其特点有:

1)两点之间的马氏距离与原始数据的测量单位无关。

2)标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏

矩离相同。

3)可以排除变量之间的相关性的干扰。

4)满足距离的四个基本公理:非负性、自反性、对称性和三角不等式。

58.变量间的统计关系和函数关系的本质区别是什么?

答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量

唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另

外一个变量的确定关系。

59.回归模型中随机误差项ε的意义是什么?

答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一

个随机方程,使得我们可以借助随机数学方法研究y与x1,x2…..xp的关系,由

于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随

机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的

种种偶然因素。

60.回归分析与相关分析的联系与区别是什么?

答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。区别有 a.

在回归分析中,变量y称为因变量,处在被解释的特殊地位。在相关分析中,变

量x和变量y处于平等的地位,即研究变量y与变量x的密切程度与研究变量x

与变量y的密切程度是一回事。b.相关分析中所涉及的变量y与变量x全是随机

变量。而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以

是非随机的确定变量。C.相关分析的研究主要是为了刻画两类变量间线性相关的

密切程度。而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归

方程进行预测和控制。

61.线性回归模型的基本假设是什么?

答:线性回归模型的基本假设有:1.解释变量x1.x2….xp是非随机的,观测值

xi1.xi2…..xip是常数。2.等方差及不相关的假定条件为{E(εi)=0 i=1,2….

Cov(εi,εj)={σ^2 3.正态分布的假定条件为相互独立。4.样本容量的个数要多于解释变量的个数,即n>p.

62.回归变量的设置理论根据是什么?在回归变量设置时应注意哪些问题?答:理论判断某个变量应该作为解释变量,即便是不显著的,如果理论上无法判断那么可以采用统计方法来判断,解释变量和被解释变量存在统计关系。应注意的问题有:在选择变量时要注意与一些专门领域的专家合作,不要认为一个回归模型所涉及的变量越多越好,回归变量的确定工作并不能一次完成,需要反复试算,最终找出最合适的一些变量。

63.你认为运用回归分析研究实际问题时应该定性分析和定量分析相结合吗?为什么?对此你是否有直接经验?如有,请作简要介绍。

答:在回归模型的运用中,我们还强调定性分析和定量分析相结合。这是因为数理统计方法只是从事物外在的数量表面上去研究问题,不涉及事物质的规定性,单纯的表面上的数量关系是否反映事物的本质?这本质究竟如何?必须依靠专门的学科研究才能下定论,所以,在经济问题的研究中,我们不能仅凭样本数据估计的结果就不加分析地说长道短,必须把参数估计的结果和具体经济问题以及现实情况紧密结合,这样才能保证回归模型在经济问题研究中的正确应用

简述多元统计的主要内容,结合你的专业谈谈能用到哪些统计方法。

答:多元统计分析是从经典统计学中发展起来的一个分支,是一种综合分析方法,它能够在多个对象和多个指标互相关联的情况下分析它们的统计规律。主要内容包括多元正态分布及其抽样分布、多元正态总体的均值向量和协方差阵的假设检验、多元方差分析、直线回归与相关、多元线性回归与相关(Ⅰ)和(Ⅱ)、主成分分析与因子分析、判别分析与聚类分析、对应分析、典型相关分析、Shannon信息量及其应用。

主成分分析作为多元统计分析的一种方法,作为数据分析和数据挖掘的工具,在遥感图像变化信息提取、遥感图像处理分析、地理要素分析等方面也具有广泛应用。主成分分析可以提取主要信息,使误差出现的机会大大减小。在分析影像数据特征和主成分变换算法基础上,利用两次主成分变换的方式有效地实现了剔除原始影像中的部分噪声信息的目的,从而提供了一种新的方法实现动态监测变化信息自动发现,经验证此方法能使得数据结果达到应用精度的需求。针对在TM 假彩色合成的影像中,河流像元和城市像元的混杂现象严重问题, 基于主成分分析和决策树的城市河流信息提取方法,对TM信息进行主成分变换,选取前三个分量组成假彩色图像,再分析城市和河流的光谱差别,建立规则,利用建立的规则提取城市中的河流信息,取得了很好结果。

39.主成分分析和因子分析是十大不同

1)原理不同

应用多元统计分析课后答案

2.1.试叙述多元联合分布和边际分布之间的关系。 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=L 的联合分布密 度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=L 的子向量的概率分布,其概率密度 函数的维数小于p 。 2.2设二维随机向量1 2()X X '服从二元正态分布,写出其联合分布。 解:设1 2()X X '的均值向量为()1 2μμ'=μ,协方差矩阵为21 122212σσσσ?? ? ?? ,则其联合分布密度函数为 1/2 12 2 2112112222122121()exp ()()2f σσσσσσσσ--???????? '=---?? ? ??? ?????? x x μx μ。 2.3已知随机向量12()X X '的联合密度函数为 12121222 2[()()()()2()()] (,)()()d c x a b a x c x a x c f x x b a d c --+-----= -- 其中1a x b ≤≤,2c x d ≤≤。求 (1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断 1X 和2X 是否相互独立。 (1)解:随机变量 1X 和2X 的边缘密度函数、均值和方差; 11212122 2[()()()()2()()] ()()()d x c d c x a b a x c x a x c f x dx b a d c --+-----=--? 1221222222 2()()2[()()2()()]()()()() d d c c d c x a x b a x c x a x c dx b a d c b a d c -------=+----? 121 222202()()2[()2()]()()()() d d c c d c x a x b a t x a t dt b a d c b a d c ------= +----? 221212222 2()()[()2()] 1()()()()d c d c d c x a x b a t x a t b a d c b a d c b a ------=+= ----- 所以 由于1X 服从均匀分布,则均值为2b a +,方差为 ()2 12 b a -。

多元统计分析模拟考题及答案.docx

一、判断题 ( 对 ) 1 X ( X 1 , X 2 ,L , X p ) 的协差阵一定是对称的半正定阵 ( 对 ( ) 2 标准化随机向量的协差阵与原变量的相关系数阵相同。 对) 3 典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4 多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据 分析方法。 ( 错)5 X (X 1 , X 2 , , X p ) ~ N p ( , ) , X , S 分别是样本均值和样本离 差阵,则 X , S 分别是 , 的无偏估计。 n ( 对) 6 X ( X 1 , X 2 , , X p ) ~ N p ( , ) , X 作为样本均值 的估计,是 无偏的、有效的、一致的。 ( 错) 7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对) 8 因子载荷阵 A ( ij ) ij 表示第 i 个变量在第 j 个公因子上 a 中的 a 的相对重要性。 ( 对 )9 判别分析中, 若两个总体的协差阵相等, 则 Fisher 判别与距离判别等价。 (对) 10 距离判别法要求两总体分布的协差阵相等, Fisher 判别法对总体的分布无特 定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、 样本相关系数矩阵. 2、 设 是总体 的协方差阵, 的特征根 ( 1, , ) 与相应的单 X ( X 1,L , X m ) i i L m 位 正 交 化 特 征 向 量 i ( a i1, a i 2 ,L ,a im ) , 则 第 一 主 成 分 的 表 达 式 是 y 1 a 11 X 1 a 12 X 2 L a 1m X m ,方差为 1 。 3 设 是总体 X ( X 1, X 2 , X 3, X 4 ) 的协方差阵, 的特征根和标准正交特征向量分别 为: 1 2.920 U 1' (0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U 2' (0.9544, 0.0984,0.2695,0.0824) 3 0.049 U 3' (0.2516,0.7733, 0.5589, 0.1624) 4 0.007 U 4' ( 0.0612,0.2519,0.5513, 0.7930) ,则其第二个主成分的表达式是

多元统计分析期末试题

一、填空题(20分) 1、若),2,1(),,(~)(n N X p 且相互独立,则样本均值向量X 服从的分布 为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ,总体),(~ p N X ,对样品进行分类常用的距离 2 ()ij d M )()(1j i j i x x x x ,兰氏距离()ij d L 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是: x y 10,多元回归的数学模型是: p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。 二、计算题(60分) 1、设三维随机向量),(~3 N X ,其中 200031014,问1X 与2X 是否独立?),(21 X X 和3X 是否独立?为什么? 解: 因为1),cov(21 X X ,所以1X 与2X 不独立。 把协差矩阵写成分块矩阵 22211211,),(21 X X 的协差矩阵为11 因为12321),),cov(( X X X ,而012 ,所以),(21 X X 和3X 是不相关的,而正态分布不相关与相互

多元统计分析期末复习

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: )',...,,(),,,(2121P p EX EX EX EX μμμ='=Λ)')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ

2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变),(~∑μP N X μ∑μ p X X X ,,,21Λ),(~∑μP N X ) ,('A A d A N s ∑+μ)()1(,, n X X ΛX )',,,(21p X X X Λ)')(()()(1X X X X i i n i --∑=n 1 X μ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

多元统计分析模拟试题教学提纲

多元统计分析模拟试 题

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐 步判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、 极大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 = 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转 化为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m

多元统计分析期末试题及答案

22121212121 ~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92, 3216___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________, __________, ________________。 215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立? (), 1 2 3设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111X σ= 的方差21X g = 1公因子f 对的贡献1213 30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320 13 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???

(完整word版)实用多元统计分析相关习题

练习题 一、填空题 1.人们通过各种实践,发现变量之间的相互关系可以分成(相关)和(不相关)两种类型。多元统计中常用的统计量有:样本均值、样本方差、样本协方差和样本相关系数。 2.总离差平方和可以分解为(回归离差平方和)和(剩余离差平方和)两个部分,其中(回归离差平方和)在总离差平方和中所占比重越大,则线性回归效果越显著。3.回归方程显著性检验时通常采用的统计量是(S R/p)/[S E/(n-p-1)]。 4.偏相关系数是指多元回归分析中,(当其他变量固定时,给定的两个变量之间的)的相关系数。 5.Spss中回归方程的建模方法有(一元线性回归、多元线性回归、岭回归、多对多线性回归)等。 6.主成分分析是通过适当的变量替换,使新变量成为原变量的(线性组合),并寻求(降维)的一种方法。 7.主成分分析的基本思想是(设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来替代原来的指标)。 8.主成分表达式的系数向量是(相关系数矩阵)的特征向量。 9.样本主成分的总方差等于(1)。 10.在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为(方差贡献度)。主成分的协方差矩阵为(对称)矩阵。主成分表达式的系数向量是(相关矩阵特征值)的特征向量。 11.SPSS中主成分分析采用(analyze—data reduction—facyor)命令过程。 12.因子分析是把每个原始变量分解为两部分因素,一部分是(公共因子),另一部分为(特殊因子)。 13.变量共同度是指因子载荷矩阵中(第i行元素的平方和)。 14.公共因子方差与特殊因子方差之和为(1)。 15.聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的(亲疏程度)进行科学的分类。 16.Q型聚类法是按(样品)进行聚类,R型聚类法是按(变量)进行聚类。 17.Q型聚类统计量是(距离),而R型聚类统计量通常采用(相关系数)。 18.六种Q型聚类方法分别为(最长距离法)、(最短距离法)、(中间距离法)、(类平均法)、(重心法)、(离差平方和法)。 19.快速聚类在SPSS中由(k-均值聚类(analyze—classify—k means cluster))过程实现。 20.判别分析是要解决在研究对象已(已分成若干类)的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。 21.用判别分析方法处理问题时,通常以(判别函数)作为衡量新样本点与各已知组别接近程度的指标。 22.进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有(Fisher准则)、(贝叶斯准则)。 23.类内样本点接近,类间样本点疏远的性质,可以通过(类与类之间的距离)与(类内样本的距离)的大小差异表现出来,而两者的比值能把不同的类区别开来。这个比值越大,说明类与类间的差异越(类与类之间的距离越大),分类效果越(好)。24.Fisher判别法就是要找一个由p个变量组成的(线性判别函数),使得各自组内点的

多元统计分析模拟考题及答案

一、判断题 ( 对 )112(,,,)p X X X X '=L 的协差阵一定是对称的半正定阵 ( 对 )2标准化随机向量的协差阵与原变量的相关系数阵相同。 ( 对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。 ( 错)5),(~),,,(21∑'=μp p N X X X X Λ,,X S 分别是样本均值和样本离差阵,则, S X n 分别是,μ∑的无偏估计。 ( 对)6),(~),,,(21∑'=μp p N X X X X Λ,X 作为样本均值μ的估计,是 无偏的、有效的、一致的。 ( 错)7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对)8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。 ( 对 )9 判别分析中,若两个总体的协差阵相等,则Fisher 判别与距离判别等 价。 (对)10距离判别法要求两总体分布的协差阵相等,Fisher 判别法对总体的分布无特定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设∑是总体1(,,)m X X X =L 的协方差阵,∑的特征根(1,,)i i m λ=L 与相应的单 位正交化特征向量 12(,,,)i i i im a a a α=L ,则第一主成分的表达式是 11111221m m y a X a X a X =+++L ,方差为 1λ。 3设∑是总体1234(,,,)X X X X X =的协方差阵,∑的特征根和标准正交特征向量分别 为:' 112.920(0.1485,0.5735,0.5577,0.5814)U λ==--- ' 221.024(0.9544,0.0984,0.2695,0.0824)U λ==- '330.049(0.2516,0.7733,0.5589,0.1624)U λ==--

应用多元统计分析试题及答案

一、填空题: 1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法. 2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著. 3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为 Q型聚类和 R型聚类。 4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。 5、因子分析把每个原始变量分解为两部分因素:一部分为公共因子,另一部分为特殊因子。 6、若 () (,), P x N αμα ∑=1,2,3….n且相互独立,则样本均值向量x服从的分布 为_x~N(μ,Σ/n)_。 二、简答 1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。 在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。 2、简述相应分析的基本思想。 相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个rc的二维列联表,记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A

和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。 3、简述费希尔判别法的基本思想。 从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 系数: 确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。 5、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设 和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2 /21exp 2np n e tr n λ???? =-?? ? ???? S S 00p H =≠ΣΣI : /2 /2**1exp 2np n e tr n λ???? =-?? ? ???? S S

实用多元统计分析相关习题学习资料

实用多元统计分析相 尖习题 练习题 一、填空题 1?人们通过各种实践,发现变量之间的相互矢系可以分成(相尖)和(不相尖)两种 类型。多元统计中常用的统计量有:样本均值、样本方差、样本协方差和样本相尖系数。 2?总离差平方和可以分解为(回归离差平方和)和(剩余离差平方和)两个部分,其中(回归离差平方和)在总离差平方和中所占比重越大,则线性回归效果越显著。 3 ?回归方程显著性检验时通常采用的统计量是(S R/P)/[S E/ (n-p-1) ]O 4?偏相尖系数是指多元回归分析中,(当其他变量固定时,给定的两个变量之间的) 的相尖系数。 5. Spss中回归方程的建模方法有(一元线性回归、多元线性回归、岭回归、多对多线性回归)等。

6 ?主成分分析是通过适当的变量替换,使新变量成为原变量的(线性组合),并寻求 (降维)的一种方法。 7 ?主成分分析的基本思想是(设法将原来众多具有一定相尖性(比如P个指标),重 新组合成一组新的互相无矢的综合指标来替代原来的指标)。 8 ?主成分表达式的系数向量是(相尖系数矩阵)的特征向量。 9 ?样本主成分的总方差等于(1)。 10 ?在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为(方差贡献度)。主成分的协方差矩阵为(对称)矩阵。主成分表达式的系数向量是(相尖矩阵特征值)的特征向量。 11. SPSS 中主成分分析采用(analyze—data reduction — facyor)命令过程。 12?因子分析是把每个原始变量分解为两部分因素,一部分是(公共因子),另一部

分为(特殊因子)。 13 ?变量共同度是指因子载荷矩阵中(第i行元素的平方和)。 14 ?公共因子方差与特殊因子方差之和为(1) o 15 ?聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的(亲疏 程度)进行科学的分类。 16. Q型聚类法是按(样品)进行聚类,R型聚类法是按(变量)进行聚类。 17. Q型聚类统计量是(距离),而R型聚类统计量通常采用(相尖系数)。 18. 六种Q型聚类方法分别为(最长距离法)、(最短距离法)、(中间距离法)、(类平均法)、(重心法)、(离差平方和法)。 19?快速聚类在SPSS中由(k■均值聚类(analyze— classify— k means cluste))过程实 现。 20. 判别分析是要解决在研究对象已(已分成若干类)的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。 21. 用判别分析方法处理问题时,通常以(判别函数)作为衡量新样本点与各已知组别接近程度的指标。 22. 进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有 (Fisher准则)、(贝叶斯准则)。 23. 类内样本点接近,类间样本点疏

多元统计分析简答题..

1、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设H0和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2/21exp 2np n e tr n λ????=-?? ?????S S 00p H =≠ΣΣI : /2/2**1exp 2np n e tr n λ????=-?? ????? S S 检验12k ===ΣΣΣ012k H ===ΣΣΣ: 统计量/2/2/2/211i i k k n n pn np k i i i i n n λ===∏∏S S 2. 针对一个总体均值向量的检验而言,在协差阵已知和未知的两种情形下,如何分别构造的统计量? 3. 作多元线性回归分析时,自变量与因变量之间的影响关系一定是线性形式的吗?多元线性回归分析中的线性关系是指什么变量之间存在线性关系? 答:作多元线性回归分析时,自变量与因变量之间的影响关系不一定是线性形式。当自变量与因变量是非线性关系时可以通过某种变量代换,将其变为线性关系,然后再做回归分析。 多元线性回归分析的线性关系指的是随机变量间的关系,因变量y 与回归系数βi 间存在线性关系。 多元线性回归的条件是: (1)各自变量间不存在多重共线性; (2)各自变量与残差独立; (3)各残差间相互独立并服从正态分布; (4)Y 与每一自变量X 有线性关系。 4.回归分析的基本思想与步骤 基本思想:

多元统计分析期末复习试题

第一章: 多元统计分析研究的容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X均值向量: 随机向量X与Y的协方差矩阵: 当X=Y时Cov(X,Y)=D(X);当Cov(X,Y)=0 ,称X,Y不相关。 随机向量X与Y的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X,Y为随机向量,A,B 为常数矩阵 E(AX)=AE(X); E(AXB)=AE(X)B; D(AX)=AD(X)A’; )' ,..., , ( ) , , , ( 2 1 2 1P p EX EX EX EXμ μ μ = ' = )' )( ( ) , cov(EY Y EX X E Y X- - = q p ij r Y X ? =) ( ) , (ρ

Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变量之间的比较。 4、对数变换:对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。 三、样品间相近性的度量 研究样品或变量的亲疏程度的数量指标有两种:距离,它是将每一个样品看作p 维空),(~∑μP N X μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

应用多元统计分析习题解答_朱建平_第九章

Abbo无私奉献,只收1个金币,BS收5个金币的… 何老师考简单点啊……

第九章 典型相关分析 9.1 什么是典型相关分析?简述其基本思想。 答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法。用于揭示两组变量之间的内在联系。典型相关分析的目的是识别并量化两组变量之间的联系。将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。 基本思想: (1)在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。即: 若设(1) (1)(1) (1)12(,,,)p X X X =X 、(2) (2)(2)(2) 12(,,,)q X X X =X 是两组相互关联的随机变量, 分别在两组变量中选取若干有代表性的综合变量Ui 、Vi ,使是原变量的线性组合。 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大。(2)选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。 (3)如此继续下去,直到两组变量之间的相关性被提取完毕为此。 9.2 什么是典型变量?它具有哪些性质? 答:在典型相关分析中,在一定条件下选取系列线性组合以反映两组变量之间的线性关系,这被选出的线性组合配对被称为典型变量。具体来说, ()(1) ()(1)()(1)()(1) 11 22i i i i i P P U a X a X a X ' =+++a X ()(2) ()(2)()(2) ()(2) 11 22i i i i i q q V b X b X b X ' =+++b X 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大,则称 (1)(1)'a X 、(1)(2) 'b X 是(1)X 、(2)X 的第一对典型相关变量。 典型变量性质: 典型相关量化了两组变量之间的联系,反映了两组变量的相关程度。 1. ()1,()1 (1,2,,)k k D U D V k r === (,)0, (,)0 ()i j i j C ov U U C ov V V i j ==≠ 2. 0 (,1,2,,)(,)0()0()i i j i j i r C ov U V i j j r λ≠==?? =≠??>? 9.3 试分析一组变量的典型变量与其主成分的联系与区别。 答:一组变量的典型变量和其主成分都是经过线性变换计算矩阵特征值与特征向量得出的。主成分分析只涉及一组变量的相互依赖关系而典型相关则扩展到两组变量之间的相互依赖关系之中,度量了这两组变量之间联系的强度。 ()(1)()(1)()(1)()(1) 1122i i i i i P P U a X a X a X '=+++a X ()(2)()(2)()(2)()(2) 1122i i i i i q q V b X b X b X '=+++b X (1)(1)(1)(1)1 2 (,,,)p X X X = X 、(2)(2)(2)(2)1 2 (,,,)q X X X = X

应用多元统计分析习题解答_因子分析

第七章 因子分析 7.1 试述因子分析与主成分分析的联系与区别。 答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。 因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。 7.2 因子分析主要可应用于哪些方面? 答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,①因子分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。③因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。 7.3 简述因子模型中载荷矩阵A 的统计意义。 答:对于因子模型 1122i i i ij j im m i X a F a F a F a F ε=++ ++ ++ 1,2, ,i p = 因子载荷阵为1112 121 22212 12 (,, ,)m m m p p pm a a a a a a A A A a a a ????? ?==?????? ? ?A i X 与j F 的协方差为: 1Cov(,)Cov(,)m i j ik k i j k X F a F F ε==+∑ =1 Cov( ,)Cov(,)m ik k j i j k a F F F ε=+∑ =ij a 若对i X 作标准化处理,=ij a ,因此 ij a 一方面表示i X 对j F 的依赖程度;另一方面也反映了

多元统计分析期末考试考点整理共5页

多元统计分析 题型一定义、名词解释 题型二计算(协方差阵、模糊矩阵) 题型三解答题 一、定义 二名词解释 1、多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广 2、聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。使类内对象的同质性最大化和类间对象的异质性最大化 3、随机变量:是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向量。类似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量 三、计算题 解: 答:

答: 题型三解答题 1、简述多元统计分析中协差阵检验的步骤 答: 第一,提出待检验的假设和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 2、简述一下聚类分析的思想 答:聚类分析的基本思想,是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕. 3、多元统计分析的内容和方法 答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。(1)主成分分析(2)因子分析(3)对应分析等 2、分类与判别,对所考察的变量按相似程度进行分类。(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。(2)判别分析:判别样本应属何种类型的统计方法。

应用多元统计分析课后答案

应用多元统计分析课后答案 第五章 聚类分析 判别分析和聚类分析有何区别 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 对样品和变量进行聚类分析时, 所构造的统计量分别是什么简要说明为什么这样构造 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1 ()() p q q ij ik jk k d q X X ==-∑ q 取不同值,分为 (1)绝对距离(1q =) 1 (1)p ij ik jk k d X X ==-∑ (2)欧氏距离(2q =) 21/2 1 (2)() p ij ik jk k d X X ==-∑ (3)切比雪夫距离(q =∞)

1()max ij ik jk k p d X X ≤≤∞=- (二)马氏距离 (三)兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p 维空间的向量,一般用 (一)夹角余弦 (二)相关系数 在进行系统聚类时,不同类间距离计算方法有何区别选择距离公式应遵循哪些原则 答: 设d ij 表示样品X i 与X j 之间距离,用D ij 表示类G i 与G j 之间的距离。 (1). 最短距离法 ,min i k j r kr ij X G X G D d ∈∈= min{,}kp kq D D = (2)最长距离法 ,max i p j q pq ij X G X G D d ∈∈= 21 ()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk ij k ik jk X X d L p X X =-=+∑ cos p ik jk ij X X θ= ∑ ()() p ik i jk j ij X X X X r --= ∑ ij G X G X ij d D j j i i ∈∈= ,min

多元统计分析模拟考题及答案

、判断题 (对)1X (兀公2丄,X p)的协差阵一定是对称的半正定阵 (对)2标准化随机向量的协差阵与原变量的相关系数阵相同。 (对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 (对)4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。(错)5X (X-X2,,X p) ~ N p( , ),X,S分别是样本均值和样本离 S 差阵,则X,—分别是,的无偏估计。 n (对)6X (X「X2, ,X p) ~ N p( , ),X作为样本均值的估计,是无偏的、有效的、一致的。 (错)7因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 (对)8因子载荷阵A (a j)中的a ij表示第i个变量在第j个公因子上的相对重要性。 (对)9判别分析中,若两个总体的协差阵相等,则Fisher判别与距离判别等价。(对)10距离判别法要求两总体分布的协差阵相等,Fisher判别法对总体的分布无特 定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设是总体X (X」,X m)的协方差阵,的特征根i(i 1,L ,m)与相应的单 位正交化特征向量i (盼无丄,a m),则第一主成分的表达式是 y1 Q1X1 812X2 L QmX m 方差为1。 3设是总体X (X1,X2,X3, X4)的协方差阵,的特征根和标准正交特征向量分别为: 1 2.920 U;(0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U2(0.9544, 0.0984,0.2695,0.0824) 3 0.049 U3(0.2516,0.7733, 0.5589, 0.1624) 0.007U4 ( 0.0612,0.2519,0.5513, 0.7930),则其第二个主成分的表达式是 4

相关主题
文本预览
相关文档 最新文档