多元统计分析第8章作业题选讲
- 格式:pptx
- 大小:877.39 KB
- 文档页数:31
第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。
在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
其中最典型的就是0-1标准化和Z 标准化。
2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。
在二维和三维空间中的欧氏距离的就是两点之间的距离。
缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。
每个坐标对欧氏距离的贡献是同等的。
当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。
当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。
它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。
没有考虑到总体变异对距离远近的影响。
马氏距离表示数据的协方差距离。
为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。
优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。
由标准化数据和中心化数据计算出的二点之间的马氏距离相同。
马氏距离还可以排除变量之间的相关性的干扰。
缺点:夸大了变化微小的变量的作用。
受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。
3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。
如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。
多元统计分析部分章节知识点以及习题总结§1多元统计分析课堂讲题选择§1.1第二章:课后习题2-3(1)、2-3(2)、2-6(1)、2-6(2)、2-7((1),(3),(5))、2-13(1);课外补充题中的1,4(1)、4(2)、9;§1.2第三章课后习题3-6;课外补充题:总结一下单总体、两总体、多总体均值向量假设检验时不同情形下的统计量选取(作业题)。
课外补充题中的1,2,3,4,5.§1.3第五章5-2,5-4(2);课外补充题:2,3,4,11.§1.4第六章课后题6-3;课外补充题:1;§1.5第七章课后题7-2(1),7-2(3),7-5;课外补充题:3;§2多元统计分析简介知识要点:•Kendall在《多元分析》一书中将多元统计分析研究内容和方法分为哪些?对应教材那些章节?•多元统计分析的起源:20C初,1988年,Wishart发表论文《多元总体样本协方差正的精确分布》代表了多元统计分析的开端。
•20世纪,多元统计分析的主要代表人物有哪些?•多元统计数据有哪些主要的图表示法?1§3多元正态分布及其参数估计知识要点:2.1随机向量–分布,边缘分布,独立性定义;–数字特征:均值向量,协方差阵,相关阵的定义和计算;–数字特征的性质:性质1–性质4(掌握内容,会用)。
2.2多元正态分布的定义和性质–定义2.2.1–性质2及其推论,(会根据性质2证明其推论),这两个结论说明了什么?–多元正态分布的密度函数(性质5)。
2.3条件分布和独立性–定理2.3.1及其推论,掌握会用!–了解条件分布。
2.4-2.5多元正态分布的参数估计–掌握多元正态总体的数字特征:样本均值、样本离差阵、样本协方差阵样本相关阵(掌握会计算)。
–掌握定理2.5.1和定理2.5.2的内容。
会求µ和Σ的极大似然估计,无偏估计。
知道均值向量的分布。
多元复习1、多元统计分析是运用数理统计方法来解决多指标问题的理论和方法。
2、多元分析研究的是多个随机变量及相关关系的统计总体。
3、如果A与B是两个P×P维的方阵,则AB与BA有完全相同的特征值。
4、随机向量X的协方差矩阵一定是非负定矩阵。
5、若A为P阶对称矩阵,则存在正交矩阵T与对角矩阵∧,则三者的关系有A=T∧T’。
6、设x是多元向量,服从正太分布即X~,a为P维常熟向量,则其线性型a’x服从一元正态分布,即a’x~。
7、方差相同的两个随机变量的差与和是不相关关系。
8、协方差和相关系数是变量间离散程度的一种变量,并不能刻画变量间可能存在的关联程度的关系。
9、变量的类型按尺度划分为间隔变量、有序变量、名义变量类型。
10、公共因子方差与特殊因子方差之和为1。
11、聚类分析是建立一种分析方法,它将一批样品或变量按照它们在性质上的亲疏关系进行科学的分类。
12、聚类分析是分析如何对样品或变量进行量化分析,通常分为Q型聚类和R型聚类。
13、聚类分析中Q型聚类是对样品进行聚类,R型聚类是对变量进行聚类。
14、进行判别分析时,通常指定一种判别规则用来判定新样品的归属,常见的判别准则有:费希尔判别准则、贝叶斯判别准则。
15、费希尔判别法就是要找P个变量组成的线性判别函数使得各组内点的离差尽可能接近,而不同组间的点尽可能疏远。
16、当X~,则-)服从卡方分布,即-) ~。
17、威尔克斯统计量表达式:∧=。
18、霍特林统计量表达式:。
19、两个变量间的平方马氏距离:;总体的马氏距离:。
20、方差相等的两个随机变量的关系:。
21、几个变量间服从正态分布,各自独立,样品的均值向量服从正态分布。
22、从代数观点看主成分是P个原始相关变量的线性组合。
23、变量共同度是指因子载荷矩阵中的第i行元素的平方和。
24、因子分析是指把每个原始变量分为两部分因素,一部分是公共因子,另一部分是特殊因子。
1、判别分析的目标。
答:判别分析的目标有两个:一是根据已知所属组的样本给出判别函数,并制定判别规则,再依此判断(或预测)每一新样品应归属的组别。
第四章4-1 设⎪⎩⎪⎨⎧++=+-=+=,2,2,332211εεεb a y b a y a y ).,0(~323321I N σεεεε⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=(1)试求参数b a ,的最小二乘估计;(2)试导出检验b a H =:0的似然比统计量,并指出当假设成立时,这个统计量是分布是什么?解:(1)由题意可知.,,,211201321321⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⎥⎦⎤⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡-=εεεεβ b a y y y Y C 则⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡-⎪⎪⎪⎪⎭⎫ ⎝⎛⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡-⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡-==--321'1''1'211201************)(ˆy y y Y C C C β.ˆˆ)2(51)2(6132321⎥⎦⎤⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡+-++ba y y y y y(2)由题意知,检验b a H =:0的似然比统计量为2322ˆ⎪⎪⎭⎫ ⎝⎛=σσλ 其中,])ˆ2ˆ()ˆˆ2()ˆ[(31ˆ2322212b a y b a y a y --++-+-=σ。
当0H 成立时,设0a b a ==,则⎪⎩⎪⎨⎧+=+=+=,3,,303202101εεεa y a y a y ,311⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=C 可得,ˆ)3y (111311311311)(ˆ0321321'1''1'ay y y y y Y C C C =++=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡⎪⎪⎪⎪⎭⎫ ⎝⎛⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡==--β ],)ˆ3()ˆ()ˆ[(31ˆ20320220120a y a y ay -+-+-=σ因此,当假设0H 成立时,与似然比统计量λ等价的F 统计量及其分布为).1,1(~ˆˆˆ2202F F σσσ-=4-3 设Y 与321,,x x x 有相关关系,其8组观测数据见表4.5.表 4.5 观测数据序号 1x2x3xY1 38 47.5 23 66.02 41 21.3 17 43.0 3 34 36.5 21 36.0 4 35 18.0 14 23.0 5 31 29.5 11 27.06 34 14.2 9 14.07 29 21.0 4 12.0 83210.087.6(1)设εββββ++++=3322110x x x Y ,试求回归方程及决定系数2R 和均方误差2s 。
第八章 相应分析8.1 什么是相应分析?它与因子分析有何关系?答:相应分析也叫对应分析,通常意义下,是指两个定性变量的多种水平进行相应性研究。
其特点是它所研究的变量可以是定性的。
相应分析与因子分析的关系是: 在进行相应分析过程中,计算出过渡矩阵后,要分别对变量和样本进行因子分析。
因此,因子分析是相应分析的基础。
具体而言,Σr (Zu j )=λj (Zu j )式表明Zu j 为相对于特征值λj 的关于因素A 各水平构成的协差阵Σr 的特征向量。
从而建立了相应分析中R 型因子分析和Q 型因子分析的关系。
8.2试述相应分析的基本思想。
答:相应分析,是指对两个定性变量的多种水平进行分析。
设有两组因素A 和B ,其中因素A 包含r 个水平,因素B 包含c 个水平。
对这两组因素作随机抽样调查,得到一个r c ⨯的二维列联表,记为()ij r c k ⨯=K 。
要寻求列联表列因素A 和行因素B 的基本分析特征和最优列联表示。
相应分析即是通过列联表的转换,使得因素A 和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。
把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。
8.3 试述相应分析的基本步骤。
答:(1)建立列联表设受制于某个载体总体的两个因素为A 和B ,其中因素A 包含r 个水平,因素B 包含c 个水平。
对这两组因素作随机抽样调查,得到一个r c ⨯的二维列联表,记为()ij r c k ⨯=K 。
(2)将原始的列联资料K =(kij) r ⨯c 变换成矩阵Z =(zij) r ⨯c ,使得zij 对因素A 和列因素B 具有对等性。
通过变换Z ij =k −k i.k .jr k k 。
得c '=ΣZ Z ,r '=ΣZZ 。
(3)对因素B 进行因子分析。
计算出c '=ΣZ Z 的特征向量λ1,λ2⋯,λm 及其相应的特征向量 t 1,t 2,⋯t m 计算出因素B 的因子 U 1,U 2⋯U =( λ1t 1, λ2t 2,⋯ λm t m )(4)对因素A 进行因子分析。
多元统计分析思考题第一章 回归分析1、回归分析是怎样的一种统计方法,用来解决什么问题答:回归分析作为统计学的一个重要分支,基于观测数据建立变量之间的某种依赖关系,用来分析数据的内在规律,解决预报、控制方面的问题;2、线性回归模型中线性关系指的是什么变量之间的关系自变量与因变量之间一定是线性关系形式才能做线性回归吗为什么答:线性关系是用来描述自变量x 与因变量y 的关系;但是反过来如果自变量与因变量不一定要满足线性关系才能做回归,原因是回归方程只是一种拟合方法,如果自变量和因变量存在近似线性关系也可以做线性回归分析;3、实际应用中,如何设定回归方程的形式答:通常分为一元线性回归和多元线性回归,随机变量y 受到p 个非随机因素x1、x2、x3……xp 和随机因素的影响,形式为:01p βββ⋅⋅⋅是p+1个未知参数,ε是随机误差,这就是回归方程的设定形式;4、多元线性回归理论模型中,每个系数偏回归系数的含义是什么答:偏回归系数01p βββ⋅⋅⋅是p+1个未知参数,反映的是各个自变量对随机变量的影响程度;5、经验回归模型中,参数是如何确定的有哪些评判参数估计的统计标准最小二乘估计法有哪些统计性质要想获得理想的参数估计值,需要注意一些什么问题答:经验回归方程中参数是由最小二乘法来来估计的;评判标准有:普通最小二乘法、岭回归、主成分分析、偏最小二乘法等;最小二乘法估计的统计性质:其选择参数满足正规方程组,1选择参数01ˆˆββ分别是模型参数01ββ的无偏估计,期望等于模型参数; 2选择参数是随机变量y 的线性函数要想获得理想的参数估计,必须注意由于方差的大小表示随机变量取值的波动性大小,因此自变量的波动性能够影响回归系数的波动性,要想使参数估计稳定性好,必须尽量分散地取自变量并使样本个数尽可能大;6、理论回归模型中的随机误差项的实际意义是什么为什么要在回归模型中加入随机误差项建立回归模型时,对随机误差项作了哪些假定这些假定的实际意义是什么答:随机误差项的引入使得变量之间的关系描述为一个随机方程,由于因变量y 很难用有限个因素进行准确描述说明,故其代表了人们的认识局限而没有考虑到的偶然因素;7、建立自变量与因变量的回归模型,是否意味着他们之间存在因果关系为什么答:不是,因果关系是由变量之间的内在联系决定的,回归模型的建立只是一种定量分析手段,无法判断变量之间的内在联系,更不能判断变量之间的因果关系;8、回归分析中,为什么要作假设检验检验依据的统计原理是什么检验的过程是怎样的答:因为即使我们已经建立起了模型,但是尚且不知这个回归方程是否能够比较好地反映所描述的变量之间的影响关系,必须进行统计学上的假设检验;假设性检验原理可以用小概率原理解释,通常认为小概率事件在一次试验中几乎不可能发生的,即对总体的某个假设是真实的,那么不支持这一个假设事件在一次试验中是几乎不可能发生的,要是这个事件发生了,我们就有理由怀疑这一假设的真实性,拒绝原假设;检验过程:1提出统计假设H0和H1;2构造一个与H相关的统计量,称其为检验统计量;3根据其显着性水平 的值,确定一个拒绝域;4作出统计决断;9、回归诊断可以大致确定哪些问题回归分析有哪些基本假定如果实际应用中不满足这些假定,将可能引起怎样的后果如何检验实际应用问题是否满足这些假定对于各种不满足假定的情形,分别采用哪些改进方法答:回归诊断解决:1回归方程的线性假定;2是否存在多重共线性;3误差项的正态性假定;4误差项的独立性假设;5误差项同方差假定;6是否存在数据异常;原基本假定H:1假设回归方程不显着;2假设回归系数不显着;引起后果:与模型误差相比,自变量对因变量的影响是不重要的模型误差太大、自变量对y的影响确实太小;如何检验:用F统计量或者P值法来检验方程的显着性;改进方法:1对于模型的误差太大,我们要想办法缩小误差,检查是否漏掉了重要的自变量,或检查自变量与y的非线性关系;2对于自变量对y影响较小,此时应该放弃回归分析方法;10、回归分析中的R2有何意义它能用来衡量模型优劣吗答:R2是回归平方和与总离差平方和之比,作为评判一个模型拟合度的标准,称为样本决定系数,其值越接近1,意味着模型的拟合优度越高;但是其不是衡量模型优劣唯一标准,增加自变量会使得自由度减少,因此需要引入自由度修正的复相关系数;这些都需要视具体的情况而定;11、如何确定回归分析中变量之间的交互作用存在交互作用时,偏回归系数的意义与不存在交互作用的情形下是否相同为什么答:交互作用是指因素之间联合搭配对试验指标的影响作用,存在交互作用是,偏回归系数肯定与不存在是的系数不同,毕竟变量之间有相互影响的关系;12、有哪些确定最优回归模型的准则如何选择回归变量答:1修正的复相关系数2aR达到最大;2预测平方和达到最小;3定义Cp 统计量值小,选择pC p小的回归方程;4赤池信息量达到最小;按照以上准则进行回归变量的选择;13、在怎样的情况下需要建立标准化的回归模型标准化回归模型与非标准化模型有何关系形式有否不同答:在多元线性回归分析中,由于涉及到的变量量纲不同,差别很大,需要对变量进行中心化和标准化,数据中心化处理相当于将坐标原点移至样本中心坐标系的平移不改变直线的斜率;标准化处理后建立的回归方程模型比非标准化的回归方程少一个常数项,系数存在关系;14、利用回归方法解决实际问题的大致步骤是怎样的答:1根据预测目标,确定自变量和因变量;2建立回归预测模型;3进行相关分析;4检验回归预测模型,计算预测误差;5计算并确定预测值;15、你能够利用哪些软件实现进行回归分析能否解释全部的软件输出结果答:目前会用的软件是SPSS和matlab,关于地球物理的软件如grapher也可以进行回归分析;对于SPSS的一些输出结果,还是不太理解;第二章判别分析1、判别分析的目的是什么答:在自然科学和社会科学研究中,研究对象用某种方法已经划分为若干类别,当得到一个新的样本数据时,要确定该样本属于已知的哪一类;2、有哪些常用的判别分析方法这些方法的基本原理或步骤是怎样的它们各有什么特点或优劣之处答:1距离判别法:根据已知分类数据,分别计算各类的重心,即是分类的均值;判别方法是—对于任意一个样品,若它与第i类的重心距离最近,就认为它来自第i类;特点是对各类数据分布并无特定的要求2Fisher判别法:其基本思想是投影,将k组m元数据投影到某一个方向,使得投影后组与组之间尽可能分开,其中利用了一元方差分析的思想导出判别函数;其特点是对总体的分布没有特殊要求,是处理概率分布未知的一种方法;3逐步判别法:逐步引入一个“最重要”的变量进入判别式,同时对先引入判别式的一些变量进行检验,如果判别能力随着引入新变量而变得不显着,则将它从判别式中剔除,直到没有新的变量能够进入,依然没有旧变量需要剔除为止;3、判别分析与回归分析有何异同之处答:1相同点:这两种方法都有关于数据预测的功能;不同点:这个估计太多了,一般来讲判别分析功能是将样品归类,回归分析是探究样品对因变量的变动影响;4、判别分析对变量与样本规模有何要求答:判别分析对总体分布没有要求,但是判别分析的假设之一是要求每一个变量不能是其他判别变量的线性组合,即不能存在多重共线性;5、如何度量判别效果有哪些影响判别效果的因素答:通过评价判别准则来度量判别效果,常用方法:1误判率回代法;2误判率交叉确认估计;影响因素是个总体之间的差异程度,各个总体之间差异越大,就越有可能建立有效的判别准则,如果差异太小,则判别分析的意义不大;当各个总体服从多元正态分布,我们可以根据各总体的均值向量是否相等进行统计检验;当然也可以检验各总体的协方差矩阵是否相等来采用判别函数;6、逐步判别是如何选择判别变量的基本思想或步骤是什么答:在判别分析中,并不是观测变量越多越好,而是选择主要变量进行判别分析,将各个变量在分析中起的不同作用,将影响力比较低的变量保留在判别式中,会增加干扰,影响效果;因此选择显着判别力的变量来建立判别式就是逐步判别法;基本思想:其与逐步回归法类似,都是采用“有进有出”的算法,即逐步引入一个“最重要”的变量进入判别式,同时对先引入的判别式进行检验,如果其判别能力随着新引入的变量显着性降低,则该因素应该被剔除,直到变量全部进入为止;7、判别分析有哪些现实应用举例说明;答:判别分析在实际中的应用无处不在;例如我们根据各种经济指标把各个国家分为发达国家和发展中国家,通过这些指标成功的判定了一个国家的经济发展水平;第三章聚类分析1、聚类分析的目的是什么与判别分析有何异同这种方法有哪些局限或欠缺答:把某些方面相似的东西进行归类,以便从中发现规律性,达到认识客观事物规律的目的;其与判别分析相同的地方是都是研究分组的问题;不同的是各自对于预先分组对象不一样,聚类分析是未知类别,判别分析是已知类别;2、有哪些常用的聚类统计量答:1Q型统计量:对样本进行聚类,用“距离”来描述样本之间的接近程度;R型统计量:对变量进行聚类,用“相似系数”来度量变量之间的近视程度;3、系统谱系聚类法的基本思想是怎样的它包含哪些具体方法答:先将待聚类的n个样品或变量各自看成一类,共有n类,然后按照事先选定的聚类方法计算每两类之间的聚类统计量,即某种距离或者相似系数,将关系最密切的两类并为一类,其余不变,即的n-1类,再按照前面的计算方法计算新类与其他类之间的距离或者相似系数,再将关系最密切的两类归为一类,其余不变,即得n-2类,继续下去,每次重复都减少一类,直到所有样品或者变量都归于一类;4、聚类分析对变量与样本规模有何要求有哪些因素影响分类效果要想减少不利因素的影响,可以采取哪些改进方法答:聚类分析要求其样本规模较大,需要变量之间相关性较弱,变量个数小于样本数;5、实际应用问题,如何确定分类数目答:按理来说聚类分析的分类数目是事先不知道的,但是在实际应用中,应该根据相关专业知识确定分类数目,结合聚类统计量参考确定,并使用误判定理具体分析;6、快速聚类法K—均值法的基本思想或步骤是怎样的答:如果待分类样品比较多,应先给出一个大概的分类,然后不断对其进行修正,一直到分类结果比较合理为止;7、有序样品的最优分别法的基本思想或步骤是怎样的答:将n个样品看成一类,然后根据分类的误差函数逐渐增加分类,寻求最优分割,用分段的方法找出使组内离差平方和最小的分割点;8、应用聚类分析解决实际问题的基本步骤是怎样的应该注意哪些方面的问题答:1n个变量样品各自成一类,一共有n类,计算两两之间的距离,构成一个对称矩阵;2选择这个对称矩阵中主对角元素以外的上或者下三角部分中的最小元素,合成的新类,并计算其与其他类之间的距离;3划去与新类有关的行和列,将新类与其余类别的距离组成新的n-1阶对称矩阵;4再重复以上步骤,直到n个样品聚为一个大类;5记录下合并类别的编号以及所对应的距离,绘制聚类图;6决定类的个数和聚类结果;第四章主成分分析与典型相关分析1、主成分分析的基本思想是什么在低维情况下,如何利用几何图形解释主成分的意义答:构造原始变量的适当线性组合,使其产生一系列互不相关的新变量,从中选出少量的几个新变量并使它们含有足够多的原始变量的信息,从而使这几个新变量代替原始变量分析问题和解决问题提供了可能;几何解释,可以借用平面上旋转坐标系方法来达到降维的目的;2、什么是主成分的贡献率与累计贡献率实际应用时,如何确定主成分的个数答:主成分中,描述第k个主成分提取的信息占据原来变量总信息的比重,称为第k个主成分的贡献率;若将前m个主成分提取的总信息的比重相加,称为主成分的累计贡献率;实际应用中,通常选取前m个主成分的累积贡献率达到一定的比列来确定主成分的个数;3、主成分有哪些基本性质答:1每一个主成分都是原始变量的线性组合;2主成分的数目大大小于原始变量的数目;3主成分保留了原始变量所包含的绝大部分信息;4各个主成分之间互不相关;4、对于任何情形的多个变量,都可以采取主成分方法降维吗为什么答:肯定不是,必须要满足适合主成分分析的要求才可以降维;举个简单的例子,其适用范围是各个变量之间应该具有比较强的相关性,如果多个变量均为各项同性,则主成分分析效果不明显;5、怎样的情况下需要计算标准化的主成分答:因为实际问题的变量有很多量纲,不同的量纲会引起各个变量的取值的分散程度差异较大,总体方差将主要受到方差较大的变量的控制;如果用协方差矩阵 求主成分,则优先照顾方差大的变量,可能会得到不合理的结果,因此为了消除量纲的影响,需要计算标准化的主成分;6、主成分有哪些应用答:它的主要作用是降维,因此应用范围比较广泛,举个例子,衡量一个城市的综合发展指数涉及到的变量参数相当多,但是如果运用主成分的思想,只需要考虑较少的变量样品就好,一般选择GDP指数、环境指数、人口、面积等;7、如何解释主成分的实际含义答:主成分的实际意义需要结合到实际应用中,其往往不是最终目的,重要的是利用降维的思想来综合分析原始信息,利用有限的主成分来解释规律,从而进行相关研究;8、典型相关分析的基本思想是什么有何实际用途答:是研究两组变量间的相互依赖关系,把两组变量之间的关系变为研究两个新变量的相关,而又不抛弃原来变量的信息;因为这两组变量所代表的内容不同,可以直接考虑其相关关系来反映两组变量之间的整体相关性;例如工厂考察使用原料质量对生产产品质量的影响,需要对产品各种各样质量指标与所使用的原料指标之间的相关关系进行评判;9、典型相关分析与回归分析、判别分析、主成分分析、因子分析有何关联试比较这些方法的异同之处;答:这是一个涉及面很大的问题,总的来讲这些方法的存在能够帮助我们对于客观数据现象的相关关系有一个更加深刻的了解,有的是对另外一种方向的优化与推广,有的本质思想与另外一种分析方法很接近,异同点可以根据教科书进行两两比对;10、典型相关分析有哪些基本假定答:线性假定影响典型相关分析的两个方面,首先任意两个变量间的相关系数是基于线性关系的;如果这个关系不是线性的,一个或者两个变量需要变换;其次,典型相关是变量间的相关,如果关系不是线性的,典型相关分析将不能测量到这种关系;11、如何解释典型相关函数的实际意义答:1典型权重标准化系数;2典型荷载结构系数;3典型交叉载荷;用以上三种参数来使多个变量与多个变量的相关性转化为两个变量的相关性;12、典型相关方法中冗余度分析的意义是什么答:冗余度主要说明典型变量对各组观测变量总方差的代表比例和解释比例;第五章因子分析与对应分析1、因子分析是怎样的一种统计方法它的基本目的和用途是什么答:其根据相关性大小将变量分组,使得同组内的变量之间相关性较高,不同组的相关性较低,每组变量代表一个基本结构,用一个不可观测的综合变量表示,这个基本结构成为公共因子,对所研究的问题就可以用最少的个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一个分量;目的:利用降维的思想,从研究原始变量相关矩阵内部结构出发,把一些具有错综复杂关系的变量归结为少数几个综合因子;用途:对变量进行分类,根据因子得分值在其轴所构成的空间中吧变量点画出来,从而分类;2、因子分子中的KMO统计量与巴特莱特球形性检验的目的是什么答:KMO统计量:通过比较各个变量之间简单相关系数和偏相关系数的大小判断变量间的相关性,相关性强时,偏相关系数远小于简单相关系数,KMO值接近1.一般KMO>非常适合做因子分析;而大于都可以,但是一下不适合;巴特莱特球形检验:用于检验相关矩阵是否是单位矩阵,及各个变量是否是独立的;它以变量的相关系数矩阵为出发地点,如果统计量数值较大,且相伴随的概率值小于用户给定的显着性水平,则应该拒绝原假设;反之,则认为相关系数矩阵可能是一个单位阵,不适合做因子分析;3、因子分析有哪些类型它们有何区别Q型因子分析与聚类分析有何异同答:Q型和R型两种;Q型:对样本进行因子分析,R型:对变量进行因子分析;Q型因子分析可以认为是考虑指标的重要性,保留哪些去掉哪些;Q型聚类分析考虑的是指标的相关性,哪几类指标可能组成一类,使得组内距离尽可能小,组间距离尽可能大; 4、因子分析中的变量类型是怎样的因子分析对变量数目有没有要求对样本规模有没有要求答:被描述的变量一般来讲都是可观测的随机变量;变量必须是标准化的;样品的数目大于变量的数目;5、因子分析有怎样的基本假定对样本特点或性质有何要求答:各个共同因子之间不相关,特殊因子之间也不相关,共同因子与特殊因子之间也不相关;样本之间相关性越强越好;6、因子分析模型中,因子载荷、变量共同度、方差贡献等统计量的统计意义是什么答:1因子载荷:指综合因子与公共因子的相关关系,表示其依赖公共因子的程度,反映了第i个变量对第j个公共因子的相对重要性,也是其间的密切程度,也是其公共因子的权;2变量共同度:指因子载荷矩阵中各行元素的平方和,表示x的第i个分量对于公共因子的每一个分量的共同依赖程度;3方差贡献:指因子载荷矩阵第j列各个元素的平方和,是衡量公共因子相对重要性的指标;7、因子分析与主成分分析有何区别与联系它们分别适用于怎样的情况答:联系:均是降维的处理变量样品的方法;区别:因子分析是把变量表示成各个因子的线性组合,而主成分分析是把主成分表示成变量的线性组合;因子分析重点是解释各个变量之间的协方差,主成分分析是解释变量的总方差;因子分析需要一些假定,共同因子之间不相关,特殊因子之间不相关,以上两者也不相关,而主成分分析不需要假设;因子分析中因子不是独特的,可以旋转得到不同的因子,主成分分析中对于给定的协方差和相关矩阵特殊值,成分是独特的;因子个数需要分析者指定,而主成分中成分的数量是一定的;8、如何确定公共因子数目如何解释公共因子的实际意义答:用方差累计贡献率,一般只要前几个达到80%即可,或者碎石图也可以确定;公共因子的含义,与实际问题相关,表示变量之间内部错综复杂的关联性;9、怎样的情况下,需要作因子旋转答:如果求出主因子解,但是主因子代表的变量不是很突出,容易使因子的含义模糊不清,需要做旋转;10、有哪些估计因子得分的方法因子得分的估计是普通意义下的参数估计吗为什么答:回归估计法、巴特莱特估计法、汤姆逊估计法;不是普通意义下的参数估计,需要用公共因子F用变量的线性组合来表示;11、对应分析的基本思想或原理是什么试举例说明它的应用;答:为了克服因子分析的不足之处,寻求R型和Q型变量的内在联系,将两者统一起来,将样品和变量反映到相同的坐标轴上进行解释;比如对某一行业的经济效益进行综合性评价,要研究企业与企业的信息,指标与指标的内部结构、企业与指标的内在联系,这三个方面是一个密不可分的整体;12、对应分析中总惯量的意义是什么答:代表总体两个变量相互联系的总信息量,可以反映某种变量特征属性的接近程度,及时对数据组分进行约束;。
第八章作业8.10解:首先对数据进行标准化处理,消除不同的度量带来的差异标准化的数据如下表:表1对处理的数据做主成分分析样本相关系数矩阵即为相应的样本协方差矩阵S即相应的协方差矩阵为:表2从表3可以得出,五个主因子解释的总体方差比重表3五个主因子间的协方差矩阵如下表4:表4从表4可以看出,这两个因子之间的相关程度比较低表5从表5可以得出五个主成分的表达式:F1=0.302X1+0.403X2+0.342X3+0.277X4+0.242X5F2=(-0.245)X1+(-0.14)X2+(-0.339)X3+0.46X4+0.492X5F3=1.016X1+(-0.517)X2+(-0.365)X3+0.005X4+0.102X5F4=(-0.163)X1+(-1.058)X2+1.096X3+0.216X4+0.169X5F5=(-0.044)X1+0.056X2+0.1X3+(-1.157)X4+1.144X5(b)五个特征值分别为:λ1,λ2,λ3,λ4,λ5,从表三可以得出: 第一主成分的总方差贡献为:λ1λ1+λ2+λ3+λ4+λ5=39.502% 第二主成分的总方差贡献为:λ2λ1+λ2+λ3+λ4+λ5=30.879% 第三主成分的总方差贡献为:λ3λ1+λ2+λ3+λ4+λ5=13.856%(c )第一主成分的特征值λ1对应的庞弗罗尼联合置信区间为【0.00106,0.00195】第二主成分的特征值λ2对应的庞弗罗尼联合置信区间为【0.00054,0.001】第三主成分的特征值λ3对应的庞弗罗尼联合置信区间为【0.00019,0.00036】 (d )从(a )~(c )的结果,前三个主成分的方差贡献超过80%,我们可以得出,综合股票回报率数据能在小于五维的空间中得到解释。
8.13(a )变量的相关系数矩阵如下表:(b)有相应的相关系数表可以求出相应的特征值及特征向量表1从表1可以得出相应的特征值表2从上表可以得出相应的特征向量e1=(0.872,0.903,0.659,0.79,0.977,0.134)ˋe2=(0.361,-0.151,-0.23,-0.128,-0.037,0.955)ˋe3=(-0.382, -0.372,0.576, 0.246,0.044, 0.259)ˋe4=(0.189,0.071,0.423,-0.541,-0.068,-0.033)ˋe5=(-0.016,0.128,0.042,0.065 ,-0.191,0.038)ˋe6=(-0.061,0.049,-0.01,-0.028,0.032,0.026)ˋ第一主成分的总方差贡献为:λ1=58.846%λ1+λ2+λ3+λ4+λ5+λ6=18.925%第二主成分的总方差贡献为:λ2λ1+λ2+λ3+λ4+λ5+λ6=12.433%第三主成分的总方差贡献为:λ3λ1+λ2+λ3+λ4+λ5+λ6第四主成分的总方差贡献为:λ4=8.641%λ1+λ2+λ3+λ4+λ5+λ6=1.010%第五主成分的总方差贡献为:λ5λ1+λ2+λ3+λ4+λ5+λ6=0.145%第六主成分的总方差贡献为:λ6λ1+λ2+λ3+λ4+λ5+λ6(c)从(b)的结果可以看出,第一个主成解释了总方差的58.846%,低于80%,所以用一个指标来反映综合放射法数据是不合理的(d)从(b的结果可以得出,提取前三个主成分比较合适,前三个主成分的的累积方差贡献超过80%,前三个主成分与x1,x2,x3,x4.x5及x6的相关系数表如下:表3第九章作业9.20(a)空气污染变量X1,X2,X5,X6的样本协方差矩阵如表1:表1(a)先求出m=1时的因子矩阵,然后计算响应的主成分得分,再利用公式Xi=∝F1 其中∝为第一主成分的方差贡献,由此可以得到m=1的因子模型的主成分解如表2:表2m=2表3。