第6章 因子分析
- 格式:doc
- 大小:88.50 KB
- 文档页数:6
多元统计分析陈钰芬课后答案第1章多元正态分布1、在数据处理时,为什么通常要进行标准化处理?第1章多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。
在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
其中最典型的就是0-1标准化和Z标准化。
2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。
在二维和三维空间中的欧氏距离的就是两点之间的距离。
缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。
每个坐标对欧氏距离的贡献是同等的。
当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。
当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。
它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。
没有考虑到总体变异对距离远近的影响。
马氏距离表示数据的协方差距离。
为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。
优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。
由标准化数据和中心化数据计算出的二点之间的马氏距离相同。
马氏距离还可以排除变量之间的相关性的干扰。
缺点:夸大了变化微小的变量的作用。
受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。
3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。
第六章 因子分析一.基本原理因子分析(Factor anslysis )是用来分析隐藏在表象背后的因子作用的一类统计模型与方法。
起源于心理度量学(Phsycholometrics ),在方法上与主成分分析有密切联系。
因子分析一般有两个用途,一是通过寻求变量的基本结构,对变量进行简化;二是通过因子得分,在因子轴构成的空间中将变量或者样品进行分类。
1.正交因子模型设x 为一个p 维可观测随机向量,假定x 受到m 个不可观测的随机因子的控制,称这m 个影响x 的因子为公共因子,若m 维随机向量f 对x 的影响是线性的,则x 与f 之间的关系可用下述模型来表述:x Lf με=++其中μ为P 维常向量,表示X 的均值;L 为p m ⨯维常数阵,L 的第I 行表示公共因子f 对X 第I 个分量i x 的影响系数;ε为P 维随机变量,表示X 中与f 无关的那一部分,称为特殊因子。
其中f 和ε都是不可观测的,假定它们满足下列条件 (1)f 和ε相互独立 (2)()0,()m E f V f I ==(3)()0,()E V εε==ψ,其中ψ(psai)为对角阵。
由于()m V f I =,即各因子之间不相关,这样的模型便称为正交因子模型。
在正交因子模型中,公共因子f 对X 的各分量都起作用,而特殊因子ε的第I 个分量只对X 的第I 个分量起作用。
L 称为载荷阵(Loading Matrix )。
如果对X 进行标准化处理,则μ为0,原式化为x Af ε=+。
A 为载荷阵。
X 的方差是由载荷阵和特殊因子的方差构成的。
即()Var X AA '=+ψ。
2.因子分析与其他多元分析方法的区别与多元回归的区别:因子分析中,各个公共因子是虚拟的,本身是未知量。
与主成分分析的区别:主成分分析本质上是一种变量变换,而因子分析则是构造出一组新的因子来对原变量进行解释。
二.计算模型1.因子载荷的含义假定在因子分析模型中,对各变量及公共因子、特殊因子均进行了标准化处理。
统计学课后题第二章均值向量和协方差阵的检验1、试谈willks统计量在多元方差分析中的重要意义。
2、形象分析的基本思路是什么?形象又称轮廓图,是将总体样本的均值绘制到同一坐标轴里所得的折线图,每一个指标都表示为折线图上的一点。
形象分析是将两总体的形象绘制到同一个坐标下,根据形象的形状对总体的均值进行比较分析。
第三章聚类分析1、聚类分析的基本思想和功能是什么?聚类分析的核心思想是根据具体的指标对所研究的个体或者对象进行分类,使得同一类中的对象之间的相似性比其他类的对象的相似性更强。
聚类分析不仅可以用来对样品进行分类,也可以用来对变量进行分类。
对样品的分类常称为Q型聚类分析,对变量的分类常称为R型的聚类分析。
聚类分析的目的或功能就是把相似的研究对象归成类,即使类间对象的同质性最大化和类与类间对象的异质性最大化。
2、试述系统聚类法的原理和具体步骤系统聚类的基本思想是:距离相近的样品先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品总能聚到合适的类中。
系统聚类的具体步骤:假设总共有N个样品第一步:将每个样品独自聚成一类,共有N类;第二步:根据所确定的样品“距离”公式,把距离较近的两个样品聚合为一类,其他的样品仍各自聚为一类,共聚成N-1类;第三步:将“距离”最近的两个类进一步聚成一类,共聚成N-2类;。
,以上步骤一直进行下去,最后将所有的样品全聚成一类。
3、试述K-均值聚类的方法原理这种聚类方法的思想是把每个样品聚集到其最近形心类中。
首先随机从数据集中选取 K个点作为初始聚类中心,然后计算各个样本到聚类中的距离,把样本归到离它最近的那个聚类中心所在的类。
计算新形成的每一个聚类的数据对象的平均值来得到新的聚类中心,如果相邻两次的聚类中心没有任何变化,说明样本调整结束,聚类准则函数已经收敛。
4、试述模糊聚类的思想方法模糊聚类分析是根据客观事物间的特征、亲疏程度、相似性,通过建立模糊相似关系对客观事物进行聚类的分析方法。
教育统计与测量(SPSS)复习第一章:概述1.什么是信息?简单地讲,通过信息,可以告诉我们某件事情,可以使我们增加一定的知识。
英语中的信息是“information”,表示信息可以让受者产生某种形式的变化,这种变化可以让受者从认识上的不完全、不理解、不确定变为完全、理解和确定。
信息论的奠基者香农将信息定义为熵的减少,即信息可以消除人们对事物认识的不确定性,并将消除不确定程度的多少作为信息量的量度。
信息的价值因人而异。
所谓有用的信息,因人而异。
是否是信息,不是由传者,而是由受者所决定。
2.教育信息数量化的特点表示教育信息的数量与各种物理测量的数量有着明显的不同,在教育信息的统计处理中,应根据教育信息数量化的方法、特点不同,决定对这种信息进行统计处理的具体方法。
这是进行教育信息处理的重要关键。
3.教育信息数量化的尺度(1)名义尺度(nominal scale) :名义尺度的数值仅具符号的意义。
名义尺度的数字多用于表示不同的数别,它为教育信息的表示,存贮带来了很大的方便。
(2)序数尺度(ordinal scale) :序数尺度的数字多用于表示某些现象的排列顺序,可比较其大小,但不能进行四则运算,所以对这类数字的数值群的处理较多。
(3)距离尺度(interval scale,equal unit scale):距离尺度又称间隔尺度,是指数值间的距离(间隔),具有加法性。
距离尺度要求具有等价的单位,但不要求确定的零点位置。
对距离尺度的数字可以计算算术平均值、计算标准差,求相关系数等各种统计处理。
(4)比例尺度(ratio scale) :比例尺度是一种具有绝对零度的距离尺度值。
表示身长、体重的数值是比例尺度值。
对比例尺度的数字可进行各种统计处理。
4.数据的类型(1)定类数据(也称名义级数据),是数据的最低级。
(性别、编号)(2)定序数据(也称序次级数据),是数据的中间级。
(名次、优秀良好及格、有顺序的)(3)定距数据(也称间距级数据),是具有一定单位的实际测量值。
第六章因子分析分解
首先,让我们了解因子分析分解的背后原理。
当我们有多个相关的变量时,通常会遇到数据中的冗余信息。
这些冗余信息可能使分析和解释数据变得困难。
因子分析分解可以帮助我们找到这些变量之间的共同维度,并将其归纳为更少的因子。
这些因子代表了原始变量中的共享信息。
下面,我将介绍因子分析分解的步骤。
首先,我们需要准备多个变量的数据集。
然后,我们将对这些变量进行主成分分析。
主成分分析是一种将多个变量转化为少数几个无关主成分的方法。
在主成分分析中,我们通过计算协方差矩阵来确定主成分。
接下来,我们选择解释变量方差的主成分,并按主成分的大小对它们进行排列。
最后,我们可以从这些主成分中选择最相关的因子,作为我们的最终结论。
那么,因子分析分解有什么实际应用呢?因子分析分解可以在许多领域中使用,例如心理学、市场调研和人社科学。
在心理学中,因子分析分解可以用于理解人们的个性特征和行为模式。
在市场调研中,因子分析分解可以用于确定消费者的购买偏好和行为倾向。
在人社科学中,因子分析分解可以用于研究人口统计学数据中的潜在因素。
总结一下,因子分析分解是一种用于理解多个变量之间关系的方法。
它通过检测数据中的共同变异性,将复杂的数据结构简化为更容易解释和理解的形式。
在进行因子分析分解时,我们需要按照特定步骤进行,包括数据准备、主成分分析和因子选择。
因子分析分解在心理学、市场调研和人社科学中有广泛的应用。
希望通过这篇文章的介绍,可以让读者对因子分析分解有一个初步的了解。
第6章--因子分析第六章因子分析一、填空题1. 因子分析常用的两种类型为 ____________ 和 ___________ 。
2. 因子分析是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现______________ 与____________ 间的相互关系。
3•因子分析就是通过寻找众多变量的______________ 来简化变量中存在的复杂关系的一种方法。
4 •因子分析是把每个原始变量分解成两个部分即____________ 、。
5 •变量共同度是指因子载荷矩阵中__________________________ 。
6 •公共因子方差与特殊因子方差之和为________ 。
7.求解因子载荷矩阵常用的方法有______________________ 和________________ &常用的因子旋转方法有 ____________________ 和__________________ 。
9. Spss中因子分析采用__________________ 命令过程。
10•变量X i的方差由两部分组成,一部分为 ___________ ,另一部分为__________二、判断题1. 在因子分析中,因子载荷阵不是唯一的。
()2. 因子载荷阵经过正交旋转后,各变量的共性方差和各个因子的贡献都发生了变化。
()3. 因子分析和主成分分析的核心思想都是降维。
()4.因子分析有两大类,R型因子分析和Q型因子分析;其中R型因子分析是从变量的相似矩阵出发,而Q型因子分析是从样品的相关矩阵出发。
()5. 特殊因子与公共因子之间是相互独立的。
()6. 变量共同度是因子载荷矩阵列元素的平方和。
()7. 公共因子的方差贡献是衡量公共因子相对重要性指标。
()8. 对因子载荷阵进行旋转的目的是使结构简化。
()三、简答题1.因子分析的基本思想是什么,它与主成分分析有什么区别和联系?2 •因子模型的矩阵形式UF ,其中:F F1, ,F m 1, , P U U ij pm请解释式中F、、U的统计意义。
第六章 因子分析
一、填空题
1.因子分析常用的两种类型为 和 。
2.因子分析是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现_____________与____________之间的相互关系。
3.因子分析就是通过寻找众多变量的 来简化变量中存在的复杂关系的一种方法。
4.因子分析是把每个原始变量分解成两个部分即 、 。
5.变量共同度是指因子载荷矩阵中_______________________。
6.公共因子方差与特殊因子方差之和为_______。
7.求解因子载荷矩阵常用的方法有 和 。
8.常用的因子旋转方法有 和 。
9.Spss 中因子分析采用 命令过程。
10.变量i X 的方差由两部分组成,一部分为 ,另一部分为 。
二、判断题
1.在因子分析中,因子载荷阵不是唯一的。
( )
2.因子载荷阵经过正交旋转后,各变量的共性方差和各个因子的贡献都发生了变化。
( )
3.因子分析和主成分分析的核心思想都是降维。
( )
4.因子分析有两大类,R 型因子分析和Q 型因子分析;其中R 型因子分析是从变量的相似矩阵出发,而Q 型因子分析是从样品的相关矩阵出发。
( ) 5.特殊因子与公共因子之间是相互独立的。
( ) 6.变量共同度是因子载荷矩阵列元素的平方和。
( ) 7.公共因子的方差贡献是衡量公共因子相对重要性指标。
( ) 8.对因子载荷阵进行旋转的目的是使结构简化。
( ) 三、简答题
1. 因子分析的基本思想是什么,它与主成分分析有什么区别和联系? 2.因子模型的矩阵形式ε+=X UF ,其中:
()
()
()
u F
F ij m
p P
m
U F
⨯='
='
=εεε,,,,1
1
请解释式中F 、
ε、U 的统计意义。
3.因子旋转的意义何在?如何进行最大方差因子旋转? 4.因子分析主要应用在哪几个方面? 四、计算题
4.假设某地固定资产投资率1x , 通货膨胀率2x 和失业率3x 的约相关矩阵为:
⎥⎥⎥⎥⎥⎥⎦
⎤⎢⎢⎢⎢
⎢⎢⎣⎡----=525
25
152********
51*
R 并且已知该相关矩阵的各特征根和相应的非零特征根的单位特征向量分别为: 9123.01=λ ()'
-=657.0657.0369
.01α 0877.02=λ ()'-=261.0261
.0929
.02α
03=λ
要求求解因子分析模型,计算各变量的共同度和各公共因子的方差贡献并解释它们的统计意义。
2.设变量x 1,x 2和x 3已标准化,其样本相关系数矩阵为:
⎥⎥
⎥⎦
⎤⎢⎢⎢⎣⎡=135.045.035.0163.045.063.01
R (1)对变量进行因子分析。
(2)取q=2进行正交因子旋转。
3.已知我国某年各地区的国有及非国有规模以上的工业企业经济效益资料,现做因子分析,结果如下,请说明每一个输出结果的含义及目的,并回答以下问题: (1)什么是方差贡献率? 计算方差贡献率的目的何在?
(2) 如何利用因子分析结果进行综合评价? 结合本例写出计算综合评价结果的公式。
表1
表2
表3
表4
5
表
五、操作题
1.10名初中男生身高、胸围、体重的数据资料如下:
(2)分别计算各变量的公共因子方差和特殊因子方差,判断哪个因子能概括原
始信息的大部分,为什么?
(3)写出方差最大正交旋转因子模型,并分析各因子的实际含义
(4)计算各个样本点的因子得分
2.对某市15个大中型工业企业进行经济效益分析,经研究确定,从有关经济效益指标中选取7个指标作分析,即固定资产产值率(X1),固定资产利税率(X2),资金利润率(X3),资金利税率(X4),流动资金周转天数(X5),销售收入利税率(X6)和全员劳动生产率(X7)。
数据资料如下:
第一、对数据资料进行主成分分析:
(1)前两个最大特征根为_____________、______________,其对应的特征向量为__________________________________,_____________________________。
(2)第一主成分的表达式为_________________________________________ ___,该主成分包含了原始信息的_______%,第二主成分的表达式为_________________________________________,该主成分的方差贡献率为_______。
(3)如果舍弃第二主成分,则哪个原始变量的损失信息最大:_______
(4)第一个主成分与第二个变量间的相关系数为_____________
(5)第一个主成分主要反映盈利能力,现对第一主成分计算得分为_________________________________________________________________,
对得分进行排序(降序),各企业的得分排名顺序依次为:_________________ __________________________(依企业顺序写出排名)。
若利用第一、二主成分构造综合评价函数,则两主成分的权数分别为_________、_________。
第二、对原数据资料进行因子分析:
(6)利用主成分法求解因子载荷,现提取两个因子进行分析,因子模型表示为:
(7)前三个变量(X1,X2,X3)的公共因子方差为___________、_____________、____________,特殊因子方差为________、___________、_____________。
(8)对以上模型进行方差最大正交旋转,得出旋转后的因子载荷矩阵为:。