主成分分析与因子分析的主要方法和思想

格式：doc
大小：28.00 KB
文档页数：5

下载文档原格式

eviews中主成分分析和因子分析详解

灵活的编程接口
eviews提供了灵活的编程接口，支持多种编程语言和脚本语言，方便用户进行二次开发和定制。
未来发展趋势预测
大数据分析
随着大数据时代的到来，eviews将更加注重对大数据的处理和分析能力，提高处理效率和准确性。
人工智能融合
eviews将与人工智能技术相结合，实现智能化数据分析，提高分析的自动化程度和准确性。
总结在使用eviews进行主成分分析和因子分析过程中可能遇到的常见问题，并提供相应的解决方案。
07 总结与展望
CHAPTER
主成分分析和因子分析应用前景
多元统计分析方法
主成分分析和因子分析作为多元统计分析的重要方法，在多个领域具有广泛的应用前景，如经济、金融、社会学、医学等。
数据降维
主成分分析通过线性变换将原始数据转换为新的变量，实现数据降维，简化数据结构，提高数据处理的效率。
因子分析步骤
在eviews中导入数据，选择因子分析功能，按照步骤进行操作，包括数据预处理、选择因子个数、进行因子旋转等。
结果解读
根据因子分析结果，提取影响消费者行为的公共因子，分析各因子的含义和重要性，以及各因子对不同消费者群体的影响程度。
实战演练：eviews操作技巧分享
数据导入与预处理
介绍如何在eviews中导入数据、进行数据清洗和预处理等操作。
主成分与因子分析功能使用
详细演示如何在eviews中使用主成分分析和因子分析功能，包括参数设置、模型选择等。
结果解读与可视化
分享如何解读主成分分析和因子分析结果，以及如何利用eviews的图形功能进行结果可视化展示。
常见问题与解决方案
结果解读
根据输出的结果，可以了解各因子对原始变量的解释程度，以及各样本在因子上的得分情况。同时，通过载荷矩阵可以了解各原始变量与因子的关系。

主成分与主因子

4.因子得分因子分析模型建立后，还有一个重要的作用是应用因子分析模型去评价每个样品在整个模型中的地位，即进行综合评价。

例如地区经济发展的因子分析模型建立后，我们希望知道每个地区经济发展的情况，把区域经济划分归类，哪些地区发展较快，哪些中等发达，哪些较慢等。

这时需要将公共因子用变量的线性组合来表示，也即由地区经济的各项指标值来估计它的因子得分。

设公共因子F由变量x表示的线性组合为：Fj = uj1 xj1+ uj2 xj2+…+ujpxjp j=1，2，…，m该式称为因子得分函数，由它来计算每个样品的公共因子得分。

若取m=2，则将每个样品的p个变量代入上式即可算出每个样品的因子得分F1和F2，并将其在平面上做因子得分散点图，进而对样品进行分类或对原始数据进行更深入的研究。

但因子得分函数中方程的个数m小于变量的个数p，所以并不能精确计算出因子得分，只能对因子得分进行估计。

估计因子得分的方法较多，常用的有回归估计法，Bartlett估计法，Thomson估计法。

⑴回归估计法F = X b = X (X ￠X)-1A￠ = XR-1A￠（这里R为相关阵，且R = X ￠X ）。

⑵Bartlett估计法Bartlett估计因子得分可由最小二乘法或极大似然法导出。

F = [(W-1/2A）￠ W-1/2A]-1(W-1/2A）￠ W-1/2X = (A￠W-1A)-1A￠W-1X⑶Thomson估计法在回归估计法中，实际上是忽略特殊因子的作用，取R = X ￠X，若考虑特殊因子的作用，此时R = X ￠X+W，于是有：F = XR-1A￠ = X (X ￠X+W)-1A￠这就是Thomson估计的因子得分，使用矩阵求逆算法（参考线性代数文献）可以将其转换为：F = XR-1A￠ = X (I+A￠W-1A)-1W-1A￠5. 因子分析的步骤因子分析的核心问题有两个：一是如何构造因子变量；二是如何对因子变量进行命名解释。

SPSS 因子分析和主成分分析

实验课：因子分析实验目的理解主成分（因子）分析的基本原理，熟悉并掌握SPSS中的主成分（因子）分析方法及其主要应用。

因子分析一、基础理论知识1 概念因子分析（Factor analysis）：就是用少数几个因子来描述许多指标或因素之间的联系，以较少几个因子来反映原资料的大部分信息的统计学分析方法。

从数学角度来看，主成分分析是一种化繁为简的降维处理技术。

主成分分析（Principal component analysis）：是因子分析的一个特例，是使用最多的因子提取方法。

它通过坐标变换手段，将原有的多个相关变量，做线性变化，转换为另外一组不相关的变量。

选取前面几个方差最大的主成分，这样达到了因子分析较少变量个数的目的，同时又能与较少的变量反映原有变量的绝大部分的信息。

两者关系：主成分分析（PCA）和因子分析（FA）是两种把变量维数降低以便于描述、理解和分析的方法，而实际上主成分分析可以说是因子分析的一个特例。

2 特点（1）因子变量的数量远少于原有的指标变量的数量，因而对因子变量的分析能够减少分析中的工作量。

（2）因子变量不是对原始变量的取舍，而是根据原始变量的信息进行重新组构，它能够反映原有变量大部分的信息。

（3）因子变量之间不存在显著的线性相关关系，对变量的分析比较方便，但原始部分变量之间多存在较显著的相关关系。

（4）因子变量具有命名解释性，即该变量是对某些原始变量信息的综合和反映。

在保证数据信息丢失最少的原则下，对高维变量空间进行降维处理（即通过因子分析或主成分分析）。

显然，在一个低维空间解释系统要比在高维系统容易的多。

3 类型根据研究对象的不同，把因子分析分为R 型和Q 型两种。

当研究对象是变量时，属于R 型因子分析；当研究对象是样品时，属于Q 型因子分析。

但有的因子分析方法兼有R 型和Q 型因子分析的一些特点，如因子分析中的对应分析方法，有的学者称之为双重型因子分析，以示与其他两类的区别。

主成分分析与因子分析法

主成分分析与因子分析法主成分分析（PCA）是一种无监督的降维技术，通过将原始数据投影到新的正交坐标系上，使得投影后的数据具有最大的方差。

具体而言，PCA根据数据的协方差矩阵或相关矩阵生成一组称为主成分的新变量，其中每个主成分都是原始数据的线性组合。

这些主成分按照方差递减的顺序排列，因此前几个主成分能够解释原始数据中大部分的方差。

通过选择保留的主成分数量，可以将数据集的维度降低到较低的维度，从而更容易进行进一步的分析和可视化。

PCA的主要应用有：数据预处理（如去除冗余信息和噪声）、特征提取、数据可视化和模式识别等。

在特征提取中，选择前k个主成分可以将原始数据变换到一个k维的子空间中，实现数据降维的目的。

此外，PCA还可以通过计算原始数据与主成分之间的相关性，识别出数据中的关键特征。

因子分析法（Factor Analysis）是一种用于探索多个观测变量之间潜在因子（Latent Factor）的关系的统计方法。

潜在因子是无法直接观测到的，但是可以通过多个相关变量的共同变异性来间接测量。

因子分析的目标是找到最小数目的潜在因子，以解释原始数据中的共同变化。

与PCA不同，因子分析法假设观测变量与潜在因子之间存在线性关系，并且观测变量之间的相关性可以被这些潜在因子所解释。

通过因子载荷矩阵，我们可以了解每个观测变量与每个潜在因子之间的相关性大小。

而通过解释因子的方差贡献率，我们可以了解每个因子对数据变异性的解释程度。

因子分析方法还可以用于探索主要的潜在因素，并构建潜在因子模型，以便进行进一步分析和预测。

因子分析的主要应用有：确认性因子分析（Confirmatory Factor Analysis，CFA）用于检验理论模型的拟合度；在心理学和教育领域中，用于构建潜在因子模型并验证心理学量表的可信度和效度；在市场研究中，用于构建品牌形象的因子模型，分析消费者对不同品牌特征的感知。

总的来说，主成分分析和因子分析法都是多变量分析方法，用于探索和减少数据集的维度。

SPSS主成分分析与因子分析

参考文献
6、甘肃省区域综合经济实力变动分析作者：魏奋子《开发研究》2003年第3期P43~45 7、江苏省区域经济实力的综合评价与实证分析作者：门可佩《江苏统计》2001年第12期P15~17 8、数理统计方法在河南经济发展水平和分区研究中
的应用作者：刘钦普《数理统计与管理》 2002年第3期
X1
cos2 sin2 1
(
sin
)
2
cos2
1
cos ( sin ) sin cos 0
Y1 Y2
cos sin
s in cos
X1 X2
U
X
§8.1.2主成分分析的基本概念
主成分分析(Principle Component Analysis) 也称主分量分析,是一种将多个指标化为少数几个综合指标的统计分析方法。
2.Y1是X1、X2、…、X p的一切线性组合中方差最大的； Y2是与Y1不相关的X1、X2、…、X p的一切线性组合中方差最大的；（ Y2的方差小于Y1的方差）； Y p是与Y1、Y2、…、Yp-1都不相关的X1、X2、…、X p的一切线性组合中方差最大的（ Y p的方差小于 Y1 、Y2 、 … 、 Yp-1的方差)。这样确定的综合指标就称为原变量的第一主成分, 第二主成分,第p主成分。
二、几个重要的概念
1．因子载荷
在因子分析模型中，a i j称为因子载荷，它反应了第i个原始变量Xi在第j个公因子F j上的相对重要性。可以证明原始变量Xi与公因子F j之间的相关系数等于a i j ，即
rYk ,Xi aij k eki
k, i 1,2,, p
a i j的绝对值越大，表示原始变量Xi与公因子F j之间关系越密切。

主成分因子分析

一主成分分析法的原理主成分分析法是利用降维的思想，在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法这些综合指标通常被称为主成分，主成分相比原始变量而言，具有更多的优越性，即在研究许多复杂问题时不至于丢失太多信息，从而使我们更容易抓住事物的主要矛盾，提高分析效率该方法的核心就是通过主成分分析，选择n个主分量Y1，Y2，…，Yn，其中Yi （i=1，2，，n）为第i个主成分的得分，以主分量Yi 的方差贡献率ai 作为权数，构造综合评价函数：Y=a1Y2+a2Y2+ +anYn，这样当我们把第i个主成分的得分算出来后，便可以很快求出综合得分，并且按照得分的高低来排序同时我们可以根据第i个主成分的得分来衡量某地区或某企业在第i个主成分所代表的经济效益方面的地位二、主成分分析的基本思想在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。

这些涉及的因素一般称为指标，在多元统计分析中也称为变量。

因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。

在用统计方法研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。

主成分分析正是适应这一要求产生的，是解决这类题的理想工具。

同样，在科普效果评估的过程中也存在着这样的问题。

科普效果是很难具体量化的。

在实际评估工作中，我们常常会选用几个有代表性的综合指标，采用打分的方法来进行评估，故综合指标的选取是个重点和难点。

如上所述，主成分分析法正是解决这一问题的理想工具。

因为评估所涉及的众多变量之间既然有一定的相关性，就必然存在着起支配作用的因素。

根据这一点，通过对原始变量相关矩阵内部结构的关系研究，找出影响科普效果某一要素的几个综合指标，使综合指标为原来变量的线性拟合。

这样，综合指标不仅保留了原始变量的主要信息，且彼此间不相关，又比原始变量具有某些更优越的性质，就使我们在研究复杂的科普效果评估问题时，容易抓住主要矛盾。

因子分析与主成分分析

因子分析与主成分分析
单击此处添加副标题
电子工业出版社
基本原理
01
主成分分析
02
因子分析
03
本章小结
04
提纲
主成分分析（Primary Component Analysis）主要是通过降维过程，将多个相关联的数值指标转化为少数几个互不相关的综合指标的统计方法，即用较少的指标来代替和综合反映原来较多的信息，这些综合后的指标就是原来多指标的主要成分。
进行分析，按一定标准确定提取的因子数目；
如果进行的是主成分分析，则将主成分存在的新变量用于继续分析，步骤到此结束；
如果进行的是因子分析，则考察因子的可解释性，并在必要时进行因子旋转，以寻求最佳解释方式；
如有必要，可计算出因子得分等中间指标供进一步分析使用。
因子分析
因子分析是多元统计分析的一个重要分支。其主要目的是运用对诸多变量的相关性研究，即可以用假设的少数几个变量来表示原来变量的主要信息，以便浓缩数据（Data Reduction）。
基本原理
因子分析（Factor Analysis）是主成分分析的推广和发展，也是利用降维方法进行统计分析的一种多元统计方法。因子分析研究相关矩阵或协方差的内部依赖关系，由于它将多个变量综合为少数几个因子，以再现原始变量与因子之间的相互关系，故得到了广泛的应用。
因子分析一般要求提取出的公因子有实际含义，如果分析中各因子难以找到合适的意义，则可以运用适当的旋转，以改变信息量在不同因子上的分析，最终方便对结果的解释。
因子分析
在理论分析和具体SPSS操作方面，因子分析过程需经过如下几个重要步骤。因子提取。因子旋转。计算因子得分。
因子分析
依次单击菜单“分析→降维→因子分析”命令，打开 “因子分析”主对话框

主成分分析与因子分析

∴
( yk ,xi )
k ii
tik
4. m个主成分对原始变量的贡献率
用xi 与 y1 , …, ym 的复相关系数的平方，作为
度量主成分y1 , …, ym包含有 xi 的信息多少的指标
称为m个主成分y1 , …, ym对原始变量xi的贡献率，
记为νi（ i21 m）。
m
m
ቤተ መጻሕፍቲ ባይዱ
i 2 ( xi ,y j ) jti2j / ii
载荷矩阵
∵ X=T y 其中 T = ( tij )

x1 x2

t11 t21
t12 t22
x p
t p1
t p2
t1 p t2 p

y1 y2

t
pp

y
p

选取前m个主成分，记

xˆ 1

一般地，第 i 主成分为：
y i tiT x
var yi i ,
i 1, p
主成分的性质
1.主成分的协方差矩阵
Y

y1

,

1
0
y p
0
p
由于 Y T T X X TY
var(Y ) var( T T x ) T T var( x )T T T T TTTTTT
标准化主成分 f 的载荷矩阵
先对m个主成分的方差标准化，再求出主成分的载荷矩阵。令：

主成分分析、因子分析

主成分分析在许多领域的研究与应用中，往往需要对反映事物的多个变量进行大量的观测，收集大量数据以便进行分析寻找规律。

多变量大样本无疑会为研究和应用提供了丰富的信息，但也在一定程度上增加了数据采集的工作量，更重要的是在多数情况下，许多变量之间可能存在相关性，从而增加了问题分析的复杂性，同时对分析带来不便。

如果分别对每个指标进行分析，分析往往是孤立的，而不是综合的。

盲目减少指标会损失很多信息，容易产生错误的结论。

因此需要找到一个合理的方法，在减少需要分析的指标同时，尽量减少原指标包含信息的损失，以达到对所收集数据进行全面分析的目的。

由于各变量间存在一定的相关关系，因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。

主成分分析与因子分析就属于这类降维的方法。

主成分分析是设法将原来众多具有一定相关性（比如P个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。

主成分分析，是考察多个变量间相关性一种多元统计方法，研究如何通过少数几个主成分来揭示多个变量间的内部结构，即从原始变量中导出少数几个主成分，使它们尽可能多地保留原始变量的信息，且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合，作为新的综合指标。

最经典的做法就是用F1（选取的第一个线性组合，即第一个综合指标）的方差来表达，即Var(F1)越大，表示F1包含的信息越多。

因此在所有的线性组合中选取的F1应该是方差最大的，故称F1为第一主成分。

如果第一主成分不足以代表原来P个指标的信息，再考虑选取F2即选第二个线性组合，为了有效地反映原来信息，F1已有的信息就不需要再出现在F2中，用数学语言表达就是要求Cov(F1, F2)=0，则称F2为第二主成分，依此类推可以构造出第三、第四，……，第P个主成分。

2. 问题描述下表1是某些学生的语文、数学、物理、化学成绩统计：首先，假设这些科目成绩不相关，也就是说某一科目考多少分与其他科目没有关系。

主成分分析与因子分析

主成分分析与因⼦分析主成分分析，主成份是原始变量的线性组合，在考虑所有主成份的情况下主成份和原始变量间是可以逆转的。

即“简化变量”，将变量以不同的系数合起来，得到好⼏个复合变量，然后在从中挑⼏个能表⽰整体的复合变量就是主成份，然后计算得分。

因⼦分析，公共因⼦和原始变量的关系是不可逆转的，但是可以通过回归得到。

是将变量拆开，分成公共因⼦和特殊因⼦。

过程是：因⼦载荷计算，因⼦旋转，因⼦得分。

主成份分析主成份分析需要知道两变量之间的相关性，⽣成协⽅差举证和相关新矩阵，对应的⽣成的新向量矩阵Y还有特征值λi，对应是第I个新向量对总体信息的贡献率为λi/(λ1+λ2+...+λn),对应的还有⼀个累积贡献率。

确定主成份的个数的⽅法有：特征值⼤于1（要求原始数据的每⼀个变量⾄少能贡献1各单位的变异）、陡坡检验法（陡坡图中开始平坦的点之前的点的个数）、累积解释变异⽐例法（即（λ1+...+λi）/(λ1+λ2+...+λn)>70%）。

同时也可以知道主成分分析对应的⼏个难点①是使⽤协⽅差矩阵还是相关系数矩阵②如何确定主成份的个数。

当数据中不同变量的度量单位不同并且数值相差较⼤就⽤标准化后的相关系数矩阵，当数值相差不⼤并且指标的权重不⼀样时，考虑⽤协⽅差矩阵。

对于个数的确定就是我们⼀些边界问题是否1左右的也可以囊括进主成份中，是否难以确定开始变平坦的是那个点，是否70%不够。

等⼏个问题。

主成分分析可以⽤两个过程步完成PROC FACTORS 、PROC PRINCOMP。

后者能处理的数据量⼤⼀些，效率⾼⼀些，，前者输出的内容丰富些，还可以做旋转因⼦。

以下是主成分分析过程；proc princomp data=sashelp.cars out=car_component;var mpg_city mpg_highway weight wheelbase length;run;输出结果：先是输出统计结果，再是输出相关性矩阵，这⾥princomp步默认使⽤的是相关系数矩阵，实际应⽤过程中，可以通过cov选项来指定使⽤的矩阵。

主成分分析法与因子分析法的区别

主成分分析和因子分析有十大区别：1.原理不同主成分分析基本原理：利用降维（线性变换)的思想，在损失很少信息的前提下把多个指标转化为几个不相关的综合指标（主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能（主成分必须保留原始变量90%以上的信息），从而达到简化系统结构，抓住问题实质的目的。

因子分析基本原理：利用降维的思想，由研究原始变量相关矩阵内部的依赖关系出发，把一些具有错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。

就是要从数据中提取对变量起解释作用的少数公共因子（因子分析是主成分的推广，相对于主成分分析，更倾向于描述原始变量之间的相关关系）2.线性表示方向不同因子分析是把变量表示成各公因子的线性组合；而主成分分析中则是把主成分表示成各变量的线性组合。

3.假设条件不同主成分分析：不需要有假设(assumptions),因子分析：需要一些假设。

因子分析的假设包括：各个共同因子之间不相关，特殊因子（specificfactor）之间也不相关，共同因子和特殊因子之间也不相关。

4.求解方法不同求解主成分的方法：从协方差阵出发（协方差阵已知），从相关阵出发（相关阵R已知），采用的方法只有主成分法。

（实际研究中，总体协方差阵与相关阵是未知的，必须通过样本数据来估计）注意事项：由协方差阵出发与由相关阵出发求解主成分所得结果不一致时，要恰当的选取某一种方法；一般当变量单位相同或者变量在同一数量等级的情况下，可以直接采用协方差阵进行计算；对于度量单位不同的指标或是取值范围彼此差异非常大的指标，应考虑将数据标准化，再由协方差阵求主成分；实际应用中应该尽可能的避免标准化，因为在标准化的过程中会抹杀一部分原本刻画变量之间离散程度差异的信息。

此外，最理想的情况是主成分分析前的变量之间相关性高，且变量之间不存在多重共线性问题(会出现最小特征根接近0的情况)；求解因子载荷的方法：主成分法，主轴因子法，极大似然法，最小二乘法，a因子提取法。

主成分分析与因子分析法分解

ij
假定语文成绩
x2
（X1）和数学成
绩（X2）分别为标准化后的分数，右图为其散点图，椭圆倾斜为45度。
•• • • • • • • • • • • •• •• • • •• • • • •• • • • • •• • • • • • •
x1
如果将坐标轴 X1 和 X2 旋转45º ，那么点在新坐标
因子模型的表达式为：
x1 a11 F1 a12 F2 a1m Fm e1 x2 a21 F1 a22 F2 a2 m Fm e2 x p a p1 F1 a p 2 F2 a pm Fm e p
（二）因子分析法的模型

狭义的因子分析法常与主成分分析法在处理方法上有相类似之处，都要对变量规格化，并找出原始变量规格化后的相关矩阵。其主要不同点在于建立线性方程组时所考虑的方法，因子分析是以回归方程的形式将变量表示成因子的线性组合，而且要使因子数m小于原始变量维数p，从而简化了模型结构。其步骤为：将原始数据标准化→求标准化数据的相关矩阵→求相关矩阵的特征值和特征向量→计算方差贡献率与累计方差贡献率→确定因子→因子旋转→用原始的线性组合求各因子得分→求综合得分→得分排序

(一)计算相关系数矩阵 (二)计算特征值与特征向量 (三)计算主成分贡献率及累计贡献率 (四)计算主成分载荷
（一）计算相关系数矩阵
r11 r 21 R rp1 r12 r22 rp 2 r1 p r2 p rpp
(2)
22
且
var( Yi ) α i Σαi cov( Yi , Y j ) αi Σα j

主成分分析、因子分析、聚类分析的比较与应用

主成分分析、因子分析、聚类分析的比较与应用一、本文概述在数据分析与统计学的广阔领域中，主成分分析（PCA）、因子分析（FA）和聚类分析（CA）是三种重要的数据分析工具。

它们各自具有独特的功能和应用领域，对数据的理解和解释提供了不同的视角。

本文将对这三种分析方法进行详细的比较，并探讨它们在各种实际场景中的应用。

我们将对每种分析方法进行简要的介绍，包括其基本原理、数学模型以及主要的应用场景。

然后，我们将详细比较这三种分析方法在数据降维、变量解释以及数据分类等方面的优势和劣势。

主成分分析（PCA）是一种常见的数据降维技术，通过找出数据中的主要变量（即主成分），可以在保留数据大部分信息的同时降低数据的维度。

因子分析（FA）则是一种通过寻找潜在因子来解释数据变量之间关系的方法，它在心理学、社会学等领域有着广泛的应用。

聚类分析（CA）则是一种无监督学习方法，通过将数据点划分为不同的类别，揭示数据的内在结构和分布。

接下来，我们将通过几个具体的案例，展示这三种分析方法在实际问题中的应用。

这些案例将涵盖不同的领域，如社会科学、生物医学、商业分析等，以展示这些方法的多样性和实用性。

我们将对全文进行总结，并提出未来研究方向。

通过本文的比较和应用研究，我们希望能为读者提供一个全面、深入的理解这三种重要数据分析方法的视角，同时也为实际问题的解决提供一些有益的启示。

二、主成分分析（PCA）主成分分析（Principal Component Analysis，简称PCA）是一种常用的数据分析方法，它旨在通过正交变换将原始数据转换为一组线性不相关的变量，即主成分。

这些主成分按照方差大小进行排序，第一个主成分具有最大的方差，后续主成分方差依次递减。

通过这种方式，PCA可以在保持数据主要特征的同时降低数据的维度，简化数据结构，便于进一步的分析和可视化。

PCA的核心思想是数据降维，它通过计算协方差矩阵的特征值和特征向量来实现。

特征值代表了各个主成分的方差大小，而特征向量则构成了转换矩阵，用于将原始数据转换为主成分。

第13章主成分分析与因子分析

Pop 0.01602 f1 + 0.9946f2 School 0 .941f1 - 0.00882f2 employ 0.137f1 + 0.98f2 Services 0.825f1 +0.447f2 house 0.968f1 - 0.00605f2 第一主因子对中等学校平均校龄,专业服务项目,中等房价有绝对值较大的载荷(代表一般社会福利-福利条件因子); 而第二主因子对总人口和总雇员数有较大的载荷 (代表人口-人口因子). P326 比较有用的结果:因子得分fac1_1, fac2_1。其计算公式：因子得分系数和原始变量的标准化值的乘积之和（P326)。然后可以利用因子得分进行聚类p327 （Analyze->Classify->Hierarchical Cluster）。
-4
-2
0
2
4
-4
-2
0
2
4
主成分分析
对于多维变量的情况和二维类似，也有高维的椭球，只不过无法直观地看见罢了。首先把高维椭球的主轴找出来，再用代表大多数数据信息的最长的几个轴作为新变量；这样，主成分分析就基本完成了。注意，和二维情况类似，高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合，叫做主成分(principal component)。
第13章主成分分析与因子分析
主成分分析与因子分析的概念
需要与可能：在各个领域的科学研究中，往往需要对反映事物的多个变量进行大量的观测，收集大量数据以便进行分析寻找规律。多变量大样本无疑会为科学研究提供丰富的信息，但也在一定程度上增加了数据采集的工作量，更重要的是在大多数情况下，许多变量之间可能存在相关性而增加了问题分析的复综合的。盲目减少指标会损失很多信息，容易产生错误的结论。因此需要找到一个合理的方法，减少分析指标的同时，尽量减少原指标包含信息的损失，对所收集的资料作全面的分析。由于各变量间存在一定的相关关系，因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。主成分分析与因子分析就是这样一种降维的方法。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1.（10分）数据中心化和标准化在回归分析中的意义是什么？在多元线性回归分析中,因为涉及多个自变量,自变量的单位往往不同,会给分析带来一定的困难,又由于涉及的数据量很大,就可能会以舍入误差而使得计算结果不理想. 1.中心化处理后可以减少一个未知参数,减少了计算的工作量,对手工计算尤为重要. 2.标准化处理后有利于消除量纲不同和数量级的差异所带来的影响,避免不必要的误差. 2.（10分）在实际问题中运用多元线性回归应注意哪些问题？在实际问题中,人们用复相关系数R来表示回归方程对原有数据拟合程度的好坏,但是拟合优度并不是检验模型优劣的唯一标准,有时为了使模型从结构上有较合理的经济解释,R2

等于0.7左右也给回归模型以肯定的态度. 在多元线性回归分析中,我们并不看重简单相关系数,而认为偏相关系数才是真正反映因变量y与自变量xi以及自变量xi与xj的相关性的数量. 用相关系数R2大小来衡量模型的拟合优度,不能仅由R2值很大来推断模型优劣. 在实际应用回归方程进行控制和预测时,给定的x0值不能偏离样本均值太大,如果太大,用回归方程无论是作因素分析还是经济预测,效果都不会理想. 得到实际问题的经验回归方程后,还不能马上用它去作分析和预测,还需运用统计方法对回归方程进行检验.

3.（15分）主成分分析与因子分析的主要方法和思想是什么？两者有何联系与区别？求解主成分的方法：从协方差阵出发（协方差阵已知），从相关阵出发（相关阵R已知），采用的方法只有主成分法。一、主成分分析的基本思想在对某一事物进行实证研究中，为了更全面、准确地反映出事物的特征及其发展规律，人们往往要考虑与其有关系的多个指标，这些指标在多元统计中也称为变量。这样就产生了如下问题：一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标，而另一方面随着考虑指标的增多增加了问题的复杂性，同时由于各指标均是对同一事物的反映，不可避免地造成信息的大量重叠，这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。基于上述问题，人们就希望在定量研究中涉及的变量较少，而得到的信息量又较多。主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。既然研究某一问题涉及的众多变量之间有一定的相关性，就必然存在着起支配作用的共同因素，根据这一点，通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究，利用原始变量的线性组合形成几个综合指标（主成分），在保留原始变量主要信息的前提下起到降维与简化问题的作用，使得在研究复杂问题时更容易抓住主要矛盾。一般地说，利用主成分分析得到的主成分与原始变量之间有如下基本关系： 1.每一个主成分都是各原始变量的线性组合； 2.主成分的数目大大少于原始变量的数目 3.主成分保留了原始变量绝大多数信息 4.各主成分之间互不相关通过主成分分析，可以从事物之间错综复杂的关系中找出一些主要成分，从而能有效利用大量统计数据进行定量分析，揭示变量之间的内在关系，得到对事物特征及其发展规律的一些深层次的启发，把研究工作引向深入。

因子分析方法: 求解因子载荷的方法：主成分法，主轴因子法，极大似然法，最小二乘法，a因子提取法。因子分析的基本思想因子分析的基本思想是根据相关性大小把原始变量分组，使得同组内的变量之间相关性较高，而不同组的变量间的相关性则较低。每组变量代表一个基本结构，并用一个不可观测的综合变量表示，这个基本结构就称为公共因子。对于所研究的某一具体问题，原始变量就可以分解成两部分之和的形式，一部分是少数几个不可测的所谓公共因子的线性函数，另一部分是与公共因子无关的特殊因子。在经济统计中，描述一种经济现象的指标可以有很多，比如要反映物价的变动情况，对各种商品的价格做全面调查固然可以达到目的，但这样做显然耗时耗力，为实际工作者所不取。两者的联系主成分分析和因子分析方法都属于多元统计分析中处理降维的统计方法。在数理统计的基本原理上，两者都是基于多变量的相关系数矩阵，在确保较少信息缺失的前提下（一般小于或等于15%），用少数几个不相关综合变量概括多个变量的信息（多个变量之间存在较强的相关性）。即用少数不相关的综合变量尽可能全面的反映多个原始变量的信息，消除了原始变量的相关性，可信度得到提高，统计结果可以有效地解释现实问题。需要注意的是，两种方法产生的新的变量（因子）不是原始变量筛选后的剩余变量，而是综合所有变量信息后的新变量。其中，在主成分分析过程中，新变量是原始变量的线性组合，即将多个原始变量经过线性（坐标）变换得到新的变量。在因子分析过程中，新变量则是通过原始变量之间的复杂关系对原始变量进行分解，得到公共因子和特殊因子。其中公共因子是所有原始变量中所共同具有的特征，而特殊因子则是原始变量所特有的部分。两种方法下得到的主成分变量与因子变量在数量上显著少于原始变量，起到了降维的作用，也提高了数据有效利用程度.

主成分分析与因子分析的区别

老师的版本 1、因子分析把展示在我们面前的诸多变量看成由对每一个变量都有作用的一些公共因子和一些仅对某一个变量有作用的特殊因子线性组合而成。因此，我们的目的就是要从数据中探查能对变量起解释作用的公共因子和特殊特殊因子，以及公共因子和特殊因子组合系数。主成分分析则简单一些，它只是从空间生成的角度寻找能解释诸多变量变异绝大部分的几组彼此不相关的新变量（主成分）。 2、因子分析中是把变量表示成各因子的线性组合，而主成分分析中则是把主成分表示成各变量的线性组合。 3、主成分分析中不需要有假设，因子分析则需要一些假设。因子分析的假设包括：各个公共因子之间不相关，特殊因子（specific factor）之间也不相关，公共因子和特殊因子之间也不相关。 4、抽取主因子的方法不仅仅有主成分法，还有极大似然法等，基于这些不同算法得到的结果一般也不同。而主成分只能用主成分法抽取。 5、主成分分析中，当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候，主成分一般是固定的；而因子分析中因子不是固定的，可以旋转得到不同的因子。 6、在因子分析中，因子个数需要分析者指定（spss根据一定的条件自动设定，只要是特征值大于1的因子进入分析），指定的因子数量不同而结果不同。在主成分分析中，成分的数量是一定的，一般有几个变量就有几个主成分。 7、和主成分分析相比，由于因子分析可以使用旋转技术帮助解释因子，在解释方面更加有优势。而如果想把现有的变量变成少数几个新的变量（新的变量几乎带有原来所有变量的信息）来进入后续的分析，则可以使用主成分分析。当然，这中情况也可以使用因子得分做到。所以这种区分不是绝对的。

网上的版本

1.原理不同主成分分析基本原理：利用降维（线性变换)的思想，在损失很少信息的前提下把多个指标转化为几个不相关的综合指标（主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能（主成分必须保留原始变量90%以上的信息），从而达到简化系统结构，抓住问题实质的目的。

因子分析基本原理：利用降维的思想，由研究原始变量相关矩阵内部的依赖关系出发，把一些具有错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。就是要从数据中提取对变量起解释作用的少数公共因子（因子分析是主成分的推广，相对于主成分分析，更倾向于描述原始变量之间的相关关系）

2.线性表示方向不同因子分析是把变量表示成各公因子的线性组合；而主成分分析中则是把主成分表示成各变量的线性组合。

3.假设条件不同主成分分析：不需要有假设(assumptions), 因子分析：需要一些假设。因子分析的假设包括：各个共同因子之间不相关，特殊因子（specificfactor）之间也不相关，共同因子和特殊因子之间也不相关。

4.求解方法不同求解主成分的方法：从协方差阵出发（协方差阵已知），从相关阵出发（相关阵R已知），采用的方法只有主成分法。

求解因子载荷的方法：主成分法，主轴因子法，极大似然法，最小二乘法，a因子提取法。 5.主成分和因子的变化不同主成分分析：当给定的协方差矩阵或者相关矩阵的特征值唯一时，主成分一般是固定的独特的；

因子分析：因子不是固定的，可以旋转得到不同的因子。 6.因子数量与主成分的数量主成分分析：主成分的数量是一定的，一般有几个变量就有几个主成分（只是主成分所解释的信息量不等），实际应用时会根据碎石图提取前几个主要的主成分。

因子分析：因子个数需要分析者指定（SPSS和sas根据一定的条件自动设定，只要是特征值大于1的因子主可进入分析），指定的因子数量不同而结果也不同；

7.解释重点不同：主成分分析：重点在于解释个变量的总方差，因子分析：则把重点放在解释各变量之间的协方差。 8.算法上的不同：主成分分析：协方差矩阵的对角元素是变量的方差；

因子分析：所采用的协方差矩阵的对角元素不在是变量的方差，而是和变量对应的共同度（变量方差中被各因子所解释的部分）

9.优点不同：因子分析：对于因子分析，可以使用旋转技术，使得因子更好的得到解释，因此在解释主成分方面因子分析更占优势；其次因子分析不是对原有变量的取舍，而是根据原始变量的信息进行重新组合，找出影响变量的共同因子，化简数据；

主成分分析：第一：如果仅仅想把现有的变量变成少数几个新的变量（新的变量几乎带有原来所有变量的信息）来进入后续的分析，则可以使用主成分分析，不过一般情况下也可以使用因子分析；

第二：通过计算综合主成分函数得分，对客观经济现象进行科学评价；第三：它在应用上侧重于信息贡献影响力综合评价。第四：应用范围广，主成分分析不要求数据来自正态分布总体，其技术来源是矩阵运算的技术以及矩阵对角化和矩阵的谱分解技术，因而凡是涉及多维度问题，都可以应用主成分降维；

10.应用场景不同：

主成分分析与因子分析的主要方法和思想

合集下载

eviews中主成分分析和因子分析详解

主成分与主因子

SPSS 因子分析和主成分分析

主成分分析与因子分析法

SPSS主成分分析与因子分析

主成分因子分析

因子分析与主成分分析

主成分分析与因子分析

主成分分析、因子分析

主成分分析与因子分析

主成分分析法与因子分析法的区别

主成分分析与因子分析法分解

主成分分析、因子分析、聚类分析的比较与应用

第13章主成分分析与因子分析

文档推荐

最新文档