第8章-主成分分析与因子分析-1

格式：ppt
大小：1.61 MB
文档页数：77

下载文档原格式

主成分分析与因子分析

主成分分析与因子分析
汇报人：张强组员：林培鸿曾志成邦锦阳郝超蔡凌峰杨辉张强
一、主成分分析
一、主成分分析基本思想
通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。
该方法主要基于众多变量之间有一定的相关性，则必然存在着起支配作用的共同因素这一想法，通过对原始变量相关矩阵或协方差矩阵内部结构关系进行研究，利用原始变量的线性组合形成几个综合指标，即主成分。
有时为了使公共因子的实际意义更容易解释，往往需要放弃公共因子之间不相关的约束而进行斜交旋转。最常用的斜交旋转方法为Promax方法。
参数设置
结果分析
由模式矩阵可知，变量X2,X3,X4在第一公共因子上的载荷均较大，尤其X3的载荷最大，因此第一公共因子主要反映水泥企业的规模；变量X6,X7在第二公共因子上的载荷较大，则第二公共因子主要反映水泥企业的营业能力。总之，两个公共因子均较未旋转前更容易解释。
主成分分析与因子分析的区别
二者的本质不同主要体现在以下几个方面:
(1) 因子分析把诸多变量看成是对每一个变量都有作用的一些公共因子和一些仅对某一个变量有作用的特殊因子的线性组合。因此，其目的就是要从数据中探查能对变量起解释作用的公共因子和特殊因子，以及公共因子和特殊因子的组合系数。主成分分析则简单一些，它只是从空间生成的角度寻找能解释诸多变量绝大部分变异的几组彼此不相关的新变量(主成分)，它是一种可逆的数据变换。
相关性检验结果
由表可知，除了变量X7,原始各变量之间存在较强的相关性。 KMO统计量的值为0.785，在0.01的显著性水平下，球形检验拒绝相关阵为单位阵的原假设，说明适合做因子分析，并且因子分析的效果较好。

主成份分析和因子分析

27
用SPSS计算的主成分得分

1、把原始变量标准化；按照主成分的计算公式可以计算出主成分得分。注：SAS、S-plus、R等软件可以直接给出主成分的系数表和主成分得分。
中央财经大学统计学院
28
主成分分析案例2

100个学生的六门成绩（数学、物理、化学、语文、历史、英语）见STUDENT.SAV。根据数据进行主成分分析。
志向抱负理解能力潜能
.704
.842 .721 .672
.698
.758 .883 .777
.280
.215 .386 .416
.815
.860 .782 .754
.337
.195 .299 .348
求职渴望度
适应力
.482
.250
.527
.416
.448
.003
.563
.558
.215
.693
一项十分著名的工作是美国的统计学家斯通 (Stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据，得到了17个反映国民收入与支出的变量要素，例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。在进行主成分分析后，竟以97.4％的精度，用三个新变量就取代了原17个变量。
简历格式自信心 .092 洞察力 .228 诚信度 -.107 推销能力 .271 工作经验 .548

相关系数表中有较大的相关系数，主成分分析可能有效。
外貌
研究能力兴趣爱好自信心
.431
.001 .302 1.000
.371
.077 .483 .808

spss第8章主成分分析与因子分析

意的 i, j (1 ≤ i ≤ m,1 ≤ j ≤ n) , Cov(xi , x j ) 都存在，则称矩阵
, yn ) 是 n 维随机向量. 若对任
⎛ Cov(x1, y1) Cov(x1, y2 )
⎜ ⎜
Cov(
x2
,
y1
)
Cov(x2 , y2 )
⎜
⎜ ⎝ Cov(xm , y1) Cov( xm , y2 )
⎟ ⎟
⎟
xpn ⎟⎟⎠
(σ ij ) p× p
， F = AX
Cov(F) = Cov(AX, AX) = ACov(X)A′ V (F)
由于 Cov(X) 是非负定对称矩阵，所以存在正交矩阵 U ，使得
⎡λ1 0
0⎤
U−1Cov(X)U
=
⎢ ⎢ ⎢
0
λ2
0
⎥ ⎥
⎥
⎢ ⎣
0
0
λ
p
⎥ ⎦
其中 λ1, λ2, ,λp 为 Cov(X) 的特征根，不妨假设 λ1 ≥ λ2 ≥
（5）若 X 是随机向量， Cov(X) 存在，则 Cov(X) 是非负定矩阵.
后面的推导过程中用到两个线性代数中的 2 个重要结论. 定理 7-2 （1）若 A 是 p 阶实对称阵，则一定可以找到正交阵 U ，使
⎡λ1 0
0⎤
U−1AU
=
⎢ ⎢ ⎢
0
λ2
0
⎥ ⎥
⎥
⎢ ⎣
0
0
λp
⎥ ⎦
其中 λi ,i = 1.2. p 是 A 的特征根.
（3）对任何向量 a = (a1, a2 , , am )′ ， b = (b1,b2 , , bn )′ ，有 Cov(a′X, b′Y) = a′Cov(X, Y)b . （4）对任何 p × m 阶矩阵 A ， q × n 阶矩阵 B ，有 Cov(AX, BY) = ACov(X, Y)B′

SPSS主成分分析与因子分析

参考文献
6、甘肃省区域综合经济实力变动分析作者：魏奋子《开发研究》2003年第3期P43~45 7、江苏省区域经济实力的综合评价与实证分析作者：门可佩《江苏统计》2001年第12期P15~17 8、数理统计方法在河南经济发展水平和分区研究中
的应用作者：刘钦普《数理统计与管理》 2002年第3期
X1
cos2 sin2 1
(
sin
)
2
cos2
1
cos ( sin ) sin cos 0
Y1 Y2
cos sin
s in cos
X1 X2
U
X
§8.1.2主成分分析的基本概念
主成分分析(Principle Component Analysis) 也称主分量分析,是一种将多个指标化为少数几个综合指标的统计分析方法。
2.Y1是X1、X2、…、X p的一切线性组合中方差最大的； Y2是与Y1不相关的X1、X2、…、X p的一切线性组合中方差最大的；（ Y2的方差小于Y1的方差）； Y p是与Y1、Y2、…、Yp-1都不相关的X1、X2、…、X p的一切线性组合中方差最大的（ Y p的方差小于 Y1 、Y2 、 … 、 Yp-1的方差)。这样确定的综合指标就称为原变量的第一主成分, 第二主成分,第p主成分。
二、几个重要的概念
1．因子载荷
在因子分析模型中，a i j称为因子载荷，它反应了第i个原始变量Xi在第j个公因子F j上的相对重要性。可以证明原始变量Xi与公因子F j之间的相关系数等于a i j ，即
rYk ,Xi aij k eki
k, i 1,2,, p
a i j的绝对值越大，表示原始变量Xi与公因子F j之间关系越密切。

卫生统计学：主成分分析与因子分析

〔factor loading〕矩阵
通常先对x作标准化处理，使其均值为零，方差为１．这样就有
x i a i1 f1 a i2 f2 a im fm e i
假定〔１〕fi的均数为 i22 ０，方差为１；〔２〕ei的均数为０，方差为δi；〔３〕 fi与ei相互独立．
那么称x为具有m个公共因子的因子模型
〔２〕δi称为特殊方差〔specific variance〕，是不能由公共因子解释的局部
▪ 因子载荷〔负荷〕aij是随机变量xi与公共因子fj的相关系数。
▪设
p
g
2 j
a
2 ij
i1
j 1, 2 ,..., m
▪ 称gj2为公共因子fj对x的“奉献〞，是衡量公共因子fj重要性的一个指标。
根本思想：使公共因子的相对负荷〔lij/hi2〕的方差之和最大，且保持原公共因子的正交性和公共方差总和不变。
可使每个因子上的具有最大载荷的变量数最小，因此可以简化对因子的解释。
〔2〕斜交旋转〔oblique rotation〕
因子斜交旋转后，各因子负荷发生了较大变化，出现了两极分化。各因子间不再相互独立，而彼此相关。各因子对各变量的奉献的总和也发生了改变。
ai2j
g
2 j
i1
▪ 极大似然法〔maximum likelihood factor〕
▪ 假定原变量服从正态分布，公共因子和特殊因子也服从正态分布，构造因子负荷和特殊方差的似然函数，求其极大，得 factor〕
▪ 设原变量的相关矩阵为 R=(rij)，其逆矩阵为R-1=(rij)。各变量特征方差的初始值取为逆相关矩阵对角线元素的倒数， δi’=1/rii。那么共同度的初始值为(hi’) 。

主成分分析和因子分析-回归分析和相关分析的区别

主成分分析和因子分析的区别通过主成分分析所得来的新变量是原始变量的线性组合，每个主成分都是由原有P个变量线组合得到，在诸多主成分z中，Z1在总方差中占的比重最大，说明它综合原有变量的能力最强，其余主成分在总方差中占的比重依次递减，说明越往后的主成分综合原信息的能力越弱。

以后的分析可以用前面几个方差最大的主成分来进行，一般情况下，要求前几个z所包含的信息不少于原始信息的85％，这样既减少了变量的数目，又能够用较少的主成分反映原有变量的绝大部分信息。

如利用主成分来消除多元回归方程的多重共线性，利用主成分来筛选多元线性回归方程中的变量等。

通过因子分析得来的新变量是对每一个原始变量进行内部剖析。

打比喻来说，原始变量就如成千上万的糕点，每一种糕点的原料都有面粉、油、糖及相应的不同原料，这其中，面粉、油、糖是所有糕点的共同材料，这正好象是因子分析中的新变量即因子变量。

正确选择因子变量后，如果想考虑成千上万糕点的物价变动，只需重点考虑面粉、油、糖等公共因子的物价变动即可。

所以因子分析不是对原始变量的重新组合，而是对原始变量进行分解，分解为公共因子与特殊因子两部分。

即因子分析就是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系，它把原始变量分解为两部分因素，一部分是由所有变量共同具有的少数几个公共因子构成的，另一部分是每个原始变量独自具有的因素，即特殊因子。

1、因子分析中是把变量表示成各因子的线性组合，而主成分分析中则是把主成分表示成各个变量的线性组合。

在主成分分析中，最终确定的新变量是原始变量的线性组合，如原始变量为x1，x2，. . . ，x3 ，经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。

在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。

2、主成分分析的重点在于解释各变量的总方差，而因子分析则把重点放在解释各变量之间的协方差。

主成分分析与因子分析

∴
( yk ,xi )
k ii
tik
4. m个主成分对原始变量的贡献率
用xi 与 y1 , …, ym 的复相关系数的平方，作为
度量主成分y1 , …, ym包含有 xi 的信息多少的指标
称为m个主成分y1 , …, ym对原始变量xi的贡献率，
记为νi（ i21 m）。
m
m
ቤተ መጻሕፍቲ ባይዱ
i 2 ( xi ,y j ) jti2j / ii
载荷矩阵
∵ X=T y 其中 T = ( tij )

x1 x2

t11 t21
t12 t22
x p
t p1
t p2
t1 p t2 p

y1 y2

t
pp

y
p

选取前m个主成分，记

xˆ 1

一般地，第 i 主成分为：
y i tiT x
var yi i ,
i 1, p
主成分的性质
1.主成分的协方差矩阵
Y

y1

,

1
0
y p
0
p
由于 Y T T X X TY
var(Y ) var( T T x ) T T var( x )T T T T TTTTTT
标准化主成分 f 的载荷矩阵
先对m个主成分的方差标准化，再求出主成分的载荷矩阵。令：

主成分分析和因子分析(朱艳科)

主成分分析和因子分析法一、主成分分析概论主成分分析的工作对象是样本点×定量变量类型的数据表。

它的工作目标，就是要对这种多变量的平面数据表进行最佳综合简化。

也就是说，要在力保数据信息丢失最少的原则下，对高维变量空间进行降维处理。

很显然，识辨系统在一个低维空间要比一个高维空间容易得多。

英国统计学家斯格特（M.Scott ）在1961年对157个英国城镇发展水平进行调查时，原始测量的变量有57个。

而通过主成分分析发现，只需5个新的综合变量（它们是原变量的线性组合），就可以95%的精度表示原数据的变异情况，这样，对问题的研究一下子从57维降到5维。

可以想象，在5维空间中对系统进行任何分析，都比在57维中更加快捷、有效。

另一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。

他曾利用美国1929～1938年各年的数据，得到了17个反映国民收入与支出的变量要素，例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息和外贸平衡等等。

在进行主成分分析后，竟以97.4%的精度，用三个新变量就取代了原17个变量。

根据经济学知识，斯通给这三个新变量要别命名为总收入1F 、总收入变化率2F 和经济发展或衰退的趋势3F （是时间t 的线性项）。

更有意思的是，这三个变量其实都是可以直接测量的。

二、主成分分析的基本思想与理论1、主成分分析的基本思想在对某一事物进行实证研究中，为了更全面、准确地反映出事物的特征及其发展规律，人们往往要考虑与其有关系的多个指标，这些指标在多元统计中也称为变量。

这样就产生了如下问题：一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标，而另一方面随着考虑指标的增多增加了问题的复杂性，同时也由于各指标均是对同一事物的反映，不可避免地造成信息的大量重叠，这种信息有时甚至会抹杀事物的真正特征与内在规律。

基于上述问题，人们就希望在定量研究中涉及的变量较少，而得到的信息量又较多。

主成分分析、因子分析

主成分分析在许多领域的研究与应用中，往往需要对反映事物的多个变量进行大量的观测，收集大量数据以便进行分析寻找规律。

多变量大样本无疑会为研究和应用提供了丰富的信息，但也在一定程度上增加了数据采集的工作量，更重要的是在多数情况下，许多变量之间可能存在相关性，从而增加了问题分析的复杂性，同时对分析带来不便。

如果分别对每个指标进行分析，分析往往是孤立的，而不是综合的。

盲目减少指标会损失很多信息，容易产生错误的结论。

因此需要找到一个合理的方法，在减少需要分析的指标同时，尽量减少原指标包含信息的损失，以达到对所收集数据进行全面分析的目的。

由于各变量间存在一定的相关关系，因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。

主成分分析与因子分析就属于这类降维的方法。

主成分分析是设法将原来众多具有一定相关性（比如P个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。

主成分分析，是考察多个变量间相关性一种多元统计方法，研究如何通过少数几个主成分来揭示多个变量间的内部结构，即从原始变量中导出少数几个主成分，使它们尽可能多地保留原始变量的信息，且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合，作为新的综合指标。

最经典的做法就是用F1（选取的第一个线性组合，即第一个综合指标）的方差来表达，即Var(F1)越大，表示F1包含的信息越多。

因此在所有的线性组合中选取的F1应该是方差最大的，故称F1为第一主成分。

如果第一主成分不足以代表原来P个指标的信息，再考虑选取F2即选第二个线性组合，为了有效地反映原来信息，F1已有的信息就不需要再出现在F2中，用数学语言表达就是要求Cov(F1, F2)=0，则称F2为第二主成分，依此类推可以构造出第三、第四，……，第P个主成分。

2. 问题描述下表1是某些学生的语文、数学、物理、化学成绩统计：首先，假设这些科目成绩不相关，也就是说某一科目考多少分与其他科目没有关系。

主成分分析

第八章主成分分析与因子分析一、学习目的与要求主成分分析也称为主分量分析，是由霍特林于1933年首先提出的．主成分分析是利用降维的思想，在尽量少损失信息的前提下将多个指标转化为几个综合指标的应用统计方法．通常把转化生成的几个综合指标称为主成分，其中每个主成分都是原始变量的线性组合，它们不仅能综合反映原有指标的信息，而且使各个主成分之间互不相关，因此使得每个主成分比原始变量具有某些更优越的性能．这样在研究复杂问题时就可以只考虑少数几个主成分而不致于损失太多信息，从而更容易抓住主要矛盾，揭示事物内部变量间的规律性，同时使问题得以简化，提高分析效率．本章主要讨论主成分分析及因子分析的基本思想和方法．学习本章要密切联系实际，着重理解主成分分析及因子分析的基本思想方法，了解主成分的性质，了解主成分分析和因子分析的求解方法、实现步骤及其异同．二、内容提要（一）主成分分析1．主成分分析的基本思想日常生活和科学研究中，人们为了更全面、准确地反映出事物的特征及其变化规律，往往需要考虑与其有关的多个指标，这些指标在应用统计中也称为变量．这样就产生了如下的问题：一方面为了避免遗漏重要的信息而考虑尽可能多的指标，而另一方面随着考虑指标的增多增加了问题的复杂性．同时由于各指标均是对同一事物的反映，不可避免的造成信息的大量重叠，这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律．因此有必要在尽可能少丢失信息的前提下减少指标的个数（降维），即从所研究的多个指标中，求出几个新指标，它们能综合原有指标的信息，用这几个新指标进行分析仍应用统计方法学习指导能达到我们的目的．主成分分析正是研究如何通过原始变量的少数几个线性组合来解释原来变量绝大多数信息的一种统计方法．既然所研究问题涉及各个变量之间存在一定的相关性，就必然存在着起主导作用的共同因素．据此可通过对原始变量相关矩阵或协方差矩阵内部结构关系研究，利用原始变量的线性组合形成几个综合指标（主成分），在保留原始变量主要信息的前提下起到降维与化简问题的作用，使得在研究复杂问题时更容易抓住主要矛盾．总之，利用主成分分析得到的主成分与原始变量之间有如下基本关系：（1）每一个主成分都是某些原始变量的线性组合．（2）主成分的数目大大少于原始变量的数目．（3）主成分保留了原始变量绝大多数信息．（4）各主成分之间互不相关．通过主成分分析，可以从事物之间错综复杂的关系中找出一些主要成分，从而能有效利用大量统计数据进行定量分析，揭示变量之间的内在关系及统计规律．2．主成分分析的基本理论设某研究涉及个指标，分别用表示，这个指标构成的随机向量为．设随机向量m m x x x ,,,21"m ),,,(′=x x x X 21m "X 的均值为µ，协方差阵为．Σ对X 进行线性变换，可以形成新的综合变量，用Y 表示，即新的综合变量可以由原始变量线性表示如下：（8-1） ⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=mmm m m m mm mm x l x l x l y x l x l x l y x l x l x l y """""22112222121212121111由于可以任意地对原始变量进行线性变换，由不同的线性变换得到的新的综合变量Y 的统计特性也不尽相同．因此为了取得较好的效果，我们总是希望的方差尽可能的大且各之间不相关，由于X l i i y ′=i y i i i i D Dy l l X l Σ′=′=)(而对任意的常数，有c第八章主成分分析与因子分析i i i i i c c c c D l l l l X l ΣΣ′=′=′2)(因此对不加限制时，可使任意增大，问题将变得没有意义．我们将线性变换约束在下面的原则下：i l i Dy （1），即（2）； 1=′i i l l 122221=+++im i i l l l "（2）与不相关，（i y j y m j i j i ,,2,1,;"=≠）；（3）是的一切满足（1）的线性组合1y m x x x ,,,21"X l ′=y 中方差达最大者；是与不相关的的所有线性组合中方差达最大者；以此类推，是与均不相关的的所有线性组合中方差达最大者；2y 1y m x x x ,,,21"m y 121,,,−m y y y "m x x x ,,,21"基于以上三条原则决定的综合变量分别为原始变量的第一、第二、"、第m 个主成分．其中，各综合变量在总方差中占的比重依次递减．在实际应用中通常只挑选前几个方差较大的主成分，从而达到简化系统结构、抓住问题实质的目的．m y y y ,,,21"3．主成分分析的几何意义我们以两个指标为例说明主成分的直观意义．设有个样品，每个样品有两个指标，，其平面n 1x x 2数据散点图如图8-1所示，显然两指标存在相关关系．这n 个样品无论沿轴方向还是沿1x 2x 轴方向均有较大的分散性，其分散程度可分别用变量的 1x 方差和的方差定量的表示，2x 显然，若只考虑和中的任 1x 2x 何一个，原始数据中的信息均会有较大的损失．我们的目的是考虑和的线性组合，使原始样品数据可有新的变量和来刻画．在几何上表示就是将坐标轴按逆时针方向旋转1x 2x 1y 2y θ角度，得到新坐标轴和，坐标旋转公式如下：1y 2y应用统计方法学习指导112212cos sin sin cos y x x y x x θθθθ=+⎧⎨=−+⎩其矩阵形式为：1122cos sin sin cos y x y x θθθθ⎡⎤⎡⎤⎡⎤==⎢⎥⎢⎥⎢⎥−⎣⎦⎣⎦⎣⎦UX 式中，U 为旋转变换矩阵，由上式可知它是正交的，即满足，1−′=U U ′=U U I 经过这样的旋转之后，n 个样品点在轴上的分散程度最大，变量代表了原始数据绝大部分信息，这样，即使不考虑变量也无损大局．因此，经过上述旋转变换就可以把原始数据的信息集中到轴上，对数据中包含的信息起到了浓缩的作用．进行主成分分析的目的就是找出旋转矩阵U ，进而求的新的综合指标，即可依据实际问题的具体情况选择主成分．1y 1y 2y 1y 4．主成分及其性质设为维随机向量，则),,,(21′=m x x x "X m X 的第1，2，…，主成分定义为m X l i i y ′=，1=′i i l l （m i ,,2,1"=），它们满足（1）第一主成分是一切形如1y X l ′=y ，1=′l l 使的方差达极大者； y （2）第二主成分是一切形如2y X l ′=y ，1=′l l 且与不相关使的方差达极大者；1y y （3）第i 主成分是一切形如)(m i y i ≤X l ′=y ，1=′l l 且与不相关使的方差达极大者；121,,,−i y y y "y 由协方差矩阵求解主成分：设),,,(21′=m x x x "X 为m 维随机向量，协方差阵为，Σ的m 个特征值为Σ021≥≥≥≥m λλλ"，相应的标准正交化特征向量为，则m l l l ,,",21X 的第i 主成分X l i ′=i y ，且i λ=i Dy （）． m i ,,2,1"=充要条件：设Y 为维随机向量，m Y 的分量依此是m y y y ,,,21"X 的第一、第二、…、第主成分的充分必要条件为m第八章主成分分析与因子分析（1）X T Y ′=，为正交阵；),,,(21m l l l T "=（2）Y 的协方差矩阵为对角阵),,,(21m diag λλλ"=Λ；（3）m λλλ≥≥≥"21．主成分的目的是为了减少变量的个数，因此一般不用个主成分，而是用个主成分，在应用中我们自然要考虑k 应取多大．为此，我们引入累计贡献率．m m k <累计贡献率：称为主成分的贡献率，为主成分的累计贡献率．∑=mj j i 1/λλi y ∑∑==mj j ki i 11/λλk y y y ,,,21"通常取使累计贡献率达70%~80%以上．累计贡献率表达了个主成分提取原来指标的多少信息，这需要用到下面的概念．k k m x x x ,,,21"因子负荷量：称jkj k j k Dx Dy x y x y ),(Cov ),(=ρ为因子负荷量；而称为主成分对原变量的贡献率．∑==ki j i j x y 12),(ρνk y y y ,,,21"j x 主成分具有如下性质：（1），其中∑∑===mi ii mi i 11σλm m ij ×=)(σΣ ．（2）jj jk k j k t x y σλρ/),(=，其m m ×中ij t =)(T 阵．（3）．（4）．（5）2=∑为充要条件中的正交jj jk ki i j t σλν/21∑==∑==mi k i k ii x y 12),(λρσ1),(1=mx y ρ．指出的是：为了消除不同量纲可能带来的影响，通常将变量标准化． k i k 需要令iii Dx Ex x x −=* ),,2,1(m i "=，应用统计方法学习指导这时的协方差阵就是),,,(**2*1*′=m x x x "X X 的相关阵，由相关阵出发去求主成分．R R 5．样本主成分上面讨论的主成分是在Σ（或R ）已知的情况下，但在实际问题中（或）往往是未知的，这就需要用样本去估计．ΣR 设总体的组观察值为，．令),,,(21′=m x x x "X N ),,,(21′=im i i i x x x "X ),,2,1(N i "= ∑=−−−=Nl j lj i li ij x x x x N 1))((11σ，（8-2）jjii ij ij r σσσ=，（8-3）其中∑==Nl li i x Nx 11．则有样本协方差阵 m m ij ×=)(σS ，（8-4）样本相关阵，（8-5） m m ij r ×=)(R 它们分别为总体协方差阵和总体相关阵的估计．有（或S R ）出发求得的个标准正交化的特征向量，则S m m l l l ,,,21"X l i ′=i y ),,2,1(m i "=，称为个样本主成分．将m X 的观察值代入，可得样本主成分数据j ji y X l i ′=),,2,1;,,2,1(m i N j ""==．（二）因子分析在科学研究中，往往需要从多个角度对反映事物现象进行观测，也就设计出多个观测变量，从多个变量收集大量数据以便进行分析寻找规律．多变量大样本虽然会为我们的科学研究提供丰富的信息，但确增加了数据采集和处理的难度．更重要的是在大多数情况下，许多变量之间存在一定的相关关系，从而增加了问题分析的复杂性．因子分析就是将大量的彼此可能存在相第八章主成分分析与因子分析关关系的变量转换成较少的，彼此不相关的综合指标的一种多元统计方法．因子分析最初是从心理学和教育学发展起来的，它也是多元统计分析中数据降维的一种．1. 因子分析模型设X 为维向量，其均值为m µ，协方差阵为Σ．如果X 可以表示为U Λf X ++=µ，（8-6）其中()ij m k λ×=Λ为常数矩阵，为维向量，可以是随机的，也可以是非随机的，U 为维向量；则称f k m X 有k 个因子的模型，称为公共因子，U 称为特殊因子，称为因子载荷矩阵． f Λ 当为随机向量时，通常假定 f 0=f E ，k I f =)(Cov ，，，（8-7）0=U E ψU ==ˆ),,()(Cov 221m diag ψψ" ，0),(Cov =U f 满足（8-9），（8-10）的因子模型称为正交因子模型，此时的分量是相互正交的．f 由上述假设，可得))(()(Cov ′−−==µµX X X ΣE )()(′++=U Λf U Λf EΛf f Λ′′=E =′+U U E ΛΛ′ψ+，（8-8）上式等价于212i kj ij ij ψλσ+=∑= ，（8-9） 22i i h ψ+=),,2,1(m i "=式中，∑==kj ij i h 122λ应用统计方法学习指导它反应了公共因子对的影响，称为共性方差．i x 需要指出的是：对于一个给定的协方差阵Σ和均值向量µ，如果可分解为（8-8）式，那么即可得到因子模型（8-6）．因子分析的目的就是由样本出发给出和ΣΣµ的估计，然后确定分解式（8-8），并给公共因子以实际背景解释，最后得到因子模型．2．建立因子模型——主因子法因为ΛΛψ′=−Σ为非负定阵，秩为，故存在一个正交矩阵，使得 k P ΦΣ==−′ˆ)0,,0,,,,()(21""k diag ϕϕϕP ψP ，且),,2,1(0k i i "=>ϕ．设为的前k 列，1P P ),,,(211k diag ϕϕϕ"=Φ，，则有),,,(2/12/122/112/11k diag ϕϕϕ"=Φ ，)(2/1112/111′=′=−ΦΦΦΣP P P P ψ故为一个解．如果我们能给出ψ的一个合适的估计，则我们可用的前个标准正交化的特征向量来得到的一个估计，这种估计称为主因子法．2/111Φ=P Λ1ˆψ1ˆˆψ−Σk Λ2/111ˆˆˆΦ=P Λ设为来自总体N X X X ,,,21"X 的长度为N 的样本．µ、的估计分别采用Σ ∑===Ni i N11ˆX X µ，（8-10）()(11ˆ1′−−−=∑=X X X X i Ni i N Σ，（8-11）估计ψ的方法很多，常用的方法如下：，（8-12）)ˆ,,ˆ(ˆ221m diag ψψ"=ψ其中，，（8-16）ii i σψ/1ˆ2=m m ij ×−=)(ˆ1σΣ 主因子法的关键是的选择．尽管k ψ−Σ的特征值都是非负的，但的ψˆˆ−Σ第八章主成分分析与因子分析特征值有可能是负的．这时选择满足：k （1）使k ϕϕϕˆˆˆ21+++"与m ϕϕϕˆˆˆ21+++"比较接近，这里m ϕϕϕˆˆˆ21≥≥≥"为的特征值； ψˆˆ−Σ （2）不超过正特征值k j ϕˆ的个数．主因子法的具体步骤如下：（1）计算Σ的估计、的初始估计，公式有（8-11）、（8-12）给出；Σˆψψˆ （2）求的个特征值ψˆˆ−Σm m ϕϕϕˆˆˆ21≥≥≥"及相应的为的标准正交化的特征向量；选择使ψˆˆ−Σm 21l ,,l ,l "k k ϕϕϕˆˆˆ21+++"与m ϕϕϕˆˆˆ21+++"很接近，同时不超过正特征值k j ϕˆ的个数，令，，)(ˆk l ,,l ,l P 21"=1)ˆ,,ˆ,ˆ(ˆ2/12/122/112/11k diag ϕϕϕ"=Φ则的初始估计为； Λ2/111ˆˆˆΦ=P Λ （3）令， )ˆˆˆ(ˆΛΛ′−=Σdiag ψ要求ψˆ的元素非负（负值取为零）；以ψˆ代替（2）的ψˆ，重复步骤（2）的计算，直到、ΛˆΦˆ稳定为止．由于，所以由（8-13）估计等价于估计共性方差：22i i ii h ψσ+=2i ψ2i h 22ˆˆˆi ii i h ψσ−=iiii σσ1ˆ−=．（48-1）在实际问题中，有时需要由相关阵出发讨论，这时只要将代替作上述分析即可．共性方差常用下面的估计：R R Σ ijij i r h ≠=max ˆ2．（8-15）此时．（8-16） 22ˆ1ˆii h −=ψ应用统计方法学习指导三、问题与思考1.主成分分析的基本思想是什么？如何选择主成分？2.什么是主因子法？四、例题析解例8-1设),,(321′=x x x X 的协方差阵为，试求： ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−−−−=Σ220242022 （1）第一、二主成分贡献率和累计贡献率，并计算的第一、二主成分．21,y y )1,2,1(′=X （2）第一、二主成分对原变量的因子负荷量和贡献率． 21,y y 2x 解: （1）求特征值，由0)6)(2(2224222=−−=−−−−−−−λλλλλλ解得三个特征值分别为61=λ，22=λ，03=λ．（2）求特征向量，由 022242022=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−−−−−−−ζηξλλλi ii将61=λ代入上式得 0420222024=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−−−−−−−ζηξ解得1=ξ， 2−=η，1=ζ，即得相应的标准化特征向量为⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−≈⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−++=4082.08165.04082.01216112114111l 同理解得22=λ相应的特征向量（标准化）为第八章主成分分析与因子分析⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−≈⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡−=7071.007071.0101212l 得第一主成分的贡献率为%75)026/(6=++ 第二主成分的贡献率为%25)026/(2=++ )1,2,1(′=X 的第一、二主成分分别为()8166.01214082.0,8165.0,4082.011−=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−=′=X l y()01217071.0,000.0,7071.022=⎟⎟⎟⎠⎞⎜⎜⎜⎝⎛−=′=X l y （2）由jj jk k j k t x y σλρ/),(=∑==ki j i j x y 12),(ρν得第一、二主成分对原变量的因子负荷量和贡献率为:21,y y 2x 141626/),(2221121−=×−×==σλρt x y0/),(2222222==σλρt x y ，1),(2122==∑=i j i x y ρν五、自测练习1．设的协方差阵为),,(321′=x x x X ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=Σ14/14/14/114/14/14/11应用统计方法学习指导（1）试讨论主成分对原变量的贡献率和累计贡献率，并计算的第一、二主成分；321,,y y y )3,2,1(′=X （2）)3,1,21(′−==EX µ，试利用主因子法建立因子模型．2. 下表中是10名男中学生的身高（1x ）、胸围（2x ）、体重（3x ）、的数据，试进行主成分分析．身高（1x ）胸围（2x ）体重（3x ）149.5 162.5 162.7 162.2 156.5 156.1 172.0 173.2 159.5 157.769.5 77.0 78.5 87.5 74.5 74.5 76.5 81.5 74.5 79.038.5 55.5 50.8 65.5 49.0 45.5 51.0 59.5 43.5 53.53．举一个应用因子分析方法的实例．。

主成分分析与因子分析的联系与区别

一、问题的提出在科学研究或日常生活中，常常需要判断某一事物在同类事物中的好坏、优劣程度及其发展规律等问题。

而影响事物的特征及其发展规律的因素（指标）是多方面的，因此，在对该事物进行研究时，为了能更全面、准确地反映出它的特征及其发展规律，就不应仅从单个指标或单方面去评价它，而应考虑到与其有关的多方面的因素，即研究中需要引入更多的与该事物有关系的变量，来对其进行综合分析和评价。

多变量大样本资料无疑能给研究人员或决策者提供很多有价值的信息，但在分析处理多变量问题时，由于众变量之间往往存在一定的相关性，使得观测数据所反映的信息存在重叠现象。

因此为了尽量避免信息重叠和减轻工作量，人们就往往希望能找出少数几个互不相关的综合变量来尽可能地反映原来数据所含有的绝大部分信息。

而主成分分析和因子分析正是为解因子分相关。

1.2.），3. 主成分的各系数，是唯一确定的、正交的。

不可以对系数矩阵进行任何的旋转，且系数大小并不代表原变量与主成分的相关程度；而因子模型的系数矩阵是不唯一的、可以进行旋转的，且该矩阵表明了原变量和公共因子的相关程度。

4. 主成分分析，可以通过可观测的原变量X直接求得主成分Y，并具有可逆性；因子分析中的载荷矩阵是不可逆的，只能通过可观测的原变量去估计不可观测的公共因子，即公共因子得分的估计值等于因子得分系数矩阵与原观测变量标准化后的矩阵相乘的结果。

还有，主成分分析不可以像因子分析那样进行因子旋转处理。

5.综合排名。

主成分分析一般依据第一主成分的得分排名，若第一主成分不能完全代替原始变量，则需要继续选择第二个主成分、第三个等等，此时综合得分=∑（各主成分得分×各主成分所对应的方差贡献率）,主成分得分是将原始变量的标准化值，代入主成分表达式中计算得到；而因子分析的综合得分=∑（各因子得分×各因子所对应的方差贡献率）÷∑各因子的方差贡献率，因子得分是将原始变量的标准化值，代入因子得分函数中计算得到。

第八章因子分析

对 x i 所特有的，即每门课程的考试成绩可以
看作由一个公因子(与智力相一致)和一个特殊因子之和组成。
例2 考虑人的五个生理指标：收缩压(x 1 )，舒张压( x 2 )，心跳间隔( x 3 )，呼吸间隔( x 4 )，舌下温度( x 5 )。从生理学的知识知道这五个指标
是受植物神经的交感神经和副交感神经这两个
（8.1）
神经和副交感神经，那么可以设想变量
xp ap1F1 ap2F2 apmFm p
用矩阵表示：
x1 a11 a12 a1m F1 1
x2
a21
a22
a2m
F2
2
x
p
a
p1
ap2
a
pm
Fm
p
X AF ε
高维空间中的互相垂直的m个坐标
例1
1
2
3
4
5
6
1.古典语 1
2.法语 0.83
1
3.英语 0.78 0.67
1
4.数学 0.70 0.67 0.64
1
5.判别 0.66 0.65 0.54 0.54 1
6.音乐 0.63 0.57 0.51 0.51 0.4 1
表中课程是按照相关系数从上到下递减排列的。 Spearman注意到相关矩阵中一个有趣的规律：如果不考虑对角元素的话，任意两列的元素大致
Y1 11X1 12X2 Y2 21X1 22X2
1p X p 2pXp
Yp p1X1 p2X2 pp X p
（8.2）
其中， i j 为随机向量 X 的相关矩阵的特征值所对应的特征向量的分量，因为特征向量之间彼此正交，从X 到 Y 的转换关系是可逆的，即有

应用多元统计分析课后答案第八章知识讲稿

这两种方法都是降维的统计方法, 它们都可用来对样品或变量进行分类.
•18
则
•15
第八章因子分析
因
所以
•16
第八章因子分析
8-5 试比较主成分分析和因子分析的相同之处
与不同点. 因子分析与主成分分析的不同点有:
(1) 主成分分析不能作为一个模型来描述,它只是通常的变量变换,而因子分析需要构造因子模
(2) 主成分分析中主成分的个数和变量个数p相
同,它是将一组具有相关关系的变量变换为一组不相关的变量(注意应用主成分分析解决实际问时,
•10
第八章因子分析
8-3 验证下列矩阵关系式(A为p×m阵)
解：利用分块矩阵求逆公式求以下分块矩阵的逆：
利用附录中分块求逆的二个公式(4 . 1 ) 和 ( 4 . 2ห้องสมุดไป่ตู้)有：
•11
第八章因子分析
由逆矩阵的对应块相等，即得：
•12
第八章因子分析
把B22·1和B11·2式代入以上各式，可得：由第三式和第二式即得
应用多元统计分析
第八章习题解答
•1
第八章因子分析
•2
第八章因子分析
•3
第八章因子分析
特殊因子ε＝(ε1, ε 2 , … , ε p ) " 的协差阵D为：
•4
第八章因子分析
•5
第八章因子分析
•6
第八章因子分析
•7
第八章因子分析
或者利用习题8-4的结果:
(3) 试求误差平方和Q(m)＜0.1的主成分解. 因Q(2)=0.07331＜0.1，故m=2的主成分解满足要求.
•13
第八章因子分析

因子分析与主成分分析

因子分析与主成分分析因子分析和主成分分析是统计学中常用的降维技术，它们在数据分析和模式识别等领域中广泛应用。

本文将介绍因子分析和主成分分析的基本概念与原理，并对它们的应用进行探讨。

一、因子分析的概念与原理因子分析是一种用于发掘多个变量之间潜在关联性的方法。

当我们面对大量变量时，往往希望找到其中的共性因素来解释观测数据。

因子分析通过将变量进行降维，将原始变量解释为共同的因子或构念，从而减少信息冗余，提取数据的主要特征。

因子分析的核心思想是假设多个观测变量是由少数几个潜在因子所共同决定的。

这些潜在因子无法直接观测，但可以通过观测变量的线性组合进行间接估计。

通过因子分析，我们可以得到因子载荷矩阵，它描述了每个观测变量与潜在因子之间的关系强度。

二、主成分分析的概念与原理主成分分析是一种常用的无监督学习方法，用于降维和数据压缩。

与因子分析类似，主成分分析也采用线性组合的方式将原始变量映射到一个低维的特征空间。

主成分分析的目标是找到一组新的变量，称为主成分，它们能够最大程度地保留原始数据中的信息。

主成分分析的步骤如下：1. 标准化数据：将原始数据标准化，使得变量的均值为0，方差为1，以消除变量尺度差异的影响。

2. 计算协方差矩阵：计算标准化后的数据的协方差矩阵，用于评估各个变量之间的相关性。

3. 特征值分解：对协方差矩阵进行特征值分解，得到特征值和特征向量。

4. 选择主成分：根据特征值大小，选择要保留的主成分数量。

5. 计算主成分：将原始数据投影到所选择的主成分上，得到降维后的数据。

三、因子分析与主成分分析的应用1. 数据降维：因子分析和主成分分析可以用于降低数据集的维度，减少冗余信息。

在机器学习和数据挖掘中，高维数据集的处理往往会面临计算复杂度和过拟合等问题，降维技术可以有效解决这些问题。

2. 变量选择：通过因子分析和主成分分析，可以识别出对观测数据具有重要影响的变量。

这对于特征选择和模型建立有重要意义，可以提高模型的解释性和泛化能力。

主成分分析法与因子分析法的区别

主成分分析和因子分析有十大区别：1.原理不同主成分分析基本原理：利用降维（线性变换)的思想，在损失很少信息的前提下把多个指标转化为几个不相关的综合指标（主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能（主成分必须保留原始变量90%以上的信息），从而达到简化系统结构，抓住问题实质的目的。

因子分析基本原理：利用降维的思想，由研究原始变量相关矩阵内部的依赖关系出发，把一些具有错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。

就是要从数据中提取对变量起解释作用的少数公共因子（因子分析是主成分的推广，相对于主成分分析，更倾向于描述原始变量之间的相关关系）2.线性表示方向不同因子分析是把变量表示成各公因子的线性组合；而主成分分析中则是把主成分表示成各变量的线性组合。

3.假设条件不同主成分分析：不需要有假设(assumptions),因子分析：需要一些假设。

因子分析的假设包括：各个共同因子之间不相关，特殊因子（specificfactor）之间也不相关，共同因子和特殊因子之间也不相关。

4.求解方法不同求解主成分的方法：从协方差阵出发（协方差阵已知），从相关阵出发（相关阵R已知），采用的方法只有主成分法。

（实际研究中，总体协方差阵与相关阵是未知的，必须通过样本数据来估计）注意事项：由协方差阵出发与由相关阵出发求解主成分所得结果不一致时，要恰当的选取某一种方法；一般当变量单位相同或者变量在同一数量等级的情况下，可以直接采用协方差阵进行计算；对于度量单位不同的指标或是取值范围彼此差异非常大的指标，应考虑将数据标准化，再由协方差阵求主成分；实际应用中应该尽可能的避免标准化，因为在标准化的过程中会抹杀一部分原本刻画变量之间离散程度差异的信息。

此外，最理想的情况是主成分分析前的变量之间相关性高，且变量之间不存在多重共线性问题(会出现最小特征根接近0的情况)；求解因子载荷的方法：主成分法，主轴因子法，极大似然法，最小二乘法，a因子提取法。

主成分分析和因子分析

3
成绩数据（student.sav）
• 100个学生的数学、物理、化学、语文、历史、英语的成绩如下表（部分）。
4
从本例可能提出的问题
• 目前的问题是，能不能把这个数据的6个变量用一两个综合变量来表示呢？
• 这一两个综合变量包含有多少原来的信息呢？ • 能不能利用找到的综合变量来对学生排序呢？
.435
.002
.079 -.342 -.083
ENGLIS H .836
.425
.000
.074
.276 -.197
Extrac tion Method : Principal Component Analysis.
• 这a里.6每c一om列po代ne表nt一s 个ex主tr成ac分t作ed为. 原来变量线性组合的系数（比
21
• 对于我们的数据，SPSS因子分析输出为
R ot at ed C om po ne nt M at ri xa
Co mpon ent
MA TH
1 -. 387
2 .7 90
PH YS
-. 172
.8 41
CH EM
-. 184
.8 27
LI TERA T
.8 79
-. 343
HI STOR Y
• 这些系数称为主成分载荷（loading），它表示主成分和相应的原先变量的相关系数。
• 比变量如的y1表相示关式系中数x为1的-0系.80数6。为-0.806，这就是说第一主成分和数学 • 相关系数(绝对值）越大，主成分对该变量的代表性也越大。可
以看得出，第一主成分对各个变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。
10

主成分与因子分析-新版分解

Aˆ 1u1, , p up
当相关变量所取单位不同时，我们常常先对变量标准化，标准化样本协差阵S就是原始变量的样本相关阵R，再用R代替S，与上类似，进行载荷矩阵的估计。
第8章主成分与因子分析
主成分分析与因子分析的目的在于降维，即在众多存在的相关性的变量中，找出少数几个综合性变量，来反映原来变量所反映的主要信息，使问题简化。
主要作用
能降低所研究的数据空间的维数；可用于分析筛选回归变量，构造回归模型；可用于综合评价；可对变量进行分类
导入案例：如何对学生成绩进行综合评价
i 1
i 1
ห้องสมุดไป่ตู้i 1
i 1
知识要点提醒1：主成分的计算
需要说明的是，从协差阵和相关阵计算主成分一般是不同的，当变量取值范围彼此相差很大或度量单位不同时，可以考虑标准化，以便使计算结果有合理的解释，避免出现误解。如没有上述度量单位和数量级的差异，从协差阵和相关阵出发计算的结果对主成分的解释或计算方差贡献时，一般不会矛盾。
X i ai1F1 ai2 F2 ai3 F3 ai4 F4 i F1、F2、F3、F4 是不可观测的潜在因子，即公共因子。15个变量共享这4个公共因子，但是每个变量又有自己的个性，即不被包
含的特殊因子 i
3．因子分析的数学模型
假设有n个样品，每个样品观测p项变量(指标)，记为X1， X2，…，Xp，原始数据资料阵
指标2（X2）
指标1（X1）
指标p（Xp）
…
x11 x12
x1 p
x x21 x22
x2 p
第1次观测值
…
xn1 xn2
xnp
第n次观测值
为找出主成分，寻求原变量X1，X2，…，Xp的线性组合 Fi，其数学模型

第八章-因子分析

因子分析和主成分分析的一些注意事项
可以看出，因子分析和主成分分析都依赖于原始变量，也只能反映原始变量的信息。所以原始变量的选择很重要。
另外，如果原始变量都本质上独立，那么降维就可能失败，这是因为很难把很多独立变量用少数综合的变量概括。数据越相关，降维效果就越好。
在得到分析的结果时，并不一定会都得到如我们例子那样清楚的结果。这与问题的性质，选取的原始变量以及数据的质量等都有关系
在SPSS软件中，可以获得各样本各因子的得分。然后据此可以对样本进行排序，也可以在此基础上进行聚类分析。
F 1 0 . 0 X 1 0 7 . 1 X 2 0 . 1 3 X 3 0 2 . 3 X 4 9 0 3 . 3 X 5 5 0 2 . 3 X 6 2 6
在用因子得分进行排序时要特别小心，特别是对于敏感问题。由于原始变量不同，因子的选取不同，排序可以很不一样。
旋转成分矩阵 a
数学
成分 1
-.1 07
2 .93 2
物理
-.5 17
.79 6
化学
.03 9
.93 4
语文
.93 9
-.1 86
历史
.89 2
-.1 43
英语
.95 9
-.0 02
提取方法 :主成分分析法。旋转法 : 具有 Kai ser 标准化的正交旋转法。
a. 旋转在 3 次迭代后收敛。
X 4 0 .8F 6 1 0 1 .4F 1 26X 4 0 .9F 3 1 0 9 .1F 8 26
X 5 0 .7F 9 1 0 8 .4F 2 22X 5 0 .8F 9 1 0 2 .1F 4 23

一分钟看懂主成分分析与因子分析

在实际工作和研究的过程中，为了更加全面系统的反映问题，往往会收集较多的变量，但是这些变量之间也经常会出现较强的相关关系。

为了能够充分有效利用数据，通常希望由较少的新的指标来代替原来较多的旧变量，同时还要求这些新指标尽可能反映原变量的信息。

因此就出现了主成分分析和因子分析，他们能够提取信息，使原有变量降维，从而使问题更加简单直观。

综上，较多变量（相关性较强）→新指标（尽可能反映原信息）→主成分分析、因子分析。

因子分析可以看做是主成分分析的推广和扩展。

1、主成分分析主成分分析是考察多个变量间相关性的多元统计方法，是研究如何通过少数几个主分量来解释多个变量间的内部结构，即从原始变量中导出少数几个主分量，使他们尽可能多的保留原始变量的信息，并且主分量之间彼此互不相关。

主成分的应用目的：数据的压缩、数据的解释。

它常被用来寻找判断某种事物之间或现象的综合指标，并且给综合指标所包含的信息以适当的解释，从而更加深刻揭示事物之间的内在规律。

综上，主成分分析：多个变量（相关性较强）→主分量（尽可能保留原信息，互不相关）→数据压缩和数据解释的目的2、模型入门由上可知我们选择的主成分有两个特点：一是尽可能多的保留信息，二是互不相关。

如何体现特点一：尽可能多的保留原信息，统计学所谓的信息实际往往是指数据的变异，即方差。

因此方差越大，包含的信息越多。

因此我们选择椭圆的长轴作为坐标轴这样子就尽可能保留多的信息，既达到了特点一，又达到了降维的目的。

数学上的操作是将原来的p个指标做线性组合，然后得到新的综合指标，并且将选取的第一个线性组合即第一个综合指标记为F1。

我们希望F1尽可能多的反映原来指标的信息。

最经典的方法就是用F1的方差来表达，即var(F1)越大，则F1包含的信息就越多。

因此在所有的线性组合中所选取的第1个主成分的方差最大。

这时如果第一个主成分不足以完全代表原来p个指标的信息，再选取第2个线性组合，即第2个主成分。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

X , eX ) u1 e 1u1 e 1u1i COV (Y1 , X i ) COV (u1
(Y1 , X i )
1 cov(Y1 , X i ) u1i D(Y1 ) D( X i ) ii
m个主成分对原始指标 X i 的贡献
vi 2 (Yk , X i )
主成分分析的基本思想
(以两个变量为例)

多维变量的情形类似，只不过是一个高维椭球，无法直观地观察每个变量都有一个坐标轴，所以有几个变量就有几主轴。首先把椭球的各个主轴都找出来，再用代表大多数数据信息的最长的几个轴作为新变量，这样，降维过程也就完成了
找出的这些新变量是原来变量的线性组合，叫做主成分
第1步选择【Analyze】下拉菜单，并选择【Data ReductionFactor】，进入主对话框第2步在主对话框中将所有原始变量选入【Variables】第3步点击【Descriptives】，在【correlation Matrix】下选择【Coefficirnts】，点击【Continue】回到主对话框第4步点击【Extraction】，在【Display】下选择【Scree Plot】，点击【Continue】回到主对话框第5步点击【Rotation】，在【Display】下选择【Loading Plot】，点击【Continue】回到主对话框点击【OK】用SPSS进行主成分分析
CO V( Y1 ,Y2 ) 0 D(Y1 ) D(Y2 )
主成分分析的数学模型
数学上的处理是将原始的p个变量作线性组合，作为新的变量，x p ，新的变量(即主成分) 设p个原始变量为 x1，x2，为 y1，y2，，y p ，主成分和原始变量之间的关系表示为
y1 u11x1 u12 x2 u1 p x p y2 u21x1 u22 x2 u2 p x p y u x u x u x p1 1 p2 2 pp p p
k 1
m
1
ii k 1
2 u k ki
m
vi的信息前m个主成分提取了 X中 i
由相关阵求主成分
指标标准化
cov(Z , Z ) R X
标准化变量的协方差阵为原始变量的相关系数阵
Zi
X i i
ii
求相关系数阵的特征值： 1 2 p 和对应的单位特征向量：

常被用来寻找判断事物或现象的综合指标，并对综合指标所包含的信息进行适当的解释
主成分分析的基本思想
(以两个变量为例)
对这两个相关变量所携带的信息(在统计上信息往往是指数据的变异)进行浓缩处理假定只有两个变量 x1 和 x2 ，从散点图可见两个变量存在相关关系，这意味着两个变量提供的信息有重叠
Y UX
满足（1） D(Y1 ) D(Y2 ) D(Yp ) （2） cov(Yi ,Yj ) 0 i , j 1,2,, p
u1 , u2 ,, u p正交或U为正交阵
主成分分析的基本问题
每一个主成分的系数如何确定如何保留主成分
如何解释主成分
主成分系数的确定
Y2 u21
X 1 1
11
X 1 1
u12
u22
X 2 2
22
X 2 2
u1 p
u2 p
X p p
pp
X p p
11
22
pp
X p p

Y p u p1 X 1 1
11
u p2
X 2 2
u11 u21 u p1 u12 u22 u p2 u1 , u2 , , u p u u u 1 p 2 p pp 主成分的系数
SPSS的输出结果
各变量之间的相关系数矩阵
变量之间的存在较强的相关关系，适合作主成分分析
2008年8月
SPSS的输出结果
(选择主成分)
各主成分所解释的原始变量的方差
该表是选则主成分的主要依据
2008年8月
根据什么选择主成分？
“Initial Eigenvalues”(初始特征根)

前提假设
E( X ) 0
cov(X , X )
第一主成分的系数满足：
X Y1 u11 X1 u12 X 2 u1 p X p u1
u1 maxD(Y1 ) maxcov(Y1 , Y1 ) maxu1
系数的求解
max uu
u u 1

如果把两个变量用一个变量来表示，同时这一个新的变量又尽可能包含原来的两个变量的信息，这就是降维的过程
主成分分析的基本思想
(以两个变量为例)

椭圆中有一个长轴和一个短轴，称为主轴。在长轴方向，数据的变化明显较大，而短轴方向变化则较小如果沿着长轴方向设定一个新的坐标系，则新产生的两个变量和原始变量间存在一定的数学换算关系，同时这两个新变量之间彼此不相关，而且长轴变量携带了大部分的数据变化信息，而短轴变量只携带了一小部分变化的信息(变异) 此时，只需要用长轴方向的变量就可以代表原来两个变量的信息。这样也就把原来的两个变量降维成了一个变量。长短轴相差越大，降维也就越合理

什么是主成分分析？
(principal component analysis)
主成分的概念由Karl Pearson在1901年提出考察多个变量间相关性的一种多元统计方法研究如何通过少数几个主成分 (principal component)来解释多个变量间的内部结构。即从原始变量中导出少数几个主分量，使它们尽可能多地保留原始变量的信息，且彼此间互不相关主成分分析的目的：数据的压缩；数据的解释

坐标的旋转变换
Y1 X 1 cos X 2 sin Y2 X 1 sin X 2 cos
正交阵
Y1 cos sin Y 2
sin X 1 X cos 2
降维依据
数模讲座—— 主成分分析与因子分析
songyue25@ 宋月
主成分分析与因子分析
1 主成分分析
2 因子分析
3 主成分分析和因子分析的区别
主成分和因子分析的作用
① 能降低所研究的数据空间的维数； ② 可以用于分析筛选回归变量，构造回归模型； ③ 可以用于综合评价； ④ 可以对变量进行分类
m 1 m 1 1
则保留m个主成分
主成分的解释
原始指标 X i对各个主成分的贡献相关系数：
(Yk , X i )
保留的m个主成分对每个X 的贡献 i
2 (Yk , X i ) k 1 m
主成分与原指标间的相关系数
X Y1 u11 X1 u12 X 2 u1 p X p u1
根据什么选择主成分？
根据主成分贡献率

X X 1 Y1 u11 X 1 u12 X 2 u1 p X p u1 X 2 Y2 u21 X 1 u22 X 2 u2 p X p u 2X X X Y u X u X u X u X p1 1 p2 2 pp p p p p

X1 , X 2 ,, X p
是样本均值, s1 , s2 ,, s p 是样本标准差
主成分分析 (实例分析)
【例】根据我国 31 个省市自治区 2006 年的 6 项主要经济指标数据，进行主成分分析，找出主成分并进行适当的解释
31个地区的6项经济指标
用SPSS进行主成分分析

且（1）D(Yi ) i , i 1,2,. p （2） cov(Y ,Y ) U cov(X , X )U 或 U U
主成分的保留
主成分总方差=原变量的总方差
tr(U U ) tr( )
D(Y ) D( X )
i 1 i i 1 i
p
p

P个主成分分别是：
Y1 u11 X 1 u12 X 2 u1 p X p Y u X u X u X 2 21 1 22 2 2p p 或 Y p u p1 X 1 u p 2 X 2 u pp X p
Y U X
主成分分析的数学模型
ij 为第 i 个主成分 yi 和原
来的第 j 个变量 xj 之间的线性相关系数，称为载 11 荷 (loading) 。比如，表示第1主成分和原来的第1个变量之间的相关系表示第2主成分和数， 21 原来的第1个变量之间的相关系数
主成分分析的数学模型限制条件
标准化数据
写出p个主成分的表达式：
Xp Xp X1 X1 X2 X2 Y1 u11 u12 u1 p s1 s2 sp
Xp Xp X1 X1 X2 X2 Y2 u21 u22 u2 p s1 s2 sp
Y p u p1 Xp Xp X1 X1 X2 X2 u p2 u pp s1 s2 sp
L uu (uu 1)
结论
若
的特征值为
1 2 p
对应的单位特征向量为：
u11 u12 , u 1p
u21 u22 , u 2p

第8章-主成分分析与因子分析-1

合集下载

主成分分析与因子分析

主成份分析和因子分析

spss第8章主成分分析与因子分析

SPSS主成分分析与因子分析

卫生统计学：主成分分析与因子分析

主成分分析和因子分析-回归分析和相关分析的区别

主成分分析与因子分析

主成分分析和因子分析(朱艳科)

主成分分析、因子分析

主成分分析

主成分分析与因子分析的联系与区别

第八章因子分析

应用多元统计分析课后答案第八章知识讲稿

因子分析与主成分分析

主成分分析法与因子分析法的区别

主成分分析和因子分析

主成分与因子分析-新版分解

第八章-因子分析

一分钟看懂主成分分析与因子分析

文档推荐

最新文档

第8章-主成分分析与因子分析-1

合集下载

主成分分析与因子分析

主成份分析和因子分析

spss第8章主成分分析与因子分析

SPSS主成分分析与因子分析

卫生统计学：主成分分析与因子分析

主成分分析和因子分析-回归分析和相关分析的区别

主成分分析与因子分析

主成分分析和因子分析(朱艳科)

主成分分析、因子分析

主成分分析

主成分分析与因子分析的联系与区别

第八章因子分析

应用多元统计分析课后答案 第八章知识讲稿

因子分析与主成分分析

主成分分析法与因子分析法的区别

主成分分析和因子分析

主成分与因子分析-新版分解

第八章-因子分析

一分钟看懂主成分分析与因子分析

文档推荐

最新文档

应用多元统计分析课后答案第八章知识讲稿