9
事实上,以上问题在平时的研究中,也会经 常遇到。它所涉及的问题可以推广到对企业、 对学校、对区域进行分析、评价、排序和分 类等。
比如对n个样本进行综合评价,可选的描述样 本特征的指标很多,而这些指标往往存在一 定的相关性(既不完全独立,又不完全相 关),这就给研究带来很大不便。若选指标 太多,会增加分析问题的难度与复杂性,选 指标太少,有可能会漏掉对样本影响较大的 指标,影响结果的可靠性。
在各种线性组合中方差达到最大者。
满足上述约束得到的合成变量Y1, Y2, …, Yp分别称为 原始变量的第一主成分、第二主成分、…、第 p 主成分,
而且各成分方差在总方差中占的比重依次递减。在实际研究
工作中,仅挑选前几个方差较大的主成分,以达到简化系统
结构的目的。
24
24
三、主成分分析的计算步骤
25
21
(二) 主成分分析的基本思想
假如对某一问题的研究涉及 p 个指标,记为X1,X2, …,
Xp,由这 p 个随机变量构成的随机向量为X=(X1, X2, …,
Xp),设 X 的均值向量为,协方差矩阵为。设Y=(Y1, Y2 ,
… , Yp)为对 X 进行线性变换得到的合成随机向量,即
Y1 11
主成分分析法与因子分析法
1
主要内容
➢ 主成分分析法 ➢ 因子分析法 ➢ 附:主成分分析法与因子分析法的区别
2
主成分分析法
(Principal Components Analysis,PCA) ➢ 主成分分析法概述 ➢ 主成分分析的基本原理 ➢ 主成分分析的计算步骤
3
一、主成分分析概述
4
引子
假定你是一个公司的财务经理,掌握了公 司的所有数据,这包括众多的变量,比如 固定资产、流动资金、每一笔借贷的数额 和期限、各种税费、工资支出、原料消耗、 产值、利润、折旧、职工人数、职工的分 工和教育程度等等。