主成分分析法实例

格式：doc
大小：680.00 KB
文档页数：17

下载文档原格式

主成分分析之PCA

95
M
90
85
80
75
70
65
60 64 66 68 70 72 74 76 78 80 82 84
❖ 先假定数据只有二维，即只有两个变量，它们由横坐标和纵坐标所代表；因此每个观测值都有相应于这两个坐标轴的两个坐标值；
❖ 如果这些数据形成一个椭圆形状的点阵（这在变量的二维正态的假定下是可能的）.
F简化了系统结构，抓住了主要矛盾。
整理课件
35
稍事休息
§3.4 PCA的性质
一、两个线性代数的结论
1、若A是p阶实对称阵，则一定可以找到正交阵U，使
1 0 0
U1AU
0
2
0
0
0
p
pp
其中 i,i1.2. p是A的特征根。
2、若上述矩阵的特征根所对应的单位特征向量为 u1,,up
例设 x1,x2,x3的协方差矩阵为
1 2 0
2 5 0 0 0 2
解得特征根为
，，
15.8，32 2.00，30.17
0.383
U1
0 .924
0.000
0
U
2
0
1
0 .924
U
3
0
.383
0 .000
第一个主成分的贡献率为 5.83/ （ 5.83+2.00+0.17 ） =72.875%，尽管第一个主成分的贡献率并不小，但应该取两个主成分。97.88%
❖ 注意，和二维情况类似，高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合，叫做主成分(principal component)。

主成分分析法实例

主成分分析法实例PCA的基本思想是将原始数据在坐标系下进行变换，使得各个坐标轴之间的相关性最小化。

在变换后的坐标系中，第一个主成分表示数据中方差最大的方向，第二个主成分表示与第一个主成分正交且方差次大的方向，以此类推。

因此，保留前k个主成分就可以达到降维的目的。

下面我们通过一个实例来详细介绍PCA的应用过程。

假设我们有一个二维数据集，其中包含了500个样本点，每个样本点具有两个特征。

我们首先需要对数据进行标准化处理，即对每个特征进行零均值化和单位方差化，这可以通过下面的公式实现：\[x_j' = \frac{x_j - \overline{x_j}}{\sigma_j}\]其中，\(x_j\)表示第j个特征的原始值，\(\overline{x_j}\)表示第j个特征的均值，\(\sigma_j\)表示第j个特征的标准差。

通过标准化处理后，我们可以得到一个均值为0，方差为1的数据集。

接下来，我们计算数据集的协方差矩阵。

协方差矩阵可以帮助我们衡量变量之间的相关性，它的第i行第j列的元素表示第i个特征与第j个特征的协方差。

\[Cov(X) = \frac{1}{n-1}(X - \overline{X})^T(X -\overline{X})\]其中，X是一个n行m列的矩阵，表示数据集，\(\overline{X}\)是一个n行m列的矩阵，表示X的每一列的均值。

协方差矩阵可以通过求解数据集的散布矩阵来得到，散布矩阵的定义如下：\[Scatter(X) = (X - \overline{X})^T(X - \overline{X})\]我们将协方差矩阵的特征值和特征向量求解出来，特征值表示每个特征方向上的方差，特征向量表示每个特征方向上的权重。

我们将特征值按照从大到小的顺序排序，选择前k个特征值对应的特征向量作为主成分。

最后，我们将数据集投影到选取的主成分上，得到降维后的数据集。

投影的过程可以通过下面的公式实现：\[y=XW\]其中，X是一个n行m列的矩阵，表示数据集，W是一个m行k列的矩阵，表示主成分。

利用主成分分析法对我国各地区普通高等教育的发展水平进行综合评价。

第3题. 利用主成分分析法对我国各地区普通高等教育的发展水平进行综合评价。

近年来，我国普通高等教育得到了迅速发展，为国家培养了大批人才。

但由于我国各地区经济发展水平不均衡，加之高等院校原有布局使各地区高等教育发展的起点不一致，因而各地区普通高等教育的发展水平存在一定的差异，不同的地区具有不同的特点。

对我国各地区普通高等教育的发展状况进行聚类分析，明确各类地区普通高等教育发展状况的差异与特点，有利于管理和决策部门从宏观上把握我国普通高等教育的整体发展现状，分类制定相关政策，更好的指导和规划我国高教事业的整体健康发展。

遵循可比性原则，从高等教育的五个方面选取十项评价指标，具体见下图图1. 高等教育的十项评价指标指标的原始数据取自《中国统计年鉴，1995》和《中国教育统计年鉴，1995》除以各地区相应的人口数得到十项指标值，具体数值见下表见表6，其中：1x 为每百万人口高等院校数；2x 为每十万人口高等院校毕业生数；3x 为每十万人口高等院校招生数；4x 为每十万人口高等院校在校生数；5x 为每十万人口高等院校教职工数；6x 为每十万人口高等院校专职教师数；7x 为高级职称占专职教师的比例；8x 为平均每所高等院校的在校生数；9x 为国家财政预算内普通高教经费占国内生产总值的比重；10x 为生均教育经费。

建模与求解：一构造原始数据矩阵X=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡1021x x x二使矩阵X标准化（程序见附录1）Z= 4.3685 3.9057 4.0909 4.1392 4.5401 4.5748 2.4120 0.39541.98622.6869 2.3854 2.4187 2.0965 1.9157 0.8299 1.13461.0221 1.4520 1.5048 1.3575 0.9509 1.0406 1.4024 1.09910.0952 0.2331 0.1895 0.2072 0.1326 0.1823 0.0558 0.53750.2342 0.3453 0.3790 0.3951 0.0988 0.1823 0.7080 0.72190.3918 0.3133 0.2898 0.2270 0.1495 0.1823 0.5775 -0.2813-0.0717 -0.0556 -0.0111 -0.0169 -0.0536 -0.0533 0.8638 0.2482 -0.1829 0.0086 -0.0223 -0.0136 -0.0649 -0.0701 0.4691 0.7675 -0.2756 -0.0396 0 -0.0466 -0.1383 -0.1374 0.2405 1.0602 -0.5166 -0.4405 -0.2564 -0.3168 -0.3696 -0.3899 0.7418 1.0264 -0.6371 -0.4245 -0.4124 -0.4091 -0.3696 -0.4067 0.4234 1.2987 -0.6279 -0.1358 -0.3344 -0.3959 -0.3922 -0.4235 0.4793 1.3884 -0.4981 -0.3924 -0.3567 -0.3663 -0.3414 -0.3562 -0.3371 0.4664 -0.4703 -0.3924 -0.3678 -0.3531 -0.3696 -0.3899 0.4979 0.4005 -0.3590 -0.3924 -0.2564 -0.3201 -0.3414 -0.3562 -0.0305 -0.03090.0396 -0.3122 -0.2341 -0.1191 -0.0705 -0.0196 -0.7098 -0.5435-0.1922 -0.2160 -0.2564 -0.2740 -0.3584 -0.3562 -0.1881 -0.4775 -0.3683 -0.2160 -0.3233 -0.2740 -0.2850 -0.2889 -0.7606 0.2939 -0.4054 -0.3764 -0.3121 -0.3729 -0.3696 -0.4067 -0.0509 -0.1155 -0.6093 -0.5047 -0.5239 -0.5113 -0.4543 -0.4572 0.4590 0.1806 -0.5444 -0.4886 -0.6019 -0.5640 -0.4656 -0.4740 -0.2660 -0.6889 -0.4425 -0.3764 -0.3455 -0.3531 -0.3358 -0.4067 -0.2220 0.2262 -0.5074 -0.5367 -0.4793 -0.4487 -0.4486 -0.4909 -0.4709 -0.0630 -0.3776 -0.3764 -0.5128 -0.4289 -0.3471 -0.3057 -0.4184 -0.59080.4103 -0.6490 -0.5462 -0.5410 -0.2906 -0.2384 -3.0524 -2.6580-0.6464 -0.5528 -0.5350 -0.5640 -0.4656 -0.5077 -0.2897 -0.0681 -0.6001 -0.6169 -0.5685 -0.5673 -0.4938 -0.5077 0.3065 -0.39800.1322 -0.2962 -0.3567 -0.3070 -0.2793 -0.2216 -1.2569 -1.4908-0.5630 -0.6971 -0.6911 -0.6860 -0.5051 -0.5245 -0.3388 -1.54320.2157 -0.4565 -0.5350 -0.4948 -0.3584 -0.2889 -2.0750 -2.2960三构造矩阵相关系数矩阵R（程序见附录2）R= 1.0000 0.9434 0.9528 0.9591 0.9746 0.9798 0.4065 0.06630.9434 1.0000 0.9946 0.9946 0.9743 0.9702 0.6136 0.35000.9528 0.9946 1.0000 0.9987 0.9831 0.9807 0.6261 0.34450.9591 0.9946 0.9987 1.0000 0.9878 0.9856 0.6096 0.32560.9746 0.9743 0.9831 0.9878 1.0000 0.9986 0.5599 0.24110.9798 0.9702 0.9807 0.9856 0.9986 1.0000 0.5500 0.22220.4065 0.6136 0.6261 0.6096 0.5599 0.5500 1.0000 0.77890.0663 0.3500 0.3445 0.3256 0.2411 0.2222 0.7789 1.00000.8680 0.8039 0.8231 0.8276 0.8590 0.8691 0.3655 0.11220.6609 0.5998 0.6171 0.6124 0.6174 0.6164 0.1510 0.0482四求出R的特征值和累积贡献率（程序见附录3）λ1= 7.5022贡献率τ1=λ1/10=75.0216%λ2= 1.577累积贡献率τ1+τ2=90.7915%λ3= 0.5362累积贡献率τ1+τ2+τ3=96.1536%λ4= 0.2064累积贡献率τ1+τ2+τ3+τ4=98.2174%可以看出，前两个特征根的累计贡献率就达到90%以上，主成分分析效果很好。

主成分分析

主成分分析主成分分析、因子分析等在多元统计分析中属于协方差逼近技术。

主要是从协方差矩阵出发，实现一种正交变换，从而将高维系统表示为低维系统，在此过程中可以揭示研究对象的许多性质和特征。

主成分分析的结果可以用于回归分析、聚类分析、神经网络分析等等。

只要懂得线性代数中二次型化为标准型的原理，就很容易掌握主成分分析的原理，进而掌握因子分析的原理。

在理解正交变换数学原理的基础上，我们可以借助Excel 开展主成分分析。

为了清楚地说明主成分的计算过程，不妨给出一个简单的计算实例。

【例】2000 年中国各地区的城、乡人口的主成分分析。

这个例子只有两个变量（m=2）：城镇人口和乡村人口；31 个样品：即中国的31 个省、自治区和直辖市（n=31）。

资料来自2001 年《中国统计年鉴》，为2000 年全国人口普查快速汇总的11 月1 日零时数。

由于变量太少，这个例子仅仅具有教学意义——简单的实例更容易清楚地展示计算过程的细节。

计算步骤5.1.1 详细的计算过程首先，录入数据，并对数据进行适当处理（图5-1-1）。

计算的详细过程如下。

第一步，将原始数据绘成散点图主成分分析原则上要求部分变量之间具有线性相关趋势。

如果所有变量彼此之间不相关（即正交），则没有必要进行主成分分析，因为主成分分析的目的就是用正交的变量代替原来非正交的变量。

如果原始变量之间为非线性关系，则有必要对数据进行线性转换，否则效果不佳。

从图5-1-2 可见，原始数据具有非线性相关趋势，可以近似匹配幂指数函数，且测定系数R2=0.5157，相应地，相关系数R=0.7181（图5-1-2a）；取对数之后，点列具有明显的线性趋势（图5-1-2b）。

第二步，对数据进行标准化标准化的数学公式为我们将对对数变换后的数据开展主成分分析，因此只对取对数后的数据标准化。

根据图5-1-1所示的数据排列，应该按列标准化，用xij 代表取对数之后的数据，则下式分别为第j 列数据的均值和标准差，xij 为第i 行（即第i 个样本）、第j 列（即第j 个变量）的数据，xij*为相应于xij 的标准化数据，n=31 为样品数目（参见图5-1-1）。

主成分分析实例及含义讲解PPT课件

.
1
汇报什么？
• 假定你是一个公司的财务经理，掌握了公司的所有数据，比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。
• 如果让你向上面介绍公司状况，你能够把这些指标和数字都原封不动地摆出去吗？
• 当然不能。
.
25
• 这些系数所形成的散点图（在SPSS中也称载荷图）为
Component Plot in Rotated Space
.
12
• 对于我们的数据，SPSS输出为
Total Variance Explained
Initial EigenvEaxltureasction Sums of Squared Loadi
ComponT eo nt ta %l of VariCaunmcuelative T%ota %l of VariCaunmcuelative %
• 这些系数称为主成分载荷（loading），它表示主成分和相应的原先变量的相关系数。
• 比变量如的y1表相示关式系中数x为1的-0系.80数6。为-0.806，这就是说第一主成分和数学 • 相关系数(绝对值）越大，主成分对该变量的代表性也越大。可
以看得出，第一主成分对各个变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。
y 1 - 0 .8 0 6 x 1 -0 .6 7 4 x 2 -0 .6 7 5 x 3 0 .8 9 3 x 4 0 .8 2 5 x 5 0 .8 3 6 x 6
y 2 0 .3 5 3 x 1 0 .5 3 1 x 2 0 .5 1 3 x 3 0 .3 0 6 x 4 0 .4 3 5 x 5 0 .4 2 5 x 6

主成分分析法

问题分析：问题2主要是找出金属污染的主要原因，首先要找出污染最严重的金属，结合问题1的求解，我们通过主成分分析法对各种金属污染的严重性进行了判定主成分分析法：重金属对人体的危害由金属元素的化学性质决定，根据十余项指标和九项参数对重金属的潜在毒性进行分类和排序，考评指标和参数如下：电离势、熔点、沸点、熔化热、汽化热、电化当量、结合能、离子半径、密度、电荷离子半径比、氧化性、离子奇偶性、挥发性。

结论如下：重金属潜在毒性排行榜：毒性大：Hg汞〉Cd镉〉Tl铊〉Pb铅〉Cr铬〉In铟〉Sn锡毒性中等：Ag银〉Sb锑〉Zn锌〉Mn锰〉Au金〉Cu铜〉Pr镨〉Ce 铈〉Co钴〉Pd钯〉Ni镍〉V钒〉Os锇〉Lu镥〉Pt铂〉Bi铋〉Yb镱〉Eu铕〉Ga镓〉Fe铁〉Sc钪〉Al铝〉Ti钛〉Ge锗〉Rh铑〉Zr锆毒性较小：Hf铪〉Ru钌〉Ir铱〉Tc锝〉Mo钼〉Nb铌〉Ta钽〉Re铼〉W钨〉Tm铥〉Dy镝〉Nd钕〉Er铒〉Ho钬〉Gd钆〉Tb铽〉La镧〉Y钇砷：一种三价和五价的非金属元素,旧称“砒”。

通常呈金属的铁灰色,结晶形,性脆。

砷常小量地被掺入合金(如用于制造子弹的砷-铅合金),其化合物主要用于制造毒剂(如杀虫剂)、药物和玻璃 [arsenic]——元素符号As由于砷是一种非金属元素，所以在重金属毒性排行榜中没有这个元素但是它的毒性却很强，仅次于汞，我们将它放到了第二位。

Hg>As>Cd>Pb>Cr>Zn>Cu>Ni我们采用主成分分析法来验证我们的猜测：X1、X2、X3、X4、X5、X6、X7、X8分别表示：Hg、As、Cd、Pb、Cr、Zn、Cu、NiZ:标准化矩阵x：采样值x：均值s：标准差R:相关性矩阵：特征值p:维度2s：方差1、对原始指标数据的标准化采集p 维随机向量x =X1,X2,...,X pp（p=8）个影响因素测量值x i = (x i1,x i2,...,x ip)T，i=1,2,…,n 构造样本阵，对样本阵元进行如下标准化变换：计算样本的均值：1nijijx xn==∑计算方差：2 21()1nij jijx x sn=-=-∑得标准化矩阵Z通过MATLAB计算出标准化矩阵Z=zscore(A)见附录12、对标准化阵Z 求相关系数矩阵其中,通过MATLAB计算出相关系数化矩阵R=corrcoef(A)见附录23、解样本相关矩阵R 的特征方程得p 个特征根,确定主成分按确定m 值，使信息的利用率达85%以上，对每个λj ,j=1,2,...,m, 解方程组Rb = λj 得单位特征向量1b 、2b 、3b ……8b贡献率i V ：1(1,2,,)ii pkk V i p λλ===∑累计贡献率i Q ：11(1,2,,)ikk i pkk Q i p λλ====∑∑i Q =1ni i V =∑ n=1、2、3 (8)通过MATLAB 计算出特征向量，主成分贡献率，见附录3 [COEFF,LATENT,EXPLATNED]=pcacov(R) 表1因子分析结果以85%作为界限，从表1中可以看出只要取四个因子就足够了。

主成分分析实例及含义讲解

关的。人们希望能够找出它们的少数“代表”来对它们进行描述。 • 本章就介绍两种把变量维数降低以便于描述、理解和分析的方法：主
成分分析（ principal component analysis ）和因子分析（ factor analysis）。实际上主成分分析可以说是因子分析的一个特例。在引进主成分分析之前，先看下面的例子。
% of Variance Cumulative %
3.735
62.254
62.254
1.133
18.887
81.142
• 这里的Initial Eigenvalues就是这里的六个主轴长度，又称特征值（数据相关阵的特征值）。头两个成分特征值累积占了总方差的81.142%。后面的特征值的贡献越来越少。
11
主成分分析的数学
• 要寻找方差最大的方向。即使得向量X的线性组合a’X的方差
最大的方向a. • 而Var(a’X)=a’Cov(X)a;由于Cov(X)未知；于是用X的样本相
关阵R来近似.因此，要寻找向量a使得a’Ra最大(注意相关阵和协方差阵差一个常数 • 记得相关阵和特征值问题吗?回顾一下吧! • 选择几个主成分呢?要看“贡献率.”
12
• 对于我们的数据，SPSS输出为
T ot a l V ar i an c e E x pl a in e d
Initial Eigenvalues
Component
Total
% of Variance Cumulative %
1
3.735
62.254
62.254
2
1.133
18.887
81.142
3
.457

主成分分析实例及含义讲解

Component
MATH
1 -.806
2 .353
3 -.040
4 .468
PHYS
-.674
.531
-.454
-.240
CHEM
-.675
.513
.499
-.181
LITERAT
.893
.306
-.004
-.037
HISTORY
.825
.435
.002
.079
ENGLISH
.836
.425
.000
f1 11x1 12 x2 1p xp f2 21x1 22 x2 2 p xp
因子得分
fm m1x1 m2 x2 mp xp
20
因子分析的数学
• 因子分析需要许多假定才能够解. 具体来说.
21
• 对于我们的数据，SPSS因子分析输出为
.074
Extraction Method: Principal Component Analysis.
a. 6 components extracted.
5 .021
-.001 .002 .077
-.342 .276
6 .068
-.006 .003 .320
-.083 -.197
• 这里每一列代表一个主成分作为原来变量线性组合的系数（比例）。比如第一主成分为数学、物理、化学、语文、历史、英语这六个变量的线性组合，系数（比例）为-0.806, 0.674, -0.675, 0.893, 0.825, 0.836。
• 当然不能。 • 你必须要把各个方面作出高度概括，用一两个指标简单明了地把情况说
清楚。

主成分分析法概念及例题

主成分分析法主成分分析（principal components analysis，PCA）又称：主分量分析，主成分回归分析法目录[显示]1 什么是主成分分析法2 主成分分析的基本思想3 主成分分析法的基本原理4 主成分分析的主要作用5 主成分分析法的计算步骤6 主成分分析法的应用分析o案例一：主成分分析法在啤酒风味评价分析中的应用[1]1 材料与方法2 主成分分析法的基本原理3 主成分分析法在啤酒质量一致性评价中的应用4 结论7 参考文献[编辑]什么是主成分分析法主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。

在统计学中，主成分分析（principal components analysis,PCA）是一种简化数据集的技术。

它是一个线性变换。

这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上，第二大方差在第二个坐标(第二主成分)上，依次类推。

主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分，忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

但是，这也不是一定的，要视具体应用而定。

[编辑]主成分分析的基本思想在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。

这些涉及的因素一般称为指标，在多元统计分析中也称为变量。

因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。

在用统计方法研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。

主成分分析正是适应这一要求产生的，是解决这类题的理想工具。

同样，在科普效果评估的过程中也存在着这样的问题。

科普效果是很难具体量化的。

在实际评估工作中，我们常常会选用几个有代表性的综合指标，采用打分的方法来进行评估，故综合指标的选取是个重点和难点。

主成分分析法实例

1、主成分法：用主成分法寻找公共因子的方法如下：假定从相关阵出发求解主成分，设有p 个变量，则可找出p 个主成分。

将所得的p 个主成分按由大到小的顺序排列，记为1Y ，2Y ，…，P Y ，则主成分与原始变量之间存在如下关系：11111221221122221122....................p p p p pp p pp p Y X X X Y X X X Y X X Xγγγγγγγγγ=+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ 式中，ij γ为随机向量X 的相关矩阵的特征值所对应的特征向量的分量，因为特征向量之间彼此正交，从X 到Y 得转换关系是可逆的，很容易得出由Y 到X 得转换关系为：11112121212122221122....................p p p p pp p pp p X Y Y Y X Y Y Y X Y Y Yγγγγγγγγγ=+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ 对上面每一等式只保留钱m 个主成分而把后面的部分用i ε代替，则上式变为：1111212112121222221122....................m m m m p p p mp m p X Y Y Y X Y Y Y X Y Y Y γγγεγγγεγγγε=++++⎧⎪=++++⎪⎨⎪⎪=++++⎩上式在形式上已经与因子模型相一致，且i Y （i=1,2，…，m ）之间相互独立，且i Y 与i ε之间相互独立，为了把i Y 转化成合适的公因子，现在要做的工作只是把主成分i Y 变为方差为1的变量。

为完成此变换，必须将i Y 除以其标准差，由主成分分析的知识知其标准差即为特征根的平方根/i i F Y =，12m ，则式子变为：1111122112211222221122....................m m m m p p p pm m p X a F a F a F X a F a F a F X a F a F a F εεε=++++⎧⎪=++++⎪⎨⎪⎪=++++⎩这与因子模型完全一致，这样，就得到了载荷A 矩阵和初始公因子(未旋转)。

主成分分析法例子

x7 0.79 0.009 -0.93 -0.046 0.672 0.658 1 -0.03 0.89
x8 0.156 -0.078 -0.109 -0.031 0.098 0.222 -0.03 1
0.29
x9 0.744 0.094 -0.924 0.073 0.747 0.707 0.89 0.29
▲贡献率:
i
p
k
k 1
(i 1,2,, p)
▲合计贡献率:
i
k
k 1
p
k
k 1
(i 1,2,, p)
一般取合计贡献率达85—95%旳特征值 1, 2 ,, m
所相应旳第一、第二、…、第m（m≤p）个主成份。
④各主成份旳得分
l11 l12 l1p x1
Z
l21
l22
l2
p
x2
二主成份z2代表了人均资源量。
③第三主成份z3，与x8呈显出旳正有关程度最高，其次是x6，而与x7呈负有关，所以能够以为第三主成份在一定程度上代表了农业经济构造。
显然，用三个主成份z1、z2、z3替代原来9个变量（x1， x2，…，x9），描述农业生态经济系统，能够使问题更进
一步简化、明了。
x4
0.0042
0.868
0.0037
75.346
x5
0.813
0.444
-0.0011
85.811
x6
0.819
0.179
0.125
71.843
x7
0.933
-0.133
-0.251
95.118
x8
0.197
-0.1
0.97
98.971

主成分分析实例

在统计学中，主成分分析（principal components analysis, PCA）是一种简化数据集的技术。

它是一个线性变换。

主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分，忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。

这些涉及的因素一般称为指标，在多元统计分析中也称为变量。

主成分分析正是适应这一要求产生的，是解决这类题的理想工具主成分分析法是一种降维的统计方法，它借助于一个正交变换，将其分量相关的原随机向量转化成其分量不相关的新随机向量，这在代数上表现为将原随机向量的协方差阵变换成对角形阵，在几何上表现为将原坐标系变换成新的正交坐标系，使之指向样本点散布最开的p 个正交方向，然后对多维变量系统进行降维处理，使之能以一个较高的精度转换成低维变量系统，再通过构造适当的价值函数，进一步把低维系统转化成一维系统。

主成分分析的主要作用体现在五个方面，第一，主成分分析能降低所研究的数据空间的维数。

第二，可通过因子负荷的结论，弄清X变量间的某些关系。

第三，可用于多为数据的一种图形表现方法。

第四，可由主成分分析构造回归模型，即把各个主成分作为新自变量代替原来自变量做回归分析。

第五，用主成分分析筛选回归变量。

案例分析：下表是关于全国31个省市的8项经济指标，以此为例，进行主成分分析。

主成分分析法

举例说明PCA方法
儿童的身高(h)和体重(w)是两个变量，其关系如表1所示，用一个直角坐标系表示出来如图1，这两个变量之间存在一个线性关系，数据(hi,wi)就散布在直线的周围。
变量观测值身高h 体重w
1
2 3 4 … n
h1
h2 h3 h4 … hn
w1
w2 w3 w4 … wn
表1 身高与体重
p1 l11 x1 l12 x2 l13 x3 l1m xm p l x l x l x l x 2m m 2 21 1 22 2 23 3 p3 l31 x1 l32 x2 l33 x3 l3 m xm pm lm1 x1 lm 2 x2 lm 3 x3 lmm xm
PCA 中的统计量
使得方差最大的l个相互正交的的方向和沿着些方向的方差是一个某个矩阵的特征向量和特征值。这些特征值和特征向量是特征方程
的解，其中A为样本协方差阵或样本相关矩阵。如果A为样本相关阵，可以避免因为量纲不同而产生的错误；如果利用协方差阵，则需要对原始数据进行标准化。
PCA 主要步骤
图1 直角坐标系
图2 重新选择坐标系
现在以该直线作为一个坐标轴，记为p1，以该直线的垂线作为另外一个坐标轴，记为p2，观测点分布在p1的两侧，而p1与p2垂直，因此彼此不相关。
原观测点可以表示为(p1i,p2i),i=1,2,…,n。可以认为n个观测值的差异主要表现在p1轴方向上，在p2方向上差异很小。由此得出结论，可以用p1一个指标来代替原始变量h、w 研究n个观测对象的差异， p1与p2可以用原始变量的线性组合来表示：
1 r12 R XX ' ... r 1p r12 1 ... r2 p ... r1 p ... r2 p ... ... ... 1

主成分分析和因子分析实例

2020/7/30
从本例可能提出的问题
目前的问题是，能不能把这个数据的6个变量用一两个综合变量来表示呢？
这一两个综合变量包含有多少原来的信息呢？能不能利用找到的综合变量来对学生排序呢？这一类数据所涉及的问题可以推广到对企业、
对学校进行分析、排序、判别和分类等问题。
2020/7/30
主成分分析
这里，第一个因子主要和语文、历史、英语科有很强的正相关；而第二个因子主要和数学、物理、化学三科有很强的正相关。因此可以给第一个因子起名为“文科因子”，而给第二个因子起名为“理科因子”。从这个例子可以看
出，因子分析的结果比主成分分析解释性更强。
R o ta t e d Co m p o n en t M a tra i x
主成分分析
那么这个椭圆有一个长轴和一个短轴。在短轴方向上，数据变化很少；在极端的情况，短轴如果退化成一点，那只有在长轴的方向才能够解释这些点的变化了；这样，由二维到一维的降维就自然完成了。
2020/7/30
主成分分析
当坐标轴和椭圆的长短轴平行，那么代表长轴的变量就描述了数据的主要变化，而代表短轴的变量就描述了数据的次要变化。
2020/7/30
主成分分析和因子分析
介绍两种把变量维数降低以便于描述、理解和分析的方法：主成分分析（ principal component analysis）和因子分析（factor analysis）。
在引进主成分分析之前，先看下面的例子。
2020/7/30
成绩数据
100个学生的数学、物理、化学、语文、历史、英语的成绩如下表（部分）。
Co mp on ent
MA TH
1 -. 38 7

主成分分析实例和含义讲解

主成分分析实例和含义讲解1.数据标准化：对原始数据进行标准化处理，使得每个变量的均值为0，方差为1、这一步是为了将不同量级的变量进行比较。

2.计算协方差矩阵：根据标准化后的数据，计算协方差矩阵。

协方差矩阵反映了各个变量之间的线性关系。

3.特征值分解：对协方差矩阵进行特征值分解，得到特征值和对应的特征向量。

特征值表示了各个特征向量的重要程度。

4.选择主成分：根据特征值的大小，选择前k个特征向量作为主成分，k通常是根据主成分所解释的方差比例进行确定。

5.数据投影：将原始数据投影到选取的主成分上，得到降维后的数据。

主成分分析的含义可以从两个方面来解释。

一方面，主成分分析表示了原始数据在新坐标系下的投影，可以帮助我们理解数据的结构和变化。

通过选择前几个主成分，我们可以找到最能够代表原始数据的几个因素，从而实现数据的降维。

例如，在一个包含多个变量的数据集中，如果我们选择了前两个主成分，那么我们可以通过绘制数据在这两个主成分上的投影，来理解数据的分布和变化规律。

同时，主成分的累计方差贡献率可以帮助我们评估所选择的主成分对原始数据方差的解释程度，从而确定降维的精度。

另一方面，主成分分析还可以用于数据的预处理和异常值检测。

通过计算每个变量在主成分上的权重，我们可以判断每个变量对主成分的贡献大小。

如果一些变量的权重很小，那么可以考虑将其从数据集中剔除，从而减少数据的维度和复杂度。

此外，主成分分析还可以检测数据集中的异常值。

在降维的过程中，异常值对主成分的计算结果会产生较大的影响，因此可以通过比较各个主成分的方差贡献率，来识别可能存在的异常值。

总之，主成分分析是一种常用的数据降维方法，它能够帮助我们理解数据集的结构，并鉴别对数据变化影响最大的因素。

通过选择适当的主成分，我们可以实现数据的降维和可视化，并对异常值进行检测。

在实际应用中，主成分分析常常与其他数据挖掘和机器学习方法结合使用，从而发现数据的隐藏模式和关联规则，提高数据分析的效果和准确性。

主成份分析和因子分析实例

• 定义：因子分析是一种降维分析方法，通过研究多个变量之间的相关性，将多个变量归结为少数几个公共因子
• 原理：基于变量的相关性，通过旋转因子矩阵，使得每个变量仅与一个公共因子高度相关，从而实现对数据的简化分析以下是用户提供的信息和标题：我正在写一份主题为“主成份分析和因子分析实例” 的PPT,现在准备介绍“因子分析的步骤”,请帮我生成“步骤”为标题的内容步骤
数据来源：某高校学生成绩数据
数据清洗：去除异常值、缺失值和重复值
数据转换：将非数值型数据转换为数值型数据数据标准化：将数据进行标准化处理，使每个变量的平均值为0，标准差为 1 数据降维：将高维数据降维到低维空间，保留主要特征
定义：计算变量之间的相关系数矩阵
目的：了解变量之间的相关性
计算方法：使用统计学软件或编程语言计算相关系数矩阵结果解释：通过相关系数矩阵，可以了解变量之间的线性关系强度和方向
因子分析缺点：对数据的要求较高，需要数据量足够大且各变量间相关性较强；在确定因子数量时，需要主观判断。
拓展应用领域：从金融、经济领域拓展到更多领域，如社会学、心理学等优化算法和模型：提高主成份分析和因子分析的准确性和效率，减少误差结合其他技术：与数据挖掘、机器学习等技术结合，提高数据分析的深度和广度强化实际应用：在更多实际问题中应用主成份分析和因子分析，为决策提供支持
根据累积方差贡献率确定主成份个数
根据碎石图确定主成份个数
根据主成份得分矩阵确定主成份个数
根据因子载荷矩阵确定主成份个数
计算每个观测值在每个主成份上的得分
将每个观测值在每个主成份上的得分进行加权求和
得到每个观测值的主成份得分
将每个观测值的主成份得分进行排序，得到主成份得分排名

主成分分析实例

在统计学中，主成分分析（principal components analysis, PCA）是一种简化数据集的技术。

它是一个线性变换。

主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分，忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。

这些涉及的因素一般称为指标，在多元统计分析中也称为变量。

主成分分析的主要作用体现在五个方面，第一，主成分分析能降低所研究的数据空间的维数。

第二，可通过因子负荷的结论，弄清X变量间的某些关系。

第三，可用于多为数据的一种图形表现方法。

第四，可由主成分分析构造回归模型，即把各个主成分作为新自变量代替原来自变量做回归分析。

第五，用主成分分析筛选回归变量。

案例分析：下表是关于全国31个省市的8项经济指标，以此为例，进行主成分分析。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1、主成分法：用主成分法寻找公共因子的方法如下：假定从相关阵出发求解主成分，设有p 个变量，则可找出p 个主成分。

为完成此变换，必须将i Y 除以其标准差，由主成分分析的知识知其标准差即为特征根的平方根i λ/i i i F Y λ=，1122m m λγλγλγ，则式子变为：1111122112211222221122....................m m m m p p p pm m p X a F a F a F X a F a F a F X a F a F a F εεε=++++⎧⎪=++++⎪⎨⎪⎪=++++⎩这与因子模型完全一致，这样，就得到了载荷A 矩阵和初始公因子(未旋转)。

一般设A ∧为样本相关矩阵R 的特征根，12,,...,p γγγ为对应的标准正交化特征向量。

设m<p,则因子载荷矩阵A 的一个解为：A ∧=(1122,,...,m m λγλγλγ)共同度的估计为：222212...i i i im h a a a ∧∧∧∧=+++下面用主成分法分析以下数据：步骤：第一步，把Excel 中的数据导入到SPSS 中：File →Open →Data ；第二步，数据标准化：Analyze →Descriptive Statistics →Descriptives 如图：第三步，检验数据：如图：得到结果如下：KMO 和Bartlett 的检验取样足够度的Kaiser-Meyer-Olkin 度量。

.754 Bartlett 的球形度检验近似卡方df 36Sig. .000Sig小于，所以该数据可用；第四步,用主成分法分析数据：Analyze→Dimension Reduction→Factor 如图：得到结果如下图：相关矩阵Zscore: 100固定资产原值实现值（%）Zscore:100元固定资产原值实现利税（%）Zscore:100元资金实现利税（%）Zscore:100元工业总产值实现利税（%）Zscore:100元销售收入实现利税（%）Zscore(每吨标准煤实现工业产值（元）)Zscore(每千瓦时电力实现工业产值（元）)Zscore:全员劳动生产率（元/人.年）Zscore:100元流动资金实现产值（元）相关Zscore: 100固定资产原值实现值（%）.869 .770 .211 .920 .899 .795 .896Zscore: 100元固定资产原值实现利税（%）.869 .978 .387 .472 .886 .804 .814 .849Zscore: 100元资金实现利税（%）.770 .978 .523 .531 .797 .736 .740 .811Zscore: 100元工业总产值实现利税（%）.387 .523 .323 .115 .125 .051Zscore: 100元销售收入实现利税（%）.211 .472 .531 .323 .175 .260 .371 .317Zscore(每吨标准煤实现工业产值（元）).920 .886 .797 .115 .175 .877 .815 .768Zscore(每千瓦时电力实现工业产值（元）).899 .804 .736 .260 .877 .757 .818Zscore: 全员劳动生产率（元/人.年）.795 .814 .740 .125 .371 .815 .757 .715Zscore: 100元流动资金实现产值（元）.896 .849 .811 .051 .317 .768 .818 .715Communalities其中Communalities给出了该次分析从每个原始变量中提取的信息，表格下面注示表明，该次分析是用Factor analysis模块默认的信息提取方法即主成分分析完成的。

可以看到除100元工业总产值实现利税，100元销售收入实现利税和全员劳动生产率以外，主成分几乎包括了各个原始变量至少80%的信息。

解释的总方差成份初始特征值提取平方和载入合计方差的% 累积% 合计方差的% 累积%123 .6974 .3185 .1906 .1167 .029 .3248 .024 .2709 .002 .027提取方法：主成份分析。

由输出结果看到，前面2个主成分y1，y2的方差和占全部方差的比例为%.我们就选取1y 为第一主成分，2y为第二主成分，且这两个主成分之方差和占全部方差的%，即基本上保留了原来指标的信息，这样由原来的9个指标转化为2个新指标，起到了降维的作用。

Component Matrix aComponent1 2100固定资产原值实现值（%）.931100元固定资产原值实现利税（%）.976 .163100元资金实现利税（%）.931 .322100元工业总产值实现利税（%）.232 .863100元销售收入实现利税（%）.433 .596每吨标准煤实现工业产值（元）.923每千瓦时电力实现工业产值（元）.897全员劳动生产率（元/人.年）.871100元流动资金实现产值（元）.899Extraction Method: Principal Component Analysis.a. 2 components extracted.成份得分系数矩阵成份12Zscore: 100固定资产原值实现值（%）.213Zscore: 100元固定资产原值实现利税（%） .114 .156Zscore: 100元资金实现利税（%）.072 .256Zscore: 100元工业总产值实现利税（%）.567Zscore: 100元销售收入实现利税（%）.406Zscore(每吨标准煤实现工业产值（元）).186Zscore(每千瓦时电力实现工业产值（元）) .198Zscore: 全员劳动生产率（元/人.年）.148 .005Zscore: 100元流动资金实现产值（元）.172提取方法 :主成分分析法。

旋转法 :具有 Kaiser 标准化的正交旋转法。

构成得分。

由上表得到两个主成分，12,y y 的线性组合为：11234567890.2130.1140.0720.1550.0650.1860.1980.1480.172y x x x x x x x x x *********=++--++++21234567890.1530.1560.2560.5670.4060.080.1280.050.051y x x x x x x x x x *********=-++++--+-成份得分协方差矩阵成份 12 1 .0002.000成份得分协方差矩阵成份 12 1 .0002.000提取方法 :主成分分析法。

旋转法 :具有 Kaiser 标准化的正交旋转法。

构成得分。

2、主轴因子法：假定m 个公因子只能解释原始变量的部分方差，利用公因子方差（或共同度）来代替相关矩阵对角线上的元素1，并以新得到的这个矩阵为出发点，对其分别求解特征根与特征向量并得到因子解。

在因子模型中，不难得到如下关于X 的相关矩阵R 的关系式：12,,...,m γγγ***式中，A 为因子载荷矩阵；ε∑为一对角阵，其对角元素为相应特殊因子的方差。

则称R R AA ε*'=-∑=为调整相关矩阵，显然R *的主对角元素不再是1，而是共同度2i h 。

分别求解R *的特征值与标准正交特征向量，进而求出因子载荷矩阵A 。

此时，R *有m 个正的特征值。

设12...m λλλ***≥≥≥为R *的特征根，12,,...,m γγγ***为对应的标准正交化特征向量。

m<p ，则因子载荷矩阵A 的一个主轴因子解为：A ∧=（1122,,...,m m λγλγλγ******）用轴因子法分析上述数据：Analyze →Dimension Reduction →Factor 如图：只需在这步把Methoct选择为Principal axis factoring（主轴因子法），其他的方法与主成分法一致。

得到的结果如下图:相关矩阵Zscore: 100固定资产原值实现值（%）Zscore:100元固定资产原值实现利税（%）Zscore:100元资金实现利税（%）Zscore:100元工业总产值实现利税（%）Zscore:100元销售收入实现利税（%）Zscore(每吨标准煤实现工业产值（元）)Zscore(每千瓦时电力实现工业产值（元）)Zscore:全员劳动生产率（元/人.年）Zscore:100元流动资金实现产值（元）相关Zscore: 100固定资产原值实现值（%）.869 .770 .211 .920 .899 .795 .896Zscore: 100元固定资产原值实现利税（%）.869 .978 .387 .472 .886 .804 .814 .849Zscore: 100元资金实现利税（%）.770 .978 .523 .531 .797 .736 .740 .811Zscore: 100元工业总产值实现利税（%）.387 .523 .323 .115 .125 .051Zscore: 100元销售收入实现利税（%）.211 .472 .531 .323 .175 .260 .371 .317Zscore(每吨标准煤实现工业产值（元）).920 .886 .797 .115 .175 .877 .815 .768Zscore(每千瓦时电力实现工业产值（元）).899 .804 .736 .260 .877 .757 .818Zscore: 全员劳动生产率（元/人.年）.795 .814 .740 .125 .371 .815 .757 .715Zscore: 100元流动资金实现产值（元）.896 .849 .811 .051 .317 .768 .818 .715其中Communalities给出了该次分析从每个原始变量中提取的信息，表格下面注示表明，该次分析是用Factor analysis模块默认的信息提取方法即主成分分析完成的。

主成分分析法实例

合集下载

主成分分析之PCA

主成分分析法实例

利用主成分分析法对我国各地区普通高等教育的发展水平进行综合评价。

主成分分析

主成分分析实例及含义讲解PPT课件

主成分分析法

主成分分析实例及含义讲解

主成分分析实例及含义讲解

主成分分析法概念及例题

主成分分析法实例

主成分分析法例子

主成分分析实例

主成分分析法

主成分分析和因子分析实例

主成分分析实例和含义讲解

主成份分析和因子分析实例

主成分分析实例

文档推荐

最新文档