当前位置:文档之家› 主成分分析的理论和应用

主成分分析的理论和应用

主成分分析的理论和应用
主成分分析的理论和应用

主成分分析的理论和应用 1主成分分析及主成分回归的基本思想

主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快的提取信息。当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取过程,直到所提取的信息与原指标相差不多时为止。主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。主成分回归是在主成分分析法的基础上,由1m +个自变量选出前q 个主成分,他们是互不相关的;在保持因变量不变,用这q 个主成分作为自变量作回归;最后把所得的结果作变量代换,转化成原来因变量与自变量的关系。

2数学模型与几何解释

主成分分析的数学模型是,设p 个变量构成p 维随机向量为12,,...,p X X X 。对X 作正交变换,令T Y T X =,其中T 为正交阵,要求Y 的各分量是不相关的,并且Y 的第一个方差是最大的,第二个分量的方差次之,……。为了保持信息不丢失,Y 的各分量方差与X 的各分量方差和相等。其数学推导为:

设()

12,,

,T

p X X X X =为一个p 维随机向量,并假定存在二阶

矩,其均值向量与协方差分别记为

(),()E X D X μ=∑=

考虑如下的线性变换

11112121...p p Y t X t X t X =+++ 21212222...p p Y t X t X t X =+++ ……

1122...p p p pp p Y t X t X t X =+++ 用矩阵表示为

T Y T X =

其中,()12,,,T P Y Y Y Y =;()12,,,P T T T T =。 满足如下条件:

每个主成分的系数平方和为1。即||||1i T =。 主成分之间相互独立,即无重叠信息。即

()ov ,0,,,1,2,...,i j C Y Y i j i j p ==≠=

主成分的方差依次递减,重要性依次递减,即

12()()()p Var Y Var Y Var Y ≥≥

2.3 主成分分析的性质及推导

(1) 第一主成份的推导: 设X

的协方差阵为211212212

2212

p p p p p σσσσσσσσσ??

???

?

=????????

x Σ

由于Σx 为非负定的对称阵,则有利用线性代数的知识可得,

必存在正交阵T 使得1

00T p T T λλ????

=?

?????

X Σ其中12,,,p λλλ为X

∑的特

征根,不妨假设12p λλλ≥≥≥。而T 恰好是由特征根相对应的特征向量所组成的正交阵。1112121

22212

(,

,)p p p p pp t t t t t t T t t t t t ??

???

?==????????

1p n ()12,,

,i i pi T t t t '

=i 1,2,

,i P =

设有P 维正交向量

11111...'p p Y a X a X a X =++=

121111

1')(a a a a T T Y Var p ??

????

????????'=∑'=λλλ '

11

'2

2'1121',,...,...p p p u u a u u u a u λλλ??????????????=?????

??????????

???

∑=p i i

i i

a t t a 1

'

'λ=∑=p

i i

i

t a 1

2

)

'(λ∑='≤p i i t 1

2

1)(a λ∑='=p

i i i t t 1

1'a a λa a '1TT '=λ1λ=

当且仅当11a t =时,即 时,有最大的方差

1λ。因为

'11()Var Y T = 11xT λ=∑。

如果第一主成分表达的信息不够,则须找第二主成分。 (2)第二主成分:

因为第一,第二主成分线性无关所以有条件0),cov(21=Y Y ,寻找

p

p X t X t Y 21122...++=,因为

()

'

=121111,,,p a a a a p p X t X t Y 11111++=

0'')','cov(),cov(121122121==∑==t t t t x t x t Y Y λ所以0'12=t t 。则对p 维向量2

t 有∑∑====∑=p

i i i p i i i i t t t t t t t t Y Var 1

22122222)'(''')(λλ

∑=≤p

i i t t 2

2

2)'(2λ∑==p

i i i t t t t 1

22''2λ22t TT t ''2λ=222't t λ=2λ=。

所以取线性变换p p X t X t X t Y 22221122+++= ,则2Y 方差次大。依次类

p

pp p p p p p p

p X t X t X t Y X t X t X t Y X t X t X t Y +++=+++=+++=

22112222112212211111

矩阵形式为 T Y T X =。 2.3.2 主成份性质:

性质1 主成分的协方差矩阵是对角阵。 性质2 主成分的总方差等于原是变量的总方差。

性质3 主成分k Y 与原是变量i X

的相关系数为(,)k i ki Y X ρ==并称之为因子负荷量。

性质4 21

(,)p

k i ii k i Y X ρσλ=∑?=,(1,2,...k p =)。

样本主成分性质:

1、第k 个主成分k Y 的系数向量是第k 个特征根k λ所对应的标准化特征向量。

2、第k 个主成分的方差为第k 个特征根k λ,且任意两个主成分都是不相关的,也就是12,,...,p Y Y Y 的样本协方差矩阵是对角矩阵

3、样本主成分的总方差等于原变量样本的总方差,为p

4、第k 个样本主成分与第j 个变量样本之间的相关系数为:

(,)k i ki Y X ρ==

(因子载荷量)

。 2.4主成分的方差贡献率

主成分分析把p 个原始变量12,,...,p X X X 的总方差()tr ∑分解成了p 个相互独立的变量12,,...,p Y Y Y 的方差之和1p

k k λ=∑。主成分分析的目的是减少变量的个数,所以一般不会使用所有p 个主成分,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称1

p

k k

k k ?λλ==∑为第

k 个主成分k Y 的贡献率。第一主成分的

贡献率最大,这表明11'Y T X =综合原始变量12,,...,p X X X 的能力最强,而12,,...,p Y Y Y 的综合能力依次递减。若只取m 个主成分,则称

1

1p

m

m k

k k k ψλλ===∑∑为主成分12,,...,p Y Y Y 的累计贡献率,累计贡献率表明

12,,...,p Y Y Y 综合12,,...,p X X X 的能力。通常使得累计贡献率达到一个较高的百分数(如85%以上)。 2.5主成分分析的计算步骤

(1)由观测数据计算k X ,k s 及kj t ,1,2,...k j m =

(2)由协方差矩阵T 得到特征值j λ,1,2...j m =及各个主成分的方差贡献、贡献率和累计贡献率,并根据累计贡献率确定主成分保留的个数p 。

(3)写出m 个基本方程

m

mm m m m j m m j m m j X t X t X t X X t X t X t X X t X t X t X +++=+++=+++=

22112222112212211111λλλ

式中,1,2...j m =

利用施密特正交化方法,对每一个j λ求他所对应的基本方程组的解12,,...,m X X X ,1,2...j m =,然后令

kj b X =

从而得到用***12,,...,m

X X X 所表示的主成分*j kj k k

z b X =∑,或将*

k k

k k

X X X s -=

代入后得到用12,,...,m X X X 所表示的主成分

j kj k j k

z b X a =+∑。

(4)将12,,...,m X X X 的观测值带入主成分的表达式中计算各个主成分的值。

(5)计算原指标与主成分的相关系数即因子载荷,解释主成分的意义。

表1-1是我国16个地区农民在某年支出情况的抽样调查数据的汇总资料,每个地区都调查了反映每人平均生活消费支出情况的六个指标。试对调查资料中的16个地区的农民生活水平进行主成分分析,并利用前两个主成分对16个地区的农民生活水平进行分类

表1-1 16个地区的农民生活水平的调查数据 (单位:元)

地区

食品 (1X )

衣着 (2X ) 燃料 (3X ) 住房 (4X ) 生活用品及其它 (5X ) 文化生活服务 (6X ) 北京 190.33 43.77 9.73 60.54 49.01 9.04 天津 135.20 36.40 10.47 44.16 36.49 3.94 河北 95.21 22.83 9.30 22.44 22.81 2.80 山西 104.78 25.11 6.40 9.89 18.17 3.25 内蒙古 128.41 27.63 8.94 12.58 23.99 3.27 辽宁 145.68 32.83 17.79 27.29 39.09 3.47 吉林 159.37 33.38 18.37 11.81 25.29 5.22 黑龙江 116.22 29.57 13.24 13.76 21.75 6.04 上海 221.11 38.64 12.53 115.65 50.82 5.89 江苏 144.98 29.12 11.67 42.60 27.30 5.74 浙江 169.92 32.75 12.72 47.12 34.35 5.00 安徽 153.11 23.09 15.62 23.54 18.18 6.39 福建 144.92 21.26 16.96 19.52 21.75 6.73 江西 140.54 21.50 17.64 19.19 15.97 4.94 山东 115.84 30.26 12.20 33.61 33.77 3.85 河南 101.18

23.26

8.46

20.20

20.50

4.30

再令标准化的矩阵为 Y=166()ij y ? ,理论部分给出了如下的计算公式: i j j

ij j

x X y S -=

(i =1,2,...,16; j =1,2, (6)

运用MATLAB 对此公式进行计算,可得出矩阵Y

1.4603

2.1712 -0.7784 1.0484 1.8823 2.4823 -0.1943 1.0528 -0.5796 0.4306 0.7218 -0.6450 -1.3946 -1.0065 -0.8939 -0.3886 -0.5462 -1.3441 -1.1074 -0.6605 -1.6730 -0.8619 -0.9762 -1.0681 -0.3981 -0.2781 -0.9906 -0.7605 -0.4368 -1.0559 0.1202 0.5110 1.3869 -0.2057 0.9628 -0.9332 0.5311 0.5945 1.5427 -0.7895 -0.3163 0.1399 -0.7640 0.0163 0.1645 -0.7160 -0.6444 0.6427 2.3842 1.3927 -0.0262

3.1269 2.0500 0.5507 0.0992 -0.0520 -0.2572 0.3717 -0.1300 0.4588 0.8477 0.4989 0.0248 0.5422 0.5235 0.0050 0.3432 -0.9670 0.8039 -0.3471 -0.9753 0.8573 0.0974 -1.2447 1.1639 -0.4987 -0.6444 1.0658 -0.0341 -1.2083 1.3466 -0.5112 -1.1802 -0.0318 -0.7754 0.1210 -0.1148 0.0327 0.4697 -0.7002 -1.2154 -0.9412 -1.1196 -0.4731 -0.7603 -0.4243????????????????????????????????????????

?????????? 设矩阵Y 的相关阵为()kj R r =,前面有公式

161611()

()111611ij j ik k kj ik ij j k

x X x X r y y n S S --==--∑∑

(k ,j =1,2,…,6) 1. 运用MATLAB 可得到下面的矩阵Y 的相关阵R :

1.0000 0.6635 0.3371 0.7800 0.7058 0.6346 0.6635 1.0000 -0.0810 0.6630 0.9015 0.3748 0.3371 -0.0810 1.0000 -0.0887 -0.0614 0.2542 0.7800 0.6630 -0.0887 1.0000 0.8311 0.3635 0.7058 0.9015 -0.0614 0.8311 1.0000 0.3112 0.6346 0.3748 0.2542 0.3635 0.3112 1.0000??????????????????

前面介绍了这么个定理:设1(,...,)'p X X X =是p 维随机向量,且()D X =∑,∑的特征值为12...0p λλλ≥≥≥≥,12,,...,p a a a 为相应的单位正交特征向量,则X 的第i 主成分为

'i i Z a X = (1,2,...

,i p =

下面,要做的应该是求R 的特征值和特征向量。设其特征值为j

λ

(j =1,2,…,6),且1234560λλλλλλ≥≥≥≥≥>,j λ(j =1,2,…,6)对应的正则化

的特征向量为126(,,

)'j j j j l l l l =(j =1,2, (6)

,同样运用MATLAB 可计算出结果: 1λ=3.5584 1l =(0.4811,0.4612,0.0525,0.4668,0.4842,0.3173)'

2λ=1.3163 2l =(-0.2570,0.2176,-0.7777,0.1806,0.2438,-0.4355)'

3λ=0.6082 3l =(0.0445,0.1001,0.5488,0.0726,0.2472,-0.7877)' 4λ=0.3734 4l =(0.2772,-0.6540,-0.1033,0.6571,-0.1851,-0.1370)'

5λ=0.1072 5l =(-0.7203,-0.2379,0.2355,0.2900,0.4634,0.2652)' 6λ=0.0365 6l =(-0.3238,0.4957,0.1584,0.4779,-0.6293,0.0016)'

这样,把各特征向量的数值作为系数就可以写出预期的6个主成分表达式:

1Z =0.48111Y +0.46122Y +0.05253Y +0.46684Y +0.48425Y +0.31736Y 2Z =-0.25701Y +0.21762Y -0.77773Y +0.18064Y +0.24385Y -0.43556Y

3Z =0.04451Y +0.10012Y +0.54883Y +0.07264Y +0.24725Y -0.78776Y 4Z =0.27721Y -0.65402Y -0.10333Y +0.65714Y -0.18515Y -0.13706Y 5Z =-0.72031Y -0.23792Y -0.23553Y +0.29004Y +0.46345Y 0.26526Y 6Z =-0.32381Y +0.49572Y +0.15843Y +0.47794Y -0.62935Y +0.00166Y

为了说明各主成分(即新指标)反映的原信息量的多少,还应该求出主成

分k Z (k =1,2,…,6)的贡献率1

p

k i i λλ=∑(第k 个主成分反映的信息量)和累计贡

献率11

p

m

k

i i i λλ==∑∑。

(前k 个主成分反映的总信息量)。实际结果如下表所示:

最后,将标准化后的样本数据代入前两个主成分

1Z =0.48111Y +0.46122Y +0.05253Y +0.46684Y +0.48425Y +0.31736Y 和

2Z =-0.25701Y +0.21762Y -0.77773Y +0.18064Y +0.24385Y -0.43556Y 可得到各地区在第一主成分和第二主成分的得分情况

表3-3 各地区在第一主成分和第二主成分的得分图

地区 1北京 2天津 3河北 4山西 第一主成分得分 3.8515 0.7075 -2.0544 -2.1391 第二主成分得分

0.2697 1.2644 1.2166 1.5135 地区 5内蒙古 6辽宁 7吉林 8黑龙江 第一主成分得分 -1.2733 0.4404 0.1334 -0.7937 第二主成分得分

1.0282 -0.3943 -1.4875 -0.4943 地区 9上海 10江苏 11浙江 12安徽 第一主成分得分 4.4150 0.2664 1.1474 -0.6009 第二主成分得分

0.5354 -0.0012 0.0948 -1.5976 地区 13福建 14江西 15山东 16河南 第一主成分得分 -0.6727 -1.3231 -0.3027 -1.8012 第二主成分得分

-1.9124

-1.6676

0.7402

0.8922

3.2 结果分析

根据前面得出了六个主成分的表达式。

第一主成分中1Y 、2Y 、4Y 、5Y 的系数都在0.5附近, 6Y 的系数也相差不远且都是正值,只有3Y 的系数比较小。它反映总体消费高的地区除燃料消费外,其它消费基本也都较高。它的贡献率为59.31%,表达出的信息量很大。

第二主成分中3Y 的系数绝对值较大,它更多地反映了燃料消费的情况。它的贡献率为21.94%,表达的信息较大。第一主成分与第二主成分的累计贡献量达到81.25%。

第三主成分更多地反映了农民文化生活服务消费的情况,它的贡献率为10.14%,已经较小;

从第四到第六主成分的贡献率都很小,它们表达的信息量也小,基本上它们反映的消费指标间的关系已经没有太多意义。因此可以用两个或三个新生成的指标来对各地区的消费情况进行分析总结。

下面用第一主成分与第二主成分对16个地区进行分类。

根据前面各个地区第一主成分与第二主成分的得分,可用数学工具MATLAB 列出第二主成分对第一主成分的散布图如下:

图3-1 第二主成分对第一主成分的散布图

从图中可以看出,这些地区大体上可分为四类

第一类包括:上海、北京。这些地区的农民总体消费最高,农民生活水平较高。

第二类包括:浙江、江苏、辽宁、黑龙江。这些地区燃料消费相对于总消费的比率相对趋中。总消费普遍高于后两类地区。

第三类包括:天津、山东、内蒙古、河南、河北、山西。这些地区燃料消费相对于总消费的比率较低。

第四类包括:吉林、安徽、福建、江西。这些地区燃料消费相对于总消费的比率很高。

如果要分得更简单点,可以只把北京和上海归为一类,其它14个地区分为另一类。只是这样的分类只需要依赖第一主成分,在反映信息的准确度上差了不少。当然,这样的分类也不能最完整地反映实际情况,从累计贡献率上可以看出两个主成分只反映了原信息量的81.25%。要达到更精确的分类,得取更多的主成分,而取更多主成分又势必增大评价难度。

4 结论

课题中的6个指标是有一定联系的,论文用主成分分析找出了课题中6个指标的相关点,并找到了用原始指标表示的6个新指标。然后用可最多地表达原信息量的2个新指标(即取到第二个主成分)对16个样本进行分类比较。透过两个新指标的表达式和代入样本数据后算出的新指标值,很容易地看出了不同类的不同消费特点:上海、北京的农民总体消费最高,农民生活较富足;浙江、江苏、辽宁、黑龙江的农民燃料和消费相对总消费的比率趋中,总消费普遍高于后两类地区;天津、山东、内蒙古、河南、河北、山西的农民燃料消费相对总消费的比率偏低,其中天津、山东的农民消费水平相对较高;吉林、安徽、福建、江西的农民燃料消费相对总消费的比率很高。

主成分分析在这里实现了它存在的意义,大限度保持信息量的同时达到降维指标、简化问题的目的的这一特点使它得以迅速发展和广泛应用。

实际上,现在许多统计问题依据的多个指标都存在着相关性,主成分分析很适合解决这些问题。但它毕竟不能最完整地反映原来的信息。如本论文取前两个主成分进行分析,它只表达了原信息量的81.25%,另外18.75%包含在其它四个指标中。可如果取到第三个主成分,势必又会大大增加评价的难度。因此,对于具体的问题应该具体地分析,尽量找到一种理想的既能满足信息量要求又能最大限度简化问题的主成分取法。

主成分分析法运用

统计学简介及在实践中的应用 --以主成分分析法分析影响房价因素为例 姓名:阳飞 学号:2111601015 学院:经济管理学院 指导教师:吴东武 时间:二〇一七年一月六日

1 简介 统计语源最早出现于中世界拉丁语的Status,意思指各种现象的状态和状况。后来由这一语根组成意大利语Stato,有表示“国家”的概念,也含有国家结构和 国情知识的意思。根据这一语根,最早作为学名使用的“统计”的是在十八世纪德国政治学教授亨瓦尔(G.Achenwall)。他在1749年所著《近代欧洲各国国家学纲要》一书的绪言中,就把国家学名定义为“Statistika”(统计)这个词。原意是 指“国家显著事项的比较和记述”或“国势学”,认为统计是关于国家应注意事项的学问。自此以后,各国就相继沿用“统计”这个词,更把这个词译成各国的文字,其中,法国译为Statistique;意大利译为Statistica;英国译为Statistics;日本最初译为“政表”、“政算”、“国势”、“形势”等,直到1880年在太政官中设立了统计院,这个时候才确定以“统计”二字正名。 在我国近代史上首次出现是在1903年(清光绪廿九年)由钮永建、林卓南等翻译了四本由横山雅南所著的《统计讲义录》一书,这个时候才把“统计”这个词从日本传到我国。1907年(清光绪卅三年),由彭祖植编写的《统计学》在日本出版,同时在国内发行。这本书是我国最早的一本“统计学”书籍。自此以后“统计”一词就成了记述国家和社会状况的数量关系的总称。 关于“统计”这个词,后来又引申到了各种各样的组合,包括:统计工作、统计资料、统计科学。 统计工作是指利用科学的方法搜集、整理、分析和提供关于社会经济现象数量资料的工作的总称,它是统计的基础,也称统计实践或统计活动。是在一定统计理论指导下,采用科学的方法,搜集、整理、分析统计资料的一系列活动过程。

PCA主成分分析原理及应用

主元分析(PCA)理论分析及应用 什么是PCA? PCA是Principal component analysis的缩写,中文翻译为主元分析/主成分分析。它是一种对数据进行分析的技术,最重要的应用是对原有数据进行简化。正如它的名字:主元分析,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便的应用与各个场合。因此应用极其广泛,从神经科学到计算机图形学都有它的用武之地。被誉为应用线形代数最价值的结果之一。 在以下的章节中,不仅有对PCA的比较直观的解释,同时也配有较为深入的分析。首先将从一个简单的例子开始说明PCA应用的场合以及想法的由来,进行一个比较直观的解释;然后加入数学的严格推导,引入线形代数,进行问题的求解。随后将揭示PCA与SVD(Singular Value Decomposition)之间的联系以及如何将之应用于真实世界。最后将分析PCA理论模型的假设条件以及针对这些条件可能进行的改进。 一个简单的模型 在实验科学中我常遇到的情况是,使用大量的变量代表可能变化的因素,例如光谱、电压、速度等等。但是由于实验环境和观测手段的限制,实验数据往往变得极其的复杂、混乱和冗余的。如何对数据进行分析,取得隐藏在数据背后的变量关系,是一个很困难的问题。在神经科学、气象学、海洋学等等学科实验中,假设的变量个数可能非常之多,但是真正的影响因素以及它们之间的关系可能又是非常之简单的。 下面的模型取自一个物理学中的实验。它看上去比较简单,但足以说明问题。如图表 1所示。这是一个理想弹簧运动规律的测定实验。假设球是连接在一个无质量无摩擦的弹簧之上,从平衡位置沿轴拉开一定的距离然后释放。

主成分分析原理及详解

第14章主成分分析 1 概述 1.1 基本概念 1.1.1 定义 主成分分析是根据原始变量之间的相互关系,寻找一组由原变量组成、而彼此不相关的综合变量,从而浓缩原始数据信息、简化数据结构、压缩数据规模的一种统计方法。 1.1.2 举例 为什么叫主成分,下面通过一个例子来说明。 假定有N 个儿童的两个指标x1与x2,如身高和体重。x1与x2有显著的相关性。当N较大时,N观测量在平面上形成椭圆形的散点分布图,每一个坐标点即为个体x1与x2的取值,如果把通过该椭圆形的长轴取作新坐标轴的横轴Z1,在此轴的原点取一条垂直于Z1的直线定为新坐标轴的Z2,于是这N个点在新坐标轴上的坐标位置发生了改变;同时这N个点的性质也发生了改变,他们之间的关系不再是相关的。很明显,在新坐标上Z1与N个点分布的长轴一致,反映了N个观测量个体间离差的大部分信息,若Z1反映了原始数据信息的80%,则Z2只反映总信息的20%。这样新指标Z1称为原指标的第 358

一主成分,Z2称为原指标的第二主成分。所以如果要研究N个对象的变异,可以只考虑Z1这一个指标代替原来的两个指标(x1与x2),这种做法符合PCA提出的基本要求,即减少指标的个数,又不损失或少损失原来指标提供的信息。 1.1.3 函数公式 通过数学的方法可以求出Z1和Z2与x1与x2之间的关系。 Z1=l11x1+ l12x2 Z2=l21x1+ l22x2 即新指标Z1和Z2是原指标x1与x2的线性函数。在统计学上称为第一主成分和第二主成分。 若原变量有3个,且彼此相关,则N个对象在3维空间成椭圆球分布,见图14-1。 通过旋转和改变原点(坐标0点),就可以得到第一主成分、第二主成分和第三主成分。如果第二主成分和第三主成分与第一主成高度相关,或者说第二主成分和第三主成分相对于第一主成分来说变异很小,即N个对象在新坐标的三维空间分布成一长杆状时,则只需用一个综合指标便能反映原始数据中3个变量的基本特征。 359

主成分分析法的原理应用及计算步骤..

一、概述 在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点: ↓主成分个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓主成分能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓主成分之间应该互不相关 通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。 ↓主成分具有命名解释性 总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。 二、基本原理 主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,…,XP (比如p 个指标),重新组合成一组较少个数的互不相关的综合指标Fm 来代替原来指标。那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp 所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。 设F1表示原变量的第一个线性组合所形成的主成分指标,即 11112121...p p F a X a X a X =+++,由数学知识可知,每一个主成分所提取的信息量可 用其方差来度量,其方差Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大,因此在所有的线性组合中选取的F1应该是X1,X2,…,XP 的所有线性组合中方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p 个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息,F1已有的信息就不需要再出现在F2中,即F2与F1要保持独立、不相关,用数学语言表达就是其协方差Cov(F1, F2)=0,所以F2是与F1不

主成分分析法的步骤和原理

(一)主成分分析法的基本思想 主成分分析(Principal Component Analysis)是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。[2] 采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。 (二)主成分分析法代数模型 假设用p个变量来描述研究对象,分别用X1,X2…X p来表示,这p个变量构成的p维随机向量为X=(X1,X2…X p)t。设随机向量X的均值为μ,协方差矩阵为Σ。对X进行线性变化,考虑原始变量的线性组合: Z=μX+μX+…μX Z=μX+μX+…μX ……………… Z=μX+μX+…μX 主成分是不相关的线性组合Z1,Z2……Z p,并且Z1是X,X…X的线性组合中方差最大者,Z2是与Z1不相关的线性组合中方差最大者,…,Z是与Z1,Z2……Z p-1都不相关的线性组合中方差最大者。 (三)主成分分析法基本步骤 第一步:设估计样本数为n,选取的财务指标数为p,则由估计样本的原始数据可得矩阵X=(x ij)m×p,其中x ij表示第i家上市公司的第j项财务指标数据。 第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。 第三步:根据标准化数据矩阵建立协方差矩阵R,是反映标准化后的数据之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分析。其中,R ij(i,j=1,2,…,p)为原始变量X i与X j的相关系数。R为实对称矩阵

主成分分析法概念及例题

主成分分析法 [ 编辑 ] 什么是主成分分析法 主成分分析也称 主分量分析 ,旨在利用降维的思想,把多 指标 转化为少数几个综合指标。 在 统计学 中,主成分分析( principal components analysis,PCA )是一种简化数据集的技 术。它是一个线性变换。 这个变换把数据变换到一个新的坐标系统中, 使得任何数据投影的第一 大方差 在第一个坐标 (称为第一主成分 )上,第二大方差在第二个坐标 (第二主成分 )上,依次类推。 主成分分析经常用减少数据集的维数, 同时保持数据集的对 方差 贡献最大的特征。 这是通过保留 低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是, 这也不是一定的,要视具体应用而定。 [ 编辑 ] , PCA ) 又称: 主分量分析,主成分回归分析法 主成分分析( principal components analysis

主成分分析的基本思想 在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [ 编辑] 主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [ 编辑] 主成分分析的主要作用

主成分分析法PCA的原理

主成分分析法原理简介 1.什么是主成分分析法 主成分分析也称主分量分析,是揭示大样本、多变量数据或样本之间内在关系的一种方法,旨在利用降维的思想,把多指标转化为少数几个综合指标,降低观测空间的维数,以获取最主要的信息。 在统计学中,主成分分析(principal components analysis, PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 2.主成分分析的基本思想 在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 对同一个体进行多项观察时必定涉及多个随机变量X1,X2,…,X p,它们之间都存在着相关性,一时难以综合。这时就需要借助主成分分析来概括诸多信息的主要方面。我们希望有一个或几个较好的综合指标来概括信息,而且希望综合指标互相独立地各代表某一方面的性质。

主成分分析原理

主成分分析原理 (一)教学目的 通过本章的学习,对主成分分析从总体上有一个清晰地认识,理解主成分分析的基本思想和数学模型,掌握用主成分分析方法解决实际问题的能力。 (二)基本要求 了解主成分分析的基本思想,几何解释,理解主成分分析的数学模型,掌握主成分分析方法的主要步骤。 (三)教学要点 1、主成分分析基本思想,数学模型,几何解释 2、主成分分析的计算步骤及应用 (四)教学时数 3课时 (五)教学内容 1、主成分分析的原理及模型 2、主成分的导出及主成分分析步骤 在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。 第一节主成分分析的原理及模型 一、主成分分析的基本思想与数学模型 (一)主成分分析的基本思想 主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。

主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求0),(21=F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。 (二)主成分分析的数学模型 对于一个样本资料,观测p 个变量p x x x ,,21,n 个样品的数据资料阵为: ?? ? ? ? ? ? ??=np n n p p x x x x x x x x x X 2 1 22221 11211 ()p x x x ,,21= 其中:p j x x x x nj j j j ,2,1, 21=???? ?? ? ??= 主成分分析就是将 p 个观测变量综合成为p 个新的变量(综合变量),即 ?? ???? ?+++=+++=+++=p pp p p p p p p p x a x a x a F x a x a x a F x a x a x a F 22112222121212121111 简写为: p jp j j j x x x F ααα+++= 2211 p j ,,2,1 = 要求模型满足以下条件:

主成分法及其应用

【作者简介】 苏键(1985-),男,广西钦州人,助理工程师,研究方向:食品科学。1主成分分析法 何谓主成分分析,就是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析[1]。主成分分析的中心思想是缩减一个包括很多相互联系着的变量的数量集,在数量集中保留尽可能多的有用的变量。 主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。主成分分析是设法将原来众多具有一定相关性(比如P 个指标 ),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P 个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var (F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的, 故称F1为第一主成分。如果第一主成分不足以代表原来P 个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求Cov (F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P 个主成分[2]。 主成分分析首先是由K.皮尔森对非随机变量引入的,而后H.霍特林将此方法推广到随机向量的情形[2]。信息的大小通常用离差平方和或方差来衡量。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。 2主成分分析法在食品领域的应用 2.1主成分分析在食品风味方面的应用 目前,主成分分析应用还是比较广泛的,但是就食品风味方面,关于该分析方法的文献鲜见报道。戴素贤等[3]人对七种高香型乌龙茶中的香气成分进行了主成分分析,他们尝试用主成分分析法来研究茶业香型的变化,并进而找到影响这些香型变化的主要化合物,同时还发现了不同的茶别中香气化合物变化的趋势并进行了模拟量化,直观地表现了各种香气化合物对香气的贡献程度。李华等[4]运用多元统计分析确定葡萄酒感官特性,多元统计分析中的主成分分析等数学工具能够把大量的描述葡萄酒感官特性的描述语精简成较少的综合性更强的描述语,这些精简后的描述语不但能够反映精简前描述语的信息,还可以筛选出科学合理的描述符,描述符是描述分析的语言和工具,根据描述符可以分类不同的葡萄酒。邵威平等[5]应用主成分分析法完成了不同品牌啤酒风味差异性的评价,同一品牌啤酒风味一致性的评价,同一品牌不同生产厂之间一致性的评价以及同一生产厂啤酒一致性的评价这些工作。 啤酒是个多指标的风味食品,主成分分析法可以帮助我们更好地研究啤酒理化指标和啤酒风格之间的相关性,从而达到更好地理解啤酒风味的目的。岳田利等[6]人则通过利用主成分分析的方法建立了苹果酒香气质量的评价模型,并以此来对苹果酒样品香气组分进行客观的统计分析。S.Kallithraka 等[7]采用高效液相色谱法和气相色谱法研究了希腊国内不同产地葡萄酒的化合物成分和感官特性,并运用了PCA 法(主成分分析法)对所得参数进行多元分析,最终达到给葡萄酒评价和分类的目的。2.2主成分分析在食品品质方面的应用 食品品质的评价往往是非常复杂的过程。因为影响食品品质的因素大量存在,非人为因素如食品环境中的微生物,温度及pH 等的变化带来的影响。另一方面,由于人为的因素掺假也会造成食品品质的低劣,进而损害广大销售者和消费者的利益。如黎海红等[8]人运用主成分分析法对掺伪芝麻油的检测方法进行研究分析。根据主成分分析的实验原理,可以选择芝麻油的折光率、酸价、色泽、水分及挥发物、皂化值和碘价等理化指标作为变量,将这些变量的所测数据做矩阵处理最后分析就 轻工科技 LIGHT INDUSTRY SCIENCE AND TECHNOLOGY 2012年9月第9期(总第166期) 食品与生物 主成分分析法及其应用 苏键,陈军,何洁 (广西轻工业科学技术研究院,广西南宁530031) 【摘要】 介绍了主成分分析法的定义、原理,概述了该法在食品及一些仪器分析领域的应用,目的是为其他还未应用该分 析方法的学术领域提供一种参考和借鉴,使得主成分分析法能够在越来越多的学术领域中得以推广和应用。 【关键词】主成分分析;应用;概述【中图分类号】TS262【文献标识码】A 【文章编号】2095-3518 (2012)09-12-02

主成分分析法的步骤和原理

主成分分析法的步骤和原理 (总2页) -CAL-FENGHAI.-(YICAI)-Company One1 -CAL-本页仅作为文档封面,使用请直接删除

(一)主成分分析法的基本思想 主成分分析(Principal Component Analysis)是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。[2] 采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。 (二)主成分分析法代数模型 假设用p个变量来描述研究对象,分别用X 1,X 2 …X p 来表示,这p个变量构 成的p维随机向量为X=(X 1,X 2 …X p )t。设随机向量X的均值为μ,协方差矩阵 为Σ。假设 X 是以 n 个标量随机变量组成的列向量,并且μk 是其第k个元素的期望值,即,μk= E(xk),协方差矩阵然后被定义为: Σ=E{(X-E[X])(X-E[X])}=(如图 对X进行线性变化,考虑原始变量的线性组合: Z1=μ11X1+μ12X2+…μ1p X p Z2=μ21X1+μ22X2+…μ2p X p ……………… Z p=μp1X1+μp2X2+…μpp X p 主成分是不相关的线性组合Z 1,Z 2 ……Z p ,并且Z 1 是X1,X2…X p的线性组合 中方差最大者,Z 2是与Z 1 不相关的线性组合中方差最大者,…,Z p是与Z 1 , Z 2……Z p-1 都不相关的线性组合中方差最大者。 (三)主成分分析法基本步骤 第一步:设估计样本数为n,选取的财务指标数为p,则由估计样本的原始 数据可得矩阵X=(x ij ) m×p ,其中x ij 表示第i家上市公司的第j项财务指标数 据。 第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。 第三步:根据标准化数据矩阵建立协方差矩阵R,是反映标准化后的数据之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分 析。其中,R ij (i,j=1,2,…,p)为原始变量X i 与X j 的相关系数。R为实对 称矩阵(即R ij =R ji ),只需计算其上三角元素或下三角元素即可,其计算公式 为:

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 公司销售净利率(X1)资产净利率(X2)净资产收益率(X3)销售毛利率(X4) 歌华有线五粮液用友软件太太药业浙江阳光烟台万华方正科技红河光明贵州茅台中铁二局红星发展伊利股份青岛海尔湖北宜化雅戈尔福建南纸43.31 17.11 21.11 29.55 11.00 17.63 2.73 29.11 20.29 3.99 22.65 4.43 5.40 7.06 19.82 7.26 7.39 12.13 6.03 8.62 8.41 13.86 4.22 5.44 9.48 4.64 11.13 7.30 8.90 2.79 10.53 2.99 8.73 17.29 7.00 10.13 11.83 15.41 17.16 6.09 12.97 9.35 14.3 14.36 12.53 5.24 18.55 6.99 54.89 44.25 89.37 73 25.22 36.44 9.96 56.26 82.23 13.04 50.51 29.04 65.5 19.79 42.04 22.72 第一,将EXCEL中的原始数据导入到SPSS软件中; 注意: 导入Spss的数据不能出现空缺的现象,如出现可用0补齐。 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。 所做工作: a. 原始数据的标准化处理

主成分分析原理

第七章主成分分析 (一)教学目的 通过本章的学习,对主成分分析从总体上有一个清晰地认识,理解主成分分析的基本思想和数学模型,掌握用主成分分析方法解决实际问题的能力。 (二)基本要求 了解主成分分析的基本思想,几何解释,理解主成分分析的数学模型,掌握主成分分析方法的主要步骤。 (三)教学要点 1、主成分分析基本思想,数学模型,几何解释 2、主成分分析的计算步骤及应用 (四)教学时数 3课时 (五)教学内容 1、主成分分析的原理及模型 2、主成分的导出及主成分分析步骤 在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。 第一节主成分分析的原理及模型 一、主成分分析的基本思想与数学模型 (一)主成分分析的基本思想 主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。

主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求0),(21=F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。 (二)主成分分析的数学模型 对于一个样本资料,观测p 个变量p x x x ,,21,n 个样品的数据资料阵为: ??????? ??=np n n p p x x x x x x x x x X 21 222 21112 11()p x x x ,,21= 其中:p j x x x x nj j j j ,2,1,21=?????? ? ??= 主成分分析就是将p 个观测变量综合成为p 个新的变量(综合变量),即 ???????+++=+++=+++=p pp p p p p p p p x a x a x a F x a x a x a F x a x a x a F 22112222121212121111 简写为: p jp j j j x x x F ααα+++= 2211 p j ,,2,1 = 要求模型满足以下条件:

主成分分析在STATA中的实现以及理论介绍

第十二章 主成分分析 主成分分分析也称作主分量分析,是霍特林(Hotelling)在1933年首先提出。主成分分析是利用降维的思想,在损失较少信息的前提下把多个指标转化为较少的综合指标。转化生成的综合指标即称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分互不相关。Stata 对主成分分析的主要内容包括:主成分估计、主成分分析的恰当性(包括负偏协方差矩阵和负偏相关系数矩阵、KMO(Kaiser-Meyer-Olkin)抽样充分性、复相关系数、共同度等指标测度)、主成分的旋转、预测、各种检验、碎石图、得分图、载荷图等。 p j n i b a y ij j i ij ,,2,1,,2,1,' ==+=ε 主成分的模型表达式为: p p j i i i i diag v v v v i p V V C λλλλλλλ≥≥≥=∧='' ==∧=∑ 2121),,,,(0 1 其中,a 称为得分,b 称为载荷。主成分分析主要的分析方法是对相关系数矩阵(或协方差矩阵)进行特征值分析。 Stata 中可以通过负偏相关系数矩阵、负相关系数平方和KMO 值对主成分分析的恰当性进行分析。负偏相关系数矩阵即变量之间两两偏相关系数的负数。非对角线元素则为负的偏相关系数。如果变量之间存在较强的共性,则偏相关系数比较低。因此,如果矩阵中偏相关系数较高的个数比较多,说明某一些变量与另外一些变量的相关性比较低,主成分模型可能不适用。这时,主成分分析不能得到很好的数据约化效果。 Kaiser-Meyer-Olkin 抽样充分性测度也是用于测量变量之间相关关系的强弱的重要指标,是通过比较两个变量的相关系数与偏相关系数得到的。KMO 介于0于1之间。KMO 越高,表明变量的共性越强。如果偏相关系数相对于相关系数比较高,则KMO 比较低,主成分分析不能起到很好的数据约化效果。根据Kaiser (1974),一般的判断标准如下:0.00-0.49,不能接受(unacceptable );0.50-0.59,非常差(miserable );0.60-0.69,勉强接受(mediocre );0.70-0.79,可以接受(middling );0.80-0.89,比较好(meritorious );0.90-1.00,非常好(marvelous )。 SMC 即一个变量与其他所有变量的复相关系数的平方,也就是复回归方程的可决系数。SMC 比较高表明变量的线性关系越强,共性越强,主成分分析就越合适。 成分载荷、KMO 、SMC 等指标都可以通过extat 命令进行分析。 多元方差分析是方差分析在多元中的扩展,即模型含有多个响应变量。本章介绍多元(协)方差分析以及霍特林(Hotelling)均值向量T 检验。 12.1 主成分估计 Stata 可以通过变量进行主成分分析,也可以直接通过相关系数矩阵或协方差矩阵进行。 (1)sysuse auto,clear pca trunk weight length headroom pca trunk weight length headroom, comp(2) covariance

主成分分析方法及matlab运用解释

主成分分析方法 在许多实际问题中,多个变量之间就是具有一定的相关关系的。因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法就是可以实现的,这里介绍的主成分分析方法就就是综合处理这种问题的一种强有力的方法。 一、主成分分析的基本原理 主成分分析就是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来瞧,这就是一种降维处理技术。假定有n 个地理样本,每个样本共有p 个变量描述,这样就构成了一个n×p 阶的地理数据矩阵: 111212122212p p n n np x x x x x x X x x x ???=????L L L L L L L (1) 如何从这么多变量的数据中抓住地理事物的内在规律性呢?要解决这一问题,自然要在p 维空间中加以考察,这就是比较麻烦的。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又就是彼此独立的。那么,这些综合指标(即新变量)应如何选取呢?显然,其最简单的形式就就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。 如果记原来的变量指标为x 1,x 2,…,x p ,它们的综合指标——新变量指标为z 1,z 2,…,zm(m≤p)。则 11111221221122221122,,......................................... ,p p p p m m m mp p z l x l x l x z l x l x l x z l x l x l x =+++??=+++????=+++?L L L (2) 在(2)式中,系数l ij 由下列原则来决定: (1)z i 与z j (i≠j ;i,j=1,2,…,m)相互无关; (2)z 1就是x 1,x 2,…,x p 的一切线性组合中方差最大者;z 2就是与z 1不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者;……;z m 就是与z 1,z 2,……z m-1都不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者。 这样决定的新变量指标z 1,z 2,…,zm 分别称为原变量指标x 1,x 2,…,x p 的第一,第二,…,第m 主成分。其中,z 1在总方差中占的比例最大,z 2,z 3,…,z m 的方差依次递减。在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。 从以上分析可以瞧出,找主成分就就是确定原来变量x j (j=1,2,…,p)在诸主成分z i (i=1,2,…,m)上的载荷l ij (i=1,2,…,m;j=1,2,…,p),从数学上容易知道,它们分别就是x 1,x 2,…,x p 的相关矩阵的m 个较大的特征值所对应的特征向量。 二、主成分分析的计算步骤 通过上述主成分分析的基本原理的介绍,我们可以把主成分分析计算步骤归纳如

主成分分析法概念及例题.doc

主成分分析法 主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法 [编辑] 什么是主成分分析法 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。 在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 [编辑] 主成分分析的基本思想

在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [编辑] 主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [编辑] 主成分分析的主要作用

SPSS软件进行主成分分析的应用例子修订版

S P S S软件进行主成分分析的应用例子 集团标准化小组:[VVOPPT-JOPP28-JPPTL98-LOPPNN]

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 1. 第一,将EXCEL中的原始数据导入到SPSS软件中; 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。 进行因子分析(指标之间的相关性判定略)。 【1】“分析”|“降维”|“因子分析”选项卡,将要进行分析的变量选入“变量”列表; 【2】设置“描述”,勾选“原始分析结果”和“KMO与Bartlett球形度检验”复选框;

【3】设置“抽取”,勾选“碎石图”复选框; 【4】设置“旋转”,勾选“最大方差法”复选框; 【5】设置“得分”,勾选“保存为变量”和“因子得分系数”复选框;【6】查看分析结果。

【1】将初始因子载荷矩阵中的两列数据输入( 可用复制粘贴的方法) 到数据编辑窗口( 为 中输入“F 1”,然后在数字表达式中输入“V 1 /SQR(λ 1 )”[注:λ 1 =1.897], 即可得到特征向量F 1 ; 【3】然后利用“转换”|“计算变量”, 打开“计算变量”对话框,在“目标变量”文本框 中输入“F 2”,然后在数字表达式中输入“V 2 /SQR(λ 2 )”[注:λ 1 =1.550], 即可得到特征向量F 2 ; 【4】最后得到特征向量矩阵(主成分表达式的系数)。 【1】将得到的特征向量与标准化后的数据相乘, 然后就可以得出主成分函数的表达式; 中输入“Z 1 ”,然后在数字表达式中输入“0.531* Z (销售净利率)+0.594*Z (资产净利 率)+0.261*Z (净资产收益率)+0.546*Z (销售毛利率)” [注:F 1 =0.531,0.594,0.261,0.546], 即可得到特征向量Z 1 ; 【3】同理[注:F 2=-0.412,0.404,0.720,-0.383], 可得到特征向量Z 2 ; 【4】求出16家上市公司的主成分值。

相关主题
文本预览
相关文档 最新文档