当前位置:文档之家› 如何有效利用主成分分析进行综合评价

如何有效利用主成分分析进行综合评价

如何有效利用主成分分析进行综合评价
如何有效利用主成分分析进行综合评价

如何有效利用主成分分析进行综合评价

摘要:由于主成分分析在多元统计分析中的降维作用,使之在社会、经济、医疗、生化等

各领域运用越来越广泛,但由于传统主成分分析方法的局限性导致了一些问题的产生。这些

问题吸引了许多领域专家的关注,并具有针对性的提出了一些不同的改进方法。本文介绍了

主成分分析的基本和性质,并整理了近年来主成分分析在综合评价应用中遇到的普遍问题并整理验证了认同率较强的一些改进方法,以供大家研究学习。

关键词:主成分分析;综合评价;均值化

1引言

1.1研究的背景和意义

随着生产力的不断进步,生产方式由外延式扩张转化为追求经济效益的内涵式发展,以

致在生产过程中必须考虑经济效益的各个方面,如生产力水平、技术进步、资源占用等情况,

并需要就综合各方面的因素进行综合评价。

评价是根据确定的目的来测定对象系统的属性,并将这种属性变为客观定量的计值或者主观效用行为,整个过程离不开评价者的参与,而综合评价作为评价的一种也需要评价者做出相应反应或指示,而很多综合评价过程易受到评价者的干预,使评价结果产生偏差。

主成分分析能将高维空间的问题转化到低维空间去处理【9】,使问题变得比较简单、直

观,而且这些较少的综合指标之间互不相关,又能提供原有指标的绝大部分信息。而且,伴

随主成分分析的过程,将会自动生成各主成分的权重,这就在很大程度上抵制了在评价过程

中人为因素的干扰,因此以主成分为基础的综合评价理论能够较好地保证评价结果的客观性,如实地反映实际问题。主成分综合评价提供了科学而客观的评价方法,完善了综合评价

理论体系,为管理和决策提供了客观依据,能在很大程度上减少了上述不良现象的产生。

所以在社会经济、管理、自然科学等众多领域的多指标体系中,如节约型社会指标体系、生态环境可持续型指标体系、和谐社会指标体系、投资环境指标体系等,主成分分析法常被应用于综合评价与监控【6】。

综上所述,对综合评价指标体系理论进行研究,既有理论上的必要性,更有实践中的迫

切性。

1.2研究的发展史

基于主成分分析的综合评价以主成分分析为理论基础, 以综合评价为主线,着眼于作出

合理公正的综合评价。以下从综合评价和主成分分析两个方面来讨论主成分综合评价的发展

史。

1.2.1综合评价的发展史

综合评价是伴随着人类文明的产生、发展而产生、发展的。其基本思想是将反映研究对

象数量特征的多个指标转化为一个综合指标,并据以对各个具体评价对象进行排序比较,从

而做出好坏优劣的评价结论。

1888年,艾奇沃斯(Edgeworth)发表了论文《考试中的统计学》,提出了对考生中的不同部分应如何加权。1913年,斯皮而曼(sPe~an)发表了《和与差的相关性》一文,讨论了不同加权的作用。在20世纪30年代,瑟斯通(Thurstone)和利克特(Likert)又对定性记分方法的工作给予了新的推动。20世纪60年代,美国学者查德(L ? A ? zadaen)模糊集合理论,为模糊综合评价法奠定了基础。20世纪70 一80年代,是现代科学评价蓬勃兴起的年代。在此期

间,产生了多种应用广泛的评价方法,诸如ELECTRE法(1971 —1977, 1983)、多维偏好

分析的线性规划法(LINMAP , 1973)、层次分析法(AHP , 1977)、数据包络分析法(DEA , 1978)、逼近于理想解的排序法(TOPSIS , 1981)等【7】。

1.2.2主成分分析的发展史

主成分分析,首先是由英国的皮尔生(Kar卜Pearson)对非随机变量引入的,而后美国的数理统计学家赫特林(Harold.Hotelling)在1933年将此方法推广到随机向量的情形团【8】。主成分分析的降维思想从一开始就很好地为综合评价提供了有力的理论和技术支持。

20世纪80~90年代,是现代科学评价在我国向纵深发展的年代,人们对包括主成分综合评价在内的评价理论、方法和应用开展了多方面的、卓有成效的研究,主要表现为:常规

评价方法在国民经济、生产控制和社会生活中的广泛应用;多种评价方法的组合研究,综合

应用及比较;新评价方法的研究和应用;评价方法的深入研究,如:评价属性集的设计、标准化变换、评价模型选择等等。

1.3主成分做综合评价的研究现状

目前国内外关于综合评价的方法很多,在根据各指标间相关关系或各指标值的变异程度

来确定权重系数的方法中,主成分分析法是应用尤为广泛。在使用该方法的早期,大多都是

按照传统的主成分分析法做综合评价的步骤来计算综合得分来对样品排序,即利用主成分F1, F2 , , , F m做线性组合,

并以每个主成分F i的方差贡献率a i作为权重系数来构造一个综合评价函数:

Y = dF i + a F 2 +, + a m F m

然而,随着传统主成分分析方法在综合评价中的进一步应用,

人们发现此方法时经不起

实践检验的。在实际应用中,经常发现运用此方法所得结果的解释往往与实际情况不符。 举

了一个简单的例子,假定高考中考试科目有四门:数学

(X 1)、语文(X 2)、外语(X 3)和物理(X 4),

满分都是相同的150分。考生的四门考试成绩必须综合成一个综合评价函数,

一般取为总分

4

4

xi 。但从统计学的角度来看,可能取为a xi *更为合理,这里X i *是X i 的标准化数值(x i *、

i 1

i 」

X 2*、X 3*、X 4*有相同的均值和标准差)。如果我们使用传统的主成分分析法,根据上述综 合评价函数F 的得分来对学生

进行排名,那就酿成大错了。

就此,一些学者提出了一些改进的方法,其中具有代表性的方法有: Yan (1998)提出,

当第一主成分的方差比较大时,

即贡献率较大时,用它做综合评价指标。如果觉得用一个主

成分解释的方差不够大时,综合反映 X i ,X 2,,, X p 信息的能力不够,而用多个主成分

构造综合评价函数又不合适时,

可以像因子分析那样对主成分进行旋转。

Hou (2006)也提出,

当用第一主成分进行综合评价达不到理想结果时, 可用分组主成分评价法。即先用因子分析

法将p 个变量分成k 组,然后分别对各组变量进行主成分分析, 只取每组的一主成分,

求出

各组第一主成分的得分

C j (j=1,2, , ,k )以因子旋转后各因子的放差贡献率为权重

Wj - J'

Z 扎j

jT

k

建立综合评价函数:

Z =

WjCj 。最后根据各评价样本综合得分

y 来对样品进行排序。但

j 吕

其可行性也受到了一些学者的质疑 【4

。由此可见,主成分综合评价法是一片有待进一步深

耕细作的热土。

2关于主成分分析基本知识 2.1主成分分析

设要进行主成分分析的原指标有 p 个,记作X 1,X 2,,, x p 。现有n 个样品,相应

的观测值为 x ik , i =1,2,, ,n,而 k =1,2,,, p 。

作标准化变换后,将

X k 变换为X k *,即

式中,Xk 及Sk 分别是x k 的均值及标准差,x k *的均值为0、标准差为1.

Xk*

Xk - Xk Sk

,k =1,2,,, m.

主成分分析的原理是:

根据各样品原指标的观测值x ik或标准化变换后的观测值x ik*求出系数

a ik(k=1,2,, ,p,j=1,2, , ,m,m

建立用标准化变换后的指标x k*表示综合指标Fj的方程Fj akjxk*,也可建立用

k

原指标X k表示综合指标Fj的方程Fj akjxk*。

k

对系数a ik由下列原则决定:

(1) 各个综合指标Fj彼此独立或不相关;

(2) 各个综合指标Fj所反映的各个样品的总信息等于原来p个指标X k*所反映的各个样

品的总信息,即p个Fj的方差入j之和等于p个X k*的方差之和也就是

£対=P且入1》入2 ,》入P。

j

称上述彼此独立或不相关又不损失或损失很少原有信息的各个综合指标。y j为原指标

的主成分.其中,第一综合指标F1的方差最大,吸收原来p个指标的总信息最多,称第一

主成分;第二综合指标F2的方差次之,吸收原来p个指标的总信息次之,称为第二主成分;同理,F3 F 4, F p分别称为第三主成分、第四主成分”第p主成分。【9】2.2主成分分析能否旋转

2.2.1主成分分析与因子分析的联系与区别

相当数量的应用文章对主成分分析与因子分析不加严格区分,因而对分析结果的解释非

常模糊。文献【1】认为主成分分析与因子分析两者之间有联系,但也存在着明显的区别。

从联系上看,主成分分析和因子分析都是将多个相关变量(指标)转化为少数几个不相

关变量的一种多元统计分析方法。其目的是使在高维空间中研究样本分布规律的问题,通过

降维得到简化,并尽量保留原变量的信息量。两者都有消除相关、降维的功能。

主成分分析是通过变量变换把注意力集中到具有最大变差的那些主成分上,而视变量不

大的主成分为常数予以舍弃;因子分析是通过因子模型把注意力集中到少数不可观测的公共因子上,而舍弃特殊因子。主成分个数与公共因子个数的选择准则通常是相同的。

主成分分析中主成分向量Y与原指标向量X的表达式为Y = L T X ,式中L =(l ij I p;而因子分析中的因子模型为

X =AF 其中&为特殊因子,A =(a jj)p.m0,当D(g)=0时,可采用主成分分析法估计A

阵,则a q二,j hj。

对主成分分析中的主成分与因子分析中的公共因子的含义均需进行明确解释,否则,会

遇到应用上的困难。

虽然主成分分析法与因子分析法有着密切的联系,但从应用上更需关注的是它们之间的

区别。

1、主成分分析的实质是P维空间的坐标旋转,并不改变样本数据结构,不能作

为模型来描述;因子分析的实质是P维空间到M维空间的一种映射,需构造模型。

2、主成分的个数与原变量个数相等,而公因子的个数小于原变量的个数。

3、主成分分析是把主成分表示为原变量的线性组合,因子分析是把原变量表示为公共因子和特殊

因子的线性组合。

4、主成分分析由可观测的变量X直接求的主成分Y,并可逆;因子分析只能通过可观测的原变量去估计不

可观测的公共因子F,不能用X表示F。

5、主成分分析中的L阵是唯一的正交阵;因子分析中的A阵不唯一,也不一定是正交阵。

6、主成分分析主要应用在综合评价和指标筛选上;因子分析除这两个作用以外,

还可以应用于对样本或变量的分类。

2.2.2能否对主成分实施旋转

对于主成分能否进行旋转这一问题,很多研究学者认为,当主成分不能很好解释综合评

价结果时,可以像因子分析那样进行正交旋转,从而使主成分得到更好的解释。

关于主成分能否旋转的问题,文献【1】【4】【5】【7】【8】均做了论证,发现这种方法

是不可行的。

论证具体如下:

主成分分析的实质是对原始指标变量进行线性变换,即 F =XA,其中A二a..

ij

p. p 显然A为正交矩阵,如果对主成分进行旋转,则有:

X =FA T=FLL T A T=F?/?T

其中L是正交矩阵。由于X矩阵不变,其相关矩阵R对应的特征根和单位特征向量也不变,即说明矩阵A具有唯一性。由上式知:如果主成分能旋转则说明矩阵A不是唯一的。

从而我们可以得出:主成分不能进行旋转。

3主成分分析做综合评价的局限性与改进方法 3.1传统主成分分析做综合评价的一般步骤

(1)将原始数据标准化。将各样品指标值

x i 按X ;二X i 二E_X i_式转化成标准化指标

X i *,其中,E(X i )和D(X i )分别是X i 的均值和方差。X i 的均值是0,方差是1.

计贡献率。

由累积方差贡献率确定主成分的个数 m(m < p),求出入i * (i=1,2, , , m)对应的贡献率、

累计贡献率。

(4) 求各个主成分 F i 与标准化指标 X i *对应的系数关系。 (5) 求各例样品在 m 个主成分的得分 y 1 ,y 2,, , y.m 。 (6) 求各样品综合得分 y ,并排列名次。 3.2主成分分析的局限性

3.2.1第一主成分未必能用于综合评价

文献【8】通过论证指出,主成分贡献率的大小反映的是该主成分包含原始数据的信息

量的大小,这种信息不一定指的是综合水平, 也有可能指的是变量间的差异性。 对于有些情 况做综合评价,如一个班同学的综合排名,用于综合评价的需是水平因子, 但只考虑第一主 成分的话,得到的会是一个形状因子, 所以在这种情况下, 第一主成分贡献率再高, 用于综 合评价也是不合理的。

3.2.2主成分分析标准化的不足

文献【2】【3】【7】等文献指出,原始数据保含两部分信息:一部分是个指标变异程度 的差异信息;另一部分是个指标间相互影响程度上的相关信息。 但在主成分分析过程中, 为 了消除指标

纲量和数量级的影响往往对原始数据进行标准化:

(2)求各标准化指标 X i *的两两相关系数 r j ,并写出相关系数矩阵

R 二M ] p p 。

1 n 其中,r i j

x i j

x i j (i,j=1,2,,

n —1 y

,P )

⑶求相关矩阵的特征根 入i *(i=1,2,,,

P),将其由大到小排序。

入1*》入2* ,》入P *

} *

> 0,称a i

!

—为第i 个主成分F i 的贡献率;

P

m

V 为前m 个主成分F 1 ,Fz, , F m 的累

P

X ij —Xj

X j =

, i =1 , 2,,

, n ; j =1,2,, ,p

S j

1 n - 1 0

其中 X ij X kj , S j

X j - X j , j =1 , 2, , , P 。

n k 4

n -1 k 二

由此可以看出标准化使各指标的方差全为 1,在消除量纲和数量级影响的同时,也消除

了各指标变异程度上的差异信息。

而从标准化后的数据提取的主成分,

即从相关系数矩阵来 计算主成分,实际上只包含了各指标间相互影响这一个方面的信息, 所以不能准确反映原始

数据所包含的全部信息。

3.2.3 “线性”相关度的不足

文献【3】指出,主成分分析只是一种“线性”降维技术,之梦处理线性问题:一方面 主成分是原始指标的线性组合,

另一方面对原始数据进行标准化处理,

是协方差矩阵变成相

关系数矩阵,而相关系数矩阵矩阵只能反映指标间的“线性”相关程度。

研究实际问题时,不仅指标见有非线性关系,

有时主成分与原始数据之间也呈非线性关

系,如果简单地进行先行处理,必然导致评价结果的偏差。

3.3关于主成分分析做综合评价的改进

3.3.1可用于综合评价的主成分的条件

在用主成分分析做综合评价的改进时, 对选择第一主成分还是多个主成分现在任有一定

的分歧,就此问题许多学者都做了研究探讨

1,17

】【8

,过程如下:

当(X i1,X i2,,,

X ip ) >( X k1 ,X k2 ”, X kp )时,称第i 个样本点优于第k 个样本点;

当(X i1,X i2,,, X ip )》(X k1 ,X k2 ,,, X kp )时,称第i 个样本点不劣于第 k 个样本 点;若(X i1, X i2 , ,,

X ip )> ( X k1 ,X k2 ,,, X kp )和(X k1 ,X k2 ,,, X kp ) >( X i1, X i2 ,,, X ip )同时成立,称第i 个样本点无异于第k 个样本点。

定义

若综合评价得分y 是有序的,当且仅当

y i >y k (其中y i 是第i 个样本点的综合得分 i =1,2,, ,n )时,有(X i1,X i2,,, X ip )

》(X k1 ,X k2 ,,, X kp ),否则称y 是无序的。

Jn

丿

上式中t j 可取-1,1或0 (0表示不选择第j 个主成分),由上式得:综合评价得分 y 对应

将y 改写成一般形式如下:

y 2

n

— a j t j Xa j

j w

P

=X 送

a j t j a j

广p 、

于指标X i的权数为瓦a j t j a ij。由于各指标是正向指标,我们可以得到如下定理。

广p \

定理综合评价得分y是有序的,当且仅当送a j t j a jj》0, i=l,2,, ,p。

l j」J

由上述推导可知,要想第一主成分能有效用于做综合评价,则按第一主成分做综合评价

的得分值y必须是有序的,当且仅当a j >0, j=l,2,, ,p。即第一主成分的系数均为正值时,

第一主成分做综合评价的取值y才是有序的,此时才可以用第一主成分做综合评价,否则不行。

类似地,还可以令t i =1,其它为0的情况,可得到第i主成分有序的充要条件是印> 0, j=1,2,, ,p。

332均值法的应用

由于传统主成分分析无量纲化,即标准化处理会导致原始信息的丢失,许多学者就此思考了改进方法,并大多注意到了协方差举证能够完整的反映原始数据的信息;协方差矩阵的主对角线上的元素恰好为个指标的方差,而非主对角线上的元素则包含了各指标间的相关系

数的信息。所以对数据的均值化处理【1-8】是大家普遍认同的一个对主成分分析较好的改进方法。

方法如下:

设有n个被评价的对象,及p个指标,原始数据为X -(x j n p,各指标的均值为X i

X“

均值化就是用各指标的原始数据除以相应的均值,即y jj L,i =1,2,, ,n;j =1,2,, ,p

x

ij

1

n

其中X j =丄送x kj, j =1,2,, ,p,得到均值化数据矩阵丫=5 鳥

n k=1

设丫= (丫1 , 丫2, , , Y p)的协方差矩阵为U =(U ij)p x p,因为Y中每个向量的均值为1,

所以有:

1 n _ _ 1 n

U j y ki 一y i yq 一%一1 y?—1

n T 2 n-1 心

-X i

X i X j

X kj _X j

S j

XX j n

z

k =1

i ,j =1,2,L,p.特别地屮=S j 2,即均值化数据的协方差

(Xi )

矩阵主对角线元素为各指标见变异系数的平方。

设均值化数据各指标的相关系数为 r ij *,则

u

ij

S ij

.

U

ii . u

jj

s ii s

jj

其中r ij 为原始指标间的相关系数,由上可以得到:均值化不改变各指标间的相关系数, 相关系数矩阵的所有信息都在相应的协方差矩阵中得到了反映。

333对原始数据的非线性化

根据主成分分析中“线性”相关度的缺点,文献【 2】【3】提出了非线性主成分分析方

法的一种一一对数中心化,其基本方法是:

1、 对原始数据作中心对数化变换:

1 p y ij =logx yj

log X ii

p y

2、 计算对数中心化的样本协方差矩阵

S =(Sj 、沁

1 n

S j =—Z (y ii — y i Wj — y j ) n -1 i 仝

3、 从S 出发求主成分

设入1》入2>,》入P 是S 的P 个特征根,印戲,,,a p 是相应的标准化特征向量,

则第i

p

个非线性主成分为 F | = 7 a lj log x lj

从上述分析可知,非线性主成分分析与传统主成分分析相比有两处改进: 一是通过对原

始数据作对数中心化变换,

将主成分表示为原始数据的非线性组合;

二是分析的出发点是协

方差矩阵,不再是相关系数矩阵。 通过这两处的的改进, 会明显提高降维效果, 用更少的主

成分更多的反映原始指标的信息。

4实例分析

本文采用SPSS15.0为数据分析工具,以某高校学生在校期间的各科学习成绩为样本, 运用改进的合理选取主成分的方法对每位学生的三项指标的原始数据进行分析比较。

其中S j 为原始数据的协方差,

r

ij

样本如

表1所示:

首先对原始数据进行均值化处理,再用优化指标的协方差矩阵代替相关系数矩阵进行分析,计算结果如表2:

表2 :数据计算表

1、从计算结果可以看出,均值化处理可以使第一主成分包含的信息比传统的方法第

一主成分承载的信息高,咳哟个较少的主成分提取更多的原始信息。

2、非线性化处理后,计算得出的累计贡献率更有突破,达到了主成分分析简化指标

维数的主要目的。

5结语

针对主成分分析在综合评价中的广泛应用中遇到的计算结论常与事实有所矛盾的问题,

结合现行各类文献资料,整理归纳了主成分分析的传统方法在综合评价中的不足、不合理之

处整理出了部分实验结果较好的改进方法,同时得出,在运用主成分分析进行综合评价时,应当根据原始数据情况做出及时合理的调整,采用适当的主成分或改进主成分传统分析中的

不足之处,借此时主成分分析在综合评价应用中功能得到更大、更合理的发挥。

参考文献:

[1] 白雪梅,赵松山对主成分分析综合评价方法若干问题的探讨统计研究1995第六期

[2] 高艳,于飞一种用于综合评价的主成分分析改进方法西安文理学院学报(自然科学版)

2011 年1 月第14 卷第1 期文章编号:1008 5564(2011)01 0105 04

[3] 叶双峰关于主成分分析做综合评价的改进数据统计与管理2001年2期20卷文章编

号:1002-1566(2001)02-0052-04

[4] 林海明对主成分分析法运用中十个问题的解析理论新探

文章编号:1002-6487(2007)08-0016-03.

[5] 张鹏基于主成分分析的综合评价研究南京理工大学硕士论文2004年6月

[6] 庞智强主成分分析能客观赋权吗?统计新论总第79期

[7] 余登榜改进的主成分分析在我国高校数学学科排名中的应用武汉科技大学硕士学

位论文2010年12月

[8]洪素珍如何有效利用主成分华中师范大学硕士论文2008年5月

[9]张文霖主成分分析在SPSS中的操作应用市场研究理论与方法2005年12月

[10]张超陈秉赓计量地理学基础第二版高等教育出版社1991年

主成分分析-实例

§8 实例 实例1 计算得 1x =71.25,2x =67.5 分析1:基于协差阵∑ 求主成分。 369.6117.9117.9214.3S ?? = ??? 特征根与特征向量(S无偏,用SPSS ) Factor 1 Factor 2 11x x - 0.880 -0.474 22x x - 0.474 0.880 特征值 433.12 150.81 贡献率 0.7417 0.2583 注:样本协差阵为无偏估计11(11)1n n n S X I X n n ''= --, 所以,第一、二主成分的表达式为 112212 0.88(71.25)0.47(67.5) 0.47(71.25)0.88(67.5)y x x y x x =-+-?? =--+-? 第一主成分是英语与数学的加权和(反映了综合成绩),且英语的权数要大于数学的权数。1y 越大,综合成绩越好。(综合成分) 第二主成分的两个系数异号(反映了两科成绩的均衡性)。不妨将英语称为文科,数学称为理科。2y 越大,说明偏科(文、理成绩不均衡),2y 越小,越接近于零,说明不偏科(文、理成绩均衡)。(结构成分)

问题:英语的权数为何大?如何解释? 分析2: 基于相关阵R 求主成分。因为 1x =71.25,2x =67.5 所以相关阵 11R ? =? ? ? 解得R 的特征根为:1λ=1.419,2λ=0.581,对应的单位特征向量分别为: Factor 1 Factor 2 11 1x x s - 0.707 0.707 22 2 x x s - 0.707 -0.707 特征根 1.419 0.581 贡献率 0.709 0.291 所以,第一、二主成分的表达式为 12112271.2567.50.7070.70717.9813.6971.2567.50.7070.70717.9813.69x x y x x y --? =+=+?? ? --?=-=-?? 1122120.039(71.25)0.052(67.5) 0.039(71.25)0.052(67.5)y x x y x x =-+-?? =---? 112212 0.0390.052 6.273 0.0390.0520.671y x x y x x =+-?? =-+? * 2*11707.0707.0x x y += *2*12707.0707.0x x y -= 基于相关阵的更说明了: 第一主成分是英语与数学的加权总分。 第二主成分是对两科成绩均衡性的度量。 此例说明:基于协差阵与基于相关阵的主成分分析的结果不一致。结合此例的实际背景,经对比分析可知,基于协差阵的主成分分析更符合实际。

基于主成分分析的经济发展水平综合评价

基于主成分分析的经济发展水平综合评价1 吴冲,王栋 哈尔滨工业大学管理学院,哈尔滨 (150001) E-mail:wuchong@https://www.doczj.com/doc/427787249.html, 摘要:衡量一个国家的经济发展程度,要从其社会生产的各个方面去考察,要看各项生产能力的综合效果。为了客观、科学地分析我国的经济发展状况,本文首次把居民消费价格指数和商品零售价格指数引入评价指标体系中,提出一种新的社会发展水平综合指标体系,并通过SPSS分析软件进行上机计算,应用主成分分析方法对我国31个省、直辖市、自治区(不包括香港、澳门和台湾)的经济发展水平进行综合分析和评价,突出了各大省市经济发展进程的特点和优势,为我国实现均衡发展提供理论依据。 关键词:主成分分析,经济发展,综合评价 1. 引言 要描述和评价一个社会的经济发展状况,最理想的是找到一个总括性社会指标体系评价方法,其测度结果能够反映社会经济发展的全部或大部分信息。20世纪60年代以来一些国际性组织、国家和地区的职能部门以及研究学者曾经提出各种不尽完全相同的指标体系评价方法[1]。我国系统地研究社会发展指标体系评价方法起步较晚,但发展很快,20世纪80年代以来,国内一些政府部门、研究单位和个人先后设计了一些“社会指标体系评价方法”[2-4],如:唐晓东[5]采用了21个指标变量的函数模型来评价我国社会经济发展状况,然而此模型一个最大缺点,就是没有把所有反映经济情况的因素考虑在内,得不到预期效果。但到目前为止,还没有形成一套完善、客观的社会经济发展综合指标体系评价方法,为了更加全面、客观地反映我国各地区的社会发展水平,本文在借鉴国内外研究成果的基础上,通过对我国已有研究成果的修正和充实,首次把居民消费价格指数和商品零售价格指数引入评价指标体系中,提出一种新的社会发展水平综合指标体系。 在实际经济问题中,不同的经济变量之间具有一定的相关性,如职工平均工资和消费水平必然有一定的关联性,这样势必增加分析问题的复杂性,因此需要有一种进行简化的方法。主成分分析法可以用较少的指标来代替原来较多的指标,并使这些较少的指标尽可能地反映原来指标的信息,从根本上解决了指标间的信息重叠问题,又大大简化了原指标体系的指标结构,用主成分分析法分析经济发展水平的优势主要体现在: (1)全面性(消除评价指标的相互影响),在满足n p f的条件下,不限制指标的个数,可以综合评价一国的经济发展状况,主成分分析的降维处理技术能较好地解决多指标评价的要求,在选择了() p个主成分后, m m p 仍能保留原是数据信息的85%以上,因此这一方法综合评价经济发展水平比较全面,可以克服片面追求个别经济指标而忽略全面经济发展指标的倾向;(2)可加性(数据标准化处理),在综合评价经济发展水平时,所建立的评价指标量纲往往不同,变差不能直接综合,主成分分析法避免了此现象的发生,因为在计算过程中,主成分分析法把各个指标进行了标准化处理,这就使得各个经济指标之间具有可比性即可加性;(3)客观性(科学的确定权重),在层次分析法计算过程中,通过专家打分来确定权重,也就是说在确定权重的问题上具有了人为因素,而主成分分析法在确定综合因子的权重时,克服了某些评价方法中人为确定权重的缺陷,使得综合评价结果唯一;(4)简单性(计算简介),随着电子计算机技术的发展,SPSS、SAS等计 1本课题得到高校博士点基金(20050213037)资助。

主成分分析法总结

主成分分析法总结 在实际问题研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。 因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息? 一、概述 在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点: ↓主成分个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓主成分能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓主成分之间应该互不相关 通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。 ↓主成分具有命名解释性 总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。 主成分分析的具体步骤如下: (1)计算协方差矩阵 计算样品数据的协方差矩阵:Σ=(s ij )p ?p ,其中 1 1()() 1n ij ki i kj j k s x x x x n ==---∑i ,j=1,2,…,p (2)求出Σ的特征值 i λ及相应的正交化单位特征向量i a Σ的前m 个较大的特征值λ1≥λ2≥…λm>0,就是前m 个主成分对应的方差,i λ对应的单 位特征向量 i a 就是主成分Fi 的关于原变量的系数,则原变量的第i 个主成分Fi 为:

用主成分分析模型构造综合评价指数

用主成分分析模型构造中学考试综合评价指数 [摘要] 在中学考试的综合评价中,使用较多的指标进行描述使分析复杂化,难以对众多指标的影响作出正确的判断,需要少量几个“综合评价指标”。通过简单加权的合成方法,难以得到科学的结果。主成分分析是一种多元统计方法,可以将众多指标简化浓缩为少量几个甚至一个综合评价指标,使简化的指标既能基本包括全部指标具有的信息,又使指标之间相互无关,较好地解决了这一课题。 [关键词] 考试评价;主成分分析;数学模型;计算步骤,指数构造方法 一、问题的提出 在中学考试评价中,通常使用各学科的“平均分”、“优秀率”、“及格率”和“低分率”等指标。考虑到成绩的分布状况(“优秀率”与“及格率”之间的差距偏大,可能失去部分信息量),某些地区还使用了“良好率”指标。这样,k 个学科的考试评价的p 项指标将多达k ╳p 个。在对考试进行综合的评价时,使用较多的指标进行描述不仅会增加评价的工作量,而且会因评价指标间的相关性造成评价信息重叠,相互干扰,其结果使分析复杂化,难以对众多指标的影响作出正确的判断。因此,需要少数几个甚至一个“综合评价指标”来代替众多的且相互之间具有相关关系的指标,同时又需要不失去原有指标具有的信息量,这是考试评价中具有现实意义的课题。 某些地区采用一种“降维”的方法,较成功地把k ╳p 维指标降为p 维指标,即在使用“总分平均分”的同时,用“科平均╳╳率”取代各科的“╳╳率”(计算方法见备注1)。如何把p 维指标再合成为一个“综合评价指标”?采用一些简单加权的合成方法时,由于对各指标的影响不容易作出正确的定量化的判断,及权数产生的科学性等问题,往往难以得到令人信服的科学的结果。 主成分分析是一种多元统计方法,可以将众多指标简化浓缩为少数几个甚至一个综合评价指标,使简化的指标既能基本包括全部指标具有的信息,又使指标之间相互无关。较好地解决了这一课题。 二、主成分分析的数学模型 设有n 个样品,每个样品观测p 个指标(变量):X 1,X 2,…,X p , 得到原始数据矩阵: 用数据矩阵X 的p 个列向量(即p 个指标向量)作线形组合(即综合指标向量)为: 上述方程组要求: 且系数αij 由下列原则决定: ①、F i 与F j (i ≠j ,i ,j =1,…,p )不相关; ②、F 1是X 1,X 2,…,X p 的一切线性组合(系数满足上述方程组)中方差最大的,F 2是与F 1不相关的X 1,X 2,…,X p 的一切线性组合中方差最大的,…,F p 是是与F 1,F 2,…,F p-1都不相关的X 1,X 2,…,X p 的一切线性组合中方差最大的。 ?? ? ??? ? ???? ???=np n n p p x x x x x x x x x X 2122221 11211 ??? ?? ???????=ni i i i x x x X 2 1 ?? ???? ?+++=+++=+++=p pp p p p p p p p p X a X a X a F X a X a X a F X a X a X a F 22122221122122111111 2 2221=+++pi i i a a a

主成分分析法精华讲义及实例

主成分分析 类型:一种处理高维数据的方法。 降维思想:在实际问题的研究中,往往会涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”,用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。 一、总体主成分 1.1 定义 设 X 1,X 2,…,X p 为某实际问题所涉及的 p 个随机变量。记 X=(X 1,X 2,…,Xp)T ,其协方差矩阵为 ()[(())(())], T ij p p E X E X X E X σ?∑==-- 它是一个 p 阶非负定矩阵。设 1111112212221122221122T p p T p p T p p p p pp p Y l X l X l X l X Y l X l X l X l X Y l X l X l X l X ?==+++? ==+++?? ??==+++? (1) 则有 ()(),1,2,...,, (,)(,),1,2,...,. T T i i i i T T T i j i j i j V ar Y V ar l X l l i p C ov Y Y C ov l X l X l l j p ==∑===∑= (2) 第 i 个主成分: 一般地,在约束条件 1T i i l l =

及 (,)0,1,2,..., 1.T i k i k C ov Y Y l l k i =∑==- 下,求 l i 使 Var(Y i )达到最大,由此 l i 所确定的 T i i Y l X = 称为 X 1,X 2,…,X p 的第 i 个主成分。 1.2 总体主成分的计算 设 ∑是12(,,...,) T p X X X X =的协方差矩阵,∑的特征值及相应的正交单位化特 征向量分别为 120p λλλ≥≥≥≥ 及 12,,...,, p e e e 则 X 的第 i 个主成分为 1122,1,2,...,,T i i i i ip p Y e X e X e X e X i p ==+++= (3) 此时 (),1,2,...,,(,)0,. T i i i i T i k i k V ar Y e e i p C ov Y Y e e i k λ?=∑==??=∑=≠?? 1.3 总体主成分的性质 1.3.1 主成分的协方差矩阵及总方差 记 12(,,...,) T p Y Y Y Y = 为主成分向量,则 Y=P T X ,其中12(,,...,)p P e e e =,且 12()()(,,...,),T T p Cov Y Cov P X P P Diag λλλ==∑=Λ= 由此得主成分的总方差为 1 1 1 ()()()()(),p p p T T i i i i i i V ar Y tr P P tr P P tr V ar X λ ==== =∑=∑=∑= ∑∑∑ 即主成分分析是把 p 个原始变量 X 1,X 2,…,X p 的总方差

主成分分析法matlab实现,实例演示

利用Matlab 编程实现主成分分析 1.概述 Matlab 语言是当今国际上科学界 (尤其是自动控制领域) 最具影响力、也是 最有活力的软件。它起源于矩阵运算,并已经发展成一种高度集成的计算机语言。它提供了强大的科学运算、灵活的程序设计流程、高质量的图形可视化与界面设计、与其他程序和语言的便捷接口的功能。Matlab 语言在各国高校与研究单位起着重大的作用。主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。 1.1主成分分析计算步骤 ① 计算相关系数矩阵 ?? ? ???? ???? ?? ?=pp p p p p r r r r r r r r r R 2 122221 11211 (1) 在(3.5.3)式中,r ij (i ,j=1,2,…,p )为原变量的xi 与xj 之间的相关系数,其计算公式为 ∑∑∑===----= n k n k j kj i ki n k j kj i ki ij x x x x x x x x r 1 1 2 2 1 )() () )(( (2) 因为R 是实对称矩阵(即r ij =r ji ),所以只需计算上三角元素或下三角元素即可。

② 计算特征值与特征向量 首先解特征方程0=-R I λ,通常用雅可比法(Jacobi )求出特征值 ),,2,1(p i i =λ,并使其按大小顺序排列,即0,21≥≥≥≥p λλλ ;然后分别求 出对应于特征值i λ的特征向量),,2,1(p i e i =。这里要求i e =1,即112 =∑=p j ij e ,其 中ij e 表示向量i e 的第j 个分量。 ③ 计算主成分贡献率及累计贡献率 主成分i z 的贡献率为 ),,2,1(1 p i p k k i =∑=λ λ 累计贡献率为 ) ,,2,1(11 p i p k k i k k =∑∑==λ λ 一般取累计贡献率达85—95%的特征值m λλλ,,,21 所对应的第一、第二,…,第m (m ≤p )个主成分。 ④ 计算主成分载荷 其计算公式为 ) ,,2,1,(),(p j i e x z p l ij i j i ij ===λ (3)

如何有效利用主成分分析进行综合评价

如何有效利用主成分分析进行综合评价 摘要:由于主成分分析在多元统计分析中的降维作用,使之在社会、经济、医疗、生化等 各领域运用越来越广泛,但由于传统主成分分析方法的局限性导致了一些问题的产生。这些 问题吸引了许多领域专家的关注,并具有针对性的提出了一些不同的改进方法。本文介绍了 主成分分析的基本和性质,并整理了近年来主成分分析在综合评价应用中遇到的普遍问题并整理验证了认同率较强的一些改进方法,以供大家研究学习。 关键词:主成分分析;综合评价;均值化 1引言 1.1研究的背景和意义 随着生产力的不断进步,生产方式由外延式扩张转化为追求经济效益的内涵式发展,以 致在生产过程中必须考虑经济效益的各个方面,如生产力水平、技术进步、资源占用等情况, 并需要就综合各方面的因素进行综合评价。 评价是根据确定的目的来测定对象系统的属性,并将这种属性变为客观定量的计值或者主观效用行为,整个过程离不开评价者的参与,而综合评价作为评价的一种也需要评价者做出相应反应或指示,而很多综合评价过程易受到评价者的干预,使评价结果产生偏差。 主成分分析能将高维空间的问题转化到低维空间去处理【9】,使问题变得比较简单、直 观,而且这些较少的综合指标之间互不相关,又能提供原有指标的绝大部分信息。而且,伴 随主成分分析的过程,将会自动生成各主成分的权重,这就在很大程度上抵制了在评价过程 中人为因素的干扰,因此以主成分为基础的综合评价理论能够较好地保证评价结果的客观性,如实地反映实际问题。主成分综合评价提供了科学而客观的评价方法,完善了综合评价 理论体系,为管理和决策提供了客观依据,能在很大程度上减少了上述不良现象的产生。 所以在社会经济、管理、自然科学等众多领域的多指标体系中,如节约型社会指标体系、生态环境可持续型指标体系、和谐社会指标体系、投资环境指标体系等,主成分分析法常被应用于综合评价与监控【6】。 综上所述,对综合评价指标体系理论进行研究,既有理论上的必要性,更有实践中的迫 切性。 1.2研究的发展史

主成分分析法及其在SPSS中的操作

一、主成分分析基本原理 概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。 思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。 原理:假定有n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵, 记原变量指标为x 1,x 2,…,x p ,设它们降维处理后的综合指标,即新变量为 z 1,z 2,z 3,… ,z m (m ≤p),则 系数l ij 的确定原则: ①z i 与z j (i ≠j ;i ,j=1,2,…,m )相互无关; ②z 1是x 1,x 2,…,x P 的一切线性组合中方差最大者,z 2是与z 1不相关的x 1,x 2,…,x P 的所有线性组合中方差最大者; z m 是与z 1,z 2,……,z m -1都不相关的x 1,x 2,…x P , 的所有线性组合中方差最大者。 新变量指标z 1,z 2,…,z m 分别称为原变量指标x 1,x 2,…,x P 的第1,第2,…,第m 主成分。 从以上的分析可以看出,主成分分析的实质就是确定原来变量x j (j=1,2 ,…, p )在诸主成分z i (i=1,2,…,m )上的荷载 l ij ( i=1,2,…,m ; j=1,2 ,…,p )。 ?????? ? ???????=np n n p p x x x x x x x x x X 2 1 2222111211 ?? ??? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111............

主成分分析计算方法和步骤

主成分分析计算方法和步骤: 在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的差异, 研究者往往要考虑增加测量指标,这样就会增加研究问题的负载程度。但由于各指标都是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性,因此,在多指标的数据分析中,如何压缩指标个数、压缩后的指标能否充分反映个体之间的差异,成为研究者关心的问题。而主成分分析法可以很好地解决这一问题。 主成分分析的应用目的可以简单地归结为: 数据的压缩、数据的解释。它常被用来寻找和判断某种事物或现象的综合指标,并且对综合指标所包含的信息给予适当的解释, 从而更加深刻地揭示事物的内在规律。 主成分分析的基本步骤分为: ①对原始指标进行标准化,以消除变量在数量极或量纲上的影响;②根据标准化后的数据矩阵求出相关系数矩阵 R; ③求出 R 矩阵的特征根和特征向量; ④确定主成分,结合专业知识对各主成分所蕴含的信息给予适当的解释;⑤合成主成分,得到综合评价值。 结合数据进行分析 本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见附录),从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通过表5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。如:招生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强的相关性,教工人数与本科院校数之间的相关系数最高,到达了0.963,而各组成成分之间的相关性都很高,这也充分说明了主成分分析的必要性。 表5-6 相关系数矩阵 本科院校 数招生人数教育经费投入 相关性师生比0.279 0.329 0.252 重点高校数0.345 0.204 0.310 教工人数0.963 0.954 0.896 本科院校数 1.000 0.938 0.881 招生人数0.938 1.000 0.893 教育经费投 0.881 0.893 1.000 入

主成分分析PCA(含有详细推导过程以及案例分析matlab版)

主成分分析法(PCA) 在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。 I. 主成分分析法(PCA)模型 (一)主成分分析的基本思想 主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。 主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求 0),(21=F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。 (二)主成分分析的数学模型 对于一个样本资料,观测p 个变量p x x x ,,21,n 个样品的数据资料阵为: ??????? ??=np n n p p x x x x x x x x x X 21 222 21112 11()p x x x ,,21=

主成分分析案例

姓名:XXX 学号:XXXXXXX 专业:XXXX 用SPSS19软件对下列数据进行主成分分析: ……

一、相关性 通过对数据进行双变量相关分析,得到相关系数矩阵,见表1。 表1 淡化浓海水自然蒸发影响因素的相关性 由表1可知: 辐照、风速、湿度、水温、气温、浓度六个因素都与蒸发速率在0.01水平上显著相关。 分析:各变量之间存在着明显的相关关系,若直接将其纳入分析可能会得到因多元共线性影响的错误结论,因此需要通过主成份分析将数据所携带的信息进行浓缩处理。 二、KMO和球形Bartlett检验 KMO和球形Bartlett检验是对主成分分析的适用性进行检验。 KMO检验可以检查各变量之间的偏相关性,取值范围是0~1。KMO的结果越接近1,表示变量之间的偏相关性越好,那么进行主成分分析的效果就会越好。实际分析时,KMO统计量大于0.7时,效果就比较理想;若当KMO统计量小于0.5时,就不适于选用主成分分析法。 Bartlett球形检验是用来判断相关矩阵是否为单位矩阵,在主成分分析中,若拒绝各变量独立的原假设,则说明可以做主成分分析,若不拒绝原假设,则说明这些变量可能独立提供一些信息,不适合做主成分分析。

由表2可知: 1、KMO=0.631<0.7,表明变量之间没有特别完美的信息的重叠度,主成分分析得到的模型又可能不是非常完善,但仍然值得实验。 2、显著性小于0.05,则应拒绝假设,即变量间具有较强的相关性。 三、公因子方差 公因子方差表示变量共同度。表示各变量中所携带的原始信息能被提取出的主成分所体现的程度。 由表3可知: 几乎所有变量共同度都达到了75%,可认为这几个提取出的主成分对各个变量的阐释能力比较强。 四、解释的总方差 解释的总方差给出了各因素的方差贡献率和累计贡献率。

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 公司销售净利率(X1)资产净利率(X2)净资产收益率(X3)销售毛利率(X4) 歌华有线五粮液用友软件太太药业浙江阳光烟台万华方正科技红河光明贵州茅台中铁二局红星发展伊利股份青岛海尔湖北宜化雅戈尔福建南纸43.31 17.11 21.11 29.55 11.00 17.63 2.73 29.11 20.29 3.99 22.65 4.43 5.40 7.06 19.82 7.26 7.39 12.13 6.03 8.62 8.41 13.86 4.22 5.44 9.48 4.64 11.13 7.30 8.90 2.79 10.53 2.99 8.73 17.29 7.00 10.13 11.83 15.41 17.16 6.09 12.97 9.35 14.3 14.36 12.53 5.24 18.55 6.99 54.89 44.25 89.37 73 25.22 36.44 9.96 56.26 82.23 13.04 50.51 29.04 65.5 19.79 42.04 22.72 第一,将EXCEL中的原始数据导入到SPSS软件中; 注意: 导入Spss的数据不能出现空缺的现象,如出现可用0补齐。 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。 所做工作: a. 原始数据的标准化处理

主成分进行综合评价 综合评价主成分分析方法与因子分析方法的比较

主成分进行综合评价综合评价主成分分析方法 与因子分析方法的比较 统计研究 主成分分析方法和因子分析方法都是寻求从高维空间到低维空间的映射的方法,其目的是起到降维的效果,以便于用几个较少的综合指标来综合所研究总体各方面的信息,且这几个指标所代表的信息不重叠,也就是说从高维空间到低维空间的映射仍保持高维空间的“序”的结构。但这两种综合评价方法往往易混淆,本文从这两种方法的统计依据、数学模型、计算方法、综合指标的选取等方面比较它们的异同,以供初学者参考。 1、统计依据不同。主成分分析方法的统计问题:依P个指标戈l,x2,A,戈P的/7,个观察值矩阵X=G0帅,能否找到能较好地综合反映这个P 、二 指标的线性函数Y=乞atxt,即 i=1 找到这个主成分的方法就是主成分分析方法。 因子分析方法的统计问题仍 口由P个指标戈。,戈:,A,却的几个观钱道察信息阵X=GF)忡,用有限个不翠

可观测的潜在变量来解释原始变量间的相关性或协方差关系,寻求这几个公因子的方法就是因子缉含汗价士气分析劣珐乡图分奸劣珐的火仪 分析法。它的原理源于已知信息的指标向量戈=0。,戈:,A,菇P)’,总存在正交变换戈=Qy使得记x=Az,这里正交阵Q是X=G0。巾的 协方差阵y的特征向量排成的,y的各分量是不相关的,若茹的方差集中在少数几个变量三,,A,缸上,即y的特征值A,,A,A。较大,后几个特征值A㈨,A,A。很小几乎为零,于是就有因子模型算=4厂+s。寻求公因子、厂及因子载荷阵A的方法就是因子分析法。 , 2、数学模型不同。主成分分析的数学模型:Y=Eat、、ri, 1=1 即主成分是原始指标的线性函数。因子分析的数学模型:戈=4厂+£,A为因子载荷阵。厂为公因子向量,£为随机误差项,Vnroq=I。,Var=o,Var I30圈羹堑绻过丝Q丝生皇塑万 方数据=D。从形式上看二者的模型不同,但主成分分析又为因子分析中因子的寻求提供了一个有效的途径。主成分分析与因子分析法最易混淆的地方在于,将主成分分析方法与因子分析

主成分分析法概念及例题

主成分分析法 主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法 目录 [显示] 1 什么是主成分分析法 2 主成分分析的基本思想 3 主成分分析法的基本原理 4 主成分分析的主要作用 5 主成分分析法的计算步骤 6 主成分分析法的应用分析 o案例一:主成分分析法在啤酒风味评价分析中的应用[1] 1 材料与方法 2 主成分分析法的基本原理 3 主成分分析法在啤酒质量一致性评价中的应用 4 结论 7 参考文献 [编辑] 什么是主成分分析法 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。 在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 [编辑] 主成分分析的基本思想

在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [编辑] 主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [编辑] 主成分分析的主要作用

SPSS软件进行主成分分析的应用例子

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 第一,将EXCEL中的原始数据导入到SPSS软件中; 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。

数据标准化主要功能就是消除变量间的量纲关系,从而使数据具有可比性,可以举个简单的例子,一个百分制的变量与一个5分值的变量在一起怎么比较?只有通过数据标准化,都把它们标准到同一个标准时才具有可比性,一般标准化采用的是Z标准化,即均值为0,方差为1,当然也有其他标准化,比如0--1标准化等等,可根据自己的研究目的进行选择,这里介绍怎么进行数据的Z标准化。 所的结论: 标准化后的所有指标数据。 注意: SPSS 在调用Factor Analyze 过程进行分析时, SPSS 会自动对原始数据进行标准化处理, 所以在得到计算结果后的变量都是指经过标准化处理后的变量, 但SPSS 并不直接给出标准化后的数据, 如需要得到标准化数据, 则需调用Descriptives 过程进行计算。 factor过程对数据进行因子分析(指标之间的相关性判定略)。 【1】“分析”|“降维”|“因子分析”选项卡,将要进行分析的变量选入“变量”列表;

【2】设置“描述”,勾选“原始分析结果”和“KMO与Bartlett球形度检验”复选框; 【3】设置“抽取”,勾选“碎石图”复选框; 【4】设置“旋转”,勾选“最大方差法”复选框; 【5】设置“得分”,勾选“保存为变量”和“因子得分系数”复选框; 【6】查看分析结果。 所做工作: a.查看KMO和Bartlett 的检验 KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析; Bartlett 球度度检验的Sig值越小于显著水平0.05,越说明变量之间存在相关关系。 所的结论: 符合因子分析的条件,可以进行因子分析,并进一步完成主成分分析。 注意: 1.KMO(Kaiser-Meyer-Olkin) KMO统计量是取值在0和1之间。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量间的简单相关系数平方和接近0时,KMO值接近0.KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析。 Kaiser给出了常用的kmo度量标准: 0.9以上表示非常适合;0.8表示适合;0.7表示一般; 0.6表示不太适合;0.5以下表示极不适合。 2.Bartlett 球度检验: 巴特利特球度检验的统计量是根据相关系数矩阵的行列式得到的,如果该值较大,且其对应的相伴概率值小于用户心中的显著性水平,那么应该拒绝零假设,认为相关系数矩阵不可能是单位阵,即原始变量之间存在相关性,适合于做主成份分析;相反,如果该统计量比较小,且其相对应的相伴概率大于显著性水平,则不能拒绝零假设,认为相关系数矩阵可能是单位阵,不宜于做因子分析。 Bartlett 球度检验的原假设为相关系数矩阵为单位矩阵,Sig值为0.001小于显著水平0.05,因此拒绝原假设,说明变量之间存在相关关系,适合做因子分析。 所做工作: b. 全部解释方差或者解释的总方差(Total Variance Explained)

基于主成分法的学生成绩综合评价

现代经济信息 一、引言 在经济全球化和社会分工越来越细化的当今社会,人力资源已成为人类的第一宝贵资源。作为高素质人才主要培养基地的高等院校,如何科学地评价大学生的综合成绩成为当前各高校在全面推进素质教育过程中所面临的问题之一。传统的以多门课程总平均分排名的评价方法,比较笼统,为了尽可能全面、科学地反映被评价对象的情况,往往需要选取众多的指标构成评价体系,但是,过多的指标不仅会增加评价的工作量,还会因评价指标间的相关性造成评价信息相互重叠、相互干扰,从而难以客观地反映被评价对象的真实水平。本文认为可以使用主成分分析法解决此类问题。 二、主成分分析方法简介 主成分分析,是利用降维的方法,将多个指标转化为少数几个综合指标,去解释原始资料中的大部分变异的一种方法。在实际问题中,为了全面、系统地分析问题,通常必须考虑众多的影响因素,这些影响因素一般被称为指标或者变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。因此,把这些变量转化成彼此不相关的变量,然后从中选出比原始变量个数少、却能解释原始资料中大部分变异的几个新变量,即所谓的主成分,从而达到降维和简化问题分析的目的。 具体而言,主成分分析法是通过数学变换把给定的一组相关变量通过线性变换转成另一组不相关的变量,并按方差依次递减的顺序排列,找到第一、第二、…第 k个主成分,然后计算因子载荷矩阵,建立主成分模型,最后按因子得分及贡献率的大小,计算综合得分并进行排序。 三、高校学生成绩综合评价应用 (一)研究的对象及指标的选择 本文以贵州航天职业技术学院11级社区管理与服务班在2011—2012学年的13门主要课程考试成绩为研究对象,借助统计软件进行主成分分析,计算出主成分得分,并按主成分得分对学生进行了排名。班上共有28名同学,将这28名同学作为总体,13门主要课程具体为:大学英语Ⅰ(x1)、思想道德修养与法律基础(x2)、管理学原理(x3)、社区管理学(x4)、社会工作法律实务(x5)、应用统计学(x6)、体育(x7)、社会心理学(x8)、服务礼仪(x9)、高等数学(x10)、团队建设(x11)、大学英语Ⅱ(x12)、大学语文(x13),学生姓名用序号1、2、… 28表示,用xij 表示第i个同学在第j 门课上的得分,则x=(xij)28×l3,这样就得到了一 个28×13的原始数据矩阵。见表1。 (二)主成分分析过程 将原始数据标准化,用计算机求出标准化矩阵的相关系数矩阵;求相关矩阵的特征值,确定主成分个数。(见表2) 基于主成分分析法的学生成绩综合评价 李 畅 贵州航天职业技术学院 摘要:以贵州航天职业技术学院2011级社区管理与服务班在2011—2012学年的13门主要课程考试成绩为研究对象,借助统计软件进行主成分分析,计算出主成分得分,并按主成分得分对学生进行了排名。为使成绩评价更具科学性、客观性和合理性,还将平均分和综合分比对,进行综合评价与分析,为教学研究、学生管理及就业指导提供科学依据。 关键词:主成分分析法;学习成绩;评价 中图分类号:G455 文献标识码:A 文章编号:1001-828X(2013)07-0408-03 408

如何有效利用主成分分析进行综合评价

如何有效利用主成分分析进行综合评价 摘要由于主成分分析在多元统计分析中的降维作用,使之在社会、经济、医疗、生化等各领域运用越来越广泛,但由于传统主成分分析方法的局限性导致了一些问题的产生。这些问题吸引了许多领域专家的关注,并具有针对性的提出了一些不同的改进方法。本文介绍了主成分分析的基本和性质,并整理了近年来主成分分析在综合评价应用中遇到的普遍问题并整理验证了认同率较强的一些改进方法,以供大家研究学习。 关键词主成分分析,综合评价,均值化 1引言 1.1研究的背景和意义 随着生产力的不断进步,生产方式由外延式扩张转化为追求经济效益的内涵式发展,以致在生产过程中必须考虑经济效益的各个方面,如生产力水平、技术进步、资源占用等情况,并需要就综合各方面的因素进行综合评价。 评价是根据确定的目的来测定对象系统的属性,并将这种属性变为客观定量的计值或者主观效用行为,整个过程离不开评价者的参与,而综合评价作为评价的一种也需要评价者做出相应反应或指示,而很多综合评价过程易受到评价者的干预,使评价结果产生偏差。 主成分分析能将高维空间的问题转化到低维空间去处理,使问题变得比较简单、直观,而且这些较少的综合指标之间互不相关,又能提供原有指标的绝大部分信息。而且,伴随主成分分析的过程,将会自动生成各主成分的权重,这就在很大程度上抵制了在评价过程中人为因素的干扰,因此以主成分为基础的综合评价理论能够较好地保证评价结果的客观性,如实地反映实际问题。主成分综合评价提供了科学而客观的评价方法,完善了综合评价理论体系,为管理和决策提供了客观依据,能在很大程度上减少了上述不良现象的产生。 所以在社会经济、管理、自然科学等众多领域的多指标体系中,如节约型社会指标体系、生态环境可持续型指标体系、和谐社会指标体系、投资环境指标体系等,主成分分析法常被应用于综合评价与监控。 综上所述,对综合评价指标体系理论进行研究,既有理论上的必要性,更有实践中的迫切性。 1.2主成分分析的发展史 主成分分析,首先是由英国的皮尔生(Kar卜Pearson)对非随机变量引入的,而后美国的数理统计学家赫特林(Harold.Hotelling)在1933年将此方法推广到随机向量的情形团。主成分分析的降维思想从一开始就很好地为综合评价提供了有力的理论和技术支持。

相关主题
文本预览
相关文档 最新文档