主成分分析法介绍
- 格式:doc
- 大小:263.50 KB
- 文档页数:15
主成分分析法原理
主成分分析法是一种常用的降维技术,可以用来发现数据中最重要的模式和关系。
其原理是通过线性变换将原始数据映射到一个新的坐标系统中,新坐标系的选择是按照数据方差最大的优先原则进行的。
换句话说,主成分分析法试图找到能够最大程度解释原始数据方差的一组新的变量,这些新变量称为主成分。
在主成分分析中,第一主成分是能够最大程度解释原始数据方差的变量。
第二主成分则是在第一主成分已经解释了最大方差后,能够解释剩余方差最大的变量。
依此类推,可以得到一系列依次解释方差递减的主成分。
主成分分析的关键思想是将原始数据转化为一组新的变量,使得这些新变量之间相互独立,并且每个新变量都能够最大程度地解释数据方差。
通过将数据映射到新的坐标系中,主成分分析可以有效地降低数据的维度,减少不必要的冗余信息。
主成分分析法在数据处理和分析中广泛应用,例如在多变量统计分析、模式识别、数据可视化等领域。
它可以帮助我们得到更简洁、更具有解释性的数据表示,提取出隐藏在数据背后的重要特征和规律,为后续分析和决策提供有效支持。
19.主成分分析法一、方法介绍 基本思路:主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息。
这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析或称主分量分析。
主成分分析的基本思想就是,设法将原来众多具有一定相关性的指标(比如P 个指标),重新组合成一组新的相互无关的综合指标来代替原来指标。
最经典的方法就是用F 1的方差来表达,即 V ar (F 1)越大,表示F 1包含的信息越多。
理论模型:设有n 个样品,每个样品观测p 项指标(变量):X 1,X 2,...,Xp ,得到原始数据资料阵:()111121,,....p P n np x x X X X X x x ⎛⎫⎪== ⎪ ⎪⎝⎭(1)其中,123.....i ii i x x X x ⎛⎫ ⎪⎪= ⎪ ⎪⎝⎭i=1,...,p用数据矩阵X 的p 个向量(即p 个指标向量)X 1,...,Xp 作线形组合(即综合指标向量)为:11112121212122221122p P p P P P P pP P F a X a X a X F a X a X a X F a X a X a X =+++⎧⎫⎪⎪=+++⎪⎪⎨⎬⎪⎪⎪⎪=+++⎩⎭(2)简写成1122i i i pi P F a X a X a X =+++ i=1,...,p (3)(注意:Xi 是n 维向量,所以Fi 也是n 维向量。
) 上述方程要求:121i i pi a a a ++= i=1,...,p (4)且系数a ij 由下列原则决定:(1)F i 与F j (i ≠j ,i ,j=1,…,p )不相关;(2)F 1是X 1,...,Xp 的一切线性组合(系数满足上述方程组)中方差最大的,F 2是与F 1不相关的X 1,...,Xp 的一切线性组合中方差最大的,…,F p 是与其他都不相关的X 1,...,Xp 的一切线性组合中方差最大的。
主成分分析法一、主成分分析(principal components analysis )也称为主分量分析,是由Holtelling 于1933年首先提出的。
主成分分析是利用降维的思想,把多指标转化为少数几个综合指标的多元统计分析方法。
二、应用背景:对同一个体进行多项观察时,必定涉及多个随机变量X1,X2,…,Xp ,它们都是相关的, 一时难以综合。
这时就需要借助主成分分析 (principal component analysis)来概括诸多信息的主要方面。
我们希望有一个或几个较好的综合指标来概括信息,而且希望综合指标互相独立地各代表某一方面的性质。
任何一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间的变异。
如果有一项指标,不同个体的取值都大同小异,那么该指标不能用来区分不同的个体。
由这一点来看,一项指标在个体间的变异越大越好。
因此我们把“变异大”作为“好”的标准来寻求综合指标。
例1、考察对象股票业绩(这里单个股票为观察个体)。
(1)确定影响股票业绩主要因素:主营业务收入(X1),主营业务利润(X2)利润总额(X3),净利润(X4),总资产(X5),净资产(X6),净资产收益率(X7),每股权益(X8),每股收益(X9),每股公积金(X10),速动比率(X11)作为变量。
因此对单个股票来说,用11个随机变量综合刻化。
但这些因素过多,各因素区别不明显,有交叉反映。
通过主成分分析,可降为少数几个综合指标加以刻化。
(2)考察20支不同的股票。
从数学角度看,每种影响因素是随机变量(X i ),观察一支股票便得到影响该股票的11个随机变量取值;观察20支股票,便得到了20×11的原始数据阵X20×11(略)。
三、问题:作为主成分?严格的数学定义?相应的性质有哪些?主成分取多少?1、主成分的一般定义设有随机变量X1,X2,…,Xp , 其样本均数记为1X ,2X ,…,p X,样本标准差记为S1,S2,…,Sp 。
主成分分析法及其应用一、本文概述主成分分析法(Principal Component Analysis,简称PCA)是一种广泛应用于数据降维和特征提取的统计方法。
它通过正交变换将原始数据集中的多个变量转换为少数几个互不相关的主成分,这些主成分能够最大程度地保留原始数据集中的信息。
本文旨在全面介绍主成分分析法的基本原理、实现步骤以及在各个领域中的应用案例。
我们将详细阐述主成分分析法的数学基础和算法流程,包括协方差矩阵、特征值、特征向量等关键概念的计算方法。
然后,我们将通过实例演示如何使用主成分分析法进行数据降维和特征提取,以及如何通过可视化工具展示降维后的数据效果。
我们将探讨主成分分析法在机器学习、图像处理、生物信息学、社会科学等多个领域中的实际应用,展示其在数据分析和处理中的重要价值和潜力。
二、主成分分析法的基本原理主成分分析法(Principal Component Analysis,简称PCA)是一种在多个变量中找出主要影响因素,并通过降维技术把多个变量转化为少数几个互不相关的综合变量的统计方法。
这种方法在保持数据信息损失最小的原则下,通过正交变换将原始数据转化为一个新的坐标系统,使得在这个新的坐标系统中,任何数据的最大方差都投影在第一主成分上,第二大的方差都投影在第二主成分上,以此类推。
变量降维:在多数情况下,原始数据集中可能存在多个变量,这些变量之间可能存在相关性。
主成分分析通过构造新的变量(即主成分),这些新变量是原始变量的线性组合,并且新变量之间互不相关,从而将原始的高维数据空间降维到低维空间,实现数据的简化。
方差最大化:主成分分析的另一个重要原理是方差最大化。
这意味着,第一个主成分将捕获数据中的最大方差,第二个主成分捕获第二大方差,以此类推。
通过这种方式,主成分分析能够识别出数据中的主要变化方向和模式。
数据解释性:主成分分析生成的主成分是对原始数据的线性变换,因此,每个主成分都可以被解释为原始变量的某种组合。
主成分分析法什么事主成分分析法:主成分分析(principal components analysis , PCA 又称:主分量分析,主成分回归分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
主成分分析的基本思想:在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
如上所述,主成分分析法正是解决这一问题的理想工具。
因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。
根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。
主成分分析法1. 主成份分析:主成份分析是最经典的基于线性分类的分类系统。
这个分类系统的最⼤特点就是利⽤线性拟合的思路把分布在多个维度的⾼维数据投射到⼏个轴上。
如果每个样本只有两个数据变量,这种拟合就是其中和分别是样本的两个变量,⽽和则被称为loading,计算出的P值就被称为主成份。
实际上,当⼀个样本只有两个变量的时候,主成份分析本质上就是做⼀个线性回归。
公式本质上就是⼀条直线。
插⼊⼀幅图(主成份坐标旋转图,来⾃:PLS⼯具箱参考⼿册)如果⼀个样本有n个变量,那主成份就变为:其中PC1 称为第⼀主成份,⽽且,我们还可以获得⼀系列与PC这个直线正交的其它轴,如:被称为第⼆主成份以此类推,若令,此时向量A称为主成份的载荷(loading),计算出的主成份的值PC称为得分(score)。
1. 主成份分析举例作为⼀个典型的降维⽅法,主成份分析在数据降维⽅⾯⾮常有⽤,⽽且也是所有线性降维⽅法的基础。
很多时候,如果我们拿着⼀个⾮常复杂的数据不知所措的话,可以先考虑⽤主成份分析的⽅法对其进⾏分解,找出数据当中的种种趋势。
在这⾥,我们利⽤数据挖掘研究当中⾮常常见的⼀个数据集对主成份分析的使⽤举例如下:1996年,美国时代周刊(Times)发表了⼀篇关于酒类消费,⼼脏病发病率和平均预期寿命之间关系的科普⽂章,当中提到了10个国家的烈酒,葡萄酒和啤酒的⼈均消费量(升/年)与⼈均预期寿命(年)⼀级⼼脏病发病率(百万⼈/年)的数据,这些数据单位不⼀,⽽且数据与数据之间仅有间接关系。
因此直接相关分析不能获得重要且有趣的结果。
另外⼀⽅⾯,总共只有10个国家作为样本,各种常见的抽样和假设检验在这⽅⾯也没有⽤武之地,我们看看⽤何种⽅法能够从这个简单的数据表中获得重要知识作为数据挖掘的第⼀步,⾸先应该观察数据的总体分布情况。
⽆论是EXCEL软件,还是R语⾔,我们都能够很⽅便的从下表中获得表征数据分布的条形图。
从图中可以看出,总共10个国家,有5类数据,由于各类数据性质各不相同,因此数值上⼤⼩也很不相同。
主成分分析方法在经济问题的研究中,我们常常会遇到影响此问题的很多变量,这些变量多且又有一定的相关性,因此我们希望从中综合出一些主要的指标,这些指标所包含的信息量又很多。
这些特点,使我们在研究复杂的问题时,容易抓住主要矛盾。
那么怎样找综合指标?主成分分析是将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来指标的统计方法,也是数学上处理降维的一种方法. 一. 主成分分析法简介主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析。
在实际问题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。
但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。
人们自然希望变量个数较少而得到的信息较多。
在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。
主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映问题的信息方面尽可能保持原有的信息。
信息的大小通常用离差平方和或方差来衡量。
主成分分析的基础思想是将数据原来的p 个指标作线性组合,作为新的综合指标(P F F F ,,,21 )。
其中1F 是“信息最多”的指标,即原指标所有线性组合中使)var(1F 最大的组合对应的指标,称为第一主成分;2F 为除1F 外信息最多的指标,即0),cov(21 F F 且)var(2F 最大,称为第二主成分;依次类推。
易知P F F F ,,,21 互不相关且方差递减。
实际处理中一般只选取前几个最大的主成分(总贡献率达到85%),达到了降维的目的。
主成分的几何意义:设有n 个样品,每个样品有两个观测变量,,21X X 二维平面的散点图。
n 个样本点,无论沿着1X 轴方向还是2X 轴方向,都有较大的离散性,其离散程度可以用1X 或2X 的方差表示。
主成分分析法主成分分析(Principal Component Analysis,简称PCA)是一种常用的降维方法,它通过线性变换将高维数据转换为低维数据,从而提取出数据的最主要特征。
本文将详细介绍主成分分析的原理、应用以及算法流程。
一、原理主成分分析是一种基于统计学的数据降维方法。
其基本思想是将原始数据通过线性变换,得到一组新的不相关变量,即主成分,用来代替原始变量。
这些主成分在不同维度上的方差依次递减,即第一主成分包含最多的原始变量信息,第二主成分包含不重叠的信息量,以此类推。
主成分分析的目标是最大化原始数据的方差,从而保留尽可能多的信息。
首先,通过计算协方差矩阵来评估各个变量之间的相关性,然后通过特征值分解找出协方差矩阵的特征向量,即主成分。
最后,根据特征值的大小来选择保留的主成分个数。
二、应用主成分分析广泛应用于数据预处理、特征提取和数据可视化等领域。
以下是主成分分析的几个典型应用:1. 数据降维:主成分分析可以将高维数据转换为低维数据,从而减少计算量和存储空间,并提高模型的计算效率。
2. 特征提取:主成分分析可以将原始数据中高度相关的特征转换为互不相关的主成分,保留了原始数据的主要信息。
这样可以提高模型的训练速度和泛化能力。
3. 图像压缩:主成分分析可以将图像的冗余信息去除,从而实现图像的压缩和存储。
通过保留图像中的主要特征,可以在减少存储空间的同时保持图像的质量。
4. 数据可视化:主成分分析可以将高维数据映射到二维空间,从而实现数据的可视化。
通过显示主成分的分布,可以更好地理解数据之间的关系,并发现数据中的模式和异常。
三、算法流程主成分分析的算法流程如下:1. 数据标准化:将原始数据进行标准化处理,使得每个变量具有相同的尺度,从而避免变量之间的差异对主成分的影响。
2. 计算协方差矩阵:根据标准化后的数据计算协方差矩阵,该矩阵表示各个变量之间的相关性。
3. 特征值分解:对协方差矩阵进行特征值分解,得到特征值和特征向量。
4,主成分分析法主成分分析(Principal Component Analysis,PCA),是一种统计方法。
通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。
信息的大小通常用离差平方和或方差来衡量。
②主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。
因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。
③当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。
4.4主成分分析法的运用叶晓枫,王志良,【2】在介绍主成分分析方法的基本思想及计算方法基础上,对水资源调配评价指标进行了降维计算. 结果显示筛选出的指标对原指标具有较好的代表性,简化了水资源评价问题的难度。
傅湘,纪昌明【3】,针对模糊综合评判法在综合评价中存在的主观随意性问题,提出采用主成分分析法进行区域水资源承载能力综合评价。
对各区域的灌溉率、水资源利用率、水资源开发程度、供水模数、需水模数、人均供水量和生态环境用水率达七个主要因索进行了分析;根据主成分分析法的原理,运用少数几个新的综合指标对原来的七个指标所包含的信息进行最佳综合与简化,研究其在各区域水资源开发利用过程中的不同贡献及综合效应。
周莨棋,徐向阳等【4】,针对传统主成分分析法用于水资源综合评价中存在一些问题,包括指标评价中的“线性”问题、无法体现评价指标主观重要性以及评价范围无法确定。
进行了改进,采用改进的极差正规方法对数据进行规格化,用规格化后的数据加入了主观重要性权进行协方差计算,对协方差特征向量采用正负理想点进行检验。
陈腊娇,冯利华等【5】,将主成分分析方法引入到水资源承载力研究中,并以浙江省为例,在现有资料的基础上,利用主成分分析的方法,定量分析影响水资源承载力变化的最主要的驱动因子。
主成份分析法(Principal Component Analysis,PCA )也称主分量分析或矩阵数据分析,是统计分析常用的一种重要的方法,在系统评价、质量管理和发展对策等许多方面都有应用。
它利用数理统计方法找出系统中的主要因素和各因素之间的相互关系,由于系统地相互关系性,当出现异常情况时或对系统进行分析时,抓住几个主要参数的状态,就能把握系统的全局,这几个参数放映了问题的综合的指标,也就是系统的主要因素。
主成分分析法是一种把系统的多个变量转化为较少的几个综合指标的统计分析方法,因而可将多变量的高维空间转化为低维的综合指标问题,能放映系统信息量最大的综合指标为第一主成分,其次为第二主成分。
主成分的个数一般按需放映的全部信息的百分比来决定,几个主成分之间是互不相关的。
主成分分析法的主要作用是:发现隐含于系统内部的结构,找出存在于原有各变量之间的内在联系,并简化变量;对变量样本进行分类,根据指标的得分值在指标轴空间进行分类处理。
主成分分析是数学上对数据降维的一种方法。
其基本思想是设法将原来众多的具有一定相关性的指标X 1,X 2,…,X P (比如p 个指标),重新组合成一组较少个数的互不相关的综合指标F m 来代替原来指标。
那么综合指标应该如何去提取,使其既能最大程度的反映原变量X P 所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。
设F 1表示原变量的第一个线性组合所形成的主成分指标,即11112121...p p F a X a X a X =+++,由数学知识可知,每一个主成分所提取的信息量可用其方差来度量,其方差Var(F 1)越大,表示F 1包含的信息越多。
常常希望第一主成分F 1所含的信息量最大,因此在所有的线性组合中选取的F 11应该是X 1,X 2,…,X P 的所有线性组合中方差最大的,故称F 1为第一主成分。
如果第一主成分不足以代表原来p 个指标的信息,再考虑选取第二个主成分指标F 2,为有效地反映原信息,F 1已有的信息就不需要再出现在F 2中,即F 2与F 1要保持独立、不相关,用数学语言表达就是其协方差Cov(F 1, F 2)=0,所以F 2是与F 1不相关的X 1,X 2,…,X P 的所有线性组合中方差最大的,故称F 2为第二主成分,依此类推构造出的F 1、F 2、……、F m 为原变量指标X 1,X 2,…,X P 第一、第二、……、第m 个主成分。
主成分分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。
在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。
依次类推,I 个变量就有I个主成分。
这种方法避免了在综合评分等方法中权重确定的主观性和随意性,评价结果比较符合实际情况;同时,主成份分量表现为原变量的线性组合,如果最后综合指标包括所有分量,则可以得到精确的结果,百分之百地保留原变量提供的变差信息,即使舍弃若干分量,也可以保证将85%以上的变差信息体现在综合评分中,使评价结果真实可靠。
是在实际中应用得比较广的一种方法。
由于其第一主成份(因子)在所有的主成分中包含信息量最大,很多学者在研究综合评价问题时常采用第一主成分来比较不同实体间的差别。
综上所述,该方法的优点主要体现在两个方面:1.权重确定的客观性;2.评价结果真实可靠。
1.主成分分析的基本原理主成分分析:把原来多个变量划为少数几个综合指标的一种统计分析方法,是一种降维处理技术。
)记原来的变量指标为x1,x2,…,xP,它们的综合指标——新变量指标为z1,z2,…,zm(m≤p),则z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第一,第二,…,第m 主成分,在实际问题的分析中,常挑选前几个最大的主成分。
(一)主成分分析法的基本思想主成分分析(Principal Component Analysis )是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。
[2]采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。
(二)主成分分析法代数模型假设用p 个变量来描述研究对象,分别用X 1,X 2…X p 来表示,这p 个变量构成的p 维随机向量为X=(X 1,X 2…X p )t 。
设随机向量X 的均值为μ,协方差矩阵为Σ。
假设 X 是以 n 个标量随机变量组成的列向量,并且μk 是其第k 个元素的期望值,即,μk= E(xk),协方差矩阵然后被定义为:Σ=E{(X -E[X])(X-E[X])}=(如图对X 进行线性变化,考虑原始变量的线性组合: Z 1=μ11X 1+μ12X 2+…μ1p X pZ 2=μ21X 1+μ22X 2+…μ2p X p…… …… ……Z p =μp1X 1+μp2X 2+…μpp X p主成分是不相关的线性组合Z 1,Z 2……Z p ,并且Z 1是X 1,X 2…X p 的线性组合中方差最大者,Z 2是与Z 1不相关的线性组合中方差最大者,…,Z p 是与Z 1,Z 2 ……Z p-1都不相关的线性组合中方差最大者。
(三)主成分分析法基本步骤第一步:设估计样本数为n ,选取的财务指标数为p ,则由估计样本的原始数据可得矩阵X=(x ij )m ×p ,其中x ij 表示第i 家上市公司的第j 项财务指标数据。
第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。
主成分分析法(论文)摘要:本文介绍主成分分析法(PCA)的基本原理、数学模型、以及应用领域,详细阐述了PCA在多变量统计分析、图像处理、模式识别等领域中的应用。
通过实例分析,展示了PCA在数据降维、去噪、特征提取等方面的应用优势。
最后,对PCA的优缺点进行了总结,展望了其未来的研究方向。
关键词:主成分分析;多变量统计分析;图像处理;模式识别1. 简介主成分分析法(PCA)是一种常用的数据分析方法,它是对多个相关性较高的变量进行线性组合,得到一组无关的新变量,这些新变量称为主成分。
主成分是原变量的线性组合,具有较强的统计意义,能够反映出原变量的主要信息,同时可以用较少的变量来描述原数据。
因此,PCA被广泛应用于多变量统计分析、图像处理、模式识别等领域。
2. 基本原理PCA的核心思想是将原始数据转化成一组线性不相关的主成分,即通过正交变换将原数据转化成具有更好的可解释性和更小的冗余性的形式。
这种变换的基本思路是将原始数据进行协方差矩阵分解,使得矩阵的特征向量可以表示出新的主成分,特征值可以表示出每个主成分的贡献率。
假设原数据为一个m维随机向量X,每一维的方差为σ1^2, σ2^2, ..., σm^2,协方差矩阵为C。
则PCA的目标是寻找一个线性变换矩阵W,使得变换后的数据Y=WX具有以下特征:- Y的各维度变量之间彼此独立- Y的第一维度变量拥有最大的方差,并且是C的最大特征值所对应的特征向量- Y的第二维度变量拥有次大的方差,并且是C中第二大特征值所对应的特征向量- 以此类推,Y的每一维度变量都是协方差矩阵C对应的特征向量3. 数学模型对于一个具有n个样本和m个特征的数据集,其中每一行表示一个样本,每一列表示一个特征,则PCA的数学模型可以表示为以下步骤:1. 标准化数据:对每个特征进行标准化处理,即将每个特征的均值设为0,方差为1,使得不同特征之间具有可比性。
2. 计算协方差矩阵:计算数据集的协方差矩阵C,即其中x为m维列向量,X为n*m的数据矩阵,XT为X的转置。
主成分分析方法我们进行系统分析评估或医学上因子分析等时,多变量问题是经常会遇到的。
变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。
因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息事实上,这种想法是可以实现的,本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。
第一节 主成分分析方法的原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。
假定有n 样本,每个样本共有p 个变量描述,这样就构成了一个n×p 阶的数据矩阵:111212122212.....................p p n n np x x x x x x X x x x ⎛⎫⎪⎪= ⎪ ⎪⎪⎝⎭ (1)如何从这么多变量的数据中抓住事物的内在规律性呢要解决这一问题,自然要在p 维空间中加以考察,这是比较麻烦的。
为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。
那么,这些综合指标(即新变量)应如何选取呢显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。
如果记原来的变量指标为p x x x ,,21 ,它们的综合指标——新变量指标为 21,z z ,m z (m≤p)。
则)2.........(..........22112222121212121111⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=p mp m m m pp pp x l x l x l z x l x l x l z x l x l x l z在(2)式中,系数l ij 由下列原则来决定: (1)z i 与z j (i≠j ;i ,j=1,2,…,m)相互无关; (2)z 1是x 1,x 2,…,x p 的一切线性组合中方差最大者;z 2是与z 1不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者;……;z m 是与z 1,z 2,……z m-1都不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者。
且(2)式要求:22212....1i i ip l l l +++=这样决定的新变量指标z 1,z 2,…,z m 分别称为原变量指标x 1,x 2,…,x p 的第一,第二,…,第m 主成分。
其中,z 1在总方差中占的比例最大,z 2,z 3,…,z m 的方差依次递减。
在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。
从以上分析可以看出,找主成分就是确定原来变量x j (j=1,2,…,p)在诸主成分z i (i=1,2,…,m)上的载荷l ij (i=1,2,…,m ;j=1,2,…,p)。
同时,12(,,....,)i i ip l l l 不是别的,而恰好是x 1,x 2,…,x p 的相关矩阵的特征值所对应的特征向量。
且z 1方差取到最大就是x 1,x 2,…,x p 相关矩阵在第一个特征值所对应特征向量处达到。
z m 方差取到最大就是x 1,x 2,…,x p 相关矩阵在第m 个特征值所对应特征向量处达到。
第二节 主成分分析的解法主成分分析的计算步骤通过上述主成分分析的基本原理的介绍,我们可以把主成分分析计算步骤归纳如下:(1)计算相关系数矩阵⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=PP P P P P r r r r r r r r r R 212222111211........................... ………(3) 在公式(3)中,ij r (i ,j=1,2,…,p)为原来变量i x 与j x 的相关系数,其计算公式为∑∑∑-------=nk nk j kj i kink j kj i kiij x x x xx x x xr 11221)()())(( (4)因为R 是实对称矩阵(即r ij =r ji ),所以只需计算其上三角元素或下三角元素即可。
(2)计算特征值与特征向量首先解特征方程|λI -R |=0求出特征值λi (i=1,2,…,p),并使其按大小顺序排列,即λ1≥λ2≥…,≥λp ≥0;然后分别求出对应于特征值λi 的特征向量e i (i=1,2,…,p)。
(3)计算主成分贡献率及累计贡献率∑∑∑---=pk kmk kpk k i i p i r z 111),,,2,1(/γγγ累计贡献率:贡献率:主成分 。
一般取累计贡献率达85-95%的特征值m λλλ ,,21,所对应的第一,第二,……,第m (m ≤p)个主成分。
(4)计算主成分得分矩阵由此可以进一步计算主成分得分矩阵:Z=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡nm n n m m l l l l l l l l l 212222111211............ (5) 进一步还可以根据式:⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=p mp m m m p p pp x l x l x l z x l x l x l z x l x l x l z 22112222121212121111计算各主成分得分:11...j j jp pZ l X l X=++(6)和总得分:1212...mj mmmmiiiiiiy z z z λλλλλλ=+++∑∑∑(7)主成分分析应用实例实证研究1本文是对实施西部大开发以来的经济增长状况作实证研究,把西部地区10个省(自治区、直辖市)的经济增长状况作为研究对象集,即={ 重庆,四川,贵州,云南,西藏,陕西,甘肃,青海,宁夏,新疆}选取17个经济指标值:即:地区生产总值、财政收入、固定资产投资、城市用水普及率、城市燃气普及率、每万人拥有交通公共车辆、人均城市道路面积、普通高等学校数、每千人医疗卫生机构床位数、居民收入与消费指标等17个经济指标。
进行主成分分析:西部地区2011横向因子分析解释的总方差成份初始特征值提取平方和载入旋转平方和载入合计方差的%累积%合计方差的%累积%合计方差的%累积%123主成分载荷量表:西部地区2011年横向主成分1f2f3f.173 .045 .186 .110 .151 .002 .172 .041 .240 .028 .085 .199 .091 .294 .100 .093 .163 .016 .037 .258 .261 .232 .330 .066 .056 .050 .138 .152 .034 .086.025.006主成分得分函数:12011,12001,22011,32011,42011,52011,62011,72011,82011,92011,102011,112011,122011,132011,1420110.1730.0190.1510.172v 0.0120.0280.0910.0410.1630.0370.0220.0030.0980.0660.138f v v v v v v v v v v v v v v =-++-++-++---++,152011,162011,1722011,12001,22011,32011,42011,52011,62011,72011,82011,92011,102011,112011,122010.1520.0860.0700.1860.0120.064v 0.0420.0850.1360.10.0710.0730.2610.2320.33v v f v vv v v v v v v v v v ++=-+---+-+--+++1,132011,142011,152011,162011,1732011,12001,22011,32011,42011,52011,62011,72011,82011,92011,10200.0560.0210.0050.0250.0450.110.0020.041v 0.240.1990.2940.0930.0160.2580.021v v v v f v vv v v v v v v v +--+=+++++++++-11,112011,122011,132011,142011,152011,162011,170.140.1550.050.0150.0340.006v v v v v v ⎧⎪⎪⎪⎪⎨⎪⎪⎪⎪--+-++⎩各地区主成分得分表:因子得分1f因子得分2f因子得分3f因子综合得分2011,i y排名 重 庆 3 四 川 1 贵 州 5 云 南 4 西 藏 10 陕 西 2 甘 肃 7 青 海 9 宁 夏 8 新 疆6第一类主成分:经济实力、社会基础以及对外开程度是影响经济增长的主要因素(地区生产总值、财政收入、固定资产投资、普通高校数、客运量和货运量等)第二类主成分:居民消费水平、城镇居民人均可支配收入、人均公园绿地面积、人均生产总值。
第三类主成分有:城市用水普及率、城市燃气普及率、每万人拥有交通公共车辆数、每千人医疗卫生机构床位数等。
例:投资项目的风险评估模型现在针对具体的综合投资项目,假设请N名专家对可能次年在的M项风险指标进行打分评估,采用10分制,分支越低,风险越小。
具体打分数据统计表形式如表5-13所示:某项目投资分先评估打分表>>Matlab 命令窗口中输入语句:p=[6 8 4 4 3;4 9 2 7 1;…]; >>princomp(p)112345212345312345 F =-0.5766x +0.0094x -0.1698x +0.6237x +0.4997x F =0.1213x + 0.8054x +0.5409x +0.0987x +0.1854 F =-0.0984x -0.4107x 0.5037x -0.4386x +0.6128x 0.7880 -0.2358 -0.0214 0.4686 0pc =.3215 -0.1490 -0.3563 0.6515 0.4351 -0.4869⎛⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭5.0592 2.6122 = 0.9544 0.3573 0.1168λ⎛⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭从上表可知,前3个主成分的累计贡献率达到%,因此取前三个主成分:112345212345312345F =-0.5766x +0.0094x -0.1698x +0.6237x +0.4997x F =0.1213x + 0.8054x +0.5409x +0.0987x +0.1854 F =-0.0984x -0.4107x 0.5037x -0.4386x +0.6128x 所以最终风险综合评估函数: 12355.6028.7110.49F F F F =++主成分分析实例2对于某区域地貌-水文系统,其57个流域盆地的九项地理要素:x 1为流域盆地总高度(m)x 2为流域盆地山口的海拔高度(m),x 3为流域盆地周长(m),x 4为河道总长度(km),x 5为河等表2-14 某57个流域盆地地理要素数据道总数,x6为平均分叉率,x7为河谷最大坡度(度),x8为河源数及x9为流域盆地面积(km2)的原始数据如表2-14所示。