主成分分析
- 格式:doc
- 大小:89.50 KB
- 文档页数:4
一、主成分分析基本原理概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。
从数学角度来看,这是一种降维处理技术。
思路:一个研究对象,往往是多要素的复杂系统。
变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。
原理:假定有n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵,记原变量指标为x 1,x 2,…,x p ,设它们降维处理后的综合指标,即新变量为 z 1,z 2,z 3,… ,z m (m ≤p),则系数l ij 的确定原则:①z i 与z j (i ≠j ;i ,j=1,2,…,m )相互无关;②z 1是x 1,x 2,…,x P 的一切线性组合中方差最大者,z 2是与z 1不相关的x 1,x 2,…,x P 的所有线性组合中方差最大者; z m 是与z 1,z 2,……,z m -1都不相关的x 1,x 2,…x P , 的所有线性组合中方差最大者。
新变量指标z 1,z 2,…,z m 分别称为原变量指标x 1,x 2,…,x P 的第1,第2,…,第m 主成分。
从以上的分析可以看出,主成分分析的实质就是确定原来变量x j (j=1,2 ,…, ⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=np n n p p x x x x x x x x x X ΛM M M ΛΛ212222111211⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=p mp m m m p p pp x l x l x l z x l x l x l z x l x l x l z ΛΛΛ22112222121212121111............p )在诸主成分z i (i=1,2,…,m )上的荷载 l ij ( i=1,2,…,m ; j=1,2 ,…,p )。
1 主成分分析定义在许多实际问题中,我们经常用多个变量来刻画某一事物,但由于这些变量之间往往具有相关性,很多变量带有重复信息,这样就给分析问题带来了很多不便,同时也使分析结论不具有真实性和可靠性,因此,人们希望寻找到少量几个综合变量来代替原来较多的变量,使这几个综合变量能较全面地反映原来多项变量的信息,同时相互之间不相关。
主成分分析正是满足上述要求的一种处理多变量问题的方法。
主成分分析(Principal Component Analysis,PCA),将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。
又称主分量分析。
2 主成分分析基本思想主成分分析是考察多个变量间相关性的一种多元统计方法。
它是研究如何通过少数几个主分量来解释多个变量间的内部结构。
也就是说,从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。
主成分分析的应用目的可以被简单归结为两句话:数据的压缩、数据的解释。
它常被用来寻找判断某种事物或现象的综合指标,并且给综合指标所包含的信息以适当的解释,从而更加深刻的揭示事物的内在规律。
但是在实际应用中,主成分分析更多的只是一种达到目的的中间手段,而并非目的本身,它往往会被作为许多大型研究的中间步骤,在对数据进行浓缩后继续采用其他多元统计方法以解决实际问题。
主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。
假定有n个地理样本,每个样本共有p个变量描述,这样就构成了一个n×p阶的地理数据矩阵:如何从这么多变量的数据中抓住地理事物的内在规律性呢?要解决这一问题,自然要在p维空间中加以考察,这是比较麻烦的。
为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。
可编辑修改精选全文完整版主成分分析(principal component analysis, PCA)如果一组数据含有N个观测样本,每个样本需要检测的变量指标有K个, 如何综合比较各个观测样本的性质优劣或特点?这种情况下,任何选择其中单个变量指标对本进行分析的方法都会失之偏颇,无法反映样本综合特征和特点。
这就需要多变量数据统计分析。
多变量数据统计分析中一个重要方法是主成份分析。
主成分分析就是将上述含有N个观测样本、K个变量指标的数据矩阵转看成一个含有K维空间的数学模型,N个观测样本分布在这个模型中。
从数据分析的本质目的看,数据分析目标总是了解样本之间的差异性或者相似性,为最终的决策提供参考。
因此,对一个矩阵数据来说,在K维空间中,总存在某一个维度的方向,能够最大程度地描述样品的差异性或相似性(图1)。
基于偏最小二乘法原理,可以计算得到这个轴线。
在此基础上,在垂直于第一条轴线的位置找出第二个最重要的轴线方向,独立描述样品第二显著的差异性或相似性;依此类推到n个轴线。
如果有三条轴线,就是三维立体坐标轴。
形象地说,上述每个轴线方向代表的数据含义,就是一个主成份。
X、Y、Z轴就是第1、2、3主成份。
由于人类很难想像超过三维的空间,因此,为了便于直观观测,通常取2个或者3个主成份对应图进行观察。
图(1)PCA得到的是一个在最小二乘意义上拟合数据集的数学模型。
即,主成分上所有观测值的坐标投影方差最大。
从理论上看,主成分分析是一种通过正交变换,将一组包含可能互相相关变量的观测值组成的数据,转换为一组数值上线性不相关变量的数据处理过程。
这些转换后的变量,称为主成分(principal component, PC)。
主成分的数目因此低于或等于原有数据集中观测值的变量数目。
PCA最早的发明人为Karl Pearson,他于1901年发表的论文中以主轴定理(principal axis theorem)衍生结论的形式提出了PCA的雏形,但其独立发展与命名是由Harold Hotelling于1930年前后完成。
主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法什么是主成分分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
[编辑]主成分分析的基本思想在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
如上所述,主成分分析法正是解决这一问题的理想工具。
因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。
根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。
主成分分析在统计学中的意义和应用主成分分析(Principal Component Analysis,简称PCA)是一种常用的多变量数据分析方法,广泛应用于统计学领域。
它通过线性变换将原始数据转换为一组新的互相无关的变量,称为主成分,以减少数据的维度并提取数据中的主要信息。
本文将探讨主成分分析在统计学中的意义和应用。
一、主成分分析的意义主成分分析在统计学中具有重要的意义。
首先,主成分分析可以帮助我们理解数据的内在结构。
通过将高维数据降维到低维空间,我们可以观察到数据中的主要变化趋势和关联性,从而揭示数据背后的规律和模式。
这对于统计学研究和数据分析具有重要意义。
其次,主成分分析可以减少数据的维度。
在实际应用中,我们经常面临高维数据的分析问题,而高维数据不仅难以可视化,而且计算复杂度高。
通过主成分分析,我们可以将高维数据转换为低维空间,减少数据的维度,从而简化问题的复杂度,提高数据分析的效率。
最后,主成分分析可以提取数据中的主要信息。
在数据分析中,我们通常只关注数据中的重要信息,而忽略噪声和不相关的变量。
主成分分析通过将数据转换为主成分,可以提取数据中的主要变化趋势和关联性,帮助我们更好地理解数据,做出更准确的分析和预测。
二、主成分分析的应用主成分分析在统计学中有广泛的应用。
以下是主成分分析的几个典型应用领域:1. 数据降维主成分分析可以将高维数据降维到低维空间,从而减少数据的维度。
这在数据可视化和数据分析中非常有用。
例如,在图像处理中,我们可以使用主成分分析将图像转换为低维空间,从而实现图像的压缩和重建。
在金融领域,主成分分析可以用于降低股票市场的维度,帮助投资者理解市场的主要变化趋势。
2. 特征提取主成分分析可以提取数据中的主要信息,帮助我们理解数据的内在结构。
在模式识别和机器学习中,我们经常需要从数据中提取有用的特征,以便更好地分类和预测。
主成分分析可以帮助我们实现这一目标。
例如,在人脸识别中,我们可以使用主成分分析提取人脸图像中的主要特征,从而实现人脸的自动识别。
浅析主成分分析法的原理
张小丽
(武汉大学遥感信息工程学院,湖北武汉,430079)
【摘要】图像特征是图像分析的重要依据,获取图像特征信息的操作称为特征提取。
它作为模式识别,图像理解或信息量压缩的基础是很重要的。
在目前的遥感图像处理研究中,多利用光谱特征。
主成分分析也称为K-L变换,是在统计特征基础上的多维(如多波段)正交线性变换,也是遥感数字图像处理中最常用的一种变换算法。
本文就对光谱特征提取的主成分分析方法分析其原理,具体步骤及优缺点。
【关键词】遥感图像;特征提取;光谱特征;主成分分析
1 引言
以计算机自动分类为研究方向的遥感图像解译技术的一般工作流程是图像预处理、特征提取、特征选择、分类处理。
在这三项工作中,特征提取、特征选择是保证遥感图像分类精度的关键。
遥感图像模式的特征主要表现为光谱特征、纹理特征以及形状特征三种。
特征提取分为光谱特征提取、纹理特征提取,形状特征提取。
光谱特征提取和纹理特征提取分别对应于影像要素级序中的初级和第二级影像要素,目前应用较多的是光谱特征提取。
光谱特征提取常采用K-T变换、K-L变换。
2 光谱特征
光谱特征是图像中目标物的颜色及灰度或者波段间的亮度比等。
光谱特征通过原始波段的点运算获得。
光谱特征的特点是,它对应于每个像元,但与像元的排列等空间结构无关。
光谱特征是一种地物区别于另一种地物的本质特征,是组成地物成分、结构等属性的反映,正常情况下不同地物具有不同的光谱特征(在一些特殊情况下会出现同物异谱、同谱异物现象),因此根据地物光谱特征可以对遥感图像进行特征提取。
在遥感图像的所有信息中最直接应用的是地物的光谱信息,地物光谱特性可通过光谱特征曲线来表达。
遥感图像中每个像素的亮度值代表的是该像素中地物的平均辐射值,它随地物的成分、纹理、状态、表面特征及所使用电磁波波段的不同而变化。
3 K-L变换(主成分分析)
3.1原理
K-L变换即主成分分析。
主成分变换具有方差浓聚、重新分配、数据量压缩的作用,并且可更准确、特征地揭示多波段数据结构内部的遥感信息。
主成分分析是着眼于变量之间的相互关系,尽可能不丢失信息地用几个综合性指标汇集多个变量的测量值而进行描述的方法。
把P个变量(P维)的测量值汇集于m个(m维)主成分。
在多光谱图像中,由于各波段的数据间存在相关的情况很多,通过采用主成分分析可以把图像中所含的大部分信息用假想的少数波段显示出来,几乎不丢失信息但数据量大大减少。
图1 K-L变换示意图
主成分分析的原理如图1所示。
原数据为二维数据(由2个波段组成的多光谱图像数据),两个波段(x1,x2)数据间有相关性,具有如图1所示的分布形状。
沿分布形状做成新轴(z),把各数据投影到z轴上。
通过投影,各数据可以表示为z轴上的点数据(一维)。
由于原数据投影到z轴上,从原数据到z轴上的距离所对应的信息就会丢失。
按照使投影到z轴上的信息量(方差的大小)尽可能大的原则确定z轴的取向。
使丢失的信息量尽可能少,使原数据用z轴上的一维数据更真实地近似表示出来。
新轴(第一主成分)生成后,为了进一步汇集剩余的信息,求出与第一根轴正交,而且能尽可能多地反映剩余信息的另一根轴(第二主成分)。
由于原数据是二维的,所以到第二主成分就可以表示出全部的信息。
在多维数据中,可以取得与它的维数相等的主成分数。
然而,随着主成分的序号增大,新获得的信息量减少,所以当获得的信息量(方差)的累积量为全部信息量(方差)的8成左右,主成分的提取往往会终止。
3.2主成分分析的具体步骤如下:
设原始图像数据矩阵为:
其中,p和n分别为波段数(或称变量数)和每幅图像中的像素数:矩阵中每一行向量表示一个波段的图像。
根据原始图像数据矩阵x,求出它的协方差矩阵s
式中:
求s 矩阵的特征值λ和特征向量ν,并组成变换矩阵Т,具体如下:
考虑特征方程:
s ν=λν
解方程,求出协方差矩阵s 的特征值(1,2,...,)j j p λ=,将其按12...p λλλ≥≥≥排列,求得各特征值对应的经归一化后的单位特征向量j
ν:
以各特征向量为列构成矩阵,即:
V 矩阵的转置矩阵即为所求的主成分分析的变换矩阵Т。
将变换矩阵T 代入Y=TX ,则:
式中Y 矩阵的行向量
经过主成分变换后,得到一组(P 个)新的变量(即Y 的各个行向量),它们依次被称为第一主成分,第二主成分,...第p 主成分。
这时若将Y 矩阵的各行回复为二维图像时,即可以得到p 个主成分图像。
4小结
从上述过程中可以看出,主成分分析就是用得最多的一种线性变换方法,它产生一个新的图像序列,使图像按信息含量(或方差)由高到低排列,图像之间的相关性基本消除。
用前几个主成分就可以表述原始数据中绝大多数信息含量,这是信息含量在最小均方差意义上
的最优解。
主成分分析法的关键是求数据协方差矩阵的特征值和特征向量,但它在对数据的处理过程中只考虑了图像数据中的二阶统计信息,从而容易丢失图像中的重要的非线性特征信息。
而且信息过分集中的主成分图像往往并不一定有利于分析应用。
参考文献
[1]骆玉霞,陈焕伟.遥感图像的特征提取与选择研究.信息记录材料,2002,2.
[2]严红萍,俞兵.主成分分析在遥感图像处理中的应用.中国期刊全文数据库(中国知网),2006.
[3]闫守邑,等.在GIS支持下的遥感图像分类[J].遥感信息,1995(3).。