主成分分析的概念及基本思想主成分分析PrincipleComponent
- 格式:doc
- 大小:119.00 KB
- 文档页数:7
什么是主成分分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
[编辑]主成分分析的基本思想在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
如上所述,主成分分析法正是解决这一问题的理想工具。
因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。
根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。
这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。
主成分分析(PCA)简介1.什么(what)是主成分分析?主成分分析(Principal Component Analysis)又称主分量分析,是一种基于降维思想把多个变量化为少数几个主成分(即综合变量)的统计分析法。
主成分通常表示为原始变量的某种线性组合,能够反映原始变量的绝大部分信息,并具有最大的方差,通过保证主成分之间互不关联,使得这些主成分之间所包含的的信息互不重叠。
2.为什么(why)要用主成分分析?在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且变量之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
3.怎么(how)进行主成分分析?主成分分析的步骤(1)将观测数据标准化,并计算原始变量平均值以及样本协方差矩阵;(2)由相关系数矩阵得到特征值及各个主成分的方差贡献率、贡献率和累计、贡献率,并根据累计贡献率确定主成分保留的个数;(3)写出 m 个基本方程组(4)将各个样本的观测值代入主成分向量的表达式中计算各个主成分向量。
(5)计算原指标与主成分的相关系数即因子载荷,解释主成分的意义。
4.主成分分析的优缺点优点:①可消除评估指标之间的相关影响。
因为主成分分析法在对原始数据指标变量进行变换后形成了彼此相互独立的主成分,而且实践证明指标间相关程度越高,主成分分析效果越好。
②可减少指标选择的工作量,对于其他评估方法,由于难以消除评估指标间的相关影响,所以选择指标时要花费不少精力,而主成分分析法由于可以消除这种相关影响,所以在指标选择上相对容易些。
③主成分分析中各主成分是按方差大小依次排列顺序的,在分析问题时,可以舍弃一部分主成分,只取前面方差较大的几个主成分来代表原变量,从而减少了计算工作量。
(一)主成分分析法的基本思想主成分分析(Principal Component Analysis )是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。
[2]采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。
(二)主成分分析法代数模型假设用p 个变量来描述研究对象,分别用X 1,X 2…X p 来表示,这p 个变量构成的p 维随机向量为X=(X 1,X 2…X p )t 。
设随机向量X 的均值为μ,协方差矩阵为Σ。
对X 进行线性变化,考虑原始变量的线性组合: Z 1=μ11X 1+μ12X 2+…μ1p X pZ 2=μ21X 1+μ22X 2+…μ2p X p…… …… ……Z p =μp1X 1+μp2X 2+…μpp X p主成分是不相关的线性组合Z 1,Z 2……Z p ,并且Z 1是X 1,X 2…X p 的线性组合中方差最大者,Z 2是与Z 1不相关的线性组合中方差最大者,…,Z p 是与Z 1,Z 2 ……Z p-1都不相关的线性组合中方差最大者。
(三)主成分分析法基本步骤第一步:设估计样本数为n ,选取的财务指标数为p ,则由估计样本的原始数据可得矩阵X=(x ij )m ×p ,其中x ij 表示第i 家上市公司的第j 项财务指标数据。
第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。
第三步:根据标准化数据矩阵建立协方差矩阵R ,是反映标准化后的数据之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分析。
其中,R ij (i ,j=1,2,…,p )为原始变量X i 与X j 的相关系数。
principal component analysis主成分分析(PrincipalComponentAnalysis,简称PCA)是一种在数据挖掘中比较常用的统计分析技术,它可以将大量的变量进行综合考虑,用少量的几个主要组件来代表原变量的总体信息,从而简化数据分析过程,有助于结果的准确性。
1、PCA背景介绍主成分分析(Principal Component Analysis)作为多元统计分析的一项功能,最早由普林斯顿大学的Harold Hotelling在1933年提出,后随着计算机技术的发展而逐渐受到重视。
PCA是一种统计方法,它能归纳数据的变量,并构造一组新的变量,称为主成分,可以表达原始变量的总体特征,同时避免原始变量之间的相关性。
PCA可以得到成分变量,而且仍可以表达原始变量的总体特征,因此可以简化数据分析,提高分析效率和准确性,因此受到广泛应用。
2、PCA的基本概念PCA是一种多元统计分析方法,它能将数据的多个变量转换为一组主成分变量。
如果一个变量集有n个变量,PCA将这n个变量转换为n个新的变量。
新变量的数量等于原变量的数量,但它们的特点却和原变量不同。
PCA的目的就是要求出n个变量中的前k个,它们能够说明原变量在总体上的最大变异,而且可以假定剩下的n-k个变量的变差较小,可以忽略不计。
3、PCA的特点(1)节省数据分析成本。
PCA可以将原来的变量转换为一组新的变量,而这些新变量可以代表原始变量的总体特征,而又不必保留所有原变量,从而可以减少数据分析成本和时间。
(2)提高分析效率和准确性。
PCA可以将原变量之间的共线性减少,减少冗余变量的数量,从而提高分析的效率和准确性。
(3)帮助可视化。
PCA可以有效地将大量的变量转换为少量的变量,从而可以帮助将原始数据图形化,便于观察数据的变化趋势,从而发现变量间的关系,便于人们认识数据。
4、PCA的应用PCA在数据挖掘中有广泛的应用,特别是在图像处理、机器学习和数据可视化等方面,PCA也被广泛应用于系统分析、股票市场预测、基因组学等学科领域。
一、主成分分析的思想主成分分析是数据处理中常用的降维方法。
我们需要处理的数据往往是高维数据,把它看成是由某个高维分布产生。
高维分布的不同维之间可能具有较强的相关性,这也就为数据降维提供了可能。
为了叙述清楚主成分分析的思想,我们通过二维数据进行叙述,即数据是由随机向量 (X_1,X_2) 产生,并假设X_1=X_2 。
通过该分布得到的样本点如图下所示:如果我们把每个数据点用 (x_1,x_2) 表示,那么,每个数据是二维的。
实际上,容易发现,我们只需要将坐标系进行旋转,旋转到红色坐标系位置,此时,每个数据点在新坐标系下的表示形式为为 (x_1^{'},0) ,由于每个数据点的第二维坐标都是 0 ,所以每个数据点只需要用一个数表示就行了,这样就把数据的维数从二维降到了一维。
接下来考虑不是完全线性关系,但是具有强相关性的情况,如下图所示:在这种情况下,我们不可能通过坐标系的平移与旋转,使所有点都落在一根轴上,即不可能精确地把数据用一维表示。
但是注意到 (X_1,X_2) 仍然有强相关性,我们仍然将坐标轴旋转到红色位置,可以看出,将数据在 x_1^{'} 上的投影近似代表原数据,几乎可以完全反映出原数据的分布。
直观看,如果要将数据投影到某根轴,并用投影来表示原数据,将数据压缩成一维,那么投影到 x_1^{'} 是最好的选择。
因为投影到这跟轴,相比于投影到其他轴,对原数据保留的信息量最多,损失最小。
如何衡量保留的信息量呢?在主成分分析中,我们用数据在该轴的投影的方差大小来衡量,即投影后方差越大(即投影点越分散),我们认为投影到该轴信息保留量最多。
从这种观点看,投影到 x_1^{'} 确实是最好的选择,因为投影到这根轴,可使得投影点最分散。
我们将数据的中心平移到原点(即新坐标轴的原点在数据的中心位置),为了消除单位的影响,我们将数据的方差归一化。
进一步考虑如下数据分布:根据上述,如果要将数据压缩为一维的,那么应该选择 F_1 轴进行投影,如果用该投影表示原数据的损失过大,我们可以再选择第二根轴进行投影,第二根轴应该与 F_1 垂直(保证在两根轴上的投影是不相关的)并且使得数据在该轴上投影方差最大,即图中的 F_2 轴(如果是二维情况,第一根轴确定后,第二根轴就确定了。
主成分分析主成分分析(Principal Component Analysis,简称PCA)是一种常用的降维技术,它可以从高维数据中提取出最重要的特征,并将其映射到一个低维空间中。
通过降维,可以简化数据分析过程,减少计算复杂度,去除冗余信息,同时保留了数据主要的结构和规律。
本文将详细介绍主成分分析的原理、算法和应用。
一、主成分分析的原理主成分分析的目标是找到一组新的变量,称为主成分,这些主成分是原始数据中更高次特征的线性组合。
其中,第一主成分是数据中最大方差对应的一个线性组合,第二主成分是与第一主成分不相关的捕捉第二大方差的线性组合,以此类推。
主成分的数量等于原始数据的特征数。
主成分分析的基本思想是通过线性变换将高维数据映射到低维空间上,使得降维后的数据能够尽可能地保留原始数据的信息。
在降维过程中,主成分分析还会对不同特征之间的相关性进行考虑,以达到尽量保留原有信息的目的。
二、主成分分析的算法主成分分析的算法可以分为以下几个步骤:1. 数据标准化:首先对原始数据进行预处理,将每个特征按照零均值和单位方差的方式进行标准化。
这样可以保证特征之间的量纲一致,降低不同特征对主成分的影响。
2. 计算协方差矩阵:通过计算标准化后的数据的协方差矩阵来度量不同特征之间的相关性。
协方差矩阵的对角线元素为各个特征的方差,非对角线元素为各个特征之间的协方差。
3. 特征值分解:对协方差矩阵进行特征值分解,可以得到特征值和对应的特征向量。
特征值表示某个主成分所解释的总方差,特征向量表示主成分的方向。
4. 选择主成分:根据特征值的大小排序,选择前k个特征向量对应的主成分作为降维后的新特征。
5. 映射原始数据:将原始数据通过特征向量的线性组合映射到低维空间上,得到降维后的数据。
三、主成分分析的应用主成分分析在许多领域都有广泛的应用,下面介绍其中的几个典型应用。
1. 数据压缩:主成分分析可以将高维数据映射到低维空间,从而实现数据的压缩。
主成分分析方法主成分分析(Principal Component Analysis, PCA)是一种常用的数据降维和特征提取方法,它可以将高维数据转换为低维数据,同时保留数据的主要特征。
在实际应用中,主成分分析方法被广泛应用于数据挖掘、模式识别、图像处理、生物信息学等领域。
本文将介绍主成分分析的基本原理、算法步骤以及应用实例。
1. 基本原理。
主成分分析的基本思想是通过线性变换将原始数据映射到一个新的坐标系中,使得在新的坐标系下,数据的方差最大化。
换句话说,主成分分析就是找到一组新的基,使得数据在这组新的基下的方差最大。
这样做的目的是为了尽可能保留原始数据的信息,同时去除数据之间的相关性,从而达到降维的效果。
2. 算法步骤。
主成分分析的算法步骤可以简单概括为以下几步:(1)数据标准化,对原始数据进行标准化处理,使得各个特征具有相同的尺度。
(2)计算协方差矩阵,对标准化后的数据计算协方差矩阵。
(3)特征值分解,对协方差矩阵进行特征值分解,得到特征值和特征向量。
(4)选择主成分,按照特征值的大小,选择最大的k个特征值对应的特征向量作为主成分。
(5)数据映射,将原始数据映射到所选的主成分上,得到降维后的数据。
3. 应用实例。
主成分分析方法在实际应用中有着广泛的应用,下面以一个简单的实例来说明主成分分析的应用过程。
假设我们有一个包含多个特征的数据集,我们希望对这些特征进行降维处理,以便更好地进行数据分析。
我们可以利用主成分分析方法对这些特征进行降维处理,得到新的特征空间。
在新的特征空间中,我们可以更好地观察数据之间的关系,找到数据的主要特征,从而更好地进行数据分析和建模。
总结。
主成分分析是一种常用的数据降维和特征提取方法,它通过线性变换将原始数据映射到一个新的坐标系中,使得数据的方差最大化。
通过对协方差矩阵进行特征值分解,我们可以得到主成分,并将原始数据映射到主成分上,实现数据的降维处理。
在实际应用中,主成分分析方法有着广泛的应用,可以帮助我们更好地理解和分析数据。
主成分分析法主成分分析(Principal Component Analysis,简称PCA)是一种常用的降维方法,它通过线性变换将高维数据转换为低维数据,从而提取出数据的最主要特征。
本文将详细介绍主成分分析的原理、应用以及算法流程。
一、原理主成分分析是一种基于统计学的数据降维方法。
其基本思想是将原始数据通过线性变换,得到一组新的不相关变量,即主成分,用来代替原始变量。
这些主成分在不同维度上的方差依次递减,即第一主成分包含最多的原始变量信息,第二主成分包含不重叠的信息量,以此类推。
主成分分析的目标是最大化原始数据的方差,从而保留尽可能多的信息。
首先,通过计算协方差矩阵来评估各个变量之间的相关性,然后通过特征值分解找出协方差矩阵的特征向量,即主成分。
最后,根据特征值的大小来选择保留的主成分个数。
二、应用主成分分析广泛应用于数据预处理、特征提取和数据可视化等领域。
以下是主成分分析的几个典型应用:1. 数据降维:主成分分析可以将高维数据转换为低维数据,从而减少计算量和存储空间,并提高模型的计算效率。
2. 特征提取:主成分分析可以将原始数据中高度相关的特征转换为互不相关的主成分,保留了原始数据的主要信息。
这样可以提高模型的训练速度和泛化能力。
3. 图像压缩:主成分分析可以将图像的冗余信息去除,从而实现图像的压缩和存储。
通过保留图像中的主要特征,可以在减少存储空间的同时保持图像的质量。
4. 数据可视化:主成分分析可以将高维数据映射到二维空间,从而实现数据的可视化。
通过显示主成分的分布,可以更好地理解数据之间的关系,并发现数据中的模式和异常。
三、算法流程主成分分析的算法流程如下:1. 数据标准化:将原始数据进行标准化处理,使得每个变量具有相同的尺度,从而避免变量之间的差异对主成分的影响。
2. 计算协方差矩阵:根据标准化后的数据计算协方差矩阵,该矩阵表示各个变量之间的相关性。
3. 特征值分解:对协方差矩阵进行特征值分解,得到特征值和特征向量。
1、主成分分析的概念及基本思想主成分分析(Principle Component Analysis, PCA)是最为常用的特征提取方法,被广泛应用到各领域,如图像处理、综合评价、语音识别、故障诊断等。
它通过对原始数据的加工处理,简化问题处理的难度并提高数据信息的信噪比,以改善抗干扰能力。
主成分概念首先由Karl parson在1901年引进,不过当时只是对非随机变量进行讨论,1933年Hotelling将这个概念推广到随机向量。
在实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数情况下,不同指标之间是有一定相关性。
由于指标较多并且指标之间有一定的相关性,势必增加了分析问题的复杂性。
主成分分析就是设法将原来众多具有一定相关性的指标(比如p个指标),重新组合成一组新的相互无关的综合指标来代替原来指标。
通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标,但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢?如果将选取的第一个线性组合即第一个综合指标记为F1,自然希望F1尽可能多的反映原来指标的信息,这里的“信息”用什么来表达?最经典的方法就是用F1的方差来表达,即Var(F1)越大,表示F1包含的信息越多。
因此在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。
如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0 ,称F2为第二主成分,依此类推可以构造出第三,四,…,第p个主成分。
不难想象这些主成分之间不仅不相关,而且它们的方差依次递减。
因此在实际工作中,就挑选前几个最大主成分,虽然这样做会损失一部分信息,但是由于它使我们抓住了主要矛盾,并从原始数据中进一步提取了某些新的信息。
因而在某些实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。
1、主成分分析的概念及基本思想主成分分析(Principle Component Analysis, PCA)是最为常用的特征提取方法,被广泛应用到各领域,如图像处理、综合评价、语音识别、故障诊断等。
它通过对原始数据的加工处理,简化问题处理的难度并提高数据信息的信噪比,以改善抗干扰能力。
主成分概念首先由Karl parson在1901年引进,不过当时只是对非随机变量进行讨论,1933年Hotelling将这个概念推广到随机向量。
在实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数情况下,不同指标之间是有一定相关性。
由于指标较多并且指标之间有一定的相关性,势必增加了分析问题的复杂性。
主成分分析就是设法将原来众多具有一定相关性的指标(比如p个指标),重新组合成一组新的相互无关的综合指标来代替原来指标。
通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标,但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢?如果将选取的第一个线性组合即第一个综合指标记为F1,自然希望F1尽可能多的反映原来指标的信息,这里的“信息”用什么来表达?最经典的方法就是用F1的方差来表达,即Var(F1)越大,表示F1包含的信息越多。
因此在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。
如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0 ,称F2为第二主成分,依此类推可以构造出第三,四,…,第p个主成分。
不难想象这些主成分之间不仅不相关,而且它们的方差依次递减。
因此在实际工作中,就挑选前几个最大主成分,虽然这样做会损失一部分信息,但是由于它使我们抓住了主要矛盾,并从原始数据中进一步提取了某些新的信息。
因而在某些实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。
2、主成分分析的数学模型及几何意义2.1、数学模型设有n个样品,每个样品观测p项指标(变量):X1,X2,….X p,得到原始数据资料阵:11121212221212 (,,,) p p p n n np x x x x x x X X X X x x x ⎡⎤⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎣⎦其中 12= =1,2,, i i i ni x x X i p x ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦用数据矩阵X 的p 个向量(即p 个指标向量)X 1,X 2,…X p 作线性组合(即综合指标向量)为: 11112121212122221122p p p p pp p pp p F a X a X a X F a X a X a X F a X a X a X =+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ 简写成122 1,2,,i i i i p i p F a X a X a X i p =+++= 其中,Xi 是n 维向量,所以Fi 也是n 维向量。
上述方程组要求: 22212 1 1,2,,i i pi a a a i p +++==且系数a ij 由下列原则决定:(1) F i 与F j (i ≠j,i,j=1,…p )不相关;(2) F 1是X 1 ,X 2,…,X p 的一切线性组合(系数满足上述方程组)中方差最大的,F 2与F 1不相关的X 1 ,X 2,…,X p 一切线性组合中方差最大的,…,F p 是与F 1,F 2,…,F p-1都不相关的X 1 ,X 2,…,X p 的一切线性组合中方差最大的。
如何求满足上述要求的方程组的系数a ij 呢?下一节将会看到每个方程式中的系数向量(a 1i ,a 2i , …,a pi ),i=1,2, …,p 不是别的而恰好是X 的协差阵∑的特征值所对应的特征向量,也就是说,数学上可以证明使Var(F 1)达到最大,这个最大值是在协方差阵∑的第一个特征值所对应特征向量处达到。
依此类推使Var(F p )达到最大值是在协方差阵∑的第p 个特征值所对应特征向量处达到。
2.2、主成分的几何意义从代数学观点看主成分就是p 个变量X 1 ,X 2,…,X p 的一些特殊的线性组合,而在几何上这些线性组合正是把X 1 ,X 2,…,X p 构成的坐标系旋转产生的新坐标系,新坐标轴使之通过样品变差最大的方向(或说具有最大的样品方差)。
下面以最简单的二元正态变量来说明主成分的几何意义。
设有n 个样品,每个样品有p 个变量记为X 1 ,X 2,…,X p ,它们的综合变量记为F 1,F 2,…,F p 。
当p=2时,原变量是X 1,X 2,它们有下图的相关关系:主成分的意义对于二元正态分布变量,n 个分散的点大致形成为一个椭圆,若在椭圆长轴方向取坐标轴F 1,在短轴方向聚F 2,这相当于在平面上作一个坐标变换,即按逆时针方向旋转θ角度,根据旋转轴变换公式新老坐标之间有关系:112212cos sin sin cos F X X F X X θθθθ=+⎧⎨=-+⎩ 矩阵表示为:1122cos sin sin cos F X U X F X θθθθ⎡⎤⎡⎤⎡⎤==∙⎢⎥⎢⎥⎢⎥-⎣⎦⎣⎦⎣⎦ 显然U T =U -1且是正交矩阵,即U T U=I 。
从上图还容易看出二维平面上的n 个点的波动(可用方差表示)大部分可以归结为在F 1轴上的波动,而在F 2轴上的波动是较小的。
如果上图的椭圆是相当扁平的,那么我们可以只考虑F 1方向上的波动,忽略F 2方向的波动。
这样一来,二维可以降为一维了,只取第一个综合变量F 1即可。
而F 1是椭圆的长轴。
一般情况 ,p 个变量组成p 维空间,n 个样品就是p 维空间的n 个点,对p 元正态分布变量来说,找主成分的问题就是找P 维空间中椭球体的主轴问题。
3、主成分分析的推导在下面推导过程中,要用到线性代数中的两个定理:定理一 若A 是p*p 阶实对称阵,则一定可以找到正交阵U 使121p 0 00 0 0 0 U AU λλλ-⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦,其中λ1,λ2,…,λp 是A 的特征根。
定理二 若上述矩阵A 的特征根所对应的单位特征向量为u 1,u 2,…,u p 令11121p 21222p 121p2pp u u u u (,,,) u u p p u u U u u u u ⎡⎤⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎣⎦则实对称A 属于不同特征根所对应的特征向量是正交的,即0T T i j u u UU U U I ⋅=⇒==设1122T p p F a X a X a X a X =+++=,其中a=(a 1,a 2,…,a p )T ,X=(X 1,X 2,…,X p )T ,求主成分就是寻找X 的线性函数a T X 使相应得方差尽可能地大,即使()()T T Var F Var a X a a ==∑达到最大值,且a T a=1。
设协方差矩阵∑的特征根为λ1, λ2,…, λp ,不妨假设λ1≥ λ2 ≥ …≥λp >0,相应的单位特征向量为u 1, u 2,…, u p 。
令11121p 21222p 1221222p u u u u (,,,) u u p u u U u u u u ⎡⎤⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎣⎦由前面线性代数定理可知:U T U=UU T =I ,且121p 0 00 0 0 0p T i i i i U U u u λλλλ=⎡⎤⎢⎥⎢⎥∑==⎢⎥⎢⎥⎢⎥⎣⎦∑ 因此 2111()()()p p p TT TT T T T i i i i i i i i i i i a a a u u a a u a u a u λλλ===∑===∑∑∑ 所以2111111()()()pTT T T T T T T i i a a a u a U a U a UU a a a λλλλλ=∑≤====∑ 而且,当a=u 1时有2111111111111()()i p pTT TT T T i i i i i i i u u u u u u u u u u u u λλλλ==∑====∑∑ 因此,a=u 1使Var(a T X)=a T ∑a 达到最大值,且1111()T T Var u X u u λ=∑=同理()T i i Var u X λ=而且11cov(,)()()()0,p pTT T T T T T i j i j i a a aj a i a a j a a u u u u u u u u u u u u i j λλ===∑===≠∑∑上述推导表明:X 1,X 2,…,X p 的主成分就是以E 的特征向量为系数的线性组合,它们互不相关,其方差为∑的特征根。
由于∑的特征根λ1≥ λ2 ≥ …≥λp >0,所以有VarF 1≥ VarF 2 ≥ …≥VarF p >0。
了解这一点也就可以明白为什么主成分的名次是按特征根取值大小的顺序排列的。
在解决实际问题时,一般不是取p 个主成分,而是根据累计贡献率的大小取前k 个。
称第一主成分的贡献率为1/pi i i λλ=∑,由于有11()Var F λ=,所以111/()/()p pi i i i i Var F Var F λλ===∑∑。
因此第一主成分的贡献率就是第一主成分的方差在全部方差1pi i λ=∑中的比值。
这个值越大,表明第一主成分综合X 1,X 2,…,X p 信息的力越强。
前两个主成分的累计贡献率定义为121()/pi i λλλ=+∑, 前k 个主成分的累计贡献率定义为11/pk i i i i λλ==∑∑。
如果前k 个主成分的贡献率达到85%,表明取前 k 个主成分包含了全部测量指标所具有的信息,这样既减少了变量的个数又便于对实际问题进行分析和研究。
4、主成分分析的计算步骤设x = ( x 1 , x 2 , ⋯, x n ) T 为n 维随机矢量,则PCA 具体计算步骤如下:(1) 将原始观察数据组成样本矩阵X ,每一列为一个观察样本x ,每一行代表一维数据。
(2) 计算样本的协方差矩阵:(3) 计算协方差矩阵C x 的特征值λi 及相应特征向量u i ,其中i = 1 ,2 , ⋯, n 。
(4) 将特征值按由大到小顺序排列,并按照下式计算前m 个主元的累积贡献率:11()/m ni ii i m ηλλ===∑∑ 累积贡献率用于衡量新生成分量对原始数据的信息保存程度,通常要求其大于85%即可。
(5) 取前m 个较大特征值对应的特征向量构成变换矩阵T T :T T = ( u 1 , u 2 , ⋯, u m ) m < n(6) 通过Y= TX 计算前m 个主成分,达到降低维数的目的。