主成分分析
- 格式:docx
- 大小:456.42 KB
- 文档页数:8
主成分分析方法主成分分析(Principal Component Analysis, PCA)是一种常用的数据降维技术,它可以通过线性变换将原始数据转换为一组各维度之间线性无关的表示,从而实现数据的降维和特征提取。
在实际应用中,主成分分析方法被广泛应用于数据预处理、特征提取、模式识别和数据可视化等领域。
主成分分析的基本思想是通过寻找数据中的主要信息,并将其转化为一组新的互相无关的变量,即主成分,以达到降维的目的。
在进行主成分分析时,我们首先需要计算数据的协方差矩阵,然后对协方差矩阵进行特征值分解,得到特征值和特征向量。
特征向量构成的矩阵即为数据的主成分矩阵,而特征值则代表了数据在各个主成分方向上的方差大小。
通过主成分分析,我们可以将原始数据映射到主成分空间中,从而实现数据的降维。
在降维后的主成分空间中,我们可以选择保留的主成分数量,以达到对数据特征的提取和压缩。
同时,主成分分析还可以帮助我们发现数据中的内在结构和模式,从而更好地理解数据的特性和规律。
在实际应用中,主成分分析方法有着广泛的应用。
例如,在图像处理领域,主成分分析可以用于图像压缩和特征提取;在金融领域,主成分分析可以用于资产组合的风险分析和优化;在生物信息学领域,主成分分析可以用于基因表达数据的分析和分类等。
需要注意的是,在应用主成分分析方法时,我们需要考虑数据的标准化和中心化处理,以避免不同量纲和尺度对主成分分析结果的影响。
此外,我们还需要注意选择合适的主成分数量,以保留足够的数据信息同时实现降维的效果。
总之,主成分分析方法是一种强大的数据分析工具,它可以帮助我们实现数据的降维和特征提取,发现数据中的内在结构和模式,从而更好地理解和利用数据。
在实际应用中,我们可以根据具体问题和需求,灵活运用主成分分析方法,从而实现更加有效的数据分析和应用。
一、主成分分析基本原理概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。
从数学角度来看,这是一种降维处理技术。
思路:一个研究对象,往往是多要素的复杂系统。
变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。
原理:假定有 n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵,x11x12 x1px21 x22 x2p Xxn 1xn2xnp记原变量指标为x1,x2,,,xp ,设它们降维处理后的综合指标,即新变量为 z1,z2,z3,,,zm(m ≤p),则z 1l11x 1 l 12x 2l1p xpz 2 l 21x1 l22x2l2p xp ............ z mlm1x 1 l m2x 2lmp xp系数lij 的确定原则:①zi 与zj (i ≠j ;i ,j=1,2,,,m )相互无关;②z 是x 1 ,x ,,,x 的一切线性组合中方差最大者,z 是与z 不相关的x ,x ,,,1 2P2 1 1 2 xP 的所有线性组合中方差最大者;zm 是与z1,z2,,,, zm -1都不相关的x1,x ,,x P ,的所有线性组合中方差最大者。
2新变量指标z1,z2,,,zm 分别称为原变量指标x1,x2,,,xP 的第1,第2,,,第m 主成分。
从以上的分析可以看出,主成分分析的实质就是确定原来变量xj (j=1,2 ,,,p )在诸主成分zi (i=1,2,,,m )上的荷载lij (i=1,2,,,m ;j=1,2,,,p )。
从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。
二、主成分分析的计算步骤1、计算相关系数矩阵r11 r12 r1 pr21 r22 r2 pRrp1 rp2 rpprij(i,j=1,2,,,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为n(x ki x i)(x kj x j)r ijk1n n(x ki2(x kj x j)2 x i)k1k12、计算特征值与特征向量解特征方程I R0,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列1 2 p0;p 分别求出对应于特征值i的特征向量e i(i1,2,L,p),要求ei=1,即e ij21j1其中e ij表示向量e i的第j 个分量。
主成分分析法什么事主成分分析法:主成分分析(principal components analysis , PCA 又称:主分量分析,主成分回归分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
主成分分析的基本思想:在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
如上所述,主成分分析法正是解决这一问题的理想工具。
因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。
根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。
主成分分析(principal component analysis, PCA)如果一组数据含有N个观测样本,每个样本需要检测的变量指标有K个, 如何综合比较各个观测样本的性质优劣或特点?这种情况下,任何选择其中单个变量指标对本进行分析的方法都会失之偏颇,无法反映样本综合特征和特点。
这就需要多变量数据统计分析。
多变量数据统计分析中一个重要方法是主成份分析。
主成分分析就是将上述含有N个观测样本、K个变量指标的数据矩阵转看成一个含有K维空间的数学模型,N个观测样本分布在这个模型中。
从数据分析的本质目的看,数据分析目标总是了解样本之间的差异性或者相似性,为最终的决策提供参考。
因此,对一个矩阵数据来说,在K维空间中,总存在某一个维度的方向,能够最大程度地描述样品的差异性或相似性(图1)。
基于偏最小二乘法原理,可以计算得到这个轴线。
在此基础上,在垂直于第一条轴线的位置找出第二个最重要的轴线方向,独立描述样品第二显著的差异性或相似性;依此类推到n个轴线。
如果有三条轴线,就是三维立体坐标轴。
形象地说,上述每个轴线方向代表的数据含义,就是一个主成份。
X、Y、Z轴就是第1、2、3主成份。
由于人类很难想像超过三维的空间,因此,为了便于直观观测,通常取2个或者3个主成份对应图进行观察。
图(1)PCA得到的是一个在最小二乘意义上拟合数据集的数学模型。
即,主成分上所有观测值的坐标投影方差最大。
从理论上看,主成分分析是一种通过正交变换,将一组包含可能互相相关变量的观测值组成的数据,转换为一组数值上线性不相关变量的数据处理过程。
这些转换后的变量,称为主成分(principal component, PC)。
主成分的数目因此低于或等于原有数据集中观测值的变量数目。
PCA最早的发明人为Karl Pearson,他于1901年发表的论文中以主轴定理(principal axis theorem)衍生结论的形式提出了PCA的雏形,但其独立发展与命名是由Harold Hotelling于1930年前后完成。
什么是主成分分析
主成分分析(Principal Component Analysis,PCA)是一种常用的统计分析方法,主要用于数据降维和特征提取。
通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,这些线性不相关的变量称为主成分。
每个主成分都是原始变量的线性组合,且主成分按照其反映的原始变量的方差大小依次排序。
在实际应用中,主成分分析首先对数据进行标准化处理,然后计算出变量间的协方差矩阵,通过特征值分解或者奇异值分解得到特征值和特征向量。
选取前几个特征值最大的主成分,这些主成分能够解释大部分的方差,从而实现对高维数据的降维处理。
主成分分析有助于简化复杂问题的分析,揭示事物的本质,被广泛应用于多个领域,如经济学、生物学、医学、心理学等。
主成分分析起源及发展主成分分析是1901年Pearson对非随机变量引入的,1933年Hotelling将此方法推广到随机向量的情形,主成分分析和聚类分析有很大的不同,它有严格的数学理论作基础。
原理在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。
人们自然希望变量个数较少而得到的信息较多。
在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。
主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
应用学科主成分分析作为基础的数学分析方法,其实际应用十分广泛,比如人口统计学、数量地理学、分子动力学模拟、数学建模、数理分析等学科中均有应用,是一种常用的多变量分析方法。
评价步骤1)对原始数据进行标准化处理假设进行主成分分析的指标变量有m个:,,…,,共有n个评价对象,第i个评价对象的第j个指标的取值为。
将各指标值转换成标准化指标,有,(i =1,2,…,n ; j =1,2,…,m)其中, , ,即为第j个指标的样本均值和样本标准差。
对应地,称,(j =1,2,…,m)为标准化指标变量。
2)计算相关系数矩阵R相关系数矩阵, 有, (i,j =1,2,…,m)式中,=,是第i个指标与第j个指标的相关系数。
3)计算特征值和特征向量计算相关系数矩阵R的特征值,及对应的特征向量,其中,由特征向量组成m个新的指标变量:︙式中是第1主成分,是第2主成分,…,是第m 主成分。
4)选择个主成分,计算综合评价值① 计算特征值的信息贡献率和累积贡献率。
主成分分析数据主成分分析(PCA,Principal Component Analysis)是一种最常用的降维技术和数据探索方法。
通过主成分分析,可以将高维的数据集转换为低维的数据集,同时最大程度地保留原始数据的信息。
主成分分析的核心思想是将原始的高维数据转换为一组新的正交变量,称为主成分。
这些主成分是原始数据中的线性组合,其按照方差递减的顺序排列,保留了原始数据中最多的方差。
因此,通过选择前几个主成分,我们可以捕获数据中最重要的变化。
主成分分析的步骤如下:1. 数据预处理:首先,需要对原始数据进行预处理。
常见的预处理技术包括去除异常值、标准化数据(使其均值为0,方差为1)等。
2. 计算协方差矩阵:将预处理后的数据计算协方差矩阵。
协方差矩阵度量了数据之间的线性相关性。
其元素C(i, j)表示第i个变量与第j个变量之间的协方差。
3. 计算特征值和特征向量:通过对协方差矩阵进行特征值分解,可以得到特征值和对应的特征向量。
特征值表示各个主成分的重要性,而特征向量则定义了主成分的方向。
4. 选择主成分:根据特征值,选择前k个主成分。
通常,我们选择特征值较大的前几个主成分,因为它们保留了较多的原始数据的方差。
5. 转换数据:通过特征向量对原始数据进行转换,得到降维后的数据集。
转换后的数据集可以用于后续的数据分析任务,如数据可视化、聚类分析等。
主成分分析在各个领域都有广泛的应用。
在数据可视化中,主成分分析可以将高维数据集转换为二维或三维空间,以便更好地理解数据的结构。
在数据探索中,主成分分析可以揭示数据之间的潜在关系,帮助我们找到数据中的重要特征。
此外,主成分分析还可以用于数据降维。
通过选择前几个主成分,我们可以将高维数据集转换为低维数据集,从而减少计算的复杂性,并提高模型的表现和效率。
这在机器学习和模式识别任务中尤为重要。
然而,主成分分析也有一些限制和注意事项。
首先,主成分分析是基于数据的线性关系假设,因此对于非线性数据,效果可能不佳。
确定权重方法之一:主成分分析
什么是权重呢?所谓权重,是指某指标在整体评价中的相对重要程度。
权重越大则该指标的重要性越高,对整体的影响就越高。
权重要满足两个条件:每个指标的权重在0、1之间。
所有指标的权重和为1。
权重的确定方法有很多,这里我们学习用主成分分析确定权重。
一、主成分基本思想:
图1 主成分基本思想的问与答
二、利用主成分确定权重
如何利用主成分分析法确定指标权重呢?现举例说明。
假设我们对反映某卖场表现的4项指标(实体店、信誉、企业形象、服务)进行消费者满意度调研。
调研采取4级量表,分值越大,满意度越高。
现回收有效问卷2000份,并用SPSS 录入了问卷数据。
部分数据见下图(详细数据见我的微盘,下载地址为
/s/yR83T)。
图2 主成分确定权重示例数据(部分)
1、操作步骤:
Step1:选择菜单:分析——降维——因子分析
Step2:将4项评价指标选入到变量框中
Step3:设置选项,具体设置如下:
2、输出结果分析
按照以上操作步骤,得到的主要输出结果为表1——表3,具体结果与分析如下:表1 KMO 和Bartlett 的检验
表1是对本例是否适合于主成分分析的检验。
KMO的检验标准见图3。
图3 KMO检验标准
从图3可知,本例适合主成分分析的程度为…一般‟,基本可以用主成分分析求权重。
表2 解释的总方差
从表2可知,前2个主成分对应的特征根>1,提取前2个主成分的累计方差贡献率达到94.513% ,超过80%。
因此前2个主成分基本可以反映全部指标的信息,可以代替原来的4个指标(实体店、信誉、企业形象、服务)。
表3 成份矩阵
从表3可知第一主成分与第二主成分对原来指标的载荷数。
例如,第一主成分对实体店的载荷数为0.957。
3、确定权重
用主成分分析确定权重有:指标权重等于以主成分的方差贡献率为权重,对该指标在各主成分线性组合中的系数的加权平均的归一化
因此,要确定指标权重需要知道三点:
A 指标在各主成分线性组合中的系数
B 主成分的方差贡献率
C 指标权重的归一化
(1)指标在不同主成分线性组合中的系数
这个系数如何求呢?
用表3中的载荷数除以表2中第1列对应的特征根的开方。
例如,在第一主成分F1的线性组合中,实体店的系数=0.957/(2.775)1/2≈0.574。
按此方法,基于表2和表3的数据,在excel中可分别计算出各指标在两个主成分线性组合中的系数(见图4,其中SQRT表示开方)
图4 各指标在两个主成分线性组合中的系数
由此得到的两个主成分线性组合如下:
F1=0.574χ1-0.019χ2+0.574χ3+0.583χ4
F2=-0.048χ1+0.996χ2+0.010χ3+0.070χ4
(2)主成分的方差贡献率
表2中“初始特征值”的“方差%”表示各主成分方差贡献率,方差贡献率越大则该主成分的重要性越强。
因此,方差贡献率可以看成是不同主成分的权重。
由于原有指标基本可以用前两个主成分代替,因此,指标系数可以看成是以这两个主成分方差贡献率为权重,对指标在这两个主成分线性组合中的系数做加权平均。
说得有些晦涩,我们来举个例子。
按上述思路,实体店χ1这个指标的系数为:
这样,我们可以用excel计算出所有指标的系数(见图5)
图5 所有指标在综合得分模型中的系数
由此得到综合得分模型为:
Y=0.409χ1+0.251χ2+0.424χ3+0.446χ4
(3)指标权重的归一化
由于所有指标的权重之和为1,因此指标权重需要在综合模型中指标系数的基础上归一化(见图6)
图6 指标权重的确定。