主成分分析(资料分享)
- 格式:doc
- 大小:687.00 KB
- 文档页数:6
统计学中的主成分分析主成分分析(Principal Component Analysis, PCA)是一种多变量分析方法,用于降维和数据可视化。
它通过将原始数据转换为新的坐标系,使得转换后的数据能够保留原始数据的主要变化趋势,并且可以按照重要性进行排序。
在本文中,将介绍主成分分析的原理、应用场景和步骤。
一、主成分分析原理主成分分析的核心是寻找数据中的主要变化趋势,即找到数据中的主成分。
主成分是数据最大方差方向上的投影,也即是能够解释数据中最大不同的变量。
对于一个具有p个变量的数据集,主成分分析可以得到p个主成分,按照重要性递减排序。
通过选择适当数量的主成分,可以实现对数据的降维和可视化。
主成分分析的计算过程可以通过特征值分解或奇异值分解来实现。
特征值分解会得到数据的特征向量和特征值,而奇异值分解则可以直接得到主成分。
在实际应用中,奇异值分解是更常用的方法。
二、主成分分析的应用场景主成分分析广泛应用于各个领域,包括金融、生物学、社会科学等。
下面将介绍主成分分析在这些领域的具体应用。
1. 金融:主成分分析常用于资产组合管理和风险管理。
通过将各种金融数据进行主成分分析,可以获得具有代表性的主成分,从而有效降低资产组合的维度,减少投资组合中的相关风险。
2. 生物学:主成分分析可以应用于基因表达数据的分析。
通过主成分分析,可以从大量的基因表达数据中提取出基因表达的主要变化趋势,帮助研究人员理解基因与表型之间的关系。
3. 社会科学:主成分分析可以用于社会调查数据的分析。
通过对调查数据进行主成分分析,可以发现不同变量之间的相关性,进而揭示不同因素对于社会问题的影响程度。
三、主成分分析的步骤主成分分析的步骤通常包括以下几个步骤:1. 数据标准化:对原始数据进行标准化处理,将不同量级的变量转化为标准差为1的变量。
这一步骤是为了消除变量间的量纲差异。
2. 计算协方差矩阵:根据标准化后的数据计算协方差矩阵,用于度量变量之间的相关性。
概述主成分分析PCA(Principal Component Analysis)是一种常用的数据分析方法。
PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。
本文用直观和易懂的方式叙述PCA的基本数学原理,不会引入严格的数学推导。
希望读者在看完这篇文章后能更好地明白PCA的工作原理。
一、降维概述 1.1 数组和序列(Series)的维度对于数组和序列(Series)来说,维度就是shape()函数返回的结果,shape()函数中返回了几个数字,就是几维(也有人看array()开头或者结尾连续中括号的数量)。
不分行列的数组叫一维数组,此时shape返回单一的维度上的数据个数。
有行列之分的数组叫二维数组,也称为表。
一张表最多有二个维度,复数的表构成了更高维度的表。
当一个数组中存在2张3行4列的表时,shape返回的是更高维度的行和列。
当数组中存在2组2张3行4列的表时,数据就是4维,shape返回(2,2,3,4)。
数组中的每一张表,都可以是一个特征矩阵或一个DataFrame,这些结构永远只有一张表,所以一定有行列,其中行是样本,列是特征。
针对每一张表,维度指的是样本的数量或特征的数量,一般无特别说明,指的都是特征的数量。
除了索引之外,一个特征是一维,两个特征是二维,n个特征是n维。
1.2 图像中的维度对图像来说,维度就是图像中特征向量的数量。
特征向量可以理解为是坐标轴,一个特征向量定义一条直线,是一维;两个相互垂直的特征向量定义一个平面,即一个直角坐标系,就是二维;三个相互垂直的特征向量定义一个空间,即一个立体直角坐标系,就是三维;三个以上的特征向量相互垂直,定义人眼无法看见,也无法想象的高维空间。
1.3 降维解释降维算法中的“降维”,指的是降低特征矩阵中特征的数量。
降维的目的是为了让算法运算更快,效果更好,但其实还有另一种需求:数据可视化。
(一)主成分分析法的基本思想主成分分析(PrincipalComponentAnalysis )是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。
[2]采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。
(二)主成分分析法代数模型 假设用p 个变量来描述研究对象,分别用X 1,X 2…X p 来表示,这p 个变量构成的p 维随机向量为X=(X 1,X 2…X p )t 。
设随机向量X 的均值为μ,协方差矩阵为Σ。
假设X 是以n 个标量随机变量组成的列向量,并且μk 是其第k 个元素的期望值,即,μk=E(xk),协方差矩阵然后被定义为: Σ=E{(X -E[X])(X-E[X])}=(如图对X 进行线性变化,考虑原始变量的线性组合: Z 1=μ11X 1+μ12X 2+…μ1p X p Z 2=μ21X 1+μ22X 2+…μ2p X p ………………Z p =μp1X 1+μp2X 2+…μpp X p主成分是不相关的线性组合Z 1,Z 2……Z p ,并且Z 1是X 1,X 2…X p 的线性组合中方差最大者,Z 2是与Z 1不相关的线性组合中方差最大者,…,Z p 是与Z 1,Z 2……Z p-1都不相关的线性组合中方差最大者。
(三)主成分分析法基本步骤 第一步:设估计样本数为n ,选取的财务指标数为p ,则由估计样本的原始数据可得矩阵X=(x ij )m×p ,其中x ij 表示第i 家上市公司的第j 项财务指标数据。
第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。
主成分分析完整版一、主成分分析的原理1.标准化数据:先对原始数据进行标准化处理,以确保不同变量的尺度一致。
2.计算协方差矩阵:对标准化后的数据计算协方差矩阵,矩阵中的元素表示不同变量之间的相关性。
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
4.选择主成分:按照特征值的大小选择最重要的k个特征值和它们对应的特征向量,称之为主成分。
5.数据转换:将原始数据投影到选取的主成分上,得到降维后的数据。
二、主成分分析的方法1.方差解释比:主成分分析通过特征值展示了每个主成分的重要性。
方差解释比是计算每个主成分的方差所占总方差的比例。
选择解释总方差的比例较高的主成分,可以保留更多的信息。
2.累计方差解释比:累计方差解释比是计算前n个主成分的方差解释比之和。
通过选择累计方差解释比较高的主成分,可以保留更多的原始数据信息。
3.维度选择:主成分分析可以通过选择合适的主成分数来实现数据降维。
通过观察特征值的大小和累计方差解释比,可以选择合适的主成分数。
三、主成分分析的应用1.数据可视化:主成分分析可以将高维度的数据转换为低维度的数据,从而方便可视化。
通过在二维或三维空间中绘制主成分,可以更好地理解数据的分布和关系。
2.特征提取:主成分分析可以提取数据中的最重要特征,从而减少数据维度并保留主要信息。
特征提取可以在分类、聚类等问题中提高算法的效果。
3.数据压缩:主成分分析可以将高维度的数据压缩为低维度的数据,从而节省存储空间和计算时间。
压缩后的数据可以用于后续分析和处理。
4.噪音过滤:主成分分析通过保留数据中最重要的特征,可以减少噪音的影响。
通过滤波后的数据可以提高实验测量的准确性和稳定性。
综上所述,主成分分析是一种强大的数据降维技术,可以在许多领域中应用。
熟悉主成分分析的原理、方法和应用,对于理解数据和提升数据分析的能力具有重要意义。
可编辑修改精选全文完整版主成分分析(principal component analysis, PCA)如果一组数据含有N个观测样本,每个样本需要检测的变量指标有K个, 如何综合比较各个观测样本的性质优劣或特点?这种情况下,任何选择其中单个变量指标对本进行分析的方法都会失之偏颇,无法反映样本综合特征和特点。
这就需要多变量数据统计分析。
多变量数据统计分析中一个重要方法是主成份分析。
主成分分析就是将上述含有N个观测样本、K个变量指标的数据矩阵转看成一个含有K维空间的数学模型,N个观测样本分布在这个模型中。
从数据分析的本质目的看,数据分析目标总是了解样本之间的差异性或者相似性,为最终的决策提供参考。
因此,对一个矩阵数据来说,在K维空间中,总存在某一个维度的方向,能够最大程度地描述样品的差异性或相似性(图1)。
基于偏最小二乘法原理,可以计算得到这个轴线。
在此基础上,在垂直于第一条轴线的位置找出第二个最重要的轴线方向,独立描述样品第二显著的差异性或相似性;依此类推到n个轴线。
如果有三条轴线,就是三维立体坐标轴。
形象地说,上述每个轴线方向代表的数据含义,就是一个主成份。
X、Y、Z轴就是第1、2、3主成份。
由于人类很难想像超过三维的空间,因此,为了便于直观观测,通常取2个或者3个主成份对应图进行观察。
图(1)PCA得到的是一个在最小二乘意义上拟合数据集的数学模型。
即,主成分上所有观测值的坐标投影方差最大。
从理论上看,主成分分析是一种通过正交变换,将一组包含可能互相相关变量的观测值组成的数据,转换为一组数值上线性不相关变量的数据处理过程。
这些转换后的变量,称为主成分(principal component, PC)。
主成分的数目因此低于或等于原有数据集中观测值的变量数目。
PCA最早的发明人为Karl Pearson,他于1901年发表的论文中以主轴定理(principal axis theorem)衍生结论的形式提出了PCA的雏形,但其独立发展与命名是由Harold Hotelling于1930年前后完成。
主成分分析
起源及发展
主成分分析是1901年Pearson对非随机变量引入的,1933年Hotelling将此方法推广到随机向量的情形,主成分分析和聚类分析有很大的不同,它有严格的数学理论作基础。
原理
在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。
人们自然希望变量个数较少而得到的信息较多。
在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。
主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统
计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
应用学科
主成分分析作为基础的数学分析方法,其实际应用十分广泛,比如人口统计学、数量地理学、分子动力学模拟、数学建模、数理分析等学科中均有应用,是一种常用的多变量分析方法。
评价步骤
1)对原始数据进行标准化处理
假设进行主成分分析的指标变量有m个:,,…,,共有n个评价对象,第i个评价对象的第j个指标的取值为。
将各指标值转换成标准化指标,有
,(i =1,2,…,n ; j =1,2,…,m)
其中, , ,即为第j个指标的样本均值和样本标准差。
对应地,称
,(j =1,2,…,m)
为标准化指标变量。
2)计算相关系数矩阵R
相关系数矩阵, 有
, (i,j =1,2,…,m)
式中,=,是第i个指标与第j个指标的相关系数。
3)计算特征值和特征向量
计算相关系数矩阵R的特征值,及对应的特征向量,其中,由特征向量组成m个新的指标变量:
︙
式中是第1主成分,是第2主成分,…,是第m 主成分。
4)选择个主成分,计算综合评价值
① 计算特征值的信息贡献率和累积贡献率。
称
为主成分的信息贡献率,同时,有
为主成分的累积贡献率。
当接近于1(= 0.85,0.90,0.95)时,则选择前p个指标变量作为p个主成分,代替原来m个指标变量,从而可对p个主成分进行综合分析。
② 计算综合得分:
其中为第j个主成分的信息贡献率,根据综合得分值就可进行评价。
主成分分析案例
1. 问题提出
下表给出了我国1984年-2000年宏观投资的一些数据,试利用主成分分析对投资效益进行分析和排序。
年份投资效
果系数(无
时滞)
投资效
果系数(时
滞一年)
全社会
固定资产
交付使用
率
建设项
目投产率
基建房
屋竣工率
1984 0.710.490.410.510.46
1985 0.400.490.440.570.50
1986 0.550.560.480.530.49
1987 0.620.930.380.530.47
1988 0.450.420.410.540.47
1989 0.360.370.460.540.48
1990 0.550.680.420.540.46
1991 0.620.900.380.560.46
1992 0.610.990.330.570.43
1993 0.710.930.350.660.44
1994 0.590.690.360.570.48
1995 0.410.470.400.540.48
1996 0.260.290.430.570.48
1997 0.140.160.430.550.47
1998 0.120.130.450.590.54
1999 0.220.250.440.580.52
2000 0.710.490.410.510.46s
2. 进行主成分分析
主成分分析结果如下:
序号特征根贡献率累计贡献率
1 3.1343 62.6866 62.6866
2 1.168
3 23.3670 86.0536
3 0.3502 7.0036 93.0572
4 0.2258 4.5162 97.5734
5 0.1213 2.426
6 100
3. 进行综合评价
选取前4个主成分进行分析。
彼岸准话变量的前4个主成分对应的特征向量如下:
1 0.4905 -0.2934 0.5109 0.1896 -0.6134
2 0.5254 0.0490 0.4337 -0.1217 0.7202
3 -0.4871 -0.2812 0.371
4 0.6888 0.2672
4 0.0671 0.8981 0.1477 0.3863 -0.1336
由此可得4个主成分分别为
以四个主成分的贡献率为权重,构建主成分综合评价模型:
把各年份四个主成分值代入上式,可以得到综合评价值及排序结果。
名次年份综合评价值
1 1993 2.4464
2 1992 1.9768
3 1991 1.1123
4 1994 0.8604
5 1987 0.8456
6 1990 0.2258
7 1984 0.0531
8 2000 0.0531
9 1995 -0.2534
10 1988 -0.2662
11 1985 -0.5292
12 1996 -0.7405
13 1986 -0.7789
14 1989 -0.9715
15 1997 -1.1476
16 1999 -1.2015
17 1998 -1.6848
由此可见:集中在1991-1994年间投资效益较好,集中在1997-1999年间投资效益较差,其余年份投资效益一般。
附录
gj= [0.71,0.49,0.41,0.51,0.46
0.40,0.49,0.44,0.57,0.50
0.55,0.56,0.48,0.53,0.49
0.62,0.93,0.38,0.53,0.47
0.45,0.42,0.41,0.54,0.47
0.36,0.37,0.46,0.54,0.48
0.55,0.68,0.42,0.54,0.46
0.62,0.90,0.38,0.56,0.46
0.61,0.99,0.33,0.57,0.43
0.71,0.93,0.35,0.66,0.44
0.59,0.69,0.36,0.57,0.48
0.41,0.47,0.40,0.54,0.48
0.26,0.29,0.43,0.57,0.48
0.14,0.16,0.43,0.55,0.47
0.12,0.13,0.45,0.59,0.54
0.22,0.25,0.44,0.58,0.52
0.71,0.49,0.41,0.51,0.46];
gj=zscore(gj);
r=corrcoef(gj);
[vec1,lamda,rate]=pcacov(r)
f=repmat(sign(sum(vec1)),size(vec1,1),1); vec2=vec1.*f
num=3;
df=gj*vec2(:,1:num);
tf=df*rate(1:num)/100;
[stf,ind]=sort(tf,'descend');
stf=stf',ind=ind'。