第五章 主成分分析(1)(主成分模型)
- 格式:doc
- 大小:1.46 MB
- 文档页数:31
主成分分析汇报什么?假定你是一个公司的财务经理,掌握了公司的所有数据,这包括众多的变量,如:固定资产、流动资金、借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、分工和教育程度等等。
如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?需要高度概括在如此多的变量之中,有很多是相关的。
人们希望能够找出它们的少数“代表”来对它们进行描述。
需要把这种有很多变量的数据进行高度概括。
主成份分析与因子分析的作用,就是降维主成份分析可看成是因子分析的特例一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。
他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。
在进行主成分分析后,竟以97.4%的精度,用三新变量就取代了原17个变量。
根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。
更有意思的是,这三个变量其实都是可以直接测量的。
斯通将他得到的主成分与实际测量的总收入I、总收入变化率ΔI以及时间t因素做相关分析,得到下表:F1F2F3i i t F11F201-0.0410.057l-0.0560.948-0.124-0.102l-0.369-0.282-0.836-0.414-0.1121什么是主成份分析主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。
在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。
主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。
很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。
(一)主成分分析法的基本思想主成分分析(Principal Component Analysis )是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。
[2]采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。
(二)主成分分析法代数模型假设用p 个变量来描述研究对象,分别用X 1,X 2…X p 来表示,这p 个变量构成的p 维随机向量为X=(X 1,X 2…X p )t 。
设随机向量X 的均值为μ,协方差矩阵为Σ。
对X 进行线性变化,考虑原始变量的线性组合: Z 1=μ11X 1+μ12X 2+…μ1p X pZ 2=μ21X 1+μ22X 2+…μ2p X p…… …… ……Z p =μp1X 1+μp2X 2+…μpp X p主成分是不相关的线性组合Z 1,Z 2……Z p ,并且Z 1是X 1,X 2…X p 的线性组合中方差最大者,Z 2是与Z 1不相关的线性组合中方差最大者,…,Z p 是与Z 1,Z 2 ……Z p-1都不相关的线性组合中方差最大者。
(三)主成分分析法基本步骤第一步:设估计样本数为n ,选取的财务指标数为p ,则由估计样本的原始数据可得矩阵X=(x ij )m ×p ,其中x ij 表示第i 家上市公司的第j 项财务指标数据。
第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。
第三步:根据标准化数据矩阵建立协方差矩阵R ,是反映标准化后的数据之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分析。
其中,R ij (i ,j=1,2,…,p )为原始变量X i 与X j 的相关系数。
主成分分析完整版一、主成分分析的原理1.标准化数据:先对原始数据进行标准化处理,以确保不同变量的尺度一致。
2.计算协方差矩阵:对标准化后的数据计算协方差矩阵,矩阵中的元素表示不同变量之间的相关性。
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
4.选择主成分:按照特征值的大小选择最重要的k个特征值和它们对应的特征向量,称之为主成分。
5.数据转换:将原始数据投影到选取的主成分上,得到降维后的数据。
二、主成分分析的方法1.方差解释比:主成分分析通过特征值展示了每个主成分的重要性。
方差解释比是计算每个主成分的方差所占总方差的比例。
选择解释总方差的比例较高的主成分,可以保留更多的信息。
2.累计方差解释比:累计方差解释比是计算前n个主成分的方差解释比之和。
通过选择累计方差解释比较高的主成分,可以保留更多的原始数据信息。
3.维度选择:主成分分析可以通过选择合适的主成分数来实现数据降维。
通过观察特征值的大小和累计方差解释比,可以选择合适的主成分数。
三、主成分分析的应用1.数据可视化:主成分分析可以将高维度的数据转换为低维度的数据,从而方便可视化。
通过在二维或三维空间中绘制主成分,可以更好地理解数据的分布和关系。
2.特征提取:主成分分析可以提取数据中的最重要特征,从而减少数据维度并保留主要信息。
特征提取可以在分类、聚类等问题中提高算法的效果。
3.数据压缩:主成分分析可以将高维度的数据压缩为低维度的数据,从而节省存储空间和计算时间。
压缩后的数据可以用于后续分析和处理。
4.噪音过滤:主成分分析通过保留数据中最重要的特征,可以减少噪音的影响。
通过滤波后的数据可以提高实验测量的准确性和稳定性。
综上所述,主成分分析是一种强大的数据降维技术,可以在许多领域中应用。
熟悉主成分分析的原理、方法和应用,对于理解数据和提升数据分析的能力具有重要意义。
第五章主成分分析与经验正交分解5.1主分量分析的数学模型当存在若干个随机变量时,寻求它们的少量线性组合(即主成分),用以解释这些随机变量,是很必要的。
首先我们看一个例子。
几个数据集1、(1)身材情况能否用单个指标刻画(2)男女身材之间有什么异同chest waist hips gender chest waist hips gender34 30 32 male 36 24 35 female37 32 37 male 36 25 37 female38 30 36 male 34 24 37 female36 33 39 male 33 22 34 female38 29 33 male 36 26 38 female43 32 38 male 37 26 37 female40 33 42 male 34 25 38 female38 30 40 male 36 26 37 female40 30 37 male 38 28 40 female41 32 39 male 35 23 35 female2、subject maths english history geography chemistry physics1 60 70 75 58 53 422 80 65 66 75 70 763 53 60 50 48 45 434 85 79 71 77 68 795 45 80 80 84 44 463、air pollution in cities in the USA. The following variables were obtained for 1 US cities:SO2: SO 2 content of air in micrograms per cubic metre;temp: average annual temperature in degrees Fahrenheit;manu: number of manufacturing enterprises employing 20 or more workers;popul: population size (1970 census) in thousands;wind: average annual wind speed in miles per hour;precip: average annual precipitation in inches;predays: average number of days with precipitation per year.例5.1 为了调查学生的身材状况,可以测量他们的身高(1x )、体重(2x )、胸围(3x )和坐高(4x )。
可是用这4个指标表达学生身材状况不方便。
但若用1y =3.63561x +3.32422x +2.47703x +2.16504x表示学生身体魁梧程度;用2y =-3.97392x +1.35821x +3.73233x -1.57294x表示学生胖瘦程度。
则这两个指标(1y ,2y )很好概括了4个指标(1x -4x )。
例中,学生不同,身高(1x )、体重(2x )、胸围(3x )和坐高(4x )不同;(1x , 2x , 3x , 4x )是4维随机向量;1y ,2y 是他们的2个线性组合,1y ,2y 能很好表示1x , 2x , 3x ,4x 的特性。
类似的问题在许多地方出现:可观测的随机变量很多,需要选出所有所有随机变量的少数线性组合,使之尽可能刻划全部随机变量的特性,选出的线性组合就是诸多随机变量的主成分,又称为主分量。
寻求随机向量主成分,并加以解释,称为主成分分析,又称为主分量分析。
主成分分析在许多学科中都有应用,细节可参看张尧廷(1991)、Richard(2003),主成分分析在气象等科学中称为PCA 方法,见吴洪宝(2005)。
主成分分析的数学模型是:对于随机向量X ,想选一些常数向量i c ,用X c i '尽可能多反映随机向量X 的主要信息,也即)'(X c D i 尽量大。
但是i c 的模可以无限增大,从而使)'(X c D i 无限变大,这是我们不希望的;于是限定i c 模的大小,而改变i c 各分量的比例,使)'(X c D i 最大;通常取i c 的模为1最方便。
定义5.1 设随机向量)',...(1p x x X =二阶矩存在,若常数向量1c ,在条件c =1下 使)'(X c D 最大,则称X c Y '11=是X 的第一主成分或第一主分量。
由定义可见,1Y 尽可能多地反映原来p 个随机变量变化的信息。
但是一个主成分往往不能完全反映随机向量特色,必须建立其它主成分,它们也应当最能反映随机向量变化,而且他们应当与第一主成分不相关(不包含1Y 的信息)。
定义5.2 若常数向量c=2c 在条件c =l ,0)',cov(1=X c Y 下,使)'(X c D 最大, 则称X c Y '22=是 X 的第二主成分;若常数向量c=3c 在条件c =l ,0)',cov(1=X c Y , 0)',cov(2=X c Y 下,使)'(X c D 最大,则称X c Y '33=是 X 的第三主成分;…。
当随机向量方差已知时,定理5.1给出主成分的计算公式。
定理5.1 设随机向量)',...(1p X X X =方差存在为∑。
∑特征值从大到小为p λλλ≥≥≥...21,j λ对应的彼此正交单位特征向量为j c 。
则X 的第j 个主成分 为 j c 与X 的内积,即X c Y j j '= (5.1)且i i Y Var λ=)(证明:任取p 维单位向量c,必有∑∑==1,2j j j t c t c 。
于是∑=∑=j j t c c X c D λ2')'(,而在条件∑=12j t 下,当11=t ,0...2===p t t 即1c c =时,∑=j j t X c D λ2)'(最大,所以X 的第一主成分是1c 与X 的内积Xc Y '11=。
由条件0)',cov(1=X c Y ,可得0''11111===∑t c c c c λλ,于是X c t X c j pj j ''2∑==,从而∑==∑=pj j j t c c X c D 22')'(λ; 所以在条件c =1、0)',cov(1=X c Y 下,当2c c =时,c c X c D ∑=')'(最大,所以X 的第2个主成分为2c 与X 的内积X c Y '22=。
对第三,第四……主成分同样可证。
例5.2 设)',,(321X X X X =,且⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡--=∑=210131011)(X Var 则1λ=3.87939,'1c =[0.293128,-0.84403,-0.449099]2λ=1.6527,'2c =[0.449099,-0.293128,0.84403]3λ=0.467911,'3c =[0.84403,0.449099,-0.293128]所以第一主成分就是X c Y '11==0.2931281X -0.84403 2X -0.4490993X ; 第二主成分就是X c Y '22==0.4490991X -0.2931282X +0.844033X ; 第三主成分就是X c Y '33==0.844031X +0.4490992X -0.2931283X 。
它们的方差贡献分别是87939.3)(11==λY Var ;6527.1)(22==λY Var ;467911.0)(33==λY Var 。
5.2 相关系数阵和协方差阵的主分量分析在实际问题中,X 的每一分量可取不同单位,单位取小时(例如长度单位取毫米,甚至微米)该分量的方差会变大,从而在主成分中变得突出;而单位选取不应影响主成分。
为了避免量纲对主成分的影响。
常常将随机变量都标化,即令)(/)(*i i i i X Var EX X X -=,它就是无量纲量,令*)'*,...(*1p X X X =再求X*的主成分,即标准化后的主成分。
将)(/)(*i i i i X Var EX X X -=代入,可求随机向量X 的主成分。
容易证明定理5.2 设随机向量X 的相关阵为ρ,ρ特征值为*...*1p λλ≥≥,j λ对应的彼此正交单位特征向量为*j c ,则标准化后X 的第j 个主成分是***T X c Y j j =。
因此,标准化后的主成分称为由相关阵决定的主成分。
直接由随机向量的协方差阵算出的主成分称为由协差阵决定的主成分。
同样一组随机变量,用它们的协差阵和相关阵求出的主成分是不一样的。
这是因为优化的准则(目标函数)不同:前者要求)'(X c D =c c ∑'最大,而后者要求*)'(X c D ==c F F c 2/12/1'--∑最大,其中⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=)(0...)(0)(21p X D X D X D F 。
例 5.3 (协差阵和相关阵决定的主成分不同)设随机变量)',(21X X X =;其协方差阵是⎥⎦⎤⎢⎣⎡=∑100221,特征值和特征向量是)'9998.0,0202.0(,04.10011==c λ, )'0202.0,9998.0(,9596.022-==c λ。
因而由协方差阵决定的主成分是:2119998.00202.0X X Y +=,2120202.09998.0Y Y Y -=。
但随机变量X 标准化后得到)'1.01.0,(*)'*,(*221121μμ--==X X X X X ;其中2211,μμ==EX EX 。
X*的协差阵即X 的相关阵是⎥⎦⎤⎢⎣⎡=12.02.01ρ,其特征值和特征向量是 )'7071.0,7071.0(*,2000.1*11==c λ,)'7071.0,7071.0(*,8000.0*22-==c λ 从而由相关阵决定的主成分是:)(07071.0)(7071.0*7071.0*7071.0*2211211μμ-+-=+=X X X X Y)(07071.0)(7071.0*7071.0*7071.0*2211212μμ---=-=X X X X Y 。