主成分分析法实例
- 格式:doc
- 大小:680.00 KB
- 文档页数:17
主成分分析法实例PCA的基本思想是将原始数据在坐标系下进行变换,使得各个坐标轴之间的相关性最小化。
在变换后的坐标系中,第一个主成分表示数据中方差最大的方向,第二个主成分表示与第一个主成分正交且方差次大的方向,以此类推。
因此,保留前k个主成分就可以达到降维的目的。
下面我们通过一个实例来详细介绍PCA的应用过程。
假设我们有一个二维数据集,其中包含了500个样本点,每个样本点具有两个特征。
我们首先需要对数据进行标准化处理,即对每个特征进行零均值化和单位方差化,这可以通过下面的公式实现:\[x_j' = \frac{x_j - \overline{x_j}}{\sigma_j}\]其中,\(x_j\)表示第j个特征的原始值,\(\overline{x_j}\)表示第j个特征的均值,\(\sigma_j\)表示第j个特征的标准差。
通过标准化处理后,我们可以得到一个均值为0,方差为1的数据集。
接下来,我们计算数据集的协方差矩阵。
协方差矩阵可以帮助我们衡量变量之间的相关性,它的第i行第j列的元素表示第i个特征与第j个特征的协方差。
\[Cov(X) = \frac{1}{n-1}(X - \overline{X})^T(X -\overline{X})\]其中,X是一个n行m列的矩阵,表示数据集,\(\overline{X}\)是一个n行m列的矩阵,表示X的每一列的均值。
协方差矩阵可以通过求解数据集的散布矩阵来得到,散布矩阵的定义如下:\[Scatter(X) = (X - \overline{X})^T(X - \overline{X})\]我们将协方差矩阵的特征值和特征向量求解出来,特征值表示每个特征方向上的方差,特征向量表示每个特征方向上的权重。
我们将特征值按照从大到小的顺序排序,选择前k个特征值对应的特征向量作为主成分。
最后,我们将数据集投影到选取的主成分上,得到降维后的数据集。
投影的过程可以通过下面的公式实现:\[y=XW\]其中,X是一个n行m列的矩阵,表示数据集,W是一个m行k列的矩阵,表示主成分。
第3题. 利用主成分分析法对我国各地区普通高等教育的发展水平进行综合评价。
近年来,我国普通高等教育得到了迅速发展,为国家培养了大批人才。
但由于我国各地区经济发展水平不均衡,加之高等院校原有布局使各地区高等教育发展的起点不一致,因而各地区普通高等教育的发展水平存在一定的差异,不同的地区具有不同的特点。
对我国各地区普通高等教育的发展状况进行聚类分析,明确各类地区普通高等教育发展状况的差异与特点,有利于管理和决策部门从宏观上把握我国普通高等教育的整体发展现状,分类制定相关政策,更好的指导和规划我国高教事业的整体健康发展。
遵循可比性原则,从高等教育的五个方面选取十项评价指标,具体见下图图1. 高等教育的十项评价指标指标的原始数据取自《中国统计年鉴,1995》和《中国教育统计年鉴,1995》除以各地区相应的人口数得到十项指标值,具体数值见下表见表6,其中:1x 为每百万人口高等院校数;2x 为每十万人口高等院校毕业生数;3x 为每十万人口高等院校招生数;4x 为每十万人口高等院校在校生数;5x 为每十万人口高等院校教职工数;6x 为每十万人口高等院校专职教师数;7x 为高级职称占专职教师的比例;8x 为平均每所高等院校的在校生数;9x 为国家财政预算内普通高教经费占国内生产总值的比重;10x 为生均教育经费。
建模与求解:一构造原始数据矩阵X=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡1021x x x二使矩阵X标准化(程序见附录1)Z= 4.3685 3.9057 4.0909 4.1392 4.5401 4.5748 2.4120 0.39541.98622.6869 2.3854 2.4187 2.0965 1.9157 0.8299 1.13461.0221 1.4520 1.5048 1.3575 0.9509 1.0406 1.4024 1.09910.0952 0.2331 0.1895 0.2072 0.1326 0.1823 0.0558 0.53750.2342 0.3453 0.3790 0.3951 0.0988 0.1823 0.7080 0.72190.3918 0.3133 0.2898 0.2270 0.1495 0.1823 0.5775 -0.2813-0.0717 -0.0556 -0.0111 -0.0169 -0.0536 -0.0533 0.8638 0.2482 -0.1829 0.0086 -0.0223 -0.0136 -0.0649 -0.0701 0.4691 0.7675 -0.2756 -0.0396 0 -0.0466 -0.1383 -0.1374 0.2405 1.0602 -0.5166 -0.4405 -0.2564 -0.3168 -0.3696 -0.3899 0.7418 1.0264 -0.6371 -0.4245 -0.4124 -0.4091 -0.3696 -0.4067 0.4234 1.2987 -0.6279 -0.1358 -0.3344 -0.3959 -0.3922 -0.4235 0.4793 1.3884 -0.4981 -0.3924 -0.3567 -0.3663 -0.3414 -0.3562 -0.3371 0.4664 -0.4703 -0.3924 -0.3678 -0.3531 -0.3696 -0.3899 0.4979 0.4005 -0.3590 -0.3924 -0.2564 -0.3201 -0.3414 -0.3562 -0.0305 -0.03090.0396 -0.3122 -0.2341 -0.1191 -0.0705 -0.0196 -0.7098 -0.5435-0.1922 -0.2160 -0.2564 -0.2740 -0.3584 -0.3562 -0.1881 -0.4775 -0.3683 -0.2160 -0.3233 -0.2740 -0.2850 -0.2889 -0.7606 0.2939 -0.4054 -0.3764 -0.3121 -0.3729 -0.3696 -0.4067 -0.0509 -0.1155 -0.6093 -0.5047 -0.5239 -0.5113 -0.4543 -0.4572 0.4590 0.1806 -0.5444 -0.4886 -0.6019 -0.5640 -0.4656 -0.4740 -0.2660 -0.6889 -0.4425 -0.3764 -0.3455 -0.3531 -0.3358 -0.4067 -0.2220 0.2262 -0.5074 -0.5367 -0.4793 -0.4487 -0.4486 -0.4909 -0.4709 -0.0630 -0.3776 -0.3764 -0.5128 -0.4289 -0.3471 -0.3057 -0.4184 -0.59080.4103 -0.6490 -0.5462 -0.5410 -0.2906 -0.2384 -3.0524 -2.6580-0.6464 -0.5528 -0.5350 -0.5640 -0.4656 -0.5077 -0.2897 -0.0681 -0.6001 -0.6169 -0.5685 -0.5673 -0.4938 -0.5077 0.3065 -0.39800.1322 -0.2962 -0.3567 -0.3070 -0.2793 -0.2216 -1.2569 -1.4908-0.5630 -0.6971 -0.6911 -0.6860 -0.5051 -0.5245 -0.3388 -1.54320.2157 -0.4565 -0.5350 -0.4948 -0.3584 -0.2889 -2.0750 -2.2960三构造矩阵相关系数矩阵R(程序见附录2)R= 1.0000 0.9434 0.9528 0.9591 0.9746 0.9798 0.4065 0.06630.9434 1.0000 0.9946 0.9946 0.9743 0.9702 0.6136 0.35000.9528 0.9946 1.0000 0.9987 0.9831 0.9807 0.6261 0.34450.9591 0.9946 0.9987 1.0000 0.9878 0.9856 0.6096 0.32560.9746 0.9743 0.9831 0.9878 1.0000 0.9986 0.5599 0.24110.9798 0.9702 0.9807 0.9856 0.9986 1.0000 0.5500 0.22220.4065 0.6136 0.6261 0.6096 0.5599 0.5500 1.0000 0.77890.0663 0.3500 0.3445 0.3256 0.2411 0.2222 0.7789 1.00000.8680 0.8039 0.8231 0.8276 0.8590 0.8691 0.3655 0.11220.6609 0.5998 0.6171 0.6124 0.6174 0.6164 0.1510 0.0482四求出R的特征值和累积贡献率(程序见附录3)λ1= 7.5022贡献率τ1=λ1/10=75.0216%λ2= 1.577累积贡献率τ1+τ2=90.7915%λ3= 0.5362累积贡献率τ1+τ2+τ3=96.1536%λ4= 0.2064累积贡献率τ1+τ2+τ3+τ4=98.2174%可以看出,前两个特征根的累计贡献率就达到90%以上,主成分分析效果很好。
主成分分析主成分分析、因子分析等在多元统计分析中属于协方差逼近技术。
主要是从协方差矩阵出发,实现一种正交变换,从而将高维系统表示为低维系统,在此过程中可以揭示研究对象的许多性质和特征。
主成分分析的结果可以用于回归分析、聚类分析、神经网络分析等等。
只要懂得线性代数中二次型化为标准型的原理,就很容易掌握主成分分析的原理,进而掌握因子分析的原理。
在理解正交变换数学原理的基础上,我们可以借助Excel 开展主成分分析。
为了清楚地说明主成分的计算过程,不妨给出一个简单的计算实例。
【例】2000 年中国各地区的城、乡人口的主成分分析。
这个例子只有两个变量(m=2):城镇人口和乡村人口;31 个样品:即中国的31 个省、自治区和直辖市(n=31)。
资料来自2001 年《中国统计年鉴》,为2000 年全国人口普查快速汇总的11 月1 日零时数。
由于变量太少,这个例子仅仅具有教学意义——简单的实例更容易清楚地展示计算过程的细节。
计算步骤5.1.1 详细的计算过程首先,录入数据,并对数据进行适当处理(图5-1-1)。
计算的详细过程如下。
第一步,将原始数据绘成散点图主成分分析原则上要求部分变量之间具有线性相关趋势。
如果所有变量彼此之间不相关(即正交),则没有必要进行主成分分析,因为主成分分析的目的就是用正交的变量代替原来非正交的变量。
如果原始变量之间为非线性关系,则有必要对数据进行线性转换,否则效果不佳。
从图5-1-2 可见,原始数据具有非线性相关趋势,可以近似匹配幂指数函数,且测定系数R2=0.5157,相应地,相关系数R=0.7181(图5-1-2a);取对数之后,点列具有明显的线性趋势(图5-1-2b)。
第二步,对数据进行标准化标准化的数学公式为我们将对对数变换后的数据开展主成分分析,因此只对取对数后的数据标准化。
根据图5-1-1所示的数据排列,应该按列标准化,用xij 代表取对数之后的数据,则下式分别为第j 列数据的均值和标准差,xij 为第i 行(即第i 个样本)、第j 列(即第j 个变量)的数据,xij*为相应于xij 的标准化数据,n=31 为样品数目(参见图5-1-1)。
问题分析:问题2主要是找出金属污染的主要原因,首先要找出污染最严重的金属,结合问题1的求解,我们通过主成分分析法对各种金属污染的严重性进行了判定主成分分析法:重金属对人体的危害由金属元素的化学性质决定,根据十余项指标和九项参数对重金属的潜在毒性进行分类和排序,考评指标和参数如下:电离势、熔点、沸点、熔化热、汽化热、电化当量、结合能、离子半径、密度、电荷离子半径比、氧化性、离子奇偶性、挥发性。
结论如下:重金属潜在毒性排行榜:毒性大:Hg汞〉Cd镉〉Tl铊〉Pb铅〉Cr铬〉In铟〉Sn锡毒性中等:Ag银〉Sb锑〉Zn锌〉Mn锰〉Au金〉Cu铜〉Pr镨〉Ce 铈〉Co钴〉Pd钯〉Ni镍〉V钒〉Os锇〉Lu镥〉Pt铂〉Bi铋〉Yb镱〉Eu铕〉Ga镓〉Fe铁〉Sc钪〉Al铝〉Ti钛〉Ge锗〉Rh铑〉Zr锆毒性较小:Hf铪〉Ru钌〉Ir铱〉Tc锝〉Mo钼〉Nb铌〉Ta钽〉Re铼〉W钨〉Tm铥〉Dy镝〉Nd钕〉Er铒〉Ho钬〉Gd钆〉Tb铽〉La镧〉Y钇砷:一种三价和五价的非金属元素,旧称“砒”。
通常呈金属的铁灰色,结晶形,性脆。
砷常小量地被掺入合金(如用于制造子弹的砷-铅合金),其化合物主要用于制造毒剂(如杀虫剂)、药物和玻璃 [arsenic]——元素符号As由于砷是一种非金属元素,所以在重金属毒性排行榜中没有这个元素但是它的毒性却很强,仅次于汞,我们将它放到了第二位。
Hg>As>Cd>Pb>Cr>Zn>Cu>Ni我们采用主成分分析法来验证我们的猜测:X1、X2、X3、X4、X5、X6、X7、X8分别表示:Hg、As、Cd、Pb、Cr、Zn、Cu、NiZ:标准化矩阵x:采样值x:均值s:标准差R:相关性矩阵:特征值p:维度2s:方差1、对原始指标数据的标准化采集p 维随机向量x =X1,X2,...,X pp(p=8)个影响因素测量值x i = (x i1,x i2,...,x ip)T,i=1,2,…,n 构造样本阵,对样本阵元进行如下标准化变换:计算样本的均值:1nijijx xn==∑计算方差:2 21()1nij jijx x sn=-=-∑得标准化矩阵Z通过MATLAB计算出标准化矩阵Z=zscore(A)见附录12、对标准化阵Z 求相关系数矩阵其中,通过MATLAB计算出相关系数化矩阵R=corrcoef(A)见附录23、解样本相关矩阵R 的特征方程得p 个特征根,确定主成分按 确定m 值,使信息的利用率达85%以上,对每个λj ,j=1,2,...,m, 解方程组Rb = λj 得单位特征向量1b 、2b 、3b ……8b贡献率i V :1(1,2,,)ii pkk V i p λλ===∑累计贡献率i Q :11(1,2,,)ikk i pkk Q i p λλ====∑∑i Q =1ni i V =∑ n=1、2、3 (8)通过MATLAB 计算出特征向量,主成分贡献率,见附录3 [COEFF,LATENT,EXPLATNED]=pcacov(R) 表1因子分析结果以85%作为界限,从表1中可以看出只要取四个因子就足够了。
主成分分析法主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法目录[显示]1 什么是主成分分析法2 主成分分析的基本思想3 主成分分析法的基本原理4 主成分分析的主要作用5 主成分分析法的计算步骤6 主成分分析法的应用分析o案例一:主成分分析法在啤酒风味评价分析中的应用[1]1 材料与方法2 主成分分析法的基本原理3 主成分分析法在啤酒质量一致性评价中的应用4 结论7 参考文献[编辑]什么是主成分分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
[编辑]主成分分析的基本思想在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
1、主成分法:用主成分法寻找公共因子的方法如下:假定从相关阵出发求解主成分,设有p 个变量,则可找出p 个主成分。
将所得的p 个主成分按由大到小的顺序排列,记为1Y ,2Y ,…,P Y , 则主成分与原始变量之间存在如下关系:11111221221122221122....................p p p p pp p pp p Y X X X Y X X X Y X X Xγγγγγγγγγ=+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ 式中,ij γ为随机向量X 的相关矩阵的特征值所对应的特征向量的分量,因为特征向量之间彼此正交,从X 到Y 得转换关系是可逆的,很容易得出由Y 到X 得转换关系为:11112121212122221122....................p p p p pp p pp p X Y Y Y X Y Y Y X Y Y Yγγγγγγγγγ=+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ 对上面每一等式只保留钱m 个主成分而把后面的部分用i ε代替,则上式变为:1111212112121222221122....................m m m m p p p mp m p X Y Y Y X Y Y Y X Y Y Y γγγεγγγεγγγε=++++⎧⎪=++++⎪⎨⎪⎪=++++⎩上式在形式上已经与因子模型相一致,且i Y (i=1,2,…,m )之间相互独立,且i Y 与i ε之间相互独立,为了把i Y 转化成合适的公因子,现在要做的工作只是把主成分i Y 变为方差为1的变量。
为完成此变换,必须将i Y 除以其标准差,由主成分分析的知识知其标准差即为特征根的平方根/i i F Y =,12m ,则式子变为:1111122112211222221122....................m m m m p p p pm m p X a F a F a F X a F a F a F X a F a F a F εεε=++++⎧⎪=++++⎪⎨⎪⎪=++++⎩这与因子模型完全一致,这样,就得到了载荷A 矩阵和 初始公因子(未旋转)。
在统计学中,主成分分析(principal components analysis, PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。
主成分分析的主要作用体现在五个方面,第一,主成分分析能降低所研究的数据空间的维数。
第二,可通过因子负荷的结论,弄清X变量间的某些关系。
第三,可用于多为数据的一种图形表现方法。
第四,可由主成分分析构造回归模型,即把各个主成分作为新自变量代替原来自变量做回归分析。
第五,用主成分分析筛选回归变量。
案例分析:下表是关于全国31个省市的8项经济指标,以此为例,进行主成分分析。
主成分分析实例和含义讲解1.数据标准化:对原始数据进行标准化处理,使得每个变量的均值为0,方差为1、这一步是为了将不同量级的变量进行比较。
2.计算协方差矩阵:根据标准化后的数据,计算协方差矩阵。
协方差矩阵反映了各个变量之间的线性关系。
3.特征值分解:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
特征值表示了各个特征向量的重要程度。
4.选择主成分:根据特征值的大小,选择前k个特征向量作为主成分,k通常是根据主成分所解释的方差比例进行确定。
5.数据投影:将原始数据投影到选取的主成分上,得到降维后的数据。
主成分分析的含义可以从两个方面来解释。
一方面,主成分分析表示了原始数据在新坐标系下的投影,可以帮助我们理解数据的结构和变化。
通过选择前几个主成分,我们可以找到最能够代表原始数据的几个因素,从而实现数据的降维。
例如,在一个包含多个变量的数据集中,如果我们选择了前两个主成分,那么我们可以通过绘制数据在这两个主成分上的投影,来理解数据的分布和变化规律。
同时,主成分的累计方差贡献率可以帮助我们评估所选择的主成分对原始数据方差的解释程度,从而确定降维的精度。
另一方面,主成分分析还可以用于数据的预处理和异常值检测。
通过计算每个变量在主成分上的权重,我们可以判断每个变量对主成分的贡献大小。
如果一些变量的权重很小,那么可以考虑将其从数据集中剔除,从而减少数据的维度和复杂度。
此外,主成分分析还可以检测数据集中的异常值。
在降维的过程中,异常值对主成分的计算结果会产生较大的影响,因此可以通过比较各个主成分的方差贡献率,来识别可能存在的异常值。
总之,主成分分析是一种常用的数据降维方法,它能够帮助我们理解数据集的结构,并鉴别对数据变化影响最大的因素。
通过选择适当的主成分,我们可以实现数据的降维和可视化,并对异常值进行检测。
在实际应用中,主成分分析常常与其他数据挖掘和机器学习方法结合使用,从而发现数据的隐藏模式和关联规则,提高数据分析的效果和准确性。
在统计学中,主成分分析(principal components analysis, PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。
主成分分析的主要作用体现在五个方面,第一,主成分分析能降低所研究的数据空间的维数。
第二,可通过因子负荷的结论,弄清X变量间的某些关系。
第三,可用于多为数据的一种图形表现方法。
第四,可由主成分分析构造回归模型,即把各个主成分作为新自变量代替原来自变量做回归分析。
第五,用主成分分析筛选回归变量。
案例分析:下表是关于全国31个省市的8项经济指标,以此为例,进行主成分分析。
1、主成分法:用主成分法寻找公共因子的方法如下:假定从相关阵出发求解主成分,设有p 个变量,则可找出p 个主成分。
将所得的p 个主成分按由大到小的顺序排列,记为1Y ,2Y ,…,P Y , 则主成分与原始变量之间存在如下关系:11111221221122221122....................p p p p pp p pp p Y X X X Y X X X Y X X Xγγγγγγγγγ=+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ 式中,ij γ为随机向量X 的相关矩阵的特征值所对应的特征向量的分量,因为特征向量之间彼此正交,从X 到Y 得转换关系是可逆的,很容易得出由Y 到X 得转换关系为:11112121212122221122....................p p p p pp p pp p X Y Y Y X Y Y Y X Y Y Yγγγγγγγγγ=+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ 对上面每一等式只保留钱m 个主成分而把后面的部分用i ε代替,则上式变为:1111212112121222221122....................m m m m p p p mp m p X Y Y Y X Y Y Y X Y Y Y γγγεγγγεγγγε=++++⎧⎪=++++⎪⎨⎪⎪=++++⎩上式在形式上已经与因子模型相一致,且i Y (i=1,2,…,m )之间相互独立,且i Y 与i ε之间相互独立,为了把i Y 转化成合适的公因子,现在要做的工作只是把主成分i Y 变为方差为1的变量。
为完成此变换,必须将i Y 除以其标准差,由主成分分析的知识知其标准差即为特征根的平方根i λ/i i i F Y λ=,1122m m λγλγλγ,则式子变为:1111122112211222221122....................m m m m p p p pm m p X a F a F a F X a F a F a F X a F a F a F εεε=++++⎧⎪=++++⎪⎨⎪⎪=++++⎩这与因子模型完全一致,这样,就得到了载荷A 矩阵和 初始公因子(未旋转)。
一般设A ∧为样本相关矩阵R 的特征根,12,,...,p γγγ为对应的标准正交化特征向量。
设m<p,则因子载荷矩阵A 的一个解为:A ∧=(1122,,...,m m λγλγλγ)共同度的估计为:222212...i i i im h a a a ∧∧∧∧=+++下面用主成分法分析以下数据:步骤:第一步,把Excel 中的数据导入到SPSS 中:File →Open →Data ; 第二步,数据标准化:Analyze →Descriptive Statistics →Descriptives 如图:第三步,检验数据:如图:得到结果如下:KMO 和Bartlett 的检验取样足够度的Kaiser-Meyer-Olkin 度量。
.754 Bartlett 的球形度检验近似卡方df 36Sig. .000Sig小于,所以该数据可用;第四步,用主成分法分析数据:Analyze→Dimension Reduction→Factor 如图:得到结果如下图:相关矩阵Zscore: 100固定资产原值实现值(%)Zscore:100元固定资产原值实现利税(%)Zscore:100元资金实现利税(%)Zscore:100元工业总产值实现利税(%)Zscore:100元销售收入实现利税(%)Zscore(每吨标准煤实现工业产值(元))Zscore(每千瓦时电力实现工业产值(元))Zscore:全员劳动生产率(元/人.年)Zscore:100元流动资金实现产值(元)相关Zscore: 100固定资产原值实现值(%).869 .770 .211 .920 .899 .795 .896Zscore: 100元固定资产原值实现利税(%).869 .978 .387 .472 .886 .804 .814 .849Zscore: 100元资金实现利税(%).770 .978 .523 .531 .797 .736 .740 .811Zscore: 100元工业总产值实现利税(%).387 .523 .323 .115 .125 .051Zscore: 100元销售收入实现利税(%).211 .472 .531 .323 .175 .260 .371 .317Zscore(每吨标准煤实现工业产值(元)).920 .886 .797 .115 .175 .877 .815 .768Zscore(每千瓦时电力实现工业产值(元)).899 .804 .736 .260 .877 .757 .818Zscore: 全员劳动生产率(元/人.年).795 .814 .740 .125 .371 .815 .757 .715Zscore: 100元流动资金实现产值(元).896 .849 .811 .051 .317 .768 .818 .715Communalities其中Communalities给出了该次分析从每个原始变量中提取的信息,表格下面注示表明,该次分析是用Factor analysis模块默认的信息提取方法即主成分分析完成的。
可以看到除100元工业总产值实现利税,100元销售收入实现利税和全员劳动生产率以外,主成分几乎包括了各个原始变量至少80%的信息。
解释的总方差成份初始特征值提取平方和载入合计方差的% 累积% 合计方差的% 累积%123 .6974 .3185 .1906 .1167 .029 .3248 .024 .2709 .002 .027提取方法:主成份分析。
由输出结果看到,前面2个主成分y1,y2的方差和占全部方差的比例为%.我们就选取1y 为第一主成分,2y为第二主成分,且这两个主成分之方差和占全部方差的%,即基本上保留了原来指标的信息,这样由原来的9个指标转化为2个新指标,起到了降维的作用。
Component Matrix aComponent1 2100固定资产原值实现值(%).931100元固定资产原值实现利税(%).976 .163100元资金实现利税(%).931 .322100元工业总产值实现利税(%).232 .863100元销售收入实现利税(%).433 .596每吨标准煤实现工业产值(元).923每千瓦时电力实现工业产值(元).897全员劳动生产率(元/人.年).871100元流动资金实现产值(元).899Extraction Method: Principal Component Analysis.a. 2 components extracted.成份得分系数矩阵成份12Zscore: 100固定资产原值实现值(%).213Zscore: 100元固定资产原值实现利税(%) .114 .156Zscore: 100元资金实现利税(%).072 .256Zscore: 100元工业总产值实现利税(%).567Zscore: 100元销售收入实现利税(%).406Zscore(每吨标准煤实现工业产值(元)).186Zscore(每千瓦时电力实现工业产值(元)) .198Zscore: 全员劳动生产率(元/人.年).148 .005Zscore: 100元流动资金实现产值(元).172提取方法 :主成分分析法。
旋转法 :具有 Kaiser 标准化的正交旋转法。
构成得分。
由上表得到两个主成分,12,y y 的线性组合为:11234567890.2130.1140.0720.1550.0650.1860.1980.1480.172y x x x x x x x x x *********=++--++++21234567890.1530.1560.2560.5670.4060.080.1280.050.051y x x x x x x x x x *********=-++++--+-成份得分协方差矩阵 成份 12 1 .0002.000成份得分协方差矩阵 成份 12 1 .0002.000提取方法 :主成分分析法。
旋转法 :具有 Kaiser 标准化的正交旋转法。
构成得分。
2、主轴因子法:假定m 个公因子只能解释原始变量的部分方差,利用公因子方差(或共同度)来代替相关矩阵对角线上的元素1,并以新得到的这个矩阵为出发点,对其分别求解特征根与特征向量并得到因子解。
在因子模型中,不难得到如下关于X 的相关矩阵R 的关系式:12,,...,m γγγ***式中,A 为因子载荷矩阵;ε∑为一对角阵,其对角元素为相应特殊因子的方差。
则称R R AA ε*'=-∑=为调整相关矩阵,显然R *的主对角元素不再是1,而是共同度2i h 。
分别求解R *的特征值与标准正交特征向量,进而求出因子载荷矩阵A 。
此时,R *有m 个正的特征值。
设12...m λλλ***≥≥≥为R *的特征根,12,,...,m γγγ***为对应的标准正交化特征向量。
m<p ,则因子载荷矩阵A 的一个主轴因子解为:A ∧=(1122,,...,m m λγλγλγ******)用轴因子法分析上述数据:Analyze →Dimension Reduction →Factor 如图:只需在这步把Methoct选择为Principal axis factoring(主轴因子法),其他的方法与主成分法一致。
得到的结果如下图:相关矩阵Zscore: 100固定资产原值实现值(%)Zscore:100元固定资产原值实现利税(%)Zscore:100元资金实现利税(%)Zscore:100元工业总产值实现利税(%)Zscore:100元销售收入实现利税(%)Zscore(每吨标准煤实现工业产值(元))Zscore(每千瓦时电力实现工业产值(元))Zscore:全员劳动生产率(元/人.年)Zscore:100元流动资金实现产值(元)相关Zscore: 100固定资产原值实现值(%).869 .770 .211 .920 .899 .795 .896Zscore: 100元固定资产原值实现利税(%).869 .978 .387 .472 .886 .804 .814 .849Zscore: 100元资金实现利税(%).770 .978 .523 .531 .797 .736 .740 .811Zscore: 100元工业总产值实现利税(%).387 .523 .323 .115 .125 .051Zscore: 100元销售收入实现利税(%).211 .472 .531 .323 .175 .260 .371 .317Zscore(每吨标准煤实现工业产值(元)).920 .886 .797 .115 .175 .877 .815 .768Zscore(每千瓦时电力实现工业产值(元)).899 .804 .736 .260 .877 .757 .818Zscore: 全员劳动生产率(元/人.年).795 .814 .740 .125 .371 .815 .757 .715Zscore: 100元流动资金实现产值(元).896 .849 .811 .051 .317 .768 .818 .715其中Communalities给出了该次分析从每个原始变量中提取的信息,表格下面注示表明,该次分析是用Factor analysis模块默认的信息提取方法即主成分分析完成的。