第16章 主成分分析
- 格式:pptx
- 大小:4.37 MB
- 文档页数:67
主成分分析主成分分析、因子分析等在多元统计分析中属于协方差逼近技术。
主要是从协方差矩阵出发,实现一种正交变换,从而将高维系统表示为低维系统,在此过程中可以揭示研究对象的许多性质和特征。
主成分分析的结果可以用于回归分析、聚类分析、神经网络分析等等。
只要懂得线性代数中二次型化为标准型的原理,就很容易掌握主成分分析的原理,进而掌握因子分析的原理。
在理解正交变换数学原理的基础上,我们可以借助Excel 开展主成分分析。
为了清楚地说明主成分的计算过程,不妨给出一个简单的计算实例。
【例】2000 年中国各地区的城、乡人口的主成分分析。
这个例子只有两个变量(m=2):城镇人口和乡村人口;31 个样品:即中国的31 个省、自治区和直辖市(n=31)。
资料来自2001 年《中国统计年鉴》,为2000 年全国人口普查快速汇总的11 月1 日零时数。
由于变量太少,这个例子仅仅具有教学意义——简单的实例更容易清楚地展示计算过程的细节。
计算步骤5.1.1 详细的计算过程首先,录入数据,并对数据进行适当处理(图5-1-1)。
计算的详细过程如下。
第一步,将原始数据绘成散点图主成分分析原则上要求部分变量之间具有线性相关趋势。
如果所有变量彼此之间不相关(即正交),则没有必要进行主成分分析,因为主成分分析的目的就是用正交的变量代替原来非正交的变量。
如果原始变量之间为非线性关系,则有必要对数据进行线性转换,否则效果不佳。
从图5-1-2 可见,原始数据具有非线性相关趋势,可以近似匹配幂指数函数,且测定系数R2=0.5157,相应地,相关系数R=0.7181(图5-1-2a);取对数之后,点列具有明显的线性趋势(图5-1-2b)。
第二步,对数据进行标准化标准化的数学公式为我们将对对数变换后的数据开展主成分分析,因此只对取对数后的数据标准化。
根据图5-1-1所示的数据排列,应该按列标准化,用xij 代表取对数之后的数据,则下式分别为第j 列数据的均值和标准差,xij 为第i 行(即第i 个样本)、第j 列(即第j 个变量)的数据,xij*为相应于xij 的标准化数据,n=31 为样品数目(参见图5-1-1)。
(一)主成分分析法的基本思想主成分分析(Principal Component Analysis )是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。
[2]采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。
(二)主成分分析法代数模型假设用p 个变量来描述研究对象,分别用X 1,X 2…X p 来表示,这p 个变量构成的p 维随机向量为X=(X 1,X 2…X p )t 。
设随机向量X 的均值为μ,协方差矩阵为Σ。
对X 进行线性变化,考虑原始变量的线性组合: Z 1=μ11X 1+μ12X 2+…μ1p X pZ 2=μ21X 1+μ22X 2+…μ2p X p…… …… ……Z p =μp1X 1+μp2X 2+…μpp X p主成分是不相关的线性组合Z 1,Z 2……Z p ,并且Z 1是X 1,X 2…X p 的线性组合中方差最大者,Z 2是与Z 1不相关的线性组合中方差最大者,…,Z p 是与Z 1,Z 2 ……Z p-1都不相关的线性组合中方差最大者。
(三)主成分分析法基本步骤第一步:设估计样本数为n ,选取的财务指标数为p ,则由估计样本的原始数据可得矩阵X=(x ij )m ×p ,其中x ij 表示第i 家上市公司的第j 项财务指标数据。
第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。
第三步:根据标准化数据矩阵建立协方差矩阵R ,是反映标准化后的数据之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分析。
其中,R ij (i ,j=1,2,…,p )为原始变量X i 与X j 的相关系数。
主成分分析法1. 主成份分析:主成份分析是最经典的基于线性分类的分类系统。
这个分类系统的最⼤特点就是利⽤线性拟合的思路把分布在多个维度的⾼维数据投射到⼏个轴上。
如果每个样本只有两个数据变量,这种拟合就是其中和分别是样本的两个变量,⽽和则被称为loading,计算出的P值就被称为主成份。
实际上,当⼀个样本只有两个变量的时候,主成份分析本质上就是做⼀个线性回归。
公式本质上就是⼀条直线。
插⼊⼀幅图(主成份坐标旋转图,来⾃:PLS⼯具箱参考⼿册)如果⼀个样本有n个变量,那主成份就变为:其中PC1 称为第⼀主成份,⽽且,我们还可以获得⼀系列与PC这个直线正交的其它轴,如:被称为第⼆主成份以此类推,若令,此时向量A称为主成份的载荷(loading),计算出的主成份的值PC称为得分(score)。
1. 主成份分析举例作为⼀个典型的降维⽅法,主成份分析在数据降维⽅⾯⾮常有⽤,⽽且也是所有线性降维⽅法的基础。
很多时候,如果我们拿着⼀个⾮常复杂的数据不知所措的话,可以先考虑⽤主成份分析的⽅法对其进⾏分解,找出数据当中的种种趋势。
在这⾥,我们利⽤数据挖掘研究当中⾮常常见的⼀个数据集对主成份分析的使⽤举例如下:1996年,美国时代周刊(Times)发表了⼀篇关于酒类消费,⼼脏病发病率和平均预期寿命之间关系的科普⽂章,当中提到了10个国家的烈酒,葡萄酒和啤酒的⼈均消费量(升/年)与⼈均预期寿命(年)⼀级⼼脏病发病率(百万⼈/年)的数据,这些数据单位不⼀,⽽且数据与数据之间仅有间接关系。
因此直接相关分析不能获得重要且有趣的结果。
另外⼀⽅⾯,总共只有10个国家作为样本,各种常见的抽样和假设检验在这⽅⾯也没有⽤武之地,我们看看⽤何种⽅法能够从这个简单的数据表中获得重要知识作为数据挖掘的第⼀步,⾸先应该观察数据的总体分布情况。
⽆论是EXCEL软件,还是R语⾔,我们都能够很⽅便的从下表中获得表征数据分布的条形图。
从图中可以看出,总共10个国家,有5类数据,由于各类数据性质各不相同,因此数值上⼤⼩也很不相同。
主成分分析方法在经济问题的研究中,我们常常会遇到影响此问题的很多变量,这些变量多且又有一定的相关性,因此我们希望从中综合出一些主要的指标,这些指标所包含的信息量又很多。
这些特点,使我们在研究复杂的问题时,容易抓住主要矛盾。
那么怎样找综合指标?主成分分析是将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来指标的统计方法,也是数学上处理降维的一种方法. 一. 主成分分析法简介主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析。
在实际问题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。
但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。
人们自然希望变量个数较少而得到的信息较多。
在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。
主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映问题的信息方面尽可能保持原有的信息。
信息的大小通常用离差平方和或方差来衡量。
主成分分析的基础思想是将数据原来的p 个指标作线性组合,作为新的综合指标(P F F F ,,,21 )。
其中1F 是“信息最多”的指标,即原指标所有线性组合中使)var(1F 最大的组合对应的指标,称为第一主成分;2F 为除1F 外信息最多的指标,即0),cov(21 F F 且)var(2F 最大,称为第二主成分;依次类推。
易知P F F F ,,,21 互不相关且方差递减。
实际处理中一般只选取前几个最大的主成分(总贡献率达到85%),达到了降维的目的。
主成分的几何意义:设有n 个样品,每个样品有两个观测变量,,21X X 二维平面的散点图。
n 个样本点,无论沿着1X 轴方向还是2X 轴方向,都有较大的离散性,其离散程度可以用1X 或2X 的方差表示。
本章主要内容第一节主成分分析的基本思想第二节主成分分析的数学模型与推导主成分的性质第三节第四节主成分分析应用中注意的问题第五节实例分析和SAS程序◆问题引入在实际问题中,研究多指标的问题是经常遇到的。
多元统计分析就是处理多变量(多指标)问题的理论和工具。
在多元统计分析中,随机向量的观测值是对一个个体从多个指标进行测量的结果,它们从不同侧面反映了个体的特征。
多元统计分析中常会遇到以下问题:⑴(相关性):从表面上看,p个指标变量处于同等地位,但事实上各变量所包含的信息量参差不齐,变量之间不一定相互独立,而常具有相关性。
因而使得所观测到的数据反映的信息有时有所重叠。
⑵(降维)当变量个数较多时,在高维空间中研究样本的分布规律比较复杂,势必增加分析问题的难度。
而考虑到变量间的相关性意味着信息的交叉和重叠,人们自然考虑能否用较少的综合指标(变量)去代替原来较多的变量,这就是多元统计分析中的“降维问题”。
⑶(抓住主要矛盾,提炼主要信息)如何对这些变量进行综合,即根据这些变量,给出少数几个综合指标,以反映多个指标所提供的信息呢?这需要解决如下几个问题:想①把原来的指标重新组合成一组互相独立的综合指标,并要求各个新指标所包含的信息不重叠和交叉;②所用综合指标个数要少于原来指标的个数p(达到降维之目的);③新指标(即少数几个综合指标)所反应的信息量(几乎)和原来诸变量所反映的信息一样多。
(即用新的指标刻画研究个体的特性使其性质不变。
)思想◆主成分分析的主要目的⑴降维:可用于其他多元统计分析方法的辅助性工具,或中间过渡过程等,譬如在聚类分析、多重多元回归分析之前,可先做主成分分析,降低问题的复杂性或克服回归分析中多重共线性带来的问题等。
⑵用于对数据作进一步解释:用少数几个综合指标反映原来由p个指标描述的个体特性,必然损失一部分信息,但由于它使我们抓住了主要矛盾,并从原始数据中进一步提炼出某些新的信息,所以从综合分析的层面上讲,解释数据内在特征有时更具有针对性。