第五章主成分分析资料
- 格式:ppt
- 大小:4.91 MB
- 文档页数:13
主成分分析主成分分析、因子分析等在多元统计分析中属于协方差逼近技术。
主要是从协方差矩阵出发,实现一种正交变换,从而将高维系统表示为低维系统,在此过程中可以揭示研究对象的许多性质和特征。
主成分分析的结果可以用于回归分析、聚类分析、神经网络分析等等。
只要懂得线性代数中二次型化为标准型的原理,就很容易掌握主成分分析的原理,进而掌握因子分析的原理。
在理解正交变换数学原理的基础上,我们可以借助Excel 开展主成分分析。
为了清楚地说明主成分的计算过程,不妨给出一个简单的计算实例。
【例】2000 年中国各地区的城、乡人口的主成分分析。
这个例子只有两个变量(m=2):城镇人口和乡村人口;31 个样品:即中国的31 个省、自治区和直辖市(n=31)。
资料来自2001 年《中国统计年鉴》,为2000 年全国人口普查快速汇总的11 月1 日零时数。
由于变量太少,这个例子仅仅具有教学意义——简单的实例更容易清楚地展示计算过程的细节。
计算步骤5.1.1 详细的计算过程首先,录入数据,并对数据进行适当处理(图5-1-1)。
计算的详细过程如下。
第一步,将原始数据绘成散点图主成分分析原则上要求部分变量之间具有线性相关趋势。
如果所有变量彼此之间不相关(即正交),则没有必要进行主成分分析,因为主成分分析的目的就是用正交的变量代替原来非正交的变量。
如果原始变量之间为非线性关系,则有必要对数据进行线性转换,否则效果不佳。
从图5-1-2 可见,原始数据具有非线性相关趋势,可以近似匹配幂指数函数,且测定系数R2=0.5157,相应地,相关系数R=0.7181(图5-1-2a);取对数之后,点列具有明显的线性趋势(图5-1-2b)。
第二步,对数据进行标准化标准化的数学公式为我们将对对数变换后的数据开展主成分分析,因此只对取对数后的数据标准化。
根据图5-1-1所示的数据排列,应该按列标准化,用xij 代表取对数之后的数据,则下式分别为第j 列数据的均值和标准差,xij 为第i 行(即第i 个样本)、第j 列(即第j 个变量)的数据,xij*为相应于xij 的标准化数据,n=31 为样品数目(参见图5-1-1)。
主成分分析步骤以教材第五章习题8的数据为例,演示并说明主成分分析的详细步骤: •原始数据的输入輪锹7 视附出敦据(囚烷飘D 井瞅① 图觀◎ 实用显序◎ 附加内諛Q)爾口迎帮肋® B? M *i宙邑並曲<e r 专注意事项:关键注意设置好数据的类型(数值?字符串?等等)以及小数点后保留数字的个数即可。
•选项操作1. 打开SPSS的“分析”-“降维”-“因子分析” 打开“因子分析”对话框(如下图)倉品女通和通讯选悻变豪(匚Ita(L)£2(R)取清眾助2.把六个变量:食品、衣着、燃料、住房、交通和通讯、娱乐教育文化输入到右边的待分析变量框。
3. 设置分析的统计量打开最右上角的“描述”对话框,选中“统计量”里面的“原始分析结果”和“相关矩阵”里面的“系数”。
(选中原始分析结果,SPSS自动把原始数据标准差标准化,但不显示出来;选中系数,会显示相关系数矩阵。
)。
然后点击“继续”。
统计星□单喪逼椅谨惟(U) 0原赠分忻结果①相关矩阵 ---------------------0 貳数©□ OMN)□泵薯惟水平□ R^(R) □柠列武Q) □反醍數&□ tiMO 和Bartlett 的補誓鹰桧验(K)鍵沽 取消 帮動打开第二个的“抽取”对话框:“方法”里选取“主成分”;“分析”、 和“抽取”这三项都选中各自的第一个选项即可。
然后点击“继续”。
方液血:主磁辞分新 ------------相羌性拒阵〔3)协方遵症阵3抽职特征值大于(&:O 因于的圃定麹・(吵 參槌取的因玖D ; 矗大收皴性电代吹教凶;(25|取请即助第三个的“旋转”对话框里,选取默认的也是第一个选项“无”“输出”输出H 未箍炜的Ema □即石阳鱼]第四个“得分”对话框中,选中“保存为变量”的“回归”;以及“显示因子得分系数矩阵”。
第五个“选项”对话框,默认即可。
这时点击“确定”,进行主成分分析。
可编辑修改精选全文完整版主成分分析(principal component analysis, PCA)如果一组数据含有N个观测样本,每个样本需要检测的变量指标有K个, 如何综合比较各个观测样本的性质优劣或特点?这种情况下,任何选择其中单个变量指标对本进行分析的方法都会失之偏颇,无法反映样本综合特征和特点。
这就需要多变量数据统计分析。
多变量数据统计分析中一个重要方法是主成份分析。
主成分分析就是将上述含有N个观测样本、K个变量指标的数据矩阵转看成一个含有K维空间的数学模型,N个观测样本分布在这个模型中。
从数据分析的本质目的看,数据分析目标总是了解样本之间的差异性或者相似性,为最终的决策提供参考。
因此,对一个矩阵数据来说,在K维空间中,总存在某一个维度的方向,能够最大程度地描述样品的差异性或相似性(图1)。
基于偏最小二乘法原理,可以计算得到这个轴线。
在此基础上,在垂直于第一条轴线的位置找出第二个最重要的轴线方向,独立描述样品第二显著的差异性或相似性;依此类推到n个轴线。
如果有三条轴线,就是三维立体坐标轴。
形象地说,上述每个轴线方向代表的数据含义,就是一个主成份。
X、Y、Z轴就是第1、2、3主成份。
由于人类很难想像超过三维的空间,因此,为了便于直观观测,通常取2个或者3个主成份对应图进行观察。
图(1)PCA得到的是一个在最小二乘意义上拟合数据集的数学模型。
即,主成分上所有观测值的坐标投影方差最大。
从理论上看,主成分分析是一种通过正交变换,将一组包含可能互相相关变量的观测值组成的数据,转换为一组数值上线性不相关变量的数据处理过程。
这些转换后的变量,称为主成分(principal component, PC)。
主成分的数目因此低于或等于原有数据集中观测值的变量数目。
PCA最早的发明人为Karl Pearson,他于1901年发表的论文中以主轴定理(principal axis theorem)衍生结论的形式提出了PCA的雏形,但其独立发展与命名是由Harold Hotelling于1930年前后完成。
主成分分析专题§1 引言我们在作数据分析处理时,涉及的样品往往包含有多个测量指标(比如p 个指标),较多的指标会带来分析问题的复杂性。
然而,这些指标彼此之间常常存在着一定程度的、有时甚至是相当高的相关性,这就使含在观测数据中的信息在一定程度上有所重叠。
主成分分析就是一种通过降维技术把多个指标约化为少数几个综合指标的统计分析方法.这些综合指标能够反映原始指标的绝大部分信息,它们通常表示为原始p 个指标的某种线性组合。
为了使这些综合指标所含的信息互不重叠,应要求它们互不相关。
例如,考虑p =2的情形,假设共有n 个样品,每个样品都测量了两个指标),(21x x ,它们大致分布在一个椭圆内。
如图所示。
显然,在坐标系21Ox x 中,n 个点的坐标1x 和2x 呈现某种线性相关性。
我们将该坐标系按逆时针方向旋转某个角度θ变成新坐标系21Oy y ,这里1y 是椭圆的长轴方向,2y 是短轴方向。
旋转公式为112212cos sin sin cos y x x y x x θθθθ=+⎧⎨=-+⎩ 易见,n 个点在新坐标系下的坐标1y 和2y 几乎不相关.1y 和2y 称为原始变量1x 和2x 的综合变量,n 个点在1y 轴上的方差达到最大,即在此方向上所含的有关n 个样品间差异的信息是最多的.因此,若欲将二维空间的点投影到某个一维方向,则选择1y 轴方向能使信息的损失降低到最小。
我们称1y 轴为第一主成分,而与1y 轴正交的2y 轴,有着较小的方差,称为第二主成分。
第一主成分的效果与椭圆的形状有很大关系,椭圆越是扁平,n 个点在1y 轴上的方差就相对越大,在2y 轴上的方差就相对越小。
考虑这样两种极端的情形:一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆,第一主成分只含有二维空间点的约一半信息,若仅用这一个综合变量,则将损失约50%的信息,这显然是不可取的。
造成它的原因是,原始变量1x 和2x 的相关程度几乎为零,也就是说,1x 和2x 所包含的信息几乎互不重叠,因此无法用一个一维的综合变量来代替它们。
主成分分析主成分分析(Principal Component Analysis,PCA)是一种常用的数据降维方法,它可以将高维度数据转换成低维度数据,并尽量保留数据的信息。
主成分分析的思想是通过对原始数据的线性变换,将其转换为一组新的变量,这些新变量是原始变量的线性组合。
这些新变量被称为主成分,它们可以解释原始数据的大部分方差,从而将原始数据的维度降低。
主成分分析的作用主成分分析可以用于数据预处理、数据压缩、数据可视化和模型建立等方面。
在数据预处理阶段,主成分分析可以用于去除数据中的冗余信息,减少数据噪声,提高数据的质量。
在数据压缩阶段,主成分分析可以将高维度数据压缩成低维度数据,从而节省存储空间和计算时间。
在数据可视化阶段,主成分分析可以将高维度数据转换成低维度数据,进行可视化展示,帮助用户更直观地理解数据和发现数据中隐藏的规律。
在模型建立阶段,主成分分析可以用于特征提取,减少维度的同时又不失去数据的重要特征,帮助用户更准确地建立模型,提高模型的预测准确率。
主成分分析的应用主成分分析广泛应用于各个领域,例如金融、医学、环境、工业等。
在金融领域,主成分分析可以用于建立风险评估模型,帮助投资者了解投资组合的风险。
在医学领域,主成分分析可以用于进行疾病预测,帮助医生快速准确地诊断疾病。
在环境领域,主成分分析可以用于分析空气质量和水质,帮助政府和公众了解环境状况。
在工业领域,主成分分析可以用于质量控制和生产优化,帮助企业降低成本和提高效率。
主成分分析的注意事项要注意主成分分析的前提条件,即原始数据必须为线性数据,在进行主成分分析前需要先对数据进行标准化处理。
此外,在进行主成分分析时,应根据实际问题选择合适的主成分数量,不能盲目追求降维程度,以免丢失重要信息。
同时,主成分分析的结果需要进行解释和验证,以确保分析结果的可靠性和有效性。
结语主成分分析是一种十分常用且十分有效的数据降维方法,它能够将高维度数据转换成低维度数据,并尽量保留数据的信息。