统计学第10章 主成份分析和因子分析
- 格式:ppt
- 大小:1.90 MB
- 文档页数:62
主成分分析和因子分析法一、主成分分析概论主成分分析的工作对象是样本点×定量变量类型的数据表。
它的工作目标,就是要对这种多变量的平面数据表进行最佳综合简化。
也就是说,要在力保数据信息丢失最少的原则下,对高维变量空间进行降维处理。
很显然,识辨系统在一个低维空间要比一个高维空间容易得多。
英国统计学家斯格特(M.Scott )在1961年对157个英国城镇发展水平进行调查时,原始测量的变量有57个。
而通过主成分分析发现,只需5个新的综合变量(它们是原变量的线性组合),就可以95%的精度表示原数据的变异情况,这样,对问题的研究一下子从57维降到5维。
可以想象,在5维空间中对系统进行任何分析,都比在57维中更加快捷、有效。
另一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。
他曾利用美国1929~1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息和外贸平衡等等。
在进行主成分分析后,竟以97.4%的精度,用三个新变量就取代了原17个变量。
根据经济学知识,斯通给这三个新变量要别命名为总收入1F 、总收入变化率2F 和经济发展或衰退的趋势3F (是时间t 的线性项)。
更有意思的是,这三个变量其实都是可以直接测量的。
二、主成分分析的基本思想与理论1、主成分分析的基本思想在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。
这样就产生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着考虑指标的增多增加了问题的复杂性,同时也由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息有时甚至会抹杀事物的真正特征与内在规律。
基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。
主成分分析在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。
多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。
如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。
盲目减少指标会损失很多信息,容易产生错误的结论。
因此需要找到一个合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。
由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。
主成分分析与因子分析就属于这类降维的方法。
主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。
最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。
因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。
如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
2. 问题描述下表1是某些学生的语文、数学、物理、化学成绩统计:首先,假设这些科目成绩不相关,也就是说某一科目考多少分与其他科目没有关系。
第十章 主成分分析与因子分析一个有经验的裁缝加工一件上衣,需要测量上体长、手臂长、胸围、颈围、肩宽、腰围等14个指标,但在批量生产中,测量每个人的14个指标是不可能的,怎么办呢?人们发现,这14个指标之间具有相关性,如果从这些指标中构造出少数几个指标,只要根据这少数的几个主要指标加工出的上衣就能适合大多数人的体型,即这少数几个指标充分把握了上衣的主要特征。
事实上,采用主成分分析和因子分析便能找到两个不相关的指标“型和号”,根据这两个指标加工出的上衣,特体除外,95%以上的人都能穿。
从14个指标中构造出两个不相关的指标的过程就称为降维。
在现实中类似的降维事例是很多的,在统计学中主要利用因子分子和主成分分析实现对数据的降维处理。
这一章我们将介绍因子分析和主成分分析如何实现降维,以及在SPSS 中如何实现这两种方法。
第一节 主成分分析一、主成分分析的基本思想1. 基本思想和数学模型 在对某一事件进行研究时,常常会涉及到与此相关的多个变量,而这些变量之间往往存在着相关性,很多的变量以及变量间的相关性大大增加了研究的复杂程度。
主成分分析就是在解决上述问题过程中产生的,目的在于用少数几个不相关的主成分来代表原来的多个变量,以方便我们对问题的分析。
所谓的主成分就是指多个变量的线性组合,不同的主成分之间相互无关。
假设有n 个样品,每个样品有p 个变量分别为p X X X ,...,,21,则主成分的个数最多可以有p 个,用公式表示为: p pi i i i X a X a X a F +++=...2211 p i ,...,2,1=。
方程应满足下列条件:(1)1 (2)2221=+++pi i i a a a 。
(2)i F 与j F (p j i j i ,...,2,1,;=≠)不相关。
(3)1F 到p F 方差依次递减。
第一个条件对系数加以限制使得方差不会任意增大。
如果不对系数加以限制,方差可以趋于无穷大就变得没有意义了,同时第一个条件也使得每个主成分都是原始变量的凸函数。
主成分分析与因子分析法主成分分析是一种减少数据维度的统计学方法,通过将多变量数据投影到一个较低维度的空间中,实现数据的降维。
主成分分析的基本思想是将原始数据转换为一组新的变量,这些新的变量称为主成分,通过主成分的降序排列,能够使原始数据中较大方差的信息更好地保留下来。
1.数据标准化:根据数据的特点,将数据进行标准化处理,使得各个变量具有相同的尺度。
2.计算协方差矩阵:通过计算数据的协方差矩阵,了解各个变量之间的相关性。
3.求解特征向量和特征值:通过对协方差矩阵进行特征值分解,得到特征向量和特征值。
4.选择主成分:选取前k个特征向量对应的主成分,使得它们能够解释绝大部分的方差。
通常选择的标准是特征值大于1,或者解释方差的累积比例达到一定的阈值。
5.主成分系数:计算原始变量和主成分之间的线性关系,这个关系可以用主成分的特征向量作为系数矩阵进行表示。
1.降低维度:主成分分析能够将高维数据降维,提取出最能代表原始数据的主成分。
2.去除冗余信息:通过选择主成分,可以去除原始数据中的冗余信息,提取出最有用的信息。
3.可视化:降维后的数据可以更容易地可视化和解释。
二、因子分析法(Factor Analysis)因子分析法是一种用于确定多个观测变量之间的潜在结构的统计学方法。
它假设观测变量是由一组潜在因子决定的,通过观测变量和因子之间的相关性,可以推断出潜在因子之间的关系。
因子分析法的基本步骤如下:1.确定因子数:根据研究的目的和背景,确定潜在因子的个数。
2.求解因子载荷矩阵:通过最大似然估计或主因子方法,求解因子载荷矩阵,得到每个观测变量与潜在因子之间的相关关系。
3.提取因子:根据因子载荷矩阵,提取出与观测变量相关性最高的因子,将原始数据映射到潜在因子空间中。
4.旋转因子:通过旋转因子载荷矩阵,使得因子之间更易解释和解读,常用的旋转方法有正交旋转和斜交旋转。
5.因子得分:根据观测变量的信息和因子载荷矩阵,计算每个样本在每个因子上的得分。
在实际工作中,为了全面的分析问题,往往会收集很多变量,这些变量之间通常都会存在大量重复信息,如果直接用来分析,不但计算繁琐,模型复杂,而且还有一个更严重的问题就是共线性问题,前面提到过共线性问题会导致模型误差增大,失去意义。
当面对变量过多时,通常的处理方法是降维,即设法将原来众多具有一定相关性的变量,重新组合成一组新的互相无关的综合变量,这些综合变量要尽可能多的反映原有变量的信息。
降维的方法有很多,其中最常用的就是主成分分析和因子分析一、主成分分析(Principal Component Analysis,PCA)1.基本思路设有n个原始变量,如果将它们都用散点图表示,会发现一些变量是存在某种线性关系的,这就是共线性,我们可以利用这个特点,创建一个变量Yi,使它成为某些原始变量的线性组合结果Yi =β+β1x1+...βnxn,这样处理之后,n个原始变量就转化为i个新变量,这i个新变量不同程度的反映了原始变量的信息,并且互不相关,这就解决了共线性问题。
那么接下来的问题是,n个变量的线性组合有很多种,我们取哪种结果作为新变量呢?经典的方法就是根据方差来判断,方差越大,变异越大,而我们的目的并不是消除变异,而是用尽可能少的新变量表示大部分原始变量,因此变异信息也必须尽量完整的反映。
我们将新变量按照方差大小排序,最大者也就是包含变异最多的为第一主成分,以此类推,通常只取前面几个最大的主成分,这样虽然损失部分信息,但是抓住了主要变异,如果全都取的话是没有意义的,因为原则上有多少个原始变量,就可以提取多少个主成分,但是这样做违背了降维的目的,多数情况下,取钱2-3个主成分就可以代表90%以上的变异信息,其余的可以忽略不计。
2.计算过程前面讲了PCA的基本思路,现在用具体数学算法来加以实现<1>数据标准化由于每个变量都有自己的数量级和量纲,首先要对变量进行标准化处理以消除这方面的差异<2>计算协方差矩阵或相关系数矩阵对于一维数据,也就是一个变量的数据,我们可以用均值、方差、标准差来描述,而协方差用于衡量两个变量的总体误差,如果多于两个变量,那就要用协方差矩阵来表示。
主成分分析与因⼦分析主成分分析,主成份是原始变量的线性组合,在考虑所有主成份的情况下主成份和原始变量间是可以逆转的。
即“简化变量”,将变量以不同的系数合起来,得到好⼏个复合变量,然后在从中挑⼏个能表⽰整体的复合变量就是主成份,然后计算得分。
因⼦分析,公共因⼦和原始变量的关系是不可逆转的,但是可以通过回归得到。
是将变量拆开,分成公共因⼦和特殊因⼦。
过程是:因⼦载荷计算,因⼦旋转,因⼦得分。
主成份分析主成份分析需要知道两变量之间的相关性,⽣成协⽅差举证和相关新矩阵,对应的⽣成的新向量矩阵Y还有特征值λi,对应是第I个新向量对总体信息的贡献率为λi/(λ1+λ2+...+λn),对应的还有⼀个累积贡献率。
确定主成份的个数的⽅法有:特征值⼤于1(要求原始数据的每⼀个变量⾄少能贡献1各单位的变异)、陡坡检验法(陡坡图中开始平坦的点之前的点的个数)、累积解释变异⽐例法(即(λ1+...+λi)/(λ1+λ2+...+λn)>70%)。
同时也可以知道主成分分析对应的⼏个难点①是使⽤协⽅差矩阵还是相关系数矩阵②如何确定主成份的个数。
当数据中不同变量的度量单位不同并且数值相差较⼤就⽤标准化后的相关系数矩阵,当数值相差不⼤并且指标的权重不⼀样时,考虑⽤协⽅差矩阵。
对于个数的确定就是我们⼀些边界问题是否1左右的也可以囊括进主成份中,是否难以确定开始变平坦的是那个点,是否70%不够。
等⼏个问题。
主成分分析可以⽤两个过程步完成PROC FACTORS 、PROC PRINCOMP。
后者能处理的数据量⼤⼀些,效率⾼⼀些,,前者输出的内容丰富些,还可以做旋转因⼦。
以下是主成分分析过程;proc princomp data=sashelp.cars out=car_component;var mpg_city mpg_highway weight wheelbase length;run;输出结果:先是输出统计结果,再是输出相关性矩阵,这⾥princomp步默认使⽤的是相关系数矩阵,实际应⽤过程中,可以通过cov选项来指定使⽤的矩阵。
主成分分析和因子分析有十大区别:1.原理不同主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。
因子分析基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。
就是要从数据中提取对变量起解释作用的少数公共因子(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系)2.线性表示方向不同因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。
3.假设条件不同主成分分析:不需要有假设(assumptions),因子分析:需要一些假设。
因子分析的假设包括:各个共同因子之间不相关,特殊因子(specificfactor)之间也不相关,共同因子和特殊因子之间也不相关。
4.求解方法不同求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知),采用的方法只有主成分法。
(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计)注意事项:由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;一般当变量单位相同或者变量在同一数量等级的情况下,可以直接采用协方差阵进行计算;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分;实际应用中应该尽可能的避免标准化,因为在标准化的过程中会抹杀一部分原本刻画变量之间离散程度差异的信息。
此外,最理想的情况是主成分分析前的变量之间相关性高,且变量之间不存在多重共线性问题(会出现最小特征根接近0的情况);求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。
因子分析与主成分分析的区别与应用因子分析与主成分分析是统计学中常用的多变量分析方法,用于降维和提取数据中的主要信息。
虽然它们都可以用于数据分析,但在方法和应用上存在一些区别。
本文将介绍因子分析与主成分分析的区别,并讨论它们各自的应用。
一、因子分析与主成分分析的定义因子分析是一种用于研究多个观测变量之间的内在相关性结构的统计技术。
它通过将多个变量组合为少数几个“因子”来解释数据的方差。
每个因子代表一组相关性高的变量,可以帮助我们理解数据背后的潜在结构。
主成分分析是一种通过将原始变量转换为线性组合(即主成分)来降低多维数据维度的技术。
它通过找到数据中的最大方差方向来确定主成分,并逐步提取主成分,以解释数据的最大方差。
主成分分析可以帮助我们发现数据中的主要特征。
二、因子分析与主成分分析的区别1. 目的不同:因子分析的目的是确定一组能够最好地描述观测数据之间关系的因子,并解释数据中的方差。
因子分析更加关注变量之间的共同性和相关性,希望通过较少的因子来解释数据。
主成分分析的目的是通过寻找数据中的主要结构和主要特征来降低数据的维度。
主成分分析着重于方差的解释,通过线性组合来减少变量数量,提取出主要成分。
2. 基本假设不同:因子分析基于观察变量之间的共同性,假设观测变量是由一组潜在因子决定的。
它假设每个观测变量都与每个因子有一个固定的因子载荷。
主成分分析假设原始变量之间是线性相关的,并且通过线性变换,可以找到解释大部分数据方差的新变量。
3. 输出结果不同:因子分析输出因子载荷矩阵,该矩阵显示每个因子与每个观测变量之间的关系。
因子载荷表示每个因子对每个变量的贡献程度,可用于解释观测变量之间的共同性。
主成分分析输出的是主成分,每个主成分是原始变量的线性组合。
主成分按照解释的方差大小排序,因此前几个主成分更能代表原始数据的方差。
三、因子分析与主成分分析的应用因子分析的应用广泛,可以用于心理学、社会科学、市场调研等领域。