主成份分析和因子分析(Clementine)

格式：ppt
大小：1.98 MB
文档页数：62

下载文档原格式

主成分与因子分析的10点异同总结

主成分与因子分析的10点异同总结一、原理不同主成分分析（Principal components analysis，PCA）基本原理：利用降维（线性变换)的思想，在损失很少信息的前提下把多个指标转化为几个不相关的综合指标（主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能（主成分必须保留原始变量90%以上的信息），从而达到简化系统结构，抓住问题实质的目的。

因子分析（Factor Analysis，FA）基本原理：利用降维的思想，由研究原始变量相关矩阵内部的依赖关系出发，把一些具有错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。

就是要从数据中提取对变量起解释作用的少数公共因子（因子分析是主成分的推广，相对于主成分分析，更倾向于描述原始变量之间的相关关系）二、线性表示方向不同因子分析是把变量表示成各公因子的线性组合主成分分析中则是把主成分表示成各变量的线性组合。

三、假设条件不同主成分分析：不需要有假设(assumptions),因子分析：需要一些假设。

因子分析的假设包括：各个共同因子之间不相关，特殊因子（specificfactor）之间也不相关，共同因子和特殊因子之间也不相关。

四、求解方法不同求解主成分的方法：从协方差阵出发（协方差阵已知），从相关阵出发（相关阵R已知），采用的方法只有主成分法。

（实际研究中，总体协方差阵与相关阵是未知的，必须通过样本数据来估计）注意事项：由协方差阵出发与由相关阵出发求解主成分所得结果不一致时，要恰当的选取某一种方法；一般当变量单位相同或者变量在同一数量等级的情况下，可以直接采用协方差阵进行计算；对于度量单位不同的指标或是取值范围彼此差异非常大的指标，应考虑将数据标准化，再由协方差阵求主成分；实际应用中应该尽可能的避免标准化，因为在标准化的过程中会抹杀一部分原本刻画变量之间离散程度差异的信息。

调研数据的主成分分析和因子分析

调研数据的主成分分析和因子分析主成分分析（Principal Component Analysis，PCA）和因子分析（Factor Analysis）是调研数据分析中常用的两种方法。

它们都是多元统计分析的技术手段，旨在发现数据中的潜在结构和解释变量之间的关系。

本文将从理论功能、数据处理、应用领域等方面进行介绍和比较。

我们来了解一下主成分分析。

主成分分析是一种降维技术，通过线性组合将原始变量转换为一组新的无关变量，这些新变量称为主成分。

主成分旨在捕获数据集中最多的方差信息，并且彼此之间是无关的。

主成分按照解释的方差大小排序，前几个主成分包含了尽可能多的信息。

主成分分析可以帮助我们发现数据中的隐藏模式和变量之间的关系，减少变量之间的相关性。

相比之下，因子分析是一种探索性的数据分析方法，通过确定潜在的未观察到的因子来解释观察到的变量之间的关系。

因子分析假设观测变量是通过一组潜在因子来生成的，这些潜在因子是无法直接观察到的。

因子分析的目标是解释观测变量的共同方差，并将它们归因于潜在因子。

因子分析通过估计因子载荷矩阵，确定每个变量与每个因子之间的关系。

因子的数量可以根据解释方差的要求进行选择。

在数据处理方面，主成分分析和因子分析都需要进行数据标准化，以确保变量之间具有可比性。

数据标准化的方法包括中心化（减去均值）和缩放（除以标准差）。

标准化后的数据可以避免变量的量纲和单位对分析结果的影响。

主成分分析和因子分析在应用领域上有一些区别。

主成分分析通常用于降维和变量选择，可以帮助我们从大量的变量中提取最有意义的几个主成分。

主成分分析在数据可视化、模式识别和聚类分析等领域得到广泛应用。

而因子分析更多用于探索变量之间的内在结构和关联，尤其适用于心理学、社会科学和市场研究等领域，可以帮助解释问卷调查或者对消费者行为进行分析。

虽然主成分分析和因子分析都可以检测变量之间的关系，但是它们的假设和模型有所不同。

主成分分析假设主成分是数据集的线性组合，并且每个主成分都解释了尽可能多的方差。

因子分析与主成分分析在市场调研中的应用比较

因子分析与主成分分析在市场调研中的应用比较因子分析与主成分分析是市场调研中常用的数据分析方法，它们能够帮助研究者减少变量维度，发现变量之间的关联，揭示潜在因素对数据的影响。

虽然二者有着相似的作用和目标，但它们的理论基础和实际运用方式却有所不同。

首先，我们来看一下因子分析。

因子分析是一种通过矩阵运算将一组相关变量转化为一组无关因子的统计方法。

它通过计算共同变异量来发现隐藏在一系列观测变量背后的基本因素，并借此减少变量的数量。

在市场调研中，因子分析可以帮助研究者揭示不同变量之间的共同关系，从而识别出对购买行为或消费偏好有较大影响的因素。

例如，一个研究者可能有一组关于消费者购买行为的变量，比如价格敏感度、产品质量要求、品牌忠诚度等。

通过因子分析，研究者可以发现这些变量之间的潜在关系，譬如有些消费者可能更加注重产品的价格，而有些消费者可能更加看重产品的品牌。

通过将这些变量转化为几个无关因子，研究者可以更好地理解市场中消费者的不同需求，并有针对性地制定营销战略。

与因子分析相比，主成分分析的理论和应用方式更为广泛。

主成分分析是一种通过线性组合将一组相关变量转化为一组无关维度的多元统计方法。

与因子分析不同的是，主成分分析并不假设潜在因素存在，而是寻找一种最佳的线性表示方式，将现有变量的信息压缩到少数几个主成分中。

在市场调研中，主成分分析常常用于多变量数据的降维和分类。

例如，一个研究者可能有一组涵盖消费者年龄、性别、收入、教育水平等各种信息的变量。

通过主成分分析，研究者可以确定这些变量中哪些是相关的，并将其转化为更少的主成分，从而在保留最大信息量的前提下，简化分析过程，得到更高效的结论。

此外，因子分析和主成分分析在应用过程中也有所不同。

因子分析更注重因子的解释性，它会求解因子载荷矩阵，其中的每一个因子载荷值代表了变量与因子之间的相关性。

通过分析载荷矩阵，研究者可以确定哪些变量与特定因子关联较高，从而解释因子所代表的潜在因素。

主成分分析和因子分析-回归分析和相关分析的区别

主成分分析和因子分析的区别通过主成分分析所得来的新变量是原始变量的线性组合,每个主成分都是由原有P个变量线组合得到,在诸多主成分z中,Z1在总方差中占的比重最大,说明它综合原有变量的能力最强,其余主成分在总方差中占的比重依次递减,说明越往后的主成分综合原信息的能力越弱。

以后的分析可以用前面几个方差最大的主成分来进行,一般情况下,要求前几个z所包含的信息不少于原始信息的85%,这样既减少了变量的数目,又能够用较少的主成分反映原有变量的绝大部分信息。

如利用主成分来消除多元回归方程的多重共线性,利用主成分来筛选多元线性回归方程中的变量等。

通过因子分析得来的新变量是对每一个原始变量进行内部剖析。

打比喻来说,原始变量就如成千上万的糕点,每一种糕点的原料都有面粉、油、糖及相应的不同原料,这其中,面粉、油、糖是所有糕点的共同材料,这正好象是因子分析中的新变量即因子变量。

正确选择因子变量后,如果想考虑成千上万糕点的物价变动,只需重点考虑面粉、油、糖等公共因子的物价变动即可。

所以因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。

即因子分析就是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它把原始变量分解为两部分因素,一部分是由所有变量共同具有的少数几个公共因子构成的,另一部分是每个原始变量独自具有的因素,即特殊因子。

1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各个变量的线性组合。

在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1,x2,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。

在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。

2、主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。

主成分分析与因子分析的比较

主成分分析与因子分析的比较一、主成分分析方法1、主成分分析介绍主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法，又称主分量分析。

在实际问题中，为了全面分析问题，往往提出很多与此有关的变量（或因素），因为每个变量都在不同程度上反映这个课题的某些信息。

但是，在用统计分析方法研究这个多变量的课题时，变量个数太多就会增加课题的复杂性。

人们自然希望变量个数较少而得到的信息较多。

在很多情形，变量之间是有一定的相关关系的，当两个变量之间有一定相关关系时，可以解释为这两个变量反映此课题的信息有一定的重叠。

主成分分析是对于原先提出的所有变量，建立尽可能少的新变量，使得这些新变量是两两不相关的，而且这些新变量在反映问题的信息方面尽可能保持原有的信息。

信息的大小通常用离差平方和或方差来衡量。

主成分分析的基础思想是将数据原来的p 个指标作线性组合,作为新的综合指标(123,,,p F F F F )。

其中1F 是“信息最多”的指标，即原指标所有线性组合中使()1Var F 最大的组合对应的指标，称为第一主成分；2F 为除1F 外信息最多的指标，即()'12,j i Cov F F a a =∑且()2Var F 最大，称为第二主成分；依次类推。

易知123,,,p F F F F 互不相关且方差递减。

实际处理中一般只选取前几个最大的主成分（总贡献率达到85%），达到了降维的目的。

2、主成分确定的原则假设某个总体共有n 个样本，而每个样本测得p 项指标：X 1，X 2，X 3……X p ，得到原始数据()11121212221212p p p n n np x x x x x x X X X X x x x ⎡⎤⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎣⎦其中11211n x x X x ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦， 1,2,3,i p = 。

将数据矩阵X 的p 个向量12p X X X 作线性组合'111121211'212122222'1122,,,p p p p p p p pp p p F a X a X a X a X F a X a X a X a X F a X a X a X a X ⎧==++⎪==++⎪⎨⎪⎪==++⎩简写成'1122,i i i pi p i F a X a X a X a X ==++ 其中1,2,3,i p =设均值()E X u =，协方差阵()D X =∑。

《2024年主成分分析与因子分析的异同和SPSS软件——兼与刘玉玫、卢纹岱等同志商榷》范文

《主成分分析与因子分析的异同和SPSS软件——兼与刘玉玫、卢纹岱等同志商榷》篇一主成分分析与因子分析的异同及其在SPSS软件中的应用——兼与刘玉玫、卢纹岱等同志商榷一、引言主成分分析和因子分析是统计学中两种重要的降维技术，被广泛应用于社会、经济、科研等领域的多维数据分析。

然而，对于这两者之间的异同及其应用方式，学者们常有争议。

本文将深入探讨主成分分析与因子分析的异同点，并详细介绍如何在SPSS 软件中实现这两种分析方法，同时与刘玉玫、卢纹岱等同志的见解进行商榷。

二、主成分分析与因子分析的异同（一）异同点概述主成分分析和因子分析都是通过降维技术将多个原始变量转化为少数几个综合变量，以简化数据结构，揭示数据间的内在联系。

然而，两者在分析目的、原理、方法等方面存在显著差异。

（二）主成分分析主成分分析（PCA）是一种基于数据结构正交化降维的统计分析方法，其主要目的是找出原始数据集中具有代表性的主要特征（即主成分），同时尽量减少原始数据信息丢失。

PCA注重对原始变量之间的相关性进行降维处理，使得新的综合变量（即主成分）之间相互独立。

（三）因子分析因子分析（FA）则是一种基于数据结构提取潜在公共因子的统计分析方法。

其目的是找出原始变量之间潜在的公共因子和特殊因子，以解释原始变量之间的关系。

FA更注重对原始变量之间的内在联系进行解释和描述，提取出的因子之间可能存在一定的相关性。

（四）异同点详解1. 目的不同：主成分分析主要关注数据的降维和结构简化，而因子分析则更侧重于揭示变量之间的内在联系和潜在结构。

2. 原理不同：主成分分析基于数据之间的协方差关系进行降维，而因子分析则基于潜在因子的提取和解释。

3. 方法不同：主成分分析主要通过线性变换得到主成分，而因子分析则通过因子载荷矩阵和特殊因子解释原始变量的关系。

4. 结果解释不同：主成分分析得到的综合变量相对独立，更便于理解和解释；而因子分析则提取出潜在的公共因子，对原始变量的关系进行深入解析。

主成分分析,因子分析(数据相关性降维)

Rot ated Compo nent M a t r ia x Component 1 2 MATH -.387 .790 PHYS -.172 .841 CHEM -.184 .827 LITERAT .879 -.343 HISTORY .911 -.201 ENGLISH .913 -.216 Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 3 iterations.
主成分分析与因子分析
主成分分析与因子分析的概念
需要与可能：在各个领域的科学研究中，往往需要对反映事物的多个变量进行大量的观测，收集大量数据以便进行分析寻找规律。多变量大样本无疑会为科学研究提供丰富的信息，但也在一定程度上增加了数据采集的工作量，更重要的是在大多数情况下，许多变量之间可能存在相关性而增加了问题分析的复杂性，同时对分析带来不便。如果分别分析每个指标，分析又可能是孤立的，而不是综合的。盲目减少指标会损失很多信息，容易产生错误的结论。因此需要找到一个合理的方法，减少分析指标的同时，尽量减少原指标包含信息的损失，对所收集的资料作全面的分析。由于各变量间存在一定的相关关系，因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。主成分分析与因子分析就是这样一种降维的方法。主成分分析与因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方法直线综合指标往往是不能直接观测到的，但它更能反映事物的本质。因此在医学、心理学、经济学等科学领域以及社会化生产中得到广泛的应用。
主成分分析
正如二维椭圆有两个主轴，三维椭球有三个主轴一样，有几个变量，就有几个主成分。选择越少的主成分，降维就越好。什么是标准呢？那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议，所选的主轴总长度占所有主轴长度之和的大约85%即可，其实，这只是一个大体的说法；具体选几个，要看实际情况而定。

主成分分析、因子分析实验报告--SPSS

主成分分析、因子分析实验报告--SPSS主成分分析、因子分析实验报告SPSS一、实验目的主成分分析（Principal Component Analysis，PCA）和因子分析（Factor Analysis，FA）是多元统计分析中常用的两种方法，旨在简化数据结构、提取主要信息和解释变量之间的关系。

本次实验的目的是通过使用 SPSS 软件对给定的数据集进行主成分分析和因子分析，深入理解这两种方法的原理和应用，并比较它们的结果和差异。

二、实验原理（一）主成分分析主成分分析是一种通过线性变换将多个相关变量转换为一组较少的不相关综合变量（即主成分）的方法。

这些主成分是原始变量的线性组合，且按照方差递减的顺序排列。

主成分分析的主要目标是在保留尽可能多的数据信息的前提下，减少变量的数量，从而简化数据分析和解释。

（二）因子分析因子分析则是一种探索潜在结构的方法，它假设观测变量是由少数几个不可观测的公共因子和特殊因子线性组合而成。

公共因子解释了变量之间的相关性，而特殊因子则代表了每个变量特有的部分。

因子分析的目的是找出这些公共因子，并估计它们对观测变量的影响程度。

三、实验数据本次实验使用了一份包含多个变量的数据集，这些变量涵盖了不同的领域和特征。

数据集中的变量包括具体变量 1、具体变量 2、具体变量 3等，共X个观测样本。

四、实验步骤（一）主成分分析1、打开 SPSS 软件，导入数据集。

2、选择“分析”＞“降维”＞“主成分分析”。

3、将需要分析的变量选入“变量”框。

4、在“抽取”选项中，选择主成分的提取方法，如基于特征值大于1 或指定提取的主成分个数。

5、点击“确定”，运行主成分分析。

（二）因子分析1、同样在 SPSS 中，选择“分析”＞“降维”＞“因子分析”。

2、选入变量。

3、在“描述”选项中，选择相关统计量，如 KMO 检验和巴特利特球形检验。

4、在“抽取”选项中，选择因子提取方法，如主成分法或主轴因子法。

主成分分析与因子分析的比较与应用

主成分分析与因子分析的比较与应用在数据分析领域，主成分分析（Principal Component Analysis，PCA）和因子分析（Factor Analysis，FA）是常用的降维技术。

它们可以帮助我们理解数据之间的关系、提取相关特征以及简化数据集。

本文将比较主成分分析和因子分析的不同之处，并探讨它们在实际应用中的具体用途。

一、主成分分析主成分分析是一种无监督学习方法，用于将高维数据转换为低维数据。

主成分分析的目标是找到一组新的低维变量，称为主成分，它们能够解释原始数据中最大的方差。

主成分分析的基本思想是将数据投影到方差最大的方向上，以便保留尽可能多的信息。

主成分分析的步骤如下：1. 标准化数据：将原始数据进行标准化处理，使得各个特征的均值为0，方差为1。

2. 计算协方差矩阵：通过计算特征之间的协方差矩阵，了解各个特征之间的相关性。

3. 计算特征值和特征向量：通过对协方差矩阵进行特征值分解，得到特征值和对应的特征向量。

4. 选择主成分：按照特征值从大到小的顺序，选择最大的k个特征值对应的特征向量作为主成分。

5. 数据转换：将原始数据投影到所选主成分上，得到降维后的数据集。

主成分分析在实际应用中具有广泛的用途。

例如，在图像处理中，主成分分析可用于图像压缩和降噪；在金融领域，主成分分析可用于投资组合优化和资产定价；在生物科学中，主成分分析可用于基因表达数据的分析等。

二、因子分析因子分析也是一种常用的无监督学习方法，其目标是通过观察变量之间的共同变异性，识别潜在的影响因素或隐含变量。

因子分析的基本思想是将多个观测变量解释为少数几个潜在因子的线性组合，从而减少原始数据的维度。

因子分析的步骤如下：1. 建立模型：选择适当的因子分析模型，包括确定因子个数和选择因子旋转方法。

2. 估计参数：使用最大似然估计等方法，对模型中的参数进行估计。

3. 因子旋转：为了使得因子更易于解释，通常需要对因子进行旋转，常见的旋转方法有方差最大旋转和直角旋转等。

主成分、因子分析报告步骤

主成分分析、因子分析步骤不同点主成分分析因子分析概念具有相关关系的p个变量，经过线性组合后成为k个不相关的新变量将原数据中多个可能相关的变量综合成少数几个不相关的可反映原始变量的绝大多数信息的综合变量主要目标减少变量个数，以较少的主成分来解释原有变量间的大部分变异，适合于数据简化找寻变量间的内部相关性及潜在的共同因素，适合做数据结构检测强调重点强调的是解释数据变异的能力，以方差为导向，使方差达到最大强调的是变量之间的相关性，以协方差为导向，关心每个变量与其他变量共同享有部分的大小最终结果应用形成一个或数个总指标变量反映变量间潜在或观察不到的因素变异解释程度它将所有的变量的变异都考虑在内，因而没有误差项只考虑每一题与其他题目共同享有的变异，因而有误差项，叫独特因素是否需要旋转主成分分析作综合指标用，不需要旋转因子分析需要经过旋转才能对因子作命名与解释是否有假设只是对数据作变换，故不需要假设因子分析对资料要求需符合许多假设，如果假设条件不符，则因子分析的结果将受到质疑因子分析1 【分析】→【降维】→【因子分析】（1）描述性统计量（Descriptives）对话框设置KMO和Bartlett的球形度检验（检验多变量正态性和原始变量是否适合作因子分析）。

（2）因子抽取（Extraction）对话框设置方法：默认主成分法。

主成分分析一定要选主成分法分析：主成分分析：相关性矩阵。

输出：为旋转的因子图抽取：默认选1.最大收敛性迭代次数：默认25.（3）因子旋转（Rotation）对话框设置因子旋转的方法，常选择“最大方差法”。

“输出”框中的“旋转解”。

（4）因子得分（Scores）对话框设置“保存为变量”，则可将新建立的因子得分储存至数据文件中，并产生新的变量名称。

（5）选项（Options）对话框设置2 结果分析（1）KMO及Bartlett’s检验KMO 和Bartlett 的检验取样足够度的Kaiser-Meyer-Olkin 度量。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

中央财经大学统计学院 5
主成分分析的基本思想

主成分分析适用于原有变量之间存在较高程度相关的情况。在主成分分析适用的场合，一般可以用较少的主成分得到较多的信息量，从而得到一个更低维的向量。通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。
中央财经大学统计学院
6
例：斯通关于国民经济的研究
中央财经大学统计学院 9
主成分分析的几何意义

第一主成分的效果与椭圆的形状有关。椭圆越扁平，n个点在F1轴上的方差就相对越大，在 F2轴上的方差就相对越小，用第一主成分代替所有样品造成的信息损失就越小。
中央财经大学统计学院
10
主成分分析的几何意义 x
2
F2

F1
原始变量不相关时，主成分分析没有效果。
特征向量

成份 1 简历格式外貌研究能力兴趣爱好自信心洞察力诚信度推销能力工作经验工作魄力志向抱负理解能力潜能求职渴望度适应力 0.162 0.213 0.040 0.225 0.290 0.315 0.158 0.324 0.134 0.315 0.318 0.331 0.333 0.259 0.236 2 0.429 -0.035 0.237 -0.130 -0.249 -0.131 -0.405 -0.029 0.553 0.046 -0.068 -0.023 0.022 -0.082 0.421 3 -0.023 -0.430 0.466 4 0.262 0.636 0.345 0.315 -0.094
中央财经大学统计学院 11
•
x1
主成分分析的几何意义
x2 F2

F1
•
原始变量相关程度越高，主成分分析效果越好。
• • • • • • • • • • • •• • •
• • • • • • • • • • • • •• • • • • •
x1
中央财经大学统计学院
12
主成分分析的数学模型
简历格式自信心 .092 洞察力 .228 诚信度 -.107 推销能力 .271 工作经验 .548

相关系数表中有较大的相关系数，主成分分析可能有效。
外貌
研究能力兴趣爱好自信心
.431
.001 .302 1.000
.371
.077 .483 .808
.354
-.030 .645 .410
0.467 -0.201 0.089 -0.020
主成分表达式

F1=0.162简历格式*+0.213外貌*+0.040学习能力*+……+0.236适应力*。式中带星号的变量表示标准化后的变量其余主成分的表达式依此类推。把标准化后的各个变量带入方程可以计算出主成分得分。

中央财经大学统计学院
•• • •• • • • • • •• • •• • • • • • • • •• •• • • • • • • • • • • • • • • •• • • • • • •• • ••• • • • • • • • • •• • • • • • •• •• • • • • • • • • • • • • • •• • •• • • • • • •
中央财经大学统计学院 8
x1
主成分分析的几何意义
•对坐标轴进行旋转， n个点在F1轴上的方差达到最大，即在此方向上包含了有关n个样品的最大量信息。 •因此，欲将二维空间的点投影到某个一维方向上，则选择F1轴方向能使信息的损失最小。
F1
F2
x2
•• • • • • • • • • •• •• • • •• • • • •• • • • x1 • •• • • • • 平移、旋转坐标轴 • • • •
中央财经大学统计学院 19
主成分分析在SPSS中的实现

SPSS没有直接提供主成分分析的功能，需要借助于“因子分析”的模块实现。用SPSS进行主成分分析有几个操作环节需要特别注意。下面我们以讲义中应聘的例子加以说明。
中央财经大学统计学院
20
主成分分析在SPSS中的实现

1、在SPSS中打开数据文件（或者录入数据）。
中央财经大学统计学院 7

主成分分析的几何意义
x2
如果仅考虑X1 或X2中的任何一个分量，那么包含在另一分量中的信息将会损失，因此，直接舍弃 x1或x2分量不是“降维”的有效办法。
•• • • • • • • • • •• •• • • •• • • • •• • • • • •• • • • • • • • •

“主成分分析”、“因子分析” 都可以用来对数据进行降维。
中央财经大学统计学院 4
主成分分析的基本思想

主成分分析（Principal components analysis）是由Hotelling于1933年首先提出的。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式，从这些指标中尽可能快地提取信息。当这些变量的第一个线性组合不能提取更多的信息时，再考虑用第二个线性组合继续这个提取的过程，……，直到提取足够多的信息为止。这就是主成分分析的思想。
一项十分著名的工作是美国的统计学家斯通 (Stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据，得到了17个反映国民收入与支出的变量要素，例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。在进行主成分分析后，竟以97.4％的精度，用三个新变量就取代了原17个变量。
27
用SPSS计算的主成分得分

1、把原始变量标准化；按照主成分的计算公式可以计算出主成分得分。注：SAS、S-plus、R等软件可以直接给出主成分的系数表和主成分得分。
中央财经大学统计学院
28
主成分分析案例2

100个学生的六门成绩（数学、物理、化学、语文、历史、英语）见STUDENT.SAV。根据数据进行主成分分析。
中央财经大学统计学院
18
主成分分析的应用

主成分回归。即把各主成分作为新自变量代替原来自变量x做回归分析。还可以进一步还原得到Y 与x的回归方程（可以避免多重共线性的问题）。用于综合评价。按照单个的主成分（例如第一主成分）可以对个体进行排序。按照几个主成分得分的加权平均值对个体进行排序也是一种评价方法。一般用各个主成分的方差贡献率加权。由于加权得分缺少实际意义，这种方法理论上有争议。
中央财经大学统计学院 16
主成分的贡献率

对于第k个主成分，其对方差的贡献率为
k

i 1
p
i

前k个主成分贡献率的累计值称为累计贡献率。
中央财经大学统计学院
17
主成分个数的确定

通常有两种方式： 1、根据大于1的特征值的个数确定主成分的个数； 2、根据主成分的累计贡献率确定主成分的个数，使累计贡献率>85%或者其他值。最常见的情况是主成分的个数为2-3个。
中央财经大学统计学院
21
ቤተ መጻሕፍቲ ባይዱ
主成分分析在SPSS中的实现

2、选择“分析”“降维”“因子分析”。 3、把除了“编号”以外的变量选入“变量” 框； 4、单击“描述”按钮，在弹出的对话框中选中“系数”，以输出相关系数。其余选项使用默认值。单击“确定” 。
中央财经大学统计学院
22
SPSS结果分析：相关系数表
1 2 p

计算特征值对应的特征向量，即为主成分F1……Fp相应的系数。
中央财经大学统计学院 15
主成分得分

把原始变量的值代入主成分表达式中，可以计算出主成分得分。注意在计算主成分得分时需要先对原始变量进行标准化。得到的主成分得分后，可以把各个主成分看作新的变量代替原始变量，从而达到降维的目的。
.490
.055 .362 .800
.141
.266 .141 .015
洞察力
诚信度推销能力工作经验
.808
.410 .800 .015
1.000
.356 .818 .147
.356
1.000 .240 -.156
.818
.240 1.000 .255
.147
-.156 .255 1.000
工作魄力
志向抱负理解能力潜能
.704
.842 .721 .672
.698
.758 .883 .777
.280
.215 .386 .416
.815
.860 .782 .754
.337
.195 .299 .348
求职渴望度
适应力
.482
.250
.527
.416
.448
.003
.563
.558
.215
.693
2 i1 2 i2 2 ip
中央财经大学统计学院 13
主成分分析的数学模型

有p个x，相应可以计算出p个主成分。但一般只使用少数几个主成分就可以提取大部分信息。主成分分析的基本任务是计算系数矩阵 a11 …… app。
中央财经大学统计学院
14
主成分求解的步骤

主成分可以按以下步骤计算得出：计算原始变量的相关系数矩阵R。计算相关系数矩阵R的特征值，并按从大到小的顺序排列，记为
F1 a11 x1 a12 x2 a1 p x p F2 a21 x1 a22 x2 a2 p x p Fp a p1 x1 a p 2 x2 a pp x p