主成分分析和因子分析 stata统计分析与应用

  • 格式:ppt
  • 大小:604.00 KB
  • 文档页数:21

下载文档原格式

  / 21
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

y1 a11x1 a12 x2 a1p x p
y
2
a21x1
a22 x2
a2p xp
y p a p1x1 a p2 x2 a pp x p
主成分分析的数学模型
aij 为 第 i 个 主 成 分 yi 和 原 来的第j个变量xj之间的 线性相关系数,称为载 荷(loading)。比如,a11 表示第1主成分和原来的 第1个变量之间的相关系 数 , a21 表 示 第 2 主 成 分 和原来的第1个变量之间 的相关系数
比如,第一个主成分的特征根为3.54354,占总特征 根的的比例(方差贡献率)为39.37%,这表示第一个 主成分解释了原始9个变量39.37%的信息,可见第 一个主成分对原来的9个变量解释的还不是很充分
根据什么选择主成分?
根据主成分贡献率 一般来说,主成分的累计方差贡献率达到80%以上 的前几个主成分,都可以选作最后的主成分 比如表中前3个主成分的累计方差贡献率为78.13%
每一个变量对应的主成分载荷就对 应坐标系中的一个点
第一个主成分很充分地解释了原始 的后4个变量(与每个原始变量都有 较强的正相关关系),第二个主成 分则较好地var2,var3,var5,var6这 2个变量(与它们的相关关系较高) ,而与其他变量的关系则较弱(相 关系数的点靠近坐标轴)
13.2 因子分析
21
比如,第一主成分所在列的系数-0.0364表示第1个 主成分和原来的第一个变量(ROA)之间的线性相关 系数。这个系数越大,说明主成分对该变量的代表 性就越大
怎样解释主成分? (Loading Plot)
载荷图(Loading Plot)直观显示主 成分对原始9变量的解释情况
图中横轴表示第一个主成分与原始 变量间的相关系数;纵轴表示第二 个主成分与原始变量之间的相关系 数
假定只有两个变量x1和x2,从散点图可见两个变量存在相 关关系,这意味着两个变量提供的信息有重叠
如果把两个变量用一 个变量来表示,同时 这一个新的变量又尽 可能包含原来的两个 变量的信息,这就是 降维的过程
主成分分析的数学模型
数学上的处理是将原始的p个变量作线性组合,作为新的 变量
设p个原始变量为x1,x2, ,x p ,新的变量(即主成分)为 y1,y2, ,y p ,主成分和原始变量之间的关系表示为
简言之,因子分析是通过对变量之间关系的研究,找出 能综合原始变量的少数几个因子,使得少数因子能够反 映原始变量的绝大部分信息,然后根据相关性的大小将 原始变量分组,使得组内的变量之间相关性较高,而不 同组的变量之间相关性较低。因此,因子分析属于多元 统计中处理降维的一种统计方法,其目的就是要减少变 量的个数,用少数因子代表多个原始变量
根据特特征根的大小 一般情况下,当特征根小于1时,就不再选作主成分 了,因为该主成分的解释力度还不如直接用原始变 量解的释力度大 比如表中除前3个外,其他主成分的特征根都小于1 。所以只选择了3个主成分
根据什么选择主成分? (Scree Plot)
Stata还提供了一个更为 直观的图形工具来帮助选 择主成分,即碎石图 (Scree Plot)
主成分分析 (实例分析)
【例】根据2008年一季度沪深两市农业板上市公司的9项主要指标数据,
进行主成分分析,找出主成分并进行适当的解释
基本情况
公司名称
公司成长性指标 公司盈利能力性指标
ROA 主营收入增长率 净利润增长率 主营业务利润率 ROE
EPS
公司股本扩张能力指标
每股净资产 每股公积金 总资产增长率
解释多个变量间的内部结构。即从原始变量中导出少数 几个主分量,使它们尽可能多地保留原始变量的信息, 且彼此间互不相关 主成分分析的目的:数据的压缩;数据的解释 常被用来寻找判断事物或现象的综合指标,并对综
合指标所包含的信息进行适当的解释
主成分分析的基本思想
(以两个变量为例)
对这两个相关变量所携带的信息(在统计上信息往往是指数 据的变异)进行浓缩处理
禾嘉股份 亚盛集团 冠农股份 St中农 敦煌种业 新农开发 香梨股份 新赛股份
0.063 -0.008 0.438 -0.02 0.112 0.277 0.107 0.82
0.232 0.161 0.755 -0.421 -0.158 0.041 -0.054 0.194
0.822 0.709 0.284 0.983 7.144 -2.376 2.101 0.058
• 13.2.1 因子分析的基本原理 • 13.2.2 因子分析的数学模型 • 13.2.3 因子分析的步骤 • 13.2.4 因子分析的Stata命令
什么是因子分析? (factor analysis)
因子分析可以看作是主成分分析的推广和扩展,但它对 问题的研究更深入、更细致一些。实际上,主成分分析 可以看作是因子分析的一个特例
因子分析的数学模型
原始的p个变量表达为k个因子的线性组合变量
设p个原始变量为 x1,x2, ,x p
,要寻找的k个因子
(k<fp1,)为f2, ,fk 示为
,主成分和原始变量之间的关系表
x1 a11 f1 a12 f2 a1k fk 1
x2 a21 f1 a22 f2 a2k fk 2
根据什么选择主成分?
“Initial Eigenvalues”(初始特征根) 实际上就是本例中的9个主轴的长度 特征根反映了主成分对原始变量的影响程度,表示 引入该主成分后可以解释原始变量的信息 特征根又叫方差,某个特征根占总特征根的比例称 为主成分方差贡献率
p
设特征根为,则第i个主成分的方差贡献率为 i i i 1
0.05
0
0.006
0.047
0.421
0.096
0.757
ቤተ መጻሕፍቲ ባይዱ
-0.206
1.988
-0.057
1.86
0.392
1.516
-0.234
2.285
0.392
2008年8月
Stata的输出结果
estat smc
变量之间的存在较强的相关关系,适合作主成分分析
Stata的输出结果 (选择主成分)
该表是选则主成分的主要依据
主成分分析的步骤
对原来的p个指标进行标准化,以消除变量在水平和量纲 上的影响
根据标准化后的数据矩阵求出相关系数矩阵 求出协方差矩阵的特征根和特征向量 确定主成分,并对各主成分所包含的信息给予适当的解释
Stata命令
• pca、pcamat • estat • screeplot • scoreplot、loadingplot • rotate • predict
j 1
(i 1,2 , ,p)
第j个公因子对变量xi的 提供的方差总和,反映 第j个公因子的相对重要 程度
Stata命令
• factor • estat • screeplot • scoreplot、loadingplot • rotate • predict
2020/4/5
本章结束,谢谢观看!
从碎石图可以看到9个主 轴长度变化的趋势
实践中,通常结合具体情 况,选择碎石图中变化趋 势出现拐点的前几个主成 分作为原先变量的代表, 该例中选择前3个主成分 即可
怎样解释主成分?
主成分的因子载荷矩阵
表1中的每一列表示一个主成分作为原来变量线性组 合的系数,也就是主成分分析模型中的系数aij
因子分析的数学模型
(共同度量Communality和公因子的方差贡献率 )
共同度量(Communality)
p
hi2 ai2j i 1
( j 1,2 , ,k)
变量xi的信息能够被k个 公因子解释的程度,用 k个公因子对第i个变量xi 的方差贡献率表示
因子的方差贡献率
k
g
2 j
ai2j
0.258 0.143 0.107 0.209 0.367 0.251 -0.148 0.113
0.009 0.01
0.006 0.006
0.003 0.004
0
0
0.025 0.077
-0.005 -0.016
0.012 0.03
0.02 0.101
1.11 1.144 1.621 1.565 3.096 3.46 2.51 3.83
第13章 主成分分析和因子分析
13.1 主成分分析
• 13.1.1 主成分分析的基本原理 • 13.1.2 主成分分析的数学模型 • 13.1.3 主成分分析的步骤 • 13.1.4 主成分分析的Stata命令
什么是主成分分析?
(principal component analysis)
主成分的概念由Karl Pearson在1901年提出 考察多个变量间相关性一种多元统计方法 研究如何通过少数几个主成分(principal component)来
系数aij为第个i变量与第k个 因子之间的线性相关系数, 反映变量与因子之间的相 关程度,也称为载荷 (loading) 。 由 于 因 子 出 现 在每个原始变量与因子的
x p
a p1 f1
ap2
f2
a pk
fk
p
线性组合中,因此也称为 公因子。为特殊因子,代
因子分析的数学模型
表公因子以外的因素影响