第9章 因子分析
- 格式:pptx
- 大小:2.92 MB
- 文档页数:36
第九章 对应分析§9.1 什么是对应分析及基本思想对应分析又称为相应分析,于1970年由法国统计学家J.P.Beozecri 提出来的。
它是在R 型和Q 型因子分析基础上发展起来的一种多元统计方法。
由前一章我们知道应用因子分析的方法,可以用较少的几个公共因子去提取研究对象的绝大部分信息,即可减少因子的数目,又把握住了研究对象之间的相互关系。
但是因子分析根据研究对象的不同又分为R 型因子分析和Q 型因子分析,即对指标(变量)作因子分析和对样品作因子分析是分开进行的,这样做往往会漏掉一些指标与样品之间有关的一些信息,另外在处理实际问题中,样品的个数远远地大于变量个数。
比如有100个样品,每个样品测10项指标,要作Q 型因子分析,就要计算(100×100)阶相似系数阵的特征根和特征向量,这对于一般小型计算机的容量和速度都是难以胜任的。
对应分析是将R 型因子分析与Q 型分子分析结合起来进行统计分析,它是从R 型因子分析出发,而直接获得Q 型因子分析的结果。
克服了由样品容量大,作Q 型分析所带来的计算上的困难。
另外根据R 型和Q 型分析的内在联系,可将指标(变量)和样品同时反映到相同坐标轴(因子轴)的一张图形上,便于对问题的分析。
比如在图形上邻近的一些样品则表示它们的关系密切归为一类,同样邻近的一些变量点则表示它们的关系密切归为一类,而且属地同一类型的样品点,可用邻近的变量点来表征。
因此,对应分析,概括起来可提供如下三方面的信息即指标之间的关系,样品之间的关系,以及指标与样品之间的关系。
基本思想:由于R 型因子分析和Q 型因子分析都是反映一个整体的不同侧面,因此它们之间一定存在内在的联系。
对应分析就是通过一个过渡矩阵Z 将二者有机地结合起来,具体地说,首先给出变量点的协差阵Z Z A '=和样品点的协差阵Z Z B '=,由于Z Z '和Z Z '有相同的非零特征根记为),m i n(0,21n p m m ≤<≥≥≥λλλ ,如果A 的特征根i λ对应的特征向量为i U ,则B 的特征根i λ对应的特征向量就是i i V ZU ∆,根据这个结论(后面有证明)就可以很方便的借助R 型因子分析而得到Q 型因子分析的结果。
医学统计学第3版课程设计1. 课程概述本课程是医学统计学第3版课程设计,是为了帮助医学生掌握医学统计学的基本概念、方法和技能,以及其在临床、流行病学和健康科研中的应用。
该课程通过课堂讲授、案例分析和实践练习等方式,授予学生医学统计学的知识和技能,是医学生必修课程之一。
2. 课程目标•掌握医学统计学的基本知识和方法;•学会应用医学统计学进行数据分析和推断;•了解医学统计学在临床、流行病学和健康科研中的应用;•能够运用医学统计学方法分析和评估临床研究和公共卫生问题;•能够熟练运用SPSS等统计软件进行数据管理和分析。
3. 课程内容和教学方法3.1 课程内容本课程内容包括基本概念、计量方法、推断方法、回归分析、实验设计、临床试验、流行病学和生存分析等方面的内容。
具体包括以下章节:•第一章:绪论•第二章:描述性统计学•第三章:概率理论和分布•第四章:参数估计•第五章:假设检验•第六章:回归分析•第七章:方差分析•第八章:因子分析•第九章:生存分析•第十章:实验设计•第十一章:临床试验•第十二章:流行病学3.2 教学方法本课程采用面授讲解、案例分析和实践练习相结合的方式,教师将采用多媒体辅助教学和互动式教学方法,引导学生积极思考和参与,培养学生的分析思维和解决实际问题的能力。
具体教学方法包括:•面授讲解•小组案例分析•课堂讨论•实践练习•课程作业4. 评估方法本课程评估分为平时成绩和期末考试两部分。
平时成绩包括:•课堂出席率•作业完成情况•小组案例分析报告期末考试为闭卷考试,考试题型包括选择题、计算题和应用题。
5. 参考教材本课程参考教材为《医学统计学》第3版,作者为雷公达、叶志明、王立平。
此外,教师还会补充相关的学术论文和国际标准等资料。
6. 总结医学统计学是医学生必修课程之一,是医学生进行临床医学和公共卫生研究的重要工具。
本课程将通过多种教学方法,为学生提供全面的医学统计学知识和技能,为学生未来的学习和研究奠定坚实基础。
第9章因子分析与主成份分析因子分析与因子分析进程因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方式。
线性综合指标往往是不能直接观测到的,但它更能反映事物的本质。
因子分析概念在各个领域的科学研究中往往需要对反映事物的多个变量进行大量的观测,搜集大量数据以便进行分析寻觅规律。
多变量大样本无疑会为科学研究提供丰硕的信息,但也在必然程度上增加了数据收集的工作量,更重要的是在大多数情形下,许多变量之间可能存在相关性而增加了问题分析的复杂性。
由于各变量之间存在必然的相关关系,因此有可能用较少的综合指标别离综合存在于各变量中的各类信息,而综合指标之间彼此不相关,即各指标代表的信息不重叠。
如此就可以够对综合指标按照专业知识和指标所反映的独特含义给予命名。
这种分析方式成为因子分析,代表各类信息的综合指标就称为因子或主成份。
按照因子分析的目的咱们明白,综合指标应该比原始变量少,但包括的信息量应该相对损失较少。
原始变量:X一、X二、X3、X4……Xm主成份:Z一、Z二、Z3、Z4……Zn则各因子与原始变量之间的关系能够表示成:X1=b11Z1+b12Z2+b13Z3……+b1n Z n+e1X2=b21Z1+b22Z2+b23Z3……+b2n Z n+e2X3=b31Z1+b32Z2+b33Z3……+b3n Z n+e3……X m=b m1Z1+b m2Z2+b m3Z3……+b mn Z n+en写成矩阵形式为:X=BZ+E。
其值X为原始变量向量,B为公因子负荷系数矩阵,Z为公因子向量,E为残差向量。
公因子Z一、Z二、Z3…Zn之间彼此不相关,称为正交模型。
因子分析的任务就是求出公因子负荷系数和残差。
若是残差E的影响很小能够忽略不计,数学模型变成X=BZ。
若是Z中各分量之间彼此不相关,形成特殊形式的因子分析,称为主成份分析。
主成份分析的数学模型能够写成:Z1=a11X 1+a12X2+a13X 3……+a1m X mZ2=a21X 1+a22X2+a23X 3……+a2m X mZ3=a31X 1+a32X2+a33X 3……+a3m X m……Z n=an1X 1+an2X2+an3X 3……+anm X m写成矩阵形式为:Z=AX。
第八章_因子分析因子分析是一种常用的多元统计分析方法,它通过对观测变量之间的关系进行综合考虑,将它们归纳为较少数量的共同因子,并解释这些因子与观测变量之间的关系。
因子分析可以用来发现数据背后的隐藏结构和模式,从而提高数据的解释力和预测能力。
1.因子分析的主要应用领域因子分析在许多领域中都有广泛应用。
在社会科学领域,因子分析常用于对人的主观评价和态度的研究,例如对消费者满意度、领导能力等方面的研究。
在市场研究中,因子分析可以将众多的市场指标归纳为几个关键的影响因素,从而更好地了解市场的特点和消费者的需求。
在心理学领域,因子分析可以用来研究人的智力、性格、态度等方面的因素。
在生物医学领域,因子分析可以用来研究疾病的病因,如心脏病的发病机制等。
2.因子分析的基本原理因子分析的基本原理是通过对观测变量之间的协方差矩阵进行特征值分解,找出最能解释观测变量之间关系的共同因子。
首先,将原始数据标准化,然后计算变量之间的协方差矩阵。
接下来,对协方差矩阵进行特征值分解,得到一组特征值和特征向量。
根据特征值的大小,选择前k个最大的特征值对应的特征向量,作为共同因子的估计。
最后,通过因子载荷矩阵和因子得分矩阵,将观测变量映射到共同因子上进行解释。
3.因子分析的步骤因子分析的步骤主要包括:确定研究对象和目标、准备数据、选择因子提取方法、确定因子数目、因子旋转和解释因子。
(1)确定研究对象和目标:确定要进行因子分析的变量和要研究的问题,例如对消费者满意度进行因子分析,研究消费者满意度的主要影响因素。
(2)准备数据:收集数据并进行预处理,包括缺失值处理、异常值处理和变量标准化。
(3)选择因子提取方法:根据数据的特点和研究目标选择适合的因子提取方法,常见的方法包括主成分分析、主因子分析和最大似然估计。
(4)确定因子数目:根据特征值和方差贡献率等指标,确定最优的因子数目。
(5)因子旋转:对提取的因子进行旋转,使得每个因子上的变量载荷更加清晰和有意义。
第13章因子分析因子分析始于1904年Chars Spearman对学生成绩的分析,在经济领域有着极为广泛的用途。
在多个变量的变化过程中,除了一些特定因素之外,还受到一些共同因素的影响。
因此,每个变量可以拆分成两部分,一是共同因素,二是特殊因素。
这些共同因素称为公因子,特殊因素称为特殊因子。
因子分析即是提出多个变量的公共影响因子的一种多元统计方法,它是主成分分析的推广。
因子分析主要解决两类问题:一是寻求基本结构,简化观察系统。
给定一组变量或观察数据,是否存在一个子集,特别是一个加权子集,来解释整个问题,即将为数众多的变量减少为几个新的因子,以再现它们之间的内在联系。
二是用于分类,将变量或样本进行分类,根据因子得分值,在因子轴所构成的空间中进行分类处理。
p个变量X的因子模型表达式为:f称为公因子,Λ称为因子载荷。
X的相关系数矩阵分解为:对于未旋转的因子,1Φ。
ψ称为特殊度,即每个变量中不属于共性的部=分。
13.1 因子估计Stata可以通过变量进行因子分析,也可以通过矩阵进行。
命令为factor 或factormat。
webuse bg2,cleardescribefactor bg2cost1-bg2cost6factor bg2cost1-bg2cost6, factors(2)* pf 主因子方法,用复相关系数的平方作为因子载荷的估计量(默认选项)factor bg2cost1-bg2cost6, factors(2) pcf* pcf 主成分因子,假定共同度=1factor bg2cost1-bg2cost6, factors(2) ipf* ipf 迭代主因子,重复估计共同度factor bg2cost1-bg2cost6, factors(2) ml* ml 极大似然因子,假定变量(至少3个)服从多元正态分布,对偏相关矩阵的行列式进行最优化求解,等价于Rao的典型因子方法13.2 预测Stata可以通过predict预测变量得分、拟合值和残差等。
第九章9.1(1)利用主成分确定了8个指标的主成分,有4个,如图(21)(2)用order()分别对4个主成分的预测值进行排序,结果是如下表(26),而利用kmeans()进行动态排序得到如下分类:第1类:建材(6),森工(7),食品(8),纺织(9),皮革(11);第2类:机械(5);第3类:电力(2),煤炭(3),缝纫(10)造纸(12);第4类:冶金(1)化学(4),文教艺术用品(13)。
成分13个行业排序结果第一主成分: 5 1 3 2 4 6 13 11 9 7 12 10 8 第二主成分: 5 8 4 9 10 1 13 12 7 11 6 2 3 第三主成分:8 1 5 3 9 12 7 10 2 6 11 4 13 第四主成分:11 6 5 7 10 13 12 9 1 8 3 2 4表(26)各行业按主成分得分进行排序结果图(21)主成分碎石图图(22)第一主成分与第二主成分下的散点图习题程序与结论:> industry<-data.frame(+X1=c(90342,4903,6735,49454,139190,12215,2372,11062,17111,1206,2150,5251,14341),+X2=c(52455,1973,21139,36241,203505,16219,6572,23078,23907,3930,5704,6155,13203),+X3=c(101091,2035,3767,81557,215898,10351,8103,54935,52108,6126,6200,10383,19396),+X4=c(19272,10313,1780,22504,10609,6382,12329,23804,21796,15586,10870,16875,14691),+ X5=c(82.0,34.2,36.1,98.1,93.2,62.5,184.4,370.4,221.5,330.4,184.2,146.4,94.6),+ X6=c(16.1,7.1,8.2,25.9,12.6,8.7,22.2,41.0,21.5,29.5,12.0,27.5,17.8),+X7=c(197435,592077,726396,348226,139572,145818,20921,65486,63806,1840,8913,78796,6354), +X8=c(0.172,0.003,0.003,0.985,0.628,0.066,0.152,0.263,0.276,0.437,0.274,0.151,1.574) )> industry.pr<-princomp(industry,cor=T)> summary(industry.pr) ####做主成分分析,得到4个主成分,累积贡献率达94.68% Importance of components:Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Standard deviation 1.7620762 1.7021873 0.9644768 0.80132532 0.55143824Proportion of Variance 0.3881141 0.3621802 0.1162769 0.08026528 0.03801052Cumulative Proportion 0.3881141 0.7502943 0.8665712 0.94683649 0.98484701Comp.6 Comp.7 Comp.8Standard deviation 0.29427497 0.179400062 0.0494143207Proportion of Variance 0.01082472 0.004023048 0.0003052219Cumulative Proportion 0.99567173 0.999694778 1.0000000000> load<-loadings(industry.pr) ####求出载荷矩阵> loadLoadings:Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8X1 -0.477 -0.296 -0.104 0.184 0.758 0.245X2 -0.473 -0.278 -0.163 -0.174 -0.305 -0.518 0.527X3 -0.424 -0.378 -0.156 -0.174 -0.781X4 0.213 -0.451 0.516 0.539 0.288 -0.249 0.220X5 0.388 -0.331 -0.321 -0.199 -0.450 0.582 0.233X6 0.352 -0.403 -0.145 0.279 -0.317 -0.714X7 -0.215 0.377 -0.140 0.758 -0.418 0.194X8 -0.273 0.891 -0.322 0.122Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8SS loadings 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000Proportion Var 0.125 0.125 0.125 0.125 0.125 0.125 0.125 0.125Cumulative Var 0.125 0.250 0.375 0.500 0.625 0.750 0.875 1.000> plot(load[,1:2])> text(load[,1],load[,2],adj=c(-0.4,-0.3))> screeplot(industry.pr,npcs=4,type="lines") ####得出主成分的碎石图> biplot(industry.pr) ####得出在第一,第二主成分之下的散点图> p<-predict(industry.pr) ####预测数据,讲预测值放入p中> order(p[,1]);order(p[,2]);order(p[,3]);order(p[,4]);####将预测值分别以第一,第二,第三,第四主成分进行排序[1] 5 1 3 2 4 6 13 11 9 7 12 10 8[1] 5 8 4 9 10 1 13 12 7 11 6 2 3[1] 8 1 5 3 9 12 7 10 2 6 11 4 13[1] 11 6 5 7 10 13 12 9 1 8 3 2 4> kmeans(scale(p),4) ####将预测值进行标准化,并分为4类K-means clustering with 4 clusters of sizes 5, 1, 4, 3Cluster means:Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.61 0.5132590 -0.03438438 -0.3405983 -0.5130031 0.2355151 0.224410402 -2.5699693 -1.32913757 -0.4848689 -0.9460127 -0.9000187 -0.064979503 0.2381581 0.72871986 -0.2995918 0.3126036 -0.4744091 -0.197097104 -0.3163193 -0.47127333 1.1287426 0.7535380 0.5400265 -0.08956137Comp.7 Comp.81 -0.38197798 -0.74748552 -0.67500209 0.45695483 0.09063069 0.98269154 0.74078975 -0.2167643Clustering vector:[1] 4 3 3 4 2 1 1 1 1 3 1 3 4Within cluster sum of squares by cluster:[1] 19.41137 0.00000 24.49504 16.61172(between_SS / total_SS = 37.0 %)Available components:[1] "cluster" "centers" "totss" "withinss" "tot.withinss"[6] "betweenss" "size"9.2####用数据框的形式输入数据####用数据框的形式输入数据sale<-data.frame(X1=c(82.9,88.0,99.9,105.3,117.7,131.0,148.2,161.8,174.2,184.7),X2=c(92,93,96,94,100,101,105,112,112,112),X3=c(17.1,21.3,25.1,29.0,34.0,40.0,44.0,49.0,51.0,53.0),X4=c(94,96,97,97,100,101,104,109,111,111),Y=c(8.4,9.6,10.4,11.4,12.2,14.2,15.8,17.9,19.6,20.8))####作线性回归lm.sol<-lm(Y~X1+X2+X3+X4,data=sale)summary(lm.sol)显示结果Call:lm(formula = Y ~ X1 + X2 + X3 + X4, data = sale)Residuals:1 2 3 4 5 6 70.024803 0.079476 0.012381 -0.007025 -0.288345 0.216090 -0.1420858 9 100.158360 -0.135964 0.082310Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) -17.66768 5.94360 -2.973 0.03107 *X1 0.09006 0.02095 4.298 0.00773 **X2 -0.23132 0.07132 -3.243 0.02287 *X3 0.01806 0.03907 0.462 0.66328X4 0.42075 0.11847 3.552 0.01636 *---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 0.2037 on 5 degrees of freedomMultiple R-squared: 0.9988, Adjusted R-squared: 0.9978F-statistic: 1021 on 4 and 5 DF, p-value: 1.827e-07模型通过t检验和F检验,因此回归方程为:Y=-17.66768+0.09006X1-0.23132X2+0.01806X3+0.42075X4 Y 是销售量,X1是居民可支配收入X2是该类消费品平均价格指数,X1和X2越高Y越高这与实际情况不符,原因是4个变量存在多重共线性,对变量作主成分回归,先作主成分分析。