因子分析是主成分分析的推广和发展
- 格式:doc
- 大小:92.50 KB
- 文档页数:4
实证分析1、因子分析法的基本原理因子分析(Factor Analysis)是利用降维方法进行统计分析的一种多元统计方法,是主成分分析的推广和发展,最初是20世纪初英国的心理学家Charles Spearmen提出,在有关智力测验的统计工作中应用,它通过研究相关矩阵或协方差矩阵的内部依赖关系,在尽可能不损失信息或者少损失信息的情况下,探求样本数据集地基本结构,并将多个变量综合为少数几个潜在的因子,这几个因子可以高度地概括大量样本的信息,几乎能够完全表达出原始变量同因子之间的关系设有P 个原始变量,表示为X ,根据因子分析法的原理,首先假设这些变量已经标准化(均值为0,标准差为1),并假设P 个变量可以由m 个因子表示为线性组合,即用矩阵的形式表示因子分析的数学模型为:,其中 X 为可实测的 p 维随机向量,它的每个分量都表示一个变或者指标:是公共因子(Common Factors)。
矩阵 A是特殊因子(Unique Factors),表示原始变量中不能由因子解释的部分,均值为零,包括随机误差。
因子分析首先要保证变量是相关的,如果变量之间不存在相关性,则提取不出公共因子,不适合因子分析。
所以在进行因子分析前,必须先检验是否相关,只有具备较高的相关性,才适合做因子分析,也称适当性检验。
KMO和Bartlett球形检验一般用来测试变量的相关性是够适合进行因子分析,当KMO的值在0.5以上时表明适合做公共因子分析,Bartlett球形检验的值在0.05以下时,即相关系数矩阵显著异于单位矩阵,表明将样本采用因子分析是合适的。
2、回归分析的基本原理回归分析是统计学中常用的基本分析方法,它用于分析事物之间的统计关系。
回归分析主要研究变量之间的线性关系,称为线性回归分析,线性回归分析是基于最小二乘法原理产生的古典统计假设下的统计分析方法,用来研究一个或多个自变量与一个因变量之间是否存在某种线性关系。
假如引入回归分析的自变量仅有一个,就是简单线性回归分析,如果引入回归分析的自变量有两个以上,那么就是多元线性回归分析,简单线性回归是多元线性回归的特例。
因子分析实验报告范本(8)对实验结果进行分析研究5、预习抽查、提问及成绩(请按优,良,中,及格,不及格五级评定)6、未抽查学生的预习成绩(请按优,良,中,及格,不及格五级评定,由教师评阅实验报告时确定)第二部分:实验过程记录(可加页)1、实验原始记录(包括实验数据记录,实验现象记录,实验过程发现的问题等)第一步:导入数据交作® 编勘视图茁fttg(D)炜飘D 分折他)图羽〔① 起H■幵数据俸回3檢素…■关闭Q Ct甘斗Q 探存Ctrl-S另存M£0...1舲股票代冯蛋票启称星玉每股收主营业务临入万元主营壮务和净利掏万元总资庐万元总氏储万元am万元净资庐万元1600519蛊州茅台9.3500217181918531611D69333536615&831023:625034133 2520*ST 風圈 4.3100 765S9 91S3 4360£9 5321S J3330 34 48773 2304 洋河战储370001230535 735376 396274 29^0921D08495 3719206974 E00694大酋股盼 3.5100244355349&401 1029551M0G9409297431E177205 551 格力电器 3.27® 9341Q06 35387J6982755 1595O3B3 11073129 1140772596 600392 广杀朋珠 2.42008612 5149 02756 2&35B1 1041310 25314B76031B8亚邦股粘 2.380019276S9613051512365843105490 10 260053 8300386 飞天诚信 2.3200 73471 31617 18937 1452S8 13802 13 131J869 33B 建茉动力 2.2200 5614B38 1196345 J44543 12291644 8253531 4B4038113 10300Q95三六五网•-■'ill3275730342117353B773BO536080720 111600340 痒夏車舊 2 130******** 5SI71492821171O454E07 0757223 75 1697464 12333 美的菓团 2.120010908416 2724175895296 115822077164805 7D 4417492 13601336新华■保晞 2.030010992500770400&3250061043000663669001246B2100 14 E0Q742 一汽宣錐 1.0300 321935 44368 39B42E25EQ323354120392142 15538 云甫白药 1.0700 1331752397977 194470 1471992397999 37 1074393 1660D436片甘腐 1.06001067735215223877338619&37^025274S21 17 600104 上芫棄团1,0500 46954731 528B0772CMO93238147695 2127279010 16674997 106D3168 张普罢思 1.B400 5B567 41D699995 8347S 1031789 7315819601533匠城汽生 1.BJ0042665B9105313355S625543O55J2317249213113305 2060081G 妄怯信托1,6100135026 109457 S209Q22956270060:45 1594&4图1数据第二步:将数据标准化fe9.36004.3100口十"gn丄H L H教IM也…,貝谒股J締出(①…■本©•••r Trnrsn点击分析f 描述统计f 描述。
一、问题的提出在科学研究或日常生活中,常常需要判断某一事物在同类事物中的好坏、优劣程度及其发展规律等问题。
而影响事物的特征及其发展规律的因素(指标)是多方面的,因此,在对该事物进行研究时,为了能更全面、准确地反映出它的特征及其发展规律,就不应仅从单个指标或单方面去评价它,而应考虑到与其有关的多方面的因素,即研究中需要引入更多的与该事物有关系的变量,来对其进行综合分析和评价。
多变量大样本资料无疑能给研究人员或决策者提供很多有价值的信息,但在分析处理多变量问题时,由于众变量之间往往存在一定的相关性,使得观测数据所反映的信息存在重叠现象。
因此为了尽量避免信息重叠和减轻工作量,人们就往往希望能找出少数几个互不相关的综合变量来尽可能地反映原来数据所含有的绝大部分信息。
而主成分分析和因子分析正是为解因子分相关。
1.2.),3. 主成分的各系数,是唯一确定的、正交的。
不可以对系数矩阵进行任何的旋转,且系数大小并不代表原变量与主成分的相关程度;而因子模型的系数矩阵是不唯一的、可以进行旋转的,且该矩阵表明了原变量和公共因子的相关程度。
4. 主成分分析,可以通过可观测的原变量X直接求得主成分Y,并具有可逆性;因子分析中的载荷矩阵是不可逆的,只能通过可观测的原变量去估计不可观测的公共因子,即公共因子得分的估计值等于因子得分系数矩阵与原观测变量标准化后的矩阵相乘的结果。
还有,主成分分析不可以像因子分析那样进行因子旋转处理。
5.综合排名。
主成分分析一般依据第一主成分的得分排名,若第一主成分不能完全代替原始变量,则需要继续选择第二个主成分、第三个等等,此时综合得分=∑(各主成分得分×各主成分所对应的方差贡献率),主成分得分是将原始变量的标准化值,代入主成分表达式中计算得到;而因子分析的综合得分=∑(各因子得分×各因子所对应的方差贡献率)÷∑各因子的方差贡献率,因子得分是将原始变量的标准化值,代入因子得分函数中计算得到。
《应用统计分析》----题目2题目2 数据data2是某医院3年中各月的数据,包括门诊人次、出院人数、病床利用率和周转次数、平均住院天数、治愈或好转率、病死率、诊断符合率、抢救成功率。
采用因子分析法探讨综合评价指标。
一、因子分析法因子分析是主成分分析的推广和发展,也是利用降维方法进行统计分析的一种多元统计方法。
它是一种将多变量化简的技术,其目的是分解原始变量,从中归纳出潜在的“类别”,相关性较强的指标归为一类,不同类间变量的相关性则降低。
每一类变量代表了一个“共同因子”,即一种内在结构,因子分析就是要寻找该结构。
因子分析有一个默认的前提条件就是各变量间必须有相关性,否则,各变量间没有共享信息,就不应当有公因子需要提取,自然也谈不上使用该方法。
具体在该条件的判断上,除了根据专业知识来估计外,还可以使用KMO统计量和Bartlett’s 球形检验加以判定。
二、操作步骤1.导入数据依次单击“文件—打开—数据文件”命令,打开如图1所示的对话框。
图1 导入数据2.因子分析(1)依次单击“分析—降维—因子分析”命令,如图2所示。
打开图3所示的“因子分析”主对话框。
图2 因子分析菜单(a )选入变量前(b )选入变量后图3 “因子分析”主对话框(2)在图3(a )所示的对话框中选中左边的变量,单击按钮,将其选入到左边的列表框中(如图3a 所示)。
(3)单击“描述”按钮,弹出“因子分析:描述统计”对话框,如图4所示,在“统计量”选项组中选取“原始分析结果”;在“相关矩阵”中选取“系数”和“KMO和Bartlett”。
设置完毕后,单击“继续”按钮,确认操作。
图4 “因子分析:描述”对话框图5 “因子分析:抽取”对话框(4)单击“抽取”按钮,得到如图5所示的“因子分析:抽取”对话框。
选择“方法”为“主成分”;在“分析”选项组选择“相关性矩阵”;在“输出”选项组选择“未旋转的因子解”和“碎石图”;在“提取”选项组中将“因子的固定数量:”设置为4;将“最大收敛性迭代次数:”设置为25.(5)单击“旋转”按钮,得到如图6所示的“因子分析:旋转”对话框。
从变量共同角度评价因子分析的效果因子分析是主成分分析的扩展和推广,它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
近年来,随着计算机技术的高速发展,因子分析在生物学、心理学、医学、气象、地质、经济学等各个领域得到广泛地应用。
因子分析于1931年由Thurstone首次提出,其概念起源于20世纪初Karl Pearson和Charles Spearman等人关于智力测验的统计分析。
因子分析就是利用降维的思想,通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个抽象的变量来表示其基本的数据结构。
因子分析是一种通过显示变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。
因子分析的核心是用较少的互相独立的因子反映原有变量的绝大部分信息。
可以将这一思想用数学模型来表示。
由因子分析的数学模型可引入以下几个相关概念。
这些概念有利于把握因子与原有变量间的关系,明确因子的重要程度以及评价因子分析的效果。
(1)因子载荷因子载荷越大,则说明第i个变量与第j个因子的关系越密切,反之亦然。
(2)变量共同度设因子载荷矩阵为A,则称第i行元素的平方和为变量共同度。
如果大部分原有变量的变量共同度均较高(如高于0.7),则说明所抽取的因子能够反映原有变量的大部分信息(如70%以上),仅有较少的信息丢失。
也就是说,因子分析的效果较好。
因此,变量共同度是衡量因子分析效果的重要指标。
(3)因子的方差贡献因子方差贡献的值越高,说明相应因子的重要性越高。
因此,因子的方差贡献和方差贡献率是衡量每一个因子相对重要性的一个尺度。
浅析因子分析在农村居民家庭人均主要食品消费中的应用统计学专业学生唐志兵指导教师孙连菊摘要:因子分析是主成分分析的推广和发展,它也是多元统计中处理降维的一种方法。
随着时代的快速发展各个领域的信息量都变得相当巨大而且复杂,要从中得到正确的有价值的部分就非常困难,为此我们需要一种可靠的统计方法能够最大的限度的保留原有信息量的真实性可靠性,然而因子分析刚好满足这一条件,本文就是因子分析在实际中的应用。
因子分析是研究相关阵或协差阵的内部依赖关系,将多个变量综合为少数几个因子,再现原始变量与因子之间的关系。
利用因子分析分析2010年各地区农村居民家庭平均每人主要食品消费量,用马克威软件(MARKWAY)对其进行综合分析。
关键词:主成分分析因子分析数学模型贡献率The application of factor analysisin rural households main food consumption per capitaStudent majoring in Statistics Tang ZhibingTutor Sun LianjuAbstract:Factor analysis is the principal component analysis’ promotion and development, it is also a way to reducing dimensions.With the rapid development of the time, the information of all areas becoming quite huge and complex, it become more and more difficult to collect the exactly and valuable part of it. In view of this, we need a reliable statistic method to retain the original reliability and authenticity of the information .Obviously, factor analysis fits it well. Factor analysis is related to the study of the covariance matrix or poor array internal dependent relationship between original variables and the factors. By using the factor analysis of MARKWAY soft to analysis the data of 2010 year rural households on average to major food consumption .Key words: PCA; Factor Analysis ; Mathematical Model; Contribution Rate引言因子分析是主成分分析的推广和发展,它也是多元统计中处理降维的一种方法。
原始变量相关性越弱因子分析
因子分析是对原始变量间内在相关结构进行分组,相关性强的分在一组,组间相关性较弱这样各组变量代表一个基本要素(公共因子)。
因子分析是主成分分析的推广和发展,其原始变量之间具有相关性,进行因子分析前首先对变量进行相关性检验。
PCA与因子分析的联系与区别:
联系:两者都有降维和信息浓缩的方法,生成的新变量均代表了原始变量的大部分信息且相互独立
区别:(1)主成分是按照方差最大化的方法生成新变量,强调新变量
贡献了多大比例的方差,不关心新变量是否具有明确的实际意义(2)因子分析着重要求新变量具有实际意义,能解释原始变量间内在
结构,因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子。
基本思想:利用降维思维,将原来具有一定相关性的指标,通过
正交变换,重新组合成一组新的相互无关的综合指标,无关变量称为主成分。
计算步骤:
1.将数据标准化
2.求出协方差矩阵
3.求出协方差矩阵对应的特征值和特征向量
4.将特征向量按对应特征值大小从上到下按行排列,取k行组成矩阵
p
5.Y=PX即为降维到k维后的数据
贡献率:总方差中第i个主成分占总p个主成分的比例。
因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。
因子分析的内容十分丰富,这里仅介绍因子分析常用一种类型:R型因子分析(对变量做因子分析)。
基本思想:因子分析的基本思想是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。
然后根据相关性(或相似性)的大小把变量(或样品)分组,使得同组内的变量(或样品)之间相关性(或相似性)较高,但不同组的变量相关性(或相似性)较低。
R 型因子分析数学模型:
用矩阵表示:=
简记为
且满足:
即和是不相关的;
Digg
排行
主成
分分
析
动态
分析
法
判别
分析
聚类
分析
因子
分析
密切
值法
综述
综合
评价
分析
相关
分析
法
因素
分析
法
平衡
分析
法
热门
即不相关且方差皆为1。
<!--[if !vml]--><!--[endif]-->
<!--[if !vml]-->
<!--[endif]-->
即
<!--[if !vml]--><!--[endi
f]-->
不相关,且方差不同。
其中
是可实测的个指标所构成
维随机向量,
是不可观测的向量,称为的公共因子或潜因子。
称为
因子载荷是第个变量在第个公共因子上的负荷。
矩阵称为因子载荷矩阵;
称为的特殊因子,通常理论上要求的斜方差阵是对角阵,中包括了随
机误差。
因子分析和主成分分析的区别:主成分分析的数学模型实质上是一种变换,
而因子分析模型是描述原指标斜方差阵结构的一种模型。
另外,在主成分分
析中每个主成分相应的系数是唯一确定的。
与此相反,在因子分析中每个因
子的相应系数不是唯一的,即因子载荷不是唯一的。
因子模型中公共因子,因子载荷和变量共同度的统计意义:
假定因子模型中,各个变量以及公共因子、特殊因子都已经是标准化(均
值为0,方差为1)的变量。
(1)因子载荷的统计意义:因子载荷的统计意义就是第个变量与第
个公共因子的相关系数即表示依附于的分量(比重)。
它反映第个变量
评论
在第个公共因子上的相对重要性。
(2)变量共同度的统计意义:变量的共同度定义为因子载荷阵中第
行元素的平方和,即,为了说明它的统计意义,将下式两
边求方差,即
由于已经标准化了,所以有
此式说明变量的方差由两部分组成:第一部分为共同度,它刻划全部公共因子对变量的总方差所作的贡献,越接近1,说明该变量的几乎全部原始信息都被所选取的公共因子说明了。
(3)公因子的方差贡献的统计意义
将因子载荷矩阵中各列元素的平方和记为:
称为公共因子对的贡献,即表示同一公共因子对诸变量所提供的方差贡献之总
和,它是衡量公共因子相对重要性指标。
因子分析的计算步骤:
第一步:将原始数据标准化,为书写方便仍记为。
第二步:建立变量的相关系数阵
其中
第三步:求R的特征根及相应的单位特征向量,分别记为
和
根据累计贡献率的要求比如,取前个特征根及相应的特征向量写出因子载荷阵:
第四步:对A施行方差最大正交旋转。
建立因子分析数学模型的目的不仅要找出公共因子以及对变量进行分组,更重要的是要知道每个公共因子的意义,以便对实际问题做出科学的分析,如果每个公共因子的含义不清,不便于进行实际背景的解释,这时根据因子载荷阵的不唯一性,可对因子载荷阵实行旋转即用一个正交阵右乘A(由线性代数知道一个正交变换,对应坐标系的一次旋转)使旋转后的因子载荷阵结构简化,便于对公共因子进行解释。
所谓结构简化就是使每个变量仅在一个公共因子上有较大的载荷,而在其余公共因子上的载荷比较小,至多是中等大小。
这种变换因子载荷阵的方法称为因子轴的旋转,而旋转的方法有多种,如正交旋转,斜交旋转等。
第五步:计算因子得分。
因子分析的数学模型是将变量(或样品)表示为公共因子的线性组合,由于公共因子能反映原始变量的相关关系,用公共因子代表原始变量时,有时更有利于描述研究对象的特征,因而往往需要反过来将公共因子表示为变量(或样品)的线性组合,即
称上式为因子得分函数。
用它来计算每个样品的公共因子得分。
这
样就可以在二维平面上作出因子得分的散点图,进而对样品进行分类或作为下一步分析原始数据时对问题作作更深入的研究。