ch19主成分分析和因子分析2011
- 格式:pdf
- 大小:785.28 KB
- 文档页数:87
之马矢奏春创作主成份分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构.综合指标即为主成份.所得出的少数几个主成份,要尽可能多地保管原始变量的信息,且彼此不相关.因子分析是研究如何以最少的信息丧失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法.聚类分析是依据实验数据自己所具有的定性或定量的特征来对年夜量的数据进行分组归类以了解数据集的内在结构,而且对每一个数据集进行描述的过程.其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于分歧组的样本应该足够不相似.三种分析方法既有区别也有联系,本文力图将三者的异同进行比力,并举例说明三者在实际应用中的联系,以期为更好天时用这些高级统计方法为研究所用有所裨益.二、基本思想的异同(一) 共同点主成份分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包括的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题.而且新的变量彼其间互不相关,消除多重共线性.这两种分析法得出的新变量,其实不是原始变量筛选后剩余的变量.在主成份分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成份都是由原有p 个变量线性组合获得.在诸多主成份Zi 中,Z1 在方差中占的比重最年夜,说明它综合原有变量的能力最强,越往后主成份在方差中的比重也小,综合原信息的能力越弱.因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部份.公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量单独具有的因子.对新发生的主成份变量及因子变量计算其得分,就可以将主成份得分或因子得分取代原始变量进行进一步的分析,因为主成份变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处置数据降低了难度.聚类分析的基本思想是: 采纳多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏不同水平,归入分歧的分类中一元,使分类更具客观实际并能反映事物的内在肯定联系.也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系[3 ].聚类分析是通过一个年夜的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集.对向量聚类后,我们对数据的处置难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用.(二) 分歧之处主成份分析是研究如何通过少数几个主成份来解释多变量的方差一协方差结构的分析方法,也就是求出少数几个主成份(变量) ,使它们尽可能多地保管原始变量的信息,且彼此不相关.它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0 ,或样本向量彼此相互垂直的随机变量) ,在这种变换中,坚持变量的总方差(方差之和) 不变,同时具有最年夜方差,称为第一主成份;具有次年夜方差,称为第二主成份.依次类推.若共有p 个变量,实际应用中一般不是找p 个主成份,而是找出m (m < p) 个主成份就够了,只要这m 个主成份能反映原来所有变量的绝年夜部份的方差.主成份分析可以作为因子分析的一种方法呈现.因子分析是寻找潜在的起支配作用的因子模型的方法.因子分析是根据相关性年夜小把变量分组,使得同组内的变量之间相关性较高,但分歧的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子.对所研究的问题就可试图用最少个数的不成测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量.通过因子分析得来的新变量是对每个原始变量进行内部剖析.因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部份.具体地说,就是要找出某个问题中可直接丈量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不成直接丈量到、且相对自力的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态.因子分析只能解释部份变异,主成份分析能解释所有变异. 聚类分析算法是给定m 维空间R 中的n 个向量,把每个向量归属到k 个聚类中的某一个,使得每一个向量与其聚类中心的距离最小.聚类可以理解为: 类内的相关性尽量年夜,类间相关性尽量小.聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律.从三类分析的基本思想可以看出,聚类分析中并没于发生新变量,可是主成份分析和因子分析都发生了新变量.三、数据标准化的比力主成份分析中为了消除量纲和数量级,通常需要将原始数据进行标准化,将其转化为均值为0方差为1 的无量纲数据.而因子分析在这方面要求不是太高,因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量,而且因子变量是每一个变量的内部影响变量,它的求解与原始变量是否同量纲关系其实不太年夜,固然在采纳主成份法求因子变量时,仍需标准化.不外在实际应用的过程中,为了尽量防止量纲或数量级的影响,建议在使用因子分析前还是要进行数据标准化.在构造因子变量时采纳的是主成份分析方法,主要将指标值先进行标准化处置获得协方差矩阵,即相关矩阵和对应的特征值与特征向量,然后构造综合评价函数进行评价.聚类分析中如果介入聚类的变量的量纲分歧会招致毛病的聚类结果.因此在聚类过程进行之前必需对变量值进行标准化,即消除量纲的影响.分歧方法进行标准化,会招致分歧的聚类结果要注意变量的分布.如果是正态分布应该采纳z 分数法.四、应用中的优缺点比力(一) 主成份分析1、优点首先它利用降维技术用少数几个综合变量来取代原始多个变量,这些综合变量集中了原始变量的年夜部份信息.其次它通过计算综合主成份函数得分,对客观经济现象进行科学评价.再次它在应用上偏重于信息贡献影响力综合评价.2、缺点当主成份的因子负荷的符号有正有负时,综合评价函数意义就不明确.命名清晰性低.(二) 因子分析1、优点第一它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高.2、缺点在计算因子得分时,采纳的是最小二乘法,此法有时可能会失效.(三) 聚类分析1、优点聚类分析模型的优点就是直观,结论形式简明.2、缺点在样本量较年夜时,要获得聚类结论有一定困难.由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,可是,聚类分析模型自己却无法识别这类毛病.。
调研数据的主成分分析和因子分析主成分分析(Principal Component Analysis,PCA)和因子分析(Factor Analysis)是调研数据分析中常用的两种方法。
它们都是多元统计分析的技术手段,旨在发现数据中的潜在结构和解释变量之间的关系。
本文将从理论功能、数据处理、应用领域等方面进行介绍和比较。
我们来了解一下主成分分析。
主成分分析是一种降维技术,通过线性组合将原始变量转换为一组新的无关变量,这些新变量称为主成分。
主成分旨在捕获数据集中最多的方差信息,并且彼此之间是无关的。
主成分按照解释的方差大小排序,前几个主成分包含了尽可能多的信息。
主成分分析可以帮助我们发现数据中的隐藏模式和变量之间的关系,减少变量之间的相关性。
相比之下,因子分析是一种探索性的数据分析方法,通过确定潜在的未观察到的因子来解释观察到的变量之间的关系。
因子分析假设观测变量是通过一组潜在因子来生成的,这些潜在因子是无法直接观察到的。
因子分析的目标是解释观测变量的共同方差,并将它们归因于潜在因子。
因子分析通过估计因子载荷矩阵,确定每个变量与每个因子之间的关系。
因子的数量可以根据解释方差的要求进行选择。
在数据处理方面,主成分分析和因子分析都需要进行数据标准化,以确保变量之间具有可比性。
数据标准化的方法包括中心化(减去均值)和缩放(除以标准差)。
标准化后的数据可以避免变量的量纲和单位对分析结果的影响。
主成分分析和因子分析在应用领域上有一些区别。
主成分分析通常用于降维和变量选择,可以帮助我们从大量的变量中提取最有意义的几个主成分。
主成分分析在数据可视化、模式识别和聚类分析等领域得到广泛应用。
而因子分析更多用于探索变量之间的内在结构和关联,尤其适用于心理学、社会科学和市场研究等领域,可以帮助解释问卷调查或者对消费者行为进行分析。
虽然主成分分析和因子分析都可以检测变量之间的关系,但是它们的假设和模型有所不同。
主成分分析假设主成分是数据集的线性组合,并且每个主成分都解释了尽可能多的方差。
一主成分分析法的原理主成分分析法是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法这些综合指标通常被称为主成分,主成分相比原始变量而言,具有更多的优越性,即在研究许多复杂问题时不至于丢失太多信息,从而使我们更容易抓住事物的主要矛盾,提高分析效率该方法的核心就是通过主成分分析,选择n个主分量Y1,Y2,…,Yn,其中Yi (i=1,2,,n)为第i个主成分的得分,以主分量Yi 的方差贡献率ai 作为权数,构造综合评价函数:Y=a1Y2+a2Y2+ +anYn,这样当我们把第i个主成分的得分算出来后,便可以很快求出综合得分,并且按照得分的高低来排序同时我们可以根据第i个主成分的得分来衡量某地区或某企业在第i个主成分所代表的经济效益方面的地位二、主成分分析的基本思想在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
如上所述,主成分分析法正是解决这一问题的理想工具。
因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。
根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。
这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。
标题: 主成分分析和因子分析的区别1,因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。
2,主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。
3,主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。
因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。
4,主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不到的因子。
5,在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。
在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。
和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。
大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。
而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。
当然,这中情况也可以使用因子得分做到。
所以这中区分不是绝对的。
总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。
主成分分析一般很少单独使用:a,了解数据。
(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。
(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。
因子分析实验报告范本(8)对实验结果进行分析研究5、预习抽查、提问及成绩(请按优,良,中,及格,不及格五级评定)6、未抽查学生的预习成绩(请按优,良,中,及格,不及格五级评定,由教师评阅实验报告时确定)第二部分:实验过程记录(可加页)1、实验原始记录(包括实验数据记录,实验现象记录,实验过程发现的问题等)第一步:导入数据交作® 编勘视图茁fttg(D)炜飘D 分折他)图羽〔① 起H■幵数据俸回3檢素…■关闭Q Ct甘斗Q 探存Ctrl-S另存M£0...1舲股票代冯蛋票启称星玉每股收主营业务临入万元主营壮务和净利掏万元总资庐万元总氏储万元am万元净资庐万元1600519蛊州茅台9.3500217181918531611D69333536615&831023:625034133 2520*ST 風圈 4.3100 765S9 91S3 4360£9 5321S J3330 34 48773 2304 洋河战储370001230535 735376 396274 29^0921D08495 3719206974 E00694大酋股盼 3.5100244355349&401 1029551M0G9409297431E177205 551 格力电器 3.27® 9341Q06 35387J6982755 1595O3B3 11073129 1140772596 600392 广杀朋珠 2.42008612 5149 02756 2&35B1 1041310 25314B76031B8亚邦股粘 2.380019276S9613051512365843105490 10 260053 8300386 飞天诚信 2.3200 73471 31617 18937 1452S8 13802 13 131J869 33B 建茉动力 2.2200 5614B38 1196345 J44543 12291644 8253531 4B4038113 10300Q95三六五网•-■'ill3275730342117353B773BO536080720 111600340 痒夏車舊 2 130******** 5SI71492821171O454E07 0757223 75 1697464 12333 美的菓团 2.120010908416 2724175895296 115822077164805 7D 4417492 13601336新华■保晞 2.030010992500770400&3250061043000663669001246B2100 14 E0Q742 一汽宣錐 1.0300 321935 44368 39B42E25EQ323354120392142 15538 云甫白药 1.0700 1331752397977 194470 1471992397999 37 1074393 1660D436片甘腐 1.06001067735215223877338619&37^025274S21 17 600104 上芫棄团1,0500 46954731 528B0772CMO93238147695 2127279010 16674997 106D3168 张普罢思 1.B400 5B567 41D699995 8347S 1031789 7315819601533匠城汽生 1.BJ0042665B9105313355S625543O55J2317249213113305 2060081G 妄怯信托1,6100135026 109457 S209Q22956270060:45 1594&4图1数据第二步:将数据标准化fe9.36004.3100口十"gn丄H L H教IM也…,貝谒股J締出(①…■本©•••r Trnrsn点击分析f 描述统计f 描述。
主成分分析的概念与步骤1. 主成分分析基本思想主成分分析是数学上对数据降维的一种方法。
其基本思想是设法将原来众多的具有一定相关性的指标(比如p 个指标),重新组合成一组新的互不相关的综合指标来代替原来指标。
通常数学上的处理就是将原来p 个指标作线性组合,作为新的综合指标。
但是这种线性组合,如果不加限制,则可以有很多,应该如何去选取呢?在所有的线性组合中所选取的F 1应该是方差最大的,故称F 1为第一主成分。
如果第一主成分不足以代表原来p 个指标的信息,再考虑选取F 2即选第二个线性组合。
为了有效地反映原有信息,F 1已有的信息就不需要再出现在F 2中,用数学语言表达就是要求Cov(F 1,F 2)=0。
称F 2为第二主成分,依此类推可以构造出第三、第四、…、第p 个主成分。
2. 主成分分析的数学模型设有n 个样品(多元观测值),每个样品观测p 项指标(变量):X 1,X 2,…,X p ,得到原始数据资料阵:其中X i = (x 1i ,x 2i ,…,x ni )',i = 1,2,…,p 。
用数据矩阵X 的p 个列向量(即p 个指标向量)X 1,X 2,…,X p 作线性组合,得综合指标向量:简写成:F i = a 1i X 1 + a 2i X 2 +…+a pi X p i = 1,2,…,p 为了加以限制,对组合系数a i ' = (a 1i ,a 2i ,…,a pi )作如下要求:即:a i 为单位向量:a i 'a i = 1,且由下列原则决定:),...,,(.....................21212222111211p np n n p p X X X x x x x x x x x x X =⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=11112121212122221122...............p p p p p p p pp pF a X a X a X F a X a X a X F a X a X a X =+++⎧⎪=+++⎪⎨⎪⎪=+++⎩p i a a a pi i i ,...,2,1,1...22221==+++1) F i 与F j (i ≠j , i , j = 1, …, p )互不相关,即Cov(F i ,F j ) = 0,并有Var(F i )=a i 'Σa i ,其中Σ为X 的协方差阵2) F 1是X 1,X 2,…,X p 的一切线性组合(系数满足上述要求)中方差最大的,即 ,其中c = (c 1,c 2,…,c p )'F 2是与F 1不相关的X 1,X 2,…,X p 一切线性组合中方差最大的,…,F p 是与F 1,F 2,…,F p-1都不相关的X 1,X 2,…,X p 的一切线性组合中方差最大的。
护理人员科研能力自评量表的修订潘银河;程金莲【摘要】[目的]对护理人员科研能力自评量表进行修订,考察其信度和效度.[方法]通过对5名专家和10名护士长的访谈形成量表初稿,预调查选择了245名护士进行条目筛选,正式调查选择了394名护士进行量表的信度和效度检验.[结果]条目筛选和探索性因子分析后,量表的6个维度为问题发现能力、文献查阅能力、科研设计能力、科研实践能力、数据资料处理能力和论文写作能力,共37个条目.量表标准后的Cronbach's α系数为0.861,各维度的Cronbach's α系数为0.655~0.760,验证性因子分析后RMSEA=0.095.[结论]护理人员科研能力自评量表修订版的信度较好,效度有待进一步改善.【期刊名称】《护理研究》【年(卷),期】2011(025)013【总页数】4页(P1205-1208)【关键词】护理人员;科研能力;自评量表;信度;效度【作者】潘银河;程金莲【作者单位】030001,山西医科大学护理学院;030001,山西医科大学第一医院【正文语种】中文【中图分类】R197.323护理学是医学领域的一门独立学科,专业化的判断由所从事专业人员的能力决定,护理人员的专业核心能力中包括研究能力[1,2]。
我国的护理事业受历史因素影响,护理人员整体素质不高,科研能力普遍较低。
目前,国内在逐步重视护理人才培养的同时,积极提高护理人员的科研能力。
为了能够有效地对护士的科研能力进行客观评价,了解护理人员的科研能力层次,为今后的管理和培训工作提供指导,研制信效度较高的护理人员科研能力评价工具非常必要。
刘瑞霜[3]编制的护理人员科研能力自评量表,包括计算机软件操作、论文写作知识、科研基础知识、统计学知识4个要素,在课题前期的使用过程中发现其信度较好,但是量表的完成率不高,效度分析结果不理想[4,5]。
为此,本研究着重从以下几方面对量表进行了修订:①对条目的语言陈述进一步推敲和改善,使条目易于理解,期望能提高量表的完成率;②根据理论框架,重新拟定量表的维度;③为了增大量表测试的变异性,将原量表的4级评分法改为5级评分法。