对主成分分析法三个问题的剖析
- 格式:pdf
- 大小:246.71 KB
- 文档页数:6
2009年第6期 科技管理研究Science and Technol ogy Manage ment Research 2009No 16收稿日期:2008-09-25,修回日期:2008-11-05基金项目:黑龙江省社会科学基金项目(05B0142);黑龙江省自然科学基金项目(G200606)文章编号:1000-7695(2009)06-0128-03对主成分分析三点不足的改进徐永智1,2,华惠川2(11吉林大学东北亚研究院,吉林长春 130012;21黑龙江科技学院经济管理学院,黑龙江哈尔滨 150027)摘要:首先通过均值化和对数中心化处理改进主成分分析的特征提取,其次通过比较最优与最劣样本的主成分数值大小,判定特征向量方向,用熵值法对主成分的综合值计算进行改进。
最后,文章用改进后的主成分方法对中国东部各省市区域创新能力进行综合评价。
关键词:主成分分析;均值化;对数中心化;熵值法中图分类号:C93111文献标识码:A1 问题的提出主成分分析在多指标综合评价中被广泛应用。
但在实际应用中,几乎每个步骤都有值得探讨或改进之处。
本文在前人文献的基础上,总结了具体存在三个问题,并在第二部分对这些问题一一做了解决,最后给出一个实例进行具体应用。
其中,本文在第一部分总结出主成分分析在特征提取、特征向量方向确定以及主成分综合值计算中需要改进的地方。
问题一是,通过将指标正态标准化会存在信息丢失问题,从而使得特征提取性下降,并且当指标间线性程度不高时,应用线性主成分方法也会造成特征提取能力下降的问题。
首先,从原始数据的协方差矩阵可以知道,协方差矩阵包含两部分信息。
一是对角线上的信息,它就是各个指标的方差,反映的是各指标的变异。
二是对角线之外的信息,即各指标间的协方差,它反映的是指标间的相互影响,由相关矩阵体现,因为当指标i 与指标j 的方差不变时,协方差就与指标间的线性相关程度成正比。
但传统的正态标准化方法使各指标的方差变成1,即协方差矩阵的对角元素均为1,这样消除了各指标在变异程度上的差异,从中提取的主成分,只包含各指标间相互影响这一部分信息,显然不能准确反映原始数据所包含的全部信息,所以必须改进这种方法。
主成分的三大原则
主成分分析是一种常用的数据分析方法,它能够从复杂的数据中提取出最重要的信息,并将其转化为更简洁、易于理解的形式。
主成分分析的三大原则为:维度压缩、信息最大化和无关性。
维度压缩是主成分分析的核心原则之一。
在现实生活中,我们经常面临的问题往往涉及多个变量,而这些变量之间可能存在一定的相关性。
主成分分析通过将原始变量转化为一组新的综合变量,从而实现对数据维度的压缩。
这样做的好处在于,可以简化问题的复杂度,提高数据的处理效率。
信息最大化也是主成分分析的重要原则之一。
主成分分析的目标是找到能够解释数据变异最大的综合变量。
这意味着,主成分分析会尽可能地保留原始数据中的信息,以便更好地解释数据的特征和变异。
通过信息最大化,我们可以更好地理解数据的本质和规律,从而做出更准确的预测和决策。
无关性是主成分分析的另一个重要原则。
在主成分分析中,我们希望通过线性组合的方式构建新的综合变量,使得它们之间尽可能地无关。
这样做的目的是为了排除原始变量之间的多重共线性,从而使得分析结果更加稳定和可靠。
通过保持综合变量之间的无关性,我们可以更好地理解数据的结构和特点,进而做出更合理的分析和解释。
主成分分析的三大原则为维度压缩、信息最大化和无关性。
这些原则帮助我们从复杂的数据中提取出最重要的信息,并将其转化为更简洁、易于理解的形式。
通过遵循这些原则,我们可以更好地理解和应用主成分分析方法,从而提高数据分析的效果和准确性。
对主成分分析法的认识一.主成分分析法定义主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太 多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
二.主成分分析法方法实现。
一个主成分不足以代表原来的n 个变量,因此需要寻找第二个乃至第三、第四主成分,第二个主成分不应该再包含第一个主成分的信息,统计上的描述就是让这两个主成分的协方差为零,几何上就是这两个主成分的方向正交。
具体确定各个主成分的方法如下:设i z 表示第i 个主成分,i = 1,2,…,n ,可设11111221221122221122n n n nm m m mn nz c x c x c x z c x c x c x z c x c x c x =+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ 其中对每一个i ,均有222121i i ip c c c +++=且12(,,,)i i ip c c c 使得1()Var Z 的值达到最大;21222(,,,)p c c c 不仅垂直于11121(,,,)p c c c ,而且使2()Var Z 的值达到最大;31323(,,,)p c c c 同时垂直于11121(,,,)p c c c 和21222(,,,)p c c c ,并使3()Var Z )的值达到最大。
1)对原始数据进行标准化处理表1 原始数据标准化处理样本\指标x1x2…xn1 Y11 Y12 Y1n 2 Y21 Y22 … Y2n 3Y31Y32 … Y3n …… mYm1 Ym2…Ymn标准化为:jjij ij S Y Y X -=第j 个指标的样本均值:()n j Y m Y mi ijj ,,2,111⋅⋅⋅==∑=第j 个指标的样本方差:()()n j Y Y m S mi j ij j,,2,111122⋅⋅⋅=--=∑=经标准化处理后可得标准化矩阵:⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=mn m m n n X X X X X X X X X X 212222111211 2)计算相关系数矩阵R计算标准化后的每两个指标间的相关系数,得到相关系数矩阵R ,即n 个指标的协方差矩阵。
主成分分析法总结在实际问题研究中,多变量问题是经常会遇到的。
变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。
因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?一、概述在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。
而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。
为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。
为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。
主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。
主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点:↓主成分个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。
↓主成分能够反映原有变量的绝大部分信息因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。
↓主成分之间应该互不相关通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。
↓主成分具有命名解释性总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。
一、引言主成分分析(PCA)是一种常用的数据降维方法,通过对原始数据进行线性变换,将高维数据投影到低维空间,从而简化数据结构,提高计算效率。
本文通过对主成分分析实验的剖析,详细介绍了PCA的基本原理、实验步骤以及在实际应用中的注意事项。
二、实验背景随着数据量的不断增长,高维数据在各个领域变得越来越普遍。
高维数据不仅增加了计算难度,还可能导致信息过载,影响模型的性能。
因此,数据降维成为数据分析和机器学习中的关键步骤。
PCA作为一种有效的降维方法,在众多领域得到了广泛应用。
三、实验目的1. 理解主成分分析的基本原理;2. 掌握PCA的实验步骤;3. 分析PCA在实际应用中的优缺点;4. 提高数据降维的技能。
四、实验原理主成分分析的基本原理是将原始数据投影到新的坐标系中,该坐标系由主成分构成。
主成分是原始数据中方差最大的方向,可以看作是数据的主要特征。
通过选择合适的主成分,可以将高维数据降维到低维空间,同时保留大部分信息。
五、实验步骤1. 数据准备:选择一个高维数据集,例如鸢尾花数据集。
2. 数据标准化:将数据集中的每个特征缩放到均值为0、标准差为1的范围,以便消除不同特征之间的尺度差异。
3. 计算协方差矩阵:计算标准化数据集的协方差矩阵,以衡量不同特征之间的相关性。
4. 特征值分解:对协方差矩阵进行特征值分解,得到特征值和特征向量。
5. 选择主成分:根据特征值的大小选择前k个特征向量,这些向量对应的主成分代表数据的主要特征。
6. 数据投影:将原始数据投影到选择的主成分上,得到降维后的数据。
六、实验结果与分析1. 实验结果:通过实验,我们得到了降维后的数据集,并与原始数据集进行了比较。
结果表明,降维后的数据集保留了大部分原始数据的信息,同时降低了数据的维度。
2. 结果分析:实验结果表明,PCA在数据降维方面具有良好的效果。
然而,PCA也存在一些局限性,例如:(1)PCA假设数据服从正态分布,对于非正态分布的数据,PCA的效果可能不理想;(2)PCA降维后,部分信息可能丢失,尤其是在选择主成分时,需要权衡保留信息量和降低维度之间的关系;(3)PCA降维后的数据可能存在线性关系,导致模型难以捕捉数据中的非线性关系。
第四节主成分分析方法地理环境是多要素的复杂系统,在我们进行地理系统分析时,多变量问题是经常会遇到的。
变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。
因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。
第一节主成分分析方法的原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。
假定有n个地理样本,每个样本共有p个变量描述,这样就构成了一个n×p阶的地理数据矩阵:如何从这么多变量的数据中抓住地理事物的内在规律性呢?要解决这一问题,自然要在p维空间中加以考察,这是比较麻烦的。
为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。
那么,这些综合指标(即新变量)应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。
如果记原来的变量指标为x1,x2,…,x p,它们的综合指标——新变量指标为x1,x2,…,zm(m≤p)。
则在(2)式中,系数l ij由下列原则来决定:(1)z i与z j(i≠j;i,j=1,2,…,m)相互无关;(2)z1是x1,x2,…,x p的一切线性组合中方差最大者;z2是与z1不相关的x1,x2,…,x p的所有线性组合中方差最大者;……;z m是与z1,z2,……z m-1都不相关的x1,x2,…,x p的所有线性组合中方差最大者。
这样决定的新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,x p 的第一,第二,…,第m主成分。
可编辑修改精选全文完整版第六章 主成分分析法主成分分析法是将高维空间变量指标转化为低维空间变量指标的一种统计方法。
由于评价对象往往具有多个属性指标,较多的变量对分析问题会带来一定的难度和复杂性。
然而,这些指标变量彼此之间常常又存在一定程度的相关性,这就使含在观测数据中的信息具有一定的重叠性。
正是这种指标间的相互影响和重叠,才使得变量的降维成为可能。
即在研究对象的多个变量指标中,用少数几个综合变量代替原高维变量以达到分析评价问题的目的。
当然,这少数指标应该综合原研究对象尽可能多的信息以减少信息的失真和损失,而且指标之间彼此相互独立。
第一节 引言主成分分析,也称主分量分析,由皮尔逊(Pearson )于1901年提出,后由霍特林(Hotelling )于1933年发展了,这也正是现在多元统计分析中的一种经典统计学观点。
经典统计学家认为主成分分析是确定一个多元正态分布等密度椭球面的主轴,这些主轴由样本来估计。
然而,现代越来越多的人从数据分析的角度出发,用一种不同的观点来考察主成分分析。
这时,不需要任何关于概率分布和基本统计模型的假定。
这种观点实际上是采用某种信息的概念,以某种代数或几何准则最优化技术对一个数据阵的结构进行描述和简化。
主成分分析方法的主要目的就是通过降维技术把多个变量化为少数几个主要成分进行分析的统计方法。
这些主要成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。
为了使这些主要成分所含的信息互不重迭,应要求它们互不相关。
当分析结束后,最后要对主成分做出解释。
当主成分用于回归或聚类时,就不需要对主成分做出解释。
另外,主成分还有简化变量系统的统计数字特征的作用。
对于任意p 个变量,描述它们自身及其相互关系的数字特征包括均值、方差、协方差等,共有)1(21-+p p p 个参数。
经过主成分分析后,每个新变量的均值和协方差都为零,所以,变量系统的数字特征减少了)1(21-+p p p 个。
欢迎共阅主成分分析:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),用综合指标来解释多变量的方差- 协方差结构,即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的综合指标即为主成分。
求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知)。
相似。
常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。
注意事项:1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类;2. K-均值法要求分析人员事先知道样品分为多少类;3. 对变量的多元正态性,方差齐性等要求较高。
应用领域:细分市场,消费行为划分,设计抽样方案等优点:聚类分析模型的优点就是直观,结论形式简明。
缺点:在样本量较大时,要获得聚类结论有一定困难。
由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。
因子分析:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错会出现问题);3. 各解释变量之间服从多元正态分布(不符合时,可使用Logistic回归替代),且各组解释变量的协方差矩阵相等(各组协方方差矩阵有显着差异时,判别函数不相同)。
4. 相对而言,即使判别函数违反上述适用条件,也很稳健,对结果影响不大。
应用领域:对客户进行信用预测,寻找潜在客户(是否为消费者,公司是否成功,学生是否被录用等等),临床上用于鉴别诊断。
对应分析/最优尺度分析:利用降维的思想以达到简化数据结构的目的,同时对数据表中的行与列进行处理,寻求以低维图形表示数据表中行与列之间的关系。
主成分分析的基本思想和应用主成分分析(Principal Component Analysis,PCA)是一种常用的数据降维方法,通过保留数据集中的主要特征分量,将高维数据映射到低维空间中,从而实现对数据集的简化。
本文将详细介绍主成分分析的基本思想和应用。
一、基本思想主成分分析的基本思想是将数据集中的多个变量通过线性变换转换为几个线性不相关的变量,这几个变量称为主成分。
在转换过程中,主成分能够最大化数据的方差,从而保留数据集中的主要信息。
通过这种方式,我们可以将高维数据降到较低维度,实现对数据集的简化。
二、数学原理主成分分析的数学原理可以概括为以下几个步骤:1.数据标准化:对数据集进行标准化处理,使得每个变量的均值为0,标准差为1。
2.计算协方差矩阵:根据标准化后的数据计算协方差矩阵,表示数据集中各个变量之间的相关性。
3.计算特征值和特征向量:对协方差矩阵进行特征分解,得到一组特征值和对应的特征向量。
4.选择主成分:根据特征值的大小,降序排列特征值,并选择前k个最大的特征值对应的特征向量作为主成分。
5.形成新的数据集:将原始数据集投影到新的空间中,使得新空间中的数据线性无关,从而实现数据降维。
三、应用主成分分析在许多领域都有广泛的应用,下面列举几个典型的例子:1. 图像处理在图像处理领域,主成分分析可以用于图像降维和图像压缩。
通过保留图像中的主要特征分量,可以将高维的图像数据降到较低维度,从而减少数据量,提高计算效率。
此外,主成分分析还可以用于图像去噪和图像增强等任务。
2. 机器学习在机器学习领域,主成分分析常用于特征提取和特征选择。
通过降维,可以减少模型训练过程中的计算复杂度,提高模型的预测性能。
此外,主成分分析还可以用于数据可视化,将高维数据映射到二维或三维空间中,便于观察数据之间的关系。
3. 金融领域在金融领域,主成分分析可以用于风险管理和资产定价。
通过分析金融市场中的多个变量,提取主要的风险因素,可以帮助投资者更好地理解和预测市场走势。
对主成分分析法运用中十个问题的解析一、本文概述主成分分析法(Principal Component Analysis, PCA)是一种广泛应用于数据降维和特征提取的统计方法。
它通过正交变换将原始数据转换为新的坐标系,使得新坐标系中的各坐标轴(主成分)上的数据互不相关,并且按照方差大小依次排列。
这样,原始数据的大部分信息就可以由少数几个主成分来表示,从而实现数据降维和特征提取的目的。
然而,在应用主成分分析法时,我们常常会遇到一些问题,这些问题可能会影响分析结果的有效性和可靠性。
本文旨在对主成分分析法运用中常见的十个问题进行解析,帮助读者更好地理解和应用这一方法。
通过本文的阐述,读者将能够掌握主成分分析法的核心原理,了解其在应用中可能遇到的问题,以及如何解决这些问题,从而提高数据分析的准确性和效率。
二、数据预处理问题主成分分析(PCA)是一种广泛使用的无监督学习方法,用于从多元数据集中提取关键信息。
然而,在使用PCA之前,对数据进行适当的预处理是至关重要的,因为它可以显著影响PCA的结果。
以下是关于PCA运用中常见的十个数据预处理问题及其解析:缺失值处理:数据集中经常存在缺失值,这些缺失值在进行PCA之前必须进行处理。
一种常见的方法是用均值、中位数或众数来填充缺失值,或者完全删除含有缺失值的行或列。
选择哪种方法取决于数据的性质和分析的目标。
数据标准化:PCA对数据的尺度非常敏感。
因此,通常需要对数据进行标准化处理,即减去均值并除以标准差,以使每个特征的均值为0,标准差为1。
这样,PCA将不再受到特征尺度的影响。
异常值处理:异常值可能会对PCA的结果产生显著影响。
因此,在进行PCA之前,需要对数据进行检查,并决定如何处理异常值。
一种常见的做法是使用IQR(四分位距)来识别并删除或处理异常值。
数据转换:在某些情况下,对数据进行适当的转换可以提高PCA的效果。
例如,对于偏态分布的数据,可以使用对数转换或Box-Cox转换来使其更接近正态分布。
主成分分析主题描述:中国城镇家庭全年人均食品支出分析。
希望通过对原始数据,如粮食支出、肉类支出等多个变量进行主成分分析,研究城镇家庭食品支出的主成分构成,并用较少维度的变量综合表征食品支出这一变量。
模型描述: Y=β1X1+ β2X2+…+ β18X18其中,因变量Y表示:食品支出总额自变量X包括:X1粮食支出、X2淀粉及薯类支出、X3干豆类支出、X4油脂类支出、X5肉禽及制品支出、X6蛋类支出、X7水产品支出、X8菜类支出、X9调味品支出、X10糖类支出、X11烟草类支出、X12酒和饮料支出、X13干鲜瓜果类支出、X14糕点类支出、X15奶及奶制品支出、X16其他支出、X17在外用餐支出、X18食品加工服务费支出共18项指标。
数据来源:2007/2008/2009《中国数据统计年鉴》30个城市自治区居民家庭平均每人全年消费性支出共93组数据(数据见附录)结果展示及分析:操作过程:导入数据后,选择“分析”—“降维”—“因子分析”,在弹出的对话框中:数据选择除“年份”、“城市”、“食品支出”以外的所有变量,“描述”、“抽取”、“得分”选项分别按如下图中设置,其余选项保持默认设置。
其中,将“抽取”设置为“基于特征值—特征值大于1”用以筛选特征根大于1的主成分。
(此处勾选了“载荷图”选项,主要是为了后面因子分析中对比因子旋转前后的载荷变化,在主成分中将暂不做分析。
)设置“得分”选项是用以计算将原始数据和主成分都进行标准化后的主成分系数。
得到的结果如下:这是相关系数矩阵,表明各个变量之间的相关性。
如果数据在此矩阵中表现出来的相关性较强则可进行主成分分析,否则表明数据不需要做主成分分析。
从表中数据看:大多数变量间的相关性中等偏高,个别变量如糕点类与干鲜瓜果类之间的相关性较强……说明所选初始变量存在信息上的重叠,可以尝试进行主成分分析。
本表表明所提取主成分的信息。
初始特征值表征的是引入该主成分对原始变量信息的平均解释力度,当主成分的原始特征根大于1时,表明引入该主成分是有意义的,否则说明引入该主成分对原始变量的解释力度不如引入一个原始变量的解释力度大。
三 主成分分析方法地理环境是多要素的复杂系统,在我们进行地理系统分析时,多变量问题是经常会遇到的。
变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。
因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,这里介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。
一、主成分分析的基本原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。
假定有n 个地理样本,每个样本共有p 个变量描述,这样就构成了一个n×p 阶的地理数据矩阵:111212122212p p n n npx x x x x x X x x x ⎧⎪⎪=⎨⎪⎪⎩ (1)如何从这么多变量的数据中抓住地理事物的内在规律性呢?要解决这一问题,自然要在p 维空间中加以考察,这是比较麻烦的。
为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。
那么,这些综合指标(即新变量)应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。
如果记原来的变量指标为x 1,x 2,…,x p ,它们的综合指标——新变量指标为z 1,z 2,…,zm (m≤p)。
则11111221221122221122,,.........................................,p p p pm m m mp p z l x l x l x z l x l x l x z l x l x l x=+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ (2) 在(2)式中,系数l ij 由下列原则来决定:(1)z i 与z j (i≠j;i ,j=1,2,…,m)相互无关;(2)z 1是x 1,x 2,…,x p 的一切线性组合中方差最大者;z 2是与z 1不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者;……;z m 是与z 1,z 2,……z m-1都不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者。
关于主成分分析的五个问题主成分分析是一种多元分析中最常见的降维和赋权方法。
然而,在实际的应用中,许多人在没有搞清楚方法的意义时就大胆使用,很有点好分析不求甚解的味道。
要知道这样的行为不仅害人而且害己。
所谓害人,就是害了阅读你报告的人;所谓害己,就是你会一而再,再而三的犯错。
第一问:为什么要降维?在实际分析问题时,研究者往往选择很多的指标。
这些指标之间经常会存在一定程度的线性相关,这样就会导致信息的重叠。
直白说就是用多个指标分析一个问题,由于某些指标反映的是问题的同一方面,这样如果把全部指标都同等地纳入模型,就会导致结果失真。
例如衡量学生成绩时,成绩表里有语文、数学、物理、化学。
可是化学老师勤快,一学期测验过好多次,所以这里就有多个化学成绩。
那么计算总分的时候,如果不把几个化学成绩降维成一个化学成绩,就会由于信息的重叠导致结果失真。
第二个问题:线性相关就一定是信息重叠吗?这个不一定吧。
我们举个例子。
比如:要衡量经济发展的影响因素,理论上讲,刺激经济发展的三驾马车是投资、消费和出口,那么我们用于衡量经济发展程度是不是就把这三个指标主成分一下?肯定不是。
正确的做法应该是这三个相加,纵然他们之间可能存在相关,甚至是高度相关,也不能使用主成分。
因为这种相关不是信息的重叠。
所以这里记住一点,线性相关并不意味着信息重叠。
第三个问题:降维一定要用主成分吗?这个答案更容易回答,相信很多人都会说否。
但实际中却一直这么操作。
因为觉得其他降维方法不会呀,而且主成分貌似很高深,用它倍有面子。
其实,实际中使用主成分是因为从主观上没有办法删减变量,如果主观上就能区别出哪些是核心原因,哪些不是,直接将不是的删了就行了,没必要搞个神秘的主成分来把问题复杂化。
要知道主成分使用时,第一步是标准化,这样一来很多指标的意义就模糊了。
这种删减指标的降维方法估计人人都会,可实际中统计专业的达人们却不屑使用。
总觉得用这个方法太没面子了。
所以这里再强调点,使用方法是为了有效解决问题。