数学建模案例分析—主成分分析的应用--概率统计方法建模
- 格式:doc
- 大小:209.00 KB
- 文档页数:4
第一讲 主成分分析在数学建模中的应用1.学习目的1、理解主成分分析的基本思想;2、会用SAS 软件编写相关程序,对相关数据进行主成分分析;3、会用SAS 软件编程结合主成分分析方法解决实际问题。
2.学习要求1、理解主成分分析的基本原理,掌握主成分分析的基本步骤;2、会用SAS 软件编写相关程序,对相关数据进行分析处理与假设检验;3、撰写不少于3000字的小论文;4、 精读一篇优秀论文。
3. 理论基础 3. 1基本思想在实际问题的研究中,往往会涉及众多的变量。
但就是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题与解释问题带来困难。
一般来说,虽然每个变量提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。
因而人们希望对这些变量加以“改造”,用为数较少的互不相关的新变量来反映原来变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。
主成分分析就就是在这种降维的思想下产生的处理高维数据的方法。
3、2 基本原理(1)、总体的主成分定义1、设'12(,,)X X X =p …,X 为P 维随机向量,称'i i Z a X =为X 的第i 主成分(i=1,2,…P),如果:(1) '1(1,2,);i i a a i ==…,p(2) 当i>1时,'0(1,2,);i ja aj ==∑…i-1(3) '''1,0(1,)()max ()j i a a a a j Var Z Var a X ====∑…i-1定理1、设'12(,,)X X X =p …,X 就是P 维随机向量,且()D X =∑,∑的特征值为120p λλλ≥≥≥≥…,12,,p a a a …,为相应的单位正交特征向量,则X 的第i 主成分为'i i Z a X = (1,2,).i =…,p定义2、我们称1/pk ii λλ=∑为主成分k Z 的贡献率;又称11/pm k ik i λλ==∑∑为主成分1,,()m Z Z m p <…的累计贡献率。
主成分分析法案例主成分分析法(Principal Component Analysis, PCA)是一种常用的多变量统计分析方法,它可以帮助我们发现数据中的主要特征和结构,从而简化数据集并减少信息丢失。
在本文中,我们将通过一个实际案例来介绍主成分分析法的应用。
案例背景。
假设我们有一个包含多个变量的数据集,我们希望通过主成分分析法来找出其中的主要特征,并将数据进行降维,以便更好地理解和解释数据。
数据准备。
首先,我们需要对数据进行预处理,包括数据清洗、缺失值处理、标准化等操作。
在这个案例中,我们假设数据已经经过了预处理,并且符合主成分分析的基本要求。
主成分分析。
接下来,我们将利用主成分分析法来分析数据。
主成分分析的基本思想是通过线性变换将原始变量转化为一组线性无关的新变量,这些新变量被称为主成分,它们能够最大程度地保留原始数据的信息。
在进行主成分分析之前,我们需要计算数据的协方差矩阵,并对其进行特征值分解。
通过特征值分解,我们可以得到数据的主成分和对应的特征值,从而找出数据中的主要特征。
案例分析。
假设我们得到了数据的前三个主成分,我们可以通过观察主成分的载荷(loadings)来理解数据中的结构。
载荷可以帮助我们理解每个主成分与原始变量之间的关系,从而解释数据的特点和规律。
通过主成分分析,我们可以发现数据中的主要特征和结构,从而更好地理解数据。
同时,我们还可以利用主成分分析的结果进行数据的降维,从而简化数据集并减少信息丢失。
结论。
通过以上案例分析,我们可以看到主成分分析法在多变量数据分析中的重要作用。
通过主成分分析,我们可以发现数据中的主要特征和结构,从而简化数据集并减少信息丢失。
同时,主成分分析还可以帮助我们更好地理解和解释数据,为后续的分析和应用提供有力支持。
总结。
在本文中,我们通过一个实际案例介绍了主成分分析法的基本原理和应用。
主成分分析是一种常用的多变量统计分析方法,它可以帮助我们发现数据中的主要特征和结构,从而简化数据集并减少信息丢失。
§8 主成分分析的应用主成分分析的基本思想是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们尽可能多地包含原变量的信息(降维),从而使得用这几个新变量替代原变量分析问题成为可能。
即在尽可能少丢失信息的前提下从所研究的m 个变量中求出几个新变量,它们能综合原有变量的信息,相互之间又尽可能不含重复信息,用这几个新变量进行统计分析(例如回归分析、判别分析、聚类分析等等)仍能达到我们的目的。
设有n 个样品,m 个变量(指标)的数据矩阵(1)11121(2)21222()12m m n mn n n nm x x x x x x x x X x x x x ⨯⎛⎫⎛⎫⎪ ⎪ ⎪⎪== ⎪⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭寻找k 个新变量12,,,()k y y y k m ≤ ,使得 1、1122,(1,2,,)l l l lm m y a x a x a x l k =+++= 2、12,,k y y y 彼此不相关这便是主成分分析。
主成分的系数向量12(,,,)l l l lm a a a a = 的分量lj a 刻划出第j 个变量关于第l 个主成分的重要性。
可以证明,若12(,,,)T m x x x x = 为m 维随机向量,它的协方差矩阵V 的m 个特征值为120m λλλ≥≥≥≥ ,相应的标准正交化的特征向量为12,,,m u u u ,则12(,,,)T m x x x x = 的第i 主成分为(1,2,,)T i i y u x i m == 。
称1/mi jj λλ=∑为主成分(1,2,,)Ti i y u x i m == 的贡献率,11/k mj jj j λλ==∑∑为主成分12,,k y y y 的累计贡献率,它表达了前k 个主成分中包含原变量12,,,m x x x 的信息量大小,通常取k 使累计贡献率在85%以上即可。
当然这不是一个绝对不变的标准,可以根据实际效果作取舍,例如当后面几个主成分的贡献率较接近时,只选取其中一个就不公平了,若都选入又达不到简化变量的目的,那时常常将它们一同割舍。
主成分分析在数学建模中的应用首先,PCA在数据预处理中起着重要的作用。
在收集和处理实际数据时,常常会遇到高维数据或带有噪声的数据。
高维数据会导致计算复杂度增加,而噪声则会影响建模的准确性。
使用PCA可以将高维数据降维至较低的维度,同时过滤掉数据中的噪声。
PCA通过计算数据之间的协方差矩阵,找出数据中的主要变量,将其映射到新的特征空间中。
这样可以极大地简化数据的表示,提高后续建模的效率。
其次,PCA在特征提取中也有广泛的应用。
在一些模式识别和机器学习任务中,数据的高维特征往往过于冗余,会导致模型过拟合。
使用PCA可以将原始特征空间转换为更低维的特征空间,只保留最重要的特征。
通过阈值或可调节的权重,可以选择保留几个主成分,以及降低到多少维度。
通过特征提取后的数据,可以降低模型训练和处理时间,同时还能提高模型的泛化能力。
此外,PCA在数据可视化中也发挥着重要的作用。
可视化是对数据理解和解释的重要手段,而高维数据的可视化是一项很具挑战性的任务。
利用PCA可以将高维数据转换为二维或三维空间,便于可视化呈现。
通过绘制主成分之间的关系,可以对数据的结构和分布有更直观的认识。
此外,PCA还可以用于聚类分析,通过将数据在主成分空间中进行聚类,可以更好地观察到数据的聚集和分离情况。
此外,PCA还可以结合其他数学建模方法进行应用。
例如,在回归分析中,可以根据PCA的结果选择最相关的特征变量,用于建立回归模型。
在分类分析中,可以利用PCA找到最能区分不同类别的主成分,从而提高分类器的性能。
在降维的过程中,PCA可以减小数据的维度,同时尽可能地保持原始数据的信息。
总之,主成分分析在数学建模中有着广泛的应用。
它可以帮助我们处理高维数据、提取有用的特征、进行数据可视化和分析,从而提高建模的效率和准确性。
然而,需要注意的是,在使用PCA时,需要对数据和模型进行适当的前提和假设,以确保分析结果的有效性和可靠性。
同时,还需要根据具体问题和数据的特点,选择适当的PCA方法和参数,以获得最好的建模效果。
数学建模第五讲主成分分析主成分分析的基本思想是寻找数据中最重要的方向,这些方向被称为主成分。
每个主成分都与其他主成分正交,即彼此之间没有相关性。
通过找到主成分,我们可以将高维数据投影到低维空间中,以找到数据的主要结构和模式。
要进行主成分分析,首先需要对数据进行标准化,使得每个变量的均值为0,方差为1、然后,通过计算数据的协方差矩阵,可以得到数据中变量之间的相关性。
协方差矩阵对角线上的元素表示各个变量的方差,非对角线上的元素表示变量之间的协方差。
接下来,需要计算协方差矩阵的特征值和对应的特征向量。
特征值表示数据在特定方向上的方差,而特征向量表示数据在该方向上的投影。
特征向量将数据投影到一个新的方向,这个方向上的方差最大,即数据在这个方向上的信息量最大。
根据特征值的大小,可以选择最重要的特征向量作为主成分。
在选择主成分时,通常选择特征值较大的特征向量,因为它们对应的方差较大,即数据在这些方向上的信息量较多。
选择的主成分的个数通常由用户自行指定,可以根据实际应用中的需求和数据的维度进行调整。
选取主成分后,可以通过对数据进行投影来进行降维。
投影的结果是一个低维空间的表示,可以更容易地可视化和分析。
在投影后的空间中,样本之间的距离仍然能够保持原始数据中的信息,但是可以大大减少数据的维度。
除了降维外,主成分分析还可以用于特征选择、噪声过滤、数据可视化等领域。
通过主成分分析,我们可以从高维数据中提取出最重要的信息,简化数据分析过程。
在应用主成分分析时,还需要注意一些问题。
首先,主成分分析假设数据服从多元正态分布,如果数据不满足该假设,则结果可能会失真。
另外,当数据的维度较高时,计算协方差矩阵和特征值分解可能会变得非常耗时,并且需要大量的内存空间。
因此,在应用主成分分析时,需要考虑这些因素,选择合适的算法和工具。
总之,主成分分析是一种重要的降维方法,在数学建模中具有广泛的应用。
通过寻找数据中最重要的方向,主成分分析可以简化数据的结构,提取出数据中的主要信息。
主成分分析方法地理环境是多要素的复杂系统,在我们进行地理系统分析时,多变量问题是经常会遇到的。
变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。
因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,这里介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。
一、主成分分析的基本原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。
假定有n 个地理样本,每个样本共有p 个变量描述,这样就构成了一个n×p 阶的地理数据矩阵:111212122212p p n n npx x x x x x X x x x ⎧⎪⎪=⎨⎪⎪⎩ (1)如何从这么多变量的数据中抓住地理事物的内在规律性呢?要解决这一问题,自然要在p 维空间中加以考察,这是比较麻烦的。
为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。
那么,这些综合指标(即新变量)应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。
如果记原来的变量指标为x 1,x 2,…,x p ,它们的综合指标——新变量指标为z 1,z 2,…,zm (m≤p)。
则 11111221221122221122,,.........................................,p p p p m m m mp p z l x l x l x z l x l x l x z l x l x l x =+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ (2)在(2)式中,系数l ij 由下列原则来决定:(1)z i 与z j (i≠j ;i ,j=1,2,…,m)相互无关;(2)z 1是x 1,x 2,…,x p 的一切线性组合中方差最大者;z 2是与z 1不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者;……;z m 是与z 1,z 2,……z m -1都不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者。
精品文档主成分分析主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变量,通常是将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。
即所谓主成能解释大部分资料中的变异的几个新变量,选出比原始变量个数少,分,并用以解释资料的综合性指标。
、主成分分析的应用1)我国各地区普通高等教育发展水平综合评价。
(1 )投资效益的分析和排序等。
(2、主成分分析法的步骤2①对原始数据进行标准化处理xx,,x,a表示第n个,用表示主成分分析指标的m个变量,评价对象有m12ij aa,转化为标准化指标i个评价对象对应于第j个指标的取值。
将每个指标值ijij即??a jij)mj?1,2,,,(i?1,2,,na?;ij sj??2??,式中:)??a?s(a jjijjij1?nn1?ii?1相应地,标准化指标变量为 nn11??x jj)m1,2,,(x?,j?j sj②计算相关系数矩阵RR?(r)mmij?n??aa kjki1k?,(ir?,j?1,2,,m)ij n?1r?1,r?rr是第i个指标和第j其中:指标之间的相关系数。
,ijjiiiij③计算相关系数矩阵的特征值与特征向量精品文档.精品文档?????0???,(i?1,2,,m)?0?I?R再求解特征方程得到特征值,;m2i1?T),m?u(i1,2,,其中的特征向量出相对应的特征值由特,,,uuu)?(u,iijmjj21j m征向量组成的个新的指标变量为xuux??y?ux??m21m112111 ?xx??uy?ux?u?m2m2212122???x?uux??yux??m2mmmm1m21m yyy 为第1主成分,?,其中:主成分为第1主成分,为第m12)(≤④选择pp个主成分,计算综合评价值。
m?),m(j?1,2, 1)计算特征值的信息贡献率和累积贡献率(j y b用的信息贡献率,则有表示主成分ij?j )?1,2,?b,m(jjm??k1?k y,,y,ay用的累积贡献率,则有表示主成分p12pp??k1?k?apm??k1k?—aa个指标变量85%的范围为)时,则用前95%若接近于1(一般p pp m yy,,,y 个主成分进个主成分,代替原来个指标变量,再对作为pp p12行综合分析。
2021数学建模中三种统计分析法的运用范文 摘要: 多元统计分析方法是被广泛应用的一种数据处理方法,包括主成分分析、因子分析以及独立成分分析,这三种统计分析方法可以应用在多变量、大数据的处理过程当中。
现阶段,数学建模竞赛得到了许多院校的重视,而许多建模竞赛的题目都要进行数据的预处理,因此,可以将三种统计分析方法应用在数学建模数据分析当中。
本文主要对主成分分析、因子分析以及独立成分分析方法进行简介,进一步研究了三种统计分析方法在数据建模中的应用。
关键词: 主成分分析;因子分析; 独立成分分析; 数学建模; 数学建模竞赛等与样本数据相关的问题都需要进行数据的统计预处理,在此过程中,涉及的数据以及变量较多,因此增加了数据处理的复杂程度,在处理时希望把多变量转换为较少的综合变量,从而能够反映出相应的变量信息。
而主成分分析、因子分析以及独立成分分析方法可以处理多变量、大样本的数据信息,同时能够进行降维处理,在数学建模竞赛当中得到了较为广泛的应用。
因此,对这三种统计分析方法进行研究具有实际的应用意义。
一、三种统计分析方法简介 (一)主成分分析 主成分分析法(PCA)就是指通过正交变换,把分量相关的多个变化转化为分量不相关的综合变量的过程。
其中,被选择出来的变量叫作主成分,可以对数据的各种指标进行解释;而综合变量不仅要能够反映出原变量的信息,还要保证互不相关。
主成分分析法是一种数学变换方法,在变换的过程中,变量的方差是不变的,还要以方差递减的形式把变换后的综合变量进行排序。
(二)因子分析 因子分析法(FA)是主成分分析法的推广,主要是把原始的变量通过一些公共的因子变量来表示,是一种研究把多个观测变量转变为少数的不相关的综合变量的一种统计分析方法。
此种方法主要针对在大量观测数据当中得到一部分有价值的、难以直接测量的、相对独立的因子。
(三)独立成分分析 独立成分分析法(ICA)是主成分分析法以及因子分析法的延伸,此种方法应用效果较好,一旦其他的统计方法失效,那么依然可以找出支持观测数据的内在因子。
根据主成分分析的方法,分析 ……的数据。
步骤如下:Step 1为了消除不同变量的量纲的影响,首先需要对变量进行标准化,设检测数据样本共有n 个,指标共有p 个,分别设X 「X 2,X p ,令X j (i=1,2,…,n ;j=1,2,…,p) 为第i 个样本第j 个指标的值。
作变换Step 2:在标准化数据矩阵Y =(V j )np 的基础上计算p 个原始指标相关系数矩阵得到标准化数据矩阵Y X j -E(X j ) j_Var(X j )(j=l,2,…,p)X ij_X jS j1 i其中X j ― X j n i 二n2 1 2 ,S j (X j -X j )nR - (r ij ) p p「11|r-12「r ipr 2pr p2其中,「jn7 (X ki -X i )( kA n、(X kik =1X kj -X j ) --------- n(i,j=1,2,…,p)-X i )S (X kj -X j )2k =1Step 3:求相关系数矩阵R 的特征值并排序「一二-,p - 0,再求出R 的特征值相应的正则化特征向量e i =(和&2,e jp ),则第i 个主成分表示为各指标X k 的p组合乙八.e i k X k 。
i吕Step 4:计算累积贡献率确定主成分的数目。
主成分乙的贡献率为w i(i =1,2, ,p)累计贡献率为i二.叫k =1 p ■---k(i =1,2, ,p)pZk W一般取累计贡献率达85%~95%的特征值「,-,…,窃所对应的第1、第2,…, 第m (m W p )个主成分。
Step 5:计算主成分载荷,确定综合得分。
当主成分之间不相关时,主成分载荷 是主成分和各指标的相关系数,相关系数越大,说明主成分对该指标变量的代表 性就越好,计算公式为l j 二 P (Z i ,xJ 「*(门=1,2, ,P )Step 6:各主成分的得分,确定综合评分函数。
基于主成分分析与因子分析数学模型的应用研究引言:主成分分析(PCA)和因子分析(FA)是两种常用的数据降维方法,可以用来提取数据中的主要信息并减少变量维度。
在实际应用中,这两种方法可以广泛应用于数据探索、预测建模、特征选择等领域。
本文将探讨主成分分析和因子分析的基本原理、数学模型,并介绍它们在实际问题中的应用研究。
一、主成分分析(PCA)的原理与数学模型主成分分析是一种多变量分析方法,用于解析数据中的方差与协方差,从而找到数据中的主要成分并对其进行降维。
其基本思想是将原始变量线性组合为一组互相无关的新变量,称为主成分。
主成分分析的数学模型如下:设有m个原始变量X1,X2,...,Xm,它们的样本均值向量为μ=(μ1, μ2, ..., μm)。
构建原始变量的协方差矩阵C=(cij) =(Cov(Xi, Xj)),其中Cov(.)表示协方差运算。
我们要寻找一组线性变换的系数矩阵A,使得新变量Y1,Y2,...,Ym=AX(其中Yi=AiX)的方差为最大。
这等价于求解特征值问题:CA=λA,其中λ为特征值,A=(A1,A2,...,Am)为特征向量矩阵。
特征值λ1≥λ2≥...≥λm决定了各个主成分的重要性,对应的特征向量可以用来解释数据中的相关关系。
主成分分析的应用研究:主成分分析可以用于数据预处理、特征选择、模式识别等领域的应用研究。
下面分别介绍几个常见的应用情景。
1.数据探索:主成分分析可以帮助我们理解数据中的结构和模式,并帮助我们发现变量间的关联性。
通过绘制主成分散点图,我们可以观察不同主成分之间的分布情况,从而找到数据中的主要成分。
2.特征选择:主成分分析可以将原始变量降维,并提取主要信息。
在特征选择领域,我们可以使用主成分分析来确定哪些变量是最能够解释数据中方差的重要特征。
3.模式识别:主成分分析可以用于模式识别,如人脸识别、图像处理等。
通过提取主要成分,我们可以将高维特征映射到低维子空间中,从而方便后续的分类任务。
§8 主成分分析的应用
主成分分析的基本思想是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们尽可能多地包含原变量的信息(降维),从而使得用这几个新变量替代原变量分析问题成为可能。
即在尽可能少丢失信息的前提下从所研究的m 个变量中求出几个新变量,它们能综合原有变量的信息,相互之间又尽可能不含重复信息,用这几个新变量进行统计分析(例如回归分析、判别分析、聚类分析等等)仍能达到我们的目的。
设有n 个样品,m 个变量(指标)的数据矩阵
(1)1112
1(2)21222()12m m n m
n n n nm x x x x x x x x X x x x x ⨯⎛⎫
⎛⎫
⎪ ⎪ ⎪
⎪== ⎪
⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭
寻找k 个新变量12,,,()k y y y k m ≤ ,使得 1、1122,(1,2,,)l l l lm m y a x a x a x l k =+++= 2、12,,k y y y 彼此不相关
这便是主成分分析。
主成分的系数向量12(,,,)l l l lm a a a a = 的分量lj a 刻划出第j 个变量关于第l 个主成分的重要性。
可以证明,若12(,,,)T m x x x x = 为m 维随机向量,它的协方差矩阵V 的m 个特征值为
120m λλλ≥≥≥≥ ,相应的标准正交化的特征向量为12,,,m u u u ,则
12(,,,)T m x x x x = 的第i 主成分为(1,2,,)T i i y u x i m == 。
称1
/
m
i j
j λλ
=∑为主成分(1,2,,)T
i i y u x i m == 的贡献率,
1
1
/k m
j j
j j λλ
==∑∑为主成分
12,,k y y y 的累计贡献率,它表达了前k 个主成分中包含原变量12,,,m x x x 的信息量大
小,通常取k 使累计贡献率在85%以上即可。
当然这不是一个绝对不变的标准,可以根据实
际效果作取舍,例如当后面几个主成分的贡献率较接近时,只选取其中一个就不公平了,若都选入又达不到简化变量的目的,那时常常将它们一同割舍。
计算步骤如下:
1、由已知的原始数据矩阵n m X ⨯计算样本均值向量12ˆ(,,,)T
m x x x x μ== ; 其中1
1(1,2,,)n
i ij j x x i m n ===∑
2、计算样本协方差矩阵1
ˆ()()ˆ1
ij ij V
s n σ==- 其中1
()()(,1,2,,)n
ij li
i lj j l s x
x x x i j m ==
--=∑
3
、把原始数据标准化,即ij x x x
-= ()n m
ij X x ⨯= 。
形成样本相关矩阵ˆT R X X = ; 4、求ˆR 的特征根120m λλλ≥≥≥≥ 及相应的标准正交化的特征向量12,,,m
u u u ,可得主成分为(1,2,,)T i i y u x i m == 。
关于主成分的实际意义,要结合具体问题和相关的专业知识才能给出合理的解释。
例1 下表是10名初中男学生的身高(1x ),胸围(2x ),体重(3x )的数据,试进行主成分分析。
由表中数据计算得到
ˆ(161.2,77.3,51.2)T x μ== 46.5717.0930.981ˆ21.1132.58ˆ155.53V S n ⎛⎫
⎪==
⎪- ⎪⎝⎭
解出ˆV
的三个特征值和相应的三个标准正交化的特征向量为
12399.00,22.79, 1.41λλλ===
1(0.56,0.42,0.71)T u =, 2(0.83,0.33,0.45)T
u =--, 3(0.05,0.84,0.
54)T
u =- 由于三个主成分的贡献率分别为
99.022.79 1.41
80.36%,18.50%, 1.14%123.20123.20123.20
===
当保留前两个主成分时,累计贡献率已达98.86%,因此第三个主成分可以舍去。
得到的前
两个样本主成分的表达式为
11230.560.420.71y x x x =++ 21230.830.330.45y x x x =--
现在我们来解释这两个主成分的意义,从1y 的表达式可以看出,1y 是身高、胸围、体重三个变量的加权和,当一个学生的1y 数值较大时,可以推断其或较高或较胖或又高又胖,故1y 是反映学生身材魁梧与否的综合指标。
2y 的表达式中系数的符号为一正(1x )两负(2x ,3x )
,当一个学生的2y 数值较大时,表明其1x 大,而2x ,3x 小,即为瘦高个,故2y 是反映学生体形特征的综合指标。
需要指出的是,虽然利用主成分本身可对所涉及的变量之间的关系在一定程度上作分析,但这往往并不意味着分析问题的结束。
主成分分析本身往往并不是最终目的,而只是达到某种目的的一种手段。
很多情况下,主成分分析只是作为对原问题进行统计分析的中间步骤,目的是利用主成分变量代替原变量作进一步的统计分析,达到减少变量个数的效果。
例如,利用主成分变量作回归分析、判别分析、聚类分析等等。
下面再举一个利用主成分进行样品排序的例子。
例2 电子工业部所属的15个工厂某年份的经济效益数据如下表。
其中
1x —资金利税率(%) 2x —固定资产利税率(%) 3x —流动资金利税率(%) 4x —全员利税率(%) 5x —成本利税率(%) 6x —流动资金周转天数
按照上述步骤,可以计算出样本相关矩阵为
10.978
10.9950.9541ˆ0.880
0.8950.86210.0080.7240.8420.64310.7590.8050.720
0.730
0.4081
R ⎛⎫
⎪ ⎪ ⎪=
⎪ ⎪ ⎪ ⎪ ⎪-----⎝
⎭
ˆR
的特征根及相应的标准正交化的特征向量分别为
11234560.4410.4370.4360.410.3590.358y x x x x x x =++++-
此主成分主要反映前四个经济指标的效果,因为其系数之值比较接近,它们几乎以一样的重要性综合说明了各厂的经济效益。
第二个主成分为
6543212678.0677.0184.0175.0092.0083.0x x x x x x y ++-+-=
此主成分主要反映后两个经济指标的效果。
由于前两个主成分的累计贡献率已达94.5%,因此可以选取1y ,2y 来评价这些工厂的综合经济效益。
用下式作为每个样品的“综合数值”,按其大小给样品排序。
1122k k Z y f y f y f =+++ 其中1
/
m
i i j
j f λλ
==∑。
这里120.8370.108Z y y =+。
结果每个样品的Z 值列于表中最右边一列,按Z 值大小排序结果列于右边第二列。