数学建模主成分分析方法
- 格式:doc
- 大小:121.50 KB
- 文档页数:10
主成分分析操作详细步骤1.去除均值:对于给定的数据集,先计算每个特征的均值,然后将原始数据减去均值,即进行去均值处理。
这样可以使得数据的中心位于原点附近。
2.计算协方差矩阵:对去均值后的数据集,计算其协方差矩阵。
协方差矩阵描述了各个特征之间的相互关系。
协方差可以通过以下公式计算:cov(X,Y) = Σ((X-μ_X)(Y-μ_Y)) / (n-1)其中,X和Y分别是两个特征向量,μ_X和μ_Y是它们的均值,n 是样本数。
协方差矩阵是一个对称矩阵,对角线上的元素是各个特征的方差。
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,可以得到特征值和对应的特征向量。
特征值表示了数据在特征向量方向上的方差,而特征向量则表示了数据在这个方向上的投影。
特征值和特征向量是成对出现的,每个特征值对应一个特征向量。
4.选择主成分:根据特征值的大小,选择前k个特征值对应的特征向量作为主成分。
这些主成分具有较大的特征值,表示数据在这些方向上的方差较大,所以选择这些主成分可以保留较多的数据信息。
5.数据映射:将原始的数据集映射到选取的主成分所构成的低维空间中。
对于一个样本,可以通过将其与各个主成分进行内积运算,得到其在主成分上的投影。
这样就将高维数据转换为低维数据。
6.可视化和解释:对于得到的低维数据,可以进行可视化展示,以了解数据的分布和结构。
同时,可以通过解释各个主成分的特征向量,来理解数据在不同维度上的重要特征。
7.降维应用:降维后的数据可以应用于其他任务,如数据挖掘、分类、聚类等。
由于降维后的数据具有较低的维度,所以可以提高计算效率,并且可能减小过拟合问题。
需要注意的是,主成分分析假设数据服从线性分布,并且对数据的方差敏感。
因此,在进行主成分分析之前,需要对原始数据进行归一化处理,以避免量纲对结果的影响。
另外,主成分分析还可以通过计算解释方差比例,来评估选择的主成分个数是否合适。
如果选择的主成分个数能够解释大部分的方差,那么可以认为降维后的数据已经保留了原始数据的主要信息。
【算法系列】主成分分析的数学模型定义主成分分析又称主分量分析或主轴分析,是将多个指标化为少数几个综合指标的一种多元统计分析方法.从数学角度来看,这是一种降维处理技术。
通常把转化生成的综合指标称之为主成分。
主成分分析基本思想在实证数据分析研究中,人们为了尽可能完整地搜集信息,对于每个样本往往要观测它的很多指标,少到四、五项,多则几十项。
例如:人口普查往往要调查每个人的姓名、年龄、性别、文化程度、职业、住房等几十项指标。
从搜集资料的角度看,多记录几项可以避免重要信息的遗漏,但是由于这些指标从统计角度来看相互之间有一定的依赖关系,因而使得所观测的数据在一定程度上反映的信息有所重叠。
因此,从统计分析或推断的角度来说,人们总是希望能把大量的原始指标组合成较少的几个综合指标,从而使分析简化。
这些综合指标的变化要能大体上反映样本全部指标的变化,而不丧失或者只丧失很少一部分原始指标所提供的信息。
例如:一个人的身材需要用好多项指标才能完整地描述,诸如身高、臂长、腿长、肩宽、胸围、腰围、臀围等等,但人们购买衣服时一般只用长度和肥瘦两个指标就够了,这里长度和肥瘦就是描述人体形状的多项指标组合而成的两个综合指标。
主成分分析的一般数学模型1、通常,一些变量具有不同的量纲,有的变量值数量级上也有很大差异,在应用主成分分析研究实际问题时,不同的量纲和数量级会引出新的问题;为了消除由于量纲的不同可能带来的一些不合理的影响,在进行主成分分析之前先对数据进行标准化处理。
2、为了方便,将数据标准化后的矩阵仍用原来的x记,考虑它的线性变换——新的综合变量由原来的变量x1,x2,…,xP线性表示,即:由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到的综合变量y的统计特性也不尽相同。
假如我们希望用y1来代替原来的p个变量x1,x2,…,xP,这就要求y1尽可能多地反映原来p个变量的信息,即希望y1是x1,x2,…,xP的一切线性函数中方差最大的。
Science &Technology Vision 科技视界全国大学生数学建模竞赛,已经成为许多高校学生课外科技活动的重要项目,人们也越来越关注数学建模竞赛。
数学规划、微分方程、图论等是较为常见的建模方法。
而近年来,越来越多的数据处理题目出现在数学建模竞赛当中,数据处理的任务是降低数据的维数,保留数据的有用信息。
主成分分析法作为一种主要的数据处理方法,能够提取变量信息,减少分析的维度,使问题变得更简单、直观。
因此,尽快掌握主成分分析法的基本知识,显得尤为迫切。
下面介绍主成分分析法的基本知识,利用主成分分析法的思想方法建立数学模型。
1主成分分析的基本思想和数学模型1.1主成分分析简介主成分这个概念由美国统计学家Karl Pearson 在1901年提出,当时只是进行了非随机变量的讨论。
是从多指标分析出发,运用统计分析原理与方法提取少数几个彼此不想关的综合性指标而保持其原指标所提供的大量信息的一种统计方法。
1933年Hotelling 则将此概念推广到了随机变量中。
主成分分析的原理,是以较少数的综合变量取代原有的多维变量,使数据结构简化,把原指标综合成较少几个主成分,再以这几个主成分的贡献率为权数进行加权平均,构造出一个综合评价函数。
作为一种多指标分析方法,在综合评价函数中,各主成分的权术为其贡献率,它反映了该主成分包含原数据的信息量占全部信息量的比重,这样确定权术是客观、合理的,它克服了某些评价方法中人为确定权术的缺陷,这种方法的计算比较规范,便于在计算机上实现。
1.2主成分分析基本思想在许多实际问题中,为了全面系统的反应问题,我们通常用多个变量来刻画某一事物,但由于这些变量间具有较强的相关关系,变量间存在大量的重复信息,直接用它们分析问题时,往往会引起极大的误差。
因此人们希望用较少的新指标代替原来较多的旧变量,同时要求这些新指标尽可能的反应原来的信息。
一般来说,主成分与原始变量之间的关系:(1)各主成分都是原始变量的线性组合。
主成分分析法(PCA)在实际问题中.我们经常会遇到研究多个变量的问题.而且在多数情况下.多个变量之间常常存在一定的相关性。
由于变量个数较多再加上变量之间的相关性.势必增加了分析问题的复杂性。
如何从多个变量中综合为少数几个代表性变量.既能够代表原始变量的绝大多数信息.又互不相关.并且在新的综合变量基础上.可以进一步的统计分析.这时就需要进行主成分分析。
I. 主成分分析法(PCA)模型(一)主成分分析的基本思想主成分分析是采取一种数学降维的方法.找出几个综合变量来代替原来众多的变量.使这些综合变量能尽可能地代表原来变量的信息量.而且彼此之间互不相关。
这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。
主成分分析所要做的就是设法将原来众多具有一定相关性的变量.重新组合为一组新的相互无关的综合变量来代替原来变量。
通常.数学上的处理方法就是将原来的变量做线性组合.作为新的综合变量.但是这种组合如果不加以限制.则可以有很多.应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F .自然希望它尽可能多地反映原来变量的信息.这里“信息”用方差来测量.即希望)(1F Var 越大.表示1F 包含的信息越多。
因此在所有的线性组合中所选取的1F 应该是方差最大的.故称1F 为第一主成分。
如果第一主成分不足以代表原来p 个变量的信息.再考虑选取2F 即第二个线性组合.为了有效地反映原来信息.1F 已有的信息就不需要再出现在2F 中.用数学语言表达就是要求0),(21 F F Cov .称2F 为第二主成分.依此类推可以构造出第三、四……第p 个主成分。
(二)主成分分析的数学模型 对于一个样本资料.观测p 个变量p x x x ,,21.n 个样品的数据资料阵为:⎪⎪⎪⎪⎪⎭⎫⎝⎛=np n n p p x x x x x x x x x X 212222111211()p x x x ,,21=其中:p j x x x x nj j j j ,2,1,21=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=主成分分析就是将p 个观测变量综合成为p 个新的变量(综合变量).即⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=ppp p p p pp p p x a x a x a F x a x a x a F x a x a x a F 22112222121212121111 简写为:p jp j j j x x x F ααα+++= 2211p j ,,2,1 =要求模型满足以下条件:①j i F F ,互不相关(j i ≠.p j i ,,2,1, =) ②1F 的方差大于2F 的方差大于3F 的方差.依次类推 ③.,2,1122221p k a a a kp k k ==+++于是.称1F 为第一主成分.2F 为第二主成分.依此类推.有第p 个主成分。
主
成分分析方法
地理环境是多要素的复杂系统,在我们进行地理系统分析时,多变量问题是经常会遇到的。
变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。
因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息事实上,这种想法是可以实现的,这里介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。
一、主成分分析的基本原理
主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。
假定有n个地理样本,每个样本共有p个变量描述,这样就构成了一个n×p阶的地理数据矩阵:
111212122212p p n n np x x x x x x X x x x ⎧⎪⎪=⎨⎪⎪⎩L L L
L L L L (1)
如何从这么多变量的数据中抓住地理事物的内在规律性呢要解决这一问题,自然要在p 维空间中加以考察,这是比较麻烦的。
为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。
那么,这些综合指标(即新变量)应如何选取呢显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。
如果记原来的变量指标为x 1,x 2,…,x p ,它们的综合指标——新变量指标为z 1,z 2,…,zm (m≤p)。
则
11111221221122221122,,.........................................
,p p p p m m m mp p z l x l x l x z l x l x l x z l x l x l x =+++⎧⎪=+++⎪⎨⎪⎪=+++⎩L L L (2)
在(2)式中,系数l ij由下列原则来决定:(1)z i与z j(i≠j;i,j=1,2,…,m)相互无关;
(2)z1是x1,x2,…,x p的一切线性组合中方差最大者;z2是与z1不相关的x1,x2,…,x p的所有线性组合中方差最大者;……;z m 是与z1,z2,……z m-1都不相关的x1,x2,…,x p的所有线性组合中方差最大者。
这样决定的新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,x p的第一,第二,…,第m主成分。
其中,z1在总方差中占的比例最大,z2,z3,…,z m的方差依次递减。
在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。
从以上分析可以看出,找主成分就是确定原来变量x j(j=1,2,…,p)在诸主成分z i (i=1,2,…,m)上的载荷l ij(i=1,2,…,m;j=1,2,…,p),从数学上容易知道,它们分别是x1,x2,…,x p的相关矩阵的m 个较大的特征值所对应的特征向量。
二、主成分分析的计算步骤
通过上述主成分分析的基本原理的介绍,我们可以把主成分分析计算步骤归纳如下:
(1) 计算相关系数矩阵
111212122212p p p p pp r r r r r r R r r r ⎧⎪⎪=⎨⎪⎪⎩L L L
L L L L
(3)
在公式(3)中,r ij (i ,j=1,2,…,p)为原来变量x i 与x j 的相关系数,其计算公式为
因为R 是实对称矩阵(即r ij =r ji ),所以只需计算其上三角元素或下三角元素即可。
(2)计算特征值与特征向量
首先解特征方程|λI -R |=0求出特征值λi (i=1,2,…,p),并使其按大小顺序排列,即λ1≥λ2≥…,≥λp ≥0;然后分别求出对应于特征值λi 的特征向量e i (i=1,2,…,p)。
(2) 计算主成分贡献率及累计贡献率 主成分i z 贡献率:1/(1,2,,)p i k k r i p γ==∑L ,累计贡献率:
11/p m k k k k γγ==∑∑。
一般取累计贡献率达85-95%的特征值λ1,λ2,…,λm 所对应的第一,第二,……,第m (m ≤p)个主成分。
(3) 计算主成分载荷
(,)(,1,2,,)k i ki p z x i k p ==L (5)
由此可以进一步计算主成分得分: 1112121
22212m m n n nm z z z z z z Z z z z ⎧⎪⎪=⎨⎪⎪⎩L L L
L L L L (6)
三、主成分分析实例
对于某区域地貌-水文系统,其57个流域盆地的九项地理要素:x 1为流域盆地总高度(m)x 2为流域盆地山口的海拔高度(m),x 3为流域盆地周长(m),x 4为河道总长度(km),x 5为河
表2-14 某57个流域盆地地理要素数据
道总数,x6为平均分叉率,x7为河谷最大坡度(度),x8为河源数及x9为流域盆地面积(km2)的原始数据如表2-14所示。
张超先生(1984)曾用这些地理要素的原始数据对该区域地貌-水文系统作了主成分分析。
下面,我们将其作为主成分分析方法的一个应用实例进行介绍。
表2-15相关系数矩阵
(1)首先将表2-14中的原始数据作标准化处理,由公式(4)计算得相关系数矩阵(见表2-15)。
(2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表2-16)。
由表2-16可知,第一,第二,第三主成分的累计贡献率已高达%,故只需求出第一,第二,第三主成分z1,z2,z3即可。
表2-16 特征值及主成分贡献率
(3)对于特征值λ1=,λ2=,λ3=分别求出其特征向量e1,e2,e3,并计算各变量x1,x2,……,x9在各主成分上的载荷得到主成分载荷矩阵(见表2-17)。
表2-17 主成分载荷矩阵
从表2-17可以看出,第一主成分z1与x1,x3,x4,x5,x8,x9有较大的正相关,这是由于这六个地理要素与流域盆地的规模
有关,因此第一主成分可以被认为是流域盆地规模的代表:第二主成分z2与x2有较大的正相关,与x7有较大的负相关,而这两个地理要素是与流域切割程度有关的,因此第二主成分可以被认为是流域侵蚀状况的代表;第三主成分z3与x6有较大的正相关,而地理要素x6是流域比较独立的特性——河系形态的表征,因此,第三主成成可以被认为是代表河系形态的主成分。
以上分析结果表明,根据主成分载荷,该区域地貌-水文系统的九项地理要素可以被归为三类,即流域盆地的规模,流域侵蚀状况和流域河系形态。
如果选取其中相关系数绝对值最大者作为代表,则流域面积,流域盆地出口的海拔高度和分叉率可作为这三类地理要素的代表,利用这三个要素代替原来九个要素进行区域地貌-水文系统分析,可以使问题大大地简化。