数学建模 主成分分析
- 格式:ppt
- 大小:1.09 MB
- 文档页数:66
主成分分析实用主成分分析是一种常用的数学建模方法,它可以用来降低多变量数据集的维度,同时保留最重要的信息。
在实际应用中,主成分分析具有广泛的应用,包括数据压缩、特征提取、数据可视化等领域。
本文将详细介绍主成分分析的原理和实用性。
主成分分析的原理是通过线性变换将原始数据映射到一个新的坐标系中,使得在新的坐标系中数据的方差最大化。
具体来说,主成分分析通过寻找数据集中的主成分,来解释数据的变异性。
主成分是基于输入变量之间的协方差构建的,并且在计算过程中,主成分之间是正交的。
主成分分析可以通过求解数据协方差矩阵的特征值和特征向量来实现。
主成分分析在数学建模中具有广泛的实用性。
首先,它可以用来降低数据集的维度。
对于高维数据集,主成分分析可以将数据映射到低维空间中,减少了数据的维度。
这样可以极大地简化数据分析的复杂性,同时也可以避免维度灾难的问题。
其次,主成分分析可以用来提取数据中的重要特征。
通过保留数据方差较大的主成分,主成分分析可以帮助我们剥离出数据中的噪声和冗余信息,提取出最为重要的特征。
这对于模型建立和预测分析非常重要。
此外,主成分分析还可以提供数据的可视化效果。
通过将数据集映射到二维或三维空间,我们可以更直观地观察数据之间的关系,探索数据集的结构和模式。
主成分分析的实际应用非常丰富。
在金融领域,主成分分析可以用于资产组合管理和风险管理。
通过将资产收益率数据映射到主成分空间中,我们可以更好地理解不同资产之间的相关性,从而帮助投资者进行有效的资产配置和风险控制。
在图像处理领域,主成分分析可以用于图像压缩和人脸识别。
通过将图像数据映射到主成分空间中,我们可以使用较少的主成分表示图像,从而减少图像的存储和传输成本。
同时,主成分分析还可以捕捉人脸图像的主要特征,用于人脸识别和认证。
在生物信息学领域,主成分分析可以用于基因表达数据的分析。
通过将基因表达数据映射到主成分空间中,我们可以发现不同基因在表达模式上的差异,从而探索基因的功能和调控机制。
§8 主成分分析的应用主成分分析的基本思想是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们尽可能多地包含原变量的信息(降维),从而使得用这几个新变量替代原变量分析问题成为可能。
即在尽可能少丢失信息的前提下从所研究的m 个变量中求出几个新变量,它们能综合原有变量的信息,相互之间又尽可能不含重复信息,用这几个新变量进行统计分析(例如回归分析、判别分析、聚类分析等等)仍能达到我们的目的。
设有n 个样品,m 个变量(指标)的数据矩阵(1)11121(2)21222()12m m n mn n n nm x x x x x x x x X x x x x ⨯⎛⎫⎛⎫⎪ ⎪ ⎪⎪== ⎪⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭寻找k 个新变量12,,,()k y y y k m ≤ ,使得 1、1122,(1,2,,)l l l lm m y a x a x a x l k =+++= 2、12,,k y y y 彼此不相关这便是主成分分析。
主成分的系数向量12(,,,)l l l lm a a a a = 的分量lj a 刻划出第j 个变量关于第l 个主成分的重要性。
可以证明,若12(,,,)T m x x x x = 为m 维随机向量,它的协方差矩阵V 的m 个特征值为120m λλλ≥≥≥≥ ,相应的标准正交化的特征向量为12,,,m u u u ,则12(,,,)T m x x x x = 的第i 主成分为(1,2,,)T i i y u x i m == 。
称1/mi jj λλ=∑为主成分(1,2,,)Ti i y u x i m == 的贡献率,11/k mj jj j λλ==∑∑为主成分12,,k y y y 的累计贡献率,它表达了前k 个主成分中包含原变量12,,,m x x x 的信息量大小,通常取k 使累计贡献率在85%以上即可。
当然这不是一个绝对不变的标准,可以根据实际效果作取舍,例如当后面几个主成分的贡献率较接近时,只选取其中一个就不公平了,若都选入又达不到简化变量的目的,那时常常将它们一同割舍。
一、主成分分析的数学模型假设原来的变量指标为X1,X2…,X k经过标准化后得到标准指标变量X1,X2,…,X K;X j=X j−X js j,j=1,2…,k其中X j是第j个指标变量的均值,s j是第j个指标变量的标准差。
他们的综合指标(新变量指标)为z1,z2,…,z m(m<=k),则进行线性变换:z1=l11X1+l12X2+⋯+l1k X K z2=l21X1+l22X2+⋯+l2k X K z m=l k1X1+l k2X2+⋯+l k k X K将k个标准变量X1,X2,…,X K转换成了k个新变量z1,z2,…,z m,但是线性变换应满足以下三个条件:●z i和z j独立,i≠j,i,j=1,2,…,k;●vaX(z1)≥vaX(z2)≥…≥vaX(z k) ;●l i12+l i22+⋯+l ik2=1,i=1,2,…,k;z1,z2,…,z m是X1,X2,…,X K的k个主成分,其中z1为第一主成分,z2为第二主成分,z k为第k主成分,称l i j为第i主成分在第j个标准指标量X j上的得分系数,将每一个样本的标准化观察值代入计算公式中,计算得每一个样本的k个主成分值,即为主成分得分。
二、主成分分析的方法步骤主成分分析的过程就是确定原来的变量X j(j=1,2,…,k)在个主成分z j(j=1,2,…,k)上的载荷l i j(i,j=1,2,…,k)。
从主成分分析的数学模型可以看出,主成分分析的任务是估计主成分,确定主成分的个数,解释主成分的实际意义和计算主成分得分。
假设有k个指标X1,X2…,X k,每个指标有n个观测值,它们的标准化变量是X1,X2,…,X K,记录如下表所示计算步骤如下:(1)对原始指标数据进行标准化变换:X ij=X ij−X js j,j=1,2,…,k将原始数据标准化,然后利用标准化的数据计算主成分,X为标准化后的数据矩阵,则:X=X11X12⋯X k1 X21X22⋮⋯X2k⋮X n1X n2⋯X nk(2)计算相关系数矩阵:R=Cov(X)=r11r12⋯rk1r21r22⋮⋯r2k⋮r k1r k2⋯rkk=1r12⋯r k1r211⋮⋯r2k⋮r k1r k2⋯1其中, r i j =(X ki −X)(k ij −X )n k =1 (X ki −X i)2n k =1 (X kj −X j )2n k =1(3) 计算相关矩阵的特征值和特征值所对应的特征向量:Cov (X )L=LV ar (Z 1)0V ar (Z 1)⋱0V ar (Z k )其中,L=l 11r 12⋯ l k 1l 21r 22⋮⋯l 2k ⋮l k 1r k 2⋯l kk由于R 为半正定矩阵,故可由R 的特征方程R −λI =0求得k 个非负特征值λi (i=1,2,…,k )将这些值按从大到小排序为 λ1≥λ2≥…≥λk ≥0 再由 R −λ1I l i =0l i ′l i =1i=1,2,…,k解得每一个特征值对应的特征向量l i =(l i 1,l i 2,…,l ik )′,从而求得各主成分:Z i =l i ′X=l i 1X 1+l i 2X 2+⋯+l i k X K ,i=1,2,…,k (4) 计算主成分贡献率及累计贡献率 各个主成分互不相关,即z i 和z j 的相关系数:r z i ,z j =i i Cov Z i ,Z i .Cov (Z j ,Z j )=0(i ≠j)于是各相关系数的矩阵为单位矩阵。
数学建模第五讲主成分分析主成分分析的基本思想是寻找数据中最重要的方向,这些方向被称为主成分。
每个主成分都与其他主成分正交,即彼此之间没有相关性。
通过找到主成分,我们可以将高维数据投影到低维空间中,以找到数据的主要结构和模式。
要进行主成分分析,首先需要对数据进行标准化,使得每个变量的均值为0,方差为1、然后,通过计算数据的协方差矩阵,可以得到数据中变量之间的相关性。
协方差矩阵对角线上的元素表示各个变量的方差,非对角线上的元素表示变量之间的协方差。
接下来,需要计算协方差矩阵的特征值和对应的特征向量。
特征值表示数据在特定方向上的方差,而特征向量表示数据在该方向上的投影。
特征向量将数据投影到一个新的方向,这个方向上的方差最大,即数据在这个方向上的信息量最大。
根据特征值的大小,可以选择最重要的特征向量作为主成分。
在选择主成分时,通常选择特征值较大的特征向量,因为它们对应的方差较大,即数据在这些方向上的信息量较多。
选择的主成分的个数通常由用户自行指定,可以根据实际应用中的需求和数据的维度进行调整。
选取主成分后,可以通过对数据进行投影来进行降维。
投影的结果是一个低维空间的表示,可以更容易地可视化和分析。
在投影后的空间中,样本之间的距离仍然能够保持原始数据中的信息,但是可以大大减少数据的维度。
除了降维外,主成分分析还可以用于特征选择、噪声过滤、数据可视化等领域。
通过主成分分析,我们可以从高维数据中提取出最重要的信息,简化数据分析过程。
在应用主成分分析时,还需要注意一些问题。
首先,主成分分析假设数据服从多元正态分布,如果数据不满足该假设,则结果可能会失真。
另外,当数据的维度较高时,计算协方差矩阵和特征值分解可能会变得非常耗时,并且需要大量的内存空间。
因此,在应用主成分分析时,需要考虑这些因素,选择合适的算法和工具。
总之,主成分分析是一种重要的降维方法,在数学建模中具有广泛的应用。
通过寻找数据中最重要的方向,主成分分析可以简化数据的结构,提取出数据中的主要信息。
主成分分析方法地理环境是多要素的复杂系统,在我们进行地理系统分析时,多变量问题是经常会遇到的。
变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。
因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,这里介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。
一、主成分分析的基本原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。
假定有n 个地理样本,每个样本共有p 个变量描述,这样就构成了一个n×p 阶的地理数据矩阵:111212122212p p n n npx x x x x x X x x x ⎧⎪⎪=⎨⎪⎪⎩ (1)如何从这么多变量的数据中抓住地理事物的内在规律性呢?要解决这一问题,自然要在p 维空间中加以考察,这是比较麻烦的。
为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。
那么,这些综合指标(即新变量)应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。
如果记原来的变量指标为x 1,x 2,…,x p ,它们的综合指标——新变量指标为z 1,z 2,…,zm (m≤p)。
则 11111221221122221122,,.........................................,p p p p m m m mp p z l x l x l x z l x l x l x z l x l x l x =+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ (2)在(2)式中,系数l ij 由下列原则来决定:(1)z i 与z j (i≠j ;i ,j=1,2,…,m)相互无关;(2)z 1是x 1,x 2,…,x p 的一切线性组合中方差最大者;z 2是与z 1不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者;……;z m 是与z 1,z 2,……z m -1都不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者。