数学建模案例分析8主成分分析的应用--概率统计方法建模
- 格式:pdf
- 大小:145.78 KB
- 文档页数:4
第一讲主成分分析在数学建模中的应用1.学习目的1. 理解主成分分析的基本思想;2会用SA澈件编写相关程序,对相关数据进行主成分分析;3. 会用SAS软件编程结合主成分分析方法解决实际问题。
2.学习要求1.理解主成分分析的基本原理,掌握主成分分析的基本步骤;2会用SAS软件编写相关程序,对相关数据进行分析处理和假设检验;3. 撰写不少于3000字的小论文;4. 精读一篇优秀论文。
3. 理论基础3. 1 基本思想在实际问题的研究中,往往会涉及众多的变量。
但是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。
一般来说,虽然每个变量提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。
因而人们希望对这些变量加以“改造” ,用为数较少的互不相关的新变量来反映原来变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。
主成分分析就是在这种降维的思想下产生的处理高维数据的方法。
3.2 基本原理(1).总体的主成分定义1设X (X i,X2,…,X p)'为P维随机向量,称Z i a;X为X的第i主成分(i=1,2,*X iX i E(X i ) Var(X i )X i(i 1,2,…,p)…P ),如果:(1) a 'a i 1(i1,2,…,p );(2)当 i>1 时,a ' a j 0(j 1,2,…i-1 );(3) Var(Z i )1,max Var (a X)a a 1,a a j 0( j 1/' i-1 )定理 1.设 X (X 1,X 2,…,X p )'是P 维随机向量,且D(X),的特征值为1 2…p 0,a 1, a 2,■ …,a p 为相应的单位正交特征向量,则 X 的第 i 主成分为Z i a ;x(i 1,2,…,p).p m p定义 2.我们称k /i为主成分Z k 的贡献率;又称k /i 为主成分i 1k 1i 1Z 1,…,Zm (m p)的累计贡献率。
精品文档主成分分析主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变量,通常是将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。
即所谓主成能解释大部分资料中的变异的几个新变量,选出比原始变量个数少,分,并用以解释资料的综合性指标。
、主成分分析的应用1)我国各地区普通高等教育发展水平综合评价。
(1 )投资效益的分析和排序等。
(2、主成分分析法的步骤2①对原始数据进行标准化处理xx,,x,a表示第n个,用表示主成分分析指标的m个变量,评价对象有m12ij aa,转化为标准化指标i个评价对象对应于第j个指标的取值。
将每个指标值ijij即??a jij)mj?1,2,,,(i?1,2,,na?;ij sj??2??,式中:)??a?s(a jjijjij1?nn1?ii?1相应地,标准化指标变量为 nn11??x jj)m1,2,,(x?,j?j sj②计算相关系数矩阵RR?(r)mmij?n??aa kjki1k?,(ir?,j?1,2,,m)ij n?1r?1,r?rr是第i个指标和第j其中:指标之间的相关系数。
,ijjiiiij③计算相关系数矩阵的特征值与特征向量精品文档.精品文档?????0???,(i?1,2,,m)?0?I?R再求解特征方程得到特征值,;m2i1?T),m?u(i1,2,,其中的特征向量出相对应的特征值由特,,,uuu)?(u,iijmjj21j m征向量组成的个新的指标变量为xuux??y?ux??m21m112111 ?xx??uy?ux?u?m2m2212122???x?uux??yux??m2mmmm1m21m yyy 为第1主成分,?,其中:主成分为第1主成分,为第m12)(≤④选择pp个主成分,计算综合评价值。
m?),m(j?1,2, 1)计算特征值的信息贡献率和累积贡献率(j y b用的信息贡献率,则有表示主成分ij?j )?1,2,?b,m(jjm??k1?k y,,y,ay用的累积贡献率,则有表示主成分p12pp??k1?k?apm??k1k?—aa个指标变量85%的范围为)时,则用前95%若接近于1(一般p pp m yy,,,y 个主成分进个主成分,代替原来个指标变量,再对作为pp p12行综合分析。
第1章概率方法建模简介第2章数据统计描述和分析第3章方差分析第4章回归分析第5章马氏链模型第6章时间序列模型第7章主成分分析及应用第8章判别分析简介及应用主讲:山东大学数学学院陈建良2第1章概率方法建模简介随机性模型,是指研究的对象包含有随机因素的规律,以概率统计为基本数学工具,其结果通常也是在概率意义下表现出来。
随机因素的影响可以用概率、平均值(即数学期望)等的作用来体现。
自然界中的现象总的来说可以概括为两大现象:确定性现象和随机现象在确定性现象中可以忽略随机因素的影响,在随机现象中必须考虑随机因素的影响。
确定性离散模型,主要使用差分方程方法、层次分析方法以及比较简单的图的方法和逻辑方法等方法建立模型;确定性连续模型,主要使用微积分、微分方程及其稳定性、变分法等方法建立模型;§2 概率方法建模实例分析实例一、报童的策略问题1.问题描述报童每天清晨从报站批发报纸零售,晚上将未卖完的报纸退回。
设每份报纸的批发价为b,零售价为a,退回价为c,且设a>b>c,因此报童每售出一份报纸赚(a-b),退回一份赔(b-c)。
若批少了不够买就会少赚,若批多了买不完就赔钱,报童如何确定每天批发报纸的数量,才能获得最大收入?92. 分析显然应根据需求量来确定批发量。
一种报纸的需求量是一随机变量。
假定报童通过自己的实践经验或其它方式掌握了需求量的随机规律,即在他的销售范围内每天报纸的需求量为X = x 份的概率为P(x),则通过P(x) 和a, b, c 就可建立关于批发量的优化模型。
3.数学模型设每天批发量为n,因需求量x 是随机的,因此x可以小于、等于或大于n,从而报童每天的收入也是随机的,作为优化模型的目标函数,应考虑他长期(半年、一年等)卖报的日平均收入。
据概率论中的大数定律,这相当于报童每天收入的期望值(以下简称平均收入)。
1011设报童每天批发进n 份报纸时的平均收入为S (n ),若某天需求量x ≤n ,则他售出x 份,退回(n -x )份;若这天需求量x >n ,则n 份报纸全部卖出。
2021数学建模中三种统计分析法的运用范文 摘要: 多元统计分析方法是被广泛应用的一种数据处理方法,包括主成分分析、因子分析以及独立成分分析,这三种统计分析方法可以应用在多变量、大数据的处理过程当中。
现阶段,数学建模竞赛得到了许多院校的重视,而许多建模竞赛的题目都要进行数据的预处理,因此,可以将三种统计分析方法应用在数学建模数据分析当中。
本文主要对主成分分析、因子分析以及独立成分分析方法进行简介,进一步研究了三种统计分析方法在数据建模中的应用。
关键词: 主成分分析;因子分析; 独立成分分析; 数学建模; 数学建模竞赛等与样本数据相关的问题都需要进行数据的统计预处理,在此过程中,涉及的数据以及变量较多,因此增加了数据处理的复杂程度,在处理时希望把多变量转换为较少的综合变量,从而能够反映出相应的变量信息。
而主成分分析、因子分析以及独立成分分析方法可以处理多变量、大样本的数据信息,同时能够进行降维处理,在数学建模竞赛当中得到了较为广泛的应用。
因此,对这三种统计分析方法进行研究具有实际的应用意义。
一、三种统计分析方法简介 (一)主成分分析 主成分分析法(PCA)就是指通过正交变换,把分量相关的多个变化转化为分量不相关的综合变量的过程。
其中,被选择出来的变量叫作主成分,可以对数据的各种指标进行解释;而综合变量不仅要能够反映出原变量的信息,还要保证互不相关。
主成分分析法是一种数学变换方法,在变换的过程中,变量的方差是不变的,还要以方差递减的形式把变换后的综合变量进行排序。
(二)因子分析 因子分析法(FA)是主成分分析法的推广,主要是把原始的变量通过一些公共的因子变量来表示,是一种研究把多个观测变量转变为少数的不相关的综合变量的一种统计分析方法。
此种方法主要针对在大量观测数据当中得到一部分有价值的、难以直接测量的、相对独立的因子。
(三)独立成分分析 独立成分分析法(ICA)是主成分分析法以及因子分析法的延伸,此种方法应用效果较好,一旦其他的统计方法失效,那么依然可以找出支持观测数据的内在因子。
概率论与数理统计在数学建模中的应用概率论与数理统计在数学建模中的应用——国 冰。
第一节 概率模型一、初等概率模型初等概率模型主要介绍了可靠性模型、传染病流行估计、常染色体遗传模型等三类问题:1、复合系统工作的可靠性问题的数学模型设某种机器的工作系统由N 个部件组成,各部件之间是串联的,即只要有一个部件失灵,整个系统就不能正常工作.为了提高系统的可靠性,在每个部件上都装有主要元件的备用件及自动投入装置(即当所使用元件损坏时,备用元件可自动替代之而开始工作)明显地,备用件越多,整个系统正常工作的可靠性就越大. 但是,备用件过多势必导至整个系统的成本、重量和体积相应增大,工作精度也会降低. 因此,配置的最优化问题便被提出来了:在某些限制性条件之下,如何确定各部件的备用件数量,使整个系统的工作可靠性最大? 这是一个整体系统的可靠性问题.我们假设第i 个部件上装有i x 个备用件(1,2,,)i N =,此时该部件正常工作的概率为()i p x ,那么整个系统正常工作的可靠度便可用1()ni i p p x ==∏ (9.1)来表示.又设第i 个部件上的每个备用件的费用为i C ,重量为i W ,并要求总费用不超过C ,总重量不超过W ,则问题的数学模型便写成为1max ()ni i p p x ==∏合理的决策必须具备三个条件:(1)目标合理;(2)决策结果满足预定目标的要求;(3)决策本身符合效率、满意、有限合理、经济性的原则。
所谓风险型决策是指在作出决策时,往往有某些随机性的因素影响,而决策者对于这些因素的了解不足,但是对各种因素发生的概率已知或者可估算出来,因此这种决策存在一定的风险.①风险决策模型的基本要素决策者——进行决策的个人、委员会或某个组织.在问题比较重大和严肃时,通常应以后者形式出现.方案或策略——参谋人员为决策者提供的各种可行计划和谋略. 如渔民要决定出海打鱼与否便是两个方案或称两个策略.准则——衡量所选方案正确性的标准.作为风险型决策,采用的比较多的准则是期望效益值准则,也即根据每个方案的数学期望值作出判断.对收益讲,期望效益值越大的方案越好;反之对于损失来讲,期望效益值越小的方案越好.事件或状态——不为决策者可控制的客观存在的且将发生的自然状态称为状态(事件),如下小雨,下大雨和下暴雨即为三个事件或称三种状态,均为人所不可控因素.结果——某事件(状态)发生带来的收益或损失值.②风险决策方法•利用树形图法表示决策过程具有直观简便的特点,将其称为决策树的方法.•充分利用灵敏度分析(即优化后分析)方法对决策结果作进一步的推广和分析.决策树一般都是自上而下的来生成的。
§8 主成分分析的应用主成分分析的基本思想是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们尽可能多地包含原变量的信息(降维),从而使得用这几个新变量替代原变量分析问题成为可能。
即在尽可能少丢失信息的前提下从所研究的m 个变量中求出几个新变量,它们能综合原有变量的信息,相互之间又尽可能不含重复信息,用这几个新变量进行统计分析(例如回归分析、判别分析、聚类分析等等)仍能达到我们的目的。
设有n 个样品,m 个变量(指标)的数据矩阵(1)11121(2)21222()12m m n mn n n nm x x x x x x x x X x x x x ⨯⎛⎫⎛⎫⎪ ⎪ ⎪⎪== ⎪⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭寻找k 个新变量12,,,()k y y y k m ≤ ,使得 1、1122,(1,2,,)l l l lm m y a x a x a x l k =+++= 2、12,,k y y y 彼此不相关这便是主成分分析。
主成分的系数向量12(,,,)l l l lm a a a a = 的分量lj a 刻划出第j 个变量关于第l 个主成分的重要性。
可以证明,若12(,,,)T m x x x x = 为m 维随机向量,它的协方差矩阵V 的m 个特征值为120m λλλ≥≥≥≥ ,相应的标准正交化的特征向量为12,,,m u u u ,则12(,,,)T m x x x x = 的第i 主成分为(1,2,,)T i i y u x i m == 。
称1/mi jj λλ=∑为主成分(1,2,,)Ti i y u x i m == 的贡献率,11/k mj jj j λλ==∑∑为主成分12,,k y y y 的累计贡献率,它表达了前k 个主成分中包含原变量12,,,m x x x 的信息量大小,通常取k 使累计贡献率在85%以上即可。
当然这不是一个绝对不变的标准,可以根据实际效果作取舍,例如当后面几个主成分的贡献率较接近时,只选取其中一个就不公平了,若都选入又达不到简化变量的目的,那时常常将它们一同割舍。
主成分分析在数学建模中的应用首先,PCA在数据预处理中起着重要的作用。
在收集和处理实际数据时,常常会遇到高维数据或带有噪声的数据。
高维数据会导致计算复杂度增加,而噪声则会影响建模的准确性。
使用PCA可以将高维数据降维至较低的维度,同时过滤掉数据中的噪声。
PCA通过计算数据之间的协方差矩阵,找出数据中的主要变量,将其映射到新的特征空间中。
这样可以极大地简化数据的表示,提高后续建模的效率。
其次,PCA在特征提取中也有广泛的应用。
在一些模式识别和机器学习任务中,数据的高维特征往往过于冗余,会导致模型过拟合。
使用PCA可以将原始特征空间转换为更低维的特征空间,只保留最重要的特征。
通过阈值或可调节的权重,可以选择保留几个主成分,以及降低到多少维度。
通过特征提取后的数据,可以降低模型训练和处理时间,同时还能提高模型的泛化能力。
此外,PCA在数据可视化中也发挥着重要的作用。
可视化是对数据理解和解释的重要手段,而高维数据的可视化是一项很具挑战性的任务。
利用PCA可以将高维数据转换为二维或三维空间,便于可视化呈现。
通过绘制主成分之间的关系,可以对数据的结构和分布有更直观的认识。
此外,PCA还可以用于聚类分析,通过将数据在主成分空间中进行聚类,可以更好地观察到数据的聚集和分离情况。
此外,PCA还可以结合其他数学建模方法进行应用。
例如,在回归分析中,可以根据PCA的结果选择最相关的特征变量,用于建立回归模型。
在分类分析中,可以利用PCA找到最能区分不同类别的主成分,从而提高分类器的性能。
在降维的过程中,PCA可以减小数据的维度,同时尽可能地保持原始数据的信息。
总之,主成分分析在数学建模中有着广泛的应用。
它可以帮助我们处理高维数据、提取有用的特征、进行数据可视化和分析,从而提高建模的效率和准确性。
然而,需要注意的是,在使用PCA时,需要对数据和模型进行适当的前提和假设,以确保分析结果的有效性和可靠性。
同时,还需要根据具体问题和数据的特点,选择适当的PCA方法和参数,以获得最好的建模效果。
一、主成分分析的数学模型假设原来的变量指标为X1,X2…,X k经过标准化后得到标准指标变量X1,X2,…,X K;X j=X j−X js j,j=1,2…,k其中X j是第j个指标变量的均值,s j是第j个指标变量的标准差。
他们的综合指标(新变量指标)为z1,z2,…,z m(m<=k),则进行线性变换:z1=l11X1+l12X2+⋯+l1k X K z2=l21X1+l22X2+⋯+l2k X K z m=l k1X1+l k2X2+⋯+l k k X K将k个标准变量X1,X2,…,X K转换成了k个新变量z1,z2,…,z m,但是线性变换应满足以下三个条件:●z i和z j独立,i≠j,i,j=1,2,…,k;●vaX(z1)≥vaX(z2)≥…≥vaX(z k) ;●l i12+l i22+⋯+l ik2=1,i=1,2,…,k;z1,z2,…,z m是X1,X2,…,X K的k个主成分,其中z1为第一主成分,z2为第二主成分,z k为第k主成分,称l i j为第i主成分在第j个标准指标量X j上的得分系数,将每一个样本的标准化观察值代入计算公式中,计算得每一个样本的k个主成分值,即为主成分得分。
二、主成分分析的方法步骤主成分分析的过程就是确定原来的变量X j(j=1,2,…,k)在个主成分z j(j=1,2,…,k)上的载荷l i j(i,j=1,2,…,k)。
从主成分分析的数学模型可以看出,主成分分析的任务是估计主成分,确定主成分的个数,解释主成分的实际意义和计算主成分得分。
假设有k个指标X1,X2…,X k,每个指标有n个观测值,它们的标准化变量是X1,X2,…,X K,记录如下表所示计算步骤如下:(1)对原始指标数据进行标准化变换:X ij=X ij−X js j,j=1,2,…,k将原始数据标准化,然后利用标准化的数据计算主成分,X为标准化后的数据矩阵,则:X=X11X12⋯X k1 X21X22⋮⋯X2k⋮X n1X n2⋯X nk(2)计算相关系数矩阵:R=Cov(X)=r11r12⋯rk1r21r22⋮⋯r2k⋮r k1r k2⋯rkk=1r12⋯r k1r211⋮⋯r2k⋮r k1r k2⋯1其中, r i j =(X ki −X)(k ij −X )n k =1 (X ki −X i)2n k =1 (X kj −X j )2n k =1(3) 计算相关矩阵的特征值和特征值所对应的特征向量:Cov (X )L=LV ar (Z 1)0V ar (Z 1)⋱0V ar (Z k )其中,L=l 11r 12⋯ l k 1l 21r 22⋮⋯l 2k ⋮l k 1r k 2⋯l kk由于R 为半正定矩阵,故可由R 的特征方程R −λI =0求得k 个非负特征值λi (i=1,2,…,k )将这些值按从大到小排序为 λ1≥λ2≥…≥λk ≥0 再由 R −λ1I l i =0l i ′l i =1i=1,2,…,k解得每一个特征值对应的特征向量l i =(l i 1,l i 2,…,l ik )′,从而求得各主成分:Z i =l i ′X=l i 1X 1+l i 2X 2+⋯+l i k X K ,i=1,2,…,k (4) 计算主成分贡献率及累计贡献率 各个主成分互不相关,即z i 和z j 的相关系数:r z i ,z j =i i Cov Z i ,Z i .Cov (Z j ,Z j )=0(i ≠j)于是各相关系数的矩阵为单位矩阵。
主成分分析方法地理环境是多要素的复杂系统,在我们进行地理系统分析时,多变量问题是经常会遇到的。
变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。
因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,这里介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。
一、主成分分析的基本原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。
假定有n 个地理样本,每个样本共有p 个变量描述,这样就构成了一个n×p 阶的地理数据矩阵:111212122212p p n n npx x x x x x X x x x ⎧⎪⎪=⎨⎪⎪⎩ (1)如何从这么多变量的数据中抓住地理事物的内在规律性呢?要解决这一问题,自然要在p 维空间中加以考察,这是比较麻烦的。
为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。
那么,这些综合指标(即新变量)应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。
如果记原来的变量指标为x 1,x 2,…,x p ,它们的综合指标——新变量指标为z 1,z 2,…,zm (m≤p)。
则 11111221221122221122,,.........................................,p p p p m m m mp p z l x l x l x z l x l x l x z l x l x l x =+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ (2)在(2)式中,系数l ij 由下列原则来决定:(1)z i 与z j (i≠j ;i ,j=1,2,…,m)相互无关;(2)z 1是x 1,x 2,…,x p 的一切线性组合中方差最大者;z 2是与z 1不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者;……;z m 是与z 1,z 2,……z m -1都不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者。