数学建模案例分析8主成分分析的应用--概率统计方法建模
- 格式:doc
- 大小:208.00 KB
- 文档页数:4
第一讲 主成分分析在数学建模中的应用1.学习目的1、理解主成分分析的基本思想;2、会用SAS 软件编写相关程序,对相关数据进行主成分分析;3、会用SAS 软件编程结合主成分分析方法解决实际问题。
2.学习要求1、理解主成分分析的基本原理,掌握主成分分析的基本步骤;2、会用SAS 软件编写相关程序,对相关数据进行分析处理与假设检验;3、撰写不少于3000字的小论文;4、 精读一篇优秀论文。
3. 理论基础 3. 1基本思想在实际问题的研究中,往往会涉及众多的变量。
但就是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题与解释问题带来困难。
一般来说,虽然每个变量提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。
因而人们希望对这些变量加以“改造”,用为数较少的互不相关的新变量来反映原来变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。
主成分分析就就是在这种降维的思想下产生的处理高维数据的方法。
3、2 基本原理(1)、总体的主成分定义1、设'12(,,)X X X =p …,X 为P 维随机向量,称'i i Z a X =为X 的第i 主成分(i=1,2,…P),如果:(1) '1(1,2,);i i a a i ==…,p(2) 当i>1时,'0(1,2,);i ja aj ==∑…i-1(3) '''1,0(1,)()max ()j i a a a a j Var Z Var a X ====∑…i-1定理1、设'12(,,)X X X =p …,X 就是P 维随机向量,且()D X =∑,∑的特征值为120p λλλ≥≥≥≥…,12,,p a a a …,为相应的单位正交特征向量,则X 的第i 主成分为'i i Z a X = (1,2,).i =…,p定义2、我们称1/pk ii λλ=∑为主成分k Z 的贡献率;又称11/pm k ik i λλ==∑∑为主成分1,,()m Z Z m p <…的累计贡献率。
2021数学建模中三种统计分析法的运用范文 摘要: 多元统计分析方法是被广泛应用的一种数据处理方法,包括主成分分析、因子分析以及独立成分分析,这三种统计分析方法可以应用在多变量、大数据的处理过程当中。
现阶段,数学建模竞赛得到了许多院校的重视,而许多建模竞赛的题目都要进行数据的预处理,因此,可以将三种统计分析方法应用在数学建模数据分析当中。
本文主要对主成分分析、因子分析以及独立成分分析方法进行简介,进一步研究了三种统计分析方法在数据建模中的应用。
关键词: 主成分分析;因子分析; 独立成分分析; 数学建模; 数学建模竞赛等与样本数据相关的问题都需要进行数据的统计预处理,在此过程中,涉及的数据以及变量较多,因此增加了数据处理的复杂程度,在处理时希望把多变量转换为较少的综合变量,从而能够反映出相应的变量信息。
而主成分分析、因子分析以及独立成分分析方法可以处理多变量、大样本的数据信息,同时能够进行降维处理,在数学建模竞赛当中得到了较为广泛的应用。
因此,对这三种统计分析方法进行研究具有实际的应用意义。
一、三种统计分析方法简介 (一)主成分分析 主成分分析法(PCA)就是指通过正交变换,把分量相关的多个变化转化为分量不相关的综合变量的过程。
其中,被选择出来的变量叫作主成分,可以对数据的各种指标进行解释;而综合变量不仅要能够反映出原变量的信息,还要保证互不相关。
主成分分析法是一种数学变换方法,在变换的过程中,变量的方差是不变的,还要以方差递减的形式把变换后的综合变量进行排序。
(二)因子分析 因子分析法(FA)是主成分分析法的推广,主要是把原始的变量通过一些公共的因子变量来表示,是一种研究把多个观测变量转变为少数的不相关的综合变量的一种统计分析方法。
此种方法主要针对在大量观测数据当中得到一部分有价值的、难以直接测量的、相对独立的因子。
(三)独立成分分析 独立成分分析法(ICA)是主成分分析法以及因子分析法的延伸,此种方法应用效果较好,一旦其他的统计方法失效,那么依然可以找出支持观测数据的内在因子。
数学建模思想在“概率统计”教学中应用的实例分析引言随着社会的发展,科学技术的进步,在教学中,传统的教学方法已经不能适应当前的人才培养需求,概率统计在日常工作和生活中,应用的范围较广,也越来越重要,为了更好的实现概率统计教学,提高学生的学习兴趣和学习能力,需要创新教学方法。
在概率统计教学中,应用数学建模思想,是教学方法的创新,在教学中引入新的教学元素,可以提高学生的学习兴趣,提高学生的动手能力,加深学生对概率统计知识的理解和掌握,所以本次从数学建模思想在概率统计教学中的应用实例进行分析研究。
一、数学建模思想在概率统计教学中的应用意义概率统计是一门理论性、实践性等较强的学科,在统计学、经济学等方面的应用,越来越广泛和深入,随着科学技术的发展,在概率统计教学中,传统的教学方法和教学模式已经无法使用时代的发展和社会对人才培养的需求,为此需要对概率统计教学的方法进行创新改革。
数学建模思想在概率统计教学中的应用,可以帮助学生运用数学思想,将概率统计教学相关的内容与实际问题结合,有助于培养学生的概率统计应用能力。
在概率统计教学中,应用数学建模思想,可以加深学生对知识的理解[1]。
例如在指数分布教学中,以飞机的等待时间为例进行分析,在某个机场的飞机跑道上来了一架飞机之后,跑道就在等待下一辆飞机的到来,设在(0,t)时间内,该跑道上飞机道路的架数,为,求第二架飞机到来的等待时间h的分布函数?在概率统计教学中,数学建模思想的应用,可以提高学生的学习兴趣,同时又将学生的知识面扩展,实现了理论与实践的结合,实现概率统计教学的目的。
在教学中还有很多例子可以应用,可以让学生学会举一反三,对学生的创新能力、思维能力进行培养和锻炼。
在概率统计教学中,应用数学建模思想,可以引用先进的教学技术、开展教学实验课,增强学生的动手能力,例如运用计算机技术、统计软件等,让学生参与其中,动手运用,在增强学生概率统计的理论知识的同时,也增强了学生的应用实践能力。
概率论与数理统计在数学建模中的应用概率论与数理统计在数学建模中的应用——国 冰。
第一节 概率模型一、初等概率模型初等概率模型主要介绍了可靠性模型、传染病流行估计、常染色体遗传模型等三类问题:1、复合系统工作的可靠性问题的数学模型设某种机器的工作系统由N 个部件组成,各部件之间是串联的,即只要有一个部件失灵,整个系统就不能正常工作.为了提高系统的可靠性,在每个部件上都装有主要元件的备用件及自动投入装置(即当所使用元件损坏时,备用元件可自动替代之而开始工作)明显地,备用件越多,整个系统正常工作的可靠性就越大. 但是,备用件过多势必导至整个系统的成本、重量和体积相应增大,工作精度也会降低. 因此,配置的最优化问题便被提出来了:在某些限制性条件之下,如何确定各部件的备用件数量,使整个系统的工作可靠性最大? 这是一个整体系统的可靠性问题.我们假设第i 个部件上装有i x 个备用件(1,2,,)i N =,此时该部件正常工作的概率为()i p x ,那么整个系统正常工作的可靠度便可用1()ni i p p x ==∏ (9.1)来表示.又设第i 个部件上的每个备用件的费用为i C ,重量为i W ,并要求总费用不超过C ,总重量不超过W ,则问题的数学模型便写成为1max ()ni i p p x ==∏合理的决策必须具备三个条件:(1)目标合理;(2)决策结果满足预定目标的要求;(3)决策本身符合效率、满意、有限合理、经济性的原则。
所谓风险型决策是指在作出决策时,往往有某些随机性的因素影响,而决策者对于这些因素的了解不足,但是对各种因素发生的概率已知或者可估算出来,因此这种决策存在一定的风险.①风险决策模型的基本要素决策者——进行决策的个人、委员会或某个组织.在问题比较重大和严肃时,通常应以后者形式出现.方案或策略——参谋人员为决策者提供的各种可行计划和谋略. 如渔民要决定出海打鱼与否便是两个方案或称两个策略.准则——衡量所选方案正确性的标准.作为风险型决策,采用的比较多的准则是期望效益值准则,也即根据每个方案的数学期望值作出判断.对收益讲,期望效益值越大的方案越好;反之对于损失来讲,期望效益值越小的方案越好.事件或状态——不为决策者可控制的客观存在的且将发生的自然状态称为状态(事件),如下小雨,下大雨和下暴雨即为三个事件或称三种状态,均为人所不可控因素.结果——某事件(状态)发生带来的收益或损失值.②风险决策方法•利用树形图法表示决策过程具有直观简便的特点,将其称为决策树的方法.•充分利用灵敏度分析(即优化后分析)方法对决策结果作进一步的推广和分析.决策树一般都是自上而下的来生成的。
§8 主成分分析的应用主成分分析的基本思想是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们尽可能多地包含原变量的信息(降维),从而使得用这几个新变量替代原变量分析问题成为可能。
即在尽可能少丢失信息的前提下从所研究的m 个变量中求出几个新变量,它们能综合原有变量的信息,相互之间又尽可能不含重复信息,用这几个新变量进行统计分析(例如回归分析、判别分析、聚类分析等等)仍能达到我们的目的。
设有n 个样品,m 个变量(指标)的数据矩阵(1)11121(2)21222()12m m n mn n n nm x x x x x x x x X x x x x ⨯⎛⎫⎛⎫⎪ ⎪ ⎪⎪== ⎪⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭寻找k 个新变量12,,,()k y y y k m ≤ ,使得 1、1122,(1,2,,)l l l lm m y a x a x a x l k =+++= 2、12,,k y y y 彼此不相关这便是主成分分析。
主成分的系数向量12(,,,)l l l lm a a a a = 的分量lj a 刻划出第j 个变量关于第l 个主成分的重要性。
可以证明,若12(,,,)T m x x x x = 为m 维随机向量,它的协方差矩阵V 的m 个特征值为120m λλλ≥≥≥≥ ,相应的标准正交化的特征向量为12,,,m u u u ,则12(,,,)T m x x x x = 的第i 主成分为(1,2,,)T i i y u x i m == 。
称1/mi jj λλ=∑为主成分(1,2,,)Ti i y u x i m == 的贡献率,11/k mj jj j λλ==∑∑为主成分12,,k y y y 的累计贡献率,它表达了前k 个主成分中包含原变量12,,,m x x x 的信息量大小,通常取k 使累计贡献率在85%以上即可。
当然这不是一个绝对不变的标准,可以根据实际效果作取舍,例如当后面几个主成分的贡献率较接近时,只选取其中一个就不公平了,若都选入又达不到简化变量的目的,那时常常将它们一同割舍。
§8 主成分分析的应用
主成分分析的基本思想是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们尽可能多地包含原变量的信息(降维),从而使得用这几个新变量替代原变量分析问题成为可能。
即在尽可能少丢失信息的前提下从所研究的m 个变量中求出几个新变量,它们能综合原有变量的信息,相互之间又尽可能不含重复信息,用这几个新变量进行统计分析(例如回归分析、判别分析、聚类分析等等)仍能达到我们的目的。
设有n 个样品,m 个变量(指标)的数据矩阵
(1)1112
1(2)21222()12m m n m
n n n nm x x x x x x x x X x x x x ⨯⎛⎫
⎛⎫
⎪ ⎪ ⎪
⎪== ⎪
⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭
寻找k 个新变量12,,,()k y y y k m ≤ ,使得 1、1122,(1,2,,)l l l lm m y a x a x a x l k =+++= 2、12,,k y y y 彼此不相关
这便是主成分分析。
主成分的系数向量12(,,,)l l l lm a a a a = 的分量lj a 刻划出第j 个变量关于第l 个主成分的重要性。
可以证明,若12(,,,)T m x x x x = 为m 维随机向量,它的协方差矩阵V 的m 个特征值为
120m λλλ≥≥≥≥ ,相应的标准正交化的特征向量为12,,,m u u u ,则
12(,,,)T m x x x x = 的第i 主成分为(1,2,,)T i i y u x i m == 。
称1
/
m
i j
j λλ
=∑为主成分(1,2,,)T
i i y u x i m == 的贡献率,
1
1
/k m
j j
j j λλ
==∑∑为主成分
12,,k y y y 的累计贡献率,它表达了前k 个主成分中包含原变量12,,,m x x x 的信息量大
小,通常取k 使累计贡献率在85%以上即可。
当然这不是一个绝对不变的标准,可以根据实
际效果作取舍,例如当后面几个主成分的贡献率较接近时,只选取其中一个就不公平了,若都选入又达不到简化变量的目的,那时常常将它们一同割舍。
计算步骤如下:
1、由已知的原始数据矩阵n m X ⨯计算样本均值向量12ˆ(,,,)T
m x x x x μ== ; 其中1
1(1,2,,)n
i ij j x x i m n ===∑
2、计算样本协方差矩阵1
ˆ()()ˆ1
ij ij V
s n σ==- 其中1
()()(,1,2,,)n
ij li
i lj j l s x
x x x i j m ==
--=∑
3
、把原始数据标准化,即ij x x x
-= ()n m
ij X x ⨯= 。
形成样本相关矩阵ˆT R X X = ; 4、求ˆR 的特征根120m λλλ≥≥≥≥ 及相应的标准正交化的特征向量12,,,m
u u u ,可得主成分为(1,2,,)T i i y u x i m == 。
关于主成分的实际意义,要结合具体问题和相关的专业知识才能给出合理的解释。
例1 下表是10名初中男学生的身高(1x ),胸围(2x ),体重(3x )的数据,试进行主成分分析。
由表中数据计算得到
ˆ(161.2,77.3,51.2)T x μ== 46.5717.0930.981ˆ21.1132.58ˆ155.53V S n ⎛⎫
⎪==
⎪- ⎪⎝⎭
解出ˆV
的三个特征值和相应的三个标准正交化的特征向量为
12399.00,22.79, 1.41λλλ===
1(0.56,0.42,0.71)T u =, 2(0.83,0.33,0.45)T
u =--, 3(0.05,0.84,0.
54)T
u =- 由于三个主成分的贡献率分别为
99.022.79 1.41
80.36%,18.50%, 1.14%123.20123.20123.20
===
当保留前两个主成分时,累计贡献率已达98.86%,因此第三个主成分可以舍去。
得到的前
两个样本主成分的表达式为
11230.560.420.71y x x x =++ 21230.830.330.45y x x x =--
现在我们来解释这两个主成分的意义,从1y 的表达式可以看出,1y 是身高、胸围、体重三个变量的加权和,当一个学生的1y 数值较大时,可以推断其或较高或较胖或又高又胖,故1y 是反映学生身材魁梧与否的综合指标。
2y 的表达式中系数的符号为一正(1x )两负(2x ,3x )
,当一个学生的2y 数值较大时,表明其1x 大,而2x ,3x 小,即为瘦高个,故2y 是反映学生体形特征的综合指标。
需要指出的是,虽然利用主成分本身可对所涉及的变量之间的关系在一定程度上作分析,但这往往并不意味着分析问题的结束。
主成分分析本身往往并不是最终目的,而只是达到某种目的的一种手段。
很多情况下,主成分分析只是作为对原问题进行统计分析的中间步骤,目的是利用主成分变量代替原变量作进一步的统计分析,达到减少变量个数的效果。
例如,利用主成分变量作回归分析、判别分析、聚类分析等等。
下面再举一个利用主成分进行样品排序的例子。
例2 电子工业部所属的15个工厂某年份的经济效益数据如下表。
其中
1x —资金利税率(%) 2x —固定资产利税率(%) 3x —流动资金利税率(%) 4x —全员利税率(%) 5x —成本利税率(%) 6x —流动资金周转天数
按照上述步骤,可以计算出样本相关矩阵为
10.978
10.9950.9541ˆ0.880
0.8950.86210.0080.7240.8420.64310.7590.8050.720
0.730
0.4081
R ⎛⎫
⎪ ⎪ ⎪=
⎪ ⎪ ⎪ ⎪ ⎪-----⎝
⎭
ˆR
的特征根及相应的标准正交化的特征向量分别为
11234560.4410.4370.4360.410.3590.358y x x x x x x =++++-
此主成分主要反映前四个经济指标的效果,因为其系数之值比较接近,它们几乎以一样的重要性综合说明了各厂的经济效益。
第二个主成分为
6543212678.0677.0184.0175.0092.0083.0x x x x x x y ++-+-=
此主成分主要反映后两个经济指标的效果。
由于前两个主成分的累计贡献率已达94.5%,因此可以选取1y ,2y 来评价这些工厂的综合经济效益。
用下式作为每个样品的“综合数值”,按其大小给样品排序。
1122k k Z y f y f y f =+++ 其中1
/
m
i i j
j f λλ
==∑。
这里120.8370.108Z y y =+。
结果每个样品的Z 值列于表中最右边一列,按Z 值大小排序结果列于右边第二列。