当前位置:文档之家› 数学建模-多元统计模型专题

数学建模-多元统计模型专题

数学建模-多元统计模型专题
数学建模-多元统计模型专题

多元统计模型——数模竞赛辅导专题

河南科技大学数学与统计学院武新乾

(2010-07-23)

一、前言

24年前(1986年),美国出现了大学生数学建模竞赛。随着改革开放的进程,数模竞赛逐渐传入我国。1992年,开始国内第一届大学生数学建模比赛。数模竞赛一经传入,便受到了全国高校的普遍关注,引起了大学生的广泛兴趣。特别是近年来,虽然试题难度不断增大,但是,参赛的学生规模空前膨胀,获奖的组队也日益增加,论文质量不断提高。

综观18年的竞赛试题,问题广泛,解决方案多种多样,其中基于统计分析的问题屡见不鲜。比如:1992年A题(简单记为1992A,下同)“施肥方案对作物、蔬菜的影响”,采用多元二次回归、全回归、逐步回归和二次响应面回归;1993A“非线性交调的频率设计”,采用最小二乘方法(简单记为LS);1998A“资产投资收益与风险模型”和2000A“DNA序列的分类”,都采用多元分析方法;2001A“血管管道的三维重建”和“血管切片的三维重建”,分别采用LS方法和非线性拟合;2001B“公交车调度的规划数学模型”,采用聚类分析、平滑方法和随机过程的有关知识;2003A“SARS传播的数学原理及预测与控制”和“SARS 传播的研究”,均考虑了时间序列的应用;2003A“SARS传播预测的数学模型”,采用非线性拟合,建立了指数模型;2004A“MS网点的合理布局”采用了聚类分析,“基于利润最大化的实运商业网点分布微观经济模型”采用多元统计分析方法,另外,“临时超市网点的规划模型研究”考虑了经验分布的应用;2004B“电力市场的输电阻塞优化管理(指导教师:肖华勇)”和“电力市场输电阻塞管理模型”,均使用了多元线性回归;2005A“长江水质的评价和预测”、“长江水质的评价预测模型”(二元线性回归预测)、“基于回归分析的长江水质预测与控制”,均考虑了回归分析,此外,“长江水质评价和预测的研究”、“水质的评价和预测模型”,均考虑了时间序列分析方法和多元线性回归模型;2005B“DVD在线租赁系统的优化设计”应用了抽样统计和随机服务模型,“DVD在线租赁问题”和“DVD租赁优化方案(指导教师:孙浩)”考虑了二项分布和随机模拟;2005B“DVD在线租赁问题研究”和2005C“雨量预报方法的评价模型”考虑了均值的应用;2006B“艾滋病疗法评价及疗效预测模型”使用了二次曲线和多元方差分析,“艾滋病疗法评价及疗效的预测模型”使用了逐步回归方法,“艾滋病疗法的评价及疗效的预测模型”应用了假设检验和方差分析,“艾滋病疗法的评价及疗效的预测”使用了线性拟合、二次和三次曲线拟合与非线性回归,“基于数据统计分析的艾滋病疗效评价方法”采用了F-检验和二次多项式回归;2007A“中国人口区域结构向量模型”采用了倒数曲线模型拟合,“基于Leslie模型的中国人口预测及蒙特卡罗仿真(指导教师:梅长林)”应用了概率方法;2008A“数码相机定位”应用了多元线性回归分析;2008B“高等教育学费标准探讨(华南农业大学,编号1910)”应用了因子分析、主成分分析和聚类分析,“高等教育学费标准的探讨(华南农业大学,编号1920)”采用了多元回归分析、数据挖掘和模拟退火算法,“关于高等教育学费标准的评价及建议(编号cumcm0849)”和“高校学费合理性研究(编号cumcm0860)”分别考虑了回归分析和曲线拟合。

由是可知,多元统计分析是常见的解决数模竞赛的主要工具之一,务必给以充分的重视和加强训练指导。

二、回归分析

1. 一元线性回归

经典的一元线性回归模型为

, 1,,i i i y a bx i n ε=++= , (1)

其中(),i i x y 为观察值,{}i ε为独立同分布(i.i.d.)随机误差序列,并且()

2

~0,i N εσ。

易知,参数a 和b 的最小二乘估计(LSE )为

???, xy xx

l a

y bx b l =-=, (2)

其中

1111, n n

i i i i x x y y n n ====∑∑,

()2

221

1

n

n

xx i i i i l x x x nx ===-=-∑∑,

()()1

1

n n

xy i i i i i i l x x y y x y nxy ===--=-∑∑。

于是,所得线性回归方程为

???y

a bx =+。 (3) 在应用回归方程(3)进行拟合、预测和控制之前,必须进行检验问题

01:0, :0H b H b =≠。

(4) 常用统计量为

()()21

2n SSR SSR F SSE n SSE

-=

=

-, (5) 其中()2

2

1

???n

i xx xy

i SSR y

y b l bl ==

-==∑为回归平方和,()2

1

?n i i i SSE y y ==-∑为残差平方和。当原假设0H 成立时,

()~1,2F F n -。

(6) 对于给定的显著性水平()01αα<<,由()()

1,2

P F F n αα>-=,查表确定临界值()1,2F n α-。当()1,2F F n α>-时,拒绝原假设0H ,说明x 与y 之间存在线性关系,回

归方程有意义。否则,回归方程无意义,这时有几种可能性:① x 确实对y 无任何影响;

② x 对y 有影响,但不是线性关系;③ 除x 以外,还有另外的因素对y 有影响,这时需要进一步研究。

变量x与y之间的线性关系的判断,除了上述方差分析法以外,还可以利用相关系数检验法。样本相关系数

()()

n

i i

x x y y

l

r

--

==

(7)

它是总体相关系数ρ的估计量。r具有一个特性,它只依赖于样本容量n和总体相关系数

ρ。当原假设

:0

Hρ=成立时,统计量

()

~2

t t n

=-。(8)

这说明也可以利用t检验法对原假设进行检验。

诚然,在使用统计软件进行假设检验时,往往会输出p值,也可以直接利用p进行检验判断,这里()

p P F f

=≥,f为统计量F的样本值。当pα

<时,拒绝原假设

H,认为x对y的线性影响是显著的,否则,认为x对y的线性影响是不显著的。

只有当拒绝原假设

H,即认为x对y的线性影响是显著时,才能利用线性回归方程(3)进行预测和控制。此时,

个体

y与集体平均()0

E y的点预测为

00

?

??

y a bx

=+。(9)

个体

y的区间预测(置信水平为1α

-)为

00

?y y

<

?y

<(10)

或者为

[]

00

??,

y d y d

-+,(11)

其中()

22d t n α=-

为预报半径,?σ=,12111n x x C x ????

??=??????

集体平均()0E y 的区间预测(置信水平为1α-)为

00?y

y <

0?y

< (12) 或者为

[]0101??,y d y d -+,

(13)

其中()12

2d t n α

=- 在实际应用中,为了方便起见,当0x 取值在x 附近并且样本容量n 比较大时,通常使用()0.05α=

000????22y

y y σσ-<<+, (14) 或者()0.01α=

000????33y

y y σσ-<<+ (15) 来进行预测和控制。比如,要控制y 在12y y y ≤≤中,只需通过()0.05α=

1122

??????2, 2y a bx y a bx σσ=+-=++ (16) 或者()0.01α=

1122

??????3, 3y a bx y a bx σσ=+-=++ (17) 分别求出1x 和2x ,从而确定变量x 值的控制范围。

2. 多元线性回归

经典的多元线性回归模型为

01122, 1,,i i i m im i y b b x b x b x i n ε=+++++= ,

(18) 其中()12,,,,i i im i x x x y 为观察数据,{}i ε为独立同分布(i.i.d.)随机误差序列,并且

()2~0,i N εσ。

易知,参数()012,,,,m b b b b b '= 的最小二乘估计(LSE )为

()

()1012?????,,,,m

b b b b b X X X Y -'''== , (19) 其中

111

121221

2221

2

11, 1m m n n n nm y x x x y x x x Y X y x x x ????

???????

?==????

????

????

。 于是,所得线性回归方程为

01122?????m m y b b x b x b x =++++ 。

(20) 方程的显著性检验

012112:0, :,,,m m H b b b H b b b === 不全为0。

(21) 常用统计量为

()()11n m SSR SSR m

F SSE n m m SSE

--=

=

--?, (22) 其中()2

1

?n

i i SSR y

y ==-∑为回归平方和,()2

1?n

i i i SSE y y

==

-∑为残差平方和。当原假设0H 成

立时,

()~,1F F m n m --。

(23) 对于给定的显著性水平()01αα<<,由()()

,1P F F m n m αα>--=,查表确定临界值

(),1F m n m α--。当(),1F F m n m α>--时,拒绝原假设0H ,即在显著性水平α下,变

量12,,,m x x x 对y 的线性影响显著,回归方程有意义。否则,回归方程无意义,此时有如下几种可能性:① 12,,,m x x x 确实对y 无影响;② 12,,,m x x x 对y 有影响,但是非线性关系;③ 除12,,,m x x x 以外,还有另外的因素对y 有影响,这时需要进一步研究。

只有通过方程的显著性检验,才能进一步对(偏)回归系数进行显著性检验。检验问题

()

()()01:0, :0 1,2,,j j j j H b H b j m =≠= 。

(24)

检验统计量为

()

1j

j P F SSE n m =

--, (25)

或者

j t =

, (26)

其中2?jj j j

P b l =,jj l 为1L -的第j 个对角元素,而L X X '= ,X 是中心化的数据矩阵,即 111

1221211222

211

22

m m m m n n nm m x x x x x x x x x x x x X

x x x x x x ---??

??---??=???

?

---??

在原假设()

0j H 成立的条件下,

()()~1,1, ~1j j F F n m t t n m ----。 (27)

当()1

,1j F F n m α>--或者()2 ~1j t t n m α--时,拒绝原假设()

0j H ,

表明变量j x 对y 的作用是显著的(j x 在回归方程中是显著的);否则,接受原假设()

0j H ,说明j x 对y 的作用是不显著的,可以将其从回归方程中剔除。

只有当回归方程的显著性检验和回归系数的显著性检验均通过以后,才可以利用回归方程(20)进行预测和控制。

给定一组变量值()0010201,,,,m x x x x '= ,对应的0y 和()0E y 的点预报为

001012020?????m m

y b b x b x b x =++++ 。 (28) 0y 的预报区间(区间估计)为

[]00??,y d y d -+, (29)

其中()21d t n m α

=

--为预报半径,?σ

=。当0j x 取值在

() 1,2,,j x j m = 附近并且样本容量n 充分大时,通常使用近似预报区间,即当0.05

α=时,预报区间为

[]00????2,2y

y σσ-+; (30) 当0.01α=时,预报区间为

[]00????3,3y

y σσ-+。 (31)

()0E y 的预报区间(区间估计)为

[]0101??,y d y d -+, (32)

其中()

121d t n m α

=--

在实际问题中,常希望通过控制m 个变量中的某一个(或者少数几个)来满足对输出

0y 的要求,这就是常说的控制问题。比如,如何控制自变量12,,,m x x x 的取值,使得因变

量满足0A y B <<。当0.05α=时,解不等式

00

??2,??2.y

B y A σσ+

->? (33) 解此不等式(在有解的情况下),即得自变量01020,,,m x x x 的控制范围。

3. 非线性回归

常见的非线性回归模型分为两种类型。第一类:形式上是非线性的,但是,经过变换以

后可以转化为线性模型,称为第一类非线性回归。第二类:本质上是非线性的,称为第二类非线性回归。

第一类非线性回归,又称为可化为线性模型的回归或者为化曲线为直的回归。常见的有:

双曲线型

11

y x

αβε=++; 指数函数型 x

y c e βε=+ 或者 () 0x

y c e

c βε=+>;

幂函数型 () 0y c x c β

ε=+>;

对数函数型 ln y x αβε=++;

S 型 1

x

y e εαβ-=

++;

……。

第二类非线性回归模型的一般形式为

(),y f x θε=+, (34)

其中()12,,,m x x x x '= 为可控制变量,()1

2

,,,p

θθθθ'= 为未知待估参数,ε为一随机

变量,f 为p m +元非线性函数。

此处,仅介绍一种常用的估计方法——非线性最小二乘法。

设进行了n 次随机试验,得到观察值为()()12,,,,,,1,2,,i i i i im i x y x x x y i n '== ,即

(),, 1,2,,i i i y f x i n θε=+= 。 (35)

通常假定{}i ε为独立同分布(i.i.d.)随机误差序列,并且为白噪声过程,即()

2

~0,i WN εσ。

()()2

1,n

i i i Q y f x θθ==-????∑, (36)

使得()Q θ达到最小值的?θ称为参数θ的最小二乘估计。称方程

()

??,y f x θ= (37)

为非线性回归方程;?y 作为y 的估计值,称为预测值(拟合值)。

下面介绍求解?θ的一种迭代方法——高斯-牛顿法。具体步骤如下: ① 给定初始值0

θ; ② 计算矩阵

()

()()()()()()()()000111120002221

2000

1

2

,,,,,,,,,p p

n n n p f x f x f x f x f x f x X f x f x f x θθθθθθθθθθθθθθθθθθ??

????

??????

??

?????

??=????????

??????

?????????

; ③ 计算迭代值*

θ,

()1

*0

*X X X Y θθ-'

'=+, (38)

其中

()()()()

*0001122,,,,,,n n Y y f x y f x y f x θθθ'

=--- 。

④ 以*θ代替0θ作为下一次迭代的初始值,重复上述步骤,直到*θ与0

θ或者()

*Q θ与

()0Q θ之差的绝对值小于预先给定的精度为止。将最后所得的*θ作为参数θ的最终估计值

?θ。

在求出?θ之后,可得非线性回归方程(37),然后,可类似于线性回归方程进行预测和

控制。

三、判别分析、聚类分析、主成分分析与因子分析

由于这部分内容庞杂繁多,况且教学时间有限,所以,该节讲义暂时略去这部分内容的知识梳理与讲解。虽然如此,但是,在下面的应用分析中还是选择了一个实例(例3)加以分析说明,这是因为该部分内容在历年的数学建模竞赛中时有出现和应用,不能掉以轻心。

四、应用分析

例1 (1992年A 题 施肥效果分析)具体问题参见题目“1992年A 题 施肥效果分析.pdf ”。

分析:该题是中国大学生首届数学模型竞赛试题,也是美国1992年数学模型竞赛A 题。在上述问题中,N, P, K 的施用量是三个回归变量,土豆和生菜的产量是因变量,利用所给数据建立产量与N, P, K 的施用量之间的函数关系,然后通过这个函数关系去分析合理的施肥效果等,这就是回归方法建模。

先看钾肥K 的施用量与生菜产量W 之间的关系。由所给数据描出经验曲线,并结合农学原理知,钾肥的施用量对生菜产量的增加表现为直线形式,故可用一元线性回归。所建立的钾肥对生菜的效应方程(回归方程)为

16.270.004657W k =+。 (39) 由于()0.056.575 5.321,8F F ≈>=,所以,效应方程(回归方程)(39)有意义。 另外,由所给数据描出的经验曲线,并结合英国科学家博伊德的理论可知,磷肥P 的施用量W 的增加表现为分段直线形式,运用一元线性回归,可得磷肥对土豆的效应方程为 ()()

32.0770.0849, 0101.0439.9680.00599, 101.04342p W p +≤≤??=?+≤≤??。 (40) 磷肥对生菜的效应方程为

()()6.6990.05369, 0276.0420.1960.004729, 276.04685p W p +

≤≤??=?+≤≤??

。 (41)

考查氮肥N 的施用量与土豆和生菜产量W 之间的关系。由所给数据描出的经验曲线,

结合Nicklas 和Miller 的理论可知,氮肥的施用量对土豆和生菜产量的增加可用下述描述:

()

22

012, ~0,y b b x b x N εεσ=+++。 (42)

令212,x x x x ==,则上述模型(42)转化为二元线性回归模型

()201122, ~0,y b b x b x N εεσ=+++。 (43)

经过计算,氮肥对土豆的效应方程为

2

14.800.1970.00034W n n =+-。 (44) 由于()0.01192.99.552,7F F =>=,所以,效应方程(回归方程)(44)有意义。类似地,可求得氮肥对生菜的效应方程为

210.230.1010.00024W n n =+-。 (45)

同时,可以检验上述回归方程(45)有意义。注意:(44)和(45)式中的n 表示氮肥N 的施用量。

再考察钾肥K 的施用量与土豆产量W 之间的关系。由所给的数据绘出经验曲线,结合米采利希学说,并考虑到土壤本身的天然肥力,钾肥的施用量对土豆产量的增加可用下述模型来描述

()

1bk c

W a e ε-+=-+, (46)

其中,,a b c 为未知参数, ε为零均值的随机变量。不妨采用高斯-牛顿法确定参数,,a b c ,这里样本容量10n =,

()()(),,, , ,1bx c a b c x k f x a e θθ-+'===-。

采用高斯-牛顿法,求得

???42.17, 0.01, 0.641a

b c ===-, 从而,得到钾肥对土豆的效应方程为

(

)0.01

0.641

42.171

k W e --=-。

(47) 注:其它解题方案可以参考“施肥方案对作物_蔬菜的影响.pdf ”。

例2 (2004年B 题)具体问题和分析参见“电力市场的输电阻塞优化管理.pdf ”和“电力市场输电阻塞管理模型2004年甲组高教杯获得者论文.pdf ”。

注:选择本题主要介绍多元线性回归在解决实际问题中的应用。

例3 (2008题B 题)具体问题参见“高等教育学费标准探讨B2008.doc ”,具体分析参见“高等教育学费标准探讨1910.pdf ”。

注:选择本题主要是想介绍多元统计分析中因子分析、主成分分析、聚类分析等基本方法在实际问题中的应用。

五、参考习题

1. (2006年B 题优秀论文)艾滋病疗法的评价及疗效的预测。(应用了线性拟合,二次、三次、非线性回归)

2. (杨万才等,概率论与数理统计,科学出版社,2009,209-214)黄河小浪底调水调沙模型,建立排沙量与水流量的变化关系。(主要考察多项式回归分析)

3. (2004年A 题优秀论文)MS 网点的合理布局。(采用了聚类分析)

4. (2001年B 题优秀论文)公交车调度的规划数学模型。(采用聚类分析、平滑方法和随机过程的有关知识)

5. “前言”中介绍的一些其它题目及其优秀论文。

六、授课心得

数学建模多元回归模型修订稿

数学建模多元回归模型 WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-

实习报告书 学生姓名: 学号: 学院名称: 专业名称: 实习时间: 2014年 06 月 05 日 第六次实验报告要求 实验目的: 掌握多元线性回归模型的原理,多元线性回归模型的建立、估计、检验及解释变量的增减的方法,以及运用相应的Matlab软件的函数计算。 实验内容: 已知某市粮食年销售量、常住人口、人均收入、肉、蛋、鱼的销售数据,见表1。请选择恰当的解释变量和恰当的模型,建立粮食年销售量的回归模型,并对其进行估计和检验。 表1 某市粮食年销售量、常住人口、人均收入、肉、蛋、鱼的销售数据 年份粮食年销售量Y/ 万吨 常住人口X2/ 万人 人均收入 X3/元 肉销售量 X4/万吨 蛋销售量 X5/万吨 鱼虾销售量 X6/万吨 1974 1975 1976 1977 1978 1979 1980 1981

1982 1983 1984 1985 1986 1987 实验要求: 撰写实验报告,参考第10章中牙膏销售量,软件开发人员的薪金两个案例,写出建模过程,包括以下步骤 1.分析影响因变量Y 的主要影响因素及经济意义; 影响因变量Y 的主要影响因素有常住人口数量,城市中人口越多,需要的粮食数量就越多,粮食的年销售量就会相应增加。粮食销量还和人均收入有关,人均收入增加了,居民所能购买的粮食数量也会相应增加。另外,肉类销量、蛋销售量、鱼虾销售量也会对粮食的销售量有影响,这些销量增加了,也表示居民的饮食结构也在发生变化,生活水平在提高,所以相应的,生活水平提升了,居民也有能力购买更多的粮食。 2. 建立散点图考察Y 与每一个自变量之间的相关关系 从上述散点图,我们可以看出,当x2增大时,y 有向上增加的趋势,图中的曲线是用二次函数模型 。随着x3,x4,x5,x6的增加,y 的值都有比较明显的 线性增长趋势,直线是用线性模型 3.建立多元线性回归模型,并计算回归系数和统计量; 综合上述分析,可以建立如下回归模型: 表1 初始模型的计算结果 εββ++=210x y εββ++=510x y

数据建模目前有两种比较通用的方式

数据建模目前有两种比较通用的方式1983年,数学建模作为一门独立的课程进入我国高等学校,在清华大学首次开设。1987年高等教育出版社出版了国内第一本《数学模型》教材。20多年来,数学建模工作发展的非常快,许多高校相继开设了数学建模课程,我国从1989年起参加美国数学建模竞赛,1992年国家教委高教司提出在全国普通高等学校开展数学建模竞赛,旨在“培养学生解决实际问题的能力和创新精神,全面提高学生的综合素质”。近年来,数学模型和数学建模这两个术语使用的频率越来越高,而数学模型和数学建模也被广泛地应用于其他学科和社会的各个领域。本文主要介绍了数学建模中常用的方法。 一、数学建模的相关概念 原型就是人们在社会实践中所关心和研究的现实世界中的事物或对象。模型是指为了某个特定目的将原型所具有的本质属性的某一部分信息经过简化、提炼而构造的原型替代物。一个原型,为了不同的目的可以有多种不同的模型。数学模型是指对于现实世界的某一特定对象,为了某个特定目的,进行一些必要的抽象、简化和假设,借助数学语言,运用数学工具建立起来的一个数学结构。 数学建模是指对特定的客观对象建立数学模型的过程,是现实的现象通过心智活动构造出能抓住其重要且有用的特征的表示,常常是形象化的或符号的表示,是构造刻画客观事物原型的数学模型并用以分析、研究和解决实际问题的一种科学方法。 二、教学模型的分类 数学模型从不同的角度可以分成不同的类型,从数学的角度,按建立模型的数学方法主要分为以下几种模型:几何模型、代数模型、规划模型、优化模型、微分方程模型、统计模型、概率模型、图论模型、决策模型等。 三、数学建模的常用方法 1.类比法 数学建模的过程就是把实际问题经过分析、抽象、概括后,用数学语言、数学概念和数学符号表述成数学问题,而表述成什么样的问题取决于思考者解决问题的意图。类比法建模一般在具体分析该实际问题的各个因素的基础上,通过联想、归纳对各因素进行分析,并且与已知模型比较,把未知关系化为已知关系,

数学建模方法模型

数学建模方法模型 一、统计学方法 1 多元回归 1、方法概述: 在研究变量之间的相互影响关系模型时候用到。具体地说:其可以定量地描述某一现象和某些因素之间的函数关系,将各变量的已知值带入回归方程可以求出因变量的估计值,从而可以进行预测等相关研究。 2、分类 分为两类:多元线性回归和非线性线性回归;其中非线性回归可以通过一定的变化转化为线性回归,比如:y=lnx 可以转化为 y=u u=lnx 来解决;所以这里主要说明多元线性回归应该注意的问题。 3、注意事项 在做回归的时候,一定要注意两件事: (1) 回归方程的显著性检验(可以通过 sas 和 spss 来解决) (2) 回归系数的显著性检验(可以通过 sas 和 spss 来解决) 检验是很多学生在建模中不注意的地方,好的检验结果可以体现出你模型的优劣,是完整论文的体现,所以这点大家一定要注意。 4、使用步骤: (1)根据已知条件的数据,通过预处理得出图像的大致趋势或者数据之间的大致关系; (2)选取适当的回归方程; (3)拟合回归参数; (4)回归方程显著性检验及回归系数显著性检验 (5)进行后继研究(如:预测等)

2 聚类分析 1、方法概述 该方法说的通俗一点就是,将 n个样本,通过适当的方法(选取方法很多,大家可以自行查找,可以在数据挖掘类的书籍中查找到,这里不再阐述)选取 m 聚类中心,通过研究各样本和各个聚类中心的距离 Xij,选择适当的聚类标准,通常利用最小距离法(一个样本归于一个类也就意味着,该样本距离该类对应的中心距离最近)来聚类,从而可以得到聚类结果,如果利用sas 软件或者 spss 软件来做聚类分析,就可以得到相应的动态聚类图。这种模型的的特点是直观,容易理解。 2、分类 聚类有两种类型: (1) Q型聚类:即对样本聚类; (2) R型聚类:即对变量聚类; 通常聚类中衡量标准的选取有两种: (1) 相似系数法 (2) 距离法 聚类方法: (1) 最短距离法 (2) 最长距离法 (3) 中间距离法 (4) 重心法 (5) 类平均法 (6) 可变类平均法 (7) 可变法

数学建模的基本步骤

数学建模的基本步骤 一、数学建模题目 1)以社会,经济,管理,环境,自然现象等现代科学中出现的新问题为背景,一般都有一个比较确切的现实问题。 2)给出若干假设条件: 1. 只有过程、规则等定性假设; 2. 给出若干实测或统计数据; 3. 给出若干参数或图形等。 根据问题要求给出问题的优化解决方案或预测结果等。根据问题要求题目一般可分为优化问题、统计问题或者二者结合的统计优化问题,优化问题一般需要对问题进行优化求解找出最优或近似最优方案,统计问题一般具有大量的数据需要处理,寻找一个好的处理方法非常重要。 二、建模思路方法 1、机理分析根据问题的要求、限制条件、规则假设建立规划模型,寻找合适的寻优算法进行求解或利用比例分析、代数方法、微分方程等分析方法从基本物理规律以及给出的资料数据来推导出变量之间函数关系。 2、数据分析法对大量的观测数据进行统计分析,寻求规律建立数学模型,采用的分析方法一般有: 1). 回归分析法(数理统计方法)-用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式。 2). 时序分析法--处理的是动态的时间序列相关数据,又称为过程统计方法。 3)、多元统计分析(聚类分析、判别分析、因子分析、主成分分析、生存数据分析)。 3、计算机仿真(又称统计估计方法):根据实际问题的要求由计算机产生随机变量对动态行为进行比较逼真的模仿,观察在某种规则限制下的仿真结果(如蒙特卡罗模拟)。 三、模型求解: 模型建好了,模型的求解也是一个重要的方面,一个好的求解算法与一个合

适的求解软件的选择至关重要,常用求解软件有matlab,mathematica,lingo,lindo,spss,sas等数学软件以及c/c++等编程工具。 Lingo、lindo一般用于优化问题的求解,spss,sas一般用于统计问题的求解,matlab,mathematica功能较为综合,分别擅长数值运算与符号运算。 常用算法有:数据拟合、参数估计、插值等数据处理算法,通常使用spss、sas、Matlab作为工具. 线性规划、整数规划、多元规划、二次规划、动态规划等通常使用Lindo、Lingo,Matlab软件。 图论算法,、回溯搜索、分治算法、分支定界等计算机算法, 模拟退火法、神经网络、遗传算法。 四、自学能力和查找资料文献的能力: 建模过程中资料的查找也具有相当重要的作用,在现行方案不令人满意或难以进展时,一个合适的资料往往会令人豁然开朗。常用文献资料查找中文网站:CNKI、VIP、万方。 五、论文结构: 0、摘要 1、问题的重述,背景分析 2、问题的分析 3、模型的假设,符号说明 4、模型的建立(局部问题分析,公式推导,基本模型,最终模型等) 5、模型的求解 6、模型检验:模型的结果分析与检验,误差分析 7、模型评价:优缺点,模型的推广与改进 8、参考文献 9、附录 六、需要重视的问题 数学建模的所有工作最终都要通过论文来体现,因此论文的写法至关重要:

数学建模——商品需求量的预测

实验十三 商品需求量的预测 【实验目的】 1.了解回归分析的基本原理和方法。 2.学习用回归分析的方法解决问题,初步掌握对变量进行预测和控制。 3.学习掌握用MATLAB 命令求解回归分析问题。 【实验内容】 现有某种商品的需求量、消费者的平均收入、商品价格的统计数据如表1所示,试用所提供的数据预测消费者平均收入为1000、商品价格为6时的商品需求量。 【实验准备】 现实生活中,一切事物都是相互关联、相互制约的。我们将变化的事物看作变量,那么变量之间的相互关系,可以分为两大类:一类是确定性关系,也叫作函数关系,其特征是一个变量随着其它变量的确定而确定,如矩形的面积由长宽确定;另一类关系叫相关关系,其特征是变量之间很难用一种精确的方法表示出来,如商品销量与售价之间有一定的关联,但由售价我们不能精确地计算出销量。不过,确定性关系与相关关系之间没有一道不可逾越的鸿沟,由于存在实际误差等原因,确定性关系在实际问题中往往通过相关关系来体现;另一方面,当对事物内部规律了解得更加深刻时,相关关系也可能转化为确定性关系。 1.回归分析的基本概念 回归分析就是处理变量之间的相关关系的一种数学方法,它是最常用的数理统计方法,能解决预测、控制、生产工艺化等问题。由相关关系函数确定形式的不同,回归分析一般分为线性回归、非线性回归和逐步回归,在这里我们着重介绍线性回归,它是比较简单的一类回归分析,在实际问题的处理中也是应用得较多的一类。 回归分析中最简单的形式是 y =0β+1βx +ε (x 、y 为标量) (1) 固定的未知参数0β,1β称为回归系数,自变量x 称为回归变量,ε是均值为零的随机变量,它是其他随机因素对 y 的影响,是不可观察的,我们称(1)为一元线性回归。它的一个自然推 广是x 是多元变量,形如 y =0β+1β1x +…+m βm x +ε (2) m ≥2,我们称为多元线性回归,或者更有一般地

数学建模中的图论方法

数学建模中的图论方法 一、引言 我们知道,数学建模竞赛中有问题A和问题B。一般而言,问题A是连续系统中的问题,问题B是离散系统中的问题。由于我们在大学数学教育内容中,连续系统方面的知识的比例较大,而离散数学比例较小。因此很多人有这样的感觉,A题入手快,而B题不好下手。 另外,在有限元素的离散系统中,相应的数学模型又可以划分为两类,一类是存在有效算法的所谓P类问题,即多项式时间内可以解决的问题。但是这类问题在MCM中非常少见,事实上,由于竞赛是开卷的,参考相关文献,使用现成的算法解决一个P类问题,不能显示参赛者的建模及解决实际问题能力之大小;还有一类所谓的NP问题,这种问题每一个都尚未建立有效的算法,也许真的就不可能有有效算法来解决。命题往往以这种NPC问题为数学背景,找一个具体的实际模型来考验参赛者。这样增加了建立数学模型的难度。但是这也并不是说无法求解。一般来说,由于问题是具体的实例,我们可以找到特殊的解法,或者可以给出一个近似解。 图论作为离散数学的一个重要分支,在工程技术、自然科学和经济管理中的许多方面都能提供有力的数学模型来解决实际问题,所以吸引了很多研究人员去研究图论中的方法和算法。应该说,我们对图论中的经典例子或多或少还是有一些了解的,比如,哥尼斯堡七桥问题、中国邮递员问题、四色定理等等。图论方法已经成为数学模型中的重要方法。许多难题由于归结为图论问题被巧妙地解决。而且,从历年的数学建模竞赛看,出现图论模型的频率极大,比如: AMCM90B-扫雪问题; AMCM91B-寻找最优Steiner树; AMCM92B-紧急修复系统的研制(最小生成树) AMCM94B-计算机传输数据的最小时间(边染色问题) CMCM93B-足球队排名(特征向量法) CMCM94B-锁具装箱问题(最大独立顶点集、最小覆盖等用来证明最优性) CMCM98B-灾情巡视路线(最优回路) 等等。这里面都直接或是间接用到图论方面的知识。要说明的是,这里图论只是解决问题的一种方法,而不是唯一的方法。 本文将从图论的角度来说明如何将一个工程问题转化为合理而且可求解的数学模型,着重介绍图论中的典型算法。这里只是一些基础、简单的介绍,目的在于了解这方面的知识和应用,拓宽大家的思路,希望起到抛砖引玉的作用,要掌握更多还需要我们进一步的学习和实践。

回归分析在数学建模中的应用

摘要 回归分析和方差分析是探究和处理相关关系的两个重要的分支,其中回归分析方法是预测方面最常用的数学方法,它是利用统计数据来确定变量之间的关系,并且依据这种关系来预测未来的发展趋势。本文主要介绍了一元线性回归分析方法和多元线性回归分析方法的一般思想方法和一般步骤,并且用它们来研究和分析我们在生活中常遇到的一些难以用函数形式确定的变量之间的关系。在解决的过程中,建立回归方程,再通过该回归方程进行预测。 关键词:多元线性回归分析;参数估计;F检验

回归分析在数学建模中的应用 Abstract Regression analysis and analysis of variance is the inquiry and processing of the correlation between two important branches, wherein the regression analysis method is the most commonly used mathematical prediction method, it is the use of statistical data to determine the relationship between the variables, and based on this relationship predict future trends. introduces a linear regression analysis and multiple linear regression analysis method general way of thinking and the general steps, and use them to research and analysis that we encounter in our life, are difficult to determine as a function relationship between the variables in the solving process, the regression equation is established by the regression equation to predict. Keywords:Multiple linear regression analysis; parameter estimation;inspection II

数学建模中常见的十大模型

数学建模常用的十大算法==转 (2011-07-24 16:13:14) 转载▼ 1. 蒙特卡罗算法。该算法又称随机性模拟算法,是通过计算机仿真来解决问题的算法,同时可以通过模拟来检验自己模型的正确性,几乎是比赛时必用的方法。 2. 数据拟合、参数估计、插值等数据处理算法。比赛中通常会遇到大量的数据需要处理,而处理数据的关键就在于这些算法,通常使用MA TLAB 作为工具。 3. 线性规划、整数规划、多元规划、二次规划等规划类算法。建模竞赛大多数问题属于最优化问题,很多时候这些问题可以用数学规划算法来描述,通常使用Lindo、Lingo 软件求解。 4. 图论算法。这类算法可以分为很多种,包括最短路、网络流、二分图等算法,涉及到图论的问题可以用这些方法解决,需要认真准备。 5. 动态规划、回溯搜索、分治算法、分支定界等计算机算法。这些算法是算法设计中比较常用的方法,竞赛中很多场合会用到。 6. 最优化理论的三大非经典算法:模拟退火算法、神经网络算法、遗传算法。这些问题是用来解决一些较困难的最优化问题的,对于有些问题非常有帮助,但是算法的实现比较困难,需慎重使用。 7. 网格算法和穷举法。两者都是暴力搜索最优点的算法,在很多竞赛题中有应用,当重点讨论模型本身而轻视算法的时候,可以使用这种暴力方案,最好使用一些高级语言作为编程工具。 8. 一些连续数据离散化方法。很多问题都是实际来的,数据可以是连续的,而计算机只能处理离散的数据,因此将其离散化后进行差分代替微分、求和代替积分等思想是非常重要的。 9. 数值分析算法。如果在比赛中采用高级语言进行编程的话,那些数值分析中常用的算法比如方程组求解、矩阵运算、函数积分等算法就需要额外编写库函数进行调用。 10. 图象处理算法。赛题中有一类问题与图形有关,即使问题与图形无关,论文中也会需要图片来说明问题,这些图形如何展示以及如何处理就是需要解决的问题,通常使用MA TLAB 进行处理。 以下将结合历年的竞赛题,对这十类算法进行详细地说明。 以下将结合历年的竞赛题,对这十类算法进行详细地说明。 2 十类算法的详细说明 2.1 蒙特卡罗算法 大多数建模赛题中都离不开计算机仿真,随机性模拟是非常常见的算法之一。 举个例子就是97 年的A 题,每个零件都有自己的标定值,也都有自己的容差等级,而求解最优的组合方案将要面对着的是一个极其复杂的公式和108 种容差选取方案,根本不可能去求解析解,那如何去找到最优的方案呢?随机性模拟搜索最优方案就是其中的一种方法,在每个零件可行的区间中按照正态分布随机的选取一个标定值和选取一个容差值作为一种方案,然后通过蒙特卡罗算法仿真出大量的方案,从中选取一个最佳的。另一个例子就是去年的彩票第二问,要求设计一种更好的方案,首先方案的优劣取决于很多复杂的因素,同样不可能刻画出一个模型进行求解,只能靠随机仿真模拟。 2.2 数据拟合、参数估计、插值等算法 数据拟合在很多赛题中有应用,与图形处理有关的问题很多与拟合有关系,一个例子就是98 年美国赛A 题,生物组织切片的三维插值处理,94 年A 题逢山开路,山体海拔高度的插值计算,还有吵的沸沸扬扬可能会考的“非典”问题也要用到数据拟合算法,观察数据的

数学建模统计模型

数学建模

论文题目: 一个医药公司的新药研究部门为了掌握一种新止痛剂的疗效,设计了一个药物试验,给患有同种疾病的病人使用这种新止痛剂的以下4个剂量中的某一个:2 g,5 g,7 g和10 g,并记录每个病人病痛明显减轻的时间(以分钟计). 为了解新药的疗效与病人性别和血压有什么关系,试验过程中研究人员把病人按性别及血压的低、中、高三档平均分配来进行测试. 通过比较每个病人血压的历史数据,从低到高分成3组,分别记作,和. 实验结束后,公司的记录结果见下表(性别以0表示女,1表示男). 请你为该公司建立一个数学模型,根据病人用药的剂量、性别和血压组别,预测出服药后病痛明显减轻的时间.

一、摘要 在农某医药公司为了掌握一种新止痛药的疗效,设计了一个药物实验,通过观测病人性别、血压和用药剂量与病痛时间的关系,预测服药后病痛明显减轻的时间。我们运用数学统计工具m i n i t a b软件,对用药剂量,性别和血压组别与病痛减轻

时间之间的数据进行深层次地处理并加以讨论概率值P (是否<)和拟合度R-S q的值是否更大(越大,说明模型越好)。 首先,假设用药剂量、性别和血压组别与病痛减轻时间之间具有线性关系,我们建立了模型Ⅰ。对模型Ⅰ用m i n i t a b 软件进行回归分析,结果偏差较大,说明不是单纯的线性关系,然后对不同性别分开讨论,增加血压和用药剂量的交叉项,我们在模型Ⅰ的基础上建立了模型Ⅱ,用m i n i t a b软件进行回归分析后,用药剂量对病痛减轻时间不显着,于是我们有引进了用药剂量的平方项,改进模型Ⅱ建立了模型Ⅲ,用m i n i t a b 软件进行回归分析后,结果合理。最终确定了女性病人服药后病痛减轻时间与用药剂量、性别和血压组别的关系模型: Y=1x 3x 1x 3x 2 1 x 对模型Ⅱ和模型Ⅲ关于男性病人用m i n i t a b软件进行回归分析,结果偏差依然较大,于是改进模型Ⅲ建立了模型Ⅳ,用m i n i t a b软件进行回归分析后,结果合理。最终确定了男性病人服药后病痛减轻时间与用药剂量、性别和血压组别的关系模 型:Y=1x1x 3x 2 1 x关键词止痛剂药剂量性别病痛减轻时 间

数学建模-回归分析-多元回归分析

1、 多元线性回归在回归分析中,如果有两个或两个以上的自变量,就称为 多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。 在实际经济问题中,一个变量往往受到多个变量的影响。例如,家庭消费支出,除了受家庭可支配收入的影响外,还受诸如家庭所有的财富、物价水平、金融机构存款利息等多种因素的影响,表现在线性回归模型中的解释变量有多个。这样的模型被称为多元线性回归模型。(multivariable linear regression model ) 多元线性回归模型的一般形式为: 其中k 为解释变量的数目,j β (j=1,2,…,k)称为回归系数(regression coefficient)。上式也被称为总体回归函数的随机表达式。它的非随机表达式为: j β也被称为偏回归系数(partial regression coefficient)。 2、 多元线性回归计算模型 多元性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差平方和(Σe)为最小的前提下,用最小二乘法或最大似然估计法求解参数。 设( 11 x , 12 x ,…, 1p x , 1 y ),…,( 1 n x , 2 n x ,…, np x , n y )是一个样本, 用最大似然估计法估计参数: 达 到最小。

把(4)式化简可得: 引入矩阵: 方程组(5)可以化简得: 可得最大似然估计值:

3、Matlab 多元线性回归的实现 多元线性回归在Matlab 中主要实现方法如下: (1)b=regress(Y, X ) 确定回归系数的点估计值 其中 (2)[b,bint,r,rint,stats]=regress(Y,X,alpha)求回归系数的点估计和区间估计、并检 验回归模型 ①bint 表示回归系数的区间估计. ②r 表示残差 ③rint 表示置信区间 ④stats 表示用于检验回归模型的统计量,有三个数值:相关系数r2、F 值、与F 对应的 概率p 说明:相关系数r2越接近1,说明回归方程越显著;F>F1-alpha(p,n-p-1) 时拒绝H0,F 越大,说明回归方程越显著;与F 对应的概率p<α 时拒绝H0,回归模型成立。 ⑤alpha 表示显著性水平(缺省时为0.05) (3)rcoplot(r,rint) 画出残差及其置信区间

数学建模竞赛统计回归分析相关练习题

1. 一个班有7名男性工人,他们的身高和体重列于下表 请把他们分成若干类并指出每一类的特征。这里身高以米为单位,体重以千克为单位。 2.有两种跳蚤共10只,分别测得它们四个指标值如表。 样本号甲种乙种 X3 X4 X1 X2 X3 X4 X1 X 2 1 189 245 137 163 181 305 184 209 2 192 260 132 217 158 237 13 3 188 3 217 276 141 192 18 4 300 166 231 4 221 299 142 213 171 273 162 213 5 171 239 128 158 181 297 163 224 1)用距离判别法建立判别准则。 2)问(192, 287, 141,198 和(197, 303, 170, 205 各属于哪一种? 3.考察温度x对产量y的影响,测得下列10组数据: 求y关于x的线性回归方程,检验回归效果是否显著,并预测 x=42C时产量的估值 4. 在研究化学动力学反应过程中,建立了一个反应速度和反应物 %-备 含量的数学模型,形式为y — 1 +卩2为+ P3X 2 +P4X3 其中i…,飞是未知参数,X1,X2,X3是三种反应物(氢,门戊烷, 异构戊烷)的含量,y是反应速度?今测得一组数据如表,试由此确定参数订…宀

序号反应速度y 氢X1 n戊烷X2 异构戊烷X3 1 8.55 470 300 10 2 3.79 285 80 10 3 4.82 470 300 120 4 0.02 470 80 120 5 2.75 470 80 10 6 14.39 100 190 10 7 2.54 100 80 65 8 4.35 470 190 65 9 13.00 100 300 54 10 8.50 100 300 120 11 0.05 100 80 120 12 11.32 285 300 10 13 3.13 285 190 120 5. 主成分与卡方检验已课件为主

数学建模各种分析报告方法

现代统计学 1.因子分析(Factor Analysis) 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。 运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。 2.主成分分析 主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。 主成分分析和因子分析的区别 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。 2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。 5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。 和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这中区分不是绝对的。 总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,

数学建模方法和步骤

数学建模的主要步骤: 第一、模型准备 首先要了解问题的实际背景,明确建模目的,搜集必需的各种信息,尽量弄清对象的特征. 第二、模型假设 根据对象的特征和建模目的,对问题进行必要的、合理的简化,用精确的语言作出假设,是建模至关重要的一步.如果对问题的所有因素一概考虑,无疑是一种有勇气但方法欠佳的行为,所以高超的建模者能充分发挥想象力、洞察力和判断力,善于辨别主次,而且为了使处理方法简单,应尽量使问题线性化、均匀化. 第三、模型构成 根据所作的假设分析对象的因果关系,利用对象的内在规律和适当的数学工具,构造各个量间的等式关系或其它数学结构.这时,我们便会进入一个广阔的应用数学天地,这里在高数、概率老人的膝下,有许多可爱的孩子们,他们是图论、排队论、线性规划、对策论等许多许多,真是泱泱大国,别有洞天.不过我们应当牢记,建立数学模型是为了让更多的人明了并能加以应用,因此工具愈简单愈有价值. 第四、模型求解 可以采用解方程、画图形、证明定理、逻辑运算、数值运算等各种传统的和近代的数学方法,特别是计算机技术.一道实际问题的解决往往需要纷繁的计算,许多时候还得将系统运行情况用计算机模拟出来,因此编程和熟悉数学软件包能力便举足轻重. 第五、模型分析 对模型解答进行数学上的分析."横看成岭侧成峰,远近高低各不?quot;,能否对模型结果作出细致精当的分析,决定了你的模型能否达到更高的档次.还要记住,不论那种情况都需进行误差分析,数据稳定性分析. 数学建模采用的主要方法有: (一)、机理分析法:根据对客观事物特性的认识从基本物理定律以及系统的结构数据来推导出模 型. 1、比例分析法:建立变量之间函数关系的最基本最常用的方法. 2、代数方法:求解离散问题(离散的数据、符号、图形)的主要方法. 3、逻辑方法:是数学理论研究的重要方法,对社会学和经济学等领域的实际问题,在决策,对策等学科中得到广泛应用. 4、常微分方程:解决两个变量之间的变化规律,关键是建立“瞬时变化率”的表达式. 5、偏微分方程:解决因变量与两个以上自变量之间的变化规律. (二)、数据分析法:通过对量测数据的统计分析,找出与数据拟合最好的模型 1、回归分析法:用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式,由于处理的是静态的独立数据,故称为数理统计方法. 2、时序分析法:处理的是动态的相关数据,又称为过程统计方法. 3、回归分析法:用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式,由于处理的是静态的独立数据,故称为数理统计方法.

数学建模多元回归模型

实习报告书 学生姓名: 学号: 学院名称: 专业名称: 实习时间: 2014年 06 月 05 日 第六次实验报告要求 实验目的: 掌握多元线性回归模型的原理,多元线性回归模型的建立、估计、检验及解释变量的增减的方法,以及运用相应的Matlab软件的函数计算。 实验内容: 已知某市粮食年销售量、常住人口、人均收入、肉、蛋、鱼的销售数据,见表1。请选择恰当的解释变量和恰当的模型,建立粮食年销售量的回归模型,并对其进行估计和检验。

表1 某市粮食年销售量、常住人口、人均收入、肉、蛋、鱼的销售数据 年份粮食年销售 量Y/万吨 常住人口 X2/万人 人均收 入X3/ 元 肉销售 量X4/万 吨 蛋销售 量X5/ 万吨 鱼虾销 售量 X6/万吨 197498.45560.20153.20 6.53 1.23 1.89 1975100.70603.11190.009.12 1.30 2.03 1976102.80668.05240.308.10 1.80 2.71 1977133.95715.47301.1210.10 2.09 3.00 1978140.13724.27361.0010.93 2.39 3.29 1979143.11736.13420.0011.85 3.90 5.24 1980146.15748.91491.7612.28 5.13 6.83 1981144.60760.32501.0013.50 5.418.36 1982148.94774.92529.2015.29 6.0910.07

1983158.55785.30552.7218.107.9712.57 1984169.68795.50771.1619.6110.1815.12 1985162.14804.80811.8017.2211.7918.25 1986170.09814.94988.4318.6011.5420.59 1987178.69828.731094.6 523.5311.6823.37 实验要求: 撰写实验报告,参考第10章中牙膏销售量,软件开发人员的薪金两个案例,写出建模过程,包括以下步骤 1.分析影响因变量Y的主要影响因素及经济意义; 影响因变量Y的主要影响因素有常住人口数量,城市中人口越多,需要的粮食数量就越多,粮食的年销售量就会相应增加。粮食销量还和人均收入有关,人均收入增加了,居民所能购买的粮食数量也会相应增加。另外,肉类销量、蛋销售量、鱼虾销售量也会对粮食的销售量有影响,这些销量增加了,也表示居民的饮食结构也在发生变化,生活水平在提高,所以相应的,生活水平提升了,居民也有能力购买更多的粮食。

数学建模-数据的统计分析

数学建模与数学实验 课程设计 学院数理学院专业数学与应用数学班级学号 学生姓名指导教师 2015年6月

数据的统计分析 摘要 问题:某校60名学生的一次考试成绩如下: 93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55 计算均值、标准差、极差、偏度、峰度,画出直方图;检验分布的正态性; 若检验符合正态分布,估计正态分布的参数并检验参数; 模型:正态分布。 方法:运用数据统计知识结合MATLAB软件 结果:符合正态分布

问题重述 某校60名学生的一次考试成绩如下: 93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55 (1)计算均值、标准差、偏差、峰度,画出直方图; (2)检验分布的正态性; (3)若检验符合正态分布,估计正态分布的参数并检验参数。 模型假设 假设一:此组成绩没受外来因素影响。 假设二:每个学生都是独自完成考试的。 假设三:每个学生的先天条件相同。 三.分析与建立模型 像类似数据的信息量比较大,可以用MATLAB 软件决绝相关问题,将n 名学生分为x 组,每组各n\x 个学生,分别将其命为1x ,2X ……j x 由MATLAB 对随机统计量x 进行命令。此时对于直方图的命令应为 Hist(x,j) 源程序为: x1=[93 75 83 93 91 85 84 82 77 76 ] x2=[77 95 94 89 91 88 86 83 96 81 ] x3=[79 97 78 75 67 69 68 84 83 81 ]

统计学数学模型

一、多元回归 1、方法概述: 在研究变量之间的相互影响关系模型时候,用到这类方法,具体地说:其可以定量地描述某一现象和某些因素之间的函数关系,将各变量的已知值带入回归方程可以求出因变量的估计值,从而可以进行预测等相关研究。 2、分类 分为两类:多元线性回归和非线性线性回归;其中非线性回归可以通过一定的变化转化为线性回归,比如:y=lnx 可以转化为 y=u u=lnx 来解决;所以这里主要说明多元线性回归应该注意的问题。 3、注意事项 在做回归的时候,一定要注意两件事: (1)回归方程的显著性检验(可以通过sas和spss来解决)(2)回归系数的显著性检验(可以通过sas和spss来解决) 检验是很多学生在建模中不注意的地方,好的检验结果可以体现出你模型的优劣,是完整论文的体现,所以这点大家一定要注意。 4、使用步骤: (1)根据已知条件的数据,通过预处理得出图像的大致趋势或者数据之间的大致关系; (2)选取适当的回归方程; (3)拟合回归参数; (4)回归方程显著性检验及回归系数显著性检验

(5)进行后继研究(如:预测等)这种模型的的特点是直观,容易理解。 这体现在:动态聚类图可以很直观地体现出来!当然,这只是直观的一个方面! 二、聚类分析 聚类有两种类型: (1) Q型聚类:即对样本聚类;(2) R型聚类:即对变量聚类;聚类方法: (1)最短距离法(2)最长距离法(3)中间距离法(4)重心法(5)类平均法(6)可变类平均法(7)可变法(8)利差平均和法 在具体做题中,适当选取方法; 3、注意事项 在样本量比较大时,要得到聚类结果就显得不是很容易,这时需要根据背景知识和相关的其他方法辅助处理。还需要注意的是:如果总体样本的显著性差异不是特别大的时候,使用的时候也要注意!4、方法步骤 (1)首先把每个样本自成一类; (2)选取适当的衡量标准,得到衡量矩阵,比如说:距离矩阵或相似性矩阵,找到矩阵中最小的元素,将该元素对应的两个类归为一类, (4)重复第2步,直到只剩下一个类; 补充:聚类分析是一种无监督的分类,下面将介绍有监督的“分

数学建模专题汇总-离散模型

离散模型 § 1 离散回归模型 一、离散变量 如果我们用0,1,2,3,4,…说明企业每年的专利申请数,申请数是一个离散的变量,但是它是间隔尺度变量,该变量类型不在本章的讨论的被解释变量中。但离散变量0和1可以用来说明企业每年是否申请专利的事项,类似表示状态的变量才在本章的讨论中。在专利申请数的问题中,离散变量0,1,2,3和4等数字具有具体的经济含义,不能随意更改;而在是否申请专利的两个选择对象的选择问题中,数字0和1只是用于区别两种不同的选择,是表示一种状态。本专题讨论有序尺度变量和名义尺度变量的被解释变量。 二、离散因变量

在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。 10 yes x no ?=?? 如果x 作为说明某种具体经济问题的自变量,则应用以前介绍虚拟变量知识就足够了。如果现在考虑某个家庭在一定的条件下是否购买住房问题时,则表示状态的虚拟变量就不再是自变量,而是作为一个被说明对象的因变量出现在经济模型中。因此,需要对以前讨论虚拟变量的分析方法进行扩展,以便使其能够适应分析类似家庭是否购房的问题。因为在家庭是否购房问题中,虚拟因变量的具体取值仅是为了区别不同的状态,所以将通过虚拟因变量讨论备择对象选择的回归模型称为离散选择模型。 三、线性概率模型

现在约定备择对象的0和1两项选择模型中,下标i 表示各不同的经济主体,取值0或l 的因变量i y 表示经济主体的具体选择结果,而影响经济主体进行选择的自变量i x 。如果选择响应 YES 的概率为(1/)i p y =i x ,则经济主体选择响应 NO 的概率为1(1/)i i p y -=x , 则(/)1(1/)0(0/)i i i i i i E y p y p y =?=+?=x x x =(1/)i i p y x =。 根据经典线性回归,我们知道其总体回归方程是条件期望建立的,这使我们想象可以构造线性概率模型 (1/)(/)i i i i i p y x E y x '===x β 011i k ik i x x u βββ=++++L 描述两个响应水平的线性概率回归模型可推知,根据统计数据得到的回归结果并不一定能够保证回归模型的因变量拟合值界于[0,1]。如果通过回归模型式得到的因变量拟合值完全偏离0或l 两个数值,则描述两项选择的回归模型的实际用途

数学建模常用算法模型

数学模型的分类 按模型的数学方法分: 几何模型、图论模型、微分方程模型、概率模型、最优控制模型、规划论模型、马氏链模型等 按模型的特征分: 静态模型和动态模型,确定性模型和随机模型,离散模型和连续性模型,线性模型和非线性模型等 按模型的应用领域分: 人口模型、交通模型、经济模型、生态模型、资源模型、环境模型等。 按建模的目的分: 预测模型、优化模型、决策模型、控制模型等 一般研究数学建模论文的时候,是按照建模的目的去分类的,并且是算法往往也和建模的目的对应 按对模型结构的了解程度分: 有白箱模型、灰箱模型、黑箱模型等 比赛尽量避免使用,黑箱模型、灰箱模型,以及一些主观性模型。 按比赛命题方向分: 国赛一般是离散模型和连续模型各一个,2016美赛六个题目(离散、连续、运筹学/复杂网络、大数据、环境科学、政策) 数学建模十大算法 1、蒙特卡罗算法 (该算法又称随机性模拟算法,是通过计算机仿真来解决问题的算法,同时可以通过模拟可以来检验自己模型的正确性,比较好用的算法) 2、数据拟合、参数估计、插值等数据处理算法 (比赛中通常会遇到大量的数据需要处理,而处理数据的关键就在于这些算法,通常使用Matlab作为工具) 3、线性规划、整数规划、多元规划、二次规划等规划类问题 (建模竞赛大多数问题属于最优化问题,很多时候这些问题可以用数学规划算法来描述,通常使用Lindo、Lingo软件实现) 4、图论算法 (这类算法可以分为很多种,包括最短路、网络流、二分图等算法,涉及到图论的问题可以用这些方法解决,需要认真准备)

5、动态规划、回溯搜索、分治算法、分支定界等计算机算法 (这些算法是算法设计中比较常用的方法,很多场合可以用到竞赛中) 6、最优化理论的三大非经典算法:模拟退火法、神经网络、遗传算法 (这些问题是用来解决一些较困难的最优化问题的算法,对于有些问题非常有帮助,但是算法的实现比较困难,需慎重使用) 7、网格算法和穷举法 (当重点讨论模型本身而轻视算法的时候,可以使用这种暴力方案,最好使用一些高级语言作为编程工具) 8、一些连续离散化方法 (很多问题都是从实际来的,数据可以是连续的,而计算机只认的是离散的数据,因此将其离散化后进行差分代替微分、求和代替积分等思想是非常重要的) 9、数值分析算法 (如果在比赛中采用高级语言进行编程的话,那一些数值分析中常用的算法比如方程组求解、矩阵运算、函数积分等算法就需要额外编写库函数进行调用) 10、图象处理算法 (赛题中有一类问题与图形有关,即使与图形无关,论文中也应该要不乏图片的这些图形如何展示,以及如何处理就是需要解决的问题,通常使用Matlab进行处理) 算法简介 1、灰色预测模型(必掌握) 解决预测类型题目。由于属于灰箱模型,一般比赛期间不优先使用。 满足两个条件可用: ①数据样本点个数少,6-15个 ②数据呈现指数或曲线的形式 2、微分方程预测(高大上、备用) 微分方程预测是方程类模型中最常见的一种算法。近几年比赛都有体现,但其中的要求,不言而喻。学习过程中 无法直接找到原始数据之间的关系,但可以找到原始数据变化速度之间的关系,通过公式推导转化为原始数据的关系。 3、回归分析预测(必掌握) 求一个因变量与若干自变量之间的关系,若自变量变化后,求因变量如何变化; 样本点的个数有要求: ①自变量之间协方差比较小,最好趋近于0,自变量间的相关性小; ②样本点的个数n>3k+1,k为自变量的个数;

相关主题
文本预览
相关文档 最新文档