数学建模讲义统计模型
- 格式:ppt
- 大小:415.01 KB
- 文档页数:64
数学建模统计模型教学教案一、教学内容本节课选自高中数学教材《数学建模与统计》第十章,具体内容为第一节的统计模型。
详细内容包括描述统计和推断统计的基础知识,重点探讨如何构建线性回归模型,以及如何运用该模型进行数据的预测和分析。
二、教学目标1. 理解并掌握描述统计和推断统计的基本概念和方法;2. 学会构建线性回归模型,并运用模型对实际问题进行预测和分析;3. 培养学生的数据分析能力和解决实际问题的能力。
三、教学难点与重点教学难点:线性回归模型的构建和应用。
教学重点:描述统计和推断统计的基本概念,以及线性回归模型的构建和应用。
四、教具与学具准备1. 教具:多媒体教学设备、黑板、粉笔;2. 学具:教材、练习本、计算器。
五、教学过程1. 引入:通过展示一组实际数据,引出描述统计和推断统计的概念,激发学生的兴趣。
2. 知识讲解:a. 简要介绍描述统计和推断统计的基本概念;b. 详细讲解线性回归模型的构建方法和应用。
3. 例题讲解:a. 演示如何构建线性回归模型;b. 结合实际案例,展示如何运用线性回归模型进行预测和分析。
4. 随堂练习:a. 让学生独立完成一组实际数据的描述统计分析;b. 引导学生构建线性回归模型,并对数据进行预测和分析。
六、板书设计1. 描述统计和推断统计的概念;2. 线性回归模型的构建方法;3. 线性回归模型的应用案例;4. 随堂练习的解答。
七、作业设计1. 作业题目:a. 对一组实际数据进行描述统计分析;b. 根据给定的数据,构建线性回归模型,并进行预测和分析。
2. 答案:见附件。
八、课后反思及拓展延伸1. 反思:本节课学生对描述统计和推断统计的概念掌握情况,以及对线性回归模型构建和应用的理解程度。
2. 拓展延伸:a. 探讨其他统计模型(如非线性回归、时间序列分析等)在实际问题中的应用;b. 引导学生参加数学建模竞赛,提高解决实际问题的能力。
重点和难点解析1. 线性回归模型的构建方法;2. 线性回归模型在实际问题中的应用;3. 课后作业的设计与答案。
数学建模模型常用的四大模型及对应算法原理总结四大模型对应算法原理及案例使用教程:一、优化模型线性规划线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,在线性回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
案例实操非线性规划如果目标函数或者约束条件中至少有一个是非线性函数时的最优化问题叫非线性规划问题,是求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。
建立非线性规划模型首先要选定适当的目标变量和决策变量,并建立起目标变量与决策变量之间的函数关系,即目标函数。
然后将各种限制条件加以抽象,得出决策变量应满足的一些等式或不等式,即约束条件。
整数规划整数规划分为两类:一类为纯整数规划,记为PIP,它要求问题中的全部变量都取整数;另一类是混合整数规划,记之为MIP,它的某些变量只能取整数,而其他变量则为连续变量。
整数规划的特殊情况是0-1规划,其变量只取0或者1。
多目标规划求解多目标规划的方法大体上有以下几种:一种是化多为少的方法,即把多目标化为比较容易求解的单目标,如主要目标法、线性加权法、理想点法等;另一种叫分层序列法,即把目标按其重要性给出一个序列,每次都在前一目标最优解集内求下一个目标最优解,直到求出共同的最优解。
目标规划目标规划是一种用来进行含有单目标和多目标的决策分析的数学规划方法,是线性规划的特殊类型。
目标规划的一般模型如下:设xj是目标规划的决策变量,共有m个约束条件是刚性约束,可能是等式约束,也可能是不等式约束。
设有l个柔性目标约束条件,其目标规划约束的偏差为d+, d-。
设有q个优先级别,分别为P1, P2, …, Pq。
在同一个优先级Pk中,有不同的权重,分别记为[插图], [插图](j=1,2, …, l)。
数学建模统计模型教学教案一、教学内容本节课选自《数学建模与统计》教材第十一章“统计模型”部分。
详细内容包括:11.1节线性回归模型的基本概念、11.2节一元线性回归模型的建立与性质、11.3节多元线性回归模型的建立与性质以及11.4节回归分析在实际问题中的应用。
二、教学目标1. 理解线性回归模型的基本概念,掌握一元和多元线性回归模型的建立方法。
2. 学会运用回归分析方法解决实际问题,提高数据分析与处理能力。
3. 培养学生的团队协作能力和创新思维。
三、教学难点与重点教学难点:多元线性回归模型的建立与求解。
教学重点:线性回归模型的基本概念、一元线性回归模型的建立与性质。
四、教具与学具准备1. 教具:多媒体教学设备、黑板、粉笔。
2. 学具:计算器、草稿纸、学生用书。
五、教学过程1. 实践情景引入(5分钟)利用多媒体展示一些实际问题,如身高与体重的关系、房屋面积与价格的关系等,引导学生思考如何用数学方法描述这些关系。
2. 线性回归模型基本概念(15分钟)讲解线性回归模型的定义、表示方法及其应用场景。
3. 一元线性回归模型的建立与性质(20分钟)以身高与体重的关系为例,讲解一元线性回归模型的建立过程,包括数据的收集、散点图的绘制、回归方程的求解等。
4. 例题讲解(25分钟)讲解一道关于一元线性回归的例题,引导学生学会如何运用回归分析方法解决问题。
5. 随堂练习(15分钟)布置一些关于一元线性回归的练习题,让学生独立完成,巩固所学知识。
6. 多元线性回归模型的建立与性质(20分钟)介绍多元线性回归模型的建立方法,以房屋面积与价格的关系为例,讲解多元线性回归模型的求解过程。
7. 应用案例分析(15分钟)分析一个实际问题,让学生分组讨论,运用所学知识建立回归模型,并给出解决方案。
六、板书设计1. 线性回归模型基本概念2. 一元线性回归模型的建立与性质3. 多元线性回归模型的建立与性质4. 例题及解答七、作业设计(1)已知一组数据,求其线性回归方程;(2)已知线性回归方程,预测某一自变量对应的因变量值。
数学建模统计模型教学优质教案一、教学内容本节课选自高中数学教材《数学建模与数学探究》第四章“统计模型”部分,具体内容包括:4.1节“数据的收集与整理”,4.2节“频率分布直方图”,4.3节“统计量及其计算”,4.4节“概率分布的估计”。
二、教学目标1. 理解并掌握数据的收集、整理和描述方法,能运用频率分布直方图对数据进行可视化展示。
2. 掌握常用的统计量(如平均数、中位数、众数、方差等)的计算方法,并能够根据实际问题选择合适的统计量进行分析。
3. 了解概率分布的估计方法,能够利用样本数据对总体分布进行推断。
三、教学难点与重点难点:频率分布直方图的绘制,概率分布的估计。
重点:数据的收集与整理,统计量的计算,概率分布的理解与应用。
四、教具与学具准备1. 教具:多媒体教学设备,PPT课件,黑板,粉笔。
2. 学具:直尺,圆规,计算器。
五、教学过程1. 实践情景引入(5分钟)通过展示一组关于学生身高、体重等数据的调查报告,引导学生思考如何对这些数据进行合理的整理和分析。
2. 数据的收集与整理(15分钟)(1)介绍数据的收集方法,如问卷调查、实验测量等。
(2)讲解数据的整理方法,如排序、分类、编码等。
3. 频率分布直方图(20分钟)(1)讲解频率分布直方图的绘制方法。
(2)通过例题讲解,引导学生动手绘制频率分布直方图。
4. 统计量及其计算(15分钟)(1)介绍常用的统计量:平均数、中位数、众数、方差等。
(2)讲解统计量的计算方法,并通过例题进行巩固。
5. 概率分布的估计(20分钟)(1)讲解概率分布的估计方法,如极大似然估计、矩估计等。
(2)通过例题讲解,引导学生利用样本数据对总体分布进行推断。
6. 随堂练习(15分钟)布置几道与教学内容相关的练习题,让学生独立完成,并及时给予反馈。
六、板书设计1. 数据的收集与整理2. 频率分布直方图3. 常用统计量及其计算方法4. 概率分布的估计方法七、作业设计1. 作业题目:(1)收集并整理一组数据,绘制频率分布直方图。
数学建模与数学实验数理学院高等数学教学研究部郑继明E-mail: zhengjm@统计的基本概念参数估计假设检验主要内容CH.15 数据的统计描述和分析1. 表示位置的统计量—平均值和中位数.平均值(或样本均值):∑==ni i X n X 11中位数:将数据由小到大排序后位于中间位置的那个数值. 2. 表示变异程度的统计量—标准差、方差和极差.标准差:2112])(11[∑=--=ni i X X n s 它是各个数据与均值偏离程度的度量. 方差:标准差的平方.极差:样本中最大值与最小值之差.一、统计量均值:mean(x)中位数:median(x)标准差:std(x)3. 表示分布形状的统计量—偏度和峰度偏度:∑=-=ni i X X sg 1331)(1峰度:∑=-=ni iX Xs g 1442)(1偏度反映分布的对称性,g 1 >0称为右偏态,此时数据位于均值右边的比位于左边的多;g 1 <0称为左偏态,情况相反;而g 1接近0 则可认为分布是对称的.峰度是分布形状的另一种度量,正态分布的峰度为3,若g 2比3 大很多,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数 据,因而峰度可用作衡量偏离正态分布的尺度之一.4. k 阶原点矩:∑==n i k i k X n V 11 k 阶中心矩:∑=-=n i ki k X X n U 1)(1偏度:skewness(x)峰度:kurtosis(x)二、分布函数的近似求法1. 整理资料: 把样本值x 1,x 2,…,x n 进行分组,先将它们依大小 次序排列,得**2*1n xx x ≤≤≤ .在包含],[**1n x x 的区间[a ,b ]内插入 一些等分点:,''2'1b x x x a n <<<<< 注意要使每一个区间],('1'+i i x x (i =1,2,…,n -1)内都有样本观测值x i (i =1,2,…,n -1)落入其中. 2.求出各组的频数和频率:统计出样本观测值在每个区间],('1'+i i x x 中出现的次数i n ,它就是这区间或这组的频数.计算频率nn f ii =.3.作频率直方图:在直角坐标系的横轴上,标出''2'1,,,n x x x 各点,分别以],('1'+i ix x 为底边,作高为'ii x f ∆的矩形, 1,,2,1,'''-=-=∆n i x x x , 即得频率直方图.例作频数直方图data=[23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4] >>data=[23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4];>> [N,X]=hist(data,12);%将[min(data),max(data)]分为12个小区间>> hist(data,12)三、几个在统计中常用的概率分布-4-2 0 2 4 60 0.050.10.150.2 0.25 0.3 0.35 0.4 1.正态分布 ), ( 2s m N 密度函数: 222 ) ( 2 1 ) ( s m s p - - = x e x p 分布函数: d y e x F y x 222 ) ( 2 1 ) ( s m s p - - ∞- ⎰ = 其中 m 为均值, 2 s 为方差, +∞ < < ∞ - x .标准正态分布: N (0,1)密度函数222 1 ) ( xex - =pj d yex y x222 1) ( - ∞- ⎰ =F p分布函数).(~,,)1,0(,,,22222221221n n X X X N X X X nn χχχχ记为分布的服从自由度为=则称统计量的样本是来自总体设+++ .:222212变量的个数中右端包含独立指自由度nX X X +++= χ分布2χ2.分布的概率密度为)(2n χ⎪⎪⎩⎪⎪⎨⎧>Γ=--.00,e )2(21)(2122其他y y n y f yn n∑==ni i X 122χ.2,2~⎪⎭⎫⎝⎛n Γ.)(2图分布的概率密度曲线如n χ.)(2图分布的概率密度曲线如n χ,,,,21相互独立因为n X X X ,,,,22221也相互独立所以n X X X 分布的可加性知根据Γ∑==ni i X 122χ.2,2~⎪⎭⎫ ⎝⎛n Γ分布的性质2χ性质1 )(2分布的可加性χ).(~,),,2,1(),(~21212222m mi i i i i n n n m i n +++=∑= χχχχχ则独立相互并且设性质2 )(2分布的数学期望和方差χ.2)(,)(),(~2222n D n E n ==χχχχ则若分布的分位点 2χ.)()(d )()}({,10,22)(222分位点分布的上为的点称满足条件对于给定的正数αχχαχχαααχααn n y y f n P n ⎰∞==><<.,,分位点的值得上可以通过查表求对于不同的ααn).(~,/,,),(~),1,0(~2n t t tn n Y Xt Y X n Y N X 记为分布的服从自由度为则称随机变量独立且设=χt 分布又称学生氏(Student )分布.+∞<<∞-⎪⎪⎭⎫ ⎝⎛+⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛+=+-t n t n n n t h n ,12π21)(212ΓΓ分布的概率密度函数为)(n t 分布t 3.图分布的概率密度曲线如t .0对称的显然图形是关于=t 当 n 充分大时, 其图形类似于标准正态变量概率密度的图形. ,e π21)(lim 22t n t h -∞→=因为,)1,0(分布分布近似于足够大时所以当N t n .)1,0(,分布相差很大分布与但对于较小的N t n.)()(d )()}({,10,)(分位点分布的上为的点称满足条件对于给定的αααααααn t n t t t h n t t P n t ⎰∞==><<.分位点的值得上可以通过查表求α由分布的对称性知).()(1n t n t αα-=-.)(,45ααz n t n ≈>时当分布的分位点t).,(~,),(//,,),(~),(~2121212212n n F F F n n n V n U F V U n V n U 记为布分的服从自由度为随机变量则称独立且设=χχ分布F 4. 分布的概率密度为),(21n n F ⎪⎪⎪⎩⎪⎪⎪⎨⎧>⎥⎦⎤⎢⎣⎡⎪⎭⎫ ⎝⎛+⎪⎭⎫⎝⎛⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛⎪⎭⎫⎝⎛+=+-.,0,0,1222)(2212112221212111其他y n y n n n y n n n n y n n n n ΓΓΓψ图分布的概率密度曲线如F 根据定义可知,).,(~1),,(~1221n n F Fn n F F 则若分布的分位点F .),(),(d )()},({,10,2121),(2121分位点分布的上为的点称满足条件对于给定的ααψαααααn n F n n F y y n n F F P n n F ⎰∞+==><<无论总体X 的分布函数F (x ;k θθθ,,,21 )的类型已知或未知,我们总是需要去估计某些未知参数或数字特征,这就是参数估计问题.即参数估计就是从样本(X 1,X 2,…,X n )出发,构造一些统计量(ˆi θX 1,X 2,…,X n )(i =1,2,…,k )去估计总体X 中的某些参数(或数字特征)i θ(i =1,2,…,k ).这样的统计量称为估计量.1. 点估计:构造(X 1,X 2,…,X n )的函数(ˆi θX 1,X 2,…,X n ) 作为参数i θ的点估计量,称统计量i θˆ为总体X 参数i θ的点估计量.2. 区间估计:构造两个函数(1i θ X 1,X 2,…,X n )和(2i θ X 1,X 2,…, X n ),把(21,i i θθ)作为参数i θ的区间估计.一、点估计的求法(一)矩估计法假设总体分布中共含有k个参数,它们往往是一些原点矩或一些原点矩的函数,例如,数学期望是一阶原点矩,方差是二阶原点矩与一阶原点矩平方之差等.因此,要想估计总体的某些参数(i=1,2,…,k),由于k个参数一定可以表为不超过k阶i原点矩的函数,很自然就会想到用样本的r阶原点矩去估计总体的r阶原点矩,用样本的一些原点矩的函数去估计总体的相应的一些原点矩的函数,再将k个参数反解出来,从而求出各个参数的估计值.这就是矩估计法,它是最简单的一种参数估计法.(二)极大似然估计法极大似然法的想法是: 若抽样的结果得到样本观测值x 1,x 2,…,x n , 则我们应当 选取参数i θ的值,使这组样本观测值出现的可能性最大. 即构造似然函数:)()()(),,,(),,,(2211221121n n n n k x X P x X P x X P x X x X x X P L ======== θθθ1121111(,,,)(,,,)(,,,)(,,,)n k k n k i k i p x p x p x p x θθθθθθθθ===∏ 使),,(1k L θθ 达到最大,从而得到参数i θ的估计值iθˆ. 此估计值称为极大似然估计值.函数),,(1k L θθ 称为似然函数. 求极大似然估计值的问题,就是求似然函数),,(1k L θθ 的最大值问题,则 0=∂∂iL θ k i ,,2,1 = 即 ln 0iL θ∂=∂ k i ,,2,1 =二、区间估计的求法设总体X 的分布中含有未知参数θ,若对于给定的概率α-1(10<<α),存在两个统计量(ˆ1θX 1,X 2,…,X n )和(ˆ2θ X 1,X 2,…,X n ),使得αθθθ-=<<1)ˆˆ(21P 则称随机区间()ˆ,ˆ21θθ为参数θ的置信水平为α-1的置信区间,1ˆθ称为 置信下限,2ˆθ称为置信上限.设样本(X 1,X 2,…,X n )来自正态母体X ,已知方差2s =DX , EX 在置信水平1-α下的置信区间为],[2121nuX nuX ssαα--+-.1.已知DX ,求EX 的置信区间2. 未知方差DX ,求EX 的置信区间EX 在置信水平1-α下的置信区间为],[2121nstX nstX αα--+-.(一)数学期望的置信区间 (二)方差的区间估计DX 在置信水平1-α下的置信区间为])1(,)1([2222212ααχχsn sn ---.返回1.参数检验:如果观测的分布函数类型已知,这时构造出的 统计量依赖于总体的分布函数,这种检验称为参数检验. 参数检验的目的往往是对总体的参数及其有关性质作出明 确的判断.对总体X 的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设.2.非参数检验:如果所检验的假设并非是对某个参数作出明 确的判断,因而必须要求构造出的检验统计量的分布函数 不依赖于观测值的分布函数类型,这种检验叫非参数检验. 如:要求判断总体分布类型的检验就是非参数检验.假设检验的一般步骤1.根据实际问题提出原假设H0与备择假设H1,即说明需要检验的假设的具体内容;2.选择适当的统计量,并在原假设H0成立的条件下确定该统计量的分布;3.按问题的具体要求,选取适当的显著性水平α,并根据统计量的分布查表,确定对应于α的临界值.一般α取0.05,0.01或0.10;4.根据样本观测值计算统计量的观测值,并与临界值进行比较,从而在检验水平α下对拒绝或接受原假设H0作出判断.(一)单个正态总体均值的检验一、参数检验设取出一容量为n 的样本,得到均值X 和标准差s ,现要对 总体均值m 是否等于某给定值0m 进行检验. 记00:m m =H ; 01:m m ≠H称H 0为原假设,H 1为备择假设,两者择其一:接受H 0;拒绝H 0, 即接受H 1.1.总体方差2s 已知用u 检验,检验的拒绝域为}{21α->=uz W ,即 }{2121αα-->-<=uz uz W 或用样本方差2s 代替总体方差2s ,这种检验叫t 检验.总体方差2s 已知 统计量z=nX sm 0-总体方差2s 未知统计量=t nsX 0m -H 0H 1在显著水平α下拒绝H 0,若Ⅰ 0m m = 0m m ≠21α->uz)1(21->-n tt αⅡ0m m =0m m > α->1u z )1(1->-n t t α Ⅲ 0m m = 0m m <α--<1u z)1(1--<-n t t α2.总体方差2s 未知小 结(二)单个正态总体方差的检验设X 1,X 2,…,X n 是来自正态总体),(2s m N 的样本,欲检验假设:2020:ss =H ;2021:s s ≠H (或202s s > 或 202ss <)这叫2χ检验.均值m 已知 统计量212202)(1m sχ-=∑=ni iX 均值m 未知 统计量212202)(1X X ni i-=∑=sχH 0H 1在显著水平α下拒绝H 0,若Ⅰ22s s = 202s s ≠ )(222n αχχ<或)(2212n αχχ->)1(222-<n αχχ或)1(2212->-n αχχⅡ 202s s = 202s s > )(212n αχχ-> )1(212->-n αχχⅢ 202s s = 202s s < )(22n αχχ<)1(22-<n αχχ(三)两个正态总体均值的检验构造统计量 222121n n YX z ss+-=.1.21s 与22s 已知时2.21s 与22s 未知但相等时构造统计量212121222211)2()1()1(n n n n n n sn s n Y X t +-+-+--=,方差2221,s s 已知统计量z方差2221,s s 未知但相等统计量tH 0H 1在显著水平α下拒绝H 0,若Ⅰ21m m = 21m m ≠21α->uz)2(2121-+>-n n tt αⅡ 21m m = 21m m > α->1u z )2(211-+>-n n t t α Ⅲ 21m m = 21m m < α--<1u z)2(211-+-<-n n t t α(四)两个正态总体方差的检验设样本X 1,X 2,…, 与Y 1,Y 2,…, 分别来自正态总体),(211s m N 与),(222s m N ,检验假设:22210:s s =H ; 22211:s s ≠H (或2221s s >,或2221s s <)1n X 2n Y 均值21,m m 已知 统计量0F均值21,m m 未知 统计量FH 0H 1在显著水平α下拒绝H 0,若Ⅰ2221s s = 2221s s ≠ ),(21210n n FF α->或),(112210n n F F α-<)1,1(2121-->-n n FF α或)1,1(11221--<-n n F F α Ⅱ 2221s s = 2221s s > ),(2110n n F F α-> )1,1(211-->-n n F F αⅢ 2221s s = 2221s s <),(11210n n F F α-< )1,1(1121--<-n n F F α ∑=-=212121101)(1nn i i X n F m , 2221s s F =(设2221s s ≥)二、非参数检验(一)皮尔逊2χ检验法(二)概率纸检验法概率纸是一种判断总体分布的简便工具.使用他们,可以很快地判断总体分布的类型.概率纸的种类很多.如果一个总体的分布F(X)是正态的,则点(x,F(x))在正态概率纸上应呈一条直线.设X1,X2,…,X n是从正态总体中抽得的样本观测值,将它们按大小排列后,记作X(1)≤X(2)≤…≤X(n).则当n较大时,样本的经验分布函数F n(x)和理论分布F(x)很接近. 因此,如果用(x,F(x))画图,则必应近似为一条直线.返回统计工具箱中的基本统计命令1. 数据的录入、保存和调用2. 基本统计量3. 常见的概率分布函数4. 频数直方图的描绘5. 参数估计6. 假设检验7. 综合实例返回一、数据的录入、保存和调用例1上海市区社会商品零售总额和全民所有制职工工资总额的数据如下:年份1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 职工工资总额(亿元)23.8 27.6 31.6 32.4 33.7 34.9 43.2 52.8 63.8 73.4商品零售总额(亿元)41.4 51.8 61.7 67.9 68.7 77.5 95.9 137.4 155.0 175.0 统计工具箱中的基本统计命令1.年份数据以1为增量,用产生向量的方法输入.t=78:872.分别以x和y代表变量职工工资总额和商品零售总额.x=[23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4] y=[41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0] 3.将变量t、x、y的数据保存在文件data中.save data t x y4.进行统计分析时,调用数据文件data中的数据.load data1.输入矩阵:data=[78,79,80,81,82,83,84,85,86,87,88;23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4;41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0] 2.将矩阵data的数据保存在文件data1中:save data1 data 3.进行统计分析时,先用命令:load data1调用数据文件data1中的数据,再用以下命令分别将矩阵data的第一、二、三行的数据赋给变量t、x、y:t=data(1,:)x=data(2,:)y=data(3,:)若要调用矩阵data的第j列的数据,可用命令:data(:,j) 返回二、基本统计量对随机变量x,计算其基本统计量的命令如下:均值:mean(x)中位数:median(x)标准差:std(x)方差:var(x)偏度:skewness(x)峰度:kurtosis(x)例对例1中的职工工资总额x,可计算上述基本统计量.返回三、常见概率分布的函数常见的几种分布的命令字符为:正态分布:norm指数分布:exp泊松分布:poissβ分布:betaχ分布:chi2韦布尔分布:weib 2t分布:t F分布:FMATLAB工具箱对每一种分布都提供5类函数,其命令字符为:概率密度:pdf 概率分布:cdf逆概率分布:inv 均值与方差:stat随机数生成:rnd(当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数即可.)例2 画出正态分布)1,0(N 和)2,0(2N 的概率密度函数图形.在MATLAB 中输入以下命令:x=-6:0.01:6;y=normpdf(x);z=normpdf(x,0,2);plot(x,y,x,z) 1.密度函数:p=normpdf(x,mu,sigma) (当mu =0,sigma =1时可缺省) 如对均值为mu 、标准差为sigma 的正态分布,举例如下:例3. 计算标准正态分布的概率P {-1<X <1}.命令为:P=normcdf(1)-normcdf(-1)结果为:P =0.68273.逆概率分布:x=norminv(P,mu,sigma). 即求出x ,使得P {X <x }=P .此命令可用来求分位数.2.概率分布:P=normcdf(x,mu,sigma)例4 取05.0=α,求21α-u 21α-u 的含义是:)1,0(~N X , P{X<21α-u }=21α-05.0=α时,P =0.975, =975.0u norminv(0.975)=1.964.均值与方差:[m,v]=normstat(mu,sigma)例5 求正态分布N(3,52)的均值与方差.命令为:[m,v]=normstat(3,5)结果为:m=3,v=255.随机数生成:normrnd(mu,sigma,m,n).产生m×n阶的正态分布随机数矩阵.例6 命令:M=normrnd([1 2 3;4 5 6],0.1,2,3) 结果为:M=0.9567 2.0125 2.88543.8334 5.0288 6.1191此命令产生了2×3的正态分布随机数矩阵,各数分别服从分布:N(1,0.12), N(2,22), N(3, 32), N(4,0.12), N(5, 22), N(6, 32).返回四、频数直方图的描绘1.给出数组data的频数表的命令为:[N,X]=hist(data,k)此命令将区间[min(data),max(data)]分为k个小区间(缺省为10),返回数组data落在每一个小区间的频数N和每一个小区间的中点X. 2.描绘数组data的频数直方图的命令为:hist(data,k)返回五、参数估计1.正态总体的参数估计设总体服从正态分布,则其点估计和区间估计可同时由以下命令获得:[muhat,sigmahat,muci,sigmaci]=normfit(X,alpha) 此命令在显著性水平alpha下估计数据X的参数(alpha缺省时设定为0.05),返回值muhat是X的均值的点估计值,sigmahat是标准差的点估计值, muci是均值的区间估计,sigmaci是标准差的区间估计.2.其它分布的参数估计有两种处理办法:一、取容量充分大的样本(n>50),按中心极限定理,它近似地服从正态分布;二、使用MATLAB工具箱中具有特定分布总体的估计命令.(1)[muhat, muci] = expfit(X,alpha) ──在显著性水平alpha下,求指数分布的数据X的均值的点估计及其区间估计. (2)[lambdahat, lambdaci] = poissfit(X,alpha) ──在显著性水平alpha下,求泊松分布的数据X的参数的点估计及其区间估计.(3)[phat, pci] = weibfit(X,alpha) ──在显著性水平alpha下,求Weibull分布的数据X的参数的点估计及其区间估计.返回六、假设检验在总体服从正态分布的情况下,可用以下命令进行假设检验.1.总体方差 已知时,总体均值的检验使用z 检验[h,sig,ci] = ztest (x,m,sigma,alpha,tail) 检验数据 x 的关于均值的某一假设是否成立,其中sigma 为已知方差, alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:tail = 0,检验假设“x 的均值等于 m ”tail = 1,检验假设“x 的均值大于 m ”tail =-1,检验假设“x 的均值小于 m ”tail 的缺省值为 0, alpha 的缺省值为 0.05.返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间.2s例7 MATLAB统计工具箱中的数据文件gas.mat.中提供了美国1993年1月份和2月份的汽油平均价格(price1,price2分别是1、2月份的油价,单位为美分),它是容量为20的双样本.假设1月份油价的标准偏差是每加仑4分币(s=4),试检验1月份油价的均值是否等于115.解作假设:m = 115.首先取出数据,用以下命令:load gas然后用以下命令检验[h,sig,ci] = ztest(price1,115,4)返回:h = 0,sig = 0.8668,ci = [113.3970116.9030].检验结果: 1. 布尔变量h=0, 表示不拒绝零假设. 说明提出的假设均值115 是合理的.2. sig值为0.8668, 远超过0.5, 不能拒绝零假设3. 95%的置信区间为[113.4, 116.9], 它完全包括115, 且精度很高.2.总体方差 未知时,总体均值的检验使用t 检验[h,sig,ci] = ttest (x,m,alpha,tail)检验数据 x 的关于均值的某一假设是否成立,其中alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:tail = 0,检验假设“x 的均值等于 m ”tail = 1,检验假设“x 的均值大于 m ”tail =-1,检验假设“x 的均值小于 m ”tail 的缺省值为 0, alpha 的缺省值为 0.05.返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间.2s例8 试检验例8中2月份油价price2的均值是否等于115. 解作假设:m = 115,price2为2月份的油价,不知其方差,故用以下命令检验[h,sig,ci] = ttest( price2 ,115)返回:h = 1,sig = 4.9517e-004,ci =[116.8 120.2].检验结果: 1. 布尔变量h=1, 表示拒绝零假设. 说明提出的假设油价均值115是不合理的.2. 95%的置信区间为[116.8 120.2], 它不包括115, 故不能接受假设.3. sig值为4.9517e-004, 远小于0.5, 不能接受零假设.3.两总体均值的假设检验使用t检验[h,sig,ci] = ttest2(x,y,alpha,tail)检验数据 x ,y 的关于均值的某一假设是否成立,其中alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:tail = 0,检验假设“x 的均值等于 y 的均值”tail = 1,检验假设“x 的均值大于 y 的均值”tail =-1,检验假设“x 的均值小于 y 的均值”tail的缺省值为 0, alpha的缺省值为 0.05.返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为与x与y 均值差的的 1-alpha 置信区间.例9 试检验例8中1月份油价price1与2月份的油价price2均值是否相同.解用以下命令检验[h,sig,ci] = ttest2(price1,price2)返回:h = 1,sig = 0.0083,ci =[-5.8,-0.9].检验结果:1. 布尔变量h=1, 表示拒绝零假设. 说明提出的假设“油价均值相同”是不合理的.2. 95%的置信区间为[-5.8,-0.9],说明一月份油价比二月份油价约低1至6分.3. sig-值为0.0083, 远小于0.5, 不能接受“油价均相同”假设.4.非参数检验:总体分布的检验MATLAB工具箱提供了两个对总体分布进行检验的命令:(1)h = normplot(x)此命令显示数据矩阵x的正态概率图.如果数据来自于正态分布,则图形显示出直线性形态.而其它概率分布函数显示出曲线形态.(2)h = weibplot(x)此命令显示数据矩阵x的Weibull概率图.如果数据来自于Weibull分布,则图形将显示出直线性形态.而其它概率分布函数将显示出曲线形态.返回例10一道工序用自动化车床连续加工某种零件,由于刀具损坏等会出现故障.故障是完全随机的,并假定生产任一零件时出现故障机会均相同.工作人员是通过检查零件来确定工序是否出现故障的.现积累有100次故障纪录,故障出现时该刀具完成的零件数如下:459 362 624 542 509 584 433 748 815 505612 452 434 982 640 742 565 706 593 680926 653 164 487 734 608 428 1153 593 844527 552 513 781 474 388 824 538 862 659775 859 755 49 697 515 628 954 771 609402 960 885 610 292 837 473 677 358 638699 634 555 570 84 416 606 1062 484 120447 654 564 339 280 246 687 539 790 581621 724 531 512 577 496 468 499 544 645764 558 378 765 666 763 217 715 310 851试观察该刀具出现故障时完成的零件数属于哪种分布.。
数学建模大作业摘要某公司想用全行业的销售额作为自变量来预测公司的销售额,题目给出了1977—1981此公司的销售额和行业销售额的分季度数据表格。
通过对所给数据的简单分析,我们可以看出:此公司的销售额有随着行业销售额的增加而增加的趋势,为了更加精确的分析题目所给的数据,得出科学的结论,从而达到合理预测的目的。
我们使用时间序列分析法,参照课本统计回归模型例4,做出了如下的统计回归模型。
在问题一中,我们使用MATLB数学软件,画出了数据的散点图,通过观察散点图,发现公司的销售额和行业销售额之间有很强的线性关系,于是我们用线性回归模型去拟合,发现有很好的拟合性。
但是这种情况下,并没有考虑到数据的自相关性,所以我们做了下面几个问题的分析来对这个数学模型进行优化。
在问题二中,通过建立了公司销售额对全行业销售额的回归模型,并使用DW检测诊断随机误差项的自相关性。
通过计算和查DW表比较后发现随即误差存在正自相关,也就是说前面的模型有一定的局限性,预测结果存在一定的偏差,还有需要改进的地方。
在问题三中,因为在问题二中得出随即误差存在正自相关,为了消除随机误差的自相关性,我们建立了一个加入自相关后的回归模型。
并对其作出了分析和验证,我们发现加入自相关后的回归模型更加合理。
通过使用我们建立的模型对公司的销售额进行预测,发现和实际的销售额很接近,也就是说模型效果还不错。
关键词:销售额、回归模型、自相关性一、问题提出某公司想用全行业的销售额作为自变量来预测公司的销售额,下表给出了1977-1981年公司销售额和行业销售额的分季度数据(单位:百万元).(1)画出数据的散点图,观察用线性回归模型拟合是否合适。
(2)监理公司销售额对全行业销售额的回归模型,并用DW检验诊断随机误差项的自相关性。
二、基本假设假设一:模型中ε(对时间t )相互独立。
三、符号说明公司销售额:y (百万)行业销售额:x (百万) 概念介绍:1.自相关:自相关(auto correlation ),又称序列相关(serial correlation )是指总体回归模型的随机误差项之间存在的相关关系。