第八章统计回归模型
- 格式:doc
- 大小:573.00 KB
- 文档页数:15
第八章 回归分析方法当人们对研究对象的内在特性和各因素间的关系有比较充分的认识时,一般用机理分析方法建立数学模型。
如果由于客观事物内部规律的复杂性及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型,那么通常的办法是搜集大量数据,基于对数据的统计分析去建立模型。
本章讨论其中用途非常广泛的一类模型——统计回归模型。
回归模型常用来解决预测、控制、生产工艺优化等问题。
变量之间的关系可以分为两类:一类叫确定性关系,也叫函数关系,其特征是:一个变量随着其它变量的确定而确定。
另一类关系叫相关关系,变量之间的关系很难用一种精确的方法表示出来。
例如,通常人的年龄越大血压越高,但人的年龄和血压之间没有确定的数量关系,人的年龄和血压之间的关系就是相关关系。
回归分析就是处理变量之间的相关关系的一种数学方法。
其解决问题的大致方法、步骤如下: (1)收集一组包含因变量和自变量的数据;(2)选定因变量和自变量之间的模型,即一个数学式子,利用数据按照最小二乘准则计算模型中的系数;(3)利用统计分析方法对不同的模型进行比较,找出与数据拟合得最好的模型; (4)判断得到的模型是否适合于这组数据; (5)利用模型对因变量作出预测或解释。
应用统计分析特别是多元统计分析方法一般都要处理大量数据,工作量非常大,所以在计算机普及以前,这些方法大都是停留在理论研究上。
运用一般计算语言编程也要占用大量时间,而对于经济管理及社会学等对高级编程语言了解不深的人来说要应用这些统计方法更是不可能。
MATLAB 等软件的开发和普及大大减少了对计算机编程的要求,使数据分析方法的广泛应用成为可能。
MATLAB 统计工具箱几乎包括了数理统计方面主要的概念、理论、方法和算法。
运用MATLAB 统计工具箱,我们可以十分方便地在计算机上进行计算,从而进一步加深理解,同时,其强大的图形功能使得概念、过程和结果可以直观地展现在我们面前。
本章内容通常先介绍有关回归分析的数学原理,主要说明建模过程中要做的工作及理由,如模型的假设检验、参数估计等,为了把主要精力集中在应用上,我们略去详细而繁杂的理论。
《数学建模》课程教学大纲课程编号: 90907011学时:32学分:2适用专业:本科各专业开课部门:各学院一、课程的性质与任务数学建模是研究如何将数学方法和计算机知识结合起来用于解决实际问题的一门边缘交叉学科,是集经典数学、现代数学和实际问题为一体的一门新型课程,是应用数学解决实际问题的重要手段和途径。
本课程主要介绍初等模型、简单优化模型、微分方程模型、概率统计模型、数学规划模型等模型的基本建模方法及求解方法。
通过数学模型有关概念、特征的学习和数学模型应用实例的介绍,培养学生数学推导和简化分析能力,熟练运用计算机能力;培养学生联想、洞察能力,综合分析能力;培养学生应用数学方法解决实际问题的能力。
三、实践教学的基本要求(无)四、课程的基本教学内容及要求第一章数学模型概述1.教学内容数学模型与数学建模、数学建模的基本方法和步骤、数学模型的特点和分类。
2.重点与难点重点:数学模型与数学建模。
难点:数学建模的基本方法和步骤。
3.课程教学要求了解数学模型与数学建模过程;了解数学建模竞赛规程;掌握几个简单的智力问题模型。
第二章初等模型1.教学内容双层玻璃窗的功效、动物的身长与体重。
2.重点与难点重点:初等方法建模的思想与方法。
难点:初等方法建模的思想与方法。
3.课程教学要求了解比例模型及其应用。
第三章简单的优化模型1.教学内容存贮模型、最优价格。
2.重点与难点重点:存贮模型。
难点:存贮模型。
3.课程教学要求掌握利用导数、微分方法建模的思想方法;能解决简单的经济批量问题和连续问题模型。
第四章数学规划模型1.教学内容线性规划建模、非线性规划建模,奶制品的生产与销售、接力队的选拔与选课策略、钢管和易拉罐下料。
2.重点与难点重点:线性规划方法建模、非线性规划建模。
难点:非线性规划方法建模、Lingo软件的使用。
3.课程教学要求掌握线性规划建模方法;了解对偶单纯形的经济意义;了解Lingo数学软件在解决规划问题中的作用。
第八章--统计回归模型第八章 统计回归模型回归分析是研究一个变量Y 与其它若干变量X 之间相关关系的一种数学工具.它是在一组试验或观测数据的基础上,寻找被随机性掩盖了的变量之间的依存关系.粗略的讲,可以理解为用一种确定的函数关系去近似代替比较复杂的相关关系.这个函数称为回归函数.回归分析所研究的主要问题是如何利用变量X 、Y 的观察值(样本),对回归函数进行统计推断,包括对它进行估计及检验与它有关的假设等.回归分析包含的内容广泛.此处将讨论多项式回归、多元线性回归、非线性回归以及逐步回归.一、多项式回归(1) 一元多项式回归一元多项式回归模型的一般形式为εβββ++++=m m x x y ...10.如果从数据的散点图上发现y 与x 呈现较明显的二次(或高次)函数关系,则可以选用一元多项式回归.1. 用函数polyfit 估计模型参数,其具体调用格式如下:p=polyfit(x,y,m) p 返回多项式系数的估计值;m 设定多项式的最高次数;x ,y 为对应数据点值.[p,S]=polyfit(x,y,m) S是一个矩阵,用来估计预测误差.2. 输出预估值与残差的计算用函数polyval实现,其具体调用格式如下:Y=polyval(p,X) 求polyfit所得的回归多项式在X处的预测值Y.[Y,DELTA]=polyval(p,X,S) p,S为polyfit的输出,DELTA为误差估计.在线性回归模型中,Y±DELTA以50%的概率包含函数在X处的真值.3. 模型预测的置信区间用polyconf实现,其具体调用格式如下:[Y,DELTA]=polyconf(p,X,S,alpha) 求polyfit所得的回归多项式在X处的预测值Y及预测值的显著性为1-alpha的置信区间Y±DELTA,alpha缺省时为0.05.4. 交互式画图工具polytool,其具体调用格式如下:polytool(x,y,m);polytool(x,y,m,alpha);用m次多项式拟合x,y的值,默认值为1,alpha 为显著性水平,默认值为0.05.例1 观测物体降落的距离s与时间t的关系,得到数据如下表,求s . t (s) 1/30 2/30 3/30 4/30 5/30 6/30 7/30 s(cm) 11.86 15.67 20.60 26.69 33.71 41.93 51.13t (s) 8/30 9/3010/30 11/30 12/30 13/30 14/30 s(cm) 61.49 72.90 85.44 99.08 113.77 129.54 146.48解 根据数据的散点图,应拟合为一条二次曲线.选用二次模型,具体代码如下:%%%输入数据t=1/30:1/30:14/30;s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48];%%%多项式系数拟合[p,S]=polyfit(t,s,2);则得回归模型为:1329.98896.652946.489ˆ2++=t t s . %%%y 的拟合值及预测值y 的置信半径delta [y,dalta]=polyconf(p,t,S); 得结果如下:y=Columns 1 through 1111.8729 15.7002 20.6148 26.6168 33.7060 41.8826 51.1465 61.4978 72.9363 85.4622 99.0754Columns 12 through 14113.7759 129.5637 146.4389dalta=Columns 1 through 110.0937 0.0865 0.0829 0.0816 0.0817 0.0823 0.0827 0.0827 0.0823 0.0817 0.0816Columns 12 through 140.0829 0.0865 0.0937%%%交互式画图polytool(t,s,2);polytool所得的交互式图形如图8-1所示.图8-1(2) 多元二项式回归多元二项式回归模型的一般形式为εββββ∑≤≤+++++=m k j k j jk m m x x x x y ,1110....多元二项式回归命令:rstool(x,y,’model’,alpha) x 表示n ⨯m 矩阵;y 表示n 维列向量;alpha 为显著性水平(缺省时为0.05);model 表示由下列4个模型中选择1个(用字符串输入,缺省时为线性模型):linear(线性):mm x x y βββ+++= 110;purequadratic(纯二次):∑=++++=nj jjj m m x x x y 12110ββββ ; interaction(交叉):∑≤≠≤++++=m k j k j jk m m x x x x y 1110ββββ ; quadratic(完全二次):∑≤≤++++=m k j k j jk m m x x x x y ,1110ββββ .例2 设某商品的需求量与消费者的平均收入、商品价格的统计数据如下,建立回归模型,预测平均收入为1000、价格为6时的商品需求量. 需求量100 75 80 70 50 65 90 100 11060 收入 1000 600 1200 500 300 400 1300 1100 1300 30价格 5 7 6 6 8 7 5 4 3 9解 选择纯二次模型,即2222211122110x x x x y βββββ++++=. %%%输入数据 x1=[1000 600 1200 500 300 400 1300 1100 1300 300];x2=[5 7 6 6 8 7 5 4 3 9];x=[x1' x2'];y=[100 75 80 70 50 65 90 100 110 60]';%%%多元二项式回归rstool(x,y,'purequadratic');得如下结果:图8-2得到一个如图所示的交互式画面,左边是x1(=1000)固定时的曲线y (x1)及其置信区间,右边是x2(=6)固定时的曲线y (x2)及其置信区间.用鼠标移动图中的十字线,或在图下方窗口内输入,可改变x1,x2.在左边图形下方的方框中输入1000,右边图形下方的方框中输入6,则画面左边的“Predicted Y1”下方的数据变为88.4791,即预测出平均收入为1000、价格为6时的商品需求量为88.4791.在画面左下方单击”Export ”,在出现的窗体中单击”ok ”按钮,则beta 、rmse 和residuals 都传送到Matlab 工作区中.在Matlab 工作区中输入命令:beta,rmse ,得结果: beta=110.5313 0.1464 -26.5709 -0.00011.8475rmse =4.5362故回归模型为:2221218475.10001.05709.261464.05313.110x x x x y +--+=,剩余标准差为4.5362,说明此回归模型的显著性较好.二、多元线性回归多元线性回归模型的一般形式为011...m m y x x βββε=++++. 在Matlab 统计工具箱中使用函数regress 实现多元线性回归.具体调用格式为:b=regress(Y,X) [b,bint,r,rint,stats]=regress(Y,X,alpha)其中⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n Y Y Y Y ...21,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=nm n n m m x x x x x x x x x X ...1..................1...1212222111211.对于一元线性回归,取1=m 即可.b 为输出向量;b ,bint 表示回归系数估计值和它们的置信区间;r 表示残差;rint 表示残差的置信区间;stats 表示用于检验回归模型的统计量,有四个数值:相关系数2R 、F 值、与F 值对应的概率P 、2s 的值.相关系数2R 越接近1,说明回归方程越显著;)1,(1-->-m n m F F α时拒绝0H ,F 越大,说明回归方程越显著;与F 对应的概率α<P 时拒绝0H ,回归模型成立;alpha表示显著性水平(缺省时为0.05).残差及其置信区间可以用命令rcoplot(r,rint)画出. 例3 已知某湖泊八年来湖水中COD 浓度实测值(y )与影响因素,如湖区工业产值(x 1)、总人口数(x 2)、捕鱼量(x 3)、降水量(x 4)的资料,建立y 的水质分析模型.湖水浓度与影响因素数据表 x 11.376 1.375 1.387 1.401 1.412 1.428 1.445 1.477 x 20.450 0.475 0.485 0.500 0.535 0.545 0.550 0.575 x 32.170 2.554 2.676 2.713 2.8233.088 3.122 3.262x40.89221.1610.53460.95891.02391.04991.10651.1387y 5.19 5.30 5.60 5.82 6.00 6.06 6.45 6.95 解作出因变量y与各自变量的样本散点图作散点图的目的主要是观察因变量y与各自变量间是否有比较好的线性关系,以便选择恰当的数学模型形式.图8-3、图8-4、图8-5、图8-6分别为y与x1、x2、x3、x4的散点图.从图中可以看出这些点大致分布在一条直线旁边,因此有较好的线性关系,可以采用线性回归.图8-3 y与x1的散点图图8-4 y与x2的散点图图8-5 y与x3的散点图图8-6 y与x4的散点图在Matlab中实现回归的具体代码如下:%%%输入数据x1=[1.376 1.375 1.387 1.401 1.412 1.428 1.445 1.477];x2=[0.450 0.475 0.485 0.500 0.535 0.545 0.550 0.575];x3=[2.170 2.554 2.676 2.713 2.823 3.088 3.122 3.262];x4=[0.8922 1.1610 0.5346 0.9589 1.0239 1.04991.1065 1.1387];x=[ones(8,1) x1' x2' x3' x4'];y=[5.19 5.30 5.60 5.82 6.00 6.06 6.45 6.95];%%%多元线性回归[b,bint,r,rint,stats]=regress(y',x);得如下结果:b =-13.984913.19202.42280.0754-0.1897bint =-26.0019 -1.96791.4130 24.9711-14.2808 19.1264-1.4859 1.6366-0.9638 0.5844r =-0.06180.02280.01230.0890 0.0431 -0.1473 0.0145 0.0274 rint =-0.1130 -0.0107 -0.1641 0.2098 -0.1051 0.1297 -0.2542 0.4321 -0.0292 0.1153 -0.2860 -0.0085 -0.3478 0.3769 -0.1938 0.2486 stats =0.9846 47.9654 0.0047 0.0123 故回归模型为:43211897.00754.04228.21920.139849.13x x x x y -+++-=,此外,由stats 的值可知9846.02=R,9654.47=F ,0047.0=P 。
第八章离散选择模型—Logistic回归基于logistic回归模型的企业信用评价——以材料和机械制造行业上市公司为例一、引言中国市场经济制度的日益健全与完善以及证券债券等金融市场的逐步建立与发展,信用成为经济交往、债务形成的一个重要的基础,信用风险越来越受到市场交易者的关注。
信用风险是指借款人、证券发行人或交易方由于各种原因不愿或无能力履行商业合同而违约,致使债权人、投资者或交易方遭受损失的可能性。
对于上市公司而言,这种违约行为经常表现为拖欠账款、资不抵债以及以发行证券或债券进行圈钱等失信行为。
对这种违约失信的可能性的度量显得十分重要。
怎样分析公司的信用状况,对信贷管理者如何分析企业的信用,对证券投资者如何衡量投资项目的风险和价值以及企业家如何评价自己管理的公司,都有极大的价值。
自上世纪中期以来,国内外以计算违约率(本文计算守信率,守信率=1-违约率)对信用风险进行评价和度量的方法和模型得到了迅速发展。
对企业的信用评价主要是基于综合财务指标特征计算违约风险并用来划分等级。
以综合财务指标为解释变量,运用计量统计方法建立模型,分析信用在金融和学术界成为主流,并且评价效果显著。
特别对于logistic回归模型效果更好,因为该模型没有关于变量分布的假设,也不要求假设指标存在多元正态分布。
最早有Martin(1977)建立logistic回归模型预测公司的破产以及违约的概率。
Madalla(1983)建立logistic回归模型来区分违约和非违约贷款申请人,并确认0.551为两者的分界线。
比如在我国,张后启等(2002),杨朝军等(2002),应用Logistic模型研究上市公司财务危机,得出有效结论等等。
面对我国在深沪两家证券市场上市的一千多家上市公司,由于公司体制和管理机制缺陷,或者自身利益最大化利益驱使,或者多部分有国企改制而来等各种原因,信用风险程度变的更大。
若能够应用一个较简单的计量模型对他们的信用状况进行评价,对债权人选择贷款对象,投资者投资和交易方的选取都有较大帮助。
第八章成对数据的统计分析(公式、定理、结论图表)一、成对数据的统计相关性1.变量的相关关系(1)函数关系函数关系是一种确定性关系,常用解析式来表示.(2)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.与函数关系不同,相关关系是一种非确定性关系.2.散点图(1)散点图成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图. (2)正相关和负相关如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.3.线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线性相关.4.样本相关系数(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(,),(,),,(,),利用相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:(其中,,,和,,,的均值分别为和).①当r >0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.②当r <0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.二、一元线性回归模型及其应用1.线性回归方程:(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:()()()1122,,,,,,n n x y x y x y ,其回归方程为a bx y +=∧,则1221,.ni i i nii x y nx y b x nx a y bx ==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑注意:线性回归直线经过定点(),x y .(3)相关系数:()()()()12211nii i nni i i i xx y y rx x y y ===--=--∑∑∑1222211ni ii n ni i i i x y nxyx nx y ny ===-=⎛⎫⎛⎫-- ⎪⎪⎝⎭⎝⎭∑∑∑.【方法归纳】(1)利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.(2)利用相关系数判定,当r 越趋近于1相关性越强.当残差平方和越小,相关指数2R 越大,相关性越强.(3)在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r 进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(4)正确运用计算 ,ba 的公式和准确的计算,是求线性回归方程的关键.并充分利用回归直线 y bxa =+ 过样本点的中心(),x y 进行求值.2、回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。
第八章 8.2.1、8.2.2 第1课时A 级——基础过关练1.(多选)随机误差的主要来源有( ) A .线性回归模型与真实情况引起的误差 B .省略了一些因素的影响产生的误差 C .观测产生的误差 D .计算产生的误差 【答案】ABCD2.已知x 与y 之间的一组数据:x 0 1 2 3 ym 37已求得关于y 与x 的经验回归方程为y x +0.7,则m 的值为( ) A .1 B .0.85【答案】D 【解析】x =0+1+2+34=1.5,y =m +3+5.5+74,将其代入y ^x +0.7,可得m =0.5.3.设若一条经验回归直线的方程为y ^x ,则变量x 增加1个单位时( ) A .yB .y 平均增加2个单位C .yD .y 平均减少2个单位【答案】C 【解析】∵回归方程为y ^1x ①,∴y ^2=2-1.5(x +1) ②,∴②-①得y ^2-y ^1=-1.5,即y 平均减少1.5个单位.4.根据如下样本数据得到的经验回归方程为y ^=b ^x +a ^,则( )x 3 4 5 6 7 8 yA .a ^>0,b ^>0 B .a >0,b <0 C .a ^<0,b ^>0D .a ^<0,b ^<0【答案】B 【解析】画出散点图,知a ^>0,b ^<0.5.已知x 与y 之间的一组数据:x 0 1 2 3 y1357若y 与x 线性相关,则y 与x 的经验回归直线y =b x +a 必过点( ) A .(2,2) B .(1.5,0) C .(1,2)D .(1.5,4)【答案】D 【解析】∵x =0+1+2+34=1.5,y =1+3+5+74=4,∴经验回归直线必过点(1.5,4).6.在一次试验中测得(x ,y )的四组数据如下:x 16 17 18 19 y50344131根据上表可得经验回归方程y =-5x +a ,据此模型预报当x =20时,y 的值为________. 【答案】26.5 【解析】x =16+17+18+194=17.5,y =50+34+41+314=39,∴经验回归直线过点(17.5,39), ∴39=-5×17.5+a ^,∴a ^=126.5, ∴当x =20时,y =-5×20+126.5=26.5.7.某工厂对某产品的产量与成本的资料分析后有如下数据:产量x /千件 2 3 5 6 成本y /万元78912由表中数据得到的经验回归方程y =b x +a 中b =1.1,预测当产量为9千件时,成本约为________万元.【答案】14.5 【解析】由表中数据得x =4,y =9,代入经验回归方程得a ^=4.6,∴当x =9时,y ^×9+4.6=14.5.8.期中考试后,某校高三(9)班对全班65名学生的成绩进行分析,得到数学成绩y 对总成绩x 的回归方程为y ^x .由此可以估计:若两个同学的总成绩相差50分,则他们的数学成绩大约相差________分.【答案】20 【解析】令两人的总成绩分别为x 1,x 2,则对应的数学成绩估计为y ^1x 1,y ^2x 2,所以|y ^1-y ^2|=|0.4(x 1-x 2×50=20.9.一项关于16艘轮船的研究中,船的吨位区间为[192,3 246](单位:吨),船员的人数5~32人,船员人数y 关于吨位x 的经验回归方程为y ^=9.5+0.006 2x .(1)若两艘船的吨位相差1 000,求船员平均相差的人数; (2)估计吨位最大的船和最小的船的船员人数.解:(1)设两艘船的吨位分别为x 1,x 2,则y ^1-y ^2=9.5+0.006 2x 1-(9.5+0.006 2x 2)=0.006 2×1 000≈6,即船员平均相差6人.(2)当x =192时,y ^=9.5+0.006 2×192≈11,当x =3 246时,y ^=9.5+0.006 2×3 246≈30.即估计吨位最大和最小的船的船员数分别为30人和11人.10.2021年元旦前夕,某市统计局统计了该市2020年10户家庭的年收入和年饮食支出的统计资料如下表:(1)(2)若某家庭年收入为9万元,预测其年饮食支出.B 级——能力提升练11.已知x ,y 的取值如表所示:如果y 与x 线性相关,且经验回归方程为y ^=b ^x +2,则b ^等于( )A .-12B .12C .-110D .110【答案】A 【解析】∵x =2+3+43=3,y =6+4+53=5,∴回归直线过点(3,5),∴5=3b ^+132,∴b ^=-12,故选A .12.某产品的广告费用x (单位:万元)与销售额y (单位:万元)的统计数据如下表:根据上表可得经验回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( )【答案】B 【解析】x =4+2+3+54=3.5,y =49+26+39+544=42.因为回归直线过点(x ,y ×3.5+a ^,解得a ^y ^xx =6时,y ^×6+9.1=65.5.13.(多选)根据一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),求得经验回归方程为y^x +0.5,且x =3.这组样本有两个样本数据(1.2,2.2)和(4.8,7.8)误差较大,移除后重新求得的经验回归直线斜率为1.2,则( )A .变量x 与y 具有正相关关系B .移除两个误差较大的样本点后重新求得的方程为yxC .移除两个误差较大的样本点后,y 的估计值增加速度变快D .移除两个误差较大的样本点后,y 的值增加速度变慢【答案】AD 【解析】因为回归直线方程为yx +0.5,1.5>0,所以变量x 与y 具有正相关关系,A 正确;当x =3时,y ××3+a ^,解得a ^=1.4,故移除后的回归方程为yx +1.4,B 错误;因为1.5>1.2,所以移除后y 的估计值增加速度变慢,C 错误,D 正确.14.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:由表中数据,求得经验回归方程为y =-4x +a ,则a =________. 【答案】106 【解析】x =4+5+6+7+8+96=132,y =92+82+80+80+78+686=80,由回归方程过样本中心点(x ,y ),得80=-4×132+a ^.即a ^=80+4×132=106.15.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:h)与当天投篮命中率y 之间的关系:小李这56号打6 h 篮球的投篮命中率为________.【答案】0.5 0.53 【解析】y =,5)=,5)=0.5,x =1+2+3+4+55=3.由公式,得b ^=0.01,从而a ^=y -b ^x ×y ^x .所以当x =6时,y ^×6=0.53.C 级——探究创新练16.(多选)某公司过去五个月的广告费支出x (单元:万元)与销售额y (单位:万元)之间有下列对应数据:方程为y ^x +17.5,则下列说法正确的是( )A .销售额y 与广告费支出x 正相关B .丢失的数据(表中▲处)为30D .若该公司下月广告费支出为8万元,则销售额约为75万元【答案】AB 【解析】由回归直线方程为y ^x +17.5,可知b ^=6.5,则销售额y 与广告费支出x 正相关,所以A 正确;设丢失的数据为m ,由表中的数据可得x =5,y =220+m5,把点⎝ ⎛⎭⎪⎫5,220+m 5代入回归方程,可得220+m 5×5+17.5,解得m =30,所以B 正确;该公司广告费支出每增加1万元,销售额不一定增加6.5万元,所以C 不正确;若该公司下月广告费支出为8万元,则销售额约为y ×8+17.5=69.5(万元),所以D 不正确.。
第八章 统计回归模型回归分析是研究一个变量Y 与其它若干变量X 之间相关关系的一种数学工具.它是在一组试验或观测数据的基础上,寻找被随机性掩盖了的变量之间的依存关系.粗略的讲,可以理解为用一种确定的函数关系去近似代替比较复杂的相关关系.这个函数称为回归函数.回归分析所研究的主要问题是如何利用变量X 、Y 的观察值(样本),对回归函数进行统计推断,包括对它进行估计及检验与它有关的假设等.回归分析包含的内容广泛.此处将讨论多项式回归、多元线性回归、非线性回归以及逐步回归.一、多项式回归(1) 一元多项式回归一元多项式回归模型的一般形式为εβββ++++=m m x x y ...10.如果从数据的散点图上发现y 与x 呈现较明显的二次(或高次)函数关系,则可以选用一元多项式回归.1. 用函数polyfit 估计模型参数,其具体调用格式如下:p=polyfit(x,y,m) p 返回多项式系数的估计值;m 设定多项式的最高次数;x ,y 为对应数据点值. [p,S]=polyfit(x,y,m) S 是一个矩阵,用来估计预测误差.2. 输出预估值与残差的计算用函数polyval 实现,其具体调用格式如下: Y=polyval(p,X) 求polyfit 所得的回归多项式在X 处的预测值Y .[Y ,DELTA]=polyval(p,X,S) p ,S 为polyfit 的输出,DELTA 为误差估计.在线性回归模型中,Y ±DELTA 以50%的概率包含函数在X 处的真值.3. 模型预测的置信区间用polyconf 实现,其具体调用格式如下:[Y ,DELTA]=polyconf(p,X,S,alpha) 求polyfit 所得的回归多项式在X 处的预测值Y 及预测值的显著性为1-alpha 的置信区间Y±DELTA ,alpha 缺省时为0.05.4. 交互式画图工具polytool ,其具体调用格式如下: polytool(x,y,m); polytool(x,y,m,alpha);用m 次多项式拟合x ,y 的值,默认值为1,alpha 为显著性水平,默认值为0.05. 例1 观测物体降落的距离s 与时间t 的关系,得到数据如下表,求s .解 根据数据的散点图,应拟合为一条二次曲线.选用二次模型,具体代码如下: %%%输入数据t=1/30:1/30:14/30;s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48]; %%%多项式系数拟合 [p,S]=polyfit(t,s,2); 则得回归模型为:1329.98896.652946.489ˆ2++=t t s .%%%y 的拟合值及预测值y 的置信半径delta [y,dalta]=polyconf(p,t,S); 得结果如下: y=Columns 1 through 1111.8729 15.7002 20.6148 26.6168 33.7060 41.8826 51.1465 61.4978 72.9363 85.4622 99.0754 Columns 12 through 14 113.7759 129.5637 146.4389 dalta=Columns 1 through 110.0937 0.0865 0.0829 0.0816 0.0817 0.0823 0.0827 0.0827 0.0823 0.0817 0.0816 Columns 12 through 14 0.0829 0.0865 0.0937 %%%交互式画图 polytool(t,s,2);polytool 所得的交互式图形如图8-1所示.图8-1(2) 多元二项式回归多元二项式回归模型的一般形式为εββββ∑≤≤+++++=mk j k j jkm m x x x x y ,1110....多元二项式回归命令:rstool(x,y,’model’,alpha) x 表示n ⨯m 矩阵;y 表示n 维列向量;alpha 为显著性水平(缺省时为0.05);model 表示由下列4个模型中选择1个(用字符串输入,缺省时为线性模型):linear(线性):m m x x y βββ+++= 110;purequadratic(纯二次):∑=++++=nj j jjm m x x x y 12110ββββ ;interaction(交叉):∑≤≠≤++++=mk j k j jkm m x x x x y 1110ββββ ;quadratic(完全二次):∑≤≤++++=mk j k j jkm m x x x x y ,1110ββββ .例2 设某商品的需求量与消费者的平均收入、商品价格的统计数据如下,建立回归模型,预测平均收入为1000、价格为6时的商品需求量.解 选择纯二次模型,即2222211122110x x x x y βββββ++++=. %%%输入数据x1=[1000 600 1200 500 300 400 1300 1100 1300 300]; x2=[5 7 6 6 8 7 5 4 3 9]; x=[x1' x2'];y=[100 75 80 70 50 65 90 100 110 60]'; %%%多元二项式回归 rstool(x,y,'purequadratic'); 得如下结果:图8-2得到一个如图所示的交互式画面,左边是x1(=1000)固定时的曲线y (x1)及其置信区间,右边是x2(=6)固定时的曲线y (x2)及其置信区间.用鼠标移动图中的十字线,或在图下方窗口内输入,可改变x1,x2.在左边图形下方的方框中输入1000,右边图形下方的方框中输入6,则画面左边的“Predicted Y1”下方的数据变为88.4791,即预测出平均收入为1000、价格为6时的商品需求量为88.4791.在画面左下方单击”Export ”,在出现的窗体中单击”ok ”按钮,则beta 、rmse 和residuals 都传送到Matlab 工作区中.在Matlab 工作区中输入命令:beta,rmse ,得结果:beta=110.5313 0.1464 -26.5709 -0.0001 1.8475 rmse =4.5362故回归模型为:2221218475.10001.05709.261464.05313.110x x x x y +--+=, 剩余标准差为4.5362,说明此回归模型的显著性较好.二、多元线性回归多元线性回归模型的一般形式为011...m m y x x βββε=++++.在Matlab 统计工具箱中使用函数regress 实现多元线性回归.具体调用格式为: b=regress(Y,X)[b,bint,r,rint,stats]=regress(Y,X,alpha)其中⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n Y Y Y Y ...21,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=nm n n m m x x x x x x x x x X ...1..................1 (12)12222111211.对于一元线性回归,取1=m 即可.b 为输出向量;b ,bint 表示回归系数估计值和它们的置信区间;r 表示残差;rint 表示残差的置信区间;stats 表示用于检验回归模型的统计量,有四个数值:相关系数2R 、F 值、与F 值对应的概率P 、2s 的值.相关系数2R 越接近1,说明回归方程越显著;)1,(1-->-m n m F F α时拒绝0H ,F 越大,说明回归方程越显著;与F 对应的概率α<P 时拒绝0H ,回归模型成立;alpha 表示显著性水平(缺省时为0.05).残差及其置信区间可以用命令rcoplot(r,rint)画出.例3 已知某湖泊八年来湖水中COD 浓度实测值(y )与影响因素,如湖区工业产值(x 1)、总人口数(x 2)、捕鱼量(x 3)、降水量(x 4)的资料,建立y 的水质分析模型.湖水浓度与影响因素数据表解 作出因变量y 与各自变量的样本散点图作散点图的目的主要是观察因变量y与各自变量间是否有比较好的线性关系,以便选择恰当的数学模型形式.图8-3、图8-4、图8-5、图8-6分别为y与x1、x2、x3、x4的散点图.从图中可以看出这些点大致分布在一条直线旁边,因此有较好的线性关系,可以采用线性回归.图8-3 y与x1的散点图图8-4 y与x2的散点图图8-5 y与x3的散点图图8-6 y与x4的散点图在Matlab中实现回归的具体代码如下:%%%输入数据x1=[1.376 1.375 1.387 1.401 1.412 1.428 1.445 1.477];x2=[0.450 0.475 0.485 0.500 0.535 0.545 0.550 0.575];x3=[2.170 2.554 2.676 2.713 2.823 3.088 3.122 3.262];x4=[0.8922 1.1610 0.5346 0.9589 1.0239 1.0499 1.1065 1.1387];x=[ones(8,1) x1' x2' x3' x4'];y=[5.19 5.30 5.60 5.82 6.00 6.06 6.45 6.95];%%%多元线性回归[b,bint,r,rint,stats]=regress(y',x);得如下结果:b =-13.984913.19202.42280.0754 -0.1897 bint =-26.0019 -1.9679 1.4130 24.9711 -14.2808 19.1264 -1.4859 1.6366 -0.9638 0.5844 r =-0.0618 0.0228 0.0123 0.0890 0.0431 -0.1473 0.0145 0.0274 rint =-0.1130 -0.0107 -0.1641 0.2098 -0.1051 0.1297 -0.2542 0.4321 -0.0292 0.1153 -0.2860 -0.0085 -0.3478 0.3769 -0.1938 0.2486 stats =0.9846 47.9654 0.0047 0.0123故回归模型为:43211897.00754.04228.21920.139849.13x x x x y -+++-=,此外,由stats 的值可知9846.02=R ,9654.47=F ,0047.0=P 。