第4章非线性回归模型的
- 格式:ppt
- 大小:192.50 KB
- 文档页数:17
(整理)计量经济学第四章⾮线性回归模型的线性化第四章⾮线性回归模型的线性化以上介绍了线性回归模型。
但有时候变量之间的关系是⾮线性的。
例如 y t = α 0 + α11βt x + u t y t = α 0 t x e 1α+ u t上述⾮线性回归模型是⽆法⽤最⼩⼆乘法估计参数的。
可采⽤⾮线性⽅法进⾏估计。
估计过程⾮常复杂和困难,在20世纪40年代之前⼏乎不可能实现。
计算机的出现⼤⼤⽅便了⾮线性回归模型的估计。
专⽤软件使这种计算变得⾮常容易。
但本章不是介绍这类模型的估计。
另外还有⼀类⾮线性回归模型。
其形式是⾮线性的,但可以通过适当的变换,转化为线性模型,然后利⽤线性回归模型的估计与检验⽅法进⾏处理。
称此类模型为可线性化的⾮线性模型。
下⾯介绍⼏种典型的可以线性化的⾮线性模型。
4.1 可线性化的模型⑴指数函数模型y t = t t ubx ae + (4.1)b >0 和b <0两种情形的图形分别见图4.1和4.2。
显然x t 和y t 的关系是⾮线性的。
对上式等号两侧同取⾃然对数,得Lny t = Lna + b x t + u t (4.2)令Lny t = y t *, Lna = a *, 则y t * = a * + bx t + u t (4.3) 变量y t * 和x t 已变换成为线性关系。
其中u t 表⽰随机误差项。
010203040501234XY 1图4.1 y t =tt u bx ae+, (b > 0) 图4.2 y t =t+, (b < 0)⑵对数函数模型y t = a + b Ln x t+ u t(4.4)b>0和b<0两种情形的图形分别见图4.3和4.4。
x t和y t的关系是⾮线性的。
令x t* = Lnx t, 则y t = a + b x t* + u t(4.5)变量y t和x t* 已变换成为线性关系。
图4.3 y t = a + b Lnx t + u t , (b > 0) 图4.4 y t = a + b Lnx t + u t , (b < 0)⑶幂函数模型y t= a x t b t u e(4.6) b取不同值的图形分别见图4.5和4.6。
新教材高中数学新人教B版选择性必修第二册:第2课时相关系数与非线性回归学习任务核心素养1.了解两个变量间的线性相关系数r,并能利用公式求相关系数r.(重点)2.能利用相关系数r判断两个变量线性相关程度的大小,从而判断回归直线方程拟合的效果.(重点)3.掌握非线性回归转化为线性回归的方法,会求非线性回归方程,并作出预测.(难点)1.通过学习相关系数,培养数学运算的素养.2.借助非线性回归方程的学习,提升数据分析和数学建模的素养.据隆众资讯数据统计,2017~2019年截止到10月底的数据显示,聚丙烯期货价格及现货价格二者相关系数为88.70%,其中2017年二者相关系数高达90.86%,2018年降至83.97%,2019年截止到10月底二者相关系数为65.23%.问题:什么是相关系数,如何计算,它有什么作用?[提示]略.(1)定义:统计学里一般用r=∑ni=1(x i-x-)(y i-y-)∑ni=1(x i-x-)2∑ni=1(y i-y-)2=∑ni=1x i y i-n x-y-(∑ni=1x2i-n x-2)(∑ni=1y2i-n y-2)来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称为相关系数).(2)性质①|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0;②|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值;③|r|=1的充要条件是成对数据构成的点都在回归直线上.1.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 如下表:甲乙丙丁r 0.82 0.78 0.69 0.85则哪位同学的试验结果体现A ,B 两变量有更强的线性相关性( ) A .甲 B .乙 C .丙 D .丁 D [r 的绝对值越接近1,相关性越强,故选D .] 知识点2 非线性回归方程如果具有相关关系的两个变量x ,y 不是线性相关关系,那么称为非线性相关关系,所得到的方程称为非线性回归方程(也简称为回归方程).如何猜测非线性回归方程的类型?[提示] 可以通过作出散点图,结合已学的函数模型进行猜测. 拓展:常见的非线性回归方程的转换方式如下:曲线方程曲线(曲线的一部分)变换公式 变换后的线性函数 y =ax bc =ln av =ln x u =ln y u =c +b vy =a e bxc =ln a u =ln yu =c +bxy =a e b xc =ln av =1xu =ln yu =c +b vy =a +b ln xv =ln x y =a +b v到的散点图,那么适宜作为y 关于x 的回归方程的函数类型是( )A .y =a +bxB .y =c +d xC .y =m +nx 2D .y =p +qc x (q >0)B [散点图呈曲线,排除A 选项,且增长速度变慢,排除选项C 、D ,故选B .]类型1 相关系数的性质【例1】 (1)相关变量x ,y 的散点图如图所示,现对这两个变量进行线性相关性分析.方案一:根据图中所有数据,得到回归直线方程y ^=b ^1x +a ^1,相关系数为r 1;方案二:剔除点(10,21),根据剩下数据得到回归直线方程:y ^=b ^2x +a ^2,相关系数为r 2,则( )A .0<r 1<r 2<1B .0<r 2<r 1<1C .-1<r 1<r 2<0D .-1<r 2<r 1<0(2)设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归直线方程的回归系数为b ^,回归截距是a ^,那么必有( )A .b ^与r 的符号相同 B .a ^与r 的符号相同 C .b ^与r 的符号相反D .a ^与r 的符号相同(1)D (2)A [(1)由散点图得负相关,所以r 1,r 2<0,因为剔除点(10,21)后,剩下的数据更具有线性相关性,|r |更接近1,所以-1<r 2<r 1<0.(2)由公式可知b ^与r 的符号相同.]线性相关强弱的判断方法(1)散点图(越接近直线,相关性越强). (2)相关系数(绝对值越大,相关性越强).[跟进训练]1.如图是具有相关关系的两个变量的一组数据的散点图和回归直线,若去掉一个点使得余下的5个点所对应的数据的相关系数最大,则应当去掉的点是( )A .DB .EC .FD .AB [因为相关系数的绝对值越大,越接近1,则说明两个变量的相关性越强.因为点E 到直线的距离最远,所以去掉点E ,余下的5个点所对应的数据的相关系数最大.]类型2 相关系数的计算及应用【例2】 假设关于某种设备的使用年限x (单位:年)与所支出的维修费用y (单位:万元)有如下统计资料:x2 3 4 5 6y 2.2 3.8 5.5 6.5 7.0已知∑5i =1x 2i =90,∑5i =1y 2i ≈140.8,∑i =1x i y i =112.3,79≈8.9,2≈1.4.(1)计算y 与x 之间的相关系数(精确到0.001),并求出回归直线方程; (2)根据回归方程,预测假设使用年限为10年时,维修费用约是多少万元?[解] (1)∵x -=2+3+4+5+65=4,y -=2.2+3.8+5.5+6.5+7.05=5.∑5i =1x i y i -5x -y -=112.3-5×4×5=12.3,∑5i =1x 2i -5x -2=90-5×42=10, ∑5i =1y 2i -5y -2=140.8-125=15.8,所以r =12.310×15.8=12.3158=12.32×79≈12.31.4×8.9≈0.987.又b ^=∑5i =1x i y i -5x -y-∑5i =1x 2i -5x-2=112.3-5×4×590-5×42=1.23.a ^=y --b ^x -=5-1.23×4=0.08. 所以回归直线方程为y ^=1.23x +0.08.(2)当x =10时,y ^=1.23×10+0.08=12.38(万元), 即假设使用10年时,维修费用约为12.38万元. [跟进训练]2.某厂的生产原料耗费x (单位:百万元)与销售额y (单位:百万元)之间有如下的对应关系:x2468y 30 40 50 70(1)计算x 与y 之间的相关系数,并求其回归直线方程;(2)若实际销售额不少于80百万元,则原料耗费应该不少于多少? [解] (1)画出(x ,y )的散点图如图所示,由图可知x ,y 有线性关系.x -=5,y -=47.5,∑4i =1x 2i =120,∑4i =1y 2i =9 900,∑4i =1x i y i =1 080,故相关系数r =∑4i =1x i y i -4x -y-(∑4i =1x 2i -4x -2)(∑4i =1y 2i -4y -2)=1 080-4×5×47.5(120-4×52)(9 900-4×47.52)≈0.982 7.b ^=∑4i =1x i y i -4x -y-∑4i =1x 2i -4x-2=1 080-4×5×47.5120-4×52=6.5, a ^=y --b ^x -=47.5-6.5×5=15. 故回归直线方程为y ^=6.5x +15. (2)由回归直线方程知, 当y ^≥80,即6.5x +15≥80时, x ≥10.故原料耗费应不少于10百万元. 类型3 非线性回归方程已知x 和y 之间的一组数据,则下列四个函数中,哪一个作为回归模型最好?x 12 3y 3 5.99 12.01①y =3×2x -1;②y =log 2x ;③y =4x ;④y =x 2.[提示] 作出散点图(图略),观察散点图中样本点的分布规律可判断样本点分布在曲线y =3×2x-1附近.①作为回归模型最好.【例3】 某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y (元)与生产该产品的数量x (千件)有关,经统计得到如下数据:x12345678y 112 61 44.5 35 30.5 28 25 24观察散点图,两个变量不具有线性相关关系,现考虑用反比例函数模型y =a +bx 和指数函数模型y =c e dx 分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为y ^=96.54e-0.2x,ln y 与x 的相关系数r 1=-0.94.参考数据⎝⎛⎭⎫其中u i =1x i: ∑8i =1u i y iu -u -2∑8i =1u 2i ∑8i =1y i∑8i =1y 2i0.61×6 185.5e -2 183.4 0.34 0.115 1.53 360 22 385.561.40.135(1)(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10千件时每件产品的非原料成本;(3)该企业采取订单生产模式(根据订单数量进行生产,即产品全部售出).根据市场调研数据,若该产品单价定为100元,则签订9千件订单的概率为0.8,签订10千件订单的概率为0.2;若单价定为90元,则签订10千件订单的概率为0.3,签订11千件订单的概率为0.7.已知每件产品的原料成本为10元,根据(2)的结果,企业要想获得更高利润,产品单价应选择100元还是90元,请说明理由.参考公式:对于一组数据(u 1,υ1),(u 2,υ2),…,(u n ,υn ),其回归直线υ=α^+β^u 的斜率和截距的最小二乘估计分别为:β^=∑ni =1u i υi -n u -υ-∑n i =1u 2i -n u-2,a ^=υ--β^u -,相关系数r =∑ni =1u i υi -n u -υ-⎝⎛⎭⎫∑ni =1u 2i -n u-2⎝⎛⎭⎫∑ni =1υ2i -n υ-2[思路点拨] (1)首先可令u =1x 并将y =a +bx 转化为y =a +bu ,然后根据题目所给数据以及线性回归方程的相关公式计算出b ^以及a ^,即可得出结果;(2)计算出反比例函数模型的相关系数r 并通过对比即可得出结果;(3)可分别计算出单价为100元和90元时产品的利润,通过对比即可得出结果. [解] (1)令u =1x ,则y =a +b x 可转化为y =a +bu ,因为y -=3608=45,所以b ^=∑8i =1u i y i -8u -y-∑8i =1u 2i -8u-2=183.4-8×0.34×451.53-8×0.115=610.61=100,则a ^=y --b ^u -=45-100×0.34=11, 所以y ^=11+100u ,所以y 关于x 的回归方程为y ^=11+100x .(2)y 与1x的相关系数为:r 2=∑8i =1u i y i -n u -y-⎝⎛⎭⎫∑8i =1u 2i -8u -2⎝⎛⎭⎫∑8i =1y 2i -8y-2=610.61×6 185.5≈0.99.因为|r 1|<|r 2|,所以用反比例函数模型拟合效果更好, 当x =10时,y =10010+11=21(元),所以当产量为10千件时,每件产品的非原料成本为21元.(3)①当产品单价为100元,设订单数为x 千件,因为签订9千件订单的概率为0.8,签订10千件订单的概率为0.2,所以E (x )=9×0.8+10×0.2=9.2,所以企业利润为100×9.2-9.2×⎝⎛⎭⎫1009.2+21=626.8(千元). ②当产品单价为90元,设订单数为y 千件,因为签订10千件订单的概率为0.3,签订11千件订单的概率为0.7, 所以E (y )=10×0.3+11×0.7=10.7, 所以企业利润为90×10.7-10.7×⎝⎛⎭⎫10010.7+21=638.3(千元). 故企业要想获得更高利润,产品单价应选择90元.非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:[跟进训练]3.二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据:使用年数x 2 3 4 5 6 7 售价y 201286.44.43z =ln y3.00 2.48 2.08 1.86 1.48 1.10下面是z 关于(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关系数加以说明; (2)求y 关于x 的回归方程并预测某辆A 型号二手车当使用年数为9年时售价约为多少? (b ^,a ^小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考数据:∑6i =1x i y i =187.4,∑6i =1x i z i =47.64,∑6i =1x 2i =139,∑6i =1 (x i -x-)2≈4.18,∑6i =1(y i -y -)2=13.96,∑6i =1(z i -z -)2=1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34.参考公式:回归直线方程y ^=b ^x +a ^中斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -n x -y-∑ni =1x 2i -n x-2,a ^=y --b ^x -.r =∑n i =1 (x i -x -)(y i -y -)∑n i =1(x i -x-)2∑ni =1(y i -y -)2,x -,y -为样本平均值.[解] (1)由题意,计算x -=16×(2+3+4+5+6+7)=4.5,z -=16×(3+2.48+2.08+1.86+1.48+1.10)=2,且∑6i =1x i z i =47.64,∑6i =1x i -x-2≈4.18,∑6i =1z i -z-2=1.53,所以r =∑ni =1 x i -x-z i -z-∑n i =1x i -x-2∑n i =1z i -z-2=47.64-6×4.5×24.18×1.53=- 6.366.395 4≈-0.99.所以z 与x 的相关系数大约为-0.99,说明z 与x 的线性相关程度很高. (2)利用最小二乘估计公式计算b ^=∑ni =1x i z i -n x - z-∑n i =1x 2i -n x-2=47.64-6×4.5×2139-6×4.52=-6.3617.5≈-0.36,所以a ^=z --b ^x -=2+0.36×4.5=3.62,所以z 关于x 的线性回归方程是z ^=-0.36x +3.62, 又z =ln y ,所以y 关于x 的回归方程是y ^=e -0.36x +3.62. 令x =9,解得y =e -0.36×9+3.62≈1.46,即预测某辆A 型号二手车当使用年数为9年时售价约1.46万元.(3)当y ≥0.711 8时, e-0.36x +3.62≥0.711 8=e ln 0.711 8=e-0.34,所以-0.36x +3.62≥-0.34,解得x ≤11,因此预测在收购该型号二手车时车辆的使用年数不得超过11年.1.两个变量之间的线性相关程度越低,其线性相关系数的数值( ) A .越接近于-1 B .越接近于0 C .越接近于1D .越小B [由相关系数的含义可得:两个变量之间的线性相关程度越低,其线性相关系数的数值越接近于0.故选B .]2.如图所示,给出了样本容量均为7的A ,B 两组样本数据的散点图,已知A 组样本数据的相关系数为r 1,B 组数据的相关系数为r 2,则( )A .r 1=r 2B .r 1<r 2C .r 1>r 2D .无法判定C [根据A ,B 两组样本数据的散点图知,A 组样本数据几乎在一条直线上,且成正相关,∴相关系数为r 1应最接近1,B 组数据分散在一条直线附近,也成正相关,∴相关系数为r 2,满足r 2<r 1,即r 1>r 2,故选C .]3.对于线性相关系数r ,叙述正确的是( )A .r ∈(-∞,+∞),且r 越大,相关程度越大B .r ∈(-∞,+∞),且|r |越大,相关程度越大C .r ∈[-1,1],且r 越大,相关程度越大D .r ∈[-1,1],且|r |越大,相关程度越大D [相关系数r 是来衡量两个变量之间的线性相关程度的,线性相关系数是一个绝对值小于等于1的量,并且它的绝对值越大就说明相关程度越大.故选D .]4.若回归直线方程中的回归系数b ^=0,则相关系数r =________.0 [相关系数r =∑n i =1 (x i -x -)(y i -y -)∑n i =1 (x i -x -)2∑n i =1 (y i -y -)2与b ^=∑n i =1 (x i -x -)(y i -y -)∑n i =1 (x i -x -)2的分子相同,故r =0.]5.在一次试验中,测得(x ,y )的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则y 与x 的相关系数为________.-1 [法一:x -=1.5,y -=1,∑4i =1x 2i =22,∑4i =1y 2i =56,∑4i =1x i y i =-20,相关系数r =-20-4×1.5×1(22-4×1.52)(56-4×12)=-1.法二:观察四个点,发现其在一条单调递减的直线上,故y 与x 的相关系数为-1.]回顾本节内容,自我完成以下问题.1.你对相关系数是怎样认识的?[提示] (1)样本的相关系数r 可以定量地反映出变量间的相关程度,明确给出有无必要建立两变量间的回归方程.(2)|r |很小只是说明两个变量之间的线性相关程度弱,但不一定不相关.2.散点图和相关系数都可以确定两变间是否具备相关关系,两者有何区别与联系?[提示](1)散点图从形的角度来判断;相关系数r则是从数的角度来判断.(2)判断变量之间的线性相关关系,一般用散点图,但在作图中,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而就很难判断两个变量之间是否具有线性相关关系,此时就必须利用样本相关系数来判断.(3)样本相关系数r只能描述两个变量之间的变化方向及密切程度,不能揭示二者之间的本质联系.(4)样本相关系数r可以定量地反映出变量间的相关程度,明确的给出有无必要建立两变量间的回归直线方程.。