第3章 线性回归与非线性回归
- 格式:ppt
- 大小:771.00 KB
- 文档页数:56
非线性回归实例例1:此模型用来评价台湾农业生产效率。
用台湾1958-1972年农业生产总值(Y t ),劳动力(X 1t ),资本投入(X 2t )数据为样本得到估计模型:= -3.4 + 1.50 LnX 1t + 0.49 LnX 2t(2.78) (4.80) R 2 = 0.89, F = 48.45还原后得,= 0.713X 1t 1.50 X 2t 0.49因为1.50 + 0.49 = 1.99,所以,此生产函数属规模报酬递增函数。
当劳动力和资本投入都增加1%时,产出增加近2%。
例2:用天津市工业生产总值(Y t ),职工人数(L t ),固定资产净值与流动资产平均余额(K t )数据 (1949-1997年) 为样本得估计模型如下:Ln Y t = 0.7272 + 0.2587 Ln L t + 0.6986 LnK t(3.12) (3.08) (18.75)R 2 = 0.98, s.e. = 0.17, DW = 0.42, F = 1381.4因为0.2587 + 0.6986 = 0.9573,所以此生产函数基本属于规模报酬不变函数。
例3: 中国铅笔需求预测模型中国从上个世纪30年代开始生产铅笔。
1985年全国有22个厂家生产铅笔。
产量居世界首位(33.9亿支),占世界总产量的1/3。
改革开放以后,铅笔生产增长极为迅速。
1979-1983年平均年增长率为8.5%。
铅笔销售量时间序列见图1。
1961-1964年的销售量平稳状态是受到了经济收缩的影响。
文革期间销售量出现两次下降,是受到了当时政治因素的影响。
1969-1972年的增长是由于一度中断了的中小学教育逐步恢复的结果。
1977-1978年的增长是由于高考正式恢复的结果。
1981年中国开始生产自动铅笔,对传统铅笔市场冲击很大。
1979-1985年的缓慢增长是受到了自动铅笔上市的影响。
初始确定的影响铅笔销量的因素有全国人口、各类在校人数、设计人员数、居民消费水平、社会总产值、自动铅笔产量、价格因素、原材料供给量、政策因素等。
线性回归模型和非线性回归模型的区别是:
线性就是每个变量的指数都是1,而非线性就是至少有一个变量的指数不是1。
通过指数来进行判断即可。
线性回归模型,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。
其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。
线性回归模型是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。
这种函数是一个或多个称为回归系数的模型参数的线性组合。
只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。
非线性回归,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。
回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。
可线性化的回归分析[学习目标]1.进一步体会回归分析的基本思想.2.通过非线性回归分析,判断几种不同模型的拟合程度.[知识链接]1.有些变量间的关系并不是线性相关,怎样确定回归模型答首先要作出散点图,如果散点图中的样本点并没有分布在某个带状区域内,则两个变量不呈现线性相关关系,不能直接利用线性回归方程来建立两个变量之间的关系,这时可以根据已有函数知识,观察样本点是否呈指数函数关系或二次函数关系,选定适当的回归模型.2.如果两个变量呈现非线性相关关系,怎样求出回归方程答可以通过对解释变量进行变换,如对数变换或平方变换,先得到另外两个变量间的回归方程,再得到所求两个变量的回归方程.([预习导引]1.非线性回归分析对不具有线性相关关系的两个变量做统计分析,通过变量代换,转化为线性回归模型.2.非线性回归方程曲线方程曲线图形公式变换变换后的线性函数y=ax b·c=ln av=ln xu=ln yu=c+bvy =a e bxc =ln a u =ln yu =c +bxy =a e b x.c =ln a v =1xu =ln yu =c +bvy =a +b ln xv =ln x u =yu =a +bv#要点一 线性回归分析例1 某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 35 销售额y (万元)4926…3954(1)由数据易知y 与x 具有线性相关关系,若b =,求线性回归方程y =a +bx ; (2)据此模型预报广告费用为4万元时的销售额.解 (1)x -=4+2+3+54=,y -=49+26+39+544=42,∴a =y --b x -=42-×= ∴回归直线方程为y =+. (2)当x =4时,y =+×4=, 故广告费用为6万元时销售额为万元.跟踪演练1 为了研究3月下旬的平均气温(x )与4月20日前棉花害虫化蛹高峰日(y )的关系,某地区观察了2006年2011年的情况,得到了下面的数据:(1)对变量x,y进行相关性检验;(2)据气象预测,该地区在2012年3月下旬平均气温为27 ℃,试估计2012年4月化蛹高峰日为哪天.解制表.(1)r=∑6i=1xiyi-6x-y-(∑6i=1x2i-6x-2)(∑6i=1y2i-6y-2)≈- 8.由|r|>,可知变量y和x存在很强的线性相关关系.(2)b=错误!≈-,a=错误!-b错误!≈.所以,线性回归方程为y=-.当x=27时,y=-×27=.据此,可估计该地区2012年4月12日或13日为化蛹高峰日."要点二可线性化的回归分析例2 在一化学反应过程中,化学物质的反应速度y(g/min)与一种催化剂的量x(g)有关,现收集了8组观测数据列于表中:催化剂的量x/g15182124273033\ 36化学物质的反应速度y(g·min-1)6830277020565350解根据收集的数据,作散点图(如图),根据已有的函数知识,可以发现样本点分布在某一条指数函数曲数y=c1e c2x的周围,其中c1和c2是待定的参数.令z=ln y,则z=ln y=ln c1+c2x,即变换后的样本点应该分布在直线z=a+bx(a=ln c1,b=c2)的周围.由y与x的数据表可得到变换后的z与x的数据表:x15182124!27303336z,作出z与x的散点图(如图).由散点图可观察到,变换后的样本点分布在一条直线的附近,所以可用线性回归方程来拟合.由z与x的数据表,可得线性回归方程:z=+,所以y与x之间的非线性回归方程为y=e-+.*规律方法 可线性化的回归分析问题,画出已知数据的散点图,选择跟散点拟合得最好的函数模型进行变量代换,作出变换后样本点的散点图,用线性回归模型拟合.跟踪演练2 电容器充电后,电压达到100 V ,然后开始放电,由经验知道,此后电压U 随时间t 变化的规律用公式U =A e bt (b <0)表示,现测得时间t (s)时的电压U (V)如下表:t /s 0 1 2 3 4 56(7 8910U /V 100 75 55 40 30$2015101055试求:电压U 对时间t 的回归方程.(提示:对公式两边取自然对数,把问题转化为线性回归分析问题)解 对U =A e bt 两边取对数得ln U =ln A +bt ,令y =ln U ,a =ln A ,x =t ,则y =a +bx ,得y 与x 的数据如下表:x.1 2345678910{y/根据表中数据作出散点图,如下图所示,从图中可以看出,y 与x 具有较强的线性相关关系,由表中数据求得x -=5,y -≈,进而可以求得b ≈-,a =y --bx -=,所以y 对x 的线性回归方程为y =-.由y =ln U ,得U =e y ,U =-=·e -,因此电压U 对时间t 的回归方程为U =·e-.要点三非线性回归模型的综合应用例3 某地区不同身高的未成年男性的体重平均值如下表:身高x/cm60【708090100110体重y/kg-身高x/cm120130140150160170体重y/kg(试建立y与x之间的回归方程.解根据题干表中数据画出散点图如图所示.由图看出,样本点分布在某条指数函数曲线y=c1e c2x的周围,于是令z=ln y. *x 60708090100110120130140¥150160170z&画出散点图如图所示.由表中数据可得z与x之间的线性回归方程:z=+,则有y=+.规律方法根据已有的函数知识,可以发现样本分布在某一条指数型函数曲线y =c1e c2x的周围,其中c1和c2是待定参数;可以通过对x进行对数变换,转化为线性相关关系.*跟踪演练3 对两个变量x ,y 取得4组数据(1,1),(2,,(3,,(4,,甲、乙、丙三人分别求得数学模型如下: 甲 y =+1, 乙 y =-++,丙 y =-·+,试判断三人谁的数学模型更接近于客观实际. 解 甲模型,当x =1时,y =;当x =2时,y =; 当x =3时,y =;当x =4时,y =.乙模型,当x =1时,y =1;当x =2时,y =; 当x =3时,y =;当x =4时,y =.丙模型,当x =1时,y =1;当x =2时,y =; 当x =3时,y =;当x =4时,y =.观察4组数据并对照知,丙的数学模型更接近于客观实际.1.在一次试验中,当变量x 的取值分别为1,12,13,14时,变量y 的值分别为2,3,4,5,则y 与1x的回归方程为( )A .y =1x +1B .y =2x+3C .y =2x +1D .y =x -1 答案 A解析 由数据可得,四个点都在曲线y =1x+1上.2.某种产品的广告费支出与销售额(单位:百万元)之间有如下对应数据:广告费2~5 6 84销售额3040605070@则广告费与销售额间的相关系数为( )A. B.0.919 C. D.答案B3.根据统计资料,我国能源生产发展迅速.下面是我国能源生产总量(单位:亿吨标准煤)的几个统计数据:年份1996200120062011产量·根据有关专家预测,到2020年我国能源生产总量将达到亿吨左右,则专家所选择的回归模型是下列四种模型中的哪一种( )A.y=ax+b(a≠0) B.y=ax2+bx+c(a≠0)C.y=a x(a>0且a≠1) D.y=log a x(a>0且a≠1)答案A4.某种产品的广告费支出x与销售额y之间有下表关系,现在知道其中一个数据弄错了,则最可能错的数据是__________.x/万元)24568y/万元3040605070答案(6,50)一、基础达标1.下表提供了某厂节能降耗技术改造后生产某产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据.根据表中提供的数据,求出y关于x的线性回归方程是y=+,那么表中t的值是( )x3456,yt4A.4.5 B.4 C.3 D.答案C2.下列数据x,y符合哪一种函数模型( )x1$2345678910y 。