线性回归方程——非线性方程转化为线性方程
- 格式:docx
- 大小:176.16 KB
- 文档页数:7
编号032 §9.1.2 线性回归方程目标要求1、结合具体实例,了解一元线性回归模型的含义.2、结合具体实例,了解模型参数的统计意义.3、结合具体实例,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.4、结合具体实例,会使用相关的统计软件.5、针对实际问题,会用一元线性回归模型进行预测.学科素养目标本章内容是在学生已经学习过必修课程中的统计知识和概率知识的基础上,通过对典型案例的研究,了解和使用一些常用统计分析方法,进一步体会运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用,从而形成运用统计的观点认识客观事物的习惯.在本章教学中,应突出对学生应用意识的培养,不能只限于要求学生会解书本上的习题,还要关注学生应用与解决实际问题的能力.应引导、鼓励学生从现实生活中发现问题,并能自觉地运用所学的统计方法加以理解,应尽量给学生提供一定的实践活动机会,可结合数学建模活动,选择一个案例,要求学生亲自实践.重点难点重点:一元线性回归模型参数的最小二乘估计方法; 难点:用一元线性回归模型进行预测.教学过程基础知识点 1.线性回归模型我们将y =___________称为线性回归模型. 2.线性回归方程与最小二乘法(1)线性回归方程:直线=__________称为线性回归方程.其中__称为回归截距,__称为回归系数,__称为回归值. (2),的计算公式=∑i =1n(x i -x)(y i -y )∑i =1n(x i -x )2=________________ ,=______________.【课前小题演练】题1.关于回归分析,下列说法错误的是( ) A .回归分析是研究两个具有相关关系的变量的方法 B .散点图中,解释变量在x 轴,响应变量在y 轴 C .回归模型中一定存在随机误差 D .散点图能明确反映变量间的关系题2.根据如下样本数据:x2 3 4 5 6Y 4 2.5 -0.5 -2 -3得到的经验回归方程为=x+,则( )A.>0,>0 B.>0,<0C.<0,>0 D.<0,<0题3.已知变量x,Y之间具有线性相关关系,其散点图如图所示,则其经验回归方程可能为( )A.=1.5x+2 B.=-1.5x+2C.=1.5x-2 D.=-1.5x-2题4.若某地财政收入x与支出Y满足经验回归方程=x++e i(单位:亿元)(i=1,2,…),其中=0.8,=2,|e i|<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( )A.10亿元B.9亿元C.10.5亿元D.9.5亿元题5.若施肥量x(kg)与水稻产量Y(kg)的经验回归方程为=5x+250,当施肥量为80 kg时,预计水稻产量约为________kg.题6.某种产品的广告费用支出x与销售额Y(单位:百万元)之间有如下的对应数据:x/百万元 2 4 5 6 8Y/百万元30 40 60 50 70(1)画出散点图;(2)求经验回归方程;(3)试预测广告费用支出为10百万元时,销售额多大?【当堂巩固训练】题7.已知x,y的取值如表所示:x234 5y 2.2 3.8 5.5m若y与x线性相关,且回归直线方程为=1.46x-0.61,则表格中实数m的值为( )A.7.69 B.7.5 C.6.69 D.6.5题8.某药厂为了了解某新药的销售情况,将2019年2至6月份的销售额整理如下:月份 2 3 4 5 6 销售额(万元)1925353742根据2至6月份的数据可求得每月的销售额y 关于月份x 的线性回归方程=x +为( )(参考公式及数据:=∑i =1nx i y i -n x y∑i =1n x 2i -n (x )2,=y -x ,∑i =15x i y i =690,∑i =15x 2i =90)A .=5.8x +8.4B .=8.4x +5.8C .=6x -9D .=4x +31.6题9.登山族为了了解某山高y (km )与气温x (℃)之间的关系,随机统计了4次山高与相应的气温,并制作了对照表:气温x (℃) 18 13 10 -1 山高y (km )24343864由表中数据,得到线性回归方程=-2x +()∈R ,由此请估计出山高为72(km )处气温的度数为( )A .-10B .-8C .-4D .-6题10.根据如下的样本数据:x 1 2 3 y2.133.9得到的回归方程为=bx +a ,则直线ax +by -3=0经过定点( ) A .(-1,-2) B .(-1,2) C .(1,-2)D .(1,2)题11.某同学在研究学习中,收集到某制药厂今年5个月甲胶囊生产产量(单位:万盒)的数据如表所示:x (月份) 1 2 3 4 5 y (万盒)55668若x ,y 线性相关,线性回归方程为=0.7x +,则以下为真命题的是( ) A .x 每增加1个单位长度,则y 一定增加0.7个单位长度 B .x 每增加1个单位长度,则y 必减少0.7个单位长度C.当x=6时,y的预测值为8.1万盒D.线性回归直线=0.7x +经过点(2,6)题12.下列说法:①设有一个回归方程=3-5x,变量x增加一个单位时,y平均增加5个单位;②线性回归方程=x+必过()x,y;③设某地女儿身高y对母亲身高x的一个回归直线方程是=34.92+0.78x,则方程中的=34.92可以解释为女儿身高不受母亲身高变化影响的部分.其中正确的个数是( )A.0 B.1 C.2 D.3题13.(多选题...)两个相关变量x,y的5组对应数据如表:x8.3 8.6 9.9 11.1 12.1y 5.9 7.8 8.1 8.4 9.8根据表格,可得回归直线方程=x+,求得=0.78.据此估计,以下结论正确的是( )A.x=10 B.y=9C.=0.2 D.当x=15时,=11.95题14.(多选题...)已知x与y之间的几组数据如表:x 1 2 3 4 5 6y0 2 1 3 3 4假设根据表格数据所得线性回归直线方程为=x+,若某同学根据上表中的前两组数据()1,0和()2,2求得的直线方程为y=b′x+a′,则以下结论正确的是( )参考公式:=∑i=1nx i y i-n x y∑i=1nx2i-n(x)2,=y-b x .A.a′=-2 B.b′=2 C.>b′ D.>a′【综合突破拔高】题15.对于指数曲线y=ae bx,令U=ln y,c=ln a,经过非线性回归分析后,可转化的形式为( ) A.U=c+bx B.U=b+cxC.y=c+bx D.y=b+cx题16.若一函数模型为y =sin 2α+2sinα+1,为将y 转化为t 的经验回归方程,则需作变换t 等于( ) A .sin 2αB .(sinα+1)2C .⎝ ⎛⎭⎪⎫sin α+12 2D .以上都不对题17.在生物学上,有隔代遗传的现象.已知某数学老师的体重为62 kg ,他的曾祖父、祖父、父亲、儿子的体重分别为58 kg 、64 kg 、58 kg 、60 kg .如果体重是隔代遗传,且呈线性相关,根据以上数据可得解释变量x 与预报变量的回归方程为=x +,其中=0.5,据此模型预测他的孙子的体重约为( ) A .58 kgB .61 kgC .65 kgD .68 kg题18.(多选题...)月亮公转与自转的周期大约为30天,阴历是以月相变化为依据.人们根据长时间的观测,统计了月亮出来的时间y (简称“月出时间”,单位:小时)与天数x (x 为阴历日数,x ∈N *,且0≤x ≤30)的有关数据,如表,并且根据表中数据,求得y 关于x 的线性回归方程为=0.8x +.x 2 4 7 10 15 22 y8.19.41214.418.524其中,阴历22日是分界线,从阴历22日开始月亮就要到第二天(即23日0:00)才升起.则( ) A .样本点的中心为()10,14.4 B .=6.8C .预报月出时间为16时的那天是阴历13日D .预报阴历27日的月出时间为阴历28日早上4:00题19.对某台机器购置后的运行年限x (x =1,2,3,…)与当年利润Y 的统计分析知x ,Y 具备线性相关关系,经验回归方程为=10.47-1.3x ,估计该台机器最为划算的使用年限为______年.题20.以模型y =ce kx 去拟合一组数据时,为了求出非经验回归方程,设z =ln y ,其变换后得到经验回归方程=0.3x +4,则c =________.题21.为了响应中央号召,某日深圳环保局随机抽查了本市市区汽车尾气排放污染物x (单位:ppm )与当天私家车路上行驶的时间y (单位:小时)之间的关系,从某主干路随机抽取10辆私家车,已知x 与y 之间具有线性相关关系,其回归直线方程为=0.3x -0.4,若该10辆车中有一辆私家车的尾气排放污染物为6(单位:ppm ),据此估计该私家车行驶的时间为________小时.题22.某市农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月4日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下数据:日期 12月1日12月2日12月3日12月4日温差 11 13 12 8 发芽数(颗)26322617根据表中12月1日至12月3日的数据,求得线性回归方程=x +中的=-8,则求得的=________;若用12月4日的数据进行检验,检验方法如下:先用求得的线性回归方程计算发芽数,再求与实际发芽数的差,若差值的绝对值不超过2颗,则认为得到的线性回归方程是可靠的,则求得的线性回归方程________(填“可靠”或“不可靠”).题23.如表为收集到的一组数据:x 21 23 25 27 29 32 35 Y711212466115325试建立Y 与x 之间的回归方程.题24.宿州市公安局交警支队依据《中华人民共和国道路交通安全法》第90条规定:所有主干道路凡机动车途经十字路口或斑马线,无论转弯或者直行,遇有行人过马路,必须礼让行人,违反者将被处以100元罚款,记3分的行政处罚.如表是本市一主干路段监控设备所抓拍的5个月内,机动车驾驶员“不礼让行人”行为统计数据:月份x 1 2 3 4 5 违章驾驶员人数y1151101009085(1)若x 与y 之间具有很强的线性相关关系,请利用所给数据求违章驾驶员人数y 与月份x 之间的回归直线方程=x +;(2)预测该路段8月份的“不礼让行人”违章驾驶员的人数.参考公式:=∑i =1nx i y i -n x ·y∑i =1nx 2i -n (x)2,=y -x ,参考数据:∑i =15x i y i =1 420.编号032 §9.1.2 线性回归方程目标要求1、结合具体实例,了解一元线性回归模型的含义.2、结合具体实例,了解模型参数的统计意义.3、结合具体实例,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.4、结合具体实例,会使用相关的统计软件.5、针对实际问题,会用一元线性回归模型进行预测.学科素养目标本章内容是在学生已经学习过必修课程中的统计知识和概率知识的基础上,通过对典型案例的研究,了解和使用一些常用统计分析方法,进一步体会运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用,从而形成运用统计的观点认识客观事物的习惯.在本章教学中,应突出对学生应用意识的培养,不能只限于要求学生会解书本上的习题,还要关注学生应用与解决实际问题的能力.应引导、鼓励学生从现实生活中发现问题,并能自觉地运用所学的统计方法加以理解,应尽量给学生提供一定的实践活动机会,可结合数学建模活动,选择一个案例,要求学生亲自实践.重点难点重点:一元线性回归模型参数的最小二乘估计方法; 难点:用一元线性回归模型进行预测.教学过程基础知识点 1.线性回归模型我们将y =a +bx +ε称为线性回归模型. 2.线性回归方程与最小二乘法(1)线性回归方程:直线=+x 称为线性回归方程.其中称为回归截距,称为回归系数,称为回归值.(2),的计算公式=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2=___∑i =1nx i y i -n x y∑i =1nx 2i -n (x)2___ ,=__y -x __.【课前小题演练】题1.关于回归分析,下列说法错误的是( ) A .回归分析是研究两个具有相关关系的变量的方法 B .散点图中,解释变量在x 轴,响应变量在y 轴 C .回归模型中一定存在随机误差 D .散点图能明确反映变量间的关系【解析】选D .用散点图反映两个变量间的关系时,存在误差. 题2.根据如下样本数据:x 2 3 4 5 6Y 4 2.5 -0.5 -2 -3得到的经验回归方程为=x+,则( )A.>0,>0 B.>0,<0C.<0,>0 D.<0,<0【解析】选B.由题干表中的数据可得,变量Y随着x的增大而减小,则<0,又回归方程为=x+经过(2,4),(3,2.5),可得>0.题3.已知变量x,Y之间具有线性相关关系,其散点图如图所示,则其经验回归方程可能为( )A.=1.5x+2 B.=-1.5x+2C.=1.5x-2 D.=-1.5x-2【解析】选B.设经验回归方程为=x+,由题干中散点图可知变量x,Y之间负相关,经验回归直线在Y轴上的截距为正数,所以<0,>0,因此方程可能为=-1.5x+2.题4.若某地财政收入x与支出Y满足经验回归方程=x++e i(单位:亿元)(i=1,2,…),其中=0.8,=2,|e i|<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( )A.10亿元B.9亿元C.10.5亿元D.9.5亿元【解析】选C.=0.8×10+2+e i=10+e i,因为|e i|<0.5,所以9.5<<10.5.题5.若施肥量x(kg)与水稻产量Y(kg)的经验回归方程为=5x+250,当施肥量为80 kg时,预计水稻产量约为________kg.【解析】把x=80代入经验回归方程可得其预测值=5×80+250=650(kg).答案:650题6.某种产品的广告费用支出x与销售额Y(单位:百万元)之间有如下的对应数据:x/百万元 2 4 5 6 8Y/百万元30 40 60 50 70(1)画出散点图;(2)求经验回归方程;(3)试预测广告费用支出为10百万元时,销售额多大?【解析】(1)散点图如图所示:(2)列出下表,并用科学计算器进行有关计算:i 1 2 3 4 5 合计 x i 2 4 5 6 8 25 y i 30 40 60 50 70 250 x i y i 60 160 300 300 560 1 380 x 2i416253664145所以x =255 =5,y =2505=50,∑i =15x 2i =145,∑i =15x i y i =1 380.于是可得=∑i =15x i y i -5x y∑i =15x 2i -5x 2=1 380-5×5×50145-52×5=6.5,=y -x =50-6.5×5=17.5. 所以所求的经验回归方程为=6.5x +17.5.(3)根据上面求得的经验回归方程,当广告费用支出为 10百万元时,=6.5×10+17.5=82.5(百万元),即广告费用支出为10百万元时,销售额大约为82.5百万元. 【当堂巩固训练】题7.已知x ,y 的取值如表所示:x 2 3 4 5 y2.23.85.5m若y 与x 线性相关,且回归直线方程为=1.46x -0.61,则表格中实数m 的值为( ) A .7.69 B .7.5 C .6.69 D .6.5 【解析】选D .因为x =2+3+4+54 =72, y =2.2+3.8+5.5+m 4 =11.5+m 4,所以11.5+m 4 =1.46×72-0.61,解得m =6.5.题8.某药厂为了了解某新药的销售情况,将2019年2至6月份的销售额整理如下:月份 2 3 4 5 6 销售额(万元)1925353742根据2至6月份的数据可求得每月的销售额y 关于月份x 的线性回归方程=x +为( )(参考公式及数据:=∑i =1nx i y i -n x y∑i =1n x 2i -n (x )2,=y -x ,∑i =15x i y i =690,∑i =15x 2i =90)A .=5.8x +8.4B .=8.4x +5.8C .=6x -9D .=4x +31.6【解析】选A .由表格中的数据得x =2+3+4+5+65=4,y =19+25+35+37+425=31.6,所以=∑i =15x i y i -5x y∑i =15x 2i -5(x)2=690-5×4×31.690-5×42=5.8, =31.6-5.8×4=8.4,因此,y 关于x 的线性回归方程为=5.8x +8.4.题9.登山族为了了解某山高y (km )与气温x (℃)之间的关系,随机统计了4次山高与相应的气温,并制作了对照表:气温x (℃) 18 13 10 -1 山高y (km )24343864由表中数据,得到线性回归方程=-2x +()∈R ,由此请估计出山高为72(km )处气温的度数为( )A .-10B .-8C .-4D .-6【解析】选D .由题意可得x =10,y =40,所以=y +2x =40+2×10=60.所以=-2x +60,当=72时,有-2x +60=72,解得x =-6. 题10.根据如下的样本数据:x 1 2 3 y2.133.9得到的回归方程为=bx +a ,则直线ax +by -3=0经过定点( ) A .(-1,-2)B .(-1,2)C .(1,-2)D .(1,2)【解析】选D .由所给数据得x =2,y =3,3i 1=∑(x i -x )(y i -y )=1.8,3i 1=∑(x i -x )2=2,所以b =0.9,a =3-0.9×2=1.2,所以直线ax +by -3=0方程为1.2x +0.9y -3=0,过点(1,2). 题11.某同学在研究学习中,收集到某制药厂今年5个月甲胶囊生产产量(单位:万盒)的数据如表所示:x (月份) 1 2 3 4 5 y (万盒)55668若x ,y 线性相关,线性回归方程为=0.7x +,则以下为真命题的是( ) A .x 每增加1个单位长度,则y 一定增加0.7个单位长度 B .x 每增加1个单位长度,则y 必减少0.7个单位长度 C .当x =6时,y 的预测值为8.1万盒 D .线性回归直线=0.7x +经过点(2,6)【解析】选C .由=0.7x +,得x 每增(减)一个单位长度,y 不一定增加(减少)0.7,而是大约增加(减少)0.7个单位长度,故选项A ,B 错误;由已知表中的数据,可知x =1+2+3+4=55 =3,y =5+5+6+6+85=6,则回归直线必过点(3,6),故D 错误;将(3,6)代入回归直线=0.7x +,解得=3.9,即=0.7x +3.9,令x =6,解得=0.7×6+3.9=8.1万盒. 题12.下列说法:①设有一个回归方程=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ②线性回归方程=x +必过()x ,y ;③设某地女儿身高y 对母亲身高x 的一个回归直线方程是=34.92+0.78x ,则方程中的=34.92可以解释为女儿身高不受母亲身高变化影响的部分. 其中正确的个数是( ) A .0 B .1 C .2 D .3【解析】选C .设有一个回归方程=3-5x ,变量x 增加一个单位时,y 平均减少5个单位,故①错;线性回归方程=x +必过样本中心点()x ,y ,故②正确;设某地女儿身高y 对母亲身高x 的一个回归直线方程是=34.92+0.78x ,当x =0时,=34.92, 方程中的=34.92可以解释为女儿身高不受母亲身高变化影响的部分,故③正确. 题13.(多选题...)两个相关变量x ,y 的5组对应数据如表:x 8.3 8.6 9.9 11.1 12.1 y5.97.88.18.49.8根据表格,可得回归直线方程=x +,求得=0.78.据此估计,以下结论正确的是( )A .x =10B .y =9C .=0.2D .当x =15时,=11.95【解析】选AC .易求得x =10,y =8⇒=y -x =8-0.78×10=0.2,所以=0.78x +0.2. x =15⇒=0.78×15+0.2=11.90.题14.(多选题...)已知x 与y 之间的几组数据如表:x 1 2 3 4 5 6 y21334假设根据表格数据所得线性回归直线方程为=x +,若某同学根据上表中的前两组数据()1,0 和()2,2 求得的直线方程为y =b ′x +a ′,则以下结论正确的是()参考公式:=∑i =1nx i y i -n x y∑i =1nx 2i -n (x)2,=y -b x . A .a ′=-2 B .b ′=2 C .>b ′ D .>a ′【解析】选ABD .因为某同学根据前两组数据()1,0 和()2,2 求得的直线方程为y =b ′x +a ′,所以b ′=2,a ′=-2,根据题意得:x =3.5,y =136,∑i =16x i y i =0+4+3+12+15+24=58,∑i =16x 2i =1+4+9+16+25+36=91,所以=∑i =16x i y i -6x y∑i =16x 2i -6(x)2=57 ,=y -x =136 -57 ×72 =-13 ,所以<b ′,>a ′. 【综合突破拔高】题15.对于指数曲线y =ae bx ,令U =ln y ,c =ln a ,经过非线性回归分析后,可转化的形式为( ) A .U =c +bx B .U =b +cx C .y =c +bxD .y =b +cx【解析】选A .由y =ae bx 得ln y =ln (ae bx ), 所以ln y =ln a +ln e bx ,所以ln y =ln a +bx ,所以U =c +bx .题16.若一函数模型为y =sin 2α+2sinα+1,为将y 转化为t 的经验回归方程,则需作变换t 等于( ) A .sin 2αB .(sinα+1)2C .⎝⎛⎭⎪⎫sin α+12 2D .以上都不对 【解析】选B .因为y 是关于t 的经验回归方程,实际上就是y 是关于t 的一次函数,又因为y =(sin α+1)2,若令t =(sin α+1)2,则可得y 与t 的函数关系式为y =t ,此时变量y 与变量t 是线性相关关系. 题17.在生物学上,有隔代遗传的现象.已知某数学老师的体重为62 kg ,他的曾祖父、祖父、父亲、儿子的体重分别为58 kg 、64 kg 、58 kg 、60 kg .如果体重是隔代遗传,且呈线性相关,根据以上数据可得解释变量x 与预报变量的回归方程为=x +,其中=0.5,据此模型预测他的孙子的体重约为( ) A .58 kgB .61 kgC .65 kgD .68 kg【解析】选B .由于体重是隔代遗传,且呈线性相关, 则取数据(58,58),(64,62),(58,60),得x =58+64+583 =60,y =58+62+603 =60,即样本点的中心为(60,60),代入=x +, 得=60-0.5×60=30,则=0.5x +30, 取x =62,可得=0.5×62+30=61 kg . 故预测他的孙子的体重约为61 kg .题18.(多选题...)月亮公转与自转的周期大约为30天,阴历是以月相变化为依据.人们根据长时间的观测,统计了月亮出来的时间y (简称“月出时间”,单位:小时)与天数x (x 为阴历日数,x ∈N *,且0≤x ≤30)的有关数据,如表,并且根据表中数据,求得y 关于x 的线性回归方程为=0.8x +.x 2 4 710 15 22 y8.19.41214.418.524其中,阴历22日是分界线,从阴历22日开始月亮就要到第二天(即23日0:00)才升起.则( ) A .样本点的中心为()10,14.4 B .=6.8C .预报月出时间为16时的那天是阴历13日D .预报阴历27日的月出时间为阴历28日早上4:00 【解析】选AD .x =2+4+7+10+15+226=10,y =8.1+9.4+12+14.4+18.5+246=14.4,故样本点的中心为()10,14.4 ,选项A 正确;将样本点的中心()10,14.4 代入=0.8x +得=6.4,故选项B 错误;因为=0.8x +6.4,当y =16时,求得x =12,月出时间为阴历12日,选项C 错误;因为阴历27日时,即x =27,代入=0.8×27+6.4=28,日出时间应该为28日早上4:00,选项D 正确. 题19.对某台机器购置后的运行年限x (x =1,2,3,…)与当年利润Y 的统计分析知x ,Y 具备线性相关关系,经验回归方程为=10.47-1.3x ,估计该台机器最为划算的使用年限为______年. 【解析】当年利润小于或等于零时应该报废该机器, 当y =0时,令10.47-1.3x =0,解得x ≈8, 故估计该台机器最为划算的使用年限为8年. 答案:8题20.以模型y =ce kx 去拟合一组数据时,为了求出非经验回归方程,设z =ln y ,其变换后得到经验回归方程=0.3x +4,则c =________. 【解析】由题意,得ln (ce kx )=0.3x +4,所以ln c +kx =0.3x +4,所以ln c =4,所以c =e 4. 答案:e 4题21.为了响应中央号召,某日深圳环保局随机抽查了本市市区汽车尾气排放污染物x (单位:ppm )与当天私家车路上行驶的时间y (单位:小时)之间的关系,从某主干路随机抽取10辆私家车,已知x 与y 之间具有线性相关关系,其回归直线方程为=0.3x -0.4,若该10辆车中有一辆私家车的尾气排放污染物为6(单位:ppm ),据此估计该私家车行驶的时间为________小时.【解析】由=0.3x -0.4,令x =6,代入可得=0.3×6-0.4=1.4.所以估计该私家车行驶的时间为1.4小时. 答案:1.4题22.某市农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月4日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下数据:日期 12月1日 12月2日12月3日12月4日温差 11 13 12 8 发芽数(颗)26322617根据表中12月1日至12月3日的数据,求得线性回归方程=x +中的=-8,则求得的=________;若用12月4日的数据进行检验,检验方法如下:先用求得的线性回归方程计算发芽数,再求与实际发芽数的差,若差值的绝对值不超过2颗,则认为得到的线性回归方程是可靠的,则求得的线性回归方程________(填“可靠”或“不可靠”).【解析】由题得x =11+13+123 =12,y =26+32+263 =28,所以样本中心点为(12,28),所以28=×12-8,所以=3;因为=3x -8,所以12月4日的估计值为=3×8-8=16,又|17-16|=1,没有超过2,所以求得的线性回归方程可靠. 答案:3 可靠题23.如表为收集到的一组数据:x 21 23 25 27 29 32 35 Y711212466115325试建立Y 与x【解析】作出散点图,如图.从散点图中可以看出x 与Y 不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线的周围.令Z =ln Y ,则变换后的样本点分布在直线=x +的周围,这样就可以利用线性经验回归模型来建立非线性经验回归方程了,数据可以转化为:x 21 232527 29 32 35 Z1.9462.3983.0453.1784.1904.7455.784求得经验回归方程为=0.272x -3.849, 所以=e0.272x -3.849.题24.宿州市公安局交警支队依据《中华人民共和国道路交通安全法》第90条规定:所有主干道路凡机动车途经十字路口或斑马线,无论转弯或者直行,遇有行人过马路,必须礼让行人,违反者将被处以100元罚款,记3分的行政处罚.如表是本市一主干路段监控设备所抓拍的5个月内,机动车驾驶员“不礼让行人”行为统计数据:月份x 1 2 3 45 违章驾驶员人数y1151101009085(1)若x 与y 之间具有很强的线性相关关系,请利用所给数据求违章驾驶员人数y 与月份x 之间的回归直线方程=x +;(2)预测该路段8月份的“不礼让行人”违章驾驶员的人数.参考公式:=∑i =1nx i y i -n x ·y∑i =1nx 2i -n (x)2,=y -x ,参考数据:∑i =15x i y i =1 420.【解析】(1)由表中数据得:x =15()1+2+3+4+5 =3,y =15()115+110+100+90+85 =100,=∑i =15x i y i-5x·y∑i=15x2i-5(x)2=1 420-5×3×10055-45=-8,=y-x=100+8×3=124.所以y与x之间的回归直线方程为=-8x+124;(2)由(1)得,=-8x+124,令x=8,得=-8×8+124=60,预测该路段8月份的“不礼让行人”违章驾驶员人数为60人.。
(整理)计量经济学第四章⾮线性回归模型的线性化第四章⾮线性回归模型的线性化以上介绍了线性回归模型。
但有时候变量之间的关系是⾮线性的。
例如 y t = α 0 + α11βt x + u t y t = α 0 t x e 1α+ u t上述⾮线性回归模型是⽆法⽤最⼩⼆乘法估计参数的。
可采⽤⾮线性⽅法进⾏估计。
估计过程⾮常复杂和困难,在20世纪40年代之前⼏乎不可能实现。
计算机的出现⼤⼤⽅便了⾮线性回归模型的估计。
专⽤软件使这种计算变得⾮常容易。
但本章不是介绍这类模型的估计。
另外还有⼀类⾮线性回归模型。
其形式是⾮线性的,但可以通过适当的变换,转化为线性模型,然后利⽤线性回归模型的估计与检验⽅法进⾏处理。
称此类模型为可线性化的⾮线性模型。
下⾯介绍⼏种典型的可以线性化的⾮线性模型。
4.1 可线性化的模型⑴指数函数模型y t = t t ubx ae + (4.1)b >0 和b <0两种情形的图形分别见图4.1和4.2。
显然x t 和y t 的关系是⾮线性的。
对上式等号两侧同取⾃然对数,得Lny t = Lna + b x t + u t (4.2)令Lny t = y t *, Lna = a *, 则y t * = a * + bx t + u t (4.3) 变量y t * 和x t 已变换成为线性关系。
其中u t 表⽰随机误差项。
010203040501234XY 1图4.1 y t =tt u bx ae+, (b > 0) 图4.2 y t =t+, (b < 0)⑵对数函数模型y t = a + b Ln x t+ u t(4.4)b>0和b<0两种情形的图形分别见图4.3和4.4。
x t和y t的关系是⾮线性的。
令x t* = Lnx t, 则y t = a + b x t* + u t(4.5)变量y t和x t* 已变换成为线性关系。
图4.3 y t = a + b Lnx t + u t , (b > 0) 图4.4 y t = a + b Lnx t + u t , (b < 0)⑶幂函数模型y t= a x t b t u e(4.6) b取不同值的图形分别见图4.5和4.6。
第23讲 非线性回归方程一、必备秘籍当经验回归方程并非形如y bx a =+(,a b R ∈)时,称之为非线性经验回归方程,当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来模拟,常见的非线性经验回归方程的转换方式总结如下:1.确定研究对象,明确哪个是解释变量,哪个是响应变量;2.由经验确定非线性经验回归方程的模型;3.通过变换(一般题目都有明显的暗示如何换元,换元成什么变量),将非线性经验回归模型转化为线性经验回归模型(特别注意:使用线性回归方程的公式,注意代入变换后的变量);4.按照公式计算经验回归方程中的参数,得到经验回归方程;5.消去新元,得到非线性经验回归方程;6.得出结果后分析残差图是否有异常 . 二、例题讲解1.(2021·全国高三专题练习(文))人类已经进入大数据时代.目前,数据量级已经从TB (1TB =1024GB )级别跃升到PB (1PB =1024TB ),EB (1EB =1024PB )乃至ZB (1ZB =1024EB )级别.国际数据公司(IDC )研究结果表明,2008年全球产生的数据量为0.49ZB ,2009年数据量为0.8ZB ,2010年增长到1.2ZB ,2011年数据量更是高达1.82ZB .下表是国际数据公司(IDC )研究的全球近6年每年产生的数据量(单位:ZB )及相关统计量的值:表中ln i i z y =,16i i z z ==∑.(1)根据上表数据信息判断,方程21c xy c e =⋅(e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(2c 精确到0.01).(2)有人预计2021年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由.参考数据: 4.5695.58e ≈, 4.5897.51e ≈,回归方程y a bx =+中,斜率最小二乘法公式为()()()1122211n niii ii i nniij i x x y y x y nxyb x x xnx====---==--∑∑∑∑,a y bx =-.【答案】(1) 1.520.38x y e +=;(2)见解析. 【分析】(1)设ln z y =,则12ln z c c x =+,再根据参考数据及公式即可得解(2)先将8x =代入得预计2021年数据量,进而和2011年的50倍比较大小即可得解 【详解】(1)由21c xy c e =⋅,两边同时取自然对数得()2112ln ln ln c x y c e c c x =⋅=+,设ln z y =,则12ln z c c x =+. 因为 3.5x =, 2.85z =,()62117.58i i x x=-=∑,()()616.7.i i i x x z z =--=∑,所以()()()12216.730.3817.58niii nij x x z z c x x ==--==≈-∑∑,12ln 2.850.38 3.5 1.52c z c x =-=-⨯=.所以 1.520.38ln z x y =+=, 所以 1.520.38x y e +=;(2)令8x =,得 1.520.388 4.56ˆ95.58 1.825091ye e +⨯==≈>⨯=. 预计2021年全世界产生的数据规模会超过2011年的50倍. 【点睛】关键点点睛:对于非线性回归方程的求解,一般要结合题意作变换,转化为线性回归方程来求解,同时也要注意相应数据的变化.((11ii nj x b ===∑∑再直接选择数据,字母x 没有((11n ii nj x b ===∑∑参考数据总选择需要的数据代入计算。
多重共线性和非线性回归的问题前几天她和我说,在百度里有个人连续追着我的回答,三次说我的回答错了。
当时非常惊讶,赶紧找到那个回答的问题,看看那个人是怎么说。
最终发现他是说多重共线性和非线性回归的问题,他认为多个自变量进行不能直接回归,存在共线性的问题,需要进行因子分析(或主成分分析);说非线性回归不能转换成线性回归的方法,这里我详细说说这两方面的问题到底是怎么回事(根据我的理解),我发现很多人很怕这个多重共线性的问题,听到非线性回归,脑袋就更大了。
(1)多重共线性问题我们都知道在进行多元回归的时候,特别是进行经济上指标回归的时候,很多变量存在共同趋势相关性,让我们得不到希望的回归模型。
这里经常用到的有三种方法,而不同的方法有不同的目的,我们分别来看看:第一个,是最熟悉也是最方便的——逐步回归法。
逐步回归法是根据自变量与因变量相关性的大小,将自变量一个一个选入方法中,并且每选入一个自变量都进行一次检验。
最终留在模型里的自变量是对因变量有最大显著性的,而剔除的自变量是与因变量无显著线性相关性的,以及与其他自变量存在共线性的。
用逐步回归法做的多元回归分析,通常自变量不宜太多,一般十几个以下,而且你的数据量要是变量个数3倍以上才可以,不然做出来的回归模型误差较大。
比如说你有10个变量,数据只有15组,然后做拟合回归,得到9个自变量的系数,虽然可以得到,但是精度不高。
这个方法我们不仅可以找到对因变量影响显著的几个自变量,还可以得到一个精确的预测模型,进行预测,这个非常重要的。
而往往通过逐步回归只能得到几个自变量进入方程中,有时甚至只有一两个,令我们非常失望,这是因为自变量很多都存在共线性,被剔除了,这时可以通过第二个方法来做回归。
第二个,通过因子分析(或主成分分析)再进行回归。
这种方法用的也很多,而且可以很好的解决自变量间的多重共线性。
首先通过因子分析将几个存在共线性的自变量合为一个因子,再用因子分析得到的几个因子和因变量做回归分析,这里的因子之间没有显著的线性相关性,根本谈不上共线性的问题。
资料范本本资料为word版本,可以直接编辑和打印,感谢您的下载线性回归方程——非线性方程转化为线性方程地点:__________________时间:__________________说明:本资料适用于约定双方经过谈判,协商而共同承认,共同遵守的责任与义务,仅供参考,文档可直接下载或修改,不需要的部分可直接删除,使用时请详细阅读内容线性回归方程——非线性方程转化为线性方程例1.(2015·高考全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z (单位:千元)的影响,对近8年的宣传费xi和年销售量yii=1,2,⋯,8数据作了初步处理,得到下面的散点图及一些统计量的值.表中wi=xi ,w =18 i=18wi.(I)根据散点图判断,y=a+bx与y=c+dx,哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由);(II)根据(I)的判断结果及表中数据,建立y关于x的回归方程;(III)已知这种产品的年利润z与x,y的关系为z=0.2y-x ,根据(II)的结果回答下列问题:(i)年宣传费x=49时,年销售量及年利润的预报值是多少?(ii)年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu 的斜率和截距的最小二乘估计分别为:β=i=1n(ui-u)(vi-v)i=1n(ui-u)2,α=v-βu.【答案】(Ⅰ)y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型;(Ⅱ)y=100.6+68x;(Ⅲ)(i)答案见解析;(ii)46.24千元.【解析】(I)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型.(II)令w=x,先建立y关于w的线性回归方程,由于d=i=18(wi-w)(yi-y)i=18(wi-w)2=108.81.6=68,∴c=y-dw=563−68×6.8=100.6,∴y关于w的线性回归方程为y=100.6+68w,因此y关于x的回归方程为y=100.6+68x.(III)(ⅰ)由(II)知,当x=49时,年销售量y的预报值y=100.6+6849=576.6,年利润z的预报值为z=576.6×0.2-49=66.32.(ⅱ)根据(II)的结果知,年利润z的预报值z=0.2(100.6+68x)-x=-x+13.6x+20.12,所以当x=13.62=6.8,即x=46.24时,z取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.例2.某地级市共有200000中小学生,其中有7%学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5:3:2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1000元、1500元、2000元。
一、线性回归方程1、线性回归方程是利用数理统计中的回归分析,来确定两种或两种以上变数相互依赖的定量关系的一种统计分析方法之一。
线性回归也是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。
按自变量个数可分为一元线性回归分析方程和多元线性回归分析方程。
在统计学中,线性回归方程是利用最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。
这种函数是一个或多个称为回归系数的模型参数的线性组合。
只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。
2、在线性回归中,数据使用线性预测函数来建模,并且未知的模型参数也是通过数据来估计。
这些模型被叫做线性模型。
最常用的线性回归建模是给定X值的y的条件均值是X的仿射函数。
不太一般的情况,线性回归模型可以是一个中位数或一些其他的给定X的条件下y的条件分布的分位数作为X的线性函数表示。
像所有形式的回归分析一样,线性回归也把焦点放在给定X值的y的条件概率分布,而不是X和y的联合概率分布(多元分析领域)。
3、理论模型给一个随机样本(Yi ,Xi1,…,Xip),i=1,…,n,,一个线性回归模型假设回归子Yi 和回归量Xi1,…,Xip之间的关系是除了X的影响以外,还有其他的变数存在。
我们加入一个误差项(也是一个随机变量)来捕获除了Xi1,…,Xip之外任何对Yi的影响。
所以一个多变量线性回归模型表示为以下的形式:,i=1,…,n,其他的模型可能被认定成非线性模型。
一个线性回归模型不需要是自变量的线性函数。
线性在这里表示Yi的条件均值在参数里是线性的。
例如:模型在和里是线性的,但在里是非线性的,它是的非线性函数。
4、数据和估计区分随机变量和这些变量的观测值是很重要的。
通常来说,观测值或数据(以小写字母表记)包括了n个值(y i,x i1,…,x ip),i=1,…,n。
我们有p+1个参数,,需要决定,为了估计这些参数,使用矩阵表记是很有用的。
第一章测试1.残差是样本的随机误差项。
A:对B:错答案:A2.回归模型能够对现实做出完全准确的描述。
A:对B:错答案:B3.线性回归模型的“线性”是只针对于参数而言的。
A:对B:错答案:A4.是非线性模型。
A:错B:对答案:A5.异方差的假定不会影响最小二乘估计量的一致性。
A:错B:对答案:B第二章测试1.A:B:C:D:答案:A2.当估计一个商品的数量需求是否与价格呈线性关系的需求函数时,你应该:A:允许价格受其它的因素影响。
B: 不包括常数项因为商品的价格不会是零。
C:不需要考虑其它的解释变量。
D:假设随机误差项平均地来说为0。
答案:D3.异方差意味着A:模型不能自动假设为同方差。
B:随机误差项的方差不是常数。
C: 经济个体不全都是理性的。
D:被观测的个体有不同的偏好。
答案:B4.以下关于最小二乘法,说法错误的是A:B:C:D:答案:C5.以下说法错误的是A:如果模型的可决系数很高,我们可以认为此模型的质量较好。
B: 一元回归方程中存在多重共线性的问题。
C:模型的解释变量解释力度越强,R2就越高。
D:存在异方差时,变量的显著性检验失效。
答案:D6.如果你计算的t统计量的绝对值超过标准正态分布的临界值,你可以A: 拒绝误差项为同方差的原假设B: 拒绝零假设C:得出结论,实际值是非常接近的回归直线D:安全地假设,你的回归结果是显著的答案:B7.单侧检验和双侧检验的t统计量的构造:A:是相同的B:因为单侧检验的临界值是1.645,但是双侧检验的临界值是1.96(在5%的显著水平下)所以单侧检验和双侧检验的t统计量是不同的C:用做双侧检验的临界值,然而单侧检验只要1.96D:依赖于相应分布的临界值答案:A8.左侧检验的P值A:B:C:D:答案:D9.回归模型中的单个系数的显著性检验的t统计量可以通过用回归系数除以1.96来计算。
A:对B:错答案:B10.如果你计算的t统计量的绝对值超过标准正态分布的临界值,你可以得出结论,实际值是非常接近的回归直线吗?A:对B:错答案:B第三章测试1.A:对B:错答案:B2.不完全的多重共线性的情况下,最小二乘估计量不能计算。
非线性回归一、可化为线性回归的曲线回归在实际问题当中,有许多回归模型的被解释变量y 与解释变量x 之间的关系都不是线性的,其中一些回归模型通过对自变量或因变量的函数变换可以转化为线性关系,利用线性回归求解未知参数,并作回归诊断。
如下列模型。
εββ++=x e y 10-------(1) εββββ+++++=p p x x x y 2210--------(2) εe ae y bx =--------------------(3) ε+=bx ae y -------------(4)对于(1)式,只需令x e x ='即可化为y 对x '是线性的形式εββ+'+=x y 10,需要指出的是,新引进的自变量只能依赖于原始变量,而不能与未知参数有关。
对于(2)式,可以令1x =x ,2x =2x ,…, p x =p x ,于是得到y 关于1x ,2x ,…, p x 的线性表达式εββββ+++++=p p x x x y 22110对与(3)式,对等式两边同时去自然数对数,得ε++=bx a y ln ln ,令 y y ln =',a ln 0=β,b =1β,于是得到y '关于x 的一元线性回归模型: εββ++='x y 10。
对于(4)式,当b 未知时,不能通过对等式两边同时取自然数对数的方法将回归模型线性化,只能用非线性最小二乘方法求解。
回归模型(3)可以线性化,而(4)不可以线性化,两个回归模型有相同的回归函数bx ae ,只是误差项ε的形式不同。
(3)式的误差项称为乘性误差项,(4)式的误差项称为加性误差项。
因而一个非线性回归模型是否可以线性化,不仅与回归函数的形式有关,而且与误差项的形式有关,误差项的形式还可以有其他多种形式。
乘性误差项模型和加性误差项模型所得的结果有一定差异,其中乘性误差项模型认为t y 本身是异方差的,而t y ln 是等方差的。
常见非线性回归模型1.简非线性模型简介非线性回归模型在经济学研究中有着广泛的应用。
有一些非线性回归模型可以通过直接代换或间接代换转化为线性回归模型, 但也有一些非线性回归模型却无法通过代换转化为线性回归模型。
柯布—道格拉斯生产函数模型εβα+=L AK y其中 L 和 K 分别是劳力投入和资金投入, y 是产出。
由于误差项是可加的, 从而也不能通过代换转化为线性回归模型。
对于联立方程模型, 只要其中有一个方程是不能通过代换转化为线性, 那么这个联立方程模型就是非线性的。
单方程非线性回归模型的一般形式为εβββ+=),,,;,,,(2121p k x x x f y2.可化为线性回归的曲线回归在实际问题当中,有许多回归模型的被解释变量y 与解释变量x 之间的关系都不是线性的,其中一些回归模型通过对自变量或因变量的函数变换可以转化为线性关系,利用线性回归求解未知参数,并作回归诊断。
如下列模型。
(1)εββ++=x e y 10(2)εββββ+++++=p p x x x y 2210(3)ε+=bx ae y(4)y=alnx+b对于(1)式,只需令x e x ='即可化为y 对x '是线性的形式εββ+'+=x y 10,需要指出的是,新引进的自变量只能依赖于原始变量,而不能与未知参数有关。
对于(2)式,可以令1x =x ,2x =2x ,…, p x =p x ,于是得到y 关于1x ,2x ,…, p x 的线性表达式εββββ+++++=p p x x x y 22110对与(3)式,对等式两边同时去自然数对数,得ε++=bx a y ln ln ,令 y y ln =',a ln 0=β,b =1β,于是得到y '关于x 的一元线性回归模型: εββ++='x y 10。
乘性误差项模型和加性误差项模型所得的结果有一定差异,其中乘性误差项模型认为t y 本身是异方差的,而t y ln 是等方差的。
新教材高中数学新人教B版选择性必修第二册:第2课时相关系数与非线性回归学习任务核心素养1.了解两个变量间的线性相关系数r,并能利用公式求相关系数r.(重点)2.能利用相关系数r判断两个变量线性相关程度的大小,从而判断回归直线方程拟合的效果.(重点)3.掌握非线性回归转化为线性回归的方法,会求非线性回归方程,并作出预测.(难点)1.通过学习相关系数,培养数学运算的素养.2.借助非线性回归方程的学习,提升数据分析和数学建模的素养.据隆众资讯数据统计,2017~2019年截止到10月底的数据显示,聚丙烯期货价格及现货价格二者相关系数为88.70%,其中2017年二者相关系数高达90.86%,2018年降至83.97%,2019年截止到10月底二者相关系数为65.23%.问题:什么是相关系数,如何计算,它有什么作用?[提示]略.(1)定义:统计学里一般用r=∑ni=1(x i-x-)(y i-y-)∑ni=1(x i-x-)2∑ni=1(y i-y-)2=∑ni=1x i y i-n x-y-(∑ni=1x2i-n x-2)(∑ni=1y2i-n y-2)来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称为相关系数).(2)性质①|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0;②|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值;③|r|=1的充要条件是成对数据构成的点都在回归直线上.1.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 如下表:甲乙丙丁r 0.82 0.78 0.69 0.85则哪位同学的试验结果体现A ,B 两变量有更强的线性相关性( ) A .甲 B .乙 C .丙 D .丁 D [r 的绝对值越接近1,相关性越强,故选D .] 知识点2 非线性回归方程如果具有相关关系的两个变量x ,y 不是线性相关关系,那么称为非线性相关关系,所得到的方程称为非线性回归方程(也简称为回归方程).如何猜测非线性回归方程的类型?[提示] 可以通过作出散点图,结合已学的函数模型进行猜测. 拓展:常见的非线性回归方程的转换方式如下:曲线方程曲线(曲线的一部分)变换公式 变换后的线性函数 y =ax bc =ln av =ln x u =ln y u =c +b vy =a e bxc =ln a u =ln yu =c +bxy =a e b xc =ln av =1xu =ln yu =c +b vy =a +b ln xv =ln x y =a +b v到的散点图,那么适宜作为y 关于x 的回归方程的函数类型是( )A .y =a +bxB .y =c +d xC .y =m +nx 2D .y =p +qc x (q >0)B [散点图呈曲线,排除A 选项,且增长速度变慢,排除选项C 、D ,故选B .]类型1 相关系数的性质【例1】 (1)相关变量x ,y 的散点图如图所示,现对这两个变量进行线性相关性分析.方案一:根据图中所有数据,得到回归直线方程y ^=b ^1x +a ^1,相关系数为r 1;方案二:剔除点(10,21),根据剩下数据得到回归直线方程:y ^=b ^2x +a ^2,相关系数为r 2,则( )A .0<r 1<r 2<1B .0<r 2<r 1<1C .-1<r 1<r 2<0D .-1<r 2<r 1<0(2)设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归直线方程的回归系数为b ^,回归截距是a ^,那么必有( )A .b ^与r 的符号相同 B .a ^与r 的符号相同 C .b ^与r 的符号相反D .a ^与r 的符号相同(1)D (2)A [(1)由散点图得负相关,所以r 1,r 2<0,因为剔除点(10,21)后,剩下的数据更具有线性相关性,|r |更接近1,所以-1<r 2<r 1<0.(2)由公式可知b ^与r 的符号相同.]线性相关强弱的判断方法(1)散点图(越接近直线,相关性越强). (2)相关系数(绝对值越大,相关性越强).[跟进训练]1.如图是具有相关关系的两个变量的一组数据的散点图和回归直线,若去掉一个点使得余下的5个点所对应的数据的相关系数最大,则应当去掉的点是( )A .DB .EC .FD .AB [因为相关系数的绝对值越大,越接近1,则说明两个变量的相关性越强.因为点E 到直线的距离最远,所以去掉点E ,余下的5个点所对应的数据的相关系数最大.]类型2 相关系数的计算及应用【例2】 假设关于某种设备的使用年限x (单位:年)与所支出的维修费用y (单位:万元)有如下统计资料:x2 3 4 5 6y 2.2 3.8 5.5 6.5 7.0已知∑5i =1x 2i =90,∑5i =1y 2i ≈140.8,∑i =1x i y i =112.3,79≈8.9,2≈1.4.(1)计算y 与x 之间的相关系数(精确到0.001),并求出回归直线方程; (2)根据回归方程,预测假设使用年限为10年时,维修费用约是多少万元?[解] (1)∵x -=2+3+4+5+65=4,y -=2.2+3.8+5.5+6.5+7.05=5.∑5i =1x i y i -5x -y -=112.3-5×4×5=12.3,∑5i =1x 2i -5x -2=90-5×42=10, ∑5i =1y 2i -5y -2=140.8-125=15.8,所以r =12.310×15.8=12.3158=12.32×79≈12.31.4×8.9≈0.987.又b ^=∑5i =1x i y i -5x -y-∑5i =1x 2i -5x-2=112.3-5×4×590-5×42=1.23.a ^=y --b ^x -=5-1.23×4=0.08. 所以回归直线方程为y ^=1.23x +0.08.(2)当x =10时,y ^=1.23×10+0.08=12.38(万元), 即假设使用10年时,维修费用约为12.38万元. [跟进训练]2.某厂的生产原料耗费x (单位:百万元)与销售额y (单位:百万元)之间有如下的对应关系:x2468y 30 40 50 70(1)计算x 与y 之间的相关系数,并求其回归直线方程;(2)若实际销售额不少于80百万元,则原料耗费应该不少于多少? [解] (1)画出(x ,y )的散点图如图所示,由图可知x ,y 有线性关系.x -=5,y -=47.5,∑4i =1x 2i =120,∑4i =1y 2i =9 900,∑4i =1x i y i =1 080,故相关系数r =∑4i =1x i y i -4x -y-(∑4i =1x 2i -4x -2)(∑4i =1y 2i -4y -2)=1 080-4×5×47.5(120-4×52)(9 900-4×47.52)≈0.982 7.b ^=∑4i =1x i y i -4x -y-∑4i =1x 2i -4x-2=1 080-4×5×47.5120-4×52=6.5, a ^=y --b ^x -=47.5-6.5×5=15. 故回归直线方程为y ^=6.5x +15. (2)由回归直线方程知, 当y ^≥80,即6.5x +15≥80时, x ≥10.故原料耗费应不少于10百万元. 类型3 非线性回归方程已知x 和y 之间的一组数据,则下列四个函数中,哪一个作为回归模型最好?x 12 3y 3 5.99 12.01①y =3×2x -1;②y =log 2x ;③y =4x ;④y =x 2.[提示] 作出散点图(图略),观察散点图中样本点的分布规律可判断样本点分布在曲线y =3×2x-1附近.①作为回归模型最好.【例3】 某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y (元)与生产该产品的数量x (千件)有关,经统计得到如下数据:x12345678y 112 61 44.5 35 30.5 28 25 24观察散点图,两个变量不具有线性相关关系,现考虑用反比例函数模型y =a +bx 和指数函数模型y =c e dx 分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为y ^=96.54e-0.2x,ln y 与x 的相关系数r 1=-0.94.参考数据⎝⎛⎭⎫其中u i =1x i: ∑8i =1u i y iu -u -2∑8i =1u 2i ∑8i =1y i∑8i =1y 2i0.61×6 185.5e -2 183.4 0.34 0.115 1.53 360 22 385.561.40.135(1)(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10千件时每件产品的非原料成本;(3)该企业采取订单生产模式(根据订单数量进行生产,即产品全部售出).根据市场调研数据,若该产品单价定为100元,则签订9千件订单的概率为0.8,签订10千件订单的概率为0.2;若单价定为90元,则签订10千件订单的概率为0.3,签订11千件订单的概率为0.7.已知每件产品的原料成本为10元,根据(2)的结果,企业要想获得更高利润,产品单价应选择100元还是90元,请说明理由.参考公式:对于一组数据(u 1,υ1),(u 2,υ2),…,(u n ,υn ),其回归直线υ=α^+β^u 的斜率和截距的最小二乘估计分别为:β^=∑ni =1u i υi -n u -υ-∑n i =1u 2i -n u-2,a ^=υ--β^u -,相关系数r =∑ni =1u i υi -n u -υ-⎝⎛⎭⎫∑ni =1u 2i -n u-2⎝⎛⎭⎫∑ni =1υ2i -n υ-2[思路点拨] (1)首先可令u =1x 并将y =a +bx 转化为y =a +bu ,然后根据题目所给数据以及线性回归方程的相关公式计算出b ^以及a ^,即可得出结果;(2)计算出反比例函数模型的相关系数r 并通过对比即可得出结果;(3)可分别计算出单价为100元和90元时产品的利润,通过对比即可得出结果. [解] (1)令u =1x ,则y =a +b x 可转化为y =a +bu ,因为y -=3608=45,所以b ^=∑8i =1u i y i -8u -y-∑8i =1u 2i -8u-2=183.4-8×0.34×451.53-8×0.115=610.61=100,则a ^=y --b ^u -=45-100×0.34=11, 所以y ^=11+100u ,所以y 关于x 的回归方程为y ^=11+100x .(2)y 与1x的相关系数为:r 2=∑8i =1u i y i -n u -y-⎝⎛⎭⎫∑8i =1u 2i -8u -2⎝⎛⎭⎫∑8i =1y 2i -8y-2=610.61×6 185.5≈0.99.因为|r 1|<|r 2|,所以用反比例函数模型拟合效果更好, 当x =10时,y =10010+11=21(元),所以当产量为10千件时,每件产品的非原料成本为21元.(3)①当产品单价为100元,设订单数为x 千件,因为签订9千件订单的概率为0.8,签订10千件订单的概率为0.2,所以E (x )=9×0.8+10×0.2=9.2,所以企业利润为100×9.2-9.2×⎝⎛⎭⎫1009.2+21=626.8(千元). ②当产品单价为90元,设订单数为y 千件,因为签订10千件订单的概率为0.3,签订11千件订单的概率为0.7, 所以E (y )=10×0.3+11×0.7=10.7, 所以企业利润为90×10.7-10.7×⎝⎛⎭⎫10010.7+21=638.3(千元). 故企业要想获得更高利润,产品单价应选择90元.非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:[跟进训练]3.二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据:使用年数x 2 3 4 5 6 7 售价y 201286.44.43z =ln y3.00 2.48 2.08 1.86 1.48 1.10下面是z 关于(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关系数加以说明; (2)求y 关于x 的回归方程并预测某辆A 型号二手车当使用年数为9年时售价约为多少? (b ^,a ^小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考数据:∑6i =1x i y i =187.4,∑6i =1x i z i =47.64,∑6i =1x 2i =139,∑6i =1 (x i -x-)2≈4.18,∑6i =1(y i -y -)2=13.96,∑6i =1(z i -z -)2=1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34.参考公式:回归直线方程y ^=b ^x +a ^中斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -n x -y-∑ni =1x 2i -n x-2,a ^=y --b ^x -.r =∑n i =1 (x i -x -)(y i -y -)∑n i =1(x i -x-)2∑ni =1(y i -y -)2,x -,y -为样本平均值.[解] (1)由题意,计算x -=16×(2+3+4+5+6+7)=4.5,z -=16×(3+2.48+2.08+1.86+1.48+1.10)=2,且∑6i =1x i z i =47.64,∑6i =1x i -x-2≈4.18,∑6i =1z i -z-2=1.53,所以r =∑ni =1 x i -x-z i -z-∑n i =1x i -x-2∑n i =1z i -z-2=47.64-6×4.5×24.18×1.53=- 6.366.395 4≈-0.99.所以z 与x 的相关系数大约为-0.99,说明z 与x 的线性相关程度很高. (2)利用最小二乘估计公式计算b ^=∑ni =1x i z i -n x - z-∑n i =1x 2i -n x-2=47.64-6×4.5×2139-6×4.52=-6.3617.5≈-0.36,所以a ^=z --b ^x -=2+0.36×4.5=3.62,所以z 关于x 的线性回归方程是z ^=-0.36x +3.62, 又z =ln y ,所以y 关于x 的回归方程是y ^=e -0.36x +3.62. 令x =9,解得y =e -0.36×9+3.62≈1.46,即预测某辆A 型号二手车当使用年数为9年时售价约1.46万元.(3)当y ≥0.711 8时, e-0.36x +3.62≥0.711 8=e ln 0.711 8=e-0.34,所以-0.36x +3.62≥-0.34,解得x ≤11,因此预测在收购该型号二手车时车辆的使用年数不得超过11年.1.两个变量之间的线性相关程度越低,其线性相关系数的数值( ) A .越接近于-1 B .越接近于0 C .越接近于1D .越小B [由相关系数的含义可得:两个变量之间的线性相关程度越低,其线性相关系数的数值越接近于0.故选B .]2.如图所示,给出了样本容量均为7的A ,B 两组样本数据的散点图,已知A 组样本数据的相关系数为r 1,B 组数据的相关系数为r 2,则( )A .r 1=r 2B .r 1<r 2C .r 1>r 2D .无法判定C [根据A ,B 两组样本数据的散点图知,A 组样本数据几乎在一条直线上,且成正相关,∴相关系数为r 1应最接近1,B 组数据分散在一条直线附近,也成正相关,∴相关系数为r 2,满足r 2<r 1,即r 1>r 2,故选C .]3.对于线性相关系数r ,叙述正确的是( )A .r ∈(-∞,+∞),且r 越大,相关程度越大B .r ∈(-∞,+∞),且|r |越大,相关程度越大C .r ∈[-1,1],且r 越大,相关程度越大D .r ∈[-1,1],且|r |越大,相关程度越大D [相关系数r 是来衡量两个变量之间的线性相关程度的,线性相关系数是一个绝对值小于等于1的量,并且它的绝对值越大就说明相关程度越大.故选D .]4.若回归直线方程中的回归系数b ^=0,则相关系数r =________.0 [相关系数r =∑n i =1 (x i -x -)(y i -y -)∑n i =1 (x i -x -)2∑n i =1 (y i -y -)2与b ^=∑n i =1 (x i -x -)(y i -y -)∑n i =1 (x i -x -)2的分子相同,故r =0.]5.在一次试验中,测得(x ,y )的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则y 与x 的相关系数为________.-1 [法一:x -=1.5,y -=1,∑4i =1x 2i =22,∑4i =1y 2i =56,∑4i =1x i y i =-20,相关系数r =-20-4×1.5×1(22-4×1.52)(56-4×12)=-1.法二:观察四个点,发现其在一条单调递减的直线上,故y 与x 的相关系数为-1.]回顾本节内容,自我完成以下问题.1.你对相关系数是怎样认识的?[提示] (1)样本的相关系数r 可以定量地反映出变量间的相关程度,明确给出有无必要建立两变量间的回归方程.(2)|r |很小只是说明两个变量之间的线性相关程度弱,但不一定不相关.2.散点图和相关系数都可以确定两变间是否具备相关关系,两者有何区别与联系?[提示](1)散点图从形的角度来判断;相关系数r则是从数的角度来判断.(2)判断变量之间的线性相关关系,一般用散点图,但在作图中,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而就很难判断两个变量之间是否具有线性相关关系,此时就必须利用样本相关系数来判断.(3)样本相关系数r只能描述两个变量之间的变化方向及密切程度,不能揭示二者之间的本质联系.(4)样本相关系数r可以定量地反映出变量间的相关程度,明确的给出有无必要建立两变量间的回归直线方程.。
学习资料[文档副标题][日期][公司地址]线性回归方程——非线性方程转化为线性方程例1.(2015·高考全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的宣传费x i 和年销售量y i (i =1,2,⋯,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x̅ y ̅ w ̅46.6 563 6.8289.81.61469108.8表中w i =√x i ,w ̅ =18 ∑w i 8i=1,(I )根据散点图判断,y =a +bx 与y =c +d √x ,哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型(给出判断即可,不必说明理由);,II )根据(I )的判断结果及表中数据,建立y 关于x 的回归方程;(III )已知这种产品的年利润z 与x ,y 的关系为z =0.2y −x ,根据(II )的结果回答下列问题: (i )年宣传费x =49时,年销售量及年利润的预报值是多少? (ii )年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1) (u 2,v 2) ,…,(u n ,v n ) 其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为:β̂=∑(u i −u)(v i −v)ni=1∑(u −u)2ni=1,α̂=v −β̂u . 【答案】(Ⅰ)y =c +d √x 适宜作为年销售量y 关于年宣传费x 的回归方程类型;(Ⅱ)y ̂=100.6+68√x ;(Ⅲ)(i)答案见解析;(ii)46.24千元.【解析】(I )由散点图可以判断,y =c +d √x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(II )令w =√x ,先建立y 关于w 的线性回归方程,由于d ̂=∑(w i −w)(y i −y)8i=1∑(w i −w)28i=1=108.81.6=68, ∴ĉ=y −d ̂w =563−68×6.8=100.6, ∴y 关于w 的线性回归方程为y ̂=100.6+68w , 因此y 关于x 的回归方程为y ̂=100.6+68√x .(III )(ⅰ)由(II )知,当x =49时,年销售量y 的预报值y ̂=100.6+68√49=576.6, 年利润z 的预报值为ẑ=576.6×0.2−49=66.32.,ⅱ)根据(II )的结果知,年利润z 的预报值ẑ=0.2(100.6+68√x)−x =−x +13.6√x +20.12, 所以当√x =13.62=6.8,即x =46.24时,ẑ取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.例2.某地级市共有200000中小学生,其中有7%学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5:3:2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1000元、1500元、2000元。
经济学家调查发现,当地人均可支配年收入较上一年每增加n%,一般困难的学生中有3n%会脱贫,脱贫后将不再享受“精准扶贫”政策,很困难的学生中有2n%转为一般困难,特别困难的学生中有n%转为很困难。
现统计了该地级市2013年到2017年共5年的人均可支配年收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x取13时代表2013年,x与y(万元)近似满足关系式y=C1⋅2C2x,其中C1,C2为常数。
(2013年至2019年该市中学生人数大致保持不变)其中k i=log2y i,k̅=15∑5i=1k i(Ⅰ)估计该市2018年人均可支配年收入;(Ⅰ)求该市2018年的“专项教育基金”的财政预算大约为多少?附:对于一组具有线性相关关系的数据(u1,v1),(u2,v2),⋯,(u n,v n),其回归直线方程v=βu+α的斜率和截距的最小二乘估计分别为β̂=∑ni=1(u i−u̅)(v i−v̅)∑n i=1(u i−u̅)2,α̂=v̅−β̂u̅.【答案】(Ⅰ)2.8(万);(Ⅱ)1624万.【详解】(Ⅰ)因为x̅=15(13+14+15+16+17)=15,所以∑5i=1(x i−x̅)2=(−2)2+(−1)2+12+22=10.由k=log2y得k=log2C1+C2x,所以C2=∑5i=1(x i−x̅)(k i−k̅)∑5i=1(x i−x̅)2=110,log2C1=k̅−C2x̅=1.2−110×15=−0.3,所以C1=2−0.3=0.8,所以y=0.8×2x10.当x=18时,2018年人均可支配年收入y=0.8×21.8=0.8×3.5=2.8(万)(Ⅱ)由题意知2017年时该市享受“国家精准扶贫”政策的学生共200000×7%=14000人一般困难、很困难、特别困难的中学生依次有7000人、4200人、2800人, 2018年人均可支配收入比2017年增长0.8×21.8−0.8×21.70.8×21.7=20.1−1=0.1=10%所以2018年该市特别困难的中学生有2800×(1-10%)=2520人,很困难的学生有4200×(1-20%)+2800×10%=3640人一般困难的学生有7000×(1-30%)+4200×20%=5740人.所以2018年的“专项教育基金”的财政预算大约为5740×1000+3640×1500+2520×2000=1624万.例3.近期,某公交公司分别推出支付宝和徽信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x 表示活动推出的天数,y 表示每天使用扫码支付的人次(单位:十人次),统计数据如表l 所示: 表1根据以上数据,绘制了如右图所示的散点图.(1)根据散点图判断,在推广期内,y =a +bx 与y =c ⋅d x (c,d 均为大于零的常数)哪一个适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型?(给出判断即可,不必说明理由),(2)根据(1)的判断结果及表1中的数据,求y 关于x 的回归方程,并预测活动推出第8天使用扫码支付的人次; 参考数据:其中υi =1gy i ,υ=17∑υi 7i=1参考公式:对于一组数据(u 1,υ1),(u 2,υ2),⋅⋅⋅,(u n ,υn ),其回归直线υ̂=a ̂+β̂u 的斜率和截距的最小二乘估计公式分别为:β̂=∑u i υi −nuυni=1∑u i 2−nu 2n i=1,a ̂=υ−β̂u ̂.【答案】(1)y =c ⋅d x ,2,3470【详解】,1)根据散点图判断,y =c ⋅d x 适宜作为扫码支付的人数y 关于活动推出天数x 的回归方程类型; (2)∵y =c ⋅d x ,两边同时取常用对数得:1gy =1g(c ⋅d x ) =1gc +1gd ⋅x , 设1gy =v, ∴v =1gc +1gd ⋅x ∵x =4,v =1.54,∑x i 27i=1=140, ∴l g ̂d =∑x i v i 7i=1−7xv ∑x i 2−7x27i=1=50.12−7×4×1.54140−7×42=728=0.25,把样本中心点(4,1.54)代入v =1gc +1gd ⋅x ,得: l g ̂c =0.54, ∴v ̂=0.54+0.25x ,∴l g ̂y =0.54+0.25x ,∴y 关于x 的回归方程式:y ̂=100.54+0.25x =100.54×(100.25)x =3.47×100.25x,把x =8代入上式,y ̂=3.47×102=347, 活动推出第8天使用扫码支付的人次为3470,例4.近年来,随着我国汽车消费水平的提高,二手车流通行业得到迅猛发展.某汽车交易市场对2017年成交的二手车交易前的使用时间(以下简称“使用时间”)进行统计,得到频率分布直方图如图1.图1 图2(1)记“在2017年成交的二手车中随机选取一辆,该车的使用年限在(8 , 16]”为事件A ,试估计A 的概率; (2)根据该汽车交易市场的历史资料,得到散点图如图2,其中x (单位:年)表示二手车的使用时间,y (单位:万元)表示相应的二手车的平均交易价格.由散点图看出,可采用y =e a+bx 作为二手车平均交易价格y 关于其使用年限x 的回归方程,相关数据如下表(表中Y i =lny i ,Y =110∑Yi 10i=1,,①根据回归方程类型及表中数据,建立y 关于x 的回归方程;②该汽车交易市场对使用8年以内(含8年)的二手车收取成交价格4%的佣金,对使用时间8年以上(不含8年)的二手车收取成交价格10%的佣金.在图1对使用时间的分组中,以各组的区间中点值代表该组的各个值.若以2017年的数据作为决策依据,计算该汽车交易市场对成交的每辆车收取的平均佣金.附注:①对于一组数据(u 1,v 1),(u 2,v 2),⋯(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β̂=∑u i v i n i=1−nu̅ v ̅∑u i 2n i=1−nu ̅2,α̂=v̅−β̂ u ̅, ②参考数据:e 2.95≈19.1 , e 1.75≈5.75 , e 0.55≈1.73 , e −0.65≈0.52 , e −1.85≈0.16,【答案】(1)0.40;(2)y ̂=e 3.55−0.3x 0.29万元【详解】(1)由频率分布直方图得,该汽车交易市场2017年成交的二手车使用时间在(8,12]的频率为0.07×4=0.28,在(12,16]的频率为0.03×4=0.12 ,所以P (A )=0.28+0.12=0.40,(2)①由y =e a+bx 得lny =a +bx ,即Y 关于x 的线性回归方程为Y ̂=a +bx , 因为b̂=∑x i Y i −10x̅⋅Y̅10i=1∑x i 2−10x̅210i=1=79.75−10×5.5×1.9385−10×5.52=−0.3,a ̂=Y̅−b ̂⋅x̅=1.9−(−0.3)×5.5=3.55 所以Y 关于x 的线性回归方程为Y ̂=3.55−0.3x , 即y 关于x 的回归方程为y ̂=e 3.55−0.3x ②根据①中的回归方程y ̂=e 3.55−0.3x 和图1,对成交的二手车可预测:使用时间在(0,4]的平均成交价格为e 3.55−0.3×2=e 2.95≈19.1,对应的频率为0.2, 使用时间在(4,8]的平均成交价格为e 3.55−0.3×6=e 1.75≈5.75,对应的频率为0.36, 使用时间在(8,12]的平均成交价格为e 3.55−0.3×10=e 0.55≈1.73,对应的频率为0.28,使用时间在(12,16]的平均成交价格为e3.55−0.3×14=e−0.65≈0.52,对应的频率为0.12,使用时间在(16,20]的平均成交价格为e3.55−0.3×18=e−1.85≈0.16,对应的频率为0.04所以该汽车交易市场对于成交的每辆车可获得的平均佣金为(0.2×19.1+0.36×5.75)×4%+(0.28×1.73+0.12×0.52+0.04×0.16)×10% =0.29092≈0.29万元例5.菜农定期使用低害杀虫农药对蔬菜进行喷洒,以防止害虫的危害,但采集上市时蔬菜仍存有少量的残留农药,食用时需要用清水清洗干净,下表是用清水x(单位:千克)清洗该蔬菜1千克后,蔬菜上残留的农药y(单位:微克)的数据作了初步处理,得到下面的散点图及一些统计量的值. y (微克)x (千克)其中ω=x 2(I )根据散点图判断,y ̂=bx +a 与y ̂=dx 2+c ,哪一个适宜作为蔬菜农药残量y ̂与用水量x 的回归方程类型(给出判断即可,不必说明理由);(Ⅱ)若用解析式y ̂=dx 2+c 作为蔬菜农药残量y ̂与用水量x 的回归方程,求出y ̂与x 的回归方程.(c ,d 精确到0.1) (Ⅲ)对于某种残留在蔬菜上的农药,当它的残留量低于20微克时对人体无害,为了放心食用该蔬菜,请估计需要用多少千克的清水清洗一千克蔬菜?(精确到0.1,参考数据√5≈2.236) 附:参考公式:回归方程y ̂=a ̂+b̂x 中斜率和截距的最小二乘估计公式分别为: b ̂=∑(x i −x̅)(y i −y ̅)n i=1∑(i)2n i=1, a ̂=y ̅−b ̂x̅ 【答案】(1)见解析; (2)y ̂=−2.0x 2+60.0;(3)需要用4.5千克的清水清洗一千克蔬菜. 【详解】(I )根据散点图判断y ̂=dx 2+c 适宜作为蔬菜农药残量y ̂与用水量x 的回归方程类型; (Ⅱ)令w =x 2,先建立y 关于w 的线性回归方程,由于d ̂=∑(w i −w )8i=1(y i −y )∑(w i −w )8i=12=−751374≈−2.0,∴ĉ=y −d ̂w =38+2×11=60. ∴y 关于w 的线性回归方程为y ̂=−2.0w +60.0, ∴y 关于x 的回归方程为y ̂=−2.0x 2+60.0.(Ⅲ)当y ̂<20时,−2.0x 2+60.0<20 ,x >2√5≈4.5∴为了放心食用该蔬菜,估计需要用4.5千克的清水清洗一千克蔬菜。