2019_2020学年高中数学第一章统计1.8最小二乘估计学案北师大版必修3
- 格式:doc
- 大小:397.50 KB
- 文档页数:10
1.8 最小二乘估计【目标引领】学习目标:了解非确定性关系中两个变量的统计方法;掌握散点图的画法及在统计中的作用,掌握回归直线方程的求解方法。
学法指导:①求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实标意义.否则,求出的回归直线方程毫无意义.因此,对一组数据作线性回归分析时,应先看其散点图是否成线性.②求回归直线方程,关键在于正确地求出系数a、b,由于求a、b的计算量较大,计算时仔细谨慎、分层进行,避免因计算产生失误.③回归直线方程在现实生活与生产中有广泛的应用.应用回归直线方程可以把非确定性问题转化成确定性问题,把“无序”变为“有序”,并对情况进行估测、补充.因此,学过回归直线方程以后,应增强学生应用回归直线方程解决相关实际问题的意识.解析视屏:1.相关关系的概念在实际问题中,变量之间的常见关系有两类:一类是确定性函数关系,变量之间的关系可以用函数表示。
例如正方形的面积S与其S (确定关系);边长x之间的函数关系2x一类是相关关系,变量之间有一定的联系,但不能完全用函数来表达。
例如一块农田的水稻产量与施肥量的关系(非确定关系)相关关系:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系。
相关关系与函数关系的异同点:相同点:均是指两个变量的关系。
不同点:函数关系是一种确定关系;而相关关系是一种非确定关系;函数关系是自变量与因变量之间的关系,这种关系是两个非随机变量的关系;而相关关系是非随机变量与随机变量的关系。
2.求回归直线方程的思想方法观察散点图的特征,发现各点大致分布在一条直线的附近,思考:类似图中的直线可画几条?引导学生分析,最能代表变量x 与y 之间关系的直线的特征:即n 个偏差的平方和最小,其过程简要分析如下:设所求的直线方程为ˆy bx a =+,其中a 、b 是待定系数。
则ˆ(1,2,,)i i ybx a i n =+=⋅⋅⋅⋅,于是得到各个偏差。
[学习目标]1.了解最小二乘法.2.理解线性回归方程的求法.3.掌握线性回归方程的意义.知识点一最小二乘法1.定义:如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用下面的表达式来刻画这些点与直线y =a +bx 的接近程度:[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2.使得上式达到最小值的直线y =a +bx 就是我们所要求的直线,这种方法称为最小二乘法. 2.应用:利用最小二乘法估计时,要先作出数据的散点图.如果散点图呈现出线性关系,可以用最小二乘法估计出线性回归方程;如果散点图呈现出其他的曲线关系,我们就要利用其他的工具进行拟合. 知识点二回归直线的求法 1.回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.回归方程与最小二乘法我们用y i -y ^i 来刻画实际观察值y i (i =1,2,…,n )与y ^i 的偏离程度,y i -y ^i 越小,偏离越小,直线就越贴近已知点.我们希望y i -y ^i 的n 个差构成的总的差量越小越好,这才说明所找的直线是最贴近已知点的.由于把y i -y ^i 这个差量作和会使差量中的正负值相互抵消,因此我们用这些差量的平方和即Q =i =1n (y i -a -bx i )2作为总差量,回归直线就是所有直线中Q 取最小值的那一条.因为平方又叫二乘方,所以这种使“差量平方和最小”的方法叫做最小二乘法.用最小二乘法求回归方程中的a ^,b ^有下面的公式:⎩⎪⎨⎪⎧b ^=i =1n (x i -x )(y i-y )i =1n (x i -x )2=∑i =1nx i y i-n x y ∑i =1nx 2i-n x 2,a ^=y -b ^x ,其中x =1n ∑i =1n x i ,y =1n ∑i =1ny i .这样,回归方程的斜率为b ^,截距为a ^,即回归方程为y ^=b ^x +a ^. 思考任何一组数据都可以由最小二乘法得出回归方程吗?答用最小二乘法求回归方程的前提是先判断所给数据具有线性相关关系(可利用散点图来判断),否则求出的回归方程是无意义的.题型一变量间相关关系的判断例1某种产品的广告费支出x (单位:百万元)与销售额y (单位:百万元)之间有如下对应数据:(1)画出散点图; (2)求回归方程. 解(1)散点图如图所示.(2)列出下表,并用科学计算器进行有关计算.于是可得,b ^=∑i =15x i y i -5x y∑i =15x 2i -5x2=1380-5×5×50145-5×52=6.5,a ^=y -b ^x =50-6.5×5=17.5.于是所求的回归方程是y ^=6.5x +17.5. 反思与感悟1.求回归方程的步骤 (1)列表x i ,y i ,x i y i . (2)计算x ,y ,∑i =1nx 2i ,∑i =1ny 2i ,∑i =1nx i y i .(3)代入公式计算b ^,a ^的值.(4)写出回归方程y ^=a ^+b ^x . 2.求回归方程的适用条件两个变量具有线性相关性,若题目没有说明相关性,则必须对两个变量进行相关性判断.跟踪训练1某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:已知记忆力x 和判断力y 解x =6+8+10+124=9,y =2+3+5+64=4,∑4i =1x 2i =62+82+102+122=344, ∑4i =1x i y i =6×2+8×3+10×5+12×6=158,b =158-4×9×4344-4×81=1420=0.7,a =y -b x =4-0.7×9=-2.3. 则所求的线性回归方程为y =0.7x -2.3. 题型二利用线性回归方程对总体进行估计例2有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的热饮杯数与当天气温的对比表:(2)从散点图中发现气温与热饮销售杯数之间关系的一般规律;(3)求回归方程;(4)如果某天的气温是2℃,预测这天卖出的热饮杯数.解(1)散点图如图所示:(2)从上图看到,各点散布在从左上角到右下角的区域里,因此气温越高,卖出去的热饮杯数越少.(3)从散点图可以看出,这些点大致分布在一条直线的附近,因此,可用公式求出回归方程的系数.利用计算器容易求得回归方程y=-2.352x+147.772.(4)当x=2时,y=143.068.因此,某天的气温为2℃时,这天大约可以卖出143杯热饮.反思与感悟用线性回归方程进行数据拟合的一般步骤是:(1)把数据列成表格;(2)作散点图;(3)判断是否线性相关;(4)若线性相关,求出系数b,a的值(一般也列成表格的形式,用计算器或计算机计算);(5)写出回归直线方程y=a+b x.跟踪训练22014年元旦前夕,某市统计局统计了该市2013年10户家庭的年收入和年饮食支出的统计资料如下表:(2)若某家庭年收入为9万元,预测其年饮食支出. (参考数据:∑i =110x i y i =117.7,∑i =110x 2i =406)解(1)依题意可计算得:x =6,y =1.83,x 2=36, x y =10.98,又∵∑i =110x i y i =117.7,∑i =110x 2i =406,∴b =∑i =110x i y i -10x y∑i =110x 2i -10x 2≈0.17,a =y -b x =0.81,∴y =0.17x +0.81.∴所求的线性回归方程为y =0.17x +0.81. (2)当x =9时,y =0.17×9+0.81=2.34.可估计大多数年收入为9万元的家庭每年饮食支出约为2.34万元.1.炼钢时钢水的含碳量与冶炼时间有() A .确定性关系B .相关关系 C .函数关系D .无任何关系 答案B解析炼钢时钢水的含碳量除了与冶炼时间有关外,还受冶炼温度等的影响,故为相关关系.2.设有一个回归方程为y ^=-1.5x +2,则变量x 增加一个单位时() A .y 平均增加1.5个单位B .y 平均增加2个单位 C .y 平均减少1.5个单位D .y 平均减少2个单位 答案C解析∵两个变量线性负相关,∴变量x 增加一个单位,y 平均减少1.5个单位.3.某商品的销售量y (单位:件)与销售价格x (单位:元/件)负相关,则其回归方程可能是()A.y ^=-10x +200B.y ^=10x +200C.y ^=-10x -200D.y ^=10x -200 答案A解析结合图象(图略),知选项B ,D 为正相关,选项C 不符合实际意义,只有选项A 正确. 4.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是()A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1cm ,则其体重约增加0.85kgD .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 答案D解析当x =170时,y ^=0.85×170-85.71=58.79,体重的估计值为58.79kg.5.正常情况下,年龄在18岁到38岁的人,体重y (kg)对身高x (cm)的回归方程为y ^=0.72x -58.2,张明同学(20岁)身高178cm ,他的体重应该在________kg 左右. 答案69.96解析用回归方程对身高为178cm 的人的体重进行预测,当x =178时,y ^=0.72×178-58.2=69.96(kg).1.判断变量之间有无相关关系,简便可行的方法就是绘制散点图.根据散点图,可看出两个变量是否具有相关关系,是否线性相关,是正相关还是负相关. 2.求回归直线的方程时应注意的问题(1)知道x 与y 呈线性相关关系,无需进行相关性检验,否则应首先进行相关性检验.如果两个变量之间本身不具有相关关系,或者说,它们之间的相关关系不显著,即使求出回归方程也是毫无意义的,而且用其估计和预测的量也是不可信的.(2)用公式计算a ^、b ^的值时,要先算出b ^,然后才能算出a ^.3.利用回归方程,我们可以进行估计和预测.若回归方程为y ^=b ^x +a ^,则x =x 0处的估计值为y ^0=b ^x 0+a ^.。
学习目标1.了解用最小二乘法建立线性回归方程的思想,会用给出的公式建立线性回归方程.2.理解回归直线与观测数据的关系,能用线性回归方程进行估计和预测.知识点一最小二乘法思考具有线性相关关系的散点大致分布在一条直线附近.如何确定这条直线比较合理?知识点二线性回归方程思考数学上的“回归”是什么意思?梳理用最小二乘法得到的直线方程称为__________,a ,b 是线性回归方程的系数. 如果用x 表示x 1+x 2+…+x n n ,用y 表示y 1+y 2+…+y nn ,则可以求得b =(x 1-x )(y 1-y )+(x 2-x )(y 2-y )+…+(x n -x )(y n -y )(x 1-x )2+(x 2-x )2+…+(x n -x )2=x 1y 1+x 2y 2+…+x n y n -n x y x 21+x 22+…+x 2n-n x 2.a=________.类型一线性回归方程的求法例1下表为某地近几年机动车辆数与交通事故数的统计资料.(1)请判断机动车辆数与交通事故数之间是否具有线性相关关系,如果不具有线性相关关系,请说明理由;(2)如果具有线性相关关系,求出线性回归方程.反思与感悟即使散点图呈饼状,也可利用公式求出线性回归方程,但这种方程显然没什么价值.故应先画出散点图,看是否呈直线形,再求方程.跟踪训练1以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线.类型二线性回归方程的应用例2有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的热饮杯数与当天气温的对比表:(1)画出散点图;(2)从散点图中发现气温与热饮销售杯数之间有什么关系;(3)求线性回归方程;(4)如果某天的气温是2℃,预测这天卖出的热饮杯数;(5) 气温为2℃时,小卖部一定能够卖出143杯左右热饮吗?为什么?反思与感悟线性回归方程主要用于预测,但这种预测类似于天气预报,不一定与实际数据完全吻合.跟踪训练2有人统计了同一个省的6个城市某一年的人均国民生产总值(即人均GDP)和这一年各城市患白血病的儿童数,如下表:(1)画出散点图,并判定这两个变量是否具有线性相关关系;(2)通过计算可知这两个变量的线性回归方程为y=23.25x+102.15,假如一个城市的人均GDP为12万元,那么可以断言,这个城市患白血病的儿童一定超过380人,请问这个断言是否正确?1.下列有关线性回归的说法,不正确的是()A.自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B.在平面直角坐标系中用描点的方法得到表示具有相关关系的两个变量的一组数据的图形叫作散点图C.线性回归方程最能代表观测值x、y之间的线性关系D.任何一组观测值都能得到具有代表意义的线性回归方程2.已知回归直线的斜率的估计值是1.23,样本点中心(即(x,y))为(4,5),()A.y=1.23x+4B.y=1.23x+5C.y=1.23x+0.08D.y=0.08x+1.233.某产品的广告费用x与销售额y的统计数据如下表:根据上表可得线性回归方程y=bx+a中的b为9.4,据此模型预报广告费用为6万元时销售额为()A.63.6万元B.65.5万元C.67.7万元D.72.0万元4.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的线性回归方程为y=0.85x-85.71,则下列结论中不正确的是()A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可判定其体重必为58.79kg1.求线性回归方程时应注意的问题(1)知道x与y成线性相关关系,无需进行相关性检验,否则应首先进行相关性检验,如果两个变量之间本身不具有相关关系,或者说,它们之间的相关关系不显著,即使求出线性回归方程也是毫无意义的,而且用其估计和预测的量也是不可信的. (2)用公式计算a 、b 的值时,要先计算b ,然后才能算出a .2.利用线性回归方程,我们可以进行估计和预测.若线性回归方程为y =bx +a ,则x =x 0处的估计值为y 0=bx 0+a .答案精析问题导学 知识点一思考应该使散点整体上最接近这条直线.最小二乘法是一种求回归直线的方法,用这种方法求得的回归直线能使样本数据的点到回归直线的距离 [y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2最小. 知识点二思考“回归”一词最早由英国统计学家(FrancilsGalton)提出的,本意是子女的身高会向一般人的均值靠拢.现在这个概念引伸到随机变量有向回归线集中的趋势. 梳理线性回归方程y -b x 题型探究例1解(1)在平面直角坐标系中画出数据的散点图,如图.直观判断散点在一条直线附近,故具有线性相关关系. (2)计算相应的数据之和:∑i =18x i =1031,∑i =18y i =71.6,∑i =18x 2i =137835,∑i =18x i y i =9611.7,x =128.875,y =8.95,将它们代入公式计算得b ≈0.0774,a ≈-1.0249, 所以,所求线性回归方程为y =0.0774x -1.0249. 跟踪训练1解(1)数据对应的散点图如图所示:(2)x =15∑i =15x i =109,y =23.2,∑i =15x 2i =60975,∑i =15x i y i =12952.设所求线性回归方程为y =bx +a ,则b =∑i =15x i y i -5x y∑i =15x 2i -5x2≈0.1962,a =y -b x =23.2-109×0.1962=1.8142, 故所求线性回归方程为y =0.1962x +1.8142. 回归直线如(1)中图所示. 例2解(1)散点图如图所示:(2)从上图看到,各点散布在从左上角到右下角的区域里,因此,气温与热饮销售杯数之间呈负相关,即气温越高,卖出去的热饮杯数越少.(3)从散点图可以看出,这些点大致分布在一条直线的附近,因此,可用公式求出线性回归方程的系数.利用计算器容易求得线性回归方程为y=-2.352x+147.767.(4)当x=2时,y=143.063.因此,某天的气温为2℃时,这天大约可以卖出143杯热饮.(5)小卖部不一定能够卖出143杯左右热饮,原因如下:①线性回归方程中的截距和斜率都是通过样本估计出来的,存在误差,这种误差可以导致预测结果的偏差.②即使截距和斜率的估计没有误差,也不可能百分之百地保证对应于x的预报值,能够与实际值y很接近.我们不能保证点(x,y)落在回归直线上,甚至不能百分之百地保证它落在回归直线的附近.跟踪训练2解(1)散点图如下:根据散点图可以看出,在6个点中,虽然第一个点离这条直线较远,但其余5个点大致分布在这条直线的附近,所以这两个变量具有线性相关关系.(2)断言是错误的,将x=12代入y=23.25x+102.15得y=23.25×12+102.15=381.15>380,但381.15是对该城市人均GDP为12万元的情况下所作的一个估计,该城市患白血病的儿童可能超过380人,也可能低于380人.当堂训练1.D2.C3.B4.D。
高中数学第一章统计1.8 最小二乘估计教案北师大版必修3编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(高中数学第一章统计1.8 最小二乘估计教案北师大版必修3)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为高中数学第一章统计1.8 最小二乘估计教案北师大版必修3的全部内容。
§8最小二乘估计错误!教学分析教科书通过思考交流引入了最小二乘法,进一步提出了线性回归方程,在探索用多种方法确定线性回归直线的过程中,向学生展示创造性思维的过程,帮助学生理解最小二乘法的思想.通过气温与饮料销售量的例子及随后的思考,使同学们了解利用线性回归方程解决实际问题的全过程,体会线性回归方程作出的预测结果的随机性和并且可能犯的错误.进一步,教师可以利用计算机模拟和多媒体技术,直观形象地展示预测结果的随机性和规律性.三维目标经历用不同估算方法描述两个变量线性相关的过程.了解最小二乘法的思想,能根据给出的线性回归方程的系数公式建立线性回归方程.重点难点教学重点:求线性回归方程,以及线性回归分析.教学难点:确定线性回归系数.课时安排1课时错误!导入新课思路1。
客观事物是相互联系的,过去研究的大多数是因果关系,但实际上更多存在的是一种非因果关系.比如说:某某同学的数学成绩与物理成绩,彼此是互相联系的,但不能认为数学是“因",物理是“果”,或者反过来说.事实上,数学成绩和物理成绩都是“果”,而真正的“因”是学生的理科学习能力和努力程度.所以说,函数关系存在着一种确定性关系,但还存在着另一种非确定性关系-—相关关系.为表示这种相关关系,我们接着学习两个变量的线性相关—-回归直线及其方程.思路2.某小卖部为了了解热茶销售量与气温之间的关系,随机统计并制作了某6天卖出热?为解决这个问题,我们接着学习两个变量的线性相关-—回归直线及其方程.推进新课新知探究错误!1.画散点图的步骤是什么?2.正、负相关的概念是什么?3.什么是线性相关?4.观察下面人体的脂肪含量百分比和年龄的散点图,当人的年龄增加时,体内脂肪含量到底是以什么方式增加的呢?图15.什么叫作回归直线?6.如何求回归直线的方程?什么是最小二乘法?7.利用计算机如何求线性回归方程?活动:学生回顾,再思考或讨论,教师及时提示指导.讨论结果:1.建立相应的平面直角坐标系,将各数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫作散点图.2.如果散点图中的点散布在从左下角到右上角的区域内,称为正相关.如果散点图中的点散布在从左上角到右下角的区域内,称为负相关.3.如果所有的样本点都落在某一直线附近,变量之间就有线性相关的关系.4.大体上来看,随着年龄的增加,人体中脂肪含量的百分比也在增加,呈正相关的趋势,我们可以从散点图上来进一步分析.5.从散点图上可以看出,这些点大致分布在通过散点图中心的一条直线附近.如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.如果能够求出这条回归直线的方程(简称回归方程),那么我们就可以比较清楚地了解年龄与体内脂肪含量的相关性.就像平均数可以作为一个变量的数据的代表一样,这条直线可以作为两个变量具有线性相关关系的代表.6.从散点图上可以发现,人体的脂肪含量百分比和年龄的对应点,大致分布在通过散点图中心的一条直线附近.那么,我们应当如何具体求出这个回归方程呢?有的同学可能会想,我可以采用测量的方法,先画出一条直线,测量出各点与它的距离,然后移动直线,到达一个使距离的和最小的位置,测量出此时直线的斜率和截距,就可得到回归方程了.但是,这样做可靠吗?有的同学可能还会想,在图中选择这样的两点画直线,使得直线两侧的点的个数基本相同.同样地,这样做能保证各点与此直线在整体上是最接近的吗?还有的同学会想,在散点图中多取几组点,确定出几条直线的方程,再分别求出各条直线的斜率、截距的平均数,将这两个平均数当成回归方程的斜率和截距.同学们不妨去实践一下,看看这些方法是不是真的可行?(学生讨论:1。
§8 最小二乘估计学 习 目 标核 心 素 养1.了解最小二乘法的思想及意义.(重点)2.会求线性回归方程并进行简单应用.(难点) 1.通过了解最小二乘法的思想及意义, 培养数学抽象素养.2.通过求线性回归方程并进行简单的应用,提升数据分析素养.1.最小二乘法利用最小二乘法估计时,要先做出数据的散点图.如果散点图呈现一定的规律性,我们再根据这个规律进行拟合.如果散点图呈现出线性关系,我们可以用最小二乘法估计出线性回归方程;如果散点图呈现出其他的曲线关系,我们就要利用其他的工具进行拟合.2.线性回归方程 用x 表示x 1+x 2+…+x nn ,用y 表示y 1+y 2+…+y nn,由最小二乘法可以求得b =(x 1-x )(y 1-y )+(x 2-x )(y 2-y )+…+(x n -x )(y n -y )(x 1-x )2+(x 2-x )2+…+(x n -x )2=x 1y 1+x 2y 2+…+x n y n -n x yx 21+x 22+…+x 2n -n x 2,a =y -b x .这样得到的直线方程y =a +bx 称为线性回归方程,a 、b 是线性回归方程的系数. 思考:任何一组数据都可以由最小二乘法得出回归方程吗?[提示] 用最小二乘法求回归方程的前提是先判断所给数据具有线性相关关系(可利用散点图来判断),否则求出的回归方程是无意义的.1.变量y 对x 的回归方程的意义是( ) A .表示y 与x 之间的函数关系 B .表示y 与x 之间的线性关系 C .反映y 与x 之间的真实关系D.反映y与x之间的真实关系达到最大限度的吻合D[线性回归直线方程最能代表观测值x、y之间的线性相关关系,反映y与x之间的真实关系达到最大限度的吻合.]2.下表是x与y之间的一组数据,则y关于x的线性回归方程y=bx+a必过( ) x 012 3y 1357C.点(1,2) D.点(1.5,4)D[回归方程必过样本点(x,y),经计算得(1.5,4).]3.对有线性相关关系的两个变量建立的回归直线方程y=a+bx中,回归系数b( ) A.不能小于0 B.不能大于0C.不能等于0 D.只能小于0C[当b=0时,不具有相关关系,b可以大于0,也可以小于0.]4.正常情况下,年龄在18岁到38岁的人,体重y(kg)对身高x(cm)的回归方程为y=0.72x -58.2,张明同学(20岁)身高178 cm,他的体重应该在________kg左右.69.96[用回归方程对身高为178 cm的人的体重进行预测,当x=178时,y=0.72×178-58.2=69.96(kg).]线性回归方程的应用表:年份2012201320142015201620172018 年份代号t 1234567人均纯收入y2.93.3 3.64.4 4.85.2 5.9(2)利用(1)中的回归方程,分析2012年至2018年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2020年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘法估计公式分别为:b=∑ni=1(t i-t)(y i-y)∑ni=1(t i-t)2,a=y -b t .[解] (1)因为t =1+2+…+77=4,y =2.9+3.3+3.6+4.4+4.8+5.2+5.97=4.3,设回归方程为y =bt +a ,代入公式,经计算得b =3×1.4+2+0.7+0+0.5+1.8+4.8(9+4+1)×2=1414×2=12,a =y -b t =4.3-12×4=2.3,所以y 关于t 的回归方程为y =0.5t +2.3.(2)因为b =12>0,所以2012年至2018年该地区农村居民家庭人均纯收入稳步增长,预计到2020年,该地区农村居民家庭人均纯收入y =0.5×9+2.3=6.8(千元),所以预计到2020年,该地区农村居民家庭人均纯收入约6.8千元.用线性回归方程估计总体的一般步骤1.作出散点图,判断散点是否在一条直线附近.2.如果散点在一条直线附近,用公式求出a ,b ,并写出线性回归方程(否则求出回归方程是没有意义的).3.根据线性回归方程对总体进行估计.1.一般来说,一个人脚掌越长,他的身高就越高,现对10名成年人的脚掌长x 与身高y 进行测量,得到数据(单位均为cm)如表,作出散点图后,发现散点在一条直线附近,经计算得到一些数据:∑10i =1(x i -x )(y i -y )=577.5,∑10i =1(x i -x )2=82.5;某刑侦人员在某案发现场发现一对裸脚印,量得每个脚印长为26.5 cm ,则估计案发嫌疑人的身高为________cm. 脚长x 20 21 22 23 24 25 26 27 28 29 身高y141146154160169176181188197203185.5 [回归方程的斜率b =∑i =1(x i -x )(y i -y )∑10i =1(x i -x )2=577.582.5=7,x =24.5,y =171.5,截距a =y -b x =0,即回归方程为y =7x ,当x =26.5时,y =185.5.]最小二乘法[探究问题]1.一个好的线性关系与散点图中各点的位置应具有怎样的关系? 提示:整体上最接近.2.设直线方程为y =a +bx ,任意给定一个样本点A (x i ,y i ),用什么样的方法刻画点与直线的距离更方便有效?提示:如图:法一 点到直线的距离公式d =|bx i -y i +a |b 2+1. 法二 [y i -(a +bx i )]2.显然法二比法一更方便计算,所以我们用它表示二者之间的接近程度.3.如果有5个样本点,其坐标分别为(x 1,y 1),(x 2,y 2),(x 3,y 3),(x 4,y 4),(x 5,y 5),怎样刻画这些样本点与直线y =a +bx 的接近程度?提示:[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+[y 3-(a +bx 3)]2+[y 4-(a +bx 4)]2+[y 5-(a +bx 5)]2.4.任给一组数据,我们都可以由最小二乘法得出线性回归方程吗?提示:用最小二乘法求回归直线的前提是先判断所给数据具有线性相关关系,否则求出的线性回归方程是无意义的.5.线性回归方程是否经过一定点? 提示:线性回归方程恒过定点(x ,y ).【例2】 关于人体的脂肪含量(百分比)和年龄关系的研究中,得到如下一组数据: 年龄x 23 27 39 41 45 49 50 53 脂肪y9.517.821.225.927.526.328.229.6(2)用最小二乘法求出年龄关于脂肪的线性回归方程.[思路探究] (1)作出散点图,通过散点图判断它们是否具有相关关系,并作出拟合直线; (2)利用公式求出线性回归方程的系数a ,b 即可.[解] (1)以x 轴表示年龄,y 轴表示脂肪含量(百分比),画出散点图,如下图.进一步观察,发现上图中的点分布在一条直线附近,这说明这一正相关可以用这一直线来逼近,根据图中分析,人体的脂肪含量(百分比)和年龄具有相关关系.(2)设回归直线为y=bx+a,那么结合题中数据,可得x=40.875,y=23.25,∑8 i=1x i y i=8 092.8,∑8i=1x2i=14 195,则b=∑8i=1x i y i-8x y∑8 i=1x2i-8x2,=8 092.8-8×40.875×23.2514 195-8×40.8752≈0.591 2,a=y-b x=23.25-0.591 2×40.875=-0.915 3,所以所求的线性回归方程是y=0.591 2x-0.915 3.1.最小二乘法的适用条件两个变量必须具有线性相关性,若题目没有说明相关性,必须先对两个变量进行相关性检验.2.注意事项(1)利用求回归方程的步骤求线性回归方程的方法实质是一种待定系数法.(2)计算a,b的值时,用列表法理清计算思路,减少计算失误.同时,计算时,尽量使用计算机或科学计算器.2.已知变量x,y有如下对应数据:x 123 4y 134 5(1)作出散点图;(2)用最小二乘法求关于x,y的回归直线方程.[解] (1)散点图如下图所示.(2)x=1+2+3+44=52,y=1+3+4+54=134,∑4i=1x i y i=1+6+12+20=39,∑4i=1x2i=1+4+9+16=30,b=39-4×52×13430-4×⎝⎛⎭⎪⎫522=1310,a=134-1310×52=0,故所求回归直线方程为y=1310x.1.求回归直线的方程时应注意的问题(1)知道x与y呈线性相关关系,无需进行相关性检验,否则应首先进行相关性检验.如果两个变量之间本身不具有相关关系,或者说,它们之间的相关关系不显著,即使求出回归方程也是毫无意义的,而且用其估计和预测的量也是不可信的.(2)用公式计算a^,b^的值时,要先算出b^,然后才能算出a^.2.利用回归方程,我们可以进行估计和预测.若回归方程为y^=b^x+a^,则x=x0处的估计值为y^=b^x0+a^.1.思考辨析(1)回归直线总经过样本中的所有点. ( ) (2)由回归直线求出的值不是一个准确值.( )(3)任何一组数据,都可以由最小二乘法得出线性回归方程.( ) [解析] (1)×,回归直线不一定经过样本中的点,若经过所有点,则两变量为函数关系. (2)√,求出的值是一个估计值.(3)×,只有线性相关的数据才有线性回归方程. [答案] (1)× (2)√ (3)×2.设有一个回归方程为y =-1.5x +2,则变量x 增加一个单位时( ) A .y 平均增加1.5个单位 B .y 平均增加2个单位 C .y 平均减少1.5个单位 D .y 平均减少2个单位C [回归方程斜率为-1.5,所以变量x 增加一个单位,y 平均减少1.5个单位.] 3.某商店统计了最近6个月某商品的进价x 与售价y (单位:元)的对应数据如下:则x =________,y =________,∑6i =1x 2i =________,∑6i =1x i y i =________,回归方程为________.6.5 8 327 396 y =1.14x +0.59 [根据公式代入即可求得,也可以利用计算器求得x =6.5,y =8,∑6i =1x 2i =327,∑6i =1x i y i =396,回归方程为y =1.14 x +0.59.]4.某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:[解] x =6+8+10+124=9,y =2+3+5+64=4,∑4i =1x 2i =62+82+102+122=344,∑4i =1x i y i =6×2+8×3+10×5+12×6=158,b =158-4×9×4344-4×92=1420=0.7, a =y -b x =4-0.7×9=-2.3.则所求的线性回归方程为y =0.7x -2.3.。
§8最小二乘估计整体设计教学分析教科书通过思考交流引入了最小二乘法,进一步提出了线性回归方程,在探索用多种方法确定线性回归直线的过程中,向学生展示创造性思维的过程,帮助学生理解最小二乘法的思想.通过气温与饮料销售量的例子及随后的思考,使同学们了解利用线性回归方程解决实际问题的全过程,体会线性回归方程作出的预测结果的随机性和并且可能犯的错误.进一步,教师可以利用计算机模拟和多媒体技术,直观形象地展示预测结果的随机性和规律性.三维目标经历用不同估算方法描述两个变量线性相关的过程.了解最小二乘法的思想,能根据给出的线性回归方程的系数公式建立线性回归方程.重点难点教学重点:求线性回归方程,以及线性回归分析.教学难点:确定线性回归系数.课时安排1课时教学过程导入新课思路 1.客观事物是相互联系的,过去研究的大多数是因果关系,但实际上更多存在的是一种非因果关系.比如说:某某同学的数学成绩与物理成绩,彼此是互相联系的,但不能认为数学是“因”,物理是“果”,或者反过来说.事实上,数学成绩和物理成绩都是“果”,而真正的“因”是学生的理科学习能力和努力程度.所以说,函数关系存在着一种确定性关系,但还存在着另一种非确定性关系——相关关系.为表示这种相关关系,我们接着学习两个变量的线性相关——回归直线及其方程.思路2.某小卖部为了了解热茶销售量与气温之间的关系,随机统计并制作了某6天卖决这个问题,我们接着学习两个变量的线性相关——回归直线及其方程.推进新课新知探究提出问题1.画散点图的步骤是什么?2.正、负相关的概念是什么?3.什么是线性相关?4.观察下面人体的脂肪含量百分比和年龄的散点图,当人的年龄增加时,体内脂肪含量到底是以什么方式增加的呢?图15.什么叫作回归直线?6.如何求回归直线的方程?什么是最小二乘法?7.利用计算机如何求线性回归方程?活动:学生回顾,再思考或讨论,教师及时提示指导.讨论结果:1.建立相应的平面直角坐标系,将各数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫作散点图.2.如果散点图中的点散布在从左下角到右上角的区域内,称为正相关.如果散点图中的点散布在从左上角到右下角的区域内,称为负相关.3.如果所有的样本点都落在某一直线附近,变量之间就有线性相关的关系.4.大体上来看,随着年龄的增加,人体中脂肪含量的百分比也在增加,呈正相关的趋势,我们可以从散点图上来进一步分析.5.从散点图上可以看出,这些点大致分布在通过散点图中心的一条直线附近.如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.如果能够求出这条回归直线的方程(简称回归方程),那么我们就可以比较清楚地了解年龄与体内脂肪含量的相关性.就像平均数可以作为一个变量的数据的代表一样,这条直线可以作为两个变量具有线性相关关系的代表.6.从散点图上可以发现,人体的脂肪含量百分比和年龄的对应点,大致分布在通过散点图中心的一条直线附近.那么,我们应当如何具体求出这个回归方程呢?有的同学可能会想,我可以采用测量的方法,先画出一条直线,测量出各点与它的距离,然后移动直线,到达一个使距离的和最小的位置,测量出此时直线的斜率和截距,就可得到回归方程了.但是,这样做可靠吗?有的同学可能还会想,在图中选择这样的两点画直线,使得直线两侧的点的个数基本相同.同样地,这样做能保证各点与此直线在整体上是最接近的吗?还有的同学会想,在散点图中多取几组点,确定出几条直线的方程,再分别求出各条直线的斜率、截距的平均数,将这两个平均数当成回归方程的斜率和截距.同学们不妨去实践一下,看看这些方法是不是真的可行?(学生讨论:1.选择能反映直线变化的两个点.2.在图中放上一根细绳,使得上面和下面点的个数相同或基本相同.3.多取几组点对,确定几条直线方程.再分别算出各个直线方程斜率、截距的算术平均值,作为所求直线的斜率、截距.)教师:分别分析各方法的可靠性.如图2、图3、图4:图2 图3图4上面这些方法虽然有一定的道理,但总让人感到可靠性不强.实际上,求回归方程的关键是如何用数学的方法来刻画“从整体上看,各点与此直线的距离最小”.人们经过长期的实践与研究,已经得出了计算回归方程的斜率与截距的一般公式⎩⎨⎧ b =x 1y 1+x 2y 2+…+x n y n -n x y x 21+x 22+…+x 2n -n x 2,a =y -b x .其中,x =x 1+x 2+…+x n n ,y =y 1+y 2+…+y n n . ①这样得到的直线方程y =a +bx 称为线性回归方程,a ,b 是线性回归方程的系数. 推导以上公式的计算比较复杂,这里不作推导.但是,我们可以解释一下得出它的原理. 假设我们已经得到两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),且所求回归方程是y =a +bx ,其中a ,b 是待定参数.当变量x 取x i (i =1,2,…,n )时可以得到y =a +bx i (i =1,2,…,n ),它与实际收集到的y i 之间的偏差是y i -y =y i -(a +bx i )(i =1,2,…,n ).图5这样,用这n 个偏差的和来刻画“各点与此直线的整体偏差”是比较合适的.由于(y i-y )可正可负,为了避免相互抵消,可以考虑用∑i =1n|y i -y |来代替,但由于它含有绝对值,运算不太方便,所以改用Q =(y 1-bx 1-a )2+(y 2-bx 2-a )2+…+(y n -bx n -a )2②来刻画n 个点与回归直线在整体上的偏差.这样,问题就归结为:当a ,b 取什么值时Q 最小,即总体偏差最小.经过数学上求最小值的运算,a ,b 的值由公式①给出.通过求②式的最小值而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫作最小二乘法(method of least square).7.见课本本节信息技术应用中利用计算机求线性回归方程的具体操作步骤.应用示例思路1在上一节练习中,从散点图可以看出,某小卖部6天卖出热茶的杯数(y )与当天气温(x )(2)如果某天的气温是-3 ℃,请预测这天可能会卖出热茶多少杯.解:(1)作出上述数据的散点图,如图6.从散点图中可以看出,表中的两个变量是线性相关的.图6先列表求出x =35,y =115,其他数据如下表:进而,可以求得b =1 910-6×3×31 286-6×353×353≈-1.648, a ≈57.557.于是,线性回归方程为y =57.557-1.648x .(2)由上面的最小二乘法估计得出的线性回归方程知,当某天的气温是-3 ℃时,卖出热茶的杯数估计为57.557-1.648×(-3)=62.501≈63.变式训练系,请说明理由;(2)如果具有线性相关关系,求出线性回归方程.解:(1)在直角坐标系中画出数据的散点图,如图7.图7直观判断散点在一条直线附近,故具有线性相关关系.(2)计算得b≈0.077 4,a=-1.024 1,故所求线性回归方程为y=-1.024 1+0.077 4x.思路2(2)求出回归直线的方程.解:(1)画出的散点图如图8.图8(2)计算得b≈4.75,a≈257.从而得所求回归直线方程是y=257+4.75x.变式训练1.一个车间为了规定工时定额,需要确定加工零件所花费的时间.为此进行了10次试验,请判断y与x是否具有线性相关关系,如果y与x具有线性相关关系,求线性回归方程.解:在直角坐标系中画出数据的散点图,如图9.图9直观判断散点在一条直线附近,故具有线性相关关系.由测得的数据表可知:b≈0.668,a=y-b x≈54.96.因此,所求线性回归方程为y=a+bx=54.96+0.668x.(2)求出回归直线的方程.解:(1)画出的散点图如图10.图10(2)x=110(45+42+46+48+42+35+58+40+39+50)=44.50,y=110(6.53+6.30+9.52+7.50+6.99+5.90+9.49+6.20+6.55+8.72)=7.37.设回归直线方程为y=a+bx,则b=0.175,a=y-b x=-0.418,故所求回归直线的方程为y=-0.418+0.175x.点评:对一组数据进行线性回归分析时,应先画出其散点图,看其是否呈直线形,再依系数a,b的计算公式,算出a,b.由于计算量较大,所以在计算时应借助技术手段,认真细致,谨防计算中产生错误,求线性回归方程的步骤:计算平均数x,y;计算x i与y i的积,求∑x i y i;计算∑x2i;将结果代入公式求b;用a=y-b x求a;写出回归直线方程. 知能训练1.下列两个变量之间的关系哪个不是函数关系( ).A.角度和它的余弦值B.正方形边长和面积C.正n边形的边数和它的内角和D.人的年龄和身高答案:D2.三点(3,10),(7,20),(11,24)的线性回归方程是( ).A.y=5.75-1.75x B.y=1.75+5.75xC.y=1.75-5.75x D.y=5.75+1.75x答案:D3(1)线性回归方程y=a+bx的回归系数a,b;(2)估计使用年限为10年时,维修费用是多少?答案:(1)b=1.23,a=0.08;(2)12.38.4.我们考虑两个表示变量x与y之间的关系的模型,δ为误差项,模型如下:模型1:y=6+4x;模型2:y=6+4x+e.(1)如果x=3,e=1,分别求两个模型中y的值;(2)分别说明以上两个模型是确定性模型还是随机模型.解:(1)模型1:y=6+4x=6+4×3=18;模型2:y=6+4x+e=6+4×3+1=19.(2)模型1中相同的x值一定得到相同的y值,所以是确定性模型;模型2中相同的x 值,因δ的不同,所得y值不一定相同,且δ为误差项是随机的,所以模型2是随机模型.5(2)用最小二乘法估计求线性回归方程;(3)计算此时Q(a,b)和Q(2,0.2)的值,并作比较.图11解:(1)画出的散点图如图11.(2)计算得b≈0.196 2,a≈1.816 6,因此所求线性回归方程为y=1.816 6+0.196 2x.(3)Q(1.816 6,0.196 2)≈5.171,Q(2,0.2)≈7.0,由此可知,求得的a=1.816 6,b =0.916 2是函数Q(a,b)取最小值的a,b值.拓展提升某调查者从调查中获知某公司近年来科研费用支出(X i)与公司所获得利润(Y i)的统计资料如下表:i i解:设线性回归模型直线方程为Y i=β0+β1X i,因为X=∑X in=306=5,Y=∑Y in=1806=30,求解参数β0,β1的估计值为β1=2,β0=20,所以利润(Y i)对科研费用支出(X i)的线性回归模型直线方程为Y i=20+2X i.课堂小结1.求线性回归方程.2.经历用不同估算方法描述两个变量线性相关的过程.知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.作业习题1—8 2,3.设计感想本节课在上节课的基础上,利用实例分析了散点图的分布规律,推导出了线性回归直线的方程的求法,并利用回归直线的方程估计可能的结果,本节课讲得较为详细,实例较多,便于同学们分析比较.思路1和思路2的例题对知识进行了巩固和加强,另外,本节课通过选取一些学生特别关心的身边事例,对学生进行思想情操教育、意志教育和增强学生的自信心,以使其养成良好的学习态度.备课资料相关关系的强与弱我们知道,两个变量x ,y 正(负)相关时,它们就有相同(反)的变化趋势,即当x 由小变大时,相应的y 有由小(大)变大(小)的趋势,因此可以用回归直线来描述这种关系.与此相关的一个问题是:如何描述x 和y 之间的这种线性关系的强弱?例如,物理成绩与数学成绩正相关,但数学成绩能够在多大程度上决定物理成绩?这就是相关强弱的问题,类似的还有吸烟与健康的负相关强度、父母身高与子女身高的正相关强度、农作物的产量与施肥量的正相关强度等.统计中用相关系数r 来衡量两个变量之间线性关系的强弱.若相应于变量x 的取值x i ,变量y 的观测值为y i (1≤i ≤n ),则两个变量的相关系数的计算公式为r =∑i =1n x i -xy i -y ∑i =1n x i -x2∑i =1ny i -y 2. 不相同的相关性可以从散点图上直观地反映出来.图12(1)反映了变量x ,y 之间很强的线性相关关系,而图12(2)中的两个变量的线性相关程度相对较弱.对于相关系数r ,首先值得注意的是它的符号.当r 为正时,表明变量x ,y 正相关;当r 为负时,表明变量x ,y 负相关.反映在散点图上,图12(1)中的变量x ,y 正相关,这时的r 为正;图12(2)中的变量x ,y 负相关,这时的r 为负.另一个值得注意的是r 的大小.统计学认为,对于变量x ,y ,如果r ∈[-1,-0.75],那么负相关很强;如果r ∈[0.75,1],那么正相关很强;如果r ∈(-0.75,-0.30]或r ∈[0.30,0.75),那么相关性一般;如果r ∈[-0.25,0.25],那么相关性较弱.反映在散点图上,图12(1)的r =0.97,这些点有明显的从左下角到右上角沿直线分布趋势,这时用线性回归模型描述两个变量之间的关系效果很好;图12(2)的r =-0.85,这些点也有明显的从左上角到右下角沿直线分布趋势.这时用线性回归模型描述两个变量之间的关系也有好的效果.(1) (2)图12你能试着对自己身边的某个问题,确定两个变量,通过收集数据,计算相关系数,然后分析一下能否用线性回归模型来拟合它们之间的关系吗?(设计者:张云芳)11。
2019-2020年高中数学北师大版必修3第一章《统计》(最小二乘估计第二课时)word教案一、教学目标:经历用不同估算方法描述两个变量线性相关的过程。
知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程。
二、教学重难点:重点:了解最小二乘法的思想并利用此思想借助电子表格求出回归方程。
教学内容的难点:对最小二乘法的数学思想和回归方程的理解教学实施过程中的难点:根据给出的线性回归方程的系数公式建立线性回归方程。
三、教学方法:动手操作,合作交流。
四、教学过程:(一)、利用最小二乘法推导回归系数公式。
回顾上节课:师:我们现在来求距离和。
怎么求?生:利用点到直线的距离公式师生共同:只要求出使距离和最小的、b即可。
但是,我们知道点到直线的距离公式计算复杂。
怎么办呢?以样本数据点A为例,可以看出:按照一对一的关系,直角边AC越小,斜边AB越小,当AC无限小时,AB跟AC可近似看作相等。
求麻烦,不妨求生:它表示自变量x取值一定时,纵坐标的偏差。
假设我们已经得到两个具有线性相关关系的变量的一组数据:……。
当自变量取(=1,2,……,n )时,可以得到(=1,2,……,n ),它与实际收集到的之间的偏差是(=1,2,……,n )这样用n 个偏差的和来刻画“各点与此直线的整体偏差”是比较合适的。
总的偏差为,偏差有正有负,易抵消,所以采用绝对值,由于带绝对值计算不方便所以换成平方,222221122331ˆ()()()()()ni i n n i Q y yy bx a y bx a y bx a y bx a ==-=--+--+--+⋅⋅⋅+--∑现在的问题就归结为:当,b 取什么值时Q 最小。
将上式展开、再合并,就可以得到可以求出Q 取最小值时1122211()()()nnii ii i i nn iii i xx y y xy nx yb xx xnxa y bx====---==--=-∑∑∑∑(其中,)推导过程用到偏差的平方,由于平方又叫二乘方,所以这种使“偏差的和”最小的方法叫“最小二乘法”。
1.8 最小二乘估计
[航向标·学习目标]
1.在探索多种方法确定线性回归直线的过程中,体会最小二乘的思想方法. 2.能根据给出的线性回归方程系数公式建立线性回归方程.
[读教材·自主学习]
1.最小二乘法:如果有n 个点:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用下面的表达式来刻画这些点与直线y =a +bx 的接近程度:
□01[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2.
使得上式达到最小值的直线y =a +bx 就是我们所要求的直线,这种方法称为□02最小二乘法.
2.线性回归方程:如果用x -表示x 1+x 2+…+x n n
,用y -
表示y 1+y 2+…+y n n
,则可以求得b
=
(x 1-x -)(y 1-y -)+(x 2-x -)(y 2-y -)+…+(x n -x -)(y n -y -)
(x 1-x -)2+(x 2-x -)2+…+(x n -x -)
2
=
□
03x 1y 1+x 2y 2+…+x n y n -n x -y
-
x 21+x 22+…+x 2n -n x
-
2
.a =y --b x -
.这样得到的直线方程称为线性回归方程,a ,b 是线
性回归方程的系数.
[看名师·疑难剖析]
1.求线性回归方程的步骤 (1)列表x i ,y i ,x i y i . (2)计算x -,y -,∑i =1
n
x 2
i ,∑i =1
n
x i y i .
(3)代入公式b =
∑i =1
n
x i y i -n x -y
-
∑i =1
n
x 2
i -n x -
2
,a =y --b x -
求出b ,a . (4)写出直线方程:y ^
=bx +a . 2.线性回归方程系数公式的推导过程
首先将[y 1-(a +bx 1)]2
+[y 2-(a +bx 2)]2
+…+[y n -(a +bx n )]2
化成关于未知数a 的一元
二次多项式形式:
na 2+2n (b x --y -)a +[(y 1-bx 1)2+(y 2-bx 2)2+…+(y n -bx n )2]=n [a +(b x --y -
)]2-n (b x --y -
)2+[(y 1-bx 1)2+(y 2-bx 2)2+…+(y n -bx n )2]
因此当a =y --b x -
时,上式取得最小值,将这个关系代入上式,整理成关于未知数b 的一元二次多项式的形式:
[y 1-(a +bx 1)]2
+[y 2-(a +bx 2)]2
+…+[y n -(a +bx n )]2
=[(y 1-y -)-b (x 1-x -)]2+[(y 2-y -)-b (x 2-x -)]2+…+[(y n -y -)-b (x n -x -)]2
=b 2
[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2]-2b [(x 1-x -)(y 1-y -)+(x 2-x -)(y 2-y -)+…+(x n -x -)(y n -y -)]+[(y 1-y -)2+(y 2-y -)2+…+(y n -y -)2
],因此,当b =
(x 1-x -)(y 1-y -)+(x 2-x -)(y 2-y -)+…+(x n -x -)(y n -y -)(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2=
x 1y 1+x 2y 2+…+x n y n -n x -y
-x 21+x 22+…+x 2
n -n x -2=
∑i =1n
x i y i -n x -y
-
∑i =1
n
x 2
i -n x -
2
时点(x 1,y 1)(x 2,y 2)…(x n ,y n )与直线y =a +bx 最接近(注意并不是点到直线距离之和最小).a ,b 的意义是:以a 为基数,x 每增加一个单位,y 相应的平均增加b 个单位.
考点一 线性回归方程的概念
例1 设有一个线性回归方程为y =4-2x ,则变量x 增加2个单位时( ) A .y 平均增加1.5个单位 B .y 平均减少1.5个单位 C .y 平均增加4个单位
D .y 平均减少4个单位
[解析] 该题考查线性回归方程的两个变量之间的线性关系问题.由回归直线方程y =4-2x ,知斜率为-2,所以变量x 每增加1个单位,y 平均减少2个单位,故当变量x 增加2个单位时,y 平均减少4个单位,所以选D.
[答案] D 类题通法
根据线性回归方程可获得对两个变量之间整体关系的了解,对于已知的变量x ,可以相应估计出变量y 的值.
[变式训练1]工人月工资(元)依劳动生产率(千元)变化的线性回归方程为y=50+80x,下列判断正确的是( )
A.劳动生产率为1000元时,工资为130元
B.劳动生产率提高1000元时,工资平均提高80元
C.劳动生产率提高1000元时,工资平均提高130元
D.当月工资为210元时,劳动生产率为2000元
答案 B
解析线性回归方程y=a+bx中b的意义是当x增加一个单位时,y的值平均变化b个单位,这是一个平均变化率.线性回归方程只能用于预测变量的值.
考点二求线性回归方程
例2 每立方米混凝土的水泥用量x(单位:kg)与28天后混凝土的抗压强度y(单位:kg/cm2)之间的关系有如下数据:
[分析] 由题目可获取以下主要信息:
①两变量具有线性相关关系;
②由两变量的对应数据求回归直线方程.
解答本题要先列出相应的表格,有了表格中的那些相关数据,回归方程中的系数就都容易求出了.
[解] 列表如下:。