2017-2018版高中数学第一章统计8最小二乘估计学案北师大版必修3
- 格式:doc
- 大小:158.00 KB
- 文档页数:9
8 最小二乘估计[核心必知]1.回归直线如果两个变量散点图中点的分布从整体上看大致在一条直线附近,那么称这两个变量之间具有线性相关关系,这条直线叫作回归直线.2.最小二乘法求线性回归方程y =bx +a 时,使得样本数据的点到它的距离的平方和最小的方法叫作最小二乘法.其中a ,b 的值由以下公式给出:⎩⎪⎨⎪⎧b =∑ni =1x i y i -n x - y -∑ni =1x 2i -n x 2,a =y --b x -.a ,b 是线性回归方程的系数.[问题思考]1.任给一组数据,我们都可以由最小二乘法得出线性回归方程吗?提示:用最小二乘法求回归直线的方程的前提是先判断所给数据具有线性相关关系(可利用散点图判断).否则求出的线性回归方程是无意义的.2.线性回归方程是否经过一定点? 提示:线性回归方程恒过定点(x -,y -).讲一讲1.下表是某旅游区游客数量与平均气温的对比表:[尝试解答] x -=706=353,y -=2306=1153,x 21+x 22+…+x 26=1+16+100+169+324+676=1 286,x 1y 1+x 2y 2+…+x 6y 6=-20+96+340+13×38+18×50+26×64=3 474.b =x 1y 1+x 2y 2+…+x 6y 6-6x -y -x 21+x 22+…+x 26-6x -2=3 474-6×353×11531 286-6×3532≈1.68,a =y --b x -≈18.73,即所求的线性回归方程为y =1.68x +18.73.求线性回归方程的步骤(1)画出散点图,判断其具有相关关系; (2)计算x -,y -,∑ni =1x 2i =x 21+x 22+…+x 2n , ∑n i =1x i y i =x 1y 1+x 2y 2+…+x n y n .(3)代入公式b =∑ni =1x i y i -n x -y -∑n i =1x 2i -n x -2,a =y --b x -;(4)写出线性回归方程y =bx +a . 练一练1.某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:已知记忆力x 和判断力y 是线性相关的,求线性回归方程. 解:x -=6+8+10+124=9,y -=2+3+5+64=4,a =y --b x -=4-0.7×9=-2.3.则所求的线性回归方程为y =0.7x -2.3.讲一讲2.某种产品的广告费支出x (单位:百万元)与销售额y (单位:百万元)之间有如下对应数据:(1)画出散点图; (2)求线性回归方程;(3)预测当广告费支出为7百万元时的销售额. [尝试解答] (1)(2)从散点图可以发现,y 与x 具有线性相关关系,利用计算器求得: x -=5,y -=50,∑5i =1x 2i =145,∑5i =1x i y i =1 380, 设回归方程为y =bx +a ,则b =∑5i =1x i y i -5x - y -∑5i =1x 2i -5x - 2=1 380-5×5×50145-5×52=6.5, a =y --b x -=50-6.5×5=17.5,故所求线性回归方程为y =6.5x +17.5.(3)当x =7时,y =6.5×7+17.5=63.所以,当广告费支出为7百万元时,销售额约为6 300万元.用线性回归方程估计总体的一般步骤:(1)作出散点图,判断散点是否在一条直线附近;(2)如果散点在一条直线附近,用公式求出a 、b 并写出线性回归方程; (3)根据线性回归方程对总体进行估计. 练一练2.假设关于某设备的使用年限x 和所支出的维修费用y (单位:万元)有如下的统计资料:若由资料知y (1)回归方程y =bx +a 的系数a ,b ;(2)使用年限为10年时,试估计维修费用是多少. 解:(1)列表如下:b =∑5i =1x i y i =-5x - y -∑5i =1x 2i -5 x -2=112.3-5×4×590-5×42=1.23, a =y --b x -=5-1.23×4=0.08.(2)回归方程是y =1.23x +0.08,当x =10时,y =1.23×10+0.08=12.38(万元), 即估计使用10年时维修费用是12.38万元. 【解题高手】【易错题】有人统计了同一个省的6个城市某一年的人均国民生产总值(即人均GDP)和这一年各城市患白血病的儿童数量,如下表:(1)(2)通过计算可得两个变量的线性回归方程为y =23.25x +102.25,假如一个城市的人均GDP 为12万元,那么可以断言,这个城市患白血病的儿童一定超过380人,请问这个断言是否正确?[错解] (1)根据表中数据画散点图,如图所示,从图可以看出,虽然后5个点大致分布在一条直线的附近,但第一个点离这条直线太远,所以这两个变量不具有线性相关关系.(2)将x =12代入y =23.25x +102.25,得y =23.25×12+102.25=381.25>380,所以上述断言是正确的.[错因] 在第(1)问中,是否具有线性相关关系,要看大部分点、主流点是否分布在一条直线附近,个别点是不影响“大局”的,所以可断定这两个变量具有线性相关关系.在第(2)问中,381.25只是一个估计值,由它不能断言这个城市患白血病的儿童一定超过380人.如果这个城市的污染很严重,有可能人数远远超过380,若这个城市的环境保护的很好,则人数就有可能远远低于380.[正解] (1)根据表中数据画散点图,如错解图所示,从图可以看出,在6个点中,虽然第一个点离这条直线较远,但其余5个点大致分布在这条直线的附近,所以这两个变量具有线性相关关系.(2)将x =12代入y =23.25x +102.25,得y =23.25×12+102.25=381.25>380,即便如此,但因381.25只是一个估计值,会受其他情况的影响,所以不能断言这个城市患白血病的儿童一定超过380人.1.已知x 与y 之间的一组数据:则y 与x 的线性回归方程y A .(2,2) B .(1.5,0) C .(1,2) D .(1.5,4) 解析:选D x =1+2+34=1.5,y =1+3+5+74=4.2.工人工资y (元)随劳动生产率x (千元)变化的回归直线方程为y =80x +50,则下列判断正确的是( )A .劳动生产率为1 000元时,工资为130元B .劳动生产率提高1 000元时,工资约提高80元C .劳动生产率提高1 000元时,工资约提高130元D .当月工资210元时,劳动生产率为2 000元解析:选B 回归直线的斜率为80,所以x 每增加1个单位,y 约增加80,即劳动生产率提高1 000元时,工资提高约80元.3.(福建高考改编)已知x 与y 之间的几组数据如下表:据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A .b >b ′,a >a ′ B.b >b ′,a <a ′ C .b <b ′,a >a ′ D.b <b ′,a <a ′解析:选C 由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b =6i =1x i y i -6x -·y -6i =1x 2i -6x -2=58-6×72×13691-6×⎝ ⎛⎭⎪⎫722=57,a =y --b x -=136-57×72=-13,所以b <b ′,a >a ′. 4.某商店统计了最近6个月某商品的进价x 与售价y (单位:元)的对应数据如下:则x -=________,y -=________,=________,=________,回归方程为________.解析:根据公式代入即可求得,也可以利用计算器求得x -=6.5,y -=8,=327,=396,回归方程为y =1.14x +0.59.答案:6.5 8 327 396 y =1.14x +0.595.某单位为了了解用电量y 度与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:℃时,用电量的度数约为________.解析:x =18+13+10-14=10,y =24+34+38+644=40,则a =y -b x =40+2×10=60,则y =-2x +60,则当x =-4时,y =-2×(-4)+60=68.答案:686.下表提供了某厂节能降耗技术改造后,生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据:(1)请画出上表中数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y =bx +a ; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤.(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)解:(1)散点图如图所示.(2)由对照数据,计算得:∑4i =1x 2i =86,x -=3+4+5+64=4.5,y -=2.5+3+4+4.54=3.5. 又已知∑4i =1x i y i =66.5, ∴b =∑4i =1x i y i -4x - y -∑4i =1x 2i -4x -2=66.5-4×4.5×3.586-4×4.52=0.7, a =y --b x -=3.5-0.7×4.5=0.35.∴所求的线性回归方程为y =0.7x +0.35. (3)90-(0.7×100+0.35)=19.65(吨标准煤),故预测生产100吨甲产品的生产能耗比技改前降低约19.65吨标准煤.一、选择题1.设有一个回归方程y =2-1.5x ,当x 增加1个单位时( ) A .y 平均增加1.5个单位 B .y 平均减少1.5个单位 C .y 平均增加2个单位 D .y 平均减少2个单位解析:选B y ′=2-1.5(x +1)=2-1.5x -1.5=y -1.5,即x 增加1个单位,y 平均减少1.5个单位.2.对有线性相关关系的两个变量建立的线性回归方程y =a +bx 中,回归系数b ( ) A .可以小于0 B .只能大于0 C .只能等于0 D .只能小于0 解析:选A ∵b =x 1y 1+x 2y 2+…+x n y n -n x -y-x 21+x 22+…+x 2n -n x-2,∴b 的取值是任意的. 3.由一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )得到线性回归方程y =bx +a ,那么下面说法不.正确的是( ) A .直线y =bx +a 必经过点(x ,y )B .直线y =bx +a 至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点C .直线y =bx +a 的斜率为D .直线y =bx +a 与各点(x 1,y 1),(x 2,y 2),…,(x n ,y n )的接近程度[y i -(bx i +a )]2是该坐标平面上所有直线与这些点的最接近的直线解析:选B 直线y =bx +a 一定过点(x ,y ),但不一定要过样本点.4.(湖南高考)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg解析:选D 当x =170时,y ^=0.85×170-85.71=58.79,体重的估计值为58.79 kg ,故D 不正确.5.(山东高考)某产品的广告费用x 与销售额y 的统计数据如下表:6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元解析:选B 容易计算得x -=3.5,y -=42,故a =y --b x -=42-9.4×3.5=9.1,所以当广告费用为6万元时销售额为9.4×6+9.1=65.5(万元).二、填空题6.(辽宁高考改编)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元).调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y =0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:由回归直线方程的意义知,x 每增加1万元,y 平均增加0.254万元. 答案:0.2547.对一质点的运动过程观测了4次,得到如表所示的数据,则刻画y 与x 的关系的线性回归方程为________.解析:x -=2.5,y -=3.75,∑4i =1x i y i =46,∑4i =1x 2i =30, b =46-4×2.5×3.7530-4×2.52=1.7,a =y --b x -=-0.5, 所以所求的线性回归方程为:y =1.7x -0.5. 答案:y =1.7x -0.58.(广东高考)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.解析:小李这5天的平均投篮命中率为(0.4+0.5+0.6+0.6+0.4)÷5=0.5. 又x -=3,y -=0.5, 由表中数据,得b =0.01,a =y --b x -=0.47,故回归直线方程为y =0.01x +0.47. 令x =6,则有y =0.01×6+0.47=0.53.答案:0.5 0.53 三、解答题9.在7块并排、形状大小相同的试验田上进行施化肥量对水稻产量(单位:千克)影响的试验,得到如下一组数据:(1)作出这些数据的散点图;(2)由(1)分析两变量关系得出什么结论? (3)求出回归直线方程. 解:(1)如图所示.(2)由(1)可看出,各点散布在从左下角到右上角的区域内,为正相关,也可以说在适量限制范围内水稻产量随施肥量的增大而增大,但不是直线递增.(3)用科学计算器可求得x -=30,y -=399.3,∑7i =1x 2i =7 000,∑7i =1x i y i =87 175.于是b =∑7i =1x i y i -7x - y -∑7i =1x 2i -7x -2=87 175-7×30×399.37 000-7×302≈4.75.a =y --b x -=399.3-4.75×30≈257.因此所求回归直线方程为y =4.75x +257. 10.(福建高考改编)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y =bx +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解:(1)由于x =16(x 1+x 2+x 3+x 4+x 5+x 6)=8.5,- 11 - y =16(y 1+y 2+y 3+y 4+y 5+y 6)=80.所以a =y -b x =80+(-20)×8.5=250,从而回归直线方程为y =-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000=-20(x -334)2+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.。
2018版高中数学第一章统计1.8 最小二乘估计学案北师大版必修3 编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2018版高中数学第一章统计1.8 最小二乘估计学案北师大版必修3)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2018版高中数学第一章统计1.8 最小二乘估计学案北师大版必修3的全部内容。
1.8 最小二乘估计1.了解最小二乘法的思想及意义.(重点)2.会求线性回归方程并进行简单应用.(难点)[基础·初探]教材整理最小二乘法及线性回归方程阅读教材P54~P59“信息技术应用”以上部分,完成下列问题.1.最小二乘法利用最小二乘法估计时,要先做出数据的散点图.如果散点图呈现一定的规律性,我们再根据这个规律进行拟合.如果散点图呈现出线性关系,我们可以用最小二乘法估计出线性回归方程;如果散点图呈现出其他的曲线关系,我们就要利用其他的工具进行拟合.2.线性回归方程用错误!表示错误!,用错误!表示错误!,由最小二乘法可以求得b=错误!=错误!,a=y-b错误!.这样得到的直线方程y=a+bx称为线性回归方程,a、b是线性回归方程的系数.判断(正确的打“√”,错误的打“×”)(1)回归直线总经过样本中的所有点.()(2)由回归直线求出的值不是一个准确值.( )(3)任何一组数据,都可以由最小二乘法得出线性回归方程.()【解析】(1)×,回归直线不一定经过样本中的点,若经过所有点,则两变量为函数关系.(2)√,求出的值是一个估计值.(3)×,只有线性相关的数据才有线性回归方程.【答案】(1)×(2)√(3)×[小组合作型]线性回归方程的应用某地区2007千元)的数据如下表:年份2007200820092010201120122013年份代号t1234567人均纯收入y 2.93。
§1.8最小二乘法一、教学目标:经历用不同估算方法描述两个变量线性相关的过程。
知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程。
二、教学重难点:重点:了解最小二乘法的思想并利用此思想借助电子表格求出回归方程。
教学内容的难点:对最小二乘法的数学思想和回归方程的理解教学实施过程中的难点:根据给出的线性回归方程的系数公式建立线性回归方程。
三、教学方法:动手操作,合作交流。
四、教学过程:(一)、利用最小二乘法推导回归系数公式。
回顾上节课:师:我们现在来求距离和。
怎么求?生:利用点到直线的距离公式师生共同:只要求出使距离和最小的、b即可。
但是,我们知道点到直线的距离公式计算复杂。
怎么办呢?以样本数据点A为例,可以看出:在△ABC中,(教师动画演示)按照一对一的关系,直角边AC越小,斜边AB越小,当AC无限小时,AB跟AC可近似看作相等。
求麻烦,不妨求生:师:它表示自变量x取值一定时,纵坐标的偏差。
假设我们已经得到两个具有线性相关关系的变量的一组数据:……。
当自变量取(=1,2,……,n)时,可以得到(=1,2,……,n),它与实际收集到的之间的偏差是(=1,2,……,n)这样用n个偏差的和来刻画“各点与此直线的整体偏差”是比较合适的。
总的偏差为,偏差有正有负,易抵消,所以采用绝对值,由于带绝对值计算不方便所以换成平方,现在的问题就归结为:当,b取什么值时Q最小。
将上式展开、再合并,就可以得到可以求出Q取最小值时(其中,)推导过程用到偏差的平方,由于平方又叫二乘方,所以这种使“偏差的和”最小的方法叫“最小二乘法”。
设计意图:培养学生的动手操作能力,最小二乘法的思想是本节课的教学难点,先让学生动手操作画回归直线,教师动画演示,进一步演绎推理来分解难点、突破难点(二)、直线回归方程的应用(1)描述两变量之间的依存关系;利用直线回归方程即可定量描述两个变量间依存的数量关系(2)利用回归方程进行预测;把预报因子(即自变量x)代入回归方程对预报量(即因变量Y)进行估计,即可得到个体Y值的容许区间。
§8 最小二乘估计整体设计教学分析教材通过思考交流引入了最小二乘法,进一步提出了线性回归方程.教科书在探索用多种方法确定线性回归直线的过程中,向学生展示创造性思维的过程,帮助学生理解最小二乘法的思想.通过气温与饮料销售量的例子及随后的思考,使同学们了解利用线性回归方程解决实际问题的全过程,体会线性回归方程作出的预测结果的随机性,并且可能犯的错误.进一步,教师可以利用计算机模拟和多媒体技术,直观形象地展示预测结果的随机性和规律性.三维目标经历用不同估算方法描述两个变量线性相关的过程.了解最小二乘法的思想,能根据给出的线性回归方程的系数公式建立线性回归方程.重点难点教学重点:求线性回归方程,以及线性回归分析.教学难点:确定线性回归系数.课时安排1课时教学过程导入新课思路 1.客观事物是相互联系的,过去研究的大多数是因果关系,但实际上更多存在的是一种非因果关系.比如说:某某同学的数学成绩与物理成绩,彼此是互相联系的,但不能认为数学是“因”,物理是“果”,或者反过来说.事实上,数学和物理成绩都是“果”,而真正的“因”是学生的理科学习能力和努力程度.所以说,函数关系存在着一种确定性关系,但还存在着另一种非确定性关系——相关关系.为表示这种相关关系,我们接着学习两个变量的线性相关——回归直线及其方程.思路2.某小卖部为了了解热茶销售量与气温之间的关系,随机统计并制作了某6天卖出热茶的杯数与当天气温的对照表:如果某天的气温是-5 ℃,你能根据这些数据预测这天小卖部卖出热茶的杯数吗?为解决这个问题,我们接着学习两个变量的线性相关——回归直线及其方程.推进新课新知探究提出问题(1)画散点图的步骤是什么?(2)正、负相关的概念?(3)什么是线性相关?(4)观察下面人体的脂肪百分比和年龄的散点图,当人的年龄增加时,体内脂肪含量到底是以什么方式增加的呢?图1(5)什么叫作回归直线?(6)如何求回归直线的方程?什么是最小二乘法?(7)利用计算机如何求线性回归方程?活动:学生回顾,再思考或讨论,教师及时提示指导.讨论结果:(1)建立相应的平面直角坐标系,将各数据在平面直角坐标中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫作散点图.(2)如果散点图中的点散布在从左下角到右上角的区域内,称为正相关.如果散点图中的点散布在从左上角到右下角的区域内,称为负相关.(3)如果所有的样本点都落在某一直线附近,变量之间就有线性相关的关系.(4)大体上来看,随着年龄的增加,人体中脂肪的百分比也在增加,呈正相关的趋势,我们可以从散点图上来进一步分析.(5)从散点图上可以看出,这些点大致分布在通过散点图中心的一条直线附近.如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.如果能够求出这条回归直线的方程(简称回归方程),那么我们就可以比较清楚地了解年龄与体内脂肪含量的相关性.就像平均数可以作为一个变量的数据的代表一样,这条直线可以作为两个变量具有线性相关关系的代表.(6)从散点图上可以发现,人体的脂肪百分比和年龄的散点图,大致分布在通过散点图中心的一条直线.那么,我们应当如何具体求出这个回归方程呢?有的同学可能会想,我可以采用测量的方法,先画出一条直线,测量出各点与它的距离,然后移动直线,到达一个使距离的和最小的位置,测量出此时的斜率和截距,就可得到回归方程了.但是,这样做可靠吗?有的同学可能还会想,在图中选择这样的两点画直线,使得直线两侧的点的个数基本相同.同样地,这样做能保证各点与此直线在整体上是最接近的吗?还有的同学会想,在散点图中多取几组点,确定出几条直线的方程,再分别求出各条直线的斜率、截距的平均数,将这两个平均数当成回归方程的斜率和截距.同学们不妨去实践一下,看看这些方法是不是真的可行?(学生讨论:1.选择能反映直线变化的两个点.2.在图中放上一根细绳,使得上面和下面点的个数相同或基本相同.3.多取几组点对,确定几条直线方程.再分别算出各个直线方程斜率、截距的算术平均值,作为所求直线的斜率、截距.)教师:分别分析各方法的可靠性.如图2、3、4:图2图3图4上面这些方法虽然有一定的道理,但总让人感到可靠性不强. 实际上,求回归方程的关键是如何用数学的方法来刻画“从整体上看,各点与此直线的距离最小”.人们经过长期的实践与研究,已经得出了计算回归方程的斜率与截距的一般公式⎪⎪⎩⎪⎪⎨⎧+++=+++=-=-++-++=.,,.,21212222212211n y y y y n x x x x x b y a x n x x x y x n y x y x y x b n n n n n 其中①这样得到的直线方程y=a+bx 称为线性回归方程,a,b 是线性回归方程的系数.推导以上公式的计算比较复杂,这里不作推导.但是,我们可以解释一下得出它的原理.假设我们已经得到两个具有线性相关关系的变量的一组数据 (x 1,y 1),(x 2,y 2),…,(x n ,y n ),且所求回归方程是y=a+bx,其中a 、b 是待定参数.当变量x 取x i (i=1,2,…,n)时可以得到y=a+bx i (i=1,2,…,n),它与实际收集到的y i 之间的偏差是y i -y=y i -(a+bx i )(i=1,2,…,n).图5这样,用这n 个偏差的和来刻画“各点与此直线的整体偏差”是比较合适的.由于(y i -y )可正可负,为了避免相互抵消,可以考虑用∑=-ni i y y 1||来代替,但由于它含有绝对值,运算不太方便,所以改用Q=(y 1-bx 1-a)2+(y 2-bx 2-a)2+…+(y n -bx n -a)2②来刻画n 个点与回归直线在整体上的偏差.这样,问题就归结为:当a,b 取什么值时Q 最小,即总体偏差最小.经过数学上求最小值的运算,a,b 的值由公式①给出.通过求②式的最小值而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫作最小二乘法(method of least square ).(7)见课本本节信息技术应用中利用计算机求线性回归方程的具体操作步骤. 应用示例思路1例1 在上一节练习中,从散点图可以看出,某小卖部6天卖出热茶的杯数(y)与当天气温(x)之间是线性相关的.数据如下表:(1)试用最小二乘法求出线性回归方程.(2)如果某天的气温是-3 ℃,请预测这天可能会卖出热茶多少杯. 解:(1)从散点图中可以看出,表中的两个变量是线性相关的.图6先列表求出115,35==y x ,其他数据如下表.进而,可以求得b=335335612863361910⨯⨯-⨯⨯-≈-1.648, a≈57.557.于是,线性回归方程为y=57.557-1.648x.(2)由上面的最小二乘估计得出的线性回归方程知,当某天的气温是-3 ℃时,卖出热茶的杯数估计为57.557-1.648×(-3)=62.501≈63. 变式训练下表为某地近几年机动车辆数与交通事故数的统计资料.(1)请判断机动车辆数与交通事故数之间是否有线性相关关系,如果不具有线性相关关系,请说明理由;(2)如果具有线性相关关系,求出线性回归方程. 解:(1)在直角坐标系中画出数据的散点图,如图7.图7直观判断散点在一条直线附近,故具有线性相关关系. (2)计算得b≈0.077 4,a=-1.024 1,所以,所求线性回归方程为y=-1.024 1+0.077 4x.思路2例1 给出施化肥量对水稻产量影响的试验数据:(1)画出上表的散点图;(2)求出回归直线的方程.解:(1)散点图如图8.图8(2)计算得b≈4.75,a≈257.从而得回归直线方程是y=257+4.75x.变式训练1.一个车间为了规定工时定额,需要确定加工零件所花费的时间.为此进行了10次试验,测得数据如下:请判断y与x是否具有线性相关关系,如果y与x具有线性相关关系,求线性回归方程.解:在直角坐标系中画出数据的散点图,如图9.图9直观判断散点在一条直线附近,故具有线性相关关系.由测得的数据表可知:b≈0.668,a=y-b x≈54.96.因此,所求线性回归方程为y=bx+a=54.96+0.668x.2.已知10只狗的血球体积及红血球数的测量值如下:(1)画出上表的散点图; (2)求出回归直线的方程. 解:(1)散点图如图10.图10(2)101=x (45+42+46+48+42+35+58+40+39+50)=44.50, 101=y (6.53+6.30+9.52+7.50+6.99+5.90+9.49+6.20+6.55+8.72)=7.37.设回归直线方程为y=a+bx,则b=0.175,a=x b y -=-0.418, 所以所求回归直线的方程为y=-0.418+0.175x.点评:对一组数据进行线性回归分析时,应先画出其散点图,看其是否呈直线形,再依系数a,b 的计算公式,算出a,b.由于计算量较大,所以在计算时应借助技术手段,认真细致,谨防计算中产生错误,求线性回归方程的步骤:计算平均数y x ,;计算x i 与y i 的积,求∑x i y i ;计算∑x i 2;将结果代入公式求b ;用a=x b y -求a ;写出回归直线方程. 知能训练1.下列两个变量之间的关系哪个不是函数关系( )A.角度和它的余弦值B.正方形边长和面积C.正n边形的边数和它的内角和D.人的年龄和身高 答案:D2.三点(3,10),(7,20),(11,24)的线性回归方程是( )A.y=5.75-1.75xB.y=1.75+5.75xC.y=1.75-5.75xD.y=5.75+1.75x答案:D3.已知关于某设备的使用年限x与所支出的维修费用y(万元),有如下统计资料:设y对x呈线性相关关系.试求:(1)线性回归方程y=bx+a的回归系数a,b;(2)估计使用年限为10年时,维修费用是多少?答案:(1)b=1.23,a=0.08;(2)12.38.4.我们考虑两个表示变量x与y之间的关系的模型,δ为误差项,模型如下:模型1:y=6+4x;模型2:y=6+4x+e.(1)如果x=3,e=1,分别求两个模型中y的值;(2)分别说明以上两个模型是确定性模型还是随机模型.解:(1)模型1:y=6+4x=6+4×3=18;模型2:y=6+4x+e=6+4×3+1=19.(2)模型1中相同的x值一定得到相同的y值,所以是确定性模型;模型2中相同的x值,因δ的不同,所得y值不一定相同,且δ为误差项是随机的,所以模型2是随机性模型.5.以下是收集到的新房屋销售价格y与房屋大小x的数据:(1)画出数据的散点图;(2)用最小二乘法估计求线性回归方程;(3)计算此时Q(a,b)和Q(2,0.2)的值,并作比较.解:(1)散点图如图11.图11(2)计算得b≈0.196 2,a≈1.816 6,所以,线性回归方程为y=1.816 6+0.196 2x.(3)Q(1.816 6,0.196 2)≈5.171,Q(2,0.2)≈7.0,由此可知,求得的a=1.816 6,b=0.916 2是函数Q(a,b)取最小值的a,b 值. 拓展提升某调查者从调查中获知某公司近年来科研费用支出(X i )与公司所获得利润(Y i )的统计资料如下表:科研费用支出(X i )与利润(Y i )统计表 单位:万元要求估计利润(Y i )对科研费用支出(X i )的线性回归模型. 解:设线性回归模型直线方程为Y i =β0+β1X i ,因为6180,5630=====∑∑n Y Y n X X i i=30,求解参数β0、β1的估计值:β1=2,β0=20.所以利润(Y i )对科研费用支出(X i )的线性回归模型直线方程为Y i=20+2X i.课堂小结1.求线性回归方程.2.经历用不同估算方法描述两个变量线性相关的过程.知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.作业习题1—8 2、3.设计感想本节课在上节课的基础上,利用实例分析了散点图的分布规律,推导出了线性回归直线的方程的求法,并利用回归直线的方程估计可能的结果,本节课讲得较为详细,实例较多,便于同学们分析比较.思路1和思路2的例题对知识进行了巩固和加强,另外,本节课通过选取一些学生特别关心的身边事例,对学生进行思想情操教育、意志教育和增强学生的自信心,养成良好的学习态度,树立时间观,培养勤奋、刻苦的精神.。
1.8最小二乘估计本节教材分析一、三维目标1、知识与技能(1) 掌握最小二乘法的思想;(2) 能根据给出的线性回归方程系数公式建立线性回归方程.2、过程与方法本节的学习,应该让学生通过实际问题去理解回归分析的必要性,明确回归分析的基本思想,从散点图中点的分布上我们发现直接求回归直线方程存在明显的不足,从中引导学生去发现解决问题的新思路—进行回归分析,进而介绍残差分析的方法和利用R的平方来表示解释变量对于预报变量变化的贡献率,从中选择较为合理的回归方程,最后是建立回归模型基本步骤.3、情感态度与价值观通过本节课的学习,首先让显示了解回归分析的必要性和回归分析的基本思想,明确回归分析的基本方法和基本步骤,培养我们利用整体的观点和互相联系的观点,来分析问题,进一步加强数学的应用意识,培养学生学好数学、用好数学的信心.加强与现实生活的联系,以科学的态度评价两个变量的相关系.教学中适当地增加学生合作与交流的机会,多从实际生活中找出例子,使学生在学习的同时.体会与他人合作的重要性,理解处理问题的方法与结论的联系,形成实事求是的严谨的治学态度和锲而不舍的求学精神.培养学生运用所学知识,解决实际问题的能力.二、教学重点:最小二乘法的思想及线性回归方程系数公式的应用三、教学难点:线性回归方程系数公式的应用四、教学建议最小二乘法的思想在理论上和实际应用中都是非常重要的.本节一开始从上一节课讨论的问题切入,提出用什么样的线性关系刻画会得到更好的问题,引发学生进行思考.教学时,学生可能会想到用点到直线的距离来进行刻画,教师可进行引导,这样做从想法上是非常直观与直接的,但是最主要的问题是处理上远远没有用最小二乘法的思想来得简单.进而,教科书介绍了最小二乘法估计的思想.教学时,教师要讲清楚最小二乘法所考察的距离与点到直线的距离的区别,以免产生误解与错误.新课导入设计导入一某小卖部为了了解热茶销售量与气温之间的关系,随机统计并制作了某6天卖出热茶的如果某天的气温是-5 ℃,你能根据这些数据预测这天小卖部卖出热茶的杯数吗?为解决这个问题我们接着学习两个变量的线性相关——回归直线及其方程.导入二我们知道函数能很好的表示两个变量之间的关系,那么两个线性相关的变量之间的关系,我们可不可以用函数来刻画呢?教学过程一、问题情境1.情境:客观事物是相互联系的过去研究的大多数是因果关系,但实际上更多存在的是一种非因果关系比如说:某某同学的数学成绩与物理成绩,彼此是互相联系的,但不能认为数学是“因”,物理是“果”,或者反过来说事实上数学和物理成绩都是“果”,而真正的“因”是学生的理科学习能力和努力程度所以说,函数关系存在着一种确定性关系但还存在着另一种非确定性关系——相关关系 2.问题:某小卖部为了了解热茶销售量与气温之间的关系,随机统计并制作了某6天卖出热茶的气温/0C26 18 13 10 4 1- 杯数2024 34 38 50 64如果某天的气温是5-C ,你能根据这些数据预测这天小卖部卖出热茶的杯数吗?二、学生活动为了了解热茶销量与气温的大致关系,我们以横坐标x 表示气温,纵坐标y 表示热茶销量,建立直角坐标系,将表中数据构成的6个数对所表示的点在坐标系内标出,得到下图,今后我们称这样的图为散点图(scatterplot).从右图可以看出.这些点散布在一条直线的附近,故可用一个线性函数近似地表示热茶销量与气温之间的关系.选择怎样的直线近似地表示热茶销量与气温之间的关系? 我们有多种思考方案:(1)选择能反映直线变化的两个点,例如取(4,50),(18,24)这两点的直线; (2)取一条直线,使得位于该直线一侧和另一侧的点的个数基本相同; (3)多取几组点,确定几条直线方程,再分别算出各条直线斜率、截距的平均值,作为所求直线的斜率、截距; 怎样的直线最好呢? 三、建构数学 1.最小二乘法:用方程为ˆybx a =+的直线拟合散点图中的点,应使得该直线与散点图中的点最接近。
2017-2018学年高中数学第一章统计课时作业8 最小二乘估计北师大版必修3编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2017-2018学年高中数学第一章统计课时作业8 最小二乘估计北师大版必修3)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2017-2018学年高中数学第一章统计课时作业8最小二乘估计北师大版必修3的全部内容。
课时作业8 最小二乘估计|基础巩固|(25分钟,60分)一、选择题(每小题5分,共25分)1.由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)得到线性回归方程y=bx+a,那么下面说法不正确的是( )A.直线y=bx+a必经过点(错误!,错误!)B.直线y=bx+a至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点C.直线y=bx+a的斜率为错误!D.直线y=bx+a与各点(x1,y1),(x2,y2),…,(xn,y n)的接近程度错误!yi-(bxi+a)]2是该坐标平面上所有直线与这些点的最接近的直线解析:直线y=bx+a一定过点(错误!,错误!),但不一定要过样本点.答案:B2.下列有关回归方程错误!=错误!x+错误!的叙述正确的是( )①反映\o(y,\s\up6(^))与x之间的函数关系②反映y与x之间的函数关系③表示错误!与x之间的不确定关系④表示最接近y与z之间真实关系的一条直线A.①② B.②③C.③④D.①④解析:错误!=错误!x+错误!表示错误!与x之间的函数关系,而不是y与x之间的函数关系.但它所反映的关系最接近y与x之间的真实关系.答案:D3.已知变量x,y之间具有线性相关关系,其散点图如图所示,则其回归方程可能为( )A.错误!=1。
最小二乘估计全析提示经历了用不同估算方法描述两个变量线性相关的过程,我们探索最科学的描述方法,有一个非常直观的想法,即一个好的线性关系要保证这条直线与所有点都近.最小二乘法就是基于这种想法.假设一条直线的方程为y=ax+b,任意给定一个样本点(xi,yi),我们用[yi-(a+bxi)]2来刻画这个样本点与这条直线之间的“距离”,用它来表示二者之间的接近程度(如图1-9-1).图1-9-1如果有3个样本点,其坐标分别为(x1,y1),(x2,y2),(x3,y3),我们用最小二乘法推导3个点的线性回归方程.设有3个点(x1,y1),(x2,y2),(x3,y3),则由最小二乘法可知直线y=a+bx与这3个点的接近程度由下面表达式刻画:[y1-(a+bx1)]2+[y2-(a+bx2)]2+[y3-(a+bx3)]2.这个表达式可以整理成关于a的一元二次函数f(a),如下所示:f(a)=3a2-2a[(y1-bx1)+(y2-bx2)+(y3-bx3)]+(y1-bx1)2+(y2-bx2)2+(y3-bx3)2.=3[a2-2a(y-b x)]+(y1-bx1)2+(y2-bx2)2+(y3-bx3)2.利用配方法即得f(a)=3[a-(y-b x)]2+(y1-bx1)2+(y2-bx2)2+(y3-bx3)2-3(y-b x)2.从而当a=y-b x时,使得函数f(a)达到最小值.将a代入第一个表达式,整理成关于b的一元二次函数g(b),如下所示:g(b)=[(x1-x)2+(x2-x)2+(x3-x)2]b2-2b[(y1-y)(x1-x)+(y2-y)(x2-x)+(y3-y)(x3-x)]+[(y1-y)2+(y2-y)2+(y3-y)2].同样使用配方法可以得到,当b=.)()()())(())(())((232221332211xxxxxxxxyyxxyyxxyy-+-+---+--+--科学合理的方案,是研究问题的基础,好的标准是直线与所有点都近.全析提示f(a)是以a为自变量的函数,函数方法在解决最近问题中是重要的典型方法.=223222133221133xx x x y x y x y x y x -++-++时,使得函数g (b )达到最小值.从而可以得到3个点(x1,y1),(x2,y2),(x3,y3)的线性回归方程y=y -22322213322113)3(xx x x xy x y x y x y x -++-+++x xx x x y x y x y x y x 223222133221133-++-++.同学们可以类似地讨论5个样本点、10个样本点、100个样本点的情况.如果有n 个点(x1,y1),(x2,y2),…,(xn ,yn ),可以用下面的表达式来刻画这些点与直线y=a+bx 的接近程度: [y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn -(a+bxn )]2. 使得上式达到最小值的直线y=a+bx 就是我们所要求的直线,这种方法称为最小二乘法.如果用x 表示n x x x n +++ 21,用y 表示n y y y n+++ 21,则可以求得b=222212211)()()())(())(())((x x x x x x y y x x y y x x y y x x n n n -++-+---++--+--=.2222212221xn x x x y x n y x y x y x nn n -+++-+++ ①a=y -b x .(这两个公式的推导过程不在这里讨论,有兴趣的同学可以利用配方法试着进行推导)这样得到的直线方程称为线性回归方程,a 、b 是线性回归方程的系数.其中,b 是回归方程的斜率,a 是截距.推导公式①的计算比较复杂,这里不作推导.但是,我们可以解释一下得出它的原理.假设我们已经得到两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn ,yn ),且所求回归方程是y=bx+a ,其中a 、b 是待定参数.当变量x 取xi (i=1,2,…,n )时,可以得到i y ˆ=bxi+a (i=1,2,…,n ),它与实际收集到的yi 之间的偏差是 yi -i y ˆ=yi -(bxi+a )(i=1,2,…,n ).(如图1-9-2所示)全析提示与3个点类似不难理解有n 个点时,线性回归直线的求法.对于所得线性回归直线方程重在理解和应用,推导过程可以不作要求.要点提炼结合图形正确理解获得回归方程的原理.这里(x2,y2)表示第2个点的坐标,y2是(x2,y2)点的纵坐标,a 、b 是方程中待定系数,2ˆy 对应x2的直线上点的纵坐标.图1-9-2这样,用这n 个偏差的和来刻画“各点与此直线的整体偏差”是比较合适的.由于(yi -y ˆ)可正可负,为了避免相互抵消,可以考虑用|ˆ|1i i ni y y -∑=来代替,但由于它含有绝对值,运算不太方便,所以改用Q=(y1-bx1-a )2+(y2-bx2-a )2+…+(yn -bxn -a )2. ② 来刻画n 个点与回归直线在整体上的偏差. 这样,问题就归结为:当a 、b 取什么值时Q 最小,即总体偏差最小,经过数学上求最小值的运算,a 、b 的值就是前面讲的公式. 通过求Q 的最小值,而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫做最小二乘法. 根据二乘法和公式①,利用计算器或计算机,可以方便地求出回归方程. 以Excel 软件为例,用散点图来建立表示人体的脂肪含量与年龄的相关关系的线性回归方程,具体步骤如下: 1.在Excel 中选定表示人体的脂肪含量与年龄的相关关系的散点图,在菜单中选定“图表”中的“添加趋势线”选项,弹出“添加趋势线”对话框. 2.单击“类型”标签,选定“趋势预测/回归分析类型”中的“线性”选项,单击“确定”按钮,得到回归直线. 3.双击回归直线,弹出“趋势线格式”对话框.单击“选项”标签,选定“显示公式”,最后单击“确定”按钮,得到回归直线的回归方程y=0.577x -0.448.图1-9-3 用科学计算器求这个回归方程的过程如下: 全析提示通过求Q 的最小值求出的直线方程,是使数据点到它距离平方和最小的方程,是最理想的直线方程. 全析提示利用计算机可以非常方便地作散点图、趋势线、回归直线,并能求出直线的回归方程.全析提示同学们可以根据我们给出的方法加以练习,掌握求回归直线方程的方法.全析提示我们掌握了回归直线的求法对人类有非常重大的意义.全析提示根据线性回归直线,可以对某MODE 3 1 (进入回归计算模式)SHIFT SHIFT SHIFT CLR 1 1 2 = = = (清除统计存储器)23394550545760, , , , , , ,, , , , , , ,9.521.2 27.528.230.230.8 35.2DTDT DT DT DTDT DTDT DT DT DT DT DT DT27 4149 5356 586117.8 25.926.329.633.534.6S-VAR S-VAR (计算参数)a (计算参数)b -0.4480.577所以回归方程为y=0.577x -0.448.正像本节开头所说的,我们从人体脂肪含量与年龄这两个变量的一组随机样本数据中,找到了它们之间关系的一个规律,这个规律是由回归直线来反映的.利用回归直线,我们可以进行预测.如果我们知道了某个人的年龄,就可以利用回归方程来预测他的体内脂肪含量的百分比.例如,某人37岁,我们预测他的体内脂肪含量在20.87%(0.576×37-0.446=20.87%)附近的可能性比较大.不过,我们不能说他的体内脂肪含量一定是20.87%.事实上,这个20.87%是对年龄为37岁的人群中的大部分人的体内脂肪含量所作出的估计.从上面可看出,回归直线在现实生活中有着广泛地应用.问题1:在上一节练习中,从散点图可以看出,某小卖部6天卖出热茶的杯数(y )与当天气温(x )之间是线性相关的.数据如下表: (1)试用最小二乘法求出线性回归方程;(2)如果某天的气温是-3℃,请预测这天可能会卖出热茶多少杯. 解:(1)从散点图1-9-4中可以看出,上表中的两个变量是线性相关的.图1-9-4先列表求出x =335,y =3115,其他数据如下表:些事情进行预测.要点提炼求线性回归方程的步骤: (1)作出散点图; (2)列表求出x ,y ,ii ni i ni y x x 121,==∑∑;(3)利用公式b=2211xn x yx n y x i ni i i ni -∑-∑==,a=y -b x ;(4)写出线性回归方程.全析提示 观察散点图,这些点大都集中在一条直线周围,说明它们具有线性关系,可以求线性回归方程.b=.648.133533561286311533561910-≈⨯⨯-⨯⨯-a ≈57.557. 于是,线性回归方程为y=57.557-1.648x. (2)由上面的最小二乘法估计得出的线性回归方程知,当某天的气温是 -3℃时,卖出热茶的杯数估计为57.557-1.648×(-3)=62.501≈63. 根据§8北京市某中学学生女生关于一拃长之间的数据,作出散点图,身高与右手一拃长成线性关系,利用计算机Excel 软件可以求出它们的线性回归方程. ∴所求线性回归方程为y=0.1526x -6.4106. 图1-9-5 根据§8北京市某中学学生男生一拃长与身高关系作出散点图,男生身高与右手一拃长成线性关系,利用计算机Excel 软件可以求出线性回归方程. 所求线性回归方程为y=0.0068x+20.098.全析提示 首先注意散点的分布,看是否具有线性关系,然后才能用求回归方程的方法求回归直线.全析提示给我们一组数据,如果我们认为它有线性关系,总可以求出它的线性回归方程,这样处理是否总是合理的呢?要点提炼问题出在:根据数据作散点图1-9-6从两个图看出女生右手一拃长受身高影响大,男生右手一拃长受身高影响小.问题2:下面是两个变量的一组数据.请用最小二乘法求出这两个变量之间的线性回归方程.解:根据上表的数据,可以计算出x =4.5,y =25.5,其他数据如下表.b=.95.45.482045.255.481296=⨯⨯-⨯⨯-a=-15.于是,线性回归方程为y=-15+9x.在上题中,从表中提供的数据很容易看出y=x2,而我们用最小二乘法进行估计时得出的是线性方程.这样的估计已经失去了意义,你觉得问题出在哪儿?应当怎样去避免?图1-9-7总之,根据一组数据先作散点图,然后看它们是否有线性关系,再求出线性回归直线方程,最后利用回归方程解决实际问题,这是最小二乘法的一般应用.图,应先看是否符合线性关系,否则容易出错.最小二乘法求线性回归方程有着广泛的应用,请同学们联系实际,熟练掌握.。
§8 最小二乘估计知识点 最小二乘法及回归直线方程[填一填]1.最小二乘法设x 、y 的一组观察值为(x i ,y i ),i =1,2,…,n ,且回归直线方程为y ^=a +bx ,当x 取值x i (i =1,2,…,n )时,y ^的观察值为y i ,差y i -y ^i (i =1,2,…,n )刻画了实际观察值y i 与回归直线上相应点纵坐标之间的偏离程度,通常是用离差的平方和,即Q =∑i =1n(y i -a -bx i )2作为总离差,并使之达到最小.这样,回归直线就是所有直线中Q 取最小值的那一条,由于平方又叫二乘方,所以这种使“离差平方和为最小”的方法,叫作最小二乘法.2.回归直线方程的系数计算公式[答一答]利用最小二乘法的思想求得线性回归方程的步骤是什么? 提示:第一步:先求x ,y ,x 2,x y .第二步:求∑i =1nx 2i ,第三步:求∑i =1nx i y i .第四步:代入公式求b =∑i =1nx i y i -n x y∑i =1nx 2i -n x2.第五步:代入公式a =y -b x . 代入直线方程得:y =bx +a .对回归直线方程的几点说明(1)(x i ,y i )(i =1,2,…,n )的中心点(x ,y )在回归直线上. (2)由回归直线方程知x 处的估计值为y =a +bx .(3)回归直线使得样本数据中的点到它的距离的平方和最小. (4)求回归直线方程,计算量大,一般应学会使用计算器求解. (5)利用回归直线方程可以对总体进行估计.类型一 最小二乘法与回归直线方程的理解【例1】 下列有关线性回归方程的系数a ,b 的公式正确的是( )【思路探究】 符号∑i =1na i 表示n 个实数a 1,a 2,…,a n 的和.【解析】 由线性回归方程的概念我们知道,线性回归方程的系数公式b =x 1y 1+x 2y 2+…+x n y n -n x -y-x 21+x 22+…+x 2n -n x2=∑i =1nx i y i -n x -y-∑i =1nx 2i -n x2,a =y -b x ,易知A 正确.【答案】 A回归直线方程的系数a ,b ,用最小二乘法估计a ,b 使函数Q (a ,b )最小,Q (a ,b )=( A ) A.∑i =1n(y i -a -bx i )2B.∑i =1n|y i -a -bx i |C .(y i -a -bx i )2D .|y i -a -bx i |解析:由最小二乘法的定义知通过求Q =(y 1-bx 1-a )2+(y 2-bx 2-a )2+…+(y n -bx n -a )2的最小值而得到回归直线的方法,叫作最小二乘法,故Q (a ,b )=∑i =1n(y i -bx i -a )2,故选A.类型二 求回归直线方程【例2】 某市近5年的煤气消耗量与使用煤气户数如下表:年份 2014 2015 2016 2017 2018 x /万户 1 1.1 1.5 1.6 1.8 y /百万立方米 6791112(1)检验是否线性相关; (2)求y 对x 的回归直线方程.【思路探究】 根据表中的数据→作出散点图→判断是否线性相关→若是,则根据公式求得a ,b →得回归直线方程【解】 (1)作出散点图,观察呈线性相关,如图所示.(1)x =1+1.1+1.5+1.6+1.85=75,y =6+7+9+11+125=9,∑i =15x 2i =12+1.12+1.52+1.62+1.82=10.26, ∑i =15x i y i =1×6+1.1×7+1.5×9+1.6×11+1.8×12=66.4.∴b =∑i =15x i y i -5x y∑i =15x 2i -5x2=66.4-5×75×910.26-5×4925=17023,a =y -b x =9-17023×75=-3123,∴y 对x 的回归直线方程为y =17023x -3123.规律方法 求回归直线方程的步骤:(1)先把数据制成表,从表中计算出∑i =1nx i ,∑i =1ny i ,∑i =1nx 2i ,∑i =1nx i y i ;(2)计算回归系数a ,b .公式为⎩⎪⎨⎪⎧b =∑i =1nx i y i -n x y ∑i =1nx 2i-n x2,a =y -b x ;(3)写出回归直线方程y =bx +a .某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:x 6 8 10 12 y2356解:x =6+8+10+124=9,y =2+3+5+64=4,∑i =14x 2i =62+82+102+122=344, ∑i =14x i y i =6×2+8×3+10×5+12×6=158,b =158-4×9×4344-4×92=1420=0.7,a =y -b x =4-0.7×9=-2.3.则所求的线性回归方程为y =0.7x -2.3.类型三 回归直线方程的应用【例3】 假设关于某设备的使用年限x (年)和所支出的维修费用y (万元)有如下的统计资料:使用年限x 2 3 4 5 6 维修费用y2.23.85.56.57.0若由资料知y 对x 呈线性相关关系.试求: (1)回归直线方程y =bx +a ;(2)估计使用年限为10年时,维修费用是多少?【思路探究】 先求回归直线方程,若回归直线方程为y =bx +a ,则在x =x 0处的估计值为y 0=bx 0+a .【解】 (1)制表如下:于是有b =112.3-5×4×590-5×42=12.310=1.23.a =y -b x =5-1.23×4=0.08. 故回归直线方程是y =1.23x +0.08.(2)根据回归直线方程是y =1.23x +0.08,当x =10年时,y =1.23×10+0.08=12.38(万元),即估计使用10年时,维修费用是12.38万元.规律方法 (1)知道x 与y 呈线性相关关系,无需进行相关性检验.否则,应首先进行相关性检验.如果本身两个变量不具备相关关系,或者说,它们之间相关关系不显著即使求出回归直线方程也是毫无意义的,而且用其估计和预测的量也是不可信的.(2)在求方程时,由于一步代入很烦琐,所以要分步求解,即分别求得x ,y ,x ·y ,x2,∑i =1nx 2i ,∑i =1n x i y i ,再代入公式求a ,b .某种产品的广告费支出x (单位:百万元)与销售额y (单位:百万元)之间有如下对应数据:x 2 4 5 6 8 y3040605070(1)画出散点图; (2)求线性回归方程;(3)预测当广告费支出为7百万元时的销售额. 解:(1)(2)从散点图可以发现,y 与x 具有线性相关关系,利用计算器求得:x =5,y =50,∑i =15x2i =145,∑i =15x i y i =1 380,设回归方程为y =bx +a ,则b =∑i =15x i y i -5x y∑i =15x 2i -5x2=1 380-5×5×50145-5×52=6.5,a=y-b x=50-6.5×5=17.5,故所求线性回归方程为y=6.5x+17.5.(3)当x=7时,y=6.5×7+17.5=63.所以,当广告费支出为7百万元时,销售额约为6 300万元.——规范解答——数形结合在线性相关性中的应用【例4】(12分)下表数据是退水温度x(℃)对黄硐延长性y(%)效应的试验结果,y是以延长度计算的,且对于给定的x,y为正态变量,其方差与x无关.x(℃)300400500600700800y(%)405055606770(1)画出散点图;(2)指出x,y是否线性相关;(3)若线性相关,求y关于x的线性回归方程;(4)估计退水温度是1 000 ℃时,黄硐延长性的情况.【思路点拨】根据所给数据画出散点图,然后可借助函数的思想分析.【满分样板】(1)散点图如图所示:4分(2)由散点图可以看出样本点分布在一条直线的附近,可见y与x线性相关.5分(3)列出下表,并用科学计算器进行有关计算.于是可得:【思维启迪】(1)在研究两个变量是否存在某种关系时,必须从散点图入手,对于散点图,可以做出如下判断:①如果所有的样本点都落在某一函数曲线上,那么就用该函数来描述变量之间的关系,即变量之间具有函数关系;②如果所有的样本点都落在某一函数曲线附近,那么变量之间具有相关关系;③如果所有的样本点都落在某一直线附近,那么变量之间具有线性相关关系.(2)利用散点图判断两个变量之间是否具有线性相关关系,体现了数形结合思想的作用,而用回归直线方程进行估计又体现了函数与方程思想的应用.下表是某机构记载的某市5月1号到5月12号每天某传染病治愈者的数据,并根据这些数据绘制了散点图,如图.下列说法正确的是①③(填序号).①根据此散点图,可以判断人数与日期具有线性相关关系;②根据此散点图,可以判断人数与日期具有一次函数关系;③后三天治愈者人数占这12天治愈者总人数的30%多;④后三天中每天治愈者人数均超过这12天内治愈者总人数的20%.解析:由散点图可以明显看出日期与人数具有线性相关关系,故①正确,②不正确.这12天治愈者总人数为100+109+…+203=1 722,而后三天治愈者人数为175+186+203=564,后三天治愈者人数占这12天治愈者总人数的30%还多,故③正确,④不正确.一、选择题 1.下列叙述中:①变量间关系有函数关系,又有相关关系; ②回归函数即用函数关系近似地描述相关关系; ③∑i =1nx i =x 1+x 2+…+x n ;④线性回归方程y =bx +a 中,b =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a =y -b x ;⑤线性回归方程一定可以表示相关关系. 其中正确的有( C ) A .①②③ B .①②④⑤ C .①②③④D .③④⑤解析:线性回归方程只能近似地表示线性相关关系. 2.线性回归方程y =bx +a 必过( D ) A .(0,0)点 B .(x ,0)点 C .(0,y )点D .(x ,y )点解析:回归直线系数a 、b 有公式a =y -b x ,所以y =a +b x ,故直线必过定点(x ,y ).3.实验测得四组(x ,y )的值为(1,2),(2,3),(3,4),(4,5),则y 与x 之间的回归直线方程为( A )A .y =x +1B .y =x +2C .y =2x +1D .y =x -1解析:本题中x 与y 完全线性相关. 二、填空题4.用身高x (cm)预测体重y (kg)满足y =0.849x -85.712,若要找到41.638 kg 的人,不一定是在150 cm 中.(填“一定”或“不一定”)解析:因为统计的方法是可能犯错误的.利用线性回归方程预测变量的值不是精确值.但一般认为实际测量值应在预测值左右.5.某地区近10年居民的年收入x 与支出y 之间的关系大致符合y =0.8x +0.1(单位:亿元),预计今年该地区居民收入为15亿元,则年支出的估计是12.1亿元.解析:因为居民年收入x 与支出y 之间的大致关系为y =0.8x +0.1.所以当收入为x =15时,y =0.8×15+0.1=12.1.三、解答题6.某个服装店经营某种服装,在某周内获纯利润y (元)与该周每天销售这种服装件数x 之间的一组数据关系见下表:x 3 4 5 6 7 8 9 y66697381899091已知∑i =17x 2i =280,∑i =17x i y i =3 487. (1)求x ,y ; (2)画出散点图;(3)求纯利润y 与每天销售件数x 之间的回归直线方程. 解:(1)x =3+4+5+6+7+8+97=6(件),y =66+69+73+81+89+90+917=5597≈79.86(元).(2)散点图如下:(3)由散点图知,y 与x 有线性相关关系.设回归直线方程为y =bx +a .由∑i =17x 2i =280,∑i =17x i y i =3 487,x =6,y =5597,得b =3 487-7×6×5597280-7×36=13328=4.75,a =5597-6×4.75≈51.36,故回归直线方程为y =4.75x +51.36.。
§1.8最小二乘法一、教学目标:经历用不同估算方法描述两个变量线性相关的过程。
知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程。
二、教学重难点:重点:了解最小二乘法的思想并利用此思想借助电子表格求出回归方程。
教学内容的难点:对最小二乘法的数学思想和回归方程的理解教学实施过程中的难点:根据给出的线性回归方程的系数公式建立线性回归方程。
三、教学方法:动手操作,合作交流。
四、教学过程:(一)、利用最小二乘法推导回归系数公式。
回顾上节课:师:我们现在来求距离和。
怎么求?生:利用点到直线的距离公式师生共同:只要求出使距离和最小的a、b即可。
但是,我们知道点到直线的距离公式计算复杂。
怎么办呢?以样本数据点A为例,可以看出:在RT△ABC中,(教师动画演示)按照一对一的关系,直角边AC越小,斜边AB越小,当AC无限小时,AB跟AC可近似看作相等。
求AC麻烦,不妨求AB生:B AAB y y=-师:它表示自变量x取值一定时,纵坐标的偏差。
假设我们已经得到两个具有线性相关关系的变量的一组数据:11(,)x y22(,)x y……(,)n nx y。
当自变量x取ix(i=1,2,……,n)时,可以得到ˆiy bx a=+(i=1,2,……,n),它与实际收集到的iy之间的偏差是ˆ()i i i iy y y bx a-=-+(i=1,2,……,n)这样用n个偏差的和来刻画“各点与此直线的整体偏差”是比较合适的。
总的偏差为1ˆ()ni iiy y=-∑,偏差有正有负,易抵消,所以采用绝对值1ˆni iiy y=-∑,由于带绝对值计算不方便所以换成平方,222221122331ˆ()()()()()ni i n niQ y y y bx a y bx a y bx a y bx a==-=--+--+--+⋅⋅⋅+--∑现在的问题就归结为:当a,b取什么值时Q最小。
将上式展开、再合并,就可以得到可以求出Q取最小值时1122211()()()n ni i i ii in ni ii ix x y y x y n x ybx x x n xa yb x====---==--=-∑∑∑∑(其中11niix xn==∑,11niiy yn==∑)推导过程用到偏差的平方,由于平方又叫二乘方,所以这种使“偏差的和”最小的方法叫“最小二乘法”。
8 最小二乘估计
学习目标 1.了解用最小二乘法建立线性回归方程的思想,会用给出的公式建立线性回归方程.2.理解回归直线与观测数据的关系,能用线性回归方程进行估计和预测.
知识点一 最小二乘法
思考 具有线性相关关系的散点大致分布在一条直线附近.如何确定这条直线比较合理?
知识点二 线性回归方程
思考 数学上的“回归”是什么意思?
梳理 用最小二乘法得到的直线方程称为__________,a ,b 是线性回归方程的系数. 如果用x 表示
x 1+x 2+…+x n n ,用y 表示y 1+y 2+…+y n
n ,则可以求得
b =
x 1-x y 1-y
+x 2-x
y 2-y
+…+x n -x
y n -y
x 1-x 2
+x 2-x 2
+…+x n -x
2
=
x 1y 1+x 2y 2+…+x n y n -n x y
x 2
1+x 22
+…+x 2n -n x 2
.
a =________.
类型一 线性回归方程的求法
例1 下表为某地近几年机动车辆数与交通事故数的统计资料.
(1)请判断机动车辆数与交通事故数之间是否具有线性相关关系,如果不具有线性相关关系,请说明理由;
(2)如果具有线性相关关系,求出线性回归方程.
反思与感悟即使散点图呈饼状,也可利用公式求出线性回归方程,但这种方程显然没什么价值.故应先画出散点图,看是否呈直线形,再求方程.
跟踪训练1 以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:
(1)画出数据对应的散点图;
(2)求线性回归方程,并在散点图中加上回归直线.
类型二线性回归方程的应用
例2 有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到
一个卖出的热饮杯数与当天气温的对比表:
(1)画出散点图;
(2)从散点图中发现气温与热饮销售杯数之间有什么关系;
(3)求线性回归方程;
(4)如果某天的气温是2℃,预测这天卖出的热饮杯数;
(5) 气温为2℃时,小卖部一定能够卖出143杯左右热饮吗?为什么?
反思与感悟线性回归方程主要用于预测,但这种预测类似于天气预报,不一定与实际数据完全吻合.
跟踪训练2 有人统计了同一个省的6个城市某一年的人均国民生产总值(即人均GDP)和这一年各城市患白血病的儿童数,如下表:
(1)画出散点图,并判定这两个变量是否具有线性相关关系;
(2)通过计算可知这两个变量的线性回归方程为y=23.25x+102.15,假如一个城市的人均GDP为12万元,那么可以断言,这个城市患白血病的儿童一定超过380人,请问这个断言是否正确?
1.下列有关线性回归的说法,不正确的是( )
A.自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B.在平面直角坐标系中用描点的方法得到表示具有相关关系的两个变量的一组数据的图形叫作散点图
C.线性回归方程最能代表观测值x、y之间的线性关系
D.任何一组观测值都能得到具有代表意义的线性回归方程
2.已知回归直线的斜率的估计值是1.23,样本点中心(即(x,y))为(4,5),( ) A.y=1.23x+4
B.y=1.23x+5
C.y=1.23x+0.08
D.y=0.08x+1.23
3.某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元)423 5
销售额y(万元)49263954
根据上表可得线性回归方程y=bx+a中的b为9.4,据此模型预报广告费用为6万元时销售额为( )
A.63.6万元
B.65.5万元
C.67.7万元
D.72.0万元
4.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的线性回归方程为y=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(x,y)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可判定其体重必为58.79 kg
1.求线性回归方程时应注意的问题
(1)知道x与y成线性相关关系,无需进行相关性检验,否则应首先进行相关性检验,如果
两个变量之间本身不具有相关关系,或者说,它们之间的相关关系不显著,即使求出线性回归方程也是毫无意义的,而且用其估计和预测的量也是不可信的.
(2)用公式计算a、b的值时,要先计算b,然后才能算出a.
2.利用线性回归方程,我们可以进行估计和预测.若线性回归方程为y=bx+a,则x=x0处的估计值为y0=bx0+a.
答案精析
问题导学 知识点一
思考 应该使散点整体上最接近这条直线.最小二乘法是一种求回归直线的方法,用这种方法求得的回归直线能使样本数据的点到回归直线的距离 [y 1-(a +bx 1)]2
+[y 2-(a +bx 2)]2
+…+[y n -(a +bx n )]2
最小. 知识点二
思考 “回归”一词最早由英国统计学家(Francils Galton)提出的,本意是子女的身高会向一般人的均值靠拢.现在这个概念引伸到随机变量有向回归线集中的趋势. 梳理
线性回归方程 y -b x 题型探究
例1 解 (1)在平面直角坐标系中画出数据的散点图,如图.
直观判断散点在一条直线附近,故具有线性相关关系. (2)计算相应的数据之和:
∑i =1
8
x i =1 031,∑i =1
8
y i =71.6,
∑i =1
8
x 2
i =137 835,∑i =1
8
x i y i =9 611.7,
x =128.875,y =8.95,
将它们代入公式计算得b ≈0.077 4,a ≈-1.024 9, 所以,所求线性回归方程为y =0.077 4x -1.024 9. 跟踪训练1 解 (1)数据对应的散点图如图所示:
(2)x =15∑i =1
5
x i =109,y =23.2,
∑i =1
5
x 2
i =60 975,∑i =1
5
x i y i =12 952.
设所求线性回归方程为y =bx +a ,
则b =
∑i =1
5
x i y i -5x y
∑i =1
5
x 2i -5x 2
≈0.196 2,
a =y -
b x =23.2-109×0.196 2=1.814 2,
故所求线性回归方程为y =0.196 2x +1.814 2. 回归直线如(1)中图所示. 例2 解 (1)散点图如图所示:
(2)从上图看到,各点散布在从左上角到右下角的区域里,因此,气温与热饮销售杯数之间呈负相关,即气温越高,卖出去的热饮杯数越少.
(3)从散点图可以看出,这些点大致分布在一条直线的附近,因此,可用公式求出线性回归方程的系数.利用计算器容易求得线性回归方程为y=-2.352x+147.767.
(4)当x=2时,y=143.063.因此,某天的气温为2℃时,这天大约可以卖出143杯热饮.
(5)小卖部不一定能够卖出143杯左右热饮,原因如下:①线性回归方程中的截距和斜率都是通过样本估计出来的,存在误差,这种误差可以导致预测结果的偏差.②即使截距和斜率的估计没有误差,也不可能百分之百地保证对应于x的预报值,能够与实际值y很接近.我们不能保证点(x,y)落在回归直线上,甚至不能百分之百地保证它落在回归直线的附近.跟踪训练2 解(1)散点图如下:
根据散点图可以看出,在6个点中,虽然第一个点离这条直线较远,但其余5个点大致分布在这条直线的附近,所以这两个变量具有线性相关关系.
(2)断言是错误的,将x=12代入y=23.25x+102.15得y=23.25×12+102.15=381.15>380,但381.15是对该城市人均GDP为12万元的情况下所作的一个估计,该城市患白血病的儿童可能超过380人,也可能低于380人.
当堂训练
1.D 2.C 3.B 4.D。