2018年高中数学北师大版必修三:第1章 9 §7 相关性 §8 最小二乘估计含解析
- 格式:doc
- 大小:409.50 KB
- 文档页数:7
§8最小二乘估计1.了解最小二乘法的思想及意义.(重点)2.会求线性回归方程并进行简单应用.(难点)[基础·初探]教材整理最小二乘法及线性回归方程阅读教材P54~P59“信息技术应用”以上部分,完成下列问题.1.最小二乘法利用最小二乘法估计时,要先做出数据的散点图.如果散点图呈现一定的规律性,我们再根据这个规律进行拟合.如果散点图呈现出线性关系,我们可以用最小二乘法估计出线性回归方程;如果散点图呈现出其他的曲线关系,我们就要利用其他的工具进行拟合.2.线性回归方程用x表示x1+x2+…+x nn,用y表示y1+y2+…+y nn,由最小二乘法可以求得b=(x1-x)(y1-y)+(x2-x)(y2-y)+…+(x n-x)(y n-y) (x1-x)2+(x2-x)2+…+(x n-x)2=x1y1+x2y2+…+x n y n-n x y x21+x22+…+x2n-n x2,a=y-b x.这样得到的直线方程y=a+bx称为线性回归方程,a、b是线性回归方程的系数.判断(正确的打“√”,错误的打“×”)(1)回归直线总经过样本中的所有点.()(2)由回归直线求出的值不是一个准确值.()(3)任何一组数据,都可以由最小二乘法得出线性回归方程.()【解析】(1)×,回归直线不一定经过样本中的点,若经过所有点,则两变量为函数关系.(2)√,求出的值是一个估计值.(3)×,只有线性相关的数据才有线性回归方程.【答案】(1)×(2)√(3)×[小组合作型]y(单位:千元)的数据如下表:(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘法估计公式分别为:b=∑ni=1(t i-t)(y i-y)∑n i=1(t i-t)2,a=y-b t.【精彩点拨】(1)借助最小二乘法求回归直线的斜率和截距.(2)根据b的值判断2007~2013年的人均收入情况,令t=9求出y的值即为2015年的收入情况.【自主解答】(1)因为t=1+2+…+77=4,y=2.9+3.3+3.6+4.4+4.8+5.2+5.97=4.3,设回归方程为y=bt+a,代入公式,经计算得b=3×1.4+2+0.7+0+0.5+1.8+4.8(9+4+1)×2=1414×2=12,a=y-b t=4.3-12×4=2.3,所以,y关于t的回归方程为y=0.5t+2.3.(2)因为b=12>0,所以2007年至2013年该地区农村居民家庭人均纯收入稳步增长,预计到2015年,该地区农村居民家庭人均纯收入y=0.5×9+2.3=6.8(千元),所以,预计到2015年,该地区农村居民家庭人均纯收入约6.8千元.用线性回归方程估计总体的一般步骤:(1)做出散点图,判断散点是否在一条直线附近.(2)如果散点在一条直线附近,用公式求出a,b,并写出线性回归方程(否则求出回归方程是没有意义的).(3)根据线性回归方程对总体进行估计.[再练一题]1.2014年元旦前夕,某市统计局统计了该市2013年10户家庭的年收入和年饮食支出的统计资料如下表:【导学号:63580015】(1)如果已知y 与x 是线性相关的,求线性回归方程; (2)若某家庭年收入为9万元,预测其年饮食支出.(参考数据:∑10i =1x i y i =117.7,∑10i =1x 2i =406)【解】 依题意可计算得x =6,y =1.83,x 2=36,x y =10.98,又∵∑10i =1x i y i =117.7,∑10i =1x 2i =406,∴b =∑10i =1x i y i -10x y ∑10i =1x 2i -10x2≈0.17.a =y -b x =0.81,∴y =0.17x +0.81. ∴所求的线性回归方程为y =0.17x +0.81. (2)当x =9时,y =0.17×9+0.81=2.34.可估计大多数年收入为9万元的家庭每年饮食支出约为2.34万元.[探究共研型]探究1 一个好的线性关系与散点图中各点的位置应具有怎样的关系?【提示】 整体上最接近.探究2 设直线方程为y =a +bx ,任意给定一个样本点A (x i ,y i ),用什么样的方法刻画点与直线的距离更方便有效?【提示】 如图:法一 点到直线的距离公式 d =|bx i -y i +a |b 2+1. 法二 [y i -(a +bx i )]2.显然法二比法一更方便计算,所以我们用它表示二者之间的接近程度.探究3如果有5个样本点,其坐标分别为(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5),怎样刻画这些样本点与直线y=a+bx的接近程度?【提示】[y1-(a+bx1)]2+[y2-(a+bx2)]2+[y3-(a+bx3)]2+[y4-(a+bx4)]2+[y5-(a+bx5)]2.探究4任给一组数据,我们都可以由最小二乘法得出线性回归方程吗?【提示】用最小二乘法求回归直线的前提是先判断所给数据具有线性相关关系,否则求出的线性回归方程是无意义的.探究5线性回归方程是否经过一定点?【提示】线性回归方程恒过定点(x,y).关于人体的脂肪含量(百分比)和年龄关系的研究中,得到如下一组数据:(2)用最小二乘法求出年龄关于脂肪的线性回归方程.【精彩点拨】(1)做出散点图,通过散点图判断它们是否具有相关关系,并做出拟合直线;(2)利用公式求出线性回归方程的系数a,b即可.【自主解答】(1)以x轴表示年龄,y轴表示脂肪含量(百分比),画出散点图,如下图.进一步观察,发现上图中的点分布在一条直线附近,这说明这一正相关可以用这一直线来逼近,根据图中分析,人体的脂肪含量(百分比)和年龄具有相关关系.(2)设回归直线为y=bx+a,那么结合题中数据,可得 x =40.875,y =23.25,∑8i =1x i y i =8 092.8,∑8i =1x 2i =14 195,则b =∑8i =1x i y i -8x y ∑8i =1x 2i -8x2,=8 092.8-8×40.875×23.2514 195-8×40.8752≈0.591 2,a =y -b x =23.25-0.591 2×40.875=-0.915 3, 所以所求的线性回归方程是y =0.591 2x -0.915 3.1.最小二乘法的适用条件:两个变量必须具有线性相关性,若题目没有说明相关性,必须先对两个变量进行相关性检验.2.注意事项:(1)利用求回归方程的步骤求线性回归方程的方法实质是一种待定系数法. (2)计算a ,b 的值时,用列表法理清计算思路,减少计算失误.同时,计算时,尽量使用计算机或科学计算器.[再练一题]2.已知变量x ,y 有如下对应数据:(2)用最小二乘法求关于x ,y 的回归直线方程. 【解】 (1)散点图如下图所示.(2)x =1+2+3+44=52,y =1+3+4+54=134, ∑4i =1x i y i =1+6+12+20=39,∑4i =1x 2i =1+4+9+16=30,b =39-4×52×13430-4×⎝ ⎛⎭⎪⎫522=1310,a =134-1310×52=0,故所求回归直线方程为y =1310x .1.变量y 对x 的回归方程的意义是( ) A .表示y 与x 之间的函数关系 B .表示y 与x 之间的线性关系 C .反映y 与x 之间的真实关系D .反映y 与x 之间的真实关系达到最大限度的吻合【解析】 线性回归直线方程最能代表观测值x 、y 之间的线性相关关系,反映y 与x 之间的真实关系达到最大限度的吻合.【答案】 D2.下表是x 与y 之间的一组数据,则y 关于x 的线性回归方程y =bx +a 必过( )C .点(1,2)D .点(1.5,4)【解析】 回归方程必过样本点(x ,y ),经计算得(1.5,4). 【答案】 D3.设有一个回归方程为y =-1.5x +2,则变量x 增加一个单位时( ) A .y 平均增加1.5个单位 B .y 平均增加2个单位 C .y 平均减少1.5个单位 D .y 平均减少2个单位【解析】 回归方程斜率为-1.5,所以变量x 增加一个单位,y 平均减少1.5个单位.【答案】 C4.某商店统计了最近6个月某商品的进价x 与售价y (单位:元)的对应数据如下:则x =________,y =________,∑i =1x 2i =________,∑6i =1x i y i =________,回归方程为________.【解析】 根据公式代入即可求得,也可以利用计算器求得x =6.5,y =8,∑6i =1x 2i =327.∑6i =1x i y i =396,回归方程为y =1.14 x +0.59.【答案】 6.5 8 327 396 y =1.14x +0.595.某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:已知记忆力x【解】x=6+8+10+124=9,y=2+3+5+64=4,∑4i=1x2i=62+82+102+122=344,∑4i=1x i y i=6×2+8×3+10×5+12×6=158,b=158-4×9×4344-4×92=1420=0.7,a=y-b x=4-0.7×9=-2.3.则所求的线性回归方程为y=0.7x-2.3.。
[A 基础达标]
1.已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( ) A .x 与y 正相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 负相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关
解析:选C.因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =by +a ,b >0,则z =by +a =-0.1bx +b +a ,故x 与z 负相关.
2.某商品的销售量y (件)与销售价格x (元)存在线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =-10x +200,则下列结论正确的是( )
A .y 与x 具有正的线性相关关系
B .若y =150,则x =35
C .当销售价格为10元时,销售量为100件
D .当销售价格为10元时,销售量为100件左右
解析:选D.因为回归方程的斜率-10<0,所以y 与x 具有负相关关系,故A 错误;当y =150时,代入回归直线方程可得x =5,故B 错误;把x =10代入求得y =100,是一个估计值,而不是准确值,故C 错误,D 正确.
3.已知回归直线的斜率的估计值是1.23,样本点的中心是(4,5),则线性回归方程是( ) A .y =4+1.23x B .y =5+1.23x C .y =0.08+1.23x D .y =1.23+0.08x
解析:选C.斜率的估计值就是b 的值,即b =1.23,又因回归直线过点(4,5),代入选项验证可得. 4.已知x ,y 的几组对应数据如下表:
x 0 1 2 3 4 y
2
3
6
9
10
=( ) A .2 B .1.6 C .1.2
D .-11.2
解析:选B.易得x -=2,y -=6,则a =y --b x -
=1.6.
5.对有线性相关关系的两个变量建立的回归直线方程y =a +bx 中,回归系数b ( ) A .不能小于0 B .不能大于0 C .不能等于0
D .只能小于0
解析:选C.当b =0时,两个变量不具有线性相关关系,但b 能大于0,也能小于0.
6.若直线y =a +bx 是四组数据(1,3),(2,5),(3,7),(4,9)的回归直线方程,则a 与b 的关系为________.
解析:因为x -=1
4(1+2+3+4)=52,
y -=1
4(3+5+7+9)=6,
因为y -=a +b x -
,所以6=a +52b .
所以2a +5b =12. 答案:2a +5b =12
7.正常情况下,年龄在18岁到38岁的人中,体重y (kg)对身高x (cm)的回归方程为y =0.72x -58.2,张红同学(20岁)身高为178 cm ,她的体重应该在______kg 左右.
解析:用回归方程对身高为178 cm 的人的体重进行预测,当x =178时,y =0.72×178-58.2=69.96(kg). 答案:69.96
8.对某台机器购置后的运营年限x (x =1,2,3,…)与当年利润y 的统计分析知具备线性相关关系,线性回归方程为y =10.47-1.3x ,估计该台机器使用________年最合算.
解析:只要预计利润不为负数,使用该机器就算合算,即y ≥0,所以10.47-1.3x ≥0,解得x ≤8.05,所以该台机器使用8年最合算.
答案:8
9.某工厂对某种产品的产量与成本的资料分析后有如下数据:
产量x (千件) 2 3 5 6 成本y (万元)
7
8
9
12
(1)画出散点图;
(2)求成本y 与产量x 之间的线性回归方程; (3)预计产量为8千件时的成本. 解:(1)散点图如图:
(2)设成本y 与产量x 的线性回归方程为y =bx +a , x -=2+3+5+64=4,
y -=7+8+9+124
=9.
=11
10=1.1,
a =y --
b x -
=9-1.1×4=4.6. 所以回归方程为y =1.1x +4.6.
(3)当x =8时,y =1.1×8+4.6=8.8+4.6=13.4,即产量为8千件时,成本约为13.4万元. 10.某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:
x 6 8 10 12 y
2
3
5
6
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y =bx +a ; (3)试根据(2)求出的线性回归方程,预测记忆力为9的同学的判断力. 解:(1)如图:
(2)∑4
i =
1
x i y i =6×2+8×3+10×5+12×6=158, x -=6+8+10+124=9,y -=2+3+5+64
=4,
∑4
i =1
x 2i =62+82+102+122
=344, b =158-4×9×4344-4×92=1420=0.7,
a =y --
b x -
=4-0.7×9=-2.3, 故线性回归方程为y =0.7x -2.3.
(3)由线性回归方程预测,记忆力为9的同学的判断力约为4.
[B 能力提升]
11.已知x 与y 之间的几组数据如下表:
x 1 2 3 4 5 6 y
2
1
3
3
4
(1,0)和(2,2)求得的直线方程为y ′=b ′x +a ′,则以下结论正确的是( )
A .b >b ′,a >a ′
B .b >b ′,a <a ′
C .b <b ′,a >a ′
D .b <b ′,a <a ′
解析:选C.由两组数据(1,0)和(2,2)可求得直线方程为y ′=2x -2,从而b ′=2,a ′=-2.而利用线性回归
方程的公式与已知表格中的数据,可求得b =∑6
i =1x i y i -6x -·y -
∑6i =
1
x 2
i -6x -2=57,a =y --b x -
=-13,所以b <b ′,a >a ′.
12.已知变量x 与y 呈正的线性相关关系,且由观测数据算得样本平均数x -=3,y -
=3.5,则由该观测数据算得的线性回归方程可能是( )
A .y =0.4x +2.3
B .y =2x -2.4
C .y =-2x +9.5
D .y =-0.3x +4.4
解析:选A.由已知得回归直线的斜率为正,故可以排除选项C 和D.因为样本点的中心在回归直线上,把点(3,3.5)的坐标分别代入选项A 和B 中的直线方程进行检验,可以排除B ,故选A.
13.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:
时间x 1 2 3 4 5 命中率y
0.4
0.5
0.6
0.6
0.4
小李这56号打6小时篮球的投篮命中率为________.
解析:小李这5天的平均投篮命中率y -=15(0.4+0.5+0.6+0.6+0.4)=0.5,x -
=3,
b =∑n
i =1 (x i -x -)(y i -y -
)∑n
i =1 (x i -x -)2
=
0.2+0+0+0.1+(-0.2)
(-2)2+(-1)2+0+12+22
=0.01,
a =y --
b x -
=0.47,
所以回归方程为y =0.01x +0.47, 则当x =6时,y =0.53.
所以预测小李该月6号打6小时篮球的投篮命中率为0.53. 答案:0.5 0.53
14.(选做题)某农科所对冬季昼夜温差与某反季节大豆种子发芽多少之间的关系进行分析研究,他们记录了12月1日至5日的昼夜温差与每天100颗种子的发芽数,数据如下表:
日期 12.1 12.2 12.3 12.4 12.5 温差x (℃) 10 11 13 12 8 发芽数y (颗)
23
25
30
26
16
数据进行检验.
(1)若先选取的是12月1日和5日的数据,请根据2日至4日的三组数据,求y 关于x 的回归方程y =bx +a ; (2)若由回归方程得到的估计数据与检验数据的误差均不超过2颗,则认为得到的回归方程是可靠的,试判断
(1)中所得的线性回归方程是否可靠,说明理由.
解:(1)由已知数据,求得x -=12,y -
=27, 由公式b =∑5
i =1
(x i -x -)(y i -y -
)∑5
i =
1 (x i -x -)2
, 求得b =2.5,
再由公式a =y --b x -
得a =-3, 所以y 关于x 的回归方程为y =2.5x -3. (2)当x =10时,y =2.5×10-3=22, |22-23|<2,
同样,当x =8时,y =2.5×8-3=17, |17-16|<2.
所以(1)中得到的线性回归方程是可靠的.。
………………………………………………………………………………………………………………………………………………………。
………………………………………………………………………………………………………………………………………………………。