高中数学选修2-3课时作业1:§3.1 回归分析的基本思想及其初步应用(一)
- 格式:doc
- 大小:675.48 KB
- 文档页数:7
教学辅导教案学生姓名年级高二学科数学上课时间教师姓名课题人教版选修2-3 回归分析的基本思想及其初步应用1.设有一个回归方程为$23y x=+,变量x增加一个单位时,则()A.y平均增加2个单位B.y平均增加3个单位C.y平均减少2个单位D.y平均减少3个单位2.表中提供了某厂节能降耗技术改造后生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对应数据.根据下表提供的数据,求出y关于x的线性回归方程为$0.70.35y x=+,那么表中t的值为()x 3 4 5 6y 2.5 t 4 4.5A.3 B.3.15 C.3.5 D.4.53.为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x (万元)8.2 8.6 10.0 11.3 11.9支出y(万元) 6.2 7.5 8.0 8.5 9.8据上表得回归直线方程$$y bx a=+$,其中0.76b=$,$a y bx=-$,据此估计,该社区一户收入为15万元家庭年支出为()A.11.4万元B.11.8万元C.12.0万元D.12.2万元4.某企业节能降耗技术改造后,在生产某产品过程中几录的产量x(吨)与相应的生产能耗y (吨)的几组对应数据如表所示:x 3 4 5 61y 2.5 3 4 a若根据表中数据得出y关于x的线性回归方程为$0.70.35y x=+,则表中a的值为()A.3 B.3.15 C.3.5 D.4.55.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:零件的个数x(个) 2 3 4 5加工的时间y(小时) 2.5 3 4 4.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y关于x的线性回归方程$$y bx a=+$,并在坐标系中画出回归直线;(3)试预测加工10个零件需要多少时间?(注:1221()ni iiniix y nx ybx n x---∑=-∑$,$a y bx=-$)一、散点图1.散点图的概念在考虑两个量的关系时,为了对变量之间的关系有一个大致的了解,人们常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.2.曲线拟合的概念从散点图可以看出如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋【变式5】在回归分析中,下列说法错误的是( ) A .用线性回归模型近似真实模型可产生误差 B .R 2越大,模型的拟合效果越好 C .残差平方和越小,模型的拟合效果越好 D .R 2越大,残差平方和也越大【变式6】给出下列结论,正确的个数是( )(1)在回归分析中,可用相关指数R 2的值判断模型的拟合效果,R 2越大,模型的拟合效果越好; (2)在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好;(3)在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高. A .0B .1C .2D .3【变式7】设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为$0.8585.71y x =-,则下列结论中不正确的是( )A .身高x 为解释变量,体重y 为预报变量B .y 与x 具有正的线性相关关系C .回归直线过样本点的中心(x ,y )D .若该大学某女生身高为170cm ,则她的体重必为58.79kg1.给出下列四个命题:①由样本数据得到的回归方程$$y bxa =+$必过样本点的中心(x ,y ); ②用相关指数R 2来刻画回归效果,R 2的值越小,说明模型的拟合效果越好;③若线性回归方程为$3 2.5y x =-,则变量x 每增加1个单位时,y 平均减少2.5个单位; ④在残差图中,残差点分布的带状区域的宽度越窄,残差平方和越小. 上述四个命题中,正确命题的个数为( ) A .1 B .2 C .3 D .4 2.身高与体重的关系可以用________来分析( )12.在冬季,某地居民对猪肉的需求情况的一组数据为(右图): 价格x (万元) 12 11 10 9 需求量y (吨)10111213(1)求出y 对x 的回归方程;(2)如果价格升为14万元/吨,请你预测猪肉的需求量是多少.本章重点:回归分析、残差分析、相关指数的意义以及独立性检验中K 2的有关计算. 本章难点:借助于回归分析的思想选择恰当的模型拟合变量间的相关关系(尤其是非线性的),由于该部分内容的数据相对较复杂,故在高考中出现大题的可能性不是很大,应以选择、填空题为主,旨在考察对回归方程的求解及预测,K 2的计算等.1.对于线性回归方程$$y bx a =+$,下列说法中不正确的是( ) A .样本数据中x =0时,一定有$y a= B .x 增加一个单位时,y 平均增加b$个单位 C .样本数据中x =0时,可能有$y a= D .直线必经过点(x ,y )2.从某高中随机选取5名高三男生,其身高和体重的数据如下表所示:身高x (cm ) 160 165 170 175 180 体重y (kg )6366707274根据上表可得回归直线方程$$0.56y x a=+,据此模型预报身高为172cm 的高三男生的体重为据和散点图:定价x(元/kg)10 20 30 40 50 60年销量y(kg)1150 643 424 262 165 86 z=2⋅ln y14.1 12.9 12.1 11.1 10.2 8.9(参考数据:61()()34580i iix x y y=-⋅-=-∑,61()()175.5i iix x z z=-⋅-=-∑,621()776840iiy y=-=∑,61()()3465i iiy y z z=-⋅-=∑)(1)根据散点图判断,y与x,z与x哪一对具有较强的线性相关性(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及数据,建立y关于x的回归方程(方程中的系数均保留两位有效数字).(3)定价为多少元/kg时,年利润的预报值最大?附:对于一组数据(x1,y1),(x2,y2),…,(x n,y n),其回归直线$$y bx a=+$的斜率和截距的最小二乘估计分别为:1122211()()=()n ni i i ii in ni ii ix y nx y x x y ybx nx x x====--⋅-∑∑=--∑∑$,$a y nbx=-.8.如图是我国2010年至2016年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1﹣7分别对应年份2010﹣2016.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以证明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2018年我国生活垃圾无害化处理量. 附注:参考数据:719.32i i y ==∑,7140.17i i i t y ==∑,721()0.55i i y y =-=∑,7 2.646≈.参考公式:12211()()()()ni i i nn i i i i t t y y r t t y y ===--∑=--∑∑,回归方程$$y abt =+$中斜率和截距的最小二乘估计公式分别为:121()()=()ni i i ni i t t y y b t t ==-⋅-∑-∑$,$a y bt =-$.9.为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)和利润z 的影响,对近五年该农产品的年产量和价格统计如表:x 1 2 3 4 5 y7.06.55.53.82.2一、(第1天)1.已知x与y之间的一组数据:x0 1 2 3y m 3 5.5 7已求得关于y与x的线性回归方程$ 2.10.85y x=+,则m的值为.2.若样本点为(21,2.1)、(23,2.3)、(25,2.8)、(27,3.2)、(29,4.1),则样本点的中心为.3.一工厂生产某种产品的月产量y(单位:万件)与月份x构成的实数对(x,y)在直线y=x+1附近,则估计3月份生产该产品万件.4.已知x,y的取值如表:x0 1 3 4y 2.2 4.3 4.8 6.7从散点图分析,y与x线性相关,则回归方程为$$y bx a=+$必过点.5.某商店统计了最近6个月某商品的进价x与售价y(单位:元)的对应数据如表:x 3 5 2 8 9 12y 4 6 3 9 12 14假设得到的关于x和y之间的回归直线方程是$$y bx a=+$,那么该直线必过的定点是.二、(第2天)1.如果发现散点图中所有的样本点都在一条直线上,则残差平方和等于,解释变量和预报变量之间的相关系数等于.2.已知某回归分析中,模型A的残差图的带状区域宽度比模型B的残差图的带状区域宽度窄,则在该回归分析中拟合精度较高的模型是.3.回归分析是处理变量之间关系的一种数量统计方法.4.对于一组数据的两个函数模型,其残差平方和分别为152.6 和169.8,若从中选取一个拟合程度较好的函数模型,应选残差平方和为的那个.。
选修2-3 3.1 第1课时一、选择题1.对于回归分析,下列说法错误的是()A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定B.线性相关系数可以是正的,也可以是负的C.回归分析中,如果r2=1或r=±1,说明x与y之间完全线性相关D.样本相关系数r∈(-1,1)[答案] D2.对于线性相关系数r,下列说法正确的是()A.|r|∈(-∞,+∞),|r|越大,相关程度越大;反之,相关程度越小B.|r|≤1,r越大,相关程度越大;反之,相关程度越小C.|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小D.以上说法都不正确[答案] C3.已知某车间加工零件的个数x与所花费时间y(h)之间的线性回归方程为y^=0.01x+0.5,则加工600个零件大约需要________h.A.6.5B.5.5C.3.5D.0.5[答案] A4.设有一个回归方程为y^=2-2.5x,则变量x增加一个单位时()A.y平均增加2.5个单位B.y平均增加2个单位C.y平均减少2.5个单位D.y平均减少2个单位[答案] C5.y与x之间的线性回归方程y^=b^x+a^必定过()A.(0,0)点B.(x,0)点C.(0,y)点 D.(x,y)点[答案] D8.2009年春季,某国家HINI流感流行,该国政府采取果断措施,防治结合,很快使病情得到控制,如下表所示是5月1日至5月12日该国每天患HINI流感治愈者数据,根据这些数据绘制出的散点图如图所示.日期 5.1 5.2 5.3 5.4 5.5 5.6人数100109115118121134日期 5.7 5.8 5.9 5.10 5.11 5.12人数141152168175186203下列说法:①根据散点图,可以判断日期与人数具有线性相关关系;②根据散点图,可以判断日期与人数具有一次函数关系.其中正确的为( )A .①B .②C .①②D .以上都不对 [答案] A[解析] 由散点图知时间与人数(治愈人数)具有一定的相关关系,并不是确定性的函数关系,这种相关关系可以通过回归直线进行预测,但不能说具有一次函数关系,故A 正确.二、填空题9.(2010·江苏金陵中学)已知三点(3,10),(7,20),(11,24)的横坐标x 与纵坐标y 具有线性关系,则其线性回归方程是________.[答案] y ^=74x +234.11.已知两个变量x 和y 之间线性相关,5次试验的观测数据如下:那么变量y [答案] y ^=0.575x -14.9三、解答题13.某种产品的广告费支出x 与销售额y (单位:百万元)之间有如下对应数据:x 24568y 3040605070(1)(2)求回归直线方程.[解析](1)(2)y^=6.5x+17.514.(2007·广东)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.x 345 6y 2.534 4.5(1)(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=b^x+a^;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)[解析](1)由题设所给数据,可得散点图如图:(2)由对照数据,计算得∑i =14x 2i =86,x =3+4+5+64=4.5,y =2.5+3+4+4.54=3.5,已知∑i =14x i y i =66.5,所以,由最小二乘法确定的回归方程的系数b ^=∑i =14x i y i -4x y∑i =14x 2i -4x2=66.5-4×4.5×3.586-4×4.52=0.7,a ^=y -b ^ x =3.5-0.7×4.5=0.35.因此,所求的线性回归方程为y =0.7x +0.35.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,知降低的生产能耗为90-(0.7×100+0.35)=19.65(吨标准煤).[点评] ①本题主要考查最小二乘法求线性回归方程和数据处理、运算求解能力及应用意识.②求回归直线方程的一般步骤:一检验,二系数,三方程,四预测.。
§3.1 回归分析的基本思想及其初步应用A 基础达标1.关于回归分析,下列说法错误的是( ) A .回归分析是研究两个具有相关关系的变量的方法 B .散点图中,解释变量在x 轴,预报变量在y 轴 C .回归模型中一定存在随机误差 D .散点图能明确反映变量间的关系2.根据如下样本数据得到的回归方程为y ^=b ^x +a ^,若a ^=5.4,则x 每增加1个单位,估计y ( )A .增加0.9个单位 C .增加1个单位D .减少1个单位3.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其回归直线方程是y ^=b ^x +18,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数b ^的值是( )A .116B .14C .13D .124.如图,5个(x ,y )数据,去掉D (3,10)后,下列说法错误的是( )A .相关系数r 变大B .残差平方和变大C .相关指数R 2变大D .解释变量x 与预报变量y 的相关性变强5.若某地财政收入x 与支出y 满足线性回归方程y =bx +a +e (单位:亿元),其中b =0.8,a =2,|e |≤0.5.如果今年该地区财政收入10亿元,则年支出预计不会超过( ) A .10亿元 B .9亿元 C .10.5亿元D .9.5 亿元6.某市居民2014~2018年家庭年平均收入x (单位:万元)与年平均支出y (单位:万元)的统计资料如表:根据统计资料,________(填“正”或“负”)线性相关关系.7.关于变量x ,y 的一组样本数据(a 1,b 1),(a 2,b 2),…,(a n ,b n )(n ≥2,a 1,a 2,…,a n 不全相等)的散点图中,若所有样本点(a i ,b i )(i =1,2,…,n )恰好都在直线y =-2x +1上,则根据这组样本数据推断的变量x ,y 的相关系数为________.8.某种产品的广告费支出x 与销售额y (单位:万元)之间的关系如下表:y 与x 的线性回归方程为y =6.5x +17.5,当广告支出5万元时,随机误差的效应(残差)为________.9.某个服装店经营某种服装,在某周内获纯利y (元)与该周每天销售这种服装件数x 之间的一组数据关系见表:已知∑7i =1x 2i =280,∑7i =1x i y i =3 487. (1)求x —,y —;(2)已知纯利y 与每天销售件数x 线性相关,试求出其回归方程.10.某企业为了对新研发的一批产品进行合理定价,将产品按事先拟定的价格进行试销,得到一组销售数据(x i ,y i )(i =1,2,…,6),如表所示:已知y —=80, (1)求q 的值;(2)已知变量x ,y 具有线性相关性,求产品销量y 关于试销单价x 的线性回归方程y ^=b ^x +a ^.可供选择的数据∑6i =1x i y i =3 050,∑6i =1x 2i =271. (3)用y ^表示(2)中所求的线性回归方程得到的与x i 对应的产品销量y i 的估计值.当销售数据(x i ,y i )(i =1,2,…,6)对应的残差的绝对值|y ^i -y i |≤1时,则将销售数据(x i ,y i )称为一个“好数据”.试求这6组销售数据中的“好数据”.参数数据:线性回归方程中b ^,a ^的最小二乘估计分别是b ^=∑ni =1x i y i -n x —y —∑n i =1x 2i -n (x —)2,a ^=y —-b ^x —.B 能力提升11.对于给定的样本点所建立的模型A 和模型B ,它们的残差平方和分别是a 1,a 2,R 2的值分别为b1,b2,下列说法正确的是()A.若a1<a2,则b1<b2,A的拟合效果更好B.若a1<a2,则b1<b2,B的拟合效果更好C.若a1<a2,则b1>b2,A的拟合效果更好D.若a1<a2,则b1>b2,B的拟合效果更好12.某品牌手机销售商今年1,2,3月份的销售量分别是1万部,1.2万部,1.3万部,为估计以后每个月的销售量,以这三个月的销售为依据,用一个函数模拟该品牌手机的销售量y(单位:万部)与月份x之间的关系,现从二次函数y=ax2+bx+c(a≠0)或函数y=ab x+c(b>0,b≠1)中选用一个效果好的函数进行模拟,如果4月份的销售量为1.37万部,则5月份的销售量为________万部.13.下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y^=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y^=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.14.(选做题)某地区不同身高的未成年男性的体重平均值如表所示:(1)(2)如果体重超过相同身高男性体重平均值的1.2倍为偏胖,低于0.8倍为偏瘦,那么这个地区一名身高175 cm、体重82 kg的在校男生体重是否正常?——★ 参 考 答 案 ★——A 基础达标1.[[答案]]D[[解析]]用散点图反映两个变量间的关系时,存在误差. 2.[[答案]]B[[解析]]由题意可得,x —=5,y —=15(4+2.5-0.5+0.5-2)=0.9,因为回归方程y ^=b ^x +a ^,若a ^=5.4,且回归直线过点(5,0.9),所以0.9=5b ^+5.4,解得b ^=-0.9,所以x 每增加一个单位,估计y 减少0.9个单位. 3.[[答案]]C[[解析]]因为x 1+x 2+x 3+…+x 8=6,y 1+y 2+y 3+…+y 8=3,所以x —=34,y —=38,所以样本点的中心坐标为⎝⎛⎭⎫34,38,代入回归直线方程得38=b ^×34+18,解得b ^=13. 4.[[答案]]B[[解析]]依据线性相关的有关知识可知,去掉数据D (3,10)后相关系数r 变大;相关指数R 2也变大;同时解释变量x 与预报变量y 的相关性也变强,相应的残差平方和变小. 5.[[答案]]C[[解析]]代入数据y =10+e ,因为|e |≤0.5, 所以9.5≤y ≤10.5,故不会超过10.5亿元. 6.[[答案]]13 正[[解析]]把2014~2018年家庭年平均收入按从小到大顺序排列为11.5,12.1,13,13.5,15,因此中位数为13(万元),由统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正线性相关关系. 7.[[答案]]-1[[解析]]所有样本点都在直线上,说明这两个变量间完全负相关,故其相关系数为-1,故填-1.8.[[答案]]10[[解析]]因为y 与x 的线性回归方程为y ^=6.5x +17.5,当x =5时,y ^=50,当广告支出5万元时,由表格得y =60,故随机误差的效应(残差)为60-50=10. 9.解:(1)x —=3+4+5+6+7+8+97=6,y —=66+69+73+81+89+90+917=5597.(2)因为y 与x 有线性相关关系,所以b ^=∑7i =1x i y i -7x — y —∑7i =1x 2i -7x —2=3 487-7×6×5597280-7×36=4.75,a ^=5597-6×4.75=71914≈51.36.故回归方程为y ^=4.75x +51.36.10.解:(1)因为y —=q +84+83+80+75+686,又因为y —=80,所以q +84+83+80+75+686=80,所以q =90.(2)x —=4+5+6+7+8+96=132.所以b ^=3 050-6×80×132271-6×⎝⎛⎭⎫1322=-4,所以a ^=80-(-4)×132=106,所以y ^=-4x +106.(3)因为y ^=-4x +106,所以y ^1=-4x 1+106=90,|y ^1-y 1|=|90-90|=0<1, 所以(x 1,y 1)=(4,90)是好数据;y ^2=-4x 2+106=86,|y ^2-y 2|=|86-84|=2>1, 所以(x 2,y 2)=(5,84)不是好数据;y ^3=-4x 3+106=82,|y ^3-y 3|=|82-83|=1=1, 所以(x 3,y 3)=(6,83)是好数据;y ^4=-4x 4+106=78,|y ^4-y 4|=|78-80|=2>1, 所以(x 4,y 4)=(7,80)不是好数据;y ^5=-4x 5+106=74,|y ^5-y 5|=|74-75|=1=1, 所以(x 5,y 5)=(8,75)是好数据;y ^6=-4x 6+106=70,|y ^6-y 6|=|70-68|=2>1, 所以(x 6,y 6)=(9,68)不是好数据; 所以好数据为(4,90),(6,83),(8,75).B 能力提升11.[[答案]]C[[解析]]由残差平方和以及R 2的定义式可得若a 1<a 2,则b 1>b 2,A 的拟合效果更好. 12.[[答案]]1.375[[解析]]由题意可得,当选用函数f (x )=ax 2+bx +c 时,⎩⎪⎨⎪⎧a +b +c =1,4a +2b +c =1.2,9a +3b +c =1.3,解得⎩⎪⎨⎪⎧a =-0.05,b =0.35,c =0.7.所以f (x )=-0.05x 2+0.35x +0.7,f (4)=1.3, 当选用函数g (x )=ab x +c 时⎩⎪⎨⎪⎧ab +c =1,ab 2+c =1.2,ab 3+c =1.3,解得⎩⎪⎨⎪⎧a =-0.8,b =0.5,c =1.4,所以g (x )=-0.8×0.5x +1.4,g (4)=1.35,因为g (4)更接近于1.37,选用函数g (x )=ab x +c 拟合效果较好,所以g (5)=1.375,5月份的销售量为1.375万部.13.解:(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y ^=99+17.5×9=256.5(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.14.解:(1)根据题表中的数据画出散点图如图所示.由图可看出,样本点分布在某条指数函数曲线y =c 1e c 2x 的周围, 于是令z =ln y ,得下表:由表中数据可得z 与x 之间的回归直线方程为z ^=0.662 5+0.020x , 则有y ^=e 0.662 5+0.020x .(2)当x =175时,预报平均体重为y ^=e 0.662 5+0.020×175≈64.23, 因为64.23×1.2≈77.08<82,所以这个男生偏胖.。
导入新课在《数学3》中,我们对两个具有线性相关关系的变量利用回归分析的方法进行了研究,其步骤为:画散点图求回归直线方程用直线方程进行预报提问:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?函数关系是一种确定性关系,而相关关系是一种非确定性关系.那么,这节课我们就学习对具有相关关系的两个变量进行统计分析的一种常用方法——回归分析.1.1回归分析的基本思想及其初步应用教学目标知识目标通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.了解回归模型和函数模型的区别.任何模型只能近似描述实际问题.了解残差分析和指标R2的含义.能力目标具有初步应用回归分析的能力.情感目标通过对回归分析的基本思想的学习,能够在现实生活中应用此思想.教学重难点(1)了解线性回归模型与函数模型的差异;(2)了解判断刻画模型拟合效果的方法-相关指数和残差分析.解释残差变量的含义,了解偏差平方和分解的思想.探究对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),我们知道回归直线y=bx+a 的斜率和截距的最小二乘估计分别为ˆˆˆn i i i=1n 2i i=1(x -x)(y -y)b =,(x-x)a=y -bx,∑∑其中n ni ii=1i=111x=x,y=y,(x,y) n n∑∑称为样本点的中心,你能推导出这两个计算公式吗?回归直线过样本点的中心从已经学过的知识我们知道,斜距和斜率分别是使aˆb ˆˆi i i i Q(α,β)=y -y=y -(βx +α)取最小时的值.由于α,β∑n 2i i i=1Q(α,β)=[y -βx -(y -βx)+(y -βx)-α]n 2i i i i i=12{[y -βx -(y -βx)]+2[y -βx -(y -βx)][(y -βx)-α]+[(y -βx)-α]}⨯=∑ni i i=1ni i i=1[y -βx -(y -βx)](y -βx -α) =(y -βx -α)[y -βx -(y -βx)]∑∑注意到n ni i i=1i=1=(y -βx -α)[y -βx -n(y -βx)]∑∑=(y -βx-α)[ny -n βx-n(y -βx)]=0,n n 2i i i i i=1i=12=[y -βx -(y -βx)]+2[y -βx -(y -βx)](y -βx-α)+n(y -βx-α),∑∑继续∑n22i i i=1Q(α,β)=[y -βx -(y -βx)]+n(y -βx -α),因此∑∑∑22nn n22i i i i i=1i=1i=1=β(x -x)-2β(x -x)(y -y)+(y -y)+n(y -βx-α)⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦∑∑∑∑∑∑2nn22i i i i n2i=1i=1i nn 22i=1i i i=1i=12ni i=1(x -x)(y -y)[(x -x)(y -y)]=n(y -βx -α)+(x -x)β--(x -x)(x -x) +(y -y)继续在上式中,后两项和无关,而前两项为非负数,因此要使Q 取得最小值,当且仅当前两项的值均为0,即有∑∑nii i=1n2ii=1(x-x)(y -y)β=(x-x)这正是我们所要推导的公式.α,β例题1从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重.解答第一步:画散点图020406080150155160165170175180身高/cm体重/k g第二步:求回归方程第三步:代值计算探究身高为172c m的女大学生的体重一定是60.316kg 吗?如果不是,其原因是什么?计算器得:故线性回归方程:当x=172时,0.849.b-85.712,a==ˆˆ85.712.-0.849x y=ˆˆy0.849172-85.712 60.316(kg)=⨯=020406080150155160165170175180身高/cm体重/k g显然,身高172cm 的女大学生的体重不一定是60.316kg ,但一般可以认为她的体重在60.316kg 左右,下图中的样本点和回归直线的相互位置说明了这一点.由于所有的样本点不共线,而只是散布在某一条直线的附近,所以身高和体重的关系可用线性回归模型y=bx+a+e来表示,这里a和b为模型的未知参数,e 是y与bx+a之间的误差.通常e为随机变量,称为随机误差.它的均值E(e)=0,方差D(e)=σ2>0,这样线性回归的完整表达式为y=bx+a+eE(e)=0,D(e)=σ2.注意存在误差的原因(1)随机误差,其大小取决于随机误差的方差. 在线性回归模型中,随机误差e 的方差 2越小,用bx+a 预报真实值y 的精度越高.(2)和为斜率和截距的估计值,它们与真实值a 和b 之间也存在误差.b ˆa ˆ要牢记!探究在线性回归模型中,e 是用bx+a 预报真实值y 的随机误差,它是一个不可观测的量,那么应该怎样研究随机误差呢?在实际应用中,我们用回归方程a ˆxb ˆyˆ+=中的估计bx+a. 由于随机误差e=y-(bx+a),所以是e 的估计值. 对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )yˆy ˆ-y eˆ=而言,它们的随机误差为e i =y i -bx i -a ,i=1,2,…,n ,其估计值为n,1,,2,...,i a ˆx b ˆy y ˆy e ˆi i i i =--=-=i eˆ称为相应于点(x i ,y i )的残差(residual).要牢记!思考如何发现数据中的错误?如何衡量模型的拟合效果?(1)可以利用残差图来分析残差特性;(2)可以利用.ˆˆnn22i i i2i =1i =1nn 22i i i =1i =1(y -y )(y -y)R =1-=(y -y)(y -y)∑∑∑∑来刻画回归的效果.何为残差图?残差图作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.编号12345671020304050607080-10-20-30-40-50-6090100要牢记!对R 2的理解(1)在含有一个解释变量的线性模型中,R 2恰好等于相关系数r 的平方.(2)对于已经获取的样本数据,R 2表达式中的为确定的数.因此R 2越大,意味着残差平方和越小,即模型的拟合效果越好;反之,越差.∑=n1i 2i )y -(y ∑=n1i 2i)y -(y要牢记!用身高预报体重时,需要注意以下问题(1)回归方程只适用于我们所研究的样本总体;(2)我们所建立的回归方程一般都有时间性;(3)样本取值的范围会影响回归方程的适用范围;(4)不能期望回归方程得到的预报值就是预报变量的精确值.建立回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出解释变量和预报变量的散点图,观察它们之间的关系;(3)由经验确定回归方程的类型;(4)按一定规则估计回归方程中的参数;(5)得出结果后分析残差图是否有异常,若有异常,检查数据是否有误,或模型是否合适等.要牢记!为了对x 、Y 两个变量进行统计分析,现有以下两种线性模型和试比较哪一个模型拟合的效果更好.例题2关于X 与Y 有如下数据:x 24568y3040605070ˆy=6.5x +17.5ˆy =7x +17分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较,从而得出结论.ˆ∑∑52i i 2i=1152ii=1(y -y )155R =1-=1-=0.8451000(y-y)22R =1-ˆ∑∑52i i i=152i i=1(y -y )180=1-=0.821000(y -y),84.5%>82%,所以甲选用的模型拟合效果较好.解答课堂小结1.数学知识(1)建立回归模型及残差图分析的基本步骤;(2)不同模型拟合效果的比较方法;(3)相关指数和残差的分析.2. 数学思想数形结合的思想,化归思想及整体思想.3.数学方法数形结合法,转化法,换元法.高考链接1. (2007年浙江)某校有学生2000人,其中高三学生500人,为了了解学生身体素质情况,采用按年级分层抽样的方法,从该学生中抽取一个200人的样本,则样本中高三学生的人数为_________.解析:本题考查抽样的方法. 由已知抽样比200/2000=1/10,故样本中高三学生数为500*(1/10)=50.2.(2007年广东)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.x3456y 2.534 4.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法y=bx+a .求出y关于x的线性回归方程ˆˆ(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?解析:(1)如下图01234567012345产量能耗66.54.5645342.53(2)y x in1i i =⨯+⨯+⨯+⨯=∑= 4.546543x =+++= 3.544.5432.5y =+++=866543i2222n1i 2x =+++=∑=ˆ266.5-4 4.5 3.566.5-63b ===0.786-4 4.586-81⨯⨯⨯ˆˆa=Y-bX =3.5-0.7 4.5=0.35⨯故线性回归方程为y=0.7x+0.35.(3)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35.课堂练习1.选择(1)下列说法中正确的有:()C①若r>0,则x增大时,y也相应增大;②若r<0,则x增大时,y也相应增大;③若r=1或r=-1,则x与y的关系完全对应(由函数关系),在散点图上各个点均在一条直线上A. ①②B. ②③C. ①③D. ①②③解析:若r>0,表示两个相关变量正相关,x增大时,y也相应增大,故①正确. r<0,表示两个变量负相关,x增大时,y也相应减小,故②错误. |r|越接近1,表示两个变量相关性越高,|r|=1表示两个变量有确定的关系(即函数关系),故③正确.(2)对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合A效果最好的模型是()A.模型Ⅰ的相关系数r为0.98B.模型Ⅱ的相关系数r为0.80C.模型Ⅲ的相关系数r为0.50D.模型Ⅳ的相关系数r为0.25解析:根据相关系数的定义和计算公式可知,|r|≦1,且|r|越接近于1,相关程度越大,拟合效果越好;|r|越接近于0,相关程度越小,拟合效果越弱.(3)对有线性相关关系的两个变量建立的回归直线方程中,回归系数()A.可以小于0 B.小于0 C.能等于0 D.只能等于0a xb y ˆˆˆ+=b ˆ解析: 时,得r=0,这时不具有线性相关性,但能大于0,也能小于0.ˆb0=ˆbA2.解答题(1)现随机抽取了我校10名学生在入学考试中的数学成绩(x)与入学后的第一次考试中的数学成绩(y),数据如下:学生号12345678910 x12010811710410311010410599108 y84648468696869465771试问这10个学生的两次数学考试成绩是否具有显著性线性相关关系?查表得自由度为10-2=8相应的相关关系临界值由知,两次数学考试成绩有显著性的线性相关关系.∑==101i 2i116584x∑==101i 2i47384y107.8x =68y =73796yx 101i ii∑==易得则相关系数为解答227379610107.868r 0.7506(11658410107.8)(473841068)-⨯⨯=≈-⨯-⨯0.05r 0.6021 =0.05r r >(2)观察两相关量得如下数据:x-1-2-3-4-553421 y-9-7-5-3-115379求两变量间的回归方程.i 12345678910x i -1-2-3-4-553421y i -9-7-5-3-115379x i y i 9141512551512149解答列表:∑∑∑10101022ii iii=1i=1i=1x =0,y =0,=110,=330,=110.y y xx∑∑10i i i=11022i i=1-10x y 110-100b ===1110-100-10y x x x ⨯⨯⨯a =y -bx =0-b 0=0⨯ˆy=x .所求回归直线方程为习题解答1. 画散点图的目的是通过变量的散点图判断两个变量更近似于什么样的函数关系,以确定是否直接用线性回归模型来拟合原始数据.2. 分析残差可以帮助我们解决以下几个问题:(1)寻找异常点,就是残差特别大的点,考察相应的样本数据是否有错;(2)分析残差图可以发现模型选择是否合适.3.(1)解释变量和预报变量的关系是线性函数关系;(2)R2=1.。
第三章统计案例,你坐过火车、乘过飞机吗?晕车、晕机与性别有无关系?肺癌是人类的一大杀手,吸烟与患肺癌的关联性究竟有多大?你了解过你们班同学的身高与体重吗,身高与体重是否线性相关?你统计过你们班同学的考试成绩吗,物理成绩的高低与数学成绩关联度有多大?……这些都是统计学研究的内容.本章我们将要学习独立性检验和回归分析的基本思想、方法.学习本章要注意学习收集、整理、分析数据的方法,体会统计分析的基本思想、建模思想和现代计算技术在统计中的应用,体会统计思维和确定性思维的差异.3.1回归分析的基本思想及其初步应用自主预习·探新知情景引入2019年6月17日四川宜宾发生6.1级地震,此后40分钟内连发四次余震,最高震级5.1级,此次地震余震频繁而且震级还高,你知道地震的震级与地震次数之间有什么关系吗?新知导学一、回归直线方程1.回归分析是处理两个变量之间__相关关系__的一种统计方法.若两个变量之间具有线性相关关系,则称相应的回归分析为__线性回归分析__.2.回归直线方程为y^=b^x+a^,其中b^=__∑ni=1(x i-x)(y i-y)∑ni=1(x i-x)2__a^=__y-b^x,__(x,y)__称为样本点的中心.3.线性相关关系强与弱的判断:用__相关系数r__来描述线性相关关系的强弱.对于变量x、y随机抽取到的n对数据(x1,y1)、(x2,y2)、…、(x n,y n),其相关系数r=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2∑i=1n(y i-y)2=∑i=1nx i y i-n x y(∑i=1nx2i-n x2)(∑i=1ny2i-n y2).当r>0时,表明两个变量__正相关__;当r<0时,表明两个变量__负相关__.r的绝对值越接近1,表明两个变量的线性相关性越__强__;r的绝对值接近于0时,表明两个变量之间几乎不存在线性相关关系.通常当|r|大于__0.75__时,认为两个变量有很强的线性相关关系.二、线性回归分析1.随机误差(1)随机误差的概念:当样本点散布在某一条直线的附近,而不是在一条直线上时,不能用一次函数y=bx+a来描述两个变量之间的关系,而是用线性回归模型__y=bx+a+e__来表示,这里__x__称为解释变量,__y__称为预报变量,__e__称为随机误差,E(e)=__0__,D(e)=__σ2__.(2)随机误差及其产生的原因从散点图中我们可以看到,样本点散布在某一条直线附近,而不是在一条直线上,所以不能用一次函数y=bx+a来描述它们之间的关系,我们用下面的线性回归模型来表示:y=bx +a+e,其中a、b为模型的未知数,e称为随机误差.产生随机误差的主要原因有以下3个方面:①用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型是什么)所引起的误差.可能存在非线性的函数能更好地描述y与x之间的关系,但是现在却用线性函数来表述这种关系,结果会产生误差.这种由模型近似所引起的误差包含在e 中.②忽略了某些因素的影响.影响变量y 的因素不只变量x ,可能还包括其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),它们的影响都体现在e 中.③观测误差.由于测量工具等原因,导致y 的观测值产生误差(比如一个人的体重是确定的数,但由于测量工具的影响和测量人技术的影响可能会得到不同的观测值,与真实值之间存在误差),这样的误差也包含在e 中.2.残差对于样本点(x 1,y 1)、(x 2,y 2)、…、(x n ,y n ),其回归方程为y ^=b ^x +a ^,用y ^作为回归模型⎩⎪⎨⎪⎧y =bx +a +e E (e )=0,D (e )=σ2中bx +a 的估计值,随机误差e i =y i -bx i -a 的估计值e ^i =__y i -b ^x i -a ^__(i =1,2,…,n ),称为相应于点(x i ,y i )的残差.3.残差图以__残差__为纵坐标,__样本编号__(或身高数据,或体重的估计值等)为横坐标作出的图形,称为残差图.4.在线性回归模型中,R 2表示解释变量对预报变量变化的__贡献率__.R 2越接近于1,表示解释变量和预报变量的线性相关性越强;反之,R 2越小,说明随机误差对预报变量的效应越大.相关指数R 2的计算公式是R 2=1-∑ni =1 (y i -y ^i )2∑ni =1 (y i -y)2.R 2的值越大,说明残差平方和越小,也就是说模型的拟合效果(即回归效果)越__好__. 在含有一个解释变量的线性模型中,R 2恰好等于__相关系数r __的平方.预习自测1.在对两个变量x ,y 进行线性回归分析时,有下列步骤: ①对所求出的回归直线方程作出解释; ②收集数据(x i ,y i ),i =1,2,…,n ; ③求线性回归方程; ④求相关系数;⑤根据所搜集的数据绘制散点图.如果根据可行性要求能够作出变量x ,y 具有线性相关的结论,则在下列操作顺序中正确的是( D )A .①②⑤③④B .③②④⑤①C .②④③①⑤D .②⑤④③①[解析] 对两个变量进行回归分析时,首先收集数据(x i ,y i ),i =1,2,…,n ;根据所搜集的数据绘制散点图. 观察散点图的形状,判断线性相关关系的强弱, 求相关系数,写出线性回归方程, 最后依据所求出的回归直线方程作出解释; 故正确顺序是②⑤④③①, 故选D .2.(2020·南充模拟)已知变量x 与变量y 之间具有相关关系,并测得如下一组数据:则变量x 与y A .y ^=0.7x -2.3 B .y ^=-0.7x +10.3 C .y ^=-10.3x +0.7 D .y ^=10.3x -0.7[解析] 根据表中数据,得; x =14(6+5+10+12)=334,y =14(6+5+3+2)=4,且变量y 随变量x 的增大而减小,是负相关,所以,验证x =334时,y ^=-0.7×334+10.3≈4,即回归直线y ^=-0.7x +10.3过样本中心点(x ,y ). 故选B .3.(2020·武汉高二检测)在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:通过计算得到回归方程为y ^=0.577x -0.448,利用这个方程,我们得到年龄37岁时体内脂肪含量为20.90%,那么数据20.90%的意义是( D )A .某人年龄37岁,他体内脂肪含量为20.90%B .某人年龄37岁,他体内脂肪含量为20.90%的概率最大C .某人年龄37岁,他体内脂肪含量的期望值为20.90%D .20.90%是对年龄为37岁的人群中的大部分人的体内脂肪含量所作出的估计 [解析] 利用回归方程y ^=0.577x -0.448, 可得x =37时,y ^=20.901,即到年龄37岁时体内脂肪含量约为20.90%,故20.90%是对年龄为37岁的人群中的大部分人的体内脂肪含量所作出的估计, 故选D .4.为了考察两个变量x 和y 之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l 1和l 2,已知两个人在试验中发现对变量x 的观测数据的平均值都是s ,对变量y 的观测数据的平均值都是t ,那么下列说法正确的是( A )A .l 1和l 2有交点(s ,t )B .l 1与l 2相交,但交点不一定是(s ,t )C .l 1与l 2必定平行D .l 1与l 2必定重合[解析] 由题意知(s ,t )是甲、乙两位同学所做试验的样本点的中心,而线性回归直线恒过样本点的中心,故选A .5.(2020·全国卷Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y 和温度x (单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据 得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( D )A .y =a +bxB .y =a +bx 2C .y =a +b e xD .y =a +b ln x[解析] 由散点图分布可知,散点图分布在一个对数函数的图象附近,因此,最适合作为发芽率y 和温度x 的回归方程类型的是y =a +b ln x .故选D .互动探究·攻重难互动探究解疑 命题方向❶变量间的相关性检测典例1 关于两个变量x 和y 的7组数据如下表所示:x 21 23 25 27 29 32 35 y711212466115325试判断y 与x 是否线性相关.[解析] x -=17(21+23+25+27+29+32+35)≈27.4,y -=17(7+11+21+24+66+115+325)≈81.3,∑i =17x 2i =212+232+252+272+292+322+352=5 414, ∑i =17x i y i =21×7+23×11+25×21+27×24+29×66+32×115+35×325=18 542.∑i =17y 2i =72+112+212+242+662+1152+3252=124 393, ∴r =∑i =17x i y i -7x -y-(∑i =17x 2i -7x 2)(∑i =17y 2i -7y 2)=18 542-7×27.4×81.3(5 414-7×27.42)×(124 393-7×81.32)≈2 948.663 520.92=0.863 9.由于r =0.863 9>0.75,∴x 与y 具有线性相关关系.『规律总结』 变量间是否具有线性相关关系,可通过散点图或相关系数作出判断,散点图只是粗略作出判断,用相关系数能够较准确的判断相关的程度.┃┃跟踪练习1__■现随机抽取了我校10名学生在入学考试中的数学成绩(x )与入学后的第一次考试数学成绩(y ),数据如下表:学生号1 2 3 4 5 6 7 8 9 10 x 120 108 117 104 103 110 104 105 99 108 y 84648468696869465771请问:这10个学生的两次数学考试成绩是否具有显著的线性相关关系? [解析] x -=110(120+108+…+99+108)=107.8,y -=110(84+64+…+57+71)=68,∑i =110x 2i =1202+1082+…+992+1082=116 584, ∑i =110y 2i =842+642+…+572+712=47 384, ∑i =110x i y i =120×84+108×64+…+108×71=73 796,所以,相关系数为 r =73 796-10×107.8×68(116 584-10×107.82)(47 384-10×682)≈0.750 6,由0.750 6>0.75知,两次数学考试成绩有显著的线性相关关系. 命题方向❷求线性回归方程典例2 某班5名学生的数学和物理成绩如表:学生学科成绩 A B C D E 数学成绩(x ) 88 76 73 66 63 物理成绩(y )7865716461(1)(2)求物理成绩y 对数学成绩x 的线性回归方程; (3)一名学生的数学成绩是96,预测他的物理成绩. [解析] (1)散点图如图.(2)x =15×(88+76+73+66+63)=73.2,y =15×(78+65+71+64+61)=67.8.∑i =15x i y i =88×78+76×65+73×71+66×64+63×61=25 054.∑i =15x 2i =882+762+732+662+632=27 174, 所以=∑i =15x i y i -5x ·y∑i =15x 2i -5x2≈0.625,=y -x ≈67.8-0.625×73.2=22.05, 所以y 对x 的回归直线方程是=0.625x +22.05.(3)当x =96时,=0.625×96+22.05≈82,即可以预测他的物理成绩是82.『规律总结』 1.散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,从图中看它们有无关系,关系的密切程度,再进行相关的回归分析.2.求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.┃┃跟踪练习2__■(2020·湖南郴州质检)为了探究车流量与PM2.5的浓度是否相关,现采集到北方某城市2016年12月份某星期星期一到星期日某一时间段车流量与PM2.5的数据如下表:时间 星期一 星期二 星期三 星期四 星期五 星期六 星期日 车流量x /万辆 1 2 3 4 5 6 7 PM2.5的浓度y (微克/立方米)28303541495662(1)由散点图知y 与x 具有线性相关关系,求y 关于x 的线性回归方程; (2)①利用(1)所求的回归方程,预测该市车流量为8万辆时PM2.5的浓度;②规定:当一天内PM2.5的浓度平均值在(0,50]内,空气质量等级为优;当一天内PM2.5的浓度平均值在(50,100]内,空气质量等级为良.为使该市某日空气质量为优或良,则应控制当天车流量在多少万辆以内?(结果以万辆为单位,保留整数.)参考公式:回归直线的方程是y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x . [解析] (1)由数据可得x =17(1+2+3+4+5+6+7)=4,y =17(28+30+35+41+49+56+62)=43,∑i =17x i y i =1372,∑i =17x 2i =140,b ^=∑i =17x i y i -7x y∑i =17x 2i -7x2=1372-1204140-112=6,a ^=y -b ^x =43-6×4=19,故y 关于x 的线性回归方程为y =6x +19.(2)①当车流量为8万辆,即x =8时,y ^=6×8+19=67.故当车流量为8万辆时,PM2.5的浓度约为67微克/立方米.②根据题意得6x +19≤100,即x ≤13.5,故要使该市某日空气质量为优或良,应控制当天车流量在13万辆以内.命题方向❸线性回归分析典例3 某运动员训练次数与训练成绩之间的数据关系如下:次数(x ) 30 33 35 37 39 44 46 50 成绩(y )3034373942464851(1)(2)求出回归方程; (3)作出残差图;(4)计算R 2,并说明运动员的训练次数对成绩的影响占百分之几.[解析] (1)作出该运动员训练次数x 与成绩y 的散点图,如图所示.由散点图可知,它们之间具有相关关系.(2)x =39.25,y=40.875,∑i =18x 2i =12 656,∑i =18x i y i =13 180,所以b ^=∑i =18(x i -x )(y i -y )∑i =18(x i -x )2≈1.041 5,a ^=y -b ^x =-0.003 875,∴回归直线方程为y ^=1.041 5x -0.003 875.(3)残差分析:下面的表格列出了运动员训练次数和成绩的原始数据以及相应的残差数据.x y e ^=y -y ^30 30 -1.241 1 33 34 -0.365 6 35 37 0.551 4 37 39 0.468 4 39 42 1.385 4 44 46 0.177 9 46 48 0.094 9 5051-1.071 1作残差图如图所示.由图可知,残差点比较均匀地分布在水平带状区域内,说明选择的模型比较合适. (4)计算相关指数R 2≈0.985 5,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.『规律总结』 1.解答本类题目应先通过散点图来分析两个变量间的关系是否线性相关,再利用求回归方程的公式求解回归方程,并利用残差图或R 2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.2.“R 2、残差图”在回归分析中的作用:(1)R 2是用来刻画回归效果的,由R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2可知R 2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.(2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报精度越高.┃┃跟踪练习3__■为研究质量x (单位:克)对弹簧长度y (单位:厘米)的影响,对不同质量的6个物体进行测量,数据如表所示:x 5 10 15 20 25 30 y7.258.128.959.9010.911.8(1)作出散点图,并求线性回归方程; (2)求出R 2; (3)进行残差分析.[解析] (1)散点图如图所示.因为x -=16×(5+10+15+20+25+30)=17.5,y -=16×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,∑i =16x 2i =2275,∑i =16x i y i =1 076.2 计算得,b ^≈0.183,a ^≈6.285, 所求线性回归方程为y ^=0.183x +6.285. (2)列表如下:y i -y ^i 0.05 0.005 -0.08 -0.045 0.04 0.025 y i -y --2.24-1.37-0.540.411.412.31所以∑i=16(y i-y^i)2≈0.013 18,∑i=16(y i-y-)2=14.678 4.所以,R2=1-0.013 1814.678 4≈0.999 1,回归模型的拟合效果较好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与重量成线性关系.命题方向❹非线性回归问题典例4有一测量水流的实验装置——量水堰,测得试验数据如下表:i 1234567水高h(厘米)0.7 1.1 2.5 4.98.110.213.5流量Q(升/分)0.0820.25 1.811.237.866.5134 根据表中数据,建立Q与h之间的回归方程.[思路分析]作散点图,观察确定y与x的近似函数关系,作变量替换,列出新的对应值表求出对应的线性回归方程,再作变量替换得回归方程.[解析]根据测得数据作出散点图,如图,根据已有的函数知识,可以发现样本点分布在某一条幂函数型曲线Q=αhβ(α、β是待定的正常数)①的周围.为此将Q=αhβ两边取对数,得到lg Q=βlg h+lgα②,令lg Q=y,lg h=x,于是②式可化为y=βx+lgα.这样y就是x的线性函数了.可以利用线性回归模型来建立y和x之间的线性回归方程y=bx+a(β=b,lgα=a)了.i h i Q i x i=lg h i y i=lg Q i x2i x i y i10.70.082-0.154 9-1.086 20.0240.168 32 1.10.250.041 4-0.602 10.001 7-0.024 93 2.5 1.80.397 90.255 30.158 30.101 64 4.911.20.690 2 1.049 20.476 40.724 2 58.137.80.9085 1.574 00.825 4 1.430 0610.2 66.5 1.008 6 1.822 8 1.017 3 1.838 5 7 13.5 1341.130 32.127 11.277 62.404 3∑∑i =17x i =4.022∑i =17y i =5.140 1∑i =17x 2i =3.780 7 ∑i =17x i y i =6.642先作出上面数据表,由表得到β ≈2.509 7,lg α≈-0.707 7,则α≈0.196 0.于是所得的回归方程为Q =0.193h 2.509 7.『规律总结』 1.在建立经验公式时,选择合适的函数类型是十分重要的.通常是根据实验数据,画出散点图,从中观察其变化规律,并与已知函数的图象对比,看接近于什么函数,根据实践经验来决定选取公式的类型,所选的类型是否符合实际,还需要通过实践来检验.有时候还需要选择不同的模拟函数作比较.2.如果观察散点图,发现点的分布不呈条状分布,而是与某种曲线相近,这时可选择这条曲线对应的函数作为拟合函数,作恰当变换,转化为线性函数,用线性回归模型求解.例如:①反比例函数y =a +b x 可作变换t =1x,得y =a +bt .②幂函数型y =ax b (a >0)可作变换Y =ln y ,m =ln a ,t =ln x ,则有 Y =m +bt .③指数型函数y =ka bx (a >0且a ≠1,k >0)可作变换Y =ln y ,m =ln k ,则有:Y =m +(b ln a )x ┃┃跟踪练习4__■为了研究某种细菌随时间x 的变化繁殖个数y 的变化,收集数据如下:时间x /天 1 2 3 4 5 6 繁殖个数y612254995190(1)将天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图; (2)描述解释变量与预报变量之间的关系; (3)计算残差、相关指数R 2.[解析] (1)由表中数据作散点图如下图所示.(2)由散点图看出样本点分布在一条指数函数y =c 1ec 2x 的图象的周围,其中c 1和c 2是待定系数.于是令z=ln y,则z=bx+a (a=ln c1,b=c2),因此变换后的样本点应该分布在直线z =bx+a的周围,因此可以用线性回归模型来拟合z与x的关系,则变换后的样本数据如下表:x 12345 6z 1.79 2.48 3.22 3.89 4.55 5.25由表中数据得到线性回归方程z=0.69x+1.115.因此细菌繁殖个数关于时间的回归方程为y^=e0.69x+1.115.(3)列出残差表:编号i 12345 6y^i6.0812.1224.1748.1896.06191.52y i612254995190e^i-0.08-0.120.830.82-1.06-1.52∑i=16e^2i=∑i=16(y i-y^i)2=4.8161,∑i=16(y i-y-)2=24630.1,R2=1-4.816124630.1≈0.9998.故解释变量天数对预报变量繁殖个数解释了99.98%,说明该回归模型拟合效果非常好.学科核心素养利用线性回归方程进行预报变量的估计(规律方法)利用线性回归方程可以进行预报,线性回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制的依据.典例5(2020·福州模拟)对具有线性相关关系的变量x,y,测得一组数据如下表:x 24568y 2040607980根据上表,利用最小二乘法得它们的回归直线方程为y=10.5x+a^,据此模型来预测当x =20时,y的估计值为(C)A.210B.210.5C.211.5D.212.5[解析] 由已知得x =5,y =54,则(5,54)满足回归直线方程y ^=10.5x +a ^,解得a ^=1.5.因此y ^=10.5x +1.5,当x =20时,y ^=10.5×20+1.5=211.5.故选C .『规律总结』 已知变量的某个值去预测相应预报变量的某个值时,先求出其所满足的回归直线方程y ^=b ^x +a ^,把已知x 取某一个值代入回归方程y ^=b ^x +a ^中,从而可求出y 的估计值.┃┃跟踪练习5__■某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了4次试验,得到数据如下:零件的个数x (个) 2 3 4 5 加工的时间y (小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求y 关于x 的线性回归方程y ^=b ^x +a ^; (3)试预测加工10个零件需要的时间.参考公式:⎩⎪⎨⎪⎧b ^=∑i =1n(x i-x )(y i-y )∑i =1n(x i-x )2=∑i =1nx i y i-n x y ∑i =1nx 2i-n x2a ^=y -b ^x[解析] (1)散点图如图所示:(2)由题中表格数据得x=3.5,y =3.5,∑i =14 (x i -x )(y i -y )=3.5,∑i =14(x i -x )2=5.由公式计算得b ^=∑i =14(x i -x )(y i -y )∑i =14(x i -x )2=0.7,a ^=y -b ^x ,所以所求线性回归方程为y ^=b ^x +a ^=0.7x +1.05. (3)当x =10时,y ^=b ^x +a ^=0.7×10+1.05=8.05, 所以预测加工10个零件需要8.05小时.易混易错警示 求回归方程典例6 在一化学反应过程中,某化学物质的反应速度y (g/min)与一种催化剂的量x (g)有关,现收集了如表所示的8组数据,则y 与x 的回归方程是__y ^=e 0.1812x -0.8485__.催化剂是x (g) 15 18 21 24 27 30 33 36 化学物质反应速度y (g/min) 6830277020565350[错解] 由表中数据可得x =25.5,y=95.125,∑i =18x 2i =5580,∑i =18x i y i =24297,所以b ^=∑i =18x i y i -8x y∑i =18x 2i -8x2≈12.94,a ^=y -b ^x =-234.845.所以回归方程式为y ^=-234.845+12.94x .[辨析] 错误原因:未画散点图来确定回归类型,题中要求回归方程但不一定是回归直线方程,错解中盲目地求成了回归直线方程.防范措施:回归分析时,必须先画散点图,确定两个变量是否有关系,有什么样的关系,然后确定是哪种回归模型才能进一步求解.[正解] 根据收集的数据作散点图,如图所示.根据样本点的分布情况,可选用指数型函数模型y =c 1e c 2x =(c 1,c 2为待定的参数),令z =ln y ,则z =c 2x +ln c 1,即变换后样本点应该分布在直线z =bx +a (a =ln c 1,b =c 2)的周围,由y 与x 的数据表得z 与x 的数据表如下:x 15 18 21 24 27 30 33 36 z1.7922.0793.4013.2964.2485.3234.1745.858作出z 与x 的散点图,如图所示,由图可以看出变换后的样本点分布在一条直线附近,所以可用线性回归方程来拟合.由表中数据可得b ^≈0.181 2,a ^≈-0.848 5,故z ^=0.181 2x -0.848 5,所以y ^=e 0.181 2x -0.848 5,因此该化学物质的反应速度与催化剂的量的非线性回归方程为y ^=e 0.181 2x -0.848 5.课堂达标·固基础1.关于回归分析,下列说法错误的是( D ) A .回归分析是研究两个具有相关关系的变量的方法 B .散点图中,解释变量在x 轴,预报变量在y 轴 C .回归模型中一定存在随机误差 D .散点图能明确反映变量间的关系[解析] 用散点图反映两个变量间的关系时,存在误差.2.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2分别如下表:A .甲B .乙C .丙D .丁[解析] 相关指数R 2越大,表示回归模型的效果越好.3.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( D )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg[解析] A ,B ,C 均正确,是回归方程的性质,D 项是错误的,线性回归方程只能预测学生的体重,选项D 应改为“若该大学生某女生身高为170 cm ,则估计其体重大约为58.79 kg ”.4.某单位为了了解用电量y 度与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得线性回归方程y ^=bx +a 中b =-2,预测当气温为-4 ℃时,用电量的度数约为__68__.[解析] x =10,y =40,回归方程过点(x ,y ), ∴40=-2×10+a . ∴a =60.∴y ^=-2x +60.令x =-4,∴y ^=(-2)×(-4)+60=68.。
§3.1 回归分析的基本思想及其初步应用一、选择题1.掷一枚硬币,记事件A :“出现正面”,B :“出现反面”,则有( )A .A 与B 相互独立 B .P (AB )=P (A )·P (B )C .A 与B 不相互独立D .P (AB )=142.在一个2×2列联表中,若由数据计算得χ2=5.653,则两个变量之间有关系的可能性为( )A .99%B .95%C .90%D .85%3.在一次独立性检验中,根据计算结果,认为A 与B 无关的可能性不足1%,那么χ2的一个可能取值为( )A .6.635B .5.024C .7.897D .3.8414.调查男女学生在购买食品时是否看出厂日期,与性别有关系时用____最有说服力( )A .期望B .方差C .正态分布D .独立性检验5.下面是一个2×2列联表y 1 y 2 总计 x 1 a 21 73 x 2 2 25 27 总计b46则表中a ,b 处的值分别为( ) A .94、96 B .52、50 C .52、54D .54、52 6.下列说法正确的个数为( )①对事件A 与B 的检验无关时,即两个事件互不影响; ②事件A 与B 关系越密切,则χ2就越大;③χ2的大小是判定事件A 与B 是否相关的唯一根据; ④若判定两事件A 与B 有关,则A 发生B 一定发生. A .1个 B .2个 C .3个D .4个 7.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女 总计爱好402060 不爱好203050 总计6050110由χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)算得,K2=110×(40×30-20×20)260×50×60×50≈7.8.附表:P(K2≥k)0.0500.0100.001χ 3.841 6.63510.828参照附表,得到的正确结论是()A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”二、填空题8.根据下列数据,χ2=____________.B B总计A 39157196A29167196总计683243929.已知表中数据(单位:亩)病虫害无病虫害浸种处理20100没浸种处理8080则进行种子浸种处理与发生病虫害____________明显关系.三、解答题10.某高校共有15000人,其中男生10500人,女生4500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时)(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4个小时的概率.(3)在样本数据中,有60位女生的每周平均体育运动时间超过4个小时.请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)P(K2≥k0)0.100.050.0100.005k0 2.706 3.841 6.6357.879——★参考答案★——1.[[解析]]∵事件A与事件B是对立事件,故排除A、B、D,∴应选C.[[答案]] C2.[[解析]] ∵χ2=5.653>3.841,∴有95%的把握说两个变量之间有关系. [[答案]] B3.[[解析]] 由χ2的数值与两个临界值3.841、6.635进行对比. [[答案]] C4.[[解析]] 由独立性检验的应用知选D. [[答案]] D5.[[解析]] 由题意得⎩⎪⎨⎪⎧ a +21=73a +2=b ,∴⎩⎪⎨⎪⎧a =52b =54.故选C. [[答案]] C6.[[解析]] 由独立性检验知,只有②成立.故选A. [[答案]] A7.[[解析]] 根据独立性检验的定义,由χ2≈7.8>6.635可知,有99%以上把握认为“爱好该项运动与性别有关”. [[答案]] A8.[[解析]] 由公式可得χ2=1.779. [[答案]] 1.7799.[[解析]] ∵χ2≈33.185 2>6.635,∴有明显关系. [[答案]] 有10.解 (1)300×450015000=90,所以应收集90位女生的样本数据.(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时,又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表男生 女生 总计 每周平均体育运动时间不超过4小时 45 30 75 每周平均体育运动时间超过4小时165 60 225 总计21090300综合列联表可算得K 2=300×(2250)275×225×210×90=10021≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关.”。
§3.1 回归分析的基本思想及其初步应用一、选择题1.(福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.28.610.011.311.9支出y(万元) 6.27.58.08.59.8根据上表可得回归直线方程y=b x+a,其中b=0.76,a=y-b x.据此估计,该社区一户年收入为15万元家庭的年支出为()A.11.4万元B.11.8万元C.12.0万元D.12.2万元2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表:甲乙丙丁R20.980.780.500.85A.甲B.乙C.丙D.丁3.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是()4.某产品的广告费用x与销售额y的统计数据如下表:广告费用x/万元423 5销售额y/万元49263954根据上表可得回归方程y=b x+a中的b为9.4,据此模型预报广告费用为6万元时销售额为()A .63.6万元B .65.5万元C .67.7万元D .72.0万元5.(湖北高考)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关 二、填空题6.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________.7.若一个样本的总偏差平方和为80,残差平方和为60,则相关指数R 2为________. 8.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本(单位:元)的资料进行线性回归分析,结果如下:x =72,y =71,∑i =16x 2i =79,∑i =16x i y i =1 481.则销量每增加1 000箱,单位成本下降________元.9.某中高二某班为了对即将上市的班刊进行合理定价,将对班刊按事先拟定的价格进行试销,得到如下数据:(1)求线性回归方程y =b x +a .(2)预计今后的销售中,销量与单价服从(1)中的关系,且班刊的成本是4元/件,为了获得最大利润,班刊的单价定为多少元?10.下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2017年我国生活垃圾无害化处理量. 参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,i =17(y i -y )2=0.55,7≈2.646.参考公式:相关系数r =i =1n (t i -t )(y i -y )i =1n (t i -t )2i =1n (y i -y )2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为b ^=i =1n (t i -t )(y i -y )i =1n (t i -t )2,a ^=y -b ^t .11.假设关于某设备使用年限x (年)和所支出的维修费用y (万元)有如下统计资料:x 2 3 4 5 6 y2.23.85.56.57.0若由资料知,y 对x 呈线性相关关系,试求:(1)回归直线方程;(2)估计使用年限为10年时,维修费用约是多少?——★参考答案★——一、选择题1.[[答案]]B[[解析]]由题意知,x -=8.2+8.6+10.0+11.3+11.95=10,y -=6.2+7.5+8.0+8.5+9.85=8,∴a ^=8-0.76×10=0.4,∴当x =15时,y ^=0.76×15+0.4=11.8(万元). 2.[[答案]]A[[解析]]相关指数R 2越大,表示回归模型的拟合效果越好. 3.[[答案]]A[[解析]]用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高. 4.[[答案]]B[[解析]]样本点的中心是(3.5,42), 则a ^=y -b ^x =42-9.4×3.5=9.1, 所以回归直线方程是y ^=9.4x +9.1, 把x =6代入得y ^=65.5. 5.[[答案]]C[[解析]]因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关. 二、填空题 6.[[答案]]1[[解析]]根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1. 7.[[答案]]0.25[[解析]]回归平方和=总偏差平方和-残差平方和=80-60=20, 故R 2=2080=0.25⎝⎛⎭⎫或R 2=1-6080=0.25. 8.[[答案]]1.818 2[[解析]]由题意知,b ^=1 481-6×72×7179-6×⎝⎛⎭⎫722≈-1.818 2,a ^=71-(-1.818 2)×72≈77.36,y ^=-1.818 2x +77.36,销量每增加1 000箱,则单位成本下降1.818 2元.9.解:(1)x =8+8.2+8.4+8.6+8.8+96=8.5,y =90+84+83+80+75+686=80,∑i =14x i y i =8×90+8.2×84+8.4×83+8.6×80+8.8×75+9×68=4 066,∑i =14x 2i =82+8.22+8.42+8.62+8.82+92=434.2, b ^=i =1n(x i -x )(y i -y )i =1n(x i -x )2=4 066-6×8.5×80434.2-6×8.52=-20,a ^=y -b ^x =80+20×8.5=250, 所求线性回归方程为y ^=-20x +250.(2)获得利润z =(x -4)y =-20x 2+330x -1 000, 当x =8.25时,z max =361.25(元),所以当单价定为8.25元时,可获得最大利润. 10.解:(1)由折线图中的数据和附注中的参考数据得 t =4,∑i =17(t i -t )2=28,i =17(y i -y )2=0.55,∑i =17(t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,∴r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当大,从而可以用线性回归模型拟合y 与t 的关系. (2)由y =9.327≈1.331及(1)得b ^=i =17(t i -t )(y i -y )i =17(t i -t )2=2.8928≈0.103. a ^=y -b ^t ≈1.331-0.103×4≈0.92. 所以y 关于t 的回归方程为y ^=0.92+0.10t .将2017年对应的t =10代入回归方程得y ^=0.92+0.10×10=1.92.所以预测2017年我国生活垃圾无害化处理量约为1.92亿吨. 11.解:(1)由表格中的数据可得 x =15(2+3+4+5+6)=4y =15(2.2+3.8+5.5+6.5+7.0)=5.∑i =15x 2i =22+32+42+52+62=90, ∑i =15x i y i =2×2.2+3×3.8+4×5.5+5×6.5+6×7.0=112.3,所以回归系数b ^=∑i =15x i y i -5x -y -∑i =15x 2i -5x2=112.3-5×4×590-5×42=12.310=1.23.可得a ^=y -b ^x =5-1.23×4=0.08. 所以回归直线方程为y ^=1.23x +0.08.(2)当x =10时,y ^=1.23×10+0.08=12.38(万元) 即估计用10年时,维修费约为12.38万元.。
温馨提示:此套题为Word版,请按住Ctrl,滑动鼠标滚轴,调节合适的观看比例,答案解析附后。
关闭Word文档返回原板块。
课时提升作业(十八)回归分析的基本思想及其初步应用一、选择题(每小题3分,共12分)1.(2014·汕头高二检测)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )A.y与x具有正的线性相关关系B.回归直线过样本点的中心点(,)C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为58.79kg【解析】选D.对于A,0.85>0,所以y与x具有正的线性相关关系,故正确;对于B,回归直线过样本点的中心点(,),故正确;对于C,因为回归方程为=0.85x-85.71,所以该大学某女生身高增加1cm,则其体重约增加0.85kg,故正确;对于D,x=170cm时,=0.85×170-85.71=58.79,但这是预测值,不可断定其体重为58.79kg,故不正确.2.(2013·福建高考)已知x与y之间的几组数据如下表:x 1 2 3 4 5 6y 0 2 1 3 3 4假设根据上表数据所得线性回归直线方程为=x+,若某同学根据上表中的前两组数据和求得的直线方程为y′=b′x+a′,则以下结论正确的是( ) A.>b′,>a′ B.>b′,<a′C.<b′,>a′D.<b′,<a′【解题指南】审题时,要注意“直线方程”和“回归直线方程”的区别. 【解析】选C.过(1,0)和(2,2)的直线方程为y=2x-2,画出六点的散点图,回归直线的大概位置如图所示,显然b′>,>a′.3.(2014·南充高二检测)某单位为了制定节能减排的目标,先调查了用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:气温(℃) 18 13 10 -1用电量(度) 24 34 38 64由表中数据,得线性回归方程y=-2x+a,则a= ( )A.20B.40C.60D.80【解析】选C.根据所给的表格中的数据,求出数据的样本点的中心,根据样本点的中心在线性回归直线上,代入可得a的值.由表格得==10,==40,因为(,)满足线性回归方程y=-2x+a,则可知40=10×(-2)+a,解得:a=60,4.船员人数关于船的吨位的线性回归方程是=95+0.06x.如果两艘轮船吨位相差1000吨.则船员平均人数相差( )A. 40B.57C.60D.95【解题指南】线性回归方程是=95+0.06x,故回归系数为0.06,由于两艘轮船吨位相差1000吨,故可求船员平均人数的差值.【解析】选C.由题意,由于线性回归方程是=95+0.06x.因为两艘轮船吨位相差1000吨,所以船员平均人数的差值是0.06×1000=60.二、填空题(每小题4分,共8分)5.在研究身高和体重的关系时,求得R2≈,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多.【解析】R2≈64%表示“身高解释了64%的体重变化”或者说体重差异有64%是由身高引起的.答案:0.646.(2014·连云港高二检测)已知一系列样本点(x i,y i)(i=1,2,3,…,n)的线性回归方程为=x+.若样本点(1,1)与(2,4)的残差相同,则= .【解析】由残差的定义可得,1-(+)=4-(2+),化简得,=3.答案:3三、解答题(每小题10分,共20分)7.(2014·郑州高二检测)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据x 3 4 5 6y 2.5 3 4 4.5(1)请画出上表数据的散点图.(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+.(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)【解析】(1)如图(2)由对照数据,计算得:x i y i=66.5,=32+42+52+62=86,=4.5,=3.5,===0.7,=-=3.5-0.7×4.5=0.35,所求的线性回归方程为:=0.7x+0.35.(3)x=100,=100×0.7+0.35=70.35(吨),预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨). 8.为了研究某种细菌随时间x变化繁殖个数y的变化情况,收集数据如下:时间x(天) 1 2 3 4 5 6繁殖个数y 6 12 25 49 95 190(1)用时间作解释变量,繁殖个数作预报变量作出这些数据的散点图.(2)求y与x之间的回归方程.(3)计算残差平方和,R2,并描述解释变量与预报变量之间的关系.【解析】(1)散点图如图所示:(2)由散点图看出样本点分布在一条指数曲线y=c 1的周围,于是令z=lny,则x 1 2 3 4 5 6z 1.79 2.48 3.22 3.89 4.55 5.25所以=0.69x+1.112,则有=e0.69x+1.112.(3)6.06 12.09 24.09 48.04 95.77 190.9 y 6 12 25 49 95 19062i i 1e =∑=(y i -)2=3.1643,(y i -)2=-62y ≈24642.83, R 2=1-≈1-≈0.9999,即解释变量时间对预报变量繁殖细菌的个数解释了99.99%.一、选择题(每小题4分,共12分)1.(2013·湖北高考)四名同学根据各自的样本数据研究变量x,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且=2.347x-6.423;②y 与x 负相关且=-3.476x+5.648;③y 与x 正相关且=5.437x+8.493;④y 与x 正相关且=-4.326x-4.578.其中一定不正确的结论的序号是 ( )A.①②B.②③C.③④D.①④【解题指南】x 的系数的符号决定变量x,y 之间的正、负相关关系.【解析】选D.x 的系数大于0为正相关,小于0为负相关.2.(2014·湘潭高二检测)一位母亲记录了儿子3~7岁时的身高,并根据记录数据求得身高(单位:cm)与年龄的回归模型为=7.2x+73.若用这个模型预测这个孩子10岁时的身高,则下列叙述正确的是( )A.身高一定是145cmB.身高在145cm以上C.身高在145cm左右D.身高在145cm以下【解题指南】根据回归模型为=7.2x+73,将x=10代入即可得到预测值. 【解析】选C.根据回归模型为=7.2x+73,可得x=10时,=7.2×10+73=145(cm),故可预测10岁时的身高在145cm左右.3.(2014·邢台高二检测)已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则线性回归方程是( )A.=1.23x+4B.=1.23x-0.08C.=1.23x+0.8D.=1.23x+0.08【解题指南】设出线性回归方程,将样本点的中心代入,即可求得线性回归方程.【解析】选D.设线性回归方程为=1.23x+a,因为样本点的中心为(4,5),所以5=1.23×4+a,所以a=0.08,所以线性回归方程为=1.23x+0.08.【变式训练】某地工人月工资y(单位:元)随劳动生产率x(单位:千元)变化的回归方程是=500+80x,下列判断正确的是( )A.劳动生产率为1千元时,月工资为580元B.劳动生产率提高1千元时,月工资约提高80元C.劳动生产率提高1千元时,月工资提高580元D.当月工资为750元时,劳动生产率为3千元【解题指南】根据所给的两个变量的线性回归方程,看出线性回归方程的系数是80,即当自变量增加1时,y的值平均增加线性回归方程的系数大小. 【解析】选B.因为工人月工资y随劳动生产率x变化的回归方程是=500+80x,当劳动生产率提高1千元时,月工资约提高80元,故选B.二、填空题(每小题4分,共8分)4.(2014·泉州高二检测)在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下温度(x) 0 10 20 50 70溶解度(y) 66.7 76.0 85.0 112.3 128.0则由此得到的回归直线的斜率是.【解析】因为x i y i=17035,所以回归直线的斜率: =5i ii1522ii1X Y5x yX5x ==--∑∑=≈0.8809.答案:0.88095.假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下的统计资料:使用年限x 2 3 4 5 6维修费用y 2.2 3.8 5.5 6.5 7.0若由资料知y与x呈线性相关关系.试估计使用年限为10年时,维修费用是.(答案保留小数点后一个有效数字)【解析】因为==4,==5,===1.23,=5-1.23×4=0.08,所以=1.23x+0.08,当x=10时,=12.38≈12.4.答案:12.4万元三、解答题(每小题10分,共20分)6.(2014·大连高二检测)为研究质量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同质量的6个物体进行测量,数据如下表所示:x 5 10 15 20 25 30y 7.25 8.12 8.95 9.90 10.9 11.8(1)作出散点图并求线性回归方程.(2)求出R2.(3)进行残差分析.【解析】(1)作出散点图如图所示:=×(5+10+15+20+25+30)=17.5.=×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,=2275,x i y i=1076.2,计算得,≈0.183,≈6.285,所求回归直线方程为=6.285+0.183x.(2)列表如下:y i-0.05 0.005 -0.08 -0.045 0.04 0.025y i--2.24 -1.37 -0.54 0.41 1.41 2.31所以(y i-)2≈0.01318,(y i-)2=14.6784.所以,R2=1-≈0.9991.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与质量具有线性关系.7.在试验中得到变量y与x的数据如下表:试求y与x之间的回归方程,并预测x=40时,y的值.x 19 23 27 31 35y 4 11 24 109 325【解析】作散点图如图所示,从散点图可以看出,两个变量x,y不呈线性相关关系,根据学过的函数知识,样本点分布的曲线符合指数型函数y=c 1,通过对数变化把指数关系变为线性关系,令z=lny,则z=bx+a(a=lnc1,b=c2).列表:x 19 23 27 31 35z 1.386 2.398 3.178 4.691 5.784作散点图如图所示,从散点图可以看出,两个变量x,z呈很强的线性相关关系.由表中的数据得到线性回归方程为:=0.277x-3.998.所以y关于x的指数回归方程为:=e0.277x-3.998.所以,当x=40时,y=e0.277×40-3.998≈1190.347.【拓展延伸】探究非线性回归问题(1)如果散点图中的点分布在一个直线状带形区域,可以选线性回归模型来建模;如果散点图中的点分布在一个曲线状带形区域,就需选择非线性回归模型来建模.(2)根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y=c 1的周围(其中c1,c2是待定的参数),故可用指数函数模型来拟合这两个变量.(3)利用回归方程探究非线性回归问题,可按“作散点图→建模→确定方程”这三个步骤进行.其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题.关闭Word文档返回原板块。
课时作业17回归分析的基本思想及其初步应用时间:45分钟分值:100分一、选择题(每小题5分,共计40分)1.已知x,y之间的数据如下表所示,则y与x之间的线性回归方程过点(D)C.(0,2.392 5) D.(1.167 5,2.392 5)解析:线性回归方程一定经过样本点的中心(x,y).2.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且y^=2.347x-6.423;②y与x负相关且y^=-3.476x+5.648;③y与x正相关且y^=5.437x+8.493;④y与x正相关且y^=-4.326x-4.578.其中一定不正确的结论的序号是(D)A.①②B.②③C.③④D.①④解析:正相关指的是y随x的增大而增大,负相关指的是y随x 的增大而减小,故不正确的为①④,故选D.3.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵轴上的截距是a,则必有(A)A.b与r的符号相同B.a与r的符号相同C.b与r的符号相反D.a与r的符号相反解析:当b>0时,两变量正相关,此时r>0;当b<0时,两变量负相关,此时r<0,故选A.4.下列说法中表述恰当的个数为(D)①R2可以刻画回归模型的拟合效果,R2越接近于1,说明模型的拟合效果越好;②在线性回归模型中,R2表示解释变量对于预报变量的贡献率,R2越接近于1,表示解释变量和预报变量的线性相关关系越强;③若残差图中个别点的残差比较大,则应确认在采集样本点的过程中是否有人为的错误或模型是否恰当.A.0 B.1C.2 D.3解析:由回归分析的相关概念知①②③都正确.5.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的R2如下,其中拟合效果最好的模型是(A)A.模型1的R2为0.98 B.模型2的R2为0.80C.模型3的R2为0.50 D.模型4的R2为0.25解析:R2的值越大,说明模型拟合效果越好,故选A.6.下列说法不正确的是(D)A.回归分析中,R2的值越大,说明残差平方和越小B.若一组观测值(x1,y1),(x2,y2),…,(x n,y n)满足y i=bx i+a +e i(i=1,2,…,n),若e i恒为0,则R2=1C.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法D.画残差图时,纵坐标为残差,横坐标一定是编号解析:残差图中横坐标可以是样本编号,也可以是身高数据,还可以是体重估计值等,故选D.7.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为y^=0.85x-85.71,则下列结论中不正确的是(D)A .y 与x 具有正的线性相关关系B .回归直线过样本中心点(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 解析:D 选项中,若该大学某女生身高为170 cm ,则可断定其体重约为:0.85×170-85.71=58.79 kg.故D 不正确.8.甲、乙、丙、丁4位同学各自对A ,B 两变量进行回归分析,分别得到散点图与残差平方和∑i =1n(y i -y ^i )2如下表:甲 乙 丙 丁散点图残差 平方和 115106124103高( D )A .甲B .乙C .丙D .丁解析:根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R 2的表达式中∑i =1n(y i -y )2为确定的数,则残差平方和越小,R 2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些.二、填空题(每小题6分,共计18分)9.某种产品的广告费支出x 与销售额y (单位:万元)之间有下表关系x24568y与x的线性回归方程为y=6.5x+17.5,当广告支出5万元时,随机误差的效应(残差)为10.解析:因为y与x的线性回归方程为y^=6.5x+17.5,当x=5时,y^=50,当广告支出5万元时,由表格得:y=60,故随机误差的效应(残差)为60-50=10.10.在研究身高和体重的关系时,求得相关指数R2≈0.64,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多.解析:R2≈0.64表示“身高解释了64%的体重变化”或者说体重差异有64%是由身高引起的.11.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=e bx+a的周围,令z=ln y,求得回归直线方程为z^=0.25x-2.58,则该模型的回归方程为y^=e0.25x-2.58.解析:由z=ln y,z^=0.25x-2.58,得ln y^=0.25x-2.58,∴y^=e0.25x-2.58.故该模型的回归方程为y^=e0.25x-2.58.三、解答题(共计22分)12.(10分)某服装店经营某种服装,在某周内纯获利y(单位:元)与该周每天销售这种服装件数x之间的一组数据如下表:(1)(2)画出散点图;(3)求纯获利y与每天销售件数x之间的回归方程.解:(1)x=6,y≈79.86,即样本点的中心为(6,79.86).(2)散点图如图所示.(3)因为b^=∑i=17(x i-x)(y i-y)∑i=17(x i-x)2≈4.75,a^=y-b^x=51.36,所以y^=4.75x+51.36.13.(12分)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元)88.28.48.68.89销量y(件)908483807568(1)求回归直线方程y=b x+a,其中b=-20,a=y-b^x;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解:(1)x=8+8.2+8.4+8.6+8.8+96=8.5,y=90+84+83+80+75+686=80.又b^=-20,a^=80-(-20)×8.5=250. ∴y^=-20x+250.(2)设工厂获得利润为z元.则z =(x -4)·y ^=(x -4)(-20x +250)=-20(x -334)2+361.25.即x =334=8.25元时工厂获利润最大.——素养提升——14.(5分)对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其回归直线方程为y ^=13x +a ^,且x 1+x 2+…+x 8=2(y 1+y 2+…+y 8)=6,则实数a ^等于( B )A.116B.18C.14D.12解析:由x 1+x 2+…+x 8=2(y 1+y 2+…+y 8)=6,得x =34,y =38.由于回归直线方程y ^ =13x +a ^ 过样本点的中心(x ,y ),则y =13x+a ^,解得a ^=18.15.(15分)以下资料是一位销售经理收集到的每年销售额y (千元)和销售经验x (年)的关系:(1)依据这些数据画出散点图并作直线y ^=78+4.2x ,计算∑i =110(y i-y ^i )2.(2)依据这些数据求回归直线方程并据此计算∑i =110(y i -y ^i )2.(3)比较(1)(2)中的残差平方和∑i =110(y i -y ^i )2的大小.解:(1)散点图与直线y ^=78+4.2x 的图形如图,对x =1,3,…,13,有y ^i =82.2,90.6,94.8,94.8,103.2,111.6,120,120,124.2,132.6,∑i =110(y i -y ^i )2=179.28.(2)x =110∑i =110x i =7,∑i =110 (x i -x )2=142,y =110∑i =110y i =108,∑i =110(x i -x )(y i -y )=568,∴b ^=568142=4, a ^ =y -x b ^=108-7×4=80, 故y ^=80+4x ,对x =1,3,…,13,有y ^i =84,92,96,96,104,112,120,120,124,132,∑i =110(y i -y ^i )2=170.(3)比较可知,(2)中求出的∑i =110(y i -y ^i )2较小.感谢您的下载!快乐分享,知识无限!由Ruize收集整理!感谢您的下载!快乐分享,知识无限!由Ruize收集整理!。
1 【优化方案】2013-2014学年高中数学 3.1 回归分析的基本思想及其初步应用能力提升(含解析)新人教A 版选修2-31.如果某地的财政收入x 与支出y 满足线性回归方程y =bx +a +e (单位:亿元),其中b =0.8,a=2,|e |≤0.5,如果今年该地区财政收入为10亿元,则年支出预计不会超过( )A .10亿B .9亿C .10.5亿D .9.5亿解析:选C.∵x =10时,y =0.8×10+2+e =10+e ,又∵|e |≤0.5,∴y ≤10.5.2.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本(单位:元)的资料进行线性回归分析,结果如下:x =72,y =71,∑i =16x 2i =79,∑i =16x i y i =1 481. 则销量每增加1 000箱,单位成本下降________元.解析:由题意知b ^=1 481-6×72×7179-6×⎝⎛⎭⎫722≈-1.818 2, a ^=71-(-1.818 2)×72≈77.36,y ^=-1.818 2x +77.36,销量每增加1千箱,则单位成本下降1.818 2元.答案:1.818 23.为了研究某种细菌繁殖的个数随时间x 变化的情况,收集如下数据:天数x (天) 1 2 3 4 5 6繁殖个数y (个) 6 12 25 49 95 190(1)(2)观察散点图是否可用曲线y =c 1e c 2x 拟合,描述解释变量与预报变量之间的关系. 解:(1)作出散点图,如图所示:(2)由散点图可以看出样本点分布在一条指数型函数y =c 1e c 2x 曲线的周围,于是令z =ln y ,则x 1 2 3 4 5 6z 1.79 2.48 3.22 3.89 4.55 5.25由计算得z ^=0.69x +1.115,则有y ^=e 0.69x +1.115.。
一、基础过关
1.在下列各量之间,存在相关关系的是( ) ①正方体的体积与棱长之间的关系; ②一块农田的水稻产量与施肥量之间的关系; ③人的身高与年龄之间的关系; ④家庭的支出与收入之间的关系; ⑤某户家庭用电量与电价之间的关系. A .②③ B .③④ C .④⑤ D .②③④
[答案] D
2.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^
=0.85x -85.71,则下列结论
中不正确的是( )
A .y 与x 具有正的线性相关关系
B .回归直线过样本点的中心(x ,y )
C .若该大学某女生身高增加1cm ,则其体重约增加0.85kg
D .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg [答案] D
[解析] 由回归方程为y ^
=0.85x -85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系;由最小二乘法建立回归方程的过程知y ^
=b ^
x +a ^
=b ^
x +y -b ^
x (a ^
=y -b ^
x ),所以回归直线过样本点的中心(x ,y );利用回归方程可以估计总体,所以D 不正确. 3.某产品的广告费用x 与销售额y 的统计数据如下表:
根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( ) A .63.6万元 B .65.5万元 C .67.7万元 D .72.0万元
[答案] B
[解析] ∵x =4+2+3+54=72,y =49+26+39+54
4
=42,
又y ^
=b ^
x +a ^
必过(x ,y ),∴42=7
2×9.4+a ^,∴a ^=9.1.
∴线性回归方程为y ^
=9.4x +9.1.
∴当x =6(万元)时,y ^
=9.4×6+9.1=65.5(万元).
4.甲、乙、丙、丁四位同学各自对A ,B 两变量做回归分析,分别得到散点图与残差平方和∑n
i =1
(y i -y ^
i )2如下表
A .甲
B .乙
C .丙
D .丁
[答案] D
5.在研究气温和热茶销售杯数的关系时,若求得相关指数R 2≈________,表明“气温解释了85%的热茶销售杯数变化”或者说“热茶销售杯数差异有85%是由气温引起的”. [答案] 0.85
6.对具有线性相关关系的变量x 和y ,由测得的一组数据已求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________. [答案] y ^
=-10+6.5x
[解析] 由题意知x =2,y =3,b ^
=6.5,所以a ^
=y -b ^
x =3-6.5×2=-10,即回归直线的方程为y ^
=-10+6.5x .
7.某个服装店经营某种服装,在某周内纯获利y (元)与该周每天销售这种服装件数x 之间的一组数据如下表:
(1)求样本中心点;(2)画出散点图;
(3)求纯获利y 与每天销售件数x 之间的回归方程. 解 (1)x =6,y ≈79.86,中心点(6,79.86). (2)散点图如下:
(3)因为b ^
=
i =17(x i -
x )(y i -y )
i =1
7(x i -
x )2
≈4.75,
a ^
=y -b ^
x ≈51.36, 所以y ^
=4.75x +51.36. 二、能力提升
8.已知x 与y 之间的几组数据如下表:
假设根据上表数据所得线性回归直线方程y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( ) A.b ^>b ′,a ^
>a ′ B.b ^>b ′,a ^
<a ′ C.b ^<b ′,a ^
>a ′ D.b ^
<b ′,a ^
<a ′
[答案] C
[解析] b ′=2,a ′=-2,由公式b ^
=
i =1
6(x i -
x )(y i -y )
i =1
6(x i -x )2
求得.
b ^
=57,a ^=y -b ^x =136-57×72=-1
3, ∴b ^<b ′,a ^
>a ′.选C.
9.下表是x 和y 之间的一组数据,则y 关于x 的回归方程必过( )
A.点(2,3) C .点(2.5,4) D .点(2.5,5)
[答案] C
[解析] 回归方程必过样本点的中心(x ,y ),即(2.5,4).
10.如图是x 和y 的一组样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关指数最大.
[答案] D (3,10)
[解析] 经计算,去掉D (3,10)这一组数据后,其他4组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强,此时相关指数最大.
11.某车间为了规定工时定额,需确定加工零件所花费的时间,为此做了4次试验,得到的数据如下:
若加工时间y (1)求加工时间与零件个数的回归方程; (2)试预报加工10个零件需要的时间.
解 (1)由表中数据得x =72,y =72,∑4i =1x 2
i
=54,
∑4
i =1
x i y i =52.5,
从而得b ^
=0.7,a ^
=y -b ^
x =1.05, 因此,所求的回归方程为y ^
=0.7x +1.05. (2)将x =10代入回归方程,得 y ^
=0.7×10+1.05=8.05(小时),
即加工10个零件的预报时间为8.05小时.
12.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b x ;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本) 解 (1)x =8+8.2+8.4+8.6+8.8+9
6=8.5,
y =1
6(90+84+83+80+75+68)=80.
∵b ^
=-20,a ^
=y -b ^
x , ∴a ^=80+20×8.5=250, ∴回归直线方程y ^
=-20x +250. (2)设工厂获得的利润为L 元,则 L =x (-20x +250)-4(-20x +250) =-20(x -33
4
)2+361.25,
∴该产品的单价应定为33
4元,工厂获得的利润最大.
三、探究与拓展
13.关于x 与y 有如下数据:
有如下的两个线性模型:
①y ^
=6.5x +17.5; ②y ^=7x +17.
试比较哪一个模型拟合的效果更好. 解 由①可得y i -y ^
i 与y i -y 的关系如下表:
所以∑5
i =1
(y i -y ^
i )2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52
=155, ∑5
i =1
(y i -y )2=(-20)2+(-10)2+102+02+202=1000. 所以R 21=1-
∑5i =1
(y i -y ^
i )2∑5i =1
(y i -y )2
=1-155
1000=0.845.
由②可得y i -y ^
i 与y i -y 的关系如下表:
所以∑5
i =1
(y i -y ^
i )2=(-1)2+(-5)2+82+(-9)2+(-3)2=180, ∑5
i =1 (y i -y )2=(-20)2+(-10)2+102+02+202=1000. 所以R 22=1-
∑5i =1
(y i -y ^
i )2
∑5
i =1
(y i -y )2=1-180
1000=0.82.
由于R 21=0.845,R 22=0.82,0.845>0.82, 所以R 21>R 22.
故①的拟合效果好于②的拟合效果.。