2020高考数学大一轮复习第九章统计统计案例第三节变量间的相关关系与统计案例检测理新人教A版
- 格式:doc
- 大小:207.50 KB
- 文档页数:10
完整版变量间的相关关系统计案例引言:经济学中一个重要的分支是相关关系的研究,通过统计分析不同变量之间的相关性,可以帮助我们理解变量之间的关系。
本文以汽车生产数量和国内生产总值(GDP)为例,通过统计分析两者之间的相关关系,展示相关分析在实际问题中的应用。
方法:本案例采用了经济学中常用的相关分析方法,包括Pearson相关系数和散点图。
本文使用了国在过去10年内的汽车生产数量和GDP的数据。
汽车生产数量的数据来自国家汽车协会,GDP数据来自国家统计局。
分析过程:1.数据收集和整理:将过去10年内的每年汽车生产数量和GDP数据整理成一个数据表格,便于后续分析。
2.描述统计分析:计算汽车生产数量和GDP的均值、标准差和极差等描述性统计量,以了解数据的整体情况。
3.散点图绘制:将每年的汽车生产数量和GDP数据绘制成散点图,横轴表示汽车生产数量,纵轴表示GDP,每个散点表示一个年份。
4.相关性分析:计算汽车生产数量和GDP之间的Pearson相关系数,该系数介于-1和1之间。
系数为正则表示两者正相关,系数为负则表示两者负相关,系数越接近于1或-1,则相关性越强。
结果:1.描述统计分析结果显示,过去10年内每年的汽车生产数量均值为X辆,标准差为X辆,极差为X辆;每年GDP的均值为X万元,标准差为X万元,极差为X万元。
2.散点图显示,汽车生产数量和GDP呈现出一定的正相关趋势。
随着汽车生产数量的增加,GDP也有相应增加的趋势。
3. 相关性分析结果显示,汽车生产数量和GDP之间的Pearson相关系数为X。
由于该系数为正数且接近于1,可以得出结论:汽车生产数量与GDP存在着强正相关关系。
讨论:本案例通过相关分析的方法,探讨了汽车生产数量与GDP之间的关系。
研究结果表明,两者之间存在着强正相关关系,即汽车生产数量的增加会促进GDP的增长。
可能的解释是汽车工业作为一个重要的制造业部门,对于经济的增长有着显著的贡献。
变量间的相关关系与统计案例一、基础知识1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.体现的不一定是因果关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y ^=b ^x +a ^,其中(3)通过求Q =∑i =1n(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验 (1)2×2列联表设X ,Y 为两个变量,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)如下:(2)独立性检验利用随机变量K 2(也可表示为χ2)的观测值k=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c+d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验.二、常用结论(1)求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点 (x ,y ).(2)根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.(3)根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值.考点一 回归分析考法(一) 求线性回归方程[典例] (2019·湘东五校联考)已知具有相关关系的两个变量x ,y 的几组数据如下表所示:(1)(2)请根据上表数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^,并估计当x =20时y 的值.参考公式:b ^=∑i =1nx i y i -n x y ∑i =1nx 2i -n x2,a ^=y -b ^x .[解] (1)散点图如图所示:(2)依题意,x =15×(2+4+6+8+10)=6,y =15×(3+6+7+10+12)=7.6,∑i =15x 2i =4+16+36+64+100=220,∑i =15x i y i =6+24+42+80+120=272,∴b ^=∑i =15x i y i -5 x y∑i =15x 2i -5 x2=272-5×6×7.6220-5×62=4440=1.1, ∴a ^=7.6-1.1×6=1,∴线性回归方程为y ^=1.1x +1,故当x =20时,y =23.考法(二) 相关系数及应用[典例] 如图是我国2012年至2018年生活垃圾无害化处理量(单位:亿吨)的折线图.由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明. 参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17(y i -y )2=0.55, 7≈2.646.参考公式:相关系数r =∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2∑i =1n (y i -y )2.[解] 由折线图中数据和参考数据及公式得t =4,∑i=17(t i -t )2=28,∑i =17(y i -y )2=0.55,∑i =17(t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.[解题技法]1.线性回归分析问题的类型及解题方法 (1)求线性回归方程:①利用公式,求出回归系数b ^,a ^.②待定系数法:利用回归直线过样本点中心求系数. (2)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数b ^. 2.模型拟合效果的判断(1)残差平方和越小,模型的拟合效果越好. (2)相关指数R 2越大,模型的拟合效果越好.(3)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.[题组训练]1.(2019·惠州调研)某商场为了了解毛衣的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:由表中数据算出线性回归方程y =b x +a 中的b =-2,气象部门预测下个月的平均气温约为6 ℃,据此估计该商场下个月毛衣销售量约为( )A .46件B .40件C .38件D .58件解析:选A 由题中数据,得x =10,y =38,回归直线y ^=b ^x +a ^过点(x ,y ),且b ^=-2,代入得a ^=58,则回归方程y ^=-2x +58,所以当x =6时,y =46,故选A.2.近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每天使用扫码支付的人次,用x 表示活动推出的天数,y 表示每天使用扫码支付的人次,统计数据如下表:根据以上数据,绘制了散点图.参考数据:其中v i =lg y i ,v =17∑i =17v i .(1)根据散点图判断,在推广期内,y =a +bx 与y =c ·d x (c ,d 均为大于零的常数)哪一个适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及上表中数据,建立y 关于x 的回归方程,并预测活动推出第8天使用扫码支付的人次.参考公式:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^μ的斜率和截距的最小二乘估计公式分别为β=∑i =1nu i v i -n u v ∑i =1nu 2i -n u2,α^=v -β^U .解:(1)根据散点图可以判断,y =c ·d x 适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型.(2)y =c ·d x 两边同时取常用对数,得lg y =lg(c ·d x )=lg c +x lg d , 设lg y =v ,则v =lg c +x lg d . ∵x =4,v =2.54,∑i =17x 2i =140,∴lg d =∑i =17x i v i -7 x v ∑i =17x 2i -7 x2≈78.12-7×4×2.54140-7×42=0.25,把(4,2.54)代入v =lg c +x lg d ,得lg c =1.54, ∴v ^=1.54+0.25x ,∴y ^=101.54+0.25x =101.54·(100.25)x .把x =8代入上式,得y ^=101.54+0.25×8=103.54=103×100.54=3 470,∴y 关于x 的回归方程为y ^=101.54·(100.25)x ,活动推出第8天使用扫码支付的人次为3 470.考点二 独立性检验[典例] (2018·全国卷Ⅲ节选)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:(2)根据(1)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),[解] (1)由茎叶图知m =79+812=80.列联表如下:(2)因为K 2=40(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.[解题技法][题组训练]1.(2019·沧州模拟)某班主任对全班50名学生进行了作业量的调查,数据如表:已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025,P (K 2≥6.635)≈0.010.则________(填“有”或“没有”)97.5%的把握认为“学生的性别与认为作业量大 有关”.解析:因为K 2=50×(18×15-8×9)226×24×27×23≈5.059>5.024,所以有97.5%的把握认为“学生的性别与认为作业量大有关”. 答案:有2.为考察某种疫苗预防疾病的效果,进行动物试验,得到统计数据如下:现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为25.(1)求2×2列联表中的数据x ,y ,A ,B 的值.(2)绘制发病率的条形统计图,并判断疫苗是否影响到了发病率?(3)能否在犯错误的概率不超过0.001的前提下认为疫苗有效? 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .临界值表:解:(1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件M , 由已知得P (M )=y +30100=25,所以y =10,则B =40,x =40,A =60. (2)未注射疫苗发病率为4060=23≈0.67,注射疫苗发病率为1040=14=0.25.发病率的条形统计图如图所示,由图可以看出疫苗影响到了发病率.(3)因为K 2=100×(20×10-40×30)260×40×50×50≈16.67>10.828.所以能在犯错误的概率不超过0.001的前提下认为疫苗有效.[课时跟踪检测]A 级1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关解析:选C 由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x 与y 负相关,u 与v 正相关.2.(2019·长沙模拟)为了解某社区居民购买水果和牛奶的年支出费用与购买食品的年支出费用的关系,随机调查了该社区5户家庭,得到如下统计表:根据上表可得回归方程y =b x +a ,其中b =0.59,a =y -b x ,据此估计,该社区一户购买食品的年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为( )A .1.795万元B .2.555万元C .1.915万元D .1.945万元解析:选A x =15×(2.09+2.15+2.50+2.84+2.92)=2.50(万元),y =15×(1.25+1.30+1.50+1.70+1.75)=1.50(万元),其中b ^=0.59,则a ^=y -b ^ x =0.025,y ^=0.59x +0.025,故年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为y ^=0.59×3.00+0.025=1.795(万元).3.下面四个命题中,错误的是( )A .从匀速传递的产品生产流水线上,质检员每15分钟从中抽取一件产品进行某项指标检测,这样的抽样是系统抽样B .对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大C .两个随机变量相关性越强,则相关系数的绝对值越接近于0D .在回归直线方程y ^=0.4x +12中,当解释变量x 每增加一个单位时,预报变量平均增加0.4个单位解析:选C 两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1,故C 错误.4.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附表及公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .A .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”解析:选A 由列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,计算得K 2的观测值k = n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100×(675-300)255×45×75×25≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.5.为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了100名工人,且规定日平均生产件数不少于80件者为“生产能手”,列出的2×2列联表如下:有________以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”. 解析:由2×2列联表可知,K 2=100×(25×30-10×35)240×60×35×65≈2.93,因为2.93>2.706,所以有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.答案:90%6.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:则y 关于t 的回归方程是________________.解析:由表中数据得n =5,t =1n ∑i =1n t i =155=3,y =1n ∑i =1n y i =365=7.2.又∑i =1nt 2i -n t 2=55-5×32=10, ∑i =1nt i y i -n t y =120-5×3×7.2=12.从而b ^=∑i =1nt i y i -n t y ∑i =1nt 2i -n t2=1210=1.2, a ^=y -b ^t =7.2-1.2×3=3.6, 故所求回归方程为y ^=1.2t +3.6. 答案:y ^=1.2t +3.67.某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x (万元)和销售量y (万台)的数据如下:(2)若用y =c +d x 模型拟合y 与x 的关系,可得回归方程y ^=1.63+0.99x ,经计算线性回归模型和该模型的R 2分别约为0.75和0.88,请用R 2说明选择哪个回归模型更好;(3)已知利润z 与x ,y 的关系为z =200y -x .根据(2)的结果,求当广告费x =20时,销售量及利润的预报值.参考公式:回归直线y ^=a ^+b ^x 的斜率和截距的最小二乘估计分别为b ^=∑i =1nx i y i -n x y ∑i =1nx 2i -n x2=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x .参考数据:5≈2.24.解:(1)∵x =8,y =4.2,∑i =17x i y i =279.4,∑i =17x 2i =708,∴b ^=∑i =17x i y i -7x y∑i =17x 2i -7x2=279.4-7×8×4.2708-7×82=0.17,a ^=y -b ^x =4.2-0.17×8=2.84, ∴y 关于x 的线性回归方程为y ^=0.17x +2.84.(2)∵0.75<0.88且R 2越大,反映残差平方和越小,模型的拟合效果越好, ∴选用y ^=1.63+0.99x 更好.(3)由(2)知,当x =20时,销售量的预报值y ^=1.63+0.9920≈6.07(万台),利润的预报值z =200×(1.63+0.9920)-20≈1 193.04(万元).B 级1.(2018·江门一模)为探索课堂教学改革,江门某中学数学老师用“传统教学”和“导学案”两种教学方式分别在甲、乙两个平行班进行教学实验.为了解教学效果,期末考试后,分别从两个班级各随机抽取20名学生的成绩进行统计,得到如下茎叶图.记成绩不低于70分者为“成绩优良”.(1)请大致判断哪种教学方式的教学效果更佳,并说明理由;(2)构造一个教学方式与成绩优良的2×2列联表,并判断能否在犯错误的概率不超过0.05的前提下认为“成绩优良与教学方式有关”.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .临界值表:解:(1)“理由1:乙班样本数学成绩大多在70分以上,甲班样本数学成绩70分以下的明显更多. 理由2:甲班样本数学成绩的平均分为70.2;乙班样本数学成绩的平均分为79.05. 理由3:甲班样本数学成绩的中位数为68+722=70,乙班样本数学成绩的中位数为77+782=77.5. (2)2×2列联表如下:由上表数据可得K 2=40×(10×4-10×16)20×20×26×14≈3.956>3.841,所以能在犯错误的概率不超过0.05的前提下认为“成绩优良与教学方式有关”.2.(2019·广州调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X (单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y (千克)与使用某种液体肥料的质量x (千克)之间的对应数据为如图所示的折线图.(1)依据折线图计算相关系数r (精确到0.01),并据此判断是否可用线性回归模型拟合y 与x 的关系;(若|r |>0.75,则线性相关程度很高,可用线性回归模型拟合)(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X 限制,并有如下关系:元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.相关系数公式:r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2,参考数据:0.3≈0.55,0.9≈0.95.解:(1)由已知数据可得x =2+4+5+6+85=5,y =3+4+4+4+55=4.因为∑i =15(x i -x )(y i -y )=(-3)×(-1)+0+0+0+3×1=6,∑i =15(x i -x )2=(-3)2+(-1)2+02+12+32=25,∑i =15(y i -y )2=(-1)2+02+02+02+12=2,所以相关系数r =∑i =15(x i -x )(y i -y )∑i =15(x i -x )2∑i =15(y i -y )2=625×2=0.9≈0.95. 因为|r |>0.75,所以可用线性回归模型拟合y 与x 的关系. (2)由条件可得在过去50周里,当X >70时,共有10周,此时只有1台光照控制仪运行, 每周的周总利润为1×3 000-2×1 000=1 000(元). 当50≤X ≤70时,共有35周,此时有2台光照控制仪运行, 每周的周总利润为2×3 000-1×1 000=5 000(元). 当30<X <50时,共有5周,此时3台光照控制仪都运行, 每周的周总利润为3×3 000=9 000(元). 所以过去50周的周总利润的平均值为 1 000×10+5 000×35+9 000×550=4 600(元),所以商家在过去50周的周总利润的平均值为4 600元.。
第3讲变量间的相关关系与统计案例[考纲解读] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系;根据最小二乘法求出回归直线方程.(重点)2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其初步应用.[考向预测] 从近三年高考情况来看,本讲是高考中的一个热点考查内容.预测2020年将会考查:①回归直线方程的判断、求解及相关系数的意义,并用其解决实际问题;②独立性检验思想在实际问题中的应用.试题以解答题的形式呈现,难度为中等.此外,也可能出现在客观题中,此时试题难度不大,属中、低档题型.1.相关关系与回归方程(1)相关关系的分类02右上角的区域内,如图1;①正相关:从散点图上看,点散布在从□01左下角到□04右下角的区域内,如图2.②负相关:从散点图上看,点散布在从□03左上角到□(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在□05一条直线附近,06回归直线.则称这两个变量之间具有线性相关关系,这条直线叫做□(3)回归方程①最小二乘法:使得样本数据的点到回归直线的□07距离的平方和最小的方法叫做最小二乘法.②回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑i =1nx i -xy i-y∑i =1nx i -x2=∑i =1nx i y i -n xy∑i =1nx 2i -n x 2,a ^=y -b ^x .其中,b ^是回归方程的□08斜率,a ^是在y 轴上的□09截距,x -=1n ∑n i =1x i ,y -=1n ∑n i =1y i ,□10(x -,y -)称为样本点的中心.说明:回归直线y ^=b ^x +a ^必过样本点的中心(x -,y -),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)样本相关系数r =∑i =1nx i -x y i -y∑i =1nx i -x2∑i =1ny i -y2,用它来衡量两个变量间的线性相关关系.①当r>0时,表明两个变量□11正相关; ②当r<0时,表明两个变量□12负相关; ③r 的绝对值越接近1,表明两个变量的线性相关性□13越强;r 的绝对值接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的□01不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的□02频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K 2=□03n ad -bc2a +bc +d a +cb +d,其中n =□04a +b +c +d 为样本容量.(3)独立性检验利用随机变量□05K 2来判断“两个分类变量□06有关系”的方法称为独立性检验.1.概念辨析(1)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( ) (2)通过回归方程y ^=b ^x +a ^可以估计和观测变量的取值和变化趋势.( ) (3)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) (4)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )答案 (1)√ (2)√ (3)√ (4)×2.小题热身(1)设回归方程为y ^=3-5x ,则变量x 增加一个单位时( ) A .y 平均增加3个单位 B .y 平均减少5个单位 C .y 平均增加5个单位 D .y 平均减少3个单位 答案 B解析 因为-5是斜率的估计值,说明x 每增加一个单位,y 平均减少5个单位.故选B .(2)在下列各图中,两个变量具有相关关系的图是( )A .①② B.①③ C.②④ D.②③ 答案 D解析 ①为函数关系;②显然成正相关;③显然成负相关;④没有明显相关性. (3)下面是一个2×2列联表则表中a ,b 处的值分别为________. 答案 52,54解析 因为a +21=73,所以a =52.又因为a +2=b ,所以b =54.(4)已知x ,y 的取值如下表,从散点图可以看出y 与x 具有线性相关关系,且回归方程为y ^=0.95x +a ^,则a ^=________.答案 2.6解析 ∵回归直线必过样本点的中心(x ,y ),又x =2,y =4.5,代入回归方程,得a ^=2.6.题型 一 相关关系的判断1.下列两变量中不存在相关关系的是( )①人的身高与视力;②曲线上的点与该点的坐标之间的关系;③某农田的水稻产量与施肥量;④某同学考试成绩与复习时间的投入量;⑤匀速行驶的汽车的行驶距离与时间;⑥商品的销售额与广告费.A .①②⑤B .①③⑥C .④⑤⑥D .②⑥ 答案 A解析 根据相关关系的定义知,①②⑤中两个变量不存在相关关系.2.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④ 答案 D解析 由回归方程y ^=b ^x +a ^知当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3 答案 A解析 易知题中图①与图③是正相关,图②与图④是负相关,且图①与图②中的样本点集中分布在一条直线附近,则r 2<r 4<0<r 3<r 1.故选A .判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.见举例说明3.(3)线性回归直线方程中:b ^>0时,正相关;b ^<0时,负相关.1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n)都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12 D .1答案 D解析 所有点均在直线上,则样本相关系数最大即为1,故选D .2.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y 是负相关关系;②在该相关关系中,若用y =c 1e c2x 拟合时的相关系数的平方为r 21,用y ^=b ^x +a ^拟合时的相关系数的平方为r 22,则r 21>r 22;③x,y 之间不能建立线性回归方程. 答案 ①②解析 ①显然正确;散点图趋向于曲线而非直线,所以用y =c 1e c2x 拟合的效果比用y ^=b ^x +a ^拟合的效果要好,故②正确;x ,y 之间能建立线性回归方程,只不过预报精度不高,故③不正确.题型 二 回归分析角度1 线性回归方程及应用1.(2018·福州四校联考)某汽车的使用年数x 与所支出的维修总费用y 的统计数据如表:使用年数x/年 1 2 3 4 5维修总费用y/万元0.5 1.2 2.2 3.3 4.5 根据上表可得y关于x的线性回归方程y^=b^x-0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足1年按1年计算)( ) A.8年 B.9年 C.10年 D.11年答案 D解析由y关于x的线性回归直线y^=b^x-0.69过样本点的中心(3,2.34),得b^=1.01,即线性回归方程为y^=1.01x-0.69,由y^=1.01x-0.69=10得x≈10.6,所以预测该汽车最多可使用11年.故选D.2.某兴趣小组欲研究昼夜温差与患感冒人数之间的关系,他们分别到气象局与某医院抄录了1月份至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下数据:该兴趣小组确定的研究方案是:先从这6组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻两个月的概率;(2)若选取的是1月份与6月份的两组数据,请根据2月份至5月份的数据,求出y关于x的线性回归方程y^=b^x+a^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?参考公式:b^=∑i=1nx i y i-n x-y-∑i=1nx2i-n x2,a^=y-b^x.参考数据:11×25+13×29+12×26+8×16=1092,112+132+122+82=498.解(1)设选到相邻两个月的数据为事件A.因为从6组数据中选取2组数据共有15种情况,且每种情况都是等可能的,其中,选到相邻两个月的数据的情况有5种,所以P(A)=515=13.(2)由表中2月份至5月份的数据可得x =11,y=24,∑4i=1x i y i=1092,∑i=14x2i=498,所以b^=∑i=14x i y i-4x-y-∑i=1nx2i-4x2=187,则a^=y-b^x=-307,所以y 关于x的线性回归方程为y^=187x-307.(3)当x=10时,y^=1507,⎪⎪⎪⎪⎪⎪1507-22=47<2;当x=6时,y^=787,⎪⎪⎪⎪⎪⎪787-12=67<2.所以,该小组所得线性回归方程是理想的.角度2 非线性回归模型的应用3.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x.根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1u i -uv i -v∑ni =1u i -u2,α^=v -β^u .解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑8i =1w i -wy i -y∑8i =1w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x.(3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x)-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.1.利用线性回归方程时的关注点(1)正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键. (2)回归直线方程y ^=b ^x +a ^必过样本点中心(x -,y -).(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.2.非线性回归方程的求法(1)根据原始数据(x ,y)作出散点图. (2)根据散点图选择恰当的拟合函数.(3)作恰当的变换,将其转化成线性函数,求线性回归方程.(4)在(3)的基础上通过相应变换,即可得非线性回归方程.1.据某市地产数据研究显示,2018年该市新建住宅销售均价走势如图所示,3月至7月房价上涨过快,为抑制房价过快上涨,政府从8月开始采用宏观调控措施,10月份开始房价得到很好的控制.(1)地产数据研究发现,3月至7月的各月均价y(万元/平方米)与月份x 之间具有较强的线性相关关系,试建立y 关于x 的回归方程;(2)若政府不调控,依此相关关系预测12月份该市新建住宅销售均价.参考数据及公式:∑5i =1x i =25,∑5i =1y i =5.36,∑5i =1(x i -x )(y i -y )=0.64,回归方程y ^=b ^x +a ^中斜率和截距的最小二乘估计公式分别为b ^=∑ni =1 x i -x y i -y ∑ni =1 x i -x 2,a ^=y -b^x .解 (1)x =255=5,y =5.365=1.072,∑5i =1 (x i -x )2=10,所以b ^=0.6410=0.064,a ^=y -b ^x =1.072-0.064×5=0.752.所以从3月份至7月份y 关于x 的线性回归方程为y ^=0.064x +0.752.(2)将x =12代入回归方程得y ^=0.064×12+0.752=1.52, 所以预测12月份该市新建住宅的销售均价为1.52万元/平方米.2.对某地区儿童的身高与体重的一组数据,我们用两种模型①y=bx +a ,②y=c e dx拟合,得到回归方程分别为y ^(1)=0.24x -8.81,y ^(2)=1.70e 0.022x,作残差分析,如下表:(1)求表中空格内的值;(2)根据残差比较模型①②的拟合效果,决定选择哪个模型;(3)若残差大于1 kg 的样本点被认为是异常数据,应剔除,剔除后对(2)所选择的模型重新建立回归方程.(结果保留到小数点后两位)附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为b ^=∑ni =1x i -xy i -y∑ni =1x i -x2,a ^=y -b ^x .解 (1)根据残差分析,把x =80代入y ^(1)=0.24x -8.81中,得y ^(1)=10.39. ∵10-10.39=-0.39, ∴表中空格内的值为-0.39.(2)模型①残差的绝对值的和为0.41+0.01+0.39+1.21+0.19+0.41=2.62, 模型②残差的绝对值的和为0.36+0.07+0.12+1.69+0.34+1.12=3.7. ∵2.62<3.7,∴模型①的拟合效果比较好,选择模型①.(3)残差大于1 kg 的样本点被剔除后,剩余的数据如下表:由公式b ^=∑ni =1x i -xy i -y∑n i =1x i -x2,a ^=y -b ^x ,得回归方程为y ^=0.24x -8.76. 题型 三 独立性检验1.假设有两个分类变量X 和Y 的2×2列联表如下:对同一样本,以下数据能说明X 与Y 有关系的可能性最大的一组为( ) A .a =45,c =15 B .a =40,c =20 C .a =35,c =25 D .a =30,c =30 答案 A解析 根据2×2列联表与独立性检验可知,当a a +10与cc +30相差越大时,X 与Y 有关系的可能性越大,即a ,c 相差越大,a a +10与cc +30相差越大.故选A. 2.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K 2=n ad -bc 2a +bc +d a +cb +d,解 (1)第二种生产方式的效率更高.理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可.) (2)由茎叶图知m =79+812=80.列联表如下:(3)由于K 2的观测值k =40×15×15-5×5220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量K 2的观测值k ,查表确定临界值k 0;(3)如果k ≥k 0,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过P (K 2≥k 0);否则,就认为在犯错误的概率不超过P (K 2≥k 0)的前提下不能推断“X 与Y 有关系”.1.(2018·河南洛阳模拟)学生会为了调查学生对2018年俄罗斯世界杯的关注是否与性别有关,抽样调查100人,得到如下数据:根据表中数据,通过计算统计量K 2=n ad -bc 2a +bc +d a +cb +d,并参考以下临界数据:若由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”,则此结论出错的概率不超过( )A .0.10B .0.05C .0.025D .0.01 答案 A解析 由题意可得K 2=100×30×10-15×45245×55×75×25≈3.030>2.706,由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”出错的概率不超过0.10.故选A.2.某校拟在高一年级开设英语口语选修课,该年级男生600人,女生480人.按性别分层抽样,抽取90名同学做意向调查.(1)求抽取的90名同学中的男生人数;(2)将下列2×2列联表补充完整,并判断能否在犯错误的概率不超过0.025的前提下认为“该校高一学生是否愿意选修英语口语课程与性别有关”?附:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .解 (1)该校高一年级的男、女生之比为600∶480=5∶4,所以按照分层抽样,男生应抽取50名.(2)2×2列联表如下:由K 2=n ad -bc 2a +bc +d a +cb +d,代入数据得K 2=90×25×10-25×30250×40×55×35=45077≈5.844>5.024. 所以在犯错误的概率不超过0.025的前提下可以认为“该校高一学生是否愿意选修英语口语课程与性别有关”.。
第三节 变量间的相关关系与统计案例限时规范训练(限时练·夯基练·提能练)A 级 基础夯实练1.(2018·吉林长春质检)下面四个残差图中可以反映出回归模型拟合精度较高的为( )A .图1B .图2C .图3D .图4解析:选A.根据残差图显示的分布情况即可看出,图1显示的残差点比较均匀地落在水平的带状区域中,所以拟合精度较高,故选A.2.(2018·贵州普通高等学校适应性考试)利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅下表来确定“X 和Y 有关系”的可信度.如果K 2>3.841,那么有把握认为“X 和Y 有关系”的百分比为( )C .99.5%D .95%解析:选D.由图表中数据可得,当K 2>3.841时,有0.05的概率说明这两个变量之间没有关系是可信的,即有95%的把握认为变量之间有关系,故选D.3.根据如下样本数据:得到的回归方程为y ^=bx +a ,则( )A .a >0,b >0B .a >0,b <0C .a <0,b >0D .a <0,b <0解析:选B.在平面直角坐标系中描点作出散点图(图略),观察图象可知,回归直线y ^=bx +a 的斜率b<0,截距a >0.故选B.4.(2018·山东省实验中学诊断考试)某中学学生会为了调查爱好游泳运动与性别是否有关,随机询问了110名高中生是否爱好游泳运动并得到如下的列联表(表1).由K 2=-++++,并参照附表(表2),得到的正确结论是( )表1表2A. B .在犯错误的概率不超过0.01的前提下,认为“爱好游泳运动与性别无关”C .有99.9%的把握认为“爱好游泳运动与性别有关”D .有99.9%的把握认为“爱好游泳运动与性别无关”解析:选A.由题意得K 2=-60×50×60×50≈7.822.∵7.822>6.635,∴在犯错误的概率不超过0.01的前提下,认为“爱好游泳运动与性别有关”.5.(2018·湖北宜昌联考)下表提供了某厂节能降耗技术改造后在生产某产品的过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据,根据下表提供的数据,求出y 关于x 的线性回归方程为y ^=0.7x +0.35,则下列结论错误的是( )A.回归直线一定过点(4.5,3.5)B .产品的生产能耗与产量呈正相关C .t 的值为3.15D .该产品每多生产1吨,则相应的生产能耗约增加0.7吨解析:选 C.x =14(3+4+5+6)=184=4.5,则y =0.7×4.5+0.35=3.5,即回归直线一定过点(4.5,3.5),故A 正确.∵0.7>0,∴产品的生产能耗与产量呈正相关,故B 正确.∵y =14(2.5+t +4+4.5)=3.5,∴t =3,故C 错误.该产品每多生产1吨,则相应的生产能耗约增加0.7吨,故D 正确.6.从某地高中男生中随机抽取100名同学,将他们的体重(单位:kg)数据绘制成频率分布直方图(如图),由直方图可知( )A .估计体重的众数为50或60B .a =0.03C .学生体重在[50,60)有35人D .从这100名男生中随机抽取一人,体重在[60,80)的概率为13解析:选C.根据频率分布直方图知,最高的小矩形对应的底边中点为50+602=55,所以估计众数为55,A 错误;根据频率和为1,计算(a +0.035+0.030+0.020+0.010)×10=1,解得a =0.005,B 错误;体重在[50,60)内的频率是0.35,估计体重在[50,60)有100×0.35=35人,C 正确;体重在[60,80)内的频率为0.3+0.2=0.5,用频率估计概率,知这100名男生中随机抽取一人,体重在[60,80)的概率为12,D 错误.7.(2018·赣州摸底考试)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑i =16x i =11,∑i =16y i =13,∑i =16x2i =21,则实数b 的值为________.解析:令t =x 2,则曲线的回归方程变为线性回归方程,即y =bt -13,此时t =∑i =16x2i 6=72,y =∑i =16yi6=136,代入y =bt -13,得136=b ×72-13,解得b =57.答案:578.有甲、乙两个班级进行一门课程的考试,按照学生考试成绩优秀和不优秀统计后,得到如下的列联表:.(填“有关”或“无关”) 解析:成绩与班级有无关系,就是看随机变量的值与临界值2.706的大小关系.由公式得K 2的观测值K 2=9-17×73×45×45≈0.653<2.706,所以成绩与班级无关.答案:无关9.(2018·广东省六校联考)某市调研考试后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为311.(1)请完成上面的列联表;(2)根据列联表中的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”.参考公式与临界值表:K 2=-++++.列联表如下:根据列联表中的数据,得到K 2=-60×50×30×80≈7.486<10.828.因此按99.9%的可靠性要求,不能认为“成绩与班级有关系”.10.某品牌2019款汽车即将上市,为了对这款汽车进行合理定价,某公司在某市五家4S 店分别进行了两天试销售,得到如下数据:(1)分别以五家4S 店的平均单价与平均销量为散点,求出单价与销量的回归直线方程y =b x +a;(2)在大量投入市场后,销量与单价仍服从(1)中的关系,且该款汽车的成本为12万元/辆,为使该款汽车获得最大利润,则该款汽车的单价约为多少万元(保留一位小数)?附:b ^=∑i =1n-x -y∑i =1n-x,a ^=y -b ^x .解:(1)∵五家4S 店的平均单价和平均销量分别为(18.3,83)(18.5,80),(18.7,74),(18.4,80),(18.6,78),∴x =18.3+18.5+18.7+18.4+18.65=18.5,y =83+80+74+80+785=79,b ^=-0.2×4+0×1+-+-+-0.04+0+0.04+0.01+0.01=-20.1=-20.∴a ^=y --b ^x =79-(-20)×18.5=79+370=449,∴y ^=-20x +449.(2)设该款汽车的单价应为x 万元,则利润f (x )=(x -12)(-20x +449)=-20x 2+689x -5 388,f ′(x )=-40x +689,令-40x +689=0,解得x ≈17.2,故当x ≈17.2时,f (x )取得最大值.∴要使该款汽车获得最大利润,该款汽车的单价约为17.2万元.B 级 能力提升练11.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面2×2列联表,问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.解:(1)甲厂抽查的500件产品中有360件优质品,从而估计甲厂生产的零件的优质品率为360500=72%;乙厂抽查的500件产品中有320件优质品,从而估计乙厂生产的零件的优质品率为320500=64%.(2)完成的2×2列联表如下:由表中数据计算得K 2k =-500×500×680×320≈7.35>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异.”12.某电视厂家准备在元旦期间举办促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费x i (万元)和销售量y i (万台)的数据如下.(1)(2)若用y =c +d x 模型拟合y 与x 的关系可得回归方程y ^=1.63+0.99x ,经计算线性回归模型及该模型的R 2分别为0.75和0.88,请用R 2说明选择哪个回归模型更好;(3)已知利润z 与x ,y 的关系为z =200y -x ,根据(2)的结果,当广告费x =20时,销售量及利润的预报值是多少?参考公式:b ^=∑i =1nxiyi -n xy∑i =1nx2i -n x 2,a ^=y -b ^x . 参考数据:5≈2.24.解:(1)∵x =8,y =4.2,∑i =17x i y i =279.4,∑i =17x2i =708,b ^=∑i =17xiyi -7xy∑i =17x2i -7 x 2=279.4-7×8×4.2708-7×82=0.17,a ^=y -b ^x =4.2-0.17×8=2.84.∴y 关于x 的线性回归方程为y ^=0.17x +2.84. (2)R 2越大反映残差平方和越小,拟合效果越好, ∵0.75<0.88,∴选用非线性回归模型y ^=1.63+0.99x 更好.(3)由(2)知,当x =20时,销售量的预报值y ^=1.63+0.9920≈6.06(万台), 利润的预报值z ^=200×(1.63+0.9920)-20≈1 191.48(万元).13.微信已成为人们常用的社交软件,“微信运动”是微信里由腾讯开发的一个类似计步数据库的公众帐号,手机用户可以通过关注“微信运动”公众号查看自己每天行走的步数,同时也可以和好友进行运动量的PK 或点赞.现从小明的微信朋友圈内随机选取了40人(男、女各20人),记录了他们某一天的走路步数,并将数据整理如下表:若某人一天的走路步数超过8 000步被系统评定为“积极型”,否则被系统评定为“懈怠型”.(1)利用样本估计总体的思想,试估计小明的所有微信好友中每日走路步数超过10 000步的概率;(2)根据题意完成下面的2×2列联表,并据此判断能否有90%的把握认为“评定类型”与“性别”有关?附:K2=++++,其中n=a+b+c+d.解:(1)∴利用样本估计总体的思想,估计小明的所有微信好友中每日走路步数超过10 000步的概率P=840=0.2.(2)根据题意完成2×2列联表如下:∴K2=-20×20×21×19≈2.5<2.706,∴没有90%的把握认为“评定类型”与“性别”有关.14.“双十一网购狂欢节”源于淘宝商城(天猫)2009年11月11日举办的促销活动,当时参与的商家数量和促销力度均有限,但营业额远超预想的效果,于是11月11日成为天猫举办大规模促销活动的固定日期.如今,中国的“双十一”已经从一个节日变成了全民狂欢的“电商购物日”.某淘宝电商分析近8年“双十一”期间的宣传费用x(单位:万元)和利润y(单位:十万元)之间的关系,得到下列数据:(1)请用相关系数r y 与x 之间具有线性相关关系);(2)根据(1)的判断结果,建立y 与x 之间的回归方程,并预测当x =24时,对应的利润y ^为多少(b ^,a ^,y ^精确到0.1).附参考公式:回归方程中y ^=b ^x +a ^中b ^和a ^最小二乘估计分别为b ^=∑i =1nxiyi -n xy∑i =1nx2i -n x 2,a ^=y -b ^x , 相关系数r =∑i =1nxiyi -n xy∑i =1n-x∑i =1n-y.参考数据: ∑i =18x i y i =241,∑i =18x2i =356,∑i =18-x≈8.25,∑i =18-y =6.解:(1)由题意得x =6,y =4.又∑i =18x i y i =241,∑i =18-x ≈8.25,∑i =18-y=6, 所以r =∑i =18xiyi -8xy∑i =18-x∑i =18-y≈241-8×6×48.25×6≈0.99>0.81,所以y 与x 之间存在线性相关关系.(2)因为b ^=∑i =18xiyi -8xy∑i =18x2i -8 x 2=241-8×6×4356-8×62≈0.7, a ^=y -b ^x ≈4-0.7×6=-0.2, 所以回归直线方程为y ^=0.7x -0.2. 当x =24时,y ^=0.7×24-0.2=16.6, 所以预测当x =24时,对应的利润y ^为16.6.。