【创新设计】2014高考数学一轮复习 限时集训(六十九)变量间的相关关系与统计案例 理 新人教A版
- 格式:doc
- 大小:156.50 KB
- 文档页数:5
第2讲变量间的相关关系与统计案例A级基础演练(时间:30分钟满分:55分)一、选择题(每小题5分,共20分)1.(2012·新课标全国)在一组样本数据(x1,y1),(x2,y2),…,(x n,y n)(n≥2,x1,x2,…,x n不全相等)的散点图中,若所有样本点(x i,y i)(i=1,2,…,n)都在直线y=错误!x+1上,则这组样本数据的样本相关系数为().A.-1 B.0 C.错误!D.1解析样本点都在直线上时,其数据的估计值与真实值是相等的,即y i=错误!i,代入相关系数公式r=错误!=1.答案D2.(2013·长春调研)已知x,y取值如下表:x014568y 1.31。
85.66。
17。
49。
3从所得的散点图分析可知:y与x线性相关,且错误!=0.95x+a,则a=().A.1.30 B.1。
45 C.1.65 D.1.80解析依题意得,错误!=错误!×(0+1+4+5+6+8)=4,错误!=错误!×(1.3+1.8+5.6+6.1+7。
4+9.3)=5.25。
又直线错误!=0.95x+a必过样本中心点(错误!,错误!),即点(4,5.25),于是有5。
25=0。
95×4+a,由此解得a=1.45,选B。
答案B3。
(2011·陕西)设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是().A.直线l过点(x,错误!)B.x和y的相关系数为直线l的斜率C.x和y的相关系数在0到1之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同解析由样本的中心(错误!,错误!)落在回归直线上可知A正确;x 和y的相关系数表示为x与y之间的线性相关程度,不表示直线l 的斜率,故B错;x和y的相关系数应在-1到1之间,故C错;分布在回归直线两侧的样本点的个数并不绝对平均,即无论样本点个数是奇数还是偶数,故D错.答案A4.(2011·山东)某产品的广告费用x与销售额y的统计数据如下表:错误!错误!错误!错误!为9.4,据此模型预报广告费用为6万元时销售额为().A.63.6万元B.65。
第3讲变量间的相关关系与统计案例[考纲解读] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系;根据最小二乘法求出回归直线方程.(重点)2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其初步应用.[考向预测] 从近三年高考情况来看,本讲是高考中的一个热点考查内容.预测2021年将会考查:①回归直线方程的判断、求解及相关系数的意义,并用其解决实际问题;②独立性检验思想在实际问题中的应用.试题以解答题的形式呈现,难度为中等.此外,也可能出现在客观题中,此时试题难度不大,属中、低档题型.1.相关关系与回归方程(1)相关关系的分类02右上角的区域内,如图①正相关:从散点图上看,点散布在从□01左下角到□1;04右下角的区域内,如图②负相关:从散点图上看,点散布在从□03左上角到□2.(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在□05一条06回归直线.直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做□(3)回归方程①最小二乘法:使得样本数据的点到回归直线的□07距离的平方和最小的方法叫做最小二乘法.②回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x -2,a ^=y --b ^ x -.其中,b ^是回归方程的□08斜率,a ^是在y 轴上的□09截距,x -=1n ∑n i =1x i ,y -=1n ∑n i =1y i ,□10(x -,y -)称为样本点的中心.说明:回归直线y ^=b ^x +a ^必过样本点的中心(x -,y -),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)样本相关系数r =∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2∑i =1n(y i -y -)2,用它来衡量两个变量间的线性相关关系.①当r >0时,表明两个变量□11正相关; ②当r <0时,表明两个变量□12负相关; ③r 的绝对值越接近1,表明两个变量的线性相关性□13越强;r 的绝对值接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r |>0.75时,认为两个变量有很强的线性相关关系.2.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i=y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e^i 称为相应于点(x i ,y i )的残差.(2)残差平方和为∑ni =1 (y i -y ^i )2. (3)相关指数:R 2=1-□01∑n i =1(y i -y ^i )2∑ni =1 (y i-y -)2.3.独立性检验(1)分类变量:变量的不同“值”表示个体所属的□01不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的□02频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d构造一个随机变量K 2=□03n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =□04a +b +c +d 为样本容量.(3)独立性检验利用随机变量□05K 2来判断“两个分类变量□06有关系”的方法称为独立性检验.1.概念辨析(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)“名师出高徒”可以解释为教师的教学水平与学生水平成正相关关系.( )(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (4)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) (5)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )答案 (1)× (2)√ (3)√ (4)√ (5)× 2.小题热身(1)设回归方程为y ^=3-5x ,则变量x 增加一个单位时( ) A.y 平均增加3个单位B .y 平均减少5个单位C.y平均增加5个单位D.y平均减少3个单位答案 B解析因为-5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位.故选B.(2)在下列各图中,两个变量具有相关关系的图是()A.①②B.①③C.②④D.②③答案 D解析①为函数关系;②显然成正相关;③显然成负相关;④没有明显相关性.(3)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表.非一线一线总计愿生452065不愿生132235总计5842100≈9.616.算得K2=58×42×35×65附表:P(K2≥k0)0.0500.0100.001 k0 3.841 6.63510.828A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”答案 C解析 因为K 2≈9.616>6.635,所以有99%以上的把握认为“生育意愿与城市级别有关”.(4)已知变量x ,y 具有线性相关关系,它们之间的一组数据如下表所示,若y 关于x 的回归方程为y ^=1.3x -1,则m =________.x 1 2 3 4 y0.11.8m4答案 解析 由已知得x -=14×(1+2+3+4)=2.5, y -=14(0.1+1.8+m +4)=14×(5.9+m ).因为(x -,y -)在直线y ^=1.3x -1上,所以y -=1.3×2.5-1=2.25, 所以14×(5.9+m )=2.25,解得m =3.1.题型一 相关关系的判断1.下列两变量中不存在相关关系的是( )①人的身高与视力;②曲线上的点与该点的坐标之间的关系;③某农田的水稻产量与施肥量;④某同学考试成绩与复习时间的投入量;⑤匀速行驶的汽车的行驶距离与时间;⑥商品的销售额与广告费.A.①②⑤ B .①③⑥ C .④⑤⑥ D .②⑥答案 A解析 根据相关关系的定义知,①②⑤中两个变量不存在相关关系. 2.下列命题中正确的为( )A.线性相关系数r 越大,两个变量的线性相关性越强B.线性相关系数r 越小,两个变量的线性相关性越弱C.残差平方和越小的模型,模型拟合的效果越好D.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好答案 C解析线性相关系数r的绝对值越接近于1,两个变量的线性相关性越强,故A,B错误;残差平方和越小,相关指数R2越大,越接近于1,拟合效果越好,故C正确,D错误.3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3答案 A解析易知题中图①与图③是正相关,图②与图④是负相关,且图①与图②中的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.故选A.1.判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.|r|越趋近于1相关性越强.见举例说明3.(3)线性回归直线方程中:b^>0时,正相关;b^<0时,负相关.2.判断拟合效果的两个方法(1)残差平方和越小,拟合效果越好.见举例说明2. (2)相关指数R 2越大,越接近于1,拟合效果越好.1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A.-1 B .0 C.12 D .1答案 D解析 所有点均在直线上,则样本相关系数最大即为1,故选D.2.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A.①② B .②③ C .③④ D .①④答案 D解析 由回归方程y ^=b ^x +a ^知当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.题型二 回归分析角度1 线性回归方程及应用1.某汽车的使用年数x 与所支出的维修总费用y 的统计数据如表:使用年数x /年12345维修总费用y /万元 0.51.22.23.34.5根据上表可得y 关于x 的线性回归方程y ^=b ^x -0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足1年按1年计算)( )A.8年 B .9年 C .10年 D .11年答案 D解析 由y 关于x 的线性回归直线y ^=b ^x -0.69过样本点的中心(3,2.34),得b ^=1.01,即线性回归方程为y ^=1.01x -0.69,令y ^=1.01x -0.69=10,得x ≈10.6,所以预测该汽车最多可使用11年.故选D.2.(2019·东北三省三校三模)现代社会,“鼠标手”已成为常见病.一次实验中,10名实验对象进行160分钟的连续鼠标点击游戏,每位实验对象完成的游戏关卡一样,鼠标点击频率平均为180次/分钟,实验研究人员测试了实验对象使用鼠标前后的握力变化,前臂表面肌电频率(sEMG)等指标.(1)10名实验对象实验前、后握力(单位:N)测试结果如下: 实验前:346,357,358,360,362,362,364,372,373,376. 实验后:313,321,322,324,330,332,334,343,350,361.完成茎叶图,并计算实验后握力平均值比实验前握力的平均值下降了多少N ?(2)实验过程中测得时间t (分)与10名实验对象前臂表面肌电频率(sEMG)的中位数y (Hz)的九组对应数据(t ,y )为(0,87),(20,84),(40,86),(60,79),(80,78),(100,78),(120,76),(140,77),(160,75).建立y 关于时间t 的线性回归方程;(3)若肌肉肌电水平显著下降,提示肌肉明显进入疲劳状态,根据(2)中9组数据分析,使用鼠标多少分钟就该进行休息了?参考数据:∑9i =1(t i -t )(y i -y -)=-1800;参考公式:回归方程y ^=b ^t +a ^中斜率和截距的最小二乘估计公式分别为:b ^=∑ni =1 (t i -t )(y i -y -)∑ni =1 (t i-t )2,a ^=y --b ^ t 解 (1)根据题意得到茎叶图如下图所示:由图中数据可得x -1=110×(346+357+358+360+362+362+364+372+373+376)=363,x -2=110×(313+321+322+324+330+332+334+343+350+361)=333, ∴x -1-x -2=363-333=30(N),∴故实验前后握力的平均值下降了30 N .(2)由题意得t =19(0+20+40+60+80+100+120+140+160)=80, y -=19×(87+84+86+79+78+78+76+77+75)=80,∑9i =1(t i -t )2=(0-80)2+(20-80)2+(40-80)2+(60-80)2+(80-80)2+(100-80)2+(120-80)2+(140-80)2+(160-80)2=24000,又∑9i =1(t i -t )(y i -y -)=-1800, ∴b ^=∑9i =1(t i -t )(y i -y -)∑9i =1 (t i-t )2=-180024000=-0.075, ∴a ^=y --b ^t =80-(-0.075)×80=86, ∴y 关于时间t 的线性回归方程为y ^=-0.075t +86.(3)九组数据中40分钟到60分钟y 的下降幅度最大,提示60分钟时肌肉已经进入疲劳状态,故使用鼠标60分钟就该休息了.角度2 非线性回归模型的应用3.(2019·莆田二模)某芯片公司为制定下一年的研发投入计划,需了解年研发资金投入量x i (单位:亿元)对年销售额y i (单位:亿元)的影响.该公司对历史数据进行对比分析,建立了两个函数模型:①y =α+βx 2,②y =e λx +t ,其中α,β,λ,t 均为常数,e 为自然对数的底数.现该公司收集了近12年的年研发资金投入量x i 和年销售额y i 的数据,i =1,2,…,12,并对这些数据作了初步处理,得到了如下的散点图及一些统计量的值.令u i =x 2,v i =ln y i (i =1,2,…,12),经计算得如下数据: x - y - ∑i =112(x i -x -)2 ∑i =112(y i -y -)2 u -v - 20 66770 2004604.20∑i =112(u i -u -)2 ∑i =112(u i -u -)· (y i -y -)∑i =112(v i -v -)2 ∑i =112(x i -x -)· (v i -v -) 3125000215000.30814i i 1i i 2角度,选择一个拟合程度更好的模型;(2)①根据(1)的选择及表中数据,建立y 关于x 的回归方程(系数精确到0.01); ②若下一年销售额y 需达到90亿元,预测下一年的研发资金投入量x 是多少亿元?附:相关系数r =∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2∑i =1n(y i -y -)2,回归直线y ^=a ^+b ^x 中斜率和截距的最小二乘估计公式分别为b ^=∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2,a ^=y --b ^x -;参考数据:308=4×77,90≈9.4868,e 4.4998≈90.解 (1)由题意,r 1=∑i =112(u i -u -)(y i -y -)∑i =112(u i -u -)2∑i =112(y i -y -)2=215003125000×200=2150025000=4350=0.86,r 2=∑i =112(x i -x -)(v i -v -)∑i =112(x i -x -)2∑i =112(v i -v -)2=14770×0.308=1477×0.2=1011≈0.91,则|r 1|<|r 2|,因此从相关系数的角度,模型y =e λx +t 的拟合程度更好. (2)①先建立v 关于x 的线性回归方程, 由y =e λx +t ,得ln y =t +λx ,即v =t +λx ;由于λ=∑i =112(x i -x -)(v i -v -)∑i =112(x i -x -)2=14770≈0.018,t =v --λx -=4.20-0.018×20=3.84,所以v 关于x 的线性回归方程为v ^=0.02x +3.84, 所以ln y ^=0.02x +3.84, 则y ^=e 0.02x +3.84.②下一年销售额y 需达到90亿元,即y =90, 代入y ^=e 0.02x +3.84,得90=e 0.02x +3.84, 又e 4.4998≈90,所以4.4998≈0.02x +3.84, 所以x ≈4.4998-3.840.02=32.99,所以预测下一年的研发资金投入量约是32.99亿元.1.利用线性回归方程时的关注点(1)正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键. (2)回归直线方程y ^=b ^x +a ^必过样本点中心(x -,y -).见举例说明1.(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.2.非线性回归方程的求法(1)根据原始数据(x ,y )作出散点图. (2)根据散点图选择恰当的拟合函数.(3)作恰当的变换,将其转化成线性函数,求线性回归方程.(4)在(3)的基础上通过相应变换,即可得非线性回归方程.见举例说明3.1.(2019·南宁二模)一汽车销售公司对开业4年来某种型号的汽车“五一”优惠金额与销售量之间的关系进行分析研究并做了记录,得到如下资料.日期 第1年 第2年 第3年 第4年 优惠金额x (千元) 10 11 13 12 销售量y (辆)22243127经过统计分析(利用散点图)可知x ,y 线性相关. (1)用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)若第5年优惠金额为8.5千元,估计第5年的销售量y (辆)的值.参考公式:b ^=∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x -2,a ^=y --b ^x -.解 (1)由题意,得x -=11.5,y -=26,∑i =14x i y i =1211,∑i =14x 2i =534,∴b ^=∑i =14x i y i -4x -y -∑i =14x 2i -4x-2=1211-4×11.5×26534-4×11.52=155=3,则a ^=y --b ^ x -=26-3×11.5=-8.5.∴y ^=3x -8.5.(2)当x =8.5时,y ^=17,∴第5年优惠金额为8.5千元时,销售量估计为17辆.2.对某地区儿童的身高与体重的一组数据,我们用两种模型①y =bx +a ,②y =c e dx拟合,得到回归方程分别为y ^(1)=0.24x -8.81,y ^(2)=1.70e 0.022x ,作残差分析,如下表:(2)根据残差比较模型①②的拟合效果,决定选择哪个模型;(3)若残差大于1 kg 的样本点被认为是异常数据,应剔除,剔除后对(2)所选择的模型重新建立回归方程.(结果保留到小数点后两位)附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^ x -. 解 (1)根据残差分析,把x =80代入y ^(1)=0.24x -8.81中,得y ^(1)=10.39. ∵10-10.39=-0.39, ∴表中空格内的值为-0.39.(2)模型①残差的绝对值的和为0.41+0.01+0.39+1.21+0.19+0.41=2.62, 模型②残差的绝对值的和为0.36+0.07+0.12+1.69+0.34+1.12=3.7. ∵2.62<3.7,∴模型①的拟合效果比较好,选择模型①.(3)残差大于1 kg 的样本点被剔除后,剩余的数据如下表: 身高x (cm) 60 70 80 100 110 体重y (kg)6 8 10 15 18 e ^(1)0.410.01-0.39-0.190.41由公式b ^=∑i =1 (x i -x )(y i -y )∑ni =1 (x i -x -)2,a ^=y --b ^ x -, 得回归方程为y ^=0.24x -8.76.题型三 独立性检验1.假设有两个分类变量X 和Y 的2×2列联表如下:YXy 1 y 2 总计 x 1 a 10 a +10 x 2 c 30 c +30 总计 6040100对同一样本,以下数据能说明X 与Y 有关系的可能性最大的一组为( ) A.a =45,c =15B .a =40,c =20C.a=35,c=25 D.a=30,c=30 答案 A解析根据2×2列联表与独立性检验可知,当aa+10与cc+30相差越大时,X与Y有关系的可能性越大,即a,c相差越大,aa+10与cc+30相差越大.故选A.2.(2019·南昌三模)某校高三文科(1)班共有学生45人,其中男生15人,女生30人.在一次地理考试后,对成绩作了数据分析(满分100分),成绩为85分以上的同学称为“地理之星”,得到了如下列联表:地理之星非地理之星合计男生7女生合计如果从全班45人中任意抽取1人,抽到“地理之星”的概率为1 3.(1)完成“地理之星”与性别的2×2列联表,并回答是否有90%以上的把握认为获得“地理之星”与“性别”有关?(2)若已知此次考试中获得“地理之星”的同学的成绩平均值为90,方差为7.2,请你判断这些同学中是否有得到满分的同学,并说明理由.(得分均为整数分)参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.临界值表:P(K2≥k0)0.100.050.0100.0050.001 k0 2.706 3.841 6.6357.87910.828解(1)根据题意知“地理之星”总人数为45×13=15,填写列联表如下:地理之星非地理之星合计 男生 7 8 15 女生 8 22 30 合计153045根据表中数据,计算K 2=45×(7×22-8×8)215×30×15×30=1.8<2.706,所以没有90%的把握认为获得“地理之星”与性别有关.(2)没有得满分的同学,记各个分值由高到低分别为x 1,x 2,…,x 15; ①若有2个以上的满分,则s 2=115×[(100-90)2+(100-90)2+…+(x 15-90)2]>403>7.2,不符合题意.②若恰有1个满分,为使方差最小,则其他分值需集中分布在平均数90的附近,且为保证平均值为90,则有10个得分为89,其余4个得分为90,此时方差取得最小值,∴s 2min=115×[(100-90)2+4×(90-90)2+10×(89-90)2]=223>7.2,与题意方差为7.2不符合,所以这些同学中没有得满分的同学.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量K 2的观测值k ,查表确定临界值k 0;(3)如果k ≥k 0,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过P (K 2≥k 0);否则,就认为在犯错误的概率不超过P (K 2≥k 0)的前提下不能推断“X 与Y 有关系”.1.学生会为了调查学生对2018年俄罗斯世界杯的关注是否与性别有关,抽样调查100人,得到如下数据:不关注 关注 总计 男生301545女生451055 总计7525100K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),并参考以下临界数据:P(K2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001 k00.4550.708 1.323 2.072 2.706 3.841 5.024 6.6357.87910.828 错的概率不超过()A.0.10 B.0.05C.0.025 D.0.01答案 A解析由题意可得K2=100×(30×10-15×45)245×55×75×25≈3.030>2.706,由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”出错的概率不超过0.10.故选A.2.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m 不超过m 第一种生产方式第二种生产方式附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828 解①由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.②由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可)(2)由茎叶图知m=79+812=80.列联表如下:超过m 不超过m第一种生产方式15 5第二种生产方式515(3)由于K2的观测值k=20×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.组基础关1.观察下列各图形:其中两个变量x,y具有相关关系的图是()A.①②B.①④C.③④D.②③答案 C解析观察散点图可知,两个变量x,y具有相关关系的图是③④.2.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r 0.820.780.690.85m 106115124103A.甲B.乙C.丙D.丁答案 D解析在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两个变量有更强的线性相关性.故选D.3.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K2=7.069,则所得到的统计学结论是:有________的把握认为“学生性别与支持该活动有关系”.() 附:P(K2≥k0)0.1000.0500.0250.0100.001 k0 2.706 3.841 5.024 6.63510.828A .0.1%B .1%C .99%D .99.9%答案 C解析 因为7.069与附表中的6.635最接近,且7.069>6.635,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.4.(2019·湖北省七市(州)教科研协作体联考)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据:(x 1,y 1),(x 2,y 2),(x 3,y 3),(x 4,y 4),(x 5,y 5).根据收集到的数据可知x 1+x 2+x 3+x 4+x 5=100,用最小二乘法求得回归直线方程为y ^=0.67x +54.8,则y 1+y 2+y 3+y 4+y 5的值为( )A .68.2B .341C .355D .366.2答案 B解析 由题意,得x -=1005=20,将其代入回归直线方程y ^=0.67x +54.8中,得y -=0.67×20+54.8=68.2,所以y 1+y 2+y 3+y 4+y 5=5y -=341.故选B.5.(2020·甘肃兰州摸底)根据如下样本数据:得到的回归方程为y =bx +a .样本点的中心为(3,0.1),当x 增加1个单位,则y 近似( )A .增加0.8个单位B .减少0.8个单位C .增加2.3个单位D .减少2.3个单位答案 A解析 由题意,知x -=15×(1+2+3+4+5)=3,y -=15×[(a -1)+(-1)+0.5+(b +1)+2.5]=a +b +25=0.1,①又回归直线方程过样本中心点(3,0.1),得3b +a =0.1,②由①②联立,解得a =-2.3,b =0.8,所以回归直线方程为y ^=0.8x -2.3,所以当x 增加1个单位时,y 近似增加0.8个单位.6.已知两个随机变量x ,y 之间的相关关系如下表所示:根据上述数据得到的回归方程为y =b x +a ,则大致可以判断( ) ⎝ ⎛⎭⎪⎫参考公式:b ^=∑ni =1x i y i -n x -y -∑n i =1x 2i-n x -2,a ^=y --b ^ x -A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0 D.a ^<0,b ^<0答案 C解析 由已知得,x -=0.2,y -=-1.7, ∴b ^=20+6-1-1+4-5×0.2×(-1.7)16+4+1+4+16-5×(0.2)2=99136>0,∴a ^=-1.7-99136×0.2<0,或利用散点图,易判断b ^>0,a ^<0.故选C.7.(2019·湛江二模)有人认为在机动车驾驶技术上,男性优于女性.这是真的么?某社会调查机构与交警合作随机统计了经常开车的100名驾驶员最近三个月内是否有交通事故或交通违法事件发生,得到下面的列联表:附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )A .认为机动车驾驶技术与性别有关的可靠性不足50%B .认为机动车驾驶技术与性别有关的可靠性超过50%C .认为机动车驾驶技术与性别有关的可靠性不足60%D .认为机动车驾驶技术与性别有关的可靠性超过60% 答案 A解析 由表中数据,计算K 2=100×(40×10-35×15)255×45×75×25≈0.3367<0.455,∴认为机动车驾驶技术与性别有关的可靠性不足50%.故选A.8.为了考察某种疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:参照附表,在犯错误的概率不超过________的前提下,认为“小动物是否被感染与服用疫苗有关”.答案 0.05解析 由题意得,K 2=100×(10×30-20×40)250×50×30×70≈4.762>3.841.所以在犯错误的概率不超过0.05的前提下,认为“小动物是否被感染与服用疫苗有关”.9.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i=13,∑6i =1x 2i=21,则实数b 的值为________.答案 57解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i6=72,y -=∑6i =1y i 6=136,代入y =bt -13,得136=b ×72-13,解得b =57.10.(2019·厦门二模)某种细胞的存活率y (%)与存放温度x (℃)之间具有线性相关关系,其样本数据如表所示:计算得x -=5,y -=35,∑i =17x i y i =-175,∑i =17x 2i =875,并求得回归直线为y ^=-2x+45.但实验人员发现表中数据x =-5的对应值y =60录入有误,更正为y =53.则更正后的回归直线方程为________.参考公式:回归方程y ^=b ^x +a ^中斜率和截距的最小二乘估计公式分别为b ^=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x-2,a ^=y --b ^x -.答案 y ^=-1.9x +43.5解析 由题意,更正后,x -=5,y -=17×(35×7-60+53)=34,∑i =17x i y i =-175+5×60-5×53=-140,∑i =17x 2i =875,∴b ^=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x-2=-140-7×5×34875-7×25=-1.9,a ^=y --b ^x -=34-(-1.9)×5=43.5.∴更正后的回归直线方程为y ^=-1.9x +43.5.组 能力关1.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1答案 C解析 对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,故选C.2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1成绩性别不及格 及格 总计 男 6 14 20 女 10 22 32 总计163652视力性别好 差 总计 男 4 16 20 女 12 20 32 总计163652智商偏高正常总计C.智商D.阅读量答案 D解析K21=52×(6×22-10×14)2 16×36×20×32,令5216×36×20×32=m,则K21=82m,同理,K22=m×(4×20-12×16)2=1122m,K23=m×(8×24-8×12)2=962m,K24=m×(14×30-6×2)2=4082m,∴K24>K22>K23>K21,则与性别有关联的可能性最大的变量是阅读量.故选D.3.针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数的23.若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有________人.解析设男生人数为x,由题意可得列联表如下:男生x65x6x女生x3x6x2总计x2x3x2即k=3x2⎝⎛⎭⎪⎫x6·x6-5x6·x32x·x2·x2·x=3x8>3.841,解得x>10.243.因为x6,x2为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有12人.4.(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y^=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y^=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可)组 素养关1.某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制了频率分布直方图(如图所示),规定80分及以上者晋级成功,否则晋级失败(满分为100分).(1)求图中a 的值;(2)估计该次考试的平均分x -(同一组中的数据用该组的区间中点值代表); (3)根据已知条件完成下面的2×2列联表,并判断能否有85%的把握认为“晋级成功”与性别有关.晋级成功 晋级失败合计 男16。
变量间的相关关系__统计案例[知识能否忆起]一、变量间的相关关系1.常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.二、两个变量的线性相关1.从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.2.回归方程为y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x .3.通过求Q =∑i =1n(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.4.相关系数=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2,当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.三、独立性检验1.2×2列联表:假设有两个分类变量X 和Y ,它们的值域分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称2×2列联表)为:y 1 y 2 合计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +dK 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d 为样本容量).2.用K 2的大小可以决定是否拒绝原来的统计假设H 0,若K 2值较大,就拒绝H 0,即拒绝事件A 与B 无关.3.当K 2>3.841时,则有95%的把握说事件A 与B 有关; 当K 2>6.635时,则有99%的把握说事件A 与B 有关; 当K 2>2.706时,则有90%的把握说事件A 与B 有关.[小题能否全取]1.(教材习题改编)观察下列各图形其中两个变量x 、y 具有相关关系的图是( ) A .①② B .①④ C .③④D .②③解析:选C 由散点图知③④具有相关关系.2.(教材习题改编)已知变量x ,y 之间具有线性相关关系,其回归方程为y ^=-3+bx ,若∑i =110x i =17,∑i =110y i =4,则b 的值为( )A .2B .1C .-2D .-1解析:选A 依题意知,x =1710=1.7,y =410=0.4,而直线y ^=-3+bx 一定经过点(x ,y ),所以-3+b ×1.7=0.4,解得b =2.3.在一次对性别与说谎是否相关的调查中,得到如下数据:说谎 不说谎 合计 男 6 7 13 女 8 9 17 合计141630根据表中数据,得到如下结论中正确的一项是( ) A .在此次调查中有95%的把握认为是否说谎与性别有关 B .在此次调查中有99%的把握认为是否说谎与性别有关 C .在此次调查中有99.5%的把握认为是否说谎与性别有关 D .在此次调查中没有充分的证据显示说谎与性别有关解析:选D 由于K 2=30×(6×9-7×8)213×17×14×16≈0.0024,由于K 2很小,因此,在此次调查中没有充分的证据显示说谎与性别有关.故选D.4.某考察团对全国10大城市的居民人均工资收入x (万元/年)与居民人均消费y (万元/年)进行统计调查,发现y 与x 具有相关关系,且y 对x 的回归方程为y ^=0.66x +1.562.若某城市居民人均消费为7.675(万元/年),估计该城市人均消费占人均工资收入的百分比约为________.解析:因为当y ^=7.675时,x =7.675-1.5620.66≈9.262,则7.6759.262≈0.829≈83%. 答案:83%5.已知x ,y 之间的数据如表所示,则回归直线过点________.x 1 2 3 4 5 y1.21.82.53.23.8解析:x =3,y =2.5,∴样本点中心为(3,2.5),回归直线过样本点中心. 答案:(3,2.5)1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.2.由回归方程进行预报,仅是一个预报值,而不是真实发生的值.3.使用K 2统计量作2×2列联表的独立性检验时,要求表中的4个数据都要大于5,在选取样本容量时一定要注意.相关关系的判断典题导入[例1] (2012·新课标全国卷)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1[自主解答] 因为所有的点都在直线上,所以它就是确定的函数关系,所以相关系数为1.[答案] D由题悟法1.相关关系的判断方法一是利用散点图直观判断,二是利用相关系数作出判断. 2.对于由散点图作出相关性判断时,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性.3.由相关系数r 判断时|r |越趋近于1相关性越强.以题试法1.已知变量x ,y 之间具有线性相关关系,其散点图如图所示,则其回归方程可能为( )A.y ^=1.5x +2 B.y ^=-1.5x +2 C.y ^=1.5x -2 D.y ^=-1.5x -2解析:选B 设回归方程为y ^=bx +a .由散点图可知变量x 、y 之间负相关,回归直线在y 轴上的截距为正数,所以b <0,a >0,因此其回归直线方程可能为y ^=-1.5x +2.回归方程的求法及回归分析典题导入[例2] (2012·福建高考)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x (元) 8 8.2 8.4 8.6 8.8 9 销量y (件)908483807568(1)求回归直线方程y ^=bx +a ,其中b =-20,a =y --b x -;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)[自主解答] (1)由于x =16(x 1+x 2+x 3+x 4+x 5+x 6)=8.5,y =16(y 1+y 2+y 3+y 4+y 5+y 6)=80.所以a =y -b x =80+20×8.5=250,从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得 L =x (-20x +250)-4(-20x +250) =-20x 2+330x -1 000 =-20⎝⎛⎭⎫x -3342+361.25. 当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.由题悟法1.最小二乘法估计的一般步骤: (1)作出散点图,判断是否线性相关; (2)如果是,则用公式求a ^,b ^,写出回归方程; (3)根据方程进行估计.2.回归直线方程必过定点(x ,y ).以题试法2.(2012·长春模拟)已知x 、y 取值如下表:x 0 1 4 5 6 8 y1.31.85.66.17.49.3从所得的散点图分析可知:y 与x 线性相关,且y ^=0.95x +a ,则a =( )A .1.30B .1.45C .1.65D .1.80解析:选B 依题意得,x =16×(0+1+4+5+6+8)=4,y =16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25;又直线y ^=0.95x +a 必过中心点(x ,y ),即点(4,5.25),于是有5.25=0.95×4+a ,由此解得a =1.45.独立性检验典题导入[例3] (2012·湖南衡阳第二次联考)衡阳市第一次联考后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的2×2列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为311.优秀 非优秀 合计 甲班 10 乙班 30 合计110(1)请完成上面的列联表;(2)根据列表中的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”. 参考公式与临界值表:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )P (K 2≥k 0)0.100 0.050 0.025 0.010 0.001 k 02.7063.8415.0246.63510.828[自主解答] (1)列联表如下:优秀 非优秀 合计 甲班 10 50 60 乙班 20 30 50 合计3080110(2)根据列联表中的数据,得到K 2=110×(10×30-20×50)260×50×30×80≈7.486<10.828.因此按99.9%的可靠性要求,不能认为“成绩与班级有关系”.由题悟法1.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表;(2)根据公式K2=n(ad-bc)2(a+b)(a+d)(a+c)(b+d)计算K2的值;(3)查表比较K2与临界值的大小关系,作统计判断.2.在实际问题中,独立性检验的结论也仅仅是一种数学关系,得到的结论也可能犯错误.以题试法3.(2012·嘉兴联考)为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:理科文科合计男131023女72027合计203050已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2=50×(13×20-10×7)223×27×20×30≈4.844,则认为选修文科与性别有关系出错的可能性约为________.解析:由K2=4.844>3.841.故认为选修文科与性别有关系出错的可能性约为5%.答案:5%。
巩固双基,提升能力一、选择题 1.(2012·北京)某棵果树前n年的总产量Sn与n之间的关系如图所示.从目前记录的结果看,前m年的年平均产量最高,m的值为( ) A.5 B.7 C.9 D.11 解析:年平均产量为=,表示点(n,Sn)与原点连线的斜率,由图可知(9,S9)与原点连线的斜率最大,故选C. 答案:C 2.(2012·湖南)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( ) A.y与x具有正的线性相关关系 B.回归直线过样本点的中心(,) C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg 解析:A中由于回归方程中的x系数为正,所以具有正的线性相关关系,A正确;B由线性回归方程的推导可知回归方程必过样本点的中心(,),B正确;C中,身高增加1 cm,则Δy=0.85(x+1)-85.71-(0.85x-85.71)=0.85(kg),C正确.D中,将170代入回归方程得y=58.79 kg,这个值只能是一个推测的结果,和实际值允许有误差,D错误. 答案:D 3.(2013·枣庄调研)通过随机询问100名性别不同的大学生是否爱好踢毽子运动,得到如下的列联表: 男女总计爱好104050不爱好203050总计3070100附表: P(K2≥k)0.100.050.025k2.7063.8415.024随机变量K2= 经计算,统计量K2的观测值k≈4.762,参照附表,得到的正确结论是( )A.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关” B.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关” C.有97.5%以上的把握认为“爱好该项运动与性别有关” D.有97.5%以上的把握认为“爱好该项运动与性别无关” 解析:根据题意得k≈4.762>3.841,故应该有95%的把握认为“爱好该项运动与性别有关”,因此选A. 答案:A 4.(2013·泰安模拟)下列说法: 将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; 设有一个回归方程=3-5x,变量x增加一个单位时,y平均增加5个单位; 线性回归方程=x+必过(,); 在一个2×2列联表中,由计算得K2=13.079,则有99.9%的把握确认这两个变量间有关系. 其中错误的个数是( ) A.0 B.1 C.2 D.3 本题可以参考独立检验临界值表P(K2≥k)0.500.400.250.150.10k0.4550.7081.3232.0722.706P(K2≥k)0.050.0250.010.0050.001k3.8415.0246.6357.8 7910.828解析:根据方差公式知正确;中应该为x增加一个单位时,y平均减少5个单位;正确;根据独立性检验表知正确.因此错误的为,只有1个. 答案:B 5.已知x与y之间的一组数据: x0123y1357则y与x的线性回归方程=x+必过( ) A.点(2,2) B.点(1.5,0) C.点(1,2) D.点(1.5,4) 解析:由=-知, y与x的线性回归方程必过点(,), 又由已知数据,得=(0+1+2+3)=1.5, =(1+3+5+7)=4,故必过点(1.5,4). 答案:D 6.(2013·泰安模拟)下表是某厂1~4月份用水量(单位:百吨)的一组数据: 月份x1234用水量y4.5432.5由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归直线方程是=-0.7x+,则等于( ) A.10.5 B.5.15 C.5.2 D.5.25 解析:=2.5,=3.5,回归直线方程过定点(,), 3.5=-0.7×2.5+,=5.25. 答案: D 二、填空题 7.(2013·丽水调研)某单位为了了解用电量y度与气温x℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表: 气温(℃)181310-1用电量(度)24343864由表中数据得线性回归方程=x+中=-2,预测当气温为-4℃时,用电量的度数约为________. 解析:=10,=40,回归方程过点(,), 40=-2×10+. =60. =-2x+60.令x=-4,=(-2)×(-4)+60=68. 答案:68 8.某高校“统计初步”课程的教师随机调查了选该课程的一些学生的情况,具体数据如下表: 专业性别 非统计专业统计专业男1310女720为了判断主修统计专业是否与性别有关系,根据表中的数据,得到 K2=≈4.844,因为K2≥3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为__________. 解析:K2≈4.844>3.841,有95%的把握认为主修统计专业与性别有关系,即作出“主修统计专业与性别有关系”的判断,出错的可能性不超过5%. 答案:5% 三、解答题 9.(2013·开封调研)甲、乙两个学校高三年级分别有1 100人,1 000人,为了了解两个学校全体高三年级学生在该地区二模考试的数学成绩情况,采用分层抽样方法从两个学校一共抽取了105名学生的数学成绩,并作出了如下的频数分布统计表,规定考试成绩在[120,150]内为优秀. 甲校: 分组[70,80)[80,90)[90,100)[100,110)频数231015分组[110,120)[120,130)[130,140)[140,150]频数15x31乙校: 分组[70,80)[80,90)[90,100)[100,110)频数1298分组[110,120)[120,130)[130,140)[140,150]频数1010y3(1)计算x,y的值; (2)由以上统计数据填写下面2×2列联表,若按是否优秀来判断,是否有97.5%的把握认为两个学校的数学成绩有差异? 甲校乙校总计优秀非优秀总计解析:(1)x=6,y=7. (2)填表如下: 甲校乙校总计优秀102030非优秀453075总计5550105由表格计算,得K2=≈6.109>5.024,故有97.5%的把握认为两个学校的数学成绩有差异. 10.(2013·南京学情调研)某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料: 日期1月 10日2月 10日3月 10日4月 10日5月 10日6月 10日昼夜温 差x(℃)1011131286就诊人 数y(人)222529261612该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验. (1)求选取的2组数据恰好是相邻两个月的概率; (2)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y关于x的线性回归方程y=bx+a; (3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想? 参考公式:b==,a=-b. 解析:(1)设抽到相邻两个月的数据为事件A. 从6组数据中选取2组数据共有15种情况,每种情况都是等可能出现的.其中,抽到相邻两个月的数据的情况有5种, P(A)==. (2)由数据求得=11,=24. 由公式求得b=,a=-b=-, y关于x的线性回归方程为y=x-. (3)当x=10时,y=,<2; 同样,当x=6时,y=,<2. 该小组所得线性回归方程是理想的.。
限时集训(六十九) 变量间的相关关系与统计案例
(限时:45分钟 满分:81分)
一、选择题(本大题共6小题,每小题5分,共30分) 1.下列关系中,是相关关系的为( ) ①学生的学习态度与学习成绩之间的关系; ②教师的执教水平与学生的学习成绩之间的关系; ③学生的身高与学生的学习成绩之间的关系; ④家庭的经济条件与学生的学习成绩之间的关系. A .①② B .①③ C .②③
D .②④
2.(2012·新课标全国卷)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,
x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12
x
+1上,则这组样本数据的样本相关系数为( )
A .-1
B .0 C.12
D .1
3.已知回归直线的斜率的估计值为 1.23,样本点的中心为(4,5),则回归直线方程为( )
A.y ^=1.23x +4
B.y ^
=1.23x +5 C.y ^=1.23x +0.08 D.y ^
=0.08x +1.23
4.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:
则y 对x 的线性回归方程为( ) A .y =x -1 B .y =x +1 C .y =88+1
2
x
D .y =176 5.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:
A .99%
B .97.5%
C .95%
D .90%
6.通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:
天桥由K 2
=n a +b c +d a +c b +d ,
算得K 2
=
110×40×30-20×202
60×50×60×50
≈7.8.
附表:
A .有99%以上的把握认为“选择过马路的方式与性别有关”
B .有99%以上的把握认为“选择过马路的方式与性别无关”
C .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”
D .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关” 二、填空题(本大题共3小题,每小题5分,共15分)
7.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的线性回归直线方程:y ^
=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
8.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:
小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.
9.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
已知P (K 2
≥3.841)≈0.05,根据表中数据,得到K 2
=
50×13×20-10×72
23×27×20×30
≈4.844.则认为选修文科与性别有关
系出错的可能性为________.
三、解答题(本大题共3小题,每小题12分,共36分) 10.已知x ,y 的一组数据如下表:
(1)从x ,y (2)对于表中数据,甲、乙两同学给出的拟合直线分别为y =13x +1与y =12x +1
2,试利
用“最小平方法(也称最小二乘法)”判断哪条直线拟合程度更好.
11.为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x 、物理成绩y 进行分析.下面是该生7次考试的成绩.
(1)(2)已知该生的物理成绩y 与数学成绩x 是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.(其中,数据(x i ,y i )(i =1,2,…,n )的线性回归方程为y ^
=
b ^
x +a ^,b ^=
∑i =1
n
x i -x -
y i -y -
∑i =1
n
x i -x -
2
,a ^=y --b ^x -)
12.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下的列联表.
已知从全部105人中随机抽取1人为优秀的概率为7.
(1)请完成上面的列联表;
(2)根据列联表的数据,若按95%的可靠性要求,能否认为“成绩与班级有关系”; (3)若按下面的方法从甲班优秀的学生中抽取一人:把甲班优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号.试求抽到6号或10号的概率.
附:K 2
=n ad -bc 2
a +
b
c +
d a +c b +d ,
答 案
限时集训(六十九) 变量间的相关关系与统计案例
1.A 2.D 3.C 4.C 5.A 6.A 7.0.245 8.0.5 0.53 9.5%
10.解:(1)从x ,y 中各取一个数组成数对(x ,y ),共有25对,其中满足x +y ≥10的有(6,4),(6,5),(7,3),(7,4),(7,5),(8,2),(8,3),(8,4),(8,5),共9对.故所求概率P =9
25
.
(2)用y =13x +1作为拟合直线时,所得y 值与y 的实际值的差的平方和为S 1=⎝ ⎛⎭
⎪
⎫43-12
+(2-2)2+(3-3)2
+⎝ ⎛⎭⎪⎫103-42+⎝ ⎛⎭⎪⎫113-52=73
.
用y =12x +12
作为拟合直线时,所得y 值与y 的实际值的差的平方和为S 2=(1-1)2
+(2
-2)2+⎝ ⎛⎭⎪⎫72-32+(4-4)2
+⎝ ⎛⎭⎪⎫92-52=12
.
∵S 2<S 1,∴直线y =12x +1
2
的拟合程度更好.
11.解:(1)∵x -
=100+-12-17+17-8+8+127=100,
y -
=100+
-6-9+8-4+4+1+6
7
=100,
∴s 2数学=9947=142.∴s 2
物理=2507,
∵s 2
数学>s 2
物理,∴该生的物理成绩更稳定. (2)由于x 与y 之间具有线性相关关系,
∴b ^
=
∑i =1
7 x i y i -7x - y -∑i =1
7
x 2i -7x -
2
)=497
994
=0.5, a ^
=y --b ^x -
=100-0.5×100=50.
∴线性回归方程为y ^
=0.5x +50. 当y =115时,x =130. 建议:
进一步加强对数学的学习,提高数学成绩的稳定性,这将有助于物理成绩的进一步提高. 12.解:(1)
(2)K 2
=
105×10×30-20×452
55×50×30×75
≈6.109>3.841,
因此有95%的把握认为“成绩与班级有关系”.
(3)设“抽到6号或10号”为事件A ,先后两次抛掷一枚均匀的骰子,出现的点数为(x ,
y ),则所有的基本事件有(1,1)、(1,2)、(1,3)、…、(6,6),共36个.
事件A 包含的基本事件有(1,5),(2,4),(3,3),(4,2),(5,1),(4,6),(5,5),(6,4),共8个,∴P (A )=836=29.。