“十年高考”:概率与统计 回归分析与独立性检验(附详细答案解析)
- 格式:pdf
- 大小:379.07 KB
- 文档页数:13
专题十一 概率与统计第三十三讲 回归分析与独立性检验一、选择题1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆy bx a =+.已知101225i i x ==∑,1011600i i y ==∑,ˆ4b =.该班某学生的脚长为24,据此估计其身高为A .160B .163C .166D .1702.(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归本线方程ˆˆˆybx a =+ ,其中ˆˆˆ0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为A .11.4万元B .11.8万元C .12.0万元D .12.2万元 3.(2014重庆)已知变量x 与y 正相关,且由观测数据算得样本的平均数3x =, 3.5y =,则由该观测数据算得的线性回归方程可能为A .$0.4 2.3y x =+B .$2 2.4y x =-C .$29.5y x =-+D .$0.3 4.4y x =-+ 4.(2014湖北)根据如下样本数据得到的回归方程为ˆybx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b > 5.(2012新课标)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为A .−1B .0C .12D .16.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是7.(2012湖南)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为$y =0.85x -85.71,则下列结论中不正确...的是 A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1cm ,则其体重约增加0.85kgD .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 8.(2011山东)某产品的广告费用x 与销售额y 的统计数据如下表广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程ˆˆˆy bx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为A .63.6万元B .65.5万元C .67.7万元D .72.0万元二、解答题9.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+yt ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+yt . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.10.(2016年全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32ii y==∑,7140.17i i i t y ==∑,721()0.55ii y y =-=∑,7≈2.646.参考公式:相关系数12211()()()(yy)ni ii n ni ii i t t y y r t t ===--=--∑∑∑,回归方程y a bt =+)))中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑),=.a y bt -)))11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw821()ii x x =-∑821()ii w w =-∑81()()iii x x yy =--∑81()()iii w w yy =--∑46.65636.8289.8 1.61469 108.8表中i i w x =w =1881i i w =∑.(Ⅰ)根据散点图判断,y a bx =+与y c x =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利率的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,⋅⋅⋅,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()niii nii u u v v u u β==--=-∑∑,ˆˆv u αβ=-. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表:(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i ni i tty y b t t ∧==--=-∑∑,ˆˆay bt =- 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(I )根据已知条件完成下面22⨯列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷 体育迷 合计 男 女合计(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.21212211222112)(++++-=n n n n n n n n n χ, 附:专题十一 概率与统计第三十三讲 回归分析与独立性检验答案部分1.C 【解析】因为22.5x =,160y =,所以$160422.570a=-⨯=,42470166y =⨯+=,选C .2.B 【解析】∵10.0x =,8.0y =,ˆ0.76b=,∴ˆ80.76100.4a =-⨯=, ∴回归方程为ˆ0.760.4yx =+,把15x =代入上式得, )(2k P ≥χ 0.050.01k3.841 6.635ˆ0.76150.411.8y=?=(万元),选B . 3.A 【解析】由题意可知,相应的回归直线的斜率应为正,排除C 、D .且直线必过点(3,3.5),代入A 、B 得A 正确.4.A 【解析】画出散点图知0,0b a <>.5.D 【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故选D.6.D 【解析】因为222152(6221410)5281636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222252(4201612)521121636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222352(824128)52961636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222452(143062)524081636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,则有22224231χχχχ>>>,所以阅读量与性别关联的可能性最大.7.D 【解析】由回归方程为$y =0.85x -85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+-=-, 所以回归直线过样本点的中心(x ,y ),利用回归方程可以预测估计总体,所以D 不正确.8.B 【解析】样本中心点是(3.5,42),则ˆˆ429.4 3.59.1ay bx =-=-⨯=,所以回归方程是ˆ9.49.1yx =+,把6x =代入得ˆ65.5y =. 9.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=-+⨯=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 10.【解析】(Ⅰ)由折线图这数据和附注中参考数据得4=t ,28)(712=-∑=i i t t ,55.0)(712=-∑=i iy y,40.1749.32 2.89==-⨯=,99.0646.2255.089.2≈⨯⨯≈r .因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得71721()()2.89ˆ0.10328()ii i ii tt y y b tt ==--==≈-∑∑, 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a. 所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.11.【解析】(Ⅰ)由散点图可以判断,y c =+适宜作为年销售量y 关于年宣传费x 的回归方程类型.(Ⅱ)令w =y 关于w 的线性回归方程,由于81821()()108.8ˆ681.6()iii ii w w y y dw w ==--===-∑∑. ˆˆ56368 6.8100.6cy dw =-=-⨯=, 所以y 关于w 的线性回归方程为ˆ100.668y w =+,因此y 关于x 的回归方程为ˆ100.6y=+ (Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y 的预报值ˆ100.6576.6y=+= 年利润z 的预报值ˆ576.60.24966.32z=⨯-=. (ⅱ)根据(Ⅱ)得结果知,年利润z 的预报值ˆ0.2(100.620.12zx x =+-=-+.13.66.82==,即46.24x =时,ˆz取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 12.【解析】(I ) 由所给数据计算得17t =(1+2+3+4+5+6+7)=4 17y =(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 7211()t tt =-∑=9+4+1+0+1+4+9=287111()()t tt y y =--∑=(3)( 1.4)(2)(1)(1)(0.7)-⨯-+-⨯-+-⨯-00.110.520.93 1.614+⨯+⨯+⨯+⨯=71117211()()140.528()t t tt y y btt ==--===-∑∑$,$ 4.30.54 2.3ay bt =-=-⨯=$. 所求回归方程为$0.5 2.3y t =+.13.【解析】(I)由频率颁布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:由2×2列联表中数据代入公式计算,得:222112212211212()100(30104515)100 3.0307525455533n n n n n x n n n n ++++-⨯-⨯==≈⨯⨯⨯因为3.030<3.841,所以,没有理由认为“体育迷”与性别有关.(II )由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间12132311{(,),(,),(,),(,)a a a a a a a b Ω=12212231,(,),(,),(,),(,),a b a b a b a b3212(,),(,)}a b b b 其中i a 表示男性,1,2,3i =.j b 表示女性,1,2j =.Ω由10个基本事件组成,而且这些事件的出现时等可能的.用A 表示“任选2人中至少有1名是女性”这一事件,则11122122313212{(,),(,),(,),(,),(,),(,),(,)}A a b a b a b a b a b a b b b = ∴7()10P A =。
一.基础题组1。
【2013课标全国Ⅰ,文3】从1,2,3,4中任取2个不同的数,则取出的2个数之差的绝对值为2的概率是( ).A .12B .13C .14D .16【答案】:B【解析】:由题意知总事件数为6,且分别为(1,2),(1,3),(1,4),(2,3),(2,4),(3,4),满足条件的事件数是2,所以所求的概率为13。
2。
【2011课标,文6】有3个兴趣小组,甲、乙两位同学各自参加其中一个小组,每位同学参加各个小组的可能性相同,则这两位同学参加同一个兴趣小组的概率为( )A 。
13B 。
12 C.23D 。
34【答案】A【解析】因为每位同学参加各个小组的可能性相等,所以所求概率为13,选A 。
3。
【2008全国1,文2】掷一个骰子,向上一面的点数大于2且小于5的概率为1P ,抛两枚硬币,正面均朝上的概率为2P ,则( ) A .12P P < B .12P P > C .12P P = D 。
不能确定 【答案】B5。
【2016新课标1文数】为美化环境,从红、黄、白、紫4种颜色的花中任选2种花种在一个花坛中,余下的2种花种在另一个花坛中,则红色和紫色的花不在同一花坛的概率是(A )13 (B )12 (C )23 (D )56【答案】C【解析】试题分析:将4种颜色的花种任选2种种在一个花坛中,余下2种种在另一个花坛中,有6种种法,其中红色和紫色的花不在同一个花坛的种数有4种,故所求概率为23,选C 。
【考点】古典概型【名师点睛】作为客观题形式出现的古典概型试题,一般难度不大,解答中的常见错误是在用列举法计数时出现重复或遗漏,避免此类错误发生的有效方法是按照一定的标准进行列举。
6。
【2011全国1,文19】(Ⅰ)设所求概率为1P ,则1=1(10.5)(10.6)0.8.P --⨯-=故该地1位车主至少购买甲、乙两种保险中的l 种的概率为0.8.(Ⅱ)对每位车主甲、乙两种保险都不购买的概率为(10.5)(10.6)0.2.-⨯-=于是所求概率为:123(0.2)(10.2)0.384.C -=7. 【.2009....全国卷...Ⅰ.,文..20..】甲、乙二人进行一次围棋比赛,约定先胜3局者获得这次比赛的胜利,比赛结束。
重难点04 概率与统计新高考概率与统计主要考查统计分析、变量的相关关系,独立性检验、用样本估计总体及其特征的思想,以排列组合为工具,考查对五个概率事件的判断识别及其概率的计算。
试题考查特点是以实际应用问题为载体,小题部分主要是考查排列组合与古典概型,解答题部分主要考查独立性检验、超几何分布、离散型分布以及正态分布对应的数学期望以及方差。
概率的应用立意高,情境新,赋予时代气息,贴近学生的实际生活。
取代了传统意义上的应用题,成为高考中的亮点。
解答题中概率与统计的交汇是近几年考查的热点趋势,应该引起关注。
求解概率问题首先确定是何值概型再用相应公式进行计算,特别对于解互斥事件(独立事件)的概率时,要注意两点:(1)仔细审题,明确题中的几个事件是否为互斥事件(独立事件),要结合题意分析清楚这些事件互斥(独立)的原因;(2)要注意所求的事件是包含这些互斥事件(独立事件)中的哪几个事件的和(积),如果不符合以上两点,就不能用互斥事件的和的概率.离散型随机变量的均值和方差是概率知识的进一步延伸,是当前高考的热点内容.解决均值和方差问题,都离不开随机变量的分布列,另外在求解分布列时还要注意分布列性质的应用.捆绑法:题目中规定相邻的几个元素捆绑成一个组,当作一个大元素参与排列。
相离问题插空排:元素相离(即不相邻)问题,可先把无位置要求的几个元素全排列,再把规定的相离的几个元素插入上述几个元素的空位和两端。
定序问题缩倍法:在排列问题中限制某几个元素必须保持一定的顺序,可用缩小倍数的方法。
标号排位问题分步法:把元素排到指定位置上,可先把某个元素按规定排入,第二步再排另一个元素,如此继续下去,依次即可完成。
有序分配问题逐分法:有序分配问题指把元素分成若干组,可用逐步下量分组法。
对于二项式定理的应用,只要会求对应的常数项以及对应的n项即可,但是应注意是二项式系数还是系数。
新高考统计主要考查统计分析、变量的相关关系,独立性检验、用样本估计总体及其特征的思想,以排列组合为工具,考查对五个概率事件的判断识别及其概率的计算。
第65讲 回归分析和独立性检验【知识要点】(一)变量间的相关关系、回归分析的基本思想及初步运用 一、相关关系1、概念:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫相关关系.2、相关关系与函数关系的异同点. 相同点:两者均是指两个变量间的关系.不同点:函数关系是一种确定关系,是一种因果系.如正方形的面积s 和边长a 的关系2s a =就是一种函数关系.相关关系是一种非确定的关系,也不一定是因果关系.如产品的销售额与广告费的投入的关系. 二、散点图表示具有相关关系的两个变量的一组数据的图形叫做散点图.正相关:如果散点图中的点散布在从左小角到右上角的区域内,称为正相关. 负相关:如果散点图中的点散布在从左上角到右下角的区域内,称为负相关.注:如果关于两个变量统计数据的散点图呈现发散状,则这两个变量之间不具有相关关系. 三、回归分析1、对具有相关关系的两个变量进行统计分析的方法叫回归分析.回归分析的一般步骤为画散点图→求回归直线方程→用回归直线方程进行预报.2、回归直线方程回归直线:观察散点图的特征,如果各点大致分布在一条直线的附近,就称两个变量之间具有线性相关的关系,这条直线叫做回归直线.回归直线方程:设所求的直线方程为y bx a ∧=+,其中121()(),()niii nii x x y y b a y bx x x ==--==--∑∑,1111,,n ni i i i x x y y n n ====∑∑(,)x y 称为样本点的中心,回归直线过样本点的中心.回归方程的截距a 和斜率b 是用最小二乘法计算出来的. 3、相关系数两个变量之间线性相关关系的强弱用相关系数r 来衡量.相关系数:()()niix x y y r --=∑ 0r >,表示两个变量正相关;0r <,表示两个变量负相关;r 的绝对值越接近1,表明两个变量的线性相关性越强.r 的绝对值越接近0,表明两个变量之间几乎不存在线性相关关系.通常,r 的绝对值大于0.75时,表明两个变量的线性相关性很强. 4、建立回归模型的基本步骤:①确定研究对象,明确哪个是解释变量,哪个是预报变量;②画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在线性关系) ③由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y bx a =+) ④按照公式计算回归方程中的参数(如最小二乘法) ⑤得出结果后检查数据模型是否合适检查数据模型拟合效果的好坏,一般有两种方法.方法一:通过残差分析,如果残差点比较均匀地落在水平的带状区域中,则说明选用的模型比较合适,反之,不合适)方法二:用相关指数2R 来刻画回归的效果,其计算公式是:22121()1()nii nii y y R y y ∧==-=--∑∑其中i y y ∧-=真实值-预报值=残差,2R 值越大,说明残差的平方和越小,也就是说模型的拟合效果越好.(二)独立性检验的基本思想及其初步运用一、用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例如:是否吸烟,是否患肺癌,国籍等二、独立性检验的方法1、列出两个分类变量的频数表(列联表),直观判断.2、画三维柱形图、二维条形图、等高条形图,直观判断.3、两个分类变量的独立性检验 一般步骤: (1)2*2列联表(2)提出假设:设p 与q 没有关系 (3)根据列联表中的数据2K 计算的值22()()()()()()n ad bc K n a b c d a b c d a c b d -==+++++++其中为样本容量(4)根据计算得到的随机变量2K 的观测值作出判断如:2 4.232K =因为4.232介于临界值3.841和5.024之间,2( 3.841)p K ≥=0.05,所以两个分类变量没有关系的概率是5%,即两个分类变量有关系的概率为95%. 三、温馨提示(1)独立性检验的必要性:为什么不能只凭列联表和图形下结论?原因是列联表中的数据是样本数据,它只是总体的代表,具有随机性,因此需要用列联表检验这个方法来确认所得得结论在多大程度上适用于总体.(2)独立性检验的思想来自于统计上的假设性检验,它与反证法类似.假设检验和反证法都是先假设结论不成立,然后根据是否能够推出矛盾来确定结论是否成立.但是二者的矛盾的含义不同,反证法中的矛盾是指不符合逻辑的事情发生;而假设检验中的矛盾是指不符合逻辑的小概率事件发生,即在结论不成立的假设下推出有利于结论成立的小概率事件的发生.(3)2K 与k 的关系并不是2K k =,k 是2K 的观测值,或者说2K 是一个随机变量,它在dc b a ,,,取不同的值时,2K 可能不同,而k 是取定一组数d c b a ,,,后的一个确定值. 【方法讲评】【例1】【2017课标1,文19】为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm ).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得16119.9716i i x x ===∑,0.212s ==≈,18.439≈,161()(8.5) 2.78i i x x i =--=-∑,其中i x 为抽取的第i 个零件的尺寸,1,2,,16i =⋅⋅⋅.(1)求(,)i x i (1,2,,16)i =⋅⋅⋅的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若||0.25r <,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(3,3)x s x s -+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在(3,3)x s x s -+之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(,)i i x y (1,2,,)i n =⋅⋅⋅的相关系数12211()()()()niii n niii i x x y y r x x y y ===--=--∑∑∑,0.0080.09≈.(2)(i )由于9.97,0.212x s =≈,由样本数据可以看出抽取的第13个零件的尺寸在(3,3)x s x s -+以外,因此需对当天的生产过程进行检查.(ii )剔除离群值,即第13个数据,剩下数据的平均数为1(169.979.22)10.0215⨯-=,这条生产线当天生产的零件尺寸的均值的估计值为10.02.因为162211(16)0.21216i i x x =-≈∑,所以162211(16)16i i x x =-∑=20.212,所以162221160.21216i i x x ==⋅+∑ 22160.212169.971591.134=⋅+⋅≈剩下数据的样本方差为2222211611611611[()()][()152()]1515x x x x x x x x x x -++-=+++-++2222222211611315161622222111[()15215][(+x )15]151511[9.221510.02][1591.1349.221510.02]0.0081515i i x x x x x x x x x x ==+++-⋅=++++-=--⋅=--⋅≈∑0.0080.09≈.【点评】(1)统计概率的解答题一般阅读量信息量比较大,并且数据比较多,对考生的心理素质要求较高,如果学生急躁冒进,对解题的影响就大了. 遇到这样的题目,建议先绕过拦路虎,杀个回马枪.先把其它题目完成再回过头来解答. 不要硬碰硬. (2)前几年的高考,数据直接代进去就可以了,运算量比较小,最近几年的高考,有的数据不能直接代进去,还要把目标数据变形后才能代进去. 故近几年的高考统计概率题的数据分析处理能力要求更高了. 本题中要求162 1()iix x=-∑,已知告诉的却是16211()16iix x=-∑0.212≈,所以要化简计算才能得到1621()iix x=-∑.本题中要求剩下的15个数的平均数,但是已知告诉的却是16119.9716iix x===∑,所以要利用平均数的定义和16119.9716iix x===∑求出剩下的15个数的平均数. 本题要求剩下的15个数的方差,但是已知告诉的却是16个数的标准差16211()0.21216iix x=-≈∑,所以要利用方差的定义结合16211()0.21216iix x=-≈∑求出剩下的15个数的方差. 这是本题的三个难点.【反馈检测1】下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t的关系,请用相关系数加以说明;(Ⅱ)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32iiy==∑,7140.17i iit y==∑721()0.55iiy y=-=∑7 2.646≈.参考公式:相关系数12211()()()(y y)ni iin ni ii it t y yrt t===--=--∑∑∑回归方程y a bt=+中斜率和截距的最小二乘估计公式分别为:121()()()ni iiniit t y ybt t==--=-∑∑,=.a y bt-【反馈检测2】经销商小王对其所经营的某一型号二手汽车的使用年数x (0<x ≤10)与销售价格y (单位:万元/辆)进行整理,得到如下的对应数据:(Ⅰ)试求y 关于x 的回归直线方程;(附:回归方程y b x a ∧∧∧=+中,1221,ni ii nii x y nx yb a y bx xnx ---==--∑∑(Ⅱ)已知每辆该型号汽车的收购价格为20.05 1.7517.2w x x =-+万元,根据(Ⅰ)中所求的回归方程,预测x 为何值时,小王销售一辆该型号汽车所获得的利润z 最大.【例2】全国人大常委会会议于 2015年12月27日通过了关于修改人口与计划生育法的决定, “全面二孩”从2016年元旦起开始实施,A 市妇联为了解该市市民对“全面二孩”政策的态度,随机抽取了男性市民30人、女性市民70人进行调查, 得到以下的22⨯列联表:(1)根椐以上数据,能否有0090的把握认为A 市市民“支持全面二孩”与“性别”有关?(2)现从持“支持”态度的市民中再按分层抽样的方法选出15名发放礼品,分别求所抽取的15人中男性市民和女性市民的人数;(3) 将上述调查所得到的频率视为概率,.现在从A 市所有市民中,采用随机抽样的方法抽取3位市民进行长期跟踪调查, 记被抽取的3位市民中持“支持”态度人数为X .①求X 的分布列;②求X 的数学期望()E X 和方差()D X . 参考公式:()()()()()22n ad bc K a b a d a c b d -=++++,其中n a b c d =+++ 参考数据:()2P K k >0.15 0.10 0.05 0.025 0.010 0.005 0.001 k2.0722.7063.8415.0246.6357.87910.828(3)(i )由22⨯列联表可知,抽到持“支持”态度的市民的频率为6031005=,将频率视为概率,即从A 市市民中任意抽取到一名持“支持”态度的市民的概率为35. 由于总体容量很大,故X 可视作服从二项分布,即3(3,)5XB ,所以3332()()()(0,1,2,3)55k k k P X k C k -===.从而X 的分布列为:X123P8125 36125 54125 27125(ii )39()355E X np ==⨯=;()(1)D X np p =-=321835525⨯⨯=. 【点评】第三小问中,由于总体容量很大,故X 可视作服从二项分布.【反馈检测3】【2017课标II ,理18】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg )某频率分布直方图如下: (1)设两种养殖方法的箱产量相互独立,记A 表示事件:“旧养殖法的箱产量低于50kg, 新养殖法的箱产量不低于50kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50kg箱产量≥50kg旧养殖法 新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01)附:22()()()()()n ad bc K a b c d a c b d -=++++高中数学常见题型解法归纳及反馈检测第65讲:回归分析和独立性检验参考答案【反馈检测1答案】(Ⅰ)0.99r ≈,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系;(Ⅱ)1.82亿吨(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得103.02889.2)())((ˆ71271≈=---=∑∑==i ii i it ty y t tb , 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.【反馈检测2答案】(I )ˆ 1.4518.7y x =-+;(II )预测当3x =时,销售利润z 取得最大值.【反馈检测2详细解析】(Ⅰ)由已知得6,10x y ==由552111242,220,i ii i x yx --==∑∑解得12211.45ni ii nii x y nx yb xnx---==--∑∑,18.7a y bx =-=所以回归直线的方程为14.518.7y x =-+(Ⅱ)221.4518.7(0.05 1.7517.2)0.050.3 1.5z x x x x x =-+--+=-++20.05(3) 1.95x =--+文档从网络中收集,已重新整理排版.word 版本可编辑.欢迎下载支持.11文档来源为:从网络收集整理.word 版本可编辑. 所以预测当3x =时,销售利润z 取得最大值.【反馈检测3答案】(1)0.4092;(2) 有99%的把握认为箱产量与养殖方法有关;(3)52.35kg.(2)根据箱产量的频率分布直方图得列联表箱产量50kg < 箱产量50kg ≥ 旧养殖法62 38 新养殖法 34 66()222006266343815.70510010096104K ⨯⨯-⨯=≈⨯⨯⨯由于15.705 6.635>故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50kg 的直方图面积为()0.0040.0200.04450.340.5++⨯=<,箱产量低于55kg 的直方图面积为()0.0040.0200.044+0.06850.680.5++⨯=>故新养殖法箱产量的中位数的估计值为0.5-0.3450+ 2.35kg 0.068()≈5.。
十年高考全国课标卷统计与概率解答题的考察研究—以2009年至2018年高考全国课标卷理科为例宋健辉(福建省福州格致中学)1引言统计与概率是高中数学的重要内容,《2018年普通高等学校招生全国统一考试大纲的说明(理科)》对统计与概率内容的要求是,高考主要考查随机抽样,用样本估计总体,变量的相关性,随机事件的概率,古典概型,几何概型,回归分析,独立性检验,离散型随机变量的分布列、期望、方差,正态分布.考查重点是用样本估计总体,古典概型,离散型随机变量的分布列、期望、方差,应用回归分析与独立性检验思想方法解决简单实际问题的能力.试题强调应用性,以实际问题为背景,构建数学模型,突出考查统计与概率的思想和考生的数据处理能力以及应用意识.本文将以2009年至2018年高考全国课标卷统计与概率(理科)解答题为例,对其进行一次理论与实践的总结和分析,与大家分享试题背后的思想和试题对教学的引导作用,希望能给一线教师提供一点经验.2基本情况分析表12009年至2018年高考课标卷统计与概率解答题统计试题年份题号考查的知识点涉及的统计图或表字符2009(海南宁夏卷)19 从统计的角度计算概率、由频率分布直方图估计均值与方差频率分布表、频率分布直方图4172010 19 分层抽样、独立性检验、调整抽样方法2×2列联表1692011 19 从统计的角度计算概率、分段函数、分布列频率分布表3072012 18 分段函数、分布列、期望方差、统计推断统计表290 2013(Ⅰ)19 概率计算、分布列、数学期望文字语言267 2013(Ⅱ)19 分段函数、由频率分布直方图估计概率、期望频率分布直方图2612014(Ⅰ)17 由频率分布直方图估计均值与方差、由正态分布计算概率与期望频率分布直方图2322014(Ⅱ)19 线性回归方程表格222 2015(Ⅰ)19 非线性回归方程、从统计的角度计算二次型函数的最值散点图3412015(Ⅱ)18 茎叶图、从统计的角度计算概率茎叶图、数据以及表格3772016(Ⅰ)19 分布列、从统计的角度求最值、统计推断频率分布直方图2912016(Ⅱ)18 从统计的角度计算概率、条件概率、表格2391期望2016(Ⅲ)18 相关系数、回归直线方程折线图190表格440 2017(Ⅰ)19 正态分布3 的理解、统计推断、期望与方差试题年份题号考查的知识点涉及的统计图或表字符频率分布直方图243 2017(Ⅱ)18 从统计的角度计算概率、独立性检验、由频率分布直方图估计中位数2017(Ⅲ)18 分布列、统计推断频率分布表383 2018(Ⅰ)20 二项分布、导数求最值、期望、统文字语言333计推断折线图210 2018(Ⅱ)18 利用回归方程求预报值、判断回归模型得到预报值的可靠性2018(Ⅲ)18 茎叶图、中位数、独立性检验茎叶图、2×2列联275表由表1,统计与概率命题范围主要有:用样本估计总体,离散型随机变量的分布列、期望与方差,正态分布,回归分析与独立性检验,统计决策,并多次与函数结合在一起考查.其基本情况有如下4点:①从题号来看,除了2014年Ⅰ卷和2018年Ⅰ卷外,其余均是解答题的第18或19题,属中档和中档偏上的题目.但从实测数据来看,以福建省2016年和2017年公布的数据:2016年难度0.34,2017年难度0.24,由此可以看到课标卷的统计概率题难点在于“新”.②除了2013年Ⅰ卷和2018年Ⅰ卷外,所有题目都与统计图表紧密相连,涉及频率分布直方图、茎叶图、折线统计图、散点图,读图识表作图是基本要求.③不含空格,从统计的字符来看,信息量相当大,需要很好的数学阅读能力.④大部分考查离散型随机变量分布,尤其是超几何分布与二项分布,其中2014年Ⅰ卷与2017年Ⅰ卷结合正态考查二项分布.十年所考的19题对统计与概率的知识、思想能力进行了非常全面的考查,强调应用性,试题呈现出三大特点:(1)背景公平,控制难度.全国卷的统计与概率解答题主要是以考数学应用题的考查目标而出现的,此它必须以大多数考生熟悉的社会热点问题为背景才能显示公平,而且考查的难度适中.(2)以统计为主,概率为辅.在命题设计中,对概率的考查基本上都是从统计的角度来计算概率,即概率计算是为统计服务的,重在强调对统计的基本思想方法及其应用的考查,重在利用统计与概率思想解决实际问题.(3)强调对随机模型的建立,统计数据的收集、整理和处理,直至最终作出相关统计决策的全过程的考查.3试题分析3.1突出统计概率思想分析、解释和统计决断统计与概率思想包含统计思想与概率思想两个部分,统计思想是指利用统计数据,依据23统计问题的要求,得到统计结论;概率思想是通过对随机现象的观察研究发现必然,去研究隐藏在随机现象背后的统计规律,进而理解随机现象.例1(2018全国1卷理20)某工厂的某种产品成箱包装,每箱200件,每一箱产品在交付用户之前要对产品作检验,如检验出不合格品,则更换为合格品.检验时,先从这箱产品中任取20件作检验,再根据检验结果决定是否对余下的所有产品作检验.设每件产品为不合格品的概率都为(01)p p <<,且各件产品是否为不合格品相互独立.(1)记20件产品中恰有2件不合格品的概率为()f p ,求()f p 的最大值点0p ; (2)现对一箱产品检验了20件,结果恰有2件不合格品,以(1)中确定的0p 作为p 的值.已知每件产品的检验费用为2元,若有不合格品进入用户手中,则工厂要对每件不合格品支付25元的赔偿费用.(i )若不对该箱余下的产品作检验,这一箱的检验费用与赔偿费用的和记为X ,求EX ;(ii )以检验费用与赔偿费用和的期望值为决策依据,是否该对这箱余下的所有产品作检验?简解(1)由221820()(1),(0,1)f p C p p p =-∈,求得当110p =时,()f p 有最大,所以00.1p =(3)(i )剩余180件产品中恰有Y 件是不合格品服从二项分布(180,0.1)B ,所以检验费用与赔偿费用的和2540X Y =+,则(2540)490EX E Y =+=.(ii )如果对余下的产品作检验,则这一箱产品所需要的检验费为400元,由于400EX >,故应该对余下的所有产品作检验.本题以统计思想为引导,从统计的角度求得概率,让概率为统计服务,考查样本估计总体的思想,考查统计思维.课标卷的统计概率解答题尤其突出统计概率思想分析问题、解释问题和统计推断,充分体现了高考的考查重点是利用统计与概率思想解决实际问题,体现了数学的应用性价值.十年高考题中具有“统计决断”特征的试题如下:年份 问题描述2010 根据(2)的结论,能否提供更好的调查方法来估计该地区老年人,需要志愿帮助的老年人的比例?说明理由. 2012 若花店计划一天应购进16枝或17枝玫瑰花,你认为应购进16枝还是17?请说明理由 2016(Ⅰ) 以购买易损零件所需费用的期望值为决策依据,在n=19与n=20之中选其一,应选用哪个. 2017(Ⅰ)试说明上述监控生产过程方法的合理性.42018(Ⅰ) 以检验费用与赔偿费用和的期望值为决策依据,是否该对这箱余下的所有产品作检验 2018(Ⅱ)你认为用哪个模型得到的预测值更可靠?并说明理由.3.2对数据处理能力提出了较高要求数据处理能力是指会收集数据、整理数据、分析数据,能从数据中提取对研究问题有用的信息,并做出合理判断.数据处理能力主要是针对研究对象的特殊性,选择合理的收集数据的方法,根据问题的具体情况,选取合适的统计方法整理数据,并构建模型对数据进行分析、推断,获得结论.数据处理能力要求学生能理解问题所提供的文字、数字、图形、图表等信息,并能从中提取有关信息,对它们进行分析和处理.能对有关的数据和图形进行统计和分析,应用统计或统计案例中的方法解决实际问题.例2(2017全国1卷理19)为了监控某种零件的一条生产线的生产过程,检验员每天从该生产线上随机抽取16个零件,并测量其尺寸(单位:cm ).根据长期生产经验,可以认为这条生产线正常状态下生产的零件的尺寸服从正态分布2(,)N μσ.(1)假设生产状态正常,记X 表示一天内抽取的16个零件中其尺寸在(3,3)μσμσ-+之外的零件数,求(1)P X ≥及X 的数学期望;(2)一天内抽检零件中,如果出现了尺寸在(3,3)μσμσ-+之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(i )试说明上述监控生产过程方法的合理性;(ii )下面是检验员在一天内抽取的16个零件的尺寸: 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04 10.26 9.9110.1310.029.2210.0410.059.95经计算得16119.9716i i x x ===∑,16162221111()(160.2121616i ii i s x x x x ===-=-≈∑∑其中i x 为抽取的第i 个零件的尺寸,1,2,16i =K .用样本平均数x 作为μ的估计值ˆμ,用样本标准差s 作为σ的估计值ˆσ,利用估计值判断是否需对当天的生产过程进行检查?剔除(3,3)μσμσ-+之外的数据,用剩下的数据估计μ和σ(精确到0.01).附:若随机变量Z 服从正态分2(,)N μσ,则(33)0.9974P Z μσμσ-<<+=,160.99740.9592=,0.0080.09≈.简解(1)由正态分布知一个零件的尺寸在(3,3)μσμσ-+之外的概率为0.0026,再由独5立重复试验的概率模型可知故X 服从二项分布(16,0.0026)B ,从而16(1)1(0)10.99740.0408P X P X ≥=-==-=,160.00260.416EX =⨯=.(3)(ⅰ)如果生产状态正常,零件尺寸服从正态分布,那么零件在(3,3)μσμσ-+之外取值的概率只有0.0026.抽取的16个零件中,出现尺寸在(3,3)μσμσ-+之外的概率只有0.0408,发生的概率很小.这样小概率事件在实际中几乎不会发生.一旦发生这种情况,就有理由认为这个事件不是小概率事件,即可推断零件尺寸不服从正态分布,也就是说生产状态不正常,即这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查,可见上述监控生产过程的方法是合理的.(ⅱ)由题中所给条件易得结果,只是要注意充分利用题中的信息.在计算σ的估计值时,先判断剔除的数据是9.22,计算剩下数据的平均数为1(169.979.22)10.0215⨯⨯-=,进而剔除数据后的样本方差为221(1591.1349.221510.02)0.00815⨯--⨯≈,因此σ的估计值为ˆ0.09σ=. 本题充满了创新性,数据处理问题是该题的另一个亮点,从大量数据中对研究问题提取出有用的信息,构建“随机抽样一收集数据一整理、分析数据一提取信息一用信息去说明问题”的框架.在统计问题中,数据的获得是至关重要的.此题用给出的数据,灵活的考查了相关知识,尤其第(ⅱ)小题,在原有16个数据平均数和标准差考查去掉一个数后的平均数标准差,用数据说话,也是每年高考概率与统计试题之中的有效考查方式.课标卷的统计与概率解答题分别以“频率分布直方图”、“茎叶图”、“折线统计图”、“统计表”和“文字语言”不同方式呈现对数据处理能力的考查,考查的知识点也各不相同,但从考查的“数据处理能力”来看,思路一直没有改变,且不断加强.无论是哪种方式呈现,数据都是含有信息的,根据数据的特点选择不同的计算方式以及对公式或数据进行变形和对参考数据的解读,这些都是最基本的,所以与数据处理能力相伴而生的是对数据的解读和对数据或公式的变形应用,体现了数据分析的核心素养. 3.3作图读图识图提到了非常重要的位置从表1的统计来看,所有试题都与统计图表紧密相连,突出考查“读图识图”的应用意识和能力,另外统计与概率中有大量的数据与图形相关,要能够识图处理数据.主要类型如下表所示:表3统计图类型统计试题年份 图形类型 考查内容 2009 作图 作图作频率分布直方图2015(Ⅱ) 作图 作茎叶图 2009 频率分布直方图 估计方差,计算平均数 2013(Ⅱ)频率分布直方图计算概率与方差62014(Ⅰ) 频率分布直方图计算平均数与方差 2015(Ⅰ) 散点图 求回归方程 2015(Ⅱ) 茎叶图 估计平均值与分散程度2016(Ⅰ) 频率分布直方图求分布列 2016(Ⅲ) 折线图 回归分析,相关系数 2017(Ⅱ) 频率分布直方图计算概率,2×2列联表,中位数2018(Ⅱ) 折线图 回归分析,统计推断2018(Ⅱ)茎叶图计算平均数,中位数,2×2列联表例3(2018全国2卷理18)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:ˆ30.413.5yt =-+;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:ˆ9917.5yt =+. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.简解(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=-+⨯=亿元;利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=亿元. (3)利用模型②得到的预测值更可靠.理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线ˆ30.413.5yt =-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述20107年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分.本题背景源于社会生活的实际,要求考生读懂该统计图,从统计图中获得相关的信息,问题的设置很人性化,通俗易懂,有利于考生分析、解决问题.本题注重对数学素养和能力的考查,在引导中学加强“数学应用能力和应用意识”的教育培养方面具有很好的引导作用,堪称“读图识图”的典范. 3.4从统计的角度计算概率概率计算问题,从课标卷来看,既注重计算概率的基本根据计数原理的应用,更注重从统计的观点来计算概率,尤其在统计与概率的解答题中体现的淋漓尽致,是新课标思想的极致体现.表4概率计算统计 试题年份 问题描述2009 求甲、乙两工人都被抽到的概率2011 分别估计用A配方,B配方生产的产品的优质品率 2013(Ⅰ) 求这批产品通过检验的概率2013(Ⅱ) 根据直方图估计利润T不少于57000元的概率2015(Ⅱ) 求事件C:“A地区用户的满意度等级高于B地区用户的满意度等级“ 的概率2016(Ⅱ)求一续保人本年度的保费高于基本保费的概率; 若一续保人本年度的保费高于基本保费,求其保费比基本保费高出60%的 概率2017(Ⅱ)估计事件A的概率3.5注重综合考查,关注知识交汇考试大纲在考查要求上开门见山地强调了知识交汇,与函数相结合考查是课标卷的统计与概率解答题又一特色之一,试题的设计注重学科的内在联系和知识的综合性,从学科的整体高度和思维价值的高度考虑问题,将交汇的特色突出地彰显.试题年份 函数类型 问题描述2011 分段函数 利用分段函数求分布列2012分段函数若花店一天购进16枝玫瑰花,求当天的利润y(单位: 元)关于需求量n (单位:份,n N )的函数解析式 2013(Ⅱ) 分段函数 将T表示为X的函数 2015(Ⅰ) 回归方程 计算二次型函数的最值2017(Ⅲ) 一次函数 求进货量n为多少时期望达到最大值 2018(Ⅰ) 导数求()f p 的最大值点0p4结语随着人们对统计在决策中的作用的认识的深入,课标卷中加大了对统计内容考查的力度.课标卷统计与概率的命题,从数学学科的整体高度和思维能力的角度出发,将知识、能力与素养融为一体,全面考查了学生的数学能力与素养,试题注重了数学的学科特点,突出了知识的基础性和综合性,以知识为主体,顺应时代需求,在知识交汇处设计试题,使对统计概率的基础知识的考查达到了必要的深度和广度,以此来推动概率统计思想在中学教学中的渗透和发展.本文以2009年至2018年高考全国课标卷理科为例,把十年课标卷的统计与概率内容进行了一次较为系统的总结与分析,详细阐述了近几年统计与概率解答题的探索与改革方向,以及试题背后蕴含的统计思想,以期让一线教师更加了解试题的设计初衷,为更好地进行统计与概率的教与学提供了一个参考框架.本人水平有限,如有不当之处请批评指正.参考文献[1]中华人民共和国教育部.普通高中数学课程标准(实验)[S].北京:人民教育出版社,2003[2]教育部考试中心.2018年普通高等学校招生全国考试大纲的说明[M].北京:高等教育出版社,2017[3]陈昂,任子朝.课改后统计与概率内容考查研究[J].数学通报,2013,62(2):13—16[4]吕荣春.全国卷高考数学分析与对策[M].四川:四川大学出版社,20188。
专题十一 概率与统计第三十三讲 回归分析与独立性检验一、选择题1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆy bx a =+.已知101225i i x ==∑,1011600i i y ==∑,ˆ4b =.该班某学生的脚长为24,据此估计其身高为A .160B .163C .166D .1702.(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归本线方程ˆˆˆybx a =+ ,其中ˆˆˆ0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为A .11.4万元B .11.8万元C .12.0万元D .12.2万元 3.(2014重庆)已知变量x 与y 正相关,且由观测数据算得样本的平均数3x =, 3.5y =,则由该观测数据算得的线性回归方程可能为A .$0.4 2.3y x =+B .$2 2.4y x =-C .$29.5y x =-+D .$0.3 4.4y x =-+ 4.(2014湖北)根据如下样本数据得到的回归方程为ˆybx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b > 5.(2012新课标)在一组样本数据(1,y 1),(2,y 2),…,(n ,y n )(n ≥2,1,2,…,n 不全相等)的散点图中,若所有样本点(i ,y i )(i =1,2,…,n )都在直线112y x =+上,则这组样本数据的样本相关系数为A .−1B .0C .12D .16.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是7.(2012湖南)设某大学的女生体重y (单位:g )与身高(单位:cm )具有线性相关关系,根据一组样本数据(i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为$y =0.8585.71,则下列结论中不正确...的是 A .y 与具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1cm ,则其体重约增加0.85gD .若该大学某女生身高为170cm ,则可断定其体重必为58.79g 8.(2011山东)某产品的广告费用与销售额y 的统计数据如下表广告费用(万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程ˆˆˆybx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销售额为A .63.6万元B .65.5万元C .67.7万元D .72.0万元二、解答题9.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模型①:ˆ30.413.5=-+yt ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+yt . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.10.(2016年全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:719.32ii y==∑,7140.17i i i t y ==∑,721()0.55ii yy =-=∑,7≈2.646.参考公式:相关系数12211()()()(yy)ni ii n ni ii i t t y y r t t ===--=--∑∑∑,回归方程y a bt =+)))中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑),=.a y bt -)))11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw821()ii x x =-∑821()ii w w =-∑81()()iii x x yy =--∑81()()iii w w yy =--∑46.6563 6.8289.81.61469108.8表中i i w x =w =1881i i w =∑.(Ⅰ)根据散点图判断,y a bx =+与y c =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回答下列问题:(ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少?(ⅱ)年宣传费x 为何值时,年利率的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为121()()ˆ()niii nii u u v v u u β==--=-∑∑,ˆˆv u αβ=-. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数据如下表:(Ⅰ)求y 关于t 的线性回归方程;(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:()()()121nii i ni i tty y b t t ∧==--=-∑∑,ˆˆay bt =- 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(I )根据已知条件完成下面22⨯列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷体育迷 合计 男 女 合计(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.21212211222112)(++++-=n n n n n n n n n χ, 附:)(2k P ≥χ 0.050.01 k3.8416.635。