专题五 第1讲 统计与统计案例
- 格式:docx
- 大小:653.77 KB
- 文档页数:18
2021年高考理科数学二轮复习专题五计数原理、统计与概率(一)、计数原理一、排列数与组合数1、排列数:计算公式:2、组合数:①计算公式:()()()()()()121!1221!!mm nn mmn n n n mA nCA m m m m n m---+===--⋅-②组合数的性质:性质1:;性质2:(连续两个组合数的和)二、排列组合与两个基本原理的应用(一)、排列问题1、位置限制:解法:①先考虑限制元素,再考虑无限制的元素(加法原理)②多种限制:用二分法或枚举法2、排队限制:元素间排队的方式有限制①相邻:捆绑法(勿忘内部的排列);②互不相邻:插板法(先排无关元素再插入限制元素)③注意分类讨论以及正难则反(二)、组合问题1、分配问题: k个对象所得元素确定,即将n个不同的元素按不同数量分别分给则共有2、分组问题:将元素按一定数量方案分成k组,注意用除法,即,(t为数量一样的堆数)3、先分组再分配问题:k对象所得元素不确定,注意用乘法。
即。
(分给k个人)【典例1】①将6本书分给甲2本,乙3本,丙1本:(分配问题)②将6本书分成3堆,每堆2本:(分组问题)③将6本书分给甲乙丙,一个人4本,其他两人各一本:(先分组再分配)三、二项式定理(一)基本特征1、展开有n+1项,每项中a、b的指数和为n。
2、通项公式:第r+1项(二)常见题型1、求指定项(有理项、常数项等):通项公式2、求所以项二项式系数..的和:①二项式系数;奇数项与偶数项二项式系数之和相等。
.....、系数②系数:常用特值带入法(令x=0或1或-1)3、系数最值问题:①二项式系数:越中间,二项式系数越大。
(n为奇数,展开有偶数个项,中间两项二项式系数最大、n为偶数,展开有奇数个项,中间项二项式系数最大)②系数:写出通项,列出不等式组4、三项式展开式求指定项:组合的应用:每个括号里必须且只能选一个,根据组合得到答案。
5、求余数:将目标数写出接近除数的和或差的形式,然后计算【典例2】设已知均为整数(),若和被除所得的余数相同,则称和对模同余,记为,若,且a≡b(mod10),则b的值可以是(A)A.2011 B.2012 C .xx D.xx(二)、概率一、概率的基本性质与运算1、互斥事件与对立事件:①A 、B 为互斥事件是A 、B 为对立事件的必要不充分条件②若A 、B 为互斥事件则;③若A 、B 为对立事件则()()()()()1,1P A B P A P B P A P B ⋃==+=-即(正难则反)2、独立事件: A 、B 为独立事件,则3、条件概率:在A 事件发生的情况下,B 事件发生的概率为4、几何概型与古典概型:①古典概型:②几何概型:()()()A m P A n ==构成事件的区域的长度角度、面积、体积全部事件构成的区域的长度角度、面积、体积(常与线性规划结合) 二、随机变量及其分布列1、数学期望与方差的计算方法:①数学期望:;方差:②数学期望与方差的性质:;2、常见随机变量的概率分布:(三)、统计一、抽样方法二、用样本估计总体——统计数据的分析与应用1、茎叶图:①图像特征(读图):中间列为数据的十位数,两边为各组数据的个位数②优点:便于看出中位数以及集中程度2、频率分布直方图:①特征:纵轴:;柱形面积:对应的频率;所有柱形面积=1②频率分布直方图中数据信息的获取:A 、众数:最高柱形的中点横坐标B 、中位数:将所有柱形面积平分成一半的点的横坐标C 、平均数:每条柱形的中点×对应柱形的面积(频率)D 、方差:()()2×-每条柱形中点平均数对应柱形面积频率三、统计案例1、连续型随机变量——正态分布①正态分布表示:::数学期望;②图像特征:A 、关于直线对称;B 、越大(小),数据越分散(集中),图像越矮胖(高瘦) ③应用:利用对称性或查表获得对应概率。
第1讲 统计与统计案例[考情分析] 高考对本讲内容的考查往往以实际问题为背景,考查随机抽样与用样本估计总体,线性回归方程的求解与运用,独立性检验问题.常与概率综合考查,中等难度. 考点一 统计图表 核心提炼1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距.2.频率分布直方图中各小长方形的面积之和为1. 3.利用频率分布直方图求众数、中位数与平均数. 频率分布直方图中:(1)最高的小长方形底边中点的横坐标即众数. (2)中位数左边和右边的小长方形的面积和相等.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.例1 (1)(多选)(2020·新高考全国Ⅱ)我国新冠肺炎疫情防控进入常态化,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图,下列说法正确的是( )A .这11天复工指数和复产指数均逐日增加B .这11天期间,复产指数增量大于复工指数的增量C .第3天至第11天复工复产指数均增大都超过80%D .第9天至第11天复产指数增量大于复工指数的增量 答案 CD(2)学校为了了解新课程标准提升阅读要求对学生阅读兴趣的影响情况,随机抽取了100名学生进行调查.根据调查结果绘制学生周末阅读时间的频率分布直方图如图所示:将阅读时间不低于30分钟的学生称为“阅读霸”,则下列结论正确的是( )A.抽样表明,该校约有一半学生为阅读霸B.该校只有50名学生不喜欢阅读C.该校只有50名学生喜欢阅读D.抽样表明,该校有50名学生为阅读霸答案 A解析根据频率分布直方图可列下表:阅读时间(分钟)[0,10)[10,20)[20,30)[30,40)[40,50)[50,60]抽样人数(名)1018222520 5抽样100名学生中有50名为阅读霸,占一半,据此可判断该校约有一半学生为阅读霸.易错提醒(1)对于给出的统计图表,一定要结合问题背景理解图表意义,不能似懂非懂.(2)频率分布直方图中纵坐标不要误以为频率.跟踪演练1 (1)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温不低于20 ℃的月份有5个答案 D解析由题中雷达图易知A,C正确.七月份平均最高气温超过20 ℃,平均最低气温约为13 ℃;一月份平均最高气温约为6 ℃,平均最低气温约为2 ℃,所以七月的平均温差比一月平均温差大,故B正确.由题图知平均最高气温不低于20 ℃的月份为六、七、八月,有3个.(2)(多选)(2020·重庆模拟)新高考方案规定,普通高中学业水平考试分为合格性考试(合格考)和选择性考试(选择考),其中“选择考”成绩将计入高考总成绩,即将学生考试时的原始卷面分数由高到低进行排序,评定为A,B,C,D,E五个等级,再转换为分数计入高考总成绩.某试点高中2020年参加“选择考”总人数是2018年参加“选择考”总人数的2倍,为了更好地分析该校学生“选择考”的水平情况,统计了该校2018年和2020年“选择考”成绩等级结果,得到如图所示的统计图.针对该校“选择考”情况,2020年与2018年比较,下列说法正确的是( ) A .获得A 等级的人数增加了 B .获得B 等级的人数增加了1.5倍 C .获得D 等级的人数减少了一半 D .获得E 等级的人数相同 答案 AB解析 设2018年参加“选择考”的总人数为x ,则2020年参加“选择考”的总人数为2x ,根据图表得出2018年和2020年各个等级的人数如表所示.等级年份 AB C D E2018 0.28x 0.32x 0.30x 0.08x 0.02x 20200.48x0.8x0.56x0.12x0.04x由表可知,获得A 等级的人数增加了,故A 正确;获得B 等级的人数增加了0.8x -0.32x0.32x=1.5倍,故B 正确;获得D 等级的人数增加了,故C 错误;获得E 等级的人数不相同,故D 错误.考点二 回归分析 核心提炼在分析两个变量的相关关系时,可根据样本数据作出散点图来判断两个变量之间是否具有相关关系.若具有线性相关关系,则回归直线过样本点的中心(x ,y ),并且可通过线性回归方程估计预报变量的值.例2 (2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i =120x i =60,∑i =120y i =1 200,∑i =120(x i -x )2=80,∑i =120(y i -y )2=9 000,∑i =120(x i -x )(y i -y )=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =∑i =1n(x i -x )(y i -y)∑i =1n(x i -x )2∑i =1n(y i -y)2,2≈1.414.解 (1)由已知得样本平均数y =120∑i =120y i =60,从而该地区这种野生动物数量的估计值为 60×200=12 000.(2)样本(x i ,y i )(i =1,2,…,20)的相关系数r =∑i =120(x i -x )(y i -y)∑i =120(x i -x )2∑i =120(y i -y)2=80080×9 000=223≈0.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计. 规律方法 样本数据的相关系数r =∑ni =1 (x i -x )(y i -y )∑n i =1(x i -x )2∑ni =1(y i -y )2,反映样本数据的相关程度,|r |越大,则相关性越强.跟踪演练2 (1)已知某产品的销售额y 与广告费用x 之间的关系如下表:若求得其线性回归方程为y ^=6.5x +a ^,则预计当广告费用为6万元时的销售额为( ) A .42万元 B .45万元 C .48万元 D .51万元 答案 C解析 由题意,根据上表中的数据, 可得x =2,y =22, 即样本点的中心为(2,22),又线性回归方程y ^=6.5x +a ^经过样本点的中心,所以22=6.5×2+a ^,解得a ^=9,所以y ^=6.5x +9,当x =6时,y ^=48.(2)(2020·河北衡水中学月考)有一散点图如图所示,在5个(x ,y )数据中去掉D (3,10)后,下列说法正确的是( )A.残差平方和变小B.相关系数r变小C.相关指数R2变小D.解释变量x与预报变量y的相关性变弱答案 A解析∵从散点图可分析得出:只有D点偏离直线远,去掉D点,解释变量x与预报变量y的线性相关性变强,∴相关系数变大,相关指数变大,残差平方和变小,故选A.考点三独立性检验核心提炼假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+dK2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)(其中n=a+b+c+d为样本容量).例3 (2020·新高考全国Ⅰ)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:SO2 [0,50](50,150](150,475](1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),解(1)由表格可知,该市100天中,空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+6+18+8=64,所以该市一天中,空气中的PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为64100=0.64.(2)由所给数据,可得2×2列联表:(3)根据2×2列联表中的数据可得K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100×(64×10-16×10)2 80×20×74×26≈7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.规律方法独立性检验的关键(1)根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.(2)K2的观测值k越大,对应的假设H0成立的概率越小,H0不成立的概率越大.跟踪演练3 (1)随着国家二胎政策的全面放开,为了调查一线城市和非一线城市的二胎生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.附表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算得,K 2的观测值k =100×(45×22-20×13)258×42×35×65≈9.616,参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关” 答案 C解析 由题意知,K 2的观测值k ≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”.(2)某校团委对“学生性别和喜欢某视频APP 是否有关”做了一次调查,其中被调查的女生人数是男生人数的一半,男生喜欢某视频APP 的人数占男生人数的16,女生喜欢某视频APP 的人数占女生人数的23,若有95%的把握认为喜欢某视频APP 和性别有关,则男生至少有( ) 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).A .12人B .6人C .10人D .18人 答案 A解析 设被调查的男生人数为x ,则被调查的女生人数为x2,则2×2列联表为若有95%的把握认为喜欢某视频APP 和性别有关,则K 2≥3.841,即K 2=3x 2⎝ ⎛⎭⎪⎫x 6×x 6-5x 6×x 32x ×x 2×x 2×x=3x8≥3.841,则x ≥3.841×83≈10.243,又x 2,x 3,x6均为整数,所以男生至少有12人. 专题强化练一、单项选择题1.某人5次上班途中所花的时间(单位:分钟)分别为x ,y,10,11,9,已知这组数据的平均数为10,方差为2,则|x -y |的值为( ) A .4 B .3 C .2 D .1 答案 A解析 依题意有x +y +10+11+95=10,(x -10)2+(y -10)2+(10-10)2+(11-10)2+(9-10)2=5×2,解得x =8,y =12或x =12,y =8,故|x -y |=4.2.(2019·全国Ⅲ)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( ) A .0.5 B .0.6 C .0.7 D .0.8答案 C解析根据题意阅读过《红楼梦》《西游记》的人数用韦恩图表示如下:所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为70100=0.7.3.(2020·全国Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2,…,20)得到下面的散点图:由此散点图可以看出,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )A.y=a+bx B.y=a+bx2C.y=a+b e x D.y=a+b ln x答案 D解析由散点图可以看出,点大致分布在对数型函数的图象附近.4.某生产车间的甲、乙两位工人生产同一种零件,这种零件的标准尺寸为85 mm,现分别从他们生产的零件中各随机抽取8件进行检测,其尺寸(单位:mm)用茎叶图表示如图所示,则估计( )A.甲、乙生产的零件尺寸的中位数相等B.甲、乙生产的零件质量相当C.甲生产的零件质量比乙生产的零件质量好D .乙生产的零件质量比甲生产的零件质量好 答案 D解析 甲生产的零件尺寸是93,89,88,85,84,82,79,78;乙生产的零件尺寸是90,88,86,85,85,84,84,78.故甲生产的零件尺寸的中位数是85+842=84.5,乙生产的零件尺寸的中位数是85+852=85,故A 错误;根据数据分析,乙的数据较稳定,故乙生产的零件质量比甲生产的零件质量好,故B ,C 错误.5.某校进行了一次创新作文大赛,共有100名同学参赛,经过评判,这100名参赛者的得分都在[40,90]之间,其得分的频率分布直方图如图所示,则下列结论错误的是( )A .得分在[40,60)之间的共有40人B .从这100名参赛者中随机选取1人,其得分在[60,80)之间的概率为0.5C .估计得分的众数为55D .这100名参赛者得分的中位数为65 答案 D解析 根据频率和为1,计算(a +0.035+0.030+0.020+0.010)×10=1,解得a =0.005, 得分在[40,60)之间的频率是0.4,估计得分在[40,60)之间的有100×0.4=40(人),A 正确;得分在[60,80)之间的频率为0.5,可得从这100名参赛者中随机选取1人,得分在[60,80)之间的概率为0.5,B 正确;根据频率分布直方图知,最高的小矩形对应的底边中点为50+602=55,即估计众数为55,C 正确;根据频率分布直方图知,得分低于60分的直方图面积为(0.005+0.035)×10=0.4<0.5,而得分低于70分的直方图面积为(0.005+0.035+0.030)×10=0.7>0.5,所以100名参赛者得分的中位数估计为60+0.5-0.40.030≈63.3,D错误. 二、多项选择题6.(2020·烟台模拟)某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每位学生对食堂的服务给出满意或不满意的评价,得到如下表所示的列联表,经计算K 2的观测值k ≈4.762,则可以推断出( )A.该学校男生对食堂服务满意的概率的估计值为35B .调研结果显示,该学校男生比女生对食堂服务更满意C .有95%的把握认为男、女生对该食堂服务的评价有差异D .有99%的把握认为男、女生对该食堂服务的评价有差异 答案 AC解析 对于选项A ,该学校男生对食堂服务满意的概率的估计值为3030+20=35,故A 正确;对于选项B ,该学校女生对食堂服务满意的概率的估计值为4040+10=45>35,故B 错误;因为k ≈4.762>3.841,所以有95%的把握认为男、女生对该食堂服务的评价有差异,故C 正确,D 错误.7.(2020·河北衡水中学月考)5G 时代已经到来,5G 的发展将直接带动包括运营、制造、服务在内的通信行业经济的快速增长,进而对GDP 增长产生直接贡献,并通过产业间的关联效应和波及效应,间接带动国民经济各行业的发展,创造出更多的经济增加值.如图是某单位结合近几年数据,对今后几年的5G 经济产出所做的预测.结合上图,下列说法正确的是( )A.5G的发展带动今后几年的总经济产出逐年增加B.设备制造商的经济产出前期增长较快,后期放缓C.信息服务商与运营商的经济产出的差距有逐步拉大的趋势D.设备制造商在各年的经济产出中一直处于领先地位答案ABC解析由图易知A,B,C正确,而设备制造商的经济产出在2029年和2030年将低于信息服务商的经济产出,故D 错误.8.(2020·青岛模拟)某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布饼状图、90后从事互联网行业岗位分布条形图,则下列结论正确的是( )注:90后指1990年及以后出生,80后指1980-1989年之间出生,80前指1979年及以前出生.A.互联网行业从业人员中从事技术和运营岗位的人数占总人数的三成以上B.互联网行业中从事技术岗位的人数超过总人数的20%C.互联网行业中从事运营岗位的人数90后比80前多D.互联网行业中从事技术岗位的人数90后比80后多答案ABC解析选项A,因为互联网行业从业人员中,“90后”占比为56%,其中从事技术和运营岗位的人数占的比分别为39.6%和17%,则“90后”从事技术和运营岗位的人数占总人数的56%×(39.6%+17%)≈31.7%.“80前”和“80后”中必然也有从事技术和运营岗位的人,则总的占比一定超过三成,故选项A 正确;选项B ,因为互联网行业从业人员中,“90后”占比为56%,其中从事技术岗位的人数占的比为39.6%,则“90后”从事技术岗位的人数占总人数的56%×39.6%≈22.2%.“80前”和“80后”中必然也有从事技术岗位的人,则总的占比一定超过20%,故选项B 正确;选项C ,“90后”从事运营岗位的人数占总人数的比为56%×17%≈9.5%,大于“80前”的总人数所占比3%,故选项C 正确;选项D ,“90后”从事技术岗位的人数占总人数的56%×39.6%≈22.2%,“80后”的总人数所占比为41%,条件中未给出“80后”从事技术岗位的占比,故不能判断,所以选项D 错误. 三、填空题9.某企业的一种商品的产量与成本数据如下表:若根据表中提供的数据,求出y 关于x 的线性回归方程为y ^=-1.15x +28.1,则a 的值为________. 答案 5解析 由题意知x =14+16+18+20+225=905=18,y =12+10+7+a +35=32+a5,又y =-1.15×18+28.1=7.4, 所以32+a5=7.4,解得a =5.10.已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量为________,抽取的高中生近视人数为________.答案 200 20解析 由题图甲知,总人数为3 500+2 000+4 500=10 000,所以样本容量为10 000×2%=200,抽样比例为150,所以高中生抽取的学生数为40,所以抽取的高中生近视人数为40×50%=20.11.下面的折线图给出的是甲、乙两只股票在某年中每月的收盘价格,已知股票甲的极差是6.88元,标准差为2.04元;股票乙的极差为27.47元,标准差为9.63元,根据这两只股票在这一年中的波动程度,给出下列结论:①股票甲在这一年中波动相对较小,表现的更加稳定;②购买股票乙风险高但可能获得高回报;③股票甲的走势相对平稳,股票乙的收盘价格波动较大;④两只股票在全年都处于上升趋势.其中正确的结论是________.(填序号)答案 ①②③解析 由题意可知,甲的标准差为2.04元,乙的标准差为9.63元,可知股票甲在这一年中波动相对较小,表现的更加稳定,故①正确;甲的极差是6.88元,乙的极差为27.47元,可知购买股票乙风险高但可能获得高回报,故②正确;通过折线图可知股票甲的走势相对平稳,股票乙的收盘价格波动较大,故③正确;通过折线图可得乙在6月到8月明显是下降趋势,故④错误.12.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是________.(填序号)①y 与x 具有正的线性相关关系; ②回归直线过样本点的中心(x ,y );③若该大学某女生身高增加1 cm ,则其体重约增加0.85 kg ; ④若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg. 答案 ④解析 由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故①正确;因为回归直线必过样本点的中心(x ,y ),所以②正确;由线性回归方程的意义知,某女生的身高增加1 cm ,其体重约增加0.85 kg ,故③正确;当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,这不是确定值,因此④不正确. 四、解答题13.某公司为了了解广告投入对销售收益的影响,在若干地区各投入3.5万元广告费用,并将各地的销售收益绘制成频率分布直方图,如图所示,由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.(1)根据频率分布直方图计算图中各小长方形的宽度;(2)估计该公司投入3.5万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值); (3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:广告投入x (单位:万元) 1 2 3 4 5 销售收益y (单位:万元)2327表中的数据显示,x 与y 之间存在线性相关关系,请将(2)中的结果填入空白栏,并计算y 关于x 的线性回归方程.附:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x .解 (1)设各小长方形的宽度为m ,由频率分布直方图中各小长方形面积总和为1,可知(0.08+0.10+0.14+0.12+0.04+0.02)·m =0.5m =1,故m =2.(2)由(1)知,各分组依次是[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],其中点值分别为1,3,5,7,9,11,对应的频率分别为0.16,0.20,0.28,0.24,0.08,0.04,故可估计平均值为1×0.16+3×0.20+5×0.28+7×0.24+9×0.08+11×0.04=5.(3)空白栏中填5.由题意可知,x =1+2+3+4+55=3,y =2+3+2+5+75=3.8,∑5i =1x i y i =1×2+2×3+3×2+4×5+5×7=69,∑5i =1x 2i =12+22+32+42+52=55.根据公式可求得b ^=∑i =15x i y i -5 x y∑i =15x 2i -5x 2=69-5×3×3.855-5×32=1210=1.2, a ^=3.8-1.2×3=0.2,即线性回归方程为y ^=1.2x +0.2.14.(2020·全国Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)由频数分布表可知,该市一天的空气质量等级为1的概率为2+16+25100=0.43,等级为2的概率为5+10+12100=0.27,等级为3的概率为6+7+8100=0.21,等级为4的概率为7+2+0100=0.09.(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为100×20+300×35+500×45100=350.(3)2×2列联表如下:K 2=100×(33×8-37×22)255×45×70×30≈5.820>3.841, 因此,有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.。
高考数学二轮复习专题突破—统计与统计案例1.某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01) 附:√74≈8.602.2.(2021·江西赣州二模改编)遵守交通规则,人人有责.“礼让行人”是我国《道路交通安全法》的明文规定,也是全国文明城市测评中的重要内容.《道路交通安全法》第47条明确规定:“机动车行经人行横道时,应当减速行驶;遇行人正在通过人行横道,应当停车让行.机动车行经没有交通信号的道路时,遇行人横过道路,应当避让.否则扣3分罚200元”.下表是2021年1至4月份我市某主干路口监控设备抓拍到的驾驶员不“礼让行人”行为统计数据:(1)请利用所给数据求不“礼让行人”驾驶员人数y 与月份x 之间的经验回归方程y ^=b ^x+a ^,并预测该路口2021年10月不“礼让行人”驾驶员的大约人数(四舍五入);(2)交警从这4个月内通过该路口的驾驶员中随机抽查50人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:依据小概率值α=0.10的独立性检验,分析“礼让行人”行为是否与驾龄有关.参考公式:b ^=∑i=1nx i y i -nx y ∑i=1nx i 2-nx2=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.(2021·河北石家庄二模改编)某地区在2020年底全面建成小康社会,随着实施乡村振兴战略规划,该地区农村居民的收入逐渐增加,可支配消费支出也逐年增加.该地区统计了2016~2020年农村居民人均消费支出情况,对有关数据处理后,制作如图1的折线图[其中变量y (单位:万元)表示该地区农村居民人均年消费支出,年份用变量t 表示,其取值依次为1,2,3,…].(1)由图1可知,变量y与t具有很强的线性相关关系,求y关于t的经验回归方程,并预测2021年该地区农村居民人均消费支出;2016~2020年该地区农村居民人均消费支出图1(2)在国际上,常用恩格尔系数(其含义是指食品类支出总额占个人消费支出总额的比重)来衡量一个国家和地区人民生活水平的状况.根据联合国粮农组织的标准:恩格尔系数在40%~50%为小康,30%~40%为富裕.已知2020年该地区农村居民平均消费支出构成如图2所示,预测2021年该地区农村居民食品类支出比2020年增长3%,从恩格尔系数判断2021年底该地区农村居民生活水平能否达到富裕生活标准.2020年该地区农村居民人均消费支出构成图2参考公式:经验回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y∑i=1nx i 2-nx 2,a ^=y −b ^x .4.(2021·山东潍坊一模)在对人体的脂肪含量和年龄之间的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据(x i ,y i )(i=1,2,…,20,25<x i <65),其中x i 表示年龄,y i 表示脂肪含量,并计算得到∑i=120x i 2=48 280,∑i=120y i 2=15 480,∑i=120x i y i =27 220,x =48,y =27,√22≈4.7.(1)请用样本相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合,并求y 关于x的经验回归方程y ^=a ^+b ^x (a ^,b ^的计算结果保留两位小数);(2)科学健身能降低人体脂肪含量,下表是甲、乙两款健身器材的使用年限(整年)统计表:某健身机构准备购进其中一款健身器材,以使用年限的频率估计概率,请根据以上数据估计,该机构选择购买哪一款健身器材,才能使用更长久?参考公式:样本相关系数r=∑i=1n(x i -x)(y i -y)√∑i=1n (x i -x)2√∑i=1n(y i -y)2=∑i=1nx i y i -nx y√∑i=1nx i 2-nx 2√∑i=1ny i 2-ny 2;对于一组具有线性相关关系的数据(x i ,y i )(i=1,2,…,n ),其经验回归直线y ^=b ^x+a ^的斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y −b ^x .答案及解析1.解 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6, s=√0.029 6=0.02×√74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17. 2.解 (1)由表中数据易知:x =1+2+3+44=52,y =125+105+100+904=105,则b ^=∑i=14x i y i -4x y∑i=14x i 2-4x2=995−1 05030−25=-11,a ^=y −b ^ x =105-(-11)×52=132.5,故所求经验回归方程为y ^=-11x+132.5.令x=10,则y ^=-11×10+132.5=22.5≈23(人),预测该路口10月份不“礼让行人”的驾驶员大约人数为23. (2)零假设为H 0:“礼让行人”行为与驾龄无关.由表中数据可得χ2=50×(10×12−20×8)218×32×30×20≈0.23<2.706=x 0.10,依据小概率值α=0.10的独立性检验,没有充分证据推断H 0不成立,可以认为H 0成立,即认为“礼让行人”行为与驾龄无关.3.解 (1)由已知数据可求t =1+2+3+4+55=3, y =1.01+1.10+1.21+1.33+1.405=1.21,∑i=15t i 2=12+22+32+42+52=55,∑i=15t i y i =1×1.01+2×1.10+3×1.21+4×1.33+5×1.40=19.16,b ^=19.16−5×3×1.2155−5×32=1.0110=0.101,a ^=1.21-0.101×3=0.907,所求经验回归方程为y ^=0.101t+0.907. 当t=6时,y ^=0.101×6+0.907=1.513(万元),故2021年该地区农村居民人均消费支出约为1.513万元.(2)已知2021年该地区农村居民平均消费支出1.513万元,由图2可知,2020年该地区农村居民食品类支出为4 451元,则预测2021年该地区食品类支出为4 451×(1+3%)=4 584.53元,恩格尔系数=4 584.5315 130×100%≈30.3%∈(30%,40%),所以,2021年底该地区农村居民生活水平能达到富裕生活标准.4.解 (1)x 2=2 304,y2=729,∑i=120x i y i -20x y =1 300,∑i=120x i 2-20x 2=2 200,∑i=1ny i 2-20y 2=900,r=∑i=120x i y i -20x y√∑i=120x i 2-20x 2√∑i=1ny i 2-20y2≈0.92,因为y 与x 的样本相关系数接近1,所以y 与x 之间具有较强的线性相关关系,可用线性回归模型进行拟合.由题可得,b ^=∑i=120(x i -x)(y i -y)∑i=120(x i -x)2=∑i=120x i y i -20x y∑i=120x i 2-20x2=1322≈0.591,a ^=y −b ^ x =27-0.591×48≈-1.37,所以y ^=0.59x-1.37.(2)以频率估计概率,设甲款健身器材使用年限为X (单位:年).E (X )=5×0.1+6×0.4+7×0.3+8×0.2=6.6. 设乙款健身器材使用年限为Y (单位:年).E (Y )=5×0.3+6×0.4+7×0.2+8×0.1=6.1.因为E (X )>E (Y ),所以该健身机构购买甲款健身器材更划算.。
(新课标)山东省2013高考数学二轮复习(研热点聚焦突破+析典型预测高考+巧演练素能提升)第一部分专题五概率与统计1-5-2第二讲统计、统计案例理一、选择题1.某中学有学生270人,其中一年级108人,二、三年级各81人,现要从该中学抽取一个容量为10的样本,将学生按一、二、三年级依次编号为1,2,…,270,如果抽得号码有下列四种情况:①5,9,100,107,111,121,180,195,200,265;②7,34,61,88,115,142,169,196,223,250;③30,57,84,111,138,165,192,219,246;④11,38,60,90,119,146,173,200,227,254.以上四组号码中可能是由分层抽样得到,而不可能是由系统抽样得到的是( )A.①②B.②③C.①③ D.①④解析:通过分析四种情况可知,①、④是分层抽样,②、③是系统抽样,故选D.答案:D2.(2012年高考湖北卷)容量为20的样本数据,分组后的频数如下表:则样本数据落在区间[10,40)的频率为( )A.0.35 B.0.45C.0.55 D.0.65解析:根据频率的定义求解.由表知[10,40)的频数为2+3+4=9,所以样本数据落在区间[10,40)的频率为920=0.45.答案:B3.一农场在同一块稻田中种植一种水稻,其连续8年的产量(单位:kg)如下:450,430,460,440,450,440,470,460,则该组数据的方差为( )A.120 B.80C.15 D.150解析:根据题意知,该组数据的平均数为450+430+460+440+450+440+470+4608=450,所以该组数据的方差为18×(02+202+102+102+02+102+202+102)=150.答案:D4.已知变量x ,y 之间具有线性相关关系,其回归方程为y ^=-3+bx ,若∑10i =1x i =17,∑10i =1y i =4,则b 的值为( )A .2B .1C .-2D .-1解析:依题意知,x -=1710=1.7,y -=410=0.4,而直线y ^=-3+bx 一定经过点(x -,y -),所以-3+b ×1.7=0.4,解得b =2.答案:A5.(2012年高考安徽卷)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )A .甲的成绩的平均数小于乙的成绩的平均数B .甲的成绩的中位数等于乙的成绩的中位数C .甲的成绩的方差小于乙的成绩的方差D .甲的成绩的极差小于乙的成绩的极差解析:由条形统计图得到相关数据,然后利用平均数、中位数、方差、极差的概念求解. 由条形统计图知:甲射靶5次的成绩分别为:4,5,6,7,8; 乙射靶5次的成绩分别为:5,5,5,6,9,所以x -甲=4+5+6+7+85=6;x -乙=5+5+5+6+95=6. 所以x -甲=x -乙.故A 不正确.甲的成绩的中位数为6,乙的成绩的中位数为5,故B 不正确.s 2甲=15[(4-6)2+(5-6)2+(6-6)2+(7-6)2+(8-6)2]=15×10=2,s 2乙=15[(5-6)2+(5-6)2+(5-6)2+(6-6)2+(9-6)2]=15×12=125,因为2<125,所以s 2甲<s 2乙.故C 正确.甲的成绩的极差为:8-4=4, 乙的成绩的极差为:9-5=4, 故D 不正确.故选C. 答案:C 二、填空题6.(2012年大同模拟)将容量为n 的样本中的数据分为6组,绘制频率分布直方图,若第一组至第六组的数据的频率之比为2∶3∶4∶6∶4∶1,且前三组数据的频数之和为27,则n =________.解析:依题意得,前三组的频率总和为2+3+42+3+4+6+4+1=920,因此有27n =920,即n =60.答案:607.(2012年唐山质检)考古学家通过始祖鸟化石标本发现:其股骨长度x (cm)与肱骨长度y (cm)的线性回归方程为y ^=1.197x -3.660,由此估计,当股骨长度为50 cm 时,肱骨长度的估计值为________cm.解析:根据回归方程y ^=1.197x -3.660.将x =50代入得y =56.19,则肱骨长度的估计值为56.19 cm.答案:56.198.(2012年海淀模拟)甲和乙两个城市去年上半年每月的平均气温(单位:℃)用茎叶图记录如下,根据茎叶图可知,两城市中平均温度较高的城市是________,气温波动较大的城市是________.解析:根据茎叶图可知,甲城市上半年的平均温度为9+13+17×2+18+226=16,乙城市上半年的平均温度为12+14+17+20+24+276=19,故两城市中平均温度较高的是乙城市,观察茎叶图可知,甲城市的温度更加集中在峰值附近,故乙城市的温度波动较大.答案:乙 乙 三、解答题9.以下是某地最新搜集到的二手楼房的销售价格y (单位:万元)和房屋面积x (单位:m 2)的一组数据:若销售价格y 和房屋面积x 具有线性相关关系. (1)求销售价格y 和房屋面积x 的回归直线方程;(2)根据(1)的结果估计当房屋面积为150 m 2时的销售价格.解析:(1)由题意知,x -=80+105+110+115+1355=109,y -=18.4+22+21.6+24.8+29.25=23.2.设所求回归直线方程为y ^=bx +a ,则b =∑10i =1(x i -109)(y i -23.2)∑ni =1(x i -109)2=3081 570≈0.196 2,a =y --bx -=23.2-0.196 2×109=1.814 2,故回归直线方程为y ^=0.196 2x +1.814 2.(2)由(1)知,当x =150时,估计房屋的销售价格为y ^=0.196 2×150+1.814 2=31.244 2(万元).10.(2012年长春模拟)对某校高一年级学生参加社区服务次数进行统计,随机抽取M 名学生作为样本,得到这M 名学生参加社区服务的次数.根据此数据作出了频数与频率的统计表和频率分布直方图如下:(1)求出表中M 、p 及图中a 的值;(2)若该校高一学生有360人,试估计他们参加社区服务的次数在区间[15,20)内的人数;(3)在所取样本中,从参加社区服务的次数不少于20次的学生中任选2人,求至多1人参加社区服务次数在区间[20,25)内的概率.解析:(1)由题可知10M =0.25,25M =n ,m M =p ,2M=0.05.又10+25+m +2=M ,解得M =40,n =0.625,m =3,p =0.075. 则[15,20)组的频率与组距之比a 为0.125.(2)参加社区服务的次数在区间[15,20)内的人数为360×0.625=225.(3)在样本中,处于[20,25)内的人数为3,可分别记为A ,B ,C ,处于[25,30)内的人数为2,可分别记为a ,b .从该5名学生中取出2人的取法有(A ,a ),(A ,b ),(B ,a ),(B ,b ),(C ,a ),(C ,b ),(A ,B ),(A ,C ),(B ,C ),(a ,b ),共10种;至多1人在[20,25)内的情况有(A ,a ),(A ,b ),(B ,a ),(B ,b ),(C ,a ),(C ,b ),(a ,b )共7种,所以至多1人参加社区服务次数在区间[20,25)内的概率为710.11.2012年元旦、春节前夕,各个物流公司都出现了爆仓现象,直接原因就是网上疯狂的购物.事实上,现在网上购物已经成为人们购物的一种新方式,正所谓“不上街并不是不逛街”,利用网络,人们可以足不出户地选购自己所需的商品,方便快捷,但也有一些隐患,比如网络欺骗、所得商品与网上宣传的有差距等.某商家针对人们在网上购物的态度在某城市进行了一次调查,共调查了124人,其中女性70人,男性54人.女性中有43人对网上购物持赞成态度,另外27人持反对态度;男性中有21人赞成网上购物,另外33人持反对态度.(1)估计该地区对网上购物持赞成态度的比例;(2)有多大的把握认为该地区对网上购物持赞成态度与性别有关;(3)根据以上结论,能否有更好的调查方式来估计该地区对网上购物持赞成态度的比例,并说明理由.附: 表1K 2=n (ad -bc )2(a +c )(b +d )(a +b )(c +d )解析:(1)接受调查的124人中,有64人对网上购物持赞成态度,所以该地区对网上购物持赞成态度的估计值为64124=1632.(2)2×2列联表: 表2K 2=124×(43×33-27×21)270×54×64×60≈6.201,因为6.201>3.841,所以有95%的把握认为该地区对网上购物持赞成态度与性别有关.(3)该项调查是在某城市进行的,具有一定的局限性,所以应该先确定该地区城市人口、农村人口的比例,在此基础上进一步确定城市人口、农村人口中的性别比例;然后利用分层抽样的方法抽取样本,最后进行统计,这样得到的结果会更加可靠.。
第1讲 统计与统计案例[考情分析] 高考对本讲内容的考查往往以实际问题为背景,考查随机抽样与用样本估计总体,线性回归方程的求解与运用,独立性检验问题.常与概率综合考查,中等难度. 考点一 统计图表 核心提炼1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距.2.频率分布直方图中各小长方形的面积之和为1. 3.利用频率分布直方图求众数、中位数与平均数. 频率分布直方图中:(1)最高的小长方形底边中点的横坐标即众数. (2)中位数左边和右边的小长方形的面积和相等.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.例1 (1)(多选)(2020·新高考全国Ⅱ)我国新冠肺炎疫情防控进入常态化,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图,下列说法正确的是( )A .这11天复工指数和复产指数均逐日增加B .这11天期间,复产指数增量大于复工指数的增量C .第3天至第11天复工复产指数均增大都超过80%D .第9天至第11天复产指数增量大于复工指数的增量 答案 CD(2)学校为了了解新课程标准提升阅读要求对学生阅读兴趣的影响情况,随机抽取了100名学生进行调查.根据调查结果绘制学生周末阅读时间的频率分布直方图如图所示:将阅读时间不低于30分钟的学生称为“阅读霸”,则下列结论正确的是()A.抽样表明,该校约有一半学生为阅读霸B.该校只有50名学生不喜欢阅读C.该校只有50名学生喜欢阅读D.抽样表明,该校有50名学生为阅读霸答案 A解析根据频率分布直方图可列下表:阅读时间(分钟)[0,10)[10,20)[20,30)[30,40)[40,50)[50,60] 抽样人数(名)1018222520 5抽样100名学生中有50名为阅读霸,占一半,据此可判断该校约有一半学生为阅读霸.易错提醒(1)对于给出的统计图表,一定要结合问题背景理解图表意义,不能似懂非懂.(2)频率分布直方图中纵坐标不要误以为频率.跟踪演练1(1)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是()A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温不低于20 ℃的月份有5个答案 D解析由题中雷达图易知A,C正确.七月份平均最高气温超过20 ℃,平均最低气温约为13 ℃;一月份平均最高气温约为6 ℃,平均最低气温约为2 ℃,所以七月的平均温差比一月平均温差大,故B正确.由题图知平均最高气温不低于20 ℃的月份为六、七、八月,有3个.(2)(多选)(2020·重庆模拟)新高考方案规定,普通高中学业水平考试分为合格性考试(合格考)和选择性考试(选择考),其中“选择考”成绩将计入高考总成绩,即将学生考试时的原始卷面分数由高到低进行排序,评定为A,B,C,D,E五个等级,再转换为分数计入高考总成绩.某试点高中2020年参加“选择考”总人数是2018年参加“选择考”总人数的2倍,为了更好地分析该校学生“选择考”的水平情况,统计了该校2018年和2020年“选择考”成绩等级结果,得到如图所示的统计图.针对该校“选择考”情况,2020年与2018年比较,下列说法正确的是()A.获得A等级的人数增加了B.获得B等级的人数增加了1.5倍C.获得D等级的人数减少了一半D.获得E等级的人数相同答案AB解析设2018年参加“选择考”的总人数为x,则2020年参加“选择考”的总人数为2x,根据图表得出2018年和2020年各个等级的人数如表所示.等级 年份 A B C D E 2018 0.28x 0.32x 0.30x 0.08x 0.02x 20200.48x0.8x0.56x0.12x0.04x由表可知,获得A 等级的人数增加了,故A 正确;获得B 等级的人数增加了0.8x -0.32x0.32x =1.5倍,故B 正确;获得D 等级的人数增加了,故C 错误;获得E 等级的人数不相同,故D 错误.考点二 回归分析 核心提炼在分析两个变量的相关关系时,可根据样本数据作出散点图来判断两个变量之间是否具有相关关系.若具有线性相关关系,则回归直线过样本点的中心(x ,y ),并且可通过线性回归方程估计预报变量的值.例2 (2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i =120x i =60,∑i =120y i =1 200,∑i =120(x i -x )2=80,∑i =120(y i -y)2=9 000,∑i =120 (x i -x )(y i -y )=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2,2≈1.414.解 (1)由已知得样本平均数y =120∑i =120y i =60,从而该地区这种野生动物数量的估计值为 60×200=12 000.(2)样本(x i ,y i )(i =1,2,…,20)的相关系数r =∑i =120(x i -x )(y i -y )∑i =120(x i -x )2∑i =120(y i -y )2=80080×9 000=223≈0.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样. 理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计. 规律方法 样本数据的相关系数r =∑ni =1 (x i -x )(y i -y )∑ni =1(x i -x )2∑ni =1(y i -y )2,反映样本数据的相关程度,|r |越大,则相关性越强.跟踪演练2 (1)已知某产品的销售额y 与广告费用x 之间的关系如下表:若求得其线性回归方程为y ^=6.5x +a ^,则预计当广告费用为6万元时的销售额为( ) A .42万元 B .45万元 C .48万元 D .51万元 答案 C解析 由题意,根据上表中的数据, 可得x =2,y =22, 即样本点的中心为(2,22),又线性回归方程y ^=6.5x +a ^经过样本点的中心, 所以22=6.5×2+a ^,解得a ^=9, 所以y ^=6.5x +9,当x =6时,y ^=48.(2)(2020·河北衡水中学月考)有一散点图如图所示,在5个(x ,y )数据中去掉D (3,10)后,下列说法正确的是( )A .残差平方和变小B .相关系数r 变小C .相关指数R 2变小D .解释变量x 与预报变量y 的相关性变弱 答案 A解析 ∵从散点图可分析得出:只有D 点偏离直线远,去掉D 点,解释变量x 与预报变量y 的线性相关性变强, ∴相关系数变大,相关指数变大,残差平方和变小,故选A. 考点三 独立性检验 核心提炼假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:y 1y 2总计K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)(其中n=a+b+c+d为样本容量).例3(2020·新高考全国Ⅰ)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),解(1)由表格可知,该市100天中,空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+6+18+8=64,所以该市一天中,空气中的PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为64100=0.64.(2)由所给数据,可得2×2列联表:(3)根据2×2列联表中的数据可得 K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100×(64×10-16×10)280×20×74×26≈7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO 2浓度有关. 规律方法 独立性检验的关键(1)根据2×2列联表准确计算K 2,若2×2列联表没有列出来,要先列出此表. (2)K 2的观测值k 越大,对应的假设H 0成立的概率越小,H 0不成立的概率越大.跟踪演练3 (1)随着国家二胎政策的全面放开,为了调查一线城市和非一线城市的二胎生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.附表:由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算得,K 2的观测值k =100×(45×22-20×13)258×42×35×65≈9.616,参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关” 答案 C解析 由题意知,K 2的观测值k ≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”.(2)某校团委对“学生性别和喜欢某视频APP 是否有关”做了一次调查,其中被调查的女生人数是男生人数的一半,男生喜欢某视频APP 的人数占男生人数的16,女生喜欢某视频APP的人数占女生人数的23,若有95%的把握认为喜欢某视频APP 和性别有关,则男生至少有( ) 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).A .12人B .6人C .10人D .18人 答案 A解析 设被调查的男生人数为x ,则被调查的女生人数为x2,则2×2列联表为若有95%的把握认为喜欢某视频APP 和性别有关,则K 2≥3.841,即K 2=3x 2⎝⎛⎭⎫x 6×x 6-5x 6×x 32x ×x 2×x 2×x =3x 8≥3.841,则x ≥3.841×83≈10.243,又x 2,x 3,x6均为整数,所以男生至少有12人. 专题强化练一、单项选择题1.某人5次上班途中所花的时间(单位:分钟)分别为x ,y,10,11,9,已知这组数据的平均数为10,方差为2,则|x -y |的值为( ) A .4 B .3 C .2 D .1 答案 A 解析 依题意有x +y +10+11+95=10,(x -10)2+(y -10)2+(10-10)2+(11-10)2+(9-10)2=5×2,解得x =8,y =12或x =12,y =8,故|x -y |=4.2.(2019·全国Ⅲ)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( ) A .0.5 B .0.6 C .0.7 D .0.8 答案 C解析 根据题意阅读过《红楼梦》《西游记》的人数用韦恩图表示如下:所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为70100=0.7.3.(2020·全国Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y 和温度x (单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i ,y i )(i =1,2,…,20)得到下面的散点图:由此散点图可以看出,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( ) A .y =a +bx B .y =a +bx 2 C .y =a +b e x D .y =a +b ln x答案 D解析 由散点图可以看出,点大致分布在对数型函数的图象附近.4.某生产车间的甲、乙两位工人生产同一种零件,这种零件的标准尺寸为85 mm ,现分别从他们生产的零件中各随机抽取8件进行检测,其尺寸(单位:mm)用茎叶图表示如图所示,则估计( )A .甲、乙生产的零件尺寸的中位数相等B .甲、乙生产的零件质量相当C .甲生产的零件质量比乙生产的零件质量好D .乙生产的零件质量比甲生产的零件质量好 答案 D解析 甲生产的零件尺寸是93,89,88,85,84,82,79,78;乙生产的零件尺寸是90,88,86,85,85,84,84,78.故甲生产的零件尺寸的中位数是85+842=84.5,乙生产的零件尺寸的中位数是85+852=85,故A 错误;根据数据分析,乙的数据较稳定,故乙生产的零件质量比甲生产的零件质量好,故B ,C 错误.5.某校进行了一次创新作文大赛,共有100名同学参赛,经过评判,这100名参赛者的得分都在[40,90]之间,其得分的频率分布直方图如图所示,则下列结论错误的是( )A .得分在[40,60)之间的共有40人B .从这100名参赛者中随机选取1人,其得分在[60,80)之间的概率为0.5C .估计得分的众数为55D .这100名参赛者得分的中位数为65答案 D解析 根据频率和为1,计算(a +0.035+0.030+0.020+0.010)×10=1,解得a =0.005, 得分在[40,60)之间的频率是0.4,估计得分在[40,60)之间的有100×0.4=40(人),A 正确; 得分在[60,80)之间的频率为0.5,可得从这100名参赛者中随机选取1人,得分在[60,80)之间的概率为0.5,B 正确;根据频率分布直方图知,最高的小矩形对应的底边中点为50+602=55,即估计众数为55,C正确;根据频率分布直方图知,得分低于60分的直方图面积为(0.005+0.035)×10=0.4<0.5,而得分低于70分的直方图面积为(0.005+0.035+0.030)×10=0.7>0.5,所以100名参赛者得分的中位数估计为60+0.5-0.40.030≈63.3,D 错误.二、多项选择题6.(2020·烟台模拟)某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每位学生对食堂的服务给出满意或不满意的评价,得到如下表所示的列联表,经计算K 2的观测值k ≈4.762,则可以推断出( )A.该学校男生对食堂服务满意的概率的估计值为35B .调研结果显示,该学校男生比女生对食堂服务更满意C .有95%的把握认为男、女生对该食堂服务的评价有差异D .有99%的把握认为男、女生对该食堂服务的评价有差异 答案 AC解析 对于选项A ,该学校男生对食堂服务满意的概率的估计值为3030+20=35,故A 正确;对于选项B ,该学校女生对食堂服务满意的概率的估计值为4040+10=45>35,故B 错误;因为k ≈4.762>3.841,所以有95%的把握认为男、女生对该食堂服务的评价有差异,故C 正确,D 错误.7.(2020·河北衡水中学月考)5G 时代已经到来,5G 的发展将直接带动包括运营、制造、服务在内的通信行业经济的快速增长,进而对GDP 增长产生直接贡献,并通过产业间的关联效应和波及效应,间接带动国民经济各行业的发展,创造出更多的经济增加值.如图是某单位结合近几年数据,对今后几年的5G 经济产出所做的预测.结合上图,下列说法正确的是( )A .5G 的发展带动今后几年的总经济产出逐年增加B .设备制造商的经济产出前期增长较快,后期放缓C .信息服务商与运营商的经济产出的差距有逐步拉大的趋势D .设备制造商在各年的经济产出中一直处于领先地位 答案 ABC解析 由图易知A ,B ,C 正确,而设备制造商的经济产出在2029年和2030年将低于信息服务商的经济产出,故D 错误.8.(2020·青岛模拟)某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布饼状图、90后从事互联网行业岗位分布条形图,则下列结论正确的是( ) 注:90后指1990年及以后出生,80后指1980-1989年之间出生,80前指1979年及以前出生.A .互联网行业从业人员中从事技术和运营岗位的人数占总人数的三成以上B .互联网行业中从事技术岗位的人数超过总人数的20%C .互联网行业中从事运营岗位的人数90后比80前多D .互联网行业中从事技术岗位的人数90后比80后多 答案 ABC解析 选项A ,因为互联网行业从业人员中,“90后”占比为56%,其中从事技术和运营岗位的人数占的比分别为39.6%和17%,则“90后”从事技术和运营岗位的人数占总人数的56%×(39.6%+17%)≈31.7%.“80前”和“80后”中必然也有从事技术和运营岗位的人,则总的占比一定超过三成,故选项A 正确;选项B ,因为互联网行业从业人员中,“90后”占比为56%,其中从事技术岗位的人数占的比为39.6%,则“90后”从事技术岗位的人数占总人数的56%×39.6%≈22.2%.“80前”和“80后”中必然也有从事技术岗位的人,则总的占比一定超过20%,故选项B 正确; 选项C ,“90后”从事运营岗位的人数占总人数的比为56%×17%≈9.5%,大于“80前”的总人数所占比3%,故选项C 正确;选项D ,“90后”从事技术岗位的人数占总人数的56%×39.6%≈22.2%,“80后”的总人数所占比为41%,条件中未给出“80后”从事技术岗位的占比,故不能判断,所以选项D 错误. 三、填空题9.某企业的一种商品的产量与成本数据如下表:若根据表中提供的数据,求出y 关于x 的线性回归方程为y ^=-1.15x +28.1,则a 的值为________. 答案 5解析 由题意知x =14+16+18+20+225=905=18,y =12+10+7+a +35=32+a5,又y =-1.15×18+28.1=7.4, 所以32+a5=7.4,解得a =5.10.已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量为________,抽取的高中生近视人数为________.答案 200 20解析 由题图甲知,总人数为3 500+2 000+4 500=10 000,所以样本容量为10 000×2%=200,抽样比例为150,所以高中生抽取的学生数为40,所以抽取的高中生近视人数为40×50%=20.11.下面的折线图给出的是甲、乙两只股票在某年中每月的收盘价格,已知股票甲的极差是6.88元,标准差为2.04元;股票乙的极差为27.47元,标准差为9.63元,根据这两只股票在这一年中的波动程度,给出下列结论:①股票甲在这一年中波动相对较小,表现的更加稳定;②购买股票乙风险高但可能获得高回报;③股票甲的走势相对平稳,股票乙的收盘价格波动较大;④两只股票在全年都处于上升趋势.其中正确的结论是________.(填序号)答案 ①②③解析 由题意可知,甲的标准差为2.04元,乙的标准差为9.63元,可知股票甲在这一年中波动相对较小,表现的更加稳定,故①正确;甲的极差是6.88元,乙的极差为27.47元,可知购买股票乙风险高但可能获得高回报,故②正确;通过折线图可知股票甲的走势相对平稳,股票乙的收盘价格波动较大,故③正确;通过折线图可得乙在6月到8月明显是下降趋势,故④错误.12.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是________.(填序号)①y 与x 具有正的线性相关关系; ②回归直线过样本点的中心(x ,y );③若该大学某女生身高增加1 cm ,则其体重约增加0.85 kg ; ④若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg. 答案 ④解析 由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故①正确;因为回归直线必过样本点的中心(x ,y ),所以②正确;由线性回归方程的意义知,某女生的身高增加1 cm ,其体重约增加0.85 kg ,故③正确;当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,这不是确定值,因此④不正确. 四、解答题13.某公司为了了解广告投入对销售收益的影响,在若干地区各投入3.5万元广告费用,并将各地的销售收益绘制成频率分布直方图,如图所示,由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.(1)根据频率分布直方图计算图中各小长方形的宽度;(2)估计该公司投入3.5万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值);(3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:广告投入x (单位:万元) 1 2 3 4 5 销售收益y (单位:万元)2327表中的数据显示,x 与y 之间存在线性相关关系,请将(2)中的结果填入空白栏,并计算y 关于x 的线性回归方程.附:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x .解 (1)设各小长方形的宽度为m ,由频率分布直方图中各小长方形面积总和为1,可知(0.08+0.10+0.14+0.12+0.04+0.02)·m =0.5m =1,故m =2.(2)由(1)知,各分组依次是[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],其中点值分别为1,3,5,7,9,11,对应的频率分别为0.16,0.20,0.28,0.24,0.08,0.04,故可估计平均值为1×0.16+3×0.20+5×0.28+7×0.24+9×0.08+11×0.04=5. (3)空白栏中填5.由题意可知,x =1+2+3+4+55=3,y =2+3+2+5+75=3.8,∑5i =1x i y i =1×2+2×3+3×2+4×5+5×7=69, ∑5i =1x 2i=12+22+32+42+52=55. 根据公式可求得b ^=∑i =15x i y i -5 x y∑i =15x 2i -5x2=69-5×3×3.855-5×32=1210=1.2,a ^=3.8-1.2×3=0.2, 即线性回归方程为y ^=1.2x +0.2.14.(2020·全国Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)由频数分布表可知,该市一天的空气质量等级为1的概率为2+16+25100=0.43,等级为2的概率为5+10+12100=0.27,等级为3的概率为6+7+8100=0.21,等级为4的概率为7+2+0100=0.09.(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为100×20+300×35+500×45100=350.(3)2×2列联表如下:K 2=100×(33×8-37×22)255×45×70×30≈5.820>3.841,因此,有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.。