2019届高三数学二轮专题复习文档:专题四概率与统计 第1讲 统计与统计案例 Word版含解析
- 格式:docx
- 大小:549.10 KB
- 文档页数:21
第1讲概率与统计(小题)热点一随机抽样1.随机抽样的各种方法中,每个个体被抽到的概率都是相等的.2.系统抽样又称“等距”抽样,被抽到的各个号码间隔相同.3.分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.例1(1)(2019·汉中联考)某机构对青年观众是否喜欢跨年晚会进行了调查,人数如下表所示:不喜欢喜欢男性青年观众3010女性青年观众3050现要在所有参与调查的人中用分层抽样的方法抽取n人做进一步的调研,若在“不喜欢的男性青年观众”的人中抽取了6人,则n等于()A.12 B.16 C.20 D.24(2)(2019·上饶联考)某校高三科创班共48人,班主任为了解学生高考前的心理状况,将学生按1至48的学号用系统抽样方法抽取8人进行调查,若抽到的最大学号为48,则抽到的最小学号为________.跟踪演练1(1)(2019·漳州质检)某工厂利用随机数表对生产的600个零件进行抽样测试,先将600个零件进行编号,编号分别为001,002,…,599,600从中抽取60个样本,如下提供随机数表的第4行到第6行:32 21 18 34 29 78 64 54 07 32 52 42 06 44 38 12 23 43 56 77 35 78 90 56 4284 42 12 53 31 34 57 86 07 36 25 30 07 32 86 23 45 78 89 07 23 68 96 08 0432 56 78 08 43 67 89 53 55 77 34 89 94 83 75 22 53 55 78 32 45 77 89 23 45若从表中第6行第6列开始向右依次读取3个数据,则得到的第6个样本编号为()A .522B .324C .535D .578(2)(2019·合肥质检)某工厂生产的A ,B ,C 三种不同型号的产品数量之比为2∶3∶5,为研究这三种产品的质量,现用分层抽样的方法从该工厂生产的A ,B ,C 三种产品中抽出样本容量为n 的样本,若样本中A 型产品有10件,则n 的值为( ) A .15 B .25 C .50 D .60 热点二 用样本估计总体1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率组距.2.频率分布直方图中各小长方形的面积之和为1. 3.利用频率分布直方图求众数、中位数与平均数 频率分布直方图中:(1)最高的小长方形底边中点的横坐标即众数. (2)中位数左边和右边的小长方形的面积和相等.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.4.对于其他的统计图表,要注意结合问题背景分析其所表达的意思,进而解决所给问题. 例2 (1)(2019·厦门质检)下图是某公司2018年1月至12月空调销售任务及完成情况的气泡图,气泡的大小表示完成率的高低,如10月份销售任务是400台,完成率为90%,则下列叙述不正确的是( )A .2018年3月的销售任务是400台B .2018年月销售任务的平均值不超过600台C .2018年第一季度总销售量为830台D .2018年月销售量最大的是6月份(2)(2019·临沂质检)已知8位学生的某次数学测试成绩的茎叶图如图,则下列说法正确的是( )A .众数为7B .极差为19C.中位数为64.5 D.平均数为64跟踪演练2(1)已知某高中的一次测验中,甲、乙两个班级的九科平均分的雷达图如图所示,下列判断错误的是()A.乙班的理科综合成绩强于甲班B.甲班的文科综合成绩强于乙班C.两班的英语平均分分差最大D.两班的语文平均分分差最小(2)(2019·黄冈模拟)学校为了了解新课程标准提升阅读要求对学生阅读兴趣的影响情况,随机抽取了100名学生进行调查.根据调查结果绘制学生周末阅读时间的频率分布直方图如图所示:将阅读时间不低于30分钟的学生称为“阅读霸”,则下列命题正确的是()A.抽样表明,该校约有一半学生为阅读霸B.该校只有50名学生不喜欢阅读C.该校只有50名学生喜欢阅读D.抽样表明,该校有50名学生为阅读霸热点三变量间的相关关系、统计案例高考中解决变量间的相关关系问题时需注意:(1)回归直线一定过样本点的中心(x,y).(2)随机变量K2的观测值k越大,说明“两个变量有关系”的可能性越大.例3(1)(2019·皖江联考)某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:气温x (℃) 18 13 10 -1 用电量y (度)24343864由表中数据得线性回归方程y ^=b ^x +a ^中b ^=-2,预测当温度为-5 ℃时,用电量的度数约为( )A .64B .66C .68D .70(2)某研究型学习小组调查研究学生使用智能手机对学习的影响,部分统计数据如下表:使用智能手机不使用智能手机总计 学习成绩优秀 4 8 12 学习成绩不优秀16 2 18 总计201030附表:P (K 2≥k 0)0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828经计算K 2的观测值k =10,则下列选项正确的是( ) A .有99.5%的把握认为使用智能手机对学习有影响 B .有99.5%的把握认为使用智能手机对学习无影响 C .有99.9%的把握认为使用智能手机对学习有影响 D .有99.9%的把握认为使用智能手机对学习无影响跟踪演练3 (1)(2019·长春质检)某运动制衣品牌为了成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单位:厘米),上图为选取的15名志愿者身高与臂展的折线图,下图为身高与臂展所对应的散点图,并求得其回归方程为y ^=1.16x -30.75,以下结论中不正确的为( )A .15名志愿者身高的极差小于臂展的极差B .15名志愿者身高和臂展成正相关关系C .可估计身高为190厘米的人臂展大约为189.65厘米D .身高相差10厘米的两人臂展都相差11.6厘米(2)(2019·泸州模拟)随着国家二胎政策的全面放开,为了调查一线城市和非一线城市的二胎生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线城市一线城市 总计 愿生 45 20 65 不愿生 13 22 35 总计5842100附表:P (K 2≥k 0)0.100 0.050 0.010 0.001 k 02.7063.8416.63510.828由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算得,K 2的观测值k =100×(45×22-20×13)258×42×35×65≈9.616,参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关”真题体验1.(2019·全国Ⅰ,文,6)某学校为了解1 000名新生的身体素质,将这些学生编号为1,2,…,1 000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是()A.8号学生B.200号学生C.616号学生D.815号学生2.(2018·全国Ⅰ,文,3)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半3.(2018·全国Ⅲ,文,14)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.押题预测1.某市气象部门根据2018年各月的每天最高气温平均值与最低气温平均值(单位:℃)数据,绘制如下折线图:那么,下列叙述错误的是( )A .各月最高气温平均值与最低气温平均值总体呈正相关B .全年中,2月份的最高气温平均值与最低气温平均值的差值最大C .全年中各月最低气温平均值不高于10 ℃的月份有5个D .从2018年7月至12月该市每天最高气温平均值与最低气温平均值都呈下降趋势 2.给出如下列联表患心脏病 患其他病 总 计 高血压 20 10 30 非高血压 30 50 80 总 计5060110P (K 2≥10.828)≈0.001,P (K 2≥6.635)≈0.010,参照公式k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),得到的正确结论是( )A .有99%以上的把握认为“高血压与患心脏病无关”B .有99%以上的把握认为“高血压与患心脏病有关”C .在犯错误的概率不超过0.1%的前提下,认为“高血压与患心脏病无关”D .在犯错误的概率不超过0.1%的前提下,认为“高血压与患心脏病有关” 3.某设备的使用年数x 与所支出的维修总费用y 的统计数据如下表:使用年数x (单位:年) 2 3 4 5 6 维修总费用y (单位:万元)1.54.55.56.57.5根据上表可得线性回归方程为y ^=1.4x +a ^.若该设备维修总费用超过12万元就报废,据此模型预测该设备最多可使用________年.A 组 专题通关1.(2019·河北省五个一名校联盟联考)经调查,某市骑行共享单车的老年人、中年人、青年人的比例为1∶3∶6,用分层抽样的方法抽取了一个容量为n 的样本进行调查,其中中年人数为12人,则n 等于( ) A .30 B .40 C .60D .802.某校李老师本学期负责高一甲、乙两个班的数学课,两个班都是50个学生,如图反映的是两个班的本学期5次数学测试中的班级平均分对比情况,根据图中信息,下列结论不正确的是( )A .甲班的数学平均成绩高于乙班B .乙班的数学成绩没有甲班稳定C .下次测试乙班的数学平均分高于甲班D .在第1次测试中,甲、乙两个班总平均分为783.(2019·全国Ⅲ)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( ) A .0.5 B .0.6 C .0.7 D .0.84.某学校为落实学生掌握社会主义核心价值观的情况,用系统抽样的方法从全校2 400名学生中抽取30人进行调查.现将2 400名学生随机地从1~2 400编号,按编号顺序平均分成30组(1~80号,81~160号,…,2 321~2 400号),若第3组与第4组抽出的号码之和为432,则第6组抽到的号码是( ) A .416 B .432 C .448 D .4645.(2019·郑州质检)若1,2,3,4,m (m ∈R )这五个数的平均数等于其中位数,则m 等于( ) A .0或5 B .0或52 C .5或52 D .0或5或526.(2019·长春质检)下列命题:①在线性回归模型中,相关指数R 2表示解释变量x 对于预报变量y 的贡献率,R 2越接近于1,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1;③在线性回归方程y ^=-0.5x +2中,当解释变量x 每增加一个单位时,预报变量y ^平均减少0.5个单位;④对分类变量X 与Y ,它们的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大.其中正确命题的个数是( ) A .1 B .2 C .3 D .47.(2019·衡水质检)某校进行了一次创新作文大赛,共有100名同学参赛,经过评判,这100名参赛者的得分都在[40,90]之间,其得分的频率分布直方图如图所示,则下列结论错误的是( )A .得分在[40,60)之间的共有40人B .从这100名参赛者中随机选取1人,其得分在[60,80)的概率为0.5C .估计得分的众数为55D .这100名参赛者得分的中位数为658.(2019·济宁模拟)如图为某市国庆节7天假期的楼房认购量与成交量的折线图,小明同学根据折线图对这7天的认购量(单位:套)与成交量(单位:套)作出如下判断:①日成交量的中位数是16;②日成交量超过日平均成交量的有2天;③认购量与日期正相关;④10月7日认购量的增幅大于10月7日成交量的增幅.则上述判断正确的个数为( )A .0B .1C .2D .39.(2019·广东天河区普通高中测试)为保证树苗的质量,林业管理部门在每年3月12日植树节前都对树苗进行检测,现从甲、乙两种树苗中各抽测了10株树苗的高度(单位:cm),其茎叶图如图所示,则下列描述正确的是( )A .甲种树苗的平均高度大于乙种树苗的平均高度,甲种树苗比乙种树苗长得整齐B .甲种树苗的平均高度大于乙种树苗的平均高度,乙种树苗比甲种树苗长得整齐C .乙种树苗的平均高度大于甲种树苗的平均高度,乙种树苗比甲种树苗长得整齐D .乙种树苗的平均高度大于甲种树苗的平均高度,甲种树苗比乙种树苗长得整齐10.利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问110名不同的大学生是否爱好该项运动,得出2×2列联表,由计算可得K 2≈8.806.P (K 2≥k 0)0.10 0.05 0.025 0.010 0.005 0.001 k 02.7063.8415.0246.6357.87910.828参照附表,得到的正确结论是( )A .有99.5%以上的把握认为“爱好该项运动与性别无关”B .有99.5%以上的把握认为“爱好该项运动与性别有关”C .在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别无关”11.已知变量x ,y 之间的线性回归方程为y ^=-0.7x +10.3,且变量x ,y 之间的一组数据如下表所示,则下列说法中错误的是( )x 6 8 10 12 y6m32A.变量x ,y 之间呈现负相关关系 B .可以预测当x =20时,y ^=-3.7 C .m =4D .由表格数据知,该回归直线必过点(9,4)12.(2019·江淮质检)为了了解户籍、性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人;男性60人,女性40人,绘制不同群体中倾向选择生育二胎与倾向选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则下列叙述中错误的是( )A .是否倾向选择生育二胎与户籍有关B .是否倾向选择生育二胎与性别有关C .倾向选择生育二胎的人员中,男性人数与女性人数相同D .倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数13.(2019·河南省九师联盟质检)为了了解世界各国的早餐饮食习惯,现从由中国人、美国人、英国人组成的总体中用分层抽样的方法抽取一个容量为m 的样本进行分析.若总体中的中国人有400人、美国人有300人、英国人有300人,且所抽取的样本中,中国人比美国人多10人,则样本容量m =________.14.某班40名学生参加普法知识竞赛,成绩都在区间[40,100]内,其频率分布直方图如图所示,则成绩不低于60分的人数为________.15.(2019·成都模拟)节能降耗是企业的生存之本,树立一种“点点滴滴降成本,分分秒秒增效益”的节能意识,以最好的管理,来实现节能效益的最大化.为此某国企进行节能降耗技术改造,下面是该国企节能降耗技术改造后连续五年的生产利润:年号1 2 3 4 5 年生产利润y (单位:千万元)0.70.811.11.4预测第8年该国企的生产利润约为________千万元.参考公式及数据:b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2=∑i =1nx i y i -n x y∑i =1nx 2i -n x2;a ^=y -b ^x ,∑i =15(x i -x )(y i-y )=1.7, i =15(x i -x )2=10.根据该折线图,下列结论正确的是________(填序号). ①月接待游客量逐月增加;②年接待游客量逐年增加; ③各年的月接待游客量髙峰期大致在7,8月份;④各年1月至6月的月接待游客量相对7月至12月,波动性更小,变化比较平稳.B 组 能力提高17.(2019·葫芦岛模拟)近日,据媒体报道称,“杂交水稻之父”袁隆平及其团队培育的超级杂交稻品种“湘两优900(超优千号)”再创亩产世界纪录,经第三方专家测产,该品种的水稻在实验田内亩产1 203.36公斤.中国工程院院士袁隆平在1973年率领科研团队开启了杂交水稻王国的大门,在数年的时间内就解决了十多亿人的吃饭问题,有力回答了世界“谁来养活中国”的疑问.2012年,在袁隆平的实验田内种植了A ,B 两个品种的水稻,为了筛选出更优的品种,在A ,B 两个品种的实验田中分别抽取7块实验田,如图所示的茎叶图记录了这14块实验田的亩产量(单位:10 kg),通过茎叶图比较两个品种的平均数及方差,并从中挑选一个品种进行以后的推广,有如下结论:①A 品种水稻的平均产量高于B 品种水稻,推广A 品种水稻;②B 品种水稻的平均产量高于A 品种水稻,推广B 品种水稻;③A 品种水稻的产量比B 品种水稻更稳定,推广A 品种水稻;④B 品种水稻的产量比A 品种水稻更稳定,推广B 品种水稻;其中正确结论的编号为( )A .①②B .①③C .②④D .①④18.(2019·南昌模拟)已知具有线性相关的五个样本点A 1(0,0),A 2(2,2),A 3(3,2),A 4(4,2),A 5(6,4),用最小二乘法得到回归直线l 1:y ^=b ^x +a ^,过点A 1,A 2的直线l 2:y =mx +n ,那么下列说法中,正确的有________.(填序号) ①m >b ^,a ^>n ; ②直线l 1过点A 3;③∑i =15(y i -b ^x i -a ^)2≥∑i =15 (y i -mx i -n )2; ④∑i =15|y i -b ^x i -a ^|≥∑i =15|y i -mx i -n |.⎝ ⎛⎭⎪⎪⎫参考公式:b ^=∑i =1nx i y i-n x y ∑i =1nx 2i-n x 2= ∑i =1n(x i-x )(y i-y )∑i =1n(x i-x )2,a ^=y -b ^x。
019-2020年高考数学第二轮复习统计与概率教学案考纲指要:“统计”是在初中“统计初步” 基础上的深化和扩展,本讲主要会用样本的频率分布估计总体的分布,并会用样本的特征来估计总体的分布。
热点问题是频率分布直方图和用样本的数字特征估计总体的数字特征。
统计案例主要包括回归分析的基本思想及其初步应用和独立性检验的基本思想和初步应用。
对概率考察的重点为互斥事件、古典概型的概率事件的计算为主,了解随机数的意义,能运用模拟方法(包括计算器产生随机数来进行模拟)估计概率,初步体会几何概型的意义。
考点扫描:1.三种常用抽样方法:(1)简单随机抽样;(2)系统抽样;(3)分层抽样。
2.用样本的数字特征估计总体的数字特征:(1)众数、中位数;(2)平均数与方差。
3.频率分布直方图、折线图与茎叶图。
4.线性回归:回归直线方程。
5.统计案例:相关系数、卡方检验,6.随机变量:随机变量的概念,离散性随机变量的分布列,相互独立事件、独立重复试验公式,随机变量的均值和方差,几种特殊的分布列:(1)两点分布;(2)超几何分布;(3)二项分布;正态分布。
7随机事件的概念、概率;事件间的关系:(1)互斥事件;(2)对立事件;(3)包含;事件间的运算:(1)并事件(和事件)(2)交事件(积事件)8古典概型:古典概型的两大特点;古典概型的概率计算公式。
9几何概型:几何概型的概念;几何概型的概率公式;几种常见的几何概型。
考题先知:例1.为了科学地比较考试的成绩,有些选拔性考试常常会将考试分数转化为标准分,转化关系式为:(其中x是某位学生的考试分数,是该次考试的平均分,s是该次考试的标准差,Z称为这位学生的标准分).转化成标准分后可能出现小数和负值,因此,又常常再将Z分数作线性变换转化成其他分数.例如某次学业选拔考试采用的是T分数,线性变换公式是:T=40Z+60.已知在这次考试中某位考生的考试分数是85,这次考试的平均分是70,标准差是25,则该考生的T分数为.分析:正确理解题意,计算所求分数。
2019年高考二轮复习概率与统计随机事件的概率、古典概型、几何概型;概率的基本概念与公式;用样本估计总体、回条件概率与相互独立事件的概率;一、高考回顾概率与统计是高考考查的核心内容之一,在高考中一般有1~2个选择或者填空题,一个解答题.选择或者填空题有针对性地考查古典概型及其二项式定理,二项式定理主要考查求特定项或系数或求参数等,试题的难度一般不大;解答题考查多在概率与统计的综合问题,重点考查随机变量的期望与方差.二、知识清单1.思维导图2.知识再现 1.排列排列数公式:),,()!(!)1()1(**N n N m n m m n n m n n n A mn ∈∈≤-=+--=2.组合(1)组合数公式:),,()!(!!1)1()1()1(**N n N m n m m n m n m m m n n n A A C m m m n mn∈∈≤-=-+--== .由于1!0=,所以10=n C . (2)组合数的性质m n nm n C C -=①;1-1m n m n m n C C C +=+②. 3.二项式定理(1)二项展开式:)()(*1110N n b C b a C b a C a C b a nn n k k n k n n n nn n∈+++++=+--通项:).2,1,0(1n k b aC T k kn kn k ==-+(2)二项式系数的有关性质:①二项展开式中,偶数项的二项式系数的和等于奇数项的二项式系数的和,即1425312-=+++=+++n n n n n n n C C C C C C ;②若,)(2210nn x a x a x a a x f ++++= 则)(x f 展开式中的各项系数和为)1(f ,奇数项系数和为2)1()1(420-+=+++f f a a a ,偶数项系数之和为2)1()1(531--=+++f f a a a .4.三种抽样方法的特点简单随机抽样:操作简便、适当,总体个数较少 分层抽样:按比例抽样 系统抽样:等距抽样5. 必记公式——数据n x x x x ,,,,321 的数字特征公式: (1)平均数:nx x x x x n++++=321(2)方差:])()()[(1222212x x x x x x ns n -++-+-=(3)标准差:])()()[(122221x x x x x x ns n -++-+-= 6.重要性质及结论(1)频率分布直方图的三个结论①小长方形的面积=⨯=组距频率组距频率;②各小长方形的面积之和等于1;③小长方形的高组距频率=. (2)回归直线方程:一组具有线性相关关系的数据),(,),,(),,(2211n n y x y x y x 其回归方程^^^a x b y +=,其过样本中心点),(y x .(3)独立性检验))()()(()(22d b c a d c b a bc ad n k ++++-=(其中d c b a n +++=为样本容量).7.随机事件的概率:(1)随机事件的概率范围:1)(0<<A P .(2)必然事件的概率为1.(3)不可能事件的概率为0.8.互斥事件、对立事件的概率公式:(1))()()(B P A P B A P +=⋃.(2)若B A ,为对立事件,则)(1)(B P A P -=.9.古典概型的概率公式:基本时间总数中所含的基本事件数A n m A P ==)(. 10.几何概型的概率公式:)区域长度(面积或体积试验全部结果所构成的积)的区域长度(面积或体构成事件A A P =)(.11.相互独立事件同时发生的概率:)()()(B P A P AB P =.12.独立重复试验与二项分布:如果事件A 在一次试验中发生的概率是p ,那么它在n 次独立重复试验中恰好发生k 次的概率为kn k k n k n p p C P --=)1()(,.,,2,1,0n k =用X 表示事件A 在n 次独立重复试验中发生的次数,则X 服从二项分布,即),(~p n B X 且k n k k n p p C k X P --==)1()(.13.超几何分布:在含有M 件次品的N 件产品中,任取n 件,其中恰有X 件次品,则nNKN MN k M C C C k X P --==)(,.,,2,1,0m k =其中},m i n {n M m =,且*,,N N M n N M N n ∈≤≤、、.此时称随机变量X 服从超几何分布.超几何分布的模型是不放回抽样.14.离散型随机变量的均值、方差 (1)离散型随机变量X 的分布列为离散型随机变量X的分布列具有两个性质:①0≥i p ;②),,3,2,1(121n i p p p p n i ==++++.(2) ))(2211n n i i p x p x p x p x X E ++++= 为随机变量X 的数学期望或均值.nn i i p X E x p X E x p X E x p X E x X D ⋅-+⋅-++⋅-+⋅-=22222121))(())(())(())(()( 叫做随机变量X 的方差.性质:①b X aE b aX E +=+)()(,)()(2X D a b aX D =+;②),(~p n B X ,则np X E =)(,)1()(p np X D -=;),(~2σμN X ,则2)(,)(σμ==X D X E ;③X 服从两点分布,则p X E =)(,)1()(p p X D -=.三、例题精讲题型一 古典概型与几何概型例1、某路口人行横道的信号灯为红灯和绿灯交替出现,红灯持续时间为40秒.若一名行人来到该路口遇到红灯,则至少需要等待15秒才出现绿灯的概率为 . 【答案】58【解析】因为红灯持续时间为40秒.所以这名行人至少需要等待15秒才出现绿灯的概率为40155408-=. 例2、市政府为调查市民对本市某项调控措施的态度,随机抽取了100名市民,统计了他们的月收入频率分布和对该项措施的赞成人数,统计结果如下表所示:(1)用样本估计总体的思想比较该市月收入低于20(百元)和不低于30(百元)的两类人群在该项措施的态度上有何不同;(2)现从样本中月收入在)20,10[和)70,60[的市民中各随机抽取一个人进行跟踪调查,求抽取的两个人恰好对该措施一个赞成一个不赞成的概率. 【答案】(1)详见解析;(2)2011. 【解析】(1)由表知,样本中月收入低于20(百元)的共有5人,其中持赞成态度的共有2人,故赞成人数的频率为52,月收入不低于30(百元)的共有75人,其中持赞成态度的共有64人,故赞成人数的频率为7564, ∵527564>,∴根据样本估计总体的思想可知月收入不低于30(百元)的人群对该措施持赞成态度的比月收入低于20(百元)的人群持赞成态度的比例要高.(3) 将月收入在)20,10[内,不赞成的3人记为321,,a a a ,赞成的2人记为54,a a ,将月收入在)70,60[内,不赞成的1人记为1b ,赞成的3人记为,,,432b b b 从月收入在)20,10[和)70,60[内的人中各随机抽取1人,基本事件总数20=n ,其中事件“抽取的两个人恰好对该措施一个赞成一个不赞成”包含的基本事件有),(),,(),,(),,(),,(),,(),,(),,(),,(),,(),,(1514433323423222413121b a b a b a b a b a b a b a b a b a b a b a 共11个,∴抽取的两个人恰好对该措施一个赞成一个不赞成的概率2011=P .【易错点】求解古典概型问题的关键:先求出基本事件的总数,再确定所求目标事件包含基本事件的个数,结合古典概型概率公式求解.一般涉及“至多”“至少”等事件的概率计算问题时,可以考虑其对立事件的概率,从而简化运算. 【思维点拨】1. 求复杂互斥事件概率的方法一是直接法,将所求事件的概率分解为一些彼此互斥事件概率的和,运用互斥事件的求和公式计算;二是间接法,先求此事件的对立事件的概率,再用公式()()1P A P A =-,即运用逆向思维的方法(正难则反)求解,应用此公式时,一定要分清事件的对立事件到底是什么事件,不能重复或遗漏.特别是对于含“至多”“至少”等字眼的题目,用第二种方法往往显得比较简便.2.求古典概型的概率的基本步骤:算出所有基本事件的个数;求出事件A 包含的基本事件个数;代入公式,求出()P A ;几何概型的概率是几何度量之比,主要使用面积、体积之比与长度之比.题型二 统计与统计案例例1、某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:],90,80[,),40,30[),30,20[ 并整理得到如下频率分布直方图:(Ⅰ)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(Ⅱ)已知样本中分数小于40的学生有5人,试估计总体中分数在区间)50,40[内的人数; (Ⅲ)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例. 【答案】(Ⅰ)4.0;(Ⅱ)20;(Ⅲ)2:3.【解析】(Ⅰ)根据频率分布直方图可知,样本中分数不小于70的频率为6.010)04.002.0(=⨯+,所以样本中分数小于70的频率为4.06.01=-.(Ⅱ)根据题意,样本中分数不小于50的频率为(0.010.020.040.02)100.9+++⨯=,分数在区间[40,50)内的人数为1001000.955-⨯-=. 所以总体中分数在区间[40,50)内的人数估计为540020100⨯=. (Ⅲ)由题意可知,样本中分数不小于70的学生人数为6010010)04.002.0(=⨯⨯+,所以样本中分数不小于70的男生人数为302160=⨯.所以样本中的男生人数为60230=⨯,女生人数为4060100=-,男生和女生人数的比例为2:340:60=,所以根据分层抽样的原理,总体中男生和女生人数的比例估计为2:3.【易错点】求解统计图表问题,重要的是认真观察图表,发现有用信息和数据.对于频率分布直方图,应注意图中的每一个小矩形的面积是落在该区间上的频率,所有小矩形的面积和为1,当小矩形等高时,说明频率相等,计算时不要漏掉其中一个. 【思维点拨】1.简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体较少.2.系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.3.分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.4.利用频率分布直方图求众数、中位数与平均数利用频率分布直方图求众数、中位数和平均数时易出错,应注意区分这三者.在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即是众数; (2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和. 5.求回归直线方程的关键①正确理解计算^^,a b 的公式和准确的计算.②在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值. 6.独立性检验的关键①根据22⨯列联表准确计算2K ,若22⨯列联表没有列出来,要先列出此表. ②2K 的观测值k 越大,对应假设事件0H 成立的概率越小,0H 不成立的概率越大. 题型三 概率、随机变量及其分布例1、“过大年,吃水饺”是我国不少地方过春节的一大习俗.2018年春节前夕, A 市某质检部门随机抽取了100包某种品牌的速冻水饺,检测其某项质量指标,(1)求所抽取的100包速冻水饺该项质量指标值的样本平均数x (同一组中的数据用该组区间的中点值作代表);(2)①由直方图可以认为,速冻水饺的该项质量指标值Z 服从正态分布()2,N μσ,利用该正态分布,求Z 落在()14.55,38.45内的概率;②将频率视为概率,若某人从某超市购买了4包这种品牌的速冻水饺,记这4包速冻水饺中这种质量指标值位于()10,30内的包数为X ,求X 的分布列和数学期望.附:①计算得所抽查的这100包速冻水饺的质量指标的标准差为11.95σ=≈;②若()2~,Z N μσ,则()0.6826P Z μσμσ-<≤+=,(22)0.9544P Z μσμσ-<≤+=.【答案】(1) 26.5x = (2) 0.6826(3)X 的分布列为;()2E X =.【解析】(1)所抽取的100包速冻水饺该项质量指标值的样本平均数x 为50.1150.2250.3350.25450.1526.5x =⨯+⨯+⨯+⨯+⨯=.(2)①∵Z 服从正态分布()2,N μσ,且26.5μ=, 11.95σ≈,∴(14.5538.45)(26.511.9526.511.95)0.6826P Z P Z <<=-<<+=, ∴Z 落在()14.55,38.45内的概率是0.6826.②根据题意得1~4,2X B ⎛⎫ ⎪⎝⎭, ()404110216P X C ⎛⎫=== ⎪⎝⎭; ()41411124P X C ⎛⎫=== ⎪⎝⎭; ()42413228P X C ⎛⎫=== ⎪⎝⎭; ()43411324P X C ⎛⎫=== ⎪⎝⎭; ()444114216P X C ⎛⎫=== ⎪⎝⎭. ∴X 的分布列为∴()142E X =⨯=.【思维点拨】1.条件概率的两种求解方法: (2)基本事件法,借助古典概型概率公式,先求事件A 包含的基本事件数)(A n ,再求事件AB 所包含的基本事件数()AB n ,得)()()|(A n AB n A B P =. 2.判断相互独立事件的三种常用方法:(1)利用定义,事件B A ,相互独立⇔)()()(B P A P AB P ⋅=.(2)利用性质,A 与B 相互独立,则A 与A B ,与B ,B A 与也都相互独立. (3)具体背景下,①有放回地摸球,每次摸球的结果是相互独立的. ②当产品数量很大时,不放回抽样也可近似看作独立重复试验.3. 求离散型随机变量的分布列,首先要根据具体情况确定X 的取值情况,然后利用排列、组合与概率知识求出X 取各个值的概率.4. 利用独立重复试验概率公式可以简化求概率的过程,但需要注意检验该概率模型是否满足公式kn kkn p p C k X P --==)1()(的三个条件:(1)在一次试验中某事件A 发生的概率是一个常数p ;(2)n 次试验不仅是在完全相同的情况下进行的重复试验,而且各次试验的结果是相互独立的;(3)该公式表示n 次试验中事件A 恰好发生了k 次的概率. 5. 求离散型随机变量的均值与方差的基本方法有:(1)已知随机变量的分布列求它的均值、方差和标准差,可直接按定义(公式)求解; (2)已知随机变量X 的均值、方差,求X 的线性函数b aX Y +=的均值、方差,可直接用均值、方差的性质求解,即b X aE b aX E +=+)()(,)()(2X D a b aX D =+(b a ,为常数). (3)如能分析所给随机变量服从常用的分布,可直接利用它们的均值、方差公式求解,即若X 服从两点分布,则p X E =)(,)1()(p p X D -=;若),(~p n B X ,则np X E =)(,)1()(p np X D -=.四、成果巩固题型一 古典概型与几何概型1.已知{}0 1 2a ∈,,,{}1 1 3 5b ∈-,,,,则函数()22f x ax bx =-在区间()1 +∞,上为增函数的概率是( )A .512 B .13 C .14 D .16【答案】A【解析】①当0a =时,()2f x bx =-,情况为 1 1 3 5b =-,,,符合要求的只有一种1b =-;②当0a ≠时,则讨论二次函数的对称轴22b b x a a -=-=要满足题意则1ba≤产生的情况() a b ,表示:()()()1 1 1 1 1 3-,,,,,,()()()()()1 5 2 1 2 1 2 3 2 5-,,,,,,,,,8种情况满足的只有4种;综上所述得:使得函数()22f x ax bx =-在区间()1 +∞,为增函数的概率为:1251214=+=P .2.在区间()0,4上任取一数x ,则1224x -<<的概率是( )A .12 B .13 C .14 D .34【答案】C【解析】由题设可得211<-<x ,即32<<x ;所以4,1==D d ,则由几何概型的概率公式1=P .故应选C .(1)估计该公司一位会员至少消费两次的概率;(2)某会员仅消费两次,求这两次消费中,公司获得的平均利润;(3)该公司要从这100位里至少消费两次的顾客中按消费次数用分层抽样方法抽出8人,再从这8人中抽出2人发放纪念品,求抽出的2人中恰有1人消费两次的概率.【答案】(1) 0.4;(2) 45;(3)4.考向二 统计与统计案例1.为考查某种疫苗预防疾病的效果,进行动物实验,得到统计数据如下:现从所有试验动物中任取一只, (Ⅰ)求22⨯列联表中的数据x ,y ,A ,B 的值; (Ⅱ)绘制发病率的条形统计图,并判断疫苗是否有效? (Ⅲ)能够有多大把握认为疫苗有效?【答案】(Ⅰ)10y=,40B =,40x =,60A =;(Ⅱ)详见解析;(Ⅲ)至少有%9.99的把握认为疫苗有效.【解析】(Ⅰ)设“从所有试验动物中任取一只,取到“注射疫苗”动物”为事件A,由已知得302()100y P A +==,所以10y =,40B =,40x =,60A =.发病率的条形统计图如图所示,由图可以看出疫苗影响到发病率.10000005016.6710.8285020603=≈>⨯⨯. 所以至少有%9.99的把握认为疫苗有效.未注射 注射未注射 注射2.在“新零售”模式的背景下,某大型零售公司为推广线下分店,计划在S 市的A 区开设分店.为了确定在该区开设分店的个数,该公司对该市已开设分店的其他区的数据作了初步处理后得到下列表格.记x 表示在各区开设分店的个数, y 表示这x 个分店的年收入之和.(Ⅰ)该公司已经过初步判断,可用线性回归模型拟合y 与x 的关系,求y 关于x 的线性回归方程;(Ⅱ)假设该公司在A 区获得的总年利润z (单位:百万元)与,x y 之间的关系为20.05 1.4z y x =--,请结合(Ⅰ)中的线性回归方程,估算该公司应在A 区开设多少个分店,才能使A 区平均每个分店的年利润最大? 参考公式:y b x a ∧∧∧=+, 1221ni i i nii x y nxyb x nx ∧==-==-∑∑()()()121niii n ii x x y y x x ==---∑∑, a y b x ∧∧=-. 【答案】(1)0.850.6y x =+;(2)公司应在A 区开设4个分店,才能使A 区平均每个分店的年利润最大.【解析】(1)10085)())(()(,4,42112121^=---=--===∑∑∑∑====x x y y x x x n xy x n y x b y x ni ini iini in i ii ,6.0^^=-=x b y a ,∴y 关于x 的线性回归方程6.085.0+=x y .(2)20.05 1.4z y x =--= 20.050.850.8x x -+-,A 区平均每个分店的年利润0.80.050.85z t x x x ==--+ 800.0150.85x x ⎛⎫=-++ ⎪⎝⎭, ∴4x =时, t 取得最大值,故该公司应在A 区开设4个分店,才能使A 区平均每个分店的年利润最大.3. 某商场对A 商品30天的日销售量y (件)与时间t (天)的销售情况进行整理,得到如下数据,经统计分析,日销售量y (件)与时间t (天)之间具有线性相关关系.(1)请根据表中提供的数据,用最小二乘法求出y 关于t 的线性回归方程a t b y +=. (2)已知A 商品30天内的销售价格z (元)与时间t(天)的关系为,),200(,20),3020(,100⎩⎨⎧∈<<+∈≤≤+-=N t t t N t t t z 根据(1)中求出的线性回归方程,预测t 为何值时,A 商品的日销售额最大.参考公式:2121^)(t n tyt n y t b ni ini ii --=∑∑==,t b y a ^^-=.【答案】(1)40^+-=t y ;(2)预测当20=t 时,A 商品的日销售额最大,最大值为1600元. 【解析】(1)根据题意,6)108642(51=++++⨯=t ,34)3033323738(51=++++⨯=y ,980301033832637438251=⨯+⨯+⨯+⨯+⨯=∑=ii i yt ,22010864222222512=++++=∑=i i t ,所以回归系数为1652203465980)(22121^-=⨯-⨯⨯-=--=∑∑==t n tyt n yt b ni ini ii,406)1(34^^=⨯--=-=t b y a ,故所求的线性回归方程为40^+-=t y . (2)由题意得日销售额为,,3020),40)(100(,200),40)(20(⎩⎨⎧∈≤≤+-+-∈<<+-+=Nt t t t Nt t t t L当N t t ∈<<,200时,900)10(80020)40)(20(22+--=++-=+-+=t t t t t L , 所以当;90010max ==L t 时,当N t t ∈≤≤,3020时,900)70(4000140)40)(100(22--=+-=+-+-=t t t t t L ,所以当.160020max ==L t 时,综上所述,预测当20=t 时,A 商品的日销售额最大,最大值为1600元. 题型三 概率、随机变量及其分布1.在心理学研究中,常采用对比试验的方法评价不同心理暗示对人的影响,具体方法如下:将参加试验的志愿者随机分成两组,一组接受甲种心理暗示,另一组接受乙种心理暗示,通过对比这两组志愿者接受心理暗示后的结果来评价两种心理暗示的作用,现有6名男志愿者654321,,,,,A A A A A A 和4名女志愿者4321,,,B B B B ,从中随机抽取5人接受甲种心理暗示,另5人接受乙种心理暗示.(I )求接受甲种心理暗示的志愿者中包含1A 但不包含1B 的频率。
第1讲统计与统计案例高考定位 1.抽样方法、样本的数字特征、统计图表、回归分析与独立性检验主要以选择题、填空题形式命题,难度较小;2.注重知识的交汇渗透,统计与概率,回归分析与概率是近年命题的热点,2016年,2017年和2018年在解答题中均有考查.真题感悟1.(2018·全国Ⅰ卷)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半解析设新农村建设前经济收入为a,则新农村建设后经济收入为2a,则由饼图可得新农村建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a.新农村建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的.故选A. 答案 A2.(2018·全国Ⅲ卷)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.解析因为不同年龄段的客户对公司的服务评价有较大差异,所以需按年龄进行分层抽样,才能了解到不同年龄段的客户对公司服务的客观评价.答案分层抽样3.(2018·全国Ⅱ卷)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y^=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y^=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y^=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.考 点 整 合1.抽样方法抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围. 2.统计中的四个数据特征(1)众数:在样本数据中,出现次数最多的那个数据.(2)中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.(3)平均数:样本数据的算术平均数,即x -=1n (x 1+x 2+…+x n ).(4)方差与标准差.s 2=1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2],s =1n[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2]. 3.直方图的两个结论(1)小长方形的面积=组距×频率组距=频率.(2)各小长方形的面积之和等于1. 4.回归分析与独立性检验(1)回归直线y ^=b ^x +a ^经过样本点的中心点(x -,y -),若x 取某一个值代入回归直线方程y ^=b ^x +a ^中,可求出y 的估计值. (2)独立性检验对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是:则K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(其中n=a+b+c+d为样本容量).热点一抽样方法【例1】(1)(2018·合肥模拟)某校为了解学生学习的情况,采用分层抽样的方法从高一1 000人、高二1 200人、高三n人中抽取81人进行问卷调查,已知高二被抽取的人数为30,那么n=()A.860B.720C.1 020D.1 040(2)(2018·长沙雅礼中学质检)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示:若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.解析(1)依题意,分层抽样比为301 200=140.∴81=140(1 000+1 200+n),解得n=1 040.(2)依题意,可将编号为1~35号的35个数据分成7组,每组有5个数据.在区间[139,151]上共有20个数据,分在4个小组内,每组抽取1人,共抽取4人.答案(1)D(2)4探究提高 1.解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与总体容量的比值.2.在系统抽样的过程中,要注意分段间隔,需要抽取n个个体,样本就需要分成n个组,则分段间隔即为Nn(n为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.【训练1】(1)(2018·郑州模拟)为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是()A.13B.19C.20D.51(2)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.解析(1)由系统抽样的原理知,抽样的间隔为52÷4=13,故抽取的样本的编号分别为7,7+13,7+13×2,7+13×3,即7号,20号,33号,46号.∴样本中还有一位同学的编号为20号.(2)因为样本容量n=60,总体容量N=200+400+300+100=1 000,所以抽取比例为nN=601000=350.因此应从丙种型号的产品中抽取300×350=18(件).答案(1)C(2)18热点二用样本估计总体考法1数字特征与茎叶图的应用【例2-1】(2018·北京东城区质检)某班男女生各10名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如下:假设每名同学最近一周平均每天的锻炼时间是互相独立的.①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大;②从平均值分析,男生每天锻炼的时间比女生多;③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;④从10个男生中任选一人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.其中符合茎叶图所给数据的结论是()A.①②③B.②③④C.①②④D.①③④解析由茎叶图知,男生每天锻炼时间差别小,女生差别大,①正确.男生平均每天锻炼时间超过65分钟的概率P1=510=12,女生平均每天锻炼时间超过65分钟的概率P2=410=25,P1>P2,因此④正确.设男生、女生两组数据的平均数分别为x-甲,x-乙,标准差分别为s甲,s乙.易求x-甲=65.2,x-乙=61.8,知x-甲>x-乙,②正确.又根据茎叶图,男生锻炼时间较集中,女生锻炼时间较分散,∴s甲<s乙,③错误,因此符合茎叶图所给数据的结论是①②④.答案 C考法2用样本的频率分布估计总体分布【例2-2】(2017·北京卷)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…[80,90],并整理得到如下频率分布直方图:(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.解 (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,所以样本中分数小于70的频率为1-0.6=0.4.所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4. (2)根据题意,样本中分数不小于50的频率为 (0.01+0.02+0.04+0.02)×10=0.9,分数在区间[40,50)内的人数为100-100×0.9-5=5. 所以总体中分数在区间[40,50)内的人数估计为400×5100=20. (3)由题意可知,样本中分数不小于70的学生人数为 (0.02+0.04)×10×100=60,所以样本中分数不小于70的男生人数为60×12=30.所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.探究提高 1.平均数与方差都是重要的数字特征,是对数据的一种简明描述,它们所反映的情况有着重要的实际意义.平均数、中位数、众数描述数据的集中趋势,方差和标准差描述数据的波动大小.2.在本例2-2中,抓住频率分布直方图各小长方形的面积之和为1,这是求解的关键;本题易混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.【训练2】 (1)如图所示的茎叶图记录了甲乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为( ) A.3,5 B.5,5 C.3,7 D.5,7解析 由茎叶图,可得甲组数据的中位数为65,从而乙组数据的中位数也是65,所以y =5.由乙组数据59,61,67,65,78,可得乙组数据的平均值为66,故甲组数据的平均值也为66,从而有56+62+65+74+70+x5=66,解得x=3.答案 A(2)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),……,[4,4.5]分成9组,制成了如图所示的频率分布直方图.①求直方图中a的值;②设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;③估计居民月均用水量的中位数.解①由频率分布直方图可知:月均用水量在[0,0.5)内的频率为0.08×0.5=0.04. 同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]等组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,解得a=0.30.②由①知,该市100位居民中月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.③设中位数为x吨.因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5.又前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5.所以2≤x<2.5.由0.50×(x-2)=0.5-0.48,解得x=2.04.故可估计居民月均用水量的中位数为2.04吨.热点三 回归分析【例3】(2018·成都质检)某省的一个气象站观测点在连续4天里记录的AQI 指数M 与当天的空气水平可见度y (单位:cm)的情况如表1:该省某市2017年11月份AQI 指数频数分布如表2:(1)设x =M100,若x 与y 之间是线性关系,试根据表1的数据求出y 关于x 的线性回归方程;(2)小李在该市开了一家洗车店,洗车店每天的平均收入与AQI 指数存在相关关系如表3:根据表3估计小李的洗车店2017年11月份每天的平均收入.附参考公式:y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -nx - y-∑ni =1x 2i -nx -2,a ^=y --b ^x -解 (1)x -=14(9+7+3+1)=5, y -=14(0.5+3.5+6.5+9.5)=5,∑4i =1x i y i =9×0.5+7×3.5+3×6.5+1×9.5=58,∑4i =1x 2i =92+72+32+12=140.∴b ^=58-4×5×5140-4×52=-2120,a ^=5-⎝ ⎛⎭⎪⎫-2120×5=414, ∴y 关于x 的线性回归方程为y ^=-2120x +414.(2)根据表3可知,该月30天中有3天每天亏损2 000元,有6天每天亏损1 000元,有12天每天收入2 000元,有6天每天收入6 000元,有3天每天收入8 000元.估计小李洗车店2017年11月份每天的平均收入为130×(-2 000×3-1 000×6+ 2 000×12+6 000×6+8 000×3)=2 400(元). 探究提高 1.求回归直线方程的关键及实际应用 (1)关键:正确理解计算b ^,a ^的公式和准确地计算.(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值. 2.相关系数(1)当r >0时,表明两个变量正相关;当r <0时,两变量负相关. (2)当|r |>0.75时,认为两个变量具有较强的线性相关.【训练3】(2016·全国Ⅲ卷)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:∑7i =1y i =9.32,∑7i =1t i y i =40.17,∑7i =1(y i -y -)2=0.55,7≈2.646.参考公式:相关系数r =∑n i =1(t i -t -)(y i -y -)∑ni =1(t i -t -)2∑ni =1(y i -y -)2,回归方程y^=a^+b^t中斜率和截距的最小二乘估计公式分别为:b^=∑ni=1(t i-t-)(y i-y-)∑ni=1(t i-t-)2,a^=y--b^t-.解(1)由折线图中数据和附注中参考数据得t-=4,∑7i=1(t i-t-)2=28,∑7i=1(y i-y-)2=0.55.∑7 i=1(t i-t-)(y i-y-)=∑7i=1t i y i-t-∑7i=1y i=40.17-4×9.32=2.89,r≈2.892×2.646×0.55≈0.99.因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.(2)由y-=9.327≈1.331及(1)得b^=∑7i=1(t i-t-)(y i-y-)∑7i=1(t i-t-)2=2.8928≈0.103,a^=y--b^t-≈1.331-0.103×4≈0.92.所以y关于t的回归方程为y^=0.92+0.10t.将2016年对应的t=9代入回归方程得y^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨.热点四独立性检验【例4】(2018·全国Ⅲ卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),解(1)第一种生产方式时间集中在区间[80,90],且平均工作时间x-1=84. 第二种生产方式的时间集中在区间[70,80),且平均工作时间x-2=74.7.∴x-1>x-2,所以第一种生产方式完成任务的平均时间大于第二种,∴第二种生产方式的效率更高.(2)由茎叶图数据得到m=80.由此填写列联表如下:(3)根据(2)中的列联表计算.K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=40(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异. 探究提高 1.独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)计算K2的值;(3)查表比较K2与临界值的大小关系,作统计判断.2.K2的观测值k越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.【训练4】微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,将男性、女性使用微信的时间分成5组:(0,2],(2,4],(4,6],(6,8],(8,10]分别加以统计,得到如图所示的频率分布直方图.(1)根据女性频率分布直方图估计女性使用微信的平均时间;(2)若每天玩微信超过4小时的用户列为“微信控”,否则称其为“非微信控”,请你根据已知条件完成2×2的列联表,并判断是否有90%的把握认为“微信控”与“性别有关”?解(1)女性平均使用微信的时间为:0.16×1+0.24×3+0.28×5+0.2×7+0.12×9=4.76(小时).(2)由已知得:2(0.04+a+0.14+2×0.12)=1,解得a=0.08.由题设条件得列联表∴K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100(38×20-30×12)250×50×68×32≈2.941>2.706.所以有90%的把握认为“微信控”与“性别”有关.1.用样本估计总体是统计的基本思想.用样本频率分布来估计总体分布的重点是频率分布表和频率分布直方图的绘制及用样本频率分布估计总体分布;难点是频率分布表和频率分布直方图的理解及应用.2.(1)众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量,与每个样本数据有关,这是中位数、众数所不具有的性质.(2)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度就越大.3.茎叶图、频率分布表和频率分布直方图都可直观描述样本数据的分布规律. 在频率分布直方图中,可分析样本数据的分布情况,大致判断平均数的范围,并利用数据的波动性大小反映方差(标准差)的大小. 注意:频率分布直方图的纵轴刻度是频率组距,而不是频率,每个小直方图的面积才是相应区间的频率.4.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.一、选择题1.(2017·全国Ⅰ卷)为评估一种农作物的种植效果,选了n 块地作试验田.这n 块地的亩产量(单位:kg)分别为x 1,x 2,…,x n ,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )A.x 1,x 2,…,x n 的平均数B.x 1,x 2,…,x n 的标准差C.x1,x2,…,x n的最大值D.x1,x2,…,x n的中位数解析刻画评估这种农作物亩产量稳定程度的指标是标准差.答案 B2.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为()A.7B.9C.10D.15解析抽取号码的间隔为96032=30,从而区间[451,750]包含的段数为75030-45030=10,则编号落入区间[451,750]的人数为10人,即做问卷B的人数为10.答案 C3.(2017·全国Ⅲ卷)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳解析由题图可知,2014年8月到9月的月接待游客量在减少,则A选项错误. 答案 A4.(2018·北京燕博园质检)某超市从2017年甲、乙两种酸奶的日销售量(单位:箱)的数据中分别随机抽取100个,并按(0,10],(10,20],(20,30],(30,40],(40,50]分组,得到频率分布直方图如下:记甲种酸奶与乙种酸奶的日销售量(单位:箱)的方差分别为s21,s22,则频率分布直方图(甲)中的a的值及s21与s22的大小关系分别是()A.a=0.015,s21<s22B.a=0.15,s21>s22C.a=0.015,s21>s22D.a=0.15,s21<s22解析由(0.020+0.010+0.030+a+0.025)×10=1,得a=0.015.根据频率分布直方图,乙中较稳定,则s21>s22.答案 C5.某省二线城市地铁正式开工建设,地铁时代的到来能否缓解该市的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:则下列结论正确的是()附:K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关”B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关”C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关”D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关”解析由2×2列联表,可求K2的观测值,k =(48+30+12+20)(20×48-12×30)2(48+30)(48+12)(12+20)(30+20)≈5.288>3.841. 由统计表P (K 2≥3.841)=0.05,∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”. 答案 A 二、填空题6.(2018·泉州模拟)某厂在生产甲产品的过程中,产量x (吨)与生产能耗y (吨)的对应数据如表:根据最小二乘法求得回归方程为y ^=0.65x +a ^,当产量为80吨时,预计需要生产能耗为________吨.解析 由题意,x -=45,y -=36.25,代入y ^=0.65x +a ^,可得a ^=7,∴当产量为80吨时,预计需要生产能耗为0.65×80+7=59. 答案 597.(2018·邯郸模拟)空气质量指数(Air Quality Index ,简称AQI)是定量描述空气质量状况的指数,空气质量按照AQI 大小分为六级,0~50为优;51~100为良;101~150为轻度污染;151~200为中度污染;201~300为重度污染;大于300为严重污染.从某地一环保人士某年的AQI 记录数据中,随机抽取10个,用茎叶图记录如图.根据该统计数据,估计此地该年AQI 大于100的天数约为________(该年为365天).解析 该样本中AQI 大于100的频数是4,频率为25, 由此估计该地全年AQI 大于100的频率为25, 估计此地该年AQI 大于100的天数约为365×25=146. 答案 1468.某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是________.解析设所求的人数为n,由频率分布直方图,自习时间不少于22.5小时的频率为(0.04+0.08+0.16)×2.5=0.7,∴n=0.7×200=140.答案140三、解答题9.(2018·全国Ⅰ卷)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:未使用节水龙头50天的日用水量频数分布表使用了节水龙头50天的日用水量频数分布表(1)在下图中作出使用了节水龙头50天的日用水量数据的频率分布直方图:(2)估计该家庭使用节水龙头后,日用水量小于0.35(m3)的概率;(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表).解(1)所求的频率分布直方图如下:(2)由题可知用水量在[0.3,0.4]的频数为10,所以可估计在[0.3,0.35)的频数为5,故用水量小于0.35(m 3)的频数为1+5+13+5=24,其概率为P =2450=0.48. (3)该家庭未使用节水龙头50天的日用水量的平均数为x -1=150(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48. 该家庭使用了节水龙头后50天的日用水量的平均数为x -2=150(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m 3).10.某市春节期间7家超市的广告费支出x i (万元)和销售额y i (万元)数据如下:(1)若用线性回归模型拟合y 与x 的关系,求y 关于x 的线性回归方程; (2)用对数回归模型拟合y 与x 的关系,可得回归方程y ^=12ln x +22,经计算得出线性回归模型和对数模型的R 2分别约为0.75和0.97,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出为8万元时的销售额.参数数据及公式:x -=8,y -=42,∑7i =1x i y i =2 794,∑7i =1x 2i =708,b ^=∑ni =1x i y i -n ·x - y-∑n i =1x 2i -nx -2,a^=y --b ^x -,ln 2≈0.7.解 (1)∵x -=8,y -=42,∑7i =1x i y i =2 794,∑7i =1x 2i =708.∴b^=∑ni=1x i y i-n·x-y-∑ni=1x2i-nx-2=2 794-7×8×42708-7×82=1.7,因此a^=y--b^x-=42-1.7×8=28.4.所以,y关于x的线性回归方程是y^=1.7x+28.4.(2)∵0.75<0.97,∴对数回归模型更合适.当x=8时,y^=12ln 8+22=36ln 2+22=36×0.7+22=47.2(万元).∴广告费支出8万元时,预测A超市销售额为47.2万元.11.(2017·全国Ⅰ卷)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:经计算得x-=116∑16i=1x i=9.97,s=116∑16i=1(x i-x-)2=116(∑16i=1x2i-16x-2)≈0.212,∑16i=1(i-8.5)2≈18.439,∑16i=1(x i-x-)(i-8.5)=-2.78,其中x i为抽取的第i个零件的尺寸,i=1,2, (16)(1)求(x i,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(x--3s,x-+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(x--3s,x-+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i,y i)(i=1,2,…,n)的相关系数r=∑ni=1(x i-x-)(y i-y-)∑ni=1(x i-x-)2∑ni=1(y i-y-)2,0.008≈0.09.解(1)由样本数据得(x i,i)(i=1,2,…,16)的相关系数r=∑16i=1(x i-x-)(i-8.5)∑16i=1(x i-x-)2∑16i=1(i-8.5)2≈-2.780.212×16×18.439≈-0.18.由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于x-=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(x--3s,x-+3s)以外.因此需对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为115(16×9.97-9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.∑16i=1x2i≈16×0.2122+16×9.972≈1 591.134,剔除第13个数据,剩下数据的样本方差为115(1 591.134-9.222-15×10.022)≈0.008,这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.。