2021版高考数学一轮复习第十一章统计与统计案例第2讲用样本估计总体教学案理北师大版
- 格式:pdf
- 大小:3.23 MB
- 文档页数:21
1.通过具体实例,学生体会样本与总体的关系,体验用样本的分布估计总体的分布.提升学生的直观想象素养.2.通过具体实例,探究“大数据”的应用,提升学生的数学运算素养.教学重点:样本的分布估计总体的分布和“大数据”的简单应用.教学难点:用样本“估计总体”,突出“用局部估计总体”的思想.PPT课件.一、整体概览问题1:阅读课本,回答下列问题:(1)本课时将要研究哪类问题?(2)本课时要研究的问题在数学中的地位是怎样的?师生活动:学生带着问题阅读课本,老师指导学生概括总结本课时的内容.预设的答案:(1)本节课要学的内容是用样本估计总体的第二课时,主要研究用样本的分部估计总体的分部。
(2)本节课之前统计的内容,可以归结为描述统计学的范畴,主要讨论的是怎样收集、整理和分析。
本课时的内容可以归结为推断统计学的范畴,主要讨论的是如何根据样本数据得到总体的信息,从而为相关的决策提供指导。
本小节的重点是帮助学生理解用样本的分布估计总体的分布,体会统计思想与确定性思维的差异。
设计意图:通过本节课内容的预习,让学生明晰下一阶段的学习目标,初步搭建学习内容的框架.引语:前面一节课,我们体会了可以用样本的数字特征估计总体的数字特征,那么,总体的分布是否也可以用样本的分布来近似刻画呢?(板书:用样本估计总体第二课时)二、探索新知问题2:通过对某中学1257名高一学生期中考试的数学成绩(具体数据参见课本85-87页)进行整理,可以得到如下数据,并由此可作出频率分布直方图和折线图,如图所示.分组频数频率[40,50)7 0.01[50,60)65 0.05[60,70)276 0.22[70,80)480 0.38[80,90)330 0.26[90,100)99 0.08师生活动:在附录的数据中抽取容量是100的样本,整理类似的表格,并制作频率分布直方图.学生分成2组,选用随机抽样的方法分别抽取容量是100的样本,分别记为样本A,样本B ,分别得到如下的频数、频率对应表,它们的频率分布直方图,借助信息技术完成相应任务.预设的答案:如果从上述问题中提到的数据中,抽取两个容量为100的样本(分别记为样本A,样本B),则可以得到如下频数、频率对应表,对应的频率分布直方图如下。
第十一讲 复习统计一、本讲进度《统计》复习 二、本讲主要内容1、本章内容是初中《统计初步》与高中《概率》内容的深入和扩展,对数理统计中要研究的两个基本问题;如何从总体中抽取样本以及如何通过对所抽取的样本进行计算和分析,从而对总体的相应情况作出推断,作了初步的介绍。
几个基本名词:在统计中,考察对象的全体称为总体,总体中的每一个对象称为个体。
若记总体中N 个个体取值分别为x 1,x 2,…,x N ,则称)x x x (N1N 21+++=μ 为总体平均数(μ为N 个个体的算术平均数)若记])x ()x ()x [(N12N 22212μ-+μ-+μ-=σ ,则称σ2为总体方差,σ称为总体标准差。
初中《统计初步》的主要内容⎪⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎪⎨⎧⎩⎨⎧⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧→⎪⎪⎪⎩⎪⎪⎪⎨⎧⎩⎨⎧⎪⎩⎪⎨⎧平均数样本平均数去估计总体样本容量等样本个体总体样本去估计总体频率分布从整体分布上描述标准差方差描述其被动大小中位数众数平均数描述集中趋势从特征数上描述描述一组数据的方法,,, 2、抽样方法的分类:按照抽取样本时总体中的每个个体被抽取的概率是否相等⎩⎨⎧不等概率抽样等概率抽样本章只研究等概率抽样 等概率抽样⎩⎨⎧不放回抽样放回抽样常用的三种抽样方法的比较:3、用样本的频率分布估计总体分布,分两种情况:(1)当总体中的个数体取不同数值很少时,其频率分布表由所取样本的不同数值及其相应的频率来表示,其几何表示就是相应的条形图。
例如射击的环数,掷单粒骰子时出现的点数等;(2)当总体中的个体取不同值较多甚至无限时,此时需要对样本数据进行整理,其频率分布表列出的是在各个不同区间内取值的频率,相应的直方图是用图形面积的大小来表示在各个区间内取值的频率。
画第二种情况频率分布图的步骤是: ①计算最大值与最小值的差; ②决定组距与组数;③决定分点,通常使分点比数据多一位小数,并且把第一小组的起点稍微减小一点; ④列出频率分布表; ⑤画出频率分布直方图频率分布将随着样本容量的增大而更加接近总体分布,当样本容量无限增大且分组的组距无限缩小时,频率分布直方图就会演变成一条光滑曲线——反映总体分布的概率密度曲线。
用样本估计总体》课时教学设计本课主要介绍了用样本的频率分布来估计总体分布的方法。
首先通过讨论抽样方法和收集数据的目的来引出估计总体的两种手段:用样本的频率分布估计总体的分布和用样本的数字特征估计总体的数字特征。
然后介绍了频率分布直方图的作法,通过一个例子来说明如何采用抽样调查的方式得到本市的居民月均用水量,并用频率分布直方图来分析数据。
最后讨论了频率分布直方图的纵坐标为何取频率/组距的问题,得出结论:用矩形面积表示频率,总面积为1.本课的重点是会列频率分布表和画频率分布直方图,难点是能通过样本的频率分布估计总体的分布。
2.回顾:上节课我们研究了什么?样本数据分布的可视化方法有哪些?二、新知讲解:1.样本的数字特征1)众数:出现次数最多的数,可能有多个.2)中位数:将数据从小到大排列,位于中间的数.3)平均数:所有数据的总和除以数据的个数.2.样本数字特征的意义1)众数:反映数据的集中趋势,但容易受极端值影响.2)中位数:反映数据的集中趋势,不受极端值影响.3)平均数:反映数据的平均水平,但容易受极端值影响.3.样本数字特征对总体数字特征的估计1)众数:样本众数可以用来估计总体众数.2)中位数:样本中位数可以用来估计总体中位数.3)平均数:样本平均数可以用来估计总体平均数.4.样本数字特征的计算1)众数:出现次数最多的数.2)中位数:将数据从小到大排列,位于中间的数.3)平均数:所有数据的总和除以数据的个数.5.样本数字特征的比较1)众数、中位数、平均数的大小关系与数据的分布有关.2)当数据分布呈正态分布时,三者相等.3)当数据分布不对称时,三者大小关系为:众数<中位数<平均数.三、巩固练:1.练:计算以下数据的众数、中位数、平均数:12,15,18,20,20,25,28.2.作业:P72 3、4题,只计算数字特征.讨论:如何利用样本的频率分布直方图分析规律?下面给出一个图,试着分析。
第2讲 用样本估计总体1.统计图表(1)频率分布直方图的画法步骤①求极差(即一组数据中最大值与最小值的差); ②决定组距与组数; ③将数据分组; ④列频率分布表; ⑤画频率分布直方图.(2)频率分布折线图和总体密度曲线①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图. ②总体密度曲线:随着样本容量的增加,作图时所分组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线. (3)茎叶图的画法步骤第一步:将每个数据分为茎(高位)和叶(低位)两部分; 第二步:将最小茎与最大茎之间的数按大小次序排成一列; 第三步:将各个数据的叶依次写在其茎的两侧. 2.样本的数字特征(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.(2)中位数:把n 个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数. (3)平均数:把a 1+a 2+…+a nn称为a 1,a 2,…,a n 这n 个数的平均数.(4)标准差与方差:设一组数据x 1,x 2,x 3,…,x n 的平均数为x -,则这组数据的标准差和方差分别是s =1n[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2] s 2=1n[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2]3.与平均数和方差有关的结论(1)若x 1,x 2,…,x n 的平均数为x -,那么mx 1+a ,mx 2+a ,…,mx n +a 的平均数为m x -+a ; (2)数据x 1,x 2,…,x n 与数据x ′1=x 1+a ,x ′2=x 2+a ,…,x ′n =x n +a 的方差相等,即数据经过平移后方差不变;(3)若x 1,x 2,…,x n 的方差为s 2,那么ax 1+b ,ax 2+b ,…,ax n +b 的方差为a 2s 2;(4)s 2=1n ∑i =1n (x i -x -)2=1n ∑i =1nx 2i -x -2,即各数平方的平均数减去平均数的平方.判断正误(正确的打“√”,错误的打“×”)(1)一组数据的方差越大,说明这组数据的波动越大.( )(2)在频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间内的频率越大.( )(3)茎叶图中的数据要按从小到大的顺序写,相同的数据可以只记一次.( )(4)频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观.( )(5)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数的估计值.( ) 答案:(1)√ (2)√ (3)× (4)√ (5)√(2017·高考全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是( ) A .月接待游客量逐月增加 B .年接待游客量逐年增加C .各年的月接待游客量高峰期大致在7,8月份D .各年1月至6月的月接待游客量相对7月至12月,波动性更小,变化比较平稳 解析:选A.根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都是减少,所以A 错误.重庆市某年各月的平均气温(℃)数据的茎叶图如图,则这组数据的中位数是()A .19B .20C .21.5D .23解析:选B.由茎叶图可知这组数据由小到大依次为8,9,12,15,18,20,20,23,23,28,31,32,所以中位数为20+202=20.(2018·郑州第一次质量预测)我市某校组织学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100],若低于60分的人数是15,则该班的学生人数是________.解析:依题意得,成绩低于60分的相应的频率等于(0.005+0.01)×20=0.3,所以该班的学生人数是15÷0.3=50.答案:50甲、乙两人在10天中每天加工零件的个数用茎叶图表示如图,中间一列的数字表示零件个数的十位数,两边的数字表示零件个数的个位数,则这10天甲、乙两人日加工零件的平均数分别为________和________.解析:由茎叶图可知甲的平均数为19+18+20+21+23+22+20+31+31+3510=24.乙的平均数为19+17+11+21+24+22+24+30+32+3010=23.答案:24 23茎叶图[典例引领](2017·高考山东卷)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为( )A .3,5B .5,5C .3,7D .5,7【解析】 根据两组数据的中位数相等可得65=60+y ,解得y =5,又它们的平均值相等, 所以56+62+65+74+(70+x )5=59+61+67+(60+y )+785,解得x =3.故选A .【答案】 A茎叶图中的三个关注点(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一. (2)重复出现的数据要重复记录,不能遗漏.(3)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.[通关练习]1.(2018·贵州遵义航天高中模拟)某学生在一门功课的22次考试中,所得分数茎叶图如图所示,则此学生该门功课考试分数的极差与中位数之和为( )A .117B .118C .118.5D .119.5解析:选B.22次考试中,所得分数最高的为98,最低的为56,所以极差为98-56=42, 将分数从小到大排列,中间两数为76,76,所以中位数为76, 所以此学生该门功课考试分数的极差与中位数之和为42+76=118.2.为了了解某校教师使用多媒体进行教学的情况,现采用简单随机抽样的方法,从该校400名授课教师中抽取20名,调查了他们上学期使用多媒体进行教学的次数,结果用茎叶图表示,如图所示.据此可估计上学期该校400名教师中,使用多媒体进行教学的次数在[16,30)内的人数为( )A.100 B.160C.200 D.280解析:选B.由茎叶图可知在20名教师中,上学期使用多媒体进行教学的次数在[16,30)内的人数为8,据此可以估计400名教师中,使用多媒体进行教学的次数在[16,30)内的人数为400×820=160.频率分布直方图(高频考点)频率分布直方图是高考的热点,选择题、填空题、解答题都有可能出现.难度一般较小.高考对频率分布直方图的考查主要有以下三个命题角度:(1)求样本的频率、频数;(2)求样本的数字特征;(3)与概率结合的问题.[典例引领]角度一求样本的频率、频数(2016·高考山东卷)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )A.56 B.60C.120 D.140【解析】由频率分布直方图可知,这200名学生每周的自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,故这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140.故选D.【答案】 D角度二 求样本的数字特征(2018·云南省11校跨区调研)为了解一种植物果实的情况,随机抽取一批该植物果实样本测量重量(单位:克),按照[27.5,32.5),[32.5,37.5),[37.5,42.5),[42.5,47.5),[47.5,52.5]分为5组,其频率分布直方图如图所示.(1)求图中a 的值;(2)估计这种植物果实重量的平均数x -和方差s 2(同一组中的数据用该组区间的中点值作代表).【解】 (1)组距d =5,由5×(0.02+0.04+0.075+a +0.015)=1得a =0.05. (2)各组中点值和相应的频率依次为x =30×0.1+35×0.2+40×0.375+45×0.25+50×0.075=40,s 2=(-10)2×0.1+(-5)2×0.2+02×0.375+52×0.25+102×0.075=28.75.角度三 与概率结合的问题(2018·东北四市高考模拟)某手机厂商推出一款6寸大屏手机,现对500名该手机使用者(200名女性,300名男性)进行调查,对手机进行打分,打分的频数分布表如下:给出结论即可);(2)根据评分的不同,运用分层抽样的方法从男性用户中抽取20名用户,再从这20名用户中满足评分不低于80分的用户中任意抽取3名用户,求3名用户中评分小于90分的人数X 的分布列和数学期望.【解】 (1)女性用户和男性用户的频率分布直方图如图.由图可知女性用户评分的波动小,男性用户评分的波动大.(2)运用分层抽样的方法从男性用户中抽取20名用户,评分不低于80分的用户有6人,其中评分小于90分的有4人,从6人中任取3人,则X 的可能取值为1,2,3, P (X =1)=C 14C 22C 36=420=15,P (X =2)=C 24C 12C 36=1220=35,P (X =3)=C 34C 36=420=15.所以X 的分布列为E (X )=5+5+5=2.频率、频数、样本容量的计算方法(1)频率组距×组距=频率. (2)频数样本容量=频率,频数频率=样本容量,样本容量×频率=频数. [提醒] 制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确.[通关练习]1.在样本频率分布直方图中,共有9个小长方形,若中间一个小长方形的面积等于其他8个长方形的面积和的25,且样本容量为140,则中间一组的频数为( )A .28B .40C .56D .60解析:选B .设中间一组的频数为x ,因为中间一个小长方形的面积等于其他8个长方形的面积和的25,所以其他8组的频数和为52x ,由x +52x =140,解得x =40.2.(2018·武汉市武昌区调研考试)我国是世界上严重缺水的国家,城市缺水问题较为突出.某市政府为了鼓励居民节约用水,计划在本市试行居民生活用水定额管理,即确定一个合理的居民月用水量标准x (吨),月用水量不超过x 的部分按平价收费,超出x 的部分按议价收费.为了了解全市居民用水量的分布情况,通过抽样,获得了100位居民某年的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求频率分布直方图中a 的值;(2)已知该市有80万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由; (3)若该市政府希望使85%的居民每月的用水量不超过标准x (吨),估计x 的值,并说明理由. 解:(1)由频率分布直方图,可得(0.08+0.16+a +0.40+0.52+a +0.12+0.08+0.04)×0.5=1, 解得a =0.30.(2)由频率分布直方图知,100位居民每人月均用水量不低于3吨的频率为(0.12+0.08+0.04)×0.5=0.12.由以上样本频率分布,可以估计全市80万居民中月均用水量不低于3吨的人数为800 000×0.12=96 000.(3)因为前6组的频率之和为(0.08+0.16+0.30+0.40+0.52+0.30)×0.5=0.88>0.85,前5组的频率之和为(0.08+0.16+0.30+0.40+0.52)×0.5=0.73<0.85, 所以2.5≤x <3.由0.3×(x -2.5)=0.85-0.73,解得x =2.9.因此,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.样本数字特征的求解与应用[典例引领](1)在发生某公共卫生事件期间,有专业机构认为该事件在一段时间内没有发生大规模群体感染的标志是“连续10天,每天新增疑似病例不超过7人”.根据过去10天甲、乙、丙、丁四地新增疑似病例的数据,一定符合该标志的是( ) A .甲地:总体均值为3,中位数为4 B .乙地:总体均值为1,总体方差大于0 C .丙地:中位数为2,众数为3 D .丁地:总体均值为2,总体方差为3(2)(2018·南昌模拟)若1,2,3,4,m 这五个数的平均数为3,则这五个数的方差为________. (3)(2018·石家庄市教学质量检测(二))设样本数据x 1,x 2,…,x 2 017的方差是4,若y i =2x i -1(i =1,2,…,2 017),则y 1,y 2,…,y 2 017的方差为________.【解析】 (1)根据标志,要求数据中每个个体不超过7.中位数与众数不能体现个体数据,无法确定.方差体现数据中个体的波动程度,若大于0,则无法确定.若均值为2,方差为3,假设∃x i ≥8,则s 2≥(x i -x -)210=6210>3,故假设不成立.(2)由1+2+3+4+m 5=3得m =5,所以这五个数的方差为15[(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2]=2.(3)设样本数据的平均数为x -,则y i =2x i -1的平均数为2x --1,则y 1,y 2,…,y 2 017的方差为12 017[(2x 1-1-2x -+1)2+(2x 2-1-2x -+1)2+…+(2x 2 017-1-2x -+1)2]=4×12 017[(x 1-x -)2+(x 2-x -)2+…+(x 2 017-x -)2]=4×4=16. 【答案】 (1)D (2)2 (3)16(1)众数、中位数、平均数及方差的意义①平均数与方差都是重要的数字特征,是对总体的一种简明地描述. ②平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小. (2)在计算平均数、方差时可利用平均数、方差的有关结论.[通关练习]1.甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )A .甲的成绩的平均数小于乙的成绩的平均数B .甲的成绩的中位数等于乙的成绩的中位数C .甲的成绩的方差小于乙的成绩的方差D .甲的成绩的极差小于乙的成绩的极差 解析:选C. x -甲=15(4+5+6+7+8)=6,x -乙=15(5×3+6+9)=6,甲的成绩的方差为15(22×2+12×2)=2,乙的成绩的方差为15(12×3+32×1)=2.4.2.(2018·合肥市第二次教学质量检测)某同学在高三学年的五次阶段性考试中,数学成绩依次为110,114,121,119,126,则这组数据的方差是________.解析:因为对一组数据同时加上或减去同一个常数,方差不变,所以本题中可以先对这5个数据同时减去110,得到新的数据分别为0,4,11,9,16,其平均数为8,根据方差公式可得s 2=(0-8)2+(4-8)2+(11-8)2+(9-8)2+(16-8)25=30.8.答案:30.83.(2018·贵阳市监测考试)在某校科普知识竞赛前的模拟测试中,得到甲、乙两名学生的6次模拟测试成绩(百分制)的茎叶图(如图).若从甲、乙两名学生中选择一人参加该知识竞赛,你会选哪位?请运用统计学的知识说明理由.解:学生甲的平均成绩x -甲=68+76+79+86+88+956=82,学生乙的平均成绩x -乙=71+75+82+84+86+946=82,又s 2甲=16×[(68-82)2+(76-82)2+(79-82)2+(86-82)2+(88-82)2+(95-82)2]=77,s 2乙=16×[(71-82)2+(75-82)2+(82-82)2+(84-82)2+(86-82)2+(94-82)2]=1673,则x -甲=x -乙,s 2甲>s 2乙,说明甲、乙的平均水平一样,但乙的方差小,即乙发挥更稳定,故可选择学生乙参加知识竞赛.众数、中位数和平均数的异同相同点:标准差和方差描述了一组数据围绕平均数波动的大小.不同点:方差与原始数据的单位不同,且平方后可能夸大了偏差程度,标准差则不然. 易错防范(1)易忽视频率分布直方图中纵轴表示的应为频率组距.(2)在绘制茎叶图时,易遗漏重复出现的数据,重复出现的数据要重复记录,同时不要混淆茎叶图中茎与叶的含义.1.把样本容量为20的数据分组,分组区间与频数如下:[10,20),2;[20,30),3;[30,40),4;[40,50),5;[50,60),4;[60,70],2,则在区间[10,50)上的数据的频率是( ) A .0.05 B .0.25 C .0.5D .0.7解析:选D.由题知,在区间[10,50)上的数据的频数是2+3+4+5=14,故其频率为1420=0.7.2.(2018·广西三市第一次联考)在如图所示一组数据的茎叶图中,有一个数字被污染后模糊不清,但曾计算得该组数据的极差与中位数之和为61,则被污染的数字为( )A .1B .2C .3D .4解析:选B.由题图可知该组数据的极差为48-20=28,则该组数据的中位数为61-28=33,易得被污染的数字为2.3.(2018·岳阳模拟)某商场在国庆黄金周的促销活动中,对10月2日9时到14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时到12时的销售额为( )A .6万元B .8万元C .10万元D .12万元解析:选C.设11时到12时的销售额为x 万元,依题意有2.5x =0.100.40,解得x =10.4.某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示,以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是( )解析:选A.由分组可知C ,D 一定不对;由茎叶图可知[0,5)有1人,[5,10)有1人,所以第一、二小组频率相同,频率分布直方图中矩形的高应相等,可排除B.5.某人5次上班途中所花的时间(单位:分钟)分别为x ,y ,10,11,9.已知这组数据的平均数为10,方差为2,则|x -y |的值为( ) A .1 B .2 C .3D .4解析:选D.由题意这组数据的平均数为10,方差为2,可得:x +y =20,(x -10)2+(y -10)2=8,设x =10+t ,y =10-t ,由(x -10)2+(y -10)2=8,得t 2=4,所以|x -y |=2|t |=4.6.(2018·湖南省五市十校联考)某中学奥数培训班共有14人,分为两个小组,在一次阶段测试中两个小组成绩的茎叶图如图所示,其中甲组学生成绩的平均数是88,乙组学生成绩的中位数是89,则n -m 的值是________.解析:由甲组学生成绩的平均数是88,可得70+80×3+90×3+(8+4+6+8+2+m +5)7=88,解得m =3.由乙组学生成绩的中位数是89,可得n =9,所以n -m =6. 答案:67.为了普及环保知识,增强环保意识,某大学有300名员工参加环保知识测试,按年龄分组:第1组[25,30),第2组[30,35),第3组[35,40),第4组[40,45),第5组[45,50],得到的频率分布直方图如图所示.现在要从第1,3,4组中用分层抽样的方法抽取16人,则在第4组中抽取的人数为________.解析:根据频率分布直方图得,第1,3,4组的频率之比为1∶4∶3,所以用分层抽样的方法抽取16人时,在第4组中应抽取的人数为16×31+4+3=6.答案:68.(2018·成都市第二次诊断性检测)在一个容量为5的样本中,数据均为整数,已测出其平均数为10,但墨水污损了两个数据,其中一个数据的十位数字1未被污损,即9,10,11,1 ,那么这组数据的方差s 2可能的最大值是________.解析:由题意可设两个被污损的数据分别为10+a ,b ,(a ,b ∈Z ,0≤a ≤9),则10+a +b+9+10+11=50,即a +b =10,b =10-a ,所以s 2=15[(9-10)2+(10-10)2+(11-10)2+(10+a -10)2+(b -10)2]=15[2+a 2+(b -10)2]=25(1+a 2)≤25×(1+92)=32.8.答案:32.89.某校1 200名高三年级学生参加了一次数学测验(满分为100分),为了分析这次数学测验的成绩,从这1 200人的数学成绩中随机抽取200人的成绩绘制成如下的统计表,请根据表中提供的信息解决下列问题:(1)求a 、b 、c (2)如果从这1 200名学生中随机抽取一人,试估计这名学生该次数学测验及格的概率P (注:60分及60分以上为及格);(3)试估计这次数学测验的年级平均分.解:(1)由题意可得,b =1-(0.015+0.125+0.5+0.31)=0.05,a =200×0.05=10,c =200×0.5=100.(2)根据已知,在抽出的200人的数学成绩中,及格的有162人.所以P =162200=81100=0.81.(3)这次数学测验样本的平均分为x -=16×3+32.1×10+55×25+74×100+88×62200=73,所以这次数学测验的年级平均分大约为73分.10.(2017·高考北京卷)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数; (3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.解:(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6, 所以样本中分数小于70的频率为1-0.6=0.4.所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4. (2)根据题意,样本中分数不小于50的频率为 (0.01+0.02+0.04+0.02)×10=0.9,分数在区间[40,50)内的人数为100-100×0.9-5=5. 所以总体中分数在区间[40,50)内的人数估计为400×5100=20. (3)由题意可知,样本中分数不小于70的学生人数为 (0.02+0.04)×10×100=60,所以样本中分数不小于70的男生人数为60×12=30.所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.1.(2018·长春模拟)某销售公司为了解员工的月工资水平,从1 000位员工中随机抽取100位员工进行调查,得到如下的频率分布直方图:(1)试由此图估计该公司员工的月平均工资;(2)该公司的工资发放是以员工的营销水平为重要依据来确定的,一般认为,工资低于4 500元的员工属于学徒阶段,没有营销经验,若进行营销将会失败;高于4 500元的员工属于成熟员工,进行营销将会成功.现将该样本按照“学徒阶段工资”“成熟员工工资”分成两层,进行分层抽样,从中抽出5人,在这5人中任选2人进行营销活动.活动中,每位员工若营销成功,将为公司赚得3万元,否则公司将损失1万元.试问在此次比赛中公司收入多少万元的可能性最大?解:(1)估计该公司员工的月平均工资为0.000 1×1 000×2 000+0.000 1×1 000×3 000+0.000 2×1 000×4 000+0.000 3×1 000×5 000+0.000 2×1 000×6 000+0.000 1×1 000×7 000=4 700(元). (2)抽取比为5100=120,从工资在[1 500,4 500)内的员工中抽出100×(0.1+0.1+0.2)×120=2人,设这两位员工分别为1,2;从工资在[4 500,7 500]内的员工中抽出100×(0.3+0.2+0.1)×120=3人,设这三位员工分别为A ,B ,C .从中任选2人,共有以下10种不同的等可能结果:(1,2),(1,A ),(1,B ),(1,C ),(2,A ),(2,B ),(2,C ),(A ,B ),(A ,C ),(B ,C ).两人营销都成功,公司收入6万元,有以下3种不同的等可能结果:(A ,B ),(A ,C ),(B ,C ),概率为310;其中一人营销成功,一人营销失败,公司收入2万元,有以下6种不同的等可能结果:(1,A ),(1,B ),(1,C ),(2,A ),(2,B ),(2,C ),概率为610=35;两人营销都失败,公司收入-2万元,即损失2万元,有1种结果:(1,2),概率为110.因为110<310<35,所以公司收入2万元的可能性最大.2.(2018·河北三市第二次联考)某高三毕业班甲、乙两名同学在连续的8次数学周练中,统计解答题失分的茎叶图如图:(1)比较这两名同学8次周练解答题失分的平均数和方差的大小,并判断哪位同学做解答题相对稳定些;(2)以上述数据统计甲、乙两名同学失分超过15分的频率作为概率,假设甲、乙两名同学在同一次周练中失分多少互不影响,预测在接下来的2次周练中,甲、乙两名同学失分均超过15分的次数X 的分布列和均值.解:(1) x -甲 =18(7+9+11+13+13+16+23+28)=15,x -乙=18(7+8+10+15+17+19+21+23)=15,s 2甲=18[(-8)2+(-6)2+(-4)2+(-2)2+(-2)2+12+82+132]=44.75,s 2乙=18[(-8)2+(-7)2+(-5)2+02+22+42+62+82]=32.25.甲、乙两名同学解答题失分的平均数相等;甲同学解答题失分的方差比乙同学解答题失分的方差大.所以乙同学做解答题相对稳定些.(2)根据统计结果,在一次周练中,甲和乙失分超过15分的概率分别为P 1=38,P 2=12,两人失分均超过15分的概率为P 1P 2=316,X 的所有可能取值为0,1,2.依题意,X ~B (2,316),P (X =k )=C k 2(316)k (1316)2-k,k =0,1,2, 则X 的分布列为X 的均值E (X )=2×16=8.精美句子1、善思则能“从无字句处读书”。
§11.2 统计图表、数据的数字特征、用样本估计总体会这样考 1.考查样本的频率分布(分布表、直方图、茎叶图)中的有关计算,样本特征数(众数、中位数、平均数、标准差)的计算.主要以选择题、填空题为主;2.考查以样本的分布估计总体的分布(以样本的频率估计总体的频率、以样本的特征数估计总体的特征数).1.统计数据(1)众数、中位数、平均数、极差、众数:在一组数据中,出现次数最多的数据叫作这组数据的众数.(可以没有或者多个). 中位数:将一组数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数).平均数:样本数据的算术平均数,即x =1n (x 1+x 2+…+x n ).(2)方差、标准差 方差()()()[]2222121x x x x x x nS n -++-+-=标准差S =1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2], 其中x n 是样本数据的第n 项,n 是样本容量,x 是平均数.标准差是反映总体波动大小的特征数,样本方差是标准差的平方.通常用样本方差估计总体方差,当样本容量接近总体容量时,样本方差很接近总体方差. 2.统计图表统计图表是表达和分析数据的重要工具,常用的统计图表有条形统计图、扇形统计图、折线统计图、茎叶图、频率分布直方图等.(1)当样本数据较少时,用茎叶图表示数据的效果较好,它不但可以保留所有信息,而且可以随时记录,给数据的记录和表示都带来方便. (2)在频率分布直方图中:①纵轴表示频率组距,②每小长方形的面积表示该组数据的频率或比例, ③各小长方形的面积之和等于1.3.用样本估计总体(1)通常我们对总体作出的估计一般分成两种,一种是用样本的频率分布估计总体的频率分布,另一种是用样本的数字特征估计总体的数字特征.(2)在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间.从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点,直至右边所加区间的中点,就可以得到一条折线,称之为频率折线图.4.利用频率分布直方图估计样本的数字特征(1)众数:最高那组的组中值.(2)平均数:每个小长方形的面积与每个组中值的乘积之和. (3)中位数:等分面积那条线的横坐标. [难点正本 疑点清源] 1.作频率分布直方图的步骤(1)求极差;(2)确定组距和组数;(3)将数据分组;(4)列频率分布表;(5)画频率分布直方图. 频率分布直方图能很容易地表示大量数据,非常直观地表明分布的形状.1.一个容量为20的样本,数据的分组及各组的频数如下:[10,20),2;[20,30),3;[30,40),x ;[40,50),5;[50,60),4;[60,70),2;则x =________;根据样本的频率分布估计,数据落在[10,50)的概率约为________. 答案 4 0.72.某中学为了解学生数学课程的学习情况,在3 000名学生中随机抽取200名,并统计这200名学生的某次数学考试成绩,得到了样本的频率分布直方图(如图).根据频率分布直方图推测,这3 000名学生在该次数学考试中成绩小于60分的学生数是____.答案 6003.如上图所示是某学校一名篮球运动员在五场比赛中所得分数的茎叶图,则该运动员在这五场比赛中得分的方差为________.(注:方差s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中x 为x 1,x 2,…,x n 的平均数)答案 6.84.某雷达测速区规定:凡车速大于或等于70 km/h 的汽车视为“超速”,并将受到处罚,如图是某路段的一个检测点对200辆汽车的车速进行检测所得结果的频率分布直方图,则从上图中可以看出被处罚的汽车大约有的辆数为________. 答案 40题型一 频率分布直方图的绘制与应用例1 (1)某校从参加高一年级期中考试的学生中随机抽出60名学生,将其物理成绩(均为整数)分成六段[40,50),[50,60),…,[90,100]后得到如图所示的频率分布直方图,观察图形的信息,回答下列问题:(1)求分数在[70,80)内的频率,并补全这个频率分布直方图; (2)据此估计本次考试中的平均分和中位数(保留整数).思维启迪:利用各小长方形的面积和等于1求分数在[70,80)内的频率,再补齐频率分布直方图. 解 (1)设分数在[70,80)内的频率为x ,根据频率分布直方图,有(0.010+0.015×2+0.025+0.005)×10+x =1,可得x =0.3,所以频率分布直方图如图所示.(2)平均分为x =45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71(分).中位数为73 探究提高 频率分布直方图直观形象地表示了样本的频率分布,从这个直方图上可以求出样本数据在各个组的频率分布.根据频率分布直方图估计样本(或者总体)的平均值时,一般是采取组中值乘以各组的频率的方法.(2)从某小学随机抽取l00名同学,将他们的身高(单位:厘米)数据绘制成频率分布图(如上图).若要从身高在[120,130),[130,140),[l40,150]三组内的学生中,用分层抽样的方法选取30人参加一项活动,则从身高在[120,130)的学生中选取的人数应为 .答案:15题型二 茎叶图的应用例2 (1)甲、乙两名同学在5次数学考试中,成绩统计用茎叶图表示如图所示,若甲、乙两人的平均成绩分别用x 甲、x 乙表示,则下列结论正确的是( )A 、x x <甲乙;乙比甲成绩稳定B 、x x >甲乙;乙比甲成绩稳定C 、x x <甲乙;甲比乙成绩稳定D 、x x >甲乙;甲比乙成绩稳定答案及解析:D(2)某学校从高二甲、乙两个班中各选6名同掌参加数学竞赛,他们取得的成绩(满分100分)的茎叶图如上图,其中甲班学生成绩的中位数数是81,乙班学生成绩的平均分为81,则成绩更稳定的班级为______.答案及解析:乙。
用样本估计总体教案教案标题:用样本估计总体教学目标:1. 理解样本和总体的概念,并能够解释样本估计总体的原理。
2. 掌握样本估计总体的方法和计算步骤。
3. 能够应用样本估计总体解决实际问题。
教学资源:1. 教材:包含有关样本估计总体的理论知识和实例的教材。
2. 计算器或电脑:用于进行样本估计总体的计算。
教学步骤:引入(5分钟):1. 向学生介绍样本和总体的概念,并解释它们在统计学中的重要性。
2. 引出样本估计总体的概念,解释为什么我们需要使用样本来估计总体参数。
讲解理论(15分钟):1. 解释样本估计总体的原理:样本是从总体中抽取出来的一部分数据,通过对样本数据进行分析和计算,可以推断出总体的特征。
2. 介绍样本估计总体的方法:a. 点估计:使用样本数据计算出一个具体的数值作为总体参数的估计值。
b. 区间估计:使用样本数据计算出一个区间,该区间内的数值作为总体参数的估计范围。
3. 解释如何选择合适的样本大小和抽样方法,以确保样本能够代表总体。
示例演练(20分钟):1. 给出一个实际问题,例如:某市场调查公司想要估计某产品在全国范围内的平均销售额。
请设计一个样本估计总体的方案,并计算出估计值和置信区间。
2. 引导学生根据问题的要求,选择合适的样本大小和抽样方法。
3. 指导学生使用样本数据计算出估计值和置信区间,并解释结果的意义。
讨论和总结(10分钟):1. 学生讨论他们设计的样本估计总体方案和计算结果。
2. 引导学生思考样本估计总体的优缺点,以及在实际应用中可能遇到的问题。
3. 总结样本估计总体的关键概念和方法。
作业(5分钟):布置作业,要求学生根据给定的问题,设计样本估计总体的方案,并计算出估计值和置信区间。
要求学生在作业中解释他们的思路和计算过程。
扩展活动:1. 提供更多的实际问题,让学生继续练习样本估计总体的设计和计算。
2. 鼓励学生使用统计软件或编程语言进行样本估计总体的计算,以提高计算效率和准确性。
10.2 用样本估计总体考纲传真1.了解分布的意义和作用,会列频率分布表、会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.5.会用样本估计总体的思想解决一些简单的实际问题.1.作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差).(2)决定组距与组数.(3)将数据分组.(4)列频率分布表.(5)画频率分布直方图.2.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.3.茎叶图统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数.4.标准差和方差(1)标准差是样本数据到平均数的一种平均距离. (2)标准差: s =1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]. (3)方差:s 2=1n 『(x 1-x )2+(x 2-x )2+…+(x n -x )2』(x n 是样本数据,n 是样本容量,x 是样本平均数).)图9-3-11.(人教A 版教材习题改编)若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是( )A .91.5和91.5B .91.5和92C .91和91.5D .92和92『解析』 这组数据由小到大排列为87,89,90,91,92,93,94,96. ∴中位数是91+922=91.5.平均数x =87+89+90+91+92+93+94+968=91.5.『答案』 A2.有一个容量为66的样本,数据的分组及各组的频数如下: 『11.5,15.5) 2 『15.5,19.5) 4 『19.5,23.5) 9 『23.5,27.5) 18 『27.5,31.5) 11 『31.5,35.5) 12 『35.5,39.5) 7 『39.5,43.5) 3根据样本的频率分布估计,数据落在『31.5,43.5)的概率约是( ) A.16 B.13C.12D.23『解析』 由已知,样本容量为66,而落在『31.5,43.5)内的样本数为12+7+3=22,故所求概率为2266=13.『答案』 B3.(2012·山东高考)在某次测量中得到的A 样本数据如下:82,84,84,86,86,86,88,88,88,88.若B 样本数据恰好是A 样本数据每个都加2后所得数据,则A ,B 两样本的下列数字特征对应相同的是( )A .众数B .平均数C .中位数D .标准差『解析』 对样本中每个数据都加上一个非零常数时不改变样本的方差和标准差,众数、中位数、平均数都发生改变.『答案』 D4.某雷达测速区规定:凡车速大于或等于70 km/h 的汽车视为“超速”,并将受到处罚,如图9-3-2是某路段的一个检测点对200辆汽车的车速进行检测所得结果的频率分布直方图,则从图中可以看出被处罚的汽车大约有( )图9-3-2A .30辆B .40辆C .60辆D .80辆『解析』 由题图可知,车速大于或等于70 km/h 的汽车的频率为0.02×10=0.2,则将被处罚的汽车大约有200×0.2=40(辆).『答案』 B图9-3-35.(2012·湖南高考)如图9-3-3所示是某学校一名篮球运动员在五场比赛中所得分数的茎叶图,则该运动员在这五场比赛中得分的方差为________.(注:方差s 2=1n 『(x 1-x )2+(x 2-x )2+…+(x n -x )2』,其中x 为x 1,x 2,…,x n 的平均数)『解析』 依题意知,运动员在5次比赛中的分数依次为8,9,10,13,15,其平均数为8+9+10+13+155=11.由方差公式得s 2=15『(8-11)2+(9-11)2+(10-11)2+(13-11)2+(15-11)2』=15(9+4+1+4+16)=6.8.『答案』 6.8频率分布直方图及其应用(2012·广东高考)某班100名学生期中考试语文成绩的频率分布直方图如图9-3-4所示,其中成绩分组区间是:『50,60),『60,70),『70,80),『80,90),『90,100』.图9-3-4(1)求图中a 的值;(2)根据频率分布直方图,估计这100名学生语文成绩的平均分;(3)若这100名学生语文成绩某些分数段的人数(x )与数学成绩相应分数段的人数(y )之比如下表所示,求数学成绩在『50,90)之外的人数.分数段 『50,60) 『60,70) 『70,80) 『80,90) x ∶y1∶12∶13∶44∶5『思路点拨』 (1)根据各小长方形的面积和为1,求a ;(2)借助频率分布直方图的中点估计平均分.(3)先求语文成绩在各段的人数,进而求数学成绩在『50,90)之外的人数.『尝试解答』 (1)由频率分布直方图知(0.04+0.03+0.02+2a )×10=1,因此a =0.005.(2)55×0.05+65×0.4+75×0.3+85×0.2+95×0.05=73.所以平均分为73分.(3)分别求出语文成绩分数段在『50,60),『60,70),『70,80),『80,90)的人数依次为0.05×100=5,0.4×100=40,0.3×100=30,0.2×100=20.所以数学成绩分数段在『50,60),『60,70),『70,80),『80,90)的人数依次为5,20,40,25.所以数学成绩在『50,90)之外的人数有100-(5+20+40+25)=10(人).,1.求解本题关键有两点:(1)利用各组中值估计平均分,(2)在第(3)问中,利用频率分布直方图求语文成绩在各段的人数.2.(1)明确频率分布直方图的意义,即图中的每一个小矩形的面积是数据落在该区间上的频率,所有小矩形的面积之和为 1.(2)对于统计图表类题目,最重要的是认真观察图表,从中提炼有用的信息和数据.某中学为了解学生数学课程的学习情况,在3 000名学生中随机抽取200名,并统计这200名学生的某次数学考试成绩,得到了样本的频率分布直方图(如图9-3-5).根据频率分布直方图推测,这3 000名学生在该次数学考试中成绩小于60分的学生数是________.图9-3-5『解析』由样本频率分布直方图知,数学考试中成绩小于60分的频率为(0.002+0.006+0.012)×10=0.2,∴估计总体中成绩小于60分的概率约为0.2,故所求成绩小于60分的学生数约为3 000×0.2=600人. 『答案』 600茎叶图的绘制及应用某班甲、乙两学生的高考备考成绩如下: 甲:512 554 528 549 536 556 534 541 522 538 乙:515 558 521 543 532 559 536 548 527 531 (1)用茎叶图表示两学生的成绩; (2)分别求两学生成绩的中位数和平均分.『思路点拨』 解答本题可以百位,十位数字为茎,个位数字为叶作茎叶图,再利用茎叶图求中位数及平均分.『尝试解答』 (1)两学生成绩的茎叶图如图所示:(2)将甲、乙两学生的成绩从小到大排列为: 甲:512 522 528 534 536 538 541 549 554 556 乙:515 521 527 531 532 536 543 548 558 559从以上排列可知甲学生成绩的中位数为536+5382=537.乙学生成绩的中位数为532+5362=534.甲学生成绩的平均数为500+12+22+28+34+36+38+41+49+54+5610=537,乙学生成绩的平均数为500+15+21+27+31+32+36+43+48+58+5910=537.,1.(1)作样本的茎叶图时先要根据数据特点确定茎、叶,再作茎叶图.(2)作样本的茎叶图一般对称作图,数据排列由内向外,从小到大排列,便于数据的处理. 2.由于茎叶图完全反映了所有的原始数据,解决由茎叶图给出的统计图表试题时,就要充分使用这个图表提供的数据进行相关的计算或者是对某些问题作出判断,这类试题往往伴随着对数据组的平均值或者是方差的计算等.图9-3-6(2012·陕西高考)从甲、乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图9-3-6所示).设甲、乙两组数据的平均数分别为x 甲、x 乙,中位数分别为m 甲、m 乙,则( )A .x 甲<x 乙,m 甲>m 乙B .x 甲<x 乙,m 甲<m 乙C .x 甲>x 乙,m 甲>m 乙D .x 甲>x 乙,m 甲<m 乙『解析』 由茎叶图知m 甲=22+182=20,m 乙=27+312=29.∴m 甲<m 乙.x 甲=116(41+43+30+30+38+22+25+27+10+10+14+18+18+5+6+8)=34516,x 乙=116(42+43+48+31+32+34+34+38+20+22+23+23+27+10+12+18)=45716.∴x 甲<x 乙. 『答案』 B数字特征的总体估计甲、乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图9-3-7.图9-3-7(1)分别求出两人得分的平均数与方差;(2)根据图和上面算得的结果,对两人的训练成绩作出评价. 『思路点拨』 (1)先通过图象统计出甲、乙二人的成绩; (2)利用公式求出平均数、方差,再分析两人的成绩,作出评价. 『尝试解答』 (1)由图象可得甲、乙两人五次测试的成绩分别为 甲:10分,13分,12分,14分,16分; 乙:13分,14分,12分,12分,14分. x 甲=10+13+12+14+165=13,x 乙=13+14+12+12+145=13,s 2甲=15『(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2』=4, s 2乙=15『(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2』=0.8. (2)由s 2甲>s 2乙可知乙的成绩较稳定. 从折线图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高.,1.平均数和方差都是重要的数字特征,是对总体一种简明的阐述,平均数反映了数据的中心,是平均水平,而方差和标准差反映的是数据的稳定程度.进行均值与方差的计算,关键是正确运用公式.2.平均数与方差所反映的情况有着重要的实际意义,一般可以通过比较甲、乙两组样本数据的平均数和方差的差异,对甲、乙两品种可以做出评价或选择.(2012·安徽高考)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图9-3-8所示,则( )图9-3-8A .甲的成绩的平均数小于乙的成绩的平均数B .甲的成绩的中位数等于乙的成绩的中位数C .甲的成绩的方差小于乙的成绩的方差D .甲的成绩的极差小于乙的成绩的极差 『解析』 由条形统计图知:甲射靶5次的成绩分别为:4,5,6,7,8; 乙射靶5次的成绩分别为:5,5,5,6,9,所以x 甲=4+5+6+7+85=6;x 乙=5+5+5+6+95=6.所以x 甲=x 乙.故A 不正确.甲的成绩的中位数为6,乙的成绩的中位数为5,故B 不正确. s 2甲=15『(4-6)2+(5-6)2+(6-6)2+(7-6)2+(8-6)2』=15×10=2, s 2乙=15『(5-6)2+(5-6)2+(5-6)2+(6-6)2+(9-6)2』=15×12=125,因为2<125,所以s 2甲<s 2乙. 故C 正确.甲的成绩的极差为:8-4=4,乙的成绩的极差为:9-5=4,故D 不正确.故选C.『答案』 C一种思想用样本估计总体是统计的基本思想.两点注意1.频率分布直方图与统计条形图不同.2.(1)众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量,与每个样本数据有关,这是中位数、众数所不具有的性质.(2)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度就越大.三个特征利用频率分布直方图估计样本的数字特征:(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数值.(2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和.(3)众数:最高的矩形的中点的横坐标.从近两年高考看,用样本估计总体能较好地考查学生的数学应用意识,是高考的热点之一,主要考查频率分布直方图、茎叶图、用样本的数字特征估计总体数字特征,并出现统计与概率相结合的命题趋向,应引起足够重视.规范解答之十六图表信息题的求解方法(12分)(2011·北京高考)以下茎叶图记录了甲、乙两组各四名同学的植树棵数,乙组记录中有一个数据模糊,无法确认,在图中以X表示.图9-3-9(1)如果X =8,求乙组同学植树棵数的平均数和方差;(2)如果X =9,分别从甲、乙两组中随机选取一名同学,求这两名同学的植树总棵数为19的概率.『规范解答』 (1)当X =8时,由茎叶图可知, 乙组同学植树棵数是8,8,9,10.2分 ∴平均数x =8+8+9+104=354;方差s 2=14『(8-354)2+(8-354)2+(9-354)2+(10-354)2』=1116.6分(2)记甲组四名同学为A 1,A 2,A 3,A 4,他们植树的棵数依次为9,9,11,11;乙组四名同学为B 1,B 2,B 3,B 4,他们植树的棵数依次为9,8,9,10.分别从甲、乙两组中随机选取一名同学,所有可能的结果有16个,它们是: (A 1,B 1),(A 1,B 2),(A 1,B 3),(A 1,B 4), (A 2,B 1),(A 2,B 2),(A 2,B 3),(A 2,B 4), (A 3,B 1),(A 3,B 2),(A 3,B 3),(A 3,B 4), (A 4,B 1),(A 4,B 2),(A 4,B 3),(A 4,B 4),10分记“选出的两名同学的植树总棵数为19”为事件C ,事件C 的结果有(A 1,B 4),(A 2,B 4),(A 3,B 2),(A 4,B 2)共4个基本事件.∴P (C )=416=14.12分『解题程序』 第一步:由茎叶图,确定乙组数据信息; 第二步:计算数字特征:平均数与方差;第三步:列举确定试验结果及事件C 的基本事件; 第四步:利用古典概型求事件概率;第五步:反思回顾,查看易错易误点,规范步骤.易错提示:(1)对统计图表数据信息提炼不准确,对方差的计算公式掌握不住或计算失误导致失分.(2)求不出“分别从甲、乙两组中随机选取一名同学”的所有情况导致概率求错而失分. 防范措施:(1)准确理解茎叶图,茎是指中间的一列数,叶就是从茎的旁边生长出来的数,并提炼数据信息.(2)理解题意,明确试验的含义,不重不漏列举所有基本事件,是正确计算古典概型的前提.1.(2012·广东高考)由正整数组成的一组数据x 1,x 2,x 3,x 4,其平均数和中位数都是2,且标准差等于1,则这组数据为________.(从小到大排列)『解析』 假设这组数据按从小到大的顺序排列为x 1,x 2,x 3,x 4, 则⎩⎨⎧x 1+x 2+x 3+x44=2,x 2+x 32=2,∴⎩⎪⎨⎪⎧x 1+x 4=4,x 2+x 3=4.又s =14[(x 1-2)2+(x 2-2)2+(x 3-2)2+(x 4-2)2] =12(x 1-2)2+(x 2-2)2+(4-x 2-2)2+(4-x 1-2)2 =122[(x 1-2)2+(x 2-2)2] =1,∴(x 1-2)2+(x 2-2)2=2. 同理可求得(x 3-2)2+(x 4-2)2=2.由x 1,x 2,x 3,x 4均为正整数,且(x 1,x 2),(x 3,x 4)均为圆(x -2)2+(y -2)2=2上的点,分析知x 1,x 2,x 3,x 4应为1,1,3,3.『答案』 1,1,3,32.(2013·潍坊模拟)某种产品的质量以其质量指标值衡量,质量指标值越大表明质量越好,且质量指标值大于或等于102的产品为优质品.现用两种新配方(分别称为A 配方和B 配方)做试验,各生产了100件这种产品,并测量了每件产品的质量指标值,得到下面试验结果:A 配方的频数分布表指标值分组 『90,94)『94,98)『98,102)『102,106)『106,110)频数82042228B 配方的频数分布表 指标值分组 『90,94)『94,98)『98,102)『102,106)『106,110)频数412423210(1)分别估计用A 配方,B 配方生产的产品的优质品率; (2)已知用B 配方生产的一件产品的利润y (单位:元) 与其质量指标值t 的关系式为y =⎩⎪⎨⎪⎧-2, t <94,2, 94≤t <102,4, t ≥102.估计用B 配方生产的一件产品的利润大于0的概率,并求用B 配方生产的上述100件产品平均一件的利润.『解』 (1)由试验结果知,用A 配方生产的产品中优质品的频率为22+8100=0.3,所以用A 配方生产的产品的优质品率的估计值为0.3.由试验结果知,用B 配方生产的产品中优质品的频率为32+10100=0.42.所以用B 配方生产的产品的优质品率的估计值为0.42.(2)由条件知,用B 配方生产的一件产品的利润大于0,当且仅当其质量指标值t ≥94,由试验结果知,质量指标值t ≥94的频率为0.96.所以用B 配方生产的一件产品的利润大于0的概率估计值为0.96. 用B 配方生产的产品平均一件的利润为 1100×『4×(-2)+54×2+42×4』=2.68(元).。
第十章统计(文)知识结构高考能力要求1.了解随机抽样,了解分层抽样的意义.2.会用样本频率分布估计总体的概率分布.3.会用样本平均数估计总体期望,会用样本的方差、标准差估计总体方差、标准差.高考热点分析作为选修Ⅰ(文科)的“统计”这一章,是初中数学中的“统计初步”的深化和拓展.要求主要会用随机抽样,分层抽样的方法从总体中抽取样本,并用样本频率分布估计总体分布.本章高考题以基本题(中、低档题)为主,每年只出一道填空题,常以实际问题为背景,综合考查学生应用基础知识解决实际问题的能力.高考的热点是总体分布的估计和抽样方法.知识的交汇点是排列、组合、概率与统计的解答题.高考复习建议1.巩固加强前后知识的联系本章内容与初中的“统计初步”,高二(下)的“排列、组合和概率”的联系非常密切.学习本章之前,应注意联系初中“统计初步”的内容展开复习.2.突出基本内容及思想方法“统计”是《新大纲》中增加的新内容,在中学里只能介绍这门学科的最基本内容,并通过这些内容介绍这门学科的基本思想方法.教科书还选择了数理统计中的有关抽样方法、总体分布的估计等最基本的数理统计问题来展开内容,介绍其中相关的统计思想与方法.3.注意理论联系实际,培养学生用数学的意识联系实际是本章的一个显著特点.抽样调查问题是应用极其广泛的一类实际问题.使学生能以数学的眼光来观察所处的客观世界,逐渐养成借助数学的思想、观点、方法来思考研究问题、解决问题,培养学生用数学的意识.4.力求深入浅出,不要过分追求理论的严谨性,注意把握教学要求本章的教学内容虽只限于概率论与数理统计的最基本概念,但仍涉及许多学生所不具备的基础知识,限于教学时间以及学生的认知水平,许多要领只能给出直观的描述.在教学中要注意防止随意扩大教学范围,提高教学要求.10.6 抽样方法与总体分布估计知识要点1.总体、样本、样本容量我们要考察的对象的全体叫做_______,其中每个考察的对象叫_______.从总体中抽出的一部分个体叫做_______,样本中个体的数目叫做_______.2.简单随机抽样设一个总体由N个个体组成,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时,各个个体被抽到的_______相等,就称这样的抽样为_______.3.分层抽样当已知总体由_______的几部分组成时,为了使样本更能充分地反映总体的情况,常将总体分成几个部分,然后按照各部分所占的_______进行抽样,这种抽样叫做_______.其中所分成的各个部分叫做_______.4.总体分布和样本频率分布总体取值的_______分布规律称为总体分布.样本频率分布_______称为样本频率分布.5.总体分布估计总体分布估计主要指两类.一类是用样本的频率分布去估计总体(的概率)分布.二类是用样本的某些数字特征(例如平均数、方差、标准差等)去估计总体的相应数字特征.6.频率分布条形图和直方图两者都是用来表示总体分布估计的.其横轴都是表示总体中的个体.但纵轴的含义却截然不同.前者纵轴(矩形的高)表示频率;后者纵轴表示频率与组距的比,其相应组距上的频率等于该组距上的矩形的面积.7.总体期望值指总体平均数.例题讲练【例1】某公司在甲、乙、丙、丁四个地区分别有150个,120个,180个,150个销售点,公司为了调查产品销售的情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区中有20个特大型销售点,要从中抽取7个调查其销售收入和售后服务等情况,记这项调查为②;则完成①②这两项调查采用的抽样方法依次是()A.分层抽样,系统抽样B.分层抽样,简单随机抽样法C.系统抽样,分层抽样D.简单随机抽样法,分层抽样法【例2】一批产品有一级品100个,二级品60个,三级品40个,分别采用系统抽样和分层抽样,从这批产品中抽取一个容量为20的样本。
第2讲 用样本估计总体一、知识梳理 1.统计图表(1)频率分布直方图的画法步骤①求极差(即一组数据中最大值与最小值的差); ②决定组距与组数; ③将数据分组; ④列频率分布表; ⑤画频率分布直方图. (2)频率分布折线图①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.(3)茎叶图的画法步骤第一步:将每个数据分为茎(高位)和叶(低位)两部分; 第二步:将最小茎与最大茎之间的数按大小次序排成一列; 第三步:将各个数据的叶依次写在其茎的两侧. 2.样本的数字特征(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.(2)中位数:把n 个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(3)平均数:把a 1+a 2+…+a nn称为a 1,a 2,…,a n 这n 个数的平均数.(4)标准差与方差:设一组数据x 1,x 2,x 3,…,x n 的平均数为x ,则这组数据的标准差和方差分别是s =1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]s 2=1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]常用结论1.频率分布直方图的特点(1)频率分布直方图中相邻两横坐标之差表示组距,纵坐标表示频率组距,频率=组距×频率组距. (2)在频率分布直方图中,各小长方形的面积总和等于1,因为在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比.(3)频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观.2.平均数、方差的公式推广(1)若数据x 1,x 2,…,x n 的平均数为x ,那么mx 1+a ,mx 2+a ,mx 3+a ,…,mx n +a 的平均数是m x +a .(2)数据x 1,x 2,…,x n 的方差为s 2.①数据x 1+a ,x 2+a ,…,x n +a 的方差也为s 2; ②数据ax 1,ax 2,…,ax n 的方差为a 2s 2. 二、教材衍化1.一个容量为32的样本,已知某组样本的频率为0.25,则该组样本的频数为( ) A .4 B .8 C .12D .16解析:选B.设频数为n ,则n32=0.25,所以n =32×14=8. 2.若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是( )A .91.5和91.5B .91.5和92C .91和91.5D .92和92解析:选A.因为这组数据由小到大排列为87,89,90,91,92,93,94,96,所以中位数是91+922=91.5,平均数x =87+89+90+91+92+93+94+968=91.5.3.如图是100位居民月均用水量的频率分布直方图,则月均用水量为[2,2.5)范围内的居民数有________人.解析:由频率分布直方图可知,月均用水量为[2,2.5)范围内的居民所占频率为0.5×0.5=0.25,所以月均用水量为[2,2.5)范围内的居民数为100×0.25=25.答案:254.甲、乙两台机床同时生产一种零件,10天中,两台机床每天出的次品数分别是: 甲 0 1 0 2 2 0 3 1 2 4 乙 2 3 1 1 0 2 1 1 0 1 则机床性能较好的为________.解析:因为x 甲=1.5,x 乙=1.2,s 2甲=1.65,s 2乙=0.76,所以s 2乙<s 2甲,所以乙机床性能较好.答案:乙 一、思考辨析判断正误(正确的打“√”,错误的打“×”)(1)一组数据的方差越大,说明这组数据的波动越大.( )(2)在频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间内的频率越大.( )(3)茎叶图中的数据要按从小到大的顺序写,相同的数据可以只记一次.( ) (4)频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观.( )(5)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数的估计值.( ) 答案:(1)√ (2)√ (3)× (4)√ (5)√ 二、易错纠偏 常见误区|K(1)平均数与方差的性质理解出错;(2)中位数、众数、平均数的求法不清导致出错.1.若数据x 1,x 2,x 3,…,x n 的平均数x =5,方差s 2=2,则数据3x 1+1,3x 2+1,3x 3+1,…,3x n +1的平均数和方差分别为( )A .5,2B .16,2C .16,18D .16,9解析:选C.因为x 1,x 2,x 3,…,x n 的平均数为5,所以x 1+x 2+x 3+…+x nn=5,所以3x 1+3x 2+3x 3+…+3x nn+1=3×5+1=16,因为x 1,x 2,x 3,…,x n 的方差为2,所以3x 1+1,3x 2+1,3x 3+1,…,3x n +1的方差是32×2=18.故选C.2.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分的中位数为m ,众数为n ,平均数为x ,则m ,n ,x 的大小关系为________.(用“<”连接)解析:由题图可知,30名学生得分的中位数为第15个数和第16个数(分别为5,6)的平均数,即m =5.5;又5出现次数最多,故n =5;x =130(2×3+3×4+10×5+6×6+3×7+2×8+2×9+2×10)≈5.97.故n <m <x . 答案:n <m <x茎叶图(自主练透)1.如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为( )A .3,5B .5,5C .3,7D .5,7解析:选A.根据两组数据的中位数相等可得65=60+y ,解得y =5,又它们的平均值相等,所以56+62+65+74+(70+x )5=59+61+67+(60+y )+785,解得x =3.故选A.2.(2020·陕西渭南模拟)已知甲,乙两名篮球运动员进行罚球训练,每人练习10组,每组罚球40个,每组投中个数的茎叶图如图所示,则下列结论错误的是( )A .甲投中个数的极差是29B .乙投中个数的众数是21C .甲的投中率比乙高D .甲投中个数的中位数是25解析:选D.由茎叶图可知甲投中个数的极差为37-8=29,故A 正确;易知乙投中个数的众数是21,故B 正确;甲的投中率为8+12+13+20+22+24+25+26+27+3740×10=0.535,乙的投中率为9+11+13+14+18+19+20+21+21+2340×10=0.422 5,所以甲的投中率比乙高,C 正确;甲投中个数的中位数为22+242=23,D 不正确,故选D.3.某学生在一门功课的22次考试中,所得分数的茎叶图如图所示,则此学生该门功课考试分数的极差与中位数之和为( )A .117B .118C .118.5D .119.5解析:选B.22次考试中,所得分数最高的为98,最低的为56,所以极差为98-56=42,将分数从小到大排列,中间两数为76,76,所以中位数为76, 所以此学生该门功课考试分数的极差与中位数之和为42+76=118.茎叶图中的三个关注点(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一. (2)重复出现的数据要重复记录,不能遗漏.(3)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.频率分布直方图(多维探究) 角度一 求样本的频率、频数(2020·湖南五市十校联考)在某次赛车中,50名参赛选手的成绩(单位:min)全部介于13到18之间(包括13和18),将比赛成绩分为五组:第一组[13,14),第二组[14,15),…,第五组[17,18].其频率分布直方图如图所示,若成绩在[13,15)内的选手可获奖,则这50名选手中获奖的人数为( )A .39B .35C .15D .11【解析】 由频率分布直方图知成绩在[15,18]内的频率为(0.38+0.32+0.08)×1=0.78.所以成绩在[13,15)内的频率为1-0.78=0.22.则成绩在[13,15)内的选手有50×0.22=11(人),即这50名选手中获奖的人数为11,故选D.【答案】 D角度二 求样本的数字特征(2019·高考全国卷Ⅲ改编)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A ,B 两组,每组100只,其中A 组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).【解】(1)由已知得0.70=a+0.20+0.15,故a=0.35.b=1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.角度三与概率结合的问题(2020·安徽芜湖一模)某社区为了解该社区退休老人每天的平均户外活动时间,从该社区退休老人中随机抽取了100位老人进行调查,获得了每人每天的平均户外活动时间(单位:时),活动时间按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成样本的频率分布直方图如图所示.(1)求图中a的值;(2)估计该社区退休老人每人每天的平均户外活动时间的中位数;(3)在[1,1.5),[1.5,2)这两组中采用分层抽样的方法抽取7人,再从这7人中随机抽取2人,求抽取的2人恰好在同一个组的概率.【解】(1)由频率分布直方图,可知平均户外活动时间在[0,0.5)内的频率为0.08×0.5=0.04.同理,平均户外活动时间在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5)内的频率分别为0.08,0.20,0.25,0.07,0.04,0.02,由1-(0.04+0.08+0.20+0.25+0.07+0.04+0.02)=0.5a+0.5a,解得a=0.30.(2)设中位数为m时.因为前5组的频率之和为0.04+0.08+0.15+0.20+0.25=0.72>0.5,而前4组的频率之和为0.04+0.08+0.15+0.20=0.47<0.5,所以2≤m <2.5. 所以0.50×(m -2)=0.5-0.47,解得m =2.06.故可估计该社区退休老人每人每天的平均户外活动时间的中位数为2.06时. (3)由题意得平均户外活动时间在[1,1.5),[1.5,2)内的人数分别为15,20. 按分层抽样的方法在[1,1.5),[1.5,2)内分别抽取3人,4人,从7人中随机抽取2人,共有C 27=21种方法,抽取的两人恰好都在同一个组有C 24+C 23=9种方法,故抽取的2人恰好在同一个组的概率P =921=37.频率、频数、样本容量的计算方法频数样本容量=频率,频数频率=样本容量,样本容量×频率=频数.[提醒] 制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确.1.在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩进行整理后分为5组,绘制如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、第四、第五小组,已知第二小组的频数是40,则成绩在80~100分的学生人数是( )A .15B .18C .20D .25解析:选A.根据频率分布直方图,得第二小组的频率是0.04×10=0.4,因为频数是40,所以样本容量是400.4=100,又成绩在80~100分的频率是(0.01+0.005)×10=0.15,所以成绩在80~100分的学生人数是100×0.15=15.故选A.2.(2020·安徽淮南二模)某乡镇为了打赢脱贫攻坚战,决定盘活贫困村的各项经济发展要素,实施了产业、创业、就业“三业并举”工程.在实施过程中,引导某贫困村农户因地制宜开展种植某经济作物.该类经济作物的质量以其质量指标值来衡量,质量指标值越大表明质量越好,记其质量指标值为k ,其质量指标的等级划分如表:质量指标值k产品等级 k ≥90优秀 80≤k <90 良好 75≤k <80合格k <75 不合格为了解该类经济作物在当地的种植效益,当地引种了甲、乙两个品种.并随机抽取了甲、乙两个不同品种的各10 000件产品,测量了每件产品的质量指标值,得到下面产品质量指标值频率分布直方图(图甲和图乙).(1)若将频率视为概率,从乙品种产品中有放回地随机抽取3件,记“抽出乙品种产品中至少有1件优等品(质量指标值k ≥80为优等品)”为事件A ,求事件A 发生的概率P (A );(结果保留小数点后3位)(2)若甲、乙两个品种的销售利润率y 与质量指标值k 满足下表:质量指标值k k ≥9080≤k <90 75≤k <80 k <75销售利润率y3t5t 2t 2-t其中16<t <14.试分析,从长期来看,种植甲、乙哪个品种的平均利润率较大?解:(1)设“从乙品种产品中抽取1件为优等品”的概率为P ,则根据频率分布直方图可得P =(0.03+0.08+0.04+0.02)×5=0.85,则P (A )=1-C 33(1-P )3=1-0.153≈0.997.(2)由频率分布直方图可得,甲品种产品的利润率的分布列为y 3t 5t 2t 2P0.20.70.1Ey 甲=0.2×3t +0.7×5t 2+0.1×t 2=3.6t 2+0.6t ;乙品种产品的利润率的分布列为y 3t 5t 2t 2-t P0.30.550.10.05Ey 乙=0.3×3t +0.55×5t 2+0.1×t 2+0.05×(-t )=2.85t 2+0.85t .Ey 甲-E (y )乙=3.6t 2+0.6t -(2.85t 2+0.85t )=0.75t 2-0.25t =0.25t (3t -1),由于16<t <14,所以Ey 甲-Ey 乙<0,即Ey 甲<Ey 乙.故种植乙品种的平均利润率较大.样本数字特征的求解与应用(师生共研)抽样统计甲、乙两位射击运动员的5次训练成绩(单位:环),结果如下:运动员 第1次 第2次 第3次 第4次 第5次 甲8791908993乙 89 90 91 88 92(1)成绩较为稳定(方差较小)的那位运动员成绩的方差为________. (2)甲、乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图: ①分别求出两人得分的平均数与方差;②根据图和上面算得的结果,对两人的训练成绩作出评价. 【解】 (1)x 甲=15(87+91+90+89+93)=90,x 乙=15(89+90+91+88+92)=90,s 2甲=15[(87-90)2+(91-90)2+(90-90)2+(89-90)2+(93-90)2]=4,s 2乙=15[(89-90)2+(90-90)2+(91-90)2+(88-90)2+(92-90)2]=2.故填2.(2)①由题图可得甲、乙两人五次测试的成绩分别为 甲:10分,13分,12分,14分,16分; 乙:13分,14分,12分,12分,14分.x 甲=10+13+12+14+165=13;x 乙=13+14+12+12+145=13,s 2甲=15[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2]=4;s 2乙=15[(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2]=0.8.②由s 2甲>s 2乙,可知乙的成绩较稳定.从折线图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高.(1)众数、中位数、平均数及方差的意义①平均数与方差都是重要的数字特征,是对总体的一种简明地描述; ②平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小. (2)在计算平均数、方差时可利用平均数、方差的有关结论.1.甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )A .甲的成绩的平均数小于乙的成绩的平均数B .甲的成绩的中位数等于乙的成绩的中位数C .甲的成绩的方差小于乙的成绩的方差D .甲的成绩的极差小于乙的成绩的极差 解析:选C. x 甲=15(4+5+6+7+8)=6,x 乙=15(5×3+6+9)=6,甲的成绩的方差为15(22×2+12×2)=2,乙的成绩的方差为15(12×3+32×1)=2.4.甲的成绩的中位数为6,乙的成绩的中位数为5, 甲的成绩的极差为4,乙的成绩的极差为4,故选C.2.(2020·贵阳市监测考试)在某校科普知识竞赛前的模拟测试中,得到甲、乙两名学生的6次模拟测试成绩(百分制)的茎叶图(如图).若从甲、乙两名学生中选择一人参加该知识竞赛,你会选哪位?请运用统计学的知识说明理由.解:学生甲的平均成绩x 甲=68+76+79+86+88+956=82,学生乙的平均成绩x 乙=71+75+82+84+86+946=82,又s 2甲=16×[(68-82)2+(76-82)2+(79-82)2+(86-82)2+(88-82)2+(95-82)2]=77,s 2乙=16×[(71-82)2+(75-82)2+(82-82)2+(84-82)2+(86-82)2+(94-82)2]=1673,则x 甲=x 乙,s 2甲>s 2乙,说明甲、乙的平均水平一样,但乙的方差小,即乙发挥更稳定,故可选择学生乙参加知识竞赛.[基础题组练]1.(2019·高考全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分,7个有效评分与9个原始评分相比,不变的数字特征是( )A .中位数B .平均数C .方差D .极差解析:选A.记9个原始评分分别为a ,b ,c ,d ,e ,f ,g ,h ,i (按从小到大的顺序排列),易知e 为7个有效评分与9个原始评分的中位数,故不变的数字特征是中位数,故选A.2.(2020·陕西商洛质检)在一次53.5千米的自行车个人赛中,25名参赛选手成绩(单位:分钟)的茎叶图如图所示,现将参赛选手按成绩由好到差编为1~25号,再用系统抽样的方法从中选取5人,已知选手甲的成绩性为85分钟,若甲被选取,则被选取的其余4名选手的成绩的平均数为( )A .95B .96C .97D .98解析:选C.由系统抽样法及已知条件可知被选中的其他4人的成绩分别是88,94,99,107,故平均数为88+94+99+1074=97,故选C. 3.(2020·广东珠海摸底)某班级在一次数学竞赛中设置了一等奖、二等奖、三等奖以及参与奖,各个奖品的单价分别为一等奖20元,二等奖10元,三等奖5元,参与奖2元,获奖人数的分配情况如图所示,则以下说法不正确的是( )A .获得参与奖的人数最多B .各个奖项中三等奖的总费用最高C .购买奖品的平均费用为9.25元D .购买奖品的费用的中位数为2元解析:选C.设全班人数为a .由扇形统计图可知.一等奖占5%,二等奖占10%,三等奖占30%,参与奖占55%,获得参与奖的人数最多,故A 正确;一等奖的总费用为5%a ×20=a .二等奖的总费用为10%a ×10=a ,三等奖的总费用为30%a ×5=32a ,参与奖的总费用为55%a×2=1110a ,所以各个奖项中三等奖的总费用最高,故B 正确;购买奖品的平均费用为5%×20+10%×10+30%×5+55%×2=4.6(元),故C 错误;参与奖占55%,所以购买奖品的费用的中位数为2元,故D 正确.故选C.4.(2020·安徽六安毛坦厂中学月考)某位教师2017年的家庭总收入为80 000元,各种用途占比统计如下面的折线图.2018年收入的各种用途占比统计如下面的条形图,已知2018年的就医费用比2017年增加了4 750元,则该教师2018年的家庭总收入为( )A.100 000元B.95 000元C.90 000元D.85 000元解析:选D.由已知得,2017年的就医费用为80 000×10%=8 000(元).故2018年的就医费用为8 000+4 750=12 750(元),所以该教师2018年的家庭总收入为12 75015%=85000(元).故选D.5.甲、乙两名同学6次考试的成绩统计如图所示,甲、乙两组数据的平均数分别为x 甲,x乙,标准差分别为σ甲,σ乙,则( )A.x甲<x乙,σ甲<σ乙B.x甲<x乙,σ甲>σ乙C.x甲>x乙,σ甲<σ乙D.x甲>x乙,σ甲>σ乙解析:选C.由题图可知,甲同学除第二次考试成绩略低于乙同学外,其他考试成绩都远高于乙同学,可知x甲>x乙,题图中数据显示甲同学的成绩比乙同学稳定,故σ甲<σ乙.6.某中学奥数培训班共有14人,分为两个小组,在一次阶段测试中两个小组成绩的茎叶图如图所示,其中甲组学生成绩的平均数是88,乙组学生成绩的中位数是89,则n-m 的值是________.解析:由甲组学生成绩的平均数是88,可得70+80×3+90×3+(8+4+6+8+2+m+5)7=88,解得m=3.由乙组学生成绩的中位数是89,可得n=9,所以n-m=6.答案:67.已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为________、________.解析:由题图甲可知学生总人数是10 000,样本容量为10 000×2%=200,抽取的高中生人数是2 000×2%=40,由题图乙可知高中生的近视率为50%,所以抽取的高中生的近视人数为40×50%=20.答案:200 208.为了了解某校高三美术生的身体状况,抽查了部分美术生的体重,将所得数据整理后,作出了如图所示的频率分布直方图.已知图中从左到右的前3个小组的频率之比为1∶3∶5,第2个小组的频数为15,则被抽查的美术生的人数是________.解析:设被抽查的美术生的人数为n ,因为后2个小组的频率之和为(0.037 5+0.0125)×5=0.25,所以前3个小组的频率之和为0.75.又前3个小组的频率之比为1∶3∶5,第2个小组的频数为15,所以前3个小组的频数分别为5,15,25,所以n =5+15+250.75=60. 答案:609.我国是世界上严重缺水的国家,城市缺水问题较为突出.某市政府为了鼓励居民节约用水,计划在本市试行居民生活用水定额管理,即确定一个合理的居民月用水量标准x (吨),月用水量不超过x 的部分按平价收费,超出x 的部分按议价收费.为了了解全市居民用水量的分布情况,通过抽样,获得了100位居民某年的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求频率分布直方图中a 的值;(2)已知该市有80万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;(3)若该市政府希望使85%的居民每月的用水量不超过标准x (吨),估计x 的值,并说明理由.解:(1)由频率分布直方图,可得(0.08+0.16+a +0.40+0.52+a +0.12+0.08+0.04)×0.5=1,解得a =0.30.(2)由频率分布直方图知,100位居民每人月均用水量不低于3吨的频率为(0.12+0.08+0.04)×0.5=0.12.由以上样本频率分布,可以估计全市80万居民中月均用水量不低于3吨的人数为800 000×0.12=96 000.(3)因为前6组的频率之和为(0.08+0.16+0.30+0.40+0.52+0.30)×0.5=0.88>0.85,前5组的频率之和为(0.08+0.16+0.30+0.40+0.52)×0.5=0.73<0.85,所以2.5≤x <3.由0.3×(x -2.5)=0.85-0.73,解得x =2.9.因此,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.10.有A ,B ,C ,D ,E 五位工人参加技能竞赛培训.现分别从A ,B 二人在培训期间参加的若干次预赛成绩中随机抽取8次.用茎叶图表示这两组数据:(1)A ,B 二人预赛成绩的中位数分别是多少?(2)现要从A ,B 中选派一人参加技能竞赛,从平均状况和方差的角度考虑,你认为派哪位工人参加合适?请说明理由;(3)若从参加培训的5位工人中选2人参加技能竞赛,求A ,B 二人中至少有一人参加技能竞赛的概率.解:(1)A 的中位数是83+852=84,B 的中位数是84+822=83. (2)派B 参加比较合适.理由如下: x B =18(78+79+81+82+84+88+93+95)=85, x A =18(75+80+80+83+85+90+92+95)=85,s 2B =18[(78-85)2+(79-85)2+(81-85)2+(82-85)2+(84-85)2+(88-85)2+(93-85)2+(95-85)2]=35.5,s 2A =18[(75-85)2+(80-85)2+(80-85)2+(83-85)2+(85-85)2+(90-85)2+(92-85)2+(95-85)2]=41,因为x A =x B ,但s 2B <s 2A ,说明B 稳定,派B 参加比较合适.(3)5位工人中选2人有10种:(A ,B ),(A ,C ),(A ,D ),(A ,E ),(B ,C ),(B ,D ),(B ,E ),(C ,D ),(C ,E ),(D ,E );A ,B 都不参加的有3种:(C ,D ),(C ,E ),(D ,E ), A ,B 二人中至少有一人参加技能竞赛的概率P =1-310=710.[综合题组练]1.PM2.5是指大气中直径小于或等于2.5微米的颗粒物,也称为可入肺颗粒物.如图是根据环保部门某日早6点至晚9点在A 县、B 县两个地区附近的PM2.5监测点统计的数据(单位:毫克/立方米)列出的茎叶图,A 县、B 县两个地区浓度的方差较小的是( )A .A 县B .B 县C .A 县、B 县两个地区相等D .无法确定解析:选A.根据茎叶图中的数据可知,A 县的数据都集中在0.05和0.08之间,数据分布比较稳定,而B 县的数据分布比较分散,不如A 县数据集中,所以A 县的方差较小.2.某人5次上班途中所花的时间(单位:分钟)分别为x ,y ,10,11,9.已知这组数据的平均数为10,方差为2,则|x -y |的值为( )A .1B .2C .3D .4解析:选D.由题意知这组数据的平均数为10,方差为2,可得:x +y =20,(x -10)2+(y -10)2=8, 设x =10+t ,y =10-t ,由(x -10)2+(y -10)2=8,得t 2=4,所以|x -y |=2|t |=4.3.设样本数据x 1,x 2,…,x 2 017的方差是4,若y i =2x i -1(i =1,2,…,2 017),则y 1,y 2,…,y 2 017的方差为________.解析:设样本数据的平均数为x ,则y i =2x i -1的平均数为2x -1,则y 1,y 2,…,y 2 017的方差为12 017[(2x 1-1-2x +1)2+(2x 2-1-2x +1)2+…+(2x 2 017-1-2x +1)2]=4×12 017[(x 1-x )2+(x 2-x )2+…+(x 2 017-x )2]=4×4=16. 答案:164.我市某高中从高三年级甲、乙两个班中各选出7名学生参加2018年全国高中数学联赛(河南初赛),他们取得的成绩(满分140分)的茎叶图如图所示,其中甲班学生成绩的中位数是81,乙班学生成绩的平均数是86,若正实数a ,b 满足a ,G ,b 成等差数列且x ,G ,y成等比数列,则1a +4b的最小值为________. 解析:由甲班学生成绩的中位数是81,可知81为甲班7名学生的成绩按从小到大的顺序排列的第4个数,故x =1.由乙班学生成绩的平均数为86,可得(-10)+(-6)+(-4)+(y -6)+5+7+10=0,解得y =4.由x ,G ,y 成等比数列,可得G 2=xy =4,由正实数a ,b 满足a ,G ,b 成等差数列,可得G =2,a +b =2G =4,所以1a +4b =(1a +4b )×(a 4+b 4)=14(1+b a +4a b +4)≥14×(5+4)=94(当且仅当b =2a 时取等号).故1a +4b 的最小值为94. 答案:945.(2020·东北三省三校二模)一个经销鲜花产品的微店,为保障售出的百合花品质,每天从某省鲜花基地空运固定数量的百合花,如有剩余则免费分赠给第二天购花顾客,如果不足,则从本地鲜花供应商处进货.今年四月前10天,微店百合花的售价为每支2元,某省空运来的百合花每支进价1.6元,本地供应商处的百合花每支进价1.8元,微店这10天的订单中百合花的日需求量(单位:支)依次为:251,255,231,243,263,241,265,255,244,252.(1)求今年四月前10天订单中百合花日需求量的平均数和众数,并完成频率分布直方图;(2)预计四月的后20天,订单中百合花日需求量的频率分布与四月前10天相同,百合花进货价格与售价均不变,请根据(1)中频率分布直方图判断(同一组中的需求量数据用该组区间的中点值作代表,位于各区间的频率代替位于该区间的概率),微店每天从某省固定空运250支,还是255支百合花,四月后20天百合花销售总利润会更大?解:(1)四月前10天订单中百合需求量众数为255,平均数x=110×(231+241+243+244+251+252+255+255+263+265)=250.频率分布直方图如图:(2)设订单中百合花的日需求量为a(支),由(1)中频率分布直方图知,a可能取值为235,245,255,265,相应频率分别为0.1,0.3,0.4,0.2.所以20天中a=235,245,255,265相应的天数为2天,6天,8天,4天.①若空运250支,a=235,当日利润为235×2-250×1.6=70(元),a=245,当日利润为245×2-250×1.6=90(元),a=255,当日利润为255×2-250×1.6-5×1.8=101(元),a=265,当日利润为265×2-250×1.6-15×1.8=103(元),20天总利润为70×2+90×6+101×8+103×4=1 900(元).②若空运255支,a=235,当日利润为235×2-255×1.6=62(元),a=245,当日利润为245×2-255×1.6=82(元),a=255,当日利润为255×2-255×1.6=102(元),a=265,当日利润为265×2-255×1.6-10×1.8=104(元),20天总利润为62×2+82×6+102×8+104×4=1 848(元).因为1 900>1 848,所以每天空运250支百合花,四月后20天总利润更大.6.某高三毕业班甲、乙两名同学在连续的8次数学周练中,统计解答题失分的茎叶图如图:(1)比较这两名同学8次周练解答题失分的平均数和方差的大小,并判断哪位同学做解答题相对稳定些;(2)以上述数据统计甲、乙两名同学失分超过15分的频率作为概率,假设甲、乙两名同学在同一次周练中失分多少互不影响,预测在接下来的2次周练中,甲、乙两名同学失分均超过15分的次数X 的分布列和均值.解:(1) x 甲 =18(7+9+11+13+13+16+23+28)=15,x 乙=18(7+8+10+15+17+19+21+23)=15,s 2甲=18[(-8)2+(-6)2+(-4)2+(-2)2+(-2)2+12+82+132]=44.75, s 2乙=18[(-8)2+(-7)2+(-5)2+02+22+42+62+82]=32.25.甲、乙两名同学解答题失分的平均数相等;甲同学解答题失分的方差比乙同学解答题失分的方差大.所以乙同学做解答题相对稳定些.(2)根据统计结果,在一次周练中,甲和乙失分超过15分的概率分别为P 1=38,P 2=12, 两人失分均超过15分的概率为P 1P 2=316, X 的所有可能取值为0,1,2.依题意,X ~B ⎝ ⎛⎭⎪⎫2,316, P (X =k )=C k 2⎝ ⎛⎭⎪⎫316k ⎝ ⎛⎭⎪⎫13162-k ,k =0,1,2,则X 的分布列为X 的均值EX =2×16=8.。
§11.2随机抽样、用样本估计总体(1)简单随机抽样:一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)系统抽样:当总体中的个体数目较多时,可将总体分成均衡的几个部分,然后按照事先定出的规则,从每一部分抽取一个个体得到所需要的样本,这种抽样方法叫做系统抽样.(3)分层抽样:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.2.用样本的频率分布估计总体分布(1)在频率分布直方图中,纵轴表示频率/组距,数据落在各小组内的频率用各小长方形的面积表示.各小长方形的面积总和等于1.(2)频率分布折线图和总体密度曲线①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线.(3)茎叶图茎是指中间的一列数,叶是从茎的旁边生长出来的数.3.用样本的数字特征估计总体的数字特征 (1)众数:一组数据中出现次数最多的数.(2)中位数:将数据从小到大排列,若有奇数个数,则最中间的数是中位数;若有偶数个数,则中间两数的平均数是中位数. (3)平均数:x =x 1+x 2+…+x nn,反映了一组数据的平均水平.(4)标准差:是样本数据到平均数的一种平均距离,s =1n[x 1-x2+x 2-x2+…+x n -x2].(5)方差:s 2=1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2](x n 是样本数据,n 是样本容量,x是样本平均数). 概念方法微思考1.三种抽样方法有什么共同点和联系?提示 (1)抽样过程中每个个体被抽取的机会均等.(2)系统抽样中在起始部分抽样时采用简单随机抽样;分层抽样中各层抽样时采用简单随机抽样或系统抽样.2.平均数、标准差与方差反映了数据的哪些特征?提示 平均数反映了数据取值的平均水平,标准差、方差反映了数据对平均数的波动情况,即标准差、方差越大,数据的离散程度越大,越不稳定;反之离散程度越小,越稳定. 题组一 思考辨析1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)简单随机抽样每个个体被抽到的机会不一样,与先后有关.( × ) (2)系统抽样在第1段抽样时采用简单随机抽样.( √ )(3)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论.( × ) (4)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( √ ) 题组二 教材改编2.某公司有员工500人,其中不到35岁的有125人,35~49岁的有280人,50岁以上的有95人,为了调查员工的身体健康状况,从中抽取100名员工,则应在这三个年龄段分别抽取人数为( ) A .33,34,33 B .25,56,19 C .20,40,30 D .30,50,20答案 B解析 设在不到35岁的员工抽取x 人,则100500=x125,所以x =25,同理可得这三个年龄段抽取人数分别为25,56,19.3.若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是( ) A .91.5和91.5 B .91.5和92 C .91和91.5 D .92和92答案 A解析 ∵这组数据由小到大排列为87,89,90,91,92,93,94,96,∴中位数是91+922=91.5,平均数x =87+89+90+91+92+93+94+968=91.5.4.如图是100位居民月均用水量的频率分布直方图,则月均用水量在[2,2.5)范围内的居民有______人. 答案 25解析 0.5×0.5×100=25. 题组三 易错自纠5.从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是( ) A .5,10,15,20,25 B .3,13,23,33,43 C .1,2,3,4,5 D .2,4,6,16,32答案 B解析 间隔距离为10,故可能的编号是3,13,23,33,43.6.若数据x 1,x 2,x 3,…,x n 的平均数x =5,方差s 2=2,则数据3x 1+1,3x 2+1,3x 3+1,…,3x n +1的平均数和方差分别为________. 答案 16,18解析 ∵x 1,x 2,x 3,…,x n 的平均数为5, ∴x 1+x 2+x 3+…+x nn=5,∴3x 1+3x 2+3x 3+…+3x n n+1=3×5+1=16, ∵x 1,x 2,x 3,…,x n 的方差为2,∴3x 1+1,3x 2+1,3x 3+1,…,3x n +1的方差是32×2=18.抽样方法1.用简单随机抽样的方法从含有10个个体的总体中,抽取一个容量为3的样本,其中某一个体a “第一次被抽到”的可能性与“第二次被抽到”的可能性分别是( )A.110,110B.310,15C.15,310D.310,310答案 A解析 方法一 在抽样过程中,个体a 每一次被抽中的概率是相等的,因为总体容量为10,故个体a “第一次被抽到”的可能性与“第二次被抽到”的可能性均为110.故选A.方法二 第一次被抽到,显然为110;第二次被抽到,首先第一次不能被抽到,第二次抽才被抽到.可能性为910·19=110.故选A.2.(2019·海口调研)某校三个年级共有24个班,学校为了了解同学们的心理状况,将每个班编号,依次为1到24,现用系统抽样法,抽取4个班进行调查,若抽到的最小编号为3,则抽取的最大编号为( ) A .15B .18C .21D .22 答案 C解析 由已知得间隔数为k =244=6,则抽取的最大编号为3+(4-1)×6=21.3.(2019·安徽毛坦厂中学模拟)某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种,10种,30种,20种,现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样的方法抽取样本,则抽取的植物油类与果疏类食品种数之和是________. 答案 6解析 本题主要考查对分层抽样的理解.抽样比为2040+10+30+20=15,则抽取的植物油类种数是10×15=2,抽取的果蔬类食品种数是20×15=4,所以抽取的植物油类与果蔬类食品种数之和是2+4=6.思维升华 (1)简单随机抽样是系统抽样和分层抽样的基础,是一种等概率的抽样,由定义应抓住以下特点:①它要求总体个数较少;②它是从总体中逐个抽取的;③它是一种不放回抽样.(2)系统抽样又称等距抽样,号码序列一确定,样本即确定了,但要求总体中不能含有一定的周期性,否则其样本的代表性是不可靠的,甚至会导致明显的偏向.(3)分层抽样适用于总体中个体差异较大的情况.(4)抽样方法经常交叉使用,比如系统抽样中的第一均衡部分,可采用简单随机抽样,分层抽样中,若每层中个体数量仍很大时,则可辅之以系统抽样.统计图表及应用命题点1 扇形图例1 (2018·全国Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是( )A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半答案 A解析设新农村建设前,农村的经济收入为a,则新农村建设后,农村的经济收入为2a.新农村建设前后,各项收入的对比如下表:新农村建设前新农村建设后新农村建设后变化情况结论种植收入60%a 37%×2a=74%a 增加A错其他收入4%a 5%×2a=10%a 增加了一倍以上B对养殖收入30%a 30%×2a=60%a 增加了一倍C对养殖收入+第三产业收入(30%+6%)a=36%a(30%+28%)×2a=116%a超过经济收入2a的一半D对故选命题点2 折线图例2 (2017·全国Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是( )A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳答案 A解析对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;对于选项B ,观察折线图的变化趋势可知年接待游客量逐年增加,故B 正确; 对于选项C ,D ,由图可知显然正确. 故选A.命题点3 茎叶图例3 如图所示的茎叶图记录了甲,乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均数也相等,则x 和y 的值分别为( ) A .3,5B .5,5C .3,7D .5,7 答案 A解析 甲组数据的中位数为65,由甲,乙两组数据的中位数相等,得y =5.又甲、乙两组数据的平均数相等,∴15×(56+65+62+74+70+x )=15×(59+61+67+65+78),∴x =3.故选A. 命题点4 频率分布直方图例4 (2019·南昌调研)从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图. (1)直方图中x 的值为________;(2)在这些用户中,月用电量落在区间[100,250)内的户数为________. 答案 (1)0.0044 (2)70解析 (1)由频率分布直方图知数据落在[200,250)内的频率为1-(0.0024+0.0036+0.0060+0.0024+0.0012)×50=0.22,于是x =0.2250=0.0044.(2)因为数据落在[100,250)内的频率为(0.0036+0.0060+0.0044)×50=0.7,所以所求户数为0.7×100=70.思维升华 (1)通过扇形统计图可以很清楚的表示出各部分数量同总数之间的关系. (2)折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势.(3)由茎叶图可以清晰地看到数据的分布情况,这一点同频率分布直方图类似.它优于频率分布直方图的第一点是从茎叶图中能看到原始数据,没有任何信息损失,第二点是茎叶图便于记录和表示.其缺点是当样本容量较大时,作图较烦琐. (4)准确理解频率分布直方图的数据特点:①频率分布直方图中纵轴上的数据是各组的频率除以组距的结果,不要误以为纵轴上的数据是各组的频率,不要和条形图混淆.②频率分布直方图中各小长方形的面积之和为1,这是解题的关键,常利用频率分布直方图估计总体分布.跟踪训练 (1)(2019·洛阳模拟)已知某地区中小学生人数和近视情况分别如图①和图②所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )A.200,20 B.100,20C.200,10 D.100,10答案 A解析由图①得样本容量为(3500+2000+4500)×2%=10000×2%=200,抽取的高中生人数为2000×2%=40(人),则近视人数为40×0.5=20(人),故选A.(2)(2019·昆明质检)“搜索指数”是网民通过搜索引擎,以每天搜索关键词的次数为基础所得到的统计指标.搜索指数越大,表示网民搜索该关键词的次数越多,对该关键词相关的信息关注度也越高.如图是2017年9月到2018年2月这半年来,某个关键词的搜索指数变化的统计图.根据该统计图判断,下列结论正确的是( )A.这半年来,网民对该关键词相关的信息关注度呈周期性变化B.这半年来,网民对该关键词相关的信息关注度不断减弱C.从该关键词的搜索指数来看,2017年10月的方差小于11月的方差D.从该关键词的搜索指数来看,2017年12月的平均值大于2018年1月的平均值答案 D解析由统计图可知,这半年来,该关键词的搜索指数变化的周期性并不显著,排除A;由统计图可知,这半年来,该关键词的搜索指数的整体减弱趋势不显著,排除B;由统计图可知,2017年10月该关键词的搜索指数波动较大,11月的波动较小,所以2017年10月的方差大于11月的方差,排除C;由统计图可知,2017年12月该关键词的搜索指数大多高于10000,该月平均值大于10000,2018年1月该关键词的搜索指数大多低于10000,该月平均值小于10000,选D.(3)(2020·成都模拟)如图是某赛季甲、乙两名篮球运动员9场比赛所得分数的茎叶图,则下列说法错误的是( )A.甲所得分数的极差为22 B.乙所得分数的中位数为18C.两人所得分数的众数相等D.甲所得分数的平均数低于乙所得分数的平均数答案 D解析甲所得分数的极差为33-11=22,A正确;乙所得分数的中位数为18,B正确;甲所得分数的众数为22,乙所得分数的众数为22,C正确,故选D.(4)(2019·昆明模拟)为了解学生“阳光体育”活动的情况,随机统计了n名学生的“阳光体育”活动时间(单位:分钟),所得数据都在区间[10,110]内,其频率分布直方图如图所示.已知活动时间在[10,35)内的频数为80,则n 的值为( ) A .700B .800C .850D .900 答案 B解析 根据频率分布直方图,知组距为25,所以活动时间在[10,35)内的频率为0.1,因为活动时间在[10,35)内的频数为80,所以n =800.1=800.用样本的数字特征估计总体的数字特征1.(2019·全国Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( ) A .中位数 B .平均数 C .方差 D .极差答案 A解析 记9个原始评分分别为a ,b ,c ,d ,e ,f ,g ,h ,i (按从小到大的顺序排列),易知e 为7个有效评分与9个原始评分的中位数,故不变的数字特征是中位数,故选A.2.某项测试成绩满分为10分,现随机抽取30名学生参加测试,得分情况如图所示,假设得分值的中位数为m e ,平均数为x ,众数为m 0,则( ) A .m e =m 0=x B .m e =m 0<x C .m e <m 0<x D .m 0<m e <x答案 D解析 由图知m 0=5.由中位数的定义知应该是第15个数与第16个数的平均值,由图知将数据从小到大排,第15个数是5,第16个数是6,所以m e =5+62=5.5.x =3×2+4×3+5×10+6×6+7×3+8×2+9×2+10×230≈5.97>5.5, 所以m 0<m e <x .3.(2019·全国Ⅱ)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为________. 答案 0.98 解析经停该站高铁列车所有车次的平均正点率的估计值为10×0.97+20×0.98+10×0.9910+20+10=0.98.4.甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):如果甲、乙两人中只有1. 答案 甲解析 由题可得x 甲=x 乙=9,又∵s 2甲=15×[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=25,s 2乙=15×[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=65>s 2甲,∴甲更稳定,故最佳人选应是甲.思维升华 (1)用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似值.实际应用时,需先计算样本数据的平均数,分析平均水平,再计算方差(标准差)分析稳定情况.(2)若给出图形,一方面可以由图形得到相应的样本数据,再计算平均数、方差(标准差);另一方面,可以从图形直观分析样本数据的分布情况,大致判断平均数的范围,并利用数据的波动性大小比较方差(标准差)的大小.1.某工厂平均每天生产某种机器零件10000件,要求产品检验员每天抽取50件零件,检查其质量状况,采用系统抽样方法抽取,将零件编号为0000,0001,0002,…,9999,若抽取的第一组中的号码为0010,则第三组抽取的号码为( ) A .0210 B .0410 C .0610 D .0810答案 B解析 将零件分成50段,分段间隔为200,因此,第三组抽取的号码为0010+2×200=0410,故选B.2.某中学有高中生3500人,初中生1500人,为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取70人,则n 为( ) A .100B .150C .200D .250 答案 A解析 方法一 由题意可得70n -70=35001500,解得n =100. 方法二 由题意,得抽样比为703500=150,总体容量为3500+1500=5000,故n =5000×150=100.3.(2020·临川一中模拟)如图为某省高考数学(理)卷近三年难易程度的对比图(图中数据为分值).根据对比图,给出正面三个结论:①近三年容易题分值逐年增加;②近三年中档题分值所占比例最高的年份是2017年;③2018年的容易题与中档题的分值之和占总分的90%以上.其中正确结论的个数为( ) A .0B .1C .2D .3 答案 C解析 根据对比图得,2016年,2017年,2018年容易题分值分别为40,55,96,逐年增加,①正确;近三年中档题分值所占比例最高的年份是2016年,②错误;2018年的容易题与中档题的分值之和为96+42=138,138150=0.92>90%,③正确.故选C.4.(2019·全国Ⅲ)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( ) A .0.5B .0.6C .0.7D .0.8 答案 C解析 根据题意阅读过《红楼梦》《西游记》的人数用韦恩图表示如下: 所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为70100=0.7.5.如图是某样本数据的茎叶图,则该样本的中位数、众数、极差分别是( ) A .32 34 32 B .33 45 35 C .34 45 32 D .33 36 35 答案 B解析 从茎叶图中知共16个数据,按照从小到大排序后中间的两个数据为32,34,所以这组数据的中位数为33;45出现的次数最多,所以这组数据的众数为45; 最大值是47,最小值是12,故极差是35.6.(2020·惠州调研)某高校调查了320名学生每周的自习时间(单位:小时)制成了下图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20],(20,22.5],(22.5,25],(25,27.5],(27.5,30].根据频率分布直方图,这320名学生中每周的自习时间不足22.5小时的人数是( )A .70B .72C .248D .200 答案 B解析 由频率分布直方图可得,320名学生中每周的自习时间不足22.5小时的人数是320×(0.02+0.07)×2.5=72(人).故选B.7.若数据x 1,x 2,…,x n 的平均数为x ,方差为s 2,则2x 1+3,2x 2+3,…,2x n +3的平均数和方差分别为( ) A.x 和s 2B .2x +3和4s 2C .2x +3和s 2D .2x +3和4s 2+12s +9答案 B解析 方法一 平均数为1n (2x 1+3+2x 2+3+…+2x n +3)=1n[2(x 1+x 2+…+x n )+3n ]=2x +3;方差为1n{[(2x 1+3)-(2x +3)]2+[(2x 2+3)-(2x +3)]2+…+[(2x n +3)-(2x +3)]2}=1n[4(x 1-x )2+4(x 2-x )2+…+4(x n -x )2]=4s 2.方法二 原数据乘以2加上3得到一组新数据,则由平均数、方差的性质可知得到的新数据的平均数和方差分别是2x +3和4s 2.8.(2019·揭阳模拟)为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据.已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为( ) A .9B .10C .11D .13 答案 B解析 不妨设样本数据x 1,x 2,x 3,x 4,x 5,且x 1<x 2<x 3<x 4<x 5,则由样本方差为4,知(x 1-7)2+(x 2-7)2+(x 3-7)2+(x 4-7)2+(x 5-7)2=20.若5个整数平方和为20,则这5个整数的平方只能在0,1,4,9,16中任取(每个数量最多出现2次),当这5个整数的平方中最大的数为16时,分析可知,总不满足和为20;当这5个整数的平方中最大的数为9时,0,1,1,9,9这组数据满足要求,此时对应的样本数据为x 1=4,x 2=6,x 3=7,x 4=8,x 5=10;当这5个整数的平方中最大的数不超过4时,总不满足要求,因此不存在满足条件的另一组数据,故选B.9.(2019·江苏)已知一组数据6,7,8,8,9,10,则该组数据的方差是________. 答案 53解析 数据6,7,8,8,9,10的平均数是6+7+8+8+9+106=8,则方差是4+1+0+0+1+46=53. 10.(2019·衡水中学调研)衡水中学高三(2)班现有64名学生,随机编号为0,1,2,…,63,依编号顺序平均分成8组,组号依次为1,2,3,…,8.现用系统抽样方法抽取一个容量为8的样本,若在第一组中随机抽取的号码为5,则在第6组中抽取的号码为________. 答案 45解析 分组间隔为648=8,∵在第一组中随机抽取的号码为5,∴在第6组中抽取的号码为5+5×8=45.11.为了了解一批产品的长度(单位:毫米)情况,现抽取容量为400的样本进行检测,如图是检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,其余均为三等品,则样本中三等品的件数为________. 答案 100解析 由题意得,三等品的长度在区间[10,15),[15,20)和[35,40]内, 根据频率分布直方图可得三等品的频率为(0.0125+0.0250+0.0125)×5=0.25, ∴样本中三等品的件数为400×0.25=100.12.(2019·济宁模拟)中国诗词大会的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图.若规定得分不小于85分的学生得到“诗词达人”的称号,低于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成绩按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词达人”称号的人数为________. 答案 2解析 由茎叶图可得,获“诗词达人”称号的学生有8人,设抽取的学生中获得“诗词达人”称号的人数为n ,则n 10=840,解得n =2.13.(2019·榆林模拟)为了反映各行业对仓储物流业务需求变化的情况,以及重要商品库存变化的动向,中国物流与采购联合会和中储发展股份有限公司通过联合调查,制定了中国仓储指数.由2017年1月至2018年7月的调查数据得出的中国仓储指数,绘制出如下折线图. 根据该折线图,下列结论正确的是( ) A .2017年各月的仓储指数最大值是在3月份 B .2018年1月至7月的仓储指数的中位数为55 C .2018年1月与4月的仓储指数的平均数为52D .2017年1月至4月的仓储指数相对于2018年1月至4月,波动性更大 答案 D解析 2017年各月的仓储指数最大值是在11月份,所以A 错误;由图可知,2018年1月至7月的仓储指数的中位数约为53,所以B错误;2018年1月与4月的仓储指数的平均数为51+55=53,所以C错误;由图可知,2017年1月至4月的仓储指数比2018年1月至4月2的仓储指数波动更大,故选D.14.(2019·西安质检)采用系统抽样方法从1000人中抽取50人做问卷调查,为此将他们随机编号为1,2,…,1000,适当分组后在第一组采用简单随机抽样的方法抽到的号码为8.抽到的50人中,编号落入区间[1,400]的人做问卷A,编号落入区间[401,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷C的人数为( )A.12B.13C.14D.15答案 A解析1000÷50=20,故由题意可得抽到的号码构成以8为首项,以20为公差的等差数列,且此等差数列的通项公式为a n=8+(n-1)×20=20n-12.由751≤20n-12≤1000,解得38.15≤n≤50.6.再由n为正整数可得39≤n≤50,且n∈Z,故做问卷C的人数为12.故选A.15.气象意义上从春季进入夏季的标志为:连续5天每天日平均温度不低于22℃.现有甲、乙、丙三地连续5天的日平均温度的记录数据(记录数据都是正整数,单位:℃).①甲地:5个数据的中位数为24,众数为22;②乙地:5个数据的中位数为27,平均数为24;③丙地:5个数据中有一个数据是32,平均数为26,方差为10.2.则肯定进入夏季的地区有________个.答案 2解析甲地肯定进入夏季,因为众数为22,所以22℃至少出现两次,若有一天低于22℃,则中位数不可能为24;丙地肯定进入,10.2×5-(32-26)2≥(26-x)2,所以15≥(26-x)2,若x≤22不成立;乙地不一定进入,如13,23,27,28,29,故答案为2.16.共享单车入驻某市一周年以来,因其“绿色出行,低碳环保”的理念而备受人们的喜爱,值此周年之际,某机构为了了解共享单车使用者的年龄段、使用频率、满意度等三个方面的信息,在全市范围内发放5 000份调查问卷,回收到有效问卷3 125份,现从中随机抽取80份,分别对使用者的年龄段、26~35岁使用者的使用频率、26~35岁使用者的满意度进行汇总,得到如下三个表格:表(一)表(三)(1)(2)某城区现有常住人口30万,请用样本估计总体的思想,试估计年龄在26岁~35岁之间,每月使用共享单车在7~14次的人数. 解 (1)(2)由表(一)可知:年龄在26岁~35岁之间的有40人,占总抽取人数的一半,用样本估计总体的思想可知,某城区30万人口中年龄在26岁~35岁之间的约有30×12=15(万人);又年龄在26岁~35岁之间每月使用共享单车在7~14次之间的有10人,占总抽取人数的14,用样本估计总体的思想可知,城区年龄在26岁~35岁之间每月使用共享单车在7~14次之间的约有15×14=154(万人),所以年龄在26岁~35岁之间,每月使用共享单车在7~14次之间的人数约为154万人.。