高考数学大一轮复习 第十章第2节 用样本估计总体学案 文 新人教A版
- 格式:doc
- 大小:624.19 KB
- 文档页数:16
[备考方向要明了] 考 什 么怎 么 考1.了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点. 2.理解样本数据标准差的意义和作用,会计算数据标准差. 3.能从样本数据中提取基本的数字特征(平均数、标准差),并给出合理解释. 4.会用样本的频率分布估计总体的分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想. 5.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.1.由于高考对统计考查的覆盖面广,几乎对所有的统计考点都有涉及,其中频率分布直方图、均值与方差、茎叶图是核心,题型多是选择题或填空题,难度不大,如2012年安徽T5,陕西T6等.2.近几年来,对概率统计的综合问题考查的力度有所加大,题目难度中低档,如2012年广东T17等. [归纳·知识整合] 1.作频率分布直方图的步骤 (1)求极差(即一组数据中最大值与最小值的差); (2)决定组距与组数; (3)将数据分组; (4)列频率分布表; (5)画频率分布直方图. 2.频率分布折线图和总体密度曲线 (1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图. (2)总体密度曲线:随着样本容量的增加,作图时所分组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线. 3.茎叶图的优点 茎叶图的优点是可以保留原始数据,而且可以随时记录,方便记录与表示. 4.标准差和方差 (1)标准差是样本数据到平均数的一种平均距离. (2)标准差: s= . (3)方差:s2=[(x1-)2+(x2-)2+…+(xn-)2](xn是样本数据,n是样本容量,是样本平均数). 5.利用频率分布直方图估计样本的数字特征 (1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值. (2)平均数:平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和. (3)众数:在频率分布直方图中,众数是最高的矩形的中点的横坐标. [探究] 1.在频率分布直方图中如何确定中位数? 提示:在频率分布直方图中,中位数左边和右边的直方图的面积是相等的. 2.利用茎叶图求数据的中位数的步骤是什么? 提示:(1)将茎叶图中数据按大小顺序排列;(2)找中间位置的数. [自测·牛刀小试] 1.(2012·山东高考)在某次测量中得到的A样本数据如下:82,84,84,86,86,86,88,88,88,88.若B样本数据恰好是A样本数据每个都加2后所得数据,则A,B两样本的下列数字特征对应相同的是( ) A.众数 B.平均数 C.中位数 D.标准差 解析:选D 只有标准差不变,其中众数、平均数和中位数都加2. 1555781613351712 2.(2011·安庆模拟)如图是根据某校10位高一同学的身高(单位:cm)画出的茎叶图,其中左边的数字从左到右分别表示学生身高的百位数字和十位数字,右边的数字表示学生身高的个位数字,从图中可以得到这10位同学身高的中位数是( ) A.161 B.162 C.163 D.164 解析:选B 由给定的茎叶图可知,这10位同学身高的中位数为=162. 3.某校举行2013年元旦汇演,七位评委为某班的小品打出的分数如下茎叶统计图,去掉一个最高分和一个最低分,所剩数据的方差为________. 7984464793解析:由茎叶图知,去掉一个最高分和一个最低分,所剩数据为84,84,86,84,87,所以由公式得方差为1.6. 答案:1.6 4.从一堆苹果中任取10只,称得它们的质量如下(单位:克):125,120,122,105,130,114,116,95,120,134,则样本数据落在[114.5,124.5)内的频率为________. 解析:数据落在[114.5,124.5)内的有:120,122,116,120共4个,故所求频率为=0.4. 答案:0.4 5.(2012·大同模拟)将容量为n的样本中的数据分为6组,绘制频率分布直方图,若第一组至第六组的数据的频率之比为23∶4∶6∶4∶1,且前三组数据的频数之和为27,则n=________. 解析:由已知,得·n=27, 即·n=27,解得n=60. 答案:60 频率分布直方图的应用 [例1] (1)在样本频率分布直方图中,共有11个小长方形,若中间一个小长方形的面积等于其他10个小长方形面积和的,且样本容量为160,则中间一组的频数为( ) A.32 B.0.2 C.40 D.0.25 (2)某区高二年级的一次数学统考中,随机抽取200名同学的成绩,成绩全部在50分至100分之间,将成绩按如下方式分成5组:第一组,成绩大于等于50分且小于60分;第二组,成绩大于等于60分且小于70分;……第五组,成绩大于等于90分且小于等于100分,据此绘制了如图所示的频率分布直方图.则这200名同学中成绩大于等于80分且小于90分的学生有______名. [自主解答] (1)由频率分布直方图的性质,可设中间一组的频率为x,则x+4x=1,解得x=0.2.故中间一组的频数为160×0.2=32. (2)由题知,成绩大于等于80分且小于90分的学生所占的频率为1-(0.005×2+0.025+0.045)×10=0.2,所以这200名同学中成绩大于等于80分且小于90分的学生有200×0.2=40名. [答案] (1)A (2)40 ——————————————————— 频率分布直方图反映了样本的频率分布 (1)在频率分布直方图中纵坐标表示, 频率=组距×. (2)频率分布表中频率的和为1,故频率分布直方图中各长方形的面积和为1. 1.已知一个样本容量为100的样本数据的频率分布直方图如图所示,样本数据落在[6,10)内的样本频数为________,样本数据落在[2,10)内的频率为________. 解析:样本数据落在[6,10)内的样本频数为0.08×4×100=32,样本数据落在[2,10)内的频率为(0.02+0.08)×4=0.4. 答案:32 0.4 数字特征的应用 [例2] (2012·安徽高考)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( ) A.甲的成绩的平均数小于乙的成绩的平均数 B.甲的成绩的中位数等于乙的成绩的中位数 C.甲的成绩的方差小于乙的成绩的方差 D.甲的成绩的极差小于乙的成绩的极差 [自主解答] 由题意可知,甲的成绩为4,5,6,7,8,乙的成绩为5,5,5,6,9.所以甲、乙的成绩的平均数均为6,A错;甲、乙的成绩的中位数分别为6,5,B错;甲、乙的成绩的方差分别为×[(4-6)2+(5-6)2+(6-6)2+(7-6)2+(8-6)2]=2,×[(5-6)2+(5-6)2+(5-6)2+(6-6)2+(9-6)2]=,C 对;甲、乙的成绩的极差均为4,D错. [答案] C ——————————————————— 样本数字特征及公式推广 (1)平均数和方差都是重要的数字特征,是对总体一种简明的阐述.平均数、中位数、众数描述总体的集中趋势,方差和标准差描述波动大小. (2)平均数、方差公式的推广 若数据x1,x2,…,xn的平均数为,方差为s2,则数据mx1+a,mx2+a,…,mxn+a的平均数为m+a,方差为m2s2. 2.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为me,众数为m0,平均值为,则( ) A.me=m0= B.me=m0< C.me<m0< D.m0<me< 解析:选D 由图可知,30名学生的得分情况依次为:2个人得3分,3个人得4分,10个人得5分,6个人得6分,3个人得7分,2个人得8分,2个人得9分,2个人得10分.中位数为第15,16个数(分别为5,6)的平均数即me=5.5,5出现次数最多,故m0=5,=≈5.97.于是得m0<me<. 茎叶图的应用 [例3] 某校高三年级进行了一次数学测验,随机从甲、乙两班各抽取6名同学,所得分数的茎叶图如图所示. 甲 班乙班2917080366272586(1)根据茎叶图判断哪个班的平均分数较高,并说明理由; (2)现从甲班这6名同学中随机抽取两名同学,求他们的分数之和大于165分的概率. [自主解答] (1)因为乙班的成绩集中在80分,且没有低分,所以乙班的平均分比较高. (2)设从甲班中任取两名同学,两名同学分数之和超过165分为事件A.从甲班6名同学中任取两名同学,则基本事件空间中包含了15个基本事件,又事件A中包含4个基本事件,所以,P(A)=. 即从甲班中任取两名同学,两名同学分数之和超过165分的概率为. ——————————————————— 茎叶图的优缺点 由茎叶图可以清晰地看到数据的分布情况,这一点同频率分布直方图类似.它优于频率分布直方图的第一点是从茎叶图中能看到原始数据,没有任何信息损失,第二点是茎叶图便于记录和表示.其缺点是当样本容量较大时,作图较繁琐. 0891035 3.(2012·湖南高考)如图是某学校一名篮球运动员在五场比赛中所得分数的茎叶图,则该运动员在这五场比赛中得分的方差为________. (注:方差s2=[(x1-)2+(x2-)2+…+(xn-)2],其中为x1,x2,…,xn的平均数) 解析:该运动员五场比赛中的得分为8,9,10,13,15,平均得分==11, 方差s2=[(8-11)2+(9-11)2+(10-11)2+(13-11)2+(15-11)2]=6.8. 答案:6.8 4.随机抽取某中学甲、乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据的茎叶图(中间的数字表示身高的百位、十位数,旁边的数字分别表示身高的个位数)如图所示. 甲班 乙班 2181981017256698842163598157 (1)根据茎叶图判断哪个班的平均身高较高; (2)计算甲班的样本方差. 解:(1)由茎叶图可知乙班身高比较集中在170~181之间,所以乙班的平均身高较高. (2)甲班的方差为:×[(182-170)2+(179-170)2+(178-170)2+(171-170)2+(170-170)2+(168-170)2+(168-170)2+(164-170) 2+(162-170)2+(158-170)2]=54.2. 2个异同——众数、中位数和平均数的异同,标准差和方差的异同 (1)众数、中位数和平均数的异同 众数、中位数和平均数都是描述一组数据集中趋势的量,平均数是最重要的量. 由于平均数与每一个样本数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数和中位数都不具有的性质. 众数考查各数据出现的频率,其大小只与这组数据中部分数据有关.当一组数据中有不少数据多次重复出现时,其众数往往更能反映问题. 某些数据的改动对中位数可能没有影响,中位数可能出现在所给的数据中,也可能不在所给的数据中.当一组数据中的个别数据变动较大时,可用中位数描述其集中趋势. (2)标准差和方差的异同 标准差和方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度就越大;标准差、方差越小,数据的离散程度则越小.因为方差与原始数据的单位不同,且平方后可能夸大了偏差程度,所以虽然方差与标准差在刻画样本数据的分散程度上是一样的,但在解决实际问题时,一般多采用标准差. 2个区别——直方图与条形图的区别 不要把直方图错以为条形图,两者的区别在于条形图是离散随机变量,纵坐标刻度为频数或频率,直方图是连续随机变量,纵坐标刻度为频率/组距,这是密度,连续随机变量在某一点上是没有频率的. 易误警示——频率分布直方图中的易误点 [典例] (2012·山东高考)如图是根据部分城市某年6月份的平均气温(单位:℃)数据得到的样本频率分布直方图,其中平均气温的范围是[20.5,26.5],样本数据的分组为[20.5,21.5),[21.5,22.5),[22.5,23.5),[23.5,24.5),[24.5,25.5),[25.5,26.5].已知样本中平均气温低于22.5℃的城市个数为11,则样本中平均气温不低于25.5℃的城市个数为________. [解析] 最左边两个矩形面积之和为0.10×1+0.12×1=0.22,总城市数为11÷0.22=50,最右边矩形面积为0.18×1=0.18,50×0.18=9. [答案] 9 1.忽视频率分布直方图中纵轴的含义为频率/组距,误认为是每组相应的频率值,导致失误; 2.不清楚直方图中各组的面积之和为1,导致某组的频率不会求; 3.不理解由直方图求样本平均值的方法,误用每组的频率乘以每组的端点值而导致失误; 4.由直方图确定众数时应为最高矩形中点对应的横坐标值,中位数应为左右两侧的频率均等各为. 对某种电子元件的使用寿命进行跟踪调查,所得样本的频率分布直方图如图所示,由图可知,这一批电子元件中使用寿命在100~300 h的电子元件的数量与使用寿命在300~600 h的电子元件的数量的比是________. 解析:寿命在100~300 h的电子元件的频率为×100==; 寿命在300~600 h的电子元件的频率为×100=. 则它们的电子元件数量之比为=. 答案: 一、选择题(本大题共6小题,每小题5分,共30分) 1.(2012·湖北高考)容量为20的样本数据,分组后的频数如下表: 分组[10,20)[20,30)[30,40)[40,50)[50,60)[60,70)频数234542 则样本数据落在区间[10,40)的频率为( ) A.0.35 B.0.45 C.0.55 D.0.65 解析:选B 求得该频数为2+3+4=9,样本容量是20,所以频率为=0.45. 2.某校100名学生的数学测试成绩分布直方图如图所示,分数不低于a即为优秀,如果优秀的人数为20人,则a的估计值是( ) A.130 B.140 C.134 D.137 解析:选C 由题意知,优秀的频率为0.2,故a的值在130~140之间,则(140-a)×0.015=0.1,解得a=133.4. 3.(2012·陕西高考)对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是( ) A.46,45,56 B.46,45,53 C.47,45,56 D.45,47,53 解析:选A 从茎叶图中可以看出样本数据的中位数为中间两个数的平均数,即=46,众数为45,极差为68-12=56. 4.某校甲、乙两个班级各有5名编号为1,2,3,4,5的学生进行投篮练习,每人投10次,投中的次数如下表: 学生1号2号3号4号5号甲班67787乙班67679则以上两组数据的方差中较小的一个为s2,则s2=( ) A. B. C. D.2 解析:选A 甲=7,s=[(6-7)2+(7-7)2+(7-7)2+(8-7)2+(7-7)2]=,乙=7,s=[(6-7)2+(7-7)2+(6-7)2+(7-7)2+(9-7)2]=, 两组数据的方差中较小的一个为s,即s2=. 5.某单位举办技能比赛,9位评委给生产科打出的分数如茎叶图所示,统计员在去掉一个最高分和一个最低分后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中的x)无法看清,若记分员计算无误,则数字x应该是( ) 评委给生产科打出的分数 898792x3421A.2 B.3 C.4 D.5 解析:选A 若数字90+x是最高分, 则为1=(88+89+91+92+92+93+94)≈91.3, 不合题意,因此最高分为94分, 此时平均分2=(88+89+91+92+92+93+90+x), (635+x)=91,解得x=2. 6.(2012·江西高考)小波一星期的总开支分布如图(1)所示,一星期的食品开支如图(2)所示,则小波一星期的鸡蛋开支占总开支的百分比为( ) A.30% B.10% C.3% D.不能确定 解析:选C 由图(1)得到小波一星期的总开支,由图(2)得到小波一星期的食品开支,从而再借助图(2)计算出鸡蛋开支占总开支的百分比.由图(2)知,小波一星期的食品开支为30+40+100+80+50=300元,由图(1)知,小波一星期的总开支为=1 000元,则小波一星期的鸡蛋开支占总开支的百分比为×100%=3%. 二、填空题(本大题共3小题,每小题5分,共15分) 7.(2013·徐州模拟)学校为了调查学生在课外读物方面的支出情况,抽出了一个容量为n且支出在[20,60)元的样本,其频率分布直方图如图所示,其中支出在[50,60)元的同学有30人.则n的值为________. 解析:支出在[50,60)的频率为1-0.36-0.24-0.1=0.3,因此=0.3,故n=100. 答案:100 147882018.(2013·南京模拟)为了分析某篮球运动员在比赛中发挥的稳定程度,统计了该运动员在6场比赛中的得分,用茎叶图表示如图,则该组数据的方差为________. 解析:该运动员6场的总得分为14+17+18+18+20+21=108,平均得分为=18分,方差=[(14-18)2+(17-18)2+(18-18)2+(18-18)2+(20-18)2+(21-18)2]=5. 答案:5 9.为了了解大连市今年准备报考飞行员的学生的体重情况,将所得的数据整理后,画出了频率分布直方图(如图所示),已知图中从左到右的前3个小组的频率之比为12∶3,第2小组的频数为120,则抽取的学生人数是________. 解析:由频率分布直方图知:学生的体重在65~75 kg的频率为(0.012 5+0.037 5)×5=0.25,则学生的体重在50~65 kg的频率为1-0.25=0.75. 从左到右第2个小组的频率为0.75×=0.25, 所以抽取的学生人数是120÷0.25=480. 答案:480 三、解答题(本大题共3小题,每小题12分,共36分) 10.(2012·安徽高考)若某产品的直径长与标准值的差的绝对值不超过1 mm时,则视为合格品,否则视为不合格品,在近期一次产品抽样检查中,从某厂生产的此种产品中,随机抽取5 000件进行检测,结果发现有50件不合格品.计算这50件不合格品的直径长与标准值的差(单位:mm),将所得数据分组,得到如下频率分布表: 分组频数频率[-3,-2)0.10[-2,-1)8(1,2]0.50(2,3]10(3,4]合计501.00 (1)将上面表格中缺少的数据补充完整; (2)估计该厂生产的此种产品中,不合格品的直径长与标准值的差落在区间(1,3]内的概率; (3)现对该厂这种产品的某个批次进行检查,结果发现有20件不合格品.据此估算这批产品中的合格品的件数. 解:(1)频率分布表 分组频数频率[-3,-2)50.10[-2,-1)80.16(1,2]250.50(2,3]100.20(3,4]20.04合计501.00 (2)由频率分布表知,该厂生产的此种产品中,不合格品的直径长与标准值的差落在区间(1,3]内的概率约为0.50+0.20=0.70. (3)设这批产品中的合格品数为x件,依题意有=,解得x=-20=1 980. 所以该批产品的合格品件数估计是1 980件. 11.(2012·广东高考)某班50位学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]. (1)求图中x的值; (2)从成绩不低于80分的学生中随机选取2人,该2人中成绩在90分以上(含90分)的人数记为ξ,求ξ的数学期望. 解:(1)由题意得: 10x=1-(0.006×3+0.01+0.054)×10=0.18, 所以x=0.018. (2)成绩不低于80分的学生共有(0.018+0.006)×10×50=12人,其中90分以上(含90分)的共有0.006×10×50=3人, 因此ξ的可能值为0,1,2三个值, P(ξ=0)==,p(ξ=1)==, P(ξ=2)==, ξ的分布列为: ξ012PE(ξ)=0×+1×+2×=. 12.某中学共有1 000名学生参加了该地区高三第一次质量检测的数学考试,数学成绩如下表所示: 数学成绩分组[0,30)[30,60)[60,90)[90,120)[120,150]人数6090300x160(1)为了了解同学们前段复习的得失,以便制定下阶段的复习计划,学校将采用分层抽样的方法抽取100名同学进行问卷调查,甲同学在本次测试中数学成绩为95分,求他被抽中的概率; (2)已知本次数学成绩的优秀线为110分,试根据所提供数据估计该中学达到优秀线的人数; (3)作出频率分布直方图,并估计该学校本次考试的数学平均分(同一组中的数据用该组区间的中点值作代表). 解:(1)分层抽样中,每个个体被抽到的概率均为, 故甲同学被抽到的概率P=. (2)由题意得x=1 000-(60+90+300+160)=390. 故估计该中学达到优秀线的人数 m=160+390×=290. (3)频率分布直方图如图所示. 该学校本次考试的数学平均分. ==90. 估计该学校本次考试的数学平均分为90分. 1.(2012·陕西高考)从甲乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图所示).设甲乙两组数据的平均数分别为甲,乙,中位数分别为m甲,m乙,则( )A.甲m乙B.甲<乙,m甲乙,m甲>m乙 D.甲>乙,m甲<m乙 解析:选B 由茎叶图可知甲数据集中在10至20之间,乙数据集中在20至40之间,明显甲<乙,甲的中位数为20,乙的中位数为29,即m甲<m乙. 2.某乡镇供电所为了调查农村居民用电量情况,随机抽取了500户居民去年的月均用电量(单位:kW/h),将所得数据整理后,画出频率分布直方图如下,其中直方图从左到右前3个小矩形的面积之比为12∶3,试估计: (1)该乡镇月均用电量在[39.5,43.5)内的居民所占百分比约是多少? (2)该乡镇居民月均用电量的中位数约是多少?(精确到0.01) 解:(1)设直方图从左到右前3个小矩形的面积分别为P,2P,3P. 由直方图可知,最后两个小矩形的面积之和为 (0.087 5+0.037 5)×2=0.25. 因为直方图中各小矩形的面积之和为1, 所以P+2P+3P=0.75,即P=0.125. 所以3P+0.087 5×2=0.55. 由此估计,该乡镇居民月均用电量在[39.5,43.5)内的居民所占百分比约是55%. (2)显然直方图的面积平分线位于正中间一个矩形内,且该矩形在面积平分线左侧部分的面积为0.5-P-2P=0.5-0.375=0.125,设样本数据的中位数为39.5+x. 因为正中间一个矩形的面积为3P=0.375,所以x2=0.1250.375,即x=≈0.67. 从而39.5+x≈40.17,由此估计,该乡镇居民月均用电量的中位数约是40.17(kW/h). 3.为了解学生身高情况,某校以10%的比例对全校700名学生按性别进行分层抽样调查,测得身高情况的统计图如图所示. (1)估计该校男生的人数; (2)估计该校学生身高在170~185 cm之间的概率; (3)从样本中身高在180~190 cm之间的男生中任选2人,求至少有1人身高在185~190 cm之间的概率. 解:(1)样本中男生人数为40,分层抽样比为10%. 故估计全校男生人数为400. (2)由统计图知,样本中身高在170~185 cm之间的学生有14+13+4+3+1=35人,样本容量为70. 故该校学生身高在170~185 cm之间的概率 P1==0.5. (3)由统计图知,样本中身高在180~185 cm之间的男生有4人(不妨设为A、B、C、D),样本身高在185~190 cm之间的男生有2人(不妨设为E,F)从身高在180~190 cm之间的6人中任选2人有15种结果,其中至少1人身高在185~190 cm之间的结果有9种, 故所求事件的概率P2==.。
第二节用样本估计总体热点命题分析学科核心素养从近五年高考来看,主要考查利用频率分布直方图、茎叶图、样本的数字特征估计总体,各种题型都有,难度中档偏下.本节主要通过用样本估计总体提升数据分析与数学运算与直观想象核心素养.授课提示:对应学生用书第218页知识点一频率分布直方图、茎叶图1.作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差);(2)决定组距与组数;(3)将数据分组;(4)列频率分布表;(5)画频率分布直方图.2.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.3.茎叶图的优点茎叶图的优点是不但可以保存所有信息,而且可以随时记录,这对数据的记录和表示都能带来方便.•温馨提醒•频率分布直方图与众数、中位数与平均数的关系(1)最高的小长方形底边中点的横坐标即是众数的估计值.(2)中位数左边和右边的小长方形的面积和是相等的.(3)平均数是频率分布直方图的“重心〞,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.1.学校为了解学生在课外读物方面的支出情况,抽取了n位同学进展调查,结果显示这些同学的支出都在[10,50](单位:元)之间,其频率分布直方图如下列图,其中支出在[10,30)(单位:元)内的同学有33人,如此支出在[40,50](单位:元)内的同学人数为( )A.100 B.120C.30 D.300答案:C2.在如下列图的茎叶图所示的数据中,众数和中位数分别是( )A.23,26B.31,26C.24,30D.26,30答案:B3.(2021·某某中学五调)某“跑团〞为了解团队每月跑步的平均里程,收集并整理了2020年1月至2020年11月期间“跑团〞每月跑步的平均里程(单位:千米)的数据,绘制了下面的折线图.根据折线图,如下结论正确的答案是( )A.月跑步平均里程的中位数为6月份对应的平均里程数B.月跑步平均里程逐月增加C.月跑步平均里程顶峰期大致在8月和9月D.1月至5月的月跑步平均里程相对于6月至11月,波动性更小,变化比拟平稳答案:D知识点二样本的数字特征1.众数、中位数、平均数数字特征概念优点与缺点众数一组数据中重复出现次数最多的数众数通常用于描述变量的值出现次数最多的数.但显然它对其他数据信息的无视使它无法客观地反映总体特征中位数把一组数据按从小到大的顺序排列,处在中间位置的一个数据(或两个数据的平均数)中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点数字特征概念优点与缺点平均数如果有n个数据x1,x2,…,x n,那么这n个数的平均数x=平均数与每一个样本数据有关,可以反映出更多的关于样本数据全体的信息,但平均数x 1+x 2+…+x nn受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低2.标准差、方差(1)标准差:样本数据到平均数的一种平均距离,一般用s 表示,s =1n[x 1-x2+x 2-x 2+…+x n -x 2].(2)方差:标准差的平方s 2s 2=1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中x i (i =1,2,3,…,n )是样本数据,n 是样本容量,x 是样本平均数. •温馨提醒•1.众数、中位数与平均数都是描述一组数据集中趋势的量,平均数是最重要的量. 2.平均数反映的是样本个体的平均水平,众数和中位数如此反映样本中个体的“重心〞.1.样本数据3,5,7,4,6,如此该样本标准差为( ) A .1B . 2C.3D .2答案:B2.(易错题)10名工人某天生产同一零件,生产的零件数分别是15,17,14,10,15,17,17,16,14,12,设其平均数为a ,中位数为b ,众数为c ,如此有( ) A .a >b >c B .b >c >a C .c >a >b D .c >b >a 答案:D授课提示:对应学生用书第220页题型一统计图表的应用自主探究1.(多项选择题)新冠肺炎疫情的出现警示我们,人类不文明的行为为各种致病细菌和病毒提供了传播途径,成为现代文明生活的致命软肋,对人类的健康和生命构成了严重威胁.首都文明工程基金会和文明杂志社倡议启动新时代文明工程:呼吁社会公益组织、新媒体和企业机构携手——“餐桌革命公筷行动〞!某机构调查了某地区局部居民疫情前后对餐桌革命(公筷公勺、分餐制)的支持情况,得到如下统计图,如此如下说法正确的答案是( )A.疫情后仅支持公筷公勺和仅支持分餐的居民均增多B.疫情前后仅支持公筷公勺的居民均多于仅支持分餐的居民C.疫情后,不支持餐桌革命的比例下降幅度低于支持餐桌革命的上升幅度D.疫情后,人们的健康饮食意识明显提高解析:由饼图可知,疫情后仅支持公筷公勺和仅支持分餐的比例分别上升至10%,7%,故A 正确;疫情前后,仅支持公筷公勺的比例分别为8%,10%,仅支持分餐的比例分别为5%,7%,故B正确;疫情后,不支持餐桌革命的比例下降了42%,支持餐桌革命的比例上升了38%,故C错误;由题图易得,人们的健康饮食意识明显提高,故D正确.答案:ABD2.(2021·某某摸底)某班级在一次数学竞赛中设置了一等奖、二等奖、三等奖以与参与奖,各个奖品的单价分别为一等奖20元、二等奖10元、三等奖5元、参与奖2元,获奖人数的分配情况如下列图,如此以下说法不正确的答案是( )A.获得参与奖的人数最多B.各个奖项中三等奖的总费用最高D.购置奖品的费用的中位数为2元答案:C利用折线图、饼图分析问题的关键是结合图形,弄清图中数据,读准问题要求.题型二频率分布直方图合作探究[例](2021·某某五校联考)随着新课程改革和高考综合改革的实施,高中教学以开展学生学科核心素养为导向,学习评价更关注学科核心素养的形成和开展.为此,某市于2020年举行第一届高中数学学科素养竞赛,竞赛完毕后,为了评估该市高中学生的数学学科素养,从所有参赛学生中随机抽取1 000名学生的成绩(单位:分)作为样本进展估计,将抽取的成绩整理后分成五组,依次记为[50,60),[60,70),[70,80),[80,90),[90,100],并绘制成如下列图的频率分布直方图.(1)请补全频率分布直方图,并估计这1 000名学生成绩的平均数(同一组数据用该组区间的中点值作代表);(2)该市决定对本次竞赛成绩排在前180名的学生给予表彰,授予“数学学科素养优秀标兵〞称号,一名学生本次竞赛成绩为79分,请你判断该学生能否被授予“数学学科素养优秀标兵〞称号.[解析](1)成绩在[60,70)的频率为1-(0.30+0.15+0.10+0.05)=0.40,补全的频率分布直方图如图:样本的平均数x =55×0.30+65×0.40+75×0.15+85×0.10+95×0.05=67.(2)因为1801 000=0.18,所以由频率分布直方图可以估计获得“数学学科素养优秀标兵〞称号学生的最低成绩为80-=78(分).因为79>78,所以该同学能被授予“数学学科素养优秀标兵〞称号.由频率分布直方图进展相关计算时,需掌握的两个关系式 (1)频率组距×组距=频率. (2)频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数. [对点训练](2020·高考某某卷)从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),…,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,如此在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( )A .10B .18C .20D .36解析:由题知[5.43,5.45)与[5.45,5.47)所对应的小矩形的高分别为6.25,5.00,所以[5.43,5.47)的频率为(6.25+5.00)×0.02=0.225,所以直径落在区间[5.43,5.47)内的个数为80×0.225=18. 答案:B题型三 样本的数字特征与应用 合作探究[例](2019·高考全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.y 的分组[-0.20,0) [0,0.20) [0.20,0.40) [0.40,0.60) [0.60,0.80) 企业数22453147(1) (2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(准确到0.01) 附:74≈8.602.[解析](1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y=1100××××××7)=0.30,s2=1100i=15n i(y i-y)2=1100×[(-0.40)2×2+(-0.20)2×24+02×2×2×7]=0.029 6,s=0.029 6×74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.利用样本的数字特征解决优化决策问题(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.[题组突破]1.(2020·高考全国卷Ⅲ)设一组样本数据x1,x2,…,x n的方差为0.01,如此数据10x1,10x2,…,10x n的方差为( )C.1D.10答案:C2.为比拟甲、乙两名篮球运动员的近期竞技状态,选取这两名球员最近五场比赛的得分,制成如下列图的茎叶图.有如下结论:①甲最近五场比赛得分的中位数高于乙最近五场比赛得分的中位数; ②甲最近五场比赛得分的平均数低于乙最近五场比赛得分的平均数; ③从最近五场比赛的得分看,乙比甲更稳定; ④从最近五场比赛的得分看,甲比乙更稳定. 其中所有正确结论的编号为( )A .①③B .①④C .②③D .②④解析:对于①,甲得分的中位数为29,乙得分的中位数为30,错误;对于②,甲得分的平均数为15×(25+28+29+31+32)=29,乙得分的平均数为15×(28+29+30+31+32)=30,正确;对于③,甲得分的方差为15×[(25-29)2+(28-29)2+(29-29)2+(31-29)2+(32-29)2]=15×(16+1+0+4+9)=6,乙得分的方差为15×[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]=15×(4+1+0+1+4)=2,所以乙比甲更稳定,③正确,④错误.所以正确结论的编号为②③. 答案:C用样本估计总体应用中的核心素养直观想象、数据分析——用样本估计总体的创新问题[例](2021·某某市一调)某大学生在开学季准备销售一种文具盒进展试创业,在一个开学季内,每售出1盒该产品获得的利润为30元,未售出的产品,每盒亏损10元.该大学生通过查询资料得到开学季市场需求量的频率分布直方图,如下列图.该大学生为这个开学季购进了160盒该产品,以x (单位:盒,100≤x ≤200)表示这个开学季内的市场需求量,y (单位:元)表示这个开学季内经销该产品的利润.(1)根据直方图估计这个开学季内市场需求量x 的众数和平均数;(2)将y 表示为x 的函数;(3)根据直方图估计利润y 不少于4 000元的概率.[解析](1)由题中频率分布直方图得,这个开学季内市场需求量x 的众数是150盒, 需求量在[100,120)内的频率为0.005 0×20=0.1,需求量在[120,140)内的频率为0.010 0×20=0.2,需求量在[140,160)内的频率为0.015 0×20=0.3,需求量在[160,180)内的频率为0.012 5×20=0.25,需求量在[180,200]内的频率为0.007 5×20=0.15.如此平均数x =110×0.1+130×0.2+150×0.3+170×0.25+190×0.15=153(盒).(2)因为每售出1盒该产品获得的利润为30元,未售出的产品,每盒亏损10元, 所以当100≤x <160时,y =30x -10×(160-x )=40x -1 600;当160≤x ≤200时,y =160×30=4 800.所以y =⎩⎪⎨⎪⎧40x -1 600,100≤x <160,4 800,160≤x ≤200. (3)因为利润y 不少于4 000元,所以当100≤x <160时,由40x -1 600≥4 000,解得140≤x<160;当160≤x≤200时,y=4 800>4 000恒成立,所以140≤x≤200时,利润y不少于4 000元.故由(1)知利润y不少于4 000元的概率P=1-0.1-0.2=0.7.用样本估计总体常与函数、不等式、概率求法等交汇考查,处理时需注意读图数据的准确性与交汇点的应用.[对点训练]如图是依据某城市年龄在20岁到45岁的居民上网情况调查而绘制的频率分布直方图,现年龄在[30,35),[35,40),[40,45]的网民人数成递减的等差数列,如此年龄在[35,40)的网民出现的频率为( )A.0.04答案:C。
10.2 用样本估计总体考纲传真1.了解分布的意义和作用,会列频率分布表、会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.5.会用样本估计总体的思想解决一些简单的实际问题.1.作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差).(2)决定组距与组数.(3)将数据分组.(4)列频率分布表.(5)画频率分布直方图.2.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.3.茎叶图统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数.4.标准差和方差(1)标准差是样本数据到平均数的一种平均距离. (2)标准差: s =1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]. (3)方差:s 2=1n 『(x 1-x )2+(x 2-x )2+…+(x n -x )2』(x n 是样本数据,n 是样本容量,x 是样本平均数).)图9-3-11.(人教A 版教材习题改编)若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是( )A .91.5和91.5B .91.5和92C .91和91.5D .92和92『解析』 这组数据由小到大排列为87,89,90,91,92,93,94,96. ∴中位数是91+922=91.5.平均数x =87+89+90+91+92+93+94+968=91.5.『答案』 A2.有一个容量为66的样本,数据的分组及各组的频数如下: 『11.5,15.5) 2 『15.5,19.5) 4 『19.5,23.5) 9 『23.5,27.5) 18 『27.5,31.5) 11 『31.5,35.5) 12 『35.5,39.5) 7 『39.5,43.5) 3根据样本的频率分布估计,数据落在『31.5,43.5)的概率约是( ) A.16 B.13C.12D.23『解析』 由已知,样本容量为66,而落在『31.5,43.5)内的样本数为12+7+3=22,故所求概率为2266=13.『答案』 B3.(2012·山东高考)在某次测量中得到的A 样本数据如下:82,84,84,86,86,86,88,88,88,88.若B 样本数据恰好是A 样本数据每个都加2后所得数据,则A ,B 两样本的下列数字特征对应相同的是( )A .众数B .平均数C .中位数D .标准差『解析』 对样本中每个数据都加上一个非零常数时不改变样本的方差和标准差,众数、中位数、平均数都发生改变.『答案』 D4.某雷达测速区规定:凡车速大于或等于70 km/h 的汽车视为“超速”,并将受到处罚,如图9-3-2是某路段的一个检测点对200辆汽车的车速进行检测所得结果的频率分布直方图,则从图中可以看出被处罚的汽车大约有( )图9-3-2A .30辆B .40辆C .60辆D .80辆『解析』 由题图可知,车速大于或等于70 km/h 的汽车的频率为0.02×10=0.2,则将被处罚的汽车大约有200×0.2=40(辆).『答案』 B图9-3-35.(2012·湖南高考)如图9-3-3所示是某学校一名篮球运动员在五场比赛中所得分数的茎叶图,则该运动员在这五场比赛中得分的方差为________.(注:方差s 2=1n 『(x 1-x )2+(x 2-x )2+…+(x n -x )2』,其中x 为x 1,x 2,…,x n 的平均数)『解析』 依题意知,运动员在5次比赛中的分数依次为8,9,10,13,15,其平均数为8+9+10+13+155=11.由方差公式得s 2=15『(8-11)2+(9-11)2+(10-11)2+(13-11)2+(15-11)2』=15(9+4+1+4+16)=6.8.『答案』 6.8频率分布直方图及其应用(2012·广东高考)某班100名学生期中考试语文成绩的频率分布直方图如图9-3-4所示,其中成绩分组区间是:『50,60),『60,70),『70,80),『80,90),『90,100』.图9-3-4(1)求图中a 的值;(2)根据频率分布直方图,估计这100名学生语文成绩的平均分;(3)若这100名学生语文成绩某些分数段的人数(x )与数学成绩相应分数段的人数(y )之比如下表所示,求数学成绩在『50,90)之外的人数.分数段 『50,60) 『60,70) 『70,80) 『80,90) x ∶y1∶12∶13∶44∶5『思路点拨』 (1)根据各小长方形的面积和为1,求a ;(2)借助频率分布直方图的中点估计平均分.(3)先求语文成绩在各段的人数,进而求数学成绩在『50,90)之外的人数.『尝试解答』 (1)由频率分布直方图知(0.04+0.03+0.02+2a )×10=1,因此a =0.005.(2)55×0.05+65×0.4+75×0.3+85×0.2+95×0.05=73.所以平均分为73分.(3)分别求出语文成绩分数段在『50,60),『60,70),『70,80),『80,90)的人数依次为0.05×100=5,0.4×100=40,0.3×100=30,0.2×100=20.所以数学成绩分数段在『50,60),『60,70),『70,80),『80,90)的人数依次为5,20,40,25.所以数学成绩在『50,90)之外的人数有100-(5+20+40+25)=10(人).,1.求解本题关键有两点:(1)利用各组中值估计平均分,(2)在第(3)问中,利用频率分布直方图求语文成绩在各段的人数.2.(1)明确频率分布直方图的意义,即图中的每一个小矩形的面积是数据落在该区间上的频率,所有小矩形的面积之和为 1.(2)对于统计图表类题目,最重要的是认真观察图表,从中提炼有用的信息和数据.某中学为了解学生数学课程的学习情况,在3 000名学生中随机抽取200名,并统计这200名学生的某次数学考试成绩,得到了样本的频率分布直方图(如图9-3-5).根据频率分布直方图推测,这3 000名学生在该次数学考试中成绩小于60分的学生数是________.图9-3-5『解析』由样本频率分布直方图知,数学考试中成绩小于60分的频率为(0.002+0.006+0.012)×10=0.2,∴估计总体中成绩小于60分的概率约为0.2,故所求成绩小于60分的学生数约为3 000×0.2=600人. 『答案』 600茎叶图的绘制及应用某班甲、乙两学生的高考备考成绩如下: 甲:512 554 528 549 536 556 534 541 522 538 乙:515 558 521 543 532 559 536 548 527 531 (1)用茎叶图表示两学生的成绩; (2)分别求两学生成绩的中位数和平均分.『思路点拨』 解答本题可以百位,十位数字为茎,个位数字为叶作茎叶图,再利用茎叶图求中位数及平均分.『尝试解答』 (1)两学生成绩的茎叶图如图所示:(2)将甲、乙两学生的成绩从小到大排列为: 甲:512 522 528 534 536 538 541 549 554 556 乙:515 521 527 531 532 536 543 548 558 559从以上排列可知甲学生成绩的中位数为536+5382=537.乙学生成绩的中位数为532+5362=534.甲学生成绩的平均数为500+12+22+28+34+36+38+41+49+54+5610=537,乙学生成绩的平均数为500+15+21+27+31+32+36+43+48+58+5910=537.,1.(1)作样本的茎叶图时先要根据数据特点确定茎、叶,再作茎叶图.(2)作样本的茎叶图一般对称作图,数据排列由内向外,从小到大排列,便于数据的处理. 2.由于茎叶图完全反映了所有的原始数据,解决由茎叶图给出的统计图表试题时,就要充分使用这个图表提供的数据进行相关的计算或者是对某些问题作出判断,这类试题往往伴随着对数据组的平均值或者是方差的计算等.图9-3-6(2012·陕西高考)从甲、乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图9-3-6所示).设甲、乙两组数据的平均数分别为x 甲、x 乙,中位数分别为m 甲、m 乙,则( )A .x 甲<x 乙,m 甲>m 乙B .x 甲<x 乙,m 甲<m 乙C .x 甲>x 乙,m 甲>m 乙D .x 甲>x 乙,m 甲<m 乙『解析』 由茎叶图知m 甲=22+182=20,m 乙=27+312=29.∴m 甲<m 乙.x 甲=116(41+43+30+30+38+22+25+27+10+10+14+18+18+5+6+8)=34516,x 乙=116(42+43+48+31+32+34+34+38+20+22+23+23+27+10+12+18)=45716.∴x 甲<x 乙. 『答案』 B数字特征的总体估计甲、乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图9-3-7.图9-3-7(1)分别求出两人得分的平均数与方差;(2)根据图和上面算得的结果,对两人的训练成绩作出评价. 『思路点拨』 (1)先通过图象统计出甲、乙二人的成绩; (2)利用公式求出平均数、方差,再分析两人的成绩,作出评价. 『尝试解答』 (1)由图象可得甲、乙两人五次测试的成绩分别为 甲:10分,13分,12分,14分,16分; 乙:13分,14分,12分,12分,14分. x 甲=10+13+12+14+165=13,x 乙=13+14+12+12+145=13,s 2甲=15『(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2』=4, s 2乙=15『(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2』=0.8. (2)由s 2甲>s 2乙可知乙的成绩较稳定. 从折线图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高.,1.平均数和方差都是重要的数字特征,是对总体一种简明的阐述,平均数反映了数据的中心,是平均水平,而方差和标准差反映的是数据的稳定程度.进行均值与方差的计算,关键是正确运用公式.2.平均数与方差所反映的情况有着重要的实际意义,一般可以通过比较甲、乙两组样本数据的平均数和方差的差异,对甲、乙两品种可以做出评价或选择.(2012·安徽高考)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图9-3-8所示,则( )图9-3-8A .甲的成绩的平均数小于乙的成绩的平均数B .甲的成绩的中位数等于乙的成绩的中位数C .甲的成绩的方差小于乙的成绩的方差D .甲的成绩的极差小于乙的成绩的极差 『解析』 由条形统计图知:甲射靶5次的成绩分别为:4,5,6,7,8; 乙射靶5次的成绩分别为:5,5,5,6,9,所以x 甲=4+5+6+7+85=6;x 乙=5+5+5+6+95=6.所以x 甲=x 乙.故A 不正确.甲的成绩的中位数为6,乙的成绩的中位数为5,故B 不正确. s 2甲=15『(4-6)2+(5-6)2+(6-6)2+(7-6)2+(8-6)2』=15×10=2, s 2乙=15『(5-6)2+(5-6)2+(5-6)2+(6-6)2+(9-6)2』=15×12=125,因为2<125,所以s 2甲<s 2乙. 故C 正确.甲的成绩的极差为:8-4=4,乙的成绩的极差为:9-5=4,故D 不正确.故选C.『答案』 C一种思想用样本估计总体是统计的基本思想.两点注意1.频率分布直方图与统计条形图不同.2.(1)众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量,与每个样本数据有关,这是中位数、众数所不具有的性质.(2)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度就越大.三个特征利用频率分布直方图估计样本的数字特征:(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数值.(2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和.(3)众数:最高的矩形的中点的横坐标.从近两年高考看,用样本估计总体能较好地考查学生的数学应用意识,是高考的热点之一,主要考查频率分布直方图、茎叶图、用样本的数字特征估计总体数字特征,并出现统计与概率相结合的命题趋向,应引起足够重视.规范解答之十六图表信息题的求解方法(12分)(2011·北京高考)以下茎叶图记录了甲、乙两组各四名同学的植树棵数,乙组记录中有一个数据模糊,无法确认,在图中以X表示.图9-3-9(1)如果X =8,求乙组同学植树棵数的平均数和方差;(2)如果X =9,分别从甲、乙两组中随机选取一名同学,求这两名同学的植树总棵数为19的概率.『规范解答』 (1)当X =8时,由茎叶图可知, 乙组同学植树棵数是8,8,9,10.2分 ∴平均数x =8+8+9+104=354;方差s 2=14『(8-354)2+(8-354)2+(9-354)2+(10-354)2』=1116.6分(2)记甲组四名同学为A 1,A 2,A 3,A 4,他们植树的棵数依次为9,9,11,11;乙组四名同学为B 1,B 2,B 3,B 4,他们植树的棵数依次为9,8,9,10.分别从甲、乙两组中随机选取一名同学,所有可能的结果有16个,它们是: (A 1,B 1),(A 1,B 2),(A 1,B 3),(A 1,B 4), (A 2,B 1),(A 2,B 2),(A 2,B 3),(A 2,B 4), (A 3,B 1),(A 3,B 2),(A 3,B 3),(A 3,B 4), (A 4,B 1),(A 4,B 2),(A 4,B 3),(A 4,B 4),10分记“选出的两名同学的植树总棵数为19”为事件C ,事件C 的结果有(A 1,B 4),(A 2,B 4),(A 3,B 2),(A 4,B 2)共4个基本事件.∴P (C )=416=14.12分『解题程序』 第一步:由茎叶图,确定乙组数据信息; 第二步:计算数字特征:平均数与方差;第三步:列举确定试验结果及事件C 的基本事件; 第四步:利用古典概型求事件概率;第五步:反思回顾,查看易错易误点,规范步骤.易错提示:(1)对统计图表数据信息提炼不准确,对方差的计算公式掌握不住或计算失误导致失分.(2)求不出“分别从甲、乙两组中随机选取一名同学”的所有情况导致概率求错而失分. 防范措施:(1)准确理解茎叶图,茎是指中间的一列数,叶就是从茎的旁边生长出来的数,并提炼数据信息.(2)理解题意,明确试验的含义,不重不漏列举所有基本事件,是正确计算古典概型的前提.1.(2012·广东高考)由正整数组成的一组数据x 1,x 2,x 3,x 4,其平均数和中位数都是2,且标准差等于1,则这组数据为________.(从小到大排列)『解析』 假设这组数据按从小到大的顺序排列为x 1,x 2,x 3,x 4, 则⎩⎨⎧x 1+x 2+x 3+x44=2,x 2+x 32=2,∴⎩⎪⎨⎪⎧x 1+x 4=4,x 2+x 3=4.又s =14[(x 1-2)2+(x 2-2)2+(x 3-2)2+(x 4-2)2] =12(x 1-2)2+(x 2-2)2+(4-x 2-2)2+(4-x 1-2)2 =122[(x 1-2)2+(x 2-2)2] =1,∴(x 1-2)2+(x 2-2)2=2. 同理可求得(x 3-2)2+(x 4-2)2=2.由x 1,x 2,x 3,x 4均为正整数,且(x 1,x 2),(x 3,x 4)均为圆(x -2)2+(y -2)2=2上的点,分析知x 1,x 2,x 3,x 4应为1,1,3,3.『答案』 1,1,3,32.(2013·潍坊模拟)某种产品的质量以其质量指标值衡量,质量指标值越大表明质量越好,且质量指标值大于或等于102的产品为优质品.现用两种新配方(分别称为A 配方和B 配方)做试验,各生产了100件这种产品,并测量了每件产品的质量指标值,得到下面试验结果:A 配方的频数分布表指标值分组 『90,94)『94,98)『98,102)『102,106)『106,110)频数82042228B 配方的频数分布表 指标值分组 『90,94)『94,98)『98,102)『102,106)『106,110)频数412423210(1)分别估计用A 配方,B 配方生产的产品的优质品率; (2)已知用B 配方生产的一件产品的利润y (单位:元) 与其质量指标值t 的关系式为y =⎩⎪⎨⎪⎧-2, t <94,2, 94≤t <102,4, t ≥102.估计用B 配方生产的一件产品的利润大于0的概率,并求用B 配方生产的上述100件产品平均一件的利润.『解』 (1)由试验结果知,用A 配方生产的产品中优质品的频率为22+8100=0.3,所以用A 配方生产的产品的优质品率的估计值为0.3.由试验结果知,用B 配方生产的产品中优质品的频率为32+10100=0.42.所以用B 配方生产的产品的优质品率的估计值为0.42.(2)由条件知,用B 配方生产的一件产品的利润大于0,当且仅当其质量指标值t ≥94,由试验结果知,质量指标值t ≥94的频率为0.96.所以用B 配方生产的一件产品的利润大于0的概率估计值为0.96. 用B 配方生产的产品平均一件的利润为 1100×『4×(-2)+54×2+42×4』=2.68(元).。
第二讲 用样本估计总体知识梳理·双基自测 知识梳理知识点一 用样本的频率分布估计总体分布 (1)频率分布表与频率分布直方图频率分布表和频率分布直方图,是从各个小组数据在样本容量中所占比例大小的角度,来表示数据分布规律,从中可以看到整个样本数据的频率分布情况.绘制频率分布直方图的步骤为:①_求极差__;②_决定组距与组数__;③_将数据分组__;④_列频率分布表__;⑤_画频率分布直方图__.(2)频率分布折线图顺次连接频率分布直方图中_各小长方形上端的中点__,就得到频率分布折线图. (3)总体密度曲线总体密度曲线反映了总体在各个X 围内取值的百分比,它能提供更加精细的信息. 知识点二 茎叶图(1)茎叶图中茎是指_中间__的一列数,叶是从茎的_旁边__生长出来的数.(2)茎叶图的优点是可以_保存__原始数据,而且可以_随时__记录,这对数据的记录和表示都能带来方便.知识点三 样本的数字特征(1)众数:一组数据中出现次数最多的数.(2)中位数:将数据从小到大排列,假如有奇数个数,如此最中间的数是中位数;假如有偶数个数,如此中间两数的平均数是中位数.(3)平均数:x =_x 1+x 2+…+x nn__,反映了一组数据的平均水平.(4)标准差:s =_1n[x 1-x 2+x 2-x 2+…+x n -x 2]__,反映了样本数据的离散程度.(5)方差:s 2=_1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]__,反映了样本数据的离散程度.重要结论(1)假如一组数据x i (i =1,2,…,n )的平均数为x -,方差为s 2,如此数据组ax i +b (i =1,2,…,n ,a ,b 为常数)的平均数为a x -+b ,方差为a 2·s 2.(2)频率分布直方图与众数、中位数与平均数的关系 ①最高的小长方形底边中点的横坐标即是众数.②中位数左边和右边的小长方形的面积和是相等的,均为12.③平均数是频率分布直方图的“重心〞,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.双基自测题组一 走出误区1.判断如下结论是否正确(请在括号中打“√〞或“×〞)(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( √ ) (2)一组数据的众数可以是一个或几个,那么中位数也具有一样的结论.( × ) (3)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( √ )(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,一样的数据可以只记一次.( × )(5)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( √ )(6)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.( ×)题组二走进教材2.(P81A组T1改编)某班级局部同学一次测验的成绩统计如图,如此其中位数和众数分别为( B )A.95,94B.92,86C.99,86D.95,91[解析]由茎叶图可知,此组数据由小到大排列依次76,79,81,83,86,86,87,91,92,94,95,96,98,99,101,103,114,共17个,故92为中位数,出现次数最多的为众数,故众数为86,应当选B .3.(P7T1)如图是100位居民月均用水量的频率分布直方图,如此月均用水量为[2,2.5)X 围内的居民有_25__人.[解析]100××0.5)=25(人).题组三走向高考4.(2020·新课标Ⅲ)设一组样本数据x1,x2,…,x n的方差为0.01,如此数据10x1,10x2,…,10x n的方差为( C )C.1D.10[解析]∵样本数据x1,x2,…,x n的方差为0.01,∴根据任何一组数据同时扩大几倍方差将变为平方倍增长,∴数据10x1,10x2,…,10x n的方差为:100×0.01=1,应当选C.5.(2020·某某)从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),…,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,如此在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( B )A.10B.18C.20D.36[解析]直径落在区间[5.43,5.47)的频率为(6.25+5)××80 =18个,应当选B.考点突破·互动探究考点一频率分布直方图——自主练透例1 (1)(2021·某某某某十四县联考)中央电视台播出《中国诗词大会》火遍全国,下面是组委会在选拔赛时随机抽取的100名选手的成绩,按成绩分组,得到的频率分布表如下所示:组号分组频数频率第1组[160,165)笫2组[165,170)①第3组[170,175)20②第4组[175,180)20第5组[180,185)10合计100(ⅰ)请先求出频率分布表中①、②位置的相应数据,再完成频率分布直方图(用阴影表示).(ⅱ)为了能选拔出最优秀的选手,组委会决定在笔试成绩高的第3,4,5组中用分层抽样抽取5名选手进入第二轮面试,如此第3,4,5组每组各抽取多少名选手进入第二轮面试?(ⅲ)在(ⅱ)的前提下,组委会决定在5名选手中随机抽取2名选手承受考官A面试,求第4组至少有一名选手被考官A面试的概率.(2)(2021·某某某某质检)2018年9月的台风“山竹〞对我国多个省市的财产造成重大损害,据统计直接经济损失达52亿元.某青年志愿者组织调查了某地区的50个农户在该次台风中造成的直接经济损失,将收集的损失数据分成五组:[0,2 000],(2 000,4 000],(4 000,6 000],(6 000,8 000],(8 000,10 000](单位:元),得到如下列图的频率分布直方图.(ⅰ)试根据频率分布直方图估计该地区每个农户的损失(同一组中的数据用该区间的中点值代表);(ⅱ)台风后该青年志愿者与当地政府向社会发出倡议,为该地区的农户捐款帮扶,现从这50户损失超过4 000元的农户中随机抽取2户进展重点帮扶,设抽出损失超过8 000元的农户数为X,求X的分布列和数学期望.[解析](1)(ⅰ)第1组的频数为100×0.100=10,所以①处应填的数为100-(10+20+20+10)=40, 从而第2组的频率为40100=0.400.②处应填的数为1-(0.1+0.4+0.2+0.1)=0.200. 频率分布直方图如下列图.(ⅱ)因为第3,4,5组共有50名选手,所以利用分层抽样在50名选手中抽取5名选手进入第二轮面试时,每组抽取的人数分别为:第3组:2050×5=2,第4组:2050×5=2,第5组:1050×5=1,所以第3,4,5组分别抽取2人,2人,1人进入第二轮面试. (ⅲ)记“第4组至少有一名选手被考官A 面试〞为事件A ,如此P (A )=C 12C 13+C 22C 25=710. ⎝⎛⎭⎪⎫或P A =1-P A -=1-C 23C 25=710(2)(ⅰ)记每个农户的平均损失为x -元,如此x -=1 000×0.3+3 000×0.4+5 000×0.18+7 000×0.06+9 000×0.06=33 601; (ⅱ)由频率分布直方图,可得损失超过4 000元的农户共有(0.000 09+0.000 03+0.000 03)×2 000×50=15(户),损失超过8 000元的农户共有0.000 03×2 000×50=3(户),随机抽取2户,如此X 的可能取值为0,1,2;计算P (X =0)=C 212C 215=2235,P (X =1)=C 112C 13C 215=1235,P (X =2)=C 23C 215=135. 所以X 的分布列为:X 0 1 2P22351235135数学期望为E (X )=0×2235+1×1235+2×135=25.名师点拨应用频率分布直方图时的须知事项用频率分布直方图解决相关问题时,应正确理解图表中各个量的意义,识图掌握信息是解决该类问题的关键.频率分布直方图有以下几个要点:(1)纵轴表示频率/组距;(2)频率分布直方图中各长方形高的比也就是其频率之比;(3)频率分布直方图中每一个矩形的面积是样本数据落在这个区间上的频率,所有的小矩形的面积之和等于1,即频率之和为1.〔变式训练1〕(1)(2021·某某“皖南八校〞摸底)某校高三年级有400名学生,在一次数学测试中,成绩都在[80,130](单位:分)内,其频率分布直方图如图,如此这次测试数学成绩不低于100分的人数为_220__.(2)(2021·某某适应性考试)某病毒引起的肺炎的潜伏期平均为7天左右,短的约2~3天,长的约10~14天,甚至有20余天.某医疗机构对400名确诊患者的潜伏期进展统计,整理得到以下频率分布直方图.根据该直方图估计:要使90%的患者显现出明显病状,需隔离观察的天数至少是( C )A.12B.13C.14D.15[解析](1)根据频率分布直方图知:(2a+0.04+0.03+0.02)×10=1⇒a=0.005;计算出数学成绩不低于100分的频率为:(0.03+0.02+0.005)×10=0.55;×400=220人.(2)由题可知,第一,二,三,四,五组的频率分别为0.16,0.4,0.32,0.08,0.04.因为前三组的频率和为0.88,故要使90%的患者显现出明显病状,如此需隔离观察的天数至少是:13+=14,应当选C.考点二茎叶图——师生共研例2 (多项选择题)(2021·某某省某某市调研改编)胡萝卜中含有大量的β-胡萝卜素,摄入人体消化器官后,可以转化为维生素A,现从a,b两个品种的胡萝卜所含的β-胡萝卜素(单位mg)得到茎叶图如下列图,如此如下说法正确的答案是( ABD )A.x a<x bB.a的方差大于b的方差C.bD.a[解析]由茎叶图得:b品种所含β-胡萝卜素普遍高于a品种,∴x a<x b,故A正确;a品种的数据波动比b品种的数据波动大,∴a的方差大于b的方差,故B正确;b品种的众数为3.31与3.41,故C错误;a品种的数据的中位数为:=3.27,故D正确.名师点拨茎叶图的绘制与应用(1)茎叶图的绘制需注意:①“叶〞的位置只有一个数字,而“茎〞的位置的数字位数一般不需要统一;②重复出现的数据要重复记录,不能遗漏,特别是“叶〞的位置上的数据.(2)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比拟两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.〔变式训练2〕(2019·某某)如下列图的茎叶图记录了甲,乙两组各5名工人某日的产量数据(单位:件).假如这两组数据的中位数相等,且平均值也相等,如此x与y的值分别为( A )A .3,5B .5,5C .3,7D .5,7[解析]甲组数据的中位数为65,由甲、乙两组数据的中位数相等,得y =5.又甲、乙两组数据的平均值相等,∴15×(56+65+62+74+70+x )=15×(59+61+67+65+78),∴x =3.应当选A . 考点三 样本数字特征——多维探究 角度1 样本数字特征与频率分布直方图例3 (1)如下列图是一样本的频率分布直方图,如此由图形中的数据,可以估计众数与中位数分别是( B )A .12.5,12.5B .12.5,13C .13,12.5D .13,13[解析]由频率分布直方图可知,众数为10+152××5=0.5,在频率分布直方图中,中位数左边和右边的面积相等,所以中位数在区间[10,15)内.设中位数为x ,如此(x -10)×0.1=0.5-0.2,解得x =13.角度2 样本数字特征与茎叶图(2)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91,现场作的9个分数的茎叶图后来有1个数据模糊,无法识别,在图中以x 表示:⎪⎪⎪⎪897 74 0 1 0 x 9 1如此7个剩余分数的方差为_367__.[解析]由图可知去掉的两个数是87,99,所以87+90×2+91×2+94+90+x =91×7,解得x =4,∴s 2=17[(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]=367.角度3 样本数字特征的计算(3)(2021·某某某某、襄阳、某某、某某四地六校考试联盟联考)某7个数据的平均数为5,方差为4,现又参加一个新数据5,此时这8个数的方差s 2为( C )A .52B .3C .72D .4[解析]设某7个数据分别为a 1,a 2,…,a 7, 如此由题意得a 1+a 2+…+a 7=5×7=35, (a 1-5)2+(a 2-5)2+…+(a 7-5)2=4×7=28, 参加新数据5后的平均数x -=35+58=5,方差s 2=a 1-52+a 2-52+…+a 7-52+5-528=288=72.应当选C .名师点拨平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数,中位数,众数描述其集中趋势,方差和标准差描述其波动大小.〔变式训练3〕(1)(角度1)某小区共有1 000户居民,现对他们的用电情况进展调查,得到频率分布直方图如下列图,如此该小区居民用电量的中位数为_155__,平均数为___.(2)(角度2)(2021·某某某某八校联考)在一次技能比赛中,共有12人参加,他们的得分(百分制)茎叶图如图,如此他们得分的中位数和方差分别为( B )C .87 53.5D .89 54(3)高铁、扫码支付、共享单车、网购并称中国“新四大发明〞,近日对全国100个城市的共享单车和扫码支付的使用人数进展大数据分析,其中共享单车使用的人数分别为x 1,x 2,x 3,…,x 100,它们的平均数为x -,方差为s 2:其中扫码支付使用的人数分别为3x 1+2,3x 2+2,3x 3+2,…,3x 100+2,它们的平均数为x -′,方差为s ′2,如此x -′,s ′2分别为( C )A .3x -+2,3s 2+2B .3x -,3s 2 C .3x -+2,9s 2D .3x -+2,9s 2+2[解析](1)中位数为:150+(170-150)×x ×20××20××20××20××20××20×220=156.8.(2)由题可知,中位数为:87+912=89,先求平均数:x -=78+79+84+86+87+87+91+94+98+98+99+9912=90,S2=112[(-12)2+(-11)2+(-6)2+(-4)2+(-3)2+(-3)2+12+42+82+82+92+92]=53.5,故中位数为:89,方差为53.5,应当选:B.(3)显然x-′=3x-+2,而每个数据上都加上或减去一样数不影响方差,但每个数据都乘以a,如此方差变为原方差的a2倍,应当选C.考点四折线图——师生共研例4 (多项选择题)(2021·某某顶级名校模拟改编)如图是某地某月1日至15日的日平均温度变化的折线图,根据该折线图,如下结论不正确的答案是( BCD )A.连续三天日平均温度的方差最大的是7日,8日,9日三天B.这15天日平均温度的极差为15 ℃C.由折线图能预测16日温度要低于19 ℃D.由折线图能预测本月温度小于25 ℃的天数少于温度大于25 ℃的天数[解析]A选项,日平均温度的方差的大小取决于日平均温度的波动的大小,7,8,9三日的日平均温度的波动最大,故日平均温度的方差最大,正确;B选项,这15天日平均温度的极差为18 ℃,B错;C选项,由折线图无法预测16日温度是否低于19 ℃,故C错误;D选项,由折线图无法预测本月温度小于25 ℃的天数是否少于温度大于25 ℃的天数,故D错误.应当选B、C、D.名师点拨折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势.〔变式训练4〕(多项选择题)甲乙两名同学在本学期的六次考试成绩统计如图,甲乙两组数据的平均值分别为x-甲、x-乙,如此( BC )A.每次考试甲的成绩都比乙的成绩高B.甲的成绩比乙稳定C.x-甲一定大于x-乙D.甲的成绩的极差大于乙的成绩的极差[解析]第二次考试甲的成绩比乙低,A错;由图可知甲的成绩比乙的成绩波动小,B正确,D错;甲的平均成绩显然比乙的平均成绩高,C正确;应当选B、C.名师讲坛·素养提升高考与频率分布直方图例5(2021·某某省池州市期末)高三年级某班50名学生期中考试数学成绩的频率分布直方图如下列图,成绩分组区间为:[80,90),[90,100),[100,110),[110,120),[120,130),[130,140),[140,150].其中a,b,c成等差数列且c=2a,物理成绩统计如表.(说明:数学总分为150分,物理总分为100分)(2)根据物理成绩统计表,请估计物理成绩的中位数;(3)假如数学成绩不低于140分的为“优〞,物理成绩不低于90分的为“优〞,本班中至少有一个“优〞同学总数为6人,从此6人中随机抽取3人.记X 为抽到两个“优〞的学生人数,求X 的分布列和期望值.[解析](1)根据频率分布直方图得,(a +b +2c +0.024+0.020+0.004)×10 =1, 又因a +c =2b ,c =2a ,解得a =0.008,b =0.012,c =0.016, 故数学成绩的平均分 x -=85×0.04+95×0.12+105×0.16+115×0.2+125×0.24 +135×0.16+145×0.08=117.8(分),(2)总人数50分,由物理成绩统计表知,中位数在成绩区间[70,80), 所以物理成绩的中位数为75分.(3)数学成绩为“优〞的同学有4人,物理成绩为“优〞有5人,因为至少有一个“优〞的同学总数为6名同学,故两科均为“优〞的人数为3人,故X 的取值为0、1、2、3.P (X =0)=C 33C 36=120,P (X =1)=C 13C 23C 36=920,P (X =2)=C 23C 13C 36=920,P (X =3)=C 33C 36=120,所以分布列为:∴期望值为E (X )=0×120+1×920+2×920+3×120=32.名师点拨(1)通过统计图可以很清楚地表示出各局部数量同总数之间的关系. (2)准确理解频率分布直方图的数据特点是解题关键. 〔变式训练5〕(2019·高考全国Ⅲ卷)为了解甲、乙两种离子在小鼠体内的残留程度,进展如下试验:将200只小鼠随机分成A ,B 两组,每组100只,其中A 组小鼠给服甲离子溶液,B 组小鼠给服乙离子溶液,每只小鼠给服的溶液体积一样、摩尔浓度一样.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C 为事件:“〞,根据直方图得到P (C )的估计值为0.70. (1)求乙离子残留百分比直方图中a ,b 的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).[解析](1)由得0.70=a +0.20+0.15,故a =0.35.b =1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05, 乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.。
第2节 用样本估计总体最新考纲 1.了解分布的意义和作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点;2.理解样本数据标准差的意义和作用,会计算数据标准差;3.能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释;4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想;5.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.知 识 梳 理1.频率分布直方图 (1)频率分布表的画法:第一步:求极差,决定组数和组距,组距=极差组数;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间; 第三步:登记频数,计算频率,列出频率分布表. (2)频率分布直方图:反映样本频率分布的直方图(如图)横轴表示样本数据,纵轴表示频率组距,每个小矩形的面积表示样本落在该组内的频率.2.茎叶图统计中一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数.3.样本的数字特征(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.(2)中位数:把n 个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(3)平均数:把a 1+a 2+…+a nn称为a 1,a 2,…,a n 这n 个数的平均数.(4)标准差与方差:设一组数据x 1,x 2,x 3,…,x n 的平均数为x -,则这组数据的标准差和方差分别是s =1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2]s 2=1n[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2] [常用结论与微点提醒]1.频率分布直方图中各小矩形的面积之和为1.2.平均数、方差的公式推广(1)若数据x 1,x 2,…,x n 的平均数为x -,那么mx 1+a ,mx 2+a ,mx 3+a ,…,mx n +a 的平均数是mx -+a .(2)数据x 1,x 2,…,x n 的方差为s 2.①数据x 1+a ,x 2+a ,…,x n +a 的方差也为s 2; ②数据ax 1,ax 2,…,ax n 的方差为a 2s 2.诊 断 自 测1.思考辨析(在括号内打“√”或“×”)(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( ) (2)一组数据的方差越大,说明这组数据越集中.( )(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越大.( ) (4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( )解析 (1)正确.平均数、众数与中位数都在一定程度上反映了数据的集中趋势. (2)错误.方差越大,这组数据越离散. (3)正确.小矩形的面积=组距×频率组距=频率.(4)错误.茎相同的数据,叶可不用按从小到大的顺序写,相同的数据叶要重复记录,故(4)错误.答案 (1)√ (2)× (3)√ (4)×2.(必修3P70改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是( )A.91.5和91.5B.91.5和92C.91和91.5D.92和92解析 这组数据由小到大排列为87,89,90,91,92,93,94,96, ∴中位数是91+922=91.5,平均数x -=87+89+90+91+92+93+94+968=91.5.答案 A3.(2017·全国Ⅰ卷)为评估一种农作物的种植效果,选了n 块地作试验田.这n 块地的亩产量(单位:kg)分别为x 1,x 2,…,x n ,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( ) A.x 1,x 2,…,x n 的平均数 B.x 1,x 2,…,x n 的标准差 C.x 1,x 2,…,x n 的最大值 D.x 1,x 2,…,x n 的中位数解析 刻画评估这种农作物亩产量稳定程度的指标是标准差. 答案 B4.(2018·长沙一中质检)某雷达测速区规定:凡车速大于或等于70 km/h 的汽车视为“超速”,并将受到处罚.如图是某路段的一个检测点对200辆汽车的车速进行检测后所作的频率分布直方图,则从图中可以看出被处罚的汽车大约有( )A.30辆B.40辆C.60辆D.80辆解析 从频率分布直方图知,车速大于或等于70 km/h 的频率为0.02×10=0.2.由于样本容量为200,故“超速”被罚的汽车约有200×0.2=40(辆).答案 B5.(2016·江苏卷)已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是________. 解析 易求x -=15(4.7+4.8+5.1+5.4+5.5)=5.1,∴方差s 2=15[(-0.4)2+(-0.3)2+02+0.32+0.42]=0.1.答案0.1考点一 茎叶图及其应用【例1】 (1)(2017·山东卷)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为()A.3,5B.5,5C.3,7D.5,7(2)(2018·济南模拟)中国诗词大会的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成就按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词达人”称号的人数为( )98765⎪⎪⎪⎪1 2 5 6 80 0 1 2 4 5 7 80 2 2 3 3 3 4 5 5 6 90 2 2 3 4 4 4 5 7 7 8 96 6 8 9A.2B.4C.5D.6解析 (1)由茎叶图,可得甲组数据的中位数为65,从而乙组数据的中位数也是65,所以y=5. 由乙组数据59,61,67,65,78,可得乙组数据的平均值为66,故甲组数据的平均值也为66,从而有56+62+65+74+70+x 5=66,解得x =3.(2)由茎叶图可得,获“诗词达人”称号的有8人,据该次比赛的成就按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词达人”称号的人数为8×1040=2(人). 答案 (1)A (2)A规律方法 1.茎叶图的三个关注点(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一. (2)重复出现的数据要重复记录,不能遗漏.(3)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.2.利用茎叶图解题的关键是抓住“叶”的分布特征,准确从中提炼信息.【训练1】 (1)(2018·广东广雅中学联考)某市重点中学奥数培训班共有14人,分为两个小组,在一次阶段考试中两个小组成绩的茎叶图如图所示,其中甲组学生成绩的平均数是88,乙组学生成绩的中位数是89,则m +n 的值是( )A.10B.11C.12D.13(2)(2018·长沙模拟)空气质量指数(Air Quality Index ,简称AQI)是定量描述空气质量状况的指数,空气质量按照AQI 大小分为六级,0~50为优;51~100为良;101~150为轻度污染;151~200为中度污染;201~300为重度污染;大于300为严重污染.从某地一环保人士某年的AQI 记录数据中,随机抽取10个,用茎叶图记录如下.根据该统计数据,估计此地该年AQI 大于100的天数约为________(该年为365天).解析 (1)∵甲组学生成绩的平均数是88,∴由茎叶图可知78+86+84+88+95+90+m +92=88×7,∴m =3, ∵乙组学生成绩的中位数是89,∴n =9,∴m +n =12.(2)该样本中AQI 大于100的频数是4,频率为25,由此估计该地全年AQI 大于100的频率为25,估计此地该年AQI 大于100的天数约为365×25=146.答案 (1)C (2)146考点二 频率分布直方图(易错警示)【例2】 (2017·北京卷)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数; (3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.解 (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6, 所以样本中分数小于70的频率为1-0.6=0.4.所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4. (2)根据题意,样本中分数不小于50的频率为 (0.01+0.02+0.04+0.02)×10=0.9,分数在区间[40,50)内的人数为100-100×0.9-5=5. 所以总体中分数在区间[40,50)内的人数估计为400×5100=20. (3)由题意可知,样本中分数不小于70的学生人数为 (0.02+0.04)×10×100=60,所以样本中分数不小于70的男生人数为60×12=30.所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2. 规律方法 1.频率、频数、样本容量的计算方法 (1)频率组距×组距=频率. (2)频数样本容量=频率,频数频率=样本容量,样本容量×频率=频数. 2.例题中抓住频率分布直方图中各小长方形的面积之和为1,这是解题的关键,并利用频率分布直方图可以估计总体分布.易错警示 1.频率分布直方图的纵坐标是频率组距,而不是频率,切莫与条形图混淆.2.制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确. 【训练2】 某校2018届高三文(1)班在一次数学测验中,全班N 名学生的数学成绩的频率分布直方图如下,已知分数在110~120的学生有14人.(1)求总人数N 和分数在120~125的人数n ;(2)利用频率分布直方图,估算该班学生数学成绩的众数和中位数各是多少? 解 (1)分数在110~120内的学生的频率为P 1=(0.04+0.03)×5=0.35,所以该班总人数N =140.35=40. 分数在120~125内的学生的频率为P 2=1-(0.01+0.04+0.05+0.04+0.03+0.01)×5=0.10,分数在120~125内的人数n =40×0.10=4.(2)由频率分布直方图可知,众数是最高的小矩形底边中点的横坐标, 即为105+1102=107.5.设中位数为a ,∵0.01×5+0.04×5+0.05×5=0.50,∴a =110. ∴众数和中位数分别是107.5,110. 考点三 样本的数字特征【例3】 (1)(2018·济南一中质检)2017年2月20日,摩拜单车在济南推出“做文明骑士,周一摩拜单车免费骑”活动.为了解单车使用情况,记者随机抽取了五个投放区域,统计了半小时内被骑走的单车数量,绘制了如图所示的茎叶图,则该组数据的方差为( )A.9B.4C.3D.2(2)(2016·四川卷)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),……,[4,4.5]分成9组,制成了如图所示的频率分布直方图.①求直方图中a 的值;②设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由; ③估计居民月均用水量的中位数.(1)解析 由茎叶图得该组数据的平均数x -=15(87+89+90+91+93)=90.∴方差为15[(87-90)2+(89-90)2+(90-90)2+(91-90)2+(93-90)2]=4.答案 B(2)解①由频率分布直方图可知:月均用水量在[0,0.5)内的频率为0.08×0.5=0.04. 同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]等组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,解得a=0.30.②由①知,该市100位居民中月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.③设中位数为x吨.因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5.又前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5.所以2≤x<2.5.由0.50×(x-2)=0.5-0.48,解得x=2.04.故可估计居民月均用水量的中位数为2.04吨.规律方法 1.平均数反映了数据取值的平均水平,而方差、标准差描述了一组数据围绕平均数波动的大小,标准差、方差越大,数据离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.2.用样本估计总体就是利用样本的数字特征来描述总体的数字特征.【训练3】(2018·北京东城质检)某班男女生各10名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如下:假设每名同学最近一周平均每天的锻炼时间是互相独立的.①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大;②从平均值分析,男生每天锻炼的时间比女生多;③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;④从10个男生中任选一人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.其中符合茎叶图所给数据的结论是( ) A.①②③B.②③④C.①②④D.①③④解析 由茎叶图知,男生每天锻炼时间差别小,女生差别大,①正确.男生平均每天锻炼时间超过65分钟的概率P 1=510=12,女生平均每天锻炼时间超过65分钟的概率P 2=410=25,P 1>P 2,因此④正确.设男生、女生两组数据的平均数分别为x -甲,x -乙,标准差分别为s 甲,s 乙.易求x -甲=65.2,x -乙=61.8,知x -甲>x -乙,②正确.又根据茎叶图,男生锻炼时间较集中,女生锻炼时间较分散,∴s 甲<s 乙,③错误, 因此符合茎叶图所给数据的结论是①②④. 答案 C基础巩固题组 (建议用时:40分钟)一、选择题1.某班的全体学生参加英语测试,成绩的频率分布直方图如图所示,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是( )A.45B.50C.55D.60解析 由频率分布直方图,知低于60分的频率为(0.010+0.005)×20=0.3. ∴该班学生人数n =150.3=50.答案 B2.重庆市2017年各月的平均气温(℃)数据的茎叶图如下:则这组数据的中位数是( )A.19B.20C.21.5D.23解析从茎叶图知所有数据为8,9,12,15,18,20,20,23,23,28,31,32,中间两个数为20,20,故中位数为20.答案 B3.(2017·全国Ⅲ卷)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是( )A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳解析由题图可知,2014年8月到9月的月接待游客量在减少,则A选项错误.答案 A4.甲、乙、丙、丁四人参加某运动会射击项目的选拔赛,四人的平均成绩和方差如下表所示:从这四个人中选择一人参加该运动会射击项目比赛,最佳人选是( )A.甲B.乙C.丙D.丁解析由题表中数据可知,丙的平均环数最高,且方差最小,说明技术稳定,且成绩好. 答案 C5.(2016·山东卷)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )A.56B.60C.120D.140解析 由频率分布直方图可知每周自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,则每周自习时间不少于22.5小时的人数为0.7×200=140. 答案 D 二、填空题6.某校女子篮球队7名运动员身高(单位:cm)分布的茎叶图如图,已知记录的平均身高为175 cm ,但记录中有一名运动员身高的末位数字不清晰,如果把其末位数字记为x ,那么x 的值为________.解析 170+17×(1+2+x +4+5+10+11)=175,17×(33+x )=5,即33+x =35,解得x =2. 答案 27.(2018·宜春调研)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,……,第五组.下图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为________.解析 全体志愿者共有:20(0.24+0.16)×1=50(人),所以第三组有志愿者:0.36×1×50=18(人), ∵第三组中没有疗效的有6人, ∴有疗效的有18-6=12(人). 答案 128.若样本数据x 1,x 2,…,x 10的标准差为8,则数据2x 1-1,2x 2-1,…,2x 10-1的标准差为________.解析 依题意,x 1,x 2,x 3,…,x 10的方差s 2=64.则数据2x 1-1,2x 2-1,…,2x 10-1的方差为22s 2=22×64,所以其标准差为22×64=2×8=16. 答案 16 三、解答题9.某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x 的值;(2)求月平均用电量的众数和中位数.解 (1)由(0.002+0.009 5+0.011+0.012 5+x +0.005+0.002 5)×20=1,得x =0.007 5,所以直方图中x 的值为0.007 5.(2)月平均用电量的众数是220+2402=230.∵(0.002+0.009 5+0.011)×20=0.45<0.5,∴月平均用电量的中位数在[220,240]中,设中位数为a,则(0.002+0.009 5+0.011)×20+0.012 5×(a-220)=0.5.解得a=224,即中位数为224.10.(2016·北京卷)某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.解(1)由用水量的频率分布直方图,知该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15.所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.依题意,w至少定为3.(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表如下:根据题意,该市居民该月的人均水费估计为4×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).能力提升题组(建议用时:20分钟)11.(2018·邯郸一中质检)为比较甲乙两地某月11时的气温情况,随机选取该月5天11时的气温数据(单位:℃)制成如图所示的茎叶图,已知甲地该月11时的平均气温比乙地该月11时的平均气温高1 ℃,则甲地该月11时的平均气温的标准差为( )A.2B. 2C.10D.10解析甲地该月5天11时的气温数据(单位:℃)为28,29,30,30+m,32;乙地该月5天11时的气温数据(单位:℃)为26,28,29,31,31,则乙地该月11时的平均气温为(26+28+29+31+31)÷5=29(℃),所以甲地该月11时的平均气温为30 ℃,故(28+29+30+30+m+32)÷5=30,解得m=1.则甲地该月11时的平均气温的标准差为1×[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]= 2.5答案 B12.(2018·长沙一中质检)某电子商务公司对10 000名网络购物者2018年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.(1)直方图中的a=________;(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.解析(1)由(1.5+2.5+a+2.0+0.8+0.2)×0.1=1,解得a=3.(2)区间[0.3,0.5)内的频率为0.1×1.5+0.1×2.5=0.4,故[0.5,0.9]内的频率为1-0.4=0.6.因此,消费金额在区间[0.5,0.9]内的购物者的人数为0.6×10 000=6 000.答案(1)3 (2)6 00013.从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(1)作出这些数据的频率分布直方图:(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?解(1)样本数据的频率分布直方图如图所示:(2)质量指标值的样本平均数为x-=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.质量指标值的样本方差为s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定.。
第2节 用样本估计总体最新考纲 1.了解分布的意义和作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点;2.理解样本数据标准差的意义和作用,会计算数据标准差;3.能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释;4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想;5.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.知 识 梳 理1.频率分布直方图(1)频率分布表的画法: 第一步:求极差,决定组数和组距,组距=极差组数; 第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表. (2)频率分布直方图:反映样本频率分布的直方图(如图)横轴表示样本数据,纵轴表示频率组距,每个小矩形的面积表示样本落在该组内的频率. 2.茎叶图统计中一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数. 3.样本的数字特征(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.(2)中位数:把n 个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(3)平均数:把a 1+a 2+…+a n n称为a 1,a 2,…,a n 这n 个数的平均数. (4)标准差与方差:设一组数据x 1,x 2,x 3,…,x n 的平均数为x -,则这组数据的标准差和方差分别是s =1n[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2] s 2=1n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2][常用结论与微点提醒]1.频率分布直方图中各小矩形的面积之和为1.2.平均数、方差的公式推广(1)若数据x 1,x 2,…,x n 的平均数为x -,那么mx 1+a ,mx 2+a ,mx 3+a ,…,mx n +a 的平均数是mx -+a .(2)数据x 1,x 2,…,x n 的方差为s 2.①数据x 1+a ,x 2+a ,…,x n +a 的方差也为s 2;②数据ax 1,ax 2,…,ax n 的方差为a 2s 2.诊 断 自 测1.思考辨析(在括号内打“√”或“×”)(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( )(2)一组数据的方差越大,说明这组数据越集中.( )(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越大.( )(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( )解析 (1)正确.平均数、众数与中位数都在一定程度上反映了数据的集中趋势.(2)错误.方差越大,这组数据越离散.(3)正确.小矩形的面积=组距×频率组距=频率. (4)错误.茎相同的数据,叶可不用按从小到大的顺序写,相同的数据叶要重复记录,故(4)错误.答案 (1)√ (2)× (3)√ (4)×2.(必修3P70改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是( )A.91.5和91.5B.91.5和92C.91和91.5D.92和92解析 这组数据由小到大排列为87,89,90,91,92,93,94,96,∴中位数是91+922=91.5, 平均数x -=87+89+90+91+92+93+94+968=91.5. 答案 A3.(2017·全国Ⅰ卷)为评估一种农作物的种植效果,选了n 块地作试验田.这n 块地的亩产量(单位:kg)分别为x 1,x 2,…,x n ,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )A.x 1,x 2,…,x n 的平均数B.x 1,x 2,…,x n 的标准差C.x 1,x 2,…,x n 的最大值D.x 1,x 2,…,x n 的中位数解析 刻画评估这种农作物亩产量稳定程度的指标是标准差.答案 B4.(2018·长沙一中质检)某雷达测速区规定:凡车速大于或等于70 km/h 的汽车视为“超速”,并将受到处罚.如图是某路段的一个检测点对200辆汽车的车速进行检测后所作的频率分布直方图,则从图中可以看出被处罚的汽车大约有( )A.30辆B.40辆C.60辆D.80辆解析 从频率分布直方图知,车速大于或等于70 km/h 的频率为0.02×10=0.2.由于样本容量为200,故“超速”被罚的汽车约有200×0.2=40(辆).答案 B5.(2016·江苏卷)已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是________.解析 易求x -=15(4.7+4.8+5.1+5.4+5.5)=5.1, ∴方差s 2=15[(-0.4)2+(-0.3)2+02+0.32+0.42]=0.1. 答案0.1考点一 茎叶图及其应用【例1】 (1)(2017·山东卷)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为()A.3,5B.5,5C.3,7D.5,7(2)(2018·济南模拟)中国诗词大会的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成就按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词达人”称号的人数为( )98765⎪⎪⎪⎪1 2 5 6 80 0 1 2 4 5 7 80 2 2 3 3 3 4 5 5 6 90 2 2 3 4 4 4 5 7 7 8 96 6 8 9 A.2B.4C.5D.6 解析 (1)由茎叶图,可得甲组数据的中位数为65,从而乙组数据的中位数也是65,所以y =5.由乙组数据59,61,67,65,78,可得乙组数据的平均值为66,故甲组数据的平均值也为66,从而有56+62+65+74+70+x 5=66,解得x =3. (2)由茎叶图可得,获“诗词达人”称号的有8人,据该次比赛的成就按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词达人”称号的人数为8×1040=2(人). 答案 (1)A (2)A规律方法 1.茎叶图的三个关注点(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一.(2)重复出现的数据要重复记录,不能遗漏.(3)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.2.利用茎叶图解题的关键是抓住“叶”的分布特征,准确从中提炼信息.【训练1】 (1)(2018·广东广雅中学联考)某市重点中学奥数培训班共有14人,分为两个小组,在一次阶段考试中两个小组成绩的茎叶图如图所示,其中甲组学生成绩的平均数是88,乙组学生成绩的中位数是89,则m +n 的值是( )A.10B.11C.12D.13(2)(2018·长沙模拟)空气质量指数(Air Quality Index ,简称AQI)是定量描述空气质量状况的指数,空气质量按照AQI 大小分为六级,0~50为优;51~100为良;101~150为轻度污染;151~200为中度污染;201~300为重度污染;大于300为严重污染.从某地一环保人士某年的AQI 记录数据中,随机抽取10个,用茎叶图记录如下.根据该统计数据,估计此地该年AQI 大于100的天数约为________(该年为365天).解析 (1)∵甲组学生成绩的平均数是88,∴由茎叶图可知78+86+84+88+95+90+m +92=88×7,∴m =3,∵乙组学生成绩的中位数是89,∴n =9,∴m +n =12.(2)该样本中AQI 大于100的频数是4,频率为25, 由此估计该地全年AQI 大于100的频率为25, 估计此地该年AQI 大于100的天数约为365×25=146. 答案 (1)C (2)146考点二 频率分布直方图(易错警示)【例2】 (2017·北京卷)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.解 (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6, 所以样本中分数小于70的频率为1-0.6=0.4.所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.(2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,分数在区间[40,50)内的人数为100-100×0.9-5=5.所以总体中分数在区间[40,50)内的人数估计为400×5100=20. (3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60,所以样本中分数不小于70的男生人数为60×12=30.所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.规律方法 1.频率、频数、样本容量的计算方法(1)频率组距×组距=频率. (2)频数样本容量=频率,频数频率=样本容量,样本容量×频率=频数. 2.例题中抓住频率分布直方图中各小长方形的面积之和为1,这是解题的关键,并利用频率分布直方图可以估计总体分布.易错警示 1.频率分布直方图的纵坐标是频率组距,而不是频率,切莫与条形图混淆. 2.制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确.【训练2】 某校2018届高三文(1)班在一次数学测验中,全班N 名学生的数学成绩的频率分布直方图如下,已知分数在110~120的学生有14人.(1)求总人数N 和分数在120~125的人数n ;(2)利用频率分布直方图,估算该班学生数学成绩的众数和中位数各是多少?解 (1)分数在110~120内的学生的频率为P 1=(0.04+0.03)×5=0.35,所以该班总人数N =140.35=40. 分数在120~125内的学生的频率为P 2=1-(0.01+0.04+0.05+0.04+0.03+0.01)×5=0.10,分数在120~125内的人数n =40×0.10=4.(2)由频率分布直方图可知,众数是最高的小矩形底边中点的横坐标,即为105+1102=107.5.设中位数为a ,∵0.01×5+0.04×5+0.05×5=0.50,∴a =110.∴众数和中位数分别是107.5,110.考点三 样本的数字特征【例3】 (1)(2018·济南一中质检)2017年2月20日,摩拜单车在济南推出“做文明骑士,周一摩拜单车免费骑”活动.为了解单车使用情况,记者随机抽取了五个投放区域,统计了半小时内被骑走的单车数量,绘制了如图所示的茎叶图,则该组数据的方差为( )A.9B.4C.3D.2(2)(2016·四川卷)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),……,[4,4.5]分成9组,制成了如图所示的频率分布直方图.①求直方图中a 的值;②设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由; ③估计居民月均用水量的中位数.(1)解析 由茎叶图得该组数据的平均数x -=15(87+89+90+91+93)=90. ∴方差为15[(87-90)2+(89-90)2+(90-90)2+(91-90)2+(93-90)2]=4. 答案 B(2)解①由频率分布直方图可知:月均用水量在[0,0.5)内的频率为0.08×0.5=0.04. 同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]等组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,解得a=0.30.②由①知,该市100位居民中月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.③设中位数为x吨.因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5.又前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5.所以2≤x<2.5.由0.50×(x-2)=0.5-0.48,解得x=2.04.故可估计居民月均用水量的中位数为2.04吨.规律方法 1.平均数反映了数据取值的平均水平,而方差、标准差描述了一组数据围绕平均数波动的大小,标准差、方差越大,数据离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.2.用样本估计总体就是利用样本的数字特征来描述总体的数字特征.【训练3】(2018·北京东城质检)某班男女生各10名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如下:假设每名同学最近一周平均每天的锻炼时间是互相独立的.①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大;②从平均值分析,男生每天锻炼的时间比女生多;③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;④从10个男生中任选一人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.其中符合茎叶图所给数据的结论是( )A.①②③B.②③④C.①②④D.①③④解析 由茎叶图知,男生每天锻炼时间差别小,女生差别大,①正确.男生平均每天锻炼时间超过65分钟的概率P 1=510=12,女生平均每天锻炼时间超过65分钟的概率P 2=410=25,P 1>P 2,因此④正确. 设男生、女生两组数据的平均数分别为x -甲,x -乙,标准差分别为s 甲,s乙.易求x -甲=65.2,x -乙=61.8,知x -甲>x -乙,②正确.又根据茎叶图,男生锻炼时间较集中,女生锻炼时间较分散,∴s 甲<s 乙,③错误, 因此符合茎叶图所给数据的结论是①②④.答案 C基础巩固题组(建议用时:40分钟)一、选择题1.某班的全体学生参加英语测试,成绩的频率分布直方图如图所示,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是( )A.45B.50C.55D.60解析 由频率分布直方图,知低于60分的频率为(0.010+0.005)×20=0.3.∴该班学生人数n =150.3=50. 答案 B2.重庆市2017年各月的平均气温(℃)数据的茎叶图如下:则这组数据的中位数是( )A.19B.20C.21.5D.23解析从茎叶图知所有数据为8,9,12,15,18,20,20,23,23,28,31,32,中间两个数为20,20,故中位数为20.答案 B3.(2017·全国Ⅲ卷)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是( )A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳解析由题图可知,2014年8月到9月的月接待游客量在减少,则A选项错误.答案 A4.甲、乙、丙、丁四人参加某运动会射击项目的选拔赛,四人的平均成绩和方差如下表所示:从这四个人中选择一人参加该运动会射击项目比赛,最佳人选是( )A.甲B.乙C.丙D.丁解析由题表中数据可知,丙的平均环数最高,且方差最小,说明技术稳定,且成绩好. 答案 C5.(2016·山东卷)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )A.56B.60C.120D.140解析 由频率分布直方图可知每周自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,则每周自习时间不少于22.5小时的人数为0.7×200=140.答案 D二、填空题6.某校女子篮球队7名运动员身高(单位:cm)分布的茎叶图如图,已知记录的平均身高为175 cm ,但记录中有一名运动员身高的末位数字不清晰,如果把其末位数字记为x ,那么x 的值为________.解析 170+17×(1+2+x +4+5+10+11)=175, 17×(33+x )=5,即33+x =35,解得x =2. 答案 27.(2018·宜春调研)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,……,第五组.下图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为________.解析 全体志愿者共有:20(0.24+0.16)×1=50(人), 所以第三组有志愿者:0.36×1×50=18(人),∵第三组中没有疗效的有6人,∴有疗效的有18-6=12(人).答案 128.若样本数据x 1,x 2,…,x 10的标准差为8,则数据2x 1-1,2x 2-1,…,2x 10-1的标准差为________.解析 依题意,x 1,x 2,x 3,…,x 10的方差s 2=64.则数据2x 1-1,2x 2-1,…,2x 10-1的方差为22s 2=22×64,所以其标准差为22×64=2×8=16.答案 16三、解答题9.某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x 的值;(2)求月平均用电量的众数和中位数.解 (1)由(0.002+0.009 5+0.011+0.012 5+x +0.005+0.002 5)×20=1,得x =0.007 5,所以直方图中x 的值为0.007 5.(2)月平均用电量的众数是220+2402=230. ∵(0.002+0.009 5+0.011)×20=0.45<0.5,∴月平均用电量的中位数在[220,240]中,设中位数为a,则(0.002+0.009 5+0.011)×20+0.012 5×(a-220)=0.5.解得a=224,即中位数为224.10.(2016·北京卷)某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.解(1)由用水量的频率分布直方图,知该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15.所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.依题意,w至少定为3.(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表如下:根据题意,该市居民该月的人均水费估计为4×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).能力提升题组(建议用时:20分钟)11.(2018·邯郸一中质检)为比较甲乙两地某月11时的气温情况,随机选取该月5天11时的气温数据(单位:℃)制成如图所示的茎叶图,已知甲地该月11时的平均气温比乙地该月11时的平均气温高1 ℃,则甲地该月11时的平均气温的标准差为( )A.2B. 2C.10D.10解析甲地该月5天11时的气温数据(单位:℃)为28,29,30,30+m,32;乙地该月5天11时的气温数据(单位:℃)为26,28,29,31,31,则乙地该月11时的平均气温为(26+28+29+31+31)÷5=29(℃),所以甲地该月11时的平均气温为30 ℃,故(28+29+30+30+m+32)÷5=30,解得m=1.则甲地该月11时的平均气温的标准差为1×[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]= 2.5答案 B12.(2018·长沙一中质检)某电子商务公司对10 000名网络购物者2018年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.(1)直方图中的a=________;(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.解析(1)由(1.5+2.5+a+2.0+0.8+0.2)×0.1=1,解得a=3.(2)区间[0.3,0.5)内的频率为0.1×1.5+0.1×2.5=0.4,故[0.5,0.9]内的频率为1-0.4=0.6.因此,消费金额在区间[0.5,0.9]内的购物者的人数为0.6×10 000=6 000.答案(1)3 (2)6 00013.从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(1)作出这些数据的频率分布直方图:(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?解(1)样本数据的频率分布直方图如图所示:(2)质量指标值的样本平均数为x-=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.质量指标值的样本方差为s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定.。