2017-2018学年高中数学北师大版必修三教学案:第一章§5 用样本估计总体
- 格式:doc
- 大小:532.50 KB
- 文档页数:12
用样本估计总体一、新情景引入:在西方国家还有这种观点:游泳比乘坐客车危险小的多,通过调查发现,实际上游泳死亡要比车祸要大的多,因为每个家庭的后院都有自己的游泳池。
孩子逆水死亡是经常的事情;在西方国家,每当飞机发生空难,乘客对飞机的安全系数产生怀疑时,常听到航空公司的有关人士辩解说:“乘坐飞机还是比乘坐火车安全的。
”理由是:飞机飞行10万公理死亡1人,而火车行驶5万公理就有1人死亡,你认为这个结论正确吗,能否给出合理的解释呢?二、要点精析1、用样本估计总体时,常用的统计图表有频率分布表、频率分布直方图、频率分布折线图和茎叶图。
2、列样本数据的频率分布表、频率分布直方图的步骤:(1)计算极差。
极差是样本数据的最大值与最小值的差。
(2)决定组距与组数。
组距选取据情况而定,越小越能反映总体分布。
(3)决定分点。
使分点与样本数据不重合,一般使分点比样本数据多一位小数,并且第一小组的起点比最小数据稍微减小一点,要保证每一个样本数据不重不漏。
(4)列频率分布表,累计频率等于1.(5)绘制频率分布直方图。
直方图中横轴表示样本数据,纵轴表示频率与组距的比值。
各小长方形的面积等于相应各组的频率,故所有长方形面积之和等于1.3、频率分布折线图,把频率分布直方图各个长方形上边的中点用线段连接起来得到频率分布折线图。
设样本容量不断增大,分组的组距不断缩小,则样本分布实际上越来越接近于总体分布,可用一条光滑的曲线来描绘,叫在总体密度曲线,它精确地反映了一个总体在各个区域那取值的规律。
4、茎叶图。
从频率分布直方图可清楚的看出数据分布的总体态势,但从其本身得不出原始的数据内容;茎叶图没有原始信息的损失,且方便记录和表示,但只适合两位数字的数据。
5、在实际生活中,我们往往更关注总体的某些数字特征,如平均数和标准差。
用样本平均数估计总体平均数,用样本标准差估计总体标准差。
6、记n 个样本数据n x x x ,,21的平均数为x ,方差为2s ,标准差为s ,则:(1)样本平均数nx x x x n ,,21=; (2)样本方差n x x x x x x s n 222212)()()(-++-+-= ; (3)样本标准差nx x x x x x s n 22221)()()(-++-+-= 注意:要熟练掌握用函数型计算器求样本平均数和标准差。
1.5 用样本估计总体教学目标 1、知识与技能会用样本的基本数字特征估计总体的基本数字特征,形成对数据处理过程形成初步评价的意识。
2、过程与方法会用随机抽样的方法和样本估计总体的思想解决一些简单的实际问题。
3、情感态度价值观实,体会数学知识与现实世界的联系。
教学重点:利用样本估计总体的数字特征。
教学难点: 样本标准差的计算。
课题引入上节课,我们介绍了利用样本的频率分布可以估计总体的分布。
当然,我们也可以利用样本的数据特征估计总体的数字特征。
(二)探求新知有甲、乙两种钢筋,现从中各抽取一个样本(如下表)检查它们的抗拉强度(单位:kg/mm2),通过计算发现,两个样本的平均数均为125。
请你运用所学的统计学的知识,说明哪种钢筋的质量较好?画出数据的条形统计图可以发现,甲样本的抗拉强度比较集中,乙样本的抗拉强度相对分散,说明乙样本没有甲样本的抗拉强度稳定。
从而,我们认为乙钢筋没有甲钢筋的抗拉强度稳定。
如果两组数据的集中程度差异不大时,从统计图中就不易得出结论。
那么,我们可以计算样本的方差(标准差)来估计总体的方差。
(三)知识应用例1、在1996年美国亚特兰大奥运会上,中国香港风帆选手李丽珊,以惊人的耐力和斗志,勇夺金牌,为香港体育史揭开了“突破零”的一页。
在风帆比赛中,成绩以低分为优胜。
比赛共11场,并以最佳的9场成绩计算最终的名次。
前7场比赛结束后,排名前5位的选手积分如表所示: 根据上面的比赛结果,我们如何比较各选手之间的成绩及稳定情况呢?如果此时让你预测谁将获得最后的胜利,你会怎么看?解析:我们可以分别计算5位选手前7场比赛积分的平均数和标准差,分别作为度量各选手比赛的成绩及稳定情况的依据,结果如下表所示: 从表中看出:李丽珊的平均积分及积分标准差都比其他选手的小,也就是说,在前7场的比赛过程中,她的成绩最为优异,而且表现也最为稳定。
尽管此时还有4场没有进行,但这里我们可以假定每位运动员在各自的11场比赛中发挥的水平大致相同,因而可以把前7场比赛的成绩看作是总体的一个样本,并由此估计每位运动员最后的比赛成绩。
5.用样本估计总体学习目标:1.理解频率分布直方图、频率折线图的概念;会用样本频率分布去估计总体分布.2.会用样本的基本数字特征估计总体的基本数字特征.认知探究:1.画频率分布直方图的方法步骤:2.如何画频率折线图?3.样本平均数和样本标准差:思考:它们能反映总体的信息吗?例题拓展:例1下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高(单位cm)(1)列出样本频率分布表﹔(2)画出频率分布直方图和频率折线图;(3)估计身高小于134cm的人数占总人数的百分比..例2一个社会调查机构就某地居民的月收入调查了10 000人,并根据所得数据画了样本的频率分布直方图(如下图).为了分析居民的收入与年龄、学历、职业等方面的关系,要从这10 000人中再用分层抽样方法抽出100人作进一步调查,则在[2500,3000)(元)月收入段应抽出人.例3:要从甲乙两名跳远运动员中选拔一名去参加运动会,选拔的标准是:先看他们的平均成绩,如果两人的平均成绩相差无几,就要再看他们成绩的稳定程度。
为此对两人进行了15如何通过对上述数据的处理,来作出选人的决定呢?课堂练习:1.设n 个数值12,,n x x x ⋅⋅⋅的算术平均数是x ,标准差是s ,则12,,n ax b ax b ax b ++⋅⋅⋅+的算术平均数和标准差分别为( )A. 22,a x b a s +B. ,||a x b a s +C. ||,||a x b a s b ++D. ,a x b as +2.在频率分布直方图中共有11个小矩形,其中正中间小矩形的面积是其余小矩形面积之和的4倍,若样本容量为220,则该组的频数是 .3.有120个样本数据,这组数据的最大值是180,最小值是151,则极差为 ;若取组距为3,则组数为 .4.从A 、B 两种棉花中各抽10株,测得它们的株高如下:(CM)A 、 25 41 40 37 22 14 19 39 21 42B 、 27 16 44 27 44 16 40 16 40 40(1) 哪种棉花的苗长得高?(2) 哪种棉花的苗长得整齐?。
5 用样本估计总体学习目标 1.学会列频率分布表,会画频率分布直方图.2.会用频率分布表或分布直方图估计总体分布,并作出合理解释.3.在解决问题过程中,进一步体会用样本估计总体的思想,认识统计的实际作用,初步经历收集数据到统计数据的全过程.知识点一总体的分布思考如果把我国初生婴儿的性别作为总体,那么它的分布是指什么?梳理一般地,总体分布是指总体中个体所占的比例.知识点二用频率分布表或频率分布直方图估计总体分布思考1 要做频率分布表,需要对原始数据做哪些工作?思考2 如何决定组数与组距?思考3 同样一组数据,如果组距不同,得到的频率分布直方图也会不同吗?梳理1.频率分布直方图在频率分布直方图中,纵轴表示f iΔx i,数据落在各小组内的频率用频率分布直方图的________来表示,各小长方形的面积的总和等于____.2.频率折线图在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间,从所加的左边区间的________开始,用线段依次连接各个矩形的____________,直至右边所加区间的________,就可以得到一条折线,我们称之为频率折线图.3.随着样本容量不断增大,样本中落在每个区间内的样本数的________会越来越稳定于总体在相应区间内取值的________.随着样本量的增大,所划分的区间数也可以随之增多,而每个区间的长度则会相应随之减小.相应的频率折线图就会越来越接近于一条光滑曲线.知识点三总体的数字特征思考如果想知道某一历史时期黄河流域男性平均身高,有可能获得总体数据吗?怎么办?梳理一般地,1.现实中的总体所包含的个体数往往很难获得,总体的平均数与标准差是未知的,我们通常用样本的平均数和标准差去估计总体的平均数与标准差,但要求样本有较好的代表性.2.在抽样过程中,抽取的样本是具有随机性的,因此样本的数字特征也有随机性.用样本的数字特征估计总体的数字特征,是一种统计思想,没有唯一答案.类型一用频率分布表及频率分布直方图估计总体分布例1 下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高(单位:cm).(1)列出样本频率分布表;(2)画出频率分布直方图;(3)估计身高小于134 cm的人数占总人数的百分比.反思与感悟频率分布表和频率分布直方图之间的密切关系是显然的,它们只不过是相同的数据的两种不同的表达方式,是通过各小组数据在样本容量中所占比例大小来表示数据的分布规律,它可以让我们更清楚地看到整个样本数据的频率分布情况,并由此估计总体的分布情况.跟踪训练1 为了了解中学生身体发育情况,对某中学17岁的60名女生的身高(单位:cm)进行了测量,结果如下:154 159 166 169 159 156 166 162 158 159156 166 160 164 160 157 151 157 161 162158 153 158 164 158 163 158 153 157 168162 159 154 165 166 157 155 146 151 158160 165 158 163 163 162 161 154 165 161162 159 157 159 149 164 168 159 153 160列出样本的频率分布表;绘出频率分布直方图和频率折线图.类型二估计总体数字特征例2 为了解A,B两种轮胎的性能,某汽车制造厂分别从这两种轮胎中随机抽取了8个进行测试,下面列出了每种轮胎行驶的最远里程数(单位:1 000 km)轮胎A96,112,97,108,100,103,86,98轮胎B108,101,94,105,96,93,97,106(1)分别计算A,B两种轮胎行驶的最远里程的平均数、中位数;(2)分别计算A,B两种轮胎行驶的最远里程的极差、标准差;(3)根据以上数据你认为哪种型号的轮胎性能更加稳定?反思与感悟平均数、中位数、众数、极差、方差等统计量是将多个数据“加工”成一个数据,能更清楚地反映这组数据的某些重要特征,要理解这些统计量表达的信息.跟踪训练2 为迎接5月31日世界无烟日的到来,小华对10名戒烟成功者戒烟前和戒烟5个星期后的体重(单位:kg)作了认真统计,并记录如下表所示:(1)求这10人在戒烟前和戒烟后的体重的平均数;(2)求这10人在戒烟前和戒烟后的体重的方差;(3)通过上述数据,你能得到什么结论?1.用样本频率分布估计总体频率分布的过程中,下列说法正确的是( )A.总体容量越大,估计越精确B.总体容量越小,估计越精确C.样本容量越大,估计越精确D.样本容量越小,估计越精确2.下列说法不正确的是( )A.频率分布直方图中每个小矩形的高就是该组的频率B.频率分布直方图中各个小矩形的面积之和等于1C.频率分布直方图中各个小矩形的宽一样大D.频率分布折线图是从所加的左边区间的中点开始,用线段依次连接频率分布直方图的每个小矩形上端中点,直至右边所加区间的中点得到的3.某校为了了解高三学生的身体状况,抽取了100名女生的体重.将所得的数据整理后,画出了如图的频率分布直方图,则所抽取的女生中体重在40~45 kg的人数是( )A.10 B.2 C.5 D.154.一个容量为20的样本数据,分组后组距与频数如下表:则样本在[10,50)上的频率为( )A.0.5 B.0.24C.0.6 D.0.75.从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.(2)在这些用户中,用电量落在区间[100,250)内的户数为________.1.频率分布是指一个样本数据在各个小范围内所占比例的大小,总体分布是指总体取值的频率分布规律,我们通常用样本的频率分布表或频率分布直方图去估计总体的分布.2.用同样的方法先后从总体中抽取两个大小相同的样本,但两次得到的样本频率分布表、样本频率分布直方图、样本的平均数和标准差仍然可能互不相同,是样本的随机性造成的,是不可避免的.只要抽样的方法比较合理,就能反映总体的信息,当样本量很大时,就比较接近总体的真实情况.答案精析问题导学 知识点一思考 是指男女性别的比例. 知识点二思考1 分组,频数累计,计算频数和频率. 思考2 若极差组距为整数,则极差组距=组数.若极差组距不为整数,则⎣⎢⎡⎦⎥⎤极差组距+1=组数.注意:[x ]表示不大于x 的最大整数.思考3 不同.对于同一组数据分析时,要选好组距和组数,不同的组距与组数对结果有一定的影响. 梳理1.面积 1 2.中点 顶端中点 中点 3.频率 概率 知识点三思考 时代变迁,已经不可能获得所有数据,但可以根据出土的同时期样本数据计算平均身高来估计. 题型探究例1 解 (1)样本频率分布表如下:(2)频率分布直方图如下:(3)由样本频率分布表可知身高小于134 cm 的男孩出现的频率为0.04+0.07+0.08=0.19,所以我们估计身高小于134 cm 的人数占总人数的19%.跟踪训练1 解 第一步,求极差:上述60个数据中最大为169,最小为146.故极差为169-146=23(cm).第二步,确定组距和组数,可取组距为3 cm , 则组数为233=723,可将全部数据分为8组.第三步,确定区间界限:[145.5,148.5),[148.5,151.5),[151.5,154.5),[154.5,157.5),[157.5,160.5),[160.5,163.5),[163.5,166.5),[166.5,169.5). 第四步,列频率分布表:第五步,根据上述数据绘制频率分布直方图:第六步,在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间,从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点,直至右边所加区间的中点,就可以得到一条折线即为频率折线图.例2 解 (1)A 轮胎行驶的最远里程的平均数为 96+112+97+108+100+103+86+988=100,中位数为100+982=99;B 轮胎行驶的最远里程的平均数为108+101+94+105+96+93+97+1068=100,中位数为101+972=99.(2)A 轮胎行驶的最远里程的极差为112-86=26, 标准差为s = -2+122+-2+82+0+32+-2+-28=2212≈7.43;B 轮胎行驶的最远里程的极差为108-93=15,标准差为s = 82+12+-2+52+-2+-2+-2+628=1182≈5.43.(3)由于A 和B 的最远行驶里程的平均数相同,而B 轮胎行驶的最远里程的极差和标准差较小,所以B 轮胎性能更加稳定.跟踪训练2 解 (1)将数据按从小到大的顺序重新排列; 戒烟前:52,52,55,55,60,60,64,67,69,80; 戒烟后:52,54,55,57,58,62,67,68,70,81. 求得x戒烟前=61.4(kg),x戒烟后=62.4(kg).(2)s 2戒烟前=110[(67-61.4)2+(80-61.4)2+…+(60-61.4)2]=70.44,s2戒烟后=110[(70-62.4)2+(81-62.4)2+…+(58-62.4)2]=73.84.(3)从戒烟前后两组数据的统计量知:从平均数看,戒烟后这10人的平均体重增加了1 kg;从方差看,戒烟后数据的波动比戒烟前数据的波动大,说明戒烟对不同的人所发生的变化程度是不同的,通过对这两组数据的统计分析,得出结论:吸烟有害健康,戒烟对身体健康是有益的.当堂训练1.C 2.A 3.A 4.D5.(1)0.004 4 (2)70解析(1)(0.002 4+0.003 6+0.006 0+x+0.002 4+0.001 2)×50=1,∴x=0.004 4.(2)(0.003 6+0.004 4+0.006 0)×50×100=70.。
第1章 统计1.抽样方法(1)用随机数表法抽样时,对个体所编号码位数要相等,当问题所给位数不等时,以位数较多的为准,在位数较少的数前面添“0”,凑齐位数.(2)用系统抽样法时,如果总体容量N 能被样本容量n 整除,抽样间隔为k =Nn;如果总体容量N 不能被样本容量n 整除,先用简单随机抽样剔除多余个体,抽样间隔为k =⎣⎢⎡⎦⎥⎤N n .(3)应用三种抽样方法时需要搞清楚它们的使用原则. ①当总体容量较小,样本容量也较小时,可采用抽签法. ②当总体容量较大,样本容量较小时,可用随机数表法. ③当总体容量较大,样本容量也较大时,可用系统抽样法. ④当总体由差异明显的几部分组成时,常用分层抽样. 2.用样本估计总体(1)用样本频率分布估计总体频率分布时,通常要对给定的一组数据进行列表、作图处理,作频率分布表与频率分布直方图时要注意其方法步骤.(2)茎叶图刻画数据有两个优点:一是所有信息都可以从图中得到,二是便于记录和表示.但数据较多时不方便.(3)平均数反映了样本数据的平均水平,而标准差反映了样本数据相对平均数的波动程度.3.变量间的相关关系除了函数关系这种确定性的关系外,还大量存在因变量的取值带有一定随机性的两个变量之间的关系——相关关系,对于一元线性相关关系,通过建立线性回归方程就可以根据其部分观测值,获得对这两个变量之间的整体关系的了解,主要是作出散点图、写出线性回归方程.[典例1] 某工厂有1 003名工人,从中抽取10人参加体检,试采用简单随机抽样和系统抽样进行具体实施.[解] (1)简单随机抽样:①将每一个人编一个号由0001至1003. ②制作大小相同的号签,并写上号码. ③放入一个大容器内,均匀搅拌. ④依次抽取10个号签.具有这十个编号的人组成一个样本. (2)系统抽样:①将每个人编一个号由0001至1003.②利用随机数表抽取3个号,将这3个人剔除. ③重新编号0001至1000.④分段1 00010=100,所以0001至0100为第一段.⑤在第一段内由简单随机抽样方法抽得一个号l .⑥按编号将l,100+l ,…,900+l ,共10个号选出,这10个号所对应的人组成样本. [借题发挥] 1.当总体容量N 能被样本容量n 整除时,分段间隔k =Nn,利用系统抽样的方法抽样.2.当总体容量不能被样本容量整除时,可先从总体中随机剔除n 个个体. 3.要注意三种抽样方法的使用条件. [对点训练]1.将参加夏令营的600名学生编号为:001,002,…,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中的人数依次为( )A .26,16,8B .25,17,8C .25,16,9D .24,17,9解析:选B 由题意知间隔为60050=12,故抽到的号码为12k +3(k =0,1,…,49),列出不等式可解得:第Ⅰ营区抽25人,第Ⅱ营区抽17人,第Ⅲ营区抽8人.[典例2] 有一容量为200的样本,数据的分组以及各组的频数如下: [-20,-15),7;[-15,-10),11;[-10,-5),15;[-5,0),40; [0,5),49;[5,10),41;[10,15),20;[15,20],17. (1)列出样本的频率分布表;(2)画出频率分布直方图和频率分布折线图; (3)求样本数据不足0的频率. [解] (1)频率分布表如下:(2)(3)样本数据不足0的频率为: 0.035+0.055+0.075+0.2=0.365.[借题发挥] 1.频率分布直方图的绘制方法与步骤(1)先制作频率分布表,然后作直角坐标系,横轴表示总体,纵轴表示频率组距.(2)把横轴分成若干段,每一段对应一个组.以每个组距为底,以各频率除以组距的商为高,分别画成矩形.这样得到的直方图就是频率分布直方图.2.频率分布折线图反映的是数据的变化趋势,可用来对数据进行估计和预测. [对点训练]2.从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图所示).由图中数据可知a =________.若要从身高在[120,130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在[140,150]内的学生中选取的人数应为________.解析:∵0.005×10+0.035×10+a×10+0.020×10+0.010×10=1,∴a=0.030. 设身高在[120,130),[130,140),[140,150]三组的学生各有x,y,z人,则x100=0.030×10,解得x=30.同理,y=20,z=10.故从[140,150]中抽取的学生人数为1030+20+10×18=3.答案:0.030 33.某棉纺厂为了了解一批棉花的质量,从中随机抽测了100根棉花纤维的长度(棉花纤维的长度是棉花质量的重要指标).所得数据均在区间[5,40]中,其频率分布直方图如图所示,则在抽测的100根中,有________根棉花纤维的长度小于20 mm.解析:(0.04×5+0.01×5+0.01×5)×100=30.答案:30[借题发挥] 在实际问题中,仅靠平均数不能完全反映问题,还要研究数据偏离平均数的离散程度(即方差或标准差).标准差越大,说明数据的离散性越大;标准差越小,说明数据的离散性越小或数据越集中、稳定.[对点训练]4.甲、乙两位学生参加数学竞赛培训,在培训期间他们参加5项预赛,成绩记录如下: 甲:78 76 74 90 82 乙:90 70 75 85 80 (1)用茎叶图表示这两组数据;(2)现要从中选派一人参加数学竞赛,从统计学的角度考虑,你认为选派哪位学生参加合适?说明理由.解:(1)用茎叶图表示如下:(2)x -甲=80,x -乙=80,而s 2甲=15×[(78-80)2+(76-80)2+(74-80)2+(90-80)2+(82-80)2]=32,s 2乙=15×[(90-80)2+(70-80)2+(75-80)2+(85-80)2+(80-80)2]=50.∵x -甲=x -乙,s 2甲<s 2乙,∴从统计学的角度考虑,选甲参加更合适.[典例4] 某个体服装店经营某种服装在某周内获纯利y (元)与该周每天销售这种服装件数x 之间有如下一组数据:已知:=280,=45 309,=3 487.(1)求x ,y ;(2)求纯利y 与每天销售件数x 之间的线性回归方程; (3)估计每天销售10件这种服装时纯利润为多少元? [解] (1)由已知得x =17(3+4+5+6+7+8+9)=6,y =17(66+69+73+81+89+90+91)≈79.86.(2)设线性回归方程为y =bx +a ,则b ==3 487-7×6×79.86280-7×62≈4.75, a =y -b x =79.86-4.75×6≈51.36.∴所求线性回归方程为y =4.75x +51.36.(3)当x =10时,y =98.86,估计每天销售这种服装10件可获纯利98.86元. [借题发挥] 要对y 与x 进行线性相关检验,只要画出散点图,看各数据是否集中在某一条直线附近即可,采用数形结合思想,若线性相关,则根据公式求出回归方程.[对点训练]5.炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系.如果已测得炉料熔化完毕时,钢水的含碳量x 与冶炼时间y (从炉料熔化完毕到出钢的时间)的一列数据如下表所示:(2)求回归方程;(3)预测当钢水含碳量为160时,应冶炼多少分钟.解:(1)用x 表示含碳量,y 表示冶炼时间,可作散点图如下图所示.从上图中可以看出,各点散布在一条直线附近,即它们线性相关. (2)列出下表,并用科学计算器进行计算:b =∑10i =1x i y i -10x - y -∑10i =1x 2i -10x -2≈1.267,a =y --b x -≈-30.47.即所求的回归方程为y =1.267x -30.47. (3)当x =160时,y =1.267×160-30.47≈172(min),即大约冶炼172 min.(时间:90分钟 满分:120分)一、选择题(本大题共10小题,每小题5分,共50分.在每小题给出的四个选项中,只有一项是符合题目要求的)1.为了了解1 200名学生对学校某项教改试验的意见,打算从中抽取一个容量为40的样本,考虑用系统抽样,则分段的间隔k 为( )A .40B .30C .20D .12解析:选B 系统抽样也叫间隔抽样,抽多少个就分成多少组,总数÷组数=间隔数,即k =1 20040=30. 2.某学校为了调查高一年级的200名学生完成课后作业所需时间,采取了两种抽样调查的方式:第一种由学生会的同学随机抽取20名同学进行抽查;第二种由教务处对该年级的学生进行编号,从001到200,抽取学号最后一位为2的同学进行调查.则这两种抽样的方法依次是( )A .分层抽样,简单随机抽样B .简单随机抽样,分层抽样C .分层抽样,系统抽样D .简单随机抽样,系统抽样解析:选D 由抽样方法的概念知选D.3.一个容量为80的样本中数据的最大值是140,最小值是51,组距是10,则应将样本数据分为( )A .10组B .9组C .8组D .7组解析:选B 根据列频率分布表的步骤,极差组距=140-5110=8.9,所以分9组.4.(陕西高考)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )A .11B .12C .13D .14解析:选B 依据系统抽样为等距抽样的特点,分42组,每组20人,区间[481,720]包含25组到36组,每组抽1人,则抽到的人数为12.5.某大学数学系共有本科生5 000人,其中一、二、三、四年级的人数比为4∶3∶2∶1,要用分层抽样的方法从所有本科生中抽取一个容量为200的样本,则应抽取三年级的学生人数为( )A .80B .40C .60D .20解析::选B 应抽取三年级的学生人数为200×210=40.6.已知200辆汽车通过某一段公路时的时速的频率分布直方图如图所示,时速在[60,70)的汽车辆数为( )A .8B .80C .65D .70解析:选B 时速在[60,70)的汽车频率为0.04×10=0.4,时速在[60,70)的汽车大约有200×0.4=80(辆).7.已知回归直线斜率的估计值为1.23,样本点的中心为(4,5),则回归方程为( ) A .y =1.23x +4 B .y =1.23x +5 C .y =1.23x +0.08 D .y =0.08x +1.23解析:选C 回归直线的斜率就是b ,则回归方程为y =1.23x +a ,将(4,5)代入方程得a =0.08.8.某班的数学考试成绩的平均分为70分,方差为s 2.后来发现成绩记录有误,同学甲得80分却误记为50分,同学乙得70分却误记为100分,更正后计算得方差为s 21,则s 2与s 21的大小关系是( )A .s 2>s 21 B .s 2=s 21 C .s 2<s 21 D .无法判断解析:选 A 根据方差的计算公式,s 2的算式中含有(50-70)2+(100-70)2,s 21的算式中含有(80-70)2+(70-70)2,而两算式的其他部分完全相同,故易知s 2>s 21.9.甲、乙两名同学在5次体育测试中的成绩统计如图的茎叶图所示,若甲、乙两人的平均成绩分别是X 甲,X 乙,则下列结论正确的是( )A .X 甲<X 乙;乙比甲成绩稳定B .X 甲>X 乙;甲比乙成绩稳定C .X 甲>X 乙;乙比甲成绩稳定D .X 甲<X 乙;甲比乙成绩稳定解析:选A ∵甲同学的成绩为78,77,72,86,92,乙同学的成绩为78,82,88,91,95, ∴X 甲=78+77+72+86+925=81,X 乙=78+82+88+91+955=86.8,∴X 甲<X 乙.从茎叶图中数据的分布情况看,乙同学的成绩更集中于平均数附近,这说明乙比甲成绩稳定.10.在发生某公共卫生事件期间,有专业机构认为该事件在一段时间没有发生规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”.根据过去10天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是( )A .甲地:总体平均值为3,中位数为4B .乙地:总体平均值为1,总体方差大于0C .丙地:中位数为2,众数为3D .丁地:总体平均值为2,总体方差为3解析:选D 根据信息可知,连续10天内,每天的新增疑似病例不能有超过7的数,选项A 中,中位数为4,可能存在大于7的数;同理,在选项C 中也有可能;选项B 中的总体方差大于0,叙述不明确,如果数目太大,也有可能存在大于7的数;选项D 中,根据方差公式,如果有大于7的数存在,那么方差不会为3.二、填空题(本大题共4小题,每小题5分,共20分.把答案填写在题中的横线上) 11.某社区对居民进行2017天津全运会知晓情况的分层抽样调查.已知该社区的青年人、中年人和老年人分别有800人、1 600人、1 400人.若在老年人中的抽样人数是70,则在中年人中的抽样人数应该是________.解析:抽取的比例为k =701 400=120,故在中年人中应该抽取的人数为1 600×120=80. 答案:8012.对具有线性相关关系的变量x 和Y ,测得一组数据如下:________. 解析:设回归方程为y =6.5x +a . 由已知,x -=15×(2+4+5+6+8)=5.y -=15×(30+40+60+50+70)=50.∴a =y --6.5x -=50-6.5×5=17.5. ∴y =6.5x +17.5. 答案:y =6.5x +17.513.从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.(1)直方图中x 的值为________;(2)在这些用户中,用电量落在区间[100,250)内的户数为________.解析:(1)根据频率和为1,得(0.002 4+0.003 6+0.006 0+x +0.002 4+0.001 2)×50=1,解得x =0.004 4;(2)(0.003 6+0.006 0+0.004 4)×50×100=70. 答案:(1)0.004 4 (2)7014.甲、乙两位同学某学科连续五次考试成绩用茎叶图表示,如图所示,则平均数较高的是______,成绩较为稳定的是________.解析:甲的平均分为x -=68+69+70+71+725=70,乙的平均分为y -=63+68+69+69+715=68;甲的方差为:s 21=-2+-2+-2+-2+-25=2,同理乙的方差为s 22=7.2,故甲的平均分高于乙,甲的成绩比乙稳定.答案:甲 甲三、解答题(本大题共4小题,共50分.解答应写出必要的文字说明、证明过程或演算步骤)15.(12分)某车间有189名职工,现要按1∶21的比例选质量检查员,采用系统抽样的方式进行,写出抽样过程.解:以随机方式对189名职工编号(比如可直接采用工资表上号码编号),设其分别为1,2,3 (189)由已知样本容量是总体个数的121,故样本容量为189×121=9(个),将1,2,3, (189)9段,每段21个号.如1~21为第一段,22~42为第二段,…,169~189为第九段,在第一段1~21个号码中随机抽样产生一个号码,如设为l ,则l ,l +21,l +42,…,l +168就是所产生的9个样本号码,对应的就是质量检查员.16.(12分)农科院的专家为了了解新培育的甲、乙两种麦苗的长势情况,从甲、乙两种麦苗的试验田中各抽取6株麦苗测量麦苗的株高,数据如下:(单位:cm)甲:9,10,11,12,10,20 乙:8,14,13,10,12,21.(1)绘出所抽取的甲、乙两种麦苗株高的茎叶图;(2)分别计算所抽取的甲、乙两种麦苗株高的平均数与方差,并由此判断甲、乙两种麦苗的长势情况.解:(1)茎叶图如图所示:(2)x -甲=9+10+11+12+10+206=12,x -乙=8+14+13+10+12+216=13,s 2甲≈13.67,s 2乙≈16.67.因为x -甲<x -乙,所以乙种麦苗平均株高较高,又因为s 2甲<s 2乙,所以甲种麦苗长的较为整齐.17.(12分)为了了解中学生的身体发育情况,对某一中学同年龄的50名男生的身高进行了测量,结果如下:[157,161)3人; [161,165)4人; [165,169)12人; [169,173)13人;[173,177)12人;[177,181]6人. (1)列出频率分布表; (2)画出频率分布直方图;(3)估计总体在[165,177)间的比例. 解:(1)列出频率分布表:(2)(3)因0.24+0.26+0.24=0.74, 所以总体在[165,177)间的比例为74%.18.(14分)某学校高一(3)班甲、乙两名同学的最近5次数学测验成绩(单位:分)统计如下:(1)(2)分别用平均数和中位数分析甲、乙两位同学中,哪位同学成绩较好; (3)又知同班同学丙的最近5次数学测验成绩(单位:分)如下:解:(1)平均分:x -甲=15×(65+98+94+98+95)=90,x -乙=15×(62+98+99+100+71)=86.甲的中位数是95,乙的中位数是98.(2)从平均分看,甲的平均分高,甲的成绩较好;从中位数看,乙的中位数大,乙的成绩较好.(3)x -丙=15×(80+90+86+99+95)=90,丙的中位数为90.s 2丙=15×[(80-90)2+(90-90)2+(86-90)2+(99-90)2+(95-90)2]=44.4;s 2甲=15×[(65-90)2+(98-90)2+(94-90)2+(98-90)2+(95-90)2]=158.8.由于两人的平均分相同,所以从平均分看,甲、丙成绩同样好;从中位数看,甲的中位数高,甲的成绩好;从方差看,丙的方差小,丙的成绩较稳定,所以丙的成绩好.。
.估计总体的分布估计总体的数字特征预习课本~,思考并完成以下问题()频率分布直方图纵轴的含义是什么?()频率分布直方图的制作步骤是什么?()如何画频率分布折线图?.频率分布直方图在频率分布直方图中,每个小矩形的宽度为Δ(分组的宽高为,度)小矩形的面积恰为相应的图中所有小矩形的面积之和等于.,,频率.作频率分布直方图的步骤()求极差.即一组数中最大值和最小值的差.()决定组距与组数.将数据分组时,组数应力求合适,以使数据的分布规律能较清楚地呈现出来.()将数据分组.()列频率分布表,各小组的频率=.()画频率分布直方图.[点睛]()一般地,样本容量越大,所分组数越多,为方便起见,组距的选择力求“取整”,当样本容量不超过时,按照数据的多少,通常分成~组.()画频率分布直方图时,同一组数据,分组时组距要相等,每个矩形的高与频率成正比,这点应特别注意..频率分布折线图在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间,从所加的左边,用线段依次连接各个矩形的区间的顶端中点中点开始,,就可直至右边所加区间的中点以得到一条折线,我们称之为频率折线图.,所划分的区间数也可以随之随着样本量的增大,增多而每个区间的长度则会相应随之减小相应的频率折线图就会越接近于一条光滑曲线.,.判断正误.(正确的打“√”,错误的打“×”)()频率分布直方图中每个小矩形的面积等于相应组的频数.( )()频率分布直方图的面积为样本的频数.( ) ()频率分布直方图中各小矩形的高(平行于纵轴的边)表示频率与组距的比.( )()从频率分布直方图中可以清楚地看出数据的内容.( )答案:()×()×()√()×.一个容量为的样本最大值是,最小值是,组距为,则可以分成( ).组.组.组.组解析:选组数=极差组距,本题中的极差=-=,所以组数为≈..在抽查产品的尺寸过程中,将其尺寸分成若干组,[,)是其中的一组,抽查出的个体在该组上的频率为,该组上的直方图的高为,则-=( )..+解析:选=,故-=组距==..一个容量为的样本,分成若干组,已知某组的频数和频率分别为和,则=.解析:由题意得=,所以=.答案:[] 为了了解某片经济林的生长情况,随机测量其中的棵树的底部周长,得到如下数据(单位:):()列出频率分布表;。
5.1 估计总体的分布5.2 估计总体的数字特征[学习目标] 1.学会列频率分布表,会画频率分布直方图.2.会用频率分布表或频率分布直方图估计总体分布,并作出合理解释.3.在解决问题过程中,进一步体会用样本估计总体的思想,认识统计的实际作用,初步经历收集数据到统计数据的全过程.知识点一 频率分布表与频率分布直方图 1.用样本估计总体的两种情况 (1)用样本的频率分布估计总体的分布. (2)用样本的数字特征估计总体的数字特征. 2.作频率分布直方图的步骤(1)求极差:即一组数据中最大值和最小值的差;(2)决定组距与组数:将数据分组时,组数应力求合适,以使数据的分布规律能较清楚地呈现出来.这时应注意:①一般样本容量越大,所分组数越多;②为方便起见,组距的选择应力求“取整”;③当样本容量不超过120时,按照数据的多少,通常分成5~12组. (3)将数据分组:按组距将数据分组,分组时,各组均为左闭右开区间,最后一组是闭区间. (4)列频率分布表:一般分四列:分组、频数累计、频数、频率,最后一行是合计.其中频数合计应是样本容量,频率合计是1.(5)画频率分布直方图:画图时,应以横轴表示分组,纵轴表示频率/组距.其相应组距上的频率等于该组上的小长方形的面积.即每个小长方形的面积=组距×频率组距=频率.思考 为什么要对样本数据进行分组?答 不分组很难看出样本中的数字所包含的信息,分组后,计算出频率,从而估计总体的分布特征.知识点二 频率折线图在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间.从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点,直至右边所加区间的中点,就可以得到一条折线,我们称之为频率折线图.随着样本量的增大,所划分的区间数也可以随之增多,而每个区间的长度则会相应随之减小,相应的频率折线图就会越来越接近于一条光滑曲线.题型一频率分布直方图的绘制例1 调查某校高三年级男生的身高,随机抽取40名高三男生,实测身高数据(单位:cm)如下:171 163 163 166 166 168 168 160 168 165171 169 167 169 151 168 170 168 160 174165 168 174 159 167 156 157 164 169 180176 157 162 161 158 164 163 163 167 161(1)作出频率分布表;(2)画出频率分布直方图.解(1)最低身高151 cm,最高身高180 cm,它们的差是180-151=29,即极差为29;确定组距为4,组数为8,列表如下:(2)反思与感悟 1.组数的决定方法是:设数据总数目为n,一般地,当n≤50,则分为5~8组;当50≤n≤120时,则分为8~12组较为合适.2.分点数的决定方法是:若数据为整数,则分点数据减去0.5;若数据是小数点后一位的数,则分点减去0.05,以此类推.3.画频率分布直方图小长方形高的方法是:假设频数为1的小长方形的高为h,则频数为k 的小长方形高为kh.跟踪训练1 美国历届总统中,就任时年纪最小的是罗斯福,他于1901年就任,当时年仅42岁;就任时年纪最大的是里根,他于1981年就任,当时69岁.下面按时间顺序(从1789年的华盛顿到2009年的奥巴马,共44任)给出了历届美国总统就任时的年龄:57,61,57,57,58,57,61,54,68,51,49,64,50,48,65,52,56,46,54,49,51,47,55,55,54,42,51 ,56,55,51,54,51,60,62,43,55,56,61,52,69,64,46,54,48(1)将数据进行适当的分组,并画出相应的频率分布直方图和频率分布折线图.(2)用自己的语言描述一下历届美国总统就任时年龄的分布情况.解(1)以4为组距,列表如下:(2)从频率分布表中可以看出60%左右的美国总统就任时的年龄在50岁至60岁之间,45岁以下以及65岁以上就任的总统所占的比例相对较小. 题型二 频率分布直方图的应用例2 为了了解高一年级学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小矩形的面积之比为2∶4∶17∶15∶9∶3,第二小组的频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,则该校全体高一年级学生的达标率约是多少? 解 (1)频率分布直方图是以面积的形式来反映数据落在各小组内的频率大小的, 因此第二小组的频率为42+4+17+15+9+3=0.08.因为第二小组的频率=第二小组的频数样本容量,所以样本容量=第二小组的频数第二小组的频率=120.08=150.(2)由直方图可估计该校全体高一年级学生的达标率约为17+15+9+32+4+17+15+9+3×100%=88%.反思与感悟 1.频率分布直方图的性质:(1)因为小矩形的面积=组距×频率组距=频率,所以各小矩形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小. (2)在频率分布直方图中,各小矩形的面积之和等于1. (3)频数相应的频率=样本容量. 2.频率分布直方图反映了样本在各个范围内取值的可能性,由抽样的代表性利用样本在某一范围内的频率,可近似地估计总体在这一范围内的可能性.跟踪训练2 如图所示是总体的一个样本频率分布直方图,且在[15,18)内频数为8. (1)求样本在[15,18)内的频率; (2)求样本容量;(3)若在[12,15)内的小矩形面积为0.06,求在[18,33)内的频数.解 由样本频率分布直方图可知组距为3.(1)由样本频率分布直方图得样本在[15,18)内的频率等于475×3=425.(2)样本在[15,18)内频数为8, 由(1)可知,样本容量为8425=8×254=50.(3)∵在[12,15)内的小矩形面积为0.06,∴样本在[12,15)内的频率为0.06,故样本在[15,33)内的频数为50×(1-0.06)=47,又在[15,18)内频数为8,故在[18,33)内的频数为47-8=39.题型三 频率分布与数字特征的综合应用例 3 已知一组数据:125 121 123 125 127 129 125 128 130 129 126 124 125 127 126 122 124 125 126 128 (1)填写下面的频率分布表:(2)作出频率分布直方图;(3)根据频率分布直方图或频率分布表求这组数据的众数、中位数和平均数. 解 (1)(2)(3)在[125,127)中的数据最多,取这个区间的中点值作为众数的近似值,得众数126,事实上,众数的精确值为125.(2)图中虚线对应的数据是125+2×58=126.25,事实上中位数为125.5.使用“组中值”求平均数:x =122×0.1+124×0.15+126×0.4+128×0.2+130×0.15=126.3,平均数的精确值为x =125.75. 反思与感悟 1.利用频率分布直方图估计数字特征: (1)众数是最高的矩形的底边的中点; (2)中位数左右两侧小矩形的面积相等;(3)平均数等于每个小矩形的面积乘以小矩形底边中点的横坐标之和. 2.利用直方图求众数、中位数、平均数均为估计值,与实际数据可能不一致.跟踪训练3 某中学举行电脑知识竞赛,现将高一参赛学生的成绩进行整理后分成五组绘制成如图所示的频率分布直方图,已知图中从左到右的第一、二、三、四、五小组的频率分别是0.30、0.40、0.15、0.10、0.05.求:(1)高一参赛学生成绩的众数、中位数. (2)高一参赛学生的平均成绩. 解 (1)由图可知众数为65, 又∵第一个小矩形的面积为0.3, ∴设中位数为60+x ,则0.3+x ×0.04=0.5,得x =5,∴中位数为60+5=65.(2)依题意,x=55×0.3+65×0.4+75×0.15+85×0.1+95×0.05=67,∴平均成绩约为67分.1.用样本频率分布估计总体频率分布的过程中,下列说法正确的是( )A.总体容量越大,估计越精确B.总体容量越小,估计越精确C.样本容量越大,估计越精确D.样本容量越小,估计越精确答案 C解析由用样本估计总体的性质可得.2.频率分布直方图中,小矩形的面积等于( )A.组距B.频率C.组数D.频数答案 B解析根据小矩形的宽及高的意义,可知小矩形的面积为一组样本数据的频率.3.某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )A.56 B.60C.120 D.140答案 D解析设所求人数为N,则N=2.5×(0.16+0.08+0.04)×200=140,故选D.4.某中学举办电脑知识竞赛,满分为100分,80分以上为优秀(含80分).现将高一两个班参赛学生的成绩进行整理后分成5组,绘制成频率分布直方图如下图所示.已知图中从左到右的第一、三、四、五小组的频率分别为0.30、0.15、0.10、0.05,而第二小组的频数是40,则参赛的人数是________,成绩优秀的频率是________. 答案 100 0.15解析 设参赛的人数为n ,第二小组的频率为1-(0.30+0.15+0.10+0.05)=0.4, 依题意40n=0.4,∴n =100,优秀的频率是0.10+0.05=0.15.1.频率分布是指一个样本数据在各个小范围内所占比例的大小,总体分布是指总体取值的频率分布规律,通常用样本的频率分布表或频率分布直方图去估计总体的分布.2.用同样的方法先后从总体中抽取两个大小相同的样本,但两次得到的样本频率分布表、样本频率分布直方图、样本的平均数和标准差仍然可能互不相同.如果抽样的方法比较合理,那么样本可以反映总体的信息,样本容量越大,越接近总体的真实情况.。
《估计总体的数字特征》教材通过探究引导学生思考实际问题,引出总体分布的估计问题,该实例贯穿本节始终,通过对该问题的探究,使学生学会列频率分布表、画频率分布直方图和频率分布折线图。
教师通过初中有关频率与概率之间的关系,了解频率分布直方图的规律性,即频率分布与总体分布之间的关系,进一步体会用样本估计总体的思想。
【知识与能力目标】会求样本的众数、中位数、平均数、标准差和方差;理解用样本的数字特征估计总体的数字特征的方法;会应用相关知识解决简单的统计实际问题。
【过程与方法目标】通过对生活中的实例的探究,感知应用数学知识解决问题的方法,理解数形结合的数学思想和逻辑推理的数学方法。
【情感态度价值观目标】感受数学对实际生活的需要,认识到数学知识源于生活并指导生活的事实,体会数学知识与现实世界的联系。
【教学重点】用样本的平均数和标准差估计总体的平均数和标准差。
【教学难点】让学生体会数字特征的随机性和对实际问题进行判断决策时的应用。
电子课件调整、相应的教具带好、熟悉学生名单、电子白板要调试好。
一、导入部分下表是某次辩论赛中甲、乙双方辩手的成绩,如果以此来评定胜负你认为哪方是优胜者?为什么?设计意图:从生活实际切入,激发了学生的学习兴趣,又为新知作好铺垫。
二、研探新知,建构概念1、电子白板投影出上面实例。
2、教师组织学生分组讨论:先让学生分析,师生一起归纳。
估计总体的数字特征利用随机抽样得到样本,从样本数据得到的分布、平均数和标准差(通常称之为样本分布、样本平均数和样本标准差)并不是总体真正的分布、平均数和标准差,而只是总体的一个估计,但这个估计是合理的,特别是当样本容量很大时,它们确实反映了总体的信息。
n 个样本数据x1,x2,…,x n的平均数x=1n(x1+x2+⋯+x n) ,则有n x= (x1+x2+⋯+x n)设样本的元素为x1,x2,…,x n,样本的平均数为x,则样本的方差s2=1n [(x1−x)2+(x2−x)2+⋯+(x n−x)2]样本方差的算术平方根即为样本的标准差,即s=√[(x−x)2+(x−x)2+⋯+(x−x)2设计意图:在自主探究,合作交流中构建新知,体验用样本的数字特征估计总体的数字特征的特点,从而突出重点。
5.1估计总体的分布【教学目标】1.知识与技能(1)通过实例体会分布的意义和作用,(3)通过实例体会频率分布直方图、频率折线图、茎叶图的各自特征,从而恰当地选择上述方法分析样本的分布,准确地作出总体估计.通过对生活实例的探究,感知应用统计学知识解决问题的方法,理解数形结合的数学思想。
3.情感、态度与价值观通过实例对样本分析和总体的估计,感受用数学方法解决生活中的问题的过程,认识到数学对实际生活的指导价值【重点难点】教学重点:会列频率分布表,画频率分布直方图、频率折线图和茎叶图.教学难点:能通过样本的频率分布估计总佒的分布.【教学过程】教学环节一:回顾旧知问题:我们学习了那些统计图?这些统计图的特点是什么?各适合描述什么样的数据?从前面的分析可以知道,当研究一个对象时,如果能得到它们的全部数据(可以看做是总体),我们就可以直接从中分析总体的各种信息。
但是在实际问题中,总体的信息往往不能全部得到,因此我们需要抽样调查,从总体中抽取一部分作为样本,并用样本的各种信息估计总体的情况,包括它的分布和基本数字特征。
这节课我们一起学习用样本估计总体的分布。
教学环节二:频率分布直方图及其作用1895年,在英国伦敦有106块男性头盖骨被挖掘出土。
经考证,头盖骨的主人死于1665—1666年之间的大瘟疫。
人类学家分别测量了这些头盖骨的宽度,数据如下所示:(单位mm)146 141 139 140 145 141 142 131 142 140 144 140 138 139 147 139 141 137 141 132 140 140 141 143 134 146 134 142 133 149 140 140 143 143 149 136 141 143 143 141 138 136 138 144 136 145 143 137 142 146 140 148 140 140 139 139 144 138 146 153 148 152 143 140 141 145 148 139 136 141 140 139 158 135 132 148 142 145 145 121 129 143 148 138 149 146 141 142 144 137 153 148 144 138 150 148 138 145 145 142 143 143 148 141 145 141请大家思考:用什么统计图可以直观表示上述数据的分布状况?你能根据上述数据估计在1665—1666年之间英国男性头盖骨宽度的分布情况吗?问题:我们用什么统计图描述该题目?如何画频率分布直方图?有哪些步骤?①计算极差②确定组距和组数③列频数分布表④画频率分布直方图(学生根据给定数据列表,画图。
[核心必知]1.众数、中位数、平均数 (1)众数的定义:一组数据中重复出现次数最多的数称为这组数的众数,一组数据的众数可以是一个,也可以是多个.(2)中位数的定义及求法:把一组数据按从小到大的顺序排列,把处于最中间位置的那个数(或中间两数的平均数)称为这组数据的中位数.(3)平均数: ①平均数的定义:如果有n 个数x 1、x 2、…、x n ,那么x =x 1+x 2+…+x nn,叫作这n 个数的平均数.②平均数的分类:总体平均数:总体中所有个体的平均数叫总体平均数. 样本平均数:样本中所有个体的平均数叫样本平均数. 2.标准差、方差 (1)标准差的求法:标准差是样本数据到平均数的一种平均距离,一般用s 表示.s =1nx 1-x2+x 2-x2+…+x n -x2].(2)方差的求法:标准差的平方s 2叫作方差.s 2=1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2].其中,x n 是样本数据,n 是样本容量,x 是样本均值. (3)方差的简化计算公式:s 2=1n[(x 21+x 22+…+x 2n )-n x 2]=1n(x21+x22+…+x2n)-x2.3.极差一组数据的最大值与最小值的差称为这组数据的极差.4.数字特征的意义平均数、中位数和众数刻画了一组数据的集中趋势,极差、方差刻画了一组数据的离散程度.[问题思考]1.一组数据的众数一定存在吗?若存在,众数是唯一的吗?提示:不一定.若一组数据中,每个数据出现的次数一样多,则认为这组数据没有众数;不是,可以是一个,也可以是多个.2.如何确定一组数据的中位数?提示:(1)当数据个数为奇数时,中位数是按从小到大顺序排列的中间位置的那个数.(2)当数据个数为偶数时,中位数为排列在最中间的两个数的平均值.讲一讲1.据报道,某公司的33名职工的月工资(单位:元)如下:(2)假设副董事长的工资从5 000元提升到20 000元,董事长的工资从5 500元提升到30 000元,那么新的平均数、中位数、众数又是什么?(精确到元)(3)你认为哪个统计量更能反映这个公司员工的工资水平,结合此问题谈一谈你的看法.[尝试解答] (1)平均数是x=1 500+4 000+3 500+2 000×2+1 500+1 000×5+500×3+0×2033≈1 500+591=2 091(元).中位数是1 500元,众数是1 500元.(2)新的平均数是x′=1500+28 500+18 500+2 000×2+1 500+1 000×5+500×3+0×2033≈1 500+1 788=3 288(元).中位数是1 500元,众数是1 500元.(3)在这个问题中,中位数或众数均能反映该公司员工的工资水平,因为公司中少数人的工资额与大多数人的工资额差别较大,这样导致平均数与中位数偏差较大,所以平均数不能反映这个公司员工的工资水平.1.众数、中位数与平均数都是描述一组数据集中趋势的量,平均数是最重要的量.2.众数考查各个数据出现的频率,大小只与这组数据中的部分数据有关,当一组数据中有不少数据多次重复出现时,其众数往往更能反映问题.3.中位数仅与数据的排列位置有关,某些数据的变动对中位数没有影响,中位数可能在所给的数据中,也可能不在所给的数据中.当一组数据中的个别数据变动较大时,可用中位数描述它的某种集中趋势.练一练1.某公司销售部有销售人员15人,销售部为了制定某种商品的月销售定额,统计了这15人某月的销售量如下:销售量(件) 1 800510250210150120人数11353 2(1)求这15位销售人员该月销售量的平均数、中位数及众数;(2)假设销售部负责人把月销售额定为320件,你认为是否合理,为什么?如不合理,请你制定一个较为合理的销售定额.解:(1)平均数为115(1 800×1+510×1+250×3+210×5+150×3+120×2)=320(件),中位数为210件,众数为210件.(2)不合理,因为15人中有13人的销售量未达到320件,也就是说,虽然320是这一组数据的平均数,但它却不能反映全体销售人员的销售水平.销售额定为210件更合理些,这是由于210既是中位数,又是众数,是大部分人都能达到的定额.讲一讲2.甲、乙两机床同时加工直径为100 cm的零件,为了检验质量,各从中抽取6件进行测量,分别记录数据为:甲:99 100 98 100 100 103 乙:99 100 102 99 100 100 (1)分别计算两组数据的平均数及方差;(2)根据计算结果判断哪台机床加工零件的质量更稳定. [尝试解答] (1)x 甲=16(99+100+98+100+100+103)=100,x 乙=16(99+100+102+99+100+100)=100,s 2甲=16[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=73,s 2乙=16[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1.(2)两台机床所加工零件的直径的平均数相同,又s 2甲>s 2乙,所以乙机床加工零件的质量更稳定.在实际问题中,仅靠平均数不能完全反映问题,还要研究方差,方差描述了数据相对平均数的离散程度,在平均数相同的情况下,方差越大,离散程度越大,数据波动性越大,稳定性就越差;方差越小,数据越集中,质量越稳定.练一练2.对划艇运动员甲、乙两人在相同的条件下进行了6次测试,测得他们的最大速度(单位:m/s)的数据如下:甲:27 38 30 37 35 31 乙:33 29 38 34 28 36根据以上数据,试估计两人最大速度的平均数和标准差,并判断他们谁更优秀. 解:x 甲=16×(27+38+30+37+35+31)=1986=33,s 2甲=16×[(27-33)2+(38-33)2+(30-33)2+(37-33)2+(35-33)2+(31-33)2]=946, s 甲=946≈3.96, x 乙=16×(33+29+38+34+28+36)=1986=33, s 2乙=16×[(33-33)2+(29-33)2+(38-33)2+(34-33)2+(28-33)2+(36-33)2]=766,由上知,甲、乙两人最大速度的平均数均为33 m/s ,甲的标准差为3.96 m/s ,乙的标准差为3.56 m/s ,说明甲、乙两人的最大速度的平均值相同,但乙的成绩比甲的成绩更稳定,故乙比甲更优秀.讲一讲3.在一次科技知识竞赛中,两组学生的成绩如下表:已经算得两个组的平均分都是80分.请根据你所学过的统计知识,进一步判断这两个组在这次竞赛中的成绩谁优谁劣,并说明理由.[尝试解答] (1)甲组成绩的众数为90分,乙组成绩的众数为70分,从成绩的众数比较看,甲组成绩好些.(2)x 甲=12+5+10+13+14+6(50×2+60×5+70×10+80×13+90×14+100×6)=150×4 000=80(分), x 乙=14+4+16+2+12+12(50×4+60×4+70×16+80×2+90×12+100×12)=150×4 000=80(分).s 2甲=12+5+10+13+14+6[2×(50-80)2+5×(60-80)2+10×(70-80)2+13×(80-80)2+14×(90-80)2+6×(100-80)2]=172,s 2乙=14+4+16+2+12+12[4×(50-80)2+4×(60-80)2+16×(70-80)2+2×(80-80)2+12×(90-80)2+12×(100-80)2]=256.∵s 2甲<s 2乙,∴甲组成绩较乙组成绩稳定,故甲组好些.(3)甲、乙两组成绩的中位数、平均数都是80分.其中,甲组成绩在80分以上(包括80分)的有33人,乙组成绩在80分以上(包括80分)的有26人.从这一角度看,甲组的成绩较好.(4)从成绩统计表看,甲组成绩大于等于90分的有20人,乙组成绩大于等于90分的有24人,∴乙组成绩集中在高分段的人数多.同时,乙组得满分的人数比甲组得满分的人数多6人.从这一角度看,乙组的成绩较好.要正确处理此类问题,首先要抓住问题中的关键词语,全方位地进行必要的计算、分析,而不能习惯性地仅从样本方差的大小去决定哪一组的成绩好,像这样的实际问题还得从实际的角度去分析,如本讲的“满分人数”;其次要在恰当地评估后,组织好正确的语言作出结论.练一练3.甲、乙两人在相同条件下各打靶10次,每次打靶的成绩情况如图所示:(1)请填写下表:平均数中位数命中9环以上的次数(含9环)甲7乙(2)从下列三个不同角度对这次测试结果进行分析:①从平均数和中位数相结合看,谁的成绩好些?②从平均数和命中9环及9环以上的次数相结合看,谁的成绩好些?③从折线图中两人射击命中环数的走势看,谁更有潜力?解:(1)由图可知,甲打靶的成绩为:2,4,6,8,7,7,8,9,9,10;乙打靶的成绩为:9,5,7,8,7,6,8,6,7,7.甲的平均数是7,中位数是7.5,命中9环及9环以上的次数是3;乙的平均数是7,中位数是7,命中9环及9环以上的次数是1.(2)由(1)知,甲、乙的平均数相同.①甲、乙的平均数相同,甲的中位数比乙的中位数大,所以甲成绩较好.②甲、乙的平均数相同,甲命中9环及9环以上的次数比乙多,所以甲成绩较好.③从折线图中看,在后半部分,甲呈上升趋势,而乙呈下降趋势,故甲更有潜力.【解题高手】【多解题】一个球队所有队员的身高如下(单位:cm):178, 179, 181, 182, 176, 183, 176, 180, 183, 175, 181, 185, 180, 184,问这个球队的队员平均身高是多少?(精确到1 cm) [解] 法一:利用平均数的公式计算.x -=114×(178+179+181+…+180+184)=114×2 523≈180.法二:建立新数据,再利用平均数简化公式计算. 取a =180,将上面各数据同时减去180,得到一组数据: -2,-1,1,2,-4,3,-4,0,3,-5,1,5,0,4. x -′=114×(-2-1+1+2-4+3-4+0+3-5+1+5+0+4)=114×3=314≈0.2,∴x -=x -′+a =0.2+180≈180. 法三:利用加权平均数公式计算. x -=114×(185×1+184×1+183×2+182×1+181×2+180×2+179×1+178×1+176×2+175×1)=114×2 523≈180.法四:建立新数据(方法同法二),再利用加权平均数公式计算. x -′=114×[5×1+4×1+3×2+2×1+1×2+0×2+(-1)×1+(-2)×1+(-4)×2+(-5)×1]=114×3≈0.2. ∴x -=x -′+a =0.2+180≈180.1.已知一组数据为20,30,40,50,50,60,70,80,其中平均数,中位数和众数大小关系是( )A .平均数>中位数>众数B .平均数<中位数<众数C .中位数<众数<平均数D .众数=中位数=平均数解析:选D 可得出这组数据的平均数、中位数和众数均为50.2.样本中共有五个个体,其值分别为a,0,1,2,3.若该样本的平均数为1,则样本方差为( )解析:选D ∵样本的平均数为1,即15×(a +0+1+2+3)=1,∴a =-1,∴样本方差s 2=15×[(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3-1)2]=2.3.若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是( )A .91.5和91.5B .91.5和92C .91和91.5D .92和92 解析:选A 将这组数据从小到大排列,得87,89,90,91,92,93,94,96. 故平均数x =87+89+90+91+92+93+94+968=91.5,中位数为91+922=91.5.4.(湖南高考)如图是某学校一名篮球运动员在五场比赛中所得分数的茎叶图,则该运动员在这五场比赛中得分的方差为________.(注:方差s 2=1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中x 为x 1,x 2,…,x n 的平均数)解析:该运动员五场比赛中的得分为8,9,10,13,15,平均得分x =8+9+10+13+155=11,方差s 2=15[(8-11)2+(9-11)2+(10-11)2+(13-11)2+(15-11)2]=6.8.答案:6.85.甲、乙两人在相同条件下练习射击,每人打5发子弹,命中环数如下:则两人射击成绩的稳定程度是________. 解析:∵x -甲=8,x -乙=8,s 2甲=1.2,s 2乙=1.6,∴s 2甲<s 2乙.∴甲稳定性强. 答案:甲比乙稳定6.某农科所为寻找高产稳定的油菜品种,选了三个不同的油菜品种进行试验,每一品种在五块试验田试种.每块试验田的面积为0.7公顷,产量情况如下表:解:x 1=21.0 kg ,x 2=21.0 kg ,x 3=20.48 kg ;s 21=0.572,s 22=2.572,s 23=3.5976,∴x 1=x 2>x 3,s 21<s 22<s 23. ∴第一个品种既高产又稳定.一、选择题1.在某项体育比赛中,七位裁判为一选手打出的分数为:90 89 90 95 93 94 93去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( )A .92,2B .92,2.8C .93,2D .93,2.8解析:选B 去掉最高分95和最低分89后,剩余数据的平均数为x =90+90+93+94+935=92,方差为s 2=15×[(92-90)2+(92-90)2+(93-92)2+(94-92)2+(93-92)2]=15×(4+4+1+4+1)=2.8.2.已知一组数据为-3,5,7,x,11,且这组数据的众数为5,那么数据的中位数是( ) A .7 B .5 C .6 D .11解析:选B 这组数据的众数为5,则5出现的次数最多,∴x =5,那么这组数据按从小到大排列为-3,5,5,7,11,则中位数为5.3.如图所示,样本A 和B 分别取自两个不同的总体,它们的样本平均数分别为x A 和x B ,样本标准差分别为s A 和s B ,则( )A.x A >x B ,s A >s BB.x A <x B ,s A >s BC.x A >x B ,s A <s BD.x A <x B ,s A <s B 解析:选B A 中的数据都不大于B 中的数据,所以x A <x B ,但A 中的数据比B 中的数据波动幅度大,所以s A >s B .4.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为m e ,众数为m 0,平均数为x ,则( )A .m e =m 0=xB .m e =m 0<xC .m e <m 0<xD .m 0<m e <x解析:选D 易知中位数的值m e =5+62=5.5,众数m 0=5,平均数x =130×(3×2+4×3+5×10+6×6+7×3+8×2+9×2+10×2)≈6,所以m 0<m e <x .5.一组数据的平均数是2.8,方差是3.6,若将这组数据中的每一个数据都加上60,得到一组新数据,则所得新数据的平均数和方差分别是( )A .57.2 3.6B .57.2 56.4C .62.8 63.6D .62.8 3.6 解析:选D 设该组数据为x 1,x 2,…,x n ,则1n(x 1+x 2+…+x n )=2.8,1n[(x 1-2.8)2+(x 2-2.8)2+…+(x n -2.8)2]=3.6,所以,所得新数据的平均数为1n [(x 1+60)+(x 2+60)+…+(x n +60)]=1n(x 1+x 2+…+x n )+60=2.8+60=62.8.所得新数据的方差为1n[(x 1+60-62.8)2+(x 2+60-62.8)2+…+(x n +60-62.8)2]=1n[(x 1-2.8)2+(x 2-2.8)2+…+(x n -2.8)2]=3.6. 二、填空题6.一个样本按从小到大的顺序排列为10,12,13,x,17,19,21,24,其中位数为16,则x =________.解析:由中位数的定义知x +172=16,∴x =15.答案:157.某校甲、乙两个班级各有5名编号为1,2,3,4,5的学生进行投篮练习,每人投10次,投中的次数如表所示:则以上两组数据的方差中较小的一个为s 2=________. 解析:计算可得两组数据的平均数均为7, 甲班的方差s 2甲=-2+02+02+-2+025=25; 乙班的方差s 2乙=-2+02+-2+02+-25=65. 则两组数据的方差中较小的一个为s 2甲=25.答案:258.(湖北高考)某学员在一次射击测试中射靶10次,命中环数如下:7, 8,7,9,5,4,9,10,7,4则(1)平均命中环数为________;(2)命中环数的标准差为________.解析:(1)由公式知,平均数为110(7+8+7+9+5+4+9+10+7+4)=7;(2)由公式知,s 2=110(0+1+0+4+4+9+4+9+0+9)=4⇒s =2.答案:(1)7 (2)2 三、解答题9.为了了解市民的环保意识,某校高一(1)班50名学生在6月5日(世界环境日)这一天调查了各自家庭丢弃旧塑料袋的情况,有关数据如下表:(1)求这50户居民每天丢弃旧塑料袋的平均数、众数和中位数;(2)求这50户居民每天丢弃旧塑料袋的标准差.解:(1)平均数x=150×(2×6+3×16+4×15+5×13)=18550=3.7.众数是3,中位数是4.(2)这50户居民每天丢弃旧塑料袋的方差为s2=150×[6×(2-3.7)2+16×(3-3.7)2+15×(4-3.7)2+13×(5-3.7)2]=150×48.5=0.97,所以标准差s≈0.985.10.某校甲班、乙班各有49名学生,两班在一次数学测验中的成绩(满分100分)统计如下表:班级平均分众数中位数标准差甲班79708719.8乙班797079 5.2(1)请你对下面的一段话给予简要分析:甲了85分,在班里算是上游了!”(2)请你根据表中数据,对这两个班的测验情况进行简要分析,并提出教学建议.解:(1)由中位数可知,85分排在第25名之后,从名次上讲,85分不算是上游.但也不能单以班的小刚回家对妈妈说:“昨天的数学测验,全班平均79分,得70分的人最多,我得名次来判断学习成绩的好坏,小刚得了85分,说明他对这阶段的学习内容掌握较好.(2)甲班学生成绩的中位数为87分,说明高于或等于87分的学生占一半以上,而平均分为79分,标准差很大,说明低分也多,两极分化严重,建议对学习有困难的同学多给一些帮助;乙班学生成绩的中位数和平均分均为79分,标准差小,说明学生成绩之间差别较小,成绩很差的学生少,但成绩优异的学生也很少,建议采取措施提高优秀率.。