辽宁省沈阳市高中数学暑假作业 第二部分 统计 2.2 用样本的数字特征估计总体的数字特征与变量的相关性
- 格式:doc
- 大小:222.02 KB
- 文档页数:7
2.2.2 用样本的数字特征估计总体的数字特征整体设计教学分析教科书结合实例展示了频率分布的众数、中位数和平均数.对于众数、中位数和平均数的概念,重点放在比较它们的特点,以及它们的适用场合上,使学生能够发现,在日常生活中某些人通过混用这些(描述平均位置的)统计术语进行误导.另一方面,教科书通过思考栏目让学生注意到,直接通过样本计算所得到的中位数与通过频率直方图估计得到的中位数不同.在得到这个结论后,教师可以举一反三,使学生思考对于众数和平均数,是否也有类似的结论.进一步,可以解释对总体众数、总体中位数和总体平均数的两种不同估计方法的特点.在知道样本数据的具体数值时,通常通过样本计算中位数、平均值和众数,并用它们估计总体的中位数、均值和众数.但有时我们得到的数据是整理过的数据,比如在媒体中见到的频数表或频率表,用教科书中的方法也可以得到总体的中位数、均值和众数的估计.教科书通过几个现实生活的例子,引导学生认识到:只描述平均位置的特征是不够的,还需要描述样本数据离散程度的特征.通过对如何描述数据离散程度的探索,使学生体验创造性思维的过程.教科书通过例题向学生展示如何用样本数字特征解决实际问题,通过阅读与思考栏目“生产过程中的质量控制图”,让学生进一步体会分布的数字特征在实际中的应用.三维目标1.能利用频率分布直方图估计总体的众数、中位数、平均数;能用样本的众数、中位数、平均数估计总体的众数、中位数、平均数,并结合实际,对问题作出合理判断,制定解决问题的有效方法;初步体会、领悟“用数据说话”的统计思想方法;通过对有关数据的搜集、整理、分析、判断,培养学生“实事求是”的科学态度和严谨的工作作风.2.正确理解样本数据标准差的意义和作用,学会计算数据的标准差;能根据实际问题的需要合理地选取样本,从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释;会用样本的基本数字特征估计总体的基本数字特征,形成对数据处理过程进行初步评价的意识.3.在解决统计问题的过程中,进一步体会用样本估计总体的思想,理解数形结合的数学思想和逻辑推理的数学方法;会用随机抽样的方法和样本估计总体的思想解决一些简单的实际问题,认识统计的作用,能够辨证地理解数学知识与现实世界的联系.重点难点教学重点:根据实际问题对样本数据中提取基本的数据特征并作出合理解释,估计总体的基本数字特征;体会样本数字特征具有随机性.教学难点:用样本平均数和标准差估计总体的平均数与标准差;能应用相关知识解决简单的实际问题.课时安排2课时教学过程第2课时标准差导入新课思路1平均数为我们提供了样本数据的重要信息,但是,有时平均数也会使我们作出对总体的片面判断.某地区的统计显示,该地区的中学生的平均身高为176 cm,给我们的印象是该地区的中学生生长发育好,身高较高.但是,假如这个平均数是从五十万名中学生抽出的五十名身高较高的学生计算出来的话,那么,这个平均数就不能代表该地区所有中学生的身体素质.因此,只有平均数难以概括样本数据的实际状态.所以我们学习从另外的角度来考察样本数据的统计量——标准差.(教师板书课题)思路2在一次射击选拔比赛中,甲、乙两名运动员各射击10次,命中环数如下﹕甲运动员:7,8,7,9,5,4,9,10,7,4;乙运动员:9,5,7,8,7,6,8,6,7,7.观察上述样本数据,你能判断哪个运动员发挥得更稳定些吗?如果你是教练,选哪位选手去参加正式比赛?我们知道,x甲=7,x乙=7.两个人射击的平均成绩是一样的.那么,是否两个人就没有水平差距呢?从上图直观上看,还是有差异的.很明显,甲的成绩比较分散,乙的成绩相对集中,因此我们从另外的角度来考察这两组数据——标准差.推进新课新知探究提出问题(1)如何通过频率分布直方图估计数字特征(中位数、众数、平均数)?(2)有甲、乙两种钢筋,现从中各抽取一个标本(如下表)检查它们的抗拉强度(单位:kg/mm2),哪种钢筋的质量较好?(3)某种子公司为了在当地推行两种新水稻品种,对甲、乙两种水稻进行了连续7年的种植对比实验,年亩产量分别如下:(千克)甲:600, 880, 880, 620, 960, 570, 900(平均773)乙:800, 860, 850, 750, 750, 800, 700(平均787)请你用所学统计学的知识,说明选择哪种品种推广更好?(4)全面建设小康社会是我们党和政府的工作重心,某市按当地物价水平计算,人均年收入达到1.5万元的家庭即达到小康生活水平.民政局对该市100户家庭进行调查统计,它们的人均收入达到了1.6万元,民政局即宣布该市民生活水平已达到小康水平,你认为这样的结论是否符合实际?(5)如何考查样本数据的分散程度的大小呢?把数据在坐标系中刻画出来,是否能直观地判断数据的离散程度?讨论结果:(1)利用频率分布直方图估计众数、中位数、平均数:估计众数:频率分布直方图面积最大的方条的横轴中点数字.(最高矩形的中点)估计中位数:中位数把频率分布直方图分成左右两边面积相等.估计平均数:频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和. (2)由上图可以看出,乙样本的最小值100低于甲样本的最小值110,乙样本的最大值145高于甲样本的最大值135,这说明乙种钢筋没有甲种钢筋的抗拉强度稳定.我们把一组数据的最大值与最小值的差称为极差(range ).由上图可以看出,乙的极差较大,数据点较分散;甲的极差小,数据点较集中,这说明甲比乙稳定.运用极差对两组数据进行比较,操作简单方便,但如果两组数据的集中程度差异不大时,就不容易得出结论.(3)选择的依据应该是,产量高且稳产的品种,所以选择乙更为合理.(4)不符合实际.样本太小,没有代表性.若样本里有个别高收入者与多数低收入者差别太大.在统计学里,对统计数据的分析,需要结合实际,侧重于考察总体的相关数据特征.比如,市民平均收入问题,都是考察数据的分散程度.(5)把问题(3)中的数据在坐标系中刻画出来.我们可以很直观地知道,乙组数据比甲组数据更集中在平均数的附近,即乙的分散程度小, 如何用数字去刻画这种分散程度呢? 考察样本数据的分散程度的大小,最常用的统计量是方差和标准差.标准差:考察样本数据的分散程度的大小,最常用的统计量是标准差(standard deviation).标准差是样本数据到平均数的一种平均距离,一般用s 表示.所谓“平均距离”,其含义可作如下理解:假设样本数据是x 1,x 2,…,x n ,x 表示这组数据的平均数.x i 到x 的距离是|x i -x |(i=1,2,…,n). 于是,样本数据x 1,x 2,…,x n 到x 的“平均距离”是S=nx x x x x x n ||||||21-++-+- . 由于上式含有绝对值,运算不太方便,因此,通常改用如下公式来计算标准差: s=])()()[(122221x x x x x x nn -++-+- . 意义:标准差用来表示稳定性,标准差越大,数据的离散程度就越大,也就越不稳定.标准差越小,数据的离散程度就越小,也就越稳定.从标准差的定义可以看出,标准差s≥0,当s=0时,意味着所有的样本数据都等于样本平均数.标准差还可以用于对样本数据的另外一种解释.例如,在关于居民月均用水量的例子中,平均数x =1.973,标准差s=0.868,所以x +s=2.841,x +2s=3.709;x -s=1.105,x -2s=0.237.这100个数据中,在区间[x -2s,x +2s ]=[0.237,3.709]外的只有4个,也就是说,[x -2s, x +2s ]几乎包含了所有样本数据.从数学的角度考虑,人们有时用标准差的平方s 2——方差来代替标准差,作为测量样本数据分散程度的工具:s 2=n1[(x 1-x )2+(x 2-x )2+…+(x n -x )2].显然,在刻画样本数据的离散程度上,方差与标准差是一样的.但在解决实际问题时,一般多采用标准差.需要指出的是,现实中的总体所包含的个体数往往是很多的,总体的平均数与标准差是不知道的.如何求得总体的平均数和标准差呢?通常的做法是用样本的平均数和标准差去估计总体的平均数与标准差.这与前面用样本的频率分布来近似地代替总体分布是类似的.只要样本的代表性好,这样做就是合理的,也是可以接受的.两者都是描述一组数据围绕平均数波动的大小,实际应用中比较广泛的是标准差.如导入中的运动员成绩的标准差的计算器计算.用计算器计算运动员甲的成绩的标准差的过程如下:即s甲=2.用类似的方法,可得s乙≈1.095.由s甲>s乙可以知道,甲的成绩离散程度大,乙的成绩离散程度小.由此可以估计,乙比甲的射击成绩稳定.应用示例思路1例1 画出下列四组样本数据的条形图,说明它们的异同点.(1)5,5,5,5,5,5,5,5,5;(2)4,4,4,5,5,5,6,6,6;(3)3,3,4,4,5,6,6,7,7;(4)2,2,2,2,5,8,8,8,8.分析:先画出数据的条形图,根据样本数据算出样本数据的平均数,利用标准差的计算公式即可算出每一组数据的标准差.解:四组样本数据的条形图如下:四组数据的平均数都是5.0,标准差分别是:0.00,0.82,1.49,2.83.它们有相同的平均数,但它们有不同的标准差,说明数据的分散程度是不一样的.例2 甲、乙两人同时生产内径为25.40 mm的一种零件.为了对两人的生产质量进行评比,从他们生产的零件中各抽出20件,量得其内径尺寸如下(单位:mm):甲25.46 25.32 25.45 25.39 25.3625.34 25.42 25.45 25.38 25.4225.39 25.43 25.39 25.40 25.4425.40 25.42 25.35 25.41 25.39乙25.40 25.43 25.44 25.48 25.4825.47 25.49 25.49 25.36 25.3425.33 25.43 25.43 25.32 25.4725.31 25.32 25.32 25.32 25.48从生产的零件内径的尺寸看,谁生产的质量较高?分析:每一个工人生产的所有零件的内径尺寸组成一个总体.由于零件的生产标准已经给出(内径25.40 mm),生产质量可以从总体的平均数与标准差两个角度来衡量.总体的平均数与内径标准尺寸25.40 mm 的差异大时质量低,差异小时质量高;当总体的平均数与标准尺寸很接近时,总体的标准差小的时候质量高,标准差大的时候质量低.这样,比较两人的生产质量,只要比较他们所生产的零件内径尺寸所组成的两个总体的平均数与标准差的大小即可.但是,这两个总体的平均数与标准差都是不知道的,根据用样本估计总体的思想,我们可以通过抽样分别获得相应的样本数据,然后比较这两个样本的平均数、标准差,以此作为两个总体之间差异的估计值.解:用计算器计算可得甲x ≈25.401,乙x ≈25.406;s 甲≈0.037,s 乙≈0.068.从样本平均数看,甲生产的零件内径比乙的更接近内径标准(25.40 mm),但是差异很小;从样本标准差看,由于s 甲<s 乙,因此甲生产的零件内径比乙的稳定程度高得多.于是,可以作出判断,甲生产的零件的质量比乙的高一些.点评:从上述例子我们可以看到,对一名工人生产的零件内径(总体)的质量判断,与所抽取的零件内径(样本数据)直接相关.显然,我们可以从这名工人生产的零件中获取许多样本.这样,尽管总体是同一个,但由于样本不同,相应的样本频率分布与平均数、标准差等都会发生改变,这就会影响到我们对总体情况的估计.如果样本的代表性差,那么对总体所作出的估计就会产生偏差;样本没有代表性时,对总体作出错误估计的可能性就非常大.这也正是我们在前面讲随机抽样时反复强调样本代表性的理由.在实际操作中,为了减少错误的发生,条件许可时,通常采取适当增加样本容量的方法.当然,关键还是要改进抽样方法,提高样本的代表性. 变式训练某地区全体九年级的3 000名学生参加了一次科学测试,为了估计学生的成绩,从不同学校的不同程度的学生中抽取了100名学生的成绩如下:100分12人,90分30人,80分18人,70分24人,60分12人,50分4人.请根据以上数据估计该地区3 000名学生的平均分、合格率(60或60分以上均属合格). 解:运用计算器计算得:100450126024701880309012100⨯+⨯+⨯+⨯+⨯+⨯=79.40, (12+30+18+24+12)÷100=96%,所以样本的平均分是79.40分,合格率是96%,由此来估计总体3 000名学生的平均分是79.40分,合格率是96%.思路2例1 甲、乙两种水稻试验品种连续5年的平均单位面积产量如下(单位:t/hm 2),试根据解:甲品种的样本平均数为10,样本方差为[(9.8-10)2 +(9.9-10)2+(10.1-10)2+(10-10)2+(10.2-10)2]÷5=0.02.乙品种的样本平均数也为10,样本方差为[(9.4-10)2+(10.3-10)2+(10.8-10)2+(9.7-10)2+(9.8-10)2]÷5=0.24.因为0.24>0.02,所以,由这组数据可以认为甲种水稻的产量比较稳定.例 2 为了保护学生的视力,教室内的日光灯在使用一段时间后必须更换.已知某校使用的分析:用每一区间内的组中值作为相应日光灯的使用寿命,再求平均寿命.解:各组中值分别为165,195,225,255,285,315,345,375,由此算得平均数约为165×1%+195 ×11%+225×18%+255×20%+285×25%+315×16%+345×7%+375×2%=267.9≈268(天).这些组中值的方差为1001×[1×(165-268)2+11×(195-268)2+18×(225-268)2+20×(255-268)2+ 25×(285-268)2+16×(315-268)2+7×(345-268)2+2×(375-268)2]=2 128.60(天2).故所求的标准差约6.2128≈46(天).答:估计这种日光灯的平均使用寿命约为268天,标准差约为46天.知能训练(1)在一次歌手大奖赛上,七位评委为歌手打出的分数如下:9.4,8.4,9.4,9.9,9.6,9.4,9.7,去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为____________.(2)若给定一组数据x 1,x 2,…,x n ,方差为s 2,则ax 1,ax 2,…,ax n 的方差是____________.(3)在相同条件下对自行车运动员甲、乙两人进行了6次测试,测得他们的最大速度(单位:m/s)答案:(1)9.5,0.016 (2)a 2s 2(3)甲x =33,乙x =33,33734722=>=乙甲s s , 乙的成绩比甲稳定,应选乙参加比赛更合适.拓展提升某养鱼专业户在一个养鱼池放入一批鱼苗,一年以后准备出售,为了在出售以前估计卖掉鱼后有多少收入,这个专业户已经了解到市场的销售价是每千克15元,请问,这个专业户还应该了解什么?怎样去了解?请你为他设计一个方案.解:这个专业户应了解鱼的总重量,可以先捕出一些鱼(设有x 条),作上标记后放回鱼塘,过一段时间再捕出一些鱼(设有a 条),观察其中带有标记的鱼的条数,作为一个样本来估计总体,则鱼塘中鱼的总条数鱼的条数鱼塘中所有带有标记条鱼中带有标记的条数)(x a a 这样就可以求得总条数,同时把第二次捕出的鱼的平均重量求出来,就可以估计鱼塘中的平均重量,进而估计全部鱼的重量,最后估计出收入.课堂小结1.用样本的数字特征估计总体的数字特征分两类:用样本平均数估计总体平均数,平均数对数据有“取齐”的作用,代表一组数据的平均水平.用样本标准差估计总体标准差.样本容量越大,估计就越精确,标准差描述一组数据围绕平均数波动的大小,反映了一组数据变化的幅度.2.用样本估计总体的两个手段(用样本的频率分布估计总体的分布;用样本的数字特征估计总体的数字特征),需要从总体中抽取一个质量较高的样本,才能不会产生较大的估计偏差,且样本容量越大,估计的结果也就越精确.作业习题2.2A 组4、5、6、7,B 组1、2.设计感想统计学科,最大的特点就是与现实生活的密切联系,也是新教材的亮点.仅仅想借助“死记硬背一些概念及公式,简单模仿课本例题”来学习,是绝对不行的.用样本估计总体时,如果抽样的方法比较合理,那么样本可以反映总体的信息,但从样本得到的信息会有偏差,其原因在于样本的随机性.这种偏差是不可避免的.虽然我们从样本数据得到的分布、均值和标准差并不是总体的真正分布、均值和标准差,而只是总体的一个估计,但这种估计是合理的,特别是当样本的容量很大时,它们确实反映了总体的信息.教师建议:亲身经历“提出问题,收集数据,分析数据,并作出合理决策”过程,在此过程中不仅可以加深对概念等知识的深刻理解,更重要的是发展了思维,培养了分析及解决问题能力,同时在情感、意志等领域也得到了协调发展,这才是学校学习的科学而全面的目标,习题设置有层次,尽量源于教材,又高于教材,这也是高考命题原则.。
2.2.2 用样本的数字特征估计总体的数字特征【选题明细表】1.(2017·全国Ⅰ卷)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是(B)(A)x1,x2,…,x n的平均数(B)x1,x2,…,x n的标准差(C)x1,x2,…,x n的最大值(D)x1,x2,…,x n的中位数解析:标准差衡量样本的稳定程度,故选B.2.(2017·湖北荆州中学月考)如图,茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组数据的平均数为17,乙组数据的中位数为17,则x,y的值分别为(D)(A) 2,6(B) 2,7(C) 3,6(D) 3,7解析:由题可知=17,所以x=3,由乙组数据的中位数为17可得y=7,选D.3.(2017·四川三台中学月考)为了了解某同学的数学学习情况,对他的6次数学测试成绩进行统计,作出的茎叶图如图所示,则下列关于该同学数学成绩的说法正确的是(C)(A)中位数为83(B)众数为85(C)平均数为85(D)方差为19解析:由茎叶图可知,该同学的6次数学测试成绩分别是78,83,83,85,91,90,由这些数据可求得该同学数学成绩的众数为83,中位数为84,平均数为==85,方差为s2=[(78-85)2+(83-85)2+(83-85)2+(85-85)2+(91-85)2+(90-85)2]≈19.7,故选C.(A)(B) (C)3(D)解析:因为==3.所以s2=[(x1-)2+(x2-)2+…+(x n-)2]=(20×22+10×12+30×12+10×22)==,所以s=.故选B.5.(2018·山东临沂期中)某市要对两千多名出租车司机的年龄进行调查,现从中随机抽出100名司机,已知抽到的司机年龄都在[20,45)岁之间,根据调查结果得出司机的年龄情况残缺的频率分布直方图如图所示,利用这个残缺的频率分布直方图估计该市出租车司机年龄的中位数是(C)(A)31.6岁(B)32.6岁(C)33.6岁(D)36.6岁解析:根据所给的信息可知,在区间[25,30)上的数据的频率为1-(0.01+0.07+0.06+0.02)×5=0.2.故中位数在第3组,且中位数的估计为30+(35-30)×=33.6(岁).6.样本a,3,5,7的平均数是b,且a,b是方程x2-5x+4=0的两根,则这个样本的方差是.解析:x2-5x+4=0的两根是1,4.当a=1时,a,3,5,7的平均数是4;当a=4时,a,3,5,7的平均数不是1.所以a=1,b=4.则方差s2=[(1-4)2+(3-4)2+(5-4)2+(7-4)2]=5.答案:57.(2018·河南商丘二模)世界那么大,我想去看看,每年高考结束后,处于休养状态的高中毕业生旅游动机强烈,旅游可支配收入日益增多,可见高中毕业生旅游是一个巨大的市场.为了解高中毕业生每年旅游消费支出(单位:百元)的情况,相关部门随机抽取了某市的1 000名毕业生进行问卷调查,并把所得数据列成如下所示的频数分布表:则所得样本的中位数是(精确到百元).解析:设样本的中位数为x,则++·=0.5,解得x≈51,所得样本中位数为51(百元).答案:518.(2017·山东卷)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为(A)(A)3,5(B) 5,5(C) 3,7 (D) 5,7解析:甲组数据的中位数为65,由甲、乙两组数据的中位数相等得y=5,又甲、乙两组数据的平均值相等,所以×(56+65+62+74+70+x)=×(59+61+67+65+78),所以x=3.故选A.9.为了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图如图所示.由于不慎将部分数据丢失,但知道前4组的频数成等比数列,后6组的频数成等差数列,设最大频率为a,视力在4.6到5.0之间的学生数为b,则a,b的值分别为(A)(A)0.27,78(B)0.27,83(C)2.7,78(D)2.7,83解析:由题意,4.5到4.6之间的频率为0.09,4.6到4.7之间的频率为0.27,后6组的频数成等差数列,设公差为d,则6×0.27+15d=1-0.01-0.03-0.09,所以d=-0.05.所以b=(0.27×4+6d)×100=78,a=0.27.故选A.10.(2017·广东珠海月考)在一次区域统考中,为了了解各学科的成绩情况,从所有考生成绩中随机抽出20位考生的成绩进行统计分析,其中数学学科的频率分布直方图如图所示,据此估计,在本次考试中数学成绩的方差为.解析:根据频率分布直方图,得该组数据的平均数是=55×0.010×10+65×0.020×10+75×0.035×10+85×0.030×10+95×0.005×10=75;方差是s2=(55-75)2×0.1+(65-75)2×0.2+(75-75)2×0.35+(85-75)2×0.3+(95-75)2×0.05=110.答案:11011.(2018·贵州贵阳高一检测)农科院的专家为了了解新培育的甲、乙两种麦苗的长势情况,从甲、乙两种麦苗的试验田中各抽取6株麦苗测量麦苗的株高,数据如下(单位:cm):甲:9,10,11,12,10,20乙:8,14,13,10,12,21(1)绘出所抽取的甲、乙两种麦苗株高的茎叶图;(2)分别计算所抽取的甲、乙两种麦苗株高的平均数与方差,并由此判断甲、乙两种麦苗的长势情况.解:(1)茎叶图如图所示.(2)==12,==13,=×[(9-12)2+(10-12)2+(11-12)2+(12-12)2+(10-12)2+(20-12)2]≈13.67,=×[(8-13)2+(14-13)2+(13-13)2+(10-13)2+(12-13)2+(21-13)2]≈16.67.因为<,所以乙种麦苗平均株高较高,又因为<,所以甲种麦苗长的较为整齐.12.(2018·四川内江期中)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?解:(1)频率分布直方图如图所示.。
高中数学 第二章 统计 2.2.2 用样本的数字特征估计总体的数字特征预习导航 新人教B 版必修31.通过随机抽样,会用样本平均数估计总体平均数,会用样本标准差估计总体标准差.2.掌握几个数据的标准差及方差的计算方法,理解数据标准差的意义和作用.1.众数、中位数、平均数(1)在一组数据中,出现次数最多的数据叫做这组数据的众数.(2)将一组数据按大小依次排列,把处在中间位置的一个数据(或中间两个数据的平均数)叫做这组数据的中位数.(3)如果有n 个数x 1,x 2,x 3,…,x n ,那么x =1n(x 1+x 2+…+x n ),叫做这n 个数的平均数. 总体中所有个体的平均数叫做总体平均数. 样本中所有个体的平均数叫做样本平均数.【做一做1】10名工人某天生产同一零件,生产的件数分别是15,17,14,10,15,17,17,16,14,12.设平均数为a ,中位数为b ,众数为c ,则有( )A .a <b <cB .a >b >cC .a <c <bD .c >a >b解析:众数c =17,中位数b =15,平均数a =110×(10+12+14×2+15×2+16+17×3)=14.7,所以a <b <c .答案:A2.样本方差、样本标准差 数据的离散程度可以用极差、方差或标准差来描述.我们知道,样本方差描述了一组数据围绕平均数波动的大小.一般地,设样本的元素为x 1,x 2,…,x n ,样本的平均数为x ,定义s 2=1-x 2+2-x 2+…+n -x 2n , s =1-x 2+2-x2+…+n -x 2n . 其中s 2表示样本方差,s 表示样本标准差.归纳总结 因为方差与原始数据的单位不同,且平方后可能夸大了偏差的程度,所以虽然方差与标准差在刻画样本数据的分散程度上是一样的,但在解决实际问题时,一般多采用标准差.【做一做2-1】 样本101,98,102,100,99的标准差为( )A . 2B .0C .1D .2解析:样本平均数x =15×(101+98+102+100+99)=100,方差s 2=15×[(101-100)2+(98-100)2+(102-100)2+(100-100)2+(99-100)2]=2, ∴s=2.答案:A【做一做2-2】 若k 1,k 2,…,k 6的方差为3,则2(k 1-3),2(k 2-3),…,2(k 6-3)的方差为__________.解析:设k 1,k 2,…,k 6的平均数为k ,则16[(k 1-k )2+(k 2-k )2+…+(k 6-k )2]=3, 而2(k 1-3),2(k 2-3),…,2(k 6-3)的平均数为2(k -3),则所求方差为16[4(k 1-k )2+4(k 2-k )2+…+4(k 6-k )2]=4×3=12.答案:12。
§2.2.2用样本的数字特征估计总体的数字特征目标要求:1.会求样本的众数、中位数、平均数、标准差、方差.2.理解用样本的数字特征来估计总体数字特征的方法.3.会应用相关知识解决简单的统计实际问题.基础梳理:1.有关概念(1)众数:在一组数据中,出现_____最多的数据(即频率分布最大值所对应的样本数据)叫这组数据的众数.若有两个或两个以上的数据出现得最多,且出现的次数一样,则这些数据都叫众数;若一组数据中每个数据出现的次数一样多,则没有众数.(2)中位数:将一组数据按大小依次排列,把处在_______位置的一个数据(或两个数据的平均数)叫这组数据的中位数.2. 标准差由于平均距离中含有绝对值,运算不太方便,因此改用如下公式来计算标准差S =____________________________________________________________________显然,标准差越大,数据的离散程序越大;标准差越小,数据的离散程序越小.所以标准差可以用来刻画数据的分散程度的大小.对众数、中位数、平均数的理解(1)众数通常用来表示样本数据的中心值,容易计算.但是它只能表达样本数据中很少的一部分信息,通常用于描述样本数据的中心位置.(2)中位数不受少数几个极端数据(即排序靠前或靠后的数据)的影响,容易计算,它仅利用了中间数据的信息.当样本数据质量比较差,即存在一些错误数据时,应该用抗极端性很强的中位数表示数据的中心值.(3)平均数受样本中的每一个数据的影响,“越离群”的数据,对平均数的影响也越大.与众数和中位数相比,平均数代表了数据更多的信息.当样本数据质量比较差时,使用平均数描述数据的中心位置可能与实际情况产生较大的误差.(4)如果样本平均数大于样本中位数,说明数据中存在许多较大的极端值;反之说明数据中存在许多较小的极端值.在实际应用中,如果同时知道样本中位数和样本平均数,可以使我们了解样本数据中极端数据的信息.(3)平均数:指样本数据的算术平均数. 即x -=1n (x 1+x 2+…+x n ).2.对标准差和方差的理解(1)样本标准差反映了各样本数据聚集于样本平均值周围的程度,标准差越小,表明各个样本数据在样本平均数周围越集中;反之,标准差越大,表明各样本数据在样本平均数的两边越分散.(2)当样本的平均数相等或相差无几时,就要用样本数据的离散程度来估计总体的数字特征,而样本数据的离散程度,就由标准差来衡量.(3)数据的离散程度可以通过极差、方差或标准差来描述.极差反映了一组数据变化的最大幅度,它对一组数据中的极端值非常敏感,方差则反映了一组数据围绕平均数波动的大小.为了得到以样本数据的单位表示的波动幅度,通常用标准差——样本方差的算术平方根来描述.(4)标准差的大小不会越过极差.(5)方差、标准差、极差的取值范围:[0,+∞).当标准差、方差为0时,样本各数据全相等,表明数据没有波动幅度,数据没有离散性.(6)因为方差与原始数据的单位不同,且平方后可能夸大了偏差的程度,所以虽然方差和标准差在刻画样本数据的分散程度上是一样的,但在解决实际问题时,一般采用标准差.典例分析:例1.高一(3)班有男同学27名,女同学21名,在一次语文测验中,男同学的平均分是82分,中位数是75分,女同学的平均分是80分,中位数是80分.(1)求这次测验全班平均分(精确到0.01);(2)估计全班成绩在80分以下(含80分)的同学至少有多少人?(3)分析男同学的平均分与中位数相差较大的主要原因是什么?跟踪练习1:某校在一次考试中,甲、乙两班学生的数学成绩统计如下:分数50 60 70 80 90 100甲班 1 6 12 11 15 5人数乙班 3 5 15 3 13 11选用平均数与众数、中位数评估这两个班的成绩?例2:甲、乙两机床同时加工直径为100 cm的零件,为检验质量,各从中抽取6件测量,数据为:甲:9910098100100103乙:9910010299100100(1)分别计算两组数据的平均数及方差;(2)根据计算结果判断哪台机床加工零件的质量更稳定.跟踪练习2:从甲、乙两种玉米苗中各抽10株,分别测得它们的株高如下:(单位:cm) 甲:25414037221419392142乙:27164427441640401640问:(1)哪种玉米的苗长得高?(2)哪种玉米的苗长得齐?当堂检测:1.下面是高一(18)班十位同学的数学测试成绩:82,91,73,84,98,99,101,118,98,110,则该组数据的中位数是().A.98 B.99 C.98.5 D.97.52.某学习小组在一次数学测验中,得100分的有1人,95分的有1人,90分的有2人,85分的有4人,80分和75分的各有1人,则该小组成绩的平均数、众数、中位数分别是().A.85,85,85 B.87,85,86C.87,85,85 D.87,85,903.为了让人们感受丢弃塑料袋对环境造成的影响,某班环保小组的六名同学记录了自己家中一周内丢弃的塑料袋的数量,结果如下(单位:个):33,25,28,26,25,31.如果该班有45名学生,那么根据提供的数据估计本周全班同学各家总共丢弃塑料袋的数量约为().A.900个B.1 080个C.1 260个D.1 800个4.已知样本9,10,11,x,y的平均数是10,标准差是2,则xy=________.5.若40个数据的平方和是56,平均数是22,则这组数据的方差是________,标准差是________.6.在一次歌手大奖赛中,8位评委现场给每位歌手打分,然后去掉一个最高分和一个最低分,其余分数的平均数作为该歌手的成绩,已知8位评委给某位歌手的打分是:9.29.59.49.69.89.58.19.5比较这8位评委的实际平均分和该歌手的成绩,有何体会?。
2.2.2 用样本的数字特征估计总体的数字特征[课时作业] [A 组 学业水平达标]1.下列说法不正确的是( ) A .方差是标准差的平方 B .标准差的大小不会超过极差C .若一组数据的值大小相等,没有波动变化,则标准差为0D .标准差越大,表明各个样本数据在样本平均数周围越集中;标准差越小,表明各个样本数据在样本平均数周围越分散解析:标准差越小,表明各个样本数据在样本平均数周围越集中;标准差越大,表明各个样本数据在样本平均数的周围越分散. 答案:D2.数学测验中,某小组14名学生分别与全班的平均分85分的差是:2,3,-3,-5,12,12,8,2,-1,4,-10,-2,5,5,这个小组的平均分是( ) A .97.2 B .87.29 C .92.32D .82.86解析:2,3,-3,-5,12,12,8,2,-1,4,-10,-2,5,5的平均数为:(2+3-3-5+12+12+8+2-1+4-10-2+5+5)÷14=167≈2.29,故这个小组的平均成绩是85+2.29=87.29(分).故选B. 答案:B3.一次数学考试后,某老师从自己所带的两个班级中各抽取5人,记录他们的考试成绩,得到如图所示的茎叶图.已知甲班5名同学成绩的平均数为81,乙班5名同学成绩的中位数为73,则x -y 的值为( ) A .2 B .-2 C .3D .-3解析:由题意得72+77+80+x +86+905=81⇒x =0,易知y =3.∴x -y =-3,故选D. 答案:D4.某品牌空调在春节期间举行促销活动,下面的茎叶图表示某专卖店记录的每天销售量的情况(单位:台),则销售量的中位数是( )A .13B .14C .15D .16解析:由茎叶图可知这些数分别为5,8,10,14,16,16,20,23,∴中位数为14+162=15,故选C.答案:C5.某项测试成绩满分为10分,现随机抽取30名学生参加测试,得分如图所示,假设得分值的中位数为m e ,平均值为x ,众数为m 0,则( )A .m e =m 0=xB .m e =m 0<xC .m e <m 0<xD .m 0<m e <x解析:由图可知m 0=5.由中位数的定义知应该是第15个数与第16个数的平均值,由图知将数据从小到大排,第15个数是5,第16个数是6, 所以m e =5+62=5.5.x =130(3×2+4×3+5×10+6×6+7×3+8×2+9×2+10×2)≈5.97>5.5,所以m 0<m e <x ,故选D. 答案:D6.对某商店一段时间内的顾客人数进行了统计,得到了样本的茎叶图(如图所示),则该样本中的中位数为________,众数为________.解析:将样本数据按大小顺序排列,排在中间位置或中间两个数的平均数是中位数,出现次数最多的是众数,所以根据图中数据可知该样本中的中位数为45,众数为45. 答案:45 457.样本中共有五个个体,其值分别为a,0,1,2,3,若该样本的平均值为1,则样本方差为________. 解析:由题意知15(a +0+1+2+3)=1,解得a =-1.所以样本方差为s 2=15[(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3-1)2]=2.答案:28.若1,2,3,4,m 这五个数的平均数为3,则这五个数的方差为________.解析:由1+2+3+4+m 5=3得m =5,所以这五个数的方差为15[(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2]=2. 答案:29.如图所示的是甲、乙两人在一次射击比赛中中靶的情况(击中靶中心的圆面为10环,靶中各数字表示该数字所在圆环被击中时所得的环数),每人射击了6次.甲射击的靶 乙射击的靶(1)请用列表法将甲、乙两人的射击成绩统计出来;(2)请用学过的统计知识,对甲、乙两人这次的射击情况进行比较.解析:(1)甲、乙两人的射击成绩统计表如下:(2)x 甲=16×(8×2+9×2+10×2)=9(环),x 乙=16×(7×1+9×3+10×2)=9(环),s 2甲=16×[(8-9)2×2+(9-9)2×2+(10-9)2×2]=23,s 2乙=16×[(7-9)2+(9-9)2×3+(10-9)2×2]=1,因为x 甲=x 乙,s 2甲<s 2乙,所以甲与乙的平均成绩相同,但甲的发挥比乙稳定.[B 组 应考能力提升]1.某校甲、乙两个班级各有5名编号为1,2,3,4,5的学生进行投篮练习,每人投10次,投中的次数如表:A.25B.725C.35D .2解析:x 甲=7,s 2甲=15[(6-7)2+(7-7)2+(7-7)2+(8-7)2+(7-7)2]=25,x 乙=7,s 2乙=15[(6-7)2+(7-7)2+(6-7)2+(7-7)2+(9-7)2]=65,两组数据的方差中较小的一个为s 2甲,即s 2=25.故选A.答案:A2.样本中共有五个个体,其值分别为0,1,2,3,m .若该样本的平均值为1,则其方差为( )A.105 B.305C. 2D .2解析:依题意得m =5×1-(0+1+2+3)=-1,样本方差s 2=15(12+02+12+22+22)=2,即所求的样本方差为2. 答案:D3.已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中的m ,n 的比值m n=________.解析:由茎叶图可知甲的数据为27,30+m,39,乙的数据为20+n,32,34,38.由此可知乙的中位数是33,所以甲的中位数也是33,所以m =3.由此可以得出甲的平均数为33,所以乙的平均数也是33,所以有20+n +32+34+384=33,所以n =8,所以m n =38.答案:384.农科院的专家为了了解新培育的甲、乙两种麦苗的长势情况,从甲、乙两种麦苗的试验田中各抽取6株麦苗测量麦苗的株高,数据如下(单位:cm): 甲:9,10,11,12,10,20 乙:8,14,13,10,12,21(1)在给出的方框内绘出所抽取的甲、乙两种麦苗株高的茎叶图;(2)分别计算所抽取的甲、乙两种麦苗株高的平均数与方差,并由此判断甲、乙两种麦苗的长势情况.解析:(1)茎叶图如图所示:(2)x 甲=9+10+11+12+10+206=12,x 乙=8+14+13+10+12+216=13,s 2甲=16×[(9-12)2+(10-12)2+(11-12)2+(12-12)2+(10-12)2+(20-12)2]≈13.67,s 2乙=16×[(8-13)2+(14-13)2+(13-13)2+(10-13)2+(12-13)2+(21-13)2]≈16.67.因为x 甲<x 乙,所以乙种麦苗平均株高较高,又因为s 2甲<s 2乙,所以甲种麦苗长的较为整齐. 5.某校对高二年级的男生进行体检,现将高二男生的体重(kg)数据进行整理后分成6组,并绘制部分频率分布直方图(如图所示).已知第三组[60,65)的人数为200.根据一般标准,高二男生体重超过65 kg 属于偏胖,低于55 kg 属于偏瘦,观察图中的信息,回答下列问题:(1)求体重在[60,65)内的频率,并补全频率分布直方图;(2)用分层抽样的方法从偏胖的学生中抽取6人对日常生活习惯及体育锻炼进行调查,则各组应分别抽取多少人?(3)根据频率分布直方图,估计高二男生的体重的中位数与平均数.解析:(1)体重在[60,65)内的频率=1-(0.03+0.07+0.03+0.02+0.01)×5=0.2, 则频率组距=0.25=0.04,补全的频率分布直方图如图所示.(2)设男生总人数为n ,由200n=0.2,可得n =1 000.体重超过65 kg 的总人数为(0.03+0.02+0.01)×5×1 000=300, 在[65,70)的人数为0.03×5×1 000=150,应抽取的人数为6×150300=3,在[70,75)的人数为0.02×5×1 000=100,应抽取的人数为6×100300=2,在[75,80]的人数为0.01×5×1 000=50,应抽取的人数为6×50300=1.所以在[65,70),[70,75),[75,80]三段应抽取的人数分别为3,2,1. (3)中位数为60 kg ,平均数为(52.5×0.03+57.5×0.07+62.5×0.04+67.5×0.03+72.5×0.02+77.5×0.01)×5=61.75(kg).。
2.2用样本的数字特征估计总体的数字特征与变量的相关性典型例题:1.对具有线性相关关系的变量x , y ,有一组观测数据(i x ,i y )(i =1,2,-,8),其回归直线方程是:16y x a =+,且1238...3x x x x ++++=,1238(...)6y y y y ++++=,则实数a 的值是A .116B .18C .14D .11162.甲、乙两棉农,统计连续五年的面积产量(千克/亩)如下表:则平均产量较高与产量较稳定的分别是( ) A .棉农甲,棉农甲 B .棉农甲,棉农乙 C .棉农乙,棉农甲 D .棉农乙,棉农乙巩固练习:1.从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为( )A C .3 D .852.已知数据1x ,2x ,3x ,…,n x 是枣强县普通职工n (3n ≥,*n N ∈)个人的年收入,设n 个数据的中位数为x ,平均数为y ,方差为z ,如果再加上世界首富的年收入1n x +,则这1n +个数据中,下列说法正确的是( )A .年收入平均数大大增加,中位数一定变大,方差可能不变B .年收入平均数大大增加,中位数可能不变,方差变大C .年收入平均数大大增加,中位数可能不变,方差也不变D .年收入平均数可能不变,中位数可能不变,方差可能不变3.如图是甲,乙两名同学5次综合测评成绩的茎叶图,则乙的成绩的中位数是 ,甲乙两人中成绩较为稳定的是 .4.已知一组数据x 1,x 2,x 3,…,x n 的平均数是x ,方差是2S ,那么另一组数据 2x 1– 1,2x 2 – 1,2x 3– 1,…,2x n – 1的平均数是 ,方差是 .5.在下列各图中,两个变量具有较强正相关关系的散点图是( )A. B.C. D.6.在某次体检中,有6位同学的平均体重为65公斤.用nx 表示编号为()1,2,,6n n =L 的同学的体重,且前5位同学的体重如下:编号n 1 2 3 4 5 体重x n6066626062(1)求第6位同学的体重6x 及这6位同学体重的标准差s;(2)从前5位同学中随机地选2位同学,求恰有1位同学的体重在区间()58,65中的概率.7.关于某设备的使用年限x 和所支出的维修费用y (万元),有如下的统计资料: x 2 3 4 5 6 y2.23.85.56.57.0(1)如由资料可知y 对x 呈线形相关关系.试求:线形回归方程;(a y b x ∧∧=-,1221()ni ii nii x y nx yb xn x ∧==-=-∑∑)(2)估计使用年限为10年时,维修费用是多少?8.2017高考特别强调了要增加对数学文化的考查,为此某校高三年级特命制了一套与数学文化有关的专题训练卷(文、理科试卷满分均为100分),并对整个高三年级的学生进行了测试.现从这些学生中随机抽取了50名学生的成绩,按照成绩为[)50,60, [)60,70,…,[]90,100分成了5组,制成了如图所示的频率分布直方图(假定每名学生的成绩均不低于50分).(1)求频率分布直方图中的x 的值,并估计所抽取的50名学生成绩的平均数、中位数(同一组中的数据用该组区间的中点值代表);(2)若高三年级共有2000名学生,试估计高三学生中这次测试成绩不低于70分的人数; (3)若在样本中,利用分层抽样的方法从成绩不低于70分的三组学生中抽取6人,再从这6人中随机抽取3人参加这次考试的考后分析会,试求[)[]80,90,90,100两组中至少有1人被抽到的概率.2.2用样本的数字特征估计总体的数字特征与变量的相关性典型例题:1. D 【解析】试题分析:由1238...3x x x x ++++=,1238(...)6y y y y ++++=可知回归中心为36,88⎛⎫⎪⎝⎭,代入回归方程16y x a =+得1116a = 考点:回归方程2. B 【解析】试题分析:由上表数据可得,甲的平均数16872706971705x ++++==,甲的方差为211(44011)25s =++++=;乙的平均数为26971686869695x ++++==,乙的方差为221(01410) 1.25s =++++=,则221212,x x s s >>,故选B . 考点:数据的平均数与方差的计算. 巩固练习: 1. B 【解析】 试题分析:()5204103302301101003⨯+⨯+⨯+⨯+⨯÷=,方差为()()()()18205321043230232101321005⨯-+⨯-+⨯-+⨯-=⎡⎤⎣⎦,则这100人成绩的= B. 考点:1、样本估计总体的应用;2、样本的平均数、方差及标准差.2. D 【解析】试题分析:∵数据1x ,2x ,3x ,…,n x 是上海普通职工n (3n ≥,*n N ∈)个人的年收入,而1n x +为世界首富的年收入,则1n x +会远大于1x ,2x ,3x ,…,n x ,故这1n +个数据中,年收入平均数大大增大,但中位数可能不变,也可能稍微变大,但由于数据的集中程序也受到1n x +1n x +比较大的影响,而更加离散,则方差变大.故选B . 考点:样本的数字特征. 3. 87,甲. 4. 12-x ,24S5. B 【解析】A 中两个变量之间是函数关系,不是相关关系;在两个变量的散点图中,若样本点成直线形带状分布,则两个变量具有相关关系,对照图形:B 中样本点成直线形带状分布,且从左到右是上升的,∴是正相关关系;C 中样本点成直线形带状分布,且从左到右是下降的,∴是负相关关系;D 中样本点不成直线形带状分布,相关关系不明显,故选B. 6. 【答案】(1)680x =,7s =;(2)25. 【解析】试题分析:(1)本题应用平均值公式12nx x x x n+++=L 就可直接求得6x ,再用标准差公式s =(2)此题概率属于古典概型问题,从前5位同学中任取2名,共有2510C =种选取方法,而其中体重在区间(58,65)里的有4人,因此符合题意的选取方法为144⨯=,从而可得概率为42105=. 试题解析:(1)由题意66066626062656x +++++=,∴680x = 2分64s ∴=L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L 位同学成绩的标准差=7分66806.5x ∴=L L L L L L L L L L L L 第位同学的成绩,这位同学成绩的标准差为7分34534534334552,66),,62),,60),,62),(66,62),(66,60),(66,62),(62,60),(62,62),(60,62).818,65)4()II L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L L 1111从前位同学中任意选出位同学的基本事件个数有10个,它们是(60 (60(60(60 分 其中恰有位同学的成绩在(5之间的基本事件有个,它345,66),(66,62),(66,60),(66,62).10L L L L L L L L L L L L L L L L L L L L L L L L L L L L 1们是(60 分425865. 12 105P =L L L L L L L L L L L 所以恰有1个同学的成绩在之间的概率 (,)=分 7. 【答案】(1) .08.023.1+=+=∧x a bx y (2) 12.38万元.【解析】试题分析:(1)根据所给的数据,做出变量x ,y 的平均数,根据最小二乘法做出线性回归方程的系数b ,在根据样本中心点一定在线性回归方程上,求出a 的值,从而得到线性回归方程;(2)当自变量为10时,代入线性回归方程,求出当年的维修费用,这是一个预报值.. 试题解析:解:(1)55.75.65.58.32.2,4565432=++++==++++=y x∑∑====515123.112,90i i i i iy x x()23.145905453.112552251251=⨯-⨯⨯-=--=∑∑==∧xx yx yx b i i i ii 6分;于是08.0423.15=⨯-=-=∧∧x b y a .所以线形回归方程为:.08.023.1+=+=∧x a bx y 8分; (2)当10=x 时,)(38.1208.01023.1万元=+⨯=∧y , 即估计使用10年是维修费用是12.38万元. 12分; 考点:线性回归方程..8. 【答案】(1)见解析;(2)1200.(3)1920. 【解析】试题分析:(1)由各个矩形的面积和为1可得0.02x =,各矩形中点横坐标对应频率之积求和即可得平均数,设中位数为t 分,利用t 左右两边面积为12可得中位数;(2)根据直方图可得50名学生中成绩不低于70分的频率,即可估计这次测试成绩不低于70分的人数;(3)利用列举法,确定基本事件的个数,即利用古典概型概率公式可求出两组中至少有1人被抽到的概率的概率.试题解析:(1)由频率分布直方图可得第4组的频率为10.10.30.3--- 0.10.2-=,故0.02x =.故可估计所抽取的50名学生成绩的平均数为(550.01650.03⨯+⨯ 750.03850.02+⨯+⨯+ 950.01)1074⨯⨯=(分).由于前两组的频率之和为0.10.30.4+=,前三组的频率之和为0.10.30.30.7++=,故中位数在第3组中.设中位数为t 分,则有()700.030.1t -⨯=,所以1733t =, 即所求的中位数为1733分.(2)由(1)可知,50名学生中成绩不低于70分的频率为0.30.20.10.6++=, 由以上样本的频率,可以估计高三年级2000名学生中成绩不低于70分的人数为20000.61200⨯=.(3)由(1)可知,后三组中的人数分别为15,10,5,故这三组中所抽取的人数分别为3,2,1.记成绩在[)70,80这组的3名学生分别为a , b , c ,成绩在[)80,90这组的2名学生分别为d , e ,成绩在[]90,100这组的1名学生为f ,则从中任抽取3人的所有可能结果为(),,a b c , (),,a b d , (),,a b e , (),,a b f , (),,a c d , (),,a c e , (),,a c f , (),,a d e , (),,a d f ,(),,a e f , (),,b c d , (),,b c e , (),,b c f , (),,b d e , (),,b d f , (),,b e f , (),,c d e , (),,c d f , (),,c e f , (),,d e f 共20种.其中[)[]80,90,90,100两组中没有人被抽到的可能结果为(),,a b c ,只有1种, 故[)[]80,90,90,100两组中至少有1人被抽到的概率为11912020P =-=.。