当前位置:文档之家› 必修二用样本估计总体

必修二用样本估计总体

必修二用样本估计总体
必修二用样本估计总体

第十讲用样本估计总体

【引例】

我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.

通过抽样调查,获得100位居民2007年的月均用水量如下表(单位:t):

3.1 2.5 2.0 2.0 1.5 1.0 1.6 1.8 1.9 1.6

3.4 2.6 2.2 2.2 1.5 1.2 0.2 0.4 0.3 0.4

3.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.8

3.3 2.8 2.3 2.2 1.7 1.3 3.6 1.7 0.6

4.1

3.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8

4.3

3.0 2.9 2.4 2.4 1.9 1.3 1.4 1.8 0.7 2.0

2.5 2.8 2.3 2.3 1.8 1.3 1.3 1.6 0.9 2.3

2.6 2.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.4

2.5 2.6 2.3 2.1 1.6 1.0 1.0 1.7 0.8 2.4

2.8 2.5 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.2

显然,若居民月用水量标准a太高,则会影响居民的日常生活;若居民月用水量标准a太低,则不利于节约用水. 为了确定一个较为合理的居民月用水量标准a,必须对全市居民月均用水量的分布情况进行分析,比如月均用水量在哪个范围的居民最多,他们占全市居民的百分比情况等.

一、频率分布表与频率分布直方图

1.频率分布表

分组频数累计频数频率

[0,0.5) 4 0.04

[0.5,1)正8 0.08

[1,1.5)正正正15 0.15

[1.5,2)正正正正22 0.22

[2,2.5)正正正正正25 0.25

[2.5,3)正正14 0.14

[3,3.5)正一 6 0.06

[3.5,4) 4 0.04

[4,4.5] 2 0.02

合计100 1.00

2.一般地,列出一组样本数据的频率分布表可以按以下几个步骤进行

①求极差.(极差=样本数据中最大值与最小值的差)

②决定组距与组数.(设k=极差÷组距,若k为整数,则组数=k,否则,组数=k+1)

③确定分点,将数据分组. ④统计频数,计算频率,制成表格.

3.为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:

上图称为频率分布直方图,其中横轴表示月均用水量,纵轴表示频率/组距. 频率分布直方图中各小长方形的宽度和高度在数量上有何特点?

4.频率分布直方图各小长方形的面积表示什么?各小长方形的面积之和多少?

5.频率分布直方图非常直观地表明了样本数据的分布情况,使我们能够看到频率分布表中看不太清楚的数据模式,但原始数据不能在图中表示出来.你能根据上述频率分布直方图指出居民月均用水量的一些数据特点吗?

二、茎叶图

频率分布表、频率分布直方图和折线图的主要作用是表示样本数据的分布情况,此外,我们还可以用茎叶图来表示样本数据的分布情况.

【问题】某赛季甲、乙两名篮球运动员每场比赛的得分情况如下:

甲运动员得分:13,51,23,8,26,38,16,33,14,28,39;

乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39.

助教在比赛中将这些数据记录为如下形式:

甲乙

8 0

4 6 3 1 2 5

3 6 8 2 5 4

3 8 9 3 1 6 1 6 7 9

4 4 9

1 5 0

1.你能理解这个图是如何记录这些数据的吗?你能通过该图说明哪个运动员的发挥更稳定吗?

2.在统计中,上图叫做茎叶图,它也是表示样本数据分布情况的一种方法,其中“茎”指的是哪些数,“叶”指的是哪些数?

3.对于样本数据:3.1,2.5,2.0,0.8,1.5,1.0,

4.3,2.7,3.1,3.5,用茎叶图如何表示?

4.一般地,画出一组样本数据的茎叶图的步骤如何?

5.用茎叶图表示数据的分布情况是一种好方法,你认为茎叶图有哪些优点?

三、众数、中位数和平均数

1、在初中我们学过众数、中位数和平均数的概念,这些数据都是反映样本信息的数字特征,对一组样本数据如何求众数、中位数和平均数?

2.在城市居民月均用水量样本数据的频率分布直方图中,你认为众数应在哪个小矩形内?由此估计总体的众数是什么?

3.在频率分布直方图中,每个小矩形的面积表示什么?中位数左右两侧的直方图的面积应有什么关系?

4.在城市居民月均用水量样本数据的频率分布直方图中,从左至右各个小矩形的面积分别是0.04,0.08,0.15,0.22,0.25,0.14,0.06,0.04,0.02.由此估计总体的中位数是什么?

5.平均数是频率分布直方图的“重心”,在城市居民月均用水量样本数据的频率分布直方图中,各个小矩形的重心在哪里?从直方图估计总体在各组数据内的平均数分别为多少?

6.根据统计学中数学期望原理,将频率分布直方图中每个小矩形的面积与小矩形底边中点的横坐标之积相加,就是样本数据的估值平均数. 由此估计总体的平均数是什么?

7.一组数据的中位数一般不受少数几个极端值的影响,这在某些情况下是一个优点,但它对极端值的不敏感有时也会额成为缺点,你能举例说明吗?样本数据的平均数大于(或小于)中位数说明什么问题?你怎样理解“我们单位的收入水平比别的单位高”这句话的含义?

四、标准差

1.在一次射击选拔赛中,甲、乙两名运动员各射击10次,每次命中的环数如下:

甲: 7 8 7 9 5 4 9 10 7 4

乙: 9 5 7 8 7 6 8 6 7 7

甲、乙两人本次射击的平均成绩分别为多少环?

2、甲、乙两人射击的平均成绩相等,观察两人成绩的频率分布条形图,你能说明其水平差异在那里吗?

3、反映样本数据的分散程度的大小,最常用的统计量是标准差,一般用s 表示.假设样本数据x 1,x 2,…,

x n 的平均数为x ,则标准差的计算公式是:

222

12()()()n x x x x x x s n

-+-++-=L . 那么标准差的取值范围是什么?标准差为0的样本数据有何特点?

4.标准差的平方s 2称为方差,有时用方差代替标准差测量样本数据的离散度.方差与标准差的测量效果是一致的,在实际应用中一般多采用标准差.

【典例精讲】

例1 在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题:

(1)本次活动共有多少件作品参加评比?

(2)哪组上交的作品数量最多?有多少件?

(3)经过评比,第四组和第六组分别有10件、2件作品获奖,

问这两组哪组获奖率高?

频率 组距 0.5 0.4 0.3 0.2 0.1 0.5 1 1.5 2 2.5 3 3.5 4 4.5 O 频率 0.4 0.3 0.2 0.1 4 5 6 7 8 9 10 O (甲)

频率 0.4 0.3 0.2 0.1 4 5 6 7 8 9 10 O (乙)

例2为了解A,B两种轮胎的性能,某汽车制造厂分别从这两种轮胎中随机抽取了8个进行测试,下面列出了每一个轮胎行驶的最远里程数(单位:1 000 km)

轮胎A 96,112, 97, 108, 100, 103, 86, 98

轮胎B 108,101,94,105,96,93,97,106

(1)分别计算A,B两种轮胎行驶的最远里程的平均数,中位数;

(2)分别计算A,B两种轮胎行驶的最远里程的极差、标准差;

(3)根据以上数据你认为哪种型号的轮胎性能更加稳定?

例3某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min抽取一包产品,称其重量,分别记录抽查数据如下:

甲:102,101,99,98,103,98,99;

乙:110,115,90,85,75,115,110.

(1)这种抽样方法是哪一种?(2)将这两组数据用茎叶图表示;

(3)将两组数据比较,说明哪个车间产品较稳定.

【家庭作业】

1.为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为1

2.

(1)第二小组的频率是多少?样本容量是多少?

(2)若次数在110以上(含110次)为达标,

试估计该学校全体高一学生的达标率是多少?

(3)在这次测试中,学生跳绳次数的中位数落在

哪个小组内?请说明理由.

2.某赛季甲、乙两名篮球运动员每场比赛得分情况如下:

甲的得分:12,15,24,25,31,31,36,36,37,39,44,49,50;

乙的得分:8,13,14,16,23,26,28,33,38,39,59.

(1)制作茎叶图,并对两名运动员的成绩进行比较;(2)计算上述两组数据的平均数和方差,并比较两名运动员的成绩和稳定性;(3)能否说明甲的成绩一定比乙好,为什么?

【作业答案】 1.(1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小,因此第二小组的频率为:

391517424+++++=0.08.又因为频率=样本容量第二小组频数,所以样本容量=第二小组频率第二小组频数=08

.012=150. (2)由图可估计该学校高一学生的达标率约为3

9151742391517++++++++×100%=88%. (3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.

2.(1)制作茎叶图如下:

从茎叶图上可看出,甲运动员发挥比较稳定,总体得分情况比乙好.

(2)x 甲=33,2甲s ≈127.23,x 乙=27,2乙s ≈199.09,

∴x 甲>x 乙, 2甲s <2乙s ,

∴甲运动员总体水平比乙好,发挥比乙稳定.

(3)不能说甲的水平一定比乙好,因为上述是甲、乙某赛季

的得分情况,用样本估计总体也有一定的偶然性,并不能说

一定准确反映总体情况.

相关主题
文本预览
相关文档 最新文档