当前位置:文档之家› 第五章 统计量及其分布

第五章 统计量及其分布

第五章 统计量及其分布
第五章 统计量及其分布

第五章 统计量及其分布

§ 5.1 总体与样本

内容概要

1 总体 在一个统计问题中,研究对象的全体称为总体,构成总体的每个成员称为个体若关心的是总体中每个个体的一个数量指标,则该总体称为一维分布。若关心的是总体中的每个个体的两个数量指标,则该总体称为二维总体,二维总体就是一个二维分布,余此类推。

2 有限总体与无限总体 若总体中的个数是有限的,此总体称为有限总体。 若总体中的个数是无限的,此总体称为无限总体。

实际中总体的个体数大多是有限的。当个体数充分大时,将有限总体看作无限总体是一种合理的抽象。

3 样本 从总体中随机抽取的部分个体组成的集合称为样本,样本的个体称为样本,样本个数称为样本容量或样本量。

样本常用n 个指标值1x ,2x , ,n x 表示.它可看作n 维随机变量,又可看作其观察值,这由上下文加以区别。

4 分组样本 只知样本观测值所在区间,而不知具体值的样本称为分组样本。 缺点:与完全样本相比损失部分信息。

优点:在样本量较大时,用分组样本即简明扼要,又能帮助人们更好的认识总体。 5 简单随机样本 若样本 1x ,2x , ,n x 是n 个相互独立的具有同一分布(总体分布)的随机变量,册称该样本为简单随机样本,仍简称样本。

若总体的分布函数为F(x),则其样本的(联合)分布函数为

()∏=n

i i

x F 1;

若总体的密度函数为P(x),则其样本的(联合)密度函数为

∏=n

i x p 1

)(;

若总体的分布列为{p(x i )},则其样本的(联合)分布列为

∏=n

i x p 1

)(;

习题与解答5.1

1. 某地电视台想了解某电视栏目(如:每晚九点至九点半的体育节目)在该 地区的收视率情况,于是委托一家市场咨询公司进行一次电话访查。

(1)该项研究的总体是什么? (2)该项研究的样本是什么?

解:(1)该项研究的总体是该地区全体电视观众;

(2)该项研究的样本上一该地区被电话访查的电视观众。

2. 为了了解统计学专业本科毕业生的就业情况,我们调查了某地区30名2000年毕业生的统计学专业本科生实习期满的月薪情况。

(1)什么是总体?

(2)什么是样本?

(3)本量是多少?

解:(1) 总体是该地区2000年毕业的统计学专业本科生实习期满后的月薪; (2) 样本是被调查的30名2000年毕业的统计学专业本科生实习期满后的月薪; (3) 样本量为30。

3.设某厂大量生产某种产品,其不合格品率p 未知,每m 件产品包装为一盒。为了检查产品的质量,任意抽取n 盒,查其中的不合格品数,试说明什么是总体,什么是样本,并指出样本的分布。

解:总体为该厂生产的每盒产品中的不合格品数;样本是任意抽取的n 盒中每盒产品的不合格数;

样本中每盒产品中的不合格品数为1x ,…,n x ,因i x ~b(m,p),i =1,2,…,n,所以样本(x 1,x 2,…,x n )的分布为

().,)1(1111n t nm t n i i x m x n

i i x x t p p x m p p x m i

i ++=-?

??

? ?????? ??=-???? ??---=∏∏ 其中 4.假设一位运动员在完全相同的条件下重复进行n 次打靶,试给出总体样本的统计描述。 解: 若以P 记运动员打靶命中的概率,并以“1”记打靶命中,记“0”记打靶未命中,则总体为运动员打靶命中与否,该总体可由一个二点分布表示:

样本为由n 个0或组成的集合,若记i x 为第i 次打靶命中情况,则i x ~b(1,p),i=1,2,…,样本

(x 1,x 2,…,x n )的分布为

11

(1)(1)i

i n

x x t n t i P

p p p --=-=-∏,其中t=n x x ++ 1。

5. 某厂生产的电容器的使用寿命服从指数分布,为了解其平均寿命,从中抽出n 件厂品测其实际使用寿命,试说明什么是总体,什么是样本,并指出样本的分布

解: 总体是该厂生产的电容器的寿命,或者可以说总体是指数分布,其分布为Exp(λ); 样本是该厂中抽出的n 个电容器的寿命;

记第i 个电容器的寿命为i x ,则i x ~ Exp(λ),i=1,2,…,n,样本(x 1,x 2,…,x n )的分布为

t n n

i x e e i

λλ

λλ-=-=∏1

,其中t=n x x ++ 1。

6. 美国某高校根据毕业生返校情况记录,宣布该校毕业生的资为五万美元,你对此有和评论。

解: 毕业生返校记录是全体毕业生中的一个特殊群体(子总体)的一个样本,它只能反映该子总体的特征,不能反映全体毕业生状况,故此说法有骗人之嫌。

7. 设有N 个厂品,其中有M 个次品,进行放回抽样。定义i x 如下:

?

?

?=次取得正品。第次取得次品,

第i i x i ,0,1 求样本n x x x ,,,21 的联合分布。

解: 总体的分布列为 ,1)0(,)1(N

M

X P N M X P -===

= 也可以写成 .1,0,1)(1=?

??

?

?-??? ??==-x N M N M x X P x

x

因此样本n x x x ,,,21 的联合分布列为

1121(,,,)11,0,1,i

i

x

x t

n t

n

n i i M M M M p x x x x N N N N --=????

??

??=-=-= ? ?

? ?

???

???

?

?∏

其中12n t x x x =+++ .

8.设离散总体的分布列为.,,2,1,1

)(n k N

k X P ==

=现进行不返回抽样,(x 1,x 2,…,x n )为样本,1

1n

i i x x n ==∑为样本均值,求)(_

x E 与()Var x (表示成N 的函数)。

解: 由于N 有限,抽样是不返回的,所以样本n x x x ,,,21 中诸i x 的分布列与总体的分布列相同,但诸i x 间不相互独立,即此样本不是简单随机样本。以下我们先求诸i x 的期望,方差与协方差:

1

2

222

12

2

2

,11(1)1

(),1,2,,22

1()()[()]2(1)(21)11

,1,2,,,62121()()()(),

12N

i k N

i i i k N

i j i j i j k k N N N E x i n N N k N Var x E x E x N

N N N N N i n N k l N Cov x x E x x E x E x N N ==≠++==?==+??=-=- ?

??+++-??=

-== ?

??

+??

=-?=?- ?-?

?∑

∑∑

其中

2

22

111(1)(1)(21)46(1)(1)(32),12N

N N

k k k N N N N N kl k k N

N N N ≠==+++??=-=- ???=+-+∑∑∑

代回原协方差表达式,可得

2

,(1)(1)(32)(1)()12(1)4

1,,1,2,,,

12

i j N N N N N Cov x x N N N i ji j N +-++=-

-+=-≠= 且

由此可得样本均值_

x 的期望与方差

2

1

21221

1()()2

1()()(,)1(1)11(1)(1)().121212n

i i n

N i i j i i j N E x E x n

Var x Var x Cov x x n n N N n n N N n n n

==≠+==

??=+??

????-+=--?=+-????∑∑∑

5.2 样本数据的整理与显示

内容提要

1. 经验分布函数 若将样本观测值n x x x ,,,21 由小到大排列,得有序样本

,)()2()1(n x x x ≤≤≤ 用有序样本定义如下函数

,,1,,2,1,, ,1,/,

0)()()1()()1(n k k n x x n k x x x x x n k x F ≥-=<≤

?

??=+当当当

则称)(x F n 为该样本的经验分布函数 。

格里纹科定理 设n x x x ,,,21 是取自总体分布函数为是的样本,)()(x F x F n 该样本的经验分布函数,则当n →∞时:(sup |()()|)1n x P F x F x -∞<<∞

-=。

此定理表明:当n 相当大时,经验分布函数的一个是总体分布函数)()(x F x F n 良好的近似,它是经典统计学的一块基石。

2. 频数频率分布表 有样本数据n x x x ,,,21 制作频数频率分布表的操作步骤如下: ● 确定组数k ;

● 确定每组组距,通常取每组组距相等为d ; ● 确定每组组限;

● 统计样本数据落入每个区间的频数,并计算频率。

综合上述,列入表中,即得该样本的频数频率分布表,该表就是一个分组样本,它能简明扼要的样本特点表示出来。不足之处是该表依赖于分组,不同的分组方式有不同的频数频率分布表。

3. 样本数据的图形表示 (1)直方图

● 利用频数频率分布表上的区间(横坐标)和频数(纵坐标)可作出频数直方图; ● 若把纵坐标改为频率就得频率直方图;

● 若把纵坐标改为频率/组距,就得到单位频率直方图。这时长条矩形的面积之和为1 此三种直方图的差别仅在纵坐标的设置上,直方图本身无变化。

(2)茎叶图

把样本中的每个数据分为茎与叶,把茎放于一侧,叶放于另一侧,就得到一张该样本的茎叶图,比较两个样本时,可画出背靠背的茎叶图。

茎叶图保留数据中的全部信息,当样本量较大时数据很分散,横跨二,三个数量级时,茎叶图并不实用。

习题与解答5.2

1. 以下是某工厂通过抽样调查得到的10名工人一周内生产的产品149,156,160,138,149, 153,153,169,156,15.试由这批数据构造经验分布函数并作图。

解:此样本容量为10,经排序可得到有序样本;

,153,149,138)5()4()3()2()1(=====x x x x x 169,160,156)10()9()8()7()6(=====x x x x x

其经验分布函数及其图形分布如下

??????

?????≥<≤<≤<≤<≤<≤<=.

169,

1,169160,9.0,160156,8.0,156153,

5.0,153149,3.0,149138,1.0,138,

0)(x x x x x x x x F n

2. 下表是经过整理后得到的分组样本;

组序 1

2

3

4 5

分组区间 (38,48) (48,58) (58,68) (68,78) (78,88)

频数

3

4

8

3

2

试写出此分组样本的经验分布函数。

解: 样本的经验分布函数为

??????????

?≥<≤<≤≤<≤<=

,5.77,

1,5.775.67,9.0,5.675.57,75.0,5.575.47,35.0,5.475.37,15.0,5.37,

0)(x x x x x x x F n

3.假如某地区30 名 2000年某专业毕业生实习期满后的月薪数据如下:

738

866950971

116487110441224808109610251203775

950

1232

992914

825

157********

1130108110711091

132099911201086909

(1)该批数据的频率分布表(分6组);(2)画出直方图。 解:此处数据最大观测值为1572,最小观测值为738,故组距近似为:

1406

738

1572=-=

d ,

确定每组区间端点为

,020100,,2,,k a kd a a d a a d a a =+=+=+ ,

此处可取7350=a ,于是分组区间为

(735,875],(875,1015],(1015,1155],(1155,1295],(1295,1435],(1435,1575].

其频数频率分布如下:

其直方图如图5.2.

所需时间/min

频率 0~10 0.10 10~20 0.24 20~30 30~40 0.18 40~50

0.14

4. 某公司对其250名职工上班所需时间进行了调查,下面是其不完整的频率分布表:

图 5.2

(1) 试将频率分布表补充完整;(2) 该公司上班所需时间在半小时以内有多少人? 解:(1)由于频率和为1,故空缺的频率为1-0.1-0.24-0.18-0.14=0.34.

(2)该公司上班所需时间在半小时内的人所占频率为0.1+0.24+0.34=0.68,该公司有职工250人,故该公司上班所需的时间在半小时以内的人有250×0.68=170.

5. 40种刊物的月发行量如下(单位:百册):

5954 5022 14667 6582 6870 1840 2662 4508 1208 3852 618 3008 1268 1978 7963 2048 3077 993 353 14263 1714 11127 6926 2047 714 5923 6006 14267 1697 13876 4001 2280 1223 12579 13588 7315 4538 13304 1615 8612

(1) 建立该批数据的频率分布表,取组距为1700百册;(2) 方图.

解: 处数据最大观测值为14667,最小观测值为353,由于组距为1700,故组数为:,42.81700

353

14667=-≥

k 所以分9组.接下来确定每组区间端点,要求

9,35300+14667

此处可取0a =300,于是可列出其频数频率分布表.

其直方图为

图5.3

6.对下列数据构造茎叶图

452 425 447 377 341 369 412 399 400 382 366 425 399 398 423 384 418 392 372 418 374 385 439 408 409 428 430 413 405 381 403 469 381

443

441

433

399

379

386

387

解:取百位数与十位数组成茎,个位数为叶,这组数据的茎叶图如下:

34 1 35 36 6 9 37 2 4 7 9 38 1 1 2 4 5 6 7 39 2 8 9 9 9 40 0 3 5 8 9 41 2 3 8 8 42 3 5 5 8 43 0 3 9 44 1 3 7 45 2 46

9

7. 根据调查,某集团公司的中层管理人员的年薪数据如下(单位:千元):

40.6

39.6 37.8 36.2 38.8 38.6 39.6 40.0 34.7 41.7 38.9 37.9 37.0 35.1 36.7 37.1

37.7

39.2

36.9

38.3

试画出茎叶图。

解:取整数部分为茎,小数部分为叶,这组数据的茎叶图如下:

34 7 35 1 36 2 7 9 37 0 1 7 8 9 38 3 6 8 9 39 2 6 6 40 0 6 41

7

8.设总体X 的分布函数为()x F ,经验分布函数为()x F n ,试证

E[n F (x)]=F(x),Var[n F (x)]=

n

1

F(x) [1- F(x)]. 证:设n x x x ,,,21 是取自总体分布函数为F(x)的样本,则经验分布函数为

n F (x)=??

?

??≥-=<≤<+.,1,1,,2,1,,,,0)()1()()1(n k k x x n k x x x n k x x 当当当

若令y i =I {}x X i ≤,i=1,2,n , ,则n y y y ,,,21 是独立同分布的随机变量,且

E(y i )=1()P x x ≤=F (x),

21()E y =1()P x x ≤=F (x),

于是

Var(i y )=F(x )-[F(x)]2

= F(x)[1- F(x)].

又F ()x n 可写为F ()x n =

n

1

∑=n

i i

y

1

,故有

E[n F (x)]= E ()1y = F(x),Var[n F (x)]=

n 1 Var(i y )=n

1

F(x) [1- F(x)]

5.3 统计量及其分布

内容概要

1. 统计量 不含未知参数的样本函数称为统计量。统计量的分布称为抽样分布。

2. 样本均值 样本n x x ,...,1算术平均值称为样本均值,记为-

x 。

分组样本均值:-

x =i k

i i f x n ∑=1

1,其中n 为样本量,k 为组数,i x 与i f 为第i 组的组中值与频

数,分组样本均值是完全样本均值的一种较好的近似。

样本均值的性质: (1)

0)(1

=---∑x x

n

i i

,样本数据i x 对样本均值-

x 的偏差之和为零;

(2)样本数据i x 与样本均值-

x 的偏差平方之和最小,即对任意的实数c 有

21

2

1

)()(c x x x

n

i i n

i i

-≤-∑∑=-

=

(3)若总体分布为N(),2

σμ,则-

x 的精确分布为N )/,(2

n σμ;

(4)若总体分布未知,但其期望μ与方差2

σ存在,则当n 较大时,-

x 的渐近分布为N )/,(2

n σμ,这里渐近分布是指n 较大时的近似分布。

3. 样本方差与样本标准差 样本方差有两个,样本方差2

*s 与样本无偏方差2

*s

2

*s =

n

12

1

)(-=-∑x x n

i i

, 112

-=n s 21

)(-

=-∑x x

n

i i

实际中常用的是无偏样本方差2s ,这是因为:当2

σ为总体方差时,总有

E(2

s *)=

2

1σn

n -, E(22)σ=s . 这表明:2

*s 有系统偏小的误差,而2

s 无此系统偏差。今后称2

s 为样本方差。2s s =为

样本标准差。

2s 的计算有如下三个公式可供选用:

2

s =222

22()111()[][].111

i i i

i x x x x x nx n n n n -=-=----∑∑∑∑ 在分组样本场合,样本方差的近似计算公式为

2

2

11

11()[],11k k i i i i i i s f x x f x nx n n ===-=---∑∑ 其中k 为组数,i i f x , 分别为第i 个区间的组中值与频数,x 为分组样本的均值。

4. 本矩及其函数

(1) 样本的k 阶原点矩∑==n i k

i k x n a 1

1,样本均值x 为样本的一阶原点矩;

(2) 样本的k 阶中心矩1

1()n k

k i i b x x n ==-∑,样本方差2s 和2*s 都为样本的二阶中心矩;

(3) 样本变异系数/r C s x =; (4) 样本的偏度2

/3231/b b =γ;

(5) 样本的峰度322

4

2-=

b b γ; 5. 次序统计量及其分布 设n x x ,...,1是取自某总体的一个样本,)(i x 的每次取值是将每次样本观测值由小到大排序后得到的第i 个观测值。

},...,min{1)1(n x x x =称为该样本的最小次序统计量; },...,max{1)1(n x x x =称为该样本的最大次序统计量;

(),...,,)()2()1(n x x x 称为该样本的次序统计量。

设总体X 的密度函数为p(x),分布函数为F(x),n x x ,...,1为样本,则有 (1) 样本第k 个次序统计量)(k x 的密度函数为

)())(1())(()!

()!1(!

)(1x p x F x F k n k n x p k n k k -----=

(2) 样本第i 个与第j 个次序统计量的联合密度函数为

11

!

(,)[()][()()](1)!(1)!()![1()]()(),.

i j i ij n j n p y z F y F z F y i j i n j F z p y p z y z ----=

-----?-≤

6. 样本中位数与样本分位数 设1,,n x x 是取自某总体的样本,(1)(2)n x x x ≤≤≤ 为样本的次序统计量,则样本中位数5.0m 定义为

1()

20.5()(1),1

(),2

n np np x n m x x n ++??=?

?+?为奇数,

为偶数, 而样本的p 分位数p m 定义为

([1])(1),1

(),2

np p np np x np m x x np ++??=?+??若不是整数,若是整数, 其中[x]表示小于或等于x 的最大整数。中位数对样本的极端值有抗干扰性,或称有稳健性。

样本分位数的渐进分布:设总体的密度函数为p(x) ,p x 为总体的p 分为数。若p(x)在p

x 处连续且p(p x )>0则当从分大时,有2(1)~,,()N p p p p p m x np x ??- ? ??

?0.50.520.51

~,.4()m N x np x ?? ??? 7. 五数概括与箱线图 五数概括是指用样本的五个次序统计量

.,,,,)(max 75.035.025.01)1(min n x x m Q m Q m Q x x =====

大致描述一个样本的轮廓,其图形表示称为箱线图。

当样本量较大时,箱线图可用来对总体分布形状进行大致的判断。

习题与解答5.3

1. 在一本书上我们随机地检查了10页,发现每页上的错误数为

4 5 6 0 3 1 4 2 1 4

试计算其样本均值,样本方差和样本标准差。

解: 样本均值,310

4

5421=+++=+++=

n x x x x n

样本方差78.3])34()35()34[(9

1)(112222

12

=-++-+-=--=∑= x x n s n i i

样本标准差s=2x =1.94 2. 证明:对任意常数c,d, 有

).)(())(())((1

1

d y c x n y y x x d y c x

i n

i i i n

i i

--+--=--∑∑==

证:

).)(())((11

d y y y c x x x d y c x

i n

i i i n

i i

-+--+-=--∑∑==

=

))((1y y x x

i n

i i

--∑=+))((1y y c x i n

i --∑=+

))((1

d y x x

n

i i

--∑=+).)((1

d y c x n

i --∑=

)(1

x x

n

i i

-∑==0,)(1

y y i n

i -∑==0,得

).)(())(())((1

1

d y c x n y y x x d y c x

i n

i i i n

i i

--+--=--∑∑==

因而结论成立。

3. 设n x x 1和n y y ,1是两组样本观测值,且有如下关系:i y =3i x -4,I=1,2,…,n,试求样

本均值x 和y 间的关系以及样本方差2

x s 和2

y s 间的关系。

解:,4343)43(111

11-=-=-==∑∑∑===x x n x n y n y n

i i n i i n i i

21

2)(11y y n s n i i y

--=∑= =

1

1-n 2

211

2

9)(911)4343(x i n i n

i i s x x n x x =--=+--∑∑== 因而得43-=x y 与2

29x y s s =

4. 记∑==n i i n x n x 11,,)(1121

2

n n i i n x x n s --=∑=n=1,2,…证明 ),(1111n n n n x x n x x -++

=++ 1

1122

1++-=+n s n n s n

n ,)(21n n x x -+

证: 1

)1(11111211+-++=++=+++++=

++++n x x x n n x x n n x x x x x n

n n n n n n n

=),(1

1

1n n n x x n x -+++ n x x n s

n n i i n 1)(12

11121

=-=++=+∑[211211

)()(+++=-+-∑n n n n i i x x x x ] =

n

1

211

)(+=-+-∑n n n n

i i x x x x +

n

1

211)(++-n n x x =2

1

)(1n n i i x x n -∑=+

n 2))((11

+=--∑n n n n

i i

x x x x

+

2

11

)(1+=-∑n n i n x x n +n 1211)(++-n n x x

由)(1

n n

i i x x -∑==0 ,

n 1

211

)(+=-∑n n n

i x x =21)(+-n n x x ,+

=+n n x x 111

+n )(1

n n x x -+得 21

21

)(1n n

i i n x x n s

-=∑=++2)11(+n 21)(n n x x -++n 12)1(+n n 21)(n n x x -+ =n n 1- 1

1

-?

n 21

)(n n

i i x x -∑=+

1

1

+n 21)(n n x x -+ =

n n 1-2n s +

1

1

+n 21)(n n x x -+ 为的样本,样本均值分别容量分别为从同一总体中抽取两个m n ,.51x ,2x ,样本方差分

别为21s ,22s ,将两组样本合并,其均值、方差分别为x ,2

s ,证明:

2222

121212(1)(1)(),1()(1).

nx mx n s m s nm x x x s n m n m n m n m +-+--==-

++-++- 证: 设取自同一总体的两个样本为11x ,12x ,13x , ;n x 1;21x ,22x , ,m x 2.由

m

x x x x n x x x x m

n 222212112111,+++=+++=

,得

.2

1221111m

n x m x n m n x x x x x m n ++=+++++=

由∑∑==--=--=m i i n i i x x m s x x n s 1

222

21212

1

)(11,)(11,得 ??

????-+--+=∑∑==n i m

i i i x x x x m n s 1122212

)()(11 =??????-+-+-+--+∑∑==n i m i i i x x x x x x x x m n 1122222111)()(11 =??

????-+-+-+--+∑∑==n i m

i i i x x m x x x x n x x m n 112222221211)()()()(11 =1

)

()(1

)1()1(2

212221122

21-+++-+++-

+

-+-+-m n m n x m x n x m m n x m x n x n m n s m s n

=.)

1)(()(1)1()1(2

212

221-++-+-+-+-m n m n x x nm m n s m s n

6.设有容量为难道样本A,它的样本均值为A x ,样本标准差为A s ,样本极差为A R ,样本中位数为A m ,现对样本中每一个观测值施行变换,b ax y +=如此得到样本B,试写出样本B 的均值、极差和中位数。

解:妨设样本A 为},,,{21n x x x ,样本B 为},,{21n y y y ,且,1,2,,i i y ax b i n =+= ,

b x a n

b

ax b ax b ax n y y y y A n n B +=+++++=+++=

2121,

2

21

2122

)(11)(11A n i i n i B i B

s a b x a b ax n y y n s =--+-=--=∑∑==, 因而A B s a s =.

A n n n

B aR x x a b ax b ax y y R =-=--+=-=)()1()()1()()1()(,

?????

+=++为偶数为奇数,n y y n y m n n n B ),(2

1

,)1()(2221 =?????

++++++为偶数为奇数,n b ax b ax n b ax n n n ),(2

1,)1()()(221

7.证明:容量为2的样本1x ,2x 差为:2212

)(2

1

x x s -=. 证: 2

21222112

22

12

)2

()2()()(x x x x x x x x x x s +-++-

=-+-= =2

)(4)(4)(2

21212221x x x x x x -=-+-. 8. 设1x ,n x , 是来自)1,1(-U 的样本,试求)(x E 和)(x Var . 解: 均匀分布的均值和方差分别为0和,该样本容量为n,因而得

n

x Var x E 31

)(,0)(=

=. 9.设总体二阶距阵存在,n x x ,1是样本,证明x x i -与)(j i x x j ≠-的相关系数为

1)1(---n .对此你能够给予解释吗?

证: 不妨设总体的方差为2

σ,则

.)

()(),(),(x x Var x x Var x x x x Cov x x x x j i j i j i ----=

--ρ

由),,(),(),(),(),(x x Cov x x Cov x x Cov x x Cov x x x x Cov j i j i j i +--=-- 由于,

,),(,0),(2

n

x x Cov x x Cov j i σ=

=

,)1,(),(),(2

1n

x n x Cov x x Cov x x Cov n i i i j i σ===∑=

因而 ,),(2

n

x x x x Cov j i σ-

=--

))1((

)()()(211n

x x x n Var x x Var x x Var x x Var n

j i ---=-=-=-

=2

222)1()1(n

n n σσ-+-=n n 2)1(σ- 所以1

_

_

)1(),(---=--n x x x x j i ρ.

由于

∑==-n

i i

x x

1

_0)(故其中任意一个偏差_x x i -的增加,都会使另一个偏差_

x x j -减少

的机会增加,因而两者的相关系数为负.

10.利用切比雪夫不等式求抛均匀硬币多少次才能使正面朝上的频率落在(0.4,0.6)间的概率 至少为0.9.如何才能更精确地计算这个次数?是多少?

解: 均匀硬币正面朝上的概率p=0.5,设n x 为n 次抛硬币中正面朝上的次数,则有

~n x b(n,p).据题意选取次数n 应满足

p(0.49.0)6.0≥<<

n

x n

, 此式等价于2

0.5(10.5)25

(|0.5|0.1)(0.1),

n n p x n n n n ?--≥≤

= 再由不等式

1.025

≤n

可得粗糙的估计250≥n .即抛均匀硬币250次后可满足要求. 事实上,利用x 的渐近正态性可以得到更精确的结论.由中心极限定理知,样本均值

n x n

x =

((0,1)x N - ,故

(0.40.6)0.5|/0.5210.9P x P x <<=-<=Φ-≥

即0.95Φ≥

5 1.645≥,这就给出较精确的上界2(5 1.645)67.65n ≥?=,这表明只需抛均匀硬币68次就可满足要求。两个结果差异很大,说明切比雪夫不等式是一个较为粗燥的不等式,在能够使用大样本结果的情况下应尽量使用中心极限定理。

11.从指数总体exp(1/θ)中抽取了40个样品,试求x 的渐进分布。

解:由于指数总体exp(1/θ)的均值为θ,方差为θ2,于是x 的渐进分布为2

40(,)N θθ。 12.设125,x x 是从均匀分布U(0,5)抽取的样本,试求样本均值x 的渐进分布

解: 均匀分布的均值和方差分别为52

和2512,样本容量为25,因而样本均值x 的渐进分布为51,.212N ?? ???

13. 设x 1,, x 20是从二点分布b(1,p)抽取得样本,试求样本均值x 的渐近线分布。 解:二点分布b(1,p)的均值和方差分别为p 和p(1-p),样本容量为20,因而样本均值x 的

渐近分布为(1),

20p p N p -??

???

。 14:设81,,x x 是从正态总体N(10,9)中抽取得样本,试求样本的值x 的标准差。 解 来自正态分布的样本均值仍服从正态分布,均值保持不变,方差为原来方差的1/n,此处总体方差为9,样本容量为8,因而Var(x )=9/8, x 的标准差为23/4=1.06。

15. 切尾均值也是一个常用的反映样本数据的特征量,其想法是将数据的两端的值舍去,而用剩下的当中的值来计算样本均值,其计算公式是

([]1)([])2)([[])

,01/22[]

na na n na x x x x a n na ++-+++=

<<- 其中 是切尾系数,

)()2(n x x x ≤≤ 是有序样本,现我们在某高校采访了16名大学生,了解他们平时的学习情况,

以下数据是大学生每周用于看电视的时间:

15 4 12 9 20 4 17 26 15 18 6 10 16 15 5 8

取α=1/16,试计算其切尾均值。

解:将样本进行排序得,26,4)16()1(==χχ 当16/1=α时,由题意得,切尾均值

(2)(15)

1801/161412.8614

x χχ-

++=

== 。

16.有一个分组样本如下:

试求该分组样本的样本均值,样本标准差,样本片度和样本峰度。

解:计算过程列表如下:

因而可得样本均值,样本标准差、样本偏度和样本峰度分别为

,23.919

1620

,163203260====

-

s x 12

322

288020296340200.198,30.742(162020)(162020) γγ=

==-=- 17.检查四批产品,其批量与不合格品率如下:

批号 批量 不合格品率

1

100 0.05 2 300 0.06 3 250 0.04 4

150

0.03

试求这四批产品的不合格率。

解:这批产品的总不合格品率为

047.0150

25030010003

.015004.025006.030005.0100=+++?+?+?+?=

p

18.设总体以等概率取1,2,3,4,5,现从中抽取一个容量为4的样本,试分别求x (1)和x (4)的分布.

解: 由古典概率可得()4

(1)6,1,2,3,4,5.5k p x k k -??

≥== ???

()()()4

(1)(1)(1)411210.5904,5P x P x P x ??

==≥-≥=-= ???

()()()4

3(1)(1)(1)432230.2855P x P x P x ????

==≥-≥=-= ? ?????

()()()4

3

(1)(1)(1)323340.10455P x P x P x ????

==≥-≥=-= ? ?????

()()()4

4

(1)(1)(1)214450.10455P x P x P x ????

==≥-≥=-= ? ?????

()()4

(1)(1)1550.0016,5P x P x ??

==≥== ???

这就给出了(1)x 的分布列

x (1) 1 2 3 4 5 P

0.5904

0.28

0.104

0.024

0.0016

常用统计量

统计学基本概念 13.3常用统计量 统计量 设想你参加了一次考试,在知道自己得到了78分后,希望了解自己的成绩在班级上处于什么水平。你会怎样做? 你对自己未来工作收入的预期是什么? 定义:设,,,12n X X X 为取自某总体的样本,若样本函数(),,,12n T T X X X = 中不含有任何未知参数,则称T 为统计量。统计量的分布称为抽样分布。********************************************************** 强国知十三数:境内仓口之数,壮男壮女之数,老弱之数,官士之数,以言说取食者之数,利民之数,马牛刍藁之数。欲强国,不知国十三数,地虽利,民虽众,国愈弱至削。国无怨民曰强国。兴兵而伐,则武爵武任,必胜;按兵而农,粟爵粟任,则国富。兵起而胜敌,按兵而国富者,王。 (秦·商鞅《商君书》) 商鞅(前390~前338年),卫国家,思想家,著名法 家代表人物。应秦孝公求贤令入秦,说服秦孝公变法图强。孝公死后,受到贵族诬害以及秦惠文王的猜忌,车裂而死。其在秦执政二十余年,秦国大治,史称“商鞅变法”。 **********************************************************

统计量是对样本的一种加工。常用的统计量有样本均值、样本方差等。 定义设,,,12n X X X 为取自某总体的样本,则12n X X X X n +++= =1 1n i i X n =∑称为样本均值。 定理设,,,12n X X X 是来自某个总体X 的样本,X 为样本均值, (1)若总体()2,~σμN X ,则~,2X N n σμ?? ?? ?;证明:,,,12n X X X 相互独立,()2~,1,2,k X N k n μσ= ()()()1212n n E X E X E X X X X n E n n n μμ++++++??=== ??? ()()()22121222n n Var X Var X Var X X X X n Var n n n n σσ++++++??=== ??? (2)若总体分布不是正态分布,已知()μ=X E ,()2σ=X D ,则n 较大时,X 的渐近分布为??? ? ??n N 2,σμ,常记为~,2X N n σμ?? ??? 。**********************************************************定义设,,,12n X X X 是来自某个总体X 的样本,X 为样本均值,则 ()22 111n i i S X X n ==--∑称为样本方差。定理设总体X 具有二阶中心矩,()μ=X E ,()2Var X σ=<+∞,,,,12n X X X 为来自该总体的样本,X 和2S 分别是样本均值和样本方差,则()22E S σ=。样本方差是总体方差的无偏估计,样本均值是总体期望的无偏估计。**********************************************************

spss教程常用的数据描述统计:频数分布表等统计学

第二节常用的数据描述统计 本节拟讲述如何通过SPSS菜单或命令获得常用的统计量、频数分布表等。 1.数据 这部分所用数据为第一章例1中学生成绩的数据,这里我们加入描述学生性别的变量“sex”和班级的变量“class”,前几个数据显示如下(图2-2),将数据保存到名为“2-6-1.sav”的文件中。 图2-2:数据输入格式示例 1.Frequencies语句 (1)操作 打开数据文件“2-6-1.sav”,单击主菜单Analyze /Descriptive Statistics / F requencies…,出现频数分布表对话框如图2-3所示。 图2-3:Frequencies定义窗口 把score变量从左边变量表列中选到右边,并请注意选中下方的Display frequency table复选框(要求

显示频数分布表)。如果您只要求得到一个频数分布表,那么就可以点OK按钮了。如果您想同时获得一些统计量,及统计图表,还需要进一步设置。 ①Statistics选项 单击Statistics按钮,打开对话框,请按图2-4自行设置。有关说明如下: (ⅰ)在定义百分位值(percentile value)的矩形框中,选择想要输出的各种分位数,SPSS提供的选项有: ●Quartiles四分位数,即显示25%、50%、75%的百分位数。 ●Cut points equal 把数据平均分为几份。如本例中要求平均分为3份。 Percentile显示用户指定的百分位数,可重复多次操作。本例中要求15%、50%、85%的百分位数。(ⅱ) 在定义输出集中趋势(Central Tendency)的矩形框中,选择想要输出的集中统计量,常用的选项有: ●Mean 算术平均数 ●Median 中数 ●Mode 众数 ●Sum 算术和 (ⅲ)在定义输出离散统计量(Dispersion)的矩形框中,选择想要输出的离散统计量,常用的选项有: ●Std. Deviation 标准差 ●Variance 方差 ●Range 全距 ●Minimum 最小值 ●Maximum 最大值 ●S.E. mean 平均数的标准误 (ⅳ)描述数据分布(Distribution)的统计量 ●Skewness 偏度,非对称分布指数。 ●Kurtosis 峰度,CASE围绕中心点的扩展程度。 另外,频数过程(Frequence)除了能够提供上面常用的统计量外,还可以对分组数据计算百分位数和中数(Values are group midpoints),即对于已经分组的数据,并且数据中的原始数据表示的是组中数的数据计算百分位数的值和中位数。

第39讲统计量和常用统计量

第39讲统计量与常用统计量

110,,X X 在上一讲例3中,为了估计指数分布的参数,进行抽样观测,得到样本和样本值6394,1105,4717,1399,7952,17424,3275,21639,2360,2896. 样本中包含了许多信息。 对于推断总体的参数或分布而言,有些是有用的,重要的信息,有些则并不重要。上例的样本至少提供了两种信息:1)10个灯泡的平均寿命; 2)灯泡寿命的序号(如6394是第1个).—有用且重要的信息—不重要信息

从样本中提取有用的信息来研究总体的分布及各种特征数.——构造统计量.12,12,,...,,,...,). (n n x x x g x x x 一旦有了样本观察值就可以算出统计量的具体值121212,,...,),,...,),,...,) (, (, (. n n n X X X g X X X g X X X 设为样本若不含任何未知参数则称为统计量统计量:样本的不含任何未知参数的函数。 1210(...)10X X X +++10.6916.1. 比如个灯泡的平均寿命是统计量平均寿命的观测值是小时

常用统计量: 2 21 2 2.,1()1 n i i S X X n S S ==--=∑样本方差样本标准差1 .,11 n i i X X n ==∑样本均值

常用统计量: 1 1 11(3.1,2,...)n k k i i n k k i i A X n B X k k k X n ====-=∑∑ 样本矩阶矩: 阶中心矩:2 2,,,11. Excel X S B 根据样本数据,用计算见实验

常用的统计量抽样分布总结

常用的统计量抽样分布 一.正态分布 1. ∑==n i i X n X 1 1EX → 2. 2 12)(11∑=--=n i i X X n S ][112 1 2∑=--=n i i X n X n DX → 3. 定理: X ~),(2σμN ,n X X X ,,,21 为X 的样本,则 (1). X ~), (2 n N σμ, (2). 2 2 )1(σ S n -~)1(2-n χ, (3). X 与2S 相互独立。 二.2χ分布 1. 定义 设n X X X ,,,21 独立同分布,且~)1,0(N ,则)(~2122 n X n i i χχ∑== 2. 性质: (1). 若X ~)(12n χ,Y ~)(22n χ,且X ,Y 独立,则X +Y ~)(212n n +χ。 (2). 若X ~)(2n χ,则n EX =,2DX n =。 三.t 分布 1. 定义 设X ~)1,0(N ,Y ~)(2n χ,且X ,Y 独立,则n Y X T =~)(n t 。 2. 定理: 设n X X X ,,,21 独立同分布,且~),(2σμN ,则

n S X μ -σ σ μS n X )(-=1 )1() (2 2 ---= n S n n X σσ μ~)1(-n t (因为 n X σ μ-~)1,0(N , 2 2 )1(σ S n -~)1(2-n χ)。 3. 定理: 设1,,,21n X X X 为总体X ~),(21σμN 的样本, 1,,,21n Y Y Y 为总体Y ~),(22σμN 的样本,且Y X ,独立,则 2 12111)()(n n S Y X w +---μμ~)2(21-+n n t ,其中 2 )1()1(212 2 22112 -+-+-=n n S n S n S w 。 证:因为 2 2 11)1(σ S n -~)1(12 -n χ, 2 2 2 2)1(σ S n -~)1(22-n χ, 所以 2 2 2 2211)1()1(σS n S n -+-~)2(212-+n n χ; 又X ~), (1 2 1n N σμ,Y ~), (2 2 2n N σμ, 所以X Y -~), (2 2 1 2 21n n N σσμμ+ +, 所以 2 12111) ()(n n Y X +---σ μμ~)1,0(N ,所以 2 12111)()(n n S Y X w +---μμ 2 12111) ()(n n Y X +---= σμμ/ )2/()1()1(212 2 2 2211-+-+-n n S n S n σ ~)2(21-+n n t 。

统计学第二章 统计量及其分布 习题及答案

第二章 统计量及其分布 习题 一、填空题 1、简单随机抽样样本均值X 的方差取决于 和_________,要使X 的标准差降低到原来的50%,则样本容量需要扩大到原来的 倍。 2、设1217,,,X X X 是总体(,4)N μ的样本,2S 是样本方差,若2()0.01P S a >=,则a =____________。 (注:20.99(17)33.4χ=, 20.995(17)35.7χ=, 20.99(16)32.0χ=, 20.995(16)34.2χ=) 3、若(5)X t ,则2X 服从_______分布。 4、已知0.95(10,5) 4.74F =,则0.05(5,10)F 等于___________。 5、中心极限定理是说:如果总体存在有限的方差,那么,随着 的增加,不论这个总体变量的分布如何,抽样平均数的分布趋近于 。 , 二、选择题 1、中心极限定理可保证在大量观察下 A 样本平均数趋近于总体平均数的趋势 B 样本方差趋近于总体方差的趋势 C 样本平均数分布趋近于正态分布的趋势 D 样本比例趋近于总体比例的趋势 2、设随机变量()(1)X t n n > ,则21/Y X =服从21/Y X = 。 A 正态分布 B 卡方分布 C t 分布 D F 分布 3、根据抽样测定100名4岁男孩身体发育情况的资料,平均身高为95cm ,,标准差为0.4cm 。至少以 的概率可确信4岁男孩平均身高在93.8cm 到96.2cm 之间。 A 68.27% B 90% C 95.45% D 99.73% 4、某品牌袋装糖果重量的标准是(500±5)克。为了检验该产品的重量是否符合标准,现从某日生产的这种糖果中随机抽查10袋,测得平均每袋重量为498克。下列说法中错误的是( ) A 、样本容量为10 B 、抽样误差为2 C 、样本平均每袋重量是统计量 D 、498是估计值 5、设总体均值为100,总体方差为25,在大样本情况下,无论总体的分布形式如何,样本平均数的分布都是服从或近似服从 A (100/,25)N n B (100,N C (100,25/)N n D (100,N 三、判断题 1、所有可能样本平均数的方差等于总体方差。 ( ) 2、从全部总体单位中按照随机原则抽取部分单位组成样本,只可能组成一个样本。( ) 3、设),0(~2σN X ,则对任何实数,a b 均有:22 ~(,)aX b N a b a σ++.( ) 4、样本方差就是样本的二阶中心距。 ( ) 5、设随机变量X 与Y 满足X ~ N(0,1), Y ~2()n χ, 则/X 服从自由度为n 的t 分

常用的统计量抽样分布总结

常用的统计量抽样分布 一.正态分布 1. ∑==n i i X n X 1 1EX → 2. 2 12 )(11∑=--=n i i X X n S ][112 1 2∑=--=n i i X n X n DX → 3. 定理: X ~),(2σμN ,n X X X ,,,21Λ为X 的样本,则 (1). X ~), (2 n N σμ, (2). 2 2 )1(σS n -~)1(2-n χ, (3). X 与2S 相互独立。 二.2χ分布 1. 定义 设n X X X ,,,21Λ独立同分布,且~)1,0(N ,则)(~2122 n X n i i χχ∑== 2. 性质: (1). 若X ~)(12n χ,Y ~)(22n χ,且X ,Y 独立,则X +Y ~)(212n n +χ。 (2). 若X ~)(2n χ,则n EX =,2DX n =。 三.t 分布 1. 定义 设X ~)1,0(N ,Y ~)(2n χ,且X ,Y 独立,则n Y X T =~)(n t 。 2. 定理: 设n X X X ,,,21Λ独立同分布,且~),(2σμN ,则

n S X μ -σ σ μS n X )(-=1 )1() (2 2 ---= n S n n X σσ μ~)1(-n t (因为 n X σ μ-~)1,0(N , 2 2 )1(σS n -~)1(2-n χ)。 3. 定理: 设1,,,21n X X X Λ为总体X ~),(21σμN 的样本, 1,,,21n Y Y Y Λ为总体Y ~),(22σμN 的样本,且Y X ,独立,则 2 12111)()(n n S Y X w +---μμ~)2(21-+n n t ,其中 2 )1()1(212 2 22112-+-+-=n n S n S n S w 。 证:因为 2 2 11)1(σS n -~)1(12 -n χ, 2 2 2 2)1(σS n -~)1(22-n χ, 所以 2 2 2 2211)1()1(σ S n S n -+-~)2(212-+n n χ; 又X ~), (1 2 1n N σμ,Y ~), (2 2 2n N σμ, 所以X Y -~), (2 2 1 2 21n n N σσμμ+ +, 所以 212111) ()(n n Y X + ---σμμ~)1,0(N ,所以 2 12111)()(n n S Y X w +---μμ 2 12111) ()(n n Y X +---= σ μμ/ )2/()1()1(212 2 2 2211-+-+-n n S n S n σ ~)2(21-+n n t 。

次序统计量及其分布

§5.3次序统计量及其分布 次序统计量在近代统计推断中起着重要的作用,这是由于次序统计量有一些性质不依赖于母体的分布并且计算量很小,使用起来较方便。因此在质量管理、可靠性等方面得到广泛的应用,现在我们在本节中扼要地介绍有关次序统计量的内容。gjzsj 设1ξ,2ξ,…,n ξ是取自分布函数为F (x )的母体ξ的一个子样,x 1,x 2,… ,x n 表示这子样的一组观测值。这些观测值,由小到大的排列用x )1(,x )2(,… ,x )(n 表示,即x )1(≤x )2(≤… ≤x )(n ,若其中有两个分量x 1与x 2相等,它们先后次序的安排是可以任意的。 定义5.3 第i 个次序统计量ξ)(i 是上述子样1ξ,2ξ,…,n ξ这样的一个的一个函数,不论子样1ξ,2ξ,…,n ξ取得怎样一组观测值x 1,x 2,… ,x n ,它总是取其中的x )(i 为观测值。 显然,对于容量为n 的子样可以得到n 个次序统计量ξ)1(≤ξ)2(≤… ≤ξ)(n ,其中ξ)1(称做最小次序统计量,ξ)(n 称做最大次序统计量。 如果1ξ,2ξ,…,n ξ是来自同一母体的n 个相互独立随机变量,那么次序统计量1ξ,2ξ,…,n ξ是否也相互独立呢?这可以从下述例子中看出(例略)。 定理5.5 设母体ξ有密度函数f (x)>0,a ≤x ≤b ,并且1ξ,2ξ,…,n ξ为取自这母体的一个子样,则第i 个次序统计量的密度函数为 g i (y)=?? ???≤≤-----其他,0),()](1][)([)!()!1(!1b y a y f y F y F i n i n i n i (5.24) 例5.3 设母体ξ有密度函数 ? ??<<=其他,010,2)(x x x f 并且ξ)1(<ξ)2(<ξ)3(<ξ)4(为从ξ取出的容量为4的子样的次序统计量。求ξ)3(的密度函数)(3x g 和分布函数)(3x G ,并且计算概率)2 1()3(>ξP 。

常用的统计量抽样分布总结

常用的统计量抽样分布 3.定理: X ?N(~;「2 ) , X 1,X 2,…,X n 为X 的样本,则 2 (1). X ?NO,), n 2 (2). ?2 (n-1), a ⑶? X 与S 2 相互独立 二. 2 分布 1. 定义 n 设X 「X 2,…,X n 独立同分布,且?N(0,1),贝U 2 八 X i 2 ~ 2 (n) i=1 2?性质: (1). 若X ?2 (nJ , Y ?2 (门2),且X , Y 独立,则X +Y ?20 (2).若 X ?2 (n),则 EX =n ,DX =2n 。 三. t 分布 1.定义 设X ?N(0,1), Y ?2 (n),且X , Y 独立, 2. 定理: 设X 「X 2, X 独立同分布,且?N(「2 ),则 1. 2. X 』X 「EX n i 4 S 2 二一、(X i n -1 i 4 -X)2 1 n _ [' X -nX ] > DX n -1 i^ 压)。

t(“-1) (n -1)S 2 ◎2 z /“ —1 3. 定理: 设X i ,X 2, ,X n 为总体X ?N (」1,;「2 )的样本, 丫1, 丫2, ,丫为总体Y ?N (J,二2 )的样本,且X,Y 独立,则 2 2 S 2 _ (“1 …1)S ' (“2 1)S 2 S w = 所以(X —?N (0,1),所以 (“1 吊 2(“2—1)S 2 /(“1 “2-2) 计1 t (“「“2 - 2)。 (X - J “ S CJ (因为 a N(0,1), CT 2 (“ -1))。 (X -丫)-( 叫-切?"“1 ?2),其中 S w [丄+丄 n i “2 - 2 证:因为 2 (“1 -1)S 1 (n 1 -1), 2 (“2 -1)S 2 (n 2 - 1), 所以(01 -1)S 12 -(“2 -1)S 2 2 (Ri n 2 2); 2 N(7,), “1 Y ?N (」 所以X -Y ?N(S 」2,—, “2

常用的统计量抽样分布总结

常用的统计量抽样分布 总结 WTD standardization office【WTD 5AB- WTDK 08- WTD 2C】

常用的统计量抽样分布 一.正态分布 1. ∑==n i i X n X 1 1EX → 2. 2 12 )(11∑=--=n i i X X n S ][112 1 2∑=--=n i i X n X n DX → 3. 定理: X ~),(2σμN ,n X X X ,,,21 为X 的样本,则 (1). X ~), (2 n N σμ, (2). 2 2 )1(σS n -~)1(2-n χ, (3). X 与2S 相互独立。 二.2χ分布 1. 定义 设n X X X ,,,21 独立同分布,且~)1,0(N ,则)(~2122 n X n i i χχ∑== 2. 性质: (1). 若X ~)(12n χ,Y ~)(22n χ,且X ,Y 独立,则X +Y ~)(212n n +χ。 (2). 若X ~)(2n χ,则n EX =,2DX n =。 三.t 分布 1. 定义 设X ~)1,0(N ,Y ~)(2n χ,且X ,Y 独立,则n Y X T = ~)(n t 。 2. 定理:

设n X X X ,,,21 独立同分布,且~),(2σμN ,则 n S X μ -σ σ μS n X ) (-=1 )1() (2 2 ---= n S n n X σσ μ~)1(-n t (因为 n X σ μ-~)1,0(N , 2 2 )1(σS n -~)1(2-n χ)。 3. 定理: 设1,,,21n X X X 为总体X ~),(21σμN 的样本, 1,,,21n Y Y Y 为总体Y ~),(22σμN 的样本,且Y X ,独立,则 2 12111)()(n n S Y X w +---μμ~)2(21-+n n t ,其中 2 )1()1(212 2 22112-+-+-=n n S n S n S w 。 证:因为 2 2 11)1(σ S n -~)1(12 -n χ, 2 2 2 2)1(σ S n -~)1(22-n χ, 所以 2 2 2 2211)1()1(σS n S n -+-~)2(212-+n n χ; 又X ~), (1 2 1n N σμ,Y ~), (2 2 2n N σμ, 所以X Y -~), (2 2 1 2 21n n N σσμμ+ +, 所以 2 12111) ()(n n Y X +---σ μμ~)1,0(N ,所以 2 12111)()(n n S Y X w +---μμ

说明6个基本统计量

说明6个基本统计量(平均数、众数、中位数、极差、方差、标准差) 的数学内涵,学生学习过程中可能产生的困难及主要原因、应对策略; 一.平均数、众数、中位数都是描述一组数据集中趋势的统计量, 它们从不同角度描述一组数据的集中趋势。如某班45名学生在一次考 试的成绩中,平均数为85分,表示全班45名学生的平均成绩为85分; 众数是90分,表示全班得90分的人最多;中位数是87分,表示该班 45名学生成绩中在87分以下和87分以上的数目一样多。 平均数的概念:把一组数据的总和除以这组数据的个数所得的商,叫做这组数据的平均数。 众数:在一组数据中,出现次数最多的数据叫做这组数据的众数。 中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数。 二.数据的集中趋势只是数据分布的一个特征,它所反映的是数据向 其中心值(平均数)聚集的程度,而各数据之间的差异情况如何呢?这 就需要考察数据的分散程度,也称波动情况。数据的分散程度是数据分 布的另一个重要特征,它所反映的是各个数据远离其中心值的程度,因 此也称离中趋势,极差、方差、标准差就是对数据集散程度所作的描述。 极差概念:是一组数据在最大值与最小值的差,它反映了一组数据的波动范围,是刻画数据离散程度的最简单的统计量。 方差是统计中常用的:是指在一组数据中,各数据与它们的平均数的差的平方的平均数。

标准差:是方差的算数平方根。 方差和标准差都是用来描述一组数据波动情况的特征数,常用来比较两组数据的波动大小,目前所研究的是这两组数据的个数相等、平均数相等或比较接近时的情况;并且二者都是在求出平均数的基础上计算的,也就是说,欲求标准差→需求方差,欲求方差→需求平均数。 三.学生学习时可能产生的困难、原因及措施: 1.概念不能顾名思义,不好理解,如①平均数中的加权平均数,可采取方法: 先重点理解“权”的意思,可联系“权力”,有大小;结合英文“权”的单词weight,表示重量,所以“权”是表示数据重要程度的意思。再理解加权平均数的概念:是不同比重数据的平均数,加权平均数就是把原始数据按照合理的比例来计算。 接下来,举简单例子来运用理解。例如:你的平时成绩是80分,期末考成绩是90分,要计算总的平均成绩,平时占40%、期末占60%的比例来算,所以你的平均成绩是:80×40%+90×60%=86(分)最后的86就是加权平均数,40%、60%分别为平时和期末的权。再如:你所在小组同学一块儿吃西瓜,有1人吃了7块,另外三人都吃了3块,平均每人吃几块?(7+3*3)/4=4(块),其中的1和3为本题的权。 再总结:“权”可以是整数,可以是小数(分数,百分数),“权”即权重、各个数据所占的比例。 ②方差的概念同样是难点,理解方法:解释如下:在表示各个数据与其平均数的偏离程度时,为了防止正偏差与负偏差的相互抵消,取各

常见统计量

?一、T检验 ?用途:?比较两组数据之间的差异 前提:正态性,?方差?齐次性,独?立性 假设:H0: μ0=μ1 H1: μ0≠μ1 SPSS中对应?方法: 1、单样本T检验(One-sample Test) (1)??目的:检验单个变量的均值与给定的某个常数是否?一致。 (2)判断标准:p<0.05;t>1.98即认为是有显著差异的。 2、独?立样本T检验(Independent-Samples T Test) (1)??目的:检验两个独?立样本均值是否相等。 (2)判断标准:p<0.05;t>1.98即认为是有显著差异的。 3、配对样本T检验(Paired-Samples T Test) (1)??目的:检验两个配对样本均值是否相等。 (2)判断标准:p<0.05;t>1.98即认为是有显著差异的。 ! ?二、?方差分析 ?用途:?比较多组数据之间的差异 前提:正态性,?方差?齐次性,独?立性 假设:H0: μ0=μ1=…… H1: μ0,μ1,……不全相等 SPSS中对应?方法: 1、单因素?方差分析(One-way ANOVA) (1)??目的:检验由单?一因素影响的多组样本均值差异。 (2)判断标准:p>0.05;t<1.98即认为是有显著差异的。 (3)特别说明:可以进?一步使?用LSD,Tukey?方法检验两两之间的差异。 2、多因素?方差分析(Univariate) (1)??目的:检验由多个因素影响的多组样本均值差异。 (2)判断标准:p>0.05;t<1.98即认为是有显著差异的。 (3)特别说明:可以进?一步使?用LSD,Tukey?方法检验两两之间的差异。! 三、?非参数检验 ?用途:?比较多组数据之间的差异,独?立性等

常用统计量及其应用

第四章 常用统计量及其应用 第一节 平均数与标准差的概念 一、平均数 反映一组性质相同的观测值的平均水平或集中趋势的统计量,其数学定义为 n x 1= ∑=n i i x 1 平均数在一定程度上代表一组数据的整体水平,体育工作中,常用这一概念来反映事物的某些特征。 例如,某中学的体育平均达标率,学生的平均身高,年龄某地区高考体育加试平均分数等等。 二、标准差 样本平均数描述数据的集中趋势,反映样本数据的平均水平。但是,平均数对整体的代表性是有条件的。 例如,吉斯莫先生经营一家工厂,规模不大,现欲招聘一名工人,汤姆先生参加面试,老板告诉他,本厂全体人员的工资入平均每人每周300元,汤姆一听,欣然接受,上班一天后,来找老板,声称受骗,老板算了一笔帐,汤姆听了无话可说。 平均工资 300元/周 说明:该厂平均工资尽管较高,但由于各个工资相差太大,平均数对整体的代表性较差。这就说明在实际应用中,仅有平均数是不够的,还要考虑到数据的离散程度。在数据相对比较集中时,平均数才具有代表性。 反映样本离散程度的统计量,称之为标准差 设样本观测值为21,x x …,n x 平均数为x ,看看如何来定量计算标准差? 样本的离散程度自然是相对平均数x 而言的为此构造出 )(1 x x i n i -∑ =

但上式各项有正有负,正负抵消 )(1 x x i n i -∑ ==0 所以要反映离散程度的大小可以让上式各项加以绝对值或求平方,但带绝对值后不便于处理,所以,选择后者从而有 21 )(x x i n i -∑ = 上式与样本含量的大小有关,所以,求平均的 n 121 )(x x i n i -∑ = 在实际应用中,上式对总体离散程度的估计往往偏小若以自由度(1-n )代替n ,则是无偏的因此,构造 221 ?)(11s x x n i n i =--∑= 上式中2 s 称为样本方差,还原成原来的量纲 则有 21 )(11x x n S i n i --= ∑= S 称为标准差,反映样本的离散程度。 结束语: 样本平均数反映样本数据的整体水平,但是要结合标准差,标准差反映样本数据的离散程度对于运动成绩,表现为成绩的稳定性。 第6次课(3学时) 教学目的:通过本次课的教学,使学生了解平均数和标准差在体育中的具体应用,掌握利用 平均数和标准差制定评分评价标准的方法。 教学内容:平均数和标准差在体育中的应用 1.标准百分 2.累进计分 3.离差法制定评价标准 4.在制定离差评价表中的应用 教学重点:1.标准百分和累进计分的计分思想 2.离差评价表的制定过程

常用统计量及其应用

第四章常用统计量及其应用 第一节平均数与标准差的概念 一、平均数 反映一组性质相同的观测值的平均水平或集中趋势的统计量,其数学定义为 x丄X i n i 4 平均数在一定程度上代表一组数据的整体水平,体育工作中,常用这一概念来反映事物 的某些特征。 例如,某中学的体育平均达标率,学生的平均身高,年龄某地区高考体育加试平均分数—、标准差 样本平均数描述数据的集中趋势,反映样本数据的平均水平。但是,平均数对整体的代 表性是有条件的。 例如,吉斯莫先生经营一家工厂,规模不大,现欲招聘一名工人,汤姆先生参加面试, 老板告诉他,本厂全体人员的工资入平均每人每周300元,汤姆一听,欣然接受,上班一天 后,来找老板,声称受骗,老板算了一笔帐,汤姆听了无话可说。 平均工资300元/周 说明:该厂平均工资尽管较高,但由于各个工资相差太大,平均数对整体的代表性较差。这就说明在实际应用中,仅有平均数是不够的,还要考虑到数据的离散程度。在数据相对比 较集中时,平均数才具有代表性。 反映样本离散程度的统计量,称之为标准差 设样本观测值为x,,x2…x n,平均数为X,看看如何来定量计算标准差? 样本的离散程度自然是相对平均数x而言的为此构造出 n '' (X i -x) i m

但上式各项有正有负,正负抵消 7 (X j - x) = 0 i 4 所以要反映离散程度的大小可以让上式各项加以绝对值或求平方, 但带绝对值后不便于 处理,所 以,选择后者从而有 n ' (X i -X)1 2 i 丄 上式与样本含量的大小有关,所以,求平均的 1 n —' (X i-X)2 n i 4 在实际应用中,上式对总体离散程度的估计往往偏小若以自由度( 是无偏的因此,构 造 n ' (X i -X)2 ?s 2 i 4 S 称为标准差,反映样本的离散程度。 结束语: 样本平均数反映样本数据的整体水平, 但是要结合标准差,标准差反映样本数据的离散 程度对于运动成绩,表现为成绩的稳定性。 第6次课(3学时) 教学目的: 通过本次课的教学, 使学生了解平均数和标准差在体育中的具体应用, 掌握利用 平均数和标准差制定评分评价标准的方法。 教学内容: 平均数和标准差在体育中的应用 教学难点:累进计分法 教学内容的组织安排: 标准百分和累进计分是体育统计的重要内容, 在体育评分和评价中有 重要应用,为了让学生在实际工作中能正确地运用, 教学中重点讲授 1 ?标准百分 2 ?累进计分 3. 离差法制定评价标准 4. 在制定离差评价表中的应用 教学重点:1 ?标准百分和累进计分的计分思想 2 .离差评价表的制定过程 n 一1 )代替n ,则 1 n -1 上式中s 2称为样本方差,还原成原来的量纲 则有 (X i -X)2 n i =1

统计学第5-6章 正态分布 统计量其抽样分布

第5-6章 统计量及其抽样分布 5.1正态分布 5.1.1定义:当一个变量受到大量微小的、独立的随机因素影响时,这个变量一般服从正态分布或近似服从正态分布。 概率密度曲线图 例如:某个地区同年龄组儿童的发育特征:身高、体重、肺活量等 某一条件下产品的质量 如果随机变量X 的概率密度为 22 ()21 (),2x f x e x μσπσ --=-∞<<∞ 则称X 服从正态分布。 记做 2 (,)X N μσ:,读作:随机变量X 服从均值为μ,方差为2 σ的正态分布 其中, μ-∞<<∞,是随机变量X 的均值,0σ>是是随机变量X 的标准差 5.1.2正态密度函数f(x)的一些特点: ()0f x ≥,即整个概率密度曲线都在x 轴的上方。 曲线 ()f x 相对于x μ=对称,并在 x μ=处达到最大值,

1 () 2 fμ πσ = 。 1 μ< 2 μ< 3 μ 曲线的陡缓程度由 σ 决定:σ越大,曲线越平缓;σ越小,曲线越陡峭当 x 趋于无穷时,曲线以x轴为其渐近线。 标准正态分布 当 0,1 μσ == 时, 2 2 1 () 2 x f x e π - = , x -∞<<∞ 称 (0,1) N 为标准正态分布。

标准正态分布的概率密度函数: ()x ? 标准正态分布的分布函数: ()x Φ 任何一个正态分布都可以通过线性变换转化为标准正态分布 设 2 (,) X Nμσ : ,则 (0,1) X Z N μ σ - =: 变量 2 11 (,) X Nμσ :与变量2 22 (,) Y Nμσ :相互独立,则有 22 1212 +(+,+) X Y Nμμσσ : 5.1.3 正态分布表:可以查的正态分布的概率值()1() x x Φ-=-Φ 例:设 (0,1) X N :,求以下概率 (1) ( 1.5) P X< (2) (2) P X> (3) (13) P X -<≤

统计量及其抽样分布习题答案

第六章 统计量及其抽样分布 6.1 调节一个装瓶机使其对每个瓶子的灌装量均值为μ盎司,通过观察这台装瓶机对每个瓶子的灌装量服从标准差 1.0σ=盎司的正态分布。随机抽取由这台机器灌装的9个瓶子形成一个样本,并测定每个瓶子的灌装量。试确定样本均值偏离总体均值不超过0.3盎司的概率。 解:总体方差知道的情况下,均值的抽样分布服从()2,N n σμ的正态分布,由正态分布,标准化得到标准正态分布: x ()0,1N ,因此,样本均值不超过总体均值的概率P 为: ()0.3P x μ-≤ =P ?≤ =x P ??≤≤ =()0.90.9P z -≤≤=2()0.9φ-1,查标准正态分布表得()0.9φ=0.8159 因此,() 0.3P x μ-≤=0.6318 6.2 ()0.3P Y μ-≤ =P ?≤ =x P ??≤≤ =(||P z ≤ =(21φ-=0.95 查表得: 1.96= 因此n=43 6.3 1Z ,2Z ,……,6Z 表示从标准正态总体中随机抽取的容量,n=6的一个样本,试确定常数b ,使 得6210.95i i P Z b =??≤= ??? ∑ 解:由于卡方分布是由标准正态分布的平方和构成的: 设Z 1,Z 2,……,Z n 是来自总体N (0,1)的样本,则统计量 222212χ=+++n Z Z Z 服从自由度为n 的χ2分布,记为χ2~ χ2(n ) 因此,令622 1i i Z χ==∑,则()62 22 16i i Z χχ==∑,那么由概率6210.95i i P Z b =??≤= ???∑,可知: b=()210.956χ-,查概率表得:b=12.59 6.4 在习题6.1中,假定装瓶机对瓶子的灌装量服从方差21σ=的标准正态分布。假定我们计划随机抽取10个瓶子组成样本,观测每个瓶子的灌装量,得到10个观测值,用这10个观测值我们可以求出样本方差2221 1(())1n i i S S Y Y n ==--∑,确定一个合适的范围使得有较大的概率保证S 2落入其中是有用的,试求b 1,b 2,使得 212()0.90p b S b ≤≤= 解:更加样本方差的抽样分布知识可知,样本统计量: 2 22(1)~(1) n s n χσ-- 此处,n=10,21σ=,所以统计量 2 2222(1)(101)9~(1)1 n s s s n χσ--==- 根据卡方分布的可知: ()()2212129990.90P b S b P b S b ≤≤=≤≤= 又因为:

相关主题
文本预览
相关文档 最新文档