当前位置:文档之家› 统计量与抽样分布

统计量与抽样分布

统计量与抽样分布
统计量与抽样分布

第6章统计量与抽样分布

【引例】1899年,戈塞特(1876-1937)进入都柏林A.吉尼斯父子酿酒公司担任酿酒化学技师,主要从事统计和实验工作。他在工作中发现,供酿酒的每批麦子质量相差很大,而同一批麦子中能抽样供试验的麦子又很少,每批样本在不同的温度下做实验,其结果相差很大。这就决定了不同批次和温度的麦子样本是不相同的,不能进行样本合并。这样一来,实际上取得的麦子样本,不可能是大样本,只能是小样本。他在工作中还发现,利用小样本得出的结果,和正态分布有较大的差异,特别是两端尾部的概率,比正态分布明显高。因此1907年戈塞特决心把小样本和大样本之间的差别搞清楚。为此,他试图把一个总体中的所有小样本的平均数的分布刻画出来。做法是:在一个大容器里放了一批纸牌,把它们弄乱,随机地抽若干张(小样本),对这一样本记录观察值,然后再把纸牌弄乱,抽出几张,对相应的样本再记录观察值。大量地记录这种随机抽样的小样本观察值,就可以获得小样本观察值的分布。1908年,戈塞特以“学生(Student)”为笔名在《生物计量学》杂志发表了论文《平均数的规律误差》。这篇论文开创了小样本统计理论的先河,为研究样本分布理论奠定了重要基础。被统计学家誉为统计推断理论发展史上的里程碑。

那么总体和样本是如何联系的?大样本和小样本下究竟有什么差异?什么是t分布?它和正态分布有什么不同?它有什么作用?统计推断中常用的分布还有哪些?这些问题都将在本章中找到答案。

统计研究的目的是为了探索现象内在的数量规律性。为了解总体的数量特征,可以直接对总体进行全面调查,得到总体数据,进而归纳出数量特征;也可以对总体进行抽样,利用样本对总体进行推断,后一种方法称为统计推断。抽样分布是进行统计推断的理论基础。本章将主要介绍统计推断所涉及的总体、

分布,t分布样本、统计量及抽样分布等概念,以及在统计推断中最常用的2

和F分布和抽样分布定理。

§6.1 总体与样本的统计分布

总体与样本是统计推断中的两个基本概念。统计推断的目的是从样本信息出发,运用概率论的方法,推断总体的特征;因此如何将统计学的总体、样本和概率论的基础——随机变量与分布联系起来,就成为统计推断首先要解决的问题。

§6.1.1统计推断中的总体及总体分布

第一章中已经明确统计所研究的是由同类事物构成的总体的数量特征,总体是根据一定的目的确定的所要研究的事物的全体,它是由客观存在的、具有某种共同性质的众多个体构成的。总体中的每个单位称为个体。比如前面引例中,每一批麦子的全体就是一个总体,而其中每单位的麦子就是个体。这是统计学中关于总体的概念,我们可以称其为实物总体。

在前面章节的学习中,我们已经发现:我们真正关心和收集研究的并不是这些总体中的个体本身,而是这些个体的某些特征及其数值,在前面我们将这些特征用变量来描述,对应的数值称为变量值。关心这批麦子,主要关心的是其酿酒的效果出酒量。此时出酒量成为需要研究的变量,每单位麦子出酒量的具体数值成为变量值。在研究这批麦子时,并不需要将全部这批麦子都收集过来,只需要记录这批麦子每单位出酒量的数值,再对这些数值进行研究就可以了。此时的总体实质是这批麦子的出酒量对应的若干个数值,总体已经从实物抽象到了数值,可以称之为数值总体。这是对总体概念的第一次抽象。

如果实物总体中个体很多,则对应的数值总体其规模将非常大,而且往往其中重复的值会很多,即使没有重复值(变量取值连续时),在不同值周围的“密集程度”也会不相同。逐一研究每个变量值将会非常繁琐,当总体规模趋于无穷时,研究每个变量值更是变得不可能。若统计出变量的所有不同取值(或取

值区间)及其出现的频率,编制变量的分布数列,则可以对变量的全部取值情况一览无遗。研究一个变量的全部数值,就转化为研究该变量的分布了。用变量及其分布来描述一个总体,可以称之为分布总体。例如研究某批麦子的出酒量X,这是个连续变量,可以统计出X在不同区间取值的频率,得到X的分布。对全部单位出酒量的数值的研究,就可转化研究出酒量X的分布了。这是对总体概念的第二次抽象。

对于随机变量X,其取值是随机的,关注该变量的全部取值,也就是要关注其各个可能取值(或取值区间)及其相应概率,即关注该随机变量的概率分布。在统计推断中利用随机变量X及其概率分布来描述一个总体,应用起来非常有优势,尤其是当总体容量趋于无穷时,另外一个好处是可以利用概率论的理论和方法来研究总体。例如麦子出酒量的总体分布如果是正态分布,就可以利用正态分布的密度函数计算出酒量在各区间的概率。

经过上述讨论,完成了从“实物总体→数值总体→分布总体”的两次抽象,也完成了我们将统计学中“总体”与概率论中“分布”的衔接,这是统计推断对总体概念的延伸,也是概率论知识应用于统计推断的基础。以后在本章及以后统计推断的相关章节中,如无特别说明,总体均表示分布总体,给定一个总体,只需要给出总体的分布即可。

§6.1.2 统计推断中的样本及样本性质

统计推断的重要任务是通过对总体中随机抽取的部分个体的观测结果来推断总体的特征。按照随机原则,通过观测或试验的方法所获得的总体中一部分个体的取值称为样本,每个个体的取值称为样本点或样品。抽出样本之前,由于总体中各个体有同等被抽中的可能,抽中那个个体不能确定,因此样本是一组随机变量,每个样本点都可以取总体中任意一个值;但是当样本被抽取并观

测记录后,若干个体被抽出,各样本点的取值确定,样本成为是一组确定的数值。统计推断中为了区分此二重性,将抽取前具有随机性的样本称为样本,用大写字母表示;将抽取的一组确定的数值称为样本观测值,用小写字母表示。如要推断某种灯泡使用寿命总体X的特征,拟随机抽取n只灯泡进行测试,其使用寿命(X1,X2,…,X n)称为灯泡使用寿命总体X的样本,一次具体抽样测试得到n个灯泡使用寿命的数值(x1, x2,…,x n),称为总体X的样本观察值。

统计推断中,把具有以下两个重要性质的样本称为简单随机样本:

1. 样本点与总体同分布

这一点很容易从数值总体的角度加以理解:由于采取随机原则抽取样本点,每个个体被抽中的可能性相同。假设总体容量为N,则每个个体被抽中的概率为1/N,假设对离散型总体取值等于x,或对连续型总体取值在区间(x, x+△x)中的个体总数为M,那么抽出样本点取值为x或在区间(x, x+△x)中的概率就是M/N,恰好等于总体X取值为x或取值在区间(x, x+△x)中的频率(或概率),从而可以看出样本点与总体分布相同。

2. 样本点之间相互独立

从总体中抽取样本的方法有重复抽样和不重复抽样两种。采用重复抽样时,每次随机抽取一个样本点并记录其特征以后,又将它放回总体中参加下一次抽取,每次抽取样本点都是在总体的N个单位中进行的,前一次抽取的结果不会影响后一次抽取的结果,因此样本点之间相互独立。采用不重复抽样时,每次随机抽出一个样本点后不再将它放回总体中,下一次只能在其余个体中抽取,前面抽取的结果就会影响后面的抽取,因此样本点之间不是相互独立的。但通常实际工作中总体容量非常大,采用不重复抽样时也可以近似认为样本点之间相互独立。对于总体容量无限的情形,无论采取重复抽样还是不重复抽样,都可以认为样本点是相互独立的。

在本书后面的叙述中,常常将以上两个性质一同简写为“样本点独立同分

布(i.i.d )”。没有特别说明的情况下,我们讨论的样本均指的是简单随机样本。

§6.2 统计量

§6.2.1 统计量的概念

在统计推断中,总体信息是未知的,但从总体中抽取的样本中含有总体的信息,统计推断就是利用样本的信息来推测总体的信息。然而样本的信息是隐蔽的、分散的,必须经过必要的加工对样本信息进行集中和提炼才能用来推断总体信息,构造样本统计量是集中和提炼样本信息来推断总体信息的有效手段之一。

设1(,,)n X X 是来自总体X 的一个样本,如果12(,,...,)n T T X X X =是样本1(,

,)n X X 的函数, T 中不含任何未知参数,则称12(,,...,)n T X X X 为

一个统计量。如果1(,

,)n x x 为样本1(,

,)n X X 的观测值,则

12(,,...,)n T T x x x =为统计量12(,,...,)n T T X X X =的观测值。统计量的观测

值是确定的,没有随机性。

统计量有以下两个特征:统计量是样本的函数,统计量通常为随机变量;统计量不能含有未知的参数。例如,当从正态总体中抽出样本1,,n X X 时,

考查随机变量

21

()n

i

i X

μ=-∑,当总体均值μ为已知时,该变量是统计量;当

总体均值未知时,该变量就不是统计量。

统计量既然是随机变量,那么它应该有概率分布,统计量的分布称为抽样分布。抽样分布和统计推断有着密切的联系。统计量明确以后,必须要知道其抽样分布才能在统计推断中使用,因为只有知道了统计量的分布,才能利用概率论对总体的特征进行推断,并得到相应的推断置信度。所以在统计推断中,一项重要的工作就是寻找统计量和导出统计量的抽样分布或渐近抽样分布。 【例6-1】总体X 服从两点分布,概率分布律如下:

(1)P X p ==,(0)1P X p ==-

从总体中抽取容量为n 的样本,构造统计量1

n

i

i T X

==

∑,求此统计量的分布。

解:由于样本是独立的,i X 服从两点分布,统计量T 为随机变量,其取值是0到n 之间的所有整数,其分布恰好是二项分布:

()(1)k k

n k n P T k C p p -==-,0,1,2,...,k n =

从上面的例子中,可以看出抽样分布未必与总体的分布一致。

【例6-2】总体分布为~(1,1)X N ,抽取容量为n 的样本,构造如下三个统

计量:11T X =,212T X X =+和31

1n

i i T X X n ===∑。求此三个统计量的抽样分

布。

解:由于样本是独立的,i X 服从均值和方差都为1的正态分布,三个统计量都是样本的线性函数,由正态分布的性质,三个统计量仍服从正态分布,下面分别求解其均值和方差:

11()()1E T E X ==,11()()1D T D X ==

212()()()2E T E X E X =+=,212()()()2D T D X D X =+=

311()()1n i i E T E X n ===∑,32

1

1

1

()()n

i i D T D X n

n

===

∑ 由上面计算可以得出,统计量1T 服从均值和方差都为1的正态分布,这和总体的分布相同;统计量2T 服从均值和方差都为2的正态分布,而统计量3T 服从均值为1,方差为1/n 的正态分布。

§6.2.2 常用统计量1

1.样本均值和样本方差

1

常用统计量还包括样本相关系数,我们将在第9章介绍。

设12,,,n X X X 是总体X 中抽出的简单随机样本,则样本均值为

11n i i X X n ==∑,样本方差为()22

1

11n i

i S X X n ==--∑。 2.样本矩

称11n k k i i A X n ==∑为样本的原点矩,称()1

1n

k k i i B X X n ==-∑为样本的中心

矩。特别当2k =时,()221

1n i i B X X n ==-∑称为样本的未修正方差,常记2

n S ,

显然有2

2

(1)n n S S n

-=

。 3.顺序统计量 设12,,

,n X X X 是总体X 中抽出的简单随机样本,把样本点排序为

(1)(2)()n X X X ≤≤≤,则称(1)(2)(),,,n X X X 为顺序统计量,其中()i X 称为

第i 个顺序统计量。基于顺序统计量计算的常用统计量有:

最大顺序统计量{}()123max ,,...,n X X X X =和最小顺序统计量

{}(1)123min ,,...,X X X X =;

样本极差 ()(1)n R X X =-;

样本中位数121222

n e n n X n M X X n +??

???

????+ ? ?????

???

=????为奇数+为偶数

样本的p 分位数 [][]1[

]

[]

(1)()()1

p np np np np M X n p X X n +=++-

-+ 其中01p <<,[]np 为不超过np 的最大整数;

样本的切尾均值 ,()1

1,02n k

n k

i i k T X k n n k -=+=≤<-∑,样本的切尾均值是分别去掉k 个最小的和k 个最大的观测值后得到的均值。

§6.3 抽样分布及抽样分布定理

为了在正态分布假定下,得到样本统计量的精确分布,本节需要讨论几个十分重要的随机变量函数的分布,它们是2χ分布、t 分布和F 分布。在此基础上讨论抽样分布的重要定理。

§6.3.1 2χ分布

2χ分布是海尔墨特(Hermert )和卡.皮尔逊(K.Pearson )分别于1875年

和1890年提出的,是统计推断中的重要分布。它主要应用于对总体方差的估计或检验以及对总体概率密度函数的检验等。

1.

2χ分布的定义及其密度函数

定义6-1 若随机变量1,,n X X 独立且同标准正态分布(0,1)N ,则它们

的平方和

2

21

n

i i X χ==∑ (6.1)

服从自由度为n 的2

χ分布,记为

2

21

~()n

i

i X

n χ=∑。

根据服从卡方分布随机变量的定义,我们可以根据求随机变量函数的概率分布的方法求出2χ分布的概率密度函数1

。如果随机变量X 服从自由度为n 的

2χ分布,其概率密度为:

122210()2()200n x n x e x n

f x x --?>??=Γ???≤?

(6.2)

1

推导过程略,有兴趣的读者可以参考陈希孺,《数理统计引论》,高教出版社

其中()n Γ为gamma 函数。 2.

2χ分布的性质特征

(1)2χ分布的数学期望与方差

若X 服从自由度为n 的2χ分布,其数学期望和方差分别为

()E X n =,()2D X n = (6.3)

可见随着自由度的增大,2χ分布的期望和方差随之增大,自由度决定了

2χ分布的形状。从密度函数定义可以看出,2χ分布是一种不对称偏峰分布,

其取值区域为(0,)+∞;随着自由度的逐渐增大,2χ分布曲线的最高点逐渐下降并向右移动,分布曲线趋于对称,如图6-1所示。

图6-1 2

()n χ的概率密度曲线

自由度为n 的2χ分布上侧α分位数记为2()n αχ,2

()n αχ满足

22

{()()}P n n ≥=αχχα

关于2χ分布上侧α分位数2

()n αχ可以通过书后附表求得,附表给出了自

由度45n ≤的2χ分布上侧α分位数。也可通过EXCEL 的CHINV 函数求得。

例如20.995(11) 2.603χ=,2

0.01(13)27.688χ=。

(2)2χ分布的自由度

2χ分布中n 称为自由度。对于变量1,,n X X ,如果存在一组不全为零的

常数12,,

,n c c c ,使得11220n n c X c X c X +++=成立,则称变量1,,n

X X 之间存在一个线性约束条件。如果变量1,,n X X 中存在k 个独立的线性约束

条件,则(1,2,

,)i X i n =中独立变量的个数为()n k -,称它为自由度。自由

度也可粗略解释为可以自由选择数值的变量个数。

例如,

2

1

n

i i X

=∑由n 个独立的随机变量i X 构成,由于它们之间没有线性约

束条件(即0k =),所以它的自由度为n 。

21

()n

i

i X

X =-∑的自由度为(1)n -,

这是因为计算

2

1

()n

i

i X

X =-∑时要用X ,X 满足限制条件1

()0n

i i X X =-=∑,即

相对于X 的n 个离差变量12()()()n X X X X X X ---,

,,,只有(1)n -个可以任意确定,第n 个失去了“自由”,所以能其自由度为(1)n -。 (3)2χ分布的可加性

若X 、Y 相互独立,且分别服从自由度为1n 、2n 的2χ分布,则X Y +服从自由度为1n +2n 的2χ分布,即

212~()X Y n n χ++

【例6-3】设16,

,X X 是独立同服从(0,2)N 分布的随机变量,求a ,b

和c 使222

123456()()aX b X X c X X X +++++服从2χ分布。

因为16,,X X 独立同(0,2)N 分布,所以

1~(0,2)X N

~(0,1)N ,从而2211

~(1)2X χ

23~(0,4)X X N +,则

23~(0,1)2X X N +,从而22231

()~(1)4

X X χ+ 456~(0,6)X X X N ++

~(0,1)N ,从而

224561

()~(1)6

X X X χ++。 由于2χ分布的可加性,则

2222123456111

()()~(3)246X X X X X X χ+++++,自由度为3。且12a =

,14b =和16

c =。 §6.3.2 t 分布

t 分布又称为“学生分布”,是统计推断中的重要分布。它在总体均值的估计与检验、相关与回归分析等方面有着广泛的应用。

1. t 分布的定义及其密度函数

定义6-2 若随机变量~(0,1)X N ,随机变量2

~()Y n χ,且随机变量X 与

Y 相互独立,则随机变量

t =

(6.4) 服从自由度为n 的t 分布,记为~()t t n 。

t 分布的概率密度函数比较复杂。如果随机变量X 服从自由度为n 的t 分布,则其概率密度函数为

1

221

(

)2()(1)(2

n n x f x x n n +-+Γ=+-∞<<∞Γ (6.5)

观察t 分布的概率密度函数,可以发现它是偶函数,所以t 分布是关于原点

对称的,这一点和2χ分布是不同的,却和标准正态分布相似。图6-2的三条曲线分别是标准正态曲线以及自由度为19和5的t 分布曲线。

图6-2 ()t n 密度函数曲线

通过比较可以发现t 分布和标准正态分布类似,都是对称分布,均在

x -∞<<∞上取值。但是t 分布与标准正态分布也有区别, t 分布尾部厚,即服

从t分布的随机变量取到尾部值的概率比标准正态分布略大。而对于接近原点的坐标点,t 分布密度函数的值比标准正态分布密度函数的值小。因而t 分布曲线尾部厚于标准正态分布,而峰低于标准正态分布。

满足{()()}P t n t n ≥=αα的()t n α称为自由度为n 的t 分布上侧α分位数。关于t 分布上侧α分位数()t n α可以通过书后附表求得,附表给出了自由度

45n ≤的t 分布上侧α分位数。例如0.05(10) 1.8125t =,由于t 分布是对称分

布,所以0.95(10) 1.8125t =-。

2. t 分布的性质特征 (1) t 分布的数学期望与方差

t 分布的数学期望与方差分别是

()0E t =,()/(2)2D t n n n =-> (6.6)

由于t 分布是对称分布,其数学期望当然为0。需要注意的是:只有当自由度大于1,其数学期望才为0,自由度为1时,数学期望不存在;同时注意到t 分

布的方差与其自由度有关,自由度小于等于2时,方差不存在,当自由度

n →∞,方差极限为1。

(2) t 分布的自由度

t 分布的自由度是由生成t 分布的分母即卡方分布随机变量的自由度而来。 t 分布的形状和自由度n 有较大关系,自由度越小,t 分布曲线与标准正态分布

曲线的区别越明显,t 分布“比较平”,而自由度增大,t 分布曲线与标准正态分布曲线的差异逐渐缩小。这一点也可以由t 分布的方差来说明,当自由度n 较小时,t 分布的方差较大,此时其分布就“比较平”;而当自由度较大时,方差较小,而且越来越接近1,此时t 分布与标准正态分布逐渐接近。

【例6-4】设16,,X X 是独立同服从(0,2)N 分布的随机变量,如果随机

变量5的t 分布,求c 等于多少。

因为16,,X X 独立同服从(0,2)N 分布,所以

1~(0,2)X N

,则~(0,1)Z N =

。 又因为22222

2

235624~(5)22222

X X X X X χχ=++++ 而Z 与2χ相互独立,则由t 分布的构造,有

t =

=

=

所以C =

§6.3.3 F 分布

F 分布是统计学家费雪(R.A.Fisher )于1924年提出的,F 分布在假设检验、总体方差的统计推断、方差分析、回归分析和多元统计分析等方面有着广泛的应用。

1. F 分布的定义及其密度函数

定义6-3 若随机变量X 、Y 分别服从自由度为1n 、2n 的卡方分布,

且X 、Y 相互独立,则随机变量

1

2

//X n F Y n =

(6.7) 服从第一自由度为1n ,第二自由度为2n 的F 分布,记为12~(,)F F n n 。

从F 分布的定义可以看出,F 分布是两个独立的卡方分布随机变量与其各自自由度商的比值,因而F 分布具有两个自由度,作为分子的卡方分布随机变量的自由度称为第一自由度,作为分母的卡方分布随机变量的自由度称为第二自由度。

F 分布的密度函数比较复杂,若随机变量F 服从第一自由度为1n ,第二自由度为2n 的F 分布,那么其密度函数为:

1112

12

1112221222

()2()(1)0()()()2200n n n n n n n n x x x n n f x n n x +

--+?Γ?+>?=?ΓΓ??≤?

(6.8)

如图6-3所示,F 分布曲线有些类似于卡方分布,也是一种非对称的正偏分布。其值域为(0,)+∞,但它有两个自由度1n 和2n 。F 分布的分布曲线随着两个自由度的不同组合而不同。两个自由度的不同组合形成F 分布曲线的不同形态,这在F 分布的图形中可清楚看到。随着第一自由度1n 的增大,分布曲线逐渐趋向对称,随着两个自由度的增大,分布曲线逐渐趋于正态分布。

图6-3 F 分布密度函数曲线

满足1212((,)(,))p F n n F n n αα≥=的12(,)F n n α称为自由度为n 的F 分布上侧α分位数。由于F 分布有两个自由度,所以附表仅仅给出了某些较小α值对应的12(,)F n n α值。例如0.05(20,30) 1.93F =。对于任意的α和自由度,其分位数都可通过EXCEL 的FINV 函数求得。

2. F 分布的性质特征

(1) F 分布的数学期望和方差 F 分布的数学期望和方差分别为

2

22()(2)2

n E F n n =

>- 2212221222(2)

()(4)

(2)(4)

n n n D F n n n n +-=>--

从F 分布的均值和方差表达式可以看出,随着第二自由度2n 增大,F 分布的均值趋于1,而方差则取决于两个自由度。

(2)F 分布的自由度

F 分布的自由度是由构造F 分布的分子和分母的两个2χ分布的自由度而来,由于其分子和分母的2χ分布可以交换,所以F 分布的两个自由度有一个

(6.9)

重要性质,就是它们是可以互相转化的。

若2

1~(,)F F n n ,则1/F 21~(,)F n n 。这个重要性质对于查F 分布求大α的分位数提供了方便:

112211

(,)(,)

F n n F n n αα-=

(6.10)

【例6-5】给定显著水平0.95α=,查(15,20)F 的α上侧分位点。 因为一般F 分布表并未给出0.95α=的上侧分位点。则要根据F 分布的性质,首先查0.05(20,15) 2.328F =,根据公式(6.9)可求得:

0.951

(15,20)0.42962.328

F =

= 也可以通过EXCEL 的统计函数功能中的函数FINV 直接计算该分位数1。调出EXCEL 的函数x f ,选中函数FINV ,根据对话框输入相关信息即可。FINV 的对话框如图6-4所示。

图6-4 EXCEL 的函数FINV 的对话框

§6.3.4 抽样分布定理

下面讨论总体为正态分布时样本统计量的抽样分布。这是因为在实际应用中许多总体分布或是正态分布,或是近似可以认为是正态的。即使总体分布非

1

2χ分布和t 分布的百分位点,也可分别通过EXCEL 的统计函数CHINV 和TINV 得到。

正态,由中心极限定理可知,大样本下,样本均值的分布也可以近似认为是正态分布。

定理6-1 若1,,n X X 是从总体2(,)N μσ抽取的一个简单随机样本,则

有:

1.2

~(,

)X N n

σμ (6.11)

~(0,1)X X N =

(6.12)

2.

2

22

21

2

2

2

()(1)~(1)n

i

i n

X

X nS n S n χσ

σ

σ

=--=

=

-∑ (6.13)

3.样本均值X 与样本方差2

S 相互独立1。

其中11n i i X X n ==∑,2

21

1()1n i i S X X n ==--∑。 【例6-6】在正态总体2

(,)N μσ中抽出一个容量为25的样本,

∑=-=25

1

22

)(241i i X X S 为样本方差,这里μ和2σ均为未知。求 (1)当 2.3σ=时,求(||1)P X -≤μ; (2)2

2

(0.577 1.5173)S P σ≤

≤;

(3)2

()D S ;

解:(1)因为2

~(,

)X N n

σμ,所以当 2.3σ=,25n =时有:

(||1)P X μ-≤

(|

|X P =≤

1

定理证明略,读者可以参看茆诗松等著《概率论与数理统计》。

=(|| 2.174)P Z ≤=2( 2.174)1P Z ≤-=2×0.985-1=0.97

(2)因为样本来自于总体2

(,)N μσ,样本容量25n =,所以

2

2

2

22

2

(1)(251)~(24)n S S χχσ

σ

--=

=

则 2

2

(0.577 1.5173)S P σ

≤ 2

2

24(0.57724 1.517324)S P σ

=?≤

≤?

2(0.57724(24) 1.517324)P χ=?≤≤? 2(13.848(24)36.415)P χ=≤≤

22((24)13.848)((24)36.415)P P χχ=>->

0.950.050.90=-= (查2χ分布表得出)

(3)因为2

2

2

24(24)S χσ=

,所以由式(6.3)可知:2

((24))48D χ=。

而 22

2

2

24()()24S D S D σσ

= ()

()

4

4

4

2

2

2

((24))4812

2424D σσσχ=

=

?=

定理6-2 若总体服从2

(,)N μσ,从中抽取容量为n 的样本1,,n X X ,则

~(1)

X t t n =

- (6.14)

证明:样本1,,n X X 相互独立,且都服从2(,)N μσ,由公式(6.12)和

(6.13)有:

~(0,1)X X Z N =

=

和 2

22

(1)~(1)n S Y n χσ

-=

-

而且随机变量Z与Y相互独立。结合t分布的定义有:

~(1)

X X

t t n

===-【例6-7】设总体X服从正态分布2

(,)

Nμσ,

11

,,,

n n

X X X

+

是来自

总体的一个样本,记

1

1n

i

i

X X

n=

=∑和22

1

1

()

1

n

i

i

S X X

n=

=-

-

∑,试

求的分布。

由于

11

,,,

n n

X X X

+

来自总体2

(,)

Nμσ的简单随机样本,则分别有

2

1

~(,)

n

X Nμσ

+

2

~(,)

n

X N

n

σ

μ,且

1

n

X

+

n

X相互独立,则

2

1

1

~(0,)

n n

n

X X N

n

σ

+

+

-

,且~(0,1)

X

Z N

=。

因为

2

22

2

(1)

~(1)

n S

n

χχ

σ

-

=-,而且根据定理6-1的结论有Z和2χ相互独立,所以

t==

~(1)

t n

=-。

定理6-3若总体X服从2

11

(,)

Nμσ,总体Y服从2

22

(,)

Nμσ,且两个总体

相互独立。从两总体中分别抽取容量为

1

n和

2

n的样本

1

1

,,

n

X X和

2

1

,,

n

Y Y。则

(1

)~(0,1)X Y Z N =

(6.15)

(2)当22

12σσ=,则

12~(2)X Y t t n n =

+- (6.16)

其中w S =

证明:(1)因为1..2

11,

,~(,)i i d

n X X N μσ,2..212,

,~(,)i i d

n Y Y N μσ,并且

两组样本是相互独立的。所以

211~(,/)X N n μσ,222~(,/)Y N n μσ

并且X 和Y 相互独立,从而

22

12

121

2

()~(0,

)X Y N n n σσμμ---+

则~(0,1)X Y Z N =

(2)因为由(6.12)式可以得到:

2

2

1112

(1)~(1)n S n χσ

--,

2

222

22

(1)~(1)n S n χσ

--

且21S 和2

2S 相互独立,从而

2

2

2

21122

122

2

(1)(1)~(2)n S n S n n χχσ

σ

--=

+

+-

并且(1)中的Z 和上述2χ相互独立。根据t 分布定义并化简可得

统计量及其抽样分布练习题

第六章 统计量及其抽样分布 练习题 一、填空题(共10题,每题2分,共计20分) 1.简单随机抽样样本均值X 的方差取决于_________和_________,要使X 的标准差降低到原来的50%,则样本容量需要扩大到原来的_________倍。 2. 设1217,,,X X X 是总体(,4)N μ的样本,2S 是样本方差,若2()0.01P S a >=,则a =____________。 3.若(5)X t ,则2X 服从_______分布。 4.已知0.95(10,5) 4.74F =,则0.05(5,10)F 等于___________。 5.中心极限定理是说:如果总体存在有限的方差,那么,随着_________的增加,不论这个总体变量的分布如何,抽样平均数的分布趋近于_____________。 6. 总体分布已知时,样本均值的分布为_________抽样分布;总体分布未知,大样本情况下,样本均值的分布为_________抽样分布。 7. 简单随机样本的性质满足_________和_________。 8.若(2,4)X N ,查分布表,计算概率(X 3)P ≥=_________。若(X )0.9115P a ≤=,计算a =_________。 9. 若12~(0,2),~(0,2),X N X N 1X 与2X 独立,则2212X X +()/2服从______分布。 10. 若~(16,4)X N ,则5X 服从___________分布。 二、选择题(共10题,每题1分,共计10分)

1.中心极限定理可保证在大量观察下 ( ) A . 样本平均数趋近于总体平均数的趋势 B . 样本方差趋近于总体方差的趋势 C . 样本平均数分布趋近于正态分布的趋势 D. 样本比例趋近于总体比例的趋势 2.设随机变量()(1)X t n n >,则21/Y X =服从 ( ) 。 A. 正态分布 B.卡方分布 C. t 分布 D. F 分布 3.某品牌袋装糖果重量的标准是(500±5)克。为了检验该产品的重量是否符合标准,现从某日生产的这种糖果中随机抽查10袋,测得平均每袋重量为498克。下列说法中错误的是( ) A. 样本容量为10 B .抽样误差为2 C. 样本平均每袋重量是统计量 D. 498是估计值 4.设总体均值为100,总体方差为25,在大样本情况下,无论总体的分布形式如何,样本平均数的分布都是服从或近似服从( ) A. (100/,25)N n B. N C. (100,25/)N n D. (100,N 5、设2(0,1),(5),X N Y χ且X 与Y 独立,则随机变量_________服从自由度为5的t 分布。 ( ) A. /X Y B. 5/Y X C. /X /

统计学第5-6章 正态分布、 统计量及其抽样分布知识分享

统计学第5-6章正态分布、统计量及其 抽样分布

第5-6章统计量及其抽样分布 5.1正态分布 5.1.1定义:当一个变量受到大量微小的、独立的随机因素影响时,这个变量一般服从正态分布或近似服从正态分布。 概率密度曲线图 例如:某个地区同年龄组儿童的发育特征:身高、体重、肺活量等某一条件下产品的质量 如果随机变量X的概率密度为 2 2 () 2 1 (), 2 x f x e x μ σ πσ -- =-∞<<∞ 则称X服从正态分布。 记做 2 (,) X Nμσ : ,读作:随机变量X服从均值为 μ ,方差为2 σ的正态分布 其中, μ -∞<<∞ ,是随机变量X的均值,0 σ>是是随机变量X 的标准差

5.1.2正态密度函数f(x)的一些特点: ()0 f x≥, 即整个概率密度曲线都在x轴的上方。 曲线 () f x相对于xμ =对称,并在xμ = 处达到最大值, 1 () 2 fμ πσ = 。 1 μ< 2 μ< 3 μ 曲线的陡缓程度由 σ 决定: σ 越大,曲线越平缓;σ越小,曲线越陡峭当 x 趋于无穷时,曲线以 x轴为其渐近线。 标准正态分布

当 0,1 μσ == 时, 2 2 1 () 2 x f x e π - = , x -∞<<∞ 称 (0,1) N 为标准正态分布。 标准正态分布的概率密度函数: ()x ? 标准正态分布的分布函数: ()x Φ 任何一个正态分布都可以通过线性变换转化为标准正态分布 设 2 (,) X Nμσ : ,则 (0,1) X Z N μ σ - =: 变量 2 11 (,) X Nμσ :与变量2 22 (,) Y Nμσ :相互独立,则有 22 1212 +(+,+) X Y Nμμσσ : 5.1.3 正态分布表:可以查的正态分布的概率值 ()1() x x Φ-=-Φ

贾俊平《统计学》(第5版)课后习题-第6章 统计量及其抽样分布【圣才出品】

第6章 统计量及其抽样分布一、思考题 1.什么是统计量?为什么要引进统计量?统计量中为什么不含任何未知参数? 答:(1)设12n X X X ,, …,是从总体X 中抽取的容量为n 的一个样本,如果由此 样本构造一个函数12()n T X X X ,,…,,不依赖于任何未知参数,则称函数12()n T X X X ,,…,是一个统计量。 (2)在实际应用中,当从某总体中抽取一个样本后,并不能直接应用它去对总体的有关性质和特征进行推断,这是因为样本虽然是从总体中获取的代表,含有总体性质的信息,但仍较分散。为了使统计推断成为可能,首先必须把分散在样本中关心的信息集中起来,针对不同的研究目的,构造不同的样本函数。 (3)统计量是样本的一个函数。由样本构造具体的统计量,实际上是对样本所含的总体信息按某种要求进行加工处理,把分散在样本中的信息集中到统计量的取值上,不同的统计推断问题要求构造不同的统计量,所以统计量不包含未知参数。 2.判断下列样本函数哪些是统计量?哪些不是统计量? 1121021210310410()/10 min() T X X X T X X X T X T X μ μσ =+++==-=-…,,…,()/答:统计量中不能含有未知参数,故1T 、2T 是统计量,3T 、4T 不是统计量。

3.什么是次序统计量? 答:设12n X X X ,, …,是从总体X 中抽取的一个样本,()i X 称为第i 个次序统计量,它是样本 12()n X X X ,,…,满足如下条件的函数:每当样本得到一组观测值12X X ,,…,n X 时,其由小到大的排序 (1)(2)()()i n X X X X ≤≤≤≤≤……中,第i 个值()i X 就作为次序统计量()i X 的观测值,而(1)(2)()n X X X ,,…,称为次序统计量,其中(1)X 和()n X 分别为最小和最大次序统计量。 4.什么是充分统计量? 答:在统计学中,假如一个统计量能把含在样本中有关总体的信息一点都不损失地提取出来,那对保证后边的统计推断质量具有重要意义。统计量加工过程中一点信息都不损失的统计量通常称为充分统计量。 5.什么是自由度? 答:统计学上的自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的变量的个数。 6.简述2 χ分布、t 分布、F 分布及正态分布之间的关系。答:(1)随机变量X 1,X 2,… X n 相互独立,且都服从标准正态分布,则它们的平方和21 n i i X =∑服从自由度为n 的2 χ分布。(2)随机变量X 服从标准正态分布,Y 服从自由度为n 的2 χ分布,且X 与Y 独立,

样本均值的抽样分布

抽样分布 根据样本统计量去估计总体参数,必须知道样本统计量分布。 定义6.2 某个样本统计量的抽样分布,从理论上说就是在重复选取容量为n 的样本时,由每一个样本算出的该统计量数值的相对数频数分布或概率分布。 由于现实中我们不可能将所有的样本都抽出来,因此,统计的抽样分布实际上是一种理论分布。 (一)样本均值的抽样分布 从单位数为N 的总体中抽取样本容量为n 的随机样本,在重复抽样的条件下 共有n N 个可能的样本,在不重复抽样条件下,共有!!()! n N N C n N n =-个可能样本。对于每一个样本,我们都可以计算出样本的均值2()x s 或或p ,因此,样本均值是一个随机变量。所有的样本均值形成的分布就是样本均值的抽样分布。 [例6.4]设一个总体含有4个个体(元素),即N=4,取值分别为: 12341234x x x x ==== 总体分布为均匀分布,如图6.1所示。 图6.1 总体均值:10 2.54X μ== = 总体方差:22() 1.25x x n σ-==∑ x

若重复抽样,n=2 则共有2416=个可能样本。具体列示如表5.1.1。 表6.1 可能的样本及其均值 每个样本被抽中的概率相同,均值为116 样本均值的抽样分布如表5.1.2和图5.1.2所示。 样本均值x 抽样分布的形状与原有总体的分布有关,如果原有总体是正态分布,样本均值也服从正态分布。 如果总体分布是非正态分布,当x 为大样本(30n ≥)时,样本均值的分布趋于服从正态分布;当x 为小样本时,其分布不是正态分布。 下面再让我们来看看样本均值x 抽样分布的特征:数学期望和方差。 设总体共有N 个元素,其均值为μ,方差为2σ,从中抽取容量为n 的样本。 E()x x X μ=== (6.1) 22 x n σσ=(重复抽样) (6.2) 22 ()1x N n n N σσ-=-(不重复抽样) (6.3) 对于无限总体,样本均值的方差,不重复抽样也可按重复抽样来处理;对于有限总体,当N 很大,而/n N 又很小,修正系数 1 N n N --会趋于1,不重复抽样也可按重复抽样来处理。 样本均值x 抽样分布的特征—数学期望和方差的计算公式,可以通过[例6.4]加以验证。 样本均值的均值 1.0 1.5 3.5 4.040 2.51616x μ++++====

常用的统计量抽样分布总结

常用的统计量抽样分布 一.正态分布 1. ∑==n i i X n X 1 1EX → 2. 2 12)(11∑=--=n i i X X n S ][112 1 2∑=--=n i i X n X n DX → 3. 定理: X ~),(2σμN ,n X X X ,,,21 为X 的样本,则 (1). X ~), (2 n N σμ, (2). 2 2 )1(σ S n -~)1(2-n χ, (3). X 与2S 相互独立。 二.2χ分布 1. 定义 设n X X X ,,,21 独立同分布,且~)1,0(N ,则)(~2122 n X n i i χχ∑== 2. 性质: (1). 若X ~)(12n χ,Y ~)(22n χ,且X ,Y 独立,则X +Y ~)(212n n +χ。 (2). 若X ~)(2n χ,则n EX =,2DX n =。 三.t 分布 1. 定义 设X ~)1,0(N ,Y ~)(2n χ,且X ,Y 独立,则n Y X T =~)(n t 。 2. 定理: 设n X X X ,,,21 独立同分布,且~),(2σμN ,则

n S X μ -σ σ μS n X )(-=1 )1() (2 2 ---= n S n n X σσ μ~)1(-n t (因为 n X σ μ-~)1,0(N , 2 2 )1(σ S n -~)1(2-n χ)。 3. 定理: 设1,,,21n X X X 为总体X ~),(21σμN 的样本, 1,,,21n Y Y Y 为总体Y ~),(22σμN 的样本,且Y X ,独立,则 2 12111)()(n n S Y X w +---μμ~)2(21-+n n t ,其中 2 )1()1(212 2 22112 -+-+-=n n S n S n S w 。 证:因为 2 2 11)1(σ S n -~)1(12 -n χ, 2 2 2 2)1(σ S n -~)1(22-n χ, 所以 2 2 2 2211)1()1(σS n S n -+-~)2(212-+n n χ; 又X ~), (1 2 1n N σμ,Y ~), (2 2 2n N σμ, 所以X Y -~), (2 2 1 2 21n n N σσμμ+ +, 所以 2 12111) ()(n n Y X +---σ μμ~)1,0(N ,所以 2 12111)()(n n S Y X w +---μμ 2 12111) ()(n n Y X +---= σμμ/ )2/()1()1(212 2 2 2211-+-+-n n S n S n σ ~)2(21-+n n t 。

统计量与抽样分布

第6章统计量与抽样分布 【引例】1899年,戈塞特(1876-1937)进入都柏林A.吉尼斯父子酿酒公司担任酿酒化学技师,主要从事统计和实验工作。他在工作中发现,供酿酒的每批麦子质量相差很大,而同一批麦子中能抽样供试验的麦子又很少,每批样本在不同的温度下做实验,其结果相差很大。这就决定了不同批次和温度的麦子样本是不相同的,不能进行样本合并。这样一来,实际上取得的麦子样本,不可能是大样本,只能是小样本。他在工作中还发现,利用小样本得出的结果,和正态分布有较大的差异,特别是两端尾部的概率,比正态分布明显高。因此1907年戈塞特决心把小样本和大样本之间的差别搞清楚。为此,他试图把一个总体中的所有小样本的平均数的分布刻画出来。做法是:在一个大容器里放了一批纸牌,把它们弄乱,随机地抽若干张(小样本),对这一样本记录观察值,然后再把纸牌弄乱,抽出几张,对相应的样本再记录观察值。大量地记录这种随机抽样的小样本观察值,就可以获得小样本观察值的分布。1908年,戈塞特以“学生(Student)”为笔名在《生物计量学》杂志发表了论文《平均数的规律误差》。这篇论文开创了小样本统计理论的先河,为研究样本分布理论奠定了重要基础。被统计学家誉为统计推断理论发展史上的里程碑。 那么总体和样本是如何联系的?大样本和小样本下究竟有什么差异?什么是t分布?它和正态分布有什么不同?它有什么作用?统计推断中常用的分布还有哪些?这些问题都将在本章中找到答案。 统计研究的目的是为了探索现象内在的数量规律性。为了解总体的数量特征,可以直接对总体进行全面调查,得到总体数据,进而归纳出数量特征;也可以对总体进行抽样,利用样本对总体进行推断,后一种方法称为统计推断。抽样分布是进行统计推断的理论基础。本章将主要介绍统计推断所涉及的总体、 分布,t分布样本、统计量及抽样分布等概念,以及在统计推断中最常用的2 和F分布和抽样分布定理。

(抽样检验)统计量与抽样分布

第六章 统计量及抽样分布 概率论和数理统计都是研究随机现象规律性的数学分支。 (1) 概率论特点:先提出随机现象的数学模型,然后研究其特性和规律 (2) 数理统计: (3) I )以概率论为理论前提,从实际观测或试验出发; II) 研究如何有效的收集、整理和分析受到随机因素影响的数据,并为之建立适当的 数学模型; III)对其进行检验,在此基础上对所研究的问题作出推断和预测,为采取行动和决策 提供依据和建议。 §1总体、样本与统计量 一、总体与样本 在实际问题中,我们往往只能通过观察和试验来获取研究对象的信息,但是,如果要把 全体研究对象逐个一一检查,常常是不必要或不可能的. 如:(1)对自动生产线上高速生产的零件逐个检查,要耗费很多的人力、物力、财力及时间,且非必要; (2)为考察某些产品如灯泡的寿命,横梁的耐冲击强度等而进行的破坏性试验,逐个检查将使生产失去意义 所以,实际问题中,只能也只需通过测试部分对象的数据,由此来推断全体研究对象的性质,由部分推断总体。这是数理统计面对的基本问题。 1、 总体:研究对象的全体,如一批灯泡的寿命 具体:研究对象的某个或某几个特性的数量指标,所有的可能取值所构成的集合。 如,研究对象:一个城市的居民家庭;X :人均收入;Y :人均支出;Z :人均居住面积, 则三个总体:{} ()()(){} ()()(){} 121 1 2 2 1 1 1 2 2 2 ,,...,,,,,,,,,,,,,n X X X X X Y X Y X Y X Y Z X Y Z X Y Z == =L L L 通常我们学习研究对象的一个特性的数量指标,所有可能取值所构成的集合。如,X :灯泡寿命,总体{}12,,X x x =L ,其中灯泡是研究对象,寿命是数量指标。 2、 个体:组成总体的每一个基本单元(集合中的元素) 3、 样本:从总体中随机地抽取几个个体所组成地集合,称为总体地一个样本: ()12,,n X X X L ,通常看为n 维随机变量 (1) 样本容量:样本中所含个体地个数n ,()1,2,n =≤L 总体中个体元素个数 (2) 样本值:12,,n X X X L 的一个观测,记为:12,,n x x x L 4、 抽样:从总体中抽取样本的过程。这里指随机抽样。目的:通过样本得到总体的相应情 况。 (1)简单随机抽样:数理统计最常用的抽样方法。 满足特点:代表性:总体中每个个体被抽入样本的机会均等,即每个i X (个体)与总体X 具有相同分布;

统计量与抽样分布习题

统计量与抽样分布习题 1.调节一个装瓶机使其对每个瓶子的灌装量均值为μ盎司,通过观察这台装瓶机对每个瓶子的灌装量服从标准差σ=1.0盎司的正态分布。随机抽取由这台机器灌装的9个瓶子形成一个样本,并测定每个瓶子的灌装量。试确定样本均值偏离总体均值不超过0.3盎司的概率。 2.第1题中,如果我们希望Y 与μ的偏差在0.3盎司之间的概率达到0.95,应当抽取多大的样本? 3.在第1题中,假定装瓶机对瓶子的灌装量服从方差2 σ=1的标准正态分布。假定我们计划随机抽取10个瓶子组成样本,观测每个瓶子的灌装量,得到10个观测值,用这10个观测值我们可以求出样本方差2S ()??? ??--=∑=n i i Y Y n S 12211,确定一个合适的范围使得有较大的概率保证2S 落入其中是有用的,试求1b 和2b ,使得() 90.0221=≤≤b S b P 。 4.621,,,Z Z Z 表示从标准正态总体中随机抽取的容量6=n 的一个样本,试确定常数b , 使得95.0612=?? ? ??≤∑=i i b Z P 选择题: 1. 设n X X X ,,,21 是从某总体X 中抽取的一个样本,下面哪一个不是统计量? ()∑∑==-==n i i n i i X X n S B X n X A 122 11.1. ()[] 21.∑=-n i i X E X C ()∑=--=n i i X X n S D 122 11. 2. 下面不是次序统计量的是? A .中位数 B .均值 C .四分位数 D .极差 3.抽样分布是指? A .一个样本各观测值的分布 B .总体中各观测值的分布 C .样本统计量的分布 D .样本数量的分布 4.根据中心极限定理可知,当样本容量充分大时,样本均值的抽样分布服从正态分布,其分布的均值为? A .μ B .X C .2 σ D .n 2 σ 5.根据中心极限定理可知,当样本容量充分大时,样本均值的抽样分布服从正态分布,其分布的方差为?

统计学第5-6章 正态分布、 统计量及其抽样分布

第5-6章 统计量及其抽样分布 正态分布 5.1.1定义:当一个变量受到大量微小的、独立的随机因素影响时,这个变量一般服从正态分布或近似服从正态分布。 概率密度曲线图 例如:某个地区同年龄组儿童的发育特征:身高、体重、肺活量等 某一条件下产品的质量 如果随机变量X 的概率密度为 22 ()21 (),2x f x e x μσπσ --=-∞<<∞ 则称X 服从正态分布。 记做 2 (,)X N μσ,读作:随机变量X 服从均值为μ,方差为2 σ的正态分布 其中, μ-∞<<∞,是随机变量X 的均值,0σ>是是随机变量X 的 标准差

5.1.2正态密度函数f(x)的一些特点: ()0 f x≥,即整个概率密度曲线都在x轴的上方。 曲线 () f x相对于xμ =对称,并在xμ = 处达到最大值, 1 () 2 fμ πσ = 。 1 μ< 2 μ< 3 μ 曲线的陡缓程度由 σ 决定:σ越大,曲线越平缓;σ越小,曲线越陡峭当 x 趋于无穷时,曲线以x轴为其渐近线。 标准正态分布 当 0,1 μσ == 时,

2 2 1 () 2x f x e π- = , x -∞<<∞ 称 (0,1) N 为标准正态分布。 标准正态分布的概率密度函数: ()x ? 标准正态分布的分布函数: ()x Φ 任何一个正态分布都可以通过线性变换转化为标准正态分布 设 2 (,) X Nμσ ,则 (0,1) X Z N μ σ - = 变量 2 11 (,) X Nμσ与变量2 22 (,) Y Nμσ相互独立,则有 22 1212 +(+,+) X Y Nμμσσ 5.1.3 正态分布表:可以查的正态分布的概率值()1() x x Φ-=-Φ 例:设 (0,1) X N,求以下概率

(完整版)统计学第5-6章正态分布、统计量及其抽样分布

第5-6章 统计量及其抽样分布 5.1正态分布 5.1.1定义:当一个变量受到大量微小的、独立的随机因素影响时,这个变量一般服从正态分布或近似服从正态分布。 概率密度曲线图 例如:某个地区同年龄组儿童的发育特征:身高、体重、肺活量等 某一条件下产品的质量 如果随机变量X 的概率密度为 22 ()21 (),2x f x e x μσπσ --=-∞<<∞ 则称X 服从正态分布。 记做 2 (,)X N μσ:,读作:随机变量X 服从均值为μ,方差为2 σ的正态分布 其中, μ-∞<<∞,是随机变量X 的均值,0σ>是是随机变量X 的标准差 5.1.2正态密度函数f(x)的一些特点: ()0f x ≥,即整个概率密度曲线都在x 轴的上方。 曲线 ()f x 相对于x μ=对称,并在 x μ=处达到最大值,

1 () 2 fμ πσ = 。 1 μ< 2 μ< 3 μ 曲线的陡缓程度由 σ 决定:σ越大,曲线越平缓;σ越小,曲线越陡峭当 x 趋于无穷时,曲线以x轴为其渐近线。 标准正态分布 当 0,1 μσ == 时, 2 2 1 () 2 x f x e π - = , x -∞<<∞ 称 (0,1) N 为标准正态分布。

标准正态分布的概率密度函数: ()x ? 标准正态分布的分布函数: ()x Φ 任何一个正态分布都可以通过线性变换转化为标准正态分布 设 2 (,) X Nμσ : ,则 (0,1) X Z N μ σ - =: 变量 2 11 (,) X Nμσ :与变量2 22 (,) Y Nμσ :相互独立,则有 22 1212 +(+,+) X Y Nμμσσ : 5.1.3 正态分布表:可以查的正态分布的概率值()1() x x Φ-=-Φ 例:设 (0,1) X N :,求以下概率 (1) ( 1.5) P X< (2) (2) P X> (3) (13) P X -<≤

统计量及其抽样分布

《统计学》课程教学大纲 课程编号:×××××××× 课程类别:学科基础课 授课对象:经济管理类各专业、社会学专业、档案学专业、新闻学专业等 开课学期:第3、4、5、6学期 学分:4学分 主讲教师:……等 指定教材:贾俊平、何晓群、金勇进编著,《统计学》(第六版),中国人民大学出版社,2015年教学目的: 《统计学》是为我校非统计专业本科生开设的一门基础必修课,总课时约54学时。设置本课程的目的在于培养学生有关统计知识方面的基本技能,培养学生应用统计方法分析和解决问题的实际能力。教学应达到的总体目标是: 使学生能系统地掌握各种统计方法,并理解各种统计方法中所包含的统计思想。 使学生掌握各种统计方法的不同特点、应用条件及适用场合。 培养学生运用统计方法分析和解决实际问题的能力。 第1章导论 课时:1周,共3课时 教学内容 第一节统计及其应用领域 一、什么是统计学 统计学的概念。描述统计。推断统计。 二、统计的应用领域 统计在共生管理中的应用。统计在其他领域的应用。统计的误用与正确使用。 三、历史上著名的统计学家 一些主要的统计学家。 第二节统计数据的类型 一、分类数据、顺序数据、数值型数据 分类数据。顺序数据。数值型数据。 二、观测数据和实验数据 观测数据。实验数据。 三、截面数据和时间序列数据 截面数据。时间序列数据。 第三节统计中的几个基本概念 一、总体和样本 总体。有限总体和无限总体。样本。样本容量。 二、参数和统计量 参数。统计量。 三、变量 变量。变量的类型。 第2章数据的收集 课时:1周,共3课时

第一节数据来源 一、数据的间接来源 二手数据。 二、数据的直接来源 统计调查方式。数据的收集方法。 第二节调查设计 一、调查方案的结构 调查目的。调查对象和调查单位。调查项目和调查表。 二、调查问卷设计 问卷的结构。提问项目设计。回答项目的设计。问题顺序的设计。第三节数据质量 一、数据的误差 抽样误差。非抽样误差。 二、数据的质量要求 第3章数据的图表展示 课时:1周,共3课时 教学内容 第一节数据的预处理 一、数据审核 原始数据的审核。二手数据的审核。 二、数据筛选 数据筛选的意义。用Excel进行数据筛选。 三、数据排序 数据排序的作用。用Excel进行数据排序。 第二节分类和顺序数据的整理与显示 一、分类数据的整理与显示 频数与频数分布。用Excel制作频数分布表。分类数据的图示方法。 二、顺序数据的整理与显示 累积频数与累积频率。顺序数据的图示方法。 第三节数值型数据的整理与显示 一、数据分组 分组方法。 二、数值型数据的图示 直方图。茎叶图和箱线图。线图。雷达图。 第四节统计表 一、统计表的构成 二、统计表的设计 第4章数据的概括性度量 课时:1周,共3课时 教学内容 第一节集中趋势的度量

统计量及其抽样分布习题答案

第六章 统计量及其抽样分布 6.1 调节一个装瓶机使其对每个瓶子的灌装量均值为μ盎司,通过观察这台装瓶机对每个瓶子的灌装量服从标准差 1.0σ=盎司的正态分布。随机抽取由这台机器灌装的9个瓶子形成一个样本,并测定每个瓶子的灌装量。试确定样本均值偏离总体均值不超过0.3盎司的概率。 解:总体方差知道的情况下,均值的抽样分布服从()2,N n σμ的正态分布,由正态分布,标准化得到标准正态分布: x ()0,1N ,因此,样本均值不超过总体均值的概率P 为: ()0.3P x μ-≤ =P ?≤ =x P ??≤≤ =()0.90.9P z -≤≤=2()0.9φ-1,查标准正态分布表得()0.9φ=0.8159 因此,() 0.3P x μ-≤=0.6318 6.2 ()0.3P Y μ-≤ =P ?≤ =x P ??≤≤ =(||P z ≤ =(21φ-=0.95 查表得: 1.96= 因此n=43 6.3 1Z ,2Z ,……,6Z 表示从标准正态总体中随机抽取的容量,n=6的一个样本,试确定常数b ,使 得6210.95i i P Z b =??≤= ??? ∑ 解:由于卡方分布是由标准正态分布的平方和构成的: 设Z 1,Z 2,……,Z n 是来自总体N (0,1)的样本,则统计量 222212χ=+++n Z Z Z 服从自由度为n 的χ2分布,记为χ2~ χ2(n ) 因此,令622 1i i Z χ==∑,则()62 22 16i i Z χχ==∑,那么由概率6210.95i i P Z b =??≤= ???∑,可知: b=()210.956χ-,查概率表得:b=12.59 6.4 在习题6.1中,假定装瓶机对瓶子的灌装量服从方差21σ=的标准正态分布。假定我们计划随机抽取10个瓶子组成样本,观测每个瓶子的灌装量,得到10个观测值,用这10个观测值我们可以求出样本方差2221 1(())1n i i S S Y Y n ==--∑,确定一个合适的范围使得有较大的概率保证S 2落入其中是有用的,试求b 1,b 2,使得 212()0.90p b S b ≤≤= 解:更加样本方差的抽样分布知识可知,样本统计量: 2 22(1)~(1) n s n χσ-- 此处,n=10,21σ=,所以统计量 2 2222(1)(101)9~(1)1 n s s s n χσ--==- 根据卡方分布的可知: ()()2212129990.90P b S b P b S b ≤≤=≤≤= 又因为:

抽样分布习题及答案

第4章抽样分布自测题 选择题 1?抽样分布是指() A. 一个样本各观测值的分布 B.总体中各观测值的分布 C.样本统计量的分布 D.样本数量的分布 2?根据中心极限定理可知,当样本容量充分大时,样本均值的抽样分布服从正态分布,其分布的均值 为() 2 C. 2 D. 一 A. B. X n 3?根据中心极限定理可知,当样本容量充分大时,样本均值的抽样分布服从正态分布,其分布的方差 为() 2 2 A. B. X C. D.—— n 2 4. 从均值为,方差为的任意一个总体中抽取大小为n的样本,则() A. 当n充分大时,样本均值X的分布近似服从正态分布 B. 只有当n<30时,样本均值X的分布近似服从正态分布 C. 样本均值X的分布与n无关 D. 无论n多大,样本均值X的分布都是非正态分布 5. 假设总体服从均匀分布,从该总体中抽取容 量为36的样本,则样本均值的抽样分布() A. 服从非正态分布 B.近似正态分布 C.服从均匀分布 D.服从2分布 6. 从服从正态分布的无限总体中分别抽取容量为4,16,36的样本,则当样本容量增大时,样 本均值的标准差() A.保持不变 B.增加 C.减小 D.无法确定 7. 某大学的一家快餐店记录了过去5年每天的营业额,每天营业额的均值为2500元,标准差为400元。由于在某些节日的营业额偏高,所以每日营业额的分布是右偏的,假设从这5年中随机抽取100天,并计算这100天的平均营业额,则样本均值的抽样分布是() A. 正态分布,均值为250元,标准差为40元 B. 正态分布,均值为2500元,标准差为40元 C. 右偏,均值为2500元,标准差为400元 D. 正态分布,均值为2500元,标准差为400元 8. 在一个饭店门口等待出租车的时间 是左偏的,均值为12分钟,标准差为3分钟。如果从饭店门口随机抽取81名顾客并记录他们等待

相关主题
文本预览
相关文档 最新文档