第六章样本及抽样分布
【授课对象】理工类本科二年级
【授课时数】4学时
【授课方法】课堂讲授与提问相结合
【基本要求】1、理解总体、个体和样本的概念;
2、了解经验分布函数和直方图的作法,知道格林汶科定理;
3、理解样本均值、样本方差和样本矩的概念并会计算;
4、理解统计量的概念,掌握几种常用统计量的分布及其结论;
5、理解分位数的概念,会计算几种重要分布的分位数。
【本章重点】样本均值、样本方差和样本矩的计算;抽样分布——2 分布,t分布,F分布;分位数的理解和计算。
【本章难点】对样本、统计量及分位数概念的理解;样本矩的计算。
【授课内容及学时分配】
§6.0 前言
前面五章我们研究了概率论的基本内容,从中得知:概率论是研究随机现象统计规律性的一门数学分支。它是从一个数学模型出发(比如随机变量的分布)去研究它的性质和统计规律性;而我们下面将要研究的数理统计,也是研究大量随机现象的统计规律性,并且是应用十分广泛的一门数学分支。所不同的是数理统计是以概率论为理论基础,利用观测随机现象所得到的数据来选择、构造数学模型(即研究随机现象)。其研究方法是归纳法(部分到整体)。对研究对象的客观规律性做出种种合理性的估计、判断和预测,为决策者和决策行动提供理论依据和建议。数理统计的内容很丰富,这里我们主要介绍数理统计的基本概念,重点研究参数估计和假设检验。
§6.1 随机样本
一、总体与样本
1.总体、个体
在数理统计学中,我们把所研究的全部元素组成的集合称为总体;而把组成总体的每个
元素称为个体。
例如:在研究某批灯泡的平均寿命时,该批灯泡的全体就组成了总体,而其中每个灯泡就是个体;在研究我校男大学生的身高和体重的分布情况时,该校的全体男大学生组成了总体,而每个男大学生就是个体。
但对于具体问题,由于我们关心的不是每个个体的种种具体特性,而仅仅是它的某一项或几项数量指标X (可以是向量)和该数量指标X 在总体的分布情况。在上述例子中X 是表示灯泡的寿命或男大学生的身高和体重。在试验中,抽取了若干个个体就观察到了X 的这样或那样的数值,因而这个数量指标X 是一个随机变量(或向量),而X 的分布就完全描写了总体中我们所关心的那个数量指标的分布状况。由于我们关心的正是这个数量指标,因此我们以后就把总体和数量指标X 可能取值的全体组成的集合等同起来。
定义1:把研究对象的全体(通常为数量指标X 可能取值的全体组成的集合)称为总体;总体中的每个元素称为个体。
我们对总体的研究,就是对相应的随机变量X 的分布的研究,所谓总体的分布也就是数量指标X 的分布,因此,X 的分布函数和数字特征分别称为总体的分布函数和数字特征。今后将不区分总体与相应的随机变量,笼统称为总体X 。根据总体中所包括个体的总数,将总体分为:有限总体和无限总体。
例1:考察一块试验田中小麦穗的重量:
X =所有小麦穗重量的全体(无限总体);个体——每个麦穗重x 对应的分布:
+∞<<σμσ
π=
≤=
≤ξ=?∞
-σμ--
x N dt e
x 重量x P x F x
t 0)
,(~21
}{)(22)(2
2总麦穗数
的麦穗数
例2:考察一位射手的射击情况:
X =此射手反复地无限次射下去所有射击结果全体; 每次射击结果都是一个个体(对应于靶上的一点)
个体数量化???=未中射中
01x
1在总体中的比例p 为命中率 0在总体中的比例p -1为非命中率
总体X 由无数个0,1构成,其分布为两点分布),1(p B p X P p X P -====1}0{,}1{ 2.样本与样本空间
为了对总体的分布进行各种研究,就必需对总体进行抽样观察。
抽样——从总体中按照一定的规则抽出一部分个体的行动。
一般地,我们都是从总体中抽取一部分个体进行观察,然后根据观察所得数据来推断总体的性质。按照一定规则从总体X 中抽取的一组个体),,,(21n X X X 称为总体的一个样本,显然,样本为一随机向量。
为了能更多更好的得到总体的信息,需要进行多次重复、独立的抽样观察(一般进行n 次),若对抽样要求①代表性:每个个体被抽到的机会一样,保证了n X X X ,,,21 的分布相同,与总体一样。②独立性:n X X X ,,,21 相互独立。那么,符合“代表性”和“独立性”要求的样本),,,(21n X X X 称为简单随机样本。易知,对有限总体而言,有放回的随机样本为简单随机样本,无放回的抽样不能保证n X X X ,,,21 的独立性;但对无限总体而言,无放回随机抽样也得到简单随机样本,我们本书则主要研究简单随机样本。
对每一次观察都得到一组数据(n x x x ,,,21 ),由于抽样是随机的,所以观察值(n x x x ,,,21 )也是随机的。为此,给出如下定义:
定义2:设总体X 的分布函数为)(x F ,若n X X X ,,,21 是具有同一分布函数)(x F 的相互独立的随机变量,则称(n X X X ,,,21 )为从总体X 中得到的容量为n 的简单随机样本,简称样本。把它们的观察值(n x x x ,,,21 )称为样本值。
定义3:把样本(n X X X ,,,21 )的所有可能取值构成的集合称为样本空间,显然一个样本值(n x x x ,,,21 )是样本空间的一个点。 二、样本的分布:
设总体X 的分布函数为)(x F ,(n X X X ,,,21 )是X 的一个样本,则其联合分布函数为:
)x ,,x ,x (F n *
21=∏=n
i 1
)(i x F 。
例3:设总体),,(,),1(~21n X X X p B X 为其一个简单随机样本,则样本空间}n ,,,i ;,x )x ,,x ,x {(i n 211021===Ω,因为1{}(1)x x P X x p p -==?-,0,1x = 所以样本的联合分布列为:
11221122{,,
,}{}{}
{}n n n n P X x X x X x P X x P X x P X x ======= n i x p p p p p p i x x x x x x n
n ,,2,11
,0)1()1(.)1(1112211 ==---=---
§6.2 分布函数与概率密度函数的近似解
在概率论中,我们介绍了几种常用的分布函数以及它们的性质,当时我们总假定它们都是先给定的,而在实际中,所遇到的用于描述随机现象的随机变量,事先并不知道其分布函数,甚至连其分布类型也一无所知,那么,怎么样才能确定它的分布函数)(x F 呢?
一般地,利用样本及样本值,建立一定的概率模型,用由此获得的概率统计信息来对总体X 的)(x F 进行估计和推断,这就是: 一、经验分布函数
1.定义:设(n X X X ,,,21 )是来自总体X 的样本,用()S x 表示:x R ?∈,12,,,n
X X X 中不大于x 的随机变量的个数,定义经验分布函数为
1
()()n F x S x x R n
=
∈。
设(n x x x ,,,21 )是样本的一个观察值,令这n 个数值由小到大的顺序排列后为:*1x ≤*
2x ≤
*3x ≤……≤*
n x ,对?x ∈R
由定义很容易得到经验分布函数的观察值:
*()n F x =??
???10n k *n *
k *k *
x x x x x x x ≥<≤<+11 1,,2,1-=n k
通常也称*()n F x 是总体X 的经验分布函数,在不至于混淆的情况下统一用)(x F n 来表示总体
X 的经验分布函数。
显然,)(x F n 是单调非降右连续的跳跃函数(阶梯函数),在点*
k x x =处有间断,在每个
间断点的跃度为
n
1
,(k =1,2,3,…,n )且1)(0≤≤x F n ,)(lim x F n x -∞→=0,)(lim x F n x +∞→=1,它
满足分布函数的三个性质,所以必是一个分布函数。
一般地,随着n 的增大,)(x F n 越来越接近X 的分布函数)(x F ,关于这一点,格列汶科(Glivenko )在1953年给了理论上的论证,即:
2.定理1(Glivenko-Th ):若总体X 的分布函数为)(x F ,经验分布函数为)(x F n ,则对
R x ∈?,有:}
lim(sup |()()|)01n n x P F x F x →∞-∞<<+∞
?-==??
[.()()a e
n F x F x ???→一致] 定理表明,)(x F n 以概率1一致收敛于)(x F ,即:可以用)(x F n 来近似)(x F ,这也是利用样本来估计和判断总体的基本理论和依据。
例4:某厂从一批荧光灯中抽出10个,测其寿命的数据(单位千时)如下:
95.5, 18.1, 13.1, 26.5, 31.7, 33.8, 8.7, 15.0, 48.8, 48.3
求该批荧光灯寿命的经验分布函数)(x F n (观察值)。
解:将数据由小到大排列得:
8.7,13.1,15.0,18.1,26.5,31.7,33.8,48.8,49.3,95.5, 则经验分布函数为:
?
?????
???
?????
???=1
9.08.07
.06.05
.04.03.02
.01.00
)(x F n 5.955.953.493.498.488.488.338.337.317.315.265
.261.181.180.150.151.131.137.87.8≥<≤<≤<≤<≤<≤<≤<≤<≤<≤ 设(n X X X ,,,21 )为来自总体X 的一个样本,其样本观察值为(n x x x ,,,21 ),将该组数值n x x x ,,,21 分成l 组,可作分点:l a a a a ,,,,210 (各组距可以不相等),则各组为:(0a ,1a ],(1a ,2a ],……,(1-l a ,l a ],若样本观察值中每个数值落在各组中的频数分别为1m , 2m ,3m ,…,l m ,则频率分别为: n m 1,n m 2……n m l ;以各组为底边,以相应组的频率除以组距为高,建立l 个小矩形,即得总体X 的直方图。 由上分析可知:直方图中每一矩形的面积等于相应组的频率 设总体X 的密度函数为)(x f ,则:总体X (真实值)落在第k 组(1-k a ,k a ]的概率为: ?-k k a a dx x f 1 )(。 由Bernoulli 大数定理可知:当n 很大时,样本观察值(单个)落在该区间的频率趋近于此概率;即:(1-k a ,k a ]上矩形的面积接近于)(x f 在此区间上曲边梯形的面积,当n 无限增大时,分组组距越来越小,直方图就越接近总体X 的密度函数)(x f 的图象。(这与定积分的意义具有同样的道理)。 §6.3 样本的数字特征 由第三章节知:随机变量的数字特征,能够反映随机事件的某些重要的概率特征,从第 一节可知,样本也是一组随机变量(随机向量),为了详细刻划样本观察值中所包含总体X 的信息及样本值的分布情况,下面我们研究样本的数字特征。 一、样本均值与样本方差(随机变量) 定义1,设(n X X X ,,,21 )是来自总体X 的一个样本,称∑== n i i X n X 1 1为样本均值。 )X n X n X (n )X X X X (n [)X X (n S n i n i i n i i i i 211 2212 222 21121111∑∑∑===+--=+--=--= )]X n X (n n i i 21 211--=∑=为样本方差。 ∑=--= =n i i X X n S S 1 22 )(11为样本标准差。 样本均值与样本方差分别刻划了样本的位置特征及样本的分散性特征。 二、矩 1.总体矩(数值) 设总体X 的分布函数为)(x F ,则称)X (E m k k =(假设它存在)为总体X 的k 阶原点矩;称]))X (E X [(E k k -=μ为总体X 的k 阶中心矩。 把总体的各阶中心矩和原点矩统称为总体矩——表示总体X 的数字特征。 特别地:1m =)(X E ;)(2x D =μ是总体X 的期望和方差。 仿此,下面给出样本矩的定义: 2.样本矩(r.v ) 定义2:设)X ,,X ,X (n 21是来自总体X 的一个样本,则称 ∑ == n i k i k X n A 11 ,k =1,2,3……;为样本的k 阶原点矩(随机变量) ∑ =-= n i k i k X X n B 1 )(1,k =1,2,3……;为样本值的k 阶中心矩(随机变量)。 特别地,X A =1,但2B 与2S 却不同,由2S 与2B 的计算式可知:2 21S n n B -=, 当∞→n 时,2B =2S ,所以常利用2B 来计算S (标准差)。 【注】: ()1,2,p k k A m n k ?? →→∞=,这就是下一章要介绍的矩估计的理论 根据。 由上述定义可知:样本均值、样本方差、样本均方差、样本矩都是关于样本的函数,而样本本身又是随机变量。因此,上述关于样本的数字特征也是随机变量。 设)x ,,x ,x (n 21为样本)X ,,X ,X (n 21的观测值,则样本矩对应观测值分别为: ∑==n i i x n x 1 1; 2s =∑=--n i i )x x (n 1 211;∑=--==n i i )x x (n s s 1 2211; ∑==n i k i k x n a 11; ∑=-=n i k i k x x n b 1 )(1;k =1,2,3……; 在不至于混淆的情况下,这些值也分别称为样本均值、样本方差、样本标准差、样本k 阶原点矩、样本k 阶中心矩。 例5:从某班级的英语期末考试成绩中,随机抽取10名同学的成绩分别为:100,85,70,65,90,95,63,50,77,86 (1)试写出总体,样本,样本值,样本容量;(2)求样本均值,样本方差及二阶原点矩。 解:(1)总体:该班级所有同学的英语期末考试成绩X ; 样本:(1X ,2X ,3X ,…,10X ) 样本值:)x ,,x ,x (n 21=(100,85,70,65,90,95,63,50,77,86) 样本容量:n =10 (2)10111 1010 i i x x ===∑(100+85+……+86)=78.1 2 2222111()[21.9 6.97.9]252.519 n i i s x x n ==-=+++=-∑ 10222222211111 (100857086)6326.91010 n i i i i a x x n =====+++ +=∑∑ 【注】本例作为学生使用计算器计算样本矩的练习。 课后作业:1、仔细阅读P 122-132; 2、作业:P 146 3,4 3、预习:抽样分布 §6.4 抽 样 分 布 0、引言 有了总体和样本的概念,能否直接利用样本来对总体进行推断呢?一般来说是不能的,需要根据研究对象的不同,构造出样本的各种不同函数,然后利用这些函数对总体的性质进行统计推断,为此,我们首先介绍数理统计的另一重要概念——统计量。 一、统计量(随机变量) 定义1:设12(,, ,)n X X X 是来自总体X 的一个样本,12(,, ,)n g X X X 是样本的函数, 若g 中不含任何未知参数,则称g (n X X X ,,,21 )是一个统计量。 设12(,, ,)n x x x 是对应于样本12(,, ,)n X X X 的样本值,则称12(,, ,)n g x x x 是 12(,, ,)n g X X X 的观察值。 事实上§6.3中的样本矩都是统计量;再如),(21X X 是来自总体),1(~2σN X 的一个样本,则),m in(,12121X X X X -+都是统计量,而1X σ就不是统计量。 由§6.1知:(n X X X ,,,21 )是随机变量,而统计量是样本(n X X X ,,,21 )的函数,所以统计量也是随机变量。 而统计量是我们对总体的分布函数或数字特征进行统计推断的最重要的基本概念,所以寻求统计量的分布成为数理统计的基本问题之一。我们把统计量的分布称为抽样分布。然而要求出一个统计量的精确分布是十分困难的。而在实际问题中,大多总体都服从正态分布:而对于正态分布,我们可以求出一些重要统计量的精确分布,这就是: 二、几种常用的抽样分布:(正态分布中的几种统计量的分布) 把2χ分布,t 分布,F 分布,统称为“统计三大分布”。 1、正态分布 由正态分布的性质,可得如下结论: 1)定理:设n X X X ,,,21 相互独立,),(~2i i i N X σμ,n i ,,2,1 =,η是关于i X 的任一确定的线性函数(∑==n i i i X a 1 η),则η也服从正态分布,且~η∑∑==σμn i n i i i i i a a N 1 1 22),(。 2)结论:若(n X X X ,,,21 )是来自总体2~(,)X N μσ的一个样本,X 为样本均值,则 ①~X ), (2 n N σμ,由上述结论可知:X 的期望与X 的期望相同,而X 的方差却比X 的 方差小的多,即X 的取值将更向μ集中。 ②X 与2S 相互独立。 2、2χ分布 1)定义:设(n X X X ,,,21 )是来自总体),(N ~X 10 的一个样本,则称统计量: ∑==n i i X 1 22 χ所服从的分布是自由度为n 的2χ分布,记作:)n (~22χχ。 )(2 n χ的概率密度函数为:?????Γ=χ--0)(21),(2122 22x n n e x n x n 00≤>x x , 其中:?∞--=Γ012)2 (dx e x n x n ,()π=Γ21 显然, 0),(2≥χn x ,且?+∞ ∞ -=χ1),(2dx n x ,即符合密度函数性质。 事实上,∑=Γ=n i i n X X 1 22 )21,2(~ 2)2χ分布的性质 I 、2χ分布的可加性: 设)(~1221n χχ,)(~2222n χχ,且21χ与2 2χ相互独立,则: 21χ+~22χ)(212 n n +χ II 、若)(~22n χχ,则n E =χ)(2,n D 2)(2=χ, 事实上,因为)1,0(~N X i ,则:1)()(2==i i X D X E , 213121 )]([)()(2 2 4 2 242=-=-π = -=?∞ +∞ --dx e x X E X E X D x i i i ,n i ,,2,1 = 所以:2 2 21 1 ()()()n n i i i i E E X E X n ==χ===∑∑;2 2 21 1 ()()()2n n i i i i D D X D X n ==χ===∑∑ 3)结论: 设(n X X X ,,,21 )为来自总体),(~2σμN X 的一个样本,μ,2σ为已知常数,则:I)统 计量∑=χμ-σ =χn i i n X 1 222 2 )(~)(1 (当μ=0时也成立) 事实上,令σ μ -= i i X Y ,则)1,0(~N Y i ,所以∑=χ=χn i i n Y 1 222 )(~ II)样本均值X 与样本方差2S 相互独立,且统计量 ∑=-χ-σ=σ-n i i n X X S n 1 222 22)1(~)(1 )1(。 证明请参阅有关数理统计的课本。 3、t -分布 1)定义:设)1,0(~N X ,)(~2n Y χ,且X 与Y 相互独立,则称统计量: n Y X T = 所服从的分布是自由度为n 的t 分布,记为)(~n t T ,t 分布又称为学生氏(Student ) 分布。 t 分布的概率密度函数为:21 )1() () (),(2221 +-++Γ?Γ= n n x n n x t n n π +∞<<∞-x 。 2)t 分布的特点(性质)。 I 、);(n x t 关于x =0对称; II 、);(n x t 在x =0达最大值; III 、);(n x t 的x 轴为水平渐近线; IV 、2 2 21),(lim x x e n x t - ∞ →= π ;即∞→n 时,t 分布)1,0(N →,一般地,当n >30时,t 分布与 )1,0(N 非常接近。 V 、当n 较小时,t 分布与)1,0(N 有较大的差异,且对R t ∈?0有 {}}{0 0||||t X P t T P ≥≥≥,其中)1,0(~N X 。 即t 分布的尾部比)1,0(N 的尾部具有更大的概率。 VI 、若)(~n t T ,则1>n 时,2 )(,2;0)(-=>=n n T D n T E 时 3)结论: I)设(n X X X ,,,21 )是来自总体),(~2σμN X 的一个样本,则统计量: )1(~) (--= n t n s X T μ, 事实上,由)1,0(~), (~2 N X n N X n σ μ σμ-? ,又)1(~)1(22 2-χσ -n S n ,且X 与2 S 相互独立,则 n X σ μ -与 2 2 )1(S n σ -相互独立,由t 分布的定义,所以 )1(~) (1 2 2 )1(--= -= --n t n S X n n T S n X μσσμ II)设(m X X X ,,,21 )是来自总体211~(,)X N μσ的一个样本,(),,,21n Y Y Y 是来自总 体2 22 ~(,)Y N μσ的一个样本,且X 与Y 相互独立,当22212σσσ==时,则统计量 )2(~) 2()1()1() ()(2221-++-+-+-μ-μ--= n m t n m n m mn S n S m Y X T n m , 其中,∑==m i i X m X 11,∑=--=m i i m X X m S 1 22 )(11 ∑==n i i Y n Y 11, ∑=--=n i i n Y Y n S 1 22 )(11 事实上,), (~2 1m N X σμ,),(~2 2n N Y σμ,且X 与Y 相互独立,所以: ), (~2 2 21n m N Y X σσμμ+ --,即: )1,0(~) ()(11 21N Y X n m + ---σ μμ; 又)1(~)1(222-χσ-m S m m ,)1(~)1(22 2 -χσ-n S n n ,且它们相互独立,由2 χ分布的可加性,则)2(~)1()1(2 2 2 22-+χσ -+σ-n m S n S m n m 。由t 分布的定义: )2(~) 2()1()1() ()(2 ) ()(2 221)1()1(11 212 2 2-++-+-+----= -++ ----+-n m t n m n m mn S n S m Y X n m Y X n m S n S m n m n m μμσ μμσ 4、F -分布 1)定义:设)(~2 m X χ,)(~2 n Y χ,且X 与Y 相互独立,则称统计量n Y m X F = 服从自由度为 ),(n m 的F 分布,记作:),(~n m F F ,其中:m 为第一自由度,n 为第二自由度。 由定义,若)n (t ~T ,则),1(~2n F T 。 ),(n m F 的概率密度函数为: ?? ???+ΓΓΓ=+--+0)1())(()()()(),;(22 1222n m m x n m x n m n m n m x f n m n m 00≤>x x 的联合),(v u f ,注意到V U ,独立,所以V 的边缘密度函数,也即F 的密度函数。 2)F 分布的性质(特点) I. 密度曲线不对称(偏态) II. 若),(~n m F F ,则 ),(~1 m n F F III. 当2>n 时,2 -= n n E F 当4>n 时,)4)(2()2(22 --+=n n m n E F ,) 4()2()422(22---+=n n m n m n D F 注:(利用)1()1(-ααΓ-α=Γ) 3)结论: 设(m X X X ,,,21 )是来自总体),(~211σμN X 的一个样本,(),,,21n Y Y Y 是来自总体 ),(~22 2σμN Y 的一个样本,且X 与Y 相互独立,则)1,1(~22 212 12 2--σσ=n m F S S F 。 事实上, 2 2 12 1(1)~(1)m S m χσ--, 2 22 2 2(1)~(1)n S n χσ--,由F 分布的定义,可得 )1,1(~)1/() 1/(22 212 1 22)1()1(22 2 2 21 2 1--σσ=--= σ-σ-n m F S S n m F S n S m , 其中,∑=--=n i i X X m S 122 1 )(11;∑=--=n i i Y Y n S 1 22 2)(11 三、分位数 1. 定义: 设随机变量X 的分布函数为)(x F ,对于给定的正数α)10(<α<,若有αx 满足 α=≤=αα}{)(x X P x F ,则称αx 为X 的(下侧)α分位数(或α分位点)。 2.表示方法: ①.)1,0(N 的α分位数αμ满足:? α μ∞ --α=π dx e x 2 2 21。 由标准正态分布的对称性可知:1α-α-μ=μ。 ②.)(2 n χ分布的α分位数)(2n α χ 满足:? αχ∞ -α=χ) n (dx )n ,x (22,由附表6查其值: 当45≥n 时,22 )12(2 1 )(-+≈ χααn u n 或αu n n ?+≈2。 ③.)(n t 分布的α分位数)(n t α满足:? α∞ -α=)(),(n t dx n x t ,由附表5可查出其值。由于30>n 时, )(n t 分布接近于)1,0(N ,所以当45>n 时,可查)1,0(N 分布分位数表。由t 分布的对称性可知:αα-=-1t t 。 ④.),(n m F 分布的α分位数),(n m F α满足:?=) ,(0 ),;(n m F dx n m x f αα,由),(n m F 分布性质, 有:),(n m F α= 11 (,) F n m α-。 事实上,α-=≤ξ?α=≥ξ?α=≤ξααα11111}) n ,m (F {P })n ,m (F { P )n ,m (F {P α-=≤ξ ?α-11 1)}m ,n (F { P 。 ⑤.分位数的其它表示法。 1)若?λ使α=λ>}{X p ,则λ称为X 的上侧α分位数,显然:λ为原分布的1-α分位数,这是因为α-=λ≤1}{X P 。 例:若)1,0(~N X ,λ满足:01.0}{=λ>X P ,则326.299.001.01===λ-u u 2)若?21,λλ,使2 }{1α =λ≤X P ,2}{2α=λ>X P ;则称21,λλ为X 的双侧α分位 数,显然,1λ为X 的 2α分位数,2λ为X 的1-2 α 分位数。 例:设),(~n m F F ,求21,λλ,使得01.0}{1=λ≤X P ,01.0}{2=λ>X P 解: ),(),,(99.0201.01n m F n m F =λ=λ 课后作业:1、认真阅读P 132-145; 2、作业:P 148 10,12,16 3、预习:参数估计的概念与点估计的求法。 第六章 样本及抽样分布 【内容提要】 一、简单随机样本与统计量 1. 总体 用来表征某一随机试验的数量指标X ,其概率分布称为总体的分布。 2. 简单随机样本 在相同条件下,对总体X 进行n 次独立的重复观察,将所得结果12,,...,n X X X 称为从总体X 中抽取的容量为n 的简单随机样本,试验结束后,可得一组数值12,,...,n x x x ,称其为 12,,...,n X X X 的观察值。 注:若12,,...,n X X X 为总体X 的简单随机样本,则12,,...,n X X X 相互独立,且与总体X 同分布。 3. 统计量 设12,,...,n X X X 为总体X 的简单随机样本,12(,,...,)n T g X X X =为样本12,,...,n X X X 的实值函数,且不含任何未知参数,则称12(,,...,)n T g X X X =为一个统计量,将样本值12,,...,n x x x 代入后算出的函数值12(,,...,)n t g x x x =称为该统计量的值。 注:设12,,...,n X X X 为总体X 的简单随机样本,12,,...,n x x x 为相应的样本值,则常用的统计量有: 4. 经验分布函数 设12,,...,n X X X 为总体X 的简单随机样本,12,,...,n x x x 为相应的样本值,将样本值 按由小到大的顺序重新编号12,1r x x x r n ***<??<≤≤,并设12,,...,n x x x 中取到k x * 的频数为k m , 其中10k k k r m n m n ≤≤≤≤=∑且,则称1110,(),,111,k k i n k k i k x x r x x m m F x x x x k r n n x x ** ** +≤≤≤* ??==≤<≤≤-???≥? ∑∑若若其中若为 第六章 统计量及其抽样分布 练习题 一、填空题(共10题,每题2分,共计20分) 1.简单随机抽样样本均值X 的方差取决于_________和_________,要使X 的标准差降低到原来的50%,则样本容量需要扩大到原来的_________倍。 2. 设1217,,,X X X 是总体(,4)N μ的样本,2S 是样本方差,若2()0.01P S a >=,则a =____________。 3.若(5)X t ,则2X 服从_______分布。 4.已知0.95(10,5) 4.74F =,则0.05(5,10)F 等于___________。 5.中心极限定理是说:如果总体存在有限的方差,那么,随着_________的增加,不论这个总体变量的分布如何,抽样平均数的分布趋近于_____________。 6. 总体分布已知时,样本均值的分布为_________抽样分布;总体分布未知,大样本情况下,样本均值的分布为_________抽样分布。 7. 简单随机样本的性质满足_________和_________。 8.若(2,4)X N ,查分布表,计算概率(X 3)P ≥=_________。若(X )0.9115P a ≤=,计算a =_________。 9. 若12~(0,2),~(0,2),X N X N 1X 与2X 独立,则2212X X +()/2服从______分布。 10. 若~(16,4)X N ,则5X 服从___________分布。 二、选择题(共10题,每题1分,共计10分) 1.中心极限定理可保证在大量观察下 ( ) A . 样本平均数趋近于总体平均数的趋势 B . 样本方差趋近于总体方差的趋势 C . 样本平均数分布趋近于正态分布的趋势 D. 样本比例趋近于总体比例的趋势 2.设随机变量()(1)X t n n >,则21/Y X =服从 ( ) 。 A. 正态分布 B.卡方分布 C. t 分布 D. F 分布 3.某品牌袋装糖果重量的标准是(500±5)克。为了检验该产品的重量是否符合标准,现从某日生产的这种糖果中随机抽查10袋,测得平均每袋重量为498克。下列说法中错误的是( ) A. 样本容量为10 B .抽样误差为2 C. 样本平均每袋重量是统计量 D. 498是估计值 4.设总体均值为100,总体方差为25,在大样本情况下,无论总体的分布形式如何,样本平均数的分布都是服从或近似服从( ) A. (100/,25)N n B. N C. (100,25/)N n D. (100,N 5、设2(0,1),(5),X N Y χ且X 与Y 独立,则随机变量_________服从自由度为5的t 分布。 ( ) A. /X Y B. 5/Y X C. /X / 第六章样本及抽样分布 【基本要求】1、理解总体、个体和样本的概念; 2、理解样本均值、样本方差和样本矩的概念并会计算; 3、理解统计量的概念,掌握几种常用统计量的分布及其结论; 4、理解分位数的概念,会计算几种重要分布的分位数。 【本章重点】样本均值、样本方差和样本矩的计算;抽样分布——2 分布,t分布, F分布;分位数的理解和计算。 【本章难点】对样本、统计量及分位数概念的理解;样本矩的计算。 【学时分配】4学时 【授课内容】 §6.0 前言 前面五章我们研究了概率论的基本内容,从中得知:概率论是研究随机现象统计规律性的一门数学分支。它是从一个数学模型出发(比如随机变量的分布)去研究它的性质和统计规律性;而我们下面将要研究的数理统计,也是研究大量随机现象的统计规律性,并且是应用十分广泛的一门数学分支。所不同的是数理统计是以概率论为理论基础,利用观测随机现象所得到的数据来选择、构造数学模型(即研究随机现象)。其研究方法是归纳法(部分到整体)。对研究对象的客观规律性做出种种合理性的估计、判断和预测,为决策者和决策行动提供理论依据和建议。数理统计的内容很丰富,这里我们主要介绍数理统计的基本概念,重点研究参数估计和假设检验。 §6.1 随机样本 1 一、总体与样本 1.总体、个体 在数理统计学中,我们把所研究的全部元素组成的集合称为总体;而把组成总体的每个元素称为个体。 例如:在研究某批灯泡的平均寿命时,该批灯泡的全体就组成了总体,而其中每个灯泡就是个体;在研究我校男大学生的身高和体重的分布情况时,该校的全体男大学生组成了总体,而每个男大学生就是个体。 但对于具体问题,由于我们关心的不是每个个体的种种具体特性,而仅仅是它的某一项或几项数量指标X(可以是向量)和该数量指标X在总体的分布情况。在上述例子中X是表示灯泡的寿命或男大学生的身高和体重。在试验中,抽取了若干个个体就观察到了X的这样或那样的数值,因而这个数量指标X是一个随机变量(或向量),而X的分布就完全描写了总体中我们所关心的那个数量指标的分布状况。由于我们关心的正是这个数量指标,因此我们以后就把总体和数量指标X可能取值的全体组成的集合等同起来。 定义1:把研究对象的全体(通常为数量指标X可能取值的全体组成的集合)称为总体;总体中的每个元素称为个体。 我们对总体的研究,就是对相应的随机变量X的分布的研究,所谓总体的分布也就是数量指标X的分布,因此,X的分布函数和数字特征分别称为总体的分布函数和数字特征。今后将不区分总体与相应的随机变量,笼统称为总体X。根据总体中所包括个体的总数,将总体分为:有限总体和无限总体。 例1:考察一块试验田中小麦穗的重量: X=所有小麦穗重量的全体(无限总体);个体——每个麦穗重x 2 第 4 章抽样分布自测题选择题 1.抽样分布是指() A. 一个样本各观测值的分布C. 样本统计量的分布 B. 总体中各观测值的分布D. 样本数量的分布 2.根据中心极限定理可知,当样本容量充分大时,样本均值的抽样分布服从正态分布,其分布的均值为() 2 A. B. x C.2 D. n 3.根据中心极限定理可知,当样本容量充分大时,样本均值的抽样分布服从正态分布,其分布的方差为() 2 A. B.x C.2 D. n 4.从均值为,方差为2 n 的样本,则()的任意一个总体中抽取大小为 A.当 n 充分大时,样本均值x 的分布近似服从正态分布 B.只有当 n<30 时,样本均值x的分布近似服从正态分布 C.样本均值 x 的分布与n无关 D. 无论 n 多大,样本均值x 的分布都是非正态分布 5.假设总体服从均匀分布,从该总体中抽取容量为 36 的样本,则样本均值的抽样分布() A. 服从非正态分布 B. 近似正态分布 C. 服从均匀分布 D. 服从 2 分布 6. 从服从正态分布的无限总体中分别抽取容量为4,16,36的样本,则当样本容量增大时,样 本均值的标准差() A. 保持不变 B. 增加 C.减小 D.无法确定 7. 某大学的一家快餐店记录了过去 5 年每天的营业额,每天营业额的均值为2500 元,标准差为 400 元。由于在某些节日的营业额偏高,所以每日营业额的分布是右偏的,假设从这5年中随机抽取100 天,并计算这100 天的平均营业额,则样本均值的抽样分布是() A. 正态分布,均值为250 元,标准差为40 元 B. 正态分布,均值为2500 元,标准差为40 元 C.右偏,均值为2500 元,标准差为400 元 D. 正态分布,均值为2500 元,标准差为400 元 8. 在一个饭店门口等待出租车的时间是左偏的,均值为12 分钟,标准差为 3 分钟。如果从饭店门口随机抽取 81 名顾客并记录他们等待出租车的时间,则样本均值的抽样分布是() A. 正态分布,均值为12 分钟,标准差为0.33 分钟 B. 正态分布,均值为12 分钟,标准差为 3 分钟 C. 左偏分布,均值为12 分钟,标准差为 3 分钟 习题六样本及抽样分布 一、填空题 1.设来自总体的一个样本观察值为:2.1,5.4,3.2,9.8,3.5,则样本均值 = 4.8 ,样本方差 =; 2.在总体中随机地抽取一个容量为 36 的样本,则均值落在4与6之间的概率 = 0.9332 ; 3.设某厂生产的灯泡的使用寿命 (单位:小时,抽取一容量为9的样本,得到 ,则; 4.设为总体的一个样本,则 0.025 ; 5.设为总体的一个样本,且服从分布,这里, ,则1/3 ; 6.设随机变量相互独立,均服从分布且与分别是来自总体的简单随机样本,则统计量服从参数为 9 的 t 分布。 7.设是取自正态总体的简单随机样本且 ,则 0.05 , 0.01 时,统计量服从分布,其自由度为 2 ; 8.设总体 X 服从正态分布,而是来自总体的简单随机样 本,则随机变量 服从 F 分布,参数为 10,5 ; 9.设随机变量则 F(n,1 ; 10.设随机变量且,A为常数,则 0.7 二、选择题 1.设是来自总体的简单随机样本,是样本均值, 记 则服从自由度的分布的随机变量是( A ); A. B. C. D. 2.设是经验分布函数,基于来自总体的样本,而是总体的分布函数,则下列命题错误的为,对于每个给定的( B ) A.是分布函数 B.依概率收敛于 C.是一个统计量 D.其数学期望是 3.设总体服从0-1分布,是来自总体的样本,是样本均值,则下列各选项中的量不是统计量的是( B ) A. B. C. D. 4.设是正态总体的一个样本,其中已知而未知,则下列各选项中的量不是统计量的是( C )。 A. B. C. D. 5.设和分别来自两个正态总体和的样本,且相互独立,分别为两个样本的样本方差,则服从的统计量是( B ) A. B. C. D. 6.设是正态总体的一个样本,和分别为样本均值和样本方差,则下面结论不成立的有( D ) A.相互独立; B.与相互独立; C.与相互独立D.与相互独立。 第6章 样本与抽样分布 第6章的教学要求: 1.理解总体、个体、简单随机样本及其分布的概念. 2.了解直方图和条形图、经验分布函数.会求经验分布函数. 3.了解样本均值、样本方差与样本标准差、样本原点矩、众数和中位数等数字特征,并会根据数据计算这些数字特征的方法. 4.了解2χ分布、t 分布、F 分布.会查表计算上α分位数. 5.理解统计量的概念,掌握来自正态总体的抽样分布. 在概率论中,一切的分析和运算都是基于分布已知这个假设进行的.但在实际问题中,情况往往并非如此,常常是我们对所要研究的随机变量知道不多或知之甚少.这时需要经试验或观测,获得反映随机变量信息的数据,并以概率论为理论基础,对数据进行整理、分析,从而对研究对象的性质和统计规律做出合理、科学的估计和推断.这就是数理统计基本的和主要的任务. 数理统计研究统计的一般原理与方法. 本章主要介绍数理统计中的基本概念、基本分布和正态抽样分布及性质. §6.1 总体与样本 6.1.1 总体和个体 在数理统计中,概括性地说,把研究对象的全体称为总体,把总体中的每个元素称为个体. 例如,研究……学生,……总体,……个体. 但在实际中,我们说研究……学生,一般是带有“目的性”的.如:我们想研究学生的……,根据这种“目的性”,我们研究对象的全体就具体为“……”、个体则为“……”. 因此,也说——总体是研究对象的某数量指标. 记数量指标为X ,则X 是随机变量. 例如,若X 是表示学生的……数量指标,则每个个体的指标值即为X 的取值.注意到,在进行研究时,个体的指标值事先是不知道的,我们一般是通过“随机抽样”的方式来获得个体的指标值及有关情况——即总体X 的取值及其分布的.因此,数量指标X 是一个随机变量. 总体中所包含的个体的数量称为总体容量.根据总体容量的有限或无限,分为有限总体和无限总体. 6.1.2 样本和简单随机样本 通常人们以随机抽样的方式了解总体分布. 把从总体中抽取出的一部分个体称为总体的一个样本,样本中的个体称为样品,样本中所包含的个体的数目称为样本容量. 由于是通过样本来了解总体,所以样本应该具有代表性. 如何获得具有代表性的样本? 获得具有代表性的样本最常采用的方法是:在相同条件下对总体X 进行n 次重复且独立的随机观测,把n 次观测的结果按试验的次序记为12,,,n X X X .采用这种有放回抽取得到的样本12,,,n X X X 是相互独立的随机变量,且均与总体X 有相同的分布,因此它具有代表性,这个样本称为简单随机样本.样本的一次观测值记为12,,,n x x x ,称为样本的一个样本值,这里n 即是样本容量. 如果没有特别说明,在今后的讨论中所提到的样本都指简单随机样本,并简称为样本. 怎样才能获得简单随机样本呢? 对有限总体来说,采用有放回抽取方式就可以得到简单随机样本.但是有放回抽取在实际中有时使用起来不太方便.采用不放回抽取方式取得的样本则不是简单随机样本,但是当总体容量比样本容量大很多时,可以把它当作简单随机样本.对无限总体来说,抽走少量样本后不影响总体的构成或影响很小,因此常采用不放回抽取. 6.1.3 样本的联合分布 第六章样本及抽样分布 【基本要求】 1、理解总体、个体和样本的概念; 2、理解样本均值、样本方差和样本矩的概念并会计算; 3、理解统计量的概念,掌握几种常用统计量的分布及其结论; 4、理解分位数的概念,会计算几种重要分布的分位数。 【本章重点】样本均值、样本方差和样本矩的计算;抽样分布—— 2 分布,t分布, F分布;分位数的理解和计算。 【本章难点】对样本、统计量及分位数概念的理解;样本矩的计算。 【学时分配】 4 学时 【授课内容】 §6.0前言 前面五章我们研究了概率论的基本内容,从中得知:概率论是研究随机现象统计规律性的一 门数学分支。它是从一个数学模型出发(比如随机变量的分布)去研究它的性质和统计规律性; 而我们下面将要研究的数理统计,也是研究大量随机现象的统计规律性,并且是应用十分广泛的 一门数学分支。所不同的是数理统计是以概率论为理论基础,利用观测随机现象所得到的数据来 选择、构造数学模型(即研究随机现象)。其研究方法是归纳法(部分到整体)。对研究对象的客观规律性做出种种合理性的估计、判断和预测,为决策者和决策行动提供理论依据和建议。数理 统计的内容很丰富,这里我们主要介绍数理统计的基本概念,重点研究参数估计和假设检验。 § 6.1随机样本 1 一、总体与样本 1.总体、个体 在数理统计学中,我们把所研究的全部元素组成的集合称为总体;而把组成总体的每个元素称为个体。 例如:在研究某批灯泡的平均寿命时,该批灯泡的全体就组成了总体,而其中每个灯泡就是 个体;在研究我校男大学生的身高和体重的分布情况时,该校的全体男大学生组成了总体,而每 个男大学生就是个体。 但对于具体问题,由于我们关心的不是每个个体的种种具体特性,而仅仅是它的某一项或几 项数量指标 X ( 可以是向量 ) 和该数量指标X在总体的分布情况。在上述例子中 X 是表示灯泡的寿命或男大学生的身高和体重。在试验中,抽取了若干个个体就观察到了X 的这样或那样的数值,因而这个数量指标X 是一个随机变量(或向量),而 X 的分布就完全描写了总体中我们所关心的那个数量指标的分布状况。由于我们关心的正是这个数量指标,因此我们以后就把总体和数量指标 X 可能取值的全体组成的集合等同起来。 定义 1:把研究对象的全体(通常为数量指标X 可能取值的全体组成的集合)称为总体;总体中的每个元素称为个体。 我们对总体的研究,就是对相应的随机变量X 的分布的研究,所谓总体的分布也就是数量指 标 X 的分布,因此, X 的分布函数和数字特征分别称为总体的分布函数和数字特征。今后将不区分总体与相应的随机变量,笼统称为总体 X 。根据总体中所包括个体的总数,将总体分为:有限总体 和无限总体。 例 1:考察一块试验田中小麦穗的重量: X =所有小麦穗重量的全体(无限总体);个体——每个麦穗重x 2 统计学习题答案第4章抽样与抽样分布 第4章抽样与抽样分布——练习题(全免) 1. 一个具有64 n个观察值的随机样本抽自于均 = 值等于20、标准差等于16的总体。 ⑴给出x的抽样分布(重复抽样)的均值和标 准差 ⑵描述x的抽样分布的形状。你的回答依赖于 样本容量吗? ⑶计算标准正态z统计量对应于5.15 = x的值。 ⑷计算标准正态z统计量对应于23 x的值。 = 解: 已知n=64,为大样本,μ=20,σ=16, ⑴在重复抽样情况下,x的抽样分布的均值为 a. 20, 2 b. 近似正态 c. -2.25 d. 1.50 2 . 参考练习4.1求概率。 ⑴x<16;⑵x>23;⑶x>25;⑷.x落在16和22之间;⑸x<14。 解: a. 0.0228 b. 0.0668 c. 0.0062 d. 0.8185 e. 0.0013 3. 一个具有100 n个观察值的随机样本选自于 = μ、16=σ的总体。试求下列概率的近似值:30 = 解: a. 0.8944 b. 0.0228 c. 0.1292 d. 0.9699 4. 一个具有900=n 个观察值的随机样本选自于100=μ和10=σ的总体。 ⑴ 你预计x 的最大值和最小值是什么? ⑵ 你认为x 至多偏离μ多么远? ⑶ 为了回答b 你必须要知道μ吗?请解释。 解:a. 101, 99 b. 1 c. 不必 5. 考虑一个包含x 的值等于0,1,2,…,97,98,99的总体。假设x 的取值的可能性是相同的。则运用计算机对下面的每一个n 值产生500个随机样本,并对于每一个样本计算x 。对于每一个样本容量,构造x 的500个值的相对频率直方图。当n 值增加时在直方图上会发生什么变化?存在什么相似性?这里30,10,5,2====n n n n 和50=n 。 解:趋向正态 6. 美国汽车联合会(AAA )是一个拥有90个俱 乐部的非营利联盟,它对其成员提供旅行、 第六章抽样调查 一、填空题 1.抽选样本单位时要遵守原则,使样本单位被抽中的机会。 2.常用的总体指标有、、。 3.在抽样估计中,样本指标又称为量,总体指标又称为。 4.全及总体标志变异程度越大,抽样误差就;全及总体标志变异程度越小, 抽样误差。 5.抽样估计的方法有和两种。 6.整群抽样是对被抽中群内的进行的抽样组织方式。 7.误差分为和代表性误差;代表性误差分为________和偏差;偏差是 ____________________________,也称为________________。 8.简单随机抽样的成数抽样平均误差计算公式是:重复抽样条件下:; 不重复抽样条件下:。 9.误差范围△,概率度t和抽样平均误差 之间的关系表达式为。 10.抽样调查的组织形式有:。 二、单项选择题 1.所谓大样本是指样本单位数在( )及以上 A 30个 B 50个 C 80个D100个 2.抽样指标与总体指标之间抽样误差的可能范围是( ) A 抽样平均误差 B 抽样极限误差 C 区间估计范围 D 置信区间 3.抽样平均误差说明抽样指标与总体指标之间的( ) A 实际误差 B 平均误差 C 实际误差的平方 D 允许误差 4.是非标志方差的计算公式( ) A P(1-P) B P(1-P)2 C )1(P P D P 2(1-P) 5.总体平均数和样本平均数之间的关系是( ) A 总体平均数是确定值,样本平均数是随机变量 B 总体平均数是随机变量,样本平均数是确定值 C 两者都是随机变量 D 两者都是确定值 6.对入库的一批产品抽检10件,其中有9件合格,可以( )概率保证合格率不低于80%。 A 95.45% B 99.7396 C 68.27% D 90% 7.在简单随机重复抽样情况下,若要求允许误差为原来的2/3,则样本容量( ) A 扩大为原来的3倍 B 扩大为原来的2/3倍 C 扩大为原来的4/9倍 D 扩大为原来的2.25倍 8.根据抽样调查得知:甲企业一等品产品比重为30%,乙企业一等品比重为50% 一等品产品比重的抽样平均误差为 ( ) A 甲企业大 B 两企业相同 C 乙企业大 D 无法判断 9.是非标志的平均数是( ) A -P)1P( B P(1-P) C p D (1-P)2 10.重复抽样的误差一定( )不重复抽样的误差。 第六章样本及抽样分布 §1总体与样本 从理论上讲,对随机变量进行大量的观测,被研究的随机变量的概率特征一定能显现出来,可是实际进行的观测次数只能是有限的,有时甚至是少量的。因此,我们关心的问题就是怎样有效地利用收集到的有限的资料,尽可能地对被研究的随机变量的概率特征作出精确而可靠的结论. 我们把被研究的对象的全体称为总体(或母体),而把组成总体的各个元素称为个体。代表总体的指标是一个随机变量,所以总体就是指某个随机变量可能取的值的全体。 从总体中抽取一个个体,就是对代表总体的随机变量进行一次试验(或观测),得到的一个试验数据(或观测值)。从总体中抽取一部分个体,就是对随机变量进行若干次试验(观测)。 从总体中抽取若干个个体的过程称为抽样。抽样结果得到的一组试验数据(观测值),称为样本(或子样);样本中所含个体的数量称为样本容量。 从总体中抽取样本,一般总是假设满足下述两个条件: (1)随机性为了使样本具有充分的代表性,抽样必须是随机的,应使总体中的每一个个体都有同等的机会被抽取到,通常可以用编号抽签的方法或利用随机数表来实现。 (2)独立性各次抽样必须是相互独立的,即每次抽样的结果既不影响其它各次抽样的结果,也不受其它各次抽样结果的影响。 这种随机的、独立的抽样方法称为简单随机抽样,由此得到的样本称为简单随机样本。 例如,从总体中进行放回抽样,显然是简单随机抽样,得到的样本就是简单随机样本。 从有限总体(即其中只含有有限多个个体的总体)中,进行不放回抽样,虽然不是简单随机抽 样,但是若总体容量很大而样本容量较小(,则可以近似地看作是放回抽样,因而也就可以近似地看作是简单随机抽样,得到的样本可以近似地看作是简单随机样本。 今后,凡是提到抽样与样本,都是指简单随机抽样与简单随机样本。 从总体中抽取容量为n的样本,就是对代表总体的随机变量随机地、独立地进行n次试验(观测),每次试验的结果可以看作是一个随机变量,n次试验的结果就是n个随机变量 。 这些随机变量相互独立,并且与总体服从相同的分布。设得到的样本观测值分别是 , 样本及抽样分布 一、填空题 1 ?设来自总体X的一个样本观察值为:2.1, 5.4, 3.2, 9.8, 3.5,则样本均值= 4.8 ,样本方差=2.7161 2; 2. 在总体X ~ N (5,16)中随机地抽取一个容量为36的样本,则均值X落在4 与6之间的概率=0.9332 ; 3. 设某厂生产的灯泡的使用寿命X~N(1000,二2)仲位:小时),抽取一容量为 9 的样本,得到殳=940,s =100 ,则P(X ::: 940) = ___________ ; 7 4. 设X1,X2,?., X7 为总体X ~ N(0,0.52)的一个样本,则Pr X i24^ 0.025 : i=1 5. 设X1,X2,...,X6为总体X ~ N(0,1)的一个样本,且CY服从2分布,这里, Y =(X1 X2 X3)2(X4 X5 X6)2,则C=血_ ; 6?设随机变量X,Y相互独立,均服从N(0,32)分布且X1,X2,...,X9与Y,Y2,...,Y分 别是来自总体X ,Y的简单随机样本,则统计量U= X1... X9服从参数为—9 H2+...+Y2 的_L_分布。 7. 设X11X21X31X4是取自X ~ N(0,22)正态总体的简单随机样本且 ^a(X^2X2)2b(3X^4X4)2,,则a = 0.05 , 0.01 时,统计量Y 服从 2分布,其自由度为一2_; 1 9. 设随机变量X ~t(n)(n 1),Y 2,则Y~ —; X 1 10. 设随机变量X~F(n,n)且P(X∣>A) = 0.3 , A 为常数,则P(XA—)= 0.7 A 8. 设总体X服从正态分布X ~ N(0,22),而X1,X2,...,X15是来自总体的简单随机 X 2十+X2 样本,则随机变量Y X1 2... 利服从F 分布,参数为10,5 ; 2(X11 +...+X15) 第六章样本与抽样分布 §6.1 数理统计的基本概念 一.数理统计研究的对象 例:有一批灯泡,要从使用寿命这个数量指标来看其质量,设寿命用X表示。 (1)若规定寿命低于1000小时的产品为次品。此问题是求P(X 1000)=F(10000),求F(x)? (2)从平均寿命、使用时数长短差异来看其质量,即求E(x)?、D(x)?。 要解决二个问题 1.试验设计抽样方法。 2.数据处理或统计推断。 方法具有“从局部推断总体”的特点。 二.总体(母体)和个体 1.所研究对象的全体称为总体,把组成总体的每一个对象成员(基本单元)称为个体。 说明: (1)对总体我们关心的是研究对象的某一项或某几项数量指标(或属性指标)以及他们在整体中的分布。所以总体是个体的数量指标的全体。 (2)为研究方便将总体与一个R.V X 对应(等同)。 a.总体中不同的数量指标的全体, 即是R.V.X的全部取值。 b.R.V X的分布即是总体的分布 情况。 例:一批产品是100个灯泡,经测试其寿命是: 1000小时1100小时 1200小时 20个30个50个 X 1000 1100 1200 P 20/100 30/100 50/100 (设X表示灯泡的寿命)可知R.V.X的分布律, 就是总体寿命的分布,反之亦然。 常称总体X,若R.VX~F(x),有时也用F(x)表示一个总体。 (3)我们对每一个研究对象可能要观测两个或多个数量指标,则可用多维随机向量(X,Y,Z, …)去描述总体。 2.总体的分类 有限总体 无限总体 三.简单随机样本. 1.定义6.1 :从总体中抽得的一部分个体组成的集合称为子样(样本),取得的个体叫样品,样本中样品的个数称为样本容量(也叫样本量)。每个样品的测试值叫观察值。 取得子样的过程叫抽样。 样本的双重含义: (1)随机性: 用(X 1,X 2, ……X n) n维随机向量表 示。 X i表示第i个被抽到的个体,是随机变量。(i=1,2,…n) 第5章 样本及抽样分布 1,设总体X 服从均值为1/2的指数分布,4321,,,X X X X 是来自总体的容量为4的样本,求 (1)4321,,,X X X X 的联合概率密度;(2)}2.17.0,15.0{21<<< 第六章抽样分布 (一)判断题 1、样本统计量是对样本的一种数量描述。() 2、样本统计量是对样本的一种数量描述。() 3、样本均值的期望值等于总体均值。() 4、样本均值与总体均值之间的差被称为抽样误差。() 5、样本方差的抽样分布服从T 分布。() (二)单项选择题 1、某工厂生产的零件出厂时每200个装一盒,这种零件分为合格与不合格两类,合格率约为99%,设每盒中的不合格数为X,则X通常服从()。 A.正态分布 B.二项分布 C.泊松分布 D.超几何分布 2、总体的均值为100,标准差为20,从总体中抽取一个容量为50的样本,则样本均值的标准差为()。 A.2.83 B.20 C.30 D.5 3、中心极限定理表明,来自于任意分布的样本均值的分布为()。 A.正态分布 B.正态分布 C.只有大样本情况下为正态分布 D.只有小样本情况下为正态分布 4、某班同学某课程考试中的平均得分为70,标准差为3分,从该班学生中随机抽取36名,并计算他们的平均成绩,则平均分超过71分的概率为()。 A.0.1293 B.0.4755 C.0.0228 D.0.3507 5、总体均值为10,标准差为5。从该总体中抽取容量为25的随机样本,则样本均值的抽样分布为()。 A.N(10, 1) B.N(10, 5) C.N(5, 1) D.N(5, 5) 6、某班学生的年龄分布为右偏的,均值为20,标准差为3,如果采取重复抽样的方法从该班抽取容量为100的样本,则样本均值的抽样分布为()。 A.正态分布,均值为20,标准差为0.3 B.分布形状未知,均值为20,标准差为0.3 C.正态分布,均值为20,标准差为3 第6章 统计量及其抽样分布一、思考题 1.什么是统计量?为什么要引进统计量?统计量中为什么不含任何未知参数? 答:(1)设12n X X X ,, …,是从总体X 中抽取的容量为n 的一个样本,如果由此 样本构造一个函数12()n T X X X ,,…,,不依赖于任何未知参数,则称函数12()n T X X X ,,…,是一个统计量。 (2)在实际应用中,当从某总体中抽取一个样本后,并不能直接应用它去对总体的有关性质和特征进行推断,这是因为样本虽然是从总体中获取的代表,含有总体性质的信息,但仍较分散。为了使统计推断成为可能,首先必须把分散在样本中关心的信息集中起来,针对不同的研究目的,构造不同的样本函数。 (3)统计量是样本的一个函数。由样本构造具体的统计量,实际上是对样本所含的总体信息按某种要求进行加工处理,把分散在样本中的信息集中到统计量的取值上,不同的统计推断问题要求构造不同的统计量,所以统计量不包含未知参数。 2.判断下列样本函数哪些是统计量?哪些不是统计量? 1121021210310410()/10 min() T X X X T X X X T X T X μ μσ =+++==-=-…,,…,()/答:统计量中不能含有未知参数,故1T 、2T 是统计量,3T 、4T 不是统计量。 3.什么是次序统计量? 答:设12n X X X ,, …,是从总体X 中抽取的一个样本,()i X 称为第i 个次序统计量,它是样本 12()n X X X ,,…,满足如下条件的函数:每当样本得到一组观测值12X X ,,…,n X 时,其由小到大的排序 (1)(2)()()i n X X X X ≤≤≤≤≤……中,第i 个值()i X 就作为次序统计量()i X 的观测值,而(1)(2)()n X X X ,,…,称为次序统计量,其中(1)X 和()n X 分别为最小和最大次序统计量。 4.什么是充分统计量? 答:在统计学中,假如一个统计量能把含在样本中有关总体的信息一点都不损失地提取出来,那对保证后边的统计推断质量具有重要意义。统计量加工过程中一点信息都不损失的统计量通常称为充分统计量。 5.什么是自由度? 答:统计学上的自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的变量的个数。 6.简述2 χ分布、t 分布、F 分布及正态分布之间的关系。答:(1)随机变量X 1,X 2,… X n 相互独立,且都服从标准正态分布,则它们的平方和21 n i i X =∑服从自由度为n 的2 χ分布。(2)随机变量X 服从标准正态分布,Y 服从自由度为n 的2 χ分布,且X 与Y 独立, 第六章样本及抽样分布 【授课对象】理工类本科二年级 【授课时数】4学时 【授课方法】课堂讲授与提问相结合 【基本要求】1、理解总体、个体和样本的概念; 2、了解经验分布函数和直方图的作法,知道格林汶科定理; 3、理解样本均值、样本方差和样本矩的概念并会计算; 4、理解统计量的概念,掌握几种常用统计量的分布及其结论; 5、理解分位数的概念,会计算几种重要分布的分位数。 【本章重点】样本均值、样本方差和样本矩的计算;抽样分布——2 分布,t分布,F分布;分位数的理解和计算。 【本章难点】对样本、统计量及分位数概念的理解;样本矩的计算。 【授课内容及学时分配】 §6.0 前言 前面五章我们研究了概率论的基本内容,从中得知:概率论是研究随机现象统计规律性的一门数学分支。它是从一个数学模型出发(比如随机变量的分布)去研究它的性质和统计规律性;而我们下面将要研究的数理统计,也是研究大量随机现象的统计规律性,并且是应用十分广泛的一门数学分支。所不同的是数理统计是以概率论为理论基础,利用观测随机现象所得到的数据来选择、构造数学模型(即研究随机现象)。其研究方法是归纳法(部分到整体)。对研究对象的客观规律性做出种种合理性的估计、判断和预测,为决策者和决策行动提供理论依据和建议。数理统计的内容很丰富,这里我们主要介绍数理统计的基本概念,重点研究参数估计和假设检验。 §6.1 随机样本 一、总体与样本 1.总体、个体 在数理统计学中,我们把所研究的全部元素组成的集合称为总体;而把组成总体的每个 元素称为个体。 例如:在研究某批灯泡的平均寿命时,该批灯泡的全体就组成了总体,而其中每个灯泡就是个体;在研究我校男大学生的身高和体重的分布情况时,该校的全体男大学生组成了总体,而每个男大学生就是个体。 但对于具体问题,由于我们关心的不是每个个体的种种具体特性,而仅仅是它的某一项或几项数量指标X (可以是向量)和该数量指标X 在总体的分布情况。在上述例子中X 是表示灯泡的寿命或男大学生的身高和体重。在试验中,抽取了若干个个体就观察到了X 的这样或那样的数值,因而这个数量指标X 是一个随机变量(或向量),而X 的分布就完全描写了总体中我们所关心的那个数量指标的分布状况。由于我们关心的正是这个数量指标,因此我们以后就把总体和数量指标X 可能取值的全体组成的集合等同起来。 定义1:把研究对象的全体(通常为数量指标X 可能取值的全体组成的集合)称为总体;总体中的每个元素称为个体。 我们对总体的研究,就是对相应的随机变量X 的分布的研究,所谓总体的分布也就是数量指标X 的分布,因此,X 的分布函数和数字特征分别称为总体的分布函数和数字特征。今后将不区分总体与相应的随机变量,笼统称为总体X 。根据总体中所包括个体的总数,将总体分为:有限总体和无限总体。 例1:考察一块试验田中小麦穗的重量: X =所有小麦穗重量的全体(无限总体);个体——每个麦穗重x 对应的分布: +∞<<σμσ π= ≤= ≤ξ=?∞ -σμ-- x N dt e x 重量x P x F x t 0) ,(~21 }{)(22)(2 2总麦穗数 的麦穗数 例2:考察一位射手的射击情况: X =此射手反复地无限次射下去所有射击结果全体; 每次射击结果都是一个个体(对应于靶上的一点) 个体数量化???=未中射中 01x 1在总体中的比例p 为命中率 0在总体中的比例p -1为非命中率 总体X 由无数个0,1构成,其分布为两点分布),1(p B p X P p X P -====1}0{,}1{ 2.样本与样本空间 为了对总体的分布进行各种研究,就必需对总体进行抽样观察。 习题六 样本及抽样分布 一、填空题 1.设来自总体X 的一个样本观察值为:2.1,5.4,3.2,9.8,3.5,则样本均值 = 4.8 ,样本方差 =22.716; 2.在总体~(5,16)X N 中随机地抽取一个容量为 36 的样本,则均值X 落在4与6之间的概率 = 0.9332 ; 3. 设某厂生产的灯泡的使用寿命2~(1000,)X N σ (单位:小时),抽取一容量为9的样本,得到940,100x s ==,则(940)P X <= ; 4.设127,,...,X X X 为总体2 ~(0,0.5)X N 的一个样本,则7 21 (4)i i P X =>=∑ 0.025 ; 5.设126,,...,X X X 为总体~(0,1)X N 的一个样本,且cY 服从2χ分布,这里, 22123456()()Y X X X X X X =+++++,则c =1/3 ; 6.设随机变量,X Y 相互独立,均服从2(0,3)N 分布且129,,...,X X X 与129,,...,Y Y Y 分 别是来自总体,X Y 的简单随机样本,则统计量U =服从参数为 9 的 t 分布。 7.设1234,,,X X X X 是取自2~(0,2)X N 正态总体的简单随机样本且 22!234(2)(34),Y a X X b X X =-+-,则a = 0.05 ,b = 0.01 时,统计量Y 服从 2χ分布,其自由度为 2 ; 8.设总体 X 服从正态分布2~(0,2)X N ,而1215,,...,X X X 是来自总体的简单随机 样本,则随机变量 22 110 22 1115...2(...) X X Y X X ++=++ 服从 F 分布,参数为 10,5 ; 9.设随机变量21 ~()(1),,X t n n Y X >=则~Y F(n,1) ; 10.设随机变量~(,)X F n n 且()0.3P X A >=,A 为常数,则1 ()P X A > = 0.7 二、选择题 1.设12,,...,n X X X 是来自总体2(,)N μσ的简单随机样本,X 是样本均值, 记22222 21 23111 111(),(),(),11n n n i i i i i i S X X S X X S X n n n μ====-=-=---∑∑∑ 2 241 1(),n i i S X n μ==-∑则服从自由度1n -的t 分布的随机变量是T =( A ); A . B C D 2.设()n F x 是经验分布函数,基于来自总体X 的样本,而()F x 是X 总体的 分布函数,则下列命题错误的为,对于每个给定的,()n x F x ( B ) A .是分布函数 B .依概率收敛于()F x C .是一个统计量 D .其数学期望是()F x 样本及抽样分布 第六章样本及抽样分布 【基本要求】1、理解总体、个体和样本的概念; 2、理解样本均值、样本方差和样本矩的概念并会计算; 3、理解统计量的概念,掌握几种常用统计量的分布及其结论; 4、理解分位数的概念,会计算几种重要分布的分位数。 【本章重点】样本均值、样本方差和样本矩的计算;抽样分布——2 分布,t分布, F分布;分位数的理解和计算。 【本章难点】对样本、统计量及分位数概念的理解;样本矩的计算。 【学时分配】4学时 【授课内容】 §6.0 前言 前面五章我们研究了概率论的基本内容,从中得知:概率论是研究随机现象统计规律性的一门数学分支。它是从一个数学模型出发(比如随机变量的分布)去研究它的性质和统计规律性;而我们下面将要研究的数理统计,也是研究大量随机现象的统计规律性,并且是应用十分广泛的一门数学分支。所不同的是数理统计是以概率论为理论基础,利用观测随机现象所得到的数据来选择、构造数学模型(即研究随机现象)。其研究方法是归纳法(部分到整体)。对研究对象的客观规律性做出种种合理性的估计、判断和预测,为决策者和决策行动提供理论依据和建议。数理统计的内容很丰富,这里我们主要介绍数理统计的基本概念,重点研究参数估计和假设检验。 §6.1 随机样本 一、总体与样本 1.总体、个体 在数理统计学中,我们把所研究的全部元素组成的集合称为总体;而把组成总体的每个元素称为个体。 例如:在研究某批灯泡的平均寿命时,该批灯泡的全体就组成了总体,而其中每个灯泡就是个体;在研究我校男大学生的身高和体重的分布情况时,该校的全体男大学生组成了总体,而每个男大学生就是个体。 但对于具体问题,由于我们关心的不是每个个体的种种具体特性,而仅仅是它的某一项或几项数量指标X(可以是向量)和该数量指标X在总体的分布情况。在上述例子中X是表示灯泡的寿命或男大学生的身高和体重。在试验中,抽取了若干个个体就观察到了X的这样或那样的数值,因而这个数量指标X是一个随机变量(或向量),而X的分布就完全描写了总体中我们所关心的那个数量指标的分布状况。由于我们关心的正是这个数量指标,因此我们以后就把总体和数量指标X可能取值的全体组成的集合等同起来。 定义1:把研究对象的全体(通常为数量指标X可能取值的全体组成的集合)称为总体;总体中的每个元素称为个体。 我们对总体的研究,就是对相应的随机变量X的分布的研究,所谓总体的分布也就是数量指标X的分布,因此,X的分布函数和数字特征分别称为总体的分布函数和数字特征。今后将不区分总体与相应的随机变量,笼统称为总体X。根据总体中所包括个体的总数,将总体分为:有限总体和无限总体。 例1:考察一块试验田中小麦穗的重量:样本及抽样分布知识讲解
统计量及其抽样分布练习题
样本及抽样分布
抽样分布习题与答案
习题六 样本及抽样分布.
第6章 样本及抽样分布121126
(完整版)样本及抽样分布.doc
统计学习题答案 第4章 抽样与抽样分布
第六章抽样调查练习及答案
第六章 样本及抽样分布.
习题六__样本及抽样分布解答
样本与抽样分布
第5章 样本及抽样分布课后习题答案(高教出版社,浙江大学)
第六章 抽样分布
贾俊平《统计学》(第5版)课后习题-第6章 统计量及其抽样分布【圣才出品】
第六章样本及抽样分布
(完整word版)习题六样本及抽样分布
样本及抽样分布讲解学习