数理统计的基本概念
- 格式:doc
- 大小:93.50 KB
- 文档页数:4
6 数理统计的基本概念
基本要求
1 理解总体、样本(品)、样本容量、简单随机样本的概念。
能在总体分布给定情况下,正确无误地写出样本的联合分布,这是本章的难点。
2*了解样本的频率分布、经验分布函数的定义,了解频率直方图的作法。
3 了解χ2分布、t分布和F分布的概念及性质,了解临界值的概念并会查表计算。
4 理解样本均值、样本方差及样本矩的概念。
了解样本矩的性质,能借助计算器快速完成样本均值、样本方差观察值的计算。
了解正态总体的某些常用抽样分布。
疑难解答
1、采用抽样的方法推断总体,对样本应当有怎样的要求?
答:为了对总体X的分布进行研究,逐个研究每个个体是不现实的。
采用抽样推断总体,其出发点是利用局部认识整体,因此抽出的样本要具有代表性。
即要求每个个体被抽取的机会均等,并且抽取一个个体后总体成分不变。
首先要求抽样具有“随机性”,第一次抽取的样品X1的可能取值应与总体的可能取值是完全一样的,且去取个个值的概率相同。
因此,X1是一个随机变量,并且是与X同分布的随机变量。
其次,应具有“独立性”,第一次抽样不改变总体成分,第二次抽取的样品X2可能的值也与X完全一样,且取值的概率也是相同的,因此X2也是与X同分布的一个随机变量且与X1是相互独立的,同样道理,X3,X4,…,X n都是与X同分布的随机变量,并且X1,X2,…,X n是一组相互独立的随机变量,故要求X1,X2,…,X n是简单随机样本。
2、什么是简单随机样本?在实践中如何获得简单随机样本?
答:设X1,X2,…,X n是来自总体X的容量为n的样本,如果它满足以下两个条件,则称它为简单随机样本:
(1)X1,X2,…,X n与总体X具有相同的分布
(2)X1,X2,…,X n相互独立
由简单随机样本的定义知,用简单随机样本研究总体,可以更好地用概率论中独立条件下的一系列结论,正是这些结论为概率统计提供了必要的理论基础。
一般说来,对总体进行独立重复观测,便可以获得简单随机样本。
具体来说,当抽取样本容量n相对于总体数N很小时(一般)
≤
n),则连续抽
N
10
1
取n个个体,就近似地看做一个简单随机样本。
这是因为抽取的个数很小时,可认为对总体不影响或影响很小。
如果采取有放回抽样,则不必要求n相对很小。
3、什么叫大样本和小样本?它们之间的区别是否是一样本容量的大小来区分的?
答:在样本容量固定的条件下,进行的统计推断、分析问题称为小样本问题,而在样本容量趋于无穷的条件下,进行的统计推断、分析问题称为大样本问题。
然而,众多统计推断与分析问题与统计量或样本的函数的分布相关联。
能否得到有关统计量或样本的函数的分布常成为解决问题的关键。
所以,大、小样本的区分常与这一分布
*该部分内容考研不作要求。
能否得到相联系。
对于固定的样本容量,如果能得到有关统计量或样本函数的精确分布,相应统计推断,分析问题通常属于小样本问题。
此时,在样本容量有限情况下,能够较精确、满意的讨论各种推断与分析问题。
但是,在一般情况下要确定一个统计量或样本函数的精确分布不是一件容易的事。
如果统计量或样本函数的精确分布求不出或其表达方式过于复杂而难于应用时,如能求出在样本容量趋于无穷时的极限分布,利用此极限分布作为其近似分布进行统计推断、分析,此类问题便属于大样本问题。
大样本与小样本决不可以以样本容量的大和小来区分。
样本容量的大小受多种因素的影响。
有时虽属小样本问题,但要求的样本容量却可能比较大;反之,对某些大样本问题,有可能要求其样本容量却不大。
4、什么是统计量?为什么要引进统计量?
答:所谓统计量是指不含任何未知参数的样本(X 1, X 2,…,X n )的函数T=T (X 1, X 2,…,X n ).
引进统计量的目的是为了将杂乱无章的样本值整理成便于对所研究问题进行统计推断、分析的形式。
将样本中所含的有关所研究问题的信息集中起来,从而更有效地揭示出问题的实质,进而得到解决问题的方法。
例如,为估计总体的期望值μ,可将样本中关于总体取平均值的信息集中起来,这一信息便集中体现在样本分量X 1, X 2,…,X n 的算术平均值
∑==
n
i i X n
X 1
1
上。
因为若总体期望值比较大时,取自总体的观测值的平均值自然也有偏大
倾向,反之。
这样就比较清楚地提出了估计μ的办法,而若直接考虑样本就显得没有头绪。
此外,样本X 1, X 2,…,X n 是一个n 维统计量,对其直接进行统计推断和分析显然没
有使用适当统计量——一个一维随机变量来的简单。
当然,选择的统计量应较好地集中样本中所含的关于所研究问题的信息,而不会丢失有用的信息。
5、为什么要求统计量中不含有任何未知参数?统计量的分布是否也不含位置参数? 答:统计量的使用目的在于对所研究的问题进行统计推断和分析。
如用统计量对位置参数进行估计时,若统计量本身仍含有位置参数,那么就无法根据所测得的样本值求得未知参数的估计值。
利用统计量估计参数将失去意义。
再如,在假设检验中,若检验统计量中含有未知参数,那么由样本值就无法求出相应的检验统计量的值,也就无法与相应的临界值进行比较,从而使得通过统计量表示的拒绝域失去意义。
总之,从统计量的意义上看,要求它不含未知参数是自然的。
统计量本身虽不含未知参数,但它的分布却可能含未知参数。
如,对正态总体N (2
,σμ),其μ和2
σ为未知参数,则统计量X ~),
(2
n
N σ
μ,可见其分布中却含有位置参数μ和2
σ。
然而,含有未知参数的样本函数其分布却不一定含有未知参数。
如在上例中含有未知参数μ和2
σ的样本函数
n
X /σμ
-却服从不含任何未知参数的标准正态分布N (0,1)。
6、数理统计中流行样本方差的两种形式:2
1
2
)(1
1
X X n S
i
n
i --=
∑=,
∑=-=n
i i
X X n
B 1
2
2)
(1
这两种形式在统计中会发生哪些不同的效应?
答:由于2
2
σ
=ES
,是总体X 的方差的无偏估计,而2
21σn
n EB -=
不是总体方差2
σ
的无偏估计,因此,一般都是以2S 作为方差2σ的估计量。
但2
2
21lim
lim σ
σ
=-=∞
→∞
→n
n EB n n ,故
当样本容量很大时,2S 和2B 两者相差很小,对于大样本来说,亦可用2B 来估计总体方差
2
σ。
因此,有时把2B 称为大样本方差,2B 也叫二阶样本中心矩而,2S 称为样本修正方差。
7、为什么只要已知总体X 的数学期望E(X)= μ,方差D(X)= 2σ存在时,样本均值X 的
渐进分布就为正态分布),
(2
n
N σ
μ呢?;
答:由独立同分布的中心极限定理,可知
,21lim 0
2
12
⎰
∑-
=→∞
=⎪⎪⎭
⎪⎪⎬⎫
⎪⎪⎩⎪⎪⎨⎧≤-x
t
n i i n dt e
x n n X P π
σμ
即 ⎰
-
∞
→=
⎭
⎬⎫
⎩⎨⎧≤-x
t
n dt e
x n X P 0
2
2
21lim π
σμ
故随机变量
n
X σμ
-的渐进分布为标准正态分布N (0,1)。
即
n
X σμ
-)1,0(~N n ∞
→→ (1)
由此可知
),
(2
~
n
N X n σ
μ∞
→→
这样,在求样本均值X 落在某区间内的概率P {}x X ≤时,就可以利用(1)式
这是很重要的结论。
8、t 分布与标准正态分布的关系如何?
答:从标准正态分布与t 分布的概率密度曲线看,他们有相似之处。
另外从理论上可以证明,当∞→n 时自由度为n 的t 分布的极限分布是标准正态分布,故当n 足够大时(一般地n>45),有ααz n t ≈)(.
9、什么是自由度?如何计算自由度?
答:所谓自由度通常是指不受任何约束,可以自由变动的变量的个数.在数理统计中,自由度是对随机变量的二次型(可称为二次统计量)而言。
有线性代数知识可知,一个含有n 个变量的二次型
∑∑==n
i n
j j i ij
X X a
1
1
),2,1,,(n j i a a ji ij ==
的秩是指对称阵n ij a A )(=的秩。
秩的大小反映了n 个变量中可自由变动、无约束的变量个数的多少。
这里的自由度便是指二次型的秩。
因此要判断一个二次统计量的自由度是多少,便可由判断矩阵A 的秩为多少而得到。
10、
11、 12、。