- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3、简单随机样本
• 简单随机样本 即独立且同分布的样本,这种样本既有代 表性又有相互独立性,便于理论分析,本 书讨论的样本,除少数另有说明外,都是 这一类样本。
• 样本的两重性
对于给定的抽样方案,作为将要被抽到的 那些个体的指标,样本是一组随机变量, 同大写字母X1,…,Xn记之;一旦给定的抽 样方案实施后,样本就是一组数据,用小 写英文字母 x1,L , xn 记之。
N 1 n
由(2)知,样本均值的标准差比总体标准差缩小 n 倍,因此增大样本量可
以降低抽样误差。
• 三个重要分布
(1)卡方分布 (2)T分布 (3)F分布
(1)卡方分布
定义
设随机变量 X1, X 2, , X n 独立同分布
n
且 Xi ~ N (0,1) ,则称U
X
2 i
的分布为
• 统计总体的特点是,标志总体的分布总是 未知的,或者至少部分是未知的(例如含 有若干未知参数)
例(抽样检查)设批量为 N 的产品,其中次品数为 N , 0 1未知。
今分别按有放回和无放回两种方法从中随机抽取 n( N ) 件。定义
1 Xi 0
第i次抽得次品; 第i次抽得正品
(4)样本的极差: R xn x1
(5)样本的四分位间距: H QU QL
其中 QU ,QL 分别为数据的上、下四分位数。
(6)样本相关系数:
rxy
n
xi
x yi
y
i 1
n
xi
x 2
n
y
i
y 2
i 1
i 1
2、抽样分布
• 有限总体的抽样分布
2、分位数
设 X ~ t(n) ,记它的 p 分位数为 t p (n) ,即 t p (n) 满足 P( X t p (n)) p
根据 t-分布密度函数的对称性,有性质
t p (n) = t1 p (n)
该性质类似正态分布的结果。
(3)F分布
定义
设 X ~ 2 (m) ,Y ~ 2 (n) , X 与Y 相互独立,
设总体 X ~ f (x, ) , 未知,( X1, X 2 , , X n )为样 本,而 是一个同 有关的指标,即 g( ) ,函数 g(g)
为已知,问题是基于( X1, X 2 , , X n )估计函数值 g( ) 。
见书中例 3、例 4。
估计量
我们称任何一个用以估计未知参数 的统计量 ˆ ˆ(X1, , Xn ) 为 的 估 计 量 , 对 应 的 观 察 值
得到 i 的矩估计量为ˆi gi m1, m2 , , mk , i 1,L , k 。
例 6(p114)设总体有均值 及方差 2 ,今有 6 个
随机样本的观察数据为:
-1.20,0.82,0.12,0.45,-0.85,-0.30
求 及 2 的矩估计。 解 此 例 参 数 (, 2) 是 二 维 的 , 注 意 到 2 2 12 ,直接使用替换原理,得到 的矩估计为 X , 2 的矩估计为
定理 1:设总体中个数总数(也称总体大小)为 N,样本容量为 n(<N)
且总体有有限均值 E( X ) ,方差 D( X ) 2 ,( X1, X 2 , , X n )为取自该
总体的一个样本,
则(1) E( X ) ,
(2)当抽样是有放回时 ( X ) ,
n
当抽样是无放回时 ( X ) N-n ,其中 ( X ) 即为 X 的标准差
则称 F X m 的分布为第一自由度为 m、第二自由度为 n 的 F Yn
分布,且记 F ~ F (m, n) 。
分位数
设 X ~ F (m, n) ,记它的 p 分位数为 Fp (m, n) , 即 Fp (m, n) 满足 P( X Fp (m, n)) p 。
有性质:
Fp
(m,
,
S
2 2
1 n
n i 1
(Yi
Y )2
S
2 w
1
m
m n 2 [ i1 ( X i
X )2
+
n
(Yi
i 1
Y
)2
]
=
mS12
nS
2 2
mn2
则 T= X Y (1 2 ) ~ t(m n 2)
11
Sw
mn
(三) 统计估计
1、点估计问题 2、估计方法 3、点估计的优良性 4、置信区间 5、正态总体下的区间估计
T X ,立即可得。 Y n 1
例 2(p109)设 X1,L , X m 来自 X ~ N (1, 2 ) ,Y1,L ,Yn 来自
Y
~
N (2 , 2 ) ,且相互独立,记 X
1 m
m i 1
Xi
,Y
1 n
n
Yi
i 1
,
S12
1 m
m i 1
(Xi
X )2
(xi 0或1,i 1,L , n)
(ii)无放回抽样
N N (1 )
P( X1 x1,L , X n xn )
t
t
N
n
n
(t xi , xi 0或1,i 1,L , n) i 1
注意:对于有限总体,不同的抽样方式可以有不同的样本分布。
(二)统计量和抽样分布
1、统计量 2、抽样分布
1、统计量
样本常常表现为一大堆数字,很难直 接用来解决我们所要研究的具体问题。人 们常常把数据加工成若干个数量指标,以 概括这批数据所提供的相关问题的信息。 数据加工后的数量指标就是统计量。
定义: 完全由样本确定的量为统计量,从数学观
点来看,统计量是样本的函数。此处,“完全” 一词很重要,即它不含总体分布中的未知参 数,一旦有了样本数据就可以得出它的值。
ˆ 2
m2
m12
1 n
n i 1
xi2
(1 n
n i 1
xi )2
S2
。再代入数
据即得 , 2 的估计量分别为 ) 0.16,ˆ 2 0.50
例 7(p115):设 ( X1, , X n ) 是来自 (1,2 ) 上 均匀分布样本,1 2 未知,求1,2 的矩估
第三部分 统计
(一)基本概念 (二)统计量和抽样分布 (三)统计估计 (四)假设检验
(一) 基本概念
1、统计的研究对象 2、总体和样本 3、简单随机样本
1、统计的研究对象
(1)必须是“大量的”现象 (2)不是研究现象本身,而是现象所表征的
数量特征和数量关系。 (3)统计既非纯粹数学,也非具体的行为科
i 1
自由度 n 的 2 分布,记为U ~ 2 (n) 。
性质 (1)U ~ 2 (n) 时, E(U ) n, D(U ) 2n ; (2) 2 分布具有可加性:设 X ~ 2 (m) , Y ~ 2 (n) , X 与 Y 相互独立,则 X Y ~ 2 (m n)
阶原点矩为: mi
1 n
n
X
j 1
i j
;总体的 i
阶原点矩为: i E X i 。
若总体的未知参数 i gi 1, 2 , , k (i 1,2, , k) ,其中
g1, gk 为 k 个多元的已知函数,则通过替换 i 为 mi , i 1,L , k ,
1、点估计问题 • 统计模型
设( X1, X 2 , , X n )为样本,其公共分布为 f (x, ) , 未
知,,但函数 f (g) 的形式已知,我们称( X1, X 2 , , X n )的联合分布
为统计模型。
f (x1, )L f (xn , ),
点估计问题的提法
med
1
x( n1) 2
2
(
x
(
n
)
2
x( n 1) 2
)
当n为奇数 当n为偶数
其中: x1 x2 xn 是数据 x1, x2 , , xn 由小到大的重排。
中位数也是数据中心位置的指标,特别适用于社会经济类数 据。
当用中位数表数据的中心位置时,可用极差及四分位间距反映 数据的分散度。
L f ( X1, ) f ( X n , ) 作为定义在 上的函数,为似然函数。直观上 L 表示由参
数 产生样本 X1, X 2 , , X n 的“可能性”大小。
n)
=
F1 p
1 (n,
m)
• 正态总体下的抽样分布
定理:设总体 X ~ N (, 2 ) ,( X1, X 2 , , X n )为取
自该总体的一组样本,则
(1) X ~ N (, 2 ) ,即 X n ~ N (0,1)
n
(2) X 与 S 2 相互独立
(3)
nS 2
2
~
2 (n 1) ,其中 S 2 为样本方差。
例 1(p109)设 X 1 , X 2 , , X n 来自 , 2 的样本,则
T X n 1 ~ t(n 1)
S
注意到,若令 X
n(X
)
,Y
nS 2
2
,
由定理知 X ~ N (0,1),Y ~ 2 (n 1) ,且 X 与 Y 独立,