- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
首先,在理论上最符合随机原则.对此可有二 种理解:一种是总体中各个单位被抽中的机会 相等.设总体有N个单位,各单位被抽中的概 1 率均为 N.另一种是总体中各个样本被抽中的 概率相等.我们知道,一个总体N中可以抽取 许多个容量为n 的样本,通常情况下按组合形 n C N个样本,那么,在一次抽样中,某个样 式有 1 本被抽中的概率为C ,这个概率对每个可能的 样本都相等.简单随机抽样遵循这种等可能性 原则,为进行抽样估计,计算抽样误差,提供 了重要前提条件.
Y3 + Y4 2
可见,样本均值 y 是 Y 的一个无偏估计量,因为
1 Yi + Y j 1 3 4 E ( y ) = ∑∑ ( ) = ∑∑ (Yi + Y j ) 2 12 i =1 j i i =1 j i 6
3 4
而每个单元均可能在三个样本内出现,故
1 4 E ( y ) = ∑ 3Yi = Y 12 i =1
颜色 蓝 绿 红 白 黄 合计
人的编号 1 14 28 15 25 18 2 26 21 12 23 18 3 20 15 20 20 25 4 12 21 22 19 26
期望 数字 20 20 20 20 20 100
100 100 100 100
可见四个人都对颜色存在偏好,如第一个人偏爱绿色, 第二个人偏爱蓝色等.这种由于对颜色偏好所引起的偏估 类型,可称之为颜色偏误. 结论:随意抽样≠随机抽样
n N
其次,它是设计其他更复杂抽样形式的基础. 例如,设计分层抽样,将总体划分为若干层, 然后对各个层实施简单随机抽样.对一个非常 大的总体,需要分若干个阶段进行抽样.例如, 进行全国性抽样调查,第一阶段可以由全国抽 取若干个省份,第二阶段再由抽中的省份抽取 若干个县(市);第三阶段再由抽中的县(市)抽 取若干个乡(街道);第四阶段再由抽中的乡 (街道)抽取若干个村(居委会)等等.在这种多 阶段抽样中,每个阶段中抽取样本单位均可采 用简单随机抽样方法.
1,随机数表及其使用方法 随机数表是由0到9的10个阿拉伯数字进行随机排列 组成的表. 所谓随机排列,即每个数字都是按等概和重复独立 抽取的方式排定的. 随机数表的用途很多,不仅可以组织等概样本,也 可组织不等概样本. 简单随机抽样属等概率抽样,在使用随机数表时, 要注意以下几点: ①每次使用时,确定使用哪页及哪行哪列的数字为 起点,必须是随机的. ②设总体容量为N,若N的位数为r,则一定要从r位 数中抽取.遇到1至N的数可直接使用;遇到其它的 数不能直接使用.
再次,是衡量其他抽样效果的比较标准.抽样 效果首先体现在抽样误差的大小上.而反映或 者比较某一抽样形式的误差大小,需要有一个 比较指标,这通常采用抽样设计效果指标 Deff, 这个抽样设计效果是以某一抽样形式的方差与 简单随机抽样的方差进行对比,设前者为V(θ1) , 后者为V(θ0),那么,抽样设计效果为:
-
样本编号 1 2 3 4
样 本 U1 U2 U3 U4
样本观测值 Y1 Y2 Y3 Y4
Y 的估计值
Y1 Y2 Y3 Y4
YY
Y1- Y Y2- Y Y3- Y Y4- Y
由上述分析可知
1 E (Y ) = ∑ Yi = Y 4
1 MSE (Y ) = ∑ (Yi Y ) 2 = σ 2 4
③当r≥2时,可从含有起点数字左边的r位数开始,也可从右边的r 位数开始.可从起点开始向下抽取,也可向右抽取.但一经确定使 用哪一种方式,就必须用一种方式抽取全部单元号,中途不能变更. ④在重复抽样时,遇到重复的数字应重复使用;在不重复抽样时, 遇到重复的数字应舍去不用. 随机数表法一般分下述几步: 第一步:确定起点页码; 第二步:确定起点的行数与列数; 第三步:确定所抽样本单元的号码. 快速抽取的常用方法有: 余数法.如果N是个r位数,由1到 随机取一个数R,而 是N的最大 N′ N r位整倍数,则编号等于R除N所得余数的单元便被选中. ′ 商数法; 修正余数法; 修正商数法; 独立选择数位法.
第三章 简单随机抽样
第一节
简单随机抽样概述
一,简单随机抽样的概念
定义之一:简单随机抽样就是从总体N个抽样单元中,一次 A =( N ) 种不同的样本被抽到 抽取n个单元时,使全部可能的 n 的概率均相等,即都等于1/A. 定义之二:简单随机抽样是从总体的N个抽样单元中,每次 抽取一个单元时,使每一个单元都有相等的概率被抽中, 连续抽n次,以抽中的n个单元组成简单随机样本. 按简单随机抽样,抽到的样本称为简单随机样本. 简单随机抽样是一种最简单,最基本的抽样组织形式.它 适用于均匀总体,即具有某种特征的总体单位均匀地分布 于总体的各个部分.简单随机抽样具有下列优点:
三,简单随机抽样的方法评估
1.简单随机抽样对总体不加任何限制,等概率地从总 体中直接抽取样本,是最简单,最单纯的抽样技术, 它具有计算简便的优点,是研究其它复杂抽样技术的 基础,也是比较各种抽样技术之间估计效率的标准, 同时,从理论上讲简单随机抽样在各种抽样技术中是 贯彻随机原则最好的一种,并且数学性质很简单,是 等概率抽样的特殊类型. 2.因为是等概率抽取样本,所以要求总体在所研究的 主要标志上同质性或齐性(共性)较好,也即总体要比 较均匀;要求样本容量要比较大,以保证样本对总体 具有充分的代表性.但是,在社会经济现象中,这种 均匀总体是很少见的.因此,实际工作中很少单纯使 用简单随机抽样方法.
由四个单元中不放回抽取2个单元的可能结果
样本 样本观测值 样本均值 U1 U2 Y1 ,Y2 U1 U3 Y1 ,Y3 U1 U4 Y1 ,Y4 U2 U3 Y2 ,Y3 U2 U4 Y2 ,Y4 U3 U4 Y3 ,Y4
Y1 + Y2 2
Y1 + Y3 2
Y1 + Y4 2
Y2 + Y3 2
Y2 + Y4 2
第二节
总体参数的估计
一,基本原理 U U U 设总体包含有 U 1, 2, 3, 4 四个单元,其观测值分别 Y Y Y 为 Y1 , 2 ,3 , 4 ,则总体均值为=( Y1 + Y2 + Y3 + Y4 )/4. 现用简单随机抽样法抽一个单元并以其观测值来估计 总体均值,则这四个单元每个都是可能的样本,而每 个可能样本被抽中的概率均为四分之一.每个样本观 测值本身就可以当作总体均值的一个估计值.显然, 根据不同样本估计的结果与总体均值之间通常并不一 致,而是存在一个的误差.下表列出了抽到不同样本 时的结果:
所以,是Y 的无偏估计量.的均方误差(MSE)为 Y Y
即总体方差.又因为 Y是Y 的无偏估计量,因此,估计量的 方差等于均方误差,即
2 ) = σ 2 = σ ( 4 1) V (Y 1 4 1
若用不放回简单随机抽样法从上例的总体中抽取2个单元 组成样本,则可以得到 U 1U 2 ,U 1U 3 ,U 1U 4 ,U 2U 3 ,U 2U 4 ,U 3U会有不同的估计结果,如表所示:
2,随机数骰子及其使用方法 随机数骰子是由均匀材料制成的正二十面体(通常的骰子 是正六面体,即正方体),面上刻有0-9的数字各2个.
两个有名的试验
试验一:随意数试验. 让六个人写下100个自己随意想到的三位数,将这些数内 的0,1,…,9数字列成次数分布表. 可见,六个人都对数字存在偏好,如第一个人更加偏好 数字4,3,0;第二个人则偏好数字1,8,4;等等.这 种由于数字偏好所引起的偏估类型可称之为数字偏误.
数字 0 1 2 3 4 5 6 7 8 9 合计
人的编号 1 50 29 20 50 55 20 30 12 25 9 300 2 1 48 19 39 40 18 26 39 42 28 300 3 38 30 28 34 28 31 26 32 30 23 300 4 29 57 31 34 29 15 27 35 23 20 300 5 34 33 20 24 15 30 31 42 44 27 300 6 59 27 22 24 27 25 15 35 37 29 300
二,估计量
1,总体均值和总和的简单估计量 在简单随机抽样条件下,总体均值的简单估计量为: n
Y =y=
∑y
i
i
可以证明,样本均值是总体均值的无偏估计,即:
E( y) = Y
n
因此总体总和的简单估计量为:
Y = Ny = N ∑ yi
i n
n
N = n
∑y
i
n
i
其中N/n也称作膨胀因子.
2,总体比例的简单估计量 抽样调查中,经常需估计总体中具有某种特性的单元总数 及其在总体中所占的比例(即成数). 设总体中的N个抽样单元按其是否具有某种特性可分成D和 D′ D 两类,D类具有某种特性, ′类不具有某种特性.D类有N1 个单元, ′类有 N 0个单元,则: D
n 式中, 为某一抽样形式的样本单位数, n′ 表示 在相同的抽样方差下,采用简单随机抽样形式所需要 n 的样本单位数.在上面的例子中, =100户, =0.51, Deff 所以, =100÷0.51=196 n′
二,简单随机抽样的具体实施方法 (一)抽签法 抽签法是先对总体N个抽样单元分别编上1到N的 号码,再制作与之相对应的N个号签并充分摇匀 后,从中随机地抽取n个号签(可以是一次抽取n 个号签,也可以一次抽一个号签,连续抽n次), 与抽中号签号码相同的n个单元即为抽中的单元, 由其组成简单随机样本. (二)随机数法 随机数法就是利用随机数表,随机数骰子或计算 机产生的随机数进行抽样.
V (θ1 ) Deff = V (θ )
0
这个设计效果Deff 取反指标的形式.若Deff 值大 于等于1,即V (θ1 ) ≥V(θ0 ),则抽样估计效果较差; 反之,Deff 小于l,即V(θ1) <V(θ0),则抽样估计效果 较好.
例如,用分层抽样从某企业抽100个职工户,调查每 户平均收入,得到抽样方差 V1 =25,以相同的单位数 用简单随机抽样形式,得到抽样方差V 0=49,则抽样 设计效果为: Deff =25÷49=0.51 这表明在同样抽取100户条件下,用分层抽样优于简 Deff 单随机抽样.并且,可以利用抽样设计效果 计算 有效单位数 n′: n n′ = Deff