第四章分层随机抽样
- 格式:doc
- 大小:761.00 KB
- 文档页数:21
第四章抽样理论与参数估计第一节抽样理论的基本知识分层抽样,又叫分层随机抽样,这种抽样方法是按照总体已有的某些特征,承认总体中已有的差异,按差异将总体分为几个不同的部分,每一部分称为一个层,在每一个层中实行简单随机抽样。
它充分利用了总体的已知信息,因而是一种非常适用的抽样方法,其样本代表性及推论的精确性一般优于简单随机抽样。
分层的原则是层与层之间的变异越大越好,各层内的变异要小。
试述分层抽样的原则和方法?分层抽样是按照总体上已有的某些特征,将总体分成几个不同部分,在分别在每一部分中随机抽样。
分层的总的原则是:各层内的变异要小,而层与层之间的变异越大越好。
在具体操作中,没有一成不变的标准,研究人员可根据研究需要依照多个分层标准,视具体情况而定。
⑷两阶段随机抽样两阶段随机抽样首先将总体分成M个部分,每一部分叫做一个"集团"(或"群"),第一步从M个集团中随机抽取m个"集团”作为第一阶段样本,第二步是分别从所选取的m个"集团”中抽取个体(g构成第二阶段样本。
一般而言,两阶段抽样相对于简单随机抽样,标准误要大些,但是,两阶段抽样简便易行,节省经草贼,因而它是大规模调查研究中常被使用的抽样方法。
例如,如果我们要了解全国城市初中二年级学生的身高,第一步我们可以从全国几百个城市中随机抽取几十个城市作为第一阶段的样本。
第二步,在第一阶段随机抽取出来的城市中再随机抽取初中二年级的学生。
(二)非旃抽样非概率抽样不是完全按随机原则选取样本,有方便抽样、判断抽样。
方便抽样是由调查人员自由、方便地选择被调查者的非随机选样。
判断抽样是通过某些条件过滤,然后选择某些被调查者参与调查的抽样法。
当采取非概率抽样的方法选取样本时,研究者要说明采用此种方取样的原因以及对研究结果可能造成的影响。
第二节抽样分布[统计量分布、基本随机变量函数的分布]总体:又称母全体、全域,指具有某种特征的一类事物的全体。
第四章分层随机抽样第一节分层随机抽样概述分层抽样也叫做类型抽样,它是实际工作中最常用的抽样技术之一。
分层抽样是在抽样之前,先将总体按一定标志划分为若干个层(组),后在各层内分别独立地进行抽样。
由此所抽得的样本称之为分层样本。
各层所抽的样本也是互相独立的。
如果每层中的抽样都是简单随机的,则这种抽样就叫做分层随机抽样。
由此所得到的样本称做分层随机样本。
从以上概念可以看出,分层抽样的实质是在各层间作全面调查,而在各层内作抽样调查。
因此,分层抽样的误差只与各层内的差异有关,而同各层间的差异无关。
所以,为了能有效地降低抽样误差,提高抽样效果,在分层时应遵循“尽可能使层内差异小,而使层间差异大”的原则,同时要使分层的结果既无重复又无遗漏。
进行分层抽样时应注意:①层内抽样设计的选择;②分层变量的选择;③各层样本量的分配;④层数;⑤层的分界。
以前只重视③,近年来,④和⑤引起了越来越多的关注。
同简单随机抽样相比,分层抽样具有以下特点:①分层抽样能够充分地利用关于总体的各种已知信息进行分层,因此抽样的效果一般比简单随机抽样要好。
但当对总体缺乏较多的了解时,则无法分层或不能保证分层的效果。
②在分层抽样中,总体的方差一般可以分解为层间方差和层内方差两部分。
由于分层抽样的误差只与层内差异有关,而与层间差异无关,因此,分层抽样可以提高估计量的精度。
③由于分层抽样是在每层内独立地进行抽样,因此,使得分层样本能够比简单随机样本更加均匀地分布于总体之内,所以其代表性也更好些。
④分层抽样的随机性具体体现在层内各单元的抽取过程之中,也即在各层内部的每一个单元都有相同的机会被抽中,而在层与层之间则是相互独立的。
⑤分层抽样适合于调查标志在各单元的数量分布差异较大的总体。
因为对这样的总体进行合理的分层后可将其差异较多地转化为层间差异,从而使层内差异大大减弱。
⑥分层抽样中除了可以推断总体参数外,还可以推断各不同层的数量特征,并进一步作对比分析,从而满足不同方面的需要,也能帮助人们对总体作更全面、更深入的了解。
第四章分层随机抽样第一节分层随机抽样概述分层抽样也叫做类型抽样,它是实际工作中最常用的抽样技术之一。
分层抽样是在抽样之前,先将总体按一定标志划分为若干个层(组),后在各层内分别独立地进行抽样。
由此所抽得的样本称之为分层样本。
各层所抽的样本也是互相独立的。
如果每层中的抽样都是简单随机的,则这种抽样就叫做分层随机抽样。
由此所得到的样本称做分层随机样本。
从以上概念可以看出,分层抽样的实质是在各层间作全面调查,而在各层内作抽样调查。
因此,分层抽样的误差只与各层内的差异有关,而同各层间的差异无关。
所以,为了能有效地降低抽样误差,提高抽样效果,在分层时应遵循“尽可能使层内差异小,而使层间差异大”的原则,同时要使分层的结果既无重复又无遗漏。
进行分层抽样时应注意:①层内抽样设计的选择;②分层变量的选择;③各层样本量的分配;④层数;⑤层的分界。
以前只重视③,近年来,④和⑤引起了越来越多的关注。
同简单随机抽样相比,分层抽样具有以下特点:①分层抽样能够充分地利用关于总体的各种已知信息进行分层,因此抽样的效果一般比简单随机抽样要好。
但当对总体缺乏较多的了解时,则无法分层或不能保证分层的效果。
②在分层抽样中,总体的方差一般可以分解为层间方差和层内方差两部分。
由于分层抽样的误差只与层内差异有关,而与层间差异无关,因此,分层抽样可以提高估计量的精度。
③由于分层抽样是在每层内独立地进行抽样,因此,使得分层样本能够比简单随机样本更加均匀地分布于总体之内,所以其代表性也更好些。
④分层抽样的随机性具体体现在层内各单元的抽取过程之中,也即在各层内部的每一个单元都有相同的机会被抽中,而在层与层之间则是相互独立的。
⑤分层抽样适合于调查标志在各单元的数量分布差异较大的总体。
因为对这样的总体进行合理的分层后可将其差异较多地转化为层间差异,从而使层内差异大大减弱。
⑥分层抽样中除了可以推断总体参数外,还可以推断各不同层的数量特征,并进一步作对比分析,从而满足不同方面的需要,也能帮助人们对总体作更全面、更深入的了解。
但对各层的估计缺乏精度保证。
⑦分层抽样调查实施中的组织管理及数据收集和汇总处理可以分别在各层内独立地进行,因此较之简单随机抽样更方便。
⑧分层抽样中,由于各层的抽样相互独立,互不影响,且各层间可能有显著的不同,因此,对不同层可以按照具体情况和条件分别采用不同的抽样和估计方法进行处理,从而提高估计的精确度。
⑨当总体有周期现象时,用分层比例抽样法可以减少抽样方差。
⑩分层抽样中在进行分层时,需收集可用于分层的必要的各种资料,因此可能会增加一定的额外费用。
同时,分层抽样中,总体参数的估计以及各层间样本量的分配、总样本量的确定等都更为复杂化。
通常,在满足下述条件时,分层在精度上会有很大的得益:①总体是由一些大小差异很大的单元组成的,即总体差异大;②分层后,每层所包含的总体单元数应是可知的,也即分层后各层的权重是确知的或可以精确估计的;③要调查的主要变量(标志)与单元的大小是密切相关的;④对单元的大小有很好的测量资料可用于分层,也即分层变量容易确定。
第二节 总体参数的估计一、有关符号的涵义 在分层抽样中,我们用各种符号来区别各种不同情况,熟悉了这些符号所代表的确切内涵,对于我们系统地掌握抽样推断的一系列方法是十分重要的。
因此,这里先集中对各有关符号的涵义作一解释;L表示分层的层数;h 表示层的编号(h =1,2,3,…,L); N表示总体容量;Nh 表示第h 层的总体容量;Wh =Nh /N表示第h 层的层权,是已知的或要事先确定; n 表示样本容量;n h 表示第h 层的样本容量;f h =n h /Nh 表示第h 层的抽样比;hi y 表示第h 层每i 个单元的观测值;Y =∑∑==L N i y 1h 1hi h为总体总量;y =∑∑==Li y1h n 1hih为样本总量;Y =NY为总体均值; h Y =∑=h1hi y N i 为第h 层的总体总量;h1hi h hh N y N h∑===N i Y Y 为第h 层的总体均值; h y =hn 1hin yh∑=i 为第h 层的样本均值;nyy =为样本均值; 21h hih2h)(y1h∑=-=N i Y N S 为第h 层的总体方差;)(11h 1hi h 2hhy y n s n i --=∑=为第h 层的样本方差; P为总体成数;Ph 为第h 层的总体成数;h p 为第h 层的样本成数;Ph (1-Ph )为第h 层的总体方差;h p (1-h p )为第h 层的样本方差。
二、估计量在简单随机抽样中,样本均值是总体均值的无偏估计。
在分层抽样中,仍用样本均 值∑∑===L 1h 1i hi hy 1n n y来估计总体均值Y ,在一般情况下是否合理,先看下面的例子。
例:总体由1000人组成,按以往收入情况分成两层,第一层(高收入层)20人;第二层(低收入层)980人。
从第一层随机抽2人,调查上月收入得1200和1600元;从第二层抽8人,上月收入分别为220、230、180、320、400、340、280及360元。
估计这1000人的月收入。
如果用样本均值1036022016001200++++=y =513(元)来估计总体平均值Y 显然偏高。
若先分别算出这两层的样本均值1y =1400元,2y =291.25元,用100025.291980140020⨯+⨯=313.43(元)来估计Y 就合理多了。
由此,分层抽样的估计量可按如下方式来构造: 1、总体均值的估计量在分层抽样中,总体均值Y 的估计量一般用st y 表示,它是各层总体均值h Y 的估计量按层权h W 的加权平均,即Y N YW y Y Lst ˆN 1ˆˆL1h h1h h ∑∑=====一般情况下:st y ≠y = ∑Lh1st y n在分层随机抽样中,h y 是h Y 的无偏估计量,即Y ˆ=h y ,因此,∑=Lhh W y y st也是Y 的无偏估计量。
2、总体总和Y的估计量有了总体均值的估计量,就可推出总体总和的估计量∑==Lhhh N ˆy y N Y st st 3、总体比例P 的估计量若令⎩⎨⎧=类个单元不属于层第,若第类个单元属于层第,若第c i h c i h y 01hi 则P Y =,h h P Y =,h p y st =.按照总体均值估计量的公式,可推出总体比例(成数)P的估计量为:h hhh h h ˆˆp W P W P L Lst ∑∑==可以证明,在分层随机抽样中,sty Y 的无偏估计量,st Y ˆ是Y的无偏估计量,stP ˆ是P的无偏估计量。
三、估计量的方差1、总体均值估计量的方差对于一般的分层抽样,由于各层的抽样是相互独立的,诸hˆY 也相互独立,因此总体均值Y 估计量的方差是总体各层均值估计量方差的加权平均,即∑==Lhh 2h )ˆ(W )()ˆ(Y V y v Y V stst 式中)ˆ(hY V 是第h 层总体均值估计量的方差。
对于分层随机抽样,则有:=)(st y V ∑-L h2h h h 2hn 1W S f =∑-L S N n W h2h hh 2h )11(=∑∑-LS N n S W hL h 2h h h 2h 2h W 1=h2hhh h h 2)(1n S n N N NL-∑ 可见,在分层抽样中,总体均值估计量的方差只与各层内的方差有关,而同层间方差无关。
而总体方差又是由层内方差与层间方差两部分构成的。
所以,估计量的方差小于总体方差。
2、总体总和估计量的方差有了总体均值估计量的方差,就可推导出总体总和估计量的方差:∑==Lstst Y V N Y V N Y V h h 2h 2)ˆ()ˆ()ˆ( 对于分层随机抽样,则有:∑∑-=-=Lhh 2h h h h 2h hh h 2h)(N 1)ˆ(n Sn N S n f N Y V Lst 3、总体比例估计量的方差估计总体比例,当h N 充分大时,有:∑=Lhh2h )ˆ()ˆ(P V W P V st 对于分层随机抽样,则有:=)ˆ(stP V ∑--Lhh h h h 2h )1(n 1W P P f (1h h -≈N N ) =∑--Ln P P n N N Nhhh h h h h 2)1()(1四、方差的估计量按上述方法确定估计量的方差时,要求各层的总体方差应事先已知,但实际工作中,各层的总体方差又常常是未知的,此时,一般可用对应的各层样本方差替代,以对估计量的方差作出估计。
此时:∑∑∑-=-=Lh 2h h l hh 2h 2h h Lh h h 2hW 1W n 1W )(ˆs N n s s f y V st =∑-Lhh 2hhh h 2)(N 1n s n N N, ∑-==Lst st n s n N N y V N Y V hh 2h hh h 2)()(ˆ)ˆ(ˆ )(ˆst y V 与)ˆ(ˆst Y V 分别是)(st y V 与)ˆ(stY V 无偏估计。
当用样本资料估计方差)ˆ(stP V 时,可将 hh)h n 1(P P -用1)1(h h h --n p p 替代,则得:∑---=Lst n p p f W P V hh h h h2h 1)1()1()ˆ(ˆ =∑---Lhh h h h h h 21)1()(1n p p n N N N)ˆ(ˆst P V 是)ˆ(stP V 的无偏估计。
第三节 总样本量的分配一、总样本量在各层间的分配在分层抽样中,一个重要的问题是总的样本量如何在各层之间进行分配。
通常考虑:⑴精度和费用问题。
即如何分配才能在费用一定时使总的精度和各层估计精度最高?⑵数据处理问题。
即如何分配才能使调查数据的处理工作更加简洁,也使估计量及其方差的确定形式更为简单明了?⑶各层的容量大小问题。
结合上述考虑,总样本量在各层间分配时可采用如下方法: (一)比例分配在分层抽样中,若各层的抽样比都相同,即f h =f ,则称总样本量为按比例分配。
此时Nnn =h h N 所以h hh NW N n n ==,因此,h h nW n =。
(h n 应取整) 比例分配最早是由鲍利于1926年提出的,比例分配主要考虑了各层单元数多少的差异。
比例分配时,总体中任一单元的入样概率都相等,都为f=n/N 。
由此所得到的样本称为是自加权的或等加权的。
在这种情况下∑∑=====L n i st st y nn y Y 1h 1hi h 1y 1ˆ, ky y n N y N Y stst ===ˆ, (nN k =为常数) 即st Y ˆ或stY ˆ为所有样本最基本单元观测值总和的一个常数倍。
这样的估计量也称为自加权的。