07 第七章 整群抽样
- 格式:doc
- 大小:748.00 KB
- 文档页数:15
(抽样检验)第七章整群抽样第七章整群抽样第壹节整群抽样概述壹、整群抽样的概念整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取壹部分群,对中选群内的所有单元进行全面调查。
确切地说,这种抽样组织形式应称为单级整群抽样。
如果总体中的单元能够分成多级,则能够对前几级单元采用多阶抽样,而在最后壹阶中对该阶抽样单元所包含的全部个体(最基本单元)进行调查,这种抽样称作多级整群抽样。
本章只讨论单级整群抽样。
设总体被划分为N群,第i群含有Mi个次级单元,全部总体次级抽样单元数记为M0,即M0=∑M i。
当诸Mi都相等时,称为等群;否则,称为不等群。
采用整群抽样的俩个理由:-抽选群能大大降低数据收集的费用,当总体的分布比较广且调查采用面访时更是如此;-从总体中直接抽选个体在实际中且不总是可行的(没有关于个体的抽样框);有时,抽选单元组成群体组更简便易行(如整个住户)。
整群抽样包括俩步:首先,总体被分为群;然后,在总体中抽取群的样本且访问群中的所有单元。
如果总体单元是自然分成组或群的,创建壹个这种关于群的抽样框且对它们进行抽样比创建总体中所有单元的名录框更为容易。
或者,无法得到关于总体中所有单元的名录框,但却有这些单元分布地域的地图,因而能够创建地域框。
群的抽取能够采用简单随机抽样、系统抽样或PPS抽样等各种不同的方法。
二、群的划分问题整群抽样策略的统计效率取决于群内单元的相似程度有多大,每个群中有多少单元,及抽中群的数量。
同分层抽样壹样,整群抽样的前提是先要对总体进行分群。
关于群的划分,有俩个问题:壹是如何定义群,即当群且非是壹个自然形成的单位时,确定每个群的组成;二是如何确定群的规模即群的大小。
分层抽样是在各层都进行随机抽样,“层是缩小了的总体”,抽样单元仍然是总体基本单元。
这决定了分层的原则是:尽量缩小层内差异,而扩大层间差异。
而整群抽样只是在各群之间抽取壹部分群进行调查,且在抽中的群内作全面调查。
第七章整群抽样第一节整群抽样概述一、整群抽样的概念整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取一部分群,对中选群内的所有单元进行全面调查。
确切地说,这种抽样组织形式应称为单级整群抽样。
如果总体中的单元可以分成多级,则可以对前几级单元采用多阶抽样,而在最后一阶中对该阶抽样单元所包含的全部个体(最基本单元)进行调查,这种抽样称作多级整群抽样。
本章只讨论单级整群抽样。
设总体被划分为N群,第i群含有Mi个次级单元,全部总体次级抽样单元数记为M0,即M0=∑M i。
当诸Mi都相等时,称为等群;否则,称为不等群。
采用整群抽样的两个理由:- 抽选群能大大降低数据收集的费用,当总体的分布比较广且调查采用面访时更是如此;- 从总体中直接抽选个体在实际中并不总是可行的(没有关于个体的抽样框);有时,抽选单元组成群体组更简便易行(如整个住户)。
整群抽样包括两步:首先,总体被分为群;然后,在总体中抽取群的样本并访问群中的所有单元。
如果总体单元是自然分成组或群的,创建一个这种关于群的抽样框并对它们进行抽样比创建总体中所有单元的名录框更为容易。
或者,无法得到关于总体中所有单元的名录框,但却有这些单元分布地域的地图,因而可以创建地域框。
群的抽取可以采用简单随机抽样、系统抽样或PPS抽样等各种不同的方法。
二、群的划分问题整群抽样策略的统计效率取决于群内单元的相似程度有多大,每个群中有多少单元,及抽中群的数量。
同分层抽样一样,整群抽样的前提是先要对总体进行分群。
关于群的划分,有两个问题:一是如何定义群,即当群并非是一个自然形成的单位时,确定每个群的组成;二是如何确定群的规模即群的大小。
分层抽样是在各层都进行随机抽样,“层是缩小了的总体”,抽样单元仍然是总体基本单元。
这决定了分层的原则是:尽量缩小层内差异,而扩大层间差异。
而整群抽样只是在各群之间抽取一部分群进行调查,并在抽中的群内作全面调查。
因此,群间差异的大小直接影响到抽样误差的大小,而群内差异的大小则不影响抽样误差。
07 第七章整群抽样第一节整群抽样概述一、整群抽样的概念整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取一部分群,对中选群内的所有单元进行全面调查。
确切地讲,这种抽样组织形式应称为单级整群抽样。
如果总体中的单元能够分成多级,则能够对前几级单元采纳多阶抽样,而在最后一阶中对该阶抽样单元所包含的全部个体(最差不多单元)进行调查,这种抽样称作多级整群抽样。
本章只讨论单级整群抽样。
设总体被划分为N群,第i群含有Mi个次级单元,全部总体次级抽样单元数记为M0,即M0=∑Mi。
当诸Mi都相等时,称为等群;否则,称为不等群。
采纳整群抽样的两个理由:- 抽选群能大大降低数据收集的费用,当总体的分布比较广且调查采纳面访时更是如此;- 从总体中直截了当抽选个体在实际中并不总是可行的(没有关于个体的抽样框);有时,抽选单元组成群体组更简便易行(如整个住户)。
整群抽样包括两步:第一,总体被分为群;然后,在总体中抽取群的样本并访咨询群中的所有单元。
如果总体单元是自然分成组或群的,创建一个这种关于群的抽样框并对它们进行抽样比创建总体中所有单元的名录框更为容易。
或者,无法得到关于总体中所有单元的名录框,但却有这些单元分布地域的地图,因而能够创建地域框。
群的抽取能够采纳简单随机抽样、系统抽样或PPS抽样等各种不同的方法。
二、群的划分咨询题整群抽样策略的统计效率取决于群内单元的相似程度有多大,每个群中有多少单元,及抽中群的数量。
同分层抽样一样,整群抽样的前提是先要对总体进行分群。
关于群的划分,有两个咨询题:一是如何定义群,即当群并非是一个自然形成的单位时,确定每个群的组成;二是如何确定群的规模即群的大小。
分层抽样是在各层都进行随机抽样,“层是缩小了的总体”,抽样单元仍旧是总体差不多单元。
这决定了分层的原则是:尽量缩小层内差异,而扩大层间差异。
而整群抽样只是在各群之间抽取一部分群进行调查,并在抽中的群内作全面调查。
因此,群间差异的大小直截了当阻碍到抽样误差的大小,而群内差异的大小则不阻碍抽样误差。
在那个地点抽样单元是各个不同的群体,因此“群实际上是扩大了的总体单元”。
因此,关于前一个咨询题,群的划分应该是:尽量扩大群内差异,而缩小群间差异。
按此原则分群,则能保证每个群对总体都具有足够好的代表性。
作为极端情形,假定各群之间总体单元的分布完全相同,即群间不存在任何差异,那么只需抽取一个群进行调查就能充分满足抽样估量精确度的要求,整群抽样的效率就专门高。
这确实是讲,整群抽样专门适合于群内差异大、而群间差异小的情形。
如此,每个群都具有足够好的代表性。
如果所有的群都相似,那么抽少数群就可获得相当好的精度;反之,若群内的单元比较相似,而群与群之间的差不较大,则整群抽样的效率就低。
因此分群的原则使“群内差异大、群间差异小”与分层的原则使“层内差异小,层间差异大”是恰好相反的。
然在使用自然群时,同一个群内的单元通常专门相似,从而导致这种抽样策略的效率比简单随机抽样低。
下图直观表明了理想的分群与分层,其中同一字母表示观测值相近的单元。
至于群的规模的选择,一是取决于精度与费用之间的平稳,二是从抽样实施的组织治理等因素来考虑。
当相邻单元相似时,抽数量较多的小群比抽少量较大的群的统计效率高。
然而,如果采纳面访,样本的分布越广,调查的费用越高。
这表明:群的规模选得大,则费用省而精度差;群的规模选得小,则精度高而费用大。
因此,需要选择最优的群数量和大小,同时使总费用最小。
这方面除了依靠实践体会外,还可对假定的方差函数与费用函数作理论上的最优选择。
整群抽样可能有一些具体的困难。
如果用地图作为地域框,可能专门难决定某个住宅是否在一个特定的群内。
必须建立一个差不多的原则以决定哪些单元在一个群内。
例如,规定“住宅属于它的正门所在的群”这么一条原则,就能解决大多数咨询题。
如果一个住宅看起来平等地跨过两个群,则采纳掷硬币的方法来确定,以幸免产生任何抽选的偏差。
三、整群抽样的特点同其他抽样组织形式相比较,整群抽样具有如下特点:1.在大规模抽样调查中,常常没有或专门难编制出包括总体所有次级单元在内的抽样框,而整群抽样则不需要编制庞大的抽样框。
当总体单元自然聚合成群(例如:住户、学校)时,整群抽样比简单随机抽样或系统抽样更容易。
2.在样本单元数相同的条件下,整群抽样与简单随机抽样相比,样本单元的分布相对较集中,尽管样本的代表性较差,但调查组织实施过程更加便利,同时还能够大大地节约调查费用。
因此,实际工作中,在权衡费用和精度之后,有时宁可适当增加一些样本单元数,也采纳整群抽样方法。
如果关于调查变量而言,群内单元差异较大,而不同群的差异较小,整群抽样策略比简单随机抽样的统计效率更高。
(例如为估量性不比采纳按户的整群抽样)。
3.整群抽样的随机性体现在群与群间不重叠,也无遗漏,群的抽选按概率确定。
4.如果把每一个群看作一个单位,则整群抽样能够被明白得为是一种专门的简单随机抽样。
5.整群抽样也是多时期抽样的前提和基础。
6.整群抽样有专门的用途。
有些现象的研究,如果直截了当调查作为差不多单元的个体,专门难讲明咨询题,必须以一定范畴所包括的差不多单元为群体,进行整群抽样,才能满足调查的目的。
如人口普查后的复查、要想估量出普查的差错率,只有通过对一定地理区域内的人口群体作全面调查才行。
类似地诸如人口出生率、流淌率等调查都需要采纳整群抽样。
7.整群抽样要求分群后各群所含次级单元数目应该确知,否则会给抽样推断带来不便。
整群抽样的缺点有:对调查变量,若群内单元有趋同性,则整群抽样的统计效率比简单随机抽样低,(这正是通常遇到的情形),但对此项效率的缺失可通过增加群的抽取个数来补偿;通常无法提早明白调查总样本量,因为在进行调查前,我们通常不明白一个群内到底有多少个单元;调查的组织比其他方法复杂;方差估量可能比简单随机抽样更为复杂。
四、关于群大小的计量整群抽样中,如何有效地对群的大小进行计量,直截了当关系到抽样估量效率的高低。
研究表明,对群的大小的最优计量尺度是各群在所研究标志上的标志总量大小。
但在实际工作中,它是未知的。
因此通常选择与所研究标志高度线性有关的另一辅助标志作为计量尺度。
为此,要求把握关于辅助标志的更进一步细致的资料,而这又会带来一系列新的咨询题,如增加工作量及费用等。
因此,在整群抽样的实际应用中,经常选择以各群所含次级单元数的多少作为群大小的计量尺度。
当各群所含次级单元数相等时,就称群的大小相等;当各群所含次级单元数不相等时,就称群的大小不相等。
整群样本(图示)第二节 等概率整群抽样的情形整群抽样中对群的抽取有多种方式,本节只讨论按简单随机抽样抽群,即等概率抽样,也称PPF 抽样的情形,下节讨论不等概率的情形。
一、预备知识(一)有关符号的涵义N 为总体群数;M 为各群所含次级单元数;ij y 为第i 群中第j 个次级单元的观则值;),,;,,M j N i 21321(== NM 为总体所含次级单元总数; nM 为样本所含次级单元总数;∑==Mj ij i y Y 1为第i 群各次级单元观测值总和; M Y Y i i =为第i 群的均值;∑==Ni i Y Y 1为总体各次级单元观测值总和; ∑==n i i Y y 1为样本各次级单元观测值总和; N Y N Y Y Ni i ==∑=1为总体各群的均值;n y n Y y n i i ==∑=1为样本各群的均值;∑∑∑=======N i Mj ij N i i NM y NM Y NM Y M Y Y 111为总体均值; nM y nM y nM Y M y y ni Mj ij ni i ====∑∑∑===111为样本均值;∑∑==--=N i M j ij Y y NM S 1122)(11为总体方差; 2112)(11y y nM s n i M j ij --=∑∑==为样本方差; 21212)(11)(1Y Y N Y Y N M S N i i N i i b --=--=∑∑==为总体群间方差;21212)(11)(1y Y n y Y n M s n i i n i i b--=--=∑∑==为样本群间方差; 2112)()1(1∑∑==--=N i Mj i ij Y y M N S ω为总体平均群内方差; 2112)(11i N i Mj ij Y y nM s --=∑∑==ω为样本平均群内方差; Nnf =为抽样比。
(二)群内、群间差异的定量刻划正如前面所分析的,整群抽样的精度在专门大程度上取决于群内各次级单元间差异程度的大小。
那么如何有效地对分群后各群内次级单元间的差异和各群之间的差异加以测定?也确实是对群内差异和群间差异如何样做定量刻划?通常有两种不同的思路:1、离差平方和的分解——群内方差与群间方差的测定 先分析总体的情形:关于总体,ij y 对Y 离差的总平方和可作如下分解:211211)()(Y Y Y y Y yi i N i Mj ij N i Mj ij-+-=-∑∑∑∑====21211)()(Y Y M Y y Ni i N i M j ij -+-=∑∑∑===式中第一项为群内离差平方和,用其除以))1((-M N 即为平均群内方差,也可直截了当称之为群内方差,用2ωS 表示,则: )1()(2112--=∑∑==M N Y y S iN i M j ij ϖ < )1(-M N 为自由度>式中的第二项为群间离差平方和,用其除以1-N 即为群间方差,用b S 表示,则:1)(1)(12122--=--=∑∑==N Y Y M N Y YM S Ni i N i ib由此,依总体方差的定义及总体离差平方和分解能够得出: ])1()1[(11222ωS M N S N NM S b -+--=同理,可得样本的方差及其分解如下:],)1()1([11222b s n s M n nM s -+--=ω)1()(1122--=∑∑==M n Y y s n i M j i ij ω 1)(1)(12122--=--=∑∑==n y Y M n y Y M s ni i n i i b需要注意的是,由于群的抽取是简单随机的,因此,能够证明2b s 与2ωs 分不是2b S 与2ωS 的无偏估量。
但从次级单元角度而言,样本并不是简单随机的,因此,2s 不是2S 的无偏估量。
2S 的一个无偏估量可构造如下1)1()1(ˆ222--+-=NM s M N s N S b ω当N 充分大时,Ms M s S b 222)1(ˆω-+≈另一方面,当n 也足够大时,2s 可看作是2S 的近似无偏估量。
2、群内有关系数群内有关系数是反映总体中群内各次级单元间有关程度的一个统计分析指标。