(抽样检验)第七章整群抽样
- 格式:doc
- 大小:680.69 KB
- 文档页数:17
第七章综合练习题一、单项选择题1.抽样调查的目的在于()①了解总体的基本情况②用样本指标推断总体指标③对样本进行全面调查④了解样本的基本情况2.抽样调查所特有的误差是()①由于样本的随机性而产生的误差②登记误差③系统性误差④①②③都错3.抽样调查和重点调查的主要区别是()①选取调查单位的方式不同②调查的目的不同③调查的单位不同④两种调查没有本质区别4当可靠度大于0.6827时,抽样极限误差()①大于抽样平均误差②小于平均误差③等于抽样平均误差④与抽样平均误差的大小关系依样本容量而定5.有一批灯泡共1000箱,每箱200个,现随机抽取20箱并检查这些箱中全部灯泡,此种检验属于()①纯随机抽样②类型抽样③整群抽样④等距抽样6.当总体单位不很多且各单位间差异较小时宜采用()①类型抽样②纯随机抽样③整群抽样④两阶段抽样7.在抽样推断中,抽样误差是()①可以避免的②可避免且可控制③不可且无法控制④不可避免但可控制8.在其他条件不变的情况下,抽样单位数越多,则()①系统误差越大②系统误差越小③抽样误差越大④抽样误差越小9.假定10亿人口大国和100万人口小国的居民年龄变异程度相同,现在各自用重复抽样方法抽取本国的1‰人口设计者,则抽样误差()①两者相等②前者大于后者③前者小于后者④不能确定10.某地有2万亩稻田,根据上年资料得知其中平均亩产的标准差为50公斤,若以95.45%的概率保证平均亩产的误差不超过10公斤,应抽选()亩地作为样本进行抽样调查。
①100 ②250 ③500 ④1000二、多项选择题1.抽样调查的特点有()①按随机原则抽取样本单位②把握程度大小③以样本指标推断总体指标④抽样误差可以计算和控制⑤以上都对2.抽样调查适用于下列哪些场合()①不宜进行全面调查而又要了解全面情况②工业产品质量检验③调查项目多、时效性强④只需了解一部分单位的情况⑤适用于任何调查3.确定样本容量时应考虑的因素有()①极限误差大小②全面性检验③取样方式④抽样的组织形式⑤被研究标志变异程度4.区间估计中总体指标所在范围()①是一个可能范围②是绝对可靠的范围③不是绝对可靠的范围④是有一定把握程度的范围⑤是毫无把握的范围5.概率度是指( )①置信概率 ②以抽样平均误差为单位 ③是样本指标与总体指标的绝对误差范围④表示极限误差是平均误差的几倍 ⑤是表明抽样估计可靠程度的一个参数三、计算题1.某地区为了解职工家庭的收入情况,从本地区3000户家庭中,按不重复抽样的方法抽取300户职工家庭进行调查,调查结果如表1:(1误差为多少?(2)若又从抽样资料知,月平均收入在800元以上的户数的比重为20%,故月收入在800元以上成数抽样平均误差为多少?2.已知某种球体直径服从x ~N (),未知,某位科学家测量到的一个球体直径的5次记录为:6.33,6.37,6.36,6.32和6.37厘米,试估计。
(抽样检验)第七章整群抽样第七章整群抽样第壹节整群抽样概述壹、整群抽样的概念整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取壹部分群,对中选群内的所有单元进行全面调查。
确切地说,这种抽样组织形式应称为单级整群抽样。
如果总体中的单元能够分成多级,则能够对前几级单元采用多阶抽样,而在最后壹阶中对该阶抽样单元所包含的全部个体(最基本单元)进行调查,这种抽样称作多级整群抽样。
本章只讨论单级整群抽样。
设总体被划分为N群,第i群含有Mi个次级单元,全部总体次级抽样单元数记为M0,即M0=∑M i。
当诸Mi都相等时,称为等群;否则,称为不等群。
采用整群抽样的俩个理由:-抽选群能大大降低数据收集的费用,当总体的分布比较广且调查采用面访时更是如此;-从总体中直接抽选个体在实际中且不总是可行的(没有关于个体的抽样框);有时,抽选单元组成群体组更简便易行(如整个住户)。
整群抽样包括俩步:首先,总体被分为群;然后,在总体中抽取群的样本且访问群中的所有单元。
如果总体单元是自然分成组或群的,创建壹个这种关于群的抽样框且对它们进行抽样比创建总体中所有单元的名录框更为容易。
或者,无法得到关于总体中所有单元的名录框,但却有这些单元分布地域的地图,因而能够创建地域框。
群的抽取能够采用简单随机抽样、系统抽样或PPS抽样等各种不同的方法。
二、群的划分问题整群抽样策略的统计效率取决于群内单元的相似程度有多大,每个群中有多少单元,及抽中群的数量。
同分层抽样壹样,整群抽样的前提是先要对总体进行分群。
关于群的划分,有俩个问题:壹是如何定义群,即当群且非是壹个自然形成的单位时,确定每个群的组成;二是如何确定群的规模即群的大小。
分层抽样是在各层都进行随机抽样,“层是缩小了的总体”,抽样单元仍然是总体基本单元。
这决定了分层的原则是:尽量缩小层内差异,而扩大层间差异。
而整群抽样只是在各群之间抽取壹部分群进行调查,且在抽中的群内作全面调查。
第七章抽样一、抽样与抽样调查抽样:是一种选择调查对象的程序和方法。
抽样调查:就是从研究对象的整体中选出一部分代表加以调查研究,然后用所得结果推论和说明总体的特征。
优点:社会学中第一次采用抽样方法的调查是A.L.Bowleg于第一次世界大战前在英格兰和威尔士所做的五城镇调查。
二战后,随着计算机技术的发展抽样调查法得到迅速推广,目前已成为社会调查的主流。
与整体调查(普查)比,抽样调查具有下列优越性。
第一、调查费用低。
抽样调查由于调查的仅仅是整体的一部分,因此,所需费用较整体调查低。
例如,我国第三次人口普查,动用普查人员710万,正式调查期间还动员了1000万干部群众参加,耗资约4亿元。
第二、速度快。
时间往往是最重要的,特别是某些社会现象需要及时了解,随时掌握。
第三、范围广。
由于上述两个特点,抽样调查可广泛用于各个领域,各种课题。
第四、可获得内容丰富的资料。
普查通常只了解少量项目,无法进行深入分析。
例如人口普查,我国1953年的第一次人口普查,只有姓名与户主的关系、性别、年龄、民族、住址六个项目,1982年的第三次人口普查,调查项目也只增加到19个。
第五、准确性高。
整体调查往往需要大批访问员,而这些访问员,有许多是缺乏经验和专业训练的,这往往会降低调查质量。
4、注意事项:抽样调查的成功首先要求所选取的样本能够代表总体,所谓代表性就是说,所选取的样本从调查要研究的总体特征看,能再现总体的结构。
在社会研究中,任何个体之间都存在着差异,任何部分都无法完全代表总体,因此,无论采用什么样的选取部分的方法,无论做得多么仔细,没有也不可能抽出毫无偏差的代表总体的所有特点和关系的样本。
这也就是说,在用样本来概括总体时,总要有误差,它的大小可以反映出样本代表性的高低。
对于研究人员来说,重要的不是没有误差,而是能知道误差的大小和控制它的大小。
有两个因素可以减少抽样误差。
首先,大样本比小样本产生的误差小。
其次,从同质的总体中抽取样本比从异质总体中抽取样本所产生的抽样误差要小。
(标准抽样检验)第七章整群抽样第七章整群抽样第一节整群抽样概述一、整群抽样的概念整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取一部分群,对中选群内的所有单元进行全面调查。
确切地说,这种抽样组织形式应称为单级整群抽样。
如果总体中的单元可以分成多级,则可以对前几级单元采用多阶抽样,而在最后一阶中对该阶抽样单元所包含的全部个体(最基本单元)进行调查,这种抽样称作多级整群抽样。
本章只讨论单级整群抽样。
设总体被划分为N群,第i群含有Mi个次级单元,全部总体次级抽样单元数记为M0,即M0=∑M i。
当诸Mi都相等时,称为等群;否则,称为不等群。
采用整群抽样的两个理由:-抽选群能大大降低数据收集的费用,当总体的分布比较广且调查采用面访时更是如此;-从总体中直接抽选个体在实际中并不总是可行的(没有关于个体的抽样框);有时,抽选单元组成群体组更简便易行(如整个住户)。
整群抽样包括两步:首先,总体被分为群;然后,在总体中抽取群的样本并访问群中的所有单元。
如果总体单元是自然分成组或群的,创建一个这种关于群的抽样框并对它们进行抽样比创建总体中所有单元的名录框更为容易。
或者,无法得到关于总体中所有单元的名录框,但却有这些单元分布地域的地图,因而可以创建地域框。
群的抽取可以采用简单随机抽样、系统抽样或PPS抽样等各种不同的方法。
二、群的划分问题整群抽样策略的统计效率取决于群内单元的相似程度有多大,每个群中有多少单元,及抽中群的数量。
同分层抽样一样,整群抽样的前提是先要对总体进行分群。
关于群的划分,有两个问题:一是如何定义群,即当群并非是一个自然形成的单位时,确定每个群的组成;二是如何确定群的规模即群的大小。
分层抽样是在各层都进行随机抽样,“层是缩小了的总体”,抽样单元仍然是总体基本单元。
这决定了分层的原则是:尽量缩小层内差异,而扩大层间差异。
而整群抽样只是在各群之间抽取一部分群进行调查,并在抽中的群内作全面调查。
第七章 抽样调查一、本章重点1.抽样调查也叫做抽样推断或参数估计,必须坚持随机抽样的原则。
它是一种非全面调查,其意义在于对总体的推断上,存在可控制性误差。
是一种灵活快捷的调查方式。
2.抽样调查有全及总体与样本总体之区分。
样本容量小于30时一般称为小样本。
对于抽样调查来讲全及总体的指标叫做母体参数,是唯一确定的未知的量,样本指标是根据样本总体各单位标志值计算的综合性指标,是样本的一个函数,是一个随机变量,抽样调查就是要用样本指标去估计相应的总体指标。
样本可能数目与样本容量有关也与抽样的方法有关。
抽样方法可以分为考虑顺序的抽样与不考虑顺序的抽样;重复抽样与不重复抽样。
3.大数定律、正态分布理论、中心极限定理是抽样调查的数理基础。
正态分布的密度函数有两个重要的参数(σ;x )。
它有对称性、非负性等特点。
中心极限定理证明了所有样本指标的平均数等于总体指标如X x E =)(。
推出了样本分布的标准差为:1--=N n N n x σμ。
4.抽样推断在逻辑上使用的是归纳推理的方法、在方法上使用的是概率估计的方法、存在着一定误差。
无偏性、一致性和有效性是抽样估计的优良标准。
抽样调查既有登记性误差,也有代表性误差,抽样误差是一个随机变量,而抽样的平均误差是一个确定的值。
抽样误差受总体标志值的差异程度、样本容量、抽样方法、抽样组织形式的影响。
在重复抽样下抽样的平均误差与总体标志值的差异程度成正比,与样本容量的平方根成反比即n x σμ=,不重复抽样的抽样平均误差仅与重复抽样的平均误差相差一个修正因子即N nn x -=1σμ。
在通常情况下总体的方差是未知的,一般要用样本的方差来代替。
把抽样调查中允许的误差范围称作抽样的极限误差x ∆或p ∆。
μt =∆,用抽样的平均误差来度量抽样的极限误差。
把抽样估计的把握程度称为抽样估计的置信度。
抽样的极限误差越大,抽样估计的置信度也越大。
抽样估计又可区分为点估计和区间估计。
一、填空题1.总体参数估计有和两种。
2.抽样调查的组织方式一般有、、和四种。
3.样本指标是一个变量。
4.在简单随机抽样条件下,抽样误差受、和、等因素的影响。
5.在其他条件不变的情况下,抽取单位越多,抽样平均误差。
6.类型抽样的抽样平均误差受方差的影响,而整群抽样的抽样平均误差受方差的影响。
7.抽样调查是按原则抽取样本,用推断的一种非全面调查。
8. 在假设检验中,第Ⅰ类错误就是弃真错误,弃真是指_____状况;第Ⅱ类错误就是纳伪(取伪)错误,纳伪是指______状况。
9.抽样成数是指样本中具有某一标志表现的占的比重。
10.抽样方法按抽取样本的方式不同分为和。
11、正态总体均值的假设检验,H0:u =u0,H1:u≠u0,若总体方差已知,样本量为n,则其检验的统计量为_______,其公式为_________,若显著性水平为a,接受域为_________。
12、假设检验中若其他条件不变,显著性水平a的取值越小,接受H0的可能性______,原假设为真而被拒绝的概率____。
13、假设检验是利用_____资料来检验事先对总体某些数量特征所作的____是否可信的一种统计分析方法。
14、在假设检验过程中,依据显著性水平a 的大小把概率分布划分为两个区间:小于给定标准的概率区间称为_____;大于给定标准的概率区间称为_____。
15、假设一般包括两部分即___和____。
二、判断题1.抽样误差大小与总体各单位标志值的差异程度成正比。
()2.抽样误差大小与样本单位数目的平方根成反比。
()3.不重复抽样的抽样误差小于重量复抽样的抽样误差。
()4.抽样误差范围是一个绝对可靠的范围。
()5.抽样单位数越多,抽样误差越大。
6.通常所说的抽样误差一般是指抽样平均误差。
()7.抽样误差是人的主观因素造成,因此应该避免。
()8.如果不知道总体方差或标准差,就无法计算抽样平均误差。
()9.整群抽样一般采取不重复抽样。
10.纯随机抽样时,所有可能的样本平均数的平均数等于总体平均数。
第七章抽样一、抽样与抽样调查1、抽样:是一种选择调查对象的程序和方法。
2、抽样调查:就是从研究对象的整体中选出一部分代表加以调查研究,然后用所得结果推论和说明总体的特征。
3、优点:社会学中第一次采用抽样方法的调查是A.L.Bowleg于第一次世界大战前在英格兰和威尔士所做的五城镇调查。
二战后,随着计算机技术的发展抽样调查法得到迅速推广,目前已成为社会调查的主流。
与整体调查(普查)比,抽样调查具有下列优越性。
第一、调查费用低。
抽样调查由于调查的仅仅是整体的一部分,因此,所需费用较整体调查低。
例如,我国第三次人口普查,动用普查人员710万,正式调查期间还动员了1000万干部群众参加,耗资约4亿元。
第二、速度快。
时间往往是最重要的,特别是某些社会现象需要及时了解,随时掌握。
第三、范围广。
由于上述两个特点,抽样调查可广泛用于各个领域,各种课题。
第四、可获得内容丰富的资料。
普查通常只了解少量项目,无法进行深入分析。
例如人口普查,我国1953年的第一次人口普查,只有姓名与户主的关系、性别、年龄、民族、住址六个项目,1982年的第三次人口普查,调查项目也只增加到19个。
第五、准确性高。
整体调查往往需要大批访问员,而这些访问员,有许多是缺乏经验和专业训练的,这往往会降低调查质量。
4、注意事项:抽样调查的成功首先要求所选取的样本能够代表总体,所谓代表性就是说,所选取的样本从调查要研究的总体特征看,能再现总体的结构。
在社会研究中,任何个体之间都存在着差异,任何部分都无法完全代表总体,因此,无论采用什么样的选取部分的方法,无论做得多么仔细,没有也不可能抽出毫无偏差的代表总体的所有特点和关系的样本。
这也就是说,在用样本来概括总体时,总要有误差,它的大小可以反映出样本代表性的高低。
对于研究人员来说,重要的不是没有误差,而是能知道误差的大小和控制它的大小。
有两个因素可以减少抽样误差。
首先,大样本比小样本产生的误差小。
其次,从同质的总体中抽取样本比从异质总体中抽取样本所产生的抽样误差要小。
抽样的组织形式为了保证从抽样结果能比较正确的推断出总体的数量特征,抽样时需要尽量遵守随机性原则。
但是,在实践中由于具体条件的影响尤其是总体分布特征等因素的限制,要完全保证随机性原则是很困难的。
因此,在抽样的时候必须根据所研究总体的特征和研究目的的要求,对抽样的程序和方法进行周密的设计和安排,这就称为抽样设计或抽样的组织形式。
常用的组织形式有简单随机抽样、类型抽样、等距抽样、整群抽样、多阶段抽样等。
一、简单随机抽样(一)简单随机抽样的含义简单随机抽样又称纯随机抽样,不对总体做任何加工整理,按随机原则直接从总体中抽取调查单位的一种抽样调查方式。
简单随机抽样是最常用的一种抽样方式,但它必须满足两个条件:一是代表性,即要求样本分部与总体分布相同;而是独立性,即要求样本各单位相互独立。
简单随机抽样操作简单,易于掌握。
当总体单位数较少且标志变异程度不大时,或具有某种特征的单位均匀的分布在总体各部分时,可以采用这种组织形式;当总体标志变异程度较大时,这种方法所抽取的样本可能缺乏代表性,抽样误差就会较大。
(二)简单随机抽样的方法1、直接抽取法就是直接从调查对象中随即抽选。
例如:从水池中直接抽选一定数量的水进行化验;从仓库的不同位置抽取一定数量的产品样本进行检验等。
2、抽签法首先将总体单位按自然数的顺序编号为……N,即总体共有几个总体单位就编几个标签。
然后将这些标签摇匀,根据需要按重复抽样和不重复抽样的方法,从中随即抽取n个标签作为样本单位进行研究。
3、随机数字表法这种方法首先要对总体各单位进行编号,然后在随机数字表中任选一个数字开始向任何方向数,遇到属于总体单位编号范围内的数字号码就确定为样本单位,一直到抽够预定的单位数为止。
若是不重复抽样,则碰上重复的数字就舍去,并继续往下数。
举例:二、类型抽样(一)类型抽样的含义类型抽样又叫分层抽样或分类抽样。
是先将总体单位按一定的标志分组,然后在各组中随机抽取样本的抽样组织方式。
第七章整群抽样第一节整群抽样概述一、整群抽样的概念整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取一部分群,对中选群内的所有单元进行全面调查。
确切地说,这种抽样组织形式应称为单级整群抽样。
如果总体中的单元可以分成多级,则可以对前几级单元采用多阶抽样,而在最后一阶中对该阶抽样单元所包含的全部个体(最基本单元)进行调查,这种抽样称作多级整群抽样。
本章只讨论单级整群抽样。
设总体被划分为N群,第i群含有Mi个次级单元,全部总体次级抽样单元数记为M0,即M0=∑M i。
当诸Mi都相等时,称为等群;否则,称为不等群。
采用整群抽样的两个理由:- 抽选群能大大降低数据收集的费用,当总体的分布比较广且调查采用面访时更是如此;- 从总体中直接抽选个体在实际中并不总是可行的(没有关于个体的抽样框);有时,抽选单元组成群体组更简便易行(如整个住户)。
整群抽样包括两步:首先,总体被分为群;然后,在总体中抽取群的样本并访问群中的所有单元。
如果总体单元是自然分成组或群的,创建一个这种关于群的抽样框并对它们进行抽样比创建总体中所有单元的名录框更为容易。
或者,无法得到关于总体中所有单元的名录框,但却有这些单元分布地域的地图,因而可以创建地域框。
群的抽取可以采用简单随机抽样、系统抽样或PPS抽样等各种不同的方法。
二、群的划分问题整群抽样策略的统计效率取决于群内单元的相似程度有多大,每个群中有多少单元,及抽中群的数量。
同分层抽样一样,整群抽样的前提是先要对总体进行分群。
关于群的划分,有两个问题:一是如何定义群,即当群并非是一个自然形成的单位时,确定每个群的组成;二是如何确定群的规模即群的大小。
分层抽样是在各层都进行随机抽样,“层是缩小了的总体”,抽样单元仍然是总体基本单元。
这决定了分层的原则是:尽量缩小层内差异,而扩大层间差异。
而整群抽样只是在各群之间抽取一部分群进行调查,并在抽中的群内作全面调查。
因此,群间差异的大小直接影响到抽样误差的大小,而群内差异的大小则不影响抽样误差。
在这里抽样单元是各个不同的群体,所以“群实际上是扩大了的总体单元”。
所以,对于前一个问题,群的划分应该是:尽量扩大群内差异,而缩小群间差异。
按此原则分群,则能保证每个群对总体都具有足够好的代表性。
作为极端情况,假定各群之间总体单元的分布完全相同,即群间不存在任何差异,那么只需抽取一个群进行调查就能充分满足抽样估计精确度的要求,整群抽样的效率就很高。
这就是说,整群抽样特别适合于群内差异大、而群间差异小的情况。
这样,每个群都具有足够好的代表性。
如果所有的群都相似,那么抽少数群就可获得相当好的精度;反之,若群内的单元比较相似,而群与群之间的差别较大,则整群抽样的效率就低。
所以分群的原则使“群内差异大、群间差异小”与分层的原则使“层内差异小,层间差异大”是恰好相反的。
然在使用自然群时,同一个群内的单元通常非常相似,从而导致这种抽样策略的效率比简单随机抽样低。
下图直观表明了理想的分群与分层,其中同一字母表示观测值相近的单元。
至于群的规模的选择,一是取决于精度与费用之间的平衡,二是从抽样实施的组织管理等因素来考虑。
当相邻单元相似时,抽数量较多的小群比抽少量较大的群的统计效率高。
然而,如果采用面访,样本的分布越广,调查的费用越高。
这表明:群的规模选得大,则费用省而精度差;群的规模选得小,则精度高而费用大。
所以,需要选择最优的群数量和大小,同时使总费用最小。
这方面除了依靠实践经验外,还可对假定的方差函数与费用函数作理论上的最优选择。
整群抽样可能有一些具体的困难。
如果用地图作为地域框,可能很难决定某个住所是否在一个特定的群内。
必须建立一个基本的原则以决定哪些单元在一个群内。
例如,规定“住所属于它的正门所在的群”这么一条原则,就能解决大多数问题。
如果一个住所似乎平等地跨越两个群,则采用掷硬币的方法来确定,以避免产生任何抽选的偏差。
三、整群抽样的特点同其他抽样组织形式相比较,整群抽样具有如下特点:1.在大规模抽样调查中,常常没有或很难编制出包括总体所有次级单元在内的抽样框,而整群抽样则不需要编制庞大的抽样框。
当总体单元自然聚合成群(例如:住户、学校)时,整群抽样比简单随机抽样或系统抽样更容易。
2.在样本单元数相同的条件下,整群抽样与简单随机抽样相比,样本单元的分布相对较集中,虽然样本的代表性较差,但调查组织实施过程更加便利,同时还可以大大地节省调查费用。
因此,实际工作中,在权衡费用和精度之后,有时宁可适当增加一些样本单元数,也采用整群抽样方法。
如果对于调查变量而言,群内单元差异较大,而不同群的差异较小,整群抽样策略比简单随机抽样的统计效率更高。
(例如为估计性别比采用按户的整群抽样)。
3.整群抽样的随机性体现在群与群间不重叠,也无遗漏,群的抽选按概率确定。
4.如果把每一个群看作一个单位,则整群抽样可以被理解为是一种特殊的简单随机抽样。
5.整群抽样也是多阶段抽样的前提和基础。
6.整群抽样有特殊的用途。
有些现象的研究,如果直接调查作为基本单元的个体,很难说明问题,必须以一定范围所包括的基本单元为群体,进行整群抽样,才能满足调查的目的。
如人口普查后的复查、要想估计出普查的差错率,只有通过对一定地理区域内的人口群体作全面调查才行。
类似地诸如人口出生率、流动率等调查都需要采用整群抽样。
7.整群抽样要求分群后各群所含次级单元数目应该确知,否则会给抽样推断带来不便。
整群抽样的缺点有:-对调查变量,若群内单元有趋同性,则整群抽样的统计效率比简单随机抽样低,(这正是通常遇到的情况),但对此项效率的损失可通过增加群的抽取个数来弥补;-通常无法提前知道调查总样本量,因为在进行调查前,我们通常不知道一个群内到底有多少个单元;-调查的组织比其他方法复杂;-方差估计可能比简单随机抽样更为复杂。
四、关于群大小的计量整群抽样中,如何有效地对群的大小进行计量,直接关系到抽样估计效率的高低。
研究表明,对群的大小的最优计量尺度是各群在所研究标志上的标志总量大小。
但在实际工作中,它是未知的。
因此通常选择与所研究标志高度线性相关的另一辅助标志作为计量尺度。
为此,要求掌握关于辅助标志的更进一步细致的资料,而这又会带来一系列新的问题,如增加工作量及费用等。
所以,在整群抽样的实际应用中,经常选择以各群所含次级单元数的多少作为群大小的计量尺度。
当各群所含次级单元数相等时,就称群的大小相等;当各群所含次级单元数不相等时,就称群的大小不相等。
整群样本(图示)第二节 等概率整群抽样的情形整群抽样中对群的抽取有多种方式,本节只讨论按简单随机抽样抽群,即等概率抽样,也称PPF 抽样的情形,下节讨论不等概率的情形。
一、预备知识(一)有关符号的涵义N 为总体群数;M 为各群所含次级单元数;ij y 为第i 群中第j 个次级单元的观则值;),,;,,M j N i 21321( NM 为总体所含次级单元总数;nM 为样本所含次级单元总数;Mj ij i y Y 1为第i 群各次级单元观测值总和;M Y Y i i 为第i 群的均值;Ni i Y Y 1为总体各次级单元观测值总和;ni i Y y 1为样本各次级单元观测值总和;N Y N Y Y Ni i 1为总体各群的均值;n y n Y y ni i 1为样本各群的均值;N i Mj ij N i i NM y NM Y NM Y M Y Y 111为总体均值;nM y nM y nM Y M y y n i Mj ij n i i 111为样本均值;N i Mj ij Y y NM S 1122)(11为总体方差; 2112)(11y y nM s n i Mj ij 为样本方差;21212)(11)(1Y Y N Y Y N M S N i i N i i b为总体群间方差; 21212)(11)(1y Y n y Y n M s n i i n i i b为样本群间方差; 2112)()1(1N i Mj i ij Y y M N S 为总体平均群内方差; 2112)(11i N i Mj ij Y y nM s 为样本平均群内方差; Nnf为抽样比。
(二)群内、群间差异的定量刻划正如前面所分析的,整群抽样的精度在很大程度上取决于群内各次级单元间差异程度的大小。
那么如何有效地对分群后各群内次级单元间的差异和各群之间的差异加以测定?也就是对群内差异和群间差异怎样做定量刻划?通常有两种不同的思路: 1、离差平方和的分解——群内方差与群间方差的测定 先分析总体的情况:对于总体,ij y 对Y 离差的总平方和可作如下分解:211211)()(Y Y Y y Y yi i N i Mj ij N i Mj ij21211)()(Y Y M Y yNi i N i Mj ij式中第一项为群内离差平方和,用其除以))1(( M N 即为平均 群内方差,也可直接称之为群内方差,用2S 表示,则:)1()(2112M N Y yS i N i Mj ij< )1( M N 为自由度>式中的第二项为群间离差平方和,用其除以1 N 即为群间方差,用b S 表示,则:1)(1)(12122N Y Y M N Y YM S Ni i Ni ib由此,依总体方差的定义及总体离差平方和分解可以得出:])1()1[(11222S M N S N NM S b同理,可得样本的方差及其分解如下:],)1()1([11222b s n s M n nM s)1()(1122M n Y ys n i Mj i ij1)(1)(12122n y Y M n y YM s ni i ni ib需要注意的是,由于群的抽取是简单随机的,因此,可以证明2b s 与2s 分别是2b S 与2S 的无偏估计。
但从次级单元角度而言,样本并不是简单随机的,因此,2s 不是2S 的无偏估计。
2S 的一个无偏估计可构造如下1)1()1(ˆ222NM s M N s N S b当N 充分大时,Ms M s S b 222)1(ˆ另一方面,当n 也足够大时,2s 可看作是2S 的近似无偏估计。
2、群内相关系数群内相关系数是反映总体中群内各次级单元间相关程度的一个统计分析指标。
是同一群内不同次级单元的观测值对总体均值离差乘积的平均与总体所有次级单元观测值对总体均值离差平方的平均之比,记作C2)())((Y y E Y y Y y E ij ik ij C)(k j21)1)(1())((2SNM M Y y Y y Ni Mkj ik ijC 的取值在]1,11[M范围内。
当0 C 时,表明群完全是随机组成的。
C 值愈大,表明群内的单元愈相似;C 值愈小,则群内单元的差异愈大。