抽样调查样本量的确定_侯志强
- 格式:pdf
- 大小:89.45 KB
- 文档页数:2
在社会调查中,如何确定样本规模?
具体每一个社会调查研究究竟应当选择多大规模的样本,主要取决于以下几点:
(1)总体规模:根据抽样原理,样本规模与总体规模越接近,样本值与总体值就越一致,抽样误差就越小,样本的代表性也越强。
但是当总体规模大到一定程度以后,样本规模的加大就不是那么必要了。
因此,对于10000个单位以下的总体来说,样本规模应尽可能大;而对于那些超大型的总体,则可以按照一两万个单位的总体规模来确定样本规模,以避免不必要的浪费。
(2)抽样的精确性:从理论上说,样本的精确度越高越好,但相应的样本规模也要越来越大,这就意味着调查者的时间和人财物力的消耗也要增加好几倍。
而对于大多数社会调查研究来说,实际上并不要求太高的精确度。
因此,调查者应当根据必要性和可能性,适当地确定样本精确度,决不能因一味追求精确度的提高而拼命扩大样本规模,否则将导致巨大的浪费。
(3)总体的异质性程度:要达到同样的精确度,在同质性较高的总体中抽样时,样本规模可以小一些;在异质性较高的总体中,样本规模则应该大一些。
为了提高了样本反映总体的精确度,人们通常用分类抽样的方法将总体划分为不同的类别或层次,让这些不同类别或层次在样本中都有代表,并使得抽样误差中基本不存在类与类之间的误差成
分,而只存在类内各单位之间的误差成分,其效果相当于缩小了总体的异质性程度和单位分布的不均匀状态。
(4)调查者所拥有的经费、人力、物力和时间:尽管从样本的代表性、抽样的精确性考虑,样本规模应尽可能大,但一般调查的经费、人力、物力和时间总是有限的。
样本规模的大小必须与之相匹配,否则或抽样无力完成,或根据抽样结果所做的调查研究无力进行。
生物实验中的抽样方法选择和样本大小确定在生物实验中,抽样方法选择和样本大小的确定是非常重要的步骤。
正确选择抽样方法和确定合适的样本大小,可以保证实验结果的准确性和可靠性。
本文将探讨生物实验中的抽样方法选择和样本大小确定的一些常见策略。
一、抽样方法选择1. 简单随机抽样:简单随机抽样是最基本的抽样方法,每个样本有相同的机会被选中。
这种方法适用于总体分布均匀的情况,如人群中的某种基因型分布。
2. 分层抽样:分层抽样是将总体划分为若干个层次,然后从每个层次中随机选择一部分样本。
这种方法适用于总体具有明显特征的情况,如不同年龄段的动物群体。
3. 系统抽样:系统抽样是按照一定的规则从总体中选择样本,如每隔一定间隔选择一个样本。
这种方法适用于总体中没有明显特征,但有一定的规律性的情况,如植物群落中的植株分布。
4. 整群抽样:整群抽样是将总体分为若干个群体,然后随机选择其中的若干个群体进行抽样。
这种方法适用于总体中群体间差异较大的情况,如不同地理区域的动物种群。
二、样本大小确定确定合适的样本大小是保证实验结果准确性的关键。
样本大小的确定应考虑以下几个因素:1. 效应大小:效应大小是指所研究的变量之间的差异程度。
效应越大,需要的样本大小越小;效应越小,需要的样本大小越大。
2. 显著水平:显著水平是指在假设检验中所允许的错误发生的概率。
常见的显著水平有0.05和0.01。
较严格的显著水平要求需要更大的样本大小。
3. 统计方法:不同的统计方法对样本大小的要求有所不同。
例如,方差分析需要更大的样本大小,而相关分析需要较小的样本大小。
4. 实验设计:实验设计的复杂程度也会影响样本大小的确定。
复杂的实验设计需要更大的样本大小。
在确定样本大小时,可以使用统计软件进行计算,根据以上因素输入相应的参数,得出合适的样本大小。
总结起来,生物实验中的抽样方法选择和样本大小确定是确保实验结果准确性的重要步骤。
正确选择抽样方法和确定合适的样本大小可以提高实验的可靠性和可重复性。
作者: 侯志强[1,2]
作者机构: [1]北方工业大学统计系,北京100041;[2]中国人民大学统计学院,北京100872出版物刊名: 统计与决策
页码: 4-5页
主题词: 中国劳动力调查;样本轮换;两层次样本轮换;轮换模式
摘要:中国劳动力调查采用的两层次样本轮换方法不能使得村级单元的样本量在轮换过程中保持恒定不变,因而需要改进:文章在笔者先前提出的改进方法的基础上,对劳动力调查样本轮换方法作了进一步改进。
在新的改进方法中,村级单元的轮换模式为16in,小区的轮换模式为8in。
抽样检验中样本容量的确定林鹤凯、宋明展、杨琨、孔京生摘要: 在实验工作中,常遇到如何把握采集样本的容量的问题,本文结合实际,从三个方面论述如何求出一个既满足精度,又相对较小的样本容量。
求解的主体思想,为区间估计,即给定区间范围从而求得最佳n 值。
另外,在假设检验中,本文从生产和检验双方考虑,得到两种不同的容量取值方法,在生产中具有一定意义。
根据所做估计,本文用matlab 编程进行了仿真实验。
经失败实验的统计,当n>30的阶段实验,失败实验的次数小于5次,可以说实验的成功率为95%,置信水平在0.05下的实验,从而仿真结果还是真实可信。
关键词:参数检验、假设检验、最佳检验、样本容量、matlab 实验验证 1、问题简述:在实验工作中常遇到问题是如何把握采集样本的容量,如果容量n 太小,估计问题不那么精确,检验问题就不太可靠;容量太大,又会造成人力物力的浪费。
在此我们的就是要结合实际求出一个即满足精度又相对较小的样本容量。
2、问题求解[1]:● 参数估计1、 点估计以正态总体为例,有 ,已知 为其样本。
a 的无偏估计为 ,且 ,若要求 ,其中,δ 是已知常数,则 ,从而使估计可以更精确 。
2、区间估计以正态总体 为例有: 当 已知有 ()/~(0,1)a N ξσ-当 未知有a 的置信水平为1-α的区间估计分别为:● 假设检验(以参数检验为主)1、 参数检验基本思想:2~(,)N a ξσ12n ,,,ξξξ⋅⋅⋅⋅⋅⋅ξ2()/D n ξσ=()D ξδ<2/n σδ>2(,)N a σσσ11()/~n a S t ξ--____/2/2((a u uααξξ+≥≥-____/2/2(1)((1)(t n a t n ααξξ+-≥≥--假设总体(,)N a ξσ,其中σ已知,a 未知,显著水平为α(1)提出假设,如:原假设:a aH = 备选假设1:a a H ≠(2)构造统计量,该统计量满足一个已知的分布,如:__0()/(u a ξσ=-(3)构造拒绝域,如:(0,1)u N 从而/2u u α>2、样本容量n 确定的本质: (1)区间估计(2)根据接收域去求n 的范围,显然n 在满足的范围内越小越好3、原理及方法: (1)双侧检验: 1)假设总体(,)N a ξσ,其中σ未知,a 未知,显著水平为α原假设:a a H = 备选假设10:a a H ≠可以得置信水平为1α-的区间估计 ____/2/2(),()n n u u ααξσξσ⎛⎫-+ ⎪⎝⎭定义/2()n u ασ∆=为估计精度。
抽样调查的样本容量的确定方法抽样调查的样本容量的确定方法摘要:确定样本容量是抽样调查中重要的环节,影响到抽样估计的精确度和调查的成本和效益。
单位标志变异程度、抽样极限误差、抽样推断的可靠度、抽样类型和方法等影响到样本容量地确定。
样本容量的确定可以根据由抽样误差、抽样极限误差和概率度推算出来的公式计算,也可以根据建立在过去抽取满足统计方法要求的样本量所累积下来的经验法则来确定。
关键词:样本容量;抽样调查;抽样误差;极限误差抽样调查是根据随机原则,从总体中抽取部分实际数据构成样本,同时运用概率估计方法,依据样本信息推断总体数量特征的一种非全面统计调查。
根据抽选样本的方法,抽样调查可以分为等概率抽样和非概率抽样两类。
等概率抽样又称为随机抽样,是按照概率论和数理统计的原理,从调查研究的总体中,根据随机原则来抽选样本,并从数量上对总体的某些特征做出估计推断,对推断出可能出现的误差可以从概率意义上加以控制。
样本是从总体中抽出的部分单位的集合,样本中所包含的单位数被称为样本容量,一般用n表示。
确定样本容量是制定抽样调查方案中的一个非常重要的环节。
1.确定样本容量的必要性1.1样本容量大小影响抽样估计的精确度抽样估计的精确度是指样本的统计量与其所代表的总体值的接近程度。
调查结果相对于总体真实值的精确度与样本容量直接相关。
样本容量越大,抽样误差相对就会减少,估计精度就会提高;若样本容量太小,抽样误差就会增大,从而影响抽样估计的精确度。
1.2样本容量大小影响抽样调查的成本和效益样本量的设计通常受到研究经费及调查时间的限制。
根据数理统计规律,样本量增加呈直线递增的情况下(样本量增加一倍,成本也增加一倍),而抽样误差只是样本量相对增长速度的平方根递减。
若样本容量过大,调查单位增多,不仅增加人力、财力和物力的耗费,增加调查费用,而且还影响到抽样调查的时效性,从而不能充分发挥抽样调查的优越性。
因此,为节省调查费用,体现出抽样调查的优越性,在确定样本容量时,应在满足抽样调查对估计数据的精确度的前提下,尽量减少调查单位数,确保必要的抽样数目。
新视角108 经济理论研究抽样调查样本量的确定侯志强1,2 吴启富3(1.北方工业大学,北京100041;2.中国人民大学统计学院,北京100872;3.首都经济贸易大学统计学院,北京100026)摘要:样本量确定是抽样调查中的一个重要内容。
确定样本量需要综合考虑费用与精度。
抽样方式也是影响样本量的一个重要因素。
简单随机抽样估计总体比例确定样本量需要同时考虑两个精度要求,即估计量方差上限与估计量离散系数上限。
分层随机抽样的样本量还受各层样本量分配方式的影响。
复杂抽样的样本量需要借助抽样设计效应才能计算。
样本量经过调整后才能满足实际调查的需要。
关键词:抽样调查;样本量;费用;精度;设计效应一、引言抽样调查是按照随机原则从总体中抽取部分个体进行观察并据此对总体参数作出一定可靠程度推断的科学。
抽取个体的数量称为样本量。
在一定抽样方式下,样本容量越大,估计精度就越高,所需费用也就越大。
因此,样本量受费用与精度的双重制约。
简单随机抽样样本量的确定是其它抽样方式样本量确定的基础。
在简单随机抽样中,经常需要估计几个总体比例,有些总体比例较大,有些则较小,但许多人总是根据估计量方差上限这个唯一的精度要求确定所谓的“保守”样本量,殊不知当所要估计的总体比例很小时,这个“保守”的样本量根本谈不上“保守”。
本文试图解决这个问题,并探讨其它抽样方式下样本量的确定问题。
二、简单随机抽样样本量的确定在简单随机抽样下,若给定费用要求,则可通过费用函数确定样本量。
通常的费用函数为C T =c 0+c 1n (1)其中,C T 表示总费用,c 0表示固定费用,c 1表示调查一个样本单元的平均费用,n 表示样本量。
那么,样本量为n =C T -c 0c 1 (2)通过式(2)可以确定样本量的上限,即总费用所允许的最大样本量,记为n U 。
简单随机抽样的样本量还可通过精度确定,通常规定估计量方差的上限。
例如,已知总体方差为 2,需估计总体均值X —,其简单估计量为样本均值x —,则在重复抽样条件下,估计量方差为D (x —)= 2n (3)若要求估计量x —的方差不许超过常数V ,则有2n≤V (4)从而样本量满足n ≥ 2V (5)通过式(5)可以确定样本量的下限,即精度所允许的最小样本量,记为n L 。
在电视节目中经常看到关于选举的报道中经常会后有支持率的数字,例如:调查结果为■ a万支持率为45.3%;• b方支持率为30.2%; ・c方支持率为8.5%;最后都会说明一下,此次电话调查的数量2352,置信度为95%,最大容许误差为土2.5%这就是抽样调查的典型情景:一个大的集合(比如:数千万选民)做一次调查的成本较高,抽样调查可以低成本的用近似的(可接受的)数据反映实际情况;在用户调研中,也经常通过通过抽样调查的方式并对比打分的方法做评估。
抽样误差:假如相同规模的抽样调查进行多次,抽样均值在真实均值的上下波动,相对于整体均值的偏移波动就是抽样误差,而这个误差的分布是符合标准正态分布的,例如下图:横轴为整体的均值,圆点是每次抽样的均值,而红色那次抽样就是加上误差后都未覆盖到均值线的情况);抽样量需要> 30个才算足够多,可以用以下近似的误差/样本量E2n:为样本量;•一:方差,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采样量越多;E:为抽样误差(可以根据均值的百分比设定),由于是倒数平方关系,抽样误差减小为1/2,抽样量需要增加为4倍;:为可靠性系数,即置信度,置信度为95%时,=1.96,置信度为90%时,=1.645 ,置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%;为了体现相对差距:假设抽样均值为y22Q21D20019D180170160最小抽样量的计算公式:估算公式;—样車20Iff +19—样+18Iff+n IW + w —样畫14 —样木13 —样車12Iff + 9—H48*ff*7I.ft46{樺木5—样*4—禅木3N«2IW+1相对抽样误差 h = E / y 变异系数C= b / y(Z O /2)2C 2h 2以下是基于抽样得分的抽样误差估算表格: 方差越大需要的样本量越多, 需要的抽样量越少;如果是基于胜出率,支持率等:分值为0/1状态分布,公式拟合为心如營—町n 为按照经验得出的最后比例,在未知时n 可取50%待算出结果后再重新拟合,比例越悬殊需要的样本量越少;从而看出大部分的电话抽样调查:95%置信度的情况下,误差要控制在 2%以内取样量一般在2000-5000 ;为了方便计算抽样调查的误差和估算抽样量,制作了一个Excel 表格附后,调整颜色框中的抽样量数字就可以得到相应的误差或根据指定的误差范围估算出抽样量;相对抽样误差(假设:C=0.4)数据离散度越低,。
关于样本结构性偏差的校准加权调整方法的探讨金勇进1薛芳2 侯志强3(1.2.中国人民大学统计学院,北京,100872;3.北方工业大学,北京,100041;)摘要:校准估计是基于事后分层的加权调整估计,用于解决大规模调查中调查样本与总体存在结构性偏差的问题。
本文系统总结了校准估计的方法,特点。
以及校准估计与事后分层,广义回归估计,广义搜寻比率估计的关系。
关键词:校准估计; 完全事后分层; 广义回归估计Calibration Weighting Adjusment for Constructive bias of Sample in Survey SamplingJIN YONGJIN, XUE FANG, HOU ZHIQIANG(School of statistics ,Renmin University of China,Beijing,100872;North China University ofTechnology,Beijing,100041)Abstract: Calibration estimation, a method of weighting adjustment based on post-stratification, is often applied when constructive bias exists between survey sample and population. In this paper it is discussed systematically about Calibration estimation and its relation with post-stratification estimation, generalized regression estimation and generalized raking ratio estimation.Key: Calibration Estimation; Complete Post-stratification; Generalized Regression Estimation抽样调查中利用辅助信息改进估计的方法很多,比如事后分层估计,广义回归估计等。
其中,为固定费用,与样本量无关;为平均每一样本单位需要的调查经费。
由此解出的样本量,可以作为经费约束的一个基本条件。
二、简单随机抽样样本量的测度方法1.基本公式在简单随机抽样的条件下,我们所使用的确定调查样本量的公式为:其中:n代表所需要样本量;Z表示置信水平下的Z统计量,如95%置信水平的Z统计量为1.96,99%的Z为2.68;S代表总体的标准差;d代表置信区间的1/2,在实际应用中就是容许误差,或者调查误差。
对于比例型变量,确定样本量的公式为:其中:n表示样本量;z表示置信水平下的z统计量,如95%置信水平的Z统计量为1.96,99%的为2.68;p表示目标总体的比例期望值;d表示置信区间的半宽,即调查误差。
2.公式的应用一些参数是我们可以事先确定的:Z值取决于置信水平,通常我们可以考虑α=95%的置信水平,那么Z=1.96;或者取α=99%,Z=2.68。
然后可以确定容许误差d(或者说精度),即我们可以根据实际情况指定置信区间的半宽度d。
因此,公式应用的关键是如何确定总体的标准差S。
如果我们可以估计出总体的方差(标准差),那么我们可以根据公式计算出样本量。
比如,要了解某城市的居民收入,假定我们知道该市居民收入的标准差为1000,要求的调查误差不超过100元,则在95%的置信水平下,所需的样本量为即需要调查的样本量为385个。
3.最大样本量的讨论以上公式只是理论上的,在实际调查中确定合理的样本量,必须考虑多方面的因素。
首先,由于人们通常缺乏对标准差的感性认识,因此对标准差的估计往往是比较困难的。
总体的标准差是123,还是765?如果没有一点对样本的先验知识,那么对标准差的估计是不可能的。
好在我们通常能对变量的平均值进行估计,如我们通过历史资料估计该地区目前的年人均收入大致为10,000元,那么根据统计学知识,我们引入变异系数的概念:变异系数V=标准差S/平均值X<=1因此,我们知道人均收入的标准差应该小于平均值,就是说标准差应该在10000以下。
抽样方法与样本含量的确定在设计一个抽样调查时,我们通常需要做的工作是:定义总体及抽样单元、确定或构置抽样框、选择抽样技术、确定样本量的大小、制定实施细节并实施。
这里我们着重介绍一下定量研究的抽样方法和样本量这两个技术环节。
最基本的定量研究的抽样方法分为两类,一类为非概率抽样,一类为概率抽样。
一、非概率抽样非概率抽样是不能计算抽样误差的,因为它是靠调研者个人的判断来进行的抽样。
它包括偶遇抽样或者方便抽样、判断抽样、配额抽样、雪球抽样等。
偶遇抽样(方便抽样)常见的未经许可的街头随访或拦截式访问、邮寄式调查、杂志内问卷调查等都属于偶遇抽样的方式。
偶遇抽样是所有抽样技术中花费最小的(包括经费和时间)。
抽样单元是可以接近的、容易测量的、并且是合作的。
但尽管有许多优点,这种形式的抽样还是有严重的局限性。
许多可能的选择偏差都会存在,如被调查者的自我选择、抽样的主观性偏差等。
这种抽样不能代表总体和推断总体。
因此,当我们在进行街头访问或邮寄调查时,一定要谨慎对待调查结果。
判断抽样判断抽样是基于调研者对总体的了解和经验,从总体中抽选"有代表性的""典型的"单位作为样本,例如从全体企业中抽选若干先进的、居中的、落后的企业作为样本,来考察全体企业的经营状况。
如果判断准,这种方法有可能取得具有较好代表性的样本,但这种方法受主观因素影响较大。
配额抽样配额抽样是根据总体的结构特征来给调查员分派定额,以取得一个与总体结构特征大体相似的样本,例如根据人口的性别、年龄构成来给调查员规定不同性别、年龄的调查人数。
配额保证了在这些特征上样本的组成与总体的组成是一致的。
一旦配额分配好了,选择样本元素的自由度就很大了。
唯一的要求就是所选的元素要适合所控制的特性。
这种抽样方法的目的是使样本对总体具有更好的代表性,但仍不一定能保证样本就是有代表性的。
如果与问题相关联的某个特征未被考虑进配额,配额样本可能就不具有代表性,但在实施中包括太多的控制特征是十分困难的。
新视角108 经济理论研究抽样调查样本量的确定侯志强1,2 吴启富3(1.北方工业大学,北京100041;2.中国人民大学统计学院,北京100872;3.首都经济贸易大学统计学院,北京100026)摘要:样本量确定是抽样调查中的一个重要内容。
确定样本量需要综合考虑费用与精度。
抽样方式也是影响样本量的一个重要因素。
简单随机抽样估计总体比例确定样本量需要同时考虑两个精度要求,即估计量方差上限与估计量离散系数上限。
分层随机抽样的样本量还受各层样本量分配方式的影响。
复杂抽样的样本量需要借助抽样设计效应才能计算。
样本量经过调整后才能满足实际调查的需要。
关键词:抽样调查;样本量;费用;精度;设计效应一、引言抽样调查是按照随机原则从总体中抽取部分个体进行观察并据此对总体参数作出一定可靠程度推断的科学。
抽取个体的数量称为样本量。
在一定抽样方式下,样本容量越大,估计精度就越高,所需费用也就越大。
因此,样本量受费用与精度的双重制约。
简单随机抽样样本量的确定是其它抽样方式样本量确定的基础。
在简单随机抽样中,经常需要估计几个总体比例,有些总体比例较大,有些则较小,但许多人总是根据估计量方差上限这个唯一的精度要求确定所谓的“保守”样本量,殊不知当所要估计的总体比例很小时,这个“保守”的样本量根本谈不上“保守”。
本文试图解决这个问题,并探讨其它抽样方式下样本量的确定问题。
二、简单随机抽样样本量的确定在简单随机抽样下,若给定费用要求,则可通过费用函数确定样本量。
通常的费用函数为C T =c 0+c 1n (1)其中,C T 表示总费用,c 0表示固定费用,c 1表示调查一个样本单元的平均费用,n 表示样本量。
那么,样本量为n =C T -c 0c 1 (2)通过式(2)可以确定样本量的上限,即总费用所允许的最大样本量,记为n U 。
简单随机抽样的样本量还可通过精度确定,通常规定估计量方差的上限。
例如,已知总体方差为 2,需估计总体均值X —,其简单估计量为样本均值x —,则在重复抽样条件下,估计量方差为D (x —)= 2n (3)若要求估计量x —的方差不许超过常数V ,则有2n≤V (4)从而样本量满足n ≥ 2V (5)通过式(5)可以确定样本量的下限,即精度所允许的最小样本量,记为n L 。
当n L ≤n U 时,样本量可取n L 与n U 之间的任何值;当n L >n U 时,必需认真权衡费用与精度,若费用更重要,则取n U ;否则,取n L。
若需要估计总体比例P ,则其简单估计量为样本比例p ,在重复抽样条件下,估计量方差为D (p )=P (1-P )n (6)若要求估计量P 的方差不许超过常数V ,则有P (1-P )n≤V (7)从而样本量满足n ≥P (1-P )V (8)容易知道,P (1-P )在P =0.5时取到最大值0.25,从而可得一个“保守”的样本量n a =0.25V (9)许多人正是根据式(9)来确定所谓的“保守”样本量,但对于较小的总体比例P ,这个“保守”样本量从估计量离散系数的角度看根本谈不上“保守”。
详述如下:已知估计量p 的离散系数为C V (p )=D (p )P =1-Pn P (10)从式(10)可以看出,当n 取“保守”的样本量n a 时,随着总体比例P 从1到0变化,估计量的离散系数C V (p )逐渐增加。
不难想象,当P 小到一定程度时,C V (p )将大到不能容忍的程度。
一个自然的修正方法是:除根据估计量的方差上限确定样本量外,再根据估计量的离散系数上限确定样本量,然后取两者中较大者。
设最小的总体比例P =P L ,限定估计量p 的离散系数不许超过常数C 。
则根据式(10),可得另一个“保守”的样本量n b =1-PC 2P L (11)这样,取这两个“保守”样本量的较大者,即n =m a x (n a ,n b ) (12)新视角经济理论研究109 则可同时满足估计量方差上限与估计量离散系数上限这两个精度要求。
当总体比例P 特别小且又得不到较可靠的估计p 时,利用式(9)或式(11)计算的样本量不太令人满意,这是因为n a 对于p 的波动非常敏感,p 的较小波动会导致n a 的较大波动。
逆抽样方法可以解决这个问题。
逆抽样方法要求事先确定一个较小的正整数m (m 越大,估计精度就越高),然后进行简单随机抽样,直到抽中m 个具有所考虑特征的单元为止。
设此时样本量为n ,容易知道,n 是一个随机变量,且近似服从负二项分布,其期望为E (n )=mP (13)三、分层随机抽样样本量的确定在分层随机抽样中,由于各层的总体方差不同,单位调查费用也不同,所以,各层样本量的分配既影响总费用又影响估计精度。
在样本量一定的情况下,要使估计量方差达到最小,可以证明各层的样本量应为n h =n W h S h c h∑L h =1W h S h c h (h =1,2,…,L ) (14)其中,h 为层的编号,L 为层的个数,n h 为第h 层的样本量,n 为总样本量,W h 为第h 层的总体单位数占各层总体单位数之和的比例,S h 为第h 层的标准差,c h 为第h 层每调查一个单位的平均费用。
假设总费用函数为C T =c 0+∑Lh =1n h c h (15)则将式(14)代入式(15)可解得总样本量为n =(C T -c 0)W h S h c h∑Lh =1W h S h c h (16)式(16)所确定的样本量既能满足总费用要求,又使得估计精度最高。
四、复杂抽样样本量的确定复杂抽样的估计量方差通常不容易用常规方法导出,因此,样本量就不能用常规方法得到。
事实上,对于复杂抽样,常采用下式计算样本量n c =n ·d e f f (17)其中n c为复杂抽样的样本量,n 为相同精度下简单随机抽样的样本量,d e f f 为复杂抽样的设计效应,其定义为d e f f =所考虑复杂抽样估计量的方差相同样本量下简单随机抽样估计量的方差d e f f 通常采用经验法或历史数据法等估计。
以美国的C P S (C u r r e n t P o p u l a t i o n S u r v e y )为例说明复杂抽样样本量的确定过程。
C P S 抽样设计极其复杂。
其主体部分是分层两阶段抽样,第一阶段采用分层P P S 抽样抽取初级抽样单元(P S U ),第二阶段采用整群系统抽样抽取最终抽样单元(U S U )。
当实际产生的U S U 过大时,还需要进行第三阶段抽样。
C P S 对全国失业率估计的精度要求是离散系数不许超过1.8%。
假定全国失业率的下限P L =5%则根据式(11)可以确定简单随机抽样的样本量n b =58642人,即需调查58642个经济活动人口。
按每户两个经济活动人口折算,共需调查29321户家庭。
根据历史数据,d e f f 值在1.3左右,因此,C P S 的样本量应为29321×1.3=38118户。
五、样本量的调整抽样调查不可避免存在无回答现象,所以,实际调查中,必须对上述样本量进行调整。
调整公式为调整后样本量=调整前样本量有效回答率在C P S 中,假如有效回答率为75%,则调整后样本量应为50824户,这个数字与实际调查的样本量5万户十分接近。
六、结论样本量的确定过程本质上是费用与精度的权衡过程。
在简单随机抽样需要估计多个总体比例时,对于较大的总体比例,宜用估计量方差上限确定样本量,对于较小的总体比例,宜用估计量离散系数上限确定样本量,然后取这两个样本量中的较大者作为调查的样本量。
分层随机抽样的样本量还受各层样本量分配方式的影响。
复杂抽样的样本量等于相同精度下简单随机抽样的样本量乘以复杂抽样的设计效应。
实际调查中必须按照有效回答率对样本量进行调整。
参考文献:[1]孙山泽.抽样调查[M ].北京:北京大学出版社.2004.2.[2]倪家勋主译,孙山泽校译.抽样调查[M ].北京:中国统计出版社,1997.10.[3]冯士雍,倪加勋,邹国华.抽样调查原理与方法[M ].北京:中国统计出版社,1998.3.[4]金勇进,蒋妍,李序颖.抽样技术[M ].北京:中国人民大学出版社,2002.6.[5]杜子芳.抽样技术[M ].北京:中国统计出版社,2004.11.[6]W i l l i a mG .C o c h r a n ,《S a m p l i n g T e c h n i q u e s 》[M ].3r d e d i -t i o n ,J o h n W i l e y &S o n s ,1977.[7]U .S .C e n s u s B u r e a u a n d B u r e a u o f L a b o r S t a t i s t i c s ,C u r r e n tP o p u l a t i o n S u r v e y ,D e s i g n a n dM e t h o d o l o g y [J ],T e c h n i c a l P a p e r 63R V ,2002.3.作者简介:1.侯志强,北方工业大学统计学系讲师,中国人民大学统计学院博士,研究方向:抽样技术。
2.吴启富,首都经济贸易大学统计学院副教授,首都经济贸易大学硕士毕业,研究方向:经济统计。