第七章抽样
- 格式:doc
- 大小:228.50 KB
- 文档页数:9
第七章抽样一、抽样与抽样调查1、抽样:是一种选择调查对象的程序和方法。
2、抽样调查:就是从研究对象的整体中选出一部分代表加以调查研究,然后用所得结果推论和说明总体的特征。
3、优点:社会学中第一次采用抽样方法的调查是A.L.Bowleg于第一次世界大战前在英格兰和威尔士所做的五城镇调查。
二战后,随着计算机技术的发展抽样调查法得到迅速推广,目前已成为社会调查的主流。
与整体调查(普查)比,抽样调查具有下列优越性。
第一、调查费用低。
抽样调查由于调查的仅仅是整体的一部分,因此,所需费用较整体调查低。
例如,我国第三次人口普查,动用普查人员710万,正式调查期间还动员了1000万干部群众参加,耗资约4亿元。
第二、速度快。
时间往往是最重要的,特别是某些社会现象需要及时了解,随时掌握。
第三、范围广。
由于上述两个特点,抽样调查可广泛用于各个领域,各种课题。
第四、可获得内容丰富的资料。
普查通常只了解少量项目,无法进行深入分析。
例如人口普查,我国1953年的第一次人口普查,只有姓名与户主的关系、性别、年龄、民族、住址六个项目,1982年的第三次人口普查,调查项目也只增加到19个。
第五、准确性高。
整体调查往往需要大批访问员,而这些访问员,有许多是缺乏经验和专业训练的,这往往会降低调查质量。
4、注意事项:抽样调查的成功首先要求所选取的样本能够代表总体,所谓代表性就是说,所选取的样本从调查要研究的总体特征看,能再现总体的结构。
在社会研究中,任何个体之间都存在着差异,任何部分都无法完全代表总体,因此,无论采用什么样的选取部分的方法,无论做得多么仔细,没有也不可能抽出毫无偏差的代表总体的所有特点和关系的样本。
这也就是说,在用样本来概括总体时,总要有误差,它的大小可以反映出样本代表性的高低。
对于研究人员来说,重要的不是没有误差,而是能知道误差的大小和控制它的大小。
有两个因素可以减少抽样误差。
首先,大样本比小样本产生的误差小。
其次,从同质的总体中抽取样本比从异质总体中抽取样本所产生的抽样误差要小。
第七章抽样本章讨论抽样。
对抽样的统计学原理我们不作详细介绍,重点讨论抽样的过程和具体的操作。
抽样是一项非常重要的技术,在自然科学和社会科学的各个领域广泛运用。
自然科学方面包括化学、天文学、机械工程学和动物学等。
在社会科学研究中,抽样技术可用于实验、调查、内容分析等研究。
7.1 抽样原理7.1.1 为什么要抽样抽样是从一大批研究对象中选出一小群作为研究对象,如从20000人中选出150人。
用抽样方法获得的研究对象称为样本(sample)。
研究中用样本作为具体操作对象比用所有对象要经济得多。
然而研究者感兴趣的不仅仅是样本,他的目的是以小见大,希望把从样本得出的结论推广至全体研究对象。
“管中窥豹,可见一斑”。
数学理论和科学研究的实践业已表明,抽样是非常有效的技术。
如果使用正确,两千多个个体的样本,可有效地代表有两亿个成员的研究对象总体,出错的概率不超过百分之二到四。
这种以小见大,以少胜多并非无稽之谈,而是有缜密的统计学原理为依据,并已一再被经验证据所证实。
并非所有样本都可使结论推而广之,抽取样本必须遵守严密的程序,而且从任何样本得出的结论都必须附带说明,表明其局限性。
7.1.2 总体、个体和抽样框架研究者从一大批研究对象中抽取样本。
这些研究对象是一个个的个体(elements),有时称作个案(cases),可以是个人、群体或组织,也可以是信息、文档,甚至是社会行为(如离婚、吸毒、乱扔垃圾)。
这些都是研究者拟测量或可以测量的事物。
拟定研究对象的全体叫做总体(population)或全域(universe)。
总体是抽样的基础,必须严格界定,没有定义清晰的总体就谈不上抽样。
总体有三个要素:内容、范围和时间。
内容即组成总体的个体单位是什么:人、物还是机构等;范围即总体所处的空间界限,包括地理位置;时间即总体存在的时间界限。
表7.1举例说明了抽样的个体单位(人、企业、医院住院人次、商业广告),地理位置和时间界限。
第七章 抽样调查一、本章重点1.抽样调查也叫做抽样推断或参数估计,必须坚持随机抽样的原则。
它是一种非全面调查,其意义在于对总体的推断上,存在可控制性误差。
是一种灵活快捷的调查方式。
2.抽样调查有全及总体与样本总体之区分。
样本容量小于30时一般称为小样本。
对于抽样调查来讲全及总体的指标叫做母体参数,是唯一确定的未知的量,样本指标是根据样本总体各单位标志值计算的综合性指标,是样本的一个函数,是一个随机变量,抽样调查就是要用样本指标去估计相应的总体指标。
样本可能数目与样本容量有关也与抽样的方法有关。
抽样方法可以分为考虑顺序的抽样与不考虑顺序的抽样;重复抽样与不重复抽样。
3.大数定律、正态分布理论、中心极限定理是抽样调查的数理基础。
正态分布的密度函数有两个重要的参数(σ;x )。
它有对称性、非负性等特点。
中心极限定理证明了所有样本指标的平均数等于总体指标如X x E =)(。
推出了样本分布的标准差为:1--=N n N n x σμ。
4.抽样推断在逻辑上使用的是归纳推理的方法、在方法上使用的是概率估计的方法、存在着一定误差。
无偏性、一致性和有效性是抽样估计的优良标准。
抽样调查既有登记性误差,也有代表性误差,抽样误差是一个随机变量,而抽样的平均误差是一个确定的值。
抽样误差受总体标志值的差异程度、样本容量、抽样方法、抽样组织形式的影响。
在重复抽样下抽样的平均误差与总体标志值的差异程度成正比,与样本容量的平方根成反比即n x σμ=,不重复抽样的抽样平均误差仅与重复抽样的平均误差相差一个修正因子即N nn x -=1σμ。
在通常情况下总体的方差是未知的,一般要用样本的方差来代替。
把抽样调查中允许的误差范围称作抽样的极限误差x ∆或p ∆。
μt =∆,用抽样的平均误差来度量抽样的极限误差。
把抽样估计的把握程度称为抽样估计的置信度。
抽样的极限误差越大,抽样估计的置信度也越大。
抽样估计又可区分为点估计和区间估计。
第七章抽样本章讨论抽样。
对抽样的统计学原理我们不作详细介绍,重点讨论抽样的过程和具体的操作。
抽样是一项非常重要的技术,在自然科学和社会科学的各个领域广泛运用。
自然科学方面包括化学、天文学、机械工程学和动物学等。
在社会科学研究中,抽样技术可用于实验、调查、内容分析等研究。
7.1 抽样原理7.1.1 为什么要抽样抽样是从一大批研究对象中选出一小群作为研究对象,如从20000人中选出150人。
用抽样方法获得的研究对象称为样本(sample)。
研究中用样本作为具体操作对象比用所有对象要经济得多。
然而研究者感兴趣的不仅仅是样本,他的目的是以小见大,希望把从样本得出的结论推广至全体研究对象。
“管中窥豹,可见一斑”。
数学理论和科学研究的实践业已表明,抽样是非常有效的技术。
如果使用正确,两千多个个体的样本,可有效地代表有两亿个成员的研究对象总体,出错的概率不超过百分之二到四。
这种以小见大,以少胜多并非无稽之谈,而是有缜密的统计学原理为依据,并已一再被经验证据所证实。
并非所有样本都可使结论推而广之,抽取样本必须遵守严密的程序,而且从任何样本得出的结论都必须附带说明,表明其局限性。
7.1.2 总体、个体和抽样框架研究者从一大批研究对象中抽取样本。
这些研究对象是一个个的个体(elements),有时称作个案(cases),可以是个人、群体或组织,也可以是信息、文档,甚至是社会行为(如离婚、吸毒、乱扔垃圾)。
这些都是研究者拟测量或可以测量的事物。
拟定研究对象的全体叫做总体(population)或全域(universe)。
总体是抽样的基础,必须严格界定,没有定义清晰的总体就谈不上抽样。
总体有三个要素:内容、范围和时间。
内容即组成总体的个体单位是什么:人、物还是机构等;范围即总体所处的空间界限,包括地理位置;时间即总体存在的时间界限。
表7.1举例说明了抽样的个体单位(人、企业、医院住院人次、商业广告),地理位置和时间界限。
表7.1:总体的例子1.所有年满18岁(含)以上、2016年12月31日居住在上海市市内并有上海市居民户口的成年人,不包括被监禁和劳教人员。
2.所有雇员10人以上、2016年6月在深圳市开业的国外独资企业。
3.从2016年7月1日至2017年6月30日期间江苏省所有县级以上医院收住的病人人次。
4.从2017年1月27日至2月2日期间,中央电视台一套节目在晚间7:00到9:00播放的所有的电视广告。
5.全国在1970年8月至1977年8月期间获得大学专本科医学学历目前仍在从医的人员。
6.2016年云南省所有吸食海洛因的人员。
研究者对研究的总体一般先有一个初步的设想(如一个城市所有的人口),然后对具体的总体再作出更为精确的界定。
最后确定的总体称为对象总体(target population)。
样本的大小和对象总体规模之间的比值叫做抽样比例(sampling ratio)。
假如从一个50000人组成的总体中抽出150人的样本。
抽样比例为150/50000=0.003,或百分之0.3。
假如总体是500,抽取的样本是100,抽样比例则是100/500=0.2,或百分之20。
总体实际上是一个抽象的概念。
为什么总体有具体的数字但却把它看作是抽象的呢?因为除了极小的总体,一般的总体是很难确定准确的规模的。
如一个城市的人口,在任何特定的时刻,它的总量总是在发生变化。
有人降生,有人去世,有人坐各种交通工具进入或者离开。
在我国,一地的人口一般指的是具有户籍的常住人口,在有关的时刻正在外地工作生活的人也算在内。
即便有户籍登记为依据,精确地查明瞬时人口的确切数字也几乎是办不到的事情,各种不确定因素很多。
越是大的城市越是如此。
由于总体是抽象的概念,研究者有必要对总体作出估计。
抽象的概念却需要具体的测量,因此有必要给总体下操作定义。
怎样才能使总体具有可操作性呢?研究者应首先设法开列一个名单,尽可能包括总体中所有的个体。
这个名单就是抽样框架(sampling frame)。
抽样框架包括户籍登记(以住户或个人为个体)、企业名册(把企业作为个体)、手机号码(对象总体所有成员都拥有手机)、学校花名册,等等。
在美国,研究者可使用驾驶执照注册资料作为抽样框架,因为美国的成年人几乎人人都开车。
这点在中国目前还做不到。
要获得成功的样本,好的抽样框架十分关键。
抽样框架与概念上界定的总体如不一致就可能产生无效抽样。
因此,糟糕的抽样框架是抽样出错的主要原因。
然而,要找到完美的抽样框架极不容易,更何况有些对象总体根本没有可供参考的清单。
类似学校花名册这样完美的框架并不多。
在美国,有人把电话号码作为抽样框架,然而美国有很多人不愿公布自己家庭的电话号码,而且电话号码每天都在变动,有人搬进或者搬出某一住处。
除非研究对象就是那些在电话簿上登出号码的人,否则电话号码不能作为框架。
对象总体的任何性质或特点称为总体的参数(parameter),如城市居民吸烟人口的百分比、16岁以上妇女的平均身高。
严格说来,总体的参数只有在检测完所有个体的时候才能获得。
但是对于大型的总体(如一个国家的人口),我们永远无法获得绝对精确的参数。
因此研究者只能依靠样本来估计。
研究者根据从样本获取的信息来推断总体的参数。
有关的统计推断技术我们将在第十六章介绍。
有一个典型的例子可说明正确使用抽样技术的重要性。
早年在美国有一家杂志叫做《文粹》(The Literary Digest)。
1920、1924、1928和1932总统大选前,该杂志分别给选民寄去明信片,询问他们选谁当总统。
他们利用汽车注册登记和电话号码簿做抽样框架。
这四次选举该杂志的预测完全正确,杂志的名声因此大振。
1936年,他们将样本扩大至一千万人,调查结果预测兰登将击败福兰克林·罗斯福。
然而最终却是罗斯福获得了压倒性胜利。
这次预测的错误有几个原因,但最主要的问题出在抽样上。
尽管杂志选择了一个很大的样本,可是样本没能准确代表对象总体,即所有的选民。
他们的抽样框架将当时未拥有汽车和电话的选民排除在外。
在30年代的大萧条中,这种人口的比例在美国高达百分之六十五。
当时这些低收入的人拥护罗斯福当总统。
该杂志先前的成功是由于那时低收入和高收入人群在选择总统上没有大的分歧,而且因为不是处在大萧条中,拥有汽车和电话的人口比例比30年代后期要大。
这个例子告诉我们两点。
首先,抽样框架至关重要。
第二,样本的代表性比它的大小更为重要。
据信,一个有代表性的2500人的样本对全美人口所能作出的预测,要高于一个不具代表性的一千万甚至五千万人的样本。
7.2 非概率抽样根据是否按照概率论的随机原则进行操作,抽样可分为两类: 非概率抽样(non-probability sampling)和概率抽样(probability sampling)。
按照概率论原则所做的抽样有强有力的数学理据,较为精确。
不按概率论原则办事的抽样有局限性和缺陷。
研究者选择后者可能是缺乏时间或身处特殊条件之下,抑或缺少随机抽样的知识。
除非万不得已,研究者都应该使用概率抽样。
7.2.1 简便抽样简便抽样(convenience sampling)会产生没有代表性因而根本无效的样本,建议不要采用。
如果图方便省事随意找来一个样本,那么这种样本可能完全不能代表对象总体。
唯一的好处是代价低、速度快,但由此产生的偏差会引起误导,甚至很严重。
电视台记者带着摄像机和话筒在城市大街上随意采访行人就是这方面的一个例子。
这类受访问者不具有代表性。
譬如这类人不包括不常外出和家住农村很少进城的人。
此外,采访的记者往往选择他们认为“合适”的对象进行采访,忽略那些其貌不扬、年岁较大、或者看上去反应迟钝的人。
再如,有的报纸或杂志要求读者剪下调查问卷填好后从邮局寄去。
并非所有的读者都对有关的主题感兴趣、或者有时间去做剪报的事。
那些感兴趣并有时间应答的人数可能不在少数,如多达数千人。
尽管如此,由此得出的结论不可用来推测总体的看法。
类似的调查结果可作参考,但不可当真,因为它反映的只是感兴趣并有时间应答的人群的观点。
7.2.2 配额抽样配额抽样(quota sampling)较随意抽样是一大改进,但它仍然是抽样的弱类型。
在做配额抽样时,研究者首先确定类别,如男性和女性,30岁以下、30岁至60岁、60岁以上,然后决定每个类别抽取多少个体。
每个类别的人数是固定的,如在一个四十人的样本中,30岁以下男女各5名,30至60岁男女各10人,60岁以上男女各5人。
这种做法和随机分组中的配对相似,无法准确代表总体所有的特性。
由于研究者确保样本反映总体成员之间的一些差异,配额抽样优于随意抽样,因为随意抽样获得的样本可能来自同一年龄同一性别或者同一职业。
然而,使用配额抽样的研究者在确定类别和每类人数以后,有可能使用随意的方法选定具体的人选,如采访他最先遇到的5个30岁以下的女性。
这5个女性在某些方面可能非常相似,比如都是大学生,或是一块逛街的同事。
在随意选择各类别的成员时,研究者同样有可能只挑选那些看上去愿意合作、善于言谈的人。
美国著名的盖洛普民意调查结构,曾准确预测了1936、1940、1944三届美国总统选举,但在1948年却没能成功。
其中一个重要原因是配额类别没能准确代表地方和所有的选民。
配额抽样虽然有缺陷,但它比概率抽样经济,省事,速度快。
在概率抽样中,研究者必须准备抽样框架,并且设法找到特定的个人。
这些人有可能找不到,即便能找到,他们也有可能拒绝合作。
7.2.3 目的或判断抽样定量研究一般避免使用随意抽样和配额抽样。
在特殊情况下,可使用目的抽样(purposive or judgmental sampling)。
研究者头脑中带有特殊的目的、或根据专家的判断来选择个体。
这种方法不适用于选择如“普通大学生”或“一般的学校”。
所选的个体是否具有代表性,研究者不得而知。
这种方法通常用于探索性研究和实地研究。
目的抽样适用于三种情形。
第一,用这种方法可选择那些有特点、有信息价值的个体。
例如,研究者打算调查近期杂志中出现的某个文化主题,有必要作内容分析。
他选择某家流行的妇女杂志作为取材对象,因为这家杂志代表时尚和潮流。
第二,用目的抽样可从那些通常难以接触、特殊的人群总体抽取样本,如卖淫嫖娼者或吸毒者。
把所有卖淫者列出名单然后进行随机抽样无法做到。
研究者因此转而利用其他途径,如卖淫者出没的场所和其他知情人,也可依靠当地的派出所,目的都是为了找到尽可能多的调查对象,形成研究用的“样本”。
七十年代美国有个社会学家叫道格拉斯·哈珀(Douglas Harper), 他与流浪汉交朋友,与他们一同住在长途运行的火车上或贫民窟里,用实地考察方法研究流浪汉。
目的抽样的第三种情形是对某些特别的个体做深入的考察。