第十一章非抽样误差
- 格式:ppt
- 大小:967.50 KB
- 文档页数:35
非抽样误差产生的根源及其控制与补救李宏伟,李武选(长安大学经济与管理学院,西安710064)摘要:如何降低或消除非抽样误差一直是一个让统计理论工作者更是统计实践活动中工作人员头疼的问题,这也是抽样调查必须面临的现实问题。
为了解决非抽样误差这个难题,文章从这一误差的产生根源入手,对非抽样误差的各种情况进行了原因分析,针对具体情况结合实际提出了可能采取的有效控制手段和事后的常用补救措施来克服这一带有根本性的问题。
关键词:非抽样误差;根源;控制;补救措施中图分类号:F222.3;C81文献标识码:A文章编号:1002-6487(2008)17-0162-02非抽样误差是指在抽样调查过程中,由于违背了随机原则,导致抽取样本的计算结果与要推断总体的真实值之间的差异。
这一问题的出现主要集中在抽样设计和实际调查访问中,客观上体现为抽样调查设计过程和调查过程中的主观随意性或工具的系统性偏差或者相关人员缺乏相应知识和实践经验。
1 非抽样误差的根源这一部分误差是由抽样调查者的主观意识人为造成的,我们虽然无法完全杜绝,但是我们却是可以减少甚至是可以避免的。
一般情况下,只要我们考虑的周到,就可以减少此类误差。
在非随机抽样误差中,我们又可以根据非随机抽样的组织形式具体可分为简便抽样(便利抽样)误差;判断抽样误差;配额抽样误差;滚雪球抽样误差等。
根据以上四种非随机抽样组织形式操作中的各个方面和各个环节,我们可将非抽样误差的根源归集为以下 6 种的具体情况,分别是非随机抽样组织者通盘安排不当、非随机抽样设计者的错误、计量方法不妥和计量工具不准、调查者素质问题、被调查者素质不满意以及数据处理错误等原因。
1.1 非随机抽样组织者通盘安排不当引起的非抽样误差它也可以称为组织者误差主要是指在这种调查的组织者对其组织形式包括简便抽样(便利抽样)、判断抽样、配额抽样、滚雪球抽样等其概念不理解或者过程不熟悉或者所有环节考虑不周到等致使在组织时错误的将一种形式调查在实际中改变为另一种形式或者互相混杂使用导致最终结论与所研究现象实际真值存在较大差异。
第十一章 非抽样误差及其控制数据的准确性与可靠性是抽样调查的生命力之所在。
如前所述,在抽样调查中,除存在抽样误差外,还经常出现一些非抽样误差,主要的非抽样误差产生原因有抽样框不完善、无回答的出现、调查过程的差错以及数据整理登记过程中的差错等。
因此,抽样调查中,不仅要控制抽样误差,而且还要控制非抽样误差。
如何有效地控制非抽样误差,取得准确可靠的数据资料,以及如何对已经取得的数据进行质量评价,一直是抽样调查理论和实践中所经常关注和着力研究解决的重要问题。
第一节 抽样框误差及其控制一、抽样框误差的产生抽样框是有关总体全部单元的名录或地图等的框架,是抽取样本单元的依据。
理想的抽样框(也称抽样总体)应该同所研究现象的总体(也即目标总体)一致,但在实践中,抽样总体与目标总体常常不一致,由此产生的误差就是抽样框误差。
考察抽样框误差的成因,大致有以下几个方面:(1)丢失目标总体单元。
在此情形下,抽样框没有能够覆盖全部目标总体单元,也就是使部分目标总体单元没有包括在抽样框中,因而也就没有机会被选入样本。
由于存在丢失单元,使得总体总和的估计偏低,总体均值的估计也可能会出现偏差。
丢失单元是一种威胁性较大的抽样框误差,具有较强的隐蔽性,不易被发现。
(2)包含非目标总体单元。
有时,抽样框中也可能包含了一些不属于研究对象总体即非目标总体的单元,由此容易导致总体总和的估计偏高。
但这种类型的抽样框误差一般要比丢失单元的威胁性小。
因为在调查中,非目标总体单元往往更容易被发现,并予以剔除。
(3)复合联接。
实践中常可能会遇到这种情况:抽样框中的单元与目标总体单元不完全为一一对应,而是一对多或多对一,即存在复合联接。
在这种情形下,目标总体中各个单元的入样概率可能会受到相应的影响,从而导致非抽样误差的扩大。
但是,有时候采用经过精心设计的有复合联接的抽样框可以提高稀有元素被抽中的概率。
(4)不正确的辅助信息。
一般将不包含辅助信息的抽样框称之为简单抽样框,而将包含辅助信息的抽样框称为复杂抽样框。
市场调查中非抽样误差的产生和控制摘要:非抽样误差直接与市场调查的准备阶段、抽样阶段、问卷设计阶段、实地访问阶段、统计处理阶段等各阶段的工作质量好坏存在密切的关联。
本文在具体分析这些阶段导致非抽样误差产生的工作情形后,提出了科学设计调查方案、重视对调查员的培训和管理、减少被调查者误差和做好调查资料的汇总工作等几方面控制非抽样误差的对策。
关键词:非抽样误差;调查方案;调查员;被调查者一、非抽样误差的产生非抽样误差产生的原因多种多样,尤其在实施调查过程中最为常见。
非抽样误差直接与调查的准备阶段、抽样阶段、问卷设计阶段、实地访问阶段、统计处理阶段等各阶段的工作质量好坏存在密切的关联。
1.准备阶段准备阶段是整个调查的起始阶段,准备阶段的主要任务是:确定调查任务,设计调查方案,组织调查队伍。
调查设计者首先要列出具体研究目标,从而确定所要研究的问题和识别研究的总体,最后明确调查任务并给整个调查活动一个纲领。
具体说来,设计调查方案包括调查指标的设计、调查总体方案的设计和调查方案可行性研究三方面的内容。
在本阶段可能产生误差的工作主要有:(1)调查设计者可能误解了主办者的目的意图,制定了错误方针,误导研究方向。
(2)目标总体与实际的调查总体不一致。
例如,进行电话访谈时,社区周边的居民用户电话号码可能没有列到电话号码簿中,另一些用户可能已经搬迁而导致电话为空号,因此目标总体和被调查总体出现一定的差异。
(3)调查设计者没有事先预先设定好调查的具体步骤和时间表、可能出现的问题以及未事先培训和挑选恰当的调查员,因而导致计量质量的下降。
(4)预算的限定。
任何调查都有费用,市场调查也同样。
并且由于市场调查的主办者一般都是企业,因此费用上的限制就更为明显。
如果资金短缺,只能缩小研究范围或进一步寻求资金。
上述第一点是调查设计者误解调查主办者的目的,这必然导致系统误差,使调查信度和效度下降。
第二点由于空号的原因,造成缺失值误差。
第三点由于没有预先设定调查步骤和很好的培训访问员,即没有制定标准化的市场调查结构,这样也会降低信度。
非抽样误差又称“工作误差”。
指在调查过程中由于种种人为因素所造成的代表性误差及登记性误差的总称。
前者通常是指调查方案设计有缺陷,如题器或指标含义不清、有诱导性;调查员在实施调查中不遵守随机原则,有意多选较好或较差的单位,等等。
后者是指在记录、汇总、计算、抄写调查数据资料时所发生的差错。
人为因素所造成的代表性误差通常表现为一种系统性的偏差。
它与抽样误差由于随机地观察总体中的一部分单位所造成的样本统计量的波动而产生的代表性误差有着明显的不同。
抽样误差是围绕分布中心所表现出的没有方向性的非系统性的误差,工作误差则是稳定的、有方向性的系统性偏差。
避免非抽样误差的主要措施是:(一)严格遵守随机原则,规定应抽选作为样本的调查对象都必须一一调查,不能随便更换、减少或增加,避免有意多选较好或较坏的调查对象来达到自己原定要说明某个问题的目的;(二)搞好问卷设计,严守客观公正的原则,避免题器设计所产生的诱导性因素,并努力使调查项目所涉及的概念指标尽可能地操作化到清晰、明确、唯一的程度; (三)认真培训调查登记人员,做好一切必要的准备工作,尽量不发生填表、登记之类过程中的差错。
原因分析引起非抽样误差的原因很多,比如抽样框不齐全,访问员工作经验有限,被访者不配合访问而加以虚假的回答,问卷设计本身存在缺陷等等。
通常,在技术性调查中,会出现由于缺乏回答知识而产生的非抽样误差。
另外两种类型的非抽样误差是选择误差和数据处理误差。
当调查中包含不恰当的项目时,就会生产选择误差。
假设设计一个抽样调查,来描述有胡须的男人外观。
对“有胡须的男人”的理解,如果有些采访人员认为应包括有小胡子的男人,而其他采访人员则不这样认为,这样,调查的结果资料将有缺陷。
当有登记错误或输入错误时,就会出现数据处理误差。
如将调查表中的资料输入计算机时产生的错误,即为输入错误。
尽管在大多数的调查中,会出现一些非抽样误差,但通过周密的计划可使它们达到最小,这些计划包括注意保证抽样总体与目标总体的一致、遵循良好调查表的设计原则、培训采访人员等。
如何减少非抽样误差如何减少非抽样误差一,非抽样误差的定义:市场调查活动必不可少地会产生误差,如何减少误差,提高精度这是委托方和市场咨询公司最关注的焦点之一。
要减少误差,首先要了解误差来自于哪里?如何对各种误差进行分类?不同类别的误差有什么样的方法可以预防?如果误差已经发生了,采用什么样的方法可以弥补?按最简单的分类方法,误差可以分为两类,一类是抽样误差,另一类是非抽样误差。
所谓的抽样误差是由抽样的随机性引起的,一般意义上来说是无法减少的。
而非抽样误差是指除抽样误差以外所有的误差的总和。
引起非抽样误差的原因很多,比如抽样框不齐全,访问员工作经验有限,被访者不配合访问而加以虚假的回答,问卷设计本身存在缺陷等等。
应该说非抽样误差的产生贯穿了市场调查的每一个环节,任何一个环节出错都有可能导致非抽样误差增加而使数据失真。
我们平时说的控制误差主要指的就是控制非抽样误差。
对于非抽样误差的定义和分类也是到了近代才逐渐清晰和明确起来,最初,鲍德威在1915年提出所谓的误差有四个来源分别是:?获得的信息不正确或不真实?定义和标准不严格、不确切、不适当?样本不能代表总体?部分数据对于总体的估计将要产生的误差在鲍德威的四个误差来源中,前两个都是非抽样误差。
鲍德威对于各种误差提出了比较简略的分类方法,而戴明在他的基础上对非抽样误差进行了比较全面和系统的分类。
戴明认为误差除了抽样误差以外一般应该包括以下部分:?回答的变异性?不同类型和不同水平的访问员?访问员引起的主观偏差?委托方对于数据的期望(人为影响)?问卷设计的缺陷?抽样前后总体发生的变化?无回答的偏差?过时记录的偏差?数据缺乏代表性?解释数据的误差在戴明以后,西方又有许多关于非抽样误差的论文出现,对非抽样误差的成因和分类进行了比较完整的阐述。
一般而言,非抽样误差可以分为三类,分别是:抽样框误差、无回答误差和计量误差。
二,抽样框误差:所谓的抽样框误差指目标总体和抽样总体不一致时产生的误差。
非抽样误差产生的原因及控制抽样调查是目前我国搜集统计资料的一种主要方法,但抽样调查的结果始终要受到抽样误差和非抽样误差的影响。
抽样误差是由于样本随机性引起的,根据样本数据计算的对总体目标量的估计是随样本而异的,由此产生的误差即是抽样误差。
抽样误差是不可避免的,其大小可以通过调查样本容量,改变抽样方式等加以控制。
非抽样误差是指除抽样误差以外。
由于各种原因引起的。
非抽样误差由于其产生的原因及其复杂且具有不易观测和非随机性等特点而难以控制。
两种误差构成了总方差,两者之间呈此消彼长的关系。
一般情况下同时减少两类误差是很困难的。
非抽样误差占据了很大的一部分,怎样通过降低非抽样误差,从而降低总方差,有着非常重要的现实意义。
一、非抽样误差分类自1902年K?皮尔逊首次讨论非抽样误差这个概念以来,在非抽样误差的分类上。
主要有以下几种:(一)希里1957年把非抽样误差分为3类:1、范围误差:指由于样本单位的遗漏或重复产生的误差。
2、确定误差:指在资料收集、编辑、编码和计算输入阶段所产生的样本单位特征值的测量误差和回答偏差。
3、替代误差:由于对缺失数据进行替代和(或)在最后估计阶段对缺失数据进行替代所产生的误差。
(二)科克伦把非抽样误差分为3类:1、对被抽选出的样本中的一些单位未能进行计量而产生的误差2、一个单位的计量误差。
3、对调查结果进行编辑、编码和汇总过程中产生的误差。
(三)戴伦纽斯1988年把非抽样误差按调查活动分为3类:1、资料搜集过程中产生的误差。
2、测量过程中产生的误差。
3、资料加工过程中产生的误差。
在我国比较常见的分类方式有两种:第一,按性质和处理方法不同分为抽样框误差、无回答误差和计量误差第二,按产生的环节不同分为设计误差、调查误差和汇总误差。
、各类非抽样误差产生的原因1、调查设计过程中引起的误差设计阶段误差是由于这一阶段某些失误而导致调查结果产生的偏误,调查设计有两个主要环节,即调查设计和抽样设计。
从非抽样误差看调查质量当调查描述的结果与事实出现差异,便产生了调查误差。
调查的数据质量与调查误差成反比关系。
调查误差主要包括:抽样误差和非抽样误差。
所以,调查质量与抽样误差和非抽样误差存在以下关系:调查质量=1/调查误差=1/(抽样误差+非抽样误差)。
可见,抽样误差和非抽样误差只要有一方或者双方同时增大,就会使得调查质量下降。
抽样误差是由于调查设计时有意识地只研究总体中的一部分,由部分推断总体,从而产生的误差,它是可以事先计算并加以控制的。
只要选定了抽样方法,就能根据相应的公式计算出误差值的大小;只要在经费许可的范围内,增加样本容量、改变抽样方法就能对它实现有效的控制。
专业调查人员,一般都会考虑抽样误差的控制,并在调查报告中加以说明。
除了抽样误差以外的其它所有调查误差都属于非抽样误差,通常指的是在调查程序发展和执行中出现的错误和不足,例如调查问卷的设计不完善、从样本单位获取信息失败、数据处理和分析错误等等。
非抽样误差的研究历史不是很长,发展进程比较缓慢。
国外虽然早在56 世纪初就关注到这个问题,但在其后的四十年左右时间里一直处在宣传阶段;76年代以后,一些学者才开始进行具体的专题研究,然而研究的进展依旧缓慢;直到86 年代末至今,研究的成果才逐渐增多,深度不断加强。
目前外国专家学者已经针对非抽样误差提出了一些优秀的研究理论和模型。
国外的调查人士在实践中也非常重视非抽样误差,在很多调查报告中都会专门介绍对它的控制情况。
我国学者从96 年代中期进入这个研究领域,近年来也取得了一些成果,但主要集中在分析和处理无回答问题方面。
因此,进一步做好非抽样误差的研究和控制工作,具有重大的学术价值和现实意义。
在我国调查行业,业界人士对非抽样误差的认识和控制工作做得不够,一个非常重要的原因在于,非抽样误差是难以计算和控制的。
它普遍存在于各种形式的调查中,可能发生在从计划、实施,直到数据处理的每一个调查环节。
大体来讲,非抽样误差主要有三种类型:抽样框误差、无回答误差和计量误差。
浅谈抽样调查中的非抽样误差[摘要]在统计实践中,由于调查经费和时间的限制,往往不可能采取全面调查,而只能采取抽样调查的方法,抽样调查过程中由于抽样总体的代表性及人为因素的影响,必不可少地会产生误差。
因此从理论上讲非抽样误差应该是可以避免的,但在实际工作过程中是很难做到的,本文主要谈非抽样误差产生的原因及应对的办法。
[关键字]抽样调查;分类;原因;对策1统计误差的分类统计误差即调查误差。
统计误差的来源是多方面的,按最简单的分类方法,误差分为抽样误差和非抽样误差。
抽样误差是由于抽样的随机性引起的,一般意义上来说是不可避免、难于消灭,只能加以控制的。
随着科学的进步,对于抽样误差的控制和测算,已发展出了非常深厚的理论体系。
而非抽样误差是指除抽样误差以外所有的误差总和,应该说非抽样误差的产生贯穿了调查的每一个环节,任何一个环节出错都有可能导致非抽样误差增加而使数据失真,某种程度上讲,非抽样误差决定着一项调查活动的成败。
非抽样误差是由于调查程序执行中的错误和不足引起的。
2非抽样误差产生的原因引起非抽样误差的原因很多,概括起来,主要有以下原因:2.1设计阶段引起的误差。
调查设计有两个主要环节,即调查方法设计与抽样设计。
设计误差主要有调查设计误差和抽样设计误差。
调查设计误差主要指问卷设计产生的误差。
在问卷调查中,由于问卷设计有缺陷、指标的概念和范围不明确等,造成调查员或被调查对象对调查目的理解上的偏差而提供不正确的信息。
抽样设计阶中的问题主要是抽样框的问题。
一个理想的抽样框所包含的单元应与总体单元完全一致,但是实际工作中使用的抽样框与真正应有的调查抽样框之间存在一定的偏差,它或包含了某些不属于我们调查对象的单元,或丢失了一些应该列入调查范围的调查对象。
2.2调查阶段产生的误差。
调查过程中产生误差的成因主要有:①调查员操作程序不规范,在调查中不按照规范要求进行操作,如没有按照事先预定好的步骤进行访问、没有完全按照问卷上的措辞进行访问、调查员为了得到答案对被调查者进行诱导;记录误差,即调查员在听、理解和记录被调查者回案时产生的误差,如被调查者对某问题还没有给出准确的答案时或调查员没有及时记录被调查者的回答时,调查员就根据自己的意识或理解填上答案;因调查员的访问技巧而产生的误差,典型的如开放题的答案,需要更多的信息时调查员没有进一步询问而产生的误差;调查员作弊造成的误差。