第十一章调查中的非抽样误差讲解

格式：ppt
大小：689.00 KB
文档页数：15

下载文档原格式

第十一章非抽样误差

非抽样误差就是由抽样误差以外因素引起的，因样本观察数据非同质、或残缺、或不真实而产生的误差。为了使非抽样误差问题简单化，我们可以按照抽样调查的过程来考察其来源。
◆抽样方案设计阶段 ◆数据收集阶段 ◆数据处理阶段
第十一章非抽样误差
◆在抽样方案设计阶段，非抽样误差的来源: （1）抽样框的编制与准备不够充分完善；（2）问卷设计不够科学合理。
第十一章非抽样误差
二、抽样框误差的影响
（一）丢失单位的影响
在假定不存在其他原因的抽样框误差时，丢失单位对抽样效果的影响主要取决于两个方面：丢失单位的分布特征和丢失单位数所占的比重。其中，对总体均值的估计只与前者有关，而对总体总值的估计则与两者都有关。
第十一章非抽样误差
（1）丢失单位是目标总体中的一个随机样本，具有与目标总体相同的期望与方差，则其对总体均值的估计影响不大，但对总体总值的估计会低估。
第十一章非抽样误差
无回答误差。
（二）无回答的成因
1、遗漏了被调查者； 2、被调查者地址不详； 3、调查内容未达被调查者； 4、被调查者拒绝回答； 5、回答不准确或不知如何回答； 6、忘记回答。
以上各种原因，有的属于客观性，有的则属于主观性；有的属于有意识，有的则属于无意识；有的属于调查人员方，第有十一的章则非抽属样于误差被调查者方。
非抽样误差
抽样框误差无回答误差计量误差
其中计量误差包括抽样方案设计阶段有缺陷的问卷设计、数据收集阶段有错误的调查数据和数据处理阶段工作上的差错所带来的误差，也就是调查性误差。
第十一章非抽样误差
二、非抽样误差的特点
• 非特有性：为非抽样调查所特有； • 非一致性：使抽样估计结果产生偏差，并且样本
第十一章非抽样误差

抽样调查-调查中的非抽样误差培训课件PPT课件

根据非抽样误差的来源、性质可分为以下三类：
（1）抽样框误差，即由不完善的抽样框引起的
误差；（2）无回答误差，即由于种种原因没有从被调查单元获得调查结果，造成调查数据的缺失；（3）计量误差，即所获得的调查数据与其真值之间不一致造成的误差。
§11.2 抽样框误差
一、概念
抽样调查中的总体有两个：目标总体—调查研究对象的全体。抽样总体—从中抽取样本的总体。（即抽样框）理想抽样框的标志是目标总体和抽样总体完全重合。否则抽样框就是不完善的。
●抽样框存在的问题，有些是不容易解决的。因此抽样框的维护、抽样框使用情况的不断总结与研讨，对于经常性的调查项目来说是十分必要的。
●抽样框的不完善并不是不能使用。可以进行修补、调整。
N1
（3）抽样框误差的影响
设目标总体单元：N
抽样框中单元：N1 抽样框中丢失的单元：N0
N=N1+N0 ■ 总体总量的估计总体总量的真值是：
W0 (Y1 Y0 ) W0 (1 r)
Y
rW0 (1 W0 )
由上式可以看出，如果丢失单元的均值与
抽样单元的均值相同，即
r
1
，则估计量
Y
是目标变量 Y 的无偏估计。
r 反之，如果 r 1 ，偏倚状况则随着
的变化而变化。
Y
三、不完善抽样框的使用
抽样框不完善并不是不能使用，因为构造一个完善的抽样框有时是非常困难的。使用不完善抽样框时若能采用一些补救措施，有助于减小抽样框误差。主要采用以下三项补救措施：
ቤተ መጻሕፍቲ ባይዱ
N N1 N0
R1
N1 N
, R0
N0 N
则总体均值为： Y R1Y 1 R0Y 0

抽样技术-课件全-抽样技术-第11章全文

CPS的样本轮换采用的是4—8—4模式，即一个住户单位在连续的4个月内接受调查，在接下来的8个月中退出样本，然后再接受连续4个月的调查，最终退出样本。轮换方案的设计使得具有相同特征的住户单位替换退出的住户单位。
CPS的样本轮换具有如下主要特征
1.在任何一个月内，都有八分之一的住户单位第一次接受调查，八分之一的住户单位第二次接受调查，如此下去
2.每个月都有新的样本组代替从样本中永久退出的老样本组
3.每个月都有一个样本组在8个月的闲置后重新接受调查。重新接受调查的样本组代替了刚刚退出，进入闲置期的样本组
4.设计保证了每个样本单元在两个年份的4个相同月份中接受调查
5.在连续的两个月内，有四分之三的样本是相同的；在连续的两年中，有二分之一的样本是相同的。
劳动力特征
3. 抽样时以州为总体，因而设计也是以州为总体的设计
4. 样本量由变异系数CV及可靠性要求所决定 5. 在失业率为6%的自定义下，各州对变异系数的要求在8%—9%之间。这样就能保证进行全国估计的变异系数控制在1.8%之内
11．2．2第一阶段的抽样
第一阶段的抽样涉及三个方面的工作。这些工作是：初级抽样单元（PSU）的界定；将初级抽样单元PSU分层；PSU的抽选
11．4．5 广义方差（Generalized Variance）
广义方差函数GVF用于产生人口总量x估计值的估计方差。函数形式为
Var( Xˆ ) aX 2 bX 式中，a和b是用最小二乘法得到的估计参数。该模型的原理是假定x的方差可以表示为简单随机样本的方差与设计效应（deff）的乘积。设计效应deff是指某一复杂抽样设计相对于
第11章设计与方法-美国CPS案例
美国人口现状调查（Current Population Survey，简称CPS）被认为是全国性大规模居民住户抽样调查的典范。

11-第十一章_非抽样误差

(
)
（11.3）
这表明此时估计量低估了总体总和。若令 r 为丢失单元指标均值 Y 0 与抽样框单元指标均值 Y A 之比：
r=
Y0 YA
又 W0 是丢失单元占全部目标总体单元的比重：
3
W0 =
N0 N
则 N A y A 的相对偏倚可表示为：
-
Y0 W0 r =Y W0 r + (1 - W0 )
2
多或多对一的现象。例如在一项入户调查中若目标总体单元系独立的家庭户，而抽样框采用的按地区的门牌号，那么一个家庭也许有两个或两个以上的住所，在一个门牌号内也可能住着两户或更多户的家庭。这种情况称为抽样框（抽样总体）与目标总体存在着复合连接。 4. 有些复杂抽样框还包含辅助信息（当采用分层抽样、不等概率抽样以及使用比估计或回归估计等情形），如果这些辅助信息不完全或不正确，不仅不能提高抽样的效率，反而会降低估计的准确性，从而导致误差。 *11.2.2 丢失总体单元引起的抽样框误差丢失目标总体单元是抽样框误差中影响最为显著而且也较难进行补救的一种，为此我们对它作稍微深入的研究。首先我们对丢失目标总体单元引起的误差进行定量分析。我们主要分析由此产生的估计量的偏倚。设目标总体由 N A 个抽样总体单元以及另外 N 0 个没有包含在该抽样总体的丢失单元组成， N = N A + N 0 ，则总体总和
ˆ (a ) = N y (a ) Y A a A
（11.7）
7
ˆ (ab) = N y (ab) Y A ab A
（11.8）
其中 y A ( a ) 与 y A ( ab) 分别是落在区域 a 与区域 ab 样本观测值的平均数。类似地根据从框 B 的样本，对区域 b 的总和 Yb 与对区域 ab 的总和 Yab 的估计分别为：

非抽样误差抽样理论与方法,河南财政学院

(n
1 1)P2
( m )(1 n
m n
)是V（ˆ
）的无偏估计
A
2021/4/4
30
10.5 计量误差
一、计量误差分类：设计引起的误差由调查员引起的误差由被调查者引起的误差
2021/4/4
31
10.6 离群值的检测和处理
一、 yi离数据中心的相对距离di 法 y1，y2，…，yn是要观测的样本数据 m和s分别是测度数据集中趋势和离散趋势的指标
则相对偏倚可以写为
E(y) Y R0(Y1 Y0 )
Y
Y
2021/4/4
14
1.汉森-赫维茨的再抽样调整总体均值的估计值
Y
1 n
(n1 y1
n0
y
' 0
)
w1
y1
w0
y
' 0
V(Y)
V1
(y)
E1
(w0
k
n
1
s02
)
1
n
f
S2
W0
k
n
1
S02
S02 为总体中无回答层的方差 k n0
得k的最优值kopt
c0 (S2 W0S02 ) S0（2 c c1W1）
给定V，使C达到最小值，得nopt 2021/4/4
N(S2
（k 1）W0S02 ) NV S2
18
例：第一个样本用邮寄方式取得，预计回答率为50%。希
望达到的精度月容量为1000的简单随机样本（全部回答）
所达到的精度一样。邮寄一张问卷的费用是0.1美元。派
估计分别为：
Yˆ B (b)
Nb nb
yB (b)

市场调查中非抽样误差的产生和控制

市场调查中非抽样误差的产生和控制摘要：非抽样误差直接与市场调查的准备阶段、抽样阶段、问卷设计阶段、实地访问阶段、统计处理阶段等各阶段的工作质量好坏存在密切的关联。

本文在具体分析这些阶段导致非抽样误差产生的工作情形后，提出了科学设计调查方案、重视对调查员的培训和管理、减少被调查者误差和做好调查资料的汇总工作等几方面控制非抽样误差的对策。

关键词：非抽样误差；调查方案；调查员；被调查者一、非抽样误差的产生非抽样误差产生的原因多种多样，尤其在实施调查过程中最为常见。

非抽样误差直接与调查的准备阶段、抽样阶段、问卷设计阶段、实地访问阶段、统计处理阶段等各阶段的工作质量好坏存在密切的关联。

1．准备阶段准备阶段是整个调查的起始阶段，准备阶段的主要任务是：确定调查任务，设计调查方案，组织调查队伍。

调查设计者首先要列出具体研究目标，从而确定所要研究的问题和识别研究的总体，最后明确调查任务并给整个调查活动一个纲领。

具体说来，设计调查方案包括调查指标的设计、调查总体方案的设计和调查方案可行性研究三方面的内容。

在本阶段可能产生误差的工作主要有：（1）调查设计者可能误解了主办者的目的意图，制定了错误方针，误导研究方向。

（2）目标总体与实际的调查总体不一致。

例如，进行电话访谈时，社区周边的居民用户电话号码可能没有列到电话号码簿中，另一些用户可能已经搬迁而导致电话为空号，因此目标总体和被调查总体出现一定的差异。

（3）调查设计者没有事先预先设定好调查的具体步骤和时间表、可能出现的问题以及未事先培训和挑选恰当的调查员，因而导致计量质量的下降。

（4)预算的限定。

任何调查都有费用，市场调查也同样。

并且由于市场调查的主办者一般都是企业，因此费用上的限制就更为明显。

如果资金短缺，只能缩小研究范围或进一步寻求资金。

上述第一点是调查设计者误解调查主办者的目的，这必然导致系统误差，使调查信度和效度下降。

第二点由于空号的原因，造成缺失值误差。

第三点由于没有预先设定调查步骤和很好的培训访问员，即没有制定标准化的市场调查结构，这样也会降低信度。

浅析规模以下抽样调查中的非抽样误差

二．夏西餐蔓差
由部分推断总体，从而产生的误差，它是可以事先计算并加以
控制的。只要选定了抽样方法，就能根据相应的公式计算出误
差值的大小。但在经费许可的范围内，增加样本容量、改变抽
样方法就能得到有效的控制。非抽样误差是指抽样误差以外所有误差的总和，它是不能够通过数学方法加以计算和控制的，普遍存在于各种形式的调查中，可能发生在从计划、实施，直
到数据处理的每一个调查环节。大体来说，非抽样误差主要有
三种类型：抽样框误差、无回答误差和计量误差。大家知道，调查质量与抽样误差和非抽样误差存在以下关系调查质量
般具有某类特征，如拥有高收入等，用这样的样本对目标总
类是非抽样误差（也称工作误差、登记误差或调查误差）。
抽样误差是由于调查设计时有意识地只研究总体中的一部分，
体进行推算会产生偏差。４不正确的辅助信息：复杂抽样框中的辅助信息可以用于．特殊的抽样方法（分层抽样和ＰＳ样）不同的估计方法如Ｐ抽和（比率估计和回归估计等）。如果辅助信息不完全或不准如确，会影响估计的准确度。另外，抽样框陈旧是导致误差产生的重要原因，因为总体单位是动态的，但具体可能包含上述四种误差中的一种或几种，故没有单列为一类。

非抽样误差产生的原因及控制.

非抽样误差产生的原因及控制抽样调查是目前我国搜集统计资料的一种主要方法，但抽样调查的结果始终要受到抽样误差和非抽样误差的影响。

抽样误差是由于样本随机性引起的，根据样本数据计算的对总体目标量的估计是随样本而异的，由此产生的误差即是抽样误差。

抽样误差是不可避免的，其大小可以通过调查样本容量，改变抽样方式等加以控制。

非抽样误差是指除抽样误差以外。

由于各种原因引起的。

非抽样误差由于其产生的原因及其复杂且具有不易观测和非随机性等特点而难以控制。

两种误差构成了总方差，两者之间呈此消彼长的关系。

一般情况下同时减少两类误差是很困难的。

非抽样误差占据了很大的一部分，怎样通过降低非抽样误差，从而降低总方差，有着非常重要的现实意义。

一、非抽样误差分类自1902年K?皮尔逊首次讨论非抽样误差这个概念以来，在非抽样误差的分类上。

主要有以下几种：(一)希里1957年把非抽样误差分为3类：1、范围误差：指由于样本单位的遗漏或重复产生的误差。

2、确定误差：指在资料收集、编辑、编码和计算输入阶段所产生的样本单位特征值的测量误差和回答偏差。

3、替代误差：由于对缺失数据进行替代和(或)在最后估计阶段对缺失数据进行替代所产生的误差。

(二)科克伦把非抽样误差分为3类：1、对被抽选出的样本中的一些单位未能进行计量而产生的误差。

2、一个单位的计量误差。

3、对调查结果进行编辑、编码和汇总过程中产生的误差。

(三)戴伦纽斯1988年把非抽样误差按调查活动分为3类：1、资料搜集过程中产生的误差。

2、测量过程中产生的误差。

3、资料加工过程中产生的误差。

在我国比较常见的分类方式有两种：第一，按性质和处理方法不同分为抽样框误差、无回答误差和计量误差。

第二，按产生的环节不同分为设计误差、调查误差和汇总误差。

二、各类非抽样误差产生的原因1、调查设计过程中引起的误差设计阶段误差是由于这一阶段某些失误而导致调查结果产生的偏误，调查设计有两个主要环节，即调查设计和抽样设计。

非抽样误差

非抽样误差又称“工作误差”。

指在调查过程中由于种种人为因素所造成的代表性误差及登记性误差的总称。

前者通常是指调查方案设计有缺陷，如题器或指标含义不清、有诱导性;调查员在实施调查中不遵守随机原则，有意多选较好或较差的单位，等等。

后者是指在记录、汇总、计算、抄写调查数据资料时所发生的差错。

人为因素所造成的代表性误差通常表现为一种系统性的偏差。

它与抽样误差由于随机地观察总体中的一部分单位所造成的样本统计量的波动而产生的代表性误差有着明显的不同。

抽样误差是围绕分布中心所表现出的没有方向性的非系统性的误差，工作误差则是稳定的、有方向性的系统性偏差。

避免非抽样误差的主要措施是：(一)严格遵守随机原则，规定应抽选作为样本的调查对象都必须一一调查，不能随便更换、减少或增加，避免有意多选较好或较坏的调查对象来达到自己原定要说明某个问题的目的;(二)搞好问卷设计，严守客观公正的原则，避免题器设计所产生的诱导性因素，并努力使调查项目所涉及的概念指标尽可能地操作化到清晰、明确、唯一的程度; (三)认真培训调查登记人员，做好一切必要的准备工作，尽量不发生填表、登记之类过程中的差错。

原因分析引起非抽样误差的原因很多，比如抽样框不齐全，访问员工作经验有限，被访者不配合访问而加以虚假的回答，问卷设计本身存在缺陷等等。

通常，在技术性调查中，会出现由于缺乏回答知识而产生的非抽样误差。

另外两种类型的非抽样误差是选择误差和数据处理误差。

当调查中包含不恰当的项目时，就会生产选择误差。

假设设计一个抽样调查，来描述有胡须的男人外观。

对“有胡须的男人”的理解，如果有些采访人员认为应包括有小胡子的男人，而其他采访人员则不这样认为，这样，调查的结果资料将有缺陷。

当有登记错误或输入错误时，就会出现数据处理误差。

如将调查表中的资料输入计算机时产生的错误，即为输入错误。

尽管在大多数的调查中，会出现一些非抽样误差，但通过周密的计划可使它们达到最小，这些计划包括注意保证抽样总体与目标总体的一致、遵循良好调查表的设计原则、培训采访人员等。

浅谈抽样调查中的非抽样误差

浅谈抽样调查中的非抽样误差[摘要]在统计实践中，由于调查经费和时间的限制，往往不可能采取全面调查，而只能采取抽样调查的方法，抽样调查过程中由于抽样总体的代表性及人为因素的影响，必不可少地会产生误差。

因此从理论上讲非抽样误差应该是可以避免的，但在实际工作过程中是很难做到的，本文主要谈非抽样误差产生的原因及应对的办法。

[关键字]抽样调查；分类；原因；对策1统计误差的分类统计误差即调查误差。

统计误差的来源是多方面的，按最简单的分类方法，误差分为抽样误差和非抽样误差。

抽样误差是由于抽样的随机性引起的，一般意义上来说是不可避免、难于消灭，只能加以控制的。

随着科学的进步，对于抽样误差的控制和测算，已发展出了非常深厚的理论体系。

而非抽样误差是指除抽样误差以外所有的误差总和，应该说非抽样误差的产生贯穿了调查的每一个环节，任何一个环节出错都有可能导致非抽样误差增加而使数据失真，某种程度上讲，非抽样误差决定着一项调查活动的成败。

非抽样误差是由于调查程序执行中的错误和不足引起的。

2非抽样误差产生的原因引起非抽样误差的原因很多，概括起来，主要有以下原因：2.1设计阶段引起的误差。

调查设计有两个主要环节，即调查方法设计与抽样设计。

设计误差主要有调查设计误差和抽样设计误差。

调查设计误差主要指问卷设计产生的误差。

在问卷调查中，由于问卷设计有缺陷、指标的概念和范围不明确等，造成调查员或被调查对象对调查目的理解上的偏差而提供不正确的信息。

抽样设计阶中的问题主要是抽样框的问题。

一个理想的抽样框所包含的单元应与总体单元完全一致，但是实际工作中使用的抽样框与真正应有的调查抽样框之间存在一定的偏差，它或包含了某些不属于我们调查对象的单元，或丢失了一些应该列入调查范围的调查对象。

2.2调查阶段产生的误差。

调查过程中产生误差的成因主要有：①调查员操作程序不规范，在调查中不按照规范要求进行操作，如没有按照事先预定好的步骤进行访问、没有完全按照问卷上的措辞进行访问、调查员为了得到答案对被调查者进行诱导；记录误差，即调查员在听、理解和记录被调查者回案时产生的误差，如被调查者对某问题还没有给出准确的答案时或调查员没有及时记录被调查者的回答时，调查员就根据自己的意识或理解填上答案；因调查员的访问技巧而产生的误差，典型的如开放题的答案，需要更多的信息时调查员没有进一步询问而产生的误差；调查员作弊造成的误差。

抽样理论与方法：非抽样误差

NA
NB
结合调查费用确定各个抽样框的样本量nA，nB和权数WA C nACA nBCB
在总费用给定条件下使方差最小的最优抽样比为
nA
C
S
2 a
(1

)

Sa2b WA2
,
nB
C
Sb2
(1

)

S
2 ab
WB2
NA
CA
NB
CB
WA

n A nA nB
, WB

nB nA nB
分层的总和估计分别为：
Yˆ A
(a)

Na na
yA
(a)
Yˆ A (ab)

Nab nab
yA (ab)
na与nab为落入区域a和区域ab的样本单元数；
yA（a）和yA（ab）为区域a和区域ab的样本观测值总和。
利用抽样框B的样本对区域b和区域ab进行事后分层的总和
估计分别为：
Yˆ B (b)

则相对偏倚可以写为

E(Y) Y W0 (Y1 Y0 ) W0(1 r)
Y
Y
rW0 (1 W0 )
其中
r

Y0 Y1
, W0

N0 N
三、不完善抽样框的使用 1.调整抽样框 2.使用多个抽样框
A AB A
设样本取自A、B两个抽样框。这两个抽样框的单元数分别为NA，NB。两个抽样框将目标总体划分为三个区域。
➢ 1.非特有性 ➢ 2.非一致性 ➢ 3.难测定性 ➢ 4.难评价性 ➢ 5.全过程性
10.2 抽样框误差
一、抽样框误差 ➢ 1.丢失目标总体单元； ➢ 2.包含非目标总体单元； ➢ 3.抽样框中的单元与目标总体单元不完全是一一应；

6sigma绿带知识串讲—非抽样误差

6sigma绿带知识串讲—非抽样误差非抽样误差：非抽样误差是相对抽样误差而言的，是指除抽样误差之外的，由其他原因引起的样本观察结果与总体真值之间的差异。

抽样误差是一种随机性误差，只存在于概率抽样中，非抽样误差则不同，无论是概率抽样、非概率抽样，还是在全面调查中，都有可能产生非抽样误差。

非抽样误差有以下几种类型：01.抽样计划清单误差在概率抽样中需要根据抽样计划清单抽取样本。

抽样计划清单是有关总体全部单位的名录，在地域抽样中，抽样计划清单可以是地图。

一个好的抽样计划清单应该是，抽样计划清单中的单位和研究总体中的单位有一一对应的关系。

02.回答误差回答误差是指被调查者在接受调查时给出的回答与真实情况不符。

导致回答误差的原因有多种，主要有理解误差、记忆误差和有意识误差。

(1) 理解误差。

不同的被调查者对调查问题的理解不同，每个人都按自己的理解回答，大家的标准不一致，由此造成理解误差。

(2) 记忆误差有时，调查的问题是关于一段时期内的现象或事实，需要被调查者回忆。

需要回忆的时间间隔越久，回忆的数据就可能越不准确。

缩短调查所涉及的时间间隔可以减少记忆误差。

(3)有意识误差。

当调查的问题比较敏感，被调查者不愿意回答，迫于各种原因又必须回答时，就可能会提供一个不真实的数字。

产生有意识误差的动因大致有两种一种是调查问题涉及个人隐私，被调查者不愿意告知，所以造假另一种是受利益驱动，进行数字造假。

有意识误差比记忆误差的危害要大。

03.无回答误差无回答误差是指被调查者拒绝接受调査，调査人员得到的是一份空白的答卷。

无回答也包括那些调查进行时被访者不在家的情况。

电话调查中，拨通后没有人接邮寄问卷调查中，地址写错，被调查者搬家，或被调查者虽然收到问卷却把1司卷遗忘或丢失，这些都可以视为调查中的无回答。

04.调查员误差这是指由于调査员的原因而产生的调查误差。

如调查员粗心，在记录调査结果时出现错误。

调查员误差还可能来自调查中的诱导，而调查员本人或许并没有意识到。

第11章调查中的非抽样误差

（四）插补调整
是指在数据整理阶段利用调查结果，采用一定的方式为无回答的缺失值确定一个合理的估计值，插补到原缺失数据的位置上。
实际中一般涌均值插补。
补充：敏感性问题调查与随机化回答技术
1、敏感性问题（sensitive question）是指所调查的内容涉及私人机密而不愿意或不便于公开表态或陈述的问题，如：社会上的卖淫嫖娼、赌博吸毒、偷税漏税、婚前性行为等等。
（3）相对偏倚为：
W0(Y1 Y0) W0(1 r)
Y
rW0 (1W0)
分析
1、r=1,丢失单元均值和抽样单元均值相同时，估计量是目标变量的无偏估计；
2、 r 1 偏倚状况随着r的变化而变化。
r>1估计偏低，r<1估计偏高。
三、不完善抽样框的使用
（一）实行连接
在调查方案设计阶段制定一定的规则，使没有包含在抽样框中的目标单元与包含在抽样框中的单元相连接。
二、无回答产生的原因及影响
在数据收集过程中都可能产生无回答误差： 1、查找阶段由于地址不详或已经搬迁而无法找到被
调查者，调查者不熟悉地址等等； 2、接触阶段被调查者由于客观原因无法接受调查或
由于主观原因不愿意接受调查； 3、采访阶段，被调查者对于某些问题不愿意提供答
案或调查人员粗心遗漏一些项目或调查中断等等。
如：对不在抽样框中的学生与被抽中的学生实行连接
（二）惟一连接对于抽样框中存在的复合连接，在方案设计中规
定只有唯一的单元被抽中。
（三）使用多个抽样框
设样本来自A、B两个抽样框，两个抽样框的单元总数分别为NA,NB,目标总体被分成三个部分：区域a、区域b、区域ab
1、利用抽样框A的样本对区域a、区域ab进行事后分层的总和估计为：

从非抽样误差看调查质量

从非抽样误差看调查质量当调查描述的结果与事实出现差异，便产生了调查误差。

调查的数据质量与调查误差成反比关系。

调查误差主要包括：抽样误差和非抽样误差。

所以，调查质量与抽样误差和非抽样误差存在以下关系：调查质量＝1/调查误差＝1/（抽样误差+非抽样误差）。

可见，抽样误差和非抽样误差只要有一方或者双方同时增大，就会使得调查质量下降。

抽样误差是由于调查设计时有意识地只研究总体中的一部分，由部分推断总体，从而产生的误差，它是可以事先计算并加以控制的。

只要选定了抽样方法，就能根据相应的公式计算出误差值的大小；只要在经费许可的范围内，增加样本容量、改变抽样方法就能对它实现有效的控制。

专业调查人员，一般都会考虑抽样误差的控制，并在调查报告中加以说明。

除了抽样误差以外的其它所有调查误差都属于非抽样误差，通常指的是在调查程序发展和执行中出现的错误和不足，例如调查问卷的设计不完善、从样本单位获取信息失败、数据处理和分析错误等等。

非抽样误差的研究历史不是很长，发展进程比较缓慢。

国外虽然早在56 世纪初就关注到这个问题，但在其后的四十年左右时间里一直处在宣传阶段；76年代以后，一些学者才开始进行具体的专题研究，然而研究的进展依旧缓慢；直到86 年代末至今，研究的成果才逐渐增多，深度不断加强。

目前外国专家学者已经针对非抽样误差提出了一些优秀的研究理论和模型。

国外的调查人士在实践中也非常重视非抽样误差，在很多调查报告中都会专门介绍对它的控制情况。

我国学者从96 年代中期进入这个研究领域，近年来也取得了一些成果，但主要集中在分析和处理无回答问题方面。

因此，进一步做好非抽样误差的研究和控制工作，具有重大的学术价值和现实意义。

在我国调查行业，业界人士对非抽样误差的认识和控制工作做得不够，一个非常重要的原因在于，非抽样误差是难以计算和控制的。

它普遍存在于各种形式的调查中，可能发生在从计划、实施，直到数据处理的每一个调查环节。

大体来讲，非抽样误差主要有三种类型：抽样框误差、无回答误差和计量误差。

非抽样误差产生的原因及控制.

非抽样误差产生的原因及控制抽样调查是目前我国搜集统计资料的一种主要方法，但抽样调查的结果始终要受到抽样误差和非抽样误差的影响。

抽样误差是由于样本随机性引起的，根据样本数据计算的对总体目标量的估计是随样本而异的，由此产生的误差即是抽样误差。

抽样误差是不可避免的，其大小可以通过调查样本容量，改变抽样方式等加以控制。

非抽样误差是指除抽样误差以外。

由于各种原因引起的。

非抽样误差由于其产生的原因及其复杂且具有不易观测和非随机性等特点而难以控制。

两种误差构成了总方差，两者之间呈此消彼长的关系。

一般情况下同时减少两类误差是很困难的。

非抽样误差占据了很大的一部分，怎样通过降低非抽样误差，从而降低总方差，有着非常重要的现实意义。

一、非抽样误差分类自1902年K?皮尔逊首次讨论非抽样误差这个概念以来，在非抽样误差的分类上。

主要有以下几种：（一）希里1957年把非抽样误差分为3类：1、范围误差：指由于样本单位的遗漏或重复产生的误差。

2、确定误差：指在资料收集、编辑、编码和计算输入阶段所产生的样本单位特征值的测量误差和回答偏差。

3、替代误差：由于对缺失数据进行替代和（或）在最后估计阶段对缺失数据进行替代所产生的误差。

（二）科克伦把非抽样误差分为3类：1、对被抽选出的样本中的一些单位未能进行计量而产生的误差2、一个单位的计量误差。

3、对调查结果进行编辑、编码和汇总过程中产生的误差。

（三）戴伦纽斯1988年把非抽样误差按调查活动分为3类：1、资料搜集过程中产生的误差。

2、测量过程中产生的误差。

3、资料加工过程中产生的误差。

在我国比较常见的分类方式有两种：第一，按性质和处理方法不同分为抽样框误差、无回答误差和计量误差第二，按产生的环节不同分为设计误差、调查误差和汇总误差。

、各类非抽样误差产生的原因1、调查设计过程中引起的误差设计阶段误差是由于这一阶段某些失误而导致调查结果产生的偏误，调查设计有两个主要环节，即调查设计和抽样设计。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Y0 N0 r ,W0 Y1 N
(一)丢失目标总体单元时的影响

则估计Y的相对偏倚为：
Y0 rW0 Y rW0 (1 W0 )

则均值的相对偏倚为：
W0 (Y1 Y0 ) W0 (1 r ) Y rW0 1 W0

由此可见，相对便宜取决于r和W0两个因素。当r=1是，均值估计量是无偏的。
第十一章调查中的非抽样误差
1、误差的来源及特点 2、抽样框误差 3、无回答误差 4、计量误差
为什么要研究误差？

数据的准确性与可靠性是抽样调查的生命力之所在。换言之，一次抽样调查是够成功的关键是选取的样本能否很好地代表总体，样本和总体之间的差异有多大。如果不考虑样本的代表性和误差，很可能会得出错误的结论。如美国选举前的调查。
考察抽样框误差的成因，大致有以下几个方面：

(1)丢失目标总体单元。在此情形下，抽样框没有能够覆盖全部目标总体单元，也就是使部分目标总体单元没有包括在抽样框中，因而也就没有机会被选入样本。由于存在丢失单元，使得总体总和的估计偏低，总体均值的估计也可能会出现偏差。丢失单元是一种威胁性较大的抽样框误差，具有较强的隐蔽性，不易被发现。

其中，Y0是非目标总体单元观测值之和，Y是目标总体总量，Yi为第i单元的观测值。现从抽样框的M个单元中随机抽取m个单元组成样本，则为YF的无偏估计。当用来估计Y时，就会产生偏差，这表明被高估了。
样本数据误差的来源
误差
抽样误差由抽样的随机性造成非抽样误差
抽样框不完善、无回答、调查过程的差错、数据整理过程的差错
抽样误差的特点

在抽样调查中，抽样误差是不可避免的，但是可以估算出抽样误差的大小；增大样本量可以减少抽样误差；选择更适合的抽样方法可有效减小抽样误差，如分层抽样、多阶段抽样等；利用辅助变量改进估计方法也可提高估计的精度，如比估计和回归估计。预先可知。

(4)不正确的辅助信息。一般将不包含辅助信息的抽样框称之为简单抽样框，而将包含辅助信息的抽样框称为复杂抽样框。复杂抽样框中的辅助信息可以用于分层抽样、不等概率抽样，以及使用比估计和回归估计等。如果辅助资料不完全或不正确，则不但不能提高抽样估计的效率，反而会降低估计的准确性。

返回
非抽样误差的特点

非抽样误差不随样本量增大而减小造成估计量有偏，且难以从样本中估计出来，（知道存在，但无法估计出误差的大小）；有些非抽样误差难以识别和测定，（不知道是不是存在非抽样误差）；如班级人数成因复杂，有社会的、经济的、心里的等多方面的因素，处理方法复杂，且较困难。
非抽样误差的产生
Y Yi Yi Y1 Y0
i 1 i 1
N1
N0
(一)丢失目标总体单元时的影响

其中Y1为抽样总体总和，Y0为丢失单元总和， Yi为第i单元的观测值。现从抽样框的N1个单元中随机抽取n1个单元组成样本，则 N1 y1 是Y1的无偏估计。当估计Y时，结果就会出现偏差，偏差为- Y0。如果以r表示丢失单元与抽样框中单元的均值之比，又以W0表示丢失单元占全部目标总体单元的比重。

1、调查及抽样设计阶段

问卷设计：词汇、问题能导致多种理解抽样框不完善无回答：没有填写信息不真实：没有填对

2、数据采集阶段

3、数据处理与分析阶段

审核、整理、录入时出错估计方法不当：抽样方法必须和估计方法一致。
NEXT
问卷设计阶段可能出现的问题

您是否认为使用电脑数字技术制作的广告更具有吸引力？

(5)抽样框陈旧。有时由于构成抽样框的抽样单元资料“老化”，抽样框所提供的信息与现实情况差距较大，也会导致抽样框误差。并且这类误差也可能进一步引起前面四类抽样框误差中的一种或几种同时发生。比如，以2000年的人口普查资料作为抽样框。
二、抽样框误差的确定

(一)丢失目标总体单元时的影响前已指出，丢失目标总体单元是抽样框误差中威胁最为严重的一种。现设目标总体是由N1个抽样总体单元及另外N0个没有包含在抽样框中的单元(即丢失单元) 组成，即N=N1+N0，则总体总和应为：

(2)包含非目标总体单元。有时，抽样框中也可能包含了一些不属于研究对象总体即非目标总体的单元，由此容易导致总体总和的估计偏高。但这种类型的抽样框误差一般要比丢失单元的威胁性小。因为在调查中，非目标总体单元往往更容易被发现，并予以剔除。常可能会遇到这种情况：抽样框中的单元与目标总体单元不完全为一一对应，而是一对多或多对一，即存在复合联接。在这种情形下，目标总体中各个单元的入样概率可能会受到相应的影响，从而导致非抽样误差的扩大。但是，有时候采用经过精心设计的有复合联接的抽样框可以提高稀有元素被抽中的概率。比如：一个门牌号内有几户人家，或一个家庭有几处住房。
总体总和估计偏倚
总体均值估计偏倚
(二)包含非目标总单元时的影响

如果以M0表示抽样框中所含非目标总体单元数， MT表示抽样框中所含目标总体单元数，则抽样框所含全部单元数M=MT+M0,在抽样框中不存在丢失单元，也没有复合联接时MT=N，则抽样总体总和可表示为
(二)包含非目标总单元时的影响
美国选举案例

谁会在1936选举中获胜 ?Alf London还是 F.D.R.(罗斯福)? Literary Digest (文摘)送出一千万份问卷(返回二百四十万份)后,预测London 会赢。而Gallop(盖洛普)只问了5000人说 Roosevelt (罗斯福)会赢。最后罗斯福和盖洛普都赢了。文摘倒闭了。
人们认为长虹牌彩电质量不错，你觉得怎么样？您觉得产品的包装不好看吗？

返回
抽样框不完善
抽样框
目标总体
抽样框
抽样框
返回
抽样框误差及其控制

一、抽样框误差的产生抽样框是有关总体全部单元的名录或地图等的框架，是抽取样本单元的依据。理想的抽样框 (也称抽样总体)应该同所研究现象的总体(也即目标总体)一致，但在实践中，抽样总体与目标总体常常不一致，由此产生的误差就是抽样框误差。

第十一章调查中的非抽样误差讲解

合集下载

第十一章非抽样误差

抽样调查-调查中的非抽样误差培训课件PPT课件

抽样技术-课件全-抽样技术-第11章全文

11-第十一章_非抽样误差

非抽样误差抽样理论与方法,河南财政学院

市场调查中非抽样误差的产生和控制

浅析规模以下抽样调查中的非抽样误差

非抽样误差产生的原因及控制.

非抽样误差

浅谈抽样调查中的非抽样误差

抽样理论与方法：非抽样误差

6sigma绿带知识串讲—非抽样误差

第11章调查中的非抽样误差

从非抽样误差看调查质量

非抽样误差产生的原因及控制.

文档推荐

最新文档

第十一章 调查中的非抽样误差讲解

合集下载

第十一章非抽样误差

抽样调查-调查中的非抽样误差培训课件PPT课件

抽样技术-课件全-抽样技术-第11章全文

11-第十一章_非抽样误差

非抽样误差抽样理论与方法,河南财政学院

市场调查中非抽样误差的产生和控制

浅析规模以下抽样调查中的非抽样误差

非抽样误差产生的原因及控制.

非抽样误差

浅谈抽样调查中的非抽样误差

抽样理论与方法：非抽样误差

6sigma绿带知识串讲—非抽样误差

第11章调查中的非抽样误差

从非抽样误差看调查质量

非抽样误差产生的原因及控制.

文档推荐

最新文档

第十一章调查中的非抽样误差讲解