当前位置:文档之家› 抽样技术 概念

抽样技术 概念

抽样技术 概念
抽样技术 概念

目录第一章预备知识

第二章基本概念

第三章简单随机抽样

第四章分层随机抽样

第五章不等概率抽样

第六章多阶段抽样

第七章整群抽样

第八章系统抽样

第九章非概率抽样

第一章预备知识

作为抽样技术的基础知识或预备知识,本章简要地介绍调查原理、排列组合、概率统计等方面的有关知识。

一、调查概论

调查的重要性:有利于制定政策、投资决策、科学研究、机构管理以及司法实践等;与此同时,许多学科的进步和发展也同样离不开调查。

(一)(一)调查本质上是一种测量活动

测量活动具有6个要素:测量主体、测量客体、测量对象、测量法则、测量工具、测量结果(数字/符号)。

测量得到的数据大体分为三种类型:分类型数据、顺序型数据以及数值型数据。

测量的方法分为:直接测量和间接测量。

(二)(二)真值、测量值与误差

误差公理:任何调查结果都可能具有误差,而且误差始终存在于一切科学试验和调查过程中

。根据误差的来源分类:调查主体误差、调查客体误差、调查工具误差、调查法则误差、调查环境误差。

误差公理:任何调查结果都可能具有误差,而且误差始终存在于一切科学试验和调查过程中。

根据误差的来源分类:调查主体误差、调查客体误差、调查工具误差、调查法则误差、调查环境误差。

根据误差的性质分类:系统误差、随机误差和粗大误差。

根据误差的计量尺度分类:绝对误差和相对误差。

绝对误差δ、(调查)估计值x以及真实值μ之间的关系:δ=x-μ。

相对误差r、绝对误差δ以及真实值μ之间的关系:r=δ/μ。

实际常用的真值分类:理论真值、约定真值以及相对真值。

实际常用的测量值分类:单次测量值、算术平均值、加权平均值、中位数和众数。

(三)(三)信度、效度与精度

信度表示测量结果中的随机误差大小的程度。

信度的表示方法:测量值的方差(或标准差)或者样本平均数的方差(或标准差)。

衡量信度的三种方法:再测信度、复本信度和折半信度。

衡量信度的三种方法;再测信度、复本信度和折半信度。

效度表示测量结果中的系统误差大小的程度,是测量结果的“有效性” 的反映。

效度分类:内容效度、准则效度和结构效度。

效度含义:(1)测量的特征即为研究的目标特征;(2)该特征被准确地测量。

效度的表示方法:B(x)=|x-μ|或者B(E x)=|E x-μ|。

精度是信度与效度的综合,但它还与信度与效度之外的因素有关。

精度的表示方法:均方误差MSE(x)=V(x)+

() 2

B Ex u

-

效度的表示方法:

μ

-

=x

x

B)

(或者μ

-

=x

E

x

E

B)

(。

精度表示信度与效度的综合,但它还与信度与效度之外的因素有关。

精度的表示方法:均方误差

2

()()() MSE x V x B Ex

=+

信度、效度与精度之间的关系:对于测量或调查来说,信度高的效度未必高,反过来效度高的信度未必高,但精度高的信度和效度肯定高。

二、排列组合

(一)(一)两条基本原理

加法原理和乘法原理。

(二) (二) 排列

排列的分类:选排列与全排列、允许重复的排列。

选排列与全排列之间的关系:全排列是选排列的一种特殊情形(r n =)。 选排列与全排列中的元素是互不相同的。 允许重复的排列中的元素可能重复出现多次。 (三) (三) 组合

组合与排列的差异:组合只与元素有关,而与元素的顺序无关;排列不仅与元素有关,而且与元素的顺序有关。

组合的性质:(1)n n r n r ????= ? ?-????;(2)111n n n r r r --??????=+ ? ? ?

-???

???,r n < 三、概率统计中的一些基本问题

(一) (一) 大数定律

大数定律的重要作用:奠定了用样本来估计总体的理论基础。

几种大数定律:契比雪夫大数定律、贝努里大数定律以及辛钦大数定律。

契比雪夫大数定律证明了当n 无限增加时,n 个随机变量的算术平均将会几乎变成一个常数。

贝努里大数定律证明了随着试验次数n 无限增大,事件A 发生的频率可以无限接近它发生的概率。贝努里大数定律是辛钦大数定律的特殊情况。

辛钦大数定律证明了在n 无限增大时,样本均值会无限接近总体的数学期望。 (二) (二) 中心极限定理

中心极限定理的重要作用:奠定了用样本估计量对总体参数进行区间估计的理论基础。

中心极限定理的思想:不论总体服从何种分布,只要方差有限,在观察值足够多时,许多估计量的抽样分布,就趋向正态分布。

根据限制条件的不同可以分成:列维-林德伯格中心极限定理和李雅普诺夫定理。

列维-林德伯格中心极限定理要求随机变量12,,,,n X X X 独立且同分布;李雅普诺夫定理仅要求随机变量12,,,,n X X X 相互独立,但无需服从同一分布。 (三) (三) 参数估计原理

参数估计分为:点估计和区间估计。

点估计思想:构造一个适当的统计量1(,,)n X X θ ,用它的观察值12?

(,,,)n x x x θ 来估计未知参数θ。 构造点估计量的方法:矩估计法和极大似然估计法。 衡量估计量优劣的标准:无偏性、有效性和一致性。

区间估计的思想:对于未知参数,除了求出它的点估计外,同时还估计出一个范围,并给出 此区间包含参数真值的可信程度。

第二章 基本概念

基本内容

在学习各种抽样方法之前,先了解一下抽样调查中所涉及到的基本概念。

一、抽样调查与非抽样调查

调查分类:

(1) (1) 根据“调查是否针对总体的所有单元”进行分类:全面调查和非全面调查。

(2) (2) 根据“单元是否按照一定的概率入样”进行分类:概率抽样调查和非概率抽样调查。

非全面调查相对于全面调查的优点:

(1)时间短速度快;

(2)费用少成本低;

(3)调查结果比较准确;

(4)应用范围广泛。

概率抽样的分类:

(1)(1)根据“单元的入样概率是否相等”进行分类:等概率抽样和不等概率抽样。

(2)根据“具体的抽样方式”进行分类:简单随机抽样、分层抽样、整群抽样、系统抽样、

多阶段抽样等等。

概率抽样的优点:

(1)(1)能够保证样本的代表性,避免人为因素的干扰;

(2)(2)用概率抽样取得的样本去估计总体特征时,可以对由抽样产生的抽样误差进行估计。

非概率抽样的分类:

(1)按照“具体的抽样方式”进行分类:判断抽样、便利抽样、自愿样本、滚雪球抽样、配额抽样等。

(2)判断抽样包括典型调查和重点调查这两种取样方式。

非概率抽样的缺点:

(1)(1)难以评价样本的代表性。

(2)(2)无法估计抽样误差。

(3)(3)偏倚往往较大。

二、总体与样本

(一)(一)总体

总体分为:目标总体和实际总体。目标总体是研究目标所针对的总体;实际总体是实际调查

时所针对的有限的、具体的总体。

总体与个体:总体是个体的集合,个体是构成对应总体的单元。一切构成总体的个体或子总

体泛称为总体单元,其中个体称为基本单元。基本单元是总体里最小的、不可再分的单元。

(二)(二)抽样框与抽样单元

包含所有抽样单元的总体称为抽样框,构成抽样框的单元称为抽样单元。

抽样框的形式:名单、手册、地图、数据包等等。

抽样框的要求:

(1)抽样框必须是有序的,即抽样单元必须编号,且根据某种顺序进行了排列。

(2)抽样框中包含的抽样单元务必要“不重不漏”,否则将出现抽样框误差。

抽样单元分级:

初级单元→次级单元→三级单元→四级单元……→基本抽样单元。

(三)(三)抽样与样本

样本是抽样的结果——从总体全部单元中选出的部分单元,其全体称为样本总体,简称样本。

样本由样本点(抽样单元)构成。

根据样本抽取方法的不同,可以将抽样分为全样本抽取和逐个抽取。全样本抽取和逐个无放

回抽取是等价的。

三、总体特征与估计量

(一)(一)总体特征

总体特征与总体的关系:总体是调查的客体,而总体特征是总体某个特征或属性的数量表现

通常的总体特征有4种:(1)总体总值Y;(2)总体均值Y;(3)总体比例P;(4)总体比率R。

总体总值、总体均值、总体比例三者是统一的,它们都可以用总体均值Y来表示。

(二)(二)估计量和估计方法

估计量是从样本的n个单元计算出的对总体特征的估计。

估计量是随机变量。

估计方法:最常见的估计方法是简单线性估计,除此之外,还可以借助于辅助变量。

辅助变量必须满足的两个条件:(1)与要估计的变量高度相关;(2)其总体信息已知。

(三)(三)抽样分布

抽样分布:对一个固定的总体,在确定的样本设计和样本量的条件下,估计量的所有可

能取值及其出现概率的序列就是该估计量的抽样分布。

抽取的样本越多,所得到的频率分布图就越接近于估计量的真实分布——抽样分布。

抽样分布的渐进正态性:当从一个比较大的总体N中抽取一个中等容量(30以上)的样本

时,无论总体是何种分布,其样本均值的抽样分布都近似于正态分布。样本量愈大,其愈接

近正态。

四、误差与精度

抽样调查中的误差有两类:抽样误差和非抽样误差。 抽样误差可以进行数量上的估计,是本节研究重点。

控制非抽样误差的方法:严格调查程序、规范调查步骤、加强人员的培训和管理、合理地设 计问题和答卷、改进测量方法和工具。

(一) (一) 均方误差和偏倚

均方误差是估计量误差平方的期望?

()MSE θ=2

?

()E θθ-。

偏倚是估计量的期望与参数真值之间的差异:??

()()B E θθθ=-。

均方误差、方差及偏倚之间的关系:?

()MSE θ=2??()()V B θθ+。

(二) (二) 置信区间与误差限

置信区间:设/2u α为标准正态分布的双侧α分位数,则置信水平为1α-的近似置信区间可以写成:

()()

/2/2????,u S u S ααθθθθ??-?+???,其中()

?S θ为θ

?的标准差,需要利用样本数据进行估计。 误差限可以分为:绝对误差限d 和相对误差限r 。

绝对误差限和相对误差限之间的转换关系:

d

r θ=

(三) (三) 费用与效率

调查的费用是一个与样本量有关的函数,最简单的是线性费用函数。增大样本量可以提高估 计量的精度,但与此同时调查的费用也加大了。

效率是指以最小的费用达到要求的精度或者在给定费用的情况下达到最大的精度。

五、几种基本的抽样方法

简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样分别适用于不同的场合以及不 同的精度要求。在本书后面会有详细介绍。

六、抽样调查的具体实施步骤

实施步骤:(1)调查目标确定;(2)抽样框选择;(3)抽样设计;(4)问卷设计;(5

)数据收集;(6)数据编码和录入;(7)审核与插补;(8)参数估计;(9)数据分析和 调查结果的表述;

(10)数据发布;(11)文档。

第三章 简单随机抽样

基本内容

随机抽样分为四种情形:放回有序、放回无序、不放回有序、不放回无序。

简单随机抽样分为:不放回简单随机抽样(SRSWOR )和放回简单随机抽样(SRSWR )。

一、简单随机抽样理论

简单随机抽样有三个表述不同但却等价的定义(定义3.1至定义3.3)。

简单随机抽样的抽取原则:(1)按随机原则取样;(2)每个抽样单元被抽中的概率都是已知的或事先确定的;(3)每个抽样单元被抽中的概率都是相等的。

主要相关符号:

二、参数估计量及其性质

常见的四个总体特征:(1)总体均值;(2)总体总值;(3)总体比例;(4)总体比率。 (一) (一) 简单估计量

简单随机样本的方差2

s 是总体方差2

S 的无偏估计; 简单随机样本的协方差yx s 是总体协方差yx S 的无偏估计。

(1)总体均值Y

简单估计量:

∑===n

i i

y

n

y Y

1

1?,且Y y E =)((无偏性)。

估计量y 方差()V y :

2

1)(S n f y V -=

()V y 的无偏估计量:2(1)?()()f V

Y v y s n -= 。 (2)总体总量Y

简单估计量:1?n

i i N Y Ny y n ===∑,且?()E Y Y =(无偏性)。

估计量?Y 方差?()V Y :221)?(S n f N Y V -=

?()V Y 的无偏估计量:22(1)???()()f V Y v NY N s n -= 。

(3)总体比例P

1 若总体中第i 个单元具有所研究的特征; 令 i Y =

0 若总体中第i 个单元不具有所研究的特征

简单估计量:

Y

y y

n

n a p P

n

i i

?1?1

=====∑=,且有?

()E P P =(无偏性)。

估计量?P 的方差?()V P :)1(11

1)?(P NP N n f

P V ---=

?()V P 的无偏估计量:(1)??()()(1)1f V P v p p p n -=-- 。

(4)总体比率R

简单估计量:x y r R ==?,且n 较大时,R r E R E ≈=)()?

((渐进无偏性)。

估计量?R 的方差?()V R :当n 较大时,∑=--?-≈N i i i RX Y N X n f R V 122)(111)?(

?()V R 的估计量:当n 较大时, ∑=--?-≈n

i i i i x R y n n f R V 12)?(111)?(?

(二) (二) 比率估计量

辅助变量特点:(a )必须与主要变量高度相关;(b )与主要变量之间的相关关系整体上相当稳定;(c )辅助变量的信息质量更好,帮忙而不添乱;(d )辅助变量的总体总值必须是已知的,或更容易获得的。 (1)总体均值Y

比率估计量:R X N x y X y Y R

R ?1?===,且n 较大时,Y R X y E R =≈)((渐进无偏性)。

估计量R y 的方差()R V y :n 较大时,

=---≈N

i i i R RX Y N n f y V 1

2

)(111)(

()R V y 的估计量:)??2(1)(?222x yx y R s R s R s n f y V +?--≈。

(2)总体总量Y

比率估计量:R X x y X Y N Y R

R ???===,且n 较大时,?()R E Y NXR Y ≈=(渐进无偏性)。

估计量?R Y 的方差?

()R V Y :n 较大时,

=--?-?≈N

i i i R RX Y N n f N Y V 1

2

2)(111)?(

?()R V Y 的估计量:

)??2(1)?(?2222

x yx y R s R s R s n f N Y V +?--≈。

(三) (三) 回归估计量

辅助变量的特点与比率估计完全相同。

简单估计量与比率估计量都是回归估计量的特例:当0=β时,y y lr =;当x y

R

==?β时,R lr y y =。

回归估计量:()lr

y y X x β=+-

若β为常数(记为0β),则()lr E y Y =,lr y 的方差()lr V y )2(102

202xy x y S S S n f ββ-+-=

()lr V y 的估计量为222001?()(2)lr y x xy f V y s s s n ββ-=+-。

使)(lr y V 达到最小的02xy y

x x S S B S S βρ===,22min 1()(1)lr y f V y S n ρ-=-。

对于简单随机抽样,n 足够大时,Y y E lr ≈)(,

2

21()()(1)lr lr y f V y MSE y S n ρ-≈≈

-。

倘若待估参数为总体总量、总体比例或总体比率,可以根据上面总体均值估计量的结论推导出相关性质。

三、不同估计量的精度比较

当n 足够大时,由于2

ρ非负,所以回归估计的结果一般好于简单估计。

当n 不够大时,比率估计和回归估计先天不足,此时不能认为它们一定好于简单估计。

四、样本量的确定

影响样本容量n 的因素:总体规模N ,(目标)抽样误差)(y V 以及总体方差2

S 等等。

抽样误差)(y V 通常用置信度α-1和绝对误差限度d Y y ≤-替代:2

2

/2()d V y u α=。 样本容量n 的确定公式:

2

22/211d n N u S α=+ 样本容量n 的确定步骤: 第一步:确定估计的精度水平;

第二步:按照保守(即让样本容量宁大勿小)原则,对总体方差2

S 进行预估; 第三步:计算简单随机抽样在回答率为100%的条件下所需的初始样本量0n ; 第四步:确定抽样方式,并根据不同抽样方式的设计效应deff 对样本容量进行调整;

第五步:判定有效回答率,并根据有效回答率对样本容量进行再调整;

第六步:在需要得到分组数据并对这些分组数据的精度有事先约定或要求时,应分别计算各组所需样本量,然后经各组累计加总得到总体所需样本量;

第七步:仔细权衡费用、时间、调查机构拥有或可动用的各种资源方面的限制,进而确定最终的样本量。

预估2

S 的方法:

(1)利用先前的调查结果和经验; (2)利用预调查或试调查的结果;

(3)利用同类或相似或有关的二手数据的结果;

(4)利用某些理论上的结论;

(5)利用富有经验的专家之判断。

五、简单随机抽样的实施

简单随机抽样的实施办法:抽签法、使用统计软件直接抽取法以及随机数法。

产生随机数的几种方式:(1)使用计算器;(2)使用计算机;(3)使用随机数表;(4)使用随机数骰子;(5)使用电子随机数抽样器。

第四章分层随机抽样

基本内容

引入分层随机抽样的原因:简单随机抽样不太适合总体单元数N比较大或者总体单元之间差异较大的情形。

一、分层随机抽样理论

相关概念:层、分层抽样以及分层随机抽样。

分层随机抽样的适用场合:“层内差异小,层间差异大”。

分层随机抽样相对于简单随机抽样的优点:

(1)(1)可同时对子总体(层)进行参数估计;

(2)(2)便于依托行政管理机构进行组织和实施,同时还可以根据各层的不同特点采用不同的抽样方式;

(3)(3)样本在总体中分布更加均匀;

(4)(4)可以提高参数估计的精度。

主要相关符号:

二、参数估计量及其性质

常见的总体特征:(1)总体均值;(2)总体总值;(3)总体比例。

注:下面凡是标注“*”号的公式不需记忆,但要求能够识别出来。

(一)(一)简单估计量

各层的样本方差2h s 是该层总体方差2h S 的无偏估计;

各层的样本协方差xyh s 是该层总体协方差xyh S 的无偏估计。

(1)总体均值Y

简单估计量:111?L

L st st h h h h h h Y y W y N y N =====∑∑,且()st E y Y =(无偏性)。

估计量st y 的方差()st V y :

2

2

1

(1)()L

h st h h h h

f V y W S n =-=∑

()st V y 的无偏估计量:

2

2

1

(1)()L

h st h h h h f v y W s n =-=∑。

(2)总体总量Y

简单估计量:??st st st Y NY Ny ==,且?

()st E Y Y =(无偏性)。

估计量?st Y 的方差?()st V Y :

2

1?()()L

h st h h h h h S V Y N N n n ==-∑ ?()st V Y 的无偏估计量:

21

?()()L

st h h h h h

h v Y N N n s ==-∑。

(3)总体比例P

简单估计量:

1

L

st h h

h p W p ==∑,且()st E p P =(无偏性)。

估计量st p 的方差()st V p :

2211()1L h h h h

st h h h h N n PQ

V p N N N n =-=??-∑ (*) ()st V p 的无偏估计量:21()

1()(1)L h h h st h h

h h N N n v p p q N n =?-=?-∑

(二) (二) 比率估计量 (1)总体均值Y

分别比估计:

分别比估计量:1L

h

RS h

h h h y y W X x ==∑,各层的h n 都较大时,()RS E y Y ≈(渐进无偏性)。

估计量RS y 的方差()RS V y :()RS V y 2222

1(1)(2)

L

h h yh h xh h h yh xh h h W f S R S R S S n ρ=-≈+-∑(*)

()RS V y 的估计量?()RS V y :2222

1(1)???()(2)L

h h RS yh h xh h h yh xh h h W f V y s R s R r s s n =-≈+-∑ (*)

联合比估计:

联合比估计量:

?st

RC c st

y y X R

X x =

? ,总样本量n 较大时,()RC E y Y ≈(渐进无偏性)。

估计量RC y 的方差()RC V y :()RC V y 22221(1)(2)

L

h h yh xh h yh xh h h W f S R S R S S n ρ=-≈+-∑(*)

()RC V y 的估计量?()RC V y : 2222

1(1)???()(2)L

h h RC yh c xh c h yh xh h h W f V y s R s R r s s n =-≈+-∑(*)

(2)总体总量Y

分别比估计:

分别比估计量:?RS

RS

Y Ny =,各层的h n 都较大时,?()RS E Y Y ≈(渐进无偏性)。

估计量?RS Y 的方差?()RS V Y :2

2221(1)?()(2)L

h h RS yh h xh h h yh xh h h N f V Y S R S R S S n ρ=-≈+-∑(*) ?()RS V Y 的估计量??()RS V Y :22221(1)????()(2)L

h h RS yh h xh h h yh xh h h N f V Y s R s R r s s n =-≈+-∑ (*)

联合比估计: 联合比估计量:?RC

RC

Y Ny =,总样本量n 较大时,?()RC E Y Y ≈(渐进无偏性)。

估计量?RC Y 的方差?()RC V Y :?()RC V Y 2

222

1(1)(2)L

h h yh xh h yh xh h h N f S R S R S S n ρ=-≈+-∑(*) ?()RC V Y 的估计量??()RC V Y :2

2221(1)????()(2)L

h h RC yh c xh c h yh xh h h N f V Y s R s R r s s n =-≈+-∑ (*)

分别比估计与联合比估计比较:

当每层的hi Y 与hi X 是经过原点的线性关系时,()()0RC RS V y V y -≥。

通常情况下,当比率估计有效时,除非h R R =,否则有()()0RC RS V y V y ->。】 选择分别比估计还是联合比估计的原则:

如果各层h n 都较大,同时各层的比率h R 之间差异较大,则分别比估计优于联合比估计;如果各层h n 不够大,或者各层的比率h R 之间差异较小,则联合比估计优于分别比估计。 (三) (三) 回归估计量

(1)总体均值Y

分别回归估计:

分别回归估计量:

1

1

()L L

lrs h lrh h h h h h h h y W y W y X x β====+-????

∑∑

◆各层的回归系数h β事先给定时:

()lrs E y Y =(无偏性)。

估计量lrs y 的方差()lrs V y :2222

1(1)()(2)

L

h h lrs yh h xh h xyh h h W f V y S S S n ββ=-=+-∑ (*)

()lrs V y 的估计量?()lrs V y :2

2221(1)?()(2)L

h h lrs yh h xh h xyh h h W f V y s s s n ββ=-=+-∑ (*)

当2,(1,2,)

xyh h h xh S B h L S β=== 时,()

222min 1(1)()1L h h lrs yh h h h W f V y S n ρ=-=?-∑。

◆各层的回归系数h β不能事先设定时:

h β的估计值:

1

2

1

()()

?()h

h

n hi

h hi h i h h

n hi

h i y

y x x b x

x β==--==-∑∑

当各层的h n 都较大时,()lrs E y Y ≈(渐进无偏性)。

当各层的h n 都较大时,lrs y 的方差近似为:()222

1(1)()1L

h h lrs yh h h h W f V y S n ρ=-≈?-∑。

()lrs V y 的估计量?()lrs V y :()2221(1)?()(1)1(2)L

h h lrs h yh h h h h W f V y n s r n n =-=?---∑ (*)

联合回归估计:

联合回归估计量:()lrc st st y y X x β=+-

◆β事先给定时:

()lrc E y Y =(无偏性)。

估计量lrc y 的方差()lrc V y :2222

1(1)()(2)

L

h h lrc yh xh xyh h h W f V y S S S n ββ=-=+-∑ (*)

()lrc V y 的估计量?()lrc V y :2

2221(1)?()(2)L

h h lrc yh xh xyh h h W f V y s s s n ββ=-=+-∑ (*)

()()

21

221

(1)/(1)/L

h

h xyh h h c

L h

h xh

h h W

f S n B W

f S n β==-=

=-∑∑时,2222

min 1(1)()()

L

h h lrc yh c xh h h W f V y S B S n =-=-∑。

◆β不能事先设定时:

β的估计值:2112211(1)()()(1)?(1)()(1)h

h

n L

h h hi h hi h h i h h c n L

h h hi h h i h h W f y y x x n n b W f x x n n β====----==---∑∑∑∑ (*)

当样本量n 较大时,()lrc E y Y ≈(渐进无偏性)。

当样本量n 较大时,lrc y 的方差近似为:2222

1(1)()()

L

h h lrc yh c xh h h W f V y S B S n =-≈-∑。

()lrc V y 的估计量:22221(1)?()()(2)

L

h h lrc lrc yh c xh c xyh h h W f V y v y s b s b s n =-==+-∑ (*)

(2)总体总量Y 分别回归估计:

分别回归估计量:?lrs

lrs

Y Ny =

◆各层的回归系数h β事先给定时:

?()lrs E Y Y =(无偏性)。

估计量?lrs Y 的方差?()lrs V Y :2

2221(1)?()(2)L

h h lrs yh h xh h xyh h h N f V Y S S S n ββ=-=+-∑ (*)

?()lrs V Y 的估计量??()lrs V Y :2

2221(1)??()(2)L

h h lrs yh h xh h xyh h h N f V Y s s s n ββ=-=+-∑ (*)

◆各层的回归系数h β不能事先设定时:

h β的估计值:

1

2

1

()()

?()h

h

n hi

h hi h i h h

n hi

h i y

y x x b x

x β==--==-∑∑

当各层的h n 都较大时,?

()lrs E Y Y ≈(渐进无偏性)。

当各层的h n 都较大时,?lrs Y 的方差近似为:()2

221(1)?()1L

h h lrs yh h h h N f V Y S n ρ=-≈?-∑。

?()lrs V Y 的估计量??()lrs V Y :()2

221(1)??()(1)1(2)L

h h lrs h yh h h h h N f V Y n s r n n =-=?---∑ (*)

联合回归估计:

联合回归估计量:?lrc lrc

Y Ny =

◆β事先给定时:

?lrc E Y Y =()(无偏性)。

估计量?lrc Y 的方差?()lrc V Y :2

2221(1)?()(2)L

h h lrc yh xh xyh h h N f V Y S S S n ββ=-=+-∑ (*) ?()lrc V Y 的估计量??()lrc V Y :2

2221(1)??()(2)L h h lrc yh xh xyh h h N f V Y s s s n ββ=-=+-∑ (*)

◆β不能事先设定时:

β的估计值:2112211(1)()()(1)?(1)()(1)h

h

n L

h h hi h hi h h i h h c n L

h h hi h h i h h W f y y x x n n b W f x x n n β====----==---∑∑∑∑ (*)

当样本量n 较大时,?

()lrc E Y Y ≈(渐进无偏性)。

当样本量n 较大时,?lrc Y 的方差近似为:2

2221(1)?()()L

h h lrc yh c xh h h N f V Y S B S n =-≈-∑。 ?()lrc V Y 的估计量:2

2221(1)??()(2)L

h h lrc yh c xh c xyh h h N f V Y s b s b s n =-=+-∑ (*)

分别回归估计与联合回归估计比较:

最小方差之间的关系:min min ()()0lrc lrs V y V y -≥,即当h β和β均取最优值时,分别回归估计优于联合回归估计。

选择分别回归估计还是联合回归估计的原则:

如果各层的样本量不太小,而且各层的回归系数之间的差异较大,采用分别回归估计较为适宜; 如果各层的样本量不大,而且各层的回归系数大致相同,采用联合回归估计较为适宜;

如果各层的回归系数差别不是太大,而且并不是每层的样本量h n 都相当大,联合回归估计可能更保险一些。

三、各层样本量的分配

各层样本量的分配方式:比例分配、最优分配和奈曼分配。 (一) (一) 比例分配

各层样本量的计算公式:h h n n

N N =

估计量:

prop y y =(自加权)

估计量方差:

2

1

1()L

prop st h h

h f

V y W S

n =-=

(二) (二) 最优分配(费用函数为:

01

L

T h h

h C c c n ==+∑)

各层样本量的计算公式:

1

1

h

h h h h h h n n

W S N S ====∑∑

估计量:

1

L

st h h

h y W y ==∑

估计量方差:(

(2

11111()L L

L st h h h h h

h h h V y W S W S W S n N ====?-∑∑∑

(三) (三) 奈曼分配

各层样本量的计算公式:

1

1

h h h h h L L h h h h

h h n W S N S

n

W S N S ====∑∑

估计量:

1

L

st h h

h y W y ==∑

估计量方差:22

min 1111()()L L st h h h h

h h V y W S W S n N ===?-?∑∑

四、总样本量的确定

根据不同的精度要求以及不同的样本量分配方式(h

h n n w =?)来确定总样本量n 。

精度要求为方差上限V 时:

22

1

2

11L

h h h

h L h h

h W S

w n V W S N ===

+∑∑

对于不同的样本量分配方式,只需对h w 做相应的改变即可。

不同精度要求之间的转换关系:

()2

2222/()()V d u r Y u αα==?。 五、分层随机抽样精度研究

最优分配、比例分配的分层随机抽样与相同样本量的简单随机抽样的精度之间的关系:

opt prop srs V V V ≤≤

下标srs 代表简单随机抽样;下标prop 代表比例分配的分层随机抽样;下标opt 代表奈曼最优分配的分层随机抽样。

结论:

当各层均值之间的差异愈大,则一般的分层(以比例分配为代表)的效益就愈高; 当各层的标准差相差较大时,最优分配又会比比例分配有更高的效益;

当各层的标准差之间的差别不大时,最优分配的效果不会比比例分配的效果好很多。

六、分层随机抽样的实施

由于分层随机抽样在各层内采取的是简单随机抽样,因此各层内样本的抽取方法可以参见简单随机抽样的相关内容。进一步的问题是层的划分及层数的确定。

层的划分:在实际项目当中,层的划分通常是按照单元的某个特征或标识进行的。关于分层界限的确定方法,读者可以参考有关抽样技术的教材。

层数的确定:一些理论和实际研究表明,层数L 以不超过6为宜。

第五章 不等概率抽样

基本内容

等概率抽样的特点:将总体(或层)中的每个单元都看作是平等的,不“偏向”也不“疏远”某些特定的单元。

等概率抽样的适用场合:总体单元之间的差异不是很大。

不等概率抽样的特点:将总体中每个单元的入样概率与其“规模”大小联系起来,使得“大单元”被抽到的概率大,“小单元”被抽到的概率小。

不等概率抽样的适用场合:总体单元之间的差异较大。 不等概率抽样的优点:能够大大提高抽样精度,减少抽样误差。

不等概率抽样的局限性:必须具有能够说明单元规模大小的辅助变量来确定各个单元的入样概率或包含概率。

不等概率抽样分类:放回的不等概率抽样(PPS 抽样)和不放回的不等概率抽样(PS π抽样)。

一、放回的不等概率抽样(PPS 抽样)

PPS 抽样是放回的与规模大小成比例的概率抽样(0i i Z M M =)。

放回的不等概率抽样的缺点:n 个样本里可能会有某个单元被多次抽中。 基本符号:

(一) 多项抽样是最简单的不等概率抽样,其实施方法有两种:代码法和拉希里(Lahili )法。

(1) (1)代码法

实施程序(适合于N 不太大的情形):

①对总体的第i 个单元赋予i M 个代码111

1

111,2,,i i i k k k i k k k M M M M ---===??

+++

???∑∑∑ ; ②在[]01,M 之间产生一个随机整数m ,如果m 落在第j 个单元所包含的代码数里,则第j 个单元入

样;

③如此进行n 次抽取,就构成了PPS 抽样的样本。 (2) (2)拉希里(Lahili )法

实施程序(适合于N 比较大的情形): ①令

{}

*1max i i N

M M ≤≤=;

②分别产生两个随机数,一个随机数i 产生于[

]1N ,中,另一个随机数m 产生于*

1M ????,中;

③如果i

M m ≥,则第i 个单元被抽中;如果i M m <,则重新抽取(,)i m ;

④反复进行②和③两项操作,直至抽满n 个样本为止。 (二) (二) 汉森—赫维茨(Hansen —Hurwitz )估计量及其性质

总体总量Y 的汉森—赫维茨(Hansen —Hurwitz )估计量?HH Y :

11?n

i HH i i y Y n z ==∑ PPS 抽样Y 的汉森—赫维茨(Hansen —Hurwitz )估计量?HH Y :

01?n

i HH i i M y Y n m ==?∑ ?HH Y 的性质:

(1)无偏性:?

()HH E Y Y =;

(2)方差:

2

11?()N i

HH i i i Y V Y Z Y n Z =??=- ?

??∑; (3)方差的无偏估计量:

2

11??()(1)n

i HH HH i i y v Y Y n n z =??=- ?-??∑ 二、不放回的不等概率抽样(PS π抽样)

不放回不等概率抽样的样本不独立,加大了抽样实施、参数估计以及精度计算的难度。

PS π抽样是不放回的与规模大小成比例的概率抽样(i i nZ π=)。

严格的PS π抽样只有当2n =时才有一些简单的方法适用;当2n >时,实施起来相当复杂。 基本符号:

(一) (1)逐个抽取法;(2)重抽法;(3)系统抽取法;(4)全样本抽取法。 (二) (二) 包含概率i π和

ij π的性质

(1)

1

N

i

i n

π==∑

(2)

(1)N

ij

i

j i n π

π≠=-∑

(3)

11

(1)

2

N

N

ij i j i

n n π=>=-∑∑

(三) (三) 霍维茨—汤普森(Horvitz-Thompson )估计量及其性质

总体总量Y 的霍维茨—汤普森估计量?

HT Y :

1

?n

i HT i i

y Y

==∑

?HT Y 的性质:

(1) (1) 若0,1,2,,i i N π>= ,则?()HT E Y Y =; (2) (2) 若0,1,2,,i

i N π>= ,则

21

11?()2N N N ij i j i HT i i j

i i j i

i

i j

V Y Y YY πππππππ==>--=+∑∑∑

若n 固定,则进一步有:

()2

1?()N

N

j i HT i j ij i j i i j Y Y V Y πππππ=>??

=-- ? ???∑∑ (3) (3) 若

0,0(,1,2,,;)i ij i j N i j ππ>>=≠ ,则?()HT V Y 的无偏估计为:

2

21

11?()2n n n ij i j i HT i i j

i i j i

i

i j ij

v Y y y y ππππππππ==>--=+∑∑∑

若n 固定,则?

()HT V Y 有另外一个无偏估计量,即耶茨(Yates)-格伦迪(Grundy)-森(Sen)估计量

?()YGS HT v Y :2

1?()n

n

i j ij j i YGS HT i j i ij i j y y v Y ππππππ=>????

-=- ??? ???????∑∑

(四) (四) n =2时的严格PS π抽样

样本抽取方法:布鲁尔(Brewer )方法和德宾(Durbin )方法。

(五) (五) n > 2时的严格PS π抽样

样本抽取方法: 水野( Midzuno )方法、布鲁尔( Brewer )方法和拉奥( Rao )—桑福特( Sampford )方法。

第六章 多阶段抽样

基本内容

多阶段抽样在抽样调查中的应用很广泛,它使得抽样在较大总体中进行得以实现。本章重点讲述二阶段抽样的概念、实施方法和估计,目的是使我们基本掌握二阶段抽样的概念和估算方法,进而推广到更多阶段的抽样。本章主要讨论的问题有:1.二阶段抽样的定义和特点;2.参数估计量及其性质;3.样本量的确定;4.三阶段及多阶段抽样。

一、多阶段抽样的定义和特点

二阶段抽样的定义:假设总体由N 个初级单元组成,每个初级单元又由若干个二级(次级)单元组成,若在总体中按一定的方法抽取n 个初级单元,对每个被抽中的初级单元再抽取若干二级单元进行调查,这种抽样被称为二阶段抽样(two-stage sampling )。

特殊情况:整群抽样可以看作为多阶段抽样的特殊情形,即最后一阶抽样是100%抽样。

特点: (1) (1) 保持了一阶整群抽样样本单元相对集中的特点; (2) (2) 能够充分发挥抽样的效率,节省了人力和物力; (3) (3) 抽样框可以分级准备;

(4)

(4) 各个阶段可以采用不同的抽样方法。

预备知识:两阶(段)抽样中,对于一个估计量?θ

的均值可表示为12??

()[()]E E E θθ=; 方差可表示为1212???

()[()][()]V V

E E V θθθ=+。 二、参数估计量及其性质

常见的总体特征:(1)总体均值;(2)总体总值;(3)总体比例。 (一)初级单元大小相等时的估计 (1)总体均值的估计

总体均值Y 的无偏估计为

11n

i

i y y n ==∑; 估计量Y 的方差()V y :

22

121211()f f V y S S n mn --=

+;

()V y 的无偏估计量为:

()1222

11211()f f f v y s s n mn --=

+。

(2)总体总值的估计

总体总值Y 的估计量:?

Y NMy =;

方差的无偏估计量:

()22

()v y N M v y =。 (3)总体比例的估计

总体比例P 的无偏估计为:

∑∑====n

i i n i i a mn p n p 111?1; P 的方差()p V :()()212

11111()11N N i i i

i i f f M V p P P PQ n N mn N M ==--=-+--∑∑;

()p V 的一个无偏估计为:()()()()212121111()11n n i i i i i f f f v p p p p q n n n m ==--=-+--∑∑。

(二)分层二阶段抽样时的估计 (1)总体均值的估计

总体均值Y 的分层二阶估计量为:

?h

h h h

st

h h

h

h

h

h

N M y

y W y N M

==∑∑∑

抽样检验方法

抽样检验方法 1 、抽样检验的来源 2 、抽样检验的定义 3 、抽样检验的分类 4 、抽样检验和全检的区别 5 、抽样检验的基本概念 6 、计数调整型抽样方案简介 7 、一次正常抽样方案使用简介 附录一、样本大小字码表 附录二、一次正常抽样方案表 1.抽样检验的来源 二次世界大战刚开始时,美国迫切需要把平时产业转变成战时产业,造成了大量的军需品的生产和检验,但当时检查员又非常缺乏,同时军需品不可能进行全检,故不得不采取经济又适用的抽检方法,在此背景之下就产生了抽样检验标准: MIL —STD —105A 。 (1945年产生,1950年正式发布) 2.抽样检验的定义 从群体中,随机抽出一定数量的样本,经过检验、试验或测量以后,以其结果与判定基准作比较,然后利用统计方法,判定此群体是合格还是不合格的检验过程,称之为抽样检验。 3.抽样检验的分类 按抽样检验的方式可分为如下四类: 一、标准型抽样检验 是在同时考虑生产方和顾客风险的情况下,对孤立批所进行的一种抽案,以判断群体的合格与不合格为目的。 二、挑选型抽样检验 对按一定抽样方案拒收的产品,不是一退了之,而是对不合格批采取全数检验,退全检后的不良品并要求退换。 三、调整型抽样检验 根据以往交验批的信息,按一定的转换规则,对检验方案的宽严程度进行调整的一种抽样 不良品 X >C 拒收 X ≦C 允收

方案。适用于连续生产批的检验,一般分为:(1)正常检验; (2)加严检验; (3)放宽检验。 四、链式抽样检验 从检验批中抽出很小的样本,并规定样本中不允许有不合格。适用于费用高、批量小及客观条件不允许抽取较多产品的情况。 4.抽样检验和全检的区别 一、抽样检验和全检的适用场合 抽样检验并非任何场合都适用,有些可以做抽样检验,有些必须进行全检。这主要依据检验群体的性质、数量、体积大小或检验所产生的经费或者检验方式而定。但全检不一定就比抽检好。 (1) 适用于抽样检验的场合 ——属于破坏性试验,如材料强度。 ——检验群体数量非常多,如螺丝。 ——检验群体体积非常大,如原棉。 ——产品属于连续的物品,如纱绒。 (2) 适用于全数检验的场合 ——检验很快,且费用少,如灯泡点火检验。 ——产品必须全数良品,如手表、照像机等。 ——产品中只要有少许不良品,就会严重影响人身或财产安。 全,如高压气筒。 二、抽样检验与全检的优劣比较 (1) 优点 ——抽检费用远比全检少。 ——抽检数少,可较详细。 ——判断为不合格则全批退货,可加强供货商的质量管理。 (2) 缺点 ——虽然判定为合格,也难免存在一些不良品。 ——可能把不合格批误判为合格批,也可能把合格批误判为 不合格批。 5.抽样检验的基本概念 一、检验群体(N) 、检验批(Lot) 一般来说,一个生产批即为一个检验批。但若批量很大、连续生产、周期较长,且过程在受控状态下,可以将一个生产批分成若干检验批,但一个检验批不可能包含多个生产批,也不能随意组合检验批。 二、单位产品 通常将用来检验群体中的每个样品单位称为“单位产品”,对大多数产品而言,一个产品就是一个单位产品,但对流程性材料,以其包装容器为一个单位产品,对纺织品则以长度(米、匹等)为单位产品。 三、单位产品质量 质量特性可分为计量型和计数型两种。计量型特性是可通过测量仪器测试的,如轴承的尺寸、钢的含碳量等。计数型特性是离散的,如铸件的汽孔数、纺织品上的疵点数等。 四、样本(n) 从群体(检验批)中随机抽取部份的单位产品称之为样本。 五、合格判定数(C) 作为判定群体是否合格的基准不良数称为合格判定数。 六、缺点

抽样技术 概念

目录第一章预备知识 第二章基本概念 第三章简单随机抽样 第四章分层随机抽样 第五章不等概率抽样 第六章多阶段抽样 第七章整群抽样 第八章系统抽样 第九章非概率抽样

第一章预备知识 作为抽样技术的基础知识或预备知识,本章简要地介绍调查原理、排列组合、概率统计等方面的有关知识。 一、调查概论 调查的重要性:有利于制定政策、投资决策、科学研究、机构管理以及司法实践等;与此同时,许多学科的进步和发展也同样离不开调查。 (一)(一)调查本质上是一种测量活动 测量活动具有6个要素:测量主体、测量客体、测量对象、测量法则、测量工具、测量结果(数字/符号)。 测量得到的数据大体分为三种类型:分类型数据、顺序型数据以及数值型数据。 测量的方法分为:直接测量和间接测量。 (二)(二)真值、测量值与误差 误差公理:任何调查结果都可能具有误差,而且误差始终存在于一切科学试验和调查过程中 。根据误差的来源分类:调查主体误差、调查客体误差、调查工具误差、调查法则误差、调查环境误差。 误差公理:任何调查结果都可能具有误差,而且误差始终存在于一切科学试验和调查过程中。 根据误差的来源分类:调查主体误差、调查客体误差、调查工具误差、调查法则误差、调查环境误差。 根据误差的性质分类:系统误差、随机误差和粗大误差。 根据误差的计量尺度分类:绝对误差和相对误差。 绝对误差δ、(调查)估计值x以及真实值μ之间的关系:δ=x-μ。 相对误差r、绝对误差δ以及真实值μ之间的关系:r=δ/μ。 实际常用的真值分类:理论真值、约定真值以及相对真值。 实际常用的测量值分类:单次测量值、算术平均值、加权平均值、中位数和众数。 (三)(三)信度、效度与精度 信度表示测量结果中的随机误差大小的程度。 信度的表示方法:测量值的方差(或标准差)或者样本平均数的方差(或标准差)。 衡量信度的三种方法:再测信度、复本信度和折半信度。 衡量信度的三种方法;再测信度、复本信度和折半信度。 效度表示测量结果中的系统误差大小的程度,是测量结果的“有效性” 的反映。 效度分类:内容效度、准则效度和结构效度。 效度含义:(1)测量的特征即为研究的目标特征;(2)该特征被准确地测量。 效度的表示方法:B(x)=|x-μ|或者B(E x)=|E x-μ|。 精度是信度与效度的综合,但它还与信度与效度之外的因素有关。 精度的表示方法:均方误差MSE(x)=V(x)+ () 2 B Ex u - 效度的表示方法: μ - =x x B) (或者μ - =x E x E B) (。 精度表示信度与效度的综合,但它还与信度与效度之外的因素有关。 精度的表示方法:均方误差 2 ()()() MSE x V x B Ex =+ 信度、效度与精度之间的关系:对于测量或调查来说,信度高的效度未必高,反过来效度高的信度未必高,但精度高的信度和效度肯定高。 二、排列组合 (一)(一)两条基本原理 加法原理和乘法原理。

什么是抽样抽样的基本术语及其含义是什么

24什么是抽样?抽样的基本术语及其含义是什么? 24(什么是抽样,抽样的基本术语及其含义是什么, 答:前一问见名词简释。抽样的常用基本术语有: 1(总体。它是构成事物的所有元素、也就是最基本单位的集合。 (样本。它是从总体中按照一定方式抽取出的一部分元素的集合。一个样本是总体的 2 一个子集,一个总体中可以抽取出若干个不同的样本。 3(抽样元素。它指的是构成总体的每一个最基本单位,也称“抽样分子”或“个体”。社会调查研究中最常用的抽样元素是单个的人,但也可以是家庭、学校、企业、商店等。 4(抽样单位。它是一次直接的抽样所使用的基本单位。抽样单位与抽样元素有时是同一的,有时又是不同的。 5(抽样框。它又称作抽样范围,指的是一次直接抽样时总体中所有抽样单位的名单。 6(参数值。它也称为总体值,是关于总体中某一变量的综合描述,或者总体中所有元素的某种特征的综合数量表现。在统计中最常见的参数值是某一变量的平均值。 7(统计值。它也称为样本值,是关于样本中某一变量的综合描述,或者说是样本中所有元素的某种特征的综合数量表现。样本值是从样本的所有元素中计算出来的,它是相应的总体值的估计量。 8(抽样误差。它是用样本统计值去估计总体参数值时所出现的误差。这种误差是因为抽样本身的特点而引起的。由于无论采取什么样的抽样方式,所抽取的样本

有多大,都无法涵盖总体,所以抽样误差是不可避免的。但是,抽样误差的大小是可以在样本设计中事先进行控制的。 25(在社会调查中,如何确定样本规模, 答:具体每一个社会调查研究究竟应当选择多大规模的样本,主要取决于以下几点: (1)总体规模:根据抽样原理,样本规模与总体规模越接近,样本值与总体值就越一致,抽样误差就越小,样本的代表性也越强。但是当总体规模大到一定程度以后,样本规模的加大就不是那么必要了。因此,对于10 000个单位以下的总体来说,样本规模应尽可能大;而对于那些超大型的总体,则可以按照一两万个单位的总体规模来确定样本规模,以避免不必要的浪费。 (2)抽样的精确性:从理论上说,样本的精确度越高越好,但相应的样本规模也要越来越大,这就意味着调查者的时间和人财物力的消耗也要增加好几倍。而对于大多数社会调查研究来说,实际上并不要求太高的精确度。因此,调查者应当根据必要性和可能性,适当地确定样本精确度,决不能因一味追求精确度的提高而拼命扩大样本规模,否则将导致巨大的浪费。 (3)总体的异质性程度:要达到同样的精确度,在同质性较高的总体中抽样时,样本规模可以小一些;在异质性较高的总体中,样本规模则应该大一些。为了提高了样本反映总体的精确度,人们通常用分类抽样的方法将总体划分为不同的类别或层次,让这些不同类别或层次在样本中都有代表,并使得抽样误差中基本不存在类与类之间的误差成分,而只存在类内各单位之间的误差成分,其效果相当于缩小了总体的异质性程度和单位分布的不均匀状态。 (4)调查者所拥有的经费、人力、物力和时间:尽管从样本的代表性、抽样的精确性考虑,样本规模应尽可能大,但一般调查的经费、人力、物力和时间总是有限

审计测试中的抽样技术

第九章审计测试中的抽样技术 第一节审计抽样概论 【学习要领】理解统计抽样和非统计抽样的依据有何不同,抽样风险和非抽样风险的区别及对审计效率、效果的影响。掌握样本量与各因素的关系、选取样本的方法及评价抽样结果的步骤。 一、与审计抽样的相关概念 (一)审计抽样的概念: 审计抽样,是指注册会计师在实施审计程序时,从审计对象总体中选取一定数量的样本进行测试,并根据测试结果,推断审计对象总体特征的一种方法。 审计抽样对控制测试和实质性测试都适用,但并不是对于这些测试中的所有程序都适用。如审计抽样可用于逆查、顺查、函证、盘点等,但对询问、观察、分析性复核等不适用。 抽样审计不同于抽查。抽查作为一种技术,可以用来了解情况,确定审计重点,取得审计证据,使用中并无严格要求。审计抽样作为一种方法,需要运用抽查技术。 审计抽样的基本目标是在有限审计资源条件限制下,收集充分、适当的审计证据,以形成和支持审计结论。 抽样审计的步骤: ①确定抽样审计对象总体(1000笔销售业务); ②进行样本设计,确定有效样本容量(100笔销售业务);

③选取样本项目; ④审查样本项目,得出样本审查结果(误差)(2笔未经授权); ⑤分析样本结果,推断总体特征(误差)(推断20笔未经授权),得出审计结论。 (二)抽样误差和抽样风险 抽样误差:是由于采用抽样引起的误差,即注册会计师根据样本推断的总体特征与真实总体特征的差异。 抽样风险:抽样风险是由于采用抽样引起的风险,即注册会计师依据抽样结果得出的结论与审计对象总体特征不相符合的可能性。抽样风险与样本量成反向关系,样本量越大,抽样风险越低。(可这样理解:当抽取100%的样本时,样本就能完全代表总体,抽样风险为0。这实际上不是抽样了,而是全查,即不存在抽样风险。) (三)统计抽样和非统计抽样(按抽样决策的依据划分) 抽样审计发展经历了任意抽样、判断抽样和统计抽样三阶段。其中任意抽样和判断抽样属非统计抽样。 任意抽样,系指在所有被审查的资料中,任意抽取一部分作为样本,进行审查的一种方法。任意抽样由于样本是由注册会计师任意选取,没有一定的科学依据。因此,在审计工作实践中,很少采用这种方法。 判断抽样,系指注册会计师根据审计目的、被审项目的重要

抽样技术重点复习概念

调查:通过使用明确的概念、方法和程序,依据专门设计的调查方案知道的方式,从一个总体全部或部分单元中搜集感兴趣的指标信息,并将这些信息综合整理成数据系列的有关活动。 抽样调查:是调查应用最常见的模式,是一种非全面的调查,它是指从研究对象的全体(总体)中抽取一部分单元作为样本,根据对所抽取的样本进行调查,获得有关总体目标量的了解。这是广义的抽样调查的概念 抽样调查步骤:调查目标确定、抽样框选择、抽样方案设计、问卷设计、数据收集、数据编码和录入、审核与插补、参数估计、数据分析和调查结果的表述、数据分布、撰写调查报告 简单随机抽样:也称纯随机抽样,是从抽样框内的N个抽样单元中随机的、一个一个的抽取n个单元作为样本,在每次抽选中,所有未入样的待选单元入选样本的概率都想等,这n个被抽中的单元就构成了简单随机样本。简单随机样本也可以一次从总体(抽样框)中同时抽出,这时全部可能样本中的每一个样本被抽中的概率也需要相等。 分层抽样:是将抽样单元按某种特征或某种规划分为不同的层,然后从不同的层中独立、随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计。 分层随机抽样:如果每层中的抽样都是独立地按照简单随机抽样进行的,那么这样的分层抽样称为分层随即抽样,所得的样本称为分层随即样本。 整群抽样:将总体中的若干个基本单元合并为组,这样的组称为群。抽样时直接抽取群,然后对中选群中的所有基本单元全部实施调查,这样的抽样方法称为整群抽样。 多阶段抽样:采用类似整群抽样的方法,首先抽取群,但不是调查群内的所有基本单元,而是再进一步抽样,从选中的群中抽取出若干个基本单元进行调查,因为取得这些接受调查的基本单元需要两个步骤,所以将这种抽样方式成为两阶段抽样。这里,群是初级抽样单元,第二阶段抽取的是基本抽样单元。将这种方法推广,使抽样的段数增多,就称为多阶段抽样。 系统抽样:将总体中的所有单元(抽样单元)按一定顺序排列,在规定的范围内随机抽取一个单元作为初始单元,然后按事先规定好的规则确定其他样本单元,这种抽样方法称为系统抽样。 简单估计:在没有总体其他相关辅助变量信息可以利用的情况下,用样本特征直接估计总体特征,且样本特征与预估的总体特征除了写法之分外,完全同形同构,简单易记,因此有简单线性估计的名称,简称为简单估计。 比率估计:设对有两个调查变量Y 和X 的总体进行简单随机抽样,分别以y,x表示样本总值,以y,x表示样本均值,以μ// R y x y x ==为样本比率,用 μR作为总体比率R的估计称为的比率估计 回归估计:在简单随机抽样下,总体均值和总体总值Y的回归估计量定义为: ()() tr y y X x y x X ββ =+-=-- μ lr lr Y N y =其中Y,X分别为调查变量、辅助变量的样本均值,X是辅助变量的总体均值,β称为回归系数。 不等概抽样:如果总体中每个单元进入样本的可能性是不相等的,则这种随机抽样方式就称为不等概率随机抽样,简称不等概率抽样。 非抽样误差:除抽样误差以外的,由于各种原因引起的误差。 非抽样误差的分类:抽样框误差(由不完善的抽样框引起的误差);无回答误差(由于种种原因没有从被调查单元获得调查结果,造成调查数据的缺失);计量误差(所获得的调查数据与其真值之间不一致造成的误差)

(完整版)样本及抽样分布.doc

第六章样本及抽样分布 【基本要求】 1、理解总体、个体和样本的概念; 2、理解样本均值、样本方差和样本矩的概念并会计算; 3、理解统计量的概念,掌握几种常用统计量的分布及其结论; 4、理解分位数的概念,会计算几种重要分布的分位数。 【本章重点】样本均值、样本方差和样本矩的计算;抽样分布—— 2 分布,t分布, F分布;分位数的理解和计算。 【本章难点】对样本、统计量及分位数概念的理解;样本矩的计算。 【学时分配】 4 学时 【授课内容】 §6.0前言 前面五章我们研究了概率论的基本内容,从中得知:概率论是研究随机现象统计规律性的一 门数学分支。它是从一个数学模型出发(比如随机变量的分布)去研究它的性质和统计规律性; 而我们下面将要研究的数理统计,也是研究大量随机现象的统计规律性,并且是应用十分广泛的 一门数学分支。所不同的是数理统计是以概率论为理论基础,利用观测随机现象所得到的数据来 选择、构造数学模型(即研究随机现象)。其研究方法是归纳法(部分到整体)。对研究对象的客观规律性做出种种合理性的估计、判断和预测,为决策者和决策行动提供理论依据和建议。数理 统计的内容很丰富,这里我们主要介绍数理统计的基本概念,重点研究参数估计和假设检验。 § 6.1随机样本 1

一、总体与样本 1.总体、个体 在数理统计学中,我们把所研究的全部元素组成的集合称为总体;而把组成总体的每个元素称为个体。 例如:在研究某批灯泡的平均寿命时,该批灯泡的全体就组成了总体,而其中每个灯泡就是 个体;在研究我校男大学生的身高和体重的分布情况时,该校的全体男大学生组成了总体,而每 个男大学生就是个体。 但对于具体问题,由于我们关心的不是每个个体的种种具体特性,而仅仅是它的某一项或几 项数量指标 X ( 可以是向量 ) 和该数量指标X在总体的分布情况。在上述例子中 X 是表示灯泡的寿命或男大学生的身高和体重。在试验中,抽取了若干个个体就观察到了X 的这样或那样的数值,因而这个数量指标X 是一个随机变量(或向量),而 X 的分布就完全描写了总体中我们所关心的那个数量指标的分布状况。由于我们关心的正是这个数量指标,因此我们以后就把总体和数量指标 X 可能取值的全体组成的集合等同起来。 定义 1:把研究对象的全体(通常为数量指标X 可能取值的全体组成的集合)称为总体;总体中的每个元素称为个体。 我们对总体的研究,就是对相应的随机变量X 的分布的研究,所谓总体的分布也就是数量指 标 X 的分布,因此, X 的分布函数和数字特征分别称为总体的分布函数和数字特征。今后将不区分总体与相应的随机变量,笼统称为总体 X 。根据总体中所包括个体的总数,将总体分为:有限总体 和无限总体。 例 1:考察一块试验田中小麦穗的重量: X =所有小麦穗重量的全体(无限总体);个体——每个麦穗重x 2

I 基本概念与抽样分布1-8#

应用数理统计概述 不确定性数学:1 . 概率论、数理统计),,(P F Ω 2 . 模糊数学 )}(,{x x ?M 3 . 灰色数学 ],[b a H 4 . 未确知数学 )}(],,{[x F b a 对于上述各个数学分支,各自有相应的运算法则和适用范围。 (一) 概率论: 1.),,(P F Ω: E 是一个随机试验,Ω 为E 的全体基本事件的集合 F 由Ω的一些子集为元素 所构成的集合 人们通过对某事件A 的频率)(A f 的研究,发现了概率 )(A P 和性质及运算 2.讨论的一般方法: 随机变量 → 分布 → 数学期望、方差等(宏观指标) ① 对于一维 : )(ωξξ= )(i i x ωξ= ∑ <= <=x x i i p x P x F }{)(ξ, i i p x P ==}{ξ ; ? ∞ -= <=x dt t p x P x F )(}{)(ξ, 0)(≥x p . ? ∑ ∞ +∞ -∞ == dx x xp p x E i i i )(1 或 ξ; 2)(ξξξE E D -= ② 对于n 维 : 随机变量),,,(21n ξξξ → 实数),,,(21n x x x },{})({),,(22111 21n n n i i i n x x x P x p x x x F <<<=<==ξξξωξω ; (二) 数理统计: 1.基础:统计量?? ?? ? =∑=数据分区间处理经验型,如:公式型,n i i n 11ξξ 及其分布 ???经验分布(直方图) 分布 如:统计分布2 χ 2. 样本的处理:① 参数估计; ② 假设检验(参数假设检验<本科>、非参数假设检 验<分布拟合 与 两总体相等性检验>); ③ 回归分析; ④ 方差分析 与 正交试验设计.

本章提出了抽样的基本概念和基本术语.doc

第四章抽样讲课稿 本章提出了抽样的基本概念和基本术语,阐释了抽样在社会调查研究中的作用,介绍了不同种类的抽样方法,特别说明了每一种方法的适用范围和操作程序,并对它们做了简要评价。同时,为了更好地应用抽样方法,还简要介绍了样本规模和抽样误差问题。其中最重要的就是要联系实际认识和掌握各种抽样方法。 一、抽样的概念和基本术语 当今社会最主要和最常用的调查类型是抽样调查,它的前提条件就是抽样。因此,抽样是在许多社会调查研究的准备阶段必须完成的一项重要工作。 (一)抽样的概念 抽样指的是从组成某个总体的所有元素、也就是所有最基本单位中,按照一定的方式选择或抽取一部分元素的过程和方法,或者说是从总体中按照一定方式选择或抽取样本的过程和方法。 抽样存在的必要性缘于总体本身所具有的异质性。如果某个总体中的每一个成员在所有方面都相同,即具有百分之百的同质性,那么抽样也就没有必要了。 抽样存在的合理性是由辩证唯物主义个别与一般的理论和建立在概率论基础上的大数定律和中心极限定律决定的。这些理论与定律证明,尽管总体所包含的每一个个体都不能完全地反映总体的性质和特征,却都具有不同程度的总体的性质和特征的因素,所以一定数量个体的因素的集合,就可以等同或接近总体的性质和特征。 在社会调查研究中,抽样主要解决的是调查对象的选取问题,即如何从总体中选出一部分对象作为总体的代表的问题。关于抽样的作用,有两个相关的问题需要特别明确:第一,抽样和抽样调查不能混为一谈。抽样只是抽样调查的前提和一部分,只解决抽样调查过程中的选取调查对象这一个问题,抽样调查的其它所有问题都是靠另外的方法来解决的。 第二,抽样只是抽取样本的方法,而不是调查方法或者说资料收集方法。 (二)抽样的基本术语和抽样的基本程序 1.基本术语 在抽样中,有一些常用的基本术语: (1)总体。它是构成事物的所有元素、也就是最基本单位的集合。 (2)样本。它是从总体中按照一定方式抽取出的一部分元素的集合。 (3)抽样元素。它指的是构成总体的每一个最基本单位,也称“抽样分子”或“个体”。 (4)抽样单位。它是一次直接的抽样所使用的基本单位。抽样单位与抽样元素有时是同一的,有时又是不同的。 (5)抽样框。它又称作抽样范围,指的是一次直接抽样时总体中所有抽样单位的名单。 (6)参数值。它也称为总体值,是关于总体中某一变量的综合描述,或者总体中所有元素的某种特征的综合数量表现。在统计中最常见的参数值是某一变量的平均值。 (7)统计值。它也称为样本值,是关于样本中某一变量的综合描述,或者说是样本中所有元素的某种特征的综合数量表现。 (8)抽样误差。它是用样本统计值去估计总体参数值时所出现的误差 2.基本程序 虽然不同的抽样方法具有不同的操作要求,但它们通常都要经历这样几个步骤:1.界定总体

抽样检验的基本概念和策划方案

统计抽样检验 抽样检验培训目的 掌握统计抽样检验的差不多原理和方案检索,正确操作统计抽样 检验。 一:抽样检验的差不多概念 1、 抽样检验的概念 (1)所谓抽样检验是指从交验的一批产品(批量为N )中,抽 取一个样本(由n 个单位产品组成)进行检验,从而对批产品质 量作用推断的过程。 检验 X<=Ac 允收 (2)抽样检验的目的是“通过样本推断总体”,而其期望则在于 “用尽量少的样本量来尽可能准确地判定总体(批)的质量。” 从而达到这一目的和期望,传统的“百分比抽样”是不科学的、

不合理的。通过多青年来的理论研究和实践,证明只有采纳“统计抽样检验”才能保证科学、合理地实现这一目的和期望。(3)抽样检验的步骤 a.抽样:需要研究的是如何样抽和抽多少的问题。 b.检验:是在统计抽样检验理论的指导下,采纳具有一定测量能力的设备和正确的方法进行检验。 c.推断:是用对样本的检验结果来推断总体(批)的质量水平。 其中抽样和推断状况就构成了抽样方案。即抽多少和如何样推断。 2、统计抽样检验 1)统计抽样检验的概念 (1)所谓统计抽样检验,是指抽样方案完全由统计技术所确定的抽样检验。 (2)统计抽样检验的优越性体现在能够用尽可能低的检验费用(经济性),有效地保证产品质量水平(科学性),且对产品质量检验或评估结论可靠(可靠性),而事实上施又专门简便(可用性)。 二、抽样检验方案

一个批的产品数量即批量用N表示,对那个产品批规定一个不合格品率,假如批不合格品率超过那个规定值,该批产品将被拒收,那个不合格品率就称为“该允收不合格品率”,以P1表示。抽样检验确实是从批N里抽取一小部分单位产品作为样本进行检验,用样本的质量对产品批质量进行推断。样本中所包含的单位产品数称为样本大小,或叫样本容量,用n来表示,样本中的不合格品数用d表示,样本的不合格品率为d/n。因为是抽样检验,我们无法保证样本的不合格品率d/n恰恰等于批不合格品频率D/N,因此只有用d/n与P1比较而作出同意依旧拒收的决定。对计数值抽样检验,实际作法并不是直接用d/n与P1作比较,而是规定一个合格判定数Ac和一个不合格判定数Re,若样本不合格品数d小于或等于那个合格判定数Ac,就接收该批产品;若d等于或大于不合格判定数Re,则拒收该批产品。那个抽样检验过程就称为计数型抽样检验方案。由此看出,抽样方案确实是为了决定样本大小和判定检验批是否合格而规定的一组规则。 在一个最简单的抽样方案中要确定两个参数,一个是抽取的样本大小n,一个是判定数Ac和Re,通常用(n, Ac)表示一个抽样方案,简写为(n, c);有了n和Ac之后就能够专门容易地进行抽样检验了。

抽样检验的基本概念与分类(doc 12页)(完美版)

抽样与检验 一、抽样检验基本概念 1.在质量管理中,一般有来料检验、过程检验、成品检验、出货检验四部分,每一部分中都会有抽样计划、允许水准、具体的抽样方式、统计分析等工作。 2.基本概念 (1)批 各种产品,凡是具有相同的来源,且在相同的条件下生产所得到一群相同规格的产品,可称为一个批,这样的批也可给予一个名字叫“制造批”。一个制造批中的质量变异具有一个分布,在抽样时应尽可能的使检验批的质量接近实际值,这样才可使抽验的结果正确,因此一批可能根据需要可以区分为几个检验批,但必须注意避免将几个批合并为一个检验批。 (2)检验批 在统计学中,可以称为母体或群体。 就是在各种批中,被选定用来做抽样检验的批,该批是根椐其整个批中量的大小,照抽样计划,抽出“小”批加以检验的一个群体。通常检验批要根据允许水准来判定这个检验批是否允收。 (3)批量 是指每个检验批内产品的单位数据,在统计学中也可称为“母体数”,通常以“N”表示。 (4)样本

是指从检验批中所抽出的以一个以上单位组成的产品,样本中的各个样品均须随机,而且不考虑它的品质的好坏。样本中所含的产品单位的数目称为“样本数”或“样本大小”,通常以“n”表示,它一定小于等批量数“N”。 (5)抽样检验 从双方约定的检验批中,根据批量大小,抽出不同数量的样本。将该样本以事先确定的检验方法加以检验,并将检验的结果与预先确定的要求或“品质标准”比较,以决定该批是否合格。在计数值中,是将样本中不良品的个数所抽样计划中允收不良品的个数比较,以判定该检验批是否允收。在计量值中,是将各样品检验结果加以统计分析,以平均值、离散度、综合指数的判定基准比较,以决定该检验批是否允收。 (6)合格判定数 判定一批产品是否合格或不合格的基准不良个数称为合格判定数,通常以“C”(或AC)表示。 (7)缺陷 产品单位的品质特性不合乎双方所规定的规格、图样、说明或要求等称为缺陷,通常用“d”表示。如若是买卖的关系,缺点一般可分为:(a)严重缺陷(Critical defect),凡有危及产品的使用或携带安全,或使产品的重要功能失效的缺陷; (b)主要缺陷(Major defect),凡使产品使用性能不能达到所期望之目的,或显著减低其实用性能的缺陷; (c)次要缺陷(Minor defect),实际上不影响产品的使用功能或

抽样调查基本概念

第四部分统计——第二十五章抽样调查 本章重点: 1.抽样调查基本概念(总体、样本、样本量、总体参数、样本统计量与抽样框),概率抽样和非概率抽样,抽样调查一般步骤,抽样调查中的误差来源(抽样误差、非抽样误差、抽样框误差、无回答误差、计量误差)等。 2.几种基本概率抽样方法:简单随机抽样、分层抽样、系统抽样、整群抽样和多阶段抽样。 3.估计量的性质(无偏性、有效性和一致性),样本量的影响因素。 知识点一、抽样调查基本概念 (一)抽样调查基本概念 1.总体:即调查对象的全体,调查总体必须是明确的而不能是模糊的。 【示例】:研究全国钢铁企业盈利状况,所有钢铁企业是总体。 样本:总体的一部分,它由从总体中按一定原则或程序抽出的部分个体所组成。 【示例】:选取了20家钢铁企业是样本。 样本量:样本中包含的入样单位的个数。 【示例】:20。 2.抽样框:供抽样所用的所有抽样单元的名单,是抽样总体的具体表现。 【示例】:工商局注册的20家企业。 3.总体参数:变量的数字特征,根据总体中所有单位的数值计算的。 【示例】:所有钢铁企业盈利总额,所有钢铁企业盈利均值。 4.样本统计量:根据样本中各单位的数值计算的,是对总体参数的估计,因此也称为估计量。 常用的样本统计量:样本均值,样本比例、样本方差等。 【示例】:20家企业盈利总额,20家企业盈利均值。 【例题·单选题】(2016年)北京市旅游管理部门要通过抽样调查了解2015年北京市常驻居民出境旅游总消费金额,该抽样调查的总体参数是2015年北京市()。 A.所有常住居民旅游总消费金额 B.被调查的常住居民出境旅游总消费金额 C.被调查的每一位常驻居民出境旅游消费金额 D.所有常住居民出境旅游总消费金额 『正确答案』D 『答案解析』本题考查抽样调查基本概念。总体参数是我们所关心变量的数字特征,它是根据总体中所有单位的数值计算的。 【例题·单选题】(2015年)在某市随机抽取2000家企业进行问卷调查,并据此调查有对外合作意向的企业,该抽样调查中的总体是()。 A.该市所有企业 B.该市有对外合作意向的企业 C.抽中的2000家企业 D.抽中的2000家企业中有对外合作意向的企业 『正确答案』A 『答案解析』本题考查抽样调查的基本概念。总体即调查对象的全体,要抽取2000家企业进行问卷调查,所以总体是该市所有企业。

抽样调查的基本知识

附件6: 抽样调查的基本知识 一、抽样调查的概念 抽样调查是一种非全面调查,它是从全部调查研究对象中,抽选一部分单位进行调查,并据以对全部调查研究对象作出估计和推断的一种调查方法。抽样调查虽然是非全面调查,但它的目的却在于取得反映总体情况的信息资料,因而,也可起到全面调查的作用。 二、抽样调查的特点 抽样调查有以下三个突出特点:按随机原则抽选样本;总体中每一个单位都有一定的概率被抽中;可以用一定的概率来保证将误差控制在规定的范围之内。 三、抽样调查的几个主要常用的名词 (一)总体。总体是指所要研究对象的全体。它是根据一定研究目的而规定的所要调查对象的全体所作成的集合,组成总体的各研究对象称之为总体单位。 (二)样本。样本是总体的一部分,它是由从总体中按一定程序抽选出来的那部分总体单位所作成的集合。 (三)抽样框。抽样框是指用以代表总体,并从中抽选样本的一个框架,其具体表现形式主要有包括总体全部单位的名册、地图等。抽样框在抽样调查中处于基础地位,是抽样调查必不可少的部分,其对于推断总体具有相当大的影响。 (四)抽样误差。在抽样调查中,通常以样本作出估计值对总体的某个特征进行估计,当二者不一致时,就会产生误差。因为由样本作出的估计值是随着抽选的样本不同而变化,即使观察完全正确,它和总体指标之间也往往存在差异,这种差异纯粹是抽样引起的,故称之为抽样误差。

(五)偏差。所谓偏差,也称为偏误,通常是指在抽样调查中除抽样误差以外,由于各种原因而引起的一些偏差。 四、几种具体的抽样方式 (一)多阶段抽样 多阶段抽样,也称为多级抽样,是指在抽取样本时,分为两个及两个以上的阶段从总体中抽取样本的一种抽样方式。其具体操作过程是:第一阶段,将总体分为若干个一级抽样单位,从中抽选若干个一级抽样单位入样;第二阶段,将入样的每个一级单位分成若干个二级抽样单位,从入样的每个一级单位中各抽选若干个二级抽样单位入样……,依此类推,直到获得最终样本。 多阶段抽样的优点在于适用于抽样调查的面特别广,没有一个包括所有总体单位的抽样框,或总体范围太大,无法直接抽取样本等情况,可以相对节省调查费用。其主要缺点是抽样时较为麻烦,而且从样本对总体的估计比较复杂。 (二)等距抽样。 等距抽样也称为系统抽样、或机械抽样,它是首先将总体中各单位按一定顺序排列,根据样本容量要求确定抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个单位的一种抽样方式。 按照样本单位抽选的方式,等距抽样可分为:随机起点等距抽样、半距起点等距抽样和对称等距抽样。 对称等距抽样。当抽取间隔k确定后,在第一组随机抽取第一个样本单位,假设该单位的顺序号为a,在第二组与第一个样本对称的位置抽取第二个样本单位,它的顺序号为2k-a。在第三组与第二组样本单位对称的位置抽取第三个样本单位,它的顺序号为2k+a,以后抽出的样本单位序号依次为(4k-a),(4k

抽样检验基本知

抽样检验基本知识 一、抽样检验的由来 二次世界大战时期,美国军方采购军火时.在检验人员极度缺乏的情况下,为保证其大量购入军火的品质,专门组织一批优秀数理统计专家、依据数学统计理论,建立厂一套产品抽样检验模式。满足战时的需要。 二、抽样检验的定义 抽样检验是按预先确定的抽样方案,从交验批中抽取规定数量的样品构成一个样本,通过对样本的检验推断批合格或批不合格。 d≤Ac 批合格 d≥Re 批不合格 批产品样本不合格品数Ac 合格判定数,Re 不合格判定数 三、基本概念及用语 1.群体与样本。 群体就是提供被做为调查(或检查)的对象.或者称采取措施的对象。也常称为批,群体(批)大小常以N表示,亦称批量N。 工序间、成品、进出库检验以及购入构验等经常组以整批的形式交付检验的。不论是一件件的产品、还是散装料,一般都要组成批,而后提交检验,有些情形,中间产品由于条件的限制不允许组成批以后再提交给下一道工序进行检验、但可采用连续抽样检验(如每小时抽取1台产品进行检验的抽样方式。 样本就是指我们从群体中(或批中),抽取的部分个体。抽取的样本数量常以n表示。 2.批的组成。 构成一个批的单位产品的生产条件应尽可能相同,即是应当由原、辅料相同,牛产员工变动不大生产时期大约相同等生产条件下生产的单位产品组成批。此时.批的特性值只有随机波动.不会有较大的差别。这样做.主要是为了抽取样品的方便及抽样品更具有代表性.从而使抽样检验更为有效,如果有证据表明,不同的机器设备、不同的操作者或不同批次的原材料等条件的变化对产品质量有明显的影

响时,应当尽可能以同一机器设备、同一操作者或同—批次的原材料所生产的产品组成批,构成批的上述各种条件,通常很少能够同时满足。如果想使它们都得到满足,往往需要把批分得比较小.这样品质一致而且容易追溯。但这样做,会使检验工作量大大增加.反而不能达到抽样检验应有的经济效益、所以,除了产品品质时好时坏,波动较大.必须采用较小的批以保证批的合理外,当产品品质较稳定时〔比如生产过程处于统计控制状态〕,采用大批量是经济的、当然,在使用大批量时,应当考虑到仓库场地限制以及不合格批的返工等可能造成的困难。 3.批量(N)。 一批产品中所包含的单位产品的总数叫做批量,通常用英文大写N表示、一批塑胶料由“一干袋组成,我们说这批塑胶料的批量力1000,对于5()()对沫子来讲.一个单位产品只可能是一对而决不可能是—只,批量就是500对:一批100公斤合成纤维,如果规定每10克纤维为一个单位产品,耶么这批产品的批量为10000。 当我们从成品,半成品.零部件中抽取—部分样本加以测定分折时,决不是仅为获取抽出样品本身的情报或状况。而是要从样本的检验结果判定群体(或该批量,或该工程)的状态、以便对群体采取措施,群体与样本、数据关系如下表3—34所示: 4.取样及数据的信赖性、 进行取样及记录数据,是为了将来采取行动措施。如果取样及数据记求是不可靠的,必将导致将来采取行动措施偏差及无效。 为了取样可靠.以随机抽样为原则,也就是说取样要能反映群体的各处情况,群体中的个体.被取样的机会要均等, 随机抽样的方法有以下几种: (1)简单随机抽样法:如抽签、抓阄、查随机数值表等。(抽奖时摇奖的方法) (2)系统随机抽样法:又叫等距抽样法或机械抽样法。 (3)分层抽样法:也叫类型抽样法。它是从一个可以分成不同层(或称子体)的总体中,按规定的比例从不同层中随机抽取样品的方法。层别可以按设备分、按操作人员分、按操作方法分。

抽样调查概述

第一章抽样调查概述 第一节抽样调查的意义和特点 抽样调查是现代统计调查中最常用的基本方法之一。 一、抽样调查的概念 关于抽样调查的定义大体上可以区分成广义和狭义两种,广义的抽样调查包括非概率抽样与概率抽样,狭义概念仅指概率抽样。 狭义的抽样调查是按照一定的程序和方法,从所要研究现象的总体中根据随机原则抽取一部分单位组成样本,通过对样本的调查,获得样本资料,计算出有关的样本指标(统计量),依一整套专门的方法据以对相应的总体指标(参数)作出估计和推算,并有效控制抽样误差的一种统计方法。 随机原则。①随机并非“随意”;②随机原则不等于等概率原则;③随机原则一般要求总体中每个单元均有一个非零的概率被抽中;④ 抽样概率对总体参数的估计有影响。 随机原则是抽样调查所必须遵循的基本原则。按随机原则抽样可以保证被抽中的单元在总体中均匀分布,不致出现系统性、倾向性偏差;在随机原则下,当抽样数目达到足够多时,样本就会遵从大数定律而呈正态分布,样本单位的标志值才具有代表性,其平均值才会接近总体平均值;按随机原则抽样,才可能实现计算和控制抽样误差的目的。 二、抽样调查的阶段划分与职业规范 由上述抽样调查的概念出发,我们可以将抽样调查工作的全过程 划分成三个不同的阶段 第一阶段为抽样设计阶段。

第二阶段为调查阶段。 第三阶段为数据处理和估计推断阶段。 在抽样调查中,首先,要注意尊重并保护被调查者的隐私权,调查结果只能用于综合分析,而不应给被调查者造成不必要的麻烦和伤害。其次,要诚实地分析调查资料,不能为得出某个事先期望的结论而随意地改动资料。第三,要做一个具有职业水平的工作者,做出来的东西既要有能让普通人看懂的主要信息,也要有能让专家看出其内涵的内容。第四,当从有些调查结果得不出好的结论时,应诚实地加以说明,而不应含糊其词。最后,抽样调查必须在国家法律法规所允许的范围内进行,不做违反社会公众利益的调查。 三、抽样调查的特点 首先,按随机原则抽选调查单位是抽样调查的一大特色。 其次,可以用样本资料推断总体资料是抽样调查的又一基本特征。 其三,抽样调查的速度快、周期短、精度高。 其四,在抽样推断之前可以计算和控制抽样误差。 其五,抽样技术灵活多样。 其六,抽样调查的应用十分广泛。 最后,同其他调查方式相比,抽样调查的技术性更强。 四、抽样调查的作用 抽样调查所依据的概率原理属于数理统计学的一个重要分支,也是现代统计学的基础。抽样的方法不仅对统计推断、统计检验以及统计决策等理论的发展产生了直接的影响,而且还构成了其他应用性学科如计量经济学、

抽样调查基本原理

第二章抽样调查基本原理 第一节有关基本概念 一、总体 总体也叫母体,它是所要认识对象的全体,是具有同一性质的许多单位的集合。组成总体的每个个体叫做单位。 总体可以是有限的,也可以是无限的。如果总体中所包含个体的数目为有限多个,则该总体就是有限总体,反之是无限总体。总体也可区分成计量总体(由测量值组成的)和计数总体(由品质特征组成的)。 在抽样以前,必须根据实际情况把总体划分成若干个互不重叠并且能组合成总体的部分,每个部分称为一个抽样单元,不论总体是否有限,总体中的抽样单元数一定是有限的,而且是已知的,因此说抽样调查的总体总是有限的。抽样单元又有大小之分,一个大的抽样单元可以分成若干个小的抽样单元,最小的抽样单元就是每一个个体。如一项全国性的调查,如果把省作为一级单元,则可以把县作为二级单元,乡作为三级单元,村作为四级单元等等。又如在流动人口抽样中,可以以居委会作为抽样单元,而在家计调查中,则以户为抽样单元。 总体应具备同质性、大量性和差异性的特征。在抽样调查中,通常将反映总体数量特征的综合指标称为总体参数。常见的总体参数主要有: 1.总体总和Y:例如全国人口数。 Y=∑y i=y1+y2+…+y N 2.总体均值Y:例如职工平均工资。 Y=Y/N=∑y i /N 3.总体比率R:是总体中两个不同指标的总和或均值的比值。如总收入与总支出之比。 R=Y/X=Y/X 4.总体比例P:是总体中具有某种特性的单元数目所占比重。如产品的合格率。 二、样本 样本是由从总体中所抽选出来的若干个抽样单元组成的集合体。抽样前,样本是一个n 维随机变量,属样本空间;抽样后,样本是一个n元数组,是样本空间的一个点。 样本是总体的缩影,是总体的代表。抽样的效果好不好,依赖于样本对总体是否有充分的代表性。样本的代表性愈强,用样本指标对总体全面特征的推断就愈精确,即推断的误差就愈小;反之,如果样本的代表性愈弱,推断的误差就愈大,推断结果就愈不可靠。 如何增强样本的代表性,使其能达到估计或推断的预期效果,就必须分析影响样本代表性的因素,以便加强控制。一般情况下,影响样本代表性的因素有以下几个方面: (1)总体标志值分布的离散程度。若总体标志值的分布很集中,即平均离散程度(标准差)很小,从中任抽部分单元做样本,样本特征很近似于总体特征,样本的代表性就强;反之,如果标志值的分布很分散,即平均离散程度很大,从中抽取样本单元的随机波动也很大,必将影响样本的代表性。 (2)抽样单元数的多少(或称样本容量的大小)。抽样单元数的多少,影响样本对总体的代表性。一般说来,样本容量以大为好,但要根据实际情况,以掌握适度为宜,要在保证一定可靠程度的情况下,尽可能满足及时性和经济性的要求,取得好的效益。 (3)抽样方法。抽样方法一般分为放回抽样和不放回抽样。放回抽样也叫重置抽样,或

抽样调查的基本知识

抽样调查的基本知识 抽样查询拜访的根本常识 一、抽样查询拜访的概念 抽样查询拜访是一种非周全查询拜访,它是从全部查询拜访研究对象中,抽选一部分单位进行查询拜访,并据以对全部查询拜访研究对象作出估计和揣摸的一种查询拜访办法。抽样查询拜访固然长短周全查询拜访,但它的目标却在于取得反应总体情况的信息材料,因而,也可起到周全查询拜访的感化。 二、抽样查询拜访的特点 抽样查询拜访有以下三个凸起特点:按随机原则抽选样本;总体中每一个单位都有必定的概率被抽中;可以用必定的概率来包管将误差控制在规定的范围之内。 三、抽样查询拜访的几个重要常用的名词 (一)总体。总体是指所要研究对象的全部。它是根据必定研究目标而规定的所要调查对象的全部所作成的集合,构成总体的各研究对象称之为总体单位。 (二)样本。样本是总体的一部分,它是由从总体中按必定法度榜样抽选出来的那部分总体单位所作成的集合。 (三)抽样框。抽样框是指用以代表总体,并从中抽选样本的一个框架,其具体表示情势重要有包含总体全部单位的名册、地图等。抽样框在抽样查询拜访中处于基本地位,是抽样查询拜访必弗成少的部分,其对于揣摸总体具有相昔时夜的影响。 (四)抽样误差。在抽样查询拜访中,平日以样本作出估计值对总体的某个特点进行估计,当二者不一致时,就会产生误差。因为由样本作出的估计值是跟

着抽选的样本不合而变更,即使不雅察完全精确,它和总体指标之间也往往存在差别,这种差别纯粹是抽样引起的,故称之为抽样误差。 (五)误差。所谓误差,也称为偏误,平日是指在抽样查询拜访中除抽样误差以外,因为各类原因而引起的一些误差。 四、几种具体的抽样方法 (一)多阶段抽样 多阶段抽样,也称为多级抽样,是指在抽取样本时,分为两个及两个以上的阶段从总体中抽取样本的一种抽样方法。其具体操作过程是:第一阶段,将总体分为若干个一级抽样单位,从中抽选若干个一级抽样单位入样;第二阶段,将入样的每个一级单位分成若干个二级抽样单位,从入样的每个一级单位中各抽选若干个二级抽样单位入样……,依此类推,直到获得最终样本。 多阶段抽样的长处在于实用于抽样查询拜访的面特别广,没有一个包含所有总体单位的抽样框,或总体范围太大年夜,无法直接抽取样本等情况,可以相对节俭查询拜访费用。其重要缺点是抽样时较为麻烦,并且从样本对总体的估计比较复杂。 (二)等距抽样。 等距抽样也称为体系抽样、或机械抽样,它是起首将总体中各单位按必定次序分列,根据样本容量请求肯定抽选距离,然后随机肯定起点,每隔必定的距离抽取一个单位的一种抽样方法。 按照样本单位抽选的方法,等距抽样可分为:随机起点等距抽样、半距起点等距抽样和对称等距抽样。 对称等距抽样。当抽取距离k肯定后,在第一组随机抽取第一个样本单位,

相关主题
文本预览
相关文档 最新文档