第六章 不等概率抽样
- 格式:pptx
- 大小:606.92 KB
- 文档页数:17
第6章 不等概率抽样1 不等概率抽样原理等概率抽样通常容易设计和解释,但并不总是如不等概率抽样一样的可行、实用、有效。
因为等概率抽样(psu’s)可能导致方差很大(尤其是对于无偏估计量)、管理困难以及成本难以控制。
而不等概率抽样的特点是以不等概率抽取psu’s 、m i 的数目相同,因此不等概率抽样使得每一个样本被抽取的概率相等、调查成本可控、每一个初级样本单元(psu )的样本数相等、方差急剧减小。
当采用不等概率抽样时,我们可以自由的调整选择不同初级样本单元(psu’s )作为样本的概率,并在估计中补充合适的权重。
核心是选择一个给定单元的概率已知: πi =P(psu i), ψi = P(psu i on first sample), ωi =1/πi1.1 抽取一个初级样本单元假定我们只要抽取N 个初级样本单元(psu )中的一个作为样本(n=1)。
初级样本单元i 的总值用t i 表示,我们需要估计总体总值t.用抽取一个初级样本单元的简单例子来说明不等概率抽样的思想。
先来考虑一个所有总体已知的情形。
一个城镇拥有四个超市,从100平方米到1000平方米按面积大小排列。
通过抽取一个超市,来估计四个超市上个月的总营业收入。
你可能预期大超市比小超市的营业收入多而且大超市的收入波动性也明显大于小超市。
因为仅抽取一个超市,所以在第一个回合中一个超市被抽取的概率 ψi 等于这个超市包含在样本中的概率πi 。
即,πi = ψi =P(超市i 被选取),此概率与超市的面积成比例。
超市A 占四个超市总面积的1/16,则它被抽取的概率为1/16。
为了说明性目的,假定我们已知总体的所有总值t i :我们可以以以上给定的概率选择一个容量为1的概率样本,通过洗散16张卡片并从中选择1张。
如果卡片数字为1,则选择超市A;如果卡片数字为2或3,则选择超市B;…… 在估计量中,我们通过使用 ψi 补充选取的不等概率权重。
如果超市面积与超市营业收入近似成比例,那么超市A 的营业收入在总收入的1/16,则可用超市A 的营业收入的16倍来估计四个超市的总收入。
第六章抽样方法6.2 非概率抽样非概率抽样是用一种主观的(非随机的)方法从总体中抽选单元。
由于不需要完整的抽样框,非概率抽样是一种快速、简单且节省的获得数据的方法。
使用非概率抽样的问题是,我们不清楚能否通过样本对总体进行推断,原因是用非概率抽样从总体中抽选单元的方式可能会导致较大的偏差。
例如,在非概率抽样中访员经常主观地决定哪些单元入样。
由于访员倾向于选择总体中那些最容易接触到和最友好的单元,使总体中很大一部分单元完全没有被抽中的机会,而这些单元与被抽中的单元可能有系统差异。
非概率抽样不仅会使调查结果出现偏差,而且由于带有选择平均单元和排除极端值的倾向,将错误地减少总体中明显的变异性。
由于非概率抽样抽取样本有倾向性,我们不可能计算出各个单元的人样概率,从而无法得到可靠的估计值及其抽样误差估计值。
此时若能对总体进行推断,必须假定样本对总体有代表性。
而这通常需要假定总体指标服从某个模型,或是均匀地或是随机地分布的。
由于抽选存在偏差,做这种假定的风险很大。
非概率抽样经常被市场研究人员作为一种省钱快速的方法来代替概率抽样。
但是由于有上述问题,它并不是概率抽样的一种有效的替代方法。
那么,为什么还要费神来讨论非概率抽样呢?这是因为非概率抽样能用在下面几个方面的研究中:- 用来形成一种想法;- 作为设计开发概率抽样调查的初始步骤;- 在后续步骤中帮助理解概率抽样调查结果。
比如,非概率抽样能在调查的早期就提供非常有价值的信息。
它也可用在探索性或诊断性研究中,以了解人们的态度、信仰、动机和行为,或分析概率抽样调查的结果。
有时,非概率抽样是唯一可行的选择?例如,在医学实验中,采用志愿者抽样可能是取得数据的唯一途径。
非概率抽样常被用于抽选参加焦点座谈和深人访问的个人。
在加拿大统计局,非概率抽样被用来测试在人口普查调查表中所使用的问题,以确保所问的问题和使用的概念对被调查者是清楚的。
如果认为问题的内容会引起争议,则在最有可能有争议的地方抽选一个子总体。
抽样技术:不等概率抽样引言在统计学和数据分析中,抽样技术是一项重要的工具,用以从总体中选择一部分元素进行研究。
而抽样技术的核心就是如何从总体中选取样本,以保证样本能够准确地反映总体的特征。
其中一种常用的抽样技术是不等概率抽样。
不等概率抽样是指在抽取样本时,各个个体被选中的概率不相等。
与等概率抽样相比,不等概率抽样更能满足实际问题的需求,更能提高样本的效率和精确性。
本文将介绍不等概率抽样的原理、常用方法以及应用案例,希望能够帮助读者更好地理解和应用抽样技术。
不等概率抽样的原理不等概率抽样的原理基于概率论和统计学的基本原理。
在进行不等概率抽样时,需要根据总体的特征和研究目的,选择合适的抽样方法和样本选择概率,以使样本能够准确地反映总体。
不等概率抽样的核心在于赋予每个个体被选中的概率,也称为抽样概率。
抽样概率可以根据总体特征和研究目的进行选择,常见的选择方法包括:概率比例抽样、系统抽样、整群抽样等。
概率比例抽样是一种根据个体在总体中所占比例来确定抽样概率的方法。
具体而言,可以先计算出样本所需的个体数目,再根据各个个体在总体中的比例,分配相应的抽样概率。
这样可以保证样本能够按比例反映总体的特征。
系统抽样是一种按照一定规律选择样本的方法。
具体而言,可以在总体中确定一个起始点,然后以固定的间隔选择样本个体。
系统抽样具有简单方便、无需随机表和随机数的优点,常用于总体具有周期性分布的情况。
整群抽样是一种将总体划分为若干群体,然后随机选择部分群体进行抽样的方法。
这种方法适用于总体分布不均匀,但各群体内部相对均匀的情况。
通过整群抽样,可以减小样本误差,提高样本的代表性。
不等概率抽样的常用方法不等概率抽样有多种不同的方法和技术,根据实际问题的需求和样本特征的不同,可以选择合适的抽样方法。
以下将介绍几种常用的不等概率抽样方法。
简单随机抽样是不等概率抽样中最基本的方法之一。
简单随机抽样是指每个个体都有相等的被选中概率,且个体间的选择是相互独立的。
不等概率抽样引例: O ’Brien et al. (1995) 对Philadelphia 地区的病人进行抽样, 目的是了解病人对于医疗服务的偏好。
目标总体是这一区域的所有注册的医院的病人。
总共有294家医院,27652个床位(抽样以前,研究人员只知道床位数,不知道病人数)。
等概率的抽取样本医院的缺点? 首先,可能医院中愿意接受CPR 治疗的病人数量会正比与医院床位的数量,采用等概率简单估计量可能会有大的方差。
其次,自加权的等概率样本可能难于管理。
可能仅仅为了调查一两个病人就需要去一家医院,并且合理分配调查人员的工作负担也是比较困难的。
第三,调查成本在调查开始的时候是未知的,一个40个医院的样本可能包括了主要的大的医院,这会导致比预计更大的成本。
其他办法? 1、调查人员还可以采用与医院病床数量成比例的方法抽取57个医院,然后从每个样本医院中抽取30个简单随机样本床位。
2、如果病人数等于床位数,并且医院实际的床位数和抽样时依据的病床数据一致,每个病人是否有相同的入样概率?3、而且成本在调查实施前是已知的,因为每个访员在每个医院访问的病人数量是相同的。
而且,总体总量的方差可能更小。
4、分层抽样:抽样选择概率小的单位会有较高的权数。
5、采用不等概率抽样来减少抽样方差而不采用清晰的分层。
采用不同的概率来选择初级样本单元,并且在估计中采用不同的权数来进行弥补。
抽样的关键是每个样本的选择概率是已知的。
i P ψ)=在第一次抽取中被抽中单元i ( i P π被选入样本)=单元i (一、不等概率抽样适用情况第一,抽样单元在总体中所占的地位不一致。
第二,调查的总体单元与抽样总体的单元不一致。
第三,改善估计量。
不等概率抽样的优点主要是大大提高了估计精度,减少抽样误差,但使用它也由条件,就是必须要有说明每个单元规模大小的辅助变量来确定每个单元入样的概率,这在抽样设计及估计时都是必须得。
二、不等概率抽样的分类 1、放回不等概率抽样每次在总体中对每个单元按入样概率进行抽样,抽取出来的样本单元放回总体,然后进行下一次抽样,这样,每次抽样过程都是从同一个总体独立进行的,这种不等概率抽样称为(有)放回不等概率抽样。