第5章抽样及参数估计-7样本容量的确定
- 格式:ppt
- 大小:4.38 MB
- 文档页数:11
(抽样检验)抽样与参数估计抽样和参数估计推断统计:利用样本统计量对总体某些性质或数量特征进行推断。
从数据得到对现实世界的结论的过程就叫做统计推断(statisticalinference)。
这个调查例子是估计总体参数(某种意见的比例)的壹个过程。
估计(estimation)是统计推断的重要内容之壹。
统计推断的另壹个主要内容是本章第二节要介绍的假设检验(hypothesistesting)。
因此本节内容就是由样本数据对总体参数进行估计,即:学习目标:了解抽样和抽样分布的基本概念理解抽样分布和总体分布的关系了解点估计的概念和估计量的优良标准掌握总体均值、总体比例和总体方差的区间估计第一节抽样和抽样分布回顾相关概念:总体、个体和样本抽样推断:从所研究的总体全部元素(单位)中抽取壹部分元素(单位)进行调查,且根据样本数据所提供的信息来推断总体的数量特征。
总体(Population):调查研究的事物或现象的全体参数个体(Itemunit):组成总体的每个元素样本(Sample):从总体中所抽取的部分个体统计量样本容量(Samplesize):样本中所含个体的数量壹般将样本单位数不少于三十个的样本称为大样本,样本单位数不到三十个的样本称为小样本。
壹、抽样方法及抽样分布1、抽样方法(1)、概率抽样:根据已知的概率选取样本①、简单随机抽样:完全随机地抽选样本,使得每壹个样本都有相同的机会(概率)被抽中。
注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,又可分为重复抽样和不重复抽样。
而且,根据抽样中是否排序,所能抽到的样本个数往往不同。
②、分层抽样:总体分成不同的“层”(类),然后在每壹层内进行抽样③、整群抽样:将壹组被调查者(群)作为壹个抽样单位④、等距抽样:在样本框中每隔壹定距离抽选壹个被调查者(2)非概率抽样:不是完全按随机原则选取样本①、非随机抽样:由调查人员自由选取被调查者②、判断抽样:通过某些条件过滤来选择被调查者(3)、配额抽样:选择壹群特定数目、满足特定条件的被调查者2、抽样分布壹般地,样本统计量的所有可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(samplingdistribution)。
第三章抽样与抽样调查3.1抽样调查的涵义及原理抽样与抽样调查·抽样的术语(抽样单位、总体、样本、抽样、抽样框、随机原则、总体参数和样本统计量、抽样误差、置信度和置信区间)·大数规律3.2概率抽样概率抽样的地位·简单随机抽样·系统抽样·分层抽样·整群抽样·多段抽样3.3 抽样设计抽样设计的一般程序·样本的产生·样本的大小3.4 非概率抽样偶遇抽样·判断抽样·配额抽样·滚雪球抽样3.5 抽样调查误差及其控制误差及其分类·非抽样误差及其控制·抽样误差及其控制3.6 抽样调查举例“网民知多少?——中国互联网络信息中心全国调查抽样方案设计”一、单项选择题1、分层抽样主要解决的是()A 总体异质性程度较高的问题B 总体同质性程度较高的问题C 总体内所含个体单位数量过大问题D 总体内所含个体单位数量不足问题2、概率抽样中效果最好的抽样方式是( )A 简单随机抽样B 等距抽样C 分层抽样D 整群抽样3、我们日常生活经常使用的简单随机抽样的方法有( )A 自荐B 抽签C 领导点将 D群众推选4、与概率抽样相比较,非概率抽样的缺点是( )A 无法保证样本的代表性 B抽样费时费力 C缺乏目的性 D调查不明确、不深入5、在下列抽样方法中,属于非概率抽样的是( )A 滚雪球抽样B 分层抽样C 整群抽样D 多阶段抽样6、研究者在实际抽样(特别是概率抽样)时,经常是先找到一份近似涵盖所有总体元素的名单,然后从中抽取部分元素,这份名单被称为()A 抽样单元B 总体C 抽样框D 样本7、在定额抽样中确定各层子样本,应采取()A随机抽取 B主观判断C非随机抽取D分层抽样8、总体中某一变量的综合描述叫()A 平均数B 标准差C 参数值D 统计值9、我国对小型工业企业采用的调查方法是()A 全面调查 B抽样调查 C 典型调查 D 重点调查10、从总体中按一定方式抽取出的一部分个体的集合叫()A 抽样框B 样本C 抽样单位D 样本规模11、根据总体的结构比例来分配样本量,由调查员来挑选样本单元这种方法是属于( )A简单随机抽样 B系统抽样 C判断抽样 D配额抽样12、抽样误差是指()A 抽样调查中所存在的误差B 由于抽样的不同方法而产生的误差C 抽样调查中的工作误差D 样本统计值与总体参数值之间存在的误差13、对于概率抽样,下面说法正确的是( )A 样本的结构一定要与总体的结构相一致B 总体中每个单元被抽中的概率一定是相等的C 总体中每个单元被抽中的概率是未知的D总体中每个单元被抽中的概率是已知的14、为提高分层抽样的效率,要求( )A 层内各单元的差异尽可能大B 层内各单元的差异尽可能小C 层内各单元的差异与总体相一致 D各层的差异尽可能相同15、根据正态分布的性质,随机变量落在平均数两侧2个标准差范围内的概率为( )A 68.3%B 90%16、对黑客进行研究,一般先找到几个黑客,然后通过他们的介绍找到新的黑客,这种抽样方法是( )A方便抽样 B配额抽样 C滚雪球抽样 D 判断抽样17、不完全涵盖是指抽样框中( )A 包含了不属于目标总体的单元B 不包含目标总体的某些单元C 时间比较充足,但调查经费较少D 包含了空白的单元18、某省抽选200个村对养羊情况进行整群调查,村内调查对象是( )A成群的羊 B圈养的羊 C 所有住户 D 部分住户19、简单随机抽样是指总体单位( )A 不加任何处理任意抽取样本B 按其某种特征分为若干类型抽取样本C 按一定标志编序按间隔抽取样本D 分为若干群以群体为单位抽取样本20、研究者严格按照随机原则来抽取样本,排除任何事先设定的模式,每一个对象的抽取都是相互独立的,这属于( )A简单随机抽样 B系统抽样 C分层抽样D多段整群抽样21、当需要研究新生事物时,最恰当的调查方法是()A 全面调查B 典型调查C 重点调查D 抽样调查22、当抽样框存在不完全涵盖时,目标总体与调查总体的关系是( )A 目标总体大于调查总体 B目标总体小于调查总体C目标总体等于调查总体 D目标总体、调查总体与抽样框无关23、某大学估计学生的上网人数比例,先用随机的方法抽取10个系,再在每个系中随机抽取20个学生,用这些抽中学生的上网比例来进行估计,这种抽样方法属于( )A 简单随机抽样 B整群抽样 C多阶抽样 D分层抽样24、若欲调查估计某个街区的男女人口比例,采用的方法是按户口册随机抽取200个家庭做样本,用这个样本的比例来推断总体,这种抽样方法属于( )A简单随机抽样 B整群抽样 C多阶抽样 D分层抽样25、抽样框在调查中的作用主要是( )A 确定要调查的范围 B规定各个单元的抽选概率C 避免目标总体的遗漏 D用来代表总体,从中抽选样本26、PPS抽样是一种( )A等概率抽样 B不等概率抽样 C主观概率抽样 D非概率抽样27、由于被调查者拒绝回答而造成的误差属于( )A抽样误差 B 计量误差 C无回答误差 D推断偏差28、以下抽样方法可用于对总体进行推断的是( )A配额抽样 B滚雪球抽样 C判断抽样 D简单随机抽样29、为提高整群抽样的效率,通常要求( )A群内各单元的差异大 B群内各单元的差异小C群内各单元的差异适中 D群内各单元没有差异30、用样本估计值对总体参数进行点估计的理论基础是( )A大数定律 B中心极限定理 C正态分布的原理 D无偏估计的原理31、样本中某一变量的综合描述叫()A 平均数B 标准差C 参数值D 统计值32、由专家有目的地抽选他认为有代表性的样本进行调查,这种方法是属于( )A判断抽样 B滚雪球抽样 C就近抽样 D简单随机抽样33、将总体中所有分子排列并编以序号,然后按计算好的抽样距离依次等距抽样,被称之为()A 分层抽样B 整群抽样C 系统抽样D 多阶段抽样34、下列哪种调查可以较好地推论总体()A 全面调查B 典型调查C 抽样调查D 重点调查35、如果统计量的抽样分布的均值恰好等于被估计的参数之值,那么这一估计便可以认为是()估计。
第五章抽样调查及参数估计5.1 抽样与抽样分布5.2 参数估计的基本方法5.3 总体均值的区间估计5.4 总体比例的区间估计5.5 样本容量的确定一、简答题1.什么是抽样推断?用样本指标估计总体指标应该满足哪三个标准才能被认为是优良的估计?2.什么是抽样误差,影响抽样误差的主要因素有哪些?3.简述概率抽样的五种方式二、填空题1.抽样推断是在随机抽样的基础上,利用样本资料计算样本指标,并据以推算总体数量特征的一种统计分析方法。
2.从全部总体单位中随机抽选样本单位的方法有两种,即重复抽样和不重复抽样。
3.常用的抽样组织形式有简单随机抽样、类型抽样、等距抽样、整群抽样等四种。
4.影响抽样误差大小的因素有总体各单位标志值的差异程度、抽样单位数的多少、抽样方法和抽样调查的组织形式。
5.总体参数区间估计必须具备估计值、概率保证程度或概率度、抽样极限误差等三个要素。
6.从总体单位数为N的总体中抽取容量为n的样本,在重复抽样和不重复抽样条件下,可能的样本个数分别是______________和_____________。
7.简单随机_抽样是最基本的抽样组织方式,也是其他复杂抽样设计的基础。
8.影响样本容量的主要因素包括总体各单位标志变异程度_、__允许的极限误差Δ的大小、_抽样方法_、抽样方式、抽样推断的可靠程度F(t)的大小等。
三、选择题1.抽样调查需要遵守的基本原则是( B )。
A.准确性原则 B.随机性原则 C.代表性原则 D.可靠性原则2.抽样调查的主要目的是( A )。
A.用样本指标推断总体指标 B.用总体指标推断样本指标C.弥补普查资料的不足 D.节约经费开支3.抽样平均误差反映了样本指标与总体指标之间的( B )。
A.实际误差 B.实际误差的平均数C.可能的误差范围 D.实际的误差范围4.对某种连续生产的产品进行质量检验,要求每隔一小时抽出10分钟的产品进行检验,这种抽查方式是( D )。
A.简单随机抽样 B.类型抽样 C.等距抽样 D.整群抽样5.在其他情况一定的情况下,样本单位数与抽样误差之间的关系是( B )。
样本容量的确定分类:Statistics在参数区间估计的讨论中,估计值和总体的参数之间存在着一定的差异,这种差异是由样本的随机性产生的。
在样本容量不变的情况下,若要增加估计的可靠度,置信区间就会扩大,估计的精度就降低了。
若要在不降低可靠性的前提下,增加估计的精确度,就只有扩大样本容量。
当然,增大样本容量要受到人力、物力和时间等条件的限制,所以需要在满足一定精确度的条件下,尽可能恰当地确定样本容量。
一、影响样本容量的因素(一)总体的变异程度(总体方差)在其它条件相同的情况下,有较大方差的总体,样本的容量应该大一些,反之则应该小一些。
例如:在正态总体均值的估计中,抽样平均误差为它反映了样本均值相对于总体均值的离散程度。
所以,当总体方差较大时,样本的容量也相应要大,这样才会使较小,以保证估计的精确度。
(二)允许误差的大小允许误差指允许的抽样误差,记为,例如,样本均值与总体均值之间的允许误差可以表示为,允许误差以绝对值的形式表现了抽样误差的可能范围,所以又称为误差。
允许误差说明了估计的精度,所以,在其他条件不变的情况下,如果要求估计的精度高,允许误差就小,那么样本容量就要大一些;如要求的精确度不高,允许误差可以大些,则样本容量可以小一些。
(三)概率保证度1-α的大小概率保证度说明了估计的可靠程度。
所以,在其他条件不变的情况下,如果要求较高的可靠度,就要增大样本容量;反之,可以相应减少样本容量。
(四)抽样方法不同在相同的条件下,重复抽样的抽样平均误差比不重复抽样的抽样平均误差大,所需要的样本容量也就不同。
重复抽样需要更大的样本容量,而不重复抽样的样本容量则可小一些。
此外,必要的抽样数目还要受抽样组织方式的影响,这也是因为不同的抽样组织方式有不同的抽样平均误差。
二、样本容量的确定(一) 估计总体均值的样本容量在总体均值的区间估计里,置信区间是由下式确定的:例如,对于正态总体以及非正态总体大样本时,都是以它为置信区间。
精品文档样本容量的确定分类:Statistics在参数区间估计的讨论中,估计值和总体的参数之间存在着一定的差异,这种差异是由样本的随机性产生的。
在样本容量不变的情况下,若要增加估计的可靠度,置信区间就会扩大,估计的精度就降低了。
若要在不降低可靠性的前提下,增加估计的精确度,就只有扩大样本容量。
当然,增大样本容量要受到人力、物力和时间等条件的限制,所以需要在满足一定精确度的条件下,尽可能恰当地确定样本容量。
一、影响样本容量的因素(一)总体的变异程度 ( 总体方差)在其它条件相同的情况下,有较大方差的总体,样本的容量应该大一些,反之则应该小一些。
例如:在正态总体均值的估计中,抽样平均误差为它反映了样本均值相对于总体均值的离散程度。
所以,当总体方差较大时,样本的容量也相应要大,这样才会使较小,以保证估计的精确度。
(二)允许误差的大小允许误差指允许的抽样误差,记为,例如,样本均值与总体均值之间的允许误差可以表示为,允许误差以绝对值的形式表现了抽样误差的可能范围,所以又称为误差。
允许误差说明了估计的精度,所以,在其他条件不变的情况下,如果要求估计的精度高,允许误差就小,那么样本容量就要大一些;如要求的精确度不高,允许误差可以大些,则样本容量可以小一些。
(三)概率保证度1-α的大小概率保证度说明了估计的可靠程度。
所以,在其他条件不变的情况下,如果要求较高的可靠度,就要增大样本容量;反之,可以相应减少样本容量。
(四)抽样方法不同在相同的条件下,重复抽样的抽样平均误差比不重复抽样的抽样平均误差大,所需要的样本容量也就不同。
重复抽样需要更大的样本容量,而不重复抽样的样本容量则可小一些。
精品文档此外,必要的抽样数目还要受抽样组织方式的影响,这也是因为不同的抽样组织方式有不同的抽样平均误差。
二、样本容量的确定( 一)估计总体均值的样本容量在总体均值的区间估计里,置信区间是由下式确定的:例如,对于正态总体以及非正态总体大样本时,都是以它为置信区间。
抽样区间估计与样本容量计算释疑抽样推断是统计学的基本方法之一,也是统计学原理的重点学习内容之一。
抽样调查特点、抽样平均误差影响因素、抽样参数估计、抽样样本容量确定等构成了这一章的重点内容,而其中的参数估计与样本容量确定则是计算的重点。
本文拟通过案例与初学者谈谈如何进行抽样估计,如何确定样本容量。
[例1]某市统计部门为了解全市居民年消费支出情况,从全市20万户居民中随机抽取1000户居民进行调查,经计算平均每户年生活费支出为1.8万元,标准差0.9万元。
要求:⑴以95.45%(t=2)的概率保证程度估计户均生活费支出的区间。
⑵估计全市居民消费总支出区间。
[解题过程]已知户均年支出区间:[1.8-0.056,1.8+0.056]万元=[1.744,1.856]万元 全市居民消费总支出区间:20万户×[1.744,1.856]万元=[3.488,3.712]亿元[几点说明](1)一般而言,抽样区间估计的基本步骤是:点估计、平均误差、极限误差、置信区间。
本例就是标准的均值参数区间估计题型。
由于样本均值与标准差是已知的,所以无需计算点估计值。
(2)本题计算时,必须注意“方差”与“标准差”的区别,不要将标准差当作方差来使用。
(3)社会经济问题抽样调查一般都是采用不重复抽样的,只有当总体单位总数N 未知或n/N 的比重很低时,才可以采用重复抽样平均误差公式来计算平均误差。
(4)估计总量指标时,可直接将样本均值的区间乘上全及总体单位总数N 即可。
[例2]某企业为了解本市居民对某类保健品的看法,采用简单随机抽样方式,从全市居民户中随机抽取500人进行调查结果如下:要求:以95%的可靠性估计全市居民中“喜欢”该产品的比率(t=1.96)。
1000,200000,2,9.0,8.1=====n N t x σ万元平均误差028.0%)5.01(100081.0)1(2=-=-=N n n x σμ万元极限误差056.0028.02=⨯==∆x x t μ[解题过程]已知喜欢该类保健品者的比率置信区间为:[64%-4.21%,64%+4.21%]=[59.79%,68.21%][几点说明](1)本例是标准的成数区间估计题型。