抽样调查作业集合
- 格式:doc
- 大小:385.50 KB
- 文档页数:11
第四章习题抽样调查一、填空题1.抽样调查是遵循随机的原则抽选样本,通过对样本单位的调查来对研究对象的总体数量特征作出推断的。
2.采用不重复抽样方法,从总体为N的单位中,抽取样本容量为n的可能样本个数为N(N-1)(N-2)……(N-N+1)。
3.只要使用非全面调查的方法,即使遵守随机原则,抽样误差也不可避免会产生。
4.参数估计有两种形式:一是点估计,二是区间估计。
5.判别估计量优良性的三个准则是:无偏性、一致性和有效性。
6.我们采用“抽样指标的标准差”,即所有抽样估计值的标准差,作为衡量抽样估计的抽样误差大小的尺度。
7.常用的抽样方法有简单随机抽样、类型(分组)抽样、等距抽样、整群抽样和分阶段抽样。
8.对于简单随机重复抽样,若其他条件不变,则当极限误差范围Δ缩小一半,抽样单位数必须为原来的4倍。
若Δ扩大一倍,则抽样单位数为原来的1/4。
9.如果总体平均数落在区间960~1040内的概率是95%,则抽样平均数是1000,极限抽样误差是40.82,抽样平均误差是20.41。
10.在同样的精度要求下,不重复抽样比重复抽样需要的样本容量少,整群抽样比个体抽样需要的样本容量多。
二、判断题1.抽样误差是抽样调查中无法避免的误差。
(√)2.抽样误差的产生是由于破坏了随机原则所造成的。
(×)3.重复抽样条件下的抽样平均误差总是大于不重复抽样条件下的抽样平均误差。
(√)4.在其他条件不变的情况下,抽样平均误差要减少为原来的1/3,则样本容量必须增大到9倍。
(√)5.抽样调查所遵循的基本原则是可靠性原则。
(×)6.样本指标是一个客观存在的常数。
(×)7.全面调查只有登记性误差而没有代表性误差,抽样调查只有代表性误差而没有登记性误差。
(×)8.抽样平均误差就是抽样平均数的标准差。
(×)三、单项选择题1.用简单随机抽样(重复)方法抽取样本单位,如果要使抽样平均误差降低50%,则样本容量需扩大为原来的(C)A.2倍B.3倍C.4倍D.5倍2.事先将全及总体各单位按某一标志排列,然后依固定顺序和间隔来抽选调查单位的抽样组织方式叫做(D)A.分层抽样B.简单随机抽样C.整群抽样D.等距抽样3.计算抽样平均误差时,若有多个样本标准差的资料,应选哪个来计算(B)A.最小一个B.最大一个C.中间一个D.平均值4.抽样误差是指(D)A.计算过程中产生的误差B.调查中产生的登记性误差C.调查中产生的系统性误差D.随机性的代表性误差5.抽样成数是一个(A)A.结构相对数B.比例相对数C.比较相对数D.强度相对数6.成数和成数方差的关系是(C)A.成数越接近于0,成数方差越大B.成数越接近于1,成数方差越大C.成数越接近于0.5,成数方差越大D.成数越接近于0.25,成数方差越大7.整群抽样是对被抽中的群作全面调查,所以整群抽样是(B)A.全面调查B.非全面调查C.一次性调查D.经常性调查8.对400名大学生抽取19%进行不重复抽样调查,其中优等生比重为20%,概率保证程度为95.45%,则优等生比重的极限抽样误差为(40%)A. 4%B. 4.13%C. 9.18%D. 8.26%9.根据5%抽样资料表明,甲产品合格率为60%,乙产品合格率为80%,在抽样产品数相等的条件下,合格率的抽样误差是(B)A.甲产品大B.乙产品大C.相等D.无法判断10.抽样调查结果表明,甲企业职工平均工资方差为25,乙企业为100,又知乙企业工人数比甲企业工人数多3倍,则随机抽样误差(B)A.甲企业较大B.乙企业较大C.不能作出结论D.相同四、多项选择题抽样调查中的抽样误差是(ABCDE)A.是不可避免要产生的B.是可以通过改进调查方法来避免的C.是可以计算出来的D.只能在调查结果之后才能计算E.其大小是可以控制的2.重复抽样的特点是(AC)A.各次抽选相互影响B.各次抽选互不影响C.每次抽选时,总体单位数始终不变D每次抽选时,总体单位数逐渐减少E.各单位被抽中的机会在各次抽选中相等3.抽样调查所需的样本容量取决于(ABE)A.总体中各单位标志间的变异程度B.允许误差C.样本个数D.置信度E.抽样方法4.分层抽样误差的大小取决于(BCD)A.各组样本容量占总体比重的分配状况B.各组间的标志变异程度C.样本容量的大小D.各组内标志值的变异程度E.总体标志值的变异程度5.在抽样调查中(ACD)A.全及指标是唯一确定的B.样本指标是唯一确定的C.全及总体是唯一确定的D.样本指标是随机变量E.全及指标是随机变量五、名词解释1.抽样推断2.抽样误差3.重复抽样与不重复抽样4.区间估计六、计算题1.某公司有职工3000人,现从中随机抽取60人调查其工资收入情况,得到有关资料如下:(1)试以0.95的置信度估计该公司工人的月平均工资所在范围。
第4章抽样调查作业答案一.单项选择题1.抽样调奁的主要目的在于( 3 )。
①计算和控制误差:②了解总体单位情况③用样本来推断总体:④对调查单位作深入的研究2.抽样调查所必须遵循的基本原则是( 4 )。
①随意原则:②可比性原则:③准确性原则:④随机原则。
3.极限误差与抽样平均误差数值之间的关系为( 4 )①前者一定小于后者②前者一定大于后者③前者一定等于后者④前者既可以大于后者,也可以小于后者4.无偏性是指( 1 )。
①抽样指标等于总体指标:②样本平均数的平均数等于总体平均数:③样本平均数等于总体平均数;④样本成数等于总体成数。
5.一致性是指当样本的单位数充分大时,抽样指标( 4 )。
①小于总体指标;②等于总体指标:③大予总体指标:④充分靠近总体指标6.有效性是指作为优良估计量的方差与其他估计量的方差相比有( 1 )。
①前者小于后者;②前者大于后者:③两者相等;④两者不等。
7.能够事先加以计算和控制的误差是( 1 )。
①抽样误差:②登记误差:③代表性误差;④系统性误差。
8.从总体N个不同单位每次抽取n个单位作为样本。
如果采用考虑顺序的重复抽样方法,则样本的可能数目为( 3 )。
③N n9.从总体N个不同单位每次抽取n个单位作为样本,如果采用不考虑顺序的不重复抽样方法,则样本的可能数目为( 4 )。
④()(N+n-1)!/(N-1)!n!1O.对两个工厂工人平均工资进行不重复的随机抽样调查,抽查的工人人数一样,两工厂工人工资方差相同,但第二个厂工人数比第一个厂工人数整整多一倍。
抽样平均误差( 2 )。
①第一个工厂大;②第二个工厂大:③两工厂一样大;④无法做出结论。
(不重复抽样的:抽样平均平均误差=方差*(1-n/N)1/2/n1/2)11.?抽样平均误差是指抽样平均数(或抽样成数)的()。
①平均数:②平均差③标准差④标准差系数12.在同样情况F,不重复抽样的抽样平均误差与重复抽样的抽样平均误差相比,是( 3 )。
关于抽样调查举例的典型例题六例睡眠是人类生活中不可缺少的一种重要生理需要,是评价健康水平的一项基本指标,拥有充足而高质量的睡眠是工作、学习和生活的重要前提条件.为了解某市中学生的睡眠状况,我们从有代表性的12所学校初一至高三年级中随机抽样1800名学生为对象,每个年级各抽取300名学生(同年级男女生各半)为代表,通过调查这部分学生的睡眠状况来估计全市中学生的睡眠状况.1.设计一份《中学生睡眠状况的调查问卷》.2.根据收回的调查问卷,编制中学生睡眠状况的调查统计表.3.根据统计表画出折线图.4.观察统计表和折线图,你能得出什么结论?解:(l)调查问卷要根据调查目的进行设计,问题的提出应该简洁、明确.以下调查问卷供参考,希望同学们在实践中不断积累经验,设计出更好的调查问卷.(2(3)可以根据上表画出折线图如下:根据统计表和折线图回答下列问题:(1)被调查的初三年级中,女生有____人睡眠不足;男生有____人睡眠不足;男女生共有____人睡眠不足,占本年级被调查人数的____.(2)被调查的所有学生中,总共有____人睡眠不足,占被调查人数的____,其中女生占被调查人数的____.(3)根据折线图可以估计,该市的初中生睡眠不足率随着年级的升高而____,同样高中生睡眠不足率也随着年级的升高而____,但初三毕业年级学生的睡眠不足率比高中的还高,而睡眠不足率最高的是____,约是初中一年级学生的____倍.想一想:根据以上统计,你能得出什么结论?我们进一步集中了睡眠不足者的同学问卷,根据问卷中的问题1整理出了相关的数据,并制成了下表:从表中可以看出有65.6%的中学生在10:30以后睡觉;另外,对调查表中学生平均睡眠时间计算发现,该市中学生平均睡眠时间只有6小时50分钟,达不到合理的睡眠时间.学生课程多、压力大、学习时间长是造成睡眠不足的主要原因.试一试:利用本节课的调查问卷,请你对本班同学进行调查,并集中睡眠不足同学的问卷,整理相关数据进行统计,讨论导致本班同学睡眠不足的原因,提出合理的建议.说明:(1)通过本例,使我们感受到了抽样调查的必要性及选取样本的重要性,同时认识到不同的抽样可能得到不同的结果;(2)在经历数据的收集、整理、描述、分析的全过程中,逐步学会设计调直问卷,制作统计表,画出统计图等基本统计方法,并恰当的运用这些方法解决实际问题;(3)善于从统计图中获取有用的信息,作出相关的决策,通过对样本的统计分析来估计总体.。
抽样方案练习题抽样是统计学中的一项重要方法,用于从总体中选取一部分样本,以了解总体特征或对总体进行推断。
在进行抽样时,需要设计合适的抽样方案,以确保样本能够代表总体,并降低抽样误差的风险。
本文将通过练习题的形式,介绍抽样方案的相关知识与技巧。
练习一:随机抽样某市有1000家餐馆,现希望通过抽样调查了解当地餐馆的经营情况。
请设计一个随机抽样方案,确定需要抽取的样本数量,并说明抽样过程的步骤。
解答:1. 确定样本数量:根据总体大小和置信水平,选择适当的样本容量。
假设置信水平为95%时,选择的样本误差为5%,则样本容量可通过公式 n = Z² * p * q / e²进行计算,其中 Z 表示标准正态分布的分位数,p为总体比例,q = 1 - p,e 为样本误差。
假设总体比例未知,为了确保样本尽可能代表总体,我们可先从初步调查中获得总体比例的估计值。
2. 进行随机抽样:首先,给每家餐馆进行编号,编号应保证每家餐馆都有机会被选中。
然后,使用随机数表或随机数发生器生成一组随机数,代表抽取的餐馆编号。
依据这些编号,从总体中抽取相应数量的样本。
3. 数据收集与分析:对抽取到的样本进行数据收集,可以通过实地调查、问卷调查或访谈等方式获取相关信息。
收集完毕后,对样本数据进行统计分析,得出有关餐馆经营情况的结论。
练习二:分层抽样某公司计划对全国不同地区的消费者进行调查,并希望了解不同地区消费者对其产品的满意度。
请设计一个分层抽样方案,确保样本能够代表各地区的消费者群体,并降低抽样误差的风险。
解答:1. 划分地区层级:根据全国不同地区的分布情况,对地区进行划分,形成若干个地区层级,例如按省份划分或按城市划分。
2. 确定每个地区的样本数量:根据每个地区消费者人数和总体大小,确定每个地区应抽取的样本数量。
一种常用的方法是按照各地区人口比例确定样本数量,以确保样本能够代表各地区总体。
3. 进行分层抽样:在每个地区中,进行简单随机抽样或系统抽样。
抽样调查报告13篇(抽样调查结果报告)抽样调查报告1__县2022年人口变动情况抽样调查工作经过指导员和普查员的辛勤劳动,被抽中的2个调查小区的入户登记、复查审核、编码、数据录入等工作已全部完成,结合调查到的情况以及本县实际,现就__县人口变动情况抽样调查的主要数据分析报告如下:一、基本情况此次调查的对象为2022年居住在__县域的常住人口,抽中小区为2个,涉及2个乡镇,2个村(居)民委员会,调查户171户,应在本户登记的人数655 人,户籍人口565人(其中户籍人口外出半年以上有85人),常住人口593人。
此次调查按户口性质分:农业户口639人,非农业户口14人,户口待定2 人,其中乡村调查人数565人,没有城镇人口(抽中的两个小区均为农村普查小区)。
二、主要数据(一)常住人口此次人口变动抽样调查常住人口593人,其中:男324人,女269人,15岁以上人口492人,出生人口3人,其中:男3人,女0人;死亡人口2人,其中:男2人,女0人。
(二)人口出生率本次调查人口出生率为4.58‰,比县计生局出生率6.28‰低1.7个千分点。
由于我国人口基数大,人口数量增长较快,人口控制任务既艰巨又迫切,这就使得人口出生率指标成为人们最为关心的人口统计数字,在实际工作中,统计部门也是把其列为最主要的数据加以重视。
(三)人口死亡率此次调查死亡率为3.05‰,比县计生局死亡率8.47‰低5.42个千分点。
在农村地区存在申报死亡人口“不吉利”的传统封建观念,普遍不及时或者不直接申报死亡人口的现象,使死亡人口登记的准确性受到影响。
从以上分析中得知,由于人口类型逐渐趋向老龄化,死亡率在长期观察中应该是有所升高,在调查死亡率中没有这个明显的趋势。
其次,调查数据发现,在以后一段的时间内,育龄妇女群人口数量基本稳定,育龄妇女生育率仍会维持在一定的高度,因此计划生育工作仍需加强。
三、人口抽样情况分析1、自然率持续降低,人口总量持续低速增长根据2022年人口变动情况抽样调查推算,2022年__县人口总量为15.37万人,其中男性8.17万人,女性7.2万人,人口出生率为4.58‰,死亡率为3.05‰,自然增长率为1.53‰,与2022年相比,人口出生率降低7.41个千分点,死亡率降低4.81个千分点,自然增长率下降2.6个千分点,由此推算,2022年双柏出生人口为1812人,死亡人口__26人,剔除迁移变动因素,全年净增长人口914人,人口总量继续保持低速增长趋势。
第六章抽样调查练习及答案第 六章 抽样调查一、填空题1.抽选样本单位时要遵守 原则,使样本单位被抽中的机会 。
2.常用的总体指标有 、 、 。
3.在抽样估计中,样本指标又称为 量,总体指标又称为 。
4.全及总体标志变异程度越大,抽样误差就 ;全及总体标志变异程度越小,抽样误差 。
5.抽样估计的方法有 和 两种。
6.整群抽样是对被抽中群内的 进行 的抽样组织方式。
7.误差分为 和代表性误差;代表性误差分为________和偏差;偏差是____________________________,也称为________________。
8.简单随机抽样的成数抽样平均误差计算公式是:重复抽样条件下: ;不重复抽样条件下: 。
9.误差范围△,概率度t 和抽样平均误差μ之间的关系表达式为 。
10.抽样调查的组织形式有: 。
二、单项选择题1.所谓大样本是指样本单位数在( )及以上A 30个B 50个C 80个 D100个2.抽样指标与总体指标之间抽样误差的可能范围是( )A 抽样平均误差B 抽样极限误差C 区间估计范围D 置信区间3.抽样平均误差说明抽样指标与总体指标之间的( )A 实际误差B 平均误差C 实际误差的平方D 允许误差4.是非标志方差的计算公式( )A P(1-P)B P(1-P)2C )1(P P -D P 2(1-P)5.总体平均数和样本平均数之间的关系是( )A 总体平均数是确定值,样本平均数是随机变量B 总体平均数是随机变量,样本平均数是确定值C 两者都是随机变量D 两者都是确定值6.对入库的一批产品抽检10件,其中有9件合格,可以( )概率保证合格率不低于80%。
A 95.45%B 99.7396C 68.27%D 90%7.在简单随机重复抽样情况下,若要求允许误差为原来的2/3,则样本容量( )A 扩大为原来的3倍B 扩大为原来的2/3倍C 扩大为原来的4/9倍D 扩大为原来的2.25倍8.根据抽样调查得知:甲企业一等品产品比重为30%,乙企业一等品比重为50%一等品产品比重的抽样平均误差为 ( )A 甲企业大B 两企业相同C 乙企业大D 无法判断9.是非标志的平均数是( )A -P)1P(B P(1-P)C pD (1-P)210.重复抽样的误差一定( )不重复抽样的误差。
填空题:1.若样本统计量w的期望和方差分别为E(w)和var(w),那么以样本统计量w 估计总体的数字特征W,有偏量B(w)=E(w)-W;均方偏差MSE(w)=E(w-W)2;且偏量、统计量w的方差与均方偏差三者之间的关系为:MSE(w)= var(w)+[B(w)]2.2.在概率抽样调查中,有简单随机抽样、不等概抽样、分层抽样、多阶抽样、系统抽样、多相抽样等基本的抽样方法。
3.抽样框:又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。
设计出了抽样框后,便可采用抽签的方式或按照随机数表来抽选必要的单位数。
若没有抽样框,则不能计算样本单位的概率,从而也就无法进行概率选样。
抽样框除包含有抽样单位的编号及抽样单位与总体、个体单位的联系外,还应包含一些有用的辅助信息。
这些辅助吸血可用于抽样方案的设计和数据处理,有益于提高调查的质量。
4.抽样方案的设计要求:利用抽样框的辅助信息,综合各种基本的概率抽样方法来制定一个可行的、精度满足要求而且费用最省的抽样方法。
5.一个完整的抽样策略由抽样方法应配合有一个相适应的估计结合在一起组成。
6. 总体采用简单随机抽样时,对总体目标量的均值或总数,可以有多种估计方法。
在没有辅助信息是,可以采用简单估值法,以样本的均值估计总体的均值;当有适宜的辅助信息利用时,可以采用比估计和回归估计。
7.二相抽样是对总体进行一次以上的抽样。
第一次抽样的样本单元并不是调查所需的目标量,而是调查一些可通过较小的工作量快速获得辅助信息;第二次抽样则是在获得辅助信息的基础上,再作一个样本量较小的调查,调查所需的目标量。
8. 分层随机抽样适用于总体单位数量较多、内部差异较大的调查对象。
在分层时,要使层内的个体单元有较好的同一性,层间的差异较大。
9.多阶段抽样与整群抽样都是将总体分成若干小的群体,这些小的群体为第一性抽样单元。
再对抽中的第一性抽样单元抽样,其中的个体为第二性抽样单元。
10.有放回不等概抽样是每个单元入样概率正比于规模测度的抽样方法;实施无放回不等概抽样的方法主要有:布鲁尔法和德宾法。
定义:即抽取概率。
计算题:1.假设总体容量为N=6,其标志值分别为1,2,3,5,6,7.若分为两个群(1,2,3)和(5,6,7),计算群内相关系数。
它能说明什么问题。
又若分为(1,5,7)和(2,3,6), 计算群内相关系数。
它又能说明什么问题。
2.给定一个包含25个单元的目标为总体,先排成5行5列的形式,每行每列均包含5个单元,单元排列先按列排列,考虑n=k=5的系统抽样,以行为群组成系统样本,而以列为层。
若按从小到大的顺序排列,比较该系统抽样,简单抽样,及分层抽样的效率。
解:依题意可知:分为以下两种情况讨论。
i)以行为群,组成系统抽样。
此时25N =,5o K N ==。
根据公式:11Ki ij j Y Y K•==∑ , ()22111K i i ij j S Y Y K ••==--∑有:_1132.88K i i Y Y K •===∑ 2211=117.7Ki i S S K •==∑内()2211 6.9321Ki i S Y Y K •==-=-∑外()()0022211103.8611N K K N S S S N N --=+=--外内所以:()02211 1.62281sy K N N V Y S S N N ∧-⎛⎫-=-= ⎪-⎝⎭内201116.6176V Y S N N ∧⎛⎫⎛⎫=-= ⎪ ⎪⎝⎭⎝⎭由上述可知:sy V Y V Y ∧∧⎛⎫⎛⎫< ⎪ ⎪⎝⎭⎝⎭3.某县农村共有14个乡509个村,在实现小康的过程中欲计算该县农村的恩格尔系数(居民的食品支出占总指出的比例)。
首先要调查全县的食品总支出,现采用了二阶段抽样,第一阶段先在14个乡中,按村的的数目多少进行了PPS 抽样,共抽取5个乡,第二阶段在抽取的乡中随机地抽取6个村做调查,然后对抽中的村做全面调查,取得数据如下:样本乡序号 k村数 i N 样本村数 in样本村平均食品支出(万元)1 19 6 482 41 6 1753 72 6 1084 54 6 905 36 6 100要估计全县的食品支出总金额及估计的标准差。
问题分析:此题为第一阶段是以14个乡中所含村的个数为规模测度的PPS 抽样,第二阶段是取等额的简单随机抽样的二阶抽样。
故^11k iPPS i i iN G y k P ==∑(*) 由题意可知:总村数N=509,样本乡数k=5,第i 个样本乡的入样概率ii N P N=,抽取的样本总村数n=30,第二阶段为取等额的简单随机抽样故/1n kij i j k y y n ==∑其中ij y 表示第i 个样本乡中第j 个样本村的食品支出总额。
解:^11k i PPS i i iN G y k P ==∑ 将iiN P N =代入后得 111k ki iii i i N N y yk N N k====∑∑【①】代入数据可得估计值为:()^509481751089010053037.85PPS G =++++=(万元)均方偏差的无偏估计量:2^^11(1)ki PPS PPS i i i N v G y G k k P =⎛⎫⎛⎫=- ⎪ ⎪-⎝⎭⎝⎭∑ 将【①】式与iiN P N =代入左式得()22^1(1)k PPS i i N v G y y k k =⎛⎫=- ⎪-⎝⎭∑ 【②】 其中__11k i i y y k ==∑ 再代入数据^PPS v G ⎛⎫⎪⎝⎭=1088776199.4(万元)故标准差为:^()PPS s G ==10434(万元)注意:其中公式【①】与公式【②】的运用是在第一阶段是正比于子总体规模的PPS 抽样,第二阶段是取等额的简单随机抽样的二阶抽样的前提条件下才能进行的。
4.若假设已知该县有380千人,并有各个乡的人口资料,则第一阶段按与乡的人口多少成比例地抽样,也抽取5个乡。
第二阶段用简单随机抽样抽取6个村得数据如下表,再估计全县的食品支出总金及估计的标准差。
样本乡序号 人口数 村数 样本村平均食品支出k X i N i(万元)1 24 30 962 50 41 1753 38 35 1674 60 48 188 53039130问题分析:此题与前一题的差别不大,抽样方法都是第一阶段是PPS 抽样,第二阶段是取等额的简单随机抽样的二阶抽样。
唯一不同的是两者的规模测度不同,此题是按与乡的人口数为规模测度的PPS 抽样。
故此题中ii X P X =,其中X 为该县的总人数,i X 为抽中样本乡的总人数。
没有与子总体的i N 成正比,不能用直接公式【①】与公式【②】解:^1111155991k k ki i iPPS i i i i i i i i iN N N X G y y y k P k X X kX ======≈∑∑∑(万元) 2^^119261315.8(1)ki PPS PPS i i i N v G y G k k P =⎛⎫⎛⎫=-≈ ⎪ ⎪-⎝⎭⎝⎭∑(万元) 标准差为:^()PPSs G=(万元)注意:两题抽样方法的选择虽然相同,但PPS 抽样中的规模测度选择不同导致估计的效率不同,从而影响到估计的准确度。
5.某市进行家庭收入调查,分城镇居民与农村居民两部分抽样,在全部城镇23560户中抽取300户,在全部农村148420户中抽取250户(均按简单随机抽样进行),调查结果是城镇平均年收入标准差为3000元,农村年平均户收入标准差为2000元. 且对城镇居民与农村居民抽样平均每户费用比为1:2. 给出城镇与农村两层比列分配与最优分配的样本量的分配。
解:已知总体总量 171980()N =户, 城镇居民总量123560()N =户, 农村居民总量2N =148420(户),, 总样本容量 n=550, 城镇占总体比例11N =0.137NW =, 农村占总体比例22N W ==0.863N, 费用比12C 1=C 2。
1. 按比例分配:城镇样本量:11*0.137*55075()n W n ===户 农村样本量:22W *0.863*550475()n n ===户2. 考虑费用前提下的最优分配由定理4.3.2知i n k =为待求得比例系数又因为:i n n k ==∑ 则/(k n =/i n n =2110.137*30000.137*30000.863*2500/550*/()117()112i n n ===+=户 21433()n n n =-=户(若不考虑费用)(奈曼最优分配): 由定理4.3.1知 i n n =∑ 固定 有1*i ii kjjj W S n n W S==∑考虑本题有21*i ii jjj W S n n W S==∑10.137*3000550*88()0.137*30000.863*2500n ==+户 21432()n n n =-=户6. 三种样本量估算的比较注:1/2u α-是N(0,1)分布的12-分位数,2S 是总体方差,d 是绝对精度, N :总体种抽样单位的数额,/C S Y =为变异系数,0F 是调查的基本费用,1F 是每调查一个样本单元所需费用,a 是常数。
某大城市进行计算机普及率的调查,若从全市数百万户家庭中,简单随机地抽取n 户进行调查,为了使普及率的绝对误差不超过2%,样本量n 应取多大? 解:此问题待估量是总体普及率P , 若P=1N N, 则按( 2.3.4) 式的设 定, 易算出总体方差2222111111111()11(1)(1)n n i i i i N S Z Z N N N N N N NP P N N==⎡⎤⎡⎤=-=-⎢⎥⎢⎥--⎣⎦⎣⎦≈-=-∑∑并易发现当P 从0上升到0.5 时,P(1-P)是随着递增的,当P 从0.5再增加到1 时,P(1-P)是递降的.在P=0.5时达到最大值2S = P(1-P) =0.25.按最保险的情况估算样本量, 则可取 2221/222(u )(1.96)0.25n 24010.02S d α-⨯=== 如果我们在计算机普及率有一个很粗糙的估计, 估计该普及率应在10% 至20% 之间, 那么我们只要对P 在此区间来粗略估算相应的2S .在此区间时P 取20% 有最大的2S 值0.2×0.8= 0.16. 故样本量n 取下述值就够了:2221/222(u )(1.96)0.16n 15370.02S d α-⨯=== 当对精度的要求不是绝对精度,而是相对精度时,样本量应用(2.4.5)或(2.4.6) 式估算.对普及率P,变异系数C=当P 从0变到1时,它是递降的.因而P 值越小变异系数越大.于是若普及率P 在10%至20%之间,则按在P =10% 所相应的可能的最大变异系数值C=0.9/0.1=3,估算样本量n.当相对误差h 取为20%时, 由(2.4.6)式2221/222(u )(1.96)9n=8650.2C h α-⨯=≈7. 从某地区15786位老人中,抽出一个含有525位老人的简单随机样本,调查每位老人的性别及生活是否能够自理,结果如下:估计该地区生活不能自理的老人的人数,并估计标准差,并以95%的置信度对其作区间估计。