《抽样技术》第四版习题答案
- 格式:docx
- 大小:918.66 KB
- 文档页数:22
抽样技术课后习题答案第⼆章习题2.1判断下列抽样⽅法是否是等概的:(1)总体编号1~64,在0~99中产⽣随机数r ,若0或r>64则舍弃重抽。
(2)总体编号1~64,在0~99中产⽣随机数r ,r 处以64的余数作为抽中的数,若余数为0则抽中64.(3)总体20000~21000,从1~1000中产⽣随机数r 。
然后⽤19999作为被抽选的数。
解析:等概抽样属于概率抽样,概率抽样具有⼀些⼏个特点:第⼀,按照⼀定的概率以随机原则抽取样本。
第⼆,每个单元被抽中的概率是已知的,或者是可以计算的。
第三,当⽤样本对总体⽬标进⾏估计时,要考虑到该样本被抽中的概率。
因此(1)中只有1~64是可能被抽中的,故不是等概的。
(2)不是等概的【原因】(3)是等概的。
2.2抽样理论和数理统计中关于样本均值y 的定义和性质有哪些不同?解析:抽样理论和数理统计中关于样本均值的定义和性质的不同抽样理论概率统计定义 ∑==ni i y n y 11∑==ni iy n y 11性质1.期望()()()()Y C P E NN C N C ===∑∑==n n1i n i 1i i i 1y y y2.⽅差()()()[]()iiP y E y y V n N21∑=-==()()[]n NC i iiC y E y n N121∑=- ()21S nf -=1.期望()??=∑=n i i y n E y E 11()∑==ni y E 1i n 1[]µµ==n n12.⽅差()[]2µ-=i y E y V211-=∑=n i i y n E µ()ny n 122i σµ=-=E2.3为了合理调配电⼒资源,某市欲了解50000户居民的⽇⽤电量,从中简单随机抽取了300户进⾏,现得到其⽇⽤电平均值=y 9.5(千⽡时),=2s 206.试估计该市居民⽤电量的95%置信区间。
第二章习题2.1判断下列抽样方法是否是等概的:(1)总体编号1~64,在0~99中产生随机数r ,若r=0或r>64则舍弃重抽。
(2)总体编号1~64,在0~99中产生随机数r ,r 处以64的余数作为抽中的数,若余数为0则抽中64.(3)总体20000~21000,从1~1000中产生随机数r 。
然后用r+19999作为被抽选的数。
解析:等概抽样属于概率抽样,概率抽样具有一些几个特点:第一,按照一定的概率以随机原则抽取样本。
第二,每个单元被抽中的概率是已知的,或者是可以计算的。
第三,当用样本对总体目标进行估计时,要考虑到该样本被抽中的概率。
因此(1)中只有1~64是可能被抽中的,故不是等概的。
(2)不是等概的【原因】(3)是等概的。
2.2抽样理论和数理统计中关于样本均值y 的定义和性质有哪些不同?300户进行,现得到其日用电平均值=y 9.5(千瓦时),=2s 206.试估计该市居民用电量的95%置信区间。
如果希望相对误差限不超过10%,则样本量至少应为多少?解:由已知可得,N=50000,n=300,5.9y =,2062=s 该市居民用电量的95%置信区间为[])(y [2y V z N α±=[475000±1.96*41308.19]即为(394035.95,555964.05) 由相对误差公式y)(v u 2y α≤10%可得%10*5.9206*n50000n 1*96.1≤- 即n ≥862欲使相对误差限不超过10%,则样本量至少应为8622.4某大学10000名本科生,现欲估计爱暑假期间参加了各类英语培训的学生所占的比例。
随机抽取了两百名学生进行调查,得到P=0.35,是估计该大学所有本科生中暑假参加培训班的比例的95%置信区间。
解析:由已知得:10000=N 200=n 35.0=p 02.0==Nnf 又有:35.0)()(===∧p p E p E 0012.0)1(11)(=---=∧p p n fp V该大学所有本科学生中暑假参加培训班的比例95%的置信区间为:])()([2∧∧±P V Z P E α代入数据计算得:该区间为[0.2843,0.4157]2.5研究某小区家庭用于文化方面(报刊、电视、网络、书籍等)的支出,N=200,现抽取一个容量为20的样本,调查结果列于下表:编号 文化支出 编号 文化支出 1 200 11 150 2 150 12 160 3 170 13 180 4 150 14 130 5 160 15 100 6 130 16 180 7 140 17 100 8 100 18 180 9 110 19 170 1024020120估计该小区平均的文化支出Y ,并给出置信水平95%的置信区间。
第2章2.1解:()1这种抽样方法是等概率的。
在每次抽取样本单元时,尚未被抽中的编号为1~64的这些单元中每一个单元被抽到的概率都是1100。
()2这种抽样方法不是等概率的。
利用这种方法,在每次抽取样本单元时,尚未被抽中的编号为1~35以及编号为64的这36个单元中每个单元的入样概率都是2100,而尚未被抽中的编号为36~63的每个单元的入样概率都是1100。
()3这种抽样方法是等概率的。
在每次抽取样本单元时,尚未被抽中的编号为20PP0~21000中的每个单元的入样概率都是11000,所以这种抽样是等概率的。
2.2解:2.3解:首先估计该市居民日用电量的95%的置信区间。
根据中心极限定理可知,在大样本的条件下,_y E y y -=近似服从标准正态分布,_Y 的195%α-=的区间为y z y z y y αα⎡⎡-+=-+⎣⎣。
而()21f V y S n -=中总体的方差2S是未知的,用样本方差2s 来代替,置信区间为,y y ⎡⎤-+⎢⎥⎣⎦。
由题意知道,_29.5,206y s ==,而且样本量为300,50000n N ==,代入可以求得_21130050000()2060.6825300f v y s n --==⨯=。
将它们代入上面的式子可得该市居民日用电量的95%置信区间为7.8808,11.1192⎡⎤⎣⎦。
下一步计算样本量。
绝对误差限d 和相对误差限r 的关系为_d rY =。
根据置信区间的求解方法可知____11P y Y r Y P αα⎫⎪⎧⎫-≤≥-⇒≥-⎨⎬⎩⎭⎪⎭ 根据正态分布的分位数可21α⎫⎪⎪≥-⎬⎪⎪⎭,所以()2_r Y V yz α⎛⎫ ⎪= ⎪⎝⎭。
也就是2_2_222/2211r Y r Y S n z S n N z αα⎤⎛⎫⎥⎛⎫ ⎪⎛⎫⎝⎭ ⎪⎥-=⇒ ⎪ ⎪⎥⎝⎭⎝⎭⎥⎦。
把_29.5,206,10%,50000y s r N ====861.75862≈。
第二章习题2.1判断下列抽样方法是否是等概的:(1)总体编号1~64,在0~99中产生随机数r ,若r=0或r>64则舍弃重抽。
(2)总体编号1~64,在0~99中产生随机数r ,r 处以64的余数作为抽中的数,若余数为0则抽中64.(3)总体20000~21000,从1~1000中产生随机数r 。
然后用r+19999作为被抽选的数。
解析:等概抽样属于概率抽样,概率抽样具有一些几个特点:第一,按照一定的概率以随机原则抽取样本。
第二,每个单元被抽中的概率是已知的,或者是可以计算的。
第三,当用样本对总体目标进行估计时,要考虑到该样本被抽中的概率。
因此(1)中只有1~64是可能被抽中的,故不是等概的。
(2)不是等概的【原因】(3)是等概的。
2.2抽样理论和数理统计中关于样本均值y 的定义和性质有哪些不同?300户进行,现得到其日用电平均值=y 9.5(千瓦时),=2s 206.试估计该市居民用电量的95%置信区间。
如果希望相对误差限不超过10%,则样本量至少应为多少?解:由已知可得,N=50000,n=300,5.9y =,2062=s 该市居民用电量的95%置信区间为[])(y [2y V z N α±=[475000±1.96*41308.19]即为(394035.95,555964.05) 由相对误差公式y)(v u 2y α≤10%可得%10*5.9206*n50000n 1*96.1≤- 即n ≥862欲使相对误差限不超过10%,则样本量至少应为8622.4某大学10000名本科生,现欲估计爱暑假期间参加了各类英语培训的学生所占的比例。
随机抽取了两百名学生进行调查,得到P=0.35,是估计该大学所有本科生中暑假参加培训班的比例的95%置信区间。
解析:由已知得:10000=N 200=n 35.0=p 02.0==Nnf 又有:35.0)()(===∧p p E p E 0012.0)1(11)(=---=∧p p n fp V该大学所有本科学生中暑假参加培训班的比例95%的置信区间为:])()([2∧∧±P V Z P E α代入数据计算得:该区间为[0.2843,0.4157]2.5研究某小区家庭用于文化方面(报刊、电视、网络、书籍等)的支出,N=200,现抽取一个容量为20的样本,调查结果列于下表:编号 文化支出 编号 文化支出 1 200 11 150 2 150 12 160 3 170 13 180 4 150 14 130 5 160 15 100 6 130 16 180 7 140 17 100 8 100 18 180 9 110 19 170 1024020120估计该小区平均的文化支出Y ,并给出置信水平95%的置信区间。
第一章1.1 答:理论上,若要根据调查数据进行统计推断,则需使用概率抽样。
在实际情形中,对概率抽样与非概率抽样的选择基于对调查目的与调查条件的权衡。
按照L. Kish 的说法,适用概率抽样的场合:(1)“当随机化〖即概率抽样〗既简单又重要时,忽视它就等于轻率和无知”;(2)“只有在某一具体研究领域中由于观察到抽选偏差,发现随机性的假设系错误后〖即随机性假设不成立〗,某些研究人员才显示出对概率抽样发生兴趣……在大多数物理学和化学实验中,样本的选择看来并不需要特别注意,在生物学里,随机与不随机兼而有之。
另一个极端是社会科学,事物特征的分布往往与随机分布相去甚远,也正是在这些领域,概率抽样最为需要,也是最为发展的”;(3)“随机化的概率抽样并不是一个教条而是一种策略,特别是对抽样数目大的场合更是如此”。
〖请再次注意由个人随意写下一些数字的例子〗适用非概率抽样的场合:(1)“比较大的挑战是在很多场合实行随机化的花费很大,这时它的价值必须与它的高费用相权衡,而且常常还要与减少对测量和实验变量的控制相权衡〖指调查方法与试验方法的选择〗。
因此,在很多现场操作中作业人员在下列三种情况下,尽量避免使用概率抽样: 第一,如果元素是一致的,那抽样就不重要了,例如,所有重量为一个单位的氢原子都可以认为是一样的;第二,虽然缺乏一致性,但如果预测的变量是可以度量且能够控制的话,抽样仍然可以避免,例如,在对个人进行抽选时对性别的控制是容易的;第三,如果不能控制的变量在总体中是随机分布的,那么对于任何选样设计,都可以提供一个随机样本。
”(2)“很多卓有成就的科学(天文学、物理学和化学)的巨大进步过去和现在都没有用概率抽样,在这些科学的研究里,统计推断是根据对总体有着适当的、自动的和自然的随机化这一主观判断而作出的……科学研究里充满了根据总体天然随机化的假定而获得成功的例子。
”1.2 答(1)(2)(3)皆否。
理由:判断一抽样是否为概率抽样,乃判断其是否为一给定之(),,S P U ,即:是否有确定之有限总体U ,所有可能样本的集合{}S s =是否确定,每个样本的选取概率{}P p =是否确定。
第二章习题2.1判断下列抽样方法是否是等概的:(1)总体编号1~64,在0~99中产生随机数r ,若r=0或r>64则舍弃重抽。
(2)总体编号1~64,在0~99中产生随机数r ,r 处以64的余数作为抽中的数,若余数为0则抽中64.(3)总体20000~21000,从1~1000中产生随机数r 。
然后用r+19999作为被抽选的数。
解析:等概抽样属于概率抽样,概率抽样具有一些几个特点:第一,按照一定的概率以随机原则抽取样本。
第二,每个单元被抽中的概率是已知的,或者是可以计算的。
第三,当用样本对总体目标进行估计时,要考虑到该样本被抽中的概率。
因此(1)中只有1~64是可能被抽中的,故不是等概的。
(2)不是等概的【原因】(3)是等概的。
2.2抽样理论和数理统计中关于样本均值y 的定义和性质有哪些不同?300户进行,现得到其日用电平均值=y 9.5(千瓦时),=2s 206.试估计该市居民用电量的95%置信区间。
如果希望相对误差限不超过10%,则样本量至少应为多少?解:由已知可得,N=50000,n=300,5.9y =,2062=s 该市居民用电量的95%置信区间为[])(y [2y V z N α±=[475000±1.96*41308.19]即为(394035.95,555964.05) 由相对误差公式y)(v u 2y α≤10%可得%10*5.9206*n50000n 1*96.1≤- 即n ≥862欲使相对误差限不超过10%,则样本量至少应为8622.4某大学10000名本科生,现欲估计爱暑假期间参加了各类英语培训的学生所占的比例。
随机抽取了两百名学生进行调查,得到P=0.35,是估计该大学所有本科生中暑假参加培训班的比例的95%置信区间。
解析:由已知得:10000=N 200=n 35.0=p 02.0==Nnf 又有:35.0)()(===∧p p E p E 0012.0)1(11)(=---=∧p p n fp V该大学所有本科学生中暑假参加培训班的比例95%的置信区间为:])()([2∧∧±P V Z P E α代入数据计算得:该区间为[0.2843,0.4157]2.5研究某小区家庭用于文化方面(报刊、电视、网络、书籍等)的支出,N=200,现抽取一个容量为20的样本,调查结果列于下表:编号 文化支出 编号 文化支出 1 200 11 150 2 150 12 160 3 170 13 180 4 150 14 130 5 160 15 100 6 130 16 180 7 140 17 100 8 100 18 180 9 110 19 170 1024020120估计该小区平均的文化支出Y ,并给出置信水平95%的置信区间。
第2章2.1解:()1这种抽样方法是等概率的。
在每次抽取样本单元时,尚未被抽中的编号为1~64的这些单元中每一个单元被抽到的概率都是1 100。
()2这种抽样方法不是等概率的。
利用这种方法,在每次抽取样本单元时,尚未被抽中的编号为1~35以及编号为64的这36个单元中每个单元的入样概率都是2100,而尚未被抽中的编号为36~63的每个单元的入样概率都是1 100。
()3这种抽样方法是等概率的。
在每次抽取样本单元时,尚未被抽中的编号为20 000~21 000中的每个单元的入样概率都是11000,所以这种抽样是等概率的。
2.2解:2.3 解:首先估计该市居民日用电量的95%的置信区间。
根据中心极限定理可知,在大样本的条件下_y E yy -=近似服从标准正态分布, _Y 的195%α-=的置信区间为2y z y z y y αα⎡⎡-+=-+⎣⎣。
而()21f V y S n-=中总体的方差2S 是未知的,用样本方差2s 来代替,置信区间为,y y ⎡⎤-+⎢⎥⎣⎦。
由题意知道,_29.5,206y s ==,而且样本量为300,50000n N ==,代入可以求得 _21130050000()2060.6825300f v y s n --==⨯=。
将它们代入上面的式子可得该市居民日用电量的95%置信区间为7.8808,11.1192⎡⎤⎣⎦。
下一步计算样本量。
绝对误差限d 和相对误差限r的关系为_d rY =。
根据置信区间的求解方法可知____11P y Y r Y P αα⎫⎪⎧⎫-≤≥-⇒≤≥-⎨⎬⎩⎭根据正态分布的分位数可以知道1P Z αα⎫⎪⎪≤≥-⎬⎪⎪⎭,所以()2_r Y V y z α⎛⎫⎪= ⎪⎝⎭。
也就是2_2_222/21111r Y r Y S n N z S n N z αα⎡⎤⎛⎫⎢⎥⎛⎫ ⎪⎛⎫⎝⎭ ⎪⎢⎥-=⇒=+ ⎪ ⎪⎢⎥⎝⎭⎝⎭⎢⎥⎣⎦。
把_29.5,206,10%,50000y s r N ====代入上式可得,861.75862n =≈。
《抽样技术》练习题及答案————————————————————————————————作者:————————————————————————————————日期:习题一1.请列举一些你所了解的以及被接受的抽样调查。
2.抽样调查基础理论及其意义;3.抽样调查的特点。
4.样本可能数目及其意义;5.影响抽样误差的因素;6.某个总体抽取一个n=50的独立同分布样本,样本数据如下:567 601 665 732 366 937 462 619 279 287690 520 502 312 452 562 557 574 350 875834 203 593 980 172 287 753 259 276 876692 371 887 641 399 442 927 442 918 11178 416 405 210 58 797 746 153 644 4761)计算样本均值y与样本方差s2;2)若用y估计总体均值,按数理统计结果,y是否无偏,并写出它的方差表达式;3)根据上述样本数据,如何估计v(y)?4)假定y的分布是近似正态的,试分别给出总体均值μ的置信度为80%,90%,95%,99%的(近似)置信区间。
习题二一判断题1 普查是对总体的所有单元进行调查,而抽样调查仅对总体的部分单元进行调查。
2 概率抽样就是随机抽样,即要求按一定的概率以随机原则抽取样本,同时每个单元被抽中的概率是可以计算出来的。
3 抽样单元与总体单元是一致的。
4 偏倚是由于系统性因素产生的。
5 在没有偏倚的情况下,用样本统计量对目标量进行估计,要求估计量的方差越小越好。
6 偏倚与抽样误差一样都是由于抽样的随机性产生的。
7 偏倚与抽样误差一样都随样本量的增大而减小。
8 抽样单元是构成抽样框的基本要素,抽样单元只包含一个个体。
9 抽样单元可以分级,但在抽样调查中却没有与之相对应的不同级的抽样框。
10 总体目标量与样本统计量有不同的意义,但样本统计量它是样本的函数,是随机变量。
第2章2.1解:()1这种抽样方法是等概率的。
在每次抽取样本单元时,尚未被抽中的编号为1~64的这些单元中每一个单元被抽到的概率都是1 100。
()2这种抽样方法不是等概率的。
利用这种方法,在每次抽取样本单元时,尚未被抽中的编号为1~35以及编号为64的这36个单元中每个单元的入样概率都是2100,而尚未被抽中的编号为36~63的每个单元的入样概率都是1 100。
()3这种抽样方法是等概率的。
在每次抽取样本单元时,尚未被抽中的编号为20 000~21 000中的每个单元的入样概率都是11000,所以这种抽样是等概率的。
2.2解:2.3 解:首先估计该市居民日用电量的95%的置信区间。
根据中心极限定理可知,在大样本的条件下_y E yy -=近似服从标准正态分布, _Y 的195%α-=的置信区间为2y z y z y y αα⎡⎡-+=-+⎣⎣。
而()21f V y S n-=中总体的方差2S 是未知的,用样本方差2s 来代替,置信区间为,y y ⎡⎤-+⎢⎥⎣⎦。
由题意知道,_29.5,206y s ==,而且样本量为300,50000n N ==,代入可以求得 _21130050000()2060.6825300f v y s n --==⨯=。
将它们代入上面的式子可得该市居民日用电量的95%置信区间为7.8808,11.1192⎡⎤⎣⎦。
下一步计算样本量。
绝对误差限d 和相对误差限r的关系为_d rY =。
根据置信区间的求解方法可知____11P y Y r Y P αα⎫⎪⎧⎫-≤≥-⇒≤≥-⎨⎬⎩⎭根据正态分布的分位数可以知道1P Z αα⎫⎪⎪≤≥-⎬⎪⎪⎭,所以()2_r Y V y z α⎛⎫⎪= ⎪⎝⎭。
也就是2_2_222/21111r Y r Y S n N z S n N z αα⎡⎤⎛⎫⎢⎥⎛⎫ ⎪⎛⎫⎝⎭ ⎪⎢⎥-=⇒=+ ⎪ ⎪⎢⎥⎝⎭⎝⎭⎢⎥⎣⎦。
把_29.5,206,10%,50000y s r N ====代入上式可得,861.75862n =≈。