抽样技术题目
- 格式:doc
- 大小:315.50 KB
- 文档页数:8
应用抽样技术练习题一、选择题1. 下列哪种抽样方法属于非概率抽样?A. 简单随机抽样B. 分层抽样C. 方便抽样D. 系统抽样2. 在简单随机抽样中,每个个体被抽中的概率是:A. 不相等B. 相等C. 逐渐增大D. 逐渐减小A. 总体标准差B. 抽样误差C. 置信水平A. 确定总体B. 划分层次C. 确定各层样本量5. 系统抽样中,抽样间隔的计算公式是:A. N/nB. N/(n+1)C. n/ND. (N1)/n二、填空题1. 抽样技术分为两大类:______抽样和______抽样。
2. 在______抽样中,每个个体被抽中的概率是相等的。
3. 抽样误差的大小与样本量成______比,与总体标准差成______比。
4. 在分层抽样中,各层的样本量应与各层的______成比例。
5. 系统抽样的第一步是确定______。
三、简答题1. 简述简单随机抽样的步骤。
2. 何为抽样误差?它受哪些因素影响?3. 简述分层抽样的优点。
4. 系统抽样与简单随机抽样有何区别?5. 如何确定样本量?四、计算题1. 某企业有员工1000人,采用简单随机抽样方法抽取50人进行调查。
计算每个员工被抽中的概率。
2. 某地区居民收入总体标准差为500元,要求抽样误差不超过50元,置信水平为95%。
计算所需样本量。
3. 某学校有学生2000人,分为四个年级,每个年级人数分别为400、450、500和650人。
现采用分层抽样方法抽取200人进行调查,求每个年级应抽取的样本量。
4. 某生产线共有1000个产品,采用系统抽样方法抽取100个产品进行质量检验。
计算抽样间隔。
5. 某企业对员工满意度进行调查,总体标准差为10%,要求抽样误差不超过2%,置信水平为90%。
计算所需样本量。
五、判断题1. 在抽样调查中,总体的大小对于抽样误差没有影响。
()2. 非概率抽样不能提供总体参数的估计。
()3. 在系统抽样中,第一个样本单元可以随机选择。
第2章2.1 解:()1 这种抽样方法是等概率的。
在每次抽取样本单元时,尚未被抽中的编号为1~64的这些单元中每一个单元被抽到的概率都是1100。
()2这种抽样方法不是等概率的。
利用这种方法,在每次抽取样本单元时,尚未被抽中的编号为1~35以及编号为64的这36个单元中每个单元的入样概率都是2100,而尚未被抽中的编号为36~63的每个单元的入样概率都是1100。
()3这种抽样方法是等概率的。
在每次抽取样本单元时,尚未被抽中的编号为20 000~21 000中的每个单元的入样概率都是11000,所以这种抽样是等概率的。
2.3 解:首先估计该市居民日用电量的95%的置信区间。
根据中心极限定理可知,在大_y E y y -=近似服从标准正态分布, _Y 的195%α-=的置信区间为y z y z y y αα⎡⎡-+=-+⎣⎣。
而()21f V y S n-=中总体的方差2S 是未知的,用样本方差2s 来代替,置信区间为,y y ⎡⎤-+⎢⎥⎣⎦。
由题意知道,_29.5,206y s ==,而且样本量为300,50000n N ==,代入可以求得 _21130050000()2060.6825300f v y s n --==⨯=。
将它们代入上面的式子可得该市居民日用电量的95%置信区间为7.8808,11.1192⎡⎤⎣⎦。
下一步计算样本量。
绝对误差限d 和相对误差限r 的关系为_d rY =。
根据置信区间的求解方法可知____11P y Y r Y P αα⎫⎪⎧⎫-≤≥-⇒≤≥-⎨⎬⎩⎭根据正态分布的分位数可以知道1P Z αα⎫⎪⎪≤≥-⎬⎪⎪⎭,所以()2_2r Y V y z α⎛⎫⎪= ⎪⎝⎭。
也就是2_2_222/221111r Y r Y S n N z S n N z αα⎡⎤⎛⎫⎢⎥⎛⎫⎪⎛⎫⎝⎭⎪⎢⎥-=⇒=+ ⎪ ⎪⎢⎥⎝⎭⎝⎭⎢⎥⎣⎦。
把_29.5,206,10%,50000y s r N ====代入上式可得,861.75862n =≈。
高中数学统计抽样方法精选题目(附答案)一、抽样方法1.简单随机抽样(1)特征:①一个一个不放回的抽取;②每个个体被抽到可能性相等.(2)常用方法:①抽签法;②随机数表法.2.系统抽样(1)适用环境:当总体中个数较多时,可用系统抽样.(2)操作步骤:将总体平均分成几个部分,再按照一定方法从每个部分抽取一个个体作为样本.3.分层抽样(1)适用范围:当总体由差异明显的几个部分组成时可用分层抽样.(2)操作步骤:将总体中的个体按不同特点分成层次比较分明的几部分,然后按各部分在总体中所占的比实施抽样.1.(1)采用系统抽样方法从960人中抽取32人做问卷调查.为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为()A.7B.9C.10 D.15(2)某地区有小学150所,中学75所,大学25所.现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取________所学校,中学中抽取________所学校.[解析](1)从960人中用系统抽样方法抽取32人,则每30人抽取一人,因为第一组抽到的号码为9,则第二组抽到的号码为39,第n组抽到的号码为a n=9+30(n-1)=30n-21,由451≤30n-21≤750,得23615≤n≤25710,所以n=16,17,…,25,共有25-16+1=10人.(2)小学中抽取30×150150+75+25=18所学校;从中学中抽取30×75150+75+25=9所学校.[答案](1)C(2)189注:1.系统抽样的特点(1)适用于元素个数很多且均衡的总体. (2)各个个体被抽到的机会均等.(3)总体分组后,在起始部分抽样时采用的是简单随机抽样. (4)如果总体容量N 能被样本容量n 整除,则抽样间隔为k =Nn . 2.与分层抽样有关问题的常见类型及解题策略(1)确定抽样比.可依据各层总数与样本数之比,确定抽样比.(2)求某一层的样本数或总体个数.可依据题意求出抽样比,再由某层总体个数(或样本数)确定该层的样本(或总体)数.(3)求各层的样本数.可依据题意,求出各层的抽样比,再求出各层样本数. 2.某学校为了了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是( )A .抽签法B .系统抽样法C .分层抽样法D .随机数法解析:选C 根据年级不同产生差异及按人数比例抽取易知应为分层抽样法. 3.某学校高一、高二、高三3个年级共有430名学生,其中高一年级学生160名,高二年级学生180名,为了解学生身体状况,现采用分层抽样方法进行调查,在抽取的样本中高二学生有32人,则该样本中高三学生人数为________.解析:高三年级学生人数为430-160-180=90,设高三年级抽取x 人,由分层抽样可得32180=x90,解得x =16. 答案:164.某单位有职工960人,其中青年职工420人,中年职工300人,老年职工240人,为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本,若样本中的青年职工为14人,则样本容量为________.解析:因为分层抽样的抽样比应相等,所以420960=14样本容量,样本容量=960×14420=32.答案:32二、用样本的频率分布估计总体的频率分布1.频率分布直方图2.茎叶图5.(1)如图是根据部分城市某年6月份的平均气温(单位:℃)数据得到的样本频率分布直方图,其中平均气温的范围是[20.5,26.5].样本数据的分组为[20.5,21.5),[21.5,22.5),[22.5,23.5),[23.5,24.5),[24.5,25.5),[25.5,26.5].已知样本中平均气温低于22.5 ℃的城市个数为11,则样本中平均气温不低于25.5 ℃的城市个数为________.(2)某校100名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),[90,100].①求图中a的值;②根据频率分布直方图,估计这100名学生语文成绩的平均分;③若这100名学生语文成绩某些分数段的人数(x)与数学成绩相应分数段的人数(y)之比如下表所示,求数学成绩在[50,90)之外的人数.分数段[50,60)[60,70)[70,80)[80,90)x∶y 1∶12∶13∶44∶5 [为50×0.18=9.答案:9(2)解:①由频率分布直方图可知(0.04+0.03+0.02+2a)×10=1.所以a=0.005.②该100名学生的语文成绩的平均分约为x=0.05×55+0.4×65+0.3×75+0.2×85+0.05×95=73.③由频率分布直方图及已知的语文成绩、数学成绩分布在各分数段的人数比,可得下表:分数段[50,60)[60,70)[70,80)[80,90)x 5403020x∶y 1∶12∶13∶44∶5y 5204025100-(5+20+40+25)=10.注:与频率分布直方图有关问题的常见类型及解题策略(1)已知频率分布直方图中的部分数据,求其他数据,可根据频率分布直方图中的数据求出样本与整体的关系,利用频率和等于1就可求出其他数据.(2)已知频率分布直方图,求某种范围内的数据,可利用图形及某范围结合求解.6.如图是某公司10个销售店某月销售某产品数量(单位:台)的茎叶图,则数据落在区间[22,30)内的频率为()A.0.2 B.0.4C.0.5 D.0.6解析:选B由茎叶图可知数据落在区间[22,30)内的频数为4,所以数据落在区间[22,30)内的频率为410=0.4,故选B.7.为了了解某学校学生的身体发育情况,抽查了该校100名高中男生的体重情况,根据所得数据画出样本的频率分布直方图如图所示.根据此图,估计该校2 000名高中男生中体重大于70.5公斤的人数为()A .300B .360C .420D .450解析:选B 样本中体重大于70.5公斤的频率为: (0.04+0.034+0.016)×2=0.090×2=0.18.故可估计该校2 000名高中男生中体重大于70.5公斤的人数为:2 000×0.18=360(人). 8.某商场在庆元宵节促销活动中,对元宵节9时至14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时至12时的销售额为________万元.解析:总销售额为2.50.1=25(万元),故11时至12时的销售额为0.4×25=10(万元).答案:10三、用样本的数字特征估计总体的数字特征有关数据的数字特征9.(1)对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是( )A .46,45,56B .46,45,53C .47,45,56D .45,47,53(2)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )A .甲的成绩的平均数小于乙的成绩的平均数B .甲的成绩的中位数等于乙的成绩的中位数C .甲的成绩的方差小于乙的成绩的方差D .甲的成绩的极差小于乙的成绩的极差(3)由正整数组成的一组数据x 1,x 2,x 3,x 4,其平均数和中位数都是2,且标准差等于1,则这组数据为________.(从小到大排列)[解析] (1)从茎叶图中可以看出样本数据的中位数为中间两个数的平均数,即45+472=46,众数为45,极差为68-12=56,故选择A.(2)由题意可知,甲的成绩为4,5,6,7,8,乙的成绩为5,5,5,6,9.所以甲、乙的成绩的平均数均为6,A 错;甲、乙的成绩的中位数分别为6,5,B 错;甲、乙的成绩的方差分别为15×[(4-6)2+(5-6)2+(6-6)2+(7-6)2+(8-6)2]=2,15×[(5-6)2+(5-6)2+(5-6)2+(6-6)2+(9-6)2]=125,C 对;甲、乙的成绩的极差均为4,D 错.故选C.(3)假设这组数据按从小到大的顺序排列为x 1,x 2,x 3,x 4,则⎩⎨⎧x 1+x 2+x 3+x44=2,x 2+x32=2,∴⎩⎪⎨⎪⎧x 1+x 4=4,x 2+x 3=4, 又s = 14[(x 1-2)2+(x 2-2)2+(x 3-2)2+(x 4-2)2] =12(x 1-2)2+(x 2-2)2+(x 3-2)2+(x 4-2)2=122[(x 1-2)2+(x 2-2)2]=1, ∴(x 1-2)2+(x 2-2)2=2. 同理可求得(x 3-2)2+(x 4-2)2=2.由x 1,x 2,x 3,x 4均为正整数,且(x 1,x 2),(x 3,x 4)均为圆(x -2)2+(y -2)2=2上的点,分析知x 1,x 2,x 3,x 4应为1,1,3,3.[答案] (1)A (2)C (3)1,1,3,3 注:平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小.10.为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温; ②甲地该月14时的平均气温高于乙地该月14时的平均气温; ③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差; ④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差. 其中根据茎叶图能得到的统计结论的编号为( ) A .①③ B .①④ C .②③D .②④解析:选B 法一:∵x 甲=26+28+29+31+315=29,x 乙=28+29+30+31+325=30,∴x 甲<x 乙,又s 2甲=9+1+0+4+45=185,s 2乙=4+1+0+1+45=2,∴s 甲>s 乙.故可判断结论①④正确.法二:甲地该月14时的气温数据分布在26和31之间,且数据波动较大,而乙地该月14时的气温数据分布在28和32之间,且数据波动较小,可以判断结论①④正确,故选B.11.甲和乙两个城市去年上半年每月的平均气温(单位:℃)用茎叶图记录如图所示,根据茎叶图可知,两城市中平均温度较高的城市是__________,气温波动较大的城市是__________.解析:根据题中所给的茎叶图可知,甲城市上半年的平均温度为9+13+17×2+18+226=16,乙城市上半年的平均温度为12+14+17+20+24+276=19,故两城市中平均温度较高的是乙城市,观察茎叶图可知,甲城市的温度更加集中在峰值附近,故乙城市的温度波动较大.答案:乙 乙12.甲、乙两台机床同时加工直径为100 mm 的零件,为了检验产品的质量,从产品中各随机抽取6件进行测量,测得数据如下(单位:mm):甲:99,100,98,100,100,103; 乙:99,100,102,99,100,100.(1)分别计算上述两组数据的平均数和方差;(2)根据(1)的计算结果,说明哪一台机床加工的这种零件更符合要求. 解:(1)x 甲=99+100+98+100+100+1036=100(mm),x 乙=99+100+102+99+100+1006=100(mm),s 2甲=16[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=73(mm 2), s 2乙=16[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1(mm 2).(2)因为s 2甲>s 2乙,说明甲机床加工零件波动比较大,因此乙机床加工零件更符合要求.四、线性回归1.两个变量的线性相关(1)散点图:将样本中n 个数据点(x i ,y i )(i =1,2,…,n )描在平面直角坐标系中得到的图形.(2)正相关与负相关:①正相关:散点图中的点散布在从左下角到右上角的区域. ②负相关:散点图中的点散布在从左上角到右下角的区域. 2.回归直线的方程(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)线性回归方程:方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的线性回归方程,其中a ,b 是待定参数.⎩⎪⎨⎪⎧b ^=∑i =1n(x i-x )(y i-y )∑i =1n(x i-x )2=∑i =1nx i y i-n x y ∑i =1nx 2i-n x 2,a ^=y -b x .13.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)[解] (1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80.所以a ^=y -b ^x =80+20×8.5=250,从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得 L =x (-20x +250)-4(-20x +250) =-20x 2+330x -1 000 =-20(x -8.25)2+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润. 注:(1)线性回归分析就是研究两组变量间线性相关关系的一种方法,通过对统计数据的分析,可以预测可能的结果,这就是线性回归方程的基本应用,因此利用最小二乘法求线性回归方程是关键,必须熟练掌握线性回归方程中两个重要估计量的计算.(2)回归直线方程恒过点(x ,y ).14.某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10日的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:回归方程,再用被选取的2组数据进行检验.(1)求选取的2组数据恰好是相邻两个月的概率;(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?解:(1)将6组数据按月份顺序编号为1,2,3,4,5,6,从中任取两组数据,基本事件构成的集合为Ω={(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6)}共15个基本事件,设抽到相邻两个月的事件为A ,则A ={(1,2),(2,3),(3,4),(4,5),(5,6)}共5个基本事件,∴P (A )=515=13.(2)由表中数据求得x =11,y =24,∑i =14x i y i =1 092,∑i =14x 2i =498.代入公式可得b ^=187.再由a ^=y -b ^x ,求得a ^=-307,所以y 关于x 的线性回归方程为 y ^=187x -307.(3)当x =10时,y ^=1507,⎪⎪⎪⎪1507-22=47<2; 同样,当x =6时,y ^=787,⎪⎪⎪⎪787-12=67<2. 所以该小组所得线性回归方程是理想的.。
食品抽样考试题库及答案一、单项选择题1. 食品抽样的目的是什么?A. 检查食品的外观质量B. 确定食品的营养成分C. 评估食品的安全性和质量D. 计算食品的生产成本答案:C2. 食品抽样中,以下哪项不是抽样的基本要求?A. 代表性B. 随机性C. 系统性D. 可追溯性答案:C3. 在食品抽样过程中,以下哪项是正确的抽样方法?A. 只从食品的表面取样B. 只从食品的中心取样C. 从食品的不同部位随机取样D. 只从食品的一个批次中取样答案:C4. 食品抽样时,以下哪项不是需要考虑的因素?A. 抽样数量B. 抽样时间C. 抽样地点D. 抽样人员的性别答案:D5. 食品抽样的基本原则不包括以下哪项?A. 随机抽样B. 分层抽样C. 系统抽样D. 有偏抽样答案:D二、多项选择题6. 食品抽样时,以下哪些因素可能影响抽样结果的准确性?A. 抽样工具的清洁度B. 抽样人员的技术水平C. 抽样环境的温度和湿度D. 抽样后的样品保存条件答案:A、B、C、D7. 食品抽样中,以下哪些是常用的抽样方法?A. 简单随机抽样B. 分层抽样C. 系统抽样D. 整群抽样答案:A、B、C、D8. 食品抽样时,以下哪些措施可以保证抽样的代表性?A. 增加抽样数量B. 随机选择抽样点C. 确保抽样点的均匀分布D. 使用统一的抽样工具和方法答案:A、B、C、D9. 食品抽样中,以下哪些因素需要在抽样记录中详细记录?A. 抽样日期和时间B. 抽样地点和环境条件C. 抽样人员的信息D. 抽样方法和抽样数量答案:A、B、C、D10. 食品抽样后,以下哪些措施是必要的?A. 及时记录抽样信息B. 妥善保存样品C. 尽快进行样品分析D. 定期对抽样工具进行消毒答案:A、B、C、D三、判断题11. 食品抽样时,可以只从食品的表面取样,因为这样可以节省时间和成本。
(错误)12. 食品抽样的随机性是指在抽样过程中,每个样本被选中的概率是相等的。
(正确)13. 食品抽样的代表性是指抽样结果能够反映整个批次食品的总体特性。
数学抽样试题1.设袋子中装有个红球,个黄球,个蓝球,且规定:取出一个红球得1分,取出一个黄球2分,取出蓝球得3分。
(1)当时,从该袋子中任取(有放回,且每球取到的机会均等)2个球,记随机变量为取出此2球所得分数之和,.求分布列;(2)从该袋子中任取(且每球取到的机会均等)1个球,记随机变量为取出此球所得分数.若,求【解析】此题关键是读懂题目的意思,即搞清楚游戏的规则,取球是有放回的且取出球的颜色不同得分也不相同,此题第(1)问如果不注意容易错误的理解为一次取出2个球;由题目的意思分析得到的取值可能分别是2,3,4,5,6,即当两次摸到的球分别是红红时得2分,当两次摸到的球分别是红黄或黄红时得3分,当两次摸到的球分别是黄黄或红蓝或蓝红时得4分,当两次摸到的球分别是黄蓝或蓝黄时得5分,当两次摸到的球分别是蓝蓝时得6分;第(2)文关键是搞清楚随机变量的取值有哪些,然后求出对应的概率,利用随机变量的期望和方差的计算公式列出关于的方程即可求出他们关系;(1)由已知得到:当两次摸到的球分别是红红时,此时;当两次摸到的球分别是黄黄,红蓝,蓝红时,此时;当两次摸到的球分别是红黄,黄红时,此时;当两次摸到的球分别是黄蓝,蓝黄时,此时;当两次摸到的球分别是蓝蓝时,此时;所以的分布列是:23456P)由已知得到:有三种取值即1,2,3,所以的分布列是:所以:,所以【考点】此题考查概率与统计,考查离散型随机变量的分布列及期望和方差的计算;;若服从正态分布,即;2.某单位从一所学校招收某类特殊人才.对位已经选拔入围的学生进行运动协调能力和逻辑思维能力的测试,其测试结果如下表:例如表中运动协调能力良好且逻辑思维能力一般的学生是人.由于部分数据丢失,只知道从这位参加测试的学生中随机抽取一位,抽到逻辑思维能力优秀的学生的概率为.(1)求,的值;(2)从运动协调能力为优秀的学生中任意抽取位,求其中至少有一位逻辑思维能力优秀的学生的概率.【答案】(1),;(2).【解析】(I)由题意可知,逻辑思维能力优秀的学生共有人.设事件:从位学生中随机抽取一位,逻辑思维能力优秀的学生,则.解得.所以. 5分(2)由题意可知,运动协调能力为优秀的学生共有位,分别记为.其中和为运动协调能力和逻辑思维能力都优秀的学生.从中任意抽取位,可表示为,,,,共种可能.设事件:从运动协调能力为优秀的学生中任意抽取位,其中至少有一位逻辑思维能力优秀的学生.事件包括,,,,共种可能.所以.所以至少有一位逻辑思维能力优秀的学生的概率为. 13分3.2014年2月21日,《中共中央关于全面深化改革若干重大问题的决定》明确:坚持计划生育的基本国策,启动实施一方是独生子女的夫妇可生育两个孩子的政策.为了解某地区城镇居民和农村居民对“单独两孩”的看法,某媒体在该地区选择了3600人调查,就是否赞成“单独两孩”的问题,调查统计的结果如下表:已知在全体样本中随机抽取1人,抽到持“反对”态度的人的概率为0.05.(1)现在分层抽样的方法在所有参与调查的人中抽取360人进行问卷访谈,问应在持“无所谓”态度的人中抽取多少人?(2)在持“反对”态度的人中,用分层抽样的方法抽取6人,按每组3人分成两组进行深入交流,求第一组中农村居民人数的分布列和数学期望.【答案】(1) 72;(2)参考解析【解析】(1) 由于在全体样本中随机抽取1人,抽到持“反对”态度的人的概率为0.05.所以可得到持反对的人数为180人.再根据赞成的人数即可得到持“无所谓”态度的人数.按分层抽样即可得,持“无所谓”态度的人占的百分比,即可得应该抽取的人数.(2)由(1)得到城镇居民中持反对的人数,由分层抽样可得,农村和城镇各抽取持反对的人数.作出分布列,即可求出数学期望.试题解析:(1)∵抽到持“反对”态度的人的概率为0.05,∴=0.05,解得x=60.∴持“无所谓”态度的人数共有3600-2100-120-600-60=720.∴应在“无所谓”态度抽取720×=72人.(2)由(I)知持“反对”态度的一共有180人,∴在所抽取的6人中,农村居民为=4人,城镇居民为=2人,于是第一组农村居民人数ξ=1,2,3,P(ξ=1)=,P(ξ=2)=,P(ξ=3)=,即ξ的分布列为:ξ123∴ Eξ=1×+2×+3×=2.4.城市公交车的数量若太多则容易造成资源的浪费;若太少又难以满足乘客需求.某市公交公司在某站台的60名候车乘客中随机抽取15人,将他们的候车时间作为样本分成5组,如下表所示(单位:分钟):组别候车时间人数(1)估计这60名乘客中候车时间少于10分钟的人数;(2)若从上表第三、四组的6人中任选2人作进一步的调查,求抽到的两人恰好来自不同组的概率.【答案】(1)32;(2).【解析】(1)候车时间少于10分钟的概率为, 4分所以候车时间少于10分钟的人数为人; 6分(2)将第三组乘客编号为,第四组乘客编号为.从6人中任选两人有包含以下基本事件:,,,,共15个基本事件, 10分其中两人恰好来自不同组包含8个基本事件,所以所求概率为. 12分5.已知某山区小学有100名四年级学生,将全体四年级学生随机按00~99编号,并且按编号顺序平均分成10组.现要从中抽取10名学生,各组内抽取的编号按依次增加10进行系统抽样.(1)若抽出的一个号码为22,则此号码所在的组数是多少?据此写出所有被抽出学生的号码;(2)分别统计这10名学生的数学成绩,获得成绩数据的茎叶图如图4所示,求该样本的方差;(3)在(2)的条件下,从这10名学生中随机抽取两名成绩不低于73分的学生,求被抽取到的两名学生的成绩之和不小于154分的概率.【答案】(1)第3组02,12,22,32,42,52,62,72,82,92.(2) (3)【解析】(1)由题意,得抽出号码为22的组数为3. (2分)因为2+10×(3-1)=22,所以第1组抽出的号码应该为02,抽出的10名学生的号码依次分别为:02,12,22,32,42,52,62,72,82,92. (4分)(2)这10名学生的平均成绩为:×(81+70+73+76+78+79+62+65+67+59)=71,(6分)故样本方差为:(102+12+22+52+72+82+92+62+42+122)=52.(8分)(3)从这10名学生中随机抽取两名成绩不低于73分的学生,共有如下10种不同的取法:(73,76),(73,78),(73,79),(73,81),(76,78),(76,79),(76,81),(78,79),(78,81),(79,81). (10分)其中成绩之和不小于154分的有如下7种:(73,81),(76,78),(76,79),(76,81),(78,79),(78,81),(79,81). (12分)故被抽取到的两名学生的成绩之和不小于154分的概率为:(13分)6.随机抽取某中学高一级学生的一次数学统测成绩得到一样本,其分组区间和频数是:,2;,7;,10;,x;[90,100],2.其频率分布直方图受到破坏,可见部分如下图所示,据此解答如下问题.(1)求样本的人数及x的值;(2)估计样本的众数,并计算频率分布直方图中的矩形的高;(3)从成绩不低于80分的样本中随机选取2人,该2人中成绩在90分以上(含90分)的人数记为,求的数学期望.【答案】(1),样本人数为25 (2)75 0.016 (3)【解析】(1)由题意得,分数在之间的频数为2,频率为,(1分)所以样本人数为(人)(2分)的值为(人). (4分)(2)从分组区间和频数可知,样本众数的估计值为. (6分)由(1)知分数在之间的频数为4,频率为(7分)所以频率分布直方图中的矩形的高为(8分)(3)成绩不低于80分的样本人数为4+2=6(人),成绩在90分以上(含90分)的人数为人,所以的取值为0,1,2. (9分),,,(10分)所以的分布列为:012(11分)所以的数学期望为(13分)7.随机抽取某中学甲、乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据的茎叶图如图所示.(1)根据茎叶图判断哪个班的平均身高较高;(2)计算甲班的样本方差;(3)现从乙班这10名同学中随机抽取两名身高不低于173cm的同学,求身高176cm的同学被抽中的概率.【答案】(1)乙班(2)57.2 (3)【解析】(1)由茎叶图可知:甲班身高集中于160~179之间,而乙班身高集中于170~180之间,因此乙班平均身高高于甲班.(3)设身高为176cm的同学被抽中的事件为A,从乙班10名同学中抽中两名身高不低于173cm的同学有:(181,173),(181,176),(181,178),(181,179),(179,173),(179,176),(179,178),(178,173),(178,176),(176,173)共10个基本事件,而事件A含有4个基本事件:(181,176),(179,176),(178,176),(176,173),∴P(A)==.点评:(1)本题考查了茎叶图的识图问题和平均数的计算,其中从茎叶图中读出数据是关键,为此,首先要弄清“茎”和“叶”分别代表什么.(2)要熟练掌握众数、中位数、平均数、方差、标准差的计算方法.8.为了考察某校各班参加课外书法小组的人数,在全校随机抽取5个班级,把每个班级参加该小组的认为作为样本数据.已知样本平均数为7,样本方差为4,且样本数据互相不相同,则样本数据中的最大值为.【答案】10【解析】由题意可得:,两式整理可得:,不妨设,由此可推算出点评:本题考查样本均值和方差的概念以及不等式知识和推理运算能力。
(一)填空题1.抽样推断是按照,从总体中抽取样本,然后以样本的观察结果来估计总体的数量特征。
2.抽样调查可以是抽样,也可以是抽样,但作为抽样推断基础的必须是抽样。
3.抽样调查的目的在于认识总体的。
4.抽样推断运用的方法对总体的数量特征进行估计。
5.在抽样推断中,不论是总体参数还是样本统计量,常用的指标有、和方差。
6.样本成数的方差是。
7.根据取样方式不同,抽样方法有和两种。
8.重复抽样有个可能的样本,而不重复抽样则有个可能的样本。
N 为总体单位总数,n为样本容量。
9.抽样误差是由于抽样的而产生的误差,这种误差不可避免,但可以。
10.在其他条件不变的情况下,抽样误差与成正比,与成反比。
11.样本平均数的平均数等于。
12.在重复抽样下,抽样平均误差等于总体标准差的。
13.抽样极限误差与抽样平均误差之比称为。
14.总体参数估计的方法有和两种。
15.优良估计的三个标准是、和。
16.样本平均误差实质是样本平均数的。
(二) 单项选择题1、抽样推断是建立在()基础上的。
A、有意抽样B、随意抽样C、随机抽样D、任意抽样2、抽样推断的目的是()A、以样本指标推断总体指标B、取得样本指标C、以总体指标估计样本指标D、以样本的某一指标推断另一指标3、抽样推断运用()的方法对总体的数量特征进行估计。
A、数学分析法B、比例推断算法C、概率估计法D、回归估计法4、在抽样推断中,可以计算和控制的误差是()A、抽样实际误差B、抽样标准误差C、非随机误差D、系统性误差5、从总体的N个单位中抽取n个单位构成样本,共有()可能的样本。
A、1个B、N个C、n个D、很多个(但要视抽样方法而定)6、总体参数是()A、唯一且已知B、唯一但未知C、非唯一但可知D、非唯一且不可知7、样本统计量是()A、唯一且已知B、不唯一但可抽样计算而可知C、不唯一也不可知D、唯一但不可知8、样本容量也称()A、样本个数B、样本单位数C、样本可能数目D、样本指标数9、从总体的N个单位中随机抽取n个单位,用重复抽样方法共可抽取()个样本。
高二数学抽样试题1.某市有大型超市家、中型超市家、小型超市家.为掌握各类超市的营业情况,现按分层抽样方法抽取一个容量为的样本,应抽取中型超市__________家.【答案】16【解析】根据分层抽样的知识,设应抽取中型超市t家,得,解得t=16.【考点】分层抽样.2.某班同学利用五一节进行社会实践,对[25,55]岁的人群随机抽取n人进行了一次生活习惯是否符合低碳观念的调查,若生活习惯符合低碳观念,则称为“低碳族”,否则称为“非低碳族”,得到如下统计表和各年龄段人数频率分布直方图:(1)请补全频率分布直方图,并求n、a、p的值;(2)在所得样本中,从[40,50)岁年龄段的“低碳族”中采用分层抽样法抽取18人参加户外低碳体验活动,其中选取3人作为领队,记选取的3名领队中年龄在[40,45)岁的人数为X,求X的分布列和数学期望EX.【答案】(1),a=60,;(2)随机变量X的分布列为X0123∴数学期望.【解析】(1)由已知条件求出第二组的频率,从而补全频率分布直方图,由此能求出n、a、p的值.(2)[35,40)岁年龄段的“环保族”人数与[40,45)年龄段的“环保族”人数的比值为100:60=5:3,由题意,随机变量X的所有可能的取值为0,1,2,3,分别求出P(X=0),P(X=1),P(X=2),P(X=3),由此能求出随机变量X的分布列和数学期望EX.试题解析:(Ⅰ)第二组的频率为1﹣(0.04+0.04+0.03+0.02+0.01)×5=0.3,所以高为.频率直方图如下:3第一组的人数为,频率为0.04×5=0.2,所以.由题可知,第二组的频率为0.3,所以第二组的人数为1000×0.3=300,所以.第四组的频率为0.03×5=0.15,所以第四组的人数为1000×0.15=150,所以a=150×0.4=60.(Ⅱ)因为[40,45)岁年龄段的“低碳族”与[45,50)岁年龄段的“低碳族”的比值为60:30=2:1,所以采用分层抽样法抽取18人,[40,45)岁中有12人,[45,50)岁中有6人.随机变量X服从超几何分布.,,,.所以随机变量X的分布列为∴数学期望.【考点】离散型随机变量的期望与方差;分层抽样方法.3.我校15届高二有名学生, 现采用系统抽样方法, 抽取人做问卷调查, 将人按随机编号, 则抽取的人中, 编号落入区间的人数为().A.11B.12C.13D.14【答案】C【解析】由题意得,从840名学生中按系统抽样方法抽取42名,则应把840名学生分成42段,每段20人,从每段20人中抽取1人;编号落入区间的人数是.【考点】系统抽样.4.某高校共有15000人,其中男生10500人,女生4500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时)(1)应收集多少位女生样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据分组区间为:.估计该校学生每周平均体育运动时间超过4个小时的概率.(3)在样本数据中,有60位女生的每周平均体育运动时间超过4个小时.请完成每周平均体育运动时间与性别的列联表,并判断是否有的把握认为“该校学生的每周平均体育运动时间与性别有关”.P(K2≥k)0.100.050.0100.005附:K2=【答案】(1)90(2)0.75(3)有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.【解析】(1)由题知,抽样比例为50:1,根据分层抽样是按比例抽样和女生人数即可计算出女生应抽取的人数;(2)观察频率分布直方图,找出每周平均体育运动不超过4小时的所有小矩形高即为频率/组距,这些小矩形的面积和即为每周平均体育运动不超过4小时的频率,1减去这个频率就是每周运动时间超过4小时的概率;(3)根据频率分布直方图计算出这300位男生和女生中每周运动时超过4小时和不超过4小时的人数,列出2×2列联表,代入K2公式,计算出样本观测值,将该值与表中概率为95%值比较即可得出是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.试题解析:(1)300×=90,所以应收集90位女生的样本数据. 3分(2)由频率分布直方图得每周平均体育运动超过4小时的频率为1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75. 7分(3)由(2)知,300位学生中有300×0.75=225(位)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:男生女生总计结合列联表可算得K2==≈4.762>3.841.所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”. 12分【考点】分层抽样方法,总体估计,独立性检验5.2013年第三季度,国家电网决定对城镇居民民用电计费标准做出调整,并根据用电情况将居民分为三类: 第一类的用电区间在,第二类在,第三类在(单位:千瓦时).某小区共有1000户居民,现对他们的用电情况进行调查,得到频率分布直方图如图所示.(1)求该小区居民用电量的中位数与平均数;(2)利用分层抽样的方法从该小区内选出5户居民代表,若从该5户居民代表中任选两户居民,求这两户居民用电资费属于不同类型的概率.【答案】(1)平均数为156.8,中位数为155;(2).【解析】(1)先利用所给的频率分布直方图求出每一组的频率,再利用频率求出平均数,找出中位数;(2)按照所给题目的意思可知第一类 4户,第二类1户,那么两户居民用电资费属于不同类型的概率为.试题解析:解:(1)第一组频率为20×0.005=0.1第二组频率为20×0.015=0.3第三组频率为20×0.02=0.4第四组频率为20×0.005=0.1第五组频率为20×0.003=0.06第六组频率为20×0.002=0.04 -2分平均数为0.1×120+0.3×140+0.4×160+0.1×180+0.06×200+0.04×220=156.8 -4分中位数为150+20×0.25=155 -6分(2)第一类 4户第二类1户 -8分两户居民用电资费属于不同类型的概率为 -----12分考点:频率分布直方图,中位数,分层抽样.6.采用系统抽样方法从960人中抽取32人做问卷调查.为此将他们随机编号为1,2, (960)分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间的人做问卷,编号落入区间的人做问卷,其余的人做问卷,则抽到的人中,做问卷的人数为()A.7B.9C.10D.15【答案】C【解析】由系统抽样方法可知从从960人中抽取32人,则每组人数为960/32 =30,就是每30人中抽取一人做问卷,那么共用有人,中共有人,故选C.【考点】系统抽样.7.某学校共有师生2400人,现用分层抽样方法,从所有师生中抽取一个容量为160的样本,已知从学生中抽取的人数为150,那么该学校的教师人数是。
抽样推断同步练习试卷1(题后含答案及解析) 题型有:1. 单项选择题 2. 多项选择题 3. 名词解释题单项选择题每小题1分,在每小题列出的四个备选项中只有一个是符合题目要求的,请将其代码填写在题后的括号内。
多选无分。
1.样本按照样本单位数的多少分为大样本和小样本。
一般地说,大样本是指样本单位数达到或超过()A.20个B.30个C.50个D.100个正确答案:B 涉及知识点:抽样推断2.某地区报告期人口出生率为11‰。
,育龄妇女平均人数为85万人,年平均总人口数为510万人,则育龄妇女生育率为()A.1.83‰B.66‰C.5.61‰D.166.7‰正确答案:B 涉及知识点:抽样推断3.在统计调查时,由于主客观原因,在登记、汇总、计算、记录中所产生的误差是()A.代表性误差B.登记性误差C.系统性误差D.随机误差正确答案:B 涉及知识点:抽样推断4.随机误差是()A.由于主观原因所产生的误差B.由于没有遵循随机原则而产生的误差C.抽样调查固有的误差D.计算过程中所产生的误差正确答案:C 涉及知识点:抽样推断5.抽样平均误差是指所有可能出现的样本指标(样本平均数和样本成数)的()A.平均差B.标准差C.全距D.离散系数正确答案:B 涉及知识点:抽样推断6.反映样本指标与总体指标之间可能的误差范围的指标是()A.概率度B.抽样误差系数C.抽样平均误差D.抽样极限误差正确答案:D 涉及知识点:抽样推断7.对总体总量指标的推算常用的方法是()A.间接换算法B.容量抽查法C.直接换算法D.变量分析法正确答案:C 涉及知识点:抽样推断8.总体总量指标的点估计值是()A.平均数乘以样本成数B.样本容量乘以样本成数C.样本指标值乘以总体单位数D.样本指标的区间估计值乘以总体单位数正确答案:C 涉及知识点:抽样推断9.理论上最符合抽样调查随机原则的形式是()A.整群抽样B.类型抽样C.阶段抽样D.简单随机抽样正确答案:D 涉及知识点:抽样推断10.()是其他抽样方式的基础,也是衡量其他抽样方式抽样效果的标准。
一、 简单随机抽样1、在简单随机抽样中,试证明比估计R y 是总体均值Y 的渐近无偏估计,并求其方差。
证明:X R Y = X xyX R Y y R ===∧∧()⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫⎝⎛-+⎪⎪⎭⎫⎝⎛-+⎪⎪⎭⎫ ⎝⎛--=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛-+=⎪⎪⎭⎫ ⎝⎛=2211X X x o X X x X Xx X y E X X X x X yE X X x y E y E R由于0−→−-PX x 即0→-X Xx 所以()()Y y E X y E X y E R ==⎪⎪⎭⎫ ⎝⎛= 得证。
由于0−→−-PX x 即0→-XXx 所以()()()22221Z RS n f x R y Var x R y E X x R y E X y Var -=-=-=⎪⎪⎭⎫ ⎝⎛-= 其中:RX Y Z -=故()()()()[]()222212111XXY Y N i i i RS R RS SnfX R Y RX Y N n f y Var +--=-----=∑= 2、对于简单随机抽样,总体均值Y 的回归估计量定义为:()lr y y X x β=+-,如β为常数(记为0β),证明证明:3、在简单随机抽样中,已知变量总体均值Y 的回归估计量定义为)(x X y y lr -+=β,若β为常数(记为0β),且有Y y E lr =)(, 求证:(1))2(1)(02202xy x y lr S S S nf y V ββ-+-=(2)使)(lr y V 最小的0β为xy xxy S S SS ρβ==20;其中yx xy S S S =ρ.证明:(1)[]∑=--+--=N i ii lr Y X X Y N n f y V 120)(111)(β (2)求)(lr y V 对0β的偏导数:将0β的值代入)(lr y V ,验证其最小值存在,此时4、研究某小区家庭用于文化方面(报刊、电视、网络、书籍等)的支出,N=200,现抽取一个容量为20的样本,调查结果列于下表:编号 文化支出 编号 文化支出 1 200 11 150 2 150 12 160 3 170 13 180 4 150 14 130 5 160 15 100 6 130 16 180 7 140 17 100 8 100 18 180 9 110 19 170 1024020120估计该小区平均的文化支出Y ,并给出置信水平95%的置信区间。
《抽样调查》复习题概述1。
1 结合以下所列情况讨论哪些适合用全面调查,哪些适合用抽样调查,并说明理由;1。
研究居住在某城市所有居民的食品消费结构;抽样调查2。
调查一个县各村的粮食播种面积和全县生猪的存栏头数;全面调查3。
为进行治疗,调查一地区小学生中患沙眼的人数;全面调查4.估计一个水库中草鱼的数量;抽样调查5。
某企业想了解其产品在市场的占有率;抽样调查6.调查一个县中小学教师月平均工资.全面调查1。
2 结合习题1。
1的讨论,你能否概括在什么场合作全面调查,什么场合适合做抽样调查。
答:全面调查:是一种有策划、有方法、有程序的活动,调查的结果一般表现为搜集的数据。
抽样调查:为某一特定目的而对部分考查对象进行的调查1.3某刊物对其读者进行调查,调查表随刊物送到读者手中,对寄回的调查表进行分析。
试问这是不是一项抽样调查?样本抽取是不是属于概率抽样?为什么?答:属于抽样调查,属于概率抽样,每一个样本单元被选中入样的概率是已知的.1。
5 结合习题1。
3的讨论,根据你的理解什么是概率抽样?什么是非概率抽样?它们各有什么优点?答:非概率抽样:优点:操作简单,调查数据的处理较容易,省时,省费用。
概率抽样:根据随机原则,按照事先设计的程序,从总体抽取部分单元的抽样方法(要求每一个样本单元被选中入样的概率是已知的)优点:1.6抽样调查的特点.答:1、节约费用 2、时效性强 3、完成全面调查不能胜任的项目 4、有助于提高数据质量抽样调查基本原理2.1 试说明以下术语或概念之间的关系与区别;1.总体、样本与个体;总体:是指所要研究对象的全体,它由研究对象中所有性质相同的个体组成,组成总体的各个个体称为总体单元或单位。
抽样总体:是指从中抽取样本的总体.2.总体与抽样框;总体与抽样框应保持一致抽样框:是一份包含所有抽样单元的名单,给每一个抽样单元编上一个号码,就可以按照一定的随机化程序进行抽样.抽样总体的具体表现是抽样框.3。
等距抽样的题目例子1.随机起点等距抽样即在总体分成K段(K=Nn)的前提下,首先从第一段的1至k号总体单位中随机抽选一个样本单位,然后每隔k个单位抽取一个样本单位,直到抽足n个单位为止。
这n个单位就构成了一个随机起点的等距样本。
这种方法能够保证各个总体单位具有相同的概率被抽到,但是,如果随机起点单位处于每一段的低端或高端,就会导致往后的单位都会处于相应段的低端或高端,从而使抽样出现偏低或偏高的系统误差。
2.半距起点等距随机抽样这种方法又称为中点法抽取样本,它是在总体的第一段,取1,2,k号中的中间项为起点,然后再每隔k个单位抽取一个样本单位,直到抽足n个样本单位为止。
当总体是按有关标志的大小顺序排列时,采用中点法抽取样本,可提高整个样本对总体的代表性。
3.随机起点对称等距抽样这种方法是在总体第一段随机抽到第i个单位,而在第二段抽取第2k-f+1。
例子:某医院要对某市进行胆石症患病率的调查,需要以户为单位进行抽样,某小区共有1000户,现需要从中抽取50户,请用等距离抽样法进行抽样。
步骤1:将1000户人家按照门牌号排序编号,编为1~1000号。
步骤2:确定抽样间隔。
已知总体数目为1000户,需要抽取的样本数为20户,那么抽样间隔=1000/50=20(户)。
步骤3:确定抽样的起点。
抽样起点必须在第一段总体单位中用随机的方式取得,可以抽签或随机数字表。
本例题中,抽样间隔为20,则第一段总体单位就是1~20号。
用20张纸条,编号1~20号,从中随机抽取一张,则相应的编号则为抽样的起点。
或从随机数字表的任意一行任意一列开始,从任意一个方向读一个小于等于20的数字,读取出来的数字所对应的编号即为抽样的起点。
如抽取出来的数字是3,则3号作为起点。
步骤4:抽样。
从起始点开始,每隔一个抽样间隔抽取一个样本,如从3号开始,每隔20户抽取一户,直到抽取出50户为止。
抽取的编号为3号,23号,43号……983号。
抽样推断练习题答案抽样推断是统计学中的一个重要概念,它涉及到从总体中抽取一部分样本,然后根据这些样本来推断总体的特征。
以下是一些抽样推断练习题的答案:1. 题目一:某公司有1000名员工,为了了解员工的平均工资水平,公司随机抽取了100名员工的工资进行调查。
调查结果显示这100名员工的平均工资为5000元。
如果总体平均工资的方差为1000元^2,那么95%置信水平下,总体平均工资的置信区间是多少?答案:根据抽样分布的中心极限定理,样本均值的分布近似正态分布。
首先计算样本均值的标准误差(SE):\[ SE =\sqrt{\frac{\sigma^2}{n}} = \sqrt{\frac{1000}{100}} = 10 \]。
然后使用95%置信水平下的z值,该值为1.96。
置信区间为:\[ CI = \bar{x} \pm z \times SE = 5000 \pm 1.96 \times 10 = (4969.4, 5030.6) \]。
2. 题目二:一个研究者想要估计一个城市中所有家庭的平均年收入。
他随机抽取了50个家庭,并计算出他们的平均年收入为50000元,标准差为10000元。
如果研究者想要以90%的置信水平估计总体平均年收入,置信区间应该是多少?答案:同样使用样本均值的分布近似正态分布。
计算标准误差:\[ SE = \frac{s}{\sqrt{n}} = \frac{10000}{\sqrt{50}} =1414.21 \]。
90%置信水平下的z值为1.645。
置信区间为:\[ CI = 50000 \pm 1.645 \times 1414.21 = (47142.79, 52857.21) \]。
3. 题目三:一个班级有200名学生,随机抽取了25名学生进行数学测试,平均分为80分,标准差为10分。
如果以99%的置信水平估计班级所有学生的数学平均分,置信区间是多少?答案:计算标准误差:\[ SE = \frac{s}{\sqrt{n}} =\frac{10}{\sqrt{25}} = 2 \]。
高中抽样方法练习题及讲解一、简单随机抽样题目:某高中共有1000名学生,需要从中随机抽取100名学生进行问卷调查。
请设计一个简单随机抽样方案。
解答:1. 为每位学生分配一个唯一的编号,从1到1000。
2. 使用随机数生成器生成100个不重复的随机数,这些数字应在1到1000的范围内。
3. 根据生成的随机数,从学生名单中选择对应的100名学生。
二、分层抽样题目:一所高中有1000名学生,分为三个年级,每个年级的学生人数相等。
现在需要从全校学生中抽取100名学生进行研究,要求每个年级的学生被抽中的概率相等。
解答:1. 将学生分为三个年级层,每个年级层有333名学生。
2. 在每个年级层中进行简单随机抽样,每个年级层抽取33名学生。
3. 将三个年级层中抽取的学生合并,得到100名学生的样本。
三、系统抽样题目:一个班级有50名学生,需要从这个班级中抽取5名学生进行研究。
请设计一个系统抽样方案。
解答:1. 将学生名单编号,从1到50。
2. 确定抽样间隔。
由于需要抽取5名学生,抽样间隔为50/5=10。
3. 从编号1到10中随机选择一个起始点,假设选择5。
4. 从编号5开始,每隔10编号选择一名学生,即5、15、25、35、45。
四、整群抽样题目:某高中有10个班级,需要从全校学生中抽取10名学生进行研究,每个班级抽取1名学生。
解答:1. 将10个班级视为10个群体。
2. 从10个班级中随机选择一个班级作为样本班级。
3. 从选中的班级中选择一名学生作为样本。
五、多阶段抽样题目:某高中有10个班级,每个班级有50名学生。
需要从全校学生中抽取50名学生进行研究。
请设计一个多阶段抽样方案。
解答:1. 第一阶段:从10个班级中随机抽取5个班级。
2. 第二阶段:在每个选中的班级中进行简单随机抽样,抽取10名学生。
3. 将5个班级中抽取的学生合并,得到50名学生的样本。
注意:以上练习题仅为示例,实际应用中应根据具体情况设计抽样方案。
第二章习题2.1判断下列抽样方法是否是等概的:(1)总体编号1~64,在0~99中产生随机数r ,若r=0或r>64则舍弃重抽。
(2)总体编号1~64,在0~99中产生随机数r ,r 处以64的余数作为抽中的数,若余数为0则抽中64.(3)总体20000~21000,从1~1000中产生随机数r 。
然后用r+19999作为被抽选的数。
解析:等概抽样属于概率抽样,概率抽样具有一些几个特点:第一,按照一定的概率以随机原则抽取样本。
第二,每个单元被抽中的概率是已知的,或者是可以计算的。
第三,当用样本对总体目标进行估计时,要考虑到该样本被抽中的概率。
因此(1)中只有1~64是可能被抽中的,故不是等概的。
(2)不是等概的【原因】(3)是等概的。
2.2抽样理论和数理统计中关于样本均值y 的定义和性质有哪些不同?2.3为了合理调配电力资源,某市欲了解50000户居民的日用电量,从中简单随机抽取了300户进行,现得到其日用电平均值=y 9.5(千瓦时),=2s 206.试估计该市居民用电量的95%置信区间。
如果希望相对误差限不超过10%,则样本量至少应为多少?解:由已知可得,N=50000,n=300,5.9y =,2062=s1706366666206*300500003001500001)()ˆ(222=-=-==s nf N y N v YV 19.413081706366666(==)y v 该市居民用电量的95%置信区间为[])(y [2y V z N α±=[475000±1.96*41308.19]即为(394035.95,555964.05) 由相对误差公式y)(v u 2y α≤10%可得%10*5.9206*n50000n 1*96.1≤- 即n ≥862欲使相对误差限不超过10%,则样本量至少应为8622.4某大学10000名本科生,现欲估计爱暑假期间参加了各类英语培训的学生所占的比例。
《抽样技术(第二版)金勇进等编著》习题解答第二章2.22.3 解:已知2ˆ9.5,206,50000,300500009.5475000y s N n Y Ny ====∴==⨯=, 222211300/50000ˆ()50000206500000.6825170636666730041308.19128,80964.05491f v YN s n --∴==⨯⨯=⨯===所以居民日用电量的95%的置信区间为 ˆˆ[[47500080964.05491,47500080964.05491] [394035.9451,555964.0549]YY -+=-+=相对误差为ˆd Y Y r Y-=2.4 解:ˆ0.35Pp == , 11200/1000010000()(1)0.35(10.35)0.0011512009999f N V p P P n N --=-=⨯⨯⨯-=-0.03339=∴P 的95%置信区间为:[[0.35 1.960.03339,0.35 1.960.03339][0.2846,0.4154]p p -+=-⨯+⨯=2.5 解:已知200,20N n ==,根据已知数据计算得:2144.5,826.0526,() 6.096915y s v y ==∴== ∴Y 的95%置信区间为:[[144.5 1.96 6.096915,144.5 1.96 6.096915][132.55,156.45]y y -+=-⨯+⨯=2.6 解:已知2ˆ1120,25600,350,503501120392000y S N n Y Ny ====∴==⨯=,2221150/350ˆ()350256003840000506196.773,12145.68f V YN S n --∴==⨯⨯===∴ˆY的95%置信区间为:ˆˆ[[379854.3,404145.7]Y Y -+= 2.7 解:已知21000,2,68,10.95N d S α===-=,222022221000 1.966861.3010002 1.9668Nt S n Nd t S ⨯⨯∴===+⨯+⨯0161.387.571430.7n n r === 样本量最终为88个家庭。
高中分层抽样练习题及讲解# 高中分层抽样练习题及讲解分层抽样是一种概率抽样方法,它将总体分为不同的层或组,然后从每一层中随机抽取样本。
这种方法适用于总体中存在明显差异的情况。
以下是一些高中分层抽样的练习题及相应的讲解。
## 练习题一题目:某学校要进行学生健康调查,学校共有1000名学生,分为三个年级:高一、高二、高三,每个年级各占1/3。
调查者希望了解学生每天的睡眠时间。
请设计一个分层抽样方案。
解答:1. 首先,将1000名学生按照年级分为三个层,每层333名学生。
2. 由于每个年级的学生数量相同,可以采用简单随机抽样的方法从每个年级中抽取样本。
3. 假设每个年级需要抽取100名学生作为样本,那么每个年级的抽样比为100/333。
4. 从每个年级的333名学生中随机抽取100名学生,这样总共抽取300名学生作为样本。
## 练习题二题目:一个社区有1000户家庭,其中低收入家庭占20%,中等收入家庭占60%,高收入家庭占20%。
社区管理者想要了解家庭的月支出情况。
请设计一个分层抽样方案。
解答:1. 根据家庭收入水平,将1000户家庭分为三个层:低收入、中等收入、高收入。
2. 每个层的户数分别为:低收入200户,中等收入600户,高收入200户。
3. 设计抽样比,假设总样本量为100户。
4. 计算每个层的样本量:低收入家庭20户,中等收入家庭60户,高收入家庭20户。
5. 分别从每个层中随机抽取相应数量的家庭作为样本。
## 练习题三题目:某市进行人口普查,全市共有100000人,其中男性50000人,女性50000人。
普查者想要了解居民的受教育程度。
请设计一个分层抽样方案。
解答:1. 将100000人按照性别分为两个层:男性和女性。
2. 每个层的人数相等,都是50000人。
3. 设计抽样比,假设总样本量为1000人。
4. 计算每个层的样本量:男性500人,女性500人。
5. 分别从男性和女性中随机抽取500人作为样本。
抽样技术题库考试题目
1、非概率抽样的优点(D)。
A、能计算抽样误差。
B、能从概率的意义上控制误差。
C、样本数据能对总体情况进行推断。
D、操作简单,不需要抽样框,经济、快速,调查数据的处理也容易。
2、概率抽样与非概率抽样的根本区别是(B)。
A、是否能保证总体中每个单位都有完全相同的概率被抽中。
B、是否能保证总体中每个单位都有事先已知或可以计算的非零概率被抽中。
C、是否能减少调查误差。
D、是否能计算和控制抽样误差。
3、以下哪种抽样不属于非概率抽样(C)。
A、判断抽样。
B、方便抽样。
C、不等概率抽样。
D、配额抽样。
4、抽样调查的根本功能是(C)。
A、获取样本资料。
B、计算样本资料。
C、推断总体数量特征。
D、节约费用。
5、下列不属于概率抽样的是(B)。
A、不等概率抽样。
B、滚雪球抽样。
C、系统抽样。
D、整群抽样。
一、 简单随机抽样1、在简单随机抽样中,试证明比估计R y 是总体均值Y 的渐近无偏估计,并求其方差。
证明:X R Y = X xyX R Y y R ===∧∧()⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫⎝⎛-+⎪⎪⎭⎫⎝⎛-+⎪⎪⎭⎫ ⎝⎛--=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛-+=⎪⎪⎭⎫ ⎝⎛=2211X X x o X X x X Xx X y E X X X x X yE X X x y E y E R由于0−→−-PX x 即0→-X Xx 所以()()Y y E X y E X y E R ==⎪⎪⎭⎫ ⎝⎛= 得证。
()()2222⎪⎪⎭⎫ ⎝⎛-=⎪⎪⎭⎫ ⎝⎛-=-=R x yE X X R X x y E y E y E y Var RR R ()()⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫⎝⎛-+⎪⎪⎭⎫⎝⎛-+⎪⎪⎭⎫ ⎝⎛---=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛-+-=222111X X x o X X x X X x X x R y X X x X xR y E X由于0−→−-PX x 即0→-XXx 所以()()()22221Z RS n f x R y Var x R y E X x R y E X y Var -=-=-=⎪⎪⎭⎫ ⎝⎛-= 其中:RX Y Z -=故()()()()[]()222212111XXY Y Ni i i RS R RS SnfX R Y RX Y N n f y Var +--=-----=∑= 2、对于简单随机抽样,总体均值Y 的回归估计量定义为:()lr y y X x β=+-,如β为常数(记为0β),证明20122200(y )11(y )[()()]11(2)lr Nlr i i i x xy E Yf V Y Y X X n N f S S S n βββ==-=-----=+-∑证明:00202022200(y )[y ()]()[()]11y [()]111[()()]11(2)lr Nlr i i iNi i i x xy E E X x E y X E x Y f V Y X X Y n N f Y Y X X n N f S S S nββββββ=+-=+-=-+----=-----=+-∑∑()=3、在简单随机抽样中,已知变量总体均值Y 的回归估计量定义为)(x X y y lr -+=β,若β为常数(记为0β),且有Y y E lr =)(, 求证:(1))2(1)(02202xy x y lr S S S nf y V ββ-+-=(2)使)(lr y V 最小的0β为xy xxy S S SS ρβ==20;其中yx xy S S S =ρ.证明:(1)[]∑=--+--=N i ii lr Y X X Y N n f y V 120)(111)(β []210)()(111∑=-----=Ni i i X X Y Y N n f β)2(102202xy x y S S S nf ββ-+-=(2)求)(lr y V 对0β的偏导数:0)22(1)())((200=--=∂∂xy x lr S S nf y V ββxy xxy S S SS ρββ=⇒=⇒02将0β的值代入)(lr y V ,验证其最小值存在,此时⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛+-=xy X xy x X y y lr S S S S S S S n f y V 222221)(ρ )2(122222y y y S S S n f ρρ-+-=)1(122ρ--=y S nf4、研究某小区家庭用于文化方面(报刊、电视、网络、书籍等)的支出,N=200,现抽取一个容量为20的样本,调查结果列于下表:编号 文化支出 编号 文化支出 1 200 11 150 2 150 12 160 3 170 13 180 4 150 14 130 5 160 15 100 6 130 16 180 7 140 17 100 8 100 18 180 9 110 19 170 1024020120估计该小区平均的文化支出Y ,并给出置信水平95%的置信区间。
解析:由已知得:200=N 20=n根据表中数据计算得:5.144201201==∑=i i y y()06842.827120120122=--=∑=i iy y s 21808.37)1(1)(2=-=s Nnn y V 10015.6)(=y V 因此该小区平均文化支出Y 的95%置信区间为:])(y [2y V z α±即是:[132.544 ,156.456],故估计该小区平均的文化支出Y =144.5,置信水平95%的置信区间为[132.544 ,156.456]。
5、某地区对本地100家化肥生产企业的尿素产量进行调查,一直去年的总产量为2135吨,抽取10个企业调查今年的产量,得到25=y ,这些企业去年的平均产量为22=x 。
试估计今年该地区化肥总产量。
解析:由题可知22x =,35.211002135===N X X ,25y =则,该地区化肥产量均值Y 的比率估计量为26.24242535.21===∧x y XY该地区化肥产量总值Y 的比率估计量为 242626.24*100ˆˆ===R Y N Y 所以,今年该地区化肥总产量的估计值为2426吨。
二、 分层随机抽样6、在分层随机抽样的分别比估计中:(1)试证明Y y E RS =)(;(2)求出其方差。
(1) 证明:根据题意: ∑∑∑======Lh hh h L h h h h Lh h h hh RS R E X W X R W E X x y W E y E 111)ˆ()ˆ()()( 又h h h X Y R E =)ˆ( Y Y W X Y E X W h Lh h L h h hh h ===∴∑∑==11)(上式 综上可得:Y y E RS =)((2) 解:由第一问可知)ˆ()ˆ()(121hh Lh h Lh h h h RS X R V W X R W V y V ∑∑==== 而)2(1)()ˆ(222x yx y S R RS S n f y V X R V +--==)2(1)(22212xh h yxh h yh hh Lh h RS S R S R S n f W y V +--⋅=∴∑= 8、调查某地区居民的奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查后各层样本户的奶制品年消费支出的中间结果如下表所示:请估计该地区居民奶制品的年消费总支出及其95%的置信区间。
解析:根据表中的数据可得4_^1209650()st h h h Y N y ===∑元;估计量方差^()st V Y 的无偏估计为^281()()/ 5.38610Lst h h h h h h v Y N N n s n ==-≈⨯∑,进而有23207.6()≈元。
^st Y 的95%的置信区间为^^0.025()st st Y z v Y ±,其中0.025z =1.96,经计算可得^^0.025()209650 1.9623207.6164163()st st Y z v Y -=-⨯=元 ^^0.025()209650 1.9623207.6255137()st st Y z v Y +=+⨯=元因此,可以有95%的把握认为该地区居民奶制品的年消费总支出在164163~255137元之间。
7、试述分别比估计和联合比估计的比较。
答:如果每一层都满足比率估计量有效的条件,则除非hRR ,都有分别比率估计量的方差小于联合比率估计量的方差。
但当每层的样本量不太大时,还是采用联合比率估计量更可靠些,因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大。
实际使用时,如果各层的样本量都较大,且有理由认为各层的比率hR 差异较大,则分别比率佑计优于联合比率估计。
当各层的样本量不大,或各层比率hR 差异很小,则联合比率估计更好些。
三、 等概率整群抽样和多阶段抽样9、邮局欲估计每个家庭的平均订报份数,该辖区共有4000户,划分为400个群,每群10户,现随机抽取4个群,取得资料如下表所示:试估计平均每户家庭订报份数及总的订报份数,以及估计量的方差。
解:由题意得到400=N ,4=n ,10=M ,01.04004===N n f 故875.1410201620191ˆ1=⨯+++===∑=ni i y Mny Y (份)75.18875.110=⨯=⋅=y M y (份)7500875.140010ˆ=⨯⨯=⋅⋅=y N M Y (份)∑=--=ni iby yn M s 122)(1∑=---=-=ni i b y y n nMfs nMfy v 1222)(1111)( 14)75.1820()75.1819(10401.01222--++-⨯⨯-= 00391875.0= 6270000391875.010400)()ˆ(2222=⨯⨯==y v M N Yv 于是由以上的计算结果得到平均每户的订报份数为1.875,估计量方差为0.00391875。
该辖区总的订阅份数为7500,估计量方差为62700。
10、某高校学生会欲对全校女生拍摄过个人艺术照的比例进行调查。
全校共有女生宿舍200间,每间6人。
学生会的同学运用两阶段抽样法设计了抽样方案,从200间宿舍中抽取了10间样本宿舍,在每间样本宿舍中抽取3位同学进行访问,两个阶段的抽样都是简单随机抽样,试估计拍摄过个人艺术照的女生比例,并给出估计的标准差。
解:题目已知200=N ,10=n ,6M =,3=m ,05.0200101===N n f ,5.02==Mmf 3.03109ˆ1=⨯==∑=nm yp ni i005747.0)(1111)ˆ(12=⋅--⋅-⋅=∑=ni im p yn n f mp v0758.0005747.0)ˆ()ˆ(===p v ps 在置信度95%下,p 的置信区间为 ))ˆ(ˆ(2/p v t pα±=)0.448568,0.151432()0758.096.13.0(=⨯±。
四、 不等概抽样11、某公司欲了解职工上班交通所需的时间,该公司共有5个部门,根据每个部门的人数采用PPS 抽样出2个部门,并在2个部门中采用简单随机抽样分别抽出5名职工,调查结果试估计该公司职工上班交通评价所需的时间,并给出估计的标准差。