统计学第六章抽样与参数估计
- 格式:docx
- 大小:15.86 KB
- 文档页数:3
第6章抽样与参数估计第6章抽样与参数估计6.1抽样与抽样分布6.2参数估计的基本方法6.3总体均值的区间估计6.4总体比例的区间估计6.5样本容量的确定学习目标理解抽样方法与抽样分布估计量与估计值的概念点估计与区间估计的区别评价估计量优良性的标准总体均值的区间估计方法总体比例的区间估计方法样本容量的确定方法参数估计在统计方法中的地位统计推断的过程6.1抽样与抽样分布什么是抽样推断概率捕样方法抽样分布抽样方法抽样方法概率抽样(probabilitysampling)也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样(simplerandomsampling)从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的最基本的抽样方法,是其它抽样方法的基础特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其它辅助信息以提高估计的效率分层抽样(stratifiedsampling)将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计系统抽样(systematicsainplmg)将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范闱内随机地抽取一个单位作为初始单位,然后按爭先规定好的规则确定其它样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难整群抽样(clustersampling)将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差抽样分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布总体分布(populationdistribution)一个样本中各观察值的分布也称经验分布当样本容屋n逐渐增大时,样本分布逐渐接近总体的分布样本分布(sampledistribution)抽样分布的概念(samplingdistribution)抽样分布是指样本统计屋的分布,即把某种样本统计量看作一个随机变量,这个随机变屋的全部可能值构成的新的总体所形成的分布即为某种统计量的抽样分布.统计量:样本均值,样本比例,样本方差等样本统计量的概率分布是一种理论概率分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据对抽样分布的理解抽样分布:即不是总体分布,也不是样本分布,是根据所有可能样本计算的统计量的全部可能取值形成的分布样本均值的抽样分布容量相同的所有町能样本的样本均值的概率分布一种理论概率分布进行推断总体均值的理论基础样本均值的抽样分布样本均值的抽样分布(例题分析)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。
第六章 抽样分布与参数估计习题答案一、单选1.B ;2.D ;3.D ;4.C ;5.A ;6.B ;7.C ;8.D ;9.A ;10.A 二、多选1.ADE ;2.ACDE ;3.ABCD ;4.ADE ;5.BCE6.ACD ;7.ACDE ;8.ACE ;9.BCE ;10.ABD 三、计算分析题1、解:n=10,小样本,由EXCEL 计算有:11.6498==S x ; (1)方差已知,由10596.14982⨯±=±nz x σα得,(494.9,501.1)(2)方差未知,由1011.62622.2498)1(2⨯±=-±nS n t x α得,(493.63,502.37)2、n=500为大样本,p=80/500=16%,则置信区间为 016.096.1%16500)16.01(16.096.1%16)1(2⨯±=-⨯±=-±n p p z p α=(14.4%,17.6%) 3、nx σσ=,由于大国抽取的样本容量大,则抽样平均误差小。
4、(1)3.10100103===nS x σ(小时);=-=-=100)95.01(95.0)1(n p p p σ 2.18%(2)=⨯±=±3.10211202x z x σα(1099.4,1140.6) ⨯±=±2%952p z p σα2.18%=(90.64,99.36)5、为简化起见,按照重复抽样形式计算 (1)∑∑=ff s Si22=22.292; 472.010072.4===nS x σ(2)93.0691472.096.1100691002±=⨯±=±nSz x α=(690.07,691.93) 6、由于总体标准差已知,则用标准状态分布统计量估计nz x σα2=∆(1)10160170102022=-===∆αασz nz x则58.12=αz ,有%29.94)58.1(=F α=1-94.29%=5.71%,则概率%58.88%71.5%29.941=-=-=α (2)=⇒⨯=⇒⨯=∆n n nz x 2096.142σα97(个)(3)=⇒⨯=⇒⨯=∆n nnz x 2096.122σα385(个)允许误差缩小一半,样本容量则为原来的4倍。
第六章参数估计6.1以每天每千克体重52 μmol 5-羟色胺处理家兔14天后,对血液中血清素含量的影响如下表[9]:y/(μg · L-1)s/(μg · L-1)n对照组 4.20 0.35 125-羟色胺处理组8.49 0.37 9建立对照组和5-羟色胺处理组平均数差的0.95置信限。
答:程序如下:options nodate;data common;alpha=0.05;input n1 m1 s1 n2 m2 s2;dfa=n1-1; dfb=n2-1;vara=s1**2; varb=s2**2;if vara>varb then F=vara/varb;else F=varb/vara;if vara>varb then Futailp=1-probf(F,dfa,dfb);else Futailp=1-probf(F,dfb,dfa);df=n1+n2-2;t=tinv(1-alpha/2,df);d=abs(m1-m2);lcldmseq=d-t*sqrt(((dfa*vara+dfb*varb)/(dfa+dfb))*(1/n1+1/n2));ucldmseq=d+t*sqrt(((dfa*vara+dfb*varb)/(dfa+dfb))*(1/n1+1/n2));k=vara/n1/(vara/n1+varb/n2);df0=1/(k**2/dfa+(1-K)**2/dfb);t0=tinv(1-alpha/2,df0);lcldmsun=d-t0*sqrt(vara/n1+varb/n2);ucldmsun=d+t0*sqrt(vara/n1+varb/n2);cards;12 4.20 0.35 9 8.49 0.37;proc print;id f;var Futailp alpha lcldmseq ucldmseq lcldmsun ucldmsun;title1 'Confidence Limits on the Difference of Means';title2 'for Non-Primal Data';run;结果见下表:Confidence Limits on the Difference of Meansfor Non-Primal DataF FUTAILP ALPHA LCLDMSEQ UCLDMSEQ LCLDMSUN UCLDMSUN1.11755 0.42066 0.05 3.95907 4.62093 3.95336 4.62664首先,方差是具齐性的。
抽样与估计知识点抽样与估计是统计学中的重要概念,它们在数据分析和统计推断中起着关键作用。
通过合适的抽样方法和有效的估计技术,我们可以从一个总体中获取有关特征的信息,并对未知参数进行推断。
本文将介绍抽样与估计的基本概念和相关知识点。
一、抽样方法1. 简单随机抽样简单随机抽样是最基本的抽样方法之一。
它要求从总体中随机地选择样本,每个样本有相同的机会被选中。
简单随机抽样可以保证样本的代表性和独立性,但其实施过程相对繁琐。
2. 系统抽样系统抽样是指按照一定的规则和顺序从总体中选择样本。
例如,我们可以按照每隔k个元素选取一个样本的原则进行抽样。
系统抽样是一种简便有效的抽样方法,在满足一定条件下可以得到具有代表性的样本。
3. 分层抽样分层抽样是将总体划分为若干个相似的层次,然后分别从每个层次中进行简单随机抽样或系统抽样。
通过分层抽样,我们可以充分考虑总体的异质性,提高估计的准确性和可靠性。
二、估计方法1. 点估计点估计是根据样本数据,通过某种统计量来估计总体参数的值。
常见的点估计方法包括样本均值估计总体均值、样本比率估计总体比率等。
点估计给出了参数的一个具体值,但其估计结果可能存在偏差和不确定性。
2. 区间估计区间估计是利用抽样数据,通过构造一个置信区间来估计总体参数的范围。
置信区间表示总体参数落在一定范围内的概率,通过选择合适的置信水平和估计方法,我们可以得到较为准确的参数估计结果。
3. 假设检验假设检验是根据样本数据,对总体参数的某个假设进行推断和判断。
通过设置假设和选择适当的检验统计量,我们可以判断总体参数的真实情况。
假设检验可用于检验差异、关联和拟合等方面的假设。
三、误差与效应1. 抽样误差抽样误差是指抽取样本所引入的随机误差,它是由样本本身的随机变动和抽样方法的影响所引起的。
抽样误差是不可避免的,但可以通过增大样本容量和改善抽样方法来减小。
2. 非抽样误差非抽样误差是指除抽样误差外的其他误差源所引起的误差。
统计学第六章抽样与参数估计
《统计学》第六章抽样与参数估计
1、某市劳动和社会保障局想调查下岗职工中女性所占的比重,随机抽取300个下岗职工,发现其中195个为女性职工。
试以95.45%的概率保证程度,估计该市下岗职工中女性比重的区间范围。
解:已知n=300,概率保证程度95.45%,Z 0.0455/2 =2
P=300195=65% 区间范围P n )1(2
p p -Z ±α=0.65300
)
65.01(65.02-±=0.65±0.055 该市下岗职工中女性比重的区间范围为59.5%~70.5之间
2、某灯管厂生产10万只日光灯管,现采用简单随机重复抽样方式抽取1‰灯管进行质量检验,测试结果如下表所示:
耐用时间(小时)
灯管数(只)
800以下 10 800-900 15 900-1000 35 1000-1100 25 1100以上 15 合计
100
根据上述资料:
(1)试计算抽样总体灯管的平均耐用时间
(2)在99.73%的概率保证程度下,估计10万只灯管平均耐用时间的区间范围。
(3)按质量规定,凡耐用时间不及800小时的灯管为不合格品,试计算抽样总体灯管的合格率,并按95%的概率保证程度下,估计10万只灯管的合格率区间范围。
(4)若上述条件不变,只是抽样极限误差可放宽到40小时,在99.73%的概率保证程度下,作下一次抽样调查,需抽多少只灯管检验?
解:
耐用时间(小时)灯管数(只)f
组中值x xf f x x 2)(-
800以下 10 750 7500 484000 800-900 15 850 12750 216000 900-1000 35 950 33250 14000 1000-1100 25 1050 26250 160000 1100以上
15
1150
17250
486000
合计 100 - 97000 1360000
(1)平均耐热时间x =
∑∑f xf =
100
97000
=970(小时)(2)S
2
=
∑∑-f
f
x x 2
)( =
100
1360000
=13600 x σ=n s 2=100
13600=11.66 x ?=3×11.66=34.98 x x ?±=970±34.98
在99.73%的概率保证程度下,该灯管平均耐用时间在935.02~1004.98小时之间
(3)p=100
15
253515+++=0.9
p σ=
03.0100
)
9.01(9.0)
1(≡-≡-n p p
p ?=1.96×0.03=0.0588 p ±p ?=0.9±0.0588
在95%的概率保证程度下,该灯管的合格率在84.12%~95.88%之间(4)n=
x
2
222
Z s α=2
240
13600
3?=76.5≈77(只)。