当前位置:文档之家› 样本容量确定

样本容量确定

样本容量确定
样本容量确定

11

第三节 样本容量的确定

在区间估计中我们发现,对于某一个总体的参数进行估计时,在样本数目一定的条件下,要提高估计结果的可靠性,就需要扩大置信区间,这就要增加估计中的误差,减少了估计的实际意义。如果要减少估计的误差,就要缩短置信区间,但这样就必须要降低估计的可靠性。可见在样本数目一定的条件下,估计的精确性和估计的可靠性不能两全其美。既要提高估计的精确性,减少误差,又要提高估计可靠性的办法就是增加样本容量。但是增加样本就要同时增加抽样调查的成本,同时又可能延误时间。因此就需要研究能够满足对估计的可靠性和精确性要求的最小样本数问题。

一、均值估计问题中,样本大小的决定

在总体均值的估计问题中,要决定必要的样本大小,必须先明确如下三个问题:

1. 要规定允许的估计误差的大小,即允许的估计值与实际值之间的最大偏离值是多少,实际上也就是估计区间的大小,

2. 规定置信度,即估计所要求达到的可靠性,也就是实际的抽样误差不超过所规定的误差的可信度。

3. 要明确总体的标准差,即要求了解总体的分布情况。总体的标准差小,只要抽较少的样本就能满足对估计精确度和可靠性的要求,若总体标准差大,就必须抽取较多的样本才能达到对估计精确度和可靠性的要求。

设总体标准差为σ,样本均值的标准差为x σ。估计的置信度为1-α,于是可以

相应地得到置信系数Z α/2。于是对总体均值的估计可由下式得到:

()P X Z x -

上式中的X -μ实际上就表示估计所允许的最大误差,我们用Δ表示,于是根据上式有

n Z σα?

≤?2/ 则 2

2

22/??≥σαZ n 由此只要规定了允许误差的大小Δ和总体的标准差σ,由置信度1-α查表得到相应的Z α/2,代入公式,求得满足要求的最小整数就是满足估计误差不大于Δ和置信度为1-α的要求的最少样本数。

上述公式适用于重复抽样或无限总体不放回抽样时的情形。但对于有限总体不放回抽样的情形,公式变为如下的形式:

1

2/--??≥?N n N n Z σ

α 由此可求得满足上式要求的最小的整数为

()n N Z N Z 022222

221=??-+?αασσ//?。 其中:Δ为允许最大误差,

12

N 为有限总体的个体数,

α为置信度水平,

Z α/2为根据置信度水平α查表得到的置信系数。

二、比例估计问题中,样本大小的决定

关于总体比例的估计问题中,要决定样本大小首先也要明确关于均值的估计问题中同样的三个问题:

1. 允许误差的大小,即规定估计值与实际值的最大偏离值。

2. 规定置信度,即估计所要求达到的可信度。

3. 对总体比例的事先估计值,即大致的或估计的总体比例是多少。 与均值的估计问题完全平行地,我们可以得到以下的结果。

对于重复抽样或无限总体不重复(放回)抽样时的情形为

()

n Z p p p 0222

1=?-α/?

但对于有限总体不放回抽样的情形,公式变为如下的形式:

()()()n N Z p p N Z p p p 0222

22111=??--+?-αα//?

第四节 假设检验

一、假设检验的基本原理

假设总体的均值为某一个值,为了检验这一假设的正确性,我们收集样本的数据,计算出假设值与样本均值之间的差异,然后根据差异的大小来判断所作假设的正确性,这就是假设检验。直观地,我们知道差异越小,对于总体均值的假设正确的可能性就愈大。差异越大,对总体均值的假设正确的可能性就愈小。

然而在多数情况下,对总体参数的假设值与样本统计量之间的差异既不至于大到显而易见,应该拒绝假设,也不至于小到可以完全肯定,应该接受假设的程度。于是就不能简单地决定接受或拒绝所作的假设,而需要判断所作的假设在多大的程度上是正确的。于是就需要研究假设和判断假设是否正确的程度。

(一)假设检验中的假设

假设检验中通常把所要检验的假设称作原假设或零假设,记作H 0。例如要检验总体均值μ=100这个假设是否正确,就表示为H 0:μ=100。如果样本所提供的信息无法证明原假设成立,则我们就拒绝原假设。此时,我们只能接受另外备选的假设了,称之为备择假设,我们以H 1表示备择假设。备择假设可以有三种形式,例如,在原假设H 0:μ=100的条件下,备择假设可以是:

H 1:μ≠100。这表示备择假设是总体的均值不等于100。或者是

H 1:μ>100。这表示备择假设是总体的均值大于100。或者是

H 1:μ<100。这表示备择假设是总体的均值小于100。

上述备择假设的选择与检验的要求是密切相关的。我们根据假设检验的目的要求不同又把假设检验分为双侧检验和单侧检验。

13

如果样本均值高于或低于假设的总体均值很显著时都拒绝原假设,我们称作双侧检验。在双侧检验时有左右两个拒绝区域。当原假设是:H 0:μ=100,备择假设是:H 1:μ≠100时就必须使用双侧检验。

若只有在样本的均值高于(或低于)假设的总体均值很显著时才拒绝原假设,这就称作单侧检验。单侧检验只有一个拒绝区域。若假设检验只有在样本均值高于假设的总体均值很显著时才拒绝原假设,这种假设检验称作右侧检验。此时,原假设实际上变为H 0:μ≤100,备择假设为H 1:μ>100。反之,如果只有在样本均值低于假设的总体均值很显著时才拒绝原假设,则称作左侧检验。此时,原假设实际上变为H 0:μ≥100,备择假设为H 1:μ<100。由此可见,原假设和备择假设总是排他性的。

(二)检验的显著性水平

假设检验需要确定一个是接受还是拒绝原假设的标准,这个标准就是显著性水平。所谓检验的显著性水平α就表示,在假设正确的条件下落在某个界限以外的样本均值所占的百分比。具体地说,“在5%的显著性水平下检验假设”就是说,假定对总体参数所作的假设正确,那么样本均值同假设的总体均值差异过大的,在每100个样本中不应超过5个。如果样本均值与总体均值差异过大的超过这一数目就认为这个样本不可能抽自所假设的总体,所以拒绝零假设。

我们可以用图5-4来直观地解释假设检验的原理。假如设检验的显著性水平α=5%,我们已知在概率密度曲线下包括在假设的均值μσH X 0196±.两侧直线间的

面积是95%,两边每一个尾端的面积各为2.5%。于是若样本的均值落在95%的区域内,我们就认为样本统计量与假设的总体参数的差异是不显著的。结果就接受原假设。若样本统计量落在左右尾端的各为 2.5%的区域内,则差异就是显著的。我们就拒绝原假设。接受备择假设。

图5-4 假设检验的接受区域和拒绝区域

不过应该强调指出,在假设检验中“接受原假设”的意思仅仅是意味着没有充分的统计证据拒绝原假设。在假设检验中“接受原假设”的特定含义就是不拒绝原假设。但实际上,即使样本统计量落在95%的面积内,也并不能证明原假设H 0就是正确的。因为只有在知道了总体参数的真实值与假设值完全相同才能证明假设正确。但我们无法知道总体参数的真实值。

在给定了检验的显著性水平α后,我们可以根据假设来确定接受还是拒绝原假设的区域或范围。如果样本均值X 落在某一区域内我们就接受原假设,则就称这一区域为接受区域。如果样本均值X 落在某一区域内就拒绝原假设,我们就称这一区域为拒绝区域。

对于显著性水平的选择没有一个唯一的或通用的标准。实际上在任何显著性水平下检验某个假设都是可能的,但是必须注意不管选择什么样的显著性水平,都存在假设为真而被拒绝的可能性。另一方面,在检验同一个假设时,使用的显著性水平愈高,原假设为真时而被拒绝的概率也就愈高。这就需要研究假设检验中的错误,我们在以

14

后将对此进行讨论。

二、假设检验的步骤

1. 提出原假设H 0和备择假设H 1。原假设和备择假设必须由题意来决定。在一般情况下总是把检验的目的作为备择假设,这样可以有充分的把握拒绝原假设。

2. 选择检验的显著性水平α,从而确定检验的拒绝区域或临界点。α表示在假设检验时当原假设为真而我们却拒绝了原假设,接受备择假设的错误概率。假设检验中还可能犯另一种错误,这将在下面讨论。

3. 确定样本的统计量和分布。样本统计量又称检验统计量。不同的统计量具有不同的分布,用于检验不同的假设,要根据所检验的假设来正确地选择检验统计量。

4. 计算检验统计量并由此作出决策。根据样本数据计算出检验统计量的值,如果统计量的值落在拒绝区(包括临界点)内就说明原假设与样本所反映的情形有显著的差异,应该拒绝原假设。如果统计量的值落在接受区域内,就说明原假设与样本所反映的情形的差异并不显著,应该接受原假设。

三、几种常用的假设检验

(一) 平均数的假设检验

1. 双侧检验

让我们研究下面的例子。

例5-4。某食品厂规定某种罐头每罐的标准重量是500克。多年的经验表明这个厂每罐重量的标准差是15克。今随机抽取了49个罐头,发现这些罐头的平均重量是506克。问在α=0.05的显著性水平下能否认为这批罐头的重量符合标准的要求? 要检验这批罐头的重量是否符合标准的要求就是要检验这批样本的平均重量与标准重量之间是否具有明显的差别。因此可以列出要检验的假设为:

H 0:μ=500

H 1:μ≠500。

这是一个双侧检验问题。根据区间估计的结论可知原假设的接受区域为

???? ?

??+?-n Z n Z σμσμαα2/2/, 由于置信度水平α=0.05,2/αZ =1.96。由此得到接受区域为[495.8,504.2]。但现在样本的实际均值为506,落在拒绝区域内,因此拒绝原假设接受备择假设。我们无法认为这批罐头的重量符合标准的要求,即这批罐头的重量不符合标准的要求。

当总体方差未知,样本数量又小于等于30时,检验统计量样本均值服从t 分布。这就要用t 分布确定原假设的接受区域和拒绝区域了。在得到接受区域后也就可以利用上面同样的方法,根据样本均值所处的位置作出判断。

2. 单侧检验

再看下面的例子。

例5-5。某饮料厂规定某种纸罐包装饮料的容量不得少于500ml 。今随机抽取了25个纸罐,发现这些罐头的平均重量是498 ml ,标准差S=10。问在α=0.05的显著性水平下能否认为这批纸罐的容重符合标准的要求?

根据问题的要求可以列出要检验的假设为:

H 0:μ≥500

H 1:μ<500

15

由于总体方差未知,样本容量又小于30,检验统计量x s

n

-μ服从t 分布,其自由度为n-1。因此我们就必须利用t 分布来进行检验。这又是一个单侧(左侧)检验问题。根据区间估计的结论可知原假设的接受区域为

()),1[+∞?--n

s

n t αμ 根据置信度水平α=0.05,查表得到()711.112505.0=-t 。所以计算得到接受区域的临界点是496.6。现样本均值X =498>496.6。可见样本均值落在原假设的接受区域内。我们接受原假设,即认为这批纸罐的容重符合标准的要求。

例5-6。某特种建材生产厂规定某种规格新型墙体材料的重量不得大于500公斤。今随机抽取了16块这种规格新型墙体材料,测得其平均重量为505公斤,标准差S=10。问在α=0.05的显著性水平下能否认为这批新型墙体材料的重量符合标准的要求?

这次要检验的假设为:

H 0:μ≤500

H 1:μ>500

这次也需要利用t 分布来进行检验。这是一个右侧检验问题。原假设的接受区域为 ()]1,(n s

n t -+-∞αμ

根据置信度水平α=0.05,查表得到()753.111605.0=-t 。由此可以得到原假设的接受区域临界点是504.4。现样本均值X =505>504.4。可见样本均值落在原假设的拒绝区域内。我们拒绝原假设,接受备择假设,即认为这批新型墙体材料的重量不符合标准的要求。

(二)比例的假设检验

例5-7。某酒厂规定某种酒中含有的糖度应为12%,产品才能算合格。今随机抽取了100瓶这种酒,发现平均的糖度为11.3%。问在显著性水平α=0.10的条件下,这批酒与合格产品对糖度的要求有无明显的差别?

问题要检验的假设为:

H 0:μ=0.12

H 1:μ≠0.12

这是比例的双侧检验问题。根据区间估计的结果,原假设的接受区域是 ()???

? ??-?+-?-n P P Z P n P P Z P 1,)1(2/2/αα 由于α=0.10,则2/αZ =1.64。计算得到原假设的接受区域是[0.114,0.126]。由于样本比例0.113<0.114,落在原假设的拒绝区域内。我们拒绝原假设,接受备择假设,即认为这批酒与合格产品对糖度的要求有明显的差别。

对于比例问题也同样可以进行单侧的假设检验。方法也几乎与总体均值的单侧检验的情形相同。

此外,参照两个总体区间估计的情形,我们也可以对两个总体均值和比例差进行假设检验,所用的方法几乎是完全同样的。

四、假设检验中的两类错误

假设检验是根据概率来进行判断的,因此有可能判断失误。在三种不同显著性水平下,例如α=0.01,0.10,或0.50时,进行假设检验所得到的结果就可能是完全不同的。对于同一组样本的均值X的位置,在α=0.01和0.10的显著性水平下可能是接受零假设的,而在α=0.50的显著性水平下拒绝零假设。可见,采用高的显著性水平不大可能接受一个不正确的零假设,但却很可能拒绝掉正确的零假设。

在假设检验中,如果原假设正确而被拒绝时,就称为犯了第一类错误,这是弃真的错误,犯第一类错误的概率记作α。相反,如果原假设错误而被接受时,称作犯了第二类错误,这是取伪的错误,犯第二类错误的概率记作β。表5-3表示了两者之间的关系。这两种错误是互相替补的,这就是说,在样本容量一定的情况下,要减少第一类错误的概率就不得不增加发生第二类错误的概率,反过来也一样。实际上,为了减少第一类错误的概率α就要增大接受区域,减少拒绝区域。但此时由于接受区域的增大,不正确的原假设也被接受的概率也随之增大,即β增加了,如图5-4所示。要减少接受不正确的原假设的概率,就要减少β的值,此时不正确的零假设被接受的概率减少了,但随着拒绝区域的增大,正确的零假设被拒绝的概率就上升,即α增大了,如图5-4所示,

图5-5 假设检验中的两类错误

由于两类错误之间的这种替补关系,在管理上决定检验第一类错误或第二类错误的显著性水平时就要具体考察同这两类错误相联系的费用和可能造成的损失。由此来决定究竟宁可发生第一类错误,而不愿发生第二类错误,还是宁可发生第二类错误,而不愿发生第一类错误。

16

样本容量的确定

样本容量的确定分类: 在参数区间估计的讨论中,估计值和总体的参数之间存在着一定的差异,这种差异是由样本的随机性产生的。在样本容量不变的情况下,若要增加估计的可靠度,置信区间就会扩大,估计的精度就降低了。若要在不降低可靠性的前提下,增加估计的精确度,就只有扩大样本容量。当然,增大样本容量要受到人力、物力和时间等条件的限制,所以需要在满足一定精确度的条件下,尽可能恰当地确定样本容量。 一、影响样本容量的因素 (一)总体的变异程度(总体方差) 在其它条件相同的情况下,有较大方差的总体,样本的容量应该大一些,反之则应 该小一些。例如:在正态总体均值的估计中,抽样平均误差为它反映了样本均值相对于总体均值的离散程度。所以,当总体方差较大时,样本的容量也相应要 大,这样才会使较小,以保证估计的精确度。 (二)允许误差的大小 允许误差指允许的抽样误差,记为,例如,样本均值与总体均值之间的 允许误差可以表示为,允许误差以绝对值的形式表现了抽样误差的可能范围,所以又称为误差。 允许误差说明了估计的精度,所以,在其他条件不变的情况下,如果要求估计的精度高,允许误差就小,那么样本容量就要大一些;如要求的精确度不高,允许误差可以大些,则样本容量可以小一些。 (三)概率保证度1-α的大小 概率保证度说明了估计的可靠程度。所以,在其他条件不变的情况下,如果要求较高的可靠度,就要增大样本容量;反之,可以相应减少样本容量。 (四)抽样方法不同 在相同的条件下,重复抽样的抽样平均误差比不重复抽样的抽样平均误差大,所需要的样本容量也就不同。重复抽样需要更大的样本容量,而不重复抽样的样本容量则可小一些。

此外,必要的抽样数目还要受抽样组织方式的影响,这也是因为不同的抽样组织方式有不同的抽样平均误差。 二、样本容量的确定 (一) 估计总体均值的样本容量 在总体均值的区间估计里,置信区间是由下式确定的: 例如,对于正态总体以及非正态总体大样本时,都是以它为置信区间。 从图6–1中可以看到,从估计量x的取值到点的距离实际上为置信区间长 度的。这段距离表示在一定置信水平1-α下,用样本均值估计总体均值时所允许的最大绝对误差即允许误差Δ。显然,若以x的取值为原点,则允许误差Δ可以表示为: (6–15) x=0 图6–1 允许误差示意图 公式(6–15)反映了允许误差Δ、可靠性系数、总体标准差与样本容量之间的相互制约关系。只要这四个因素中的任意三个因素确定后,另一个因素也就确定了。 在重复抽样条件下,把允许误差Δ的计算公式变形整理,则得到样本容量的计算公式: (6–16)

总体个体样本样本容量

总体、个体、样本、样本容量 一、基础知识 1.总体是指考查的对象的全体; 2.个体是总体中的每一个考查的对象; 3.样本是总体中所抽取的一部分个体; 4.样本容量则是指样本中个体的数目,不能带单位. 二、强化练习 1.(2011?泰州)为了了解某市八年级学生的肺活量,从中抽样调查了500名学生的肺活量,这项调查中的样本是() A.某市八年级学生的肺活量B.从中抽取的500名学生的肺活量 C.从中抽取的500名学生D.500 2.(2011?内江)为了解某市参加中考的32000名学生的体质情况,抽查了其中1600名学生的体重进行统计分析.下面叙述正确的是() A.32000名学生是总体B.1600名学生的体重是总体的一个样本 C.每名学生是总体的一个个体D.以上调査是普查 3.(2010?徐州)为了解我市市区及周边近170万人的出行情况,科学规划轨道交通,2010年5月,400名调查者走入1万户家庭,发放3万份问卷,进行调查登记.该调查中的样本容量是()A.170万B.400 C.1万D.3万 4.(2010?乐山)某厂生产上第世博会吉祥物:“海宝”纪念章10万个,质检部门为检测这批纪念章质量的合格情况,从中随机抽查500个,合格499个.下列说法正确的是() A.总体是10万个纪念章的合格情况,样本是500个纪念章的合格情况 B.总体是10万个纪念章的合格情况,样本是499个纪念章的合格情况 C.总体是500个纪念章的合格情况,样本是500个纪念章的合格情况 D.总体是10万个纪念章的合格情况,样本是1个纪念章的合格情况 5.(2010?广元)为了了解我市参加中考的39000名学生的视力情况,抽查了2000名学生的视力进行统计分析,下面四个判断中,正确的是() A.39000名学生是总体B.每名学生是总体的一个个体 C.2000名学生的视力是总体的一个样本D.上述调查是普查 6.(2008?宜昌)在2008年的世界无烟日(5月31日),小华学习小组为了解本地区大约有多少成年人吸烟,随机调查了100个成年人,结果其中有15个成年人吸烟.对于这个关于数据收集与处理的问题,下列说法正确的是() A.调查的方式是普查B.本地区只有85个成年人不吸烟 C.样本是15个吸烟的成年人D.本地区约有15%的成年人吸烟 7.(2010?西宁)“建设大美青海,创建文明城市”,西宁市加快了郊区旧房拆迁的步伐.为了解被拆迁的236户家庭对拆迁补偿方案是否满意,小明利用周末调查了其中的50户家庭,有32户对方案表示满意.在这一抽样调查中,样本容量为. 8.(2006?湘西州)据统计,我州今年参加初三毕业会考的学生为46 000人.为了了解全州初三考生毕业会考数学考试情况,从中随机抽取了500名考生的数学成绩进行统计分析,在这个问题中,样本容量是. 9.为了了解甲型H1N1流感的性质,疾控中心的医务人员对某地区的感染人群进行检测,任意抽取了其中的20名感染者,此种方式属调查,样本容量是. 1.B.2.B.3.D.4.A.5.C.6.D.7.50.8.500.9.抽样调查,20

怎样确定统计量的样本容量

样本量的确定方法(2008-10-14 09:12:34) 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。 二、样本量的确定方法 如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。所以,区域二相抽样不能计算样本量的说法是不科学的。

抽样检验中样本容量的确定

抽样检验中样本容量的确定 林鹤凯、宋明展、杨琨、孔京生 摘要: 在实验工作中,常遇到如何把握采集样本的容量的问题,本文结合实际,从三个方 面论述如何求出一个既满足精度,又相对较小的样本容量。求解的主体思想,为区间估计,即给定区间范围从而求得最佳n 值。另外,在假设检验中,本文从生产和检验双方考虑,得到两种不同的容量取值方法,在生产中具有一定意义。根据所做估计,本文用matlab 编程进行了仿真实验。经失败实验的统计,当n>30的阶段实验,失败实验的次数小于5次,可以说实验的成功率为95%,置信水平在0.05下的实验,从而仿真结果还是真实可信。 关键词:参数检验、假设检验、最佳检验、样本容量、matlab 实验验证 1、问题简述: 在实验工作中常遇到问题是如何把握采集样本的容量,如果容量n 太小,估计问题不那么精确,检验问题就不太可靠;容量太大,又会造成人力物力的浪费。在此我们的就是要结合实际求出一个即满足精度又相对较小的样本容量。 2、问题求解[1]: ● 参数估计 1、 点估计 以正态总体为例,有 ,已知 为其样本。 a 的无偏估计为 ,且 ,若要求 ,其中,δ 是已知常数,则 ,从而使估计可以更精确 。 2、区间估计 以正态总体 为例有: 当 已知有 )/ ~(0,1) a N ξσ- 当 未知有 a 的置信水平为1-α的区间估计分别为: ● 假设检验(以参数检验为主) 1、 参数检验基本思想: 2 ~(,)N a ξσ12n ,,,ξξξ??????ξ2()/D n ξσ=()D ξδ<2 /n σδ>2 (,)N a σσ σ1 )/~n a S t ξ- -____ /2/2((a u u ααξσξσ+≥≥ -____ /2/2 (1)((1)(t n a t n ααξξ+-≥≥--

抽样调查的样本容量的确定方法

抽样调查的样本容量的确定方法 摘要:确定样本容量是抽样调查中重要的环节,影响到抽样估计的精确度和调查的成本和效益。单位标志变异程度、抽样极限误差、抽样推断的可靠度、抽样类型和方法等影响到样本容量地确定。样本容量的确定可以根据由抽样误差、抽样极限误差和概率度推算出来的公式计算,也可以根据建立在过去抽取满足统计方法要求的样本量所累积下来的经验法则来确定。 关键词:样本容量;抽样调查;抽样误差;极限误差 抽样调查是根据随机原则,从总体中抽取部分实际数据构成样本,同时运用概率估计方法,依据样本信息推断总体数量特征的一种非全面统计调查。根据抽选样本的方法,抽样调查可以分为等概率抽样和非概率抽样两类。等概率抽样又称为随机抽样,是按照概率论和数理统计的原理,从调查研究的总体中,根据随机原则来抽选样本,并从数量上对总体的某些特征做出估计推断,对推断出可能出现的误差可以从概率意义上加以控制。样本是从总体中抽出的部分单位的集合,样本中所包含的单位数被称为样本容量,一般用n表示。确定样本容量是制定抽样调查方案中的一个非常重要的环节。 1.确定样本容量的必要性 1.1样本容量大小影响抽样估计的精确度 抽样估计的精确度是指样本的统计量与其所代表的总体值的接近程度。调查结果相对于总体真实值的精确度与样本容量直接相关。样本容量越大,抽样误差相对就会减少,估计精度就会提高;若样本容量太小,抽样误差就会增大,从而影响抽样估计的精确度。 1.2样本容量大小影响抽样调查的成本和效益 样本量的设计通常受到研究经费及调查时间的限制。根据数理统计规律,样本量增加呈直线递增的情况下(样本量增加一倍,成本也增加一倍),而抽样误差只是样本量相对增长速度的平方根递减。若样本容量过大,调查单位增多,不仅增加人力、财力和物力的耗费,增加调查费用,而且还影响到抽样调查的时效性,从而不能充分发挥抽样调查的优越性。 因此,为节省调查费用,体现出抽样调查的优越性,在确定样本容量时,应在满足抽样调查对估计数据的精确度的前提下,尽量减少调查单位数,确保必要的抽样数目。 2.影响必要样本容量的主要因素 影响样本容量的因素是多方面的,在抽样调查总体、调查费用和调查时间既定的情况下,为确定最佳的样本容量,应首先分析影响样本容量的因素。从理论上说,影响样本容量的因素有以下几个方面: 2.1单位标志变异程度 或成数方差P(1-P)的大小来表示。在其他单位标志变异程度一般用方差2

样本容量确定

11 第三节 样本容量的确定 在区间估计中我们发现,对于某一个总体的参数进行估计时,在样本数目一定的条件下,要提高估计结果的可靠性,就需要扩大置信区间,这就要增加估计中的误差,减少了估计的实际意义。如果要减少估计的误差,就要缩短置信区间,但这样就必须要降低估计的可靠性。可见在样本数目一定的条件下,估计的精确性和估计的可靠性不能两全其美。既要提高估计的精确性,减少误差,又要提高估计可靠性的办法就是增加样本容量。但是增加样本就要同时增加抽样调查的成本,同时又可能延误时间。因此就需要研究能够满足对估计的可靠性和精确性要求的最小样本数问题。 一、均值估计问题中,样本大小的决定 在总体均值的估计问题中,要决定必要的样本大小,必须先明确如下三个问题: 1. 要规定允许的估计误差的大小,即允许的估计值与实际值之间的最大偏离值是多少,实际上也就是估计区间的大小, 2. 规定置信度,即估计所要求达到的可靠性,也就是实际的抽样误差不超过所规定的误差的可信度。 3. 要明确总体的标准差,即要求了解总体的分布情况。总体的标准差小,只要抽较少的样本就能满足对估计精确度和可靠性的要求,若总体标准差大,就必须抽取较多的样本才能达到对估计精确度和可靠性的要求。 设总体标准差为σ,样本均值的标准差为x σ。估计的置信度为1-α,于是可以 相应地得到置信系数Z α/2。于是对总体均值的估计可由下式得到: ()P X Z x -

如何确定抽样统计的最小样本量

?a方支持率为45.3%; ?b方支持率为30.2%; ?c方支持率为8.5%; ?... 最后都会说明一下,此次电话调查的数量2352,置信度为95%﹐最大抽样误差为±2.5%。 抽样调查的典型情景:对一个大的集合(比如:数千万选民)做一次调查的成本较高,抽样调查可以低成本的用近似的(可接受的)数据反映实际情况;在用户调研中,也经常通过通过抽样调查的方式并对比打分的方法做评估。这里就需要了解置信度和抽样误差的概念; 抽样误差:假如相同规模的抽样调查进行多次,抽样均值在真实均值的上下波动,相对于整体均值的偏移波动就是抽样误差,而这个误差的分布是符合标准正态分布的,例如下图:横轴为整体的均值,圆点是每次抽样的均值,而红色那次抽样就是加上误差后都未覆盖到均值线的情况);

最小抽样量的计算公式:抽样量需要> 30个才算足够多,可以用以下近似的误差/样本量估算公式; n:为样本量; :方差,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采样量越多; E:为抽样误差(可以根据均值的百分比设定),由于是倒数平方关系,抽样误差减小为1/2,抽样量需要增加为4倍; : 为可靠性系数,即置信度,置信度为95%时,=1.96,置信度为90%时,=1.645,置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%; 为了体现相对差距:假设抽样均值为y 相对抽样误差h = E / y 变异系数C= σ / y

以下是基于抽样得分的抽样误差估算表格:方差越大需要的样本量越多,数据离散度越低,需要的抽样量越少; 相对抽样误差(假设:C=0.4) π为按照经验得出的最后比例,在未知时π可取50%,待算出结果后再重新拟合,比例越悬 从而看出大部分的电话抽样调查:95%置信度的情况下,误差要控制在2%以内取样量一般在2000-5000;为了方便计算抽样调查的误差和估算抽样量,制作了一个Excel表格附后,调整颜色框中的抽样量数字就可以得到相应的误差或根据指定的误差范围估算出抽样量;

最新样本量的确定知识讲解

样本量的确定 1. 二值分布(估计比例时的样本容量) 这种情况下,表明可能的采样结果只有两种情况,即是与非的问题。比如调查某一批产品的合格率。样本量的确定主要受以下几个因素影响:置信水平α、所能接受的抽样偏差e (估计值与真实值的最大偏差)、总体数量N ;通过置信水平即可查表确定z 。 通常情况下置信水平选择95%。抽样偏差为±5%,不过也不完全一定,抽样偏差的确定还是要考虑实际情况,比如最小的调查估计值p=5%,此时抽样偏差就应该小于5%。 这时,就可以确定样本量: 22 2(1)(1)z p p n z p p e N -=-+ P 值的确定:用以前类似样本得到的结果来近似,如果完全不知道就设p=0.5,因为此时方差最大,可求得一个比较保守的样本容量。 样本容量和在p=0.5时运用简单随机抽样估计p 值得到的抽样偏差e

如果总体容量N 非常大,可近似为无穷,那么上面这个公式可简化成: 22 (1)z p p n e -= 事实上当总体容量很小时,不会采用抽样调查,而是普查了。 2. 正态分布(估计均值时的样本容量) 在这种情况下,表明采样的结果是具有多样性的,并不局限在0、1上。比如对某一城市老年人的患病年龄进行统计。这个时候,样本量同样受如下几个因素影响:置信水平α、所能接受的抽样偏差e (估计值与真实值的最大偏差)、总体数量N 。 样本量为: 22 222 z S n z S e N = + S 表明的是总体标准差,这个可以用以前类似样本得到的S 或是实验调查样本的S 来近似。 同样,如果总体容量N 非常大,可近似为无穷,那么上面这个公式可简化成: 22 2 z S n e = 理论基础: 根据数理统计知识,样本均值对总体均值可构造如下统计量: x X u σ-,他满足标准正态分 布,查表即可得到某一显著性水平下这个统计量的值,这里面的x σ表示总体均值估计量的标准误差。 在无放回简单随机抽样情况下,总体均值估计量的标准误差表达式: x σ=

市场调研样本容量的确定

怡丰城市场调研样本容量的确定 在参数区间估计的讨论中,估计值」和总体的参数丘之间存在着一定的差异,这种差异 是由样本的随机性产生的。在样本容量不变的情况下,若要增加估计的可靠度,置信区间就 会扩大,估计的精度就降低了。若要在不降低可靠性的前提下,增加估计的精确度,就只有 扩大样本容量。当然,增大样本容量要受到人力、物力和时间等条件的限制,所以需要在满足一定精确度的条件下,尽可能恰当地确定样本容量。 、影响样本容量的因素 (一)总体的变异程度(总体方差)在其它条件相同的情况下,有较大方差的总体,样本的容量应该大一些,反之则应该小一些。 例如:在正态总体均值的估计中,抽样平均误差为它反映了样本均值相对于总体均值的离散程度。所以,当总体方差较大时,样本的容量也相应要大,这样才会使较L航小, 以保证估计的精确度。 (二)允许误差的大小 差可以表示为I疋—国=4 ,允许误差以绝对值的形式表现了抽样误差的可能范围,所以又称为误差。 允许误差说明了估计的精度,所以,在其他条件不变的情况下,如果要求估计的精度高,允许误差就小,那么样本容量就要大一些;如要求的精确度不高,允许误差可以大些,则样本容量可以小一些。 (三)概率保证度1—a的大小 概率保证度说明了估计的可靠程度。所以,在其他条件不变的情况下,如果要求较高的可靠 度,就要增大样本容量;反之,可以相应减少样本容量。 (四)抽样方法不同 在相同的条件下,重复抽样的抽样平均误差比不重复抽样的抽样平均误差大,所需要的样本 容量也就不同。重复抽样需要更大的样本容量,而不重复抽样的样本容量则可小一些。 二、样本容量的计算 在计算样本容量时,必须知道总体的方差,而在实际抽样调查前,往往总体的方差是未知的。在实际操作时,可以用过去的资料,若过去曾有若干个方差,应该选择最大的,以保证抽样估计的精确度;也可以进行一次小规模的调查,用调查所得的样本方差来替代总体的 方差。 在上星期的两天调研中,我们选取了200份有效问卷作为替代样本,来推算样本容量。 一下是具体的计算方法。 怡丰城顾客满意程度得分 满意很满意满意较为满意不满意较不满意很不满意程度(6分)(5分)(4分)(3分)(2分)(1 分) 购物环境34 10162210 商品服务2499715 10 允许误差指允许的抽样误差,记为 —日=4,例如,样本均值与总体均值之间的允许误

样本容量的确定

样本容量的确定分类:Statistics 在参数区间估计的讨论中,估计值和总体的参数之间存在着一定的差异,这种差异是由样本的随机性产生的。在样本容量不变的情况下,若要增加估计的可靠度,置信区间就会扩大,估计的精度就降低了。若要在不降低可靠性的前提下,增加估计的精确度,就只有扩大样本容量。当然,增大样本容量要受到人力、物力和时间等条件的限制,所以需要在满足一定精确度的条件下,尽可能恰当地确定样本容量。 一、影响样本容量的因素 (一)总体的变异程度(总体方差) 在其它条件相同的情况下,有较大方差的总体,样本的容量应该大一些,反之则应 该小一些。例如:在正态总体均值的估计中,抽样平均误差为它反映了样本均值相对于总体均值的离散程度。所以,当总体方差较大时,样本的容量也相应要 大,这样才会使较小,以保证估计的精确度。 (二)允许误差的大小 允许误差指允许的抽样误差,记为,例如,样本均值与总体均值之间的 允许误差可以表示为,允许误差以绝对值的形式表现了抽样误差的可能范围,所以又称为误差。 允许误差说明了估计的精度,所以,在其他条件不变的情况下,如果要求估计的精度高,允许误差就小,那么样本容量就要大一些;如要求的精确度不高,允许误差可以大些,则样本容量可以小一些。 (三)概率保证度1-α的大小 概率保证度说明了估计的可靠程度。所以,在其他条件不变的情况下,如果要求较高的可靠度,就要增大样本容量;反之,可以相应减少样本容量。 (四)抽样方法不同 在相同的条件下,重复抽样的抽样平均误差比不重复抽样的抽样平均误差大,所需要的样本容量也就不同。重复抽样需要更大的样本容量,而不重复抽样的样本容量则可小一些。

总体、个体、样本、样本容量中考试

总体、个体、样本、样本容量中考试 题汇编 一、选择题(共26小题) 1、(2010?徐州)为了解我市市区及周边近170万人的出行情况,科学规划轨道交通,2010年5月,400名调查者走入1万户家庭,发放3万份问卷,进行调查登记.该调查中的样本容量是() A、170万 B、400 C、1万 D、3万 2、(2010?乐山)某厂生产上第世博会吉祥物:“海宝”纪念章10万个,质检部门为检测这批纪念章质量的合格情况,从中随机抽查500个,合格499个.下列说法正确的是() A、总体是10万个纪念章的合格情况,样本是500个纪念章的合格情况 B、总体是10万个纪念章的合格情况,样本是499个纪念章的合格情况 C、总体是500个纪念章的合格情况,样本是500个纪念章的合格情况 D、总体是10万个纪念章的合格情况,样本是1个纪念章的合格情况 3、(2009?湘西州)要了解一批电视机的使用寿命,从中任意抽取40台电视机进行试验,在这个问题中,40是()A、个体B、总体C、样本容量D、总体的一个样本 4、(2009?呼和浩特)为了解我市参加中考的15 000名学生的视力情况,抽查了1 000名学生的视力进行统计分析,下面四个判断正确的是() A、15000名学生是总体 B、1000名学生的视力是总体的一个样本 C、每名学生是总体的一个个体 D、以上调查是普查 5、(2008?包头)为了解我市七年级20 000名学生的身高,从中抽取了500名学生,对其身高进行统计分析,以下说法正确的是()

A、20 000名学生是总体 B、每个学生是个体 C、500名学生是抽取的一个样本 D、每个学生的身高是个体 6、(2006?娄底)去年娄底市有7.6万学生参加初中毕业会考,为了解这 7.6万名学生的数学成绩,从中抽取1 000名考生的数学成绩进行统计分析,以下说法正确的是() A、这1000名考生是总体的一个样本 B、7.6万名考生是总体 C、每位考生的数学成绩是个体 D、1000名学生是样本容量 7、(2005?扬州)某同学为了解扬州火车站今年“春运”期间每天乘车人数,随机抽查了其中5天的乘车人数.所抽查的这5天中每天的乘车人数是这个问题的() A、总体 B、个体 C、样本 D、样本容量 8、(2005?宿迁)今年我市有9万名初中毕业生参加升学考试,为了了解9万名考生的数学成绩,从中抽取2000名考生数学成绩进行统计分析.在这个问题中总体是() A、9万名考生 B、2000名考生 C、9万名考生的数学成绩 D、2000名考生的数学成绩9、(2005?辽宁)一次数学考试考生约12万名,从中抽取5 000名考生的数学成绩进行分析,在这个问题中样本指的是() A、5 000 B、5 000名考生的数学成绩 C、12万考生的数学成绩 D、5 000名考生10、(2004?无为县)为了了解无为县2003年17200名学生参加初中升学考试成绩情况,县教育局从中抽取了291名考生的数学试卷进行成绩统计,在这个问题中,下列说法:①这17200名考生的数学升学考试成绩的全体是总体;②每个考生是个体;③291名考生是总体的一个样本;④样本容量是291.其中说法正确的是()A、4个B、3个C、2个D、1个 11、(2002?大连)为了了解一批电视机的寿命,从中抽取100台电视机进行试验,这个问题中的样本是()A、这批电视机的寿命B、抽取的100台电视机C、100D、抽取的100台电视机的寿命12、(2000?兰州)为考察某地区初三

市场调研样本容量的确定

怡丰城市场调研样本容量的确定在参数区间估计的讨论中,估计值和总体的参数之间存在着一定的差异,这种差异 是由样本的随机性产生的。在样本容量不变的情况下,若要增加估计的可靠度,置信区间就会扩大,估计的精度就降低了。若要在不降低可靠性的前提下,增加估计的精确度,就只有扩大样本容量。当然,增大样本容量要受到人力、物力和时间等条件的限制,所以需要在满足一定精确度的条件下,尽可能恰当地确定样本容量。 一、影响样本容量的因素 (一)总体的变异程度(总体方差) 在其它条件相同的情况下,有较大方差的总体,样本的容量应该大一些,反之则应该小一些。例如:在正态总体均值的估计中,抽样平均误差为它反映了样本均值相对于总体均值的离散程度。所以,当总体方差较大时,样本的容量也相应要大,这样才会使较小,以保证估计的精确度。 (二)允许误差的大小 允许误差指允许的抽样误差,记为,例如,样本均值与总体均值之间的允许误 差可以表示为,允许误差以绝对值的形式表现了抽样误差的可能范围,所以又称为误差。 允许误差说明了估计的精度,所以,在其他条件不变的情况下,如果要求估计的精度高,允许误差就小,那么样本容量就要大一些;如要求的精确度不高,允许误差可以大些,则样本容量可以小一些。 (三)概率保证度1-α的大小 概率保证度说明了估计的可靠程度。所以,在其他条件不变的情况下,如果要求较高的可靠度,就要增大样本容量;反之,可以相应减少样本容量。 (四)抽样方法不同 在相同的条件下,重复抽样的抽样平均误差比不重复抽样的抽样平均误差大,所需要的样本容量也就不同。重复抽样需要更大的样本容量,而不重复抽样的样本容量则可小一些。二、样本容量的计算 在计算样本容量时,必须知道总体的方差,而在实际抽样调查前,往往总体的方差是未知的。在实际操作时,可以用过去的资料,若过去曾有若干个方差,应该选择最大的,以保证抽样估计的精确度;也可以进行一次小规模的调查,用调查所得的样本方差来替代总体的方差。 在上星期的两天调研中,我们选取了200份有效问卷作为替代样本,来推算样本容量。一下是具体的计算方法。

总体、个体、样本、样本容量中考试题汇编

总体、个体、样本、样本容量中考试题汇编 一、选择题(共26小题) 1、(2010?徐州)为了解我市市区及周边近170万人的出行情况,科学规划轨道交通,2010年5月,400名调查者走入1万户家庭,发放3万份问卷,进行调查登记.该调查中的样本容量是() A、170万 B、400 C、1万 D、3万 2、(2010?乐山)某厂生产上第世博会吉祥物:“海宝”纪念章10万个,质检部门为检测这批纪念章质量的合格情况,从中随机抽查500个,合格499个.下列说法正确的是() A、总体是10万个纪念章的合格情况,样本是500个纪念章的合格情况 B、总体是10万个纪念章的合格情况,样本是499个纪念章的合格情况 C、总体是500个纪念章的合格情况,样本是500个纪念章的合格情况 D、总体是10万个纪念章的合格情况,样本是1个纪念章的合格情况 3、(2009?湘西州)要了解一批电视机的使用寿命,从中任意抽取40台电视机进行试验,在这个问题中,40是()A、个体B、总体C、样本容量D、总体的一个样本 4、(2009?呼和浩特)为了解我市参加中考的15 000名学生的视力情况,抽查了1 000名学生的视力进行统计分析,下面四个判断正确的是() A、15000名学生是总体 B、1000名学生的视力是总体的一个样本 C、每名学生是总体的一个个体 D、以上调查是普查 5、(2008?包头)为了解我市七年级20 000名学生的身高,从中抽取了500名学生,对其身高进行统计分析,以下说法正确的是() A、20 000名学生是总体 B、每个学生是个体 C、500名学生是抽取的一个样本 D、每个学生的身高是个体 6、(2006?娄底)去年娄底市有7.6万学生参加初中毕业会考,为了解这7.6万名学生的数学成绩,从中抽取1 000名考生的数学成绩进行统计分析,以下说法正确的是() A、这1000名考生是总体的一个样本 B、7.6万名考生是总体 C、每位考生的数学成绩是个体 D、1000名学生是样本容量 7、(2005?扬州)某同学为了解扬州火车站今年“春运”期间每天乘车人数,随机抽查了其中5天的乘车人数.所抽查的这5天中每天的乘车人数是这个问题的() A、总体 B、个体 C、样本 D、样本容量 8、(2005?宿迁)今年我市有9万名初中毕业生参加升学考试,为了了解9万名考生的数学成绩,从中抽取2000名考生数学成绩进行统计分析.在这个问题中总体是() A、9万名考生 B、2000名考生 C、9万名考生的数学成绩 D、2000名考生的数学成绩 9、(2005?辽宁)一次数学考试考生约12万名,从中抽取5 000名考生的数学成绩进行分析,在这个问题中样本指的是() A、5 000 B、5 000名考生的数学成绩 C、12万考生的数学成绩 D、5 000名考生 10、(2004?无为县)为了了解无为县2003年17200名学生参加初中升学考试成绩情况,县教育局从中抽取了291名考生的数学试卷进行成绩统计,在这个问题中,下列说法:①这17200名考生的数学升学考试成绩的全体是总体;②每个考生是个体;③291名考生是总体的一个样本;④样本容量是291.其中说法正确的是() A、4个 B、3个 C、2个 D、1个 11、(2002?大连)为了了解一批电视机的寿命,从中抽取100台电视机进行试验,这个问题中的样本是() A、这批电视机的寿命 B、抽取的100台电视机 C、100 D、抽取的100台电视机的寿命 12、(2000?兰州)为考察某地区初三年级15 000名学生的数学统一考试情况,从中抽了5本密封试卷,每本50分,进行分析,那么样本容量是() A、5 B、50 C、250 D、15000 13、(1999?辽宁)某火车站为了了解某月每天上午乘车人数,抽查了其中10天的每天上午的乘车人数,所抽查的这10天每天上午乘车人数是这个问题的() A、总体 B、个体 C、一个样本 D、样本容量

相关主题
文本预览
相关文档 最新文档