初级统计学第六章 估计与样本容量
- 格式:docx
- 大小:62.08 KB
- 文档页数:26
第6章抽样与参数估计第6章抽样与参数估计6.1抽样与抽样分布6.2参数估计的基本方法6.3总体均值的区间估计6.4总体比例的区间估计6.5样本容量的确定学习目标理解抽样方法与抽样分布估计量与估计值的概念点估计与区间估计的区别评价估计量优良性的标准总体均值的区间估计方法总体比例的区间估计方法样本容量的确定方法参数估计在统计方法中的地位统计推断的过程6.1抽样与抽样分布什么是抽样推断概率捕样方法抽样分布抽样方法抽样方法概率抽样(probabilitysampling)也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样(simplerandomsampling)从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的最基本的抽样方法,是其它抽样方法的基础特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其它辅助信息以提高估计的效率分层抽样(stratifiedsampling)将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计系统抽样(systematicsainplmg)将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范闱内随机地抽取一个单位作为初始单位,然后按爭先规定好的规则确定其它样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难整群抽样(clustersampling)将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差抽样分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布总体分布(populationdistribution)一个样本中各观察值的分布也称经验分布当样本容屋n逐渐增大时,样本分布逐渐接近总体的分布样本分布(sampledistribution)抽样分布的概念(samplingdistribution)抽样分布是指样本统计屋的分布,即把某种样本统计量看作一个随机变量,这个随机变屋的全部可能值构成的新的总体所形成的分布即为某种统计量的抽样分布.统计量:样本均值,样本比例,样本方差等样本统计量的概率分布是一种理论概率分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据对抽样分布的理解抽样分布:即不是总体分布,也不是样本分布,是根据所有可能样本计算的统计量的全部可能取值形成的分布样本均值的抽样分布容量相同的所有町能样本的样本均值的概率分布一种理论概率分布进行推断总体均值的理论基础样本均值的抽样分布样本均值的抽样分布(例题分析)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。
第6章估计与样本容量6.1 概述这一章我们介绍估计下列总体参数数值的方法:总体均值、比例和方差。
我们还讲述确定这些参数估计所需要的样本容量方法。
6.2 估计总体均值:大样本这一节的主要目标:已知一个集合中样本数据多于30个,讨论总体均值的估计值。
假设1.n30(样本中的数据超过30个)。
2.样本是一个简单随机样本(相同容量的所有样本被选出的可能性相同)。
不仔细收集的数据绝对是毫无价值的,即使样本很大。
这一节中的方法假设,那些样本之间的差异是由于可能的随机波动造成的,而不是因为一些不合理的抽样方法。
定义估计量(estimator)是指使用样本数据来估计总体参数的公式或过程。
估计值(estimate)是指用来近似总体参数的特定数值或数值的范围。
点估计值(point estimate)是用来近似总体参数的一个数值(或点)。
样本均值是总体均值的最优点估计值。
虽然我们可以使用其他统计量,例如样本中位数、中列数或众数作为总体均值的估计值,但研究显示,样本均值x通常会特供最优的估计值,原因有两点。
第一,对于很多总体来说,样本均值x的分布比其他样本统计量的分布有更好的一致性。
第二,对于所有的总体,样本均值x是总体均值的一个无偏估计量,这意味着样本均值分布的中心趋近于总体均值的中心。
我们为什么需要置信区间?置信区间或区间估计是由一个数值范围(或一个区间)构成的,而不是仅由一个点构成的。
定义置信区间(或区间估计)是指用来估计总体参数真实值的一个数据范围(或一个区间)。
一个置信区间和一个置信度相联系,例如0.95(或95%)。
置信度会告诉我们,有百分之多少的时间,置信区间真的包含了总体参数,这里假设这个估计过程可以重复很多次。
在置信度的定义中,用(希腊字母阿尔法的小写)表示一个概率或面积。
的值是置信度的补。
当置信度为0.95(95%)时,=0.05。
当置信度为0.99(99%)时,=0.01。
定义置信度是指概率1-(通常表示为等价的百分数),它是置信区间实际包含总体参数的时间的相对频数,这里假设估计过程可以重复很多次。
(置信度还称作置信水平,或置信系数。
)置信度的最普遍的选择有90%(即=0.10),95%(即=0.05)和99%(即=0.01)。
选择95%是最普遍的,因为它在精确性(反应在置信区间的宽度上)和可靠性之间取得了很好的平衡(由置信度来表达)。
例子:总体均值的0.95(或95%)置信度下的置信区间为98.0898.32。
解释置信区间以98.0898.32为例。
正确的解释:我们有95%的把握从98.08到98.32这个区间实际包含了的真实值。
错误的解释:的真实值有95%的可能性将位于98.08到98.32之间。
临界值构建一个置信区间的必要条件是,我们找到了一个能够用来区分可能发生的样本统计量和不太可能发生的样本统计量的标准z值。
这个z值称为临界值,它基于如下的观察资料。
(269页图6-2)1.由中心极限定理我们知道,样本均值趋于正态分布,如图6-2所示。
2.样本均值落在图6-2中深色尾部区域之一的可能性相当小(用表示这个概率)。
3.将每一个深色阴影的尾部区域的面积用表示,我们看出,样本均值将落在这两个尾部区域中任何一个区域的总概率为。
4.根据互补法则,样本均值将落在图6-2中浅色阴影区域中的概率为1-。
5.将右尾的区域分割出来的z值一般用表示,它指的就是一个临界值,因为它位于把可能发生的样本均值和不太可能发生的样本均值分开的边界线上。
临界值符号是位于垂直边界线上正的z值,这个边界线将标准正态分布右尾的面积分割出来。
下标只是一个简单的提示,表示将标准正态分布右尾的面积分割出来的z值。
定义临界值是指位于将可能发生的样本统计量和不太可能发生的样本统计量分开的边界线上的数值。
数字是一个临界值,这个z值的性质是,它将标准正态分布右尾处的面积分割出来。
例临界值计算对应于95%置信度的临界值解答95%的置信水平对应于=0.05.见图6-3,图中显示,每一个深色阴影尾部的面积都是=0.025.注意到它左边的区域(以均值z=0为边界)面积为0.5-0.025,或0.475,我们算出=1.96。
常见的临界值误差限当用一个简单随机样本的数据估计一个总体均值时,误差限是指观测的样本均值x和总体均值的真实值的最大可能(概率是1-)差异,用E表示。
误差限也称作估计值的最大误差,它可以用临界值乘以样本均值的标准差来算出。
E= (6-1)根据上面的公式,计算误差限E需要知道总体的标准差,但在实际中,当总体均值未知时,我们很少知道。
一般来说,下面的计算方法比较实用。
未知时E的计算如果n>30,可以用样本标准差s替代公式6-1中的。
如果n30,要使用6-1,则总体必须服从正态分布,并且我们必须知道的值。
在误差限E的定义的基础上,可以求出总体均值的置信区间。
总体均值的置信区间(或区间估计值)(基于大样本n>30)x-E<< x+E 其中E=或x E 或(x-E,x+E)定义x-E和x+E这两个值称为置信区间边界。
构建的一个置信区间的程序(基于大样本:n>30)1.计算对应于所求置信度的临界值。
2.估算误差限E= 。
如果总体标准差未知,如果n>30,使用样本标准差s的值。
3.使用算出的误差限E的值和样本均值x的值,计算x-E和x+E 的值。
代替置信区间的一般格式中的这些数值:x-E<< x+E或x E 或(x-E,x+E)4.使用下面的四舍五入法则将结果值四舍五入。
用来估计的置信区间的四舍五入法则1.当使用原始数据集构建置信区间时,将置信区间边界四舍五入到比原始数据集中使用的小数位多一位的小数位。
2. 当原始数据集未知,并且只使用汇总数量(n,x,s)时,将置信区间边界四舍五入到和样本均值中使用的小数位相同数量的小数位由一个置信区间计算点估计值和E的点估计值:x=置信区间上界(置信区间下界)误差限E=置信区间上界(置信区间下界)例人体体温一篇刊登在杂志上的文章中对人体体温的总体均值的置信区间估计为98.0898.32。
使用已知的置信区间边界计算点估计值x和误差限E。
解答x=置信区间上界(置信区间下界)==98.20E=置信区间上界(置信区间下界)=0.12使用置信区间来描述、考察或比较数据描述统计量男性:n=100,x=68.76英寸,s=2.93英寸女性:n=100,x=63.39英寸,s=2.44英寸95%的置信区间男性:68.19英寸英寸女性:62.91英寸英寸这些直方图(274页)说明,男性和女性的身高分布式近似正态的,女性的身高看起来普遍更低一些。
计算置信区间的程序的基础是什么?支持置信区间的构建的基本思想和中心极限定理有关,中心极限定理说的是,对于大样本(n>30),样本均值的分布近似于均值为,标准差为的正态分布。
置信区间的格式实际上是已经用在中心极限定理中的公式的一个变换。
将z=表示如下。
z=如果从这个公式中求出,就有-z使用z的正值和负值,就得到我们正在使用的置信区间边界。
置信度为95%,此时0.05,=1.96。
对于这种情况,有0.05的概率,样本均值偏离总体均值的距离将大于1.96个标准差(或用E表示的/)。
与之相反,样本均值将位于的1.96个标准差(或/)范围内的概率是0.95。
见图6-4(275页)。
如果样本均值x位于总体均值的/倍范围内,则必定在x- /和/之间;这个结论用我们的置信区间的一般格式表示(用E表示/):x-E x+E。
6.3估计总体均值:小样本假设1.n302.样本是一个简单随机样本。
3.样本来自于一个正态分布的总体。
(这是一个宽松的条件,如果总体仅有一个众数,并且基本上是对称的,这个条件也可以满足。
)样本均值是总体均值的最好的点估计值。
本节中讨论的置信区间估计时,针对两种情形:第一,总体标准差已知,第二,是未知的。
情形1(已知):第一种情形在很大程度上来讲是不现实的,因为如果我们不知道总体均值的值而想要估计这个值,那么可以肯定,我们也不知道总体标准差的值。
如果在某些情况下本节开头部分的三个条件能够满足,并且我们也知道的值,就可以使用上一节中所讲述的相同方法来构建的置信区间估计。
也就是说,置信区间边界为x-E和x+E,其中E= 。
情形2(未知):第二种情形更实际一些。
现在我们不使用正态分布,而使用学生t分布。
学生t分布如果总体的分布基本上是正态的(大致钟形的),则对于所有的容量为n的样本,分布t=基本上就是一个学生t分布。
学生t分布被称为t分布,它可以用来计算表示的临界值。
定义一个数据集的自由度是指在一定的条件限制到所有的数据值以后,样本数值能够发生变化的数量。
自由度=n-1例计算临界值一个容量为n=15的样本是一个从正态分布的总体中选出的简单随机样本。
计算对应于95%置信度的临界值。
解答因为n=15,所以自由度的值就是n-1=14。
使用附录表A-3,在最左边的列中找到第14行。
95%的置信度对应于=0.05,所以我们找到标有“0.05(双尾)”的列。
第14行和标有“0.05(双尾)”的列相交的数值为2.145,因此=2.145。
的估计值的误差限E基于未知的和来自正态分布总体的小简单随机样本(n30)E=(6-2)其中的自由度为n-1。
的估计值的置信区间基于未知的和来自正态分布总体的小简单随机样本(n30)x-E x+E 其中E=学生t分布的重要性1.不同的样本容量,学生t分布也有所不同。
2. 学生t分布和标准正态分布有相同的大致对称的钟形形状,但对于小样本,它显示出更大的方差(分布更宽)。
3. 学生t分布的均值为t=0(就像标准正态分布有均值z=0)。
4. 学生t分布的标准差随着样本容量的变化而变化,但它是大于1的(不像标准正态分布中,)。
5.随着样本容量n的增大,学生t分布趋近于标准正态分布。
对于n30的值,二者之间的差异就很小了,我们就可以使用临界z值,而不用建构一个更大的临界t值表。
使用学生t分布的条件1.样本是小样本(n30);2.是未知的;3.样本所来自的总体基本上是正态分布。
选择恰当的分布有时候,确定是标准正态z分布还是学生t分布有些困难。
图6-6中的流程图和表6-2都汇总了在估计总体均值时,构建置信区间时要考虑的要点。
图6-6 使用正态分布和t分布在正态z分布和学生t分布之间进行选择时,除了用样本容量作为主要的标准外,一些统计学家和软件还使用对总体标准差的掌握程度作为主要的选择标准,如下面的选择:如果总体标准差是已知的,并且样本是来自正态分布总体的,使用正态分布。
如果总体标准差是未知的,并且样本是来自正态分布总体的,使用学生t分布。
6.4 估计所需的样本容量这一节将要解决的问题是:当我们打算收集一个简单随机数据样本以用于估计一个总体均值时,必须要收集多少个样本数据?换句话说,我们将要计算估计总体均值取值时所需的样本容量n。