(抽样检验)抽样与参数估计最全版
- 格式:doc
- 大小:1.02 MB
- 文档页数:16
抽样分布一、抽样分布的理论及定理 (一) 抽样分布抽样分布是统计推断的基础,它是指从总体中随机抽取容量为n 的若干个样本,对每一样本可计算其k 统计量,而k 个统计量构成的分布即为抽样分布,也称统计量分布或随机变量函数分布。
(二) 中心极限定理中心极限定理是用极限的方法所求的随机变量分布的一系列定理,其内容主要反映在三个方面。
1.如果总体呈正态分布,则从总体中抽取容量为n 的一切可能样本时,其样本均数的分布也呈正态分布;无论总体是否服从正态分布,只要样本容量足够大,样本均数的分布也接近正态分布。
2.从总体中抽取容量为n 的一切可能样本时,所有样本均数的均数(X μ)等于总体均数(μ)即μμ=X3.从总体中抽取容量为n 的一切可能样本时,所有样本均数的标准差(X σ)等于总体标准差除以样本容量的算数平方根,即n X σσ=中心极限定理在统计学中是相当重要的。
因为许多问题都使用正态曲线的方法。
这个定理适于无限总体的抽样,同样也适于有限总体的抽样。
中心极限定理不仅给出了样本均数抽样分布的正态性依据,使得大多数数据分布都能运用正态分布的理论进行分析,而且还给出了推断统计中两个重要参数(即样本均数X μ与样本标准差X σ)的计算方法。
(三)抽样分布中的几个重要概念1.随机样本。
统计学是以概率论为其理论和方法的科学,概率又是研究随机现象的,因此进行统计推断所使用的样本必须为随机样本(random sample )。
所谓随机样本是指按照概率的规律抽取的样本,2.抽样误差。
从总体中抽取容量为n 的k 个样本时,样本统计量与总体参数之间总会存在一定的差距,而这种差距是由于抽样的随机性所引起的样本统计量与总体参数之间的不同,称为抽样误差。
3.标准误。
样本统计量分布的标准差或某统计量在抽样分布上的标准差,符号SE 或Xσ表示。
根据中心极限定理其标准差为n X σσ=正如标准差越小,数据分布越集中,平均数的代表性越好。
第四章习题抽样调查一、填空题1.抽样调查是遵循随机的原则抽选样本,通过对样本单位的调查来对研究对象的总体数量特征作出推断的。
2.采用不重复抽样方法,从总体为N的单位中,抽取样本容量为n的可能样本个数为N(N-1)(N-2)……(N-N+1)。
3.只要使用非全面调查的方法,即使遵守随机原则,抽样误差也不可避免会产生。
4.参数估计有两种形式:一是点估计,二是区间估计。
5.判别估计量优良性的三个准则是:无偏性、一致性和有效性。
6.我们采用“抽样指标的标准差”,即所有抽样估计值的标准差,作为衡量抽样估计的抽样误差大小的尺度。
7.常用的抽样方法有简单随机抽样、类型(分组)抽样、等距抽样、整群抽样和分阶段抽样。
8.对于简单随机重复抽样,若其他条件不变,则当极限误差范围Δ缩小一半,抽样单位数必须为原来的4倍。
若Δ扩大一倍,则抽样单位数为原来的1/4。
9.如果总体平均数落在区间960~1040内的概率是95%,则抽样平均数是1000,极限抽样误差是40.82,抽样平均误差是20.41。
10.在同样的精度要求下,不重复抽样比重复抽样需要的样本容量少,整群抽样比个体抽样需要的样本容量多。
二、判断题1.抽样误差是抽样调查中无法避免的误差。
(√)2.抽样误差的产生是由于破坏了随机原则所造成的。
(×)3.重复抽样条件下的抽样平均误差总是大于不重复抽样条件下的抽样平均误差。
(√)4.在其他条件不变的情况下,抽样平均误差要减少为原来的1/3,则样本容量必须增大到9倍。
(√)5.抽样调查所遵循的基本原则是可靠性原则。
(×)6.样本指标是一个客观存在的常数。
(×)7.全面调查只有登记性误差而没有代表性误差,抽样调查只有代表性误差而没有登记性误差。
(×)8.抽样平均误差就是抽样平均数的标准差。
(×)三、单项选择题1.用简单随机抽样(重复)方法抽取样本单位,如果要使抽样平均误差降低50%,则样本容量需扩大为原来的(C)A.2倍B.3倍C.4倍D.5倍2.事先将全及总体各单位按某一标志排列,然后依固定顺序和间隔来抽选调查单位的抽样组织方式叫做(D)A.分层抽样B.简单随机抽样C.整群抽样D.等距抽样3.计算抽样平均误差时,若有多个样本标准差的资料,应选哪个来计算(B)A.最小一个B.最大一个C.中间一个D.平均值4.抽样误差是指(D)A.计算过程中产生的误差B.调查中产生的登记性误差C.调查中产生的系统性误差D.随机性的代表性误差5.抽样成数是一个(A)A.结构相对数B.比例相对数C.比较相对数D.强度相对数6.成数和成数方差的关系是(C)A.成数越接近于0,成数方差越大B.成数越接近于1,成数方差越大C.成数越接近于0.5,成数方差越大D.成数越接近于0.25,成数方差越大7.整群抽样是对被抽中的群作全面调查,所以整群抽样是(B)A.全面调查B.非全面调查C.一次性调查D.经常性调查8.对400名大学生抽取19%进行不重复抽样调查,其中优等生比重为20%,概率保证程度为95.45%,则优等生比重的极限抽样误差为(40%)A. 4%B. 4.13%C. 9.18%D. 8.26%9.根据5%抽样资料表明,甲产品合格率为60%,乙产品合格率为80%,在抽样产品数相等的条件下,合格率的抽样误差是(B)A.甲产品大B.乙产品大C.相等D.无法判断10.抽样调查结果表明,甲企业职工平均工资方差为25,乙企业为100,又知乙企业工人数比甲企业工人数多3倍,则随机抽样误差(B)A.甲企业较大B.乙企业较大C.不能作出结论D.相同四、多项选择题抽样调查中的抽样误差是(ABCDE)A.是不可避免要产生的B.是可以通过改进调查方法来避免的C.是可以计算出来的D.只能在调查结果之后才能计算E.其大小是可以控制的2.重复抽样的特点是(AC)A.各次抽选相互影响B.各次抽选互不影响C.每次抽选时,总体单位数始终不变D每次抽选时,总体单位数逐渐减少E.各单位被抽中的机会在各次抽选中相等3.抽样调查所需的样本容量取决于(ABE)A.总体中各单位标志间的变异程度B.允许误差C.样本个数D.置信度E.抽样方法4.分层抽样误差的大小取决于(BCD)A.各组样本容量占总体比重的分配状况B.各组间的标志变异程度C.样本容量的大小D.各组内标志值的变异程度E.总体标志值的变异程度5.在抽样调查中(ACD)A.全及指标是唯一确定的B.样本指标是唯一确定的C.全及总体是唯一确定的D.样本指标是随机变量E.全及指标是随机变量五、名词解释1.抽样推断2.抽样误差3.重复抽样与不重复抽样4.区间估计六、计算题1.某公司有职工3000人,现从中随机抽取60人调查其工资收入情况,得到有关资料如下:(1)试以0.95的置信度估计该公司工人的月平均工资所在范围。
第五章抽样调查及参数估计5.1 抽样与抽样分布5.2 参数估计的基本方法5.3 总体均值的区间估计5.4 总体比例的区间估计5.5 样本容量的确定一、简答题1.什么是抽样推断?用样本指标估计总体指标应该满足哪三个标准才能被认为是优良的估计?2.什么是抽样误差,影响抽样误差的主要因素有哪些?3.简述概率抽样的五种方式二、填空题1.抽样推断是在随机抽样的基础上,利用样本资料计算样本指标,并据以推算总体数量特征的一种统计分析方法。
2.从全部总体单位中随机抽选样本单位的方法有两种,即重复抽样和不重复抽样。
3.常用的抽样组织形式有简单随机抽样、类型抽样、等距抽样、整群抽样等四种。
4.影响抽样误差大小的因素有总体各单位标志值的差异程度、抽样单位数的多少、抽样方法和抽样调查的组织形式。
5.总体参数区间估计必须具备估计值、概率保证程度或概率度、抽样极限误差等三个要素。
6.从总体单位数为N的总体中抽取容量为n的样本,在重复抽样和不重复抽样条件下,可能的样本个数分别是______________和_____________。
7.简单随机_抽样是最基本的抽样组织方式,也是其他复杂抽样设计的基础。
8.影响样本容量的主要因素包括总体各单位标志变异程度_、__允许的极限误差Δ的大小、_抽样方法_、抽样方式、抽样推断的可靠程度F(t)的大小等。
三、选择题1.抽样调查需要遵守的基本原则是( B )。
A.准确性原则 B.随机性原则 C.代表性原则 D.可靠性原则2.抽样调查的主要目的是( A )。
A.用样本指标推断总体指标 B.用总体指标推断样本指标C.弥补普查资料的不足 D.节约经费开支3.抽样平均误差反映了样本指标与总体指标之间的( B )。
A.实际误差 B.实际误差的平均数C.可能的误差范围 D.实际的误差范围4.对某种连续生产的产品进行质量检验,要求每隔一小时抽出10分钟的产品进行检验,这种抽查方式是( D )。
A.简单随机抽样 B.类型抽样 C.等距抽样 D.整群抽样5.在其他情况一定的情况下,样本单位数与抽样误差之间的关系是( B )。
(抽样检验)抽样与参数估计最全版(抽样检验)抽样与参数估计抽样和参数估计推断统计:利⽤样本统计量对总体某些性质或数量特征进⾏推断。
从数据得到对现实世界的结论的过程就叫做统计推断(statisticalinference)。
这个调查例⼦是估计总体参数(某种意见的⽐例)的壹个过程。
估计(estimation)是统计推断的重要内容之壹。
统计推断的另壹个主要内容是本章第⼆节要介绍的假设检验(hypothesistesting)。
因此本节内容就是由样本数据对总体参数进⾏估计,即:学习⽬标:了解抽样和抽样分布的基本概念理解抽样分布和总体分布的关系了解点估计的概念和估计量的优良标准掌握总体均值、总体⽐例和总体⽅差的区间估计第⼀节抽样和抽样分布回顾相关概念:总体、个体和样本抽样推断:从所研究的总体全部元素(单位)中抽取壹部分元素(单位)进⾏调查,且根据样本数据所提供的信息来推断总体的数量特征。
总体(Population):调查研究的事物或现象的全体参数个体(Itemunit):组成总体的每个元素样本(Sample):从总体中所抽取的部分个体统计量样本容量(Samplesize):样本中所含个体的数量壹般将样本单位数不少于三⼗个的样本称为⼤样本,样本单位数不到三⼗个的样本称为⼩样本。
壹、抽样⽅法及抽样分布1、抽样⽅法(1)、概率抽样:根据已知的概率选取样本①、简单随机抽样:完全随机地抽选样本,使得每壹个样本都有相同的机会(概率)被抽中。
注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,⼜可分为重复抽样和不重复抽样。
⽽且,根据抽样中是否排序,所能抽到的样本个数往往不同。
②、分层抽样:总体分成不同的“层”(类),然后在每壹层内进⾏抽样③、整群抽样:将壹组被调查者(群)作为壹个抽样单位④、等距抽样:在样本框中每隔壹定距离抽选壹个被调查者(2)⾮概率抽样:不是完全按随机原则选取样本①、⾮随机抽样:由调查⼈员⾃由选取被调查者②、判断抽样:通过某些条件过滤来选择被调查者(3)、配额抽样:选择壹群特定数⽬、满⾜特定条件的被调查者2、抽样分布壹般地,样本统计量的所有可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(samplingdistribution)。
抽样与参数估计统计学实验报告抽样与参数估计统计学实验报告概述本实验以抽样与参数估计统计学为主题,研究了参数估计、抽样方法、统计识别等内容。
实验目的1. 熟悉参数估计和统计分析的基本原理和方法;2. 掌握抽样的基本原理,熟悉抽样方法的运用;3. 掌握统计模型识别的方法,进行统计分析和决策;实验介绍1. 参数估计:参数估计是统计分析过程中重要的一步,它是识别某个实际系统的一个重要参数,以此据估计出实际系统的精确参数,估计准确的参数是统计模型的建立的前提。
2. 抽样方法:抽样方法就是从一个总体中取样,所取样的水平表现出一定的代表性,从而能推算出总体的概况,抽样方法有分层抽样、系统抽样、整群抽样等多种。
3. 统计模型识别:是用统计技术进行模型识别,它是利用概率模型来分析数据,建立有效的模型,从而进行有效的分析。
数据分析1. 针对参数估计,我们使用假设检验,通过比较估计值和真实值,进行检验,从而得出参数的准确度。
2. 针对抽样方法,我们使用分层抽样,将总体划分成不同的层,可以更好地表征总体,进行有效抽样。
3. 针对统计模型识别,我们使用多种模型进行比较,根据其检验概率和显著性水平,选择出最有效的模型进行识别。
结论1. 通过假设检验,得出了参数估计的准确度;2. 通过分层抽样得出了较好的抽样结果;3. 通过多种模型进行比较,选择出最有效的模型进行识别。
建议在下次实验中,为了提高参数估计的精度,应该进行更加精细的假设检验;为了增加抽样的可靠性,应该采用更为严谨的抽样方法;此外,要多尝试不同的统计模型,以期得到更好的结果。
(抽样检验)抽样与参数估计抽样和参数估计推断统计:利用样本统计量对总体某些性质或数量特征进行推断。
从数据得到对现实世界的结论的过程就叫做统计推断(statisticalinference)。
这个调查例子是估计总体参数(某种意见的比例)的壹个过程。
估计(estimation)是统计推断的重要内容之壹。
统计推断的另壹个主要内容是本章第二节要介绍的假设检验(hypothesistesting)。
因此本节内容就是由样本数据对总体参数进行估计,即:学习目标:了解抽样和抽样分布的基本概念理解抽样分布和总体分布的关系了解点估计的概念和估计量的优良标准掌握总体均值、总体比例和总体方差的区间估计第一节抽样和抽样分布回顾相关概念:总体、个体和样本抽样推断:从所研究的总体全部元素(单位)中抽取壹部分元素(单位)进行调查,且根据样本数据所提供的信息来推断总体的数量特征。
总体(Population):调查研究的事物或现象的全体参数个体(Itemunit):组成总体的每个元素样本(Sample):从总体中所抽取的部分个体统计量样本容量(Samplesize):样本中所含个体的数量壹般将样本单位数不少于三十个的样本称为大样本,样本单位数不到三十个的样本称为小样本。
壹、抽样方法及抽样分布1、抽样方法(1)、概率抽样:根据已知的概率选取样本①、简单随机抽样:完全随机地抽选样本,使得每壹个样本都有相同的机会(概率)被抽中。
注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,又可分为重复抽样和不重复抽样。
而且,根据抽样中是否排序,所能抽到的样本个数往往不同。
②、分层抽样:总体分成不同的“层”(类),然后在每壹层内进行抽样③、整群抽样:将壹组被调查者(群)作为壹个抽样单位④、等距抽样:在样本框中每隔壹定距离抽选壹个被调查者(2)非概率抽样:不是完全按随机原则选取样本①、非随机抽样:由调查人员自由选取被调查者②、判断抽样:通过某些条件过滤来选择被调查者(3)、配额抽样:选择壹群特定数目、满足特定条件的被调查者2、抽样分布壹般地,样本统计量的所有可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(samplingdistribution)。
某个样本统计量(如均值、比例、方差等)的抽样分布,从理论上说就是在重复选取容量为n的样本时,由每壹个样本计算出的该统计量数值的相对频数分布或概率分布。
二、样本均值的抽样分布和中心极限定理1、样本均值的抽样分布(壹个例子)【例】设壹个总体,含有4个元素(个体),即总体单位数N=4。
4个个体分别为X 1=1、X 2=2、X 3=3、X 4=4。
总体的均值、方差及分布如下均值和方差现从总体中抽取n =2的简单随机样本,在重复抽样条件下,共有42=16个样本。
所有样本的结果如下表计算出各样本的均值,如下表。
且给出样本均值的抽样分布所有样本均值的均值和方差:式中:M 为样本数目 比较及结论:1.样本均值的均值(数学期望)等于总体均值2.样本均值的方差等于总体方差的1/n2、中心极限定理=1n i i x μ==∑=1M x n i i x当总体服从正态分布N~(μ,σ2)时,来自该总体的所有容量为n的样本的均值也服从正态分布,的数学期望为μ,方差为σ2/n。
即x~N(μ,σ2/n)中心极限定理:设从均值为μ,方差为σ2的壹个任意总体中抽取容量为n的样本,当n充分大时(壹般,就能够用中心极限定理了),样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。
即有:和也即有,~其实,样本均值抽样分布的数字特征壹方面和总体分布的均值和方差有关,另壹方面也和抽样的方法是重复抽样仍是不重复抽样有关。
无论是重复抽样或不重复抽样,样本均值的数学期望始终等于总体的均值。
但在不重复抽样条件下,样本均值的方差需要用修正系数去修正重复抽样时均值的方差。
当很大,而时,其修正系数,可视不重复抽样和重复抽样壹致。
uesofthesampleproportion p.)样本比例抽样分布的相关信息,即p的期望值、标准差、抽样分布形状等。
主要应用于分类变量:在经济和商务的许多场合,需要用样本比例p对总体比例P进行统计推断根据中心极限定理有:当样本容量增大时(大样本:经验上,当下面俩个条件(n·p>=5且n(1-p)>=5)满足时,和p相关的样本为大样本),样本比例抽样分布趋向于以样本期望值为中心、以样本方差为方差的正态分布1、期望值(Expectedvalueof p):E(p)=P2、标准差(Standarddeviationof p):重复抽样:不重复抽样:*四、样本方差的抽样分布要用样本方差s2去推断总体的方差σ2,必须知道样本方差的分布。
设总体服从正态分布X~N(μ,σ2),X1,X2,…,X n为来自该正态总体的样本,统计证明比值的抽样分布为自由度是(n-1)的分布,即:~分布的性质:(1)、分布的变量始终为正;(2)、分布的期望为,方差为。
第二节参数估计的基本方法壹、估计量和估计值参数是总体的数值特征(A parameter isanumericalcharacteristicofapopulation。
)参数估计:就是用样本统计量去估计总体的参数。
估计量()(estimator)用于估计总体某壹参数的样本统计量(随机变量)的名称。
样本均值,样本比例、样本方差等都能够是壹个估计量。
估计值(e s t i m a t e):用来估计总体参数时计算出来的估计量的具体数值。
例如:样本均值就是总体均值的壹个估计量如果样本均值 =3,则3就是的估计值二、点估计和判断估计量的优良性准则(壹)、点估计点估计(PointEstimate)就是用样本估计量的值直接作为总体参数的估计值。
设是总体分布中壹个要估计的参数。
例如,总体分布的均值、方差等。
当下从总体中得到壹个随机样本,如何估计?记估计的估计量(统计量)为,简记为若得到壹组样本观察值,就能够得到的估计值:,也记为。
总体分布参数的点估计,就是求出的估计值。
点估计的方法壹般有矩估计发法、极大似然估计法等。
概念要点:1.从总体中抽取壹个样本,根据该样本的统计量对总体的未知参数作出壹个数值点的估计。
例如:用样本均值作为总体未知均值的估计值就是壹个点估计2.点估计没有给出估计值接近总体未知参数程度的信息3.其理论基础是抽样分布(二)、估计量的优良性准则要估计总体的某壹指标,且非只能用壹个样本指标,而可能有多个指标可供选择,即对同壹总体参数,可能会有不同的估计量。
作为壹个好的估计量,估计量必须具有如下性质:无偏性、有效性、壹致性。
1、无偏性(Unbiasedness):样本估计量的数学期望(均值)等于被估总体参数的真值;如果,则称为的无偏估计量。
能够证明,总体方差的样本矩估计量是无偏估计量。
2、有效性(Efficiency):好的点估计量应具有较小的方差;在用估计量来估计总体的某个参数时,如果对其它所有对的估计量总是有:那么,这个估计量就是总体参数的有效估计量。
3、壹致性(C o n s i s t e n c y):随着样本容量的增大,估计量越来越接近被估计的总体参数。
如果满足:,即:则称为的壹致估计量。
能够证明:样本均值、样本比例、样本标准差的点估计是无偏、有效、壹致的。
三、抽样误差和区间估计(壹)、抽样误差(SamplingError)壹个样本能够得到总体参数的壹个点估计,该点估计值和总体参数真值之间的差异,即为抽样误差。
有三个相互联系的概念:1、实际抽样误差:具体样本的估计值和总体参数的实际值之间的离差。
2、抽样平均误差:所有可能样本估计值和相应总体参数的平均差异程度。
3、抽样极限误差壹定概率下抽样误差的可能范围(也称允许误差):注意:①、统计学上往往用抽样极限误差来测度抽样误差的大小或者说测度点估计的精度。
原因:总体参数值往往且不知道,因此,实际抽样误差和抽样平均误差也往往无法求出,但在抽样分布大体知道的情况下,抽样极限误差是能够估计出来的。
②、抽样平均误差是所有可能样本值和总体指标值之间的平均离差,它表明抽样估计的准确度;而抽样极限误差是样本指标值和总体指标值的离差绝对值是表明抽样估计的准确程度的范围。
这也就决定了俩者存在壹定的联系。
通常,把抽样极限误差和抽样平均误差相比,从而使单壹样本的抽样极限误差标准化,壹般称为概率度或相对误差范围,即置信度。
③抽样极限误差的估计总是要和壹定的概率保证程度联系在壹起的。
原因:样本统计量往往是壹随机变量,它和总体参数真值之差也是壹个随机变量,因此就不能期望某次抽样的样本估计值落在壹定区间内是壹个必然事件,而只能给予壹定的概率保证。
因此,在进行抽样估计时,既需要考虑抽样误差的可能范围,同时仍需考虑落到这壹范围的概率大小。
前者是估计的准确度问题,后者是估计的可靠性问题,俩者紧密联系不可分开。
这也正是区间估计所关心的主要问题。
(二)、区间估计(IntervalEstimate)在点估计的基础上,给出总体参数估计的壹个范围,称为参数的区间估计。
若总体分布含壹个未知参数,找出了俩个依赖于样本的估计量:使得其中,,显著性水平壹般取0.05或0.01,则称随机区间为的100(1-)%的置信区间。
百分数100(1-)%被称为置信度或置信水平。
1.根据壹个样本的观察值给出总体参数的估计范围给出总体参数落在这壹区间的概率例如:总体均值落在50~70之间,置信度为95%2、置信水平①.总体未知参数落在区间内的概率②.表示为(1–a),a为显著性水平,是总体参数未在区间内的概率③.常用的显著性水平值有99%,95%,90%,相应的a为,,。
3、区间估计的要点①.依据样本指标和抽样误差去推算总体指标时,只是确定了总体指标的估计范围,且没有确定其具体值。
这个范围表现为壹个上限和壹个下限,从而构成壹个区间。
②.所得的估计区间表示的只是壹个可能范围,而不是绝对的范围。
总体指标在这个范围内的可能性为置信概率()。
③.扩大抽样极限误差能够提高抽样推断的可靠程度,但准确程度会降低;反之,缩小抽样极限误差会降低抽样推断的可靠程度,但准确程度会提高。
第三节壹个总体参数的区间估计4.3.1总体均值的区间估计1、区间估计的基本原理以总体均值的区间估计为例来说明区间估计的基本原理。
在重复抽样或无限总体抽样的情况下,我们知道有、,由此能够知道样本均值落到总体均值的俩侧各为壹个抽样标准差范围内的概率0.6873;落在俩个抽样标准差范围内的概率为0.9545。
而实际上,是已知的,而是未知的,也正是我们要估计的。
由于和的距离是对称的,因此如果有95%的样本均值落在的俩个标准误差的范围内,则也就是说,约有95%的样本均值所构成的俩个标准误差的区间会包括。