(抽样检验)抽样与参数估计
- 格式:doc
- 大小:460.69 KB
- 文档页数:18
抽样分布一、抽样分布的理论及定理 (一) 抽样分布抽样分布是统计推断的基础,它是指从总体中随机抽取容量为n 的若干个样本,对每一样本可计算其k 统计量,而k 个统计量构成的分布即为抽样分布,也称统计量分布或随机变量函数分布。
(二) 中心极限定理中心极限定理是用极限的方法所求的随机变量分布的一系列定理,其内容主要反映在三个方面。
1.如果总体呈正态分布,则从总体中抽取容量为n 的一切可能样本时,其样本均数的分布也呈正态分布;无论总体是否服从正态分布,只要样本容量足够大,样本均数的分布也接近正态分布。
2.从总体中抽取容量为n 的一切可能样本时,所有样本均数的均数(X μ)等于总体均数(μ)即μμ=X3.从总体中抽取容量为n 的一切可能样本时,所有样本均数的标准差(X σ)等于总体标准差除以样本容量的算数平方根,即n X σσ=中心极限定理在统计学中是相当重要的。
因为许多问题都使用正态曲线的方法。
这个定理适于无限总体的抽样,同样也适于有限总体的抽样。
中心极限定理不仅给出了样本均数抽样分布的正态性依据,使得大多数数据分布都能运用正态分布的理论进行分析,而且还给出了推断统计中两个重要参数(即样本均数X μ与样本标准差X σ)的计算方法。
(三)抽样分布中的几个重要概念1.随机样本。
统计学是以概率论为其理论和方法的科学,概率又是研究随机现象的,因此进行统计推断所使用的样本必须为随机样本(random sample )。
所谓随机样本是指按照概率的规律抽取的样本,2.抽样误差。
从总体中抽取容量为n 的k 个样本时,样本统计量与总体参数之间总会存在一定的差距,而这种差距是由于抽样的随机性所引起的样本统计量与总体参数之间的不同,称为抽样误差。
3.标准误。
样本统计量分布的标准差或某统计量在抽样分布上的标准差,符号SE 或Xσ表示。
根据中心极限定理其标准差为n X σσ=正如标准差越小,数据分布越集中,平均数的代表性越好。
第6章抽样与参数估计第6章抽样与参数估计6.1抽样与抽样分布6.2参数估计的基本方法6.3总体均值的区间估计6.4总体比例的区间估计6.5样本容量的确定学习目标理解抽样方法与抽样分布估计量与估计值的概念点估计与区间估计的区别评价估计量优良性的标准总体均值的区间估计方法总体比例的区间估计方法样本容量的确定方法参数估计在统计方法中的地位统计推断的过程6.1抽样与抽样分布什么是抽样推断概率捕样方法抽样分布抽样方法抽样方法概率抽样(probabilitysampling)也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样(simplerandomsampling)从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的最基本的抽样方法,是其它抽样方法的基础特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其它辅助信息以提高估计的效率分层抽样(stratifiedsampling)将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计系统抽样(systematicsainplmg)将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范闱内随机地抽取一个单位作为初始单位,然后按爭先规定好的规则确定其它样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难整群抽样(clustersampling)将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差抽样分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布总体分布(populationdistribution)一个样本中各观察值的分布也称经验分布当样本容屋n逐渐增大时,样本分布逐渐接近总体的分布样本分布(sampledistribution)抽样分布的概念(samplingdistribution)抽样分布是指样本统计屋的分布,即把某种样本统计量看作一个随机变量,这个随机变屋的全部可能值构成的新的总体所形成的分布即为某种统计量的抽样分布.统计量:样本均值,样本比例,样本方差等样本统计量的概率分布是一种理论概率分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据对抽样分布的理解抽样分布:即不是总体分布,也不是样本分布,是根据所有可能样本计算的统计量的全部可能取值形成的分布样本均值的抽样分布容量相同的所有町能样本的样本均值的概率分布一种理论概率分布进行推断总体均值的理论基础样本均值的抽样分布样本均值的抽样分布(例题分析)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。
(抽样检验)抽样与参数估计抽样和参数估计推断统计:利用样本统计量对总体某些性质或数量特征进行推断。
从数据得到对现实世界的结论的过程就叫做统计推断(statisticalinference)。
这个调查例子是估计总体参数(某种意见的比例)的壹个过程。
估计(estimation)是统计推断的重要内容之壹。
统计推断的另壹个主要内容是本章第二节要介绍的假设检验(hypothesistesting)。
因此本节内容就是由样本数据对总体参数进行估计,即:学习目标:了解抽样和抽样分布的基本概念理解抽样分布和总体分布的关系了解点估计的概念和估计量的优良标准掌握总体均值、总体比例和总体方差的区间估计第一节抽样和抽样分布回顾相关概念:总体、个体和样本抽样推断:从所研究的总体全部元素(单位)中抽取壹部分元素(单位)进行调查,且根据样本数据所提供的信息来推断总体的数量特征。
总体(Population):调查研究的事物或现象的全体参数个体(Itemunit):组成总体的每个元素样本(Sample):从总体中所抽取的部分个体统计量样本容量(Samplesize):样本中所含个体的数量壹般将样本单位数不少于三十个的样本称为大样本,样本单位数不到三十个的样本称为小样本。
壹、抽样方法及抽样分布1、抽样方法(1)、概率抽样:根据已知的概率选取样本①、简单随机抽样:完全随机地抽选样本,使得每壹个样本都有相同的机会(概率)被抽中。
注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,又可分为重复抽样和不重复抽样。
而且,根据抽样中是否排序,所能抽到的样本个数往往不同。
②、分层抽样:总体分成不同的“层”(类),然后在每壹层内进行抽样③、整群抽样:将壹组被调查者(群)作为壹个抽样单位④、等距抽样:在样本框中每隔壹定距离抽选壹个被调查者(2)非概率抽样:不是完全按随机原则选取样本①、非随机抽样:由调查人员自由选取被调查者②、判断抽样:通过某些条件过滤来选择被调查者(3)、配额抽样:选择壹群特定数目、满足特定条件的被调查者2、抽样分布壹般地,样本统计量的所有可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(samplingdistribution)。
第五章抽样调查及参数估计5.1 抽样与抽样分布5.2 参数估计的基本方法5.3 总体均值的区间估计5.4 总体比例的区间估计5.5 样本容量的确定一、简答题1.什么是抽样推断?用样本指标估计总体指标应该满足哪三个标准才能被认为是优良的估计?2.什么是抽样误差,影响抽样误差的主要因素有哪些?3.简述概率抽样的五种方式二、填空题1.抽样推断是在随机抽样的基础上,利用样本资料计算样本指标,并据以推算总体数量特征的一种统计分析方法。
2.从全部总体单位中随机抽选样本单位的方法有两种,即重复抽样和不重复抽样。
3.常用的抽样组织形式有简单随机抽样、类型抽样、等距抽样、整群抽样等四种。
4.影响抽样误差大小的因素有总体各单位标志值的差异程度、抽样单位数的多少、抽样方法和抽样调查的组织形式。
5.总体参数区间估计必须具备估计值、概率保证程度或概率度、抽样极限误差等三个要素。
6.从总体单位数为N的总体中抽取容量为n的样本,在重复抽样和不重复抽样条件下,可能的样本个数分别是______________和_____________。
7.简单随机_抽样是最基本的抽样组织方式,也是其他复杂抽样设计的基础。
8.影响样本容量的主要因素包括总体各单位标志变异程度_、__允许的极限误差Δ的大小、_抽样方法_、抽样方式、抽样推断的可靠程度F(t)的大小等。
三、选择题1.抽样调查需要遵守的基本原则是( B )。
A.准确性原则 B.随机性原则 C.代表性原则 D.可靠性原则2.抽样调查的主要目的是( A )。
A.用样本指标推断总体指标 B.用总体指标推断样本指标C.弥补普查资料的不足 D.节约经费开支3.抽样平均误差反映了样本指标与总体指标之间的( B )。
A.实际误差 B.实际误差的平均数C.可能的误差范围 D.实际的误差范围4.对某种连续生产的产品进行质量检验,要求每隔一小时抽出10分钟的产品进行检验,这种抽查方式是( D )。
A.简单随机抽样 B.类型抽样 C.等距抽样 D.整群抽样5.在其他情况一定的情况下,样本单位数与抽样误差之间的关系是( B )。
概率与统计中的抽样与估计概率与统计是一个能够帮助我们了解和解释各种现象和事件的学科。
在概率与统计的研究中,抽样与估计是重要的概念。
本文将介绍抽样与估计的基本概念、方法和应用。
一、抽样的概念与方法1.1 抽样的定义抽样是指从总体中选择一部分元素来进行观察和分析的过程。
总体是指研究对象的全体,而样本则是从总体中抽取出来的具体个体或观测值。
1.2 抽样的方法在概率与统计中,有多种抽样方法可供选择,包括简单随机抽样、系统抽样、分层抽样、多阶段抽样等。
不同的抽样方法适用于不同的研究目的和样本特点,研究者需要根据具体情况选择合适的方法。
二、点估计与区间估计2.1 点估计点估计是利用样本数据对总体参数进行估计的方法。
在点估计中,我们通过计算样本统计量来估计总体参数。
常见的点估计方法包括样本平均数估计总体均值、样本比例估计总体比例等。
2.2 区间估计区间估计是利用样本数据对总体参数进行估计时给出的一个区间范围。
在区间估计中,我们通过计算样本统计量的置信区间来估计总体参数的范围。
常见的区间估计方法包括正态分布的置信区间估计和二项分布的置信区间估计等。
三、抽样与估计的应用抽样与估计在现实生活和科学研究中具有广泛的应用。
以下是几个典型的应用场景:3.1 调查研究在社会学、市场调研、民意测验等领域,研究人员通常采用抽样与估计的方法来获取总体的信息。
通过从总体中抽取样本进行调查研究,我们可以通过样本的统计量来估计总体的特征,例如人口比例、消费行为等。
3.2 质量控制在工业生产过程中,我们通常需要抽取一部分产品进行质量检验。
通过对样本的检验结果进行统计分析,我们可以估计总体的质量水平,并进行质量控制和改进。
3.3 医学实验在临床医学研究中,抽样与估计也起到了重要的作用。
例如,研究人员可能会从人群中随机抽取一部分人进行药物试验,通过样本的反应来估计药物的疗效,并进行临床决策。
3.4 金融风险评估在金融风险评估中,我们常常需要对资产组合的价值进行估计。
第四章抽样与参数估计推断统计:利用样本统计量对总体某些性质或数量特征进行推断。
从数据得到对现实世界的结论的过程就叫做统计推断(statistical inference)。
这个调查例子是估计总体参数(某种意见的比例)的一个过程。
估计(estimation) 是统计推断的重要内容之一。
统计推断的另一个主要内容是本章第二节要介绍的假设检验(hypothesis testing) 。
因此本节内容就是由样本数据对总体参数进行估计,即:学习目标:了解抽样和抽样分布的基本概念理解抽样分布与总体分布的关系了解点估计的概念和估计量的优良标准掌握总体均值、总体比例和总体方差的区间估计第一节抽样与抽样分布回顾相关概念:总体、个体和样本抽样推断:从所研究的总体全部元素(单位)中抽取一部分元素(单位)进行调查,并根据样本数据所提供的信息来推断总体的数量特征。
总体(Population):调查研究的事物或现象的全体参数个体(Item unit):组成总体的每个元素样本(Sample):从总体中所抽取的部分个体统计量样本容量(Sample size):样本中所含个体的数量一般将样本单位数不少于三十个的样本称为大样本,样本单位数不到三十个的样本称为小样本。
一、抽样方法及抽样分布1、抽样方法(1)、概率抽样:根据已知的概率选取样本①、简单随机抽样:完全随机地抽选样本,使得每一个样本都有相同的机会(概率)被抽中。
注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,又可分为重复抽样与不重复抽样。
而且,根据抽样中是否排序,所能抽到的样本个数往往不同。
②、分层抽样:总体分成不同的“层”(类),然后在每一层内进行抽样③、整群抽样:将一组被调查者(群)作为一个抽样单位④、等距抽样:在样本框中每隔一定距离抽选一个被调查者(2)非概率抽样:不是完全按随机原则选取样本①、非随机抽样:由调查人员自由选取被调查者②、判断抽样:通过某些条件过滤来选择被调查者(3)、配额抽样:选择一群特定数目、满足特定条件的被调查者2、抽样分布一般地,样本统计量的所有可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(sampling distribution)。
某个样本统计量(如均值、比例、方差等)的抽样分布,从理论上说就是在重复选取容量为n的样本时,由每一个样本计算出的该统计量数值的相对频数分布或概率分布。
二、样本均值的抽样分布与中心极限定理1、样本均值的抽样分布(一个例子)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。
4 个个体分别为X 1=1、X 2=2、X 3=3 、X 4=4 。
总体的均值、方差及分布如下 均值和方差5.21=∑==NX Ni iμ 25.1)(12=-=∑=NXNi iμσ现从总体中抽取n =2的简单随机样本,在重复抽样条件下,共有42=16个样本。
所有样本的结果如下表计算出各样本的均值,如下表。
并给出样本均值的抽样分布所有样本均值的均值和方差:=1n i i xμμ==+++==∑=5.2160.45.10.11ΛM x n i i x ni x i x 222122=nM x n i x i x 222122625.016)5.20.4()5.20.1()(σμσ==-++-=-=∑=Λ式中:M 为样本数目比较及结论:1. 样本均值的均值(数学期望)等于总体均值2. 样本均值的方差等于总体方差的1/n2、中心极限定理当总体服从正态分布N ~ (μ,σ2 )时,来自该总体的所有容量为n 的样本的均值X也服从正态分布,X 的数学期望为μ,方差为σ2/n 。
即x ~N (μ,σ2/n ) 中心极限定理:设从均值为μ,方差为σ2的一个任意总体中抽取容量为n 的样本,当n 充分大时(一般,30≥n 就可以用中心极限定理了),样本均值X 的抽样分布近似服从均值为μ、方差为σ2/n 的正态分布。
即有: ()μ=X E 和 nx δδ=也即有,nX z δμ-= ~()1,0N其实,样本均值抽样分布的数字特征一方面与总体分布的均值和方差有关,另一方面也与抽样的方法是重复抽样还是不重复抽样有关。
无论是重复抽样或不重复抽样,样本均值的数学期望始终等于总体的均值。
但在不重复抽样条件下,样本均值的方差需要用修正系修正重复抽样时均值的方差。
当N 很大,而/5%n N ≤时,其修正系数11N nN -→-,可视不重复抽样与重复抽样一致。
图4.1.3 样本均值的抽样分布与总体分布的关系三、样本比例的抽样分布(Sampling Distribution of p样本比例的抽样分布是样本比例所有可能值的概率分布。
(The sampling distribution of p is the probability distribution of all possible values of the sample proportion p .)样本比例抽样分布的相关信息,即 p 的期望值、标准差、抽样分布形状等。
主要应用于分类变量:在经济与商务的许多场合,需要用样本比例p 对总体比例P 进行统计推断根据中心极限定理有:当样本容量增大时(大样本:经验上,当下面两个条件(n·p >=5且n(1-p )>=5)满足时,与p 相关的样本为大样本),样本比例抽样分布趋向于以样本期望值为中心、以样本方差为方差的正态分布 1、期望值(Expected value of p ):E (p )=P 2、标准差(Standard deviation of p ):重复抽样: 不重复抽样:*四、样本方差的抽样分布要用样本方差s 2去推断总体的方差σ2,必须知道样本方差的分布。
设总体服从正态分布X~N(μ, σ2 ), X 1,X 2,…,X n 为来自该正态总体的样本,统计证明比值()221δs n -的抽样分布为自由度是(n-1)的2χ分布,即:()()22221δδs n xxii-=-∑~()12-n χ 2χ分布的性质:(1)、2χ分布的变量始终为正;(2)、2χ分布的期望为()()n n E =2χ,方差为()n n D 2)(2=χ。
第二节参数估计的基本方法一、估计量和估计值参数是总体的数值特征(A parameter is a numerical characteristic of a population。
)参数估计:就是用样本统计量去估计总体的参数。
估计量(θˆ)(estimator)用于估计总体某一参数的样本统计量(随机变量)的名称。
样本均值,样本比例、样本方差等都可以是一个估计量。
估计值(e s t i m a t e):用来估计总体参数时计算出来的估计量的具体数值。
例如: 样本均值就是总体均值μ的一个估计量如果样本均值⎺x= 3 ,则 3 就是μ的估计值二、点估计与判断估计量的优良性准则(一)、点估计点估计(Point Estimate)就是用样本估计量的值直接作为总体参数的估计值。
设θ是总体分布中一个要估计的参数。
例如,总体分布的均值、方差等。
现在从总体中得到一个随机样本n X X X ,,,21⋅⋅⋅,如何估计θ?记估计θ的估计量(统计量)为θˆ()nX X X ,,,21⋅⋅⋅,简记为θˆ若得到一组样本观察值n x x x ,...,,21,就可以得到θ的估计值:()nx x x ,...,,ˆ21θ,也记为θˆ。
总体分布参数θ的点估计,就是求出的估计值θˆ。
点估计的方法一般有矩估计发法、极大似然估计法等。
概念要点:1.从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计。
例如: 用样本均值作为总体未知均值的估计值就是一个点估计 2.点估计没有给出估计值接近总体未知参数程度的信息 3.其理论基础是抽样分布 (二)、估计量的优良性准则要估计总体的某一指标,并非只能用一个样本指标,而可能有多个指标可供选择,即对同一总体参数,可能会有不同的估计量。
作为一个好的估计量,估计量必须具有如下性质:无偏性、有效性、一致性。
1、无偏性(Unbiasedness ):样本估计量的数学期望(均值)等于被估总体参数的真值;如果θθ=)ˆ(E ,则称θˆ为θ的无偏估计量。
可以证明,总体方差2σ的样本矩估计量2s 是无偏估计量。
2、有效性(Efficiency):好的点估计量应具有较小的方差;在用估计量θˆ来估计总体的某个参数θ时,如果对其它所有对θ的估计量θ~总是有:()()θθ~ˆVar Var ≤那么,这个估计量θˆ就是总体参数θ的有效估计量。
3、一致性(C o n s i s t e n c y ):随着样本容量的增大,估计量越来越接近被估计的总体参数。
如果n θˆ满足:1)ˆ(lim =-∞→εθθπnn P ,即: θθ=∞→nn ˆlim则称为n θˆ的一致估计量。
可以证明:样本均值、样本比例、样本标准差的点估计是无偏、有效、一致的。
三、抽样误差与区间估计(一)、抽样误差(Sampling Error )一个样本可以得到总体参数的一个点估计,该点估计值与总体参数真值之间的差异,即为抽样误差。
有三个相互联系的概念:1、实际抽样误差:具体样本的估计值θˆ与总体参数的实际值θ之间的离差。
)ˆ(θθ- 2、抽样平均误差:所有可能样本估计值与相应总体参数的平均差异程度。
3、抽样极限误差一定概率下抽样误差的可能范围(也称允许误差):θθθˆˆ∆≤- 注意:①、统计学上往往用抽样极限误差来测度抽样误差的大小或者说测度点估计的精度。
原因:总体参数值往往并不知道,因此,实际抽样误差与抽样平均误差也往往无法求出,但在抽样分布大体知道的情况下,抽样极限误差是可以估计出来的。
②、抽样平均误差是所有可能样本值与总体指标值之间的平均离差,它表明抽样估计的准确度;而抽样极限误差是样本指标值与总体指标值的离差绝对值是表明抽样估计的准确程度的范围。
这也就决定了两者存在一定的联系。
通常,把抽样极限误差与抽样平均误差相比,从而使单一样本的抽样极限误差标准化,一般称为概率度或相对误差范围,即置信度。
③抽样极限误差的估计总是要和一定的概率保证程度联系在一起的。
原因:样本统计量往往是一随机变量,它与总体参数真值之差也是一个随机变量,因此就不能期望某次抽样的样本估计值落在一定区间内是一个必然事件,而只能给予一定的概率保证。
因此,在进行抽样估计时,既需要考虑抽样误差的可能范围,同时还需考虑落到这一范围的概率大小。
前者是估计的准确度问题,后者是估计的可靠性问题,两者紧密联系不可分开。
这也正是区间估计所关心的主要问题。
(二)、区间估计(Interval Estimate )在点估计的基础上,给出总体参数估计的一个范围,称为参数的区间估计。