统计学教案(第6章抽样推断)
- 格式:docx
- 大小:168.40 KB
- 文档页数:11
第6章抽样与参数估计第6章抽样与参数估计6.1抽样与抽样分布6.2参数估计的基本方法6.3总体均值的区间估计6.4总体比例的区间估计6.5样本容量的确定学习目标理解抽样方法与抽样分布估计量与估计值的概念点估计与区间估计的区别评价估计量优良性的标准总体均值的区间估计方法总体比例的区间估计方法样本容量的确定方法参数估计在统计方法中的地位统计推断的过程6.1抽样与抽样分布什么是抽样推断概率捕样方法抽样分布抽样方法抽样方法概率抽样(probabilitysampling)也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样(simplerandomsampling)从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的最基本的抽样方法,是其它抽样方法的基础特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其它辅助信息以提高估计的效率分层抽样(stratifiedsampling)将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计系统抽样(systematicsainplmg)将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范闱内随机地抽取一个单位作为初始单位,然后按爭先规定好的规则确定其它样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难整群抽样(clustersampling)将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差抽样分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布总体分布(populationdistribution)一个样本中各观察值的分布也称经验分布当样本容屋n逐渐增大时,样本分布逐渐接近总体的分布样本分布(sampledistribution)抽样分布的概念(samplingdistribution)抽样分布是指样本统计屋的分布,即把某种样本统计量看作一个随机变量,这个随机变屋的全部可能值构成的新的总体所形成的分布即为某种统计量的抽样分布.统计量:样本均值,样本比例,样本方差等样本统计量的概率分布是一种理论概率分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据对抽样分布的理解抽样分布:即不是总体分布,也不是样本分布,是根据所有可能样本计算的统计量的全部可能取值形成的分布样本均值的抽样分布容量相同的所有町能样本的样本均值的概率分布一种理论概率分布进行推断总体均值的理论基础样本均值的抽样分布样本均值的抽样分布(例题分析)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。
统计学授课题目第6章抽样推断课次第8-9次授课方式讲授课时安排第8教学周-第9教学周,共4课时教学目的:通过本章的学习,要求掌握利用样本统计资料来推断总体数量特征的原理及方法;深刻理解抽样推断的概念及特点;了解抽样误差产生的原因,并对抽样误差、抽样平均误差、抽样极限误差加以区别,掌握抽样平均误差、抽样极限误差的计算;掌握点估计和区间估计的方法;掌握必要样本单位数的确定方法。
教学重点及难点提示:重点:区间估计难点:抽样平均误差的计算案例导入:大学生消费调查:一个月你花多少?第一节抽样推断概述一、抽样推断的概念及特点(一)概念按随机原则从总体中抽取部分单位,根据这部分单位的信息对总体的数量特征进行科学估计和推断的方法。
包括抽样调查和统计推断抽样调查:一种非全面调查,按随机原则从总体中抽取部分单位进行调查以获得相关资料,以推断总体统计推断:根据抽样调查所获得的信息,对总体的数量特征作出具有一定程度的估计和推断。
(二)特点1.按随机原则(等可能性原则)抽取调查单位.随机抽样的目的是为了排除人的主观教法提示:多媒体教学案例教学列举法影响,使每个样本都有系统的可能性被抽中,使样本对总体具有充分的代表性。
随机性原则是保证抽样推断正确性的一个重要前提条件。
随机抽样不是随便抽样。
2.根据部分推断总体的数量特征3.抽样推断的结果具有一定的可靠性和准确性,抽样误差可以事先计算和控制 其他特点有经济性、时效性、准确性、灵活性等 (三)抽样推断的使用 1.不可能进行全面调查时 2.不必要进行全面调查时 3.检查生产过程正常和否4.对全面调查资料进行补充修正时 二、抽样的几个基本概念 1.样本容量和样本个数(1)样本容量:样本是从总体中抽出的部分单位的集合,这个集合的大小称为样本容量,一般用n 表示,它表明一个样本中所包含的单位数。
一般地,样本单位数大于30个的样本称为大样本,不超过30个的样本称为小样本。
(2)样本个数:又称样本可能数目,它是指从一个总体中可能抽取多少个样本。
样本个数的多少和抽样方法有关。
2.总体参数和样本统计量(1)总体参数:总体分布的数量特征就是总体参数,也是抽样统计推断的对象。
常见的总体参数有:总体的平均数指标,总体成数(比重)指标,总体分布的方差、标准差等等。
(2)样本统计量:和总体参数对应的是样本统计量。
设(12,,n X X X )是总体X 容量为n 的样本,若样本函数T T (12,,n X X X )中不含任何未知参数,则称T 为一个统计量。
例如11nii X X n ==∑就是一个统计量,称为样本均值(Sample mean ),2211()ni i S X X n ==-∑也是统计量,称为样本方差(Sample variance ), 3.重复抽样和不重复抽样(1)重复抽样:是指从总体中抽出一个样本单位,记录其标志值后,又将其放回总体中继续参加下一次样本单位的抽取。
(2)不重复抽样:即每次从总体中抽取一个单位,登记后不放回原总体,不参加下一次抽样。
第二节 抽样推断的方法一、点估计(一)点估计的概念及特点参数估计:以样本统计量对总体参数进行估计,有点估计和区间估计两种。
点估计:直接以样本统计量作为相应的总体参数的估计量。
优点:直接给出了总体参数的具体数值缺点:未能反映误差的大小 参数点估计有:(1)样本均值估计总体均值(2)样本成数估计总体成数(3)样本方差估计总体方差 (二)估计的评价标准:x =μˆp P=ˆ22ˆS =σ(1)无偏性:设ˆTθ=12(,,,)n X X X 是未知参数θ的一个点估计量,若ˆθ满足ˆE θθ= 即估计量的数学期望等于被估计参数则称ˆθ是θ的无偏估计量,否则称为有偏估计量。
需要注意的是,由于估计量ˆθ是样本12(,,,)n X X X 的函数,样本量是n 维随机变量,所以对ˆθ求平均是按样本12(,,,)n X X X 的概率分布求平均。
无偏性是我们衡量点估计量好坏的一个评价标准,这个评价标准的直观意义如下:由于样本的出现带有随机性,所以基于一次具体抽样所得的参数估计值未必等于参数真值,这是由样本的随机性造成的。
我们希望当大量使用这个估计量对参数进行估计时,一系列估计值的平均值应该和待估参数真值相等。
这就从平均效果上对估计量的优劣给出一个评价标准。
(2)有效性:设11ˆT θ=12(,,,)n X X X ,22ˆT θ=12(,,,)n X X X 均为未知参数θ的无偏估计量,如果对参数θ的一切可能取值有)ˆ()ˆ(2212θσθσ<,则称无偏估计量1ˆθ比2ˆθ有效一个无偏估计量并不意味着他就非常接近被估计的参数,他还必须和总体参数的离散程度比较小。
对同一总体参数的两个无偏点估计量,方差小者更有效。
(3)一致性:指随着样本单位数n 的增大,样本估计量将在概率意义下越来越接近于总体真实值 若对于任意ε>0,有二、区间估计法在参数估计中,虽然点估计可以给出未知参数的一个估计,但不能给出估计的精度。
为此人们希望利用样本给出一个范围,要求它以足够大的概率包含待估参数真值。
这就是导致区间估计问题。
所谓区间估计,就是估计总体参数的区间范围,并要求给出区间估计成立的概率值。
设θ是未知参数,12(,,,)n X X X 是来自总体的样本,构造两个统计量{}1ˆ lim =<-∞→εθθP n11ˆT θ=12(,,,)n X X X ,22ˆT θ=12(,,,)n X X X ,对于给定的α(0<α<1),若1ˆθ、2ˆθ满足{1ˆP θ≤ }2ˆθθ≤ 1α=-则称随机区间[1ˆθ,2ˆθ]是参数θ的置信水平为1α-的置信区间, 1α-称为[1ˆθ,2ˆθ]的置信度,1ˆθ,2ˆθ称为置信限。
这里有几点需要说明:(1)区间[1ˆθ,2ˆθ]的端点1ˆθ,2ˆθ及长度2ˆθ-1ˆθ都是样本的函数,从而都是随机变量,因此[1ˆθ,2ˆθ]是一个随机区间。
(2){1ˆP θ≤ }2ˆθθ≤ 1α=-是说随机区间[1ˆθ,2ˆθ]以1α-的概率包含未知参数真值,区间长度2ˆθ-1ˆθ描述估计的精度,置信水平1α-描述了估计的可靠度。
(3)因为未知参数θ是非随机变量,所以不能说θ落入区间[1ˆθ,2ˆθ]的概率是1α-,而应是随机区间[1ˆθ,2ˆθ]包含θ的概率是1α-。
通俗地说,在点估计的基础上,给出总体参数的一个范围称为区间估计。
(二)总体均值的区间估计1.正态总体且方差已知;或非正态总体、方差未知、大样本情况下在这种情况下,样本均值的抽样分布呈正态分布,其数学期望为总体均值μ,方差为2nσ。
则2X Z nασ±⋅称为总体均值在1α-置信水平下的置信区间。
区间估计步骤:1.计算样本统计量2.计算抽样平均误差px ,n p p np x )1(,-==μσμ3.计算极限误差4.确定置信区间5.估计总量指标 ● 注意抽样方法的不同[例]保险公司从投保人中随机抽取36人,计算得36人的平均年龄39.5X =岁,已知投保人平均年龄近似服从正态分布,标准差为7.2岁,试求全体投保人平均年龄的置信水平为99%的置信区间。
解:10.99,0.01,αα-==查(0,1)N 表得22.575Z α=27.239.5 2.57536.4136X Z nασ-=-⨯= 27.239.5 2.57542.5936X Z nασ+=+⨯= 故全体投保人平均年龄的置信水平为99%的置信区间为[36.41,42.59] ✧ 若总体方差2σ未知,可用样本方差S 2代替即39.5±2.13=(37.37,41.63),投保人平均年龄在90%的置信水平下的置信区间为37.37岁~41.63岁。
2.正态总体、方差未知、小样本情况下如果总体服从正态分布,无论样本容量大小,样本均值的抽样分布都服从正态分布。
只要总体方差已知,即使在小样本情况下,也可以计算总体均值的置信区间。
如果总体方差2σ未知,需用样本方差S 2代替,在小样本情况下,使用t 分布来建立总体均值的置信区间。
t 分布是类似正态分布的一种对称分布,他通常要比正态分布平坦和分散。
随着自由pp x x μμαα22Z =∆Z =∆[][]ppxxp p x x ∆+∆-∆+∆-,,NPXN度的增大,t 分布逐渐趋于正态分布。
正态总体、方差未知、小样本情况下,总体均值在1α-置信水平下的置信区间为:2sX t nα±⋅(重复抽样条件下) (6.18) 21s N nX t N n α-±⋅- (不重复抽样条件下) (6.19) 其中2(1)t n α-为t 分布临界值,可以查t 分布临界值表得到(三)成数的区间估计在大样本(一般经验规则:5(1)5np n p ≥-≥和)条件下,样本比例的抽样分布可用正态分布近似。
在这种情况下,数理统计已经证明如下结论:置信水平为1α-的置信区间为:2(1)p p p Z n α-±⋅(重复抽样) 2(1)()1p p N np Z n N α--±⋅- (不重复抽样) [例]某城市想要估计下岗职工中女性所占的比例,采取重复抽样方法随机抽取了100名下岗职工,其中65人为女性。
试以95%的置信水平估计该城市下岗职工中女性所占比例的置信区间。
解:已知100n =,21.96z α=,6565%100p == 根据公式得:2(1)65%(165%)65% 1.96100p p p Z n α-⨯-±⋅=±⨯即65%±9.35%=(55.65%,74.35%),95%的置信水平下估计该城市下岗职工中女性所占比例的置信区间为55.65%~74.35%。
[例]某企业共有职工1000人,企业准备实行一项改革,在职工中征求意见,采用不重复抽样方法,随机抽取200人作为样本,调查结果显示,由150人表示赞成这项改革,有50人表示反对。
试以95%的置信水平确定赞成改革的人数比例的置信区间。
解:已知200n =,21.96z α=,15075%200p == 根据公式得:2(1)()1p p N np Z n N α--±⋅- 75%(175%)100020075% 1.96()20010001--±⨯-即75%±5.37%=(69.63%,80.37%),95%的置信水平下估计赞成改革的人数比例的置信区间为69.63%~80.37%。
三、样本容量的确定 (一)影响样本容量的意义在抽取样本时样本容量应多大是一个很实际的问题。
样本容量取得比较大,收集的信息就比较多,从而估计精度比较高,但进行观测所投入的费用、人力及时间就比较多;样本容量取得比较小,则投入的费用、人力及时间就比较少,但收集的信息也比较少,从而估计精度比较低。