第4章抽样与参数估计资料.
- 格式:ppt
- 大小:4.16 MB
- 文档页数:100
第四章抽样理论与参数估计第一节抽样理论的基本知识分层抽样,又叫分层随机抽样,这种抽样方法是按照总体已有的某些特征,承认总体中已有的差异,按差异将总体分为几个不同的部分,每一部分称为一个层,在每一个层中实行简单随机抽样。
它充分利用了总体的已知信息,因而是一种非常适用的抽样方法,其样本代表性及推论的精确性一般优于简单随机抽样。
分层的原则是层与层之间的变异越大越好,各层内的变异要小。
试述分层抽样的原则和方法?分层抽样是按照总体上已有的某些特征,将总体分成几个不同部分,在分别在每一部分中随机抽样。
分层的总的原则是:各层内的变异要小,而层与层之间的变异越大越好。
在具体操作中,没有一成不变的标准,研究人员可根据研究需要依照多个分层标准,视具体情况而定。
⑷两阶段随机抽样两阶段随机抽样首先将总体分成M个部分,每一部分叫做一个"集团"(或"群"),第一步从M个集团中随机抽取m个"集团”作为第一阶段样本,第二步是分别从所选取的m个"集团”中抽取个体(g构成第二阶段样本。
一般而言,两阶段抽样相对于简单随机抽样,标准误要大些,但是,两阶段抽样简便易行,节省经草贼,因而它是大规模调查研究中常被使用的抽样方法。
例如,如果我们要了解全国城市初中二年级学生的身高,第一步我们可以从全国几百个城市中随机抽取几十个城市作为第一阶段的样本。
第二步,在第一阶段随机抽取出来的城市中再随机抽取初中二年级的学生。
(二)非旃抽样非概率抽样不是完全按随机原则选取样本,有方便抽样、判断抽样。
方便抽样是由调查人员自由、方便地选择被调查者的非随机选样。
判断抽样是通过某些条件过滤,然后选择某些被调查者参与调查的抽样法。
当采取非概率抽样的方法选取样本时,研究者要说明采用此种方取样的原因以及对研究结果可能造成的影响。
第二节抽样分布[统计量分布、基本随机变量函数的分布]总体:又称母全体、全域,指具有某种特征的一类事物的全体。
(抽样检验)抽样与参数估计最全版(抽样检验)抽样与参数估计抽样和参数估计推断统计:利⽤样本统计量对总体某些性质或数量特征进⾏推断。
从数据得到对现实世界的结论的过程就叫做统计推断(statisticalinference)。
这个调查例⼦是估计总体参数(某种意见的⽐例)的壹个过程。
估计(estimation)是统计推断的重要内容之壹。
统计推断的另壹个主要内容是本章第⼆节要介绍的假设检验(hypothesistesting)。
因此本节内容就是由样本数据对总体参数进⾏估计,即:学习⽬标:了解抽样和抽样分布的基本概念理解抽样分布和总体分布的关系了解点估计的概念和估计量的优良标准掌握总体均值、总体⽐例和总体⽅差的区间估计第⼀节抽样和抽样分布回顾相关概念:总体、个体和样本抽样推断:从所研究的总体全部元素(单位)中抽取壹部分元素(单位)进⾏调查,且根据样本数据所提供的信息来推断总体的数量特征。
总体(Population):调查研究的事物或现象的全体参数个体(Itemunit):组成总体的每个元素样本(Sample):从总体中所抽取的部分个体统计量样本容量(Samplesize):样本中所含个体的数量壹般将样本单位数不少于三⼗个的样本称为⼤样本,样本单位数不到三⼗个的样本称为⼩样本。
壹、抽样⽅法及抽样分布1、抽样⽅法(1)、概率抽样:根据已知的概率选取样本①、简单随机抽样:完全随机地抽选样本,使得每壹个样本都有相同的机会(概率)被抽中。
注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,⼜可分为重复抽样和不重复抽样。
⽽且,根据抽样中是否排序,所能抽到的样本个数往往不同。
②、分层抽样:总体分成不同的“层”(类),然后在每壹层内进⾏抽样③、整群抽样:将壹组被调查者(群)作为壹个抽样单位④、等距抽样:在样本框中每隔壹定距离抽选壹个被调查者(2)⾮概率抽样:不是完全按随机原则选取样本①、⾮随机抽样:由调查⼈员⾃由选取被调查者②、判断抽样:通过某些条件过滤来选择被调查者(3)、配额抽样:选择壹群特定数⽬、满⾜特定条件的被调查者2、抽样分布壹般地,样本统计量的所有可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(samplingdistribution)。
第四章 抽样分布与参数估计7.2 某快餐店想要估计每位顾客午餐的平均花费金额。
在为期3周的时间里选取49名顾客组成了一个简单随机样本。
(1)假定总体标准差为15元,求样本均值的抽样标准误差。
x σ===2.143 (2)在95%的置信水平下,求边际误差。
x x t σ∆=⋅,由于是大样本抽样,因此样本均值服从正态分布,因此概率度t=2z α 因此,x x t σ∆=⋅x z ασ=⋅0.025x z σ=⋅=1.96×2.143=4.2 (3)如果样本均值为120元,求总体均值 的95%的置信区间。
置信区间为:(),x x x x -∆+∆=()120 4.2,120 4.2-+=(115.8,124.2)7.4 从总体中抽取一个n=100的简单随机样本,得到x =81,s=12。
要求:大样本,样本均值服从正态分布:2,xN n σμ⎛⎫ ⎪⎝⎭或2,s xN n μ⎛⎫⎪⎝⎭置信区间为:22x z x z αα⎛-+ ⎝(1)构建μ的90%的置信区间。
2z α=0.05z =1.645,置信区间为:()81 1.645 1.2,81 1.645 1.2-⨯+⨯=(79.03,82.97)(2)构建μ的95%的置信区间。
2z α=0.025z =1.96,置信区间为:()81 1.96 1.2,81 1.96 1.2-⨯+⨯=(78.65,83.35)(3)构建μ的99%的置信区间。
2z α=0.005z =2.576,置信区间为:()81 2.576 1.2,81 2.576 1.2-⨯+⨯=(77.91,84.09)7.7 某大学为了解学生每天上网的时间,在全校7 500名学生中采取重复抽样方法随机抽取36人,调查他们每天上网的时间,得到下面的数据(单位:小时):解:(1)样本均值x =3.32,样本标准差s=1.61; (2)抽样平均误差: 重复抽样:x σ≈不重复抽样:x σ≈=0.268×0.998=0.267(3)置信水平下的概率度: 1α-=0.9,t=2z α=0.05z =1.645 1α-=0.95,t=2z α=0.025z =1.96 1α-=0.99,t=2z α=0.005z =2.576 (4)边际误差(极限误差): 2x x x t z ασσ∆=⋅=⋅1α-=0.9,2x x x t z ασσ∆=⋅=⋅=0.05x z σ⋅重复抽样:2x x z ασ∆=⋅=0.05x z σ⋅=1.645×0.268=0.441 不重复抽样:2x x z ασ∆=⋅=0.05x z σ⋅=1.645×0.267=0.4391α-=0.95,2x x x t z ασσ∆=⋅=⋅=0.025x z σ⋅重复抽样:2x x z ασ∆=⋅=0.025x z σ⋅=1.96×0.268=0.525 不重复抽样:2x x z ασ∆=⋅=0.025x z σ⋅=1.96×0.267=0.5231α-=0.99,2x x x t z ασσ∆=⋅=⋅=0.005x z σ⋅重复抽样:2x x z ασ∆=⋅=0.005x z σ⋅=2.576×0.268=0.69 不重复抽样:2x x z ασ∆=⋅=0.005x z σ⋅=2.576×0.267=0.688(5)置信区间:(),x x x x -∆+∆1α-=0.9,重复抽样:(),x x x x -∆+∆=()3.320.441,3.320.441-+=(2.88,3.76)不重复抽样:(),x x x x -∆+∆=()3.320.439,3.320.439-+=(2.88,3.76)1α-=0.95,重复抽样:(),x x x x -∆+∆=()3.320.525,3.320.525-+=(2.79,3.85) 不重复抽样:(),x x x x -∆+∆=()3.320.441,3.320.441-+=(2.80,3.84)1α-=0.99,重复抽样:(),x x x x -∆+∆=()3.320.69,3.320.69-+=(2.63,4.01) 不重复抽样:(),x x x x -∆+∆=()3.320.688,3.320.688-+=(2.63,4.01)7.9 某居民小区为研究职工上班从家里到单位的距离,抽取了由16个人组成的一个随机样本,他们到单位的距离(单位:km)分别是:10 3 14 8 6 9 12 11 7 5 10 15 9 16 13 2假定总体服从正态分布,求职工上班从家里到单位平均距离的95%的置信区间。