第四章_参数估计
- 格式:ppt
- 大小:1.21 MB
- 文档页数:38
第四章、参数估计1.简述评价估计量好坏的标准答:评价估计量好坏的标准主要有:无偏性、有效性和相合性。
设总体参数θ的估计量有1ˆθ和2ˆθ,如果()1ˆE θθ=,称1ˆθ是无偏估计量;如果1ˆθ和2ˆθ是无偏估计量,且()1ˆD θ小于()2ˆD θ,则1ˆθ比2ˆθ更有效;如果当样本容量n →∞,1ˆθθ→,则1ˆθ是相合估计量。
2.说明区间估计的基本原理答:总体参数的区间估计是在一定的置信水平下,根据样本统计量的抽样分布计算出用样本统计量加减抽样误差表示的估计区间,使该区间包含总体参数的概率为置信水平。
置信水平反映估计的可信度,而区间的长度反映估计的精确度。
3.解释置信水平为95%的置信区间的含义答:总体参数是固定的,未知的,置信区间是一个随机区间。
置信水平为95%的置信区间的含义是指,在相同条件下多次抽样下,在所有构造的置信区间里大约有95%包含总体参数的真值。
4.简述样本容量与置信水平、总体方差、允许误差的关系答:以估计总体均值时样本容量的确定公式为例:()22/22z n E ασ= 样本容量与置信水平成正比、与总体方差成正比、与允许误差成反比。
练习题:●1.解:已知总体标准差σ=5,样本容量n =40,为大样本,样本均值x =25,(1)样本均值的抽样标准差σ5=0.7906 (2)已知置信水平1-α=95%,得 α/2Z =1.96,于是,允许误差是E =α/2Z 6×0.7906=1.5496。
●2.解:(1)已假定总体标准差为σ=15元,则样本均值的抽样标准误差为x σ15=2.1429(2)已知置信水平1-α=95%,得 α/2Z =1.96,于是,允许误差是E=α/2Z 6×2.1429=4.2000。
(3)已知样本均值为x =120元,置信水平1-α=95%,得 α/2Z =1.96,这时总体均值的置信区间为±α/2x Z 0±4.2=124.2115.8 可知,如果样本均值为120元,总体均值95%的置信区间为(115.8,124.2)元。
第4章参数估计和假设检验第四章参数估计与假设检验掌握参数估计和假设检验的基本思想是正确理解和应⽤其他统计推断⽅法的基础,后⾯将要学习的⽅差分析、⾮参数检验、回归分析、时间序列等统计推断⽅法都是在此基础上展开的。
需要特别指出的是,所有的统计推断都要以随机样本为基础。
如果样本是⾮随机的,统计推断⽅法就不适⽤了。
由于相关知识在先修课程中已经学习过,本章主要在回顾相关知识的基础上,补充讲解必要样本容量的计算、p值、参数估计和假设检验⽅法的软件操作和结果分析等内容。
本章的主要内容包括:(1)参数估计的基本思想和软件实现。
(2)简单随机抽样情况下样本容量的计算。
(3)假设检验的基本原理。
(4)假设检验中的p值。
(5)⼏种常⽤假设检验的软件实现。
第⼀节参数估计⼀、参数估计的基本概念参数估计是指利⽤样本信息对总体数字特征作出的估计。
例如,我们可以通过估计⼀部分产品的合格率对整批产品的合格率作出估计,通过调查⼀个样本的⼈⼝数来对全国的⼈⼝数作出估计,等等。
参数估计可以分为点估计和区间估计。
点估计是指根据样本数据给出的总体未知参数的⼀个估计值。
对总体参数进⾏估计的⽅法可以有多种,例如矩估计法、极⼤似然估计法等,得到的估计量(样本统计量)并不是唯⼀的。
例如我们可以使⽤样本均值对总体均值作出估计,也可以使⽤样本中位数对总体均值进⾏估计。
因此,在参数估计中我们需要对估计量的好坏作出评价,这就涉及到估计量的评价准则问题。
常⽤的估计量评价准则包括⽆偏性、有效性、⼀致性等。
⽆偏性是指估计量的数学期望与总体参数的真实值相等;有效性的含义是,在两个⽆偏估计量中⽅差较⼩的估计量较为有效,⽅差越⼩越有效;⼀致性是指随着样本容量的增⼤,估计量的取值应该越来越接近总体参数。
样本的随机性决定了估计结果的随机性。
由于每⼀个点估计值都来⾃于⼀个随机样本,所以总体参数真值刚好等于⼀个具体估计值的可能性极⼩。
区间估计的⽅法则以概率论为基础,在点估计的基础上给出了⼀个置信区间,并给出了这⼀区间包含总体真值的概率,⽐点估计提供了更多的信息。
第4章 参数估计 思考与练习参考答案一、最佳选择题1.关于以0为中心的t 分布,错误的是( E )A. t 分布的概率密度图是一簇曲线B. t 分布的概率密度图是单峰分布C. 当ν→∞时,t 分布→Z 分布D. t 分布的概率密度图以0为中心,左右对称E. ν相同时,t 值越大,P 值越大2.某指标的均数为X ,标准差为S ,由公式()1.96, 1.96X S X S -+计算出来的区间常称为( B )。
A. 99%参考值范围B. 95%参考值范围C. 99%置信区间D. 95%置信区间E. 90%置信区间3.样本频率p 与总体概率π均已知时,计算样本频率p 的抽样误差的公式为( C )。
4.在已知均数为μ, 标准差为 σ 的正态总体中随机抽样, X μ->( B )的概率为5%。
A.1.96σB.1.96X σC.0.05/2,t S νD.0.05/2,X t S νE.0.05/2,X t νσ5. ( C )小,表示用样本均数估计总体均数的精确度高。
A. CVB. SC. X σD. RE. 四分位数间距 6. 95%置信区间的含义为( C ):A. 此区间包含总体参数的概率是95%B. 此区间包含总体参数的可能性是95%C. “此区间包含总体参数”这句话可信的程度是95%D. 此区间包含样本统计量的概率是95%E. 此区间包含样本统计量的可能性是95%二、思考题1. 简述标准误与标准差的区别。
答: 区别在于:(1)标准差反映个体值散布的程度,即反映个体值彼此之间的差异;标准误反映精确知道总体参数(如总体均数)的程度。
(2)标准误小于标准差。
(3)样本含量越大,标准误越小,其样本均数更有可能接近于总体均数,但标准差不随样本含量的改变而有明显方向性改变,随着样本含量的增大,标准差有可能增大,也有可能减小。
2. 什么叫抽样分布的中心极限定理?答: 样本含量n越大,样本均数所对应的标准差越小,其分布也逐渐逼近正态分布,这种现象统计学上称为中心极限定理(central limit theorem)。
第四章参数的最小二乘法估计分解在这种方法中,我们假设有一个已知的数学模型,该模型包含一些未知参数。
我们的目标是根据已有的观测值,找到最优的参数值,使得模型给出的理论预测值与实际观测值之间的误差最小。
最小二乘法的核心思想是根据实际观测值和模型的预测值之间的差异,定义一个误差函数,并通过最小化该误差函数,确定最优的参数值。
常用的误差函数是残差平方和,也称为平方误差和。
在最小二乘法中,我们假设有一组实际观测值y(y),y=1,2,…,y,以及一个数学模型y(y)=y(y;y1,y2,...,yy),其中y是自变量,yyyy(y)为因变量,y1,y2,...,yy为未知参数。
我们的目标是找到最优的参数值y1^*,y2^*,...,yy^*,使得误差函数ℒ(y1,y2,...,yy)最小化。
误差函数的定义为:ℒ(y1,y2,...,yy)=Σ(y(y)-y(y(y);y1,y2,...,yy))^2其中y(y)为实际观测值,y(y(y);y1,y2,...,yy)为模型的理论预测值。
为了找到最优参数值,我们需要对误差函数进行最小化,即求解参数值使得误差函数的导数为零。
这可以通过求解误差函数的偏导数,并解一个线性方程组得到最优参数值。
最小二乘法估计分解的关键步骤如下:1.根据已有的观测值和数学模型,定义误差函数。
2.对误差函数进行偏导数求解,得到一组方程。
3.将方程转化为矩阵形式,并求解线性方程组,得到最优参数值。
4.将最优参数值代入数学模型,得到对观测值的理论预测值。
5.检验预测值与实际观测值之间的差异,评估参数估计的好坏。
最小二乘法估计分解是一种非常常用的参数估计方法,广泛应用于各个领域,包括统计学、经济学、物理学、工程学等。
它的优点是计算简单,对异常值的影响较小。
然而,最小二乘法也有一些局限性,例如对于非线性模型,其参数估计可能无法得到最优解。
在实际应用中,最小二乘法估计分解可以结合其他方法一起使用,例如正则化方法、加权最小二乘法等,以提高参数估计的准确性和稳定性。
第四章 最小二乘法与组合测量§1概述最小二乘法是用于数据处理和误差估计中的一个很得力的数学工具。
对于从事精密科学实验的人们来说,应用最小乘法来解决一些实际问题,仍是目前必不可少的手段。
例如,取重复测量数据的算术平均值作为测量的结果,就是依据了使残差的平方和为最小的原则,又如,在本章将要用最小二乘法来解决一类组合测量的问题。
另外,常遇到用实验方法来拟合经验公式,这是后面一章回归分析方法的内容,它也是以最小二乘法原理为基础。
最小二乘法的发展已经经历了200多年的历史,它最先起源于天文和大地测量的需要,其后在许多科学领域里获得了广泛应用,特别是近代矩阵理论与电子计算机相结合,使最小二乘法不断地发展而久盛不衰。
本章只介绍经典的最小二乘法及其在组合测量中的一些简单的应用,一些深入的内容可参阅专门的书籍和文献。
§2最小二乘法原理最小二乘法的产生是为了解决从一组测量值中寻求最可信赖值的问题。
对某量x 测量一组数据n x x x ,,,21 ,假设数据中不存在系统误差和粗大误差,相互独立,服从正态分布,它们的标准偏差依次为:n σσσ ,,21记最可信赖值为x ,相应的残差x x v i i -=。
测值落入),(dx x x i i +的概率。
dx v P i i ii )2exp(2122σπσ-=根据概率乘法定理,测量n x x x ,,,21 同时出现的概率为n i ii ni i dx v P P )]()(21exp[)2(12∑-∏=∏=σπσ 显然,最可信赖值应使出现的概率P 为最大,即使上式中页指数中的因子达最小,即∑=iii Min v 22σ权因子:22o i i w σσ=即权因子i w ∝21iσ,则2[]i i wvv wv Min ==∑再用微分法,得最可信赖值x11ni ii nii w xx w===∑∑ 即加权算术平均值这里为了与概率符号区别,以i ω表示权因子。
第四章 抽样分布与参数估计3.某地区粮食播种面积5000亩,按不重复抽样方法随机抽取了100亩进行实测,调查结果,平均亩产450公斤,亩产量标准差为52公斤。
试以95%的置信度估计该地区粮食平均亩产量和总产量的置信区间。
解:已知X =450公斤,n =100(大样本),n/N=1/50,11≈-Nn,不考虑抽样方式的影响,用重复抽样计算。
s =52公斤,1-α=95%,α=5%。
这时查标准正态分布表,可得临界值:96.1025.02/==z z α该地区粮食平均亩产量的置信区间是:1005296.14502⨯±=±nsz x α=[439.808,460.192] (公斤) 总产量的置信区间是:[439.808⨯5000,460.192⨯5000] (公斤) =[2199040,2300960](公斤)4.已知某种电子管使用寿命服从正态分布。
从一批电子管中随机抽取16只,检测结果,样本平均寿命为1490小时,标准差为24.77小时。
试以95%的置信度估计这批电子管的平均寿命的置信区间。
解:(1)已知X =1490小时,n =16,s =24.77小时,1-α=95%,α=5%。
这时查t 分布表,可得 2.13145)1(2/=-n t α该批电子管的平均寿命的置信区间是:1677.2413145.214902⨯±=±nst x α=[ 1476.801,1503.199](小时)因此,这批电子管的平均寿命的置信区间在1476.801小时与1503.199小时之间。
6.采用简单随机重复抽样的方法,从2 000件产品中抽查200件,其中合格品190件。
要求:(1)计算合格品率及其抽样平均误差。
(2)以95.45%的置信度,对合格品率和合格品数量进行区间估计。
(3)如果极限误差为2.31%,则其置信度是多少? 解:(1)合格品率:P=190/200⨯100%=95% 抽样平均误差:np p p )1()(-=σ=0.015(2)%3%95%100015.02%95)(22/02275.02/±=⨯⨯±=±==p Z P Z Z σαα]19601840[]2000%982000%92[(%]98%92[,,的置信区为:件合格品数量,:合格品率的置信区间为=⨯⨯)(3)%64.87)(8764.01,54.1%31.2%100015.0%31.2)(2/2/2/==-==⨯⨯==∆z F Z Z p Z ασααα查表得7.从某企业工人中随机抽选部分进行调查,所得工资分布数列如下:试求:(1)以95.45%的置信度估计该企业工人平均工资的置信区间,以及该企业工人中工资不少于800元的工人所占比重的置信区间;(2)如果要求估计平均工资的允许误差范围不超过30元,估计工资不少于800元的工人所占比重的允许误差范围不超过10%,置信度仍为95.45%,试问至少应抽多少工人? 解(1)通过EXCEL 计算可得: X =816元,n =50人,s =113.77元。