数理统计第四章区间估计4.3节非正态总体参数的置信区间

格式：pdf
大小：332.09 KB
文档页数：27

下载文档原格式

/ 27

关于非正态总体的区间估计

关于非正态总体的区间估计
非正态总体的区间估计是一个非常有用的统计概念，它是用来估计不确定的参数的范围，例如总体均值。

非正态总体的区间估计可以使用抽样估计，以及一些其他的方法，比如Bootstrap。

一种常见的抽样估计方法是t统计，它使用样本均值和样本标准偏差来估计总体均值的范围。

t统计有一定的假设，需要样本来自正态总体。

但是，当总体不是正态分布时，t统计可以产生不可信的估计结果。

因此，当总体不是正态分布时，采用其他的估计方法更为恰当，而Bootstrap 就是一种很好的估计方法。

Bootstrap最初由Brad Efron提出，它是一种重复的例行实践，利用相同的样本构建多个子样本，计算和比较它们的参数估计。

关于非正态总体的区间估计，还可以使用置信水平的概念，计算给定置信水平下总体均值的区间估计。

例如可以使用95%的置信水平，计算95%的置信区间，该区间包含了95%可能性的总体均值。

总之，非正态总体的区间估计是一个重要的统计概念，在市场研究分析、实验设计、假设检验等方面都有重要的应用。

根据数据的特点，提出正确的估计方法有助于获得可信的估计。

数理统计之区间估计(ppt 50页)

很小的正数.
置信水平的大小是根据实际需要选定的.
例如，通常可取置信水平1 =0.95或0.9等.
根据一个实际样本，由给定的置信水平，我
们求出一个尽可能小的区间 [ˆ1,ˆ2]，使
P {ˆ1ˆ2}1
称区间 [ˆ1,ˆ2]为的置信水平为1 的
置信区间.
寻找置信区间的方法,一般是从确定误差限入手.
教材上讨论了以下几种情形：
单个正态总体均值和方差 2的区间估计.
两个正态总体均值差 1 2和方差比
的区间估计.

2 1 2 2
比例 p 的区间估计.
下面我们举几个例子，其余部分请自己看.
休息片刻继续
例2 已知某地区新生婴儿的体重X~N(,2),
, 2未知,
…
随机抽查100个婴儿得100个体重数据 X1,X2,…,X100
相应的置信区间平均长度越长.
也就是说，要想得到的区间估计可靠度高，区间长度就长，估计的精度就差. 这是一对矛盾.
实用中应在保证足够可靠的前提下，尽量使得区间的长度短一些 .
例3 某单位要估计平均每天职工的总医疗费，观察了30天,其总金额的平均值是170元，标准差为30元，试决定职工每天总医疗费用平均值的区间估计（置信水平为0.95）.
(ˆ1 ˆ2) 满足
P {ˆ1ˆ2}1
则称区间 [ˆ1,ˆ2]是的置信水平（置信度、
置信概率）为 1 的置信区间.
ˆ1和ˆ2 分别称为置信下限和置信上限.
可见，
对参数作区间估计，就是要设法找出
两个只依赖于样本的界限(构造统计量)
ˆ1 ˆ1(X1,…Xn) ˆ2 ˆ2(X1,…Xn)
下面我们就来正式给出置信区间的定义, 并通过例子说明求置信区间的方法.

区间估计

常见形式
间估计的区间上、下界通常形式为：“点估计±误差” “总体均值”的区间估计
总体均值：μ 总体方差：σ 样本均值：x =(1/n）×Σ（Xi) 样本方差：s =(1/(n-1））×Σ（Xi-x)^2 符号假设置信水平：1-α 显著水平：α
已知n个样本数据Xi (i=1,2,...,n），如何估计总体的均值? 首先，引入记号：区间估计σ'=σ/sqrt(n) s'=s/sqrt(n) 然后，分情况讨论：情况1 小样本（n<30），σ已知，此时区间位于 x ± z（α/2）×σ' 情况2 小样本（n<30），σ未知，此时区间位于 x ± t（α/2）×s' 区间估计情况3 大样本（n≥30），σ已知，此时区间位于 x ± z（α/2）×σ' 情况4 大样本（n≥30），σ未知，此时区间位于 x ± z（α/2）×s' 其中， z（α/2）表示：正态分布的水平α的分位数 t（α/2）表示：T分布的水平α的分位数
置信区间
区间估计有时，对所考虑的置信区间（或上、下限）加上某种一般性限制，在这个前提下寻找最优者。无偏性是经常用的限制之一，如果一个置信区间（上、下限）包含真值θ的概率，总不小于包含任何假值θ┡的概率，则称该置信区间（上、下限）是无偏的。同变性（见统计决策理论）也是一个常用的限制。
求置信区间的方法最常用的求置信区间及置信上、下限的方法有以下几种。
即
费希尔把这个等式解释为：在抽样以前，对于θ落在区间内的可能性本来一无所知，通过抽样，获得了上述数值，它表达了统计工作者对这个区间的"信任程度",若取b)=-α=uα/2，则得到区间，其信任程度为 1-α。即当用上述区间作为θ的区间估计时，对于“它能包含被估计的θ”这一点可给予信任的程度为1-α。

python 非正态分布置信区间

python 非正态分布置信区间非正态分布置信区间是统计学中常用的一种方法，用于估计总体参数的范围。

在Python中，我们可以使用scipy库中的stats模块来计算非正态分布的置信区间。

我们需要收集一组样本数据，并假设这些数据服从非正态分布。

然后，我们可以使用stats模块中的函数来计算置信区间。

在计算置信区间之前，我们需要确定置信水平。

置信水平是指我们对总体参数的估计的准确性的度量。

常见的置信水平有95%和99%等。

接下来，我们可以使用stats模块中的函数来计算置信区间。

例如，对于非正态分布的均值，我们可以使用t分布来计算置信区间。

具体的计算方法可以参考stats模块的文档或相关教程。

在计算置信区间时，我们需要提供样本数据、置信水平和样本大小等参数。

根据计算结果，我们可以得到一个置信区间，该区间表示总体参数的估计范围。

需要注意的是，置信区间是一个区间估计，表示我们对总体参数的估计的范围，而不是一个确定的值。

置信区间的宽度取决于样本大小和置信水平。

较大的样本大小和较高的置信水平可以得到更精确的估计。

在使用非正态分布置信区间时，我们需要注意样本数据是否满足所假设的分布。

如果样本数据不满足非正态分布的假设，我们可能需要考虑其他方法或转换数据的方法来进行分析。

非正态分布置信区间是一种估计总体参数范围的方法。

在Python中，我们可以使用stats模块来计算非正态分布的置信区间。

通过收集样本数据、确定置信水平和样本大小等参数，我们可以得到一个置信区间，表示总体参数的估计范围。

然而，需要注意样本数据是否满足非正态分布的假设，并且选择适当的方法来进行分析。

第四章参数估计

x
n
总体标准差，若未知，可用样本
标准差代替
36
总体均值的置信区间引例
(２未知)
例：某商场从一批袋装食品中随机抽取10袋，测得每袋重量（单位：克）分别为789，780，794， 762，802，813，770，785，810，806，要求以95%的把握程度，估计这批食品的平均每袋重量的区间范围。假定食品重量服从正态分布。
0.95，Ｚ/2=1.96
x Z 2
n
,
x
Z
2
n
26 1.96 6 ,26 1.96 6
100
100
24.824,27.176
我们可以95％的概率保证平均每天参加锻炼的时间在24.824～ 27.176 分钟之间。
一般置信水平
一般使用的置信水平是：90%, 95%, 99%
Confidence Level
▪ 总体服从正态分布,且总体方差（２）已知 ▪ 如果不是正态分布，可以由正态分布来近似 (n 30)
2. 使用正态分布统计量Ｚ
Z
x s
m ~ N (0,1)
n
3. 总体均值在1-置信水平下的置信区间为
s
s
x
Za 2
,x n
Za 2 n
总体均值的置信区间
(２已知)
抽样极限误差:
s x Za 2 n
❖ 定理1
当总体 X ~ N ( m , s 2 ) 时，抽自该总体
的简单随机样本 x1 , x 2 , , x n 的样本平均数
服从数学期望为，方差为 s2的正态分布，
n
即 x ~ N (m, s2 ) 。
n
Z x ~ N (0,1) n

非正态总体下的小样本区间估计问题

８ＮａｇｌｅＤＬ，ＭｃＧｒａｉｌＳＨ，ＶｉｔａｌｅＪ，ｅｔａ１．Ｔｈｅｍａｈｏｇａｎｙｐｒｏｔｅｉｎｉｓａ
ｒｅｃｅｐｔｏｒｉｎｖｏｌｖｅｄｉｎｓｕｐｐｒｅｓｓｉｏｎｏｆｏｂｅｓｉｔｙ．Ｎａｔｕｒｅ，１９９９，３９８（６７２３）：１４８～１５２．９ＧｕｎｎＴＭ，ＭｉｌｌｅｒＫＡ，ＨｅＬ，ｅｔａ１．Ｔｈｅｍｏｕｓｅｍａｈｏｇａｎｙｌｏｃｕｓｅｎｃｏｄｅｓａｔｒａｎｓｍｅｍｂｒａｎｅｆｏｒｍｏｆｈｕｍａｎａｔｔｒａｃｔｉｎ．Ｎａｔｕｒｅ，１９９９，３９８（６７２３）：１５２～１５６．
数理医药学杂志
文章编号：１００４ — ４３３７（２０１３）０６ — ０６８１ — ０２中图分类号：Ｒ３１１文献标识码：Ａ
２０１３年第２６卷第６期
・
统计分析・
非正态总体下的小样本区间估计问题
假设总体率Ｐ未知，如何求出总体率Ｐ的１一ａ置信区间
呢？
我们先从总体中随机抽取一个样本容量为的样本，假
设其中具有某种特征的个体数为ｍ，则ｍ￣Ｂ（ｎ，Ｐ）。
设Ａ一｛具有某种特征的事件），令Ｐ（Ｐ￣ｐ） ≤詈，Ｐ（Ｐ

数理统计中的参数估计与置信区间估计及假设检验与拟合优度检验

数理统计中的参数估计与置信区间估计及假设检验与拟合优度检验数理统计是一门研究如何利用数据对未知参数进行估计和进行推断的学科。

本文将介绍数理统计中的参数估计与置信区间估计，以及假设检验与拟合优度检验的基本概念和相关方法。

一、参数估计与置信区间估计在数理统计中，参数是描述总体特征的量，例如总体均值、总体方差等。

参数估计就是利用样本统计量对总体参数进行估计。

常用的参数估计方法有最大似然估计和矩估计。

最大似然估计是一种常用的参数估计方法，其基本思想是选择参数值使得观测到的样本出现的概率最大化。

假设总体服从某个分布，最大似然估计通过优化似然函数来估计参数。

最大似然估计具有良好的性质，例如渐近正态性和无偏性等。

矩估计是另一种常用的参数估计方法，其基本思想是利用样本矩与总体矩的对应关系来估计参数。

例如，样本均值可以用来估计总体均值，样本矩可以通过总体矩的方法进行计算得到。

矩估计具有较好的渐近正态性和无偏性。

参数估计的结果往往带有一定的不确定性，为了评估估计结果的准确性，常使用置信区间估计。

置信区间估计是指通过样本数据得到的区间，该区间包含了未知参数的真值的概率。

常见的置信区间估计方法有正态分布的置信区间估计和大样本下的置信区间估计。

二、假设检验在数理统计中，假设检验是一种推断方法，用于检验总体参数的假设是否成立。

假设检验的基本思想是通过样本数据来判断假设是否得到支持。

常用的假设检验方法有正态总体均值的假设检验、正态总体方差的假设检验和两样本均值的假设检验等。

假设检验包括建立原假设和备择假设，选择适当的检验统计量，并设定显著性水平，进行统计推断。

结果的判断依据是计算得到的检验统计量是否落在拒绝域内。

如果检验统计量落在拒绝域内，拒绝原假设，否则接受原假设。

假设检验的结果可以提供统计学上的证据，用于决策和推断。

三、拟合优度检验拟合优度检验是一种用于检验总体数据是否符合某个特定分布的方法。

在数理统计中，拟合优度检验常用于检验样本数据与给定的分布是否相符。

统计学中的参数估计和置信区间

统计学中的参数估计和置信区间统计学是研究数据收集、分析、解释和推断的科学领域。

参数估计和置信区间是统计学中重要的概念和方法，用于推断总体特征并给出一定程度上的确定性度量。

本文将介绍参数估计和置信区间的基本概念、计算方法以及在实际应用中的意义。

一、参数估计参数估计是利用样本数据推断总体参数的数值或范围。

总体参数是指代表总体特征和分布的未知数值，如总体均值、总体比例等。

通过对样本数据进行分析，可以估计总体参数的取值。

在参数估计中，最常用的是点估计和区间估计。

点估计是根据样本数据估计总体参数的一个具体值。

常见的点估计方法有最大似然估计法和矩估计法。

例如，在估计总体均值时，最大似然估计法会选择使得样本观测的概率最大化的均值作为估计值。

区间估计是对总体参数的估计给出一个范围，称为置信区间。

置信区间表示估计值落在某一区间中的概率。

一般使用置信度（confidence level）来表示区间估计的确定程度，常见的置信度有90%、95%和99%等。

二、置信区间置信区间是参数估计中常用的一种方法，用于给出总体参数估计的一个范围。

置信区间通常以（下界，上界）的形式表示，包含了真实参数值的概率。

置信区间的计算方法基于抽样分布的性质，并依赖于样本量和置信度。

置信区间的计算可以通过两种方法：基于正态分布和基于t分布。

当样本量较大时（一般大于30），可以使用基于正态分布的方法。

当样本量较小时，则需要使用基于t分布的方法。

以估计总体均值为例，给定样本数据和置信度，可以计算出样本均值、标准差以及临界值。

然后根据临界值和标准差计算置信区间。

例如，假设样本均值为X，标准差为S，置信度为95%，那么置信区间可以表示为（X-S*t, X+S*t），其中t是自由度为n-1的t分布的临界值。

三、参数估计与置信区间的应用参数估计和置信区间在实际应用中具有广泛的应用。

它们能够帮助研究人员对总体特征进行推断，并给出一定程度上的确定性度量。

在医学研究中，可以利用参数估计和置信区间来估计某种药物的疗效。

数理统计第四章

第4章数据汇总这一章，我们介绍数据的描述和汇总方法•这些方法大部分以图形的方式展示数据，也可以用其揭示数据结构•在不使用随机模型的情况下，这些方法可以达到描述性分析的目的•如果考虑随机模型，那获得的数据％,X2,…,X n，在一些情形下将它们视为独立同分布的n个随机变量X i,X2, ,X n的实现.我们首先讨论经验累积分布函数等，这些方法可以用于展示数据值的分布。

接着，我们讨论直方图和相关的图形，它们扮演着随机变量的概率密度的角色，从另一角度展示数据值的分布•我们还将介绍数据的简单汇总，比如用以代表数据中心的样本均值、中位数等，用以量化数据分散程度的样本标准差等，这些统计量比直方图等图形提供了更加浓缩的汇总信息•接着将介绍箱线图，它通过一种简单的图形方式将中心值、散度和分布形状等信息汇总起来•最后介绍散点图，用以揭示变量相关性的信息.§ 4.1基于累积分布函数的方法经验累积分布函数设x1,x2/，x!是一组数据，经验累积分布函数(empirical cumulative distributen function,ecdf)定义为1F n(X)= —#{X 兰X}n显然F n(x)是阶梯形的右连续的函数例 4.1 （见P261）如果要进一步讨论经验累积分布函数的统计性质，那必须置于随机模型下去讨论.数据x1,x2/ ,x n视为简单随机样本X1,X2/ ,X n的实现, 它们公共的分布函数为F(x)( —般假定F(x)是连续型分布).样本X i,X2,…,X n的经验累积分布函数定义为1F n(x) #{X i 沁}n对于任意给定的实数x , F n(x)是一个随机变量，并且n F n(x) ~B(n,F(x)),从而1E(F n(x)) E(V n(x)) =F(x),nVar(F n(x))二Var(V n(x)) = F(x)(1-F(x)).n n可见,F n(x)是F(x)的无偏估计,且n「:时Var(F n(x)) > 0,从而知F n(x) 是F(x)的相合估计.关于F n(x)还有更强的结论：定理(格里汶科)对于任意的自然数n,设X i,X2,…，X n是来自总体分布函数F(x)的一个样本，F n(x)为其经验分布函数，记D n = sup |F n(X)-F(x)|，则有x ■■■：::P(lim D n=0) =1n )：:该定理表明，经验分布函数F n(x)会一致地强收敛于总体分布函数F(x). 这也说明用经验分布函数F n(x)推断总体分布函数F(x)，用样本各阶矩(即F n(x)的矩)去推断总体的矩等是合理的，是有理论依据的 .生存函数随机变量T的生存函数定义为S(t)=P(T t)设随机变量T的分布函数为F(t)，那么生存函数S(t)=1-F(t)，两者给出的信息是等价的•在应用中，对于寿命数据(一般是非负的)，通常分析生存函数而不是分布函数•若样本的经验分布函数为&(t)，那么经验生存函数为S n (t)=1-F n (t)例 4.2(见 P262)生存函数与危险函数有联系.危险函数定义为其中f(t),F(t)分别为T 的密度函数和分布函数也即为了看清危险函数的统计意义，我们考查元件在使用了 t 时间还未失效的条件下，在接下来的时间段(t,r .］内失效的条件概率P(t :::T I ：|t t)假设密度f(t)在t 处连续，那么有F(t ：)- F(t)丄 f(t) 1-F(t)S(t) 因此h(tp P(t ：：T -^ A l T t)或P(t T <t -qT t)MtTm 。

统计学中的参数估计和置信区间

统计学中的参数估计和置信区间在统计学中，参数估计和置信区间是两个非常重要的概念。

它们是统计推断的核心，用于分析和解释数据，而且被广泛应用于不同的领域，如经济学、医学、社会科学等。

本文将详细介绍参数估计和置信区间的基本概念、公式、计算方法和应用。

一、参数估计的基本概念和公式参数估计是指从样本数据中推断总体参数的过程。

总体是指我们所研究的对象或群体，参数是指总体中某个特定的数值或结构，如总体均值、方差、比例、标准差等。

在参数估计中，我们需要选择一个合适的估计量来估计总体参数，并计算其估计值和标准误差。

常用的估计量有样本均值、样本方差、样本比例等。

以样本均值为例，如果我们从总体中随机抽取一个大小为n的样本，那么样本均值x就是总体均值μ的无偏估计量。

它的公式为：x = （Σxi）/n其中，xi为样本中第i个元素的值，Σxi是所有元素值之和，n 是样本容量。

标准误差SE(x)的公式为：SE(x) = S/√n其中，S为样本标准差，是样本值与样本均值偏差的平方和的平均值的平方根。

二、置信区间的概念和计算方法置信区间是指总体参数估计的可靠区间。

它的意义在于，我们无法得到总体参数的准确值，但可以估计它的一个区间范围。

这个区间范围是用样本数据计算得到的，并且保证在一定置信水平下总体参数落在此区间内的概率很高。

置信区间的计算方法基于中心极限定理，即如果样本容量n足够大，样本均值的抽样分布将近似于正态分布。

因此，我们可以根据正态分布的特性计算置信区间。

一般地，对于总体参数θ的置信区间，它的下限L和上限U可以表示为：L = x - zα/2* SE(x)U = x + zα/2* SE(x)其中，zα/2为正态分布的上α/2分位数，α是我们预先选定的置信水平，一般取0.95或0.99。

根据中心极限定理，当n足够大时，x的抽样分布近似于正态分布，因此置信区间可以用正态分布的分位数求出。

三、参数估计和置信区间的应用参数估计和置信区间的应用非常广泛，尤其在科学研究和工程领域中经常使用。

《统计学》第4章参数估计

此，在用点估计值代表总体参数值时，还应考虑点估计值的可靠性及其
与总体参数之间的偏差。然而，由于可靠性由抽样标准误差决定，一个
具体的点估计值无法给出可靠性的度量。此外，总体参数的真值未知，
我们也无法得到点估计值与总体参数之间的偏差大小。这个问题可以通
过区间估计来解决。
第四章参数估计
《统计学》
17
4.2 区间估计
求得的መ 1 , 2 , … , 称为的极大似然估计值，相应的估计量
መ 1 , 2 , … , 称为的极大似然估计量。
第七章参数估计
《统计学》
14
4.2 点估计与区间估计
极大似然估计(MLE) 的一般步骤如下：
(1) 由总体分布导出样本的联合概率函数(或联合密度函数)；
平表示所有区间中有95% 的区间包含总体参数真值，因此A 队的估计结果
中有5% 的区间(1 个) 未包含总体平均身高的真值。同理，90% 的置信水
平表示所有区间中有90% 的区间包含总体参数真值，因此B 队的估计结果
中有10% 的区间(2 个) 未包含总体平均身高的真值。由该例也可以看到，
尽管总体参数的真值是固定的，但基于样本构造的置信区间会随着样本的
计方法，其实质是根据样本观测值发生的可能性达到最大这一原则来选
取未知参数的估计量，理论依据就是概率最大的事件最可能出现。
设X1, X2 , … , Xn是从总体X中抽取的一个样本，样本的联合密度函数(连续
型) 或联合概率函数(离散型) 为

ෑ ( , ) 。
=1
第七章参数估计
《统计学》
13
区间估计(Interval estimate) 指在点估计的基础上，给出总体参数

6-4 大样本非正态总体参数的区间估计

∑ X i − np i =1
=
n
nX − np = np(1 − p ) np(1 − p )
近似地服从 N (0,1) 分布,
nX − np P − zα / 2 < < zα / 2 ≈ 1 − α , np(1 − p )
nX − np 不等式 − zα / 2 < < zα / 2 np(1 − p )
2 2 其中 a = n + zα / 2 , b = −( 2nX + zα / 2 ), c = nX 2 .
推导过程如下: 推导过程如下因为(0–1)分布的均值和方差分别为分布的均值和方差分别为因为
µ = p, σ 2 = p(1 − p),
因为容量n较大较大, 设 X 1 , X 2 ,⋯, X n 是一个样本 , 因为容量较大由中心极限定理知中心极限定理知
本 , 给定 α , 求 θ 的置信水平为 1 − α 的置信下限和置信上限 .
解
令 X h = max { X 1 , X 2 ,⋯, X n } ,
Xh 对于给定的 α , 找 0 < θ ≤ 1 , 使 P θ > = 1−α, θ θ n 即 1 − α = ∫ nz n−1dz = θ , 于是 θ = n 1 − α ,
n = 100,
ห้องสมุดไป่ตู้
60 x= = 0.6, 100
zα / 2 = z0.025 = 1.96,
1 − α = 0.95,
2 则 a = n + zα / 2 = 103.84,
2 2 b = −( 2nX + zα / 2 ) = −( 2nx + zα / 2 ) = −123.84,

区间估计

38第二节区间估计一、区间估计的概念和步骤点估计用一个确定的值去估计未知的参数，具有较大的风险。

因为估计量来自于一个随机抽取的样本，结果也就带有随机性。

样本估计量刚好等于所估计的总体参数的可能性极小。

但是如果说所估计的总体参数就落在估计值附近，即所估计的总体参数就落在以点估计所得到的估计值为中心的某一个小区间内，那就比较有把握了。

这种方法就是区间估计法。

在第四章中我们已经知道，一个足够大样本的均值的抽样分布是正态的，并且所抽到的样本均值落在总体均值的两侧x σ±范围内的概率是0.683，落在总体均值±2σx 范围内的概率是0.955，落在总体均值3±σx 范围内的概率是0.997等等。

由此可见，我们可以按照概率来估计总体均值是落在某一区间范围内的。

我们把这种对总体均值的估计称作区间估计。

从上述说明可以看到：1. 如果所估计的区间越大，参数被包含在该区间内的概率就越大。

2. 如果样本的方差越小，则在相同的概率下区间估计所得到的结果就越短。

一般地，设θ为总体的一个未知参数，θθ12,分别为由一组样本所确定的对θ的两个估计量，对于给定的10<<α，若P(θθθ12≤≤)=1-α，则称区间[θθ12,]为置信度是1-α的置信区间。

θθ12,分别为置信区间的下限和上限。

1-α称为置信度或置信概率，表示区间估计的可靠度。

α称为置信度水平。

常用的置信度有 0.80，0.90，0.95 0.99等。

一般来说，对于估计要求比较精确的问题，置信程度也要求高一些，在社会经济现象中，通常采用95%就可以了。

置信度反过来也表示可能犯错误的概率。

如置信度为95%，则犯错误的概率就为1-95%=5%。

这一概率也就是置信度水平α，也可理解为风险率或风险水平。

图5-2 根据不同样本所得到的置信度为95.5%的置信区间39需要指出的是，P(θθθ12≤≤)=1-α不应理解为θ落在某一固定区间的概率。

统计学第四章参数估计

由样本数量特征得到关于总体的数量特征统计推断(statistical 的过程就叫做统计推断的过程就叫做统计推断 inference)。统计推断主要包括两方面的内容一个是参统计推断主要包括两方面的内容一个是参数估计(parameter estimation)，另一个数估计另一个假设检验。是假设检验(hypothesis testing)。
ˆ P(θ )
无偏有偏
A
B
θ
ˆ θ
估计量的无偏性直观意义
θ =µ
•
•
•
• •
• • • •
•
2、有效性(efficiency)
有效性：对同一总体参数的两个无偏点估计有效性：量，有更小标准差的估计量更有效。
ˆ P(θ )
ˆ θ1 的抽样分布
B A
ˆ θ2 的抽样分布
θ
ˆ θ
பைடு நூலகம்
3、一致性(consistency)
置信区间与置信度
1. 用一个具体的样本所构造的区间是一个特定的区间，个特定的区间，我们无法知道这个样本所产生的区间是否包含总体参数的真值 2. 我们只能是希望这个区间是大量包含总体参数真值的区间中的一个，间中的一个，但它也可能是少数几个不包含参数真值的区间中的一个
均值的抽样分布
总体均值的区间估计(例题分析)
25, 95% 解：已知Ｘ ~N(µ ， 102) ， n=25, 1-α = 95% ， zα/2=1.96。根据样本数据计算得： x =105.36 96。总体均值µ在1-α置信水平下的置信区间为 σ 10 x ± zα 2 = 105.36 ±1.96× n 25 = 105.36 ± 3.92

6-5非正态总体参数的区间估计

2 a n u ,
2
2 b (2nX u ) ,
2
总体服从指数分布未知参数的置信水平为1 的置信区间是 1 1 1 1 ˆ ˆ ( 1 , 2 ) ( (1 u ) , (1 u ) ).
X n
2
c nX 2 .
X
n
2
概率论与数理统计教程（第四版）
[例2] 从一批电子元件中，抽取 50个样品，测得它们设电子元件的使用寿命的使用寿命的均值为1200小时，服从指数分布e( ) , 求未知参数的置信水平为 0.99 的置信区间.
解:由题设有 n 50 , x 1200. 已给置信水平1 0.99 ,
0.01 , 查附表得 u2 u0.005 t0.005 () 2.58. 由此得
目录
上一页
下一页
返回
结束
[例1]从一批产品中抽取 200个样品，发现其中 9 个次品，求这批产品的次品率 p 的置信水平为90%的置信区间. 解: 设随机变量 0 , 若取得正品； X 1 , 若取得次品. p ( x ; p ) p x (1 p )1 x , 概率函数为则 X 服从 "0 1" 分布， x 0或1, 其中 p 是这批产品的次品率. 按题意，样本容量 n 200 ,样本观测值 x1 , x2 ,, x200 中恰有 9 个 1 与 191个 0 , 所以 1 200 9 x xi 200 0.045. 200 i 1
则未知参数 p 的置信水平为1 的置信区间是
b b 2 4ac b b 2 4ac ( p1 , p2 ) ( ˆ ˆ , ). 2a 2a

数理统计第四章区间估计4.3节非正态总体参数的置信区间

18
解: ˆ X 56 / 2452 0.023 n 2452, p
/ 2 0.01, u0.01 2.33
p的98%近似置信区间为 [0.023-2.33 0.003,0.023+2.33 0.003] 即 [0.016,0.03]
19
例设自一大批产品的100件样品中,得一级品60件,求这批产品的一级品率的95%置信区间? ˆ X 0.6 n 100, p 解: / 2 0.025, u0.025 1.96
15
即
T
ˆp p L N (0,1) ˆ (1 p ˆ) / n p
T的极限分布与p无关，于是取T 作为枢轴变量. 当n充分大时有
P u / 2 ˆp p u / 2 1 ˆ (1 p ˆ)/ n p
16
P u / 2
e x , x 0, f ( x) x 0. 0, 其中 0未知
X1 , X 2 , , X n 为抽自总体 X 的样本利用枢轴变量法构造参数的置信系数为1 的置信区间
解：X 是1/的无偏估计(且是UMVUE)，由推论2.4.5
G 2 ( X1 X 2
因此取
T g ( X ( n ) , )
X (n)
作为枢轴变量

9
对给定 (0 1)，只要取a和b满足
X (n) b n1 1 P a b nt dt bn a n a 即 bn a n 1 X (n) X (n) X ( n) 而a b等价变形为 b a
2 X n ) 2n X ～2 n

非正态分布的置信区间

非正态分布的置信区间
非正态分布的置信区间
在进行统计学分析时，常常需要对数据进行置信区间的估计。

置信区间是指有一个给定的置信度，某个参数值在这个置信区间内的可能性为这个置信度。

通常我们使用正态分布计算置信区间，但有时实际数据不符合正态分布，这时候我们就需要使用非正态分布的置信区间。

非正态分布的置信区间可以使用几种不同的方法计算，具体方法因数据类型和样本量而异。

下面介绍几种常用的方法：
1.偏度和峰度的置信区间估计法
对于偏态的非正态数据，偏度和峰度的置信区间估计法比较常用。

这种方法使得我们能够以较高的精确度计算置信区间。

它是通过对偏度和峰度的较准确的估计来计算的。

这种方法适用于样本量较大的情况。

2.分位数的置信区间估计法
对于偏态分布的小样本数据，分位数的置信区间估计法比较常用。

它是一种非参数估计方法，不需要假定数据的分布形态。

这种方法通过计算分位数来计算置信区间。

因为它不需要假定数据的分布形态，所以相比其他方法来说更加灵活。

3.抽样分布的置信区间估计法
对于非正态分布的大样本数据，抽样分布的置信区间估计法比较常用。

这种方法的基本原理是对于任何分布，当样本量足够大时，样本均值服从正态分布。

因此，我们可以使用抽样分布的置信区间公式来计算置信区间。

综上所述，非正态分布的置信区间估计有很多方法，我们应根据数据的分布情况和样本量来选择合适的方法。

而不同的方法所得出的置信区间可能会有所不同，选择一个合适的方法是保证统计分析正确性的关键。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

18
解: ˆ X 56 / 2452 0.023 n 2452, p
/ 2 0.01, u0.01 2.33
p的98%近似置信区间为 [0.023-2.33 0.003,0.023+2.33 0.003] 即 [0.016,0.03]
19
例设自一大批产品的100件样品中,得一级品60件,求这批产品的一级品率的95%置信区间? ˆ X 0.6 n 100, p 解: / 2 0.025, u0.025 1.96
24
实用中可采用下列更简单的方法：
ˆ
由于T ˆ ˆ/n
ˆ/n
L N (0,1)
的极限分布为N (0,1)，与未知参数无关.
因此取T
ˆ ˆ/n
作为枢轴变量.
当n充分大时有 ˆ P u / 2 u / 2 1 ˆ/n
13
Xp P u / 2 u / 2 1 p(1 p) / n
不等式 u / 2 Xp u / 2等价于 p(1 p) / n
2 2 2 2 (n u ) p (2 nX u ) p nX 0 /2 /2
p的置信水平1-α的近似置信区间为
ˆ1 , p ˆ2 ] p ˆ [p u / 2 ˆ (1 p ˆ ) / n, p ˆ u / 2 p ˆ (1 p ˆ) / n p
17
例
某地区随机调查了七岁以下的儿童2452名,发现患有肥胖病的56名, 试以98%的置信度给出该地区全部七岁以下儿童的肥胖发病率的区间估计?
Sn n n
的极限分布是
于是取T 作为枢轴变量.
当n充分大时有
Sn n P u / 2 u / 2 1 n 当 n
23
Sn n P u / 2 u / 2 1 n Sn n 解不等式 u / 2 u / 2 n
p的置信水平1-α的近似置信区间为
n ˆ1 , p ˆ2 ] [p 2 n u /2 1 2 X u / 2 u / 2 2n
2 X (1 X ) u 2 /2 n 4n

14
实用中可采用下列更简单的方法：
由
P ˆ Sn / n p p和
T
得到
Sn np np(1 p)

Xp L N (0,1) p(1 p) / n
p(1 p) P 1 ˆ (1 p ˆ) p
ˆp p L N (0,1) p(1 p) / n
将上述两式相乘，按照依分布收敛的性质，有
ˆp p ˆ (1 p ˆ) / n p ˆp p p(1 p) / n p(1 p) L N (0,1) ˆ (1 p ˆ) p
则g( )=1/的置信系数90%的置信区间为
2nX 2nX 2nX 2nX , 2 , 2 2 2 ( / 2) (1 / 2) (0.05) (0.95) 2n 18 2n 18
[36.787,113.099]
7
2 2 18 (0.10)=25.989，18 (0.90)=10.865
ˆU 和下限g ˆ L为则g( )=1/的置信系数90%的置信上限g
2nX 2nX ˆU 2 g 2 97.745千小时 2n (1- ) 18 (0.90) 2nX 2nX ˆL 2 g 2 40.863千小时 2n ( ) 18 (0.10)
8
2 均匀分布参数的置信区间
不等式 u / 2
ˆp p u / 2 1 ˆ (1 p ˆ)/ n p
ˆp p u / 2等价于 ˆ (1 p ˆ)/ n p
ˆ u / 2 p ˆ (1 p ˆ) / n p p ˆ u / 2 p ˆ (1 p ˆ) / n p
设X ~ U (0, ), 0, X 1 , X 2 , 的置信系数为1-的置信区间. ，X n为抽自总体X 的样本，利用枢轴变量法构造参数
解：X ( n)是的极大似然估计又是充分统计量，
X ( n) / 的密度函数为
nt n1 , f (t ) 0,
0 t 1，其它.
e x , x 0, f ( x) x 0. 0, 其中 0未知
X1 , X 2 , , X n 为抽自总体 X 的样本利用枢轴变量法构造参数的置信系数为1 的置信区间
解：X 是1/的无偏估计(且是UMVUE)，由推论2.4.5
G 2 ( X1 X 2
25
ˆ P u / 2 u / 2 1 ˆ /n
不等式 u / 2 ˆ ˆ/n u / 2等价于
ˆ u ˆ/n ˆu ˆ/n /2 /2
参数的置信系数近似为1-的置信区间为
考虑区间平均长度最短的要求得到
b 1, a n
因此的置信水平1-的置信区间为
X (n) X (n) , n
10
4.3.2 大样本方法 1.总体比值 p 的置信区间
总体比值是指总体中具有某种特征的个体所占的比率,记为 p. 例如,总体的次品率就是指总体中次品所占的比率. 随机变量X表示个体的某种特征指标, 规定当一个体具有某种特征时,则X=1, 否则,X=0. X 服从0-1分布: P(X=1)=p, P(X=0)=1-p. 并且 EX=p, DX=p(1-p) 11
ˆ X 200 / 500 0.4 n 500, p
/ 2 0.025, u0.025 1.96
p的95%近似置信区间为 [0.36,0.44]
21
2 Poisson分布参数的置信区间
设X 1 , X 2 , , X n是抽自总体X 的样本，且 X ～P( ), 其中 0未知
1 两点分布参数的置信区间
设X 1 , X 2 , , X n是抽自总体X 的样本，且 X ～b(1, p), 0 p 1，即
P{X x} p (1 p) ,
x
1 x
x 0,1
求参数p的1置信区间 n
i 1
解：令Sn X i , 可知Sn ~ b(n, p)
根据中心极限定理，对于充分大的n, 有
p的近似95%置信区间为 [0.6-1.96 0.049,0.6+1.96 0.049] 即 [0.504,0.696].
因此,在这批产品中以95%的可靠度估计一级品率在50.4%至69.6%之间.
20
例在某电视节目收视率的调查中，随机抽取了500户家庭，其中有200户家庭收看该电视节目. 试求收视率 p的95％置信区间. 解：收视率 p是两点分布的参数
2 2 n2 2 (2nSn nu ) p S /2 n 0
参数的置信系数近似为1-的置信区间为
2 2 2 S u2 u S S u u Sn n /2 /2 n n /2 /2 ˆ ˆ [1 , 2 ] u / 2 2, u / 2 2 2 2 4 n n n 2n 4n n n 2n
解：令Sn X i , 可知Sn ~ P(n ),即
求参数的1 置信区间 n
i 1
(n ) P( S n k ) , k 0,1, 2, k! 当n充分大时，由中心极限定理可知 e
k
n
Sn n L N (0,1) n
当 n
22
当n充分大时, 随机变量T N (0,1)，与未知参数无关.
15， 45， 50， 53， 60， 65， 70， 83， 90
求平均寿命1/的置信系数90%的置信区间和置信上限、置信下限
6
解：n 9,由样本算得X 59, 2nX 1062, 查表得
2 2 18 (0.05)=28.869，18 (0.95)=9.390 2 2 18 (0.10)=25.989，18 (0.90)=10.865
因此取
T g ( X ( n ) , )
X (n)
作为枢轴变量

9
对给定 (0 1)，只要取a和b满足
X (n) b n1 1 P a b nt dt bn a n a 即 bn a n 1 X (n) X (n) X ( n) 而a b等价变形为 b a
利用不等式等价变形得的置信系数1-的置信区间
22n (1- / 2) 22n ( / 2) , 2n的置信下限为
22n (1- ) 2nX
同理得到的置信系数1-的置信上限为
22n ( ) 2nX
5
例4.3.1设某电子产品的寿命服从指数分布Exp( ), 现从此分布的一批样本中抽取容量为9的样本，测得寿命为(单位：千小时)
2 X n ) 2n X ～2 n
因此，取G 2n X 作为枢轴变量
2
对给定 (0 1)，只要取a和b满足 P(a 2n X b) 1
满足上式的a和b有无穷对，其中有一对a和b 使得区间长度最短.但是这样一对a和b不易求得且表达式复杂，应用不方便.通常采用下列方法，一般令a和b满足
T Sn np np(1 p) Xp L N (0,1) p(1 p) / n 当 n
12
Sn np 当n充分大时, 随机变量T 的极限分布是 np(1 p) N (0,1)，与未知参数p无关.
于是取T 作为枢轴变量.
当n充分大时有

数理统计第四章区间估计4.3节非正态总体参数的置信区间

合集下载

关于非正态总体的区间估计

数理统计之区间估计(ppt 50页)

区间估计

python 非正态分布置信区间

第四章参数估计

非正态总体下的小样本区间估计问题

数理统计中的参数估计与置信区间估计及假设检验与拟合优度检验

统计学中的参数估计和置信区间

数理统计第四章

统计学中的参数估计和置信区间

《统计学》第4章参数估计

6-4 大样本非正态总体参数的区间估计

区间估计

统计学第四章参数估计

6-5非正态总体参数的区间估计

数理统计第四章区间估计4.3节非正态总体参数的置信区间

非正态分布的置信区间

文档推荐

最新文档

数理统计第四章区间估计4.3节非正态总体参数的置信区间

合集下载

关于非正态总体的区间估计

数理统计之区间估计(ppt 50页)

区间估计

python 非正态分布 置信区间

第四章 参数估计

非正态总体下的小样本区间估计问题

数理统计中的参数估计与置信区间估计及假设检验与拟合优度检验

统计学中的参数估计和置信区间

数理统计第四章

统计学中的参数估计和置信区间

《统计学》第4章 参数估计

6-4 大样本非正态总体参数的区间估计

区间估计

统计学 第四章 参数估计

6-5非正态总体参数的区间估计

数理统计第四章区间估计4.3节非正态总体参数的置信区间

非正态分布的置信区间

文档推荐

最新文档

python 非正态分布置信区间

第四章参数估计

《统计学》第4章参数估计

统计学第四章参数估计