对数级数分布参数区间估计
- 格式:pdf
- 大小:390.99 KB
- 文档页数:4
正态分布、指数分布、对数正态分布和威布尔分布函数及其在工程分析中的应用071330225 洋洋目录正态分布函数 (3)正态分布应用领域 (4)正态分布案例分析 (5)指数分布函数 (5)指数分布的应用领域 (6)指数分布案例分析 (7)对数正态分布函数 (7)对数正态分布的应用领域 (9)对数正态分布案例分析 (9)威布尔分布函数 (10)威布尔分布的应用领域 (16)威布尔分布案例分析 (16)附录 (18)参考文献 (21)正态分布函数【1】105正态分布概率密度函数f(t)蓝线:μ=-1 σ=2 红线:μ=1 σ=2 棕线:μ=-1 σ=3 绿线:μ=1 σ=3均数μ决定正态曲线的中心位置;标准差σ决定正态曲线的陡峭或扁平程度。
σ越小,曲线越陡峭;σ越大,曲线越扁平。
105均数μ改变,图像会进行平移,标准差σ改变,图形陡峭度发生变化。
σ越小,图像越陡。
105正态分布可靠度函数R(t)蓝线:μ=-1 σ=2 红线:μ=1 σ=2 棕线:μ=-1 σ=3均数μ改变,图像会进行平移,标准差σ改变,图形陡峭度发生变化。
σ越小,图像越陡。
105正态分布失效率函数λ(t)蓝线:μ=-1 σ=2 红线:μ=1 σ=2 棕线:μ=-1 σ=3均数μ改变,图像会进行平移,标准差σ改变,图形陡峭度发生变化。
σ越小,图像越陡。
正态分布应用领域【1】正态分布是一种最常见的连续型随机变量的分布,它在概率论和数理统计中无论在理论研究还是实际应用上都占有头等重要的地位,这是因为它在误差理论、无线电噪声理论、自动控制、产品检验、质量控制、质量管理等领域都有广泛应用.数理统计中多重要问题的解决都是以正态分布为基础的.某些医学现象,如同质群体的身高、红细胞数、血红蛋白量、胆固醇等,以及实验中的随机误差,呈现为正态或近似正态分布;有些资料虽为偏态分布,但经数据变换后可成为正态或近似正态分布,故可按正态分布规律处理。
正态分布案例分析【1】例1.10 某地1993年抽样调查了100名18岁男大学生身高(cm),其均数=172.70cm,标准差s=4.01cm,①估计该地18岁男大学生身高在168cm以下者占该地18岁男大学生总数的百分数;②分别求X+-1s、X+-1.96s、X+-2.58s围18岁男大学生占该地18岁男大学生总数的实际百分数,并与理论百分数比较。
负二项分布参数估计的MM算法刘寅【摘要】同时求解负二项分布的参数(r,p)的极大似然估计并不是一件容易的事情,该文利用Tian、Huang和Xu提出的组装分解技术来导出负二项分布中关于未知参数(r,p)的极大似然估计的MM算法迭代式,并给出该方法的收敛率的计算公式.随机模拟的结果表明(r,p)的MM迭代结果收敛到其极大似然估计,并且随着样本容量的增加,估计的准确性和精确性以及估计的速度均有显著提高.【期刊名称】《华中师范大学学报(自然科学版)》【年(卷),期】2019(053)003【总页数】5页(P319-323)【关键词】负二项分布;极大似然估计;组装分解技术;MM算法;收敛率【作者】刘寅【作者单位】中南财经政法大学统计与数学学院,武汉430073【正文语种】中文【中图分类】C81负二项分布又称为Pascal分布,是概率统计中的一种非常重要的离散分布.该分布与Poisson具有相同的观测数据类型,但能够有效克服Poisson分布要求总体均值与总体方差相等这一局限,因此可以更好的模拟实际计数数据中可能存在的过离散现象.令X~NBinomial(r,p)(r>0,0<p<1),则其相应的概率质量函数为假设为其相应的观测值.令Yobs={x1,…,xn},则(r,p)的观测数据似然函数为L(r,p|Y{obs})=其中,故相应的对数似然函数为(r,p|Yobs)=(1)其中,c*为与(r,p)无关的标准化常数.在对负二项分布的参数进行估计时,普遍做法主要有以下几种:1) 将r当做常数仅对p进行估计[1];2) 用矩方法估计r,即其中,s2为样本方差[2],再基于估计p;3) 求解方程组∂(r,p|Yobs)/∂r=∂(r,p|Yobs)/∂p=其中,ψ(x)=Γ′(x)/Γ(x)称为digamma函数.然而上述方法在实际应用中存在一定的局限性:1)实际中往往并不知道确切的r是多少,因此将其当做常数并不合适;2)尽管一般对于单参数指数分布族来说,矩估计和极大似然估计相等,但是对于双参数指数分布族而言,极大似然估计往往要优于矩估计;3) 理论上使得∂(r,p|Yobs)/∂r=0的解r存在,但是求解包含digamma函数的方程往往并不容易.虽然牛顿二分法是一个不错的逼近方法,但找到一个符合二分法使用条件的求解区间可能存在困难.Adamids通过将负二项分布看成是对数级数随机变量的Poisson和,并借助于对数级数随机变量与定义在(0,1)上的截断的指数分布随机变量的符合来构造负二项分布参数估计的EM算法[3],但是该算法较为复杂,对于初学者来说理解上较为困难.MM算法[4-5]是处理优化问题的一个重要且实用性强的工具,具有概念简单、操作容易且迭代结果具有稳定性等优点,在统计分析问题中有着广泛的应用[6-10].MM算法的基本思想在于建立一套单调收敛的优化算法[11-12].构造一般的MM算法的核心在于找到一个恰当的替代函数Q(θ|θ(t)),使得(2)其中,θ为定义在参数空间Θ上的向量,θ(t)为极大似然估计的第t次逼近结果.通过极大化替代函数Q(θ|θ(t))得到θ(t+1)=arg maxθ∈ΘQ(θ|θ(t)),(3)作为的第t+1次逼近结果.因由公式(3)定义的迭代式具有上升性质,故在紧致性和连续型的条件成立下,能保证该方法最终收敛到目标值因此,该文利用Tian、Huang和Xu提出的组装分解技术[13]的思想来导出负二项分布中关于未知参数(r,p)的极大似然估计的MM算法.1 基于MM算法的负二项分布参数的极大似然估计为了导出负二项分布关于(r,p)的极大似然估计的MM算法,首先需要引入log-beta函数族和log-gamma函数族的定义.定义1[13] (log-beta函数族) 如果定义在区间[0,1]上的函数g(λ)满足g1(λ)=c*+alog(λ)+blog(1-λ),λ∈[0,1],(4)其中,c*∈为与λ无关的常数且a,b≥0,则称g1(λ)为log-beta函数族的一员,记为g(λ)∈LB(λ).因此,log(λ)和log(1-λ)称为log-beta函数族的两个组装元.定义2[13] (log-gamma函数族) 如果定义在正实数集+上的函数g(λ)满足g(λ)=c*+alog(λ)+b(-λ),λ∈+,(5)其中,c*为与λ无关的常数且a,b≥0,则称g(λ)为log-gamma函数族的一员,记为g(λ)∈LG(λ).因此,log(λ)和-λ称为log-gamma函数族的两个组装元.基于上述定义,可以导出下面同时计算负二项分布中未知参数(r,p)的极大似然估计的MM算法.由公式(1)可知,对于给定的r,p的条件对数似然函数(p|Yobs,r)为(p|Yobs,r)=(6)其中,cr为与p无关的常数.因此,给定r的第t次迭代结果r=r(t),根据公式(6)立即可得(7)另一方面,由公式(1)可知,给定p=p(t),r的条件对数似然函数(r|Yobs,p(t))为1(r)(r|Yobs,r(t)),(8)其中,cr(t)为与r无关的常数,(9)假设观测数据的最大值为s,记0~s的观测频数如下表1所示.表1 负二项分布观测数据及相应的频数Tab.1 Observed counts and corresponding frequencies of the negative binomial distributionxi012…s总计频数m0m1m2…msnx注:s=max1≤i≤nxi.显然,更进一步,还有下述结论成立.定理1 由公式(9)定义的1(r)等价于(10)其中,证明由于xi=0,→log[Γ(xi+r)/Γ(r)]=0,xi=1,→log[Γ(xi+r)/Γ(r)]=log(r),xi=2,→log[Γ(xi+r)/Γ(r)]=log(r)+log(r+1),xi=3,→log[Γ(xi+r)/Γ(r)]=log(r)+log(r+1)+log(r+2),⋮xi=s,→log[Γ(xi+r)/Γ(r)]=log(r)+…+log(r+s-1).因此,1(r)=m1log(r)+m2[log(r)+log(r+1)]+m3[log(r)+log(r+1)+log(r+2)]+…+ms[log(r)+…log(r+s-1)]=(m1+m2+m3+…+ms)log(r)+(m2+m3+…+ms)log(r+1)+(m3+…+ms)log(r+2)+…+证毕.注意到(11)其中,为与r无关的常数.结合定理1的结论,有因此,由公式(8)定义的r的条件对数似然函数(r|Yobs,r(t))满足下述不等关系:其中,Q(r|Yobs,r(t))=对于给定的r=r(t),令dQ(r|Yobs,r(t))/dr=0,立即可得未知参数r的MM迭代式为(12)当|r(t+1)-r(t)|≤10-6且|p(t+1)-p(t)|≤10-6时,迭代过程停止,认为此时已经收敛到极大似然估计值.2 MM算法的收敛率负二项分布参数(r,p)的极大似然估计中,由公式(7)所定义的参数p的迭代结果可知,p的第t次迭代结果仅依赖于r的第t次逼近结果,一旦r的估计确定,p的估计也就唯一确定.另一方面,由公式(12)所定义的参数r的MM迭代式可知,参数r的第t+1次迭代结果仅依赖于它的第t次逼近结果,而与参数p无关.因此,尽管负二项分布要利用MM算法同时对参数(r,p)进行估计,但其收敛的速度仅取决于未知参数r的MM迭代的收敛速度.故对于所提出的MM算法的效果,仅讨论由公式(12)所分别定义的关于未知参数r的MM迭代式的收敛率即可.为了导出未知参数r的MM迭代式的收敛率的计算公式,现将公式(12)改写为r(t+1)=h(r(t)),(13)其中,容易验证,(14)其中,令表示r的极大似然估计.利用公式(13)和h(r(t))在附近的一阶Taylor展式,有(15)其中,θ(t)为介于r(t)和的一个点.根据公式(14)和(15),且未知参数r的MM迭代式的收敛率可由下式计算得到:一般来说,C R∈(0,1).C R越小,收敛的速度越快.3 随机模拟该节通过随机模拟的方法,在不同的(r,p)组合下,分别产生L=1000组来自于负二项分布的随机样本,每一组样本容量均为n.对于每一组随机样本,利用公式(7)和(12)所定义的MM算法来计算(r,p)的极大似然估计,估计结果如下面表2所示.表2 不同(r,p,n)组合下(r,p)的极大似然估计、标准差及平均收敛次数Tab.2 The MLEs,standard deviations and average iteration numbers of (r,p) for different combinations of (r,p,n)样本容量r=2,p=0.2r=5,p=0.4^r^p迭代次数^r^p迭代次数n=202.547 40.233 91529.755 30.463 1467(1.622 9)(0.091 0)(15.952 6)(0.160 1)n=502.204 90.215 01295.993 10.427 1390(0.6448)(0.051 7)(3.138 4)(0.091 6)n=1002.079 80.205 71205.468 50.4151352(0.388 7)(0.032 4)(1.486 7)(0.063 8)n=2002.039 70.202 71185.240 20.408 2331(0.259 1)(0.022 4)(0.953 3)(0.043 2)n=5002.007 10.200 11165.069 40.402 0317(0.168 0)(0.014 5)(0.578 0)(0.027 6)表2分别给出了不同(r,p,n)组合下(r,p)的极大似然估计、标准差及1 000组样本所需收敛次数的平均值.其中,(r,p)的极大似然估计分别为1 000组样本得到的估计的平均值,标准差为1 000组样本得到的估计的样本标准差.从估计结果可以看出,随着样本容量n的增加,(r,p)的极大似然估计值越来越接近其真实值,而相应的标准差越来越小,所需迭代次数越来越少.另一方面,从表2中也可以看出,当r的真实值较小时,样本容量n较小时也能收敛到接近于真实值的结果.然而,当r的真实值较大时,样本容量n越小,所获得的信息越少,因此对于r的估计结果越差.所以,为了得到r的较好的估计结果,往往需要较大的样本容量.4 实证分析Bliss 和Fisher[2]考虑用负二项分布来对从一个果园中6棵相近的苹果树上分别随机挑选的25片树叶上所观测到的一种欧洲成年雌性红色小虫的数量的分布进行拟合,其观测数据见表3.如果采用Bliss和Fisher所提出的估计方法,则有而如果采用本文所提出的MM算法进行估计,则(r,p)的极大似然估计经过64次迭代收敛至表3分别从估计的频数以及拟合优度两个方面对这两种估计方法的结果进行比较.表3 负二项分布拟合苹果树叶上欧洲成年雌性红色小虫数量结果比较Tab.3 Comparison of fitting the negative binomial counts of European red mites on apple leaves via Bliss & Fisher’s metho d and our proposed method每片叶子上小虫的数量01234567χ2p值叶子数实际观测频数703817109321----叶子数估计频数a67.539.021.011.05.72.91.50.73.190.67叶子数估计频数b69.537.620.110.75.73.01.60.82.590.76注:a表示由Bliss和Fisher估计方法所得;b表示由公式(7)和(12)定义的MM算法所得.由表3结果可知,基于公式(7)和(12)定义的MM算法所得到的(r,p)的极大似然估计无论是从估计频数方面还是从拟合优度方面,其估计效果显著优于基于Bliss和Fisher提出的估计方法所得到的极大似然估计结果.5 结论基于经验似然的极大似然估计方法是对观测数据进行统计推断的一个重要方面,该文利用Tian、Huang和Xu提出的组装分解技术[13]给出了同时计算负二项分布的未知参数(r,p)的极大似然估计的MM算法,该算法弥补了现阶段绝大多数研究只侧重于讨论成功概率p的估计的不足;同时克服了通过直接求解方程组∂(r,p|Yobs)/∂r=0,∂(r,p|Yobs)/∂p=0时由于涉及到digamma函数求解而实际操作困难的问题.并且该算法操作容易,简单易懂.值得注意的是,模拟结果显示,当真实的r取值较大时,如果样本容量较小往往难以得到较为准确的估计.因此,在实际问题中,为了得到关于r的较为精确的估计,可能首先需要借助一些先验信息来对r的实际取值进行大致判断.如果r的取值较大,需要适当扩充样本容量或者采用bootstrap自助方法来提高估计的精度.参考文献:【相关文献】[1] 徐伟.负二项分布统计推断及应用[D].长春:吉林大学,2008.XU W.Statistical Inference for Negative Binomial Distribution withApplications[D].Changchun:Jilin University,2008.(Ch).[2] BLISS C I,FISHER R A.Fitting the negative binomial distribution to biologicaldata[J].Biomrtrics,1953,9(2):176-200.[3] ADAMIDIS K.An EM algorithm for estimating negative binomialparameters[J].Australian & New Zealand Journal of Statistics,1999,41(2):213-221.[4] ORTEGA J M,RHEINBOLDT W C.Iterative Solutions of Nonlinear Equations in Several Variables[M].New York:Academic,1970:253-255.[5] HUNTER D R,LAN GE K.Rejoinder to discussion of “Optimization transfer using surrogate objective functions”[J].Journal of Computational and Graphical Statistics,2000,9:52-59.[6] YEN T J.A majorization-minimization approach to variable selection using spike andslab priors[J].The Annals of Statistics,2011,39(3):1748-1775.[7] LEE S,HUANG J Z.A coordinate descent MM algorithm for fast computation of sparse logistic PCA[J].Computational Statistics & Data Analysis,2013,62:26-38.[8] CHI E C,LANGE K.A look at the generalized heron problem through the lens of majorization-minimization[J].The American Mathematical Monthly,2014,121(2):95-108.[9] CHI E C,ZHOU H,LANGE K.Distance majorization and itsapplications[J].Mathematical Programming,Series A,2014,146(1-2):409-436.[10] LANGE K,ZHOU H.MM algorithms for multicategory vertex discriminantanalysis[J].Journal of Computational and Graphical Statistics,2014,17(3):527-544.[11] HUNTER D R,LANGE K.A tutorial on MM algorithms[J].The American Statistician,2004,58(1):30-37.[12] LANGE K.Numerical Analysis for Statisticians[M].2nd Ed.New York:Springer,2010:189-218.[13] TIAN G L,HUANG X F,XU J F.An assembly and decomposition (AD) approach for constructing seperable minorizing functions in a class of MM algorithms[J].Statistica Sinica,2019,29:961-982.。
数理统计5:指数分布的参数估计,Gamma 分布,Gamma 分布与其他分布的联系今天的主⾓是指数分布,由此导出Γ分布,同样,读者应尝试⼀边阅读,⼀边独⽴推导出本⽂的结论。
由于本系列为我独⾃完成的,缺少审阅,如果有任何错误,欢迎在评论区中指出,谢谢!⽬录Part 1:指数分布的参数估计指数分布是单参数分布族,总体X ∼E (λ)有时也记作Exp(λ),此时的总体密度函数为f (x )=λe −λx I x >0.现寻找其充分统计量,样本联合密度函数为f (x )=λn exp−λn∑j =1xj I x 1>0⋯I x n >0=λn e −n λ¯xI x(1)>0,由因⼦分解定理,取g (¯x,λ)=λn e −n λ¯x,h (x )=I x (1)>0,可以得到¯X是λ的充分统计量。
但是指数分布的参数并⾮均值,⽽是均值的倒数,所以对¯X 也有E(¯X)=E(X )=1λ.注意,千万不要想当然地认为期望和⼀般的函数之间是可交换的,即⼀般来说E[f (X )]≠f [E(X )],所以你不能认为¯X−1就是λ的⽆偏估计量。
每到此时,我就想举对数正态分布的例⼦:X ∼N (0,σ2),求e X 的期望。
显然有E(e X )=∫∞−∞e x1√2πσ2exp −x 22σ2d x=∫∞−∞1√2πσ2exp −x 2−2σ2x 2σ2d x=eσ22∫∞−∞1√2πσ2exp −(x −σ2)22σ2d x=e σ22.最后⼀个等号处,积分是N (σ2,σ2)的密度函数全积分为1。
这说明E(e X )=eσ22≠1=e E(X ).同样,也能告诉我们股票的波动率越⼤,期望收益也越⼤。
但是,⽤¯X −1总是有⼀定道理的,⾄少在量级上保持了跟待估参数的⼀致性。
如果我们要进⾏⽆偏调整,则需要求出¯X 的具体密度。
对数级数分布参数区间估计对数级数是一种重要的概率分布函数,常用于描述一些随机现象的分布特征。
它的概率密度函数为:f(x)=λe^(-λ(x-a))其中,λ是正的常数,称之为对数级数的参数。
对数级数的参数区间估计意味着我们要利用样本数据来推断参数λ的范围,以使得对数级数能够最好地拟合样本数据。
对数级数参数的区间估计方法有多种,下面将介绍两种常用的方法:极大似然估计和置信区间估计。
极大似然估计是一种常用的参数估计方法,其基本思想是寻找使得观察到的样本出现的概率最大的参数值。
对于对数级数分布,我们可以利用极大似然估计来估计参数λ的值。
假设我们有n个独立的随机样本{x1,x2,...,xn},我们可以将估计参数λ的问题等价为找到能够最大化似然函数的参数值λ。
似然函数L(λ)定义为观察样本的联合概率密度函数,即:L(λ)=f(x1)f(x2)...f(xn)=λ^n * e^(-λ * (∑x_i-a))要最大化似然函数L(λ),我们需要对L(λ)求导,然后将导数等于0的解作为估计的参数值λ。
由于对数级数的导数比较复杂,我们可以利用数值计算方法来求解。
另一种常用的参数区间估计方法是置信区间估计。
在对数级数分布中,我们可以使用置信区间来推断参数λ的范围。
置信区间是一个区间估计,它表示我们对参数λ的估计值有一定的置信水平。
通常,我们选择置信水平为95%或者99%。
置信区间的计算方法有很多种,其中一种常见的方法是使用正态分布的近似。
在这种情况下,置信区间可以通过计算样本均值和标准差来计算。
具体的计算公式可以参考统计学的相关教材。
总之,对数级数的参数区间估计是对参数λ进行估计的过程。
常用的方法包括极大似然估计和置信区间估计。
极大似然估计通过最大化似然函数来估计参数λ的值,而置信区间估计使用置信区间来推断参数λ的区间范围。
这些方法都可以帮助我们从样本数据中推断出参数值,并对参数的可信程度进行评估。
参数的区间估计1. 参数的概念参数是指一种描述总体特性的量,通常用符号表示。
以样本均值为例,我们通常用$\bar{x}$表示样本均值,用$\mu$表示总体均值,$\bar{x}$就是关于$\mu$的一个参数。
2. 区间估计的基本思想区间估计是通过样本的统计量来估计总体的参数,因为样本数据毕竟是有限的,所以估计值与真实值之间必然存在误差。
为了消除这种误差,我们采用确定一个区间的方法,即“置信区间”。
置信区间是指用样本数据计算出来的一个范围,其含义是真实的总体参数值有一定的置信水平(置信度)落在这个区间内。
①确定信赖水平(置信度)$1-\alpha$,$\alpha$称为显著性水平。
②根据样本均值选择合适的经验公式或理论公式来计算样本估计量的标准误差。
③根据置信度$1-\alpha$,查找$t$分布表或正态分布表,得到置信水平为$1-\alpha$的$t$值或$z$值。
④根据样本容量和总体方差是否已知,确定区间估计公式。
⑤根据置信度和样本数据计算出置信区间。
下面具体介绍区间估计的步骤:A. 确定总体所服从的概率分布总体可以服从正态分布、泊松分布、二项分布等概率分布,其中正态分布是最为常用的一种分布。
B. 确定样本容量$n$样本容量$n$的大小直接影响到置信区间的精度,当样本容量越大,置信区间的长度就越短。
一般观测数据越多,则样本容量越大。
C. 确定置信度$1-\alpha$置信度是指总体参数落在某一特定区间内的概率,一般取$95\%$或$99\%$。
D. 求出样本均值$\bar{x}$样本均值$\bar{x}$是样本中所有元素值的总和除以样本容量$n$,即$\bar{x}=\frac{\sum_{i=1}^nx_i}{n}$E. 求出样本方差$s^2$若总体标准差未知,用样本标准差$s$代替,$S(\bar{x})=\frac{s}{\sqrt{n}}$G. 选择合适的分布当总体服从正态分布,$\frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}}$服从标准正态分布;当总体未知且样本容量$n$较小($n<30$),$\frac{\bar{x}-\mu}{\frac{s}{\sqrt{n}}}$服从$t$分布。