极大似然估计与似然比检验的几点注记
- 格式:doc
- 大小:1.08 MB
- 文档页数:10
极大似然估计方法极大似然估计方法是统计学中一种常用的参数估计方法,用于根据已知的样本数据来估计未知的参数值。
该方法的核心思想是选择使得观测到的样本数据出现的概率最大的参数值作为估计值。
在进行极大似然估计之前,首先需要确定一个概率分布模型。
以伯努利分布为例,假设有一组二元观测数据{0,1,1,0,1},其中1表示成功,0表示失败。
我们希望通过这组数据来估计成功的概率p。
假设成功的概率p服从伯努利分布,则观测到这组数据的概率为p^3*(1-p)^2。
极大似然估计的目标是找到一个使得观测到的样本数据的概率最大的参数值。
通常通过对似然函数取对数,转化为求解极值的问题。
对于上述的伯努利分布模型,我们可以计算出对数似然函数L(p)为3log(p)+2log(1-p)。
为了找到使得L(p)最大的p值,可以对L(p)求导,令导数等于0,并解方程求解。
极大似然估计方法的优点是可以直接利用样本数据来进行参数估计,而无需对概率分布的形式做出过多的假设。
因此,它具有广泛的应用领域。
例如,在医学研究中,可以利用极大似然估计来估计某种疾病的患病率;在金融风险管理中,可以利用极大似然估计来估计某种金融产品的违约概率。
然而,极大似然估计方法也存在一些限制和注意事项。
首先,估计结果的准确性依赖于样本数据的质量和数量。
如果样本数据存在较大的误差或者样本量较小,估计结果可能会失真。
其次,极大似然估计方法对假设的概率分布模型敏感。
如果所选择的模型与真实分布不匹配,估计结果也可能不准确。
因此,在使用极大似然估计方法时,需要对所选择的模型进行合理性检验。
极大似然估计方法是一种常用的参数估计方法,具有广泛的应用领域。
它通过最大化样本数据出现的概率来估计参数值,充分利用了样本数据的信息。
然而,在使用极大似然估计方法时,需要注意样本数据的质量和数量,以及所选择的概率分布模型的合理性。
只有在这些条件满足的情况下,才能得到准确可靠的参数估计结果。
第二章 线性回归模型回顾与拓展 (12-15学时)第四节 三大检验(LR Wald LM ) 一、极大似然估计法(ML )(一)极大似然原理假设对于给定样本{},Y X ,其联合概率分布存在,(),;f Y X ξ。
将该联合概率密度函数视为未知参数ξ的函数,则(),;f Y X ξ称为似然函数(Likelihood Function )。
极大似然原理就是寻找未知参数ξ的估计ˆξ,使得似然函数达到最大,或者说寻找使得样本{},Y X 出现的概率最大ˆξ。
(二)条件似然函数VS 无条件似然函数()()(),;;;f Y X f Y X f X ξθϕ=若θ与ϕ没有关系,则最大化无条件似然函数(),;f Y X ξ等价于分别最大化条件似然函数();f Y X θ和边际似然函数();f X ϕ,从而θ的最大似然估计就是最大化条件似然函数();f Y X θ。
(三)线性回归模型最大似然估计Y X u β=+,2(0,)u N I σ→2222()()(,;,)(2)exp{}2nY X Y X L Y X βββσπσσ-'--=-对数似然函数:22()()2222n n Y X Y X l LnL Ln Ln ββπσσ'--==---于是 22241ˆ(22)0ˆˆ21ˆˆ()()0ˆˆˆ22l X Y X X l n Y X Y X βσβββσσσ∂⎧''=--+=⎪⎪∂⎨∂⎪'=-+--=⎪∂⎩得到 12ˆ()1ˆMLML X X X Y e e n βσ-⎧''=⎪⎨'=⎪⎩(三)得分(Score )和信息矩阵(Information Matrix )(;,)lf Y X θθ∂=∂称为得分; 12...k l l l l θθθθ∂⎡⎤⎢⎥∂⎢⎥∂⎢⎥⎢⎥∂⎢⎥∂⎢⎥=∂⎢⎥⎢⎥⎢⎥⎢⎥∂⎢⎥⎢⎥∂⎣⎦得分向量;(Gradient ) 海瑟矩阵(Hessian Matrix ):2l H θθ∂='∂∂信息矩阵:三*、带约束条件的最小二乘估计(拉格朗日估计)在计量经济分析中,通常是通过样本信息对未知参数进行估计。
第1章 极大似然估计极大似然估计是非线性模型中非常重要的一种估计方法。
最小二乘法是极大似然估计在线性模型中的特例。
1.1 似然函数假设随机变量x t 的概率密度函数为 f (x t ),其参数用θ= (θ1, θ2, …, θk ) 表示,则对于一组固定的参数 θ 来说,x t 的每一个值都与一定的概率相联系。
即给定参数θ,随机变量x t 的概率密度函数为f (x t )。
相反若参数 θ 未知,当得到观测值x t 后,把概率密度函数看作给定x t 的参数 θ 的函数,这即是似然函数。
L (θ | x t ) = f (x t | θ )似然函数L (θ | x t ) 与概率密度函数f (x t | θ ) 的表达形式相同。
所不同的是在f (x t | θ ) 中参数 θ 是已知的,x t 是未知的;而在L (θ | x t ) 中x t 是已知的观测值,参数 θ是未知的。
对于n 个独立的观测值x =(x 1, x 2, …, x n ),其联合概率密度函数为1(|)(|)ni i f f x ==∏x θθ其对应的似然函数为:11(|)(|)(|)nn i i i i LnL LnL x f x ====∑∏θx θθ经常使用的是对数似然函数,即对L (θ| x t )取自然对数:LnL (θ | x t ) =log[f (x t | θ )]例 1.1正态分布随机变量的似然函数设一组随机变量x i ,(i = 1, 2, …, n )是相互独立的,且服从正态分布N (μ,σ2)。
存在N 个独立的观测值x =(x 1, x 2, …, x n )。
x i 的似然函数为221/22()1(,|)(|,)exp (2)2i i i i x L x f x μμσμσπσσ⎛⎫-==-⎪⎝⎭=1i x μφσσ-⎛⎫- ⎪⎝⎭其中,φ表示标准正态分布的概率密度函数,2()2x x φ⎛⎫=- ⎪⎝⎭x i 的对数似然函数为:21(,|)ln()ln ()2i i i x LnL x μμσσφσ-⎛⎫=-+ ⎪⎝⎭其中,21ln ()ln(2)22x x φπ=--(x 1, x 2, …, x n )的联合似然函数为21(,|)ln()ln ()2n i i x n LnL μμσσφσ=-⎛⎫=-+ ⎪⎝⎭∑x=2221()ln()ln(2)222n i i x n n μσπσ=----∑ 例 1.2 泊松分布的对数似然函数假设每5分钟到达商店的顾客的数目服从Poisson 分布,有N 个样本观测值(x 1, x 2, …, x N )。
第1章 极大似然估计极大似然估计是非线性模型中非常重要的一种估计方法。
最小二乘法是极大似然估计在线性模型中的特例。
1.1 似然函数假设随机变量x t 的概率密度函数为 f (x t ),其参数用θ= (θ1, θ2, …, θk ) 表示,则对于一组固定的参数 θ 来说,x t 的每一个值都与一定的概率相联系。
即给定参数θ,随机变量x t 的概率密度函数为f (x t )。
相反若参数 θ 未知,当得到观测值x t 后,把概率密度函数看作给定x t 的参数 θ 的函数,这即是似然函数。
L (θ | x t ) = f (x t | θ )似然函数L (θ | x t ) 与概率密度函数f (x t | θ ) 的表达形式相同。
所不同的是在f (x t | θ ) 中参数 θ 是已知的,x t 是未知的;而在L (θ | x t ) 中x t 是已知的观测值,参数 θ是未知的。
对于n 个独立的观测值x =(x 1, x 2, …, x n ),其联合概率密度函数为1(|)(|)ni i f f x ==∏x θθ其对应的似然函数为:11(|)(|)(|)nn i i i i LnL LnL x f x ====∑∏θx θθ经常使用的是对数似然函数,即对L (θ| x t )取自然对数:LnL (θ | x t ) =log[f (x t | θ )]例 1.1正态分布随机变量的似然函数设一组随机变量x i ,(i = 1, 2, …, n )是相互独立的,且服从正态分布N (μ,σ2)。
存在N 个独立的观测值x =(x 1, x 2, …, x n )。
x i 的似然函数为221/22()1(,|)(|,)exp (2)2i i i i x L x f x μμσμσπσσ⎛⎫-==-⎪⎝⎭=1i x μφσσ-⎛⎫- ⎪⎝⎭其中,φ表示标准正态分布的概率密度函数,2()2x x φ⎛⎫=- ⎪⎝⎭x i 的对数似然函数为:21(,|)ln()ln ()2i i i x LnL x μμσσφσ-⎛⎫=-+ ⎪⎝⎭其中,21ln ()ln(2)22x x φπ=--(x 1, x 2, …, x n )的联合似然函数为21(,|)ln()ln ()2n i i x n LnL μμσσφσ=-⎛⎫=-+ ⎪⎝⎭∑x=2221()ln()ln(2)222n i i x n n μσπσ=----∑ 例 1.2 泊松分布的对数似然函数假设每5分钟到达商店的顾客的数目服从Poisson 分布,有N 个样本观测值(x 1, x 2, …, x N )。
极大似然估计与似然比检验的几点注记
成平
2012-7-26 10:48:28 来源:《概率统计》2003年第1期作者简介:成平中科院数学与系统科学研究院系统所,北京 100080
引言
从它们定义可看出。
它们都是从产生当前样本x的可能大小,也就是似然函数的大小出发,取使得似然函数达到最大的未知参数作为未知参数的估计就是θ的MLE。
对比在零假设H[,0]下使之达到极大似然函数与使之在全参数空间似然函数达到极大之比,就是似然比检验统计量,它们都是很直观的,因此它们在统计推断中,是很重要、很普遍使用的方法,自产生以来,就是统计学者所感兴趣、研究的主题之一,首先为R.A.Fisher及G.A.Barnardt提倡使用,为英国学派所极端重视,甚至到了不用似然方程的文章就不受欢迎的程度,可见其重要性,确
有它的优良性。
MLE有三条重要性质:一是不变性,也就是若
,二是在一些正则条件下,MLE是相合的,因此可能产生其三,它的渐近正态性。
虽然这些正则条件是很普遍的,但是有些现实,正则条件是不满足的,必须引起我们的注意和探讨。
本文就是为此,举出几个例子,以及解决这类问题的办法,提供参考,以便大家探讨。
一、非正则的例子
非正则情况也绝非我们在日常工作中不会碰到的情况。
有些是从理论的兴趣,或者说,从数学严格意义下提出来的,但不少是从应用统计中提出来的,我们必须作出回答,给出办法加以处理,本节就举些例子来说明。
例1不唯一,但皆收敛于真值θ,只是收敛优势不同。
设X服从(θ-1/2;θ+1/2)上的均匀分布,θ∈R[1]。
令x[,(1)],x[,(n)]分别表示简单抽样中的极小值与极大值,则对任意0≤p≤1,px[,(1)]+(1-p)x[,(n)]都是θ的MLE。
而且都收敛于真值θ,只是收敛好坏有差异,一般取(x[,(1)]+x[,(n)]/2为宜。
例2令密度函数f(x)在(a,b)上为正的连续可微的函数,但在(a,b)之外为零,现考虑分布密度族f(x-θ),θ∈R[1],求θ的MLE,此估计可能有各种不同的极限分布,例如:
ⅰ)f(x)为(a,b)上单调降的函数,f(0+a)<∞的θ的MLE是x[,(1)],
n(x[,(1)]-θ)的极限分布是指数分布,但当f(x)=c(x-a)[-∞],0<α<1,当a
<x<a+δ内则n[1/(1-α)](x[,(1)]-θ)的权限分布为1-e[-c/(1-α)x[-α
+1]],x>0;
ⅱ)f(x)为(a,b)上单调增加函数,θ的MLE为x[,(n]),其极限分布类似ⅰ);
例5总体分布是否有混合的检验?
在生物统计中,混合型分布是经常碰到的,自然产生一个问题,它的总体分布是否为混合分布的问题?即检验H[,0]:p(x,θ),H[,1]:pp(x,θ
[,1])+(1-p)p(x,θ[,2]),由于混合比例0≤p≤1作为未知参数之一,因此产生了不正则的情况,当θ[,1]=θ[,2]与p=0或1对应同一分布,因此用极大似然原则时,要作特别处理。
Hartigan在1985[6]就指出,有限混合型分布的iog
似然比检验的极限分布不是χ[2]分布,并举例指出log似然比统计量可以趋于发散。
为了避免这种情况的发生,我们在[10,11]提出把混合参数作一点限制。
对任何确定的ε>0,我们在假设H[,1]中,限制min(p,1-p)≥ε,来讨论问题,避开了这个非正则情况,取得良好结果,在[10]中作者证明了,在上述限制下,用log似然比统计量检验H[,0]:p(x,θ),H[,1]:pp(x,θ[,1])+(1-p)p(x,θ
[,2]),θ是单参数,p(x,θ)是位置参数分布族、刻度参数族、指数分布族时,log似然比统计量的极限分布是零点退化分布与χ[2,1]分布的1/2混合分布(在H[,0]下),若我们欲检验H[,0]:N(μ/ζ[2]),H[,1]:pN(μ[,1],ζ[2])+(1-p)N(μ[,2],ζ[2]),此处θ=(p,μ,ζ[2]),在H[,0]下及上述对p 的限制,log似然比统计量收敛于一混合分布,具体而言,令
他们证明了在适当条件下,M[,n]的极限分布是零点的单点分布与χ[2,1]的1/2混合分布。
综上几个例子可以看出,在非正则情况下,我们认为:
1.先要找到使之不正则的未知参数集合,针对这个集合是个别点,还是一个区域,再分析造成非正则的原因。
像例5采用对参数限制的办法,消除这个不正则的因素,再用似然的原则,或者改变一点似然函数而替代原似然函数,而不改变其实质,即称之为惩罚函数的办法。
像例2及例3(ⅲ)(ⅳ)就不必在极大似然去考虑,而采用其它估计方法,这当然离极大似然原则远一点,如果产生多个极大似然估计,则可选择所有混合下中最优的MLE,例2就可以这样做的。
2.如果我们找出使之不正则的未知参数区域,含有内点。
这情况比较复杂,像例4在θ[,K]<0都不正则,其原因是有两个不同点,虽然样本趋向于∞,但不能区分这两点,亦即两个不同参数对应的分布本质是一样的,那只有删除这些情况,像例4那样来处理,只在θ[,K]≥0去考虑极大似然的原则,当然也可能有其它解决办法。
3.我们处理极大似然原则时,必然注意是否有样本点,使之似然函数只在边界点达到极大,注意这个极大点有限唯一,例如Poisson分布,当x=0时,只有λ=0达到极大,它仍然按一般MLE去处理。
如果有无限个边界点使之达到极大,像例3(ⅲ)那样,则得另想办法了,如采用其它估计办法,如果MLE对每个样本点皆满足
就是可能有很多根,我们只能取使之达到最大的那个根作为θ的MLE。
4.非正则条件下,如果MLE、似然比检验更复杂,它依赖母体分布更强,一个方面是它的缺陷,但另一方面又增加了研究题目,必须使用更高明的方法与技巧。
参考文献:
1R.R.Bahadur.Example of inconsistency of maximumlikelihood estimates.Sankhya,20(1958),207-210.
2J.O.Berger and R.L.Wolpert.The Likelihood Principle,Institute of Math.Statist.Hayward,California,1984.
3R.A.Fisher.Theory of statistical
estimation.Proc.Camb.Phil.Soc.,22(1925),700-725.
4Hanfeng Cen and Jiahua rge sample distribution ofthe likelihood ratio test for normal mixtures,unpublish.
5Hanfeng Chen,Jiahua Chen and J.D.Kalbfeisch.A modifiedlikelihood ratio test for homogeneity in finite mixture models,unpublish.6L.Le Cam.Maximum likelihood:an introduction.International Statistical Review,58(2)(1990),153-171.
7J.Neyman and E.S.Peason.On the problem of the mostefficient tests of statistical hypotheses,Philes.Trans.Roy.Soc.London Series
A,231(1933),289-337.
8A.Wald.Npte on the consistency of maximum
likelihoodestimates.Ann.Math.Statist.,20(1949),595-601.
9S.S.Wilks.The large sampling distribution of thelikelihood ratio for test composite hypotheses.Ann.Math.Stat.,9(1)(1938),600-662.
10Jiahua Chen and Ping Cheng.The limiting distribution ofthe restricted likelihood ratio statistics for finte mixturemodels.应用概率统计,16(2)(2000),159-167.11Jiahua Chen and Ping Cheng.Restricted mzximumlikelihood estimates in finite mixture model.Northeastern Math.J.,11(3)(1995),365-374.
12Cheng Ping.The limit distribution of the restricted logmzximum likelihood ratio for mixture models of two normaldistributions with unknown mean and variance.应用概率统计,16(1)(2000),20-24.
13 Sun Wanlong.On the estimation of parameters of Poissonprocesses.数学进展,19(2)(1990),252-253.
14成平,陈希孺,陈桂景,吴传义.参数估计,上海科技出版社,1985.。