当前位置:文档之家› 指数分布族

指数分布族

指数分布族
指数分布族

指数族

3.1指数分布族

对于每个感兴趣的分布都可能获得属性(例如均值、方差和极大似然估计量稍后正确的定义)。然而,这可能是麻烦的,代数学是沉闷的并且我们无法看到重点。反而,我们考虑到这是一个包含几个我们总所周知分布的“伞形”分布族,我们将对这样的分布得到一个均值和方差的一般式(在这个课程中,当我们考虑到这是一个广义线性模型时就将会是很有用的)。用这些结果去表达极大似然估计就是充分统计量的函数,由此是最佳无偏估计量(在完整的假设下)。换句话说,对于这个分布族的最大似然估计量(在之前我们已经遇到很多次)的确是最佳参数据计量(在最小方差方面)。

假设随机变量变量有概率分布,并且可以写成如下形式

如果的分布(离散随机变量的概率分布函数和连续随机变量的概率密度函数)可以写成上面的形式,则称属于指数族分布。大量的众所周知的概率分布都属于这个分布族。因此通过理解指数组的性质,我们可以得到大量分布函数的总结。

例 3.1.1(a)指数分布,因此概率密度函数可以写成

因此,

(b)二项分布可以被写成

因此

应该提到的是当是一个向量的维度大于1时,可以简单的概括指数族。假设是一个维向量。

P属于指数族,当分布族满足

此时(线性无关),

3.1.1 自然指数分布族

若我们让(),并且是一个可逆函数(因此空间包含和呈一对一对应关系),然后我们重写3.1得

此时,当时成为自然指数分布族。

现在通过转换,我们给出自然指数族形式的例子。

(1)指数分布已经是自然指数分布族形式。

(2)关于二项分布,我们让,因为是可逆的,这产生了对数分布当

因此我们感兴趣的已经转变,我们经常配合一个(后来的模型过程中),和转换回获得的估计量。

自然指数族的一些性质

我们现在讨论自然指数族的一些有趣的属性。

引理3.1.1设随机变量服从自然指数族分布。的矩生成函数是

而且,

证明:设足够小使是个分布,则矩母函数为

因为(),同时我们回忆到

和.因此

因此最终结果,

备注 3.1.1自然指数族的均值和方差使获得极大似然估计量变得非常简单。我

们得到这个之后但我们首先观察因为,所以的均值是的函数。因此我们可以写.。更多的,因为,的导数是严格正量。换句话说,是一个随的递增函数。因此是一个可逆函数,因此给定,我们可以唯一确定。这一观点将被证明是有用的当获得最初的估计。

3.1.2 指数组的极大似然估计

设{}独立同分布于自然指数分布族分布,则对数似然函数为

因此利用因式分解,我们看到充分统计量为。假设1.1.1是成立的,的最小方差无偏估计值应该是的函数。最大似然估计值为函数条件下,我们现在获得的极大似然估计。(因此依靠Rao-Blackwell定理和Lehmann-Scheffe引理他是最佳估计量)。

的极大似然估计为

自然得到是解决(),然而对于(),取决于几个条件。在我们导出这些条件之前首先我们考虑()导数的解决方法。

()微分得

因此,是一个可逆函数。(),当

当然,我们需要知道在什么条件下

上式依赖于参数空间。

引理 3.1.1使为的参数空间和随机变量产生的空间。使

;表示空间,使为样本均值空间

引理3.1.2设{}独立同分布于自然指数分布族分布,,则

证明:证明很简单,因为当时,对数似然函数一阶导数为0,因此在样本均值空间中,时,对数似然函数取最大值。因此为了最小值也超过均值空间M,则不是M=就是。

备注3.1.2 (最小方差无偏估计)设属于自然指数族分布,以上引理的条件是满足的,且是的完备统计量,更多的如果是无偏估计,则为最小方差无偏估计量。然而通常这将不是如此。但是通过Slutsky’s理论可以显示。

备注3.1.3(估算)当(),我们经常有兴趣评估。然而

((

如果所有条件有关参数和样本均值空间是满足的,当的极大似然估计是如下时

()

应该注意的是,指数分布族的一个很大的优势就是极大似然估计是容易获得的(详细的表达式)。

上面的许多结果可以是普遍的在是独立的设置下。但这不是必然的对于同分布和我们都知道的存在满足均值的解释变量。当我们考虑广义线性模型时我们将重新审视这个问题。

指数族和几何分布

指数族和几何分布 关于指数族和广义线性模型的相关知识,详情请点击。 以φ为参数的指数分布为: ,...2,1)1();(1=-=-y y p y ,φφφ (1)证明指数分布是指数族分布。 ) 1log ))1exp((log()log )1log()1exp(()1();(1φφφφφφ φφ-+?-=+--=-=-y y y p y 于是, )1log()1log()(, )() 1(),1(log 1)(η ηφφ ηφφηe e a y y T e y b -=--==-=?-==, (2)使用具有几何反应变量的广义线性模型,执行回归,可得 典型反应函数为: η φ ηηηe y E y T E g -====11 1] ;[] );([)( (3)给定一组训练集},...,2,1);,{()()(m i y x i i =,令一个样本的log 似然性为);|()()(θi i x y p ,下面我们求解随机梯度上升的更新规则。先写出

)1log(11 log 1log ))1log )1g(log(exp(lo );|(log )()() ()()()()()()()()()()()(-+=--=--=---==--i T i T i T i T x i i T x i i T x x i i T i i i e y x e y x e e y x y x y p l θθθθθθθφφφθθ, )(θl 关于j θ求导,得到 ) ( )()()()()( )()())1(1 ()1() 1()()()()()(i j x i x i j i i j x i j x i i j j x e y e x y x e x e y x l i T i T i T i T θθθθθ---- =--?+=??-- 所以梯度上升更新规则为 )()()11(:)(i j x i j j x e y i T θαθθ-- +=。

几种常见的分布

一、常见数据类型数据可大致分为离散我们先来看一看平时遇到的 数据。在正式的解释分布之前,型数据和连续型数据。离散型数据结果只当你掷骰子的时候,离散型数据顾名思义就是只取几个特定的值。例如:。1,2,3,4,5,6,不会出现类似1.5,2.5有连续型数据这个范围可以是有限的或 者是连续型数据可以取任意值。在一个给定的范围内,等 54kg,54.4kg,54.33333kg无穷的。例如:一个人的体重或者身高,可以取值等都没有问题。下面就开始介绍分布的类型。二、分布类型)Bernoulli Distribution伯努利分布(首先从最简单的分布开始,伯努利分布实际上是一个听起来最容易理解的分布。。代表0failure1代表success及伯努利分布一次实验有两个可能的结果,比如pX表示失,一个取值为1并代表成功,成功概率为0随机变量pX一个取值为pq1?或者说1?p。败,失败概率为q(0,1)∈xp(1?p),我们(0,1)x这里,概率分布函数为px(1?p)1?x,其中∈xx1?也可以写成如下形式:x=0x=1pP(x)={1?p x=1 ,,,x=0p,P(x)={1?p,但是这俩概率加和应该0.5成功和失败的概率没必要相同,也就是没必要都是,比如可以是下面的图:为 1. p(failure)=0.85p(success)=0.15p(failure)这个图就是p(success)=0.15,,

=0.85。服从伯努利下面说一下随机变量的期望,一个分布的期望就是这个分布的均值。X X分布的随机变量的期望值就是: p)=p?(1?E(X)=1?p+0?(1?p)=pE(X)=1?p+0服从伯努利分布的随机变量的方差 是:p)(1?=p?p=pV(X)=E(X)?[E(X)] V(X)=E(X2)?[E(X)]2=p?p2=p(1?p)222明天今天会不会去健身,还有许多伯努利分布的例子,比如说明天是否会下雨,乒乓 球比赛是不是会赢。)均匀分布(Uniform Distribution而任何一个结果出现的概率中的任何一个,1到6当你掷骰子的时候,结果出现与伯努利 分布不都是相同的,这就是均匀分布最原始的雏形。你可能看出来了,n n个出现的结果的概率都是相同的。同的是,这X X为均匀分布是指密度函数如下:一个随机变量<∞≤b?f(x)=1ba?∞(a+b)2V(X)= Variance->V(X)=(b?a)21212?a)(b2b=0a=0,所以对于标准

指数分布族

指数族 3.1指数分布族 对于每个感兴趣的分布都可能获得属性(例如均值、方差和极大似然估计量稍后正确的定义)。然而,这可能是麻烦的,代数学是沉闷的并且我们无法看到重点。反而,我们考虑到这是一个包含几个我们总所周知分布的“伞形”分布族,我们将对这样的分布得到一个均值和方差的一般式(在这个课程中,当我们考虑到这是一个广义线性模型时就将会是很有用的)。用这些结果去表达极大似然估计就是充分统计量的函数,由此是最佳无偏估计量(在完整的假设下)。换句话说,对于这个分布族的最大似然估计量(在之前我们已经遇到很多次)的确是最佳参数据计量(在最小方差方面)。 假设随机变量变量有概率分布,并且可以写成如下形式 如果的分布(离散随机变量的概率分布函数和连续随机变量的概率密度函数)可以写成上面的形式,则称属于指数族分布。大量的众所周知的概率分布都属于这个分布族。因此通过理解指数组的性质,我们可以得到大量分布函数的总结。 例 3.1.1(a)指数分布,因此概率密度函数可以写成 因此, (b)二项分布可以被写成 因此 应该提到的是当是一个向量的维度大于1时,可以简单的概括指数族。假设是一个维向量。 P属于指数族,当分布族满足 此时(线性无关), 3.1.1 自然指数分布族

若我们让(),并且是一个可逆函数(因此空间包含和呈一对一对应关系),然后我们重写3.1得 此时,当时成为自然指数分布族。 现在通过转换,我们给出自然指数族形式的例子。 (1)指数分布已经是自然指数分布族形式。 (2)关于二项分布,我们让,因为是可逆的,这产生了对数分布当 因此我们感兴趣的已经转变,我们经常配合一个(后来的模型过程中),和转换回获得的估计量。 自然指数族的一些性质 我们现在讨论自然指数族的一些有趣的属性。 引理3.1.1设随机变量服从自然指数族分布。的矩生成函数是 而且, 证明:设足够小使是个分布,则矩母函数为 因为(),同时我们回忆到 和.因此 ( 因此最终结果, 备注 3.1.1自然指数族的均值和方差使获得极大似然估计量变得非常简单。我

相关主题
文本预览
相关文档 最新文档