第十二章 贝叶斯统计
- 格式:doc
- 大小:338.00 KB
- 文档页数:4
统计推断中的贝叶斯统计理论统计学是一门应用学科,它是数学和科学的交叉学科。
统计学研究如何从数据中推断出有关总体特征的概率方法,并利用这些推断为决策和预测提供依据。
统计推断中的贝叶斯统计理论是一个非常重要的分支。
贝叶斯定理是贝叶斯统计理论的基础。
贝叶斯定理是一种基于先验概率和后验概率的概率推断方法。
这种方法的核心思想是:我们可以利用先验的知识来推断后验的可能性。
在统计推断中,我们通常关心参数的估计和假设检验。
当我们使用经典统计方法时,我们假设参数是固定的,并且我们可以通过样本来估计这些参数的值。
但是,在实际应用中,我们经常会遇到参数不确定的情况,这时候贝叶斯统计理论就可以派上用场了。
贝叶斯统计方法与经典统计方法的主要区别在于它对不确定性的处理方式。
在贝叶斯统计中,我们将参数看作是一个随机变量,其先验分布反映了我们对参数先前知识的不确定性。
当我们观察到数据后,我们利用贝叶斯定理来更新我们预测参数的概率分布,从而得到我们的后验分布。
在进行贝叶斯推断时,我们需要选择一个先验分布。
这是由于,即使我们知道了先验分布,我们仍需选择后验分布的形式。
不同的先验分布可以导致不同的推断结果。
因此,先验分布的选择是非常重要的。
在实际应用中,贝叶斯统计方法有很多优点。
例如,它可以在一个统一的框架中进行参数估计和不确定性分析。
同时,它的结果还可以表达为可能性,这使得结果更直观易懂。
然而,贝叶斯方法也有自己的限制。
第一个限制是计算量往往比较大。
在实际推断中,我们需要计算后验分布,这通常需要进行积分。
对于复杂的模型,这个积分可能是不可解的。
因此,我们通常需要使用近似方法来计算后验分布。
第二个限制是,选择先验分布和后验分布的形式需要经验,这可能导致结果不精确或不稳定。
总之,统计推断中的贝叶斯统计理论是一个非常有用的工具,特别是在面对参数不确定性的情况下。
它通过利用先验知识来更新我们对参数的描述,允许我们进行参数估计和不确定性分析。
叶斯统计决策理论是指综合运用决策科学的基础理论和决策的各种科学方法对投资进行分析决策。
其应用决策科学的一般原理和决策分析的方法研究投资方案的比选问题,从多方面考虑投资效果,并进行科学的分析,从而对投资方案作出决策。
涉及到投资效果的各种评价、评价标准、费用(效益分析)等问题。
投资决策效果的评价问题首要的是对投资效果的含义有正确理解,并进行正确评价。
贝叶斯统计中的两个基本概念是先验分布和后验分布。
①先验分布。
总体分布参数θ的一个概率分布。
贝叶斯学派的根本观点,是认为在关于总体分布参数θ的任何统计推断问题中,除了使用样本所提供的信息外,还必须规定一个先验分布,它是在进行统计推断时不可缺少的一个要素。
他们认为先验分布不必有客观的依据,可以部分地或完全地基于主观信念。
②后验分布。
根据样本分布和未知参数的先验分布,用概率论中求条件概率分布的方法,求出的在样本已知下,未知参数的条件分布。
因为这个分布是在抽样以后才得到的,故称为后验分布。
贝叶斯推断方法的关键是任何推断都必须且只须根据后验分布,而不能再涉及样本分布。
贝叶斯统计(Bayesian statistics),推断统计理论的一种。
英国学者贝叶斯在1763年发表的论文《有关机遇问题求解的短论》中提出。
依据获得样本(Xl,X2,…,Xn)之后θ的后验分布π(θ|X1,X2,…,Xn)对总体参数θ作出估计和推断。
它不是由样本分布作出推断。
其理论基础是先验概率和后验分布,即在事件概率时,除样本提供的后验信息外,还会凭借自己主观已有的先验信息来估计事件的概率。
而以R.A.费希尔为首的经典统计理论对事件概率的解释是频率解释,即通过抽取样本,由样本计算出事件的频率,而样本提供的信息完全是客观的,一切推断的结论或决策不允许加入任何主观的先验的信息。
以对神童出现的概率P的估计为例。
按经典统计的做法,完全由样本提供的信息(即后验信息)来估计,认为参数p是一个“值”。
贝叶斯统计的做法是,除样本提供的后验信息外,人类的经验对p 有了一个了解,如p可能取pl与户p2,且取p1的机会很大,取p2机会很小。
英国学者T.贝叶斯1763年在《论有关机遇问题的求解》中提出一种归纳推理的理论,后被一些统计学者发展为一种系统的统计推断方法,称为贝叶斯方法。
贝叶斯的基本观点:1.认为未知参数是一个随机变量,而非常量。
2.在得到样本以前,用一个先验分布来刻画关于未知参数的信息。
3. 贝叶斯的方法是用数据,也就是样本,来调整先验分布,得到一个后验分布。
4.任何统计问题都应由后验分布出发。
统计推断中主要有三种信息,一是总体信息,即总体分布或总体所属分布族给我们的信息;二是样本信息,即总体中抽取的样本给我们提供的信息;三是先验信息,即抽样之前有关统计问题的一些信息。
贝叶斯学派和经典学派的不同在于对统计推断的三种信息使用的不同,基于前两种信息的统计推断称为经典统计学,它的基本观点是把数据看成是来自具有一定分布的总体,所研究的对象是这个总体而不局限于数据本身。
基于以上三种信息进行的统计推断被称为贝叶斯统计学。
它与经典统计学的主要差别在于是否利用先验信息,在使用样本信息上也是有差异的。
贝叶斯学派的最基本的观点是:任何一个未知量θ都可看作一个随机变量,应用一个概率分布去描述对θ的未知状况。
这个概率分布是在抽样前就有的关于θ的先验信息的概率陈述。
因为任一未知量都有不确定性,而在表述不确定性程度时,概率与概率分布是最好的语言。
这个概率分布就被称为先验分布。
贝叶斯学派认为先验分布不必有客观的依据,它可以部分地或完全地基于主观信念。
这个是经典学派与贝叶斯学派争论的一个焦点,经典学派认为经典统计学是用大量重复试验的频率来确定概率、是“客观”的,因此符合科学的要求,而认为贝叶斯统计是“主观的”,因而只对个人做决策有用。
这是当前对贝叶斯统计的主要批评。
贝叶斯学派认为引入主观概率及由此确定的先验分布至少把概率与统计的研究与应用范围扩大到了不能大量重复的随机现象中来。
其次,主观概率的确定不是随意的,而是要求当事人对所考察的事件有较透彻的了解和丰富的经验,甚至是这一行的专家,在这个基础上确定的主观概率就能符合实际。
第一章 先验分布与后验分布1.1 解:令120.1,0.2θθ==设A 为从产品中随机取出8个,有2个不合格,则22618()0.10.90.1488P A C θ== 22628()0.20.80.2936P A C θ== 从而有5418.03.02936.07.01488.07.01488.0)()|()()|()()|()|(2211111=⨯+⨯⨯=+=θπθθπθθπθθπA P A P A P A 4582.0)|(1)|(4582.03.02936.07.01488.03.02936.0)()|()()|()()|()|(122211222=-==⨯+⨯⨯=+=A A or A P A P A P A θπθπθπθθπθθπθθπ1.2 解:令121, 1.5λλ==设X 为一卷磁带上的缺陷数,则()XP λ∴3(3)3!e P X λλλ-==R 语言求:)4(/)exp(*)3(^gamma λλ-1122(3)(3)()(3)()0.0998P X P X P X λπλλπλ∴===+== 从而有111222(3)()(3)0.2457(3)(3)()(3)0.7543(3)P X X P X P X X P X λπλπλλπλπλ==========1.3 解:设A 为从产品中随机取出8个,有3个不合格,则3358()(1)P A C θθθ=-(1) 由题意知 ()1,01πθθ=<< 从而有.10,)1(504)|(504)6,4(/1)6,4(1)6,4()1()1()1()1()1()1()1()()|()()|()|(535311614531535315338533810<<-==-=--=--=--==⎰⎰⎰⎰--θθθθπθθθθθθθθθθθθθθθθθθθπθθπθθπA beta B R B d d d C C d A P A P A :语言求(2).10,)1(840)|(840)7,4(/1)7,4(1)7,4()1()1()1()1()1()1(2)1()1(2)1()()|()()|()|(636311714631636315338533810<<-==-=--=--=----==⎰⎰⎰⎰--θθθθπθθθθθθθθθθθθθθθθθθθθθπθθπθθπA beta B R B d d d C C d A P A P A :语言求1.5 解:(1)由已知可得.5.125.11,110110/1)()|()()|()|(,2010,101)(5.125.111)|(2112211)|(12,2121,1)|(5.125.11201011111111<<===<<=<<=+<<-==+<<-=⎰⎰θθθθπθθπθθπθθπθθθθθθθθd d x p x p x x p x p x x x p ,,即,时,当(2)由已知可得.6.115.11,1010110/1)()|,,()()|,,(),,|(,2010,101)(6.115.111)|,,(,219.1121,214.1121,211.1121,217.1121215.11212112211)|,,(9.11,4.11,1.11,7.11,5.11,0.12,6,2,1,2121,1)|,,(6.115.112010621621621621621654321621<<===<<=<<=+<<-+<<-+<<-+<<-+<<-+<<-========+<<-=⎰⎰θθθθπθθπθθπθθπθθθθθθθθθθθθθθθθθθd d x x x p x x x p x x x x x x p x x x p x x x x x x i x x x x p i ,即,,时,当【原答案:由已知可得 ()1,0.50.5P x x θθθ=-<<+1(),102010πθθ=<< 11.611.51()0.0110m x d θ==⎰从而有()()()10,11.511.6()P x x m x θπθπθθ==<< 】1.6 证明:设随机变量()XP λ,λ的先验分布为(,)Ga αβ,其中,αβ为已知,则即得证!),(~),,|()()|,,(),,|(,0,)()(,!!)|,,(121)(121211112111βαλπλλπλλπλλαβλπλλλλβαβλααλλ++∑∑∝•∝>Γ=∑===+--+--=-=-==∏∏n x Ga x x x ex x x p x x x e x e x ex x x p ni i n n x n n ni in x ni i x n ni i ni ii【原答案: (),0!x e P x x λλλλ-=>1(),0()e ααβλβπλλλα--=>Γ 因此 11(1)()()()x x x P x e e e λαβλαβλπλλπλλλλ---+--+∝•∝= 所以 (,1)x Ga x λαβ++】 1.7 解:(1)由题意可知.1},max{,1)/(1)/(122)()|,,()()|,,(),,|(,10,1)(,,2,1,10,22)|,,(121},max{221},max{2121121212112122111<<∝===<<==<<<==⎰⎰∏∏⎰∏∏====θθθθθθθθθθπθθπθθπθθπθθθθn nx x nn x x nni in nni inn n n ni i nni inin x x d d x xd x x x p x x x p x x x n i x xx x x x p n n【原答案:由题意可知 ()1,01πθθ=<< 因此122()12(1)xxm x d x θθ=•=-⎰因此 2()()1(),1()1P x x x x m x x θπθπθθθ==<<- (实质是新解当n=1的情形)】(2) 由题意可知.1},max{,1)/(1)/(13232)()|,,()()|,,(),,|(,10,3)(,,2,1,10,22)|,,(12-21},max{2-22-21},max{2212211212121212122111<<∝=⨯⨯==<<==<<<==⎰⎰∏∏⎰∏∏====θθθθθθθθθθθθπθθπθθπθθθπθθθθn n x x n n x x nni in nni inn n n ni i nni inin x x d d x xd x x x p x x x p x x x n i x xx x x x p n n【原答案:由题意可知 1222()36xm x d x θθθ=•=⎰因此 ()()()1,01()P x x m x θπθπθθ==<<】 1.8 解:设A 为100个产品中3个不合格,则3397100()(1)P A C θθθ=-由题意可知 199(202)()(1),01(200)πθθθθΓ=-≤≤Γ 因此 3971994296()()()(1)(1)(1)A P A πθθπθθθθθθθ∝•∝--=- 由上可知)297,5(~)|(Be A θπ1.9 解:设X 为某集团中人的高度,则2(,5)XN θ∴25(,)10XNθ ∴2(176.53)5()p x θθ--=由题意可知 2(172.72)5.08()θπθ--=又由于X 是θ的充分统计量,从而有()()()()x x p x πθπθθπθ=∝•222(176.53)(172.72)(174.64)55.0821.26eeeθθθ------⨯∝•∝因此 (174.64,1.26)x N θ1.10 证明:设22(,),,N u u θσσ其中为已知又由于X 是θ的充分统计量,从而有()()()()x x p x πθπθθπθ=∝•222222251()()11252()11225252u x x u eeeσθθθσσσ+----+⨯--⨯+⨯∝∝因此 222251(,)112525u x xN σθσσ+++又由于21112525σ≤+ 所以 θ的后验标准差一定小于151.11 解:设X 为某人每天早上在车站等候公共汽车的时间,则(0,)X U θ.8,861)/(1192192)()|,,()()|,,(),,|(,4,192)(.81)|,,(8,8,5.3,2,1,0,1)|,,(768778774321321321433213213321>⨯====≥=>=====<<=⎰⎰⎰∞∞∞θθθθθθθθθθπθθπθθπθθθπθθθθθθd d d x x x p x x x p x x x x x x p x x x i x x x x p i ,时,当【原答案:设X 为某人每天早上在车站等候公共汽车的时间,则(0,)XU θ∴1(),0p x x θθθ=<<当8θ>时,31()p x θθ=43819211()8192m x d θθθ+∞==⎰从而有 7()()3()()128p x x m x θπθπθθ==, 计算错误】1.12 证明:由题意可知 1(),0,1,2,...,i np x x i n θθθ=<<=从而有 ()()()()x x p x πθπθθπθ∝•00111n n n ααααθθθθθ++++∝•∝ 因此 θ的后验分布仍是Pareto 分布。
第十二章 贝叶斯统计统计学中有两个主要学派:频率学派和贝叶斯学派。
两者间有着长期的争论,这对统计学的发展起到了积极的促进作用。
本章主要讨论贝叶斯统计的基本思想、理论进展及应用,以期对贝叶斯统计形成初步的认识。
§12.1贝叶斯学派概述贝叶斯统计起源于英国学者贝叶斯的一篇论文“论有关机遇问题的求解”(1763年发表)。
在这篇论文中,他提出了著名的贝叶斯公式。
设参数θ已知时,样本X 的分布密度为(),f x θθ|的先验密度为()πθ,则已知样本X 后,参数θ的后验密度为()()() (12.1.1)()()f x h x f x d πθθθπθθθ=⎰||| 贝叶斯公式、参数θ的后验密度公式(12.1.1) 及贝叶斯假设构成了贝叶斯统计的起点。
频率学派进行统计推断时,依据两种信息:一是总体信息,即统计总体服从何种概率分布,例如总体服从正态分布。
另一是样本信息,即从总体抽取的样本给我们提供的信息。
贝叶斯学派则除以上两种信息之外,还必需利用先验信息,即在抽样(试验)之前有关总体分布的未知参数的信息。
贝叶斯学派受到的批评集中于以下两点: ⑴将参数θ看成是随机变量是否合适;⑵先验分布是否存在,如何确定。
贝叶斯统计在参数的点估计、区间估计及假设检验方面形成了与频率统计相平行的理论方法,并赋予统计推断以新的解释,它在可靠性方面有着成功的应用。
贝叶斯分析与统计决策论也是难以分开的,贝叶斯统计具有简洁实用的特点。
贝叶斯方法的关键是先验分布的确定。
由于现实世界中的事物的发生常不具备大量可重复性,事件发生的概率较难具有频率解释,而又面临解决问题,这就导致主观概率、先验分布的提出,试图通过科学的思维活动来弥补经验的不足,再利用样本X 调整先验分布()πθ为后验分布()h x θ|,完成对参数θ认识的再认识。
例12.1.1一个人打靶,打了n 次,命中了r 次,估计此人打靶命中的概率θ。
一般的估计方法是:ˆr nθ=。
贝叶斯统计1 概率论和统计学的区别简单来说,概率论和统计学解决的问题是互逆的。
假设有一个具有不确定性的过程(process),然后这个过程可以随机的产生不同的结果(outcomes)。
则概率论和统计学的区别可以描述为:在概率论(probability theory)中,我们已知该过程的概率模型,该模型的不确定性由相应的概率分布来描述;概率论要回答的问题是该过程产生某个结果的可能性有多大这类问题。
在统计学(statistics)中,该过程的概率模型对我们来说是未知的,但是我们有一系列该过程产生的结果的观测值;我们希望通过这些观测值来推断出这个过程中的不确定性是什么样的。
总结来说就是:通过已知的概率模型来精确的计算各种结果的可能性就是概率论;根据观测的结果来推断模型的不确定性就是统计学。
如果上面的描述依然晦涩,请看下面这个例子。
假设桶里面有100 个小球,小球分为白色和黑色。
如果已知桶里面一共有 30 个白球和 70 个黑球,想回答随机从桶中摸出一个白球(或者黑球)的概率是多少这样的问题,这就属于概率论的范畴。
而如果已知通过有放回的采样抽出了 10 个球并且其中 4 个白球 6 个黑球,想要推断的是小桶里面白球(或者黑球)的百分比(这些对我们来说是未知的),这就是统计学的范畴。
对于概率论来说,每一个问题都有唯一的答案。
通过相关计算,总可以计算出我们关心的结果发生的概率。
反观统计学,它更像是一门艺术。
因为要推断的模型是未知的,因此很难说哪种推断方法就优于另一种方法,或者哪种推断结果就比其他结果更加正确。
就拿上面的例子来说,虽然观测到的 10 个球中有 4 个白球和 6 个黑球,但我们仍不能断言桶里白球占 40% 的推断就一定比桶里白球占 50% 或者30% 的推断更加准确。
2 古典统计学和贝叶斯统计学统计学领域中有两大学派:古典统计学(classical)和贝叶斯统计学(Bayesian,以英国数学家托马斯·贝叶斯命名)。
统计学中的贝叶斯统计分析研究章节一:介绍统计学中的贝叶斯统计分析研究,是指一种基于贝叶斯定理的推断方法。
它通过先验概率和观察数据的条件概率,来计算出后验概率,从而进行推断和预测。
贝叶斯方法的提出,对统计学的发展和应用带来了很大的推动作用。
尤其在数据处理、机器学习和人工智能等领域得到了广泛的应用。
章节二:贝叶斯定理贝叶斯定理是贝叶斯统计分析的核心,它是根据条件概率,计算出观测数据给出的条件下,模型参数的后验概率分布。
具体地说,贝叶斯定理表述为:$P(\theta | D) = \frac{P(D | \theta) P(\theta)}{P(D)}$其中,$P(\theta | D)$表示后验概率分布,$\theta$表示模型参数,$D$表示观测数据。
$P(D | \theta)$表示似然函数,$P(\theta)$表示先验概率分布,$P(D)$表示边缘概率分布。
贝叶斯定理的本质是在观测数据的情况下,通过对先验分布的修正,计算得到更新后的后验分布。
这种思想也是机器学习和人工智能中一些重要算法,如朴素贝叶斯分类、贝叶斯网络和贝叶斯深度学习等的关键。
章节三:贝叶斯统计分析方法贝叶斯统计分析方法可以分为两类:参数估计和模型选择。
参数估计主要是通过给定数据集,求出模型参数的后验概率分布,然后选取最优的参数估计结果。
其中包括最大后验概率估计(MAP)、期望最大化算法(EM)等。
模型选择主要关注在多个可能的模型中,如何选择最优的模型进行预测和推断。
这类方法包括贝叶斯模型平均(BMA)、贝叶斯信息准则(BIC)等。
贝叶斯统计分析方法的优点在于可以处理不确定性和复杂性的问题。
章节四:应用贝叶斯统计分析方法在各个领域中都有广泛的应用,其典型应用包括以下几个方面:1.医学:通过使用贝叶斯统计分析方法,可以准确地判断病人的疾病类型和疾病风险,并为治疗方案和预后评估提供有力的支持。
2.金融:贝叶斯统计分析方法适用于涉及风险管理、金融投资和资产组合优化等领域,可以帮助金融从业者更有效地进行决策。
第十二章 贝叶斯统计
统计学中有两个主要学派:频率学派和贝叶斯学派。
两者间有着长期的争论,这对统计学的发展起到了积极的促进作用。
本章主要讨论贝叶斯统计的基本思想、理论进展及应用,以期对贝叶斯统计形成初步的认识。
§12.1贝叶斯学派概述
贝叶斯统计起源于英国学者贝叶斯的一篇论文“论有关机遇问题的求解”(1763年发表)。
在这篇论文中,他提出了著名的贝叶斯公式。
设参数θ已知时,样本X 的分布密度为(),f x θθ|的先验密度为()πθ,则已知样本X 后,参数θ的后验密度为
()()() (12.1.1)()()f x h x f x d πθθθπθθθ
=⎰||| 贝叶斯公式、参数θ的后验密度公式(12.1.1) 及贝叶斯假设构成了贝叶斯统计的起点。
频率学派进行统计推断时,依据两种信息:一是总体信息,即统计总体服从何种概率分布,例如总体服从正态分布。
另一是样本信息,即从总体抽取的样本给我们提供的信息。
贝叶斯学派则除以上两种信息之外,还必需利用先验信息,即在抽样(试验)之前有关总体分布的未知参数的信息。
贝叶斯学派受到的批评集中于以下两点: ⑴将参数θ看成是随机变量是否合适;⑵先验分布是否存在,如何确定。
贝叶斯统计在参数的点估计、区间估计及假设检验方面形成了与频率统计相平行的理论方法,并赋予统计推断以新的解释,它在可靠性方面有着成功的应用。
贝叶斯分析与统计决策论也是难以分开的,贝叶斯统计具有简洁实用的特点。
贝叶斯方法的关键是先验分布的确定。
由于现实世界中的事物的发生常不具备大量可重复性,事件发生的概率较难具有频率解释,而又面临解决问题,这就导致主观概率、先验分布的提出,试图通过科学的思维活动来弥补经验的不足,再利用样本X 调整先验分布()πθ为后验分布()h x θ|,完成对参数θ认识的再认识。
例12.1.1一个人打靶,打了n 次,命中了r 次,估计此人打靶命中的概率θ。
一般的估计方法是:ˆr n
θ=。
当1n r ==时,ˆ1θ=;当100n r ==时,仍有ˆ1θ=。
而实际上在这两种情况下,反映出的此人的射击水平是不一样的。
依贝叶斯方法,n 次独立射击,命中r 次的概率为
()(1),r n r n f r r θθθ-⎛⎫=- ⎪⎝⎭
|
当对参数θ一无所知时,可设θ服从[0,1]上的均匀分布,由(12.1.1)得
10(1)(),0 1.(1)r n r
r n r h r d θθθθθ
θθ
---=≤≤-⎰|
取θ关于其后验分布的期望()E r θ|去估计θ,得θ的贝叶斯估计:ˆ(1)2)r n θ
=++。
此时,当1n r ==时,2ˆ3θ
=;当100n r ==时,有101ˆ102θ=。
显然这个估计比r n
要合理。
§12.2先验分布的确定
参数θ的无信息先验分布是指除参数θ的取值范围Θ和θ在总体分布中的地位外,不再包含θ 的任何信息的先验分布。
下述12.2.1,12.2.2,12.2.3均为无信息先验分布的确定。
12.2.1贝叶斯假设
当对θ一无所知时,可认为θ的取值均匀地分布在其变化范围Θ内,取
(),;()0,; (12.2.1)c πθθπθθ=∈Θ=∉Θ
c 为常数,称(12.2.1)式为贝叶斯假设,例(12.1.1) 就是在贝叶斯假设下求出
ˆ(1)(2)r n θ
=++。
然而还存在着这样的矛盾,定义一个变换2,ηθη=在[0,1]上具有单调性,由贝叶斯假设,,θη都应是[0,1]上的均匀分布,实际上当θ服从[0,1]上的均匀分布时,可推出η服从非均匀分布。
12.2.2用Fisher 信息阵确定无信息先验分布
Jeffery 提出的不变原理较好地解决了贝叶斯假设的上述矛盾。
设θ的先验分布为
(),πθ()g ηθ=具有单调性,()q θη=为相应的反函数,η的先验分布为()g πη,则应有
()(())() (12.2.2)g q q πηπηη'=
选择()πθ满足(12.2.2),则由θ或()g ηθ=导出的先验分布具有一致性。
Jeffery 以θ的Fisher 信息阵()I θ的行列式的平方根作为θ的先验分布的核,即
12
()() (12.2.3)I πθθ∝
则可证明(12.2.3)满足(12.2.2 )确定的不变性。
用Jeffery 准则(12.2.3) 式确定例12.1.1中θ的先验分布,可得 1122()(1)πθθθ--∝-
即,()πθ服从贝塔分布11(,)22
β,由此得θ的贝叶斯估计:ˆ(0.5)(1)r n θ
=++。
12.2.3最大熵原则
信源是信息的来源。
对离散信源,设信源符号i X x =出现的概率为(1,2,,)i p i n = ,定义信源的期望信息量为信源的信息熵
()ln(),i i H X p p =-∑
即熵是表征信源的不定程度的总体特性的。
信息获得的可能性较小,则一旦获得信息,所得到的信息量也应是较大的。
可证明对离散型随机变量,等概率状态相应的熵最大。
对连续信源X ,可定义信源的信息熵为
()()ln (),H X p x p x dx =-⎰
可证明在[,]a b 上的均匀分布是熵最大的分布。
从而例12.1.1中θ的最大熵先验分布为[0,1]上的均匀分布。
又设θ是(,)-∞+∞上的随机变量,假定它的一阶矩为τ,二阶中心矩为2τσ,则可推得θ的最大熵分布为2(,)N ττσ。
12.2.4共轭分布
Raiffa 和Schlaifer(1961)提出选择自然共轭分布作为先验分布。
定义:设样本X 的分布密度()f x θ|,若()πθ决定的后验密度: ()h x θ|与()πθ是同一类型的,则称先验分布()πθ为()f x θ|的共轭分布。
再看例12.1.1若选取()πθ为贝塔分布(,)a b β,则可推出:()h r θ|仍服从贝塔分布(,)a r n b r β++-,故贝塔分布是二项分布的共轭分布。
此时,θ的贝叶斯估计:ˆa r a b n
θ+=++。
当1,1a b ==时,θ的先验分布(1,1)β即为贝叶斯假设。
共轭分布要求先验分布()πθ与经样本X 调整后的后验分布()h x θ|具有某种一致性,即要求具有对参数θ的基本认识条件下,通过样本调整,达到对参数θ认识的升华。
12.2.5经验贝叶斯估计
经验贝叶斯方法体现了频率统计和贝叶斯统计的某种融合,其特点是利用历史样本的信息。
例12.2.1 设1,,n X X 是来自总体X 服从2(,)N μσ的样本,2
σ已知,μ的先验分布选为2(,)N ττσ,则可
推知:给定,X x μ=的后验分布()h x μ|服从2(,)N αασ,其中,
22222221,1111x ταττ
στσασσσσσ+==++ 即μ的先验分布2(,)N ττσ,为给定2σ下总体分布2(,)N μσ的共轭分布(也是μ的二阶矩存在下的最大熵分布),在上式中参数2,ττσ是未知的。
经验贝叶斯方法是通过样本1,,n X X 去估计未知参数2,ττσ。
在前述假设下,可推知总体X 的边缘分布为22(,)N ττσσ+,进而可得2,ττσ的极大似然估计
22211
11ˆˆ()n n i i i i X X X n n ττσσ====--∑∑, 由此确定出参数μ的先验分布2ˆˆ(,)N ττ
σ。
§12.3贝叶斯统计的应用与发展
贝叶斯方法在可靠性分析中有着重要的应用。
数据少是可靠性分析的特点,由于可靠性分析的对象大多是精密、贵重的仪器设备,试验费用大,样本量小到甚至只有一、二次的试验结果,在这种情况下去分析设备的可靠性指标,须尽可能地搜集、综合各种验前经验,整理、推导出参数的先验分布。
由前述看到,先验分布的确定不是凭空捏造的,而是通过正常的逻辑思维获得的。
先验分布的使用,成为验后样本量不足的合理的补充。
在决策分析中,考虑一种新产品的销路,分畅销、一般及滞销三种情形,不同的人因为各自经验等方面的原因,对此会作出不同的估计,形成新产品销路三种情形的主观概率。
可见在人们现有知识、经验条件下,主观概率是人们带有主观成分的对事物尽可能的客观性判断,它不等同唯心论。
量子力学里最根本的概念就是用波函数ψ描述的概率幅,最基本的规律就是概率幅叠加的规则,所谓微观粒子的波粒二象性,就是由大量测量事件显示出来的一种按2
ψ的概率分布。
在对物质世界的微观领域的探索中,物理参数呈现出一定的随机性,受科学实验的制约及实验对实验对象的影响,以及微观粒子的大量存在性,这为贝叶斯统计在物理参数估计等方面提供了应用空间。
贝叶斯统计和频率统计都服从柯尔莫哥洛夫(1933)年提出的概率公理体系,运用概率论知识进行其理论推导。
先验分布的确定体现了贝叶斯统计的特色,使贝叶斯统计成为处理实际问题的简明有效的方法。
面向实际,突出实效也是贝叶斯统计生命力之所在。
关于两学派间的争鸣,正如成平在对贝叶斯统计的几点看法中说到:“虽然两个学派在哲理和思想上有其对立的一面,但总的看应是一个互相补充和促进的关系,都是统计学这个百花园中的鲜花。
”贝叶斯统计也在考虑借鉴其它统计学分支的研究手法,贝叶斯统计理论的深入发展似有赖现代概率论的应用。