依分布收敛与中心极限定理
- 格式:doc
- 大小:277.50 KB
- 文档页数:11
概率论中的收敛-正文概率论中的极限定理和数理统计学中各种统计量的极限性质,都是按随机变量序列的各种不同的收敛性来研究的。
设{X n,n≥1}是概率空间(Ω,F,P)(见概率)上的随机变量序列,从随机变量作为可测函数看,常用的收敛概念有以下几种:以概率1收敛若,则称{X n,n≥1}以概率1收敛于X。
强大数律(见大数律)就是阐明事件发生的频率和样本观测值的算术平均分别以概率 1收敛于该事件的概率和总体的均值。
以概率 1收敛也常称为几乎必然(简记为α.s)收敛,它相当于测度论中的几乎处处(简记为α.e.)收敛。
依概率收敛若对任一正数ε,都有,则称{X n,n≥1}依概率收敛于X。
它表明随机变量X n与X发生较大偏差(≥ε)的概率随n无限增大而趋于零。
概率论中的伯努利大数律就是最早阐明随机试验中某事件 A发生的频率依概率收敛于其概率P(A)的。
依概率收敛相当于测度论中的依测度收敛。
r阶平均收敛对r≥1,若X n-X的r阶绝对矩(见矩)的极限,则称{X n,n≥1}r阶平均收敛于X。
特别,当r=1时,称为平均收敛;当r=2时,称为均方收敛,它在宽平稳过程(见平稳过程)理论中是一个常用的概念。
弱收敛设X n的均值都是有限的,若对任一有界随机变量Y都有,则称{X n,n≥1}弱收敛于X。
由平均收敛可以推出弱收敛。
从随机变量的分布函数(见概率分布)看,常用的有如下收敛概念。
分布弱收敛设F n、F分别表示随机变量X n、X的分布函数,若对F的每一个连续点x都有,则称X n的分布F n弱收敛于X的分布F,也称X n依分布收敛于X。
分布弱收敛还有各种等价条件,例如,对任一有界连续函数ƒ(x),img src="image/254-6.gif" align="absmiddle">。
分布弱收敛是概率论和数理统计中经常用到的一种收敛性。
中心极限定理就是讨论随机变量序列的标准化部分和依分布收敛于正态随机变量的定理。
依概率收敛大数定律中心极限定理依概率收敛、大数定律和中心极限定理是概率论中重要的三个定理,它们在统计学、经济学、物理学等领域有着广泛的应用。
本文将分别介绍这三个定理的定义、原理和应用。
一、依概率收敛1.1 定义依概率收敛是指,对于一组随机变量序列X1,X2,...,Xn,...,如果对于任意给定的正数ε>0,都有:lim P(|Xn-X|≥ε)=0(n→∞)其中,X为常数,则称随机变量序列{Xn}依概率收敛于X。
1.2 原理依概率收敛是弱收敛的一种形式。
它表示当样本容量趋近于无限大时,样本均值与总体均值之间的差距会越来越小,并最终趋于零。
1.3 应用依概率收敛在经济学和金融学中有着广泛的应用。
例如,在股票市场上,当投资者持有股票时,他们通常希望股票价格能够稳定增长。
而依概率收敛则可以帮助投资者预测股票价格的未来趋势,从而制定出更为科学合理的投资策略。
二、大数定律2.1 定义大数定律是指,对于一组独立同分布的随机变量序列X1,X2,...,Xn,...,如果E(Xi)=μ,则对于任意给定的正数ε>0,都有:lim P(|(X1+X2+...+Xn)/n-μ|≥ε)=0(n→∞)其中,μ为总体均值,则称随机变量序列{Xn}满足大数定律。
2.2 原理大数定律是概率论中最基本也是最重要的一条定理。
它表明当样本容量越来越大时,样本均值会越来越接近总体均值。
换句话说,当样本容量充分大时,样本均值就可以代表总体均值。
2.3 应用大数定律在统计学中有着广泛的应用。
例如,在进行人口普查或调查时,如果样本容量太小,则无法准确地反映总体情况。
而通过应用大数定律可以帮助我们确定一个合适的样本容量范围,并保证调查结果的准确性和可靠性。
三、中心极限定理3.1 定义中心极限定理是指,对于一组独立同分布的随机变量序列X1,X2,...,Xn,...,如果E(Xi)=μ,Var(Xi)=σ²,则随机变量序列:Zn=(X1+X2+...+Xn-μn)/σ√n近似服从标准正态分布,则称随机变量序列{Xn}满足中心极限定理。
⼤数定律与中⼼极限定理⽬录随机变量序列的两种收敛性依概率收敛:设{X n}为⼀随机变量序列,X为⼀随机变量,若对于任意ϵ>0,有P(|X n−X|≥ϵ)→0(n→∞)则称序列{X n}依概率收敛于X,记作X n P →X依概率收敛的性质:若X n P →aY n P →b则:X n±Y n P→a±bX n Y n P→abX n÷Y n P→a÷b弱收敛(按分布收敛):随机变量X,X1,X2…的分布函数为F(x),F1(x),F2(x)…,若对于F(x)的任意⼀个连续点x,有lim n→∞F n(x)=F(x)则称分布函数序列{F n(x)}弱收敛于F(x),记作F n(x)W→F(x)也称{X n}按分布收敛于X,记作X n L →X特征函数特征函数:设X是⼀个随机变量,则φ(t)=E(e itX)为X的特征函数。
常⽤分布的特征函数0-1分布:φ(t)=pe it+q泊松分布:φ(t)=∑e itx λk e−λk!=e−λ∑(λe it)kk!=eλ(e it−1)均匀分布:φ(t)=∫b ae itxb−a dx=e itb−e itait(b−a)标准正态分布:φ(t)=e−1 2t2证明:φ(t)=∫∞−∞e itx1√2πe−12x2dx=1√2π∫∞−∞∞∑n=0(itx)nn!e−12x2dx=∞∑n=0(it)nn![∫∞−∞x n1√2πe−12x2]dx=∞∑n=0(it)nn!E(X n)当n为奇数时,E(X n)=∫∞−∞x n1√2πe−12x2dx=0当n为偶数时,E(X n)=E(X2m)=∫∞−∞x2m1√2πe−12x2dx=1√2π∫∞−∞−x2m−1d(e−12x2)=1√2π(2m−1)∫∞−∞x2m−2e−12x2dx=(2m−1)(2m−3)…1∫∞−∞1√2πe−12x2dx=(2m−1)!!=2m!2m(m−1)!故φ(t)=∞∑m=0(it)2m(2m)!E(X2m)=∞∑m=0(it)2m(2m)!2m!2m(m−1)!=∞∑m=0(−t22)mm!=e−1 2t2指数分布的特征函数:φ(t)=(1−it λ)−1证明:φ(t)=∫∞0e itxλe−λx dx=λ[∫∞0cos(tx)e−λx dx+i∫∞0sin(tx)e−λx dx]I=∫∞0cos(tx)e−λx dx=∫∞01t e−λx dsin(tx)=λt∫∞sin(tx)e−λx dx=−λt2[−1+λ∫∞cos(tx)e−λx dx]=−λ2t2I+λt2故I=λλ2+t2φ(t)=λ(λλ2+t2+itλ2+t2)=λλ2+t2(λ+it)=λλ−it=(1−it λ)−1特征函数的性质|φ(t)|≤φ(0)=1证明:|φ(t)|=|∫e itx f(x)dx|≤∫|e itx|f(x)dx=1若Y=aX+b,则φY(t)=e ibtφX(at)证明:φY(t)=∫e it(ax+b)f(x)dx=e itb∫e itax f(x)dx=e ibtφX(at)若X和Y相互独⽴,则有φX+Y(t)=φX(t)φY(t)证明:E(e it(X+Y))=E(e itx e ity)=E(e itx)E(e ity)=φX(t)φY(t)若E(X l)存在,则X的特征函数l次可导,且对1≤k≤l有φ(k)(0)=i k E(X k)证明:φ(k)(t)=∫i k x k e ixt f(x)dx将t=0代⼊得φ(k)(0)=i k∫x k f(x)dx=i k E(X k)⼤数定律 概率是频率的稳定值,其中稳定是什么意思?⼤数定律详细的描述了这个问题。
第四章 第四章 极限定理§1 依分布收敛与中心极限定理一、 一、分布函数弱收敛概率论早期发展的目的在于揭示由于大量随机因素产生影响而呈现的规律性. 贝努里首先认识到研究无穷随机试验序列的重要性,并建立了概率论的第一个极限定理——大数定律,清楚地刻画了事件的概率与它发生的频率之间的关系. 棣莫佛和拉普拉斯提出将观察的误差看作大量独立微小误差的累加,证明了观察误差的分布一定渐近正态——中心极限定理. 随后,出现了许多各种意义下的极限定理. 这些结果和研究方法对概率论与数理统计及其应用的许多领域有着重大影响. 本章着重介绍上述大数定律和中心极限定理等有关内容.§1 依分布收敛与中心极限定理我们知道,如果ξ是概率空间 (Ω, F , P)上的随机变量,那么它的分布函数F(x)=P(ξ≤x )刻画了它的全部概率性质. 因此,对随机变量序列的研究就必须首先对相应的分布函数序列作深入研究.一、分布函数弱收敛定义1 设F 是一分布函数,{F n }是一列分布函数,如果对F 的每个连续点x ∈R ,都有F n (x)→F(x) (n →∞),则称F n 弱收敛(weak convergence)于F ,记作F n W−→− F. 设ξ是一随机变量,{ξn }是一列随机变量,如果ξn 的分布函数列弱收敛于ξ的分布函数,则称ξn 依分布收敛(convergence in distribution)于ξ,记作ξn d−→−ξ. 注1 注1 分布函数逐点收敛的极限函数未必是分布函数.例如, F n (x)=⎩⎨⎧,1,0.,n x n x ≥<该分布函数列处处收敛于0, 但G(x)≡0不是分布函数. 因此对一般的分布函数列,要它们逐点收敛于分布函数,要求是过高了,不得不如定义1加上限制.注2 定义1中的限制条件“对F 的每个连续点x ,F n (x) →F(x)”是足够宽的,例如,F n (x)=⎩⎨⎧,1,0./1,/1n x n x ≥< F(x)= ⎩⎨⎧,1,0 .0,0≥<x x 除在0点以外(F n (0)=0→/F(0)=1),逐点收敛于F(x),而0点刚好是F(x) 的唯一不连续点,因此按定义1,F n W−→− F. *注3 由于分布函数F 的不连续点最多有可数个,F n W−→− F 意味着F n 在R 的一个稠密子集上处处收敛于F (D 在R 上稠密,是指对任意x o ∈R, 在x o 的任意小邻域内,一定有x ∈D ).下面给出海莱(Helly)定理,它们对分布函数列弱收敛性的研究起着重要作用.定理1(海莱第一定理) 设{F n }是一列分布函数,那么存在一个单调不减右连续的函数F (不一定是分布函数),0≤≤F x ()1, x ∈R, 和一子列{kn F },使得对F 的每个连续点x ,kn F (x)→F(x) (k →+∞).证 令r r 12,, 表示全体有理数. 01)(≤≤x F n 意味着{)(1r F n }是有界数列,因此可以找到一个收敛子列{)(11r F n }, 记+∞→=n r G lim )(1)(11r F n .接着考虑有界数列{)(21r F n },存在它的一个收敛子列{)(22r F n },记+∞→=n r G lim )(2)(22r F n . 如此继续,得到 {kn F }⊂{n k F ,1-},+∞→=n k r G lim )()(k kn r F , k ≥2. 现在考虑对角线序列{nn F }. 显然,+∞→n lim )(k nn r F =)(k r G 对所有正整数k 都成立. 另外,由于F n 单调不减,如果r r i j <,有)()(j i r G r G ≤. 因此G(r)是定义在有理数上的有界不减函数.定义)(inf )(j xr r G x F j ≥= x ∈R. (1)这个函数在有理数上与G(x)相等,它显然也是有界不减的. 下面证明,对F 的每个连续点x,+∞→n lim )(x F nn =F(x). (2)任意给定ε>0和F 的连续点x ,选取h >0,使得F(x+h)--F(x--h) <ε/2.根据有理数的稠密性,存在有理数r r i j,满足x-h <ji r x r <<< x+h,从而F(x-h))()()()(h x F r F x F r F j i +≤≤≤≤ . (3)另外,存在N (ε) 使得当n ≥N()ε时,2/|)()(|ε<-i i nn r F r F , 2/|)()(|ε<-j j nn r F r F .(4)进而由F n 和F 的单调性,当n ≥N()ε时,εεε+≤++≤+≤≤)(2/)(2/)()()(x F h x F r F r F x F j j nn nn ,εεε-≥--≥-≥≥)(2/)(2/)()()(x F h x F r F r F x F i i nn nn .综合得到|ε<-|)()(x F x F nn .(5)(2)式得证. 由F 的定义(1),在它的不连续点上是右连续的. 定理1证毕.定理2 (海莱第二定理) 设F 是一分布函数,{F n }是一列分布函数,F n −→−WF. 如果g(x)是R 上的有界连续函数,则⎰⎰∞∞-∞∞-→)()()()(x dF x g x dF x g n . (6)证 因为g 是有界函数,必存在c >0使得 |g (x) | < c, x ∈R. 因为F 的所有连续点构成R 上的稠密集,又由F(∞-)=0, F(∞)=1,故对于任意给定的ε>0, 可以选取a>0使得±a 是F 的连续点,并且F(-a)<ε/12c,1-F(a)<ε/12c.(7)由于F n W−→−F ,存在N 1()ε, 使得当n ≥N 1()ε时, |F n (-a)-F(-a)|<ε/12c, |1-F n (a)-(1-F(a))|<ε/12c,(8)这样我们有|⎰⎰⎰⎰-∞--∞-∞∞-+-aa aan n x dF x g x dF x g x dF x g x dF x g |)()()()()()()()(≤c ))(1)(1)()((a F a F a F a F n n -+-+-+-≤c [ |n F (-a)-F(-a)|+2F(-a)+|1-n F (a)-(1-F(a))|+2(1-F(a))]<ε/2. (9)下面考虑⎰⎰---a aaan x dF x g x dF x g )()()()(||. 由于g(x)在闭区间[-a, a]上一致连续,可以选取a x x x a m =<<<=- 10, 使得所有x i 是F 的连续点,且i i x x x ≤<-1max |g(x)--g(i x )|<ε/8. 于是⎰⎰---aa aan x dF x g x dF x g )()()()(||=∑⎰∑⎰==---mi x x mi x x n ii ii x dF x g x dF x g 1111)()()()(||∑⎰=--≤mi x x n i ii x dF x g x g 11)(|)()(|+∑⎰=--mi x x i ii x dF x g x g 11)(|)()(|+∑⎰⎰=---⋅mi x x x x n i ii ii x dF x dF x g 111)()(||)(||∑∑==---+-+-≤mi mi i i n i i i ninx F x F c x F x F x F x F 111|)()(|2)}()()()({8ε=∑=-+--+--mi i i n n n x F x F c a F a F a F a F 0|)()(|2))()()()((8ε. (10)由于1)()(≤--a F a F n n , F a F a ()()--≤1, 再选择N 2()ε使得当n ≥N 2()ε时,<-|)()(|i i n x F x F mc 8ε,i = 0,1,2,…,m. (11)故(10)式不超过ε/2. 因此,当n ))(),(m ax (21εεN N ≥时,⎰⎰∞∞-∞∞--)()()()(|x dF x g x dF x g n | <ε.(12)定理证毕.定理3 (勒维(Levy)连续性定理(continuity theorem)) 设F 是一分布函数,{F n }是一列分布函数. 如果F n W −→− F ,则相应的特征函数列{)(t f n}关于t 在任何有限区间内一致收敛于F 的特征函数)(t f .对任何b >0, 仅考虑 | t |≤b . 令itx t e x g =)(, x ∈R. 注意到下列事实:|)(x g t|=1,|||||)()(|sup ||y x b y g x g t t bt -⋅≤-≤,则该定理的证明完全类似于定理2,不再重复.由前面一章知道,特征函数与分布函数相互唯一确定. 同样,勒维连续性定理的逆命题也成立.定理4(逆极限定理) 设)(t f n 是分布函数F x n ()的特征函数,如果对每一个t ,)(t f n→)(t f ,且)(t f 在t=0处连续,则)(t f 一定是某个分布函数F 的特征函数, 且F n W −→− F. 本定理的证明比较繁复,从略. 但定理的作用是很大的,它使得特征函数成为研究某些极限定理的重要工具. 这里先举个例子来说明这个定理的应用.例1 用特征函数法证明二项分布的泊松逼近定理. 证 设ξn 服从二项分布B (n,p n ),且λ=+∞→n n np lim . 它的特征函数为)(t f n =n n it n q e p )(+, 其中n n p q -=1. 当n +∞→时,它的极限为)1())1(1(lim )(lim -+∞→+∞→=-+=it e nit n n n n e n e np t f λ,这正是泊松分布的特征函数. 由逆极限定理,二项分布B (n,p n )依分布收敛于泊松分布P(λ).二、性质除连续性定理外,分布函数弱收敛还有下列性质. 性质1 设{F n }是一列分布函数,如果n F −→−W F, F 是一连续的分布函数,则n F (x)在R上一致收敛于F(x).证明留给读者.性质2 设ξ是一随机变量,{ξn }是一列随机变量,g (x)是R 上的连续函数,如果n ξξ−→−d ,则)(n g ξ)(ξg d−→−.证 假设ξ和n ξ的分布函数分别为F 和n F . 如果n ξξ−→−d ,即n F −→−W F ,由定理2,)(n g ξ的特征函数⎰+∞∞-)()(x dF en x itg 收敛于⎰+∞∞-)()(x dF e x itg , 该极限正是)(ξg 的特征函数. 再类似定理4, )(n g ξ的分布函数弱收敛于)(ξg 的分布函数,即)(n g ξ)(ξg d−→−. 性质3 设{a n }和{b n }是两列常数,F 是一分布函数, {F n }是一列分布函数. 如果 a n →a, b n →b, F n W−→−F, 则F n (n n b x a +)→F(a x +b ),其中x 使得a x +b 是F 的连续点. 证 设x 使得a x +b 是F 的连续点. 令ε>0使得F 在a x +b ±ε处连续(这是可能的,因为F 的连续点在R 上稠密). 显然a x b n n +→a x +b, 故对充分大的n,.εε++≤+≤-+b ax b x a b ax n n(13)因此).()()(εε++≤+≤-+b ax F b x a F b ax F n n n n n由于F n W−→− F ,则 ).()(lim )(lim )(εε++≤+≤+≤-++∞→+∞→b ax F b x a F b x a F b ax F n n n n n n n n让ε→0,由于F 在a x+b 处连续,即可完成证明.推论 如果n ξξ−→−d ,则b a b a d n n n +−→−+ξξ, (0,≠a a n ).这是因为n nn b a +ξ与b a +ξ的分布函数分别为n F (n na b x -)与F(a bx -),再应用性质3即可.三、中心极限定理设一次贝努里试验中成功的概率为p (0 <p <1), 令S n 表示n 重贝努里试验中成功的次数,那么,概率P(S n =k) = b (k; n, p). 在实际问题中, 人们常常对成功次数介于两整数α和β之间(α<β)的概率感兴趣,即要计算P(∑≤≤=≤≤βαβαk n p n k b S ),;(). (14)这一和式往往涉及很多项,直接计算相当困难. 然而德莫佛和拉普拉斯发现,当n →∞时可以用正态分布函数作为二项分布的渐近分布.定理5(德莫佛—拉普拉斯定理) 设Φ(x)为标准正态分布的分布函数. 对-∞<x<∞,有∞→n lim P ⎪⎪⎭⎫⎝⎛≤-x npqnp S n =Φ(x), (15)其中q=1-p.注意到E S n = np, Var S n = npq, (15)式左边是S n 标准化后的分布函数的极限,因此这个定理表示二项分布的标准化变量依分布收敛于标准正态分布. 简单地说成二项分布渐近正态分布.历史上人们是通过精确估计二项分布的值来说明该定理的. 但从现代分析概率论的观点看,这个结果只是将要介绍的更一般的中心极限定理(见定理6)的特殊情形. 因此, 我们不再给出它的证明.定理的直接应用是:当n 很大,p 的大小适中时,(14)式可用正态分布近似计算:P()βα≤≤n S =P ⎪⎪⎭⎫⎝⎛-≤-≤-npq np npq np S npq np n βα =Φ⎪⎪⎭⎫ ⎝⎛-npq np β-Φ⎪⎪⎭⎫ ⎝⎛-npq np α. (16) 它的含义可用右图(图4-1)显示(为了直观,图中显示的是未标准化的随机变量):作相邻小矩形,各小矩形的底边中心为k(α≤k ≤β),底边长为1,高度为b( k; n, p),这些小矩形面积之和即为P()βα≤≤n S . 再作N(np, npq)的密度曲线,在[α,β]之间曲线覆盖的面积为(16)式右边之值.注1 第二章讲过二项分布渐近于泊松分布的泊松定理,它与定理5是没有矛盾的. 因为泊松定理要求λ=∞→n n np lim 是常数,而定理5中p 是固定的. 实际应用中,当n 很大时, 1o若p 大小适中,用正态分布Φ(x)去逼近(15)式左边的概率,精度达到O(n-12/); 2o如果p 接近0(或1),且np 较小(或较大),则二项分布的图形偏斜度太大,用正态分布去逼近效果就不好. 此时用泊松分布去估计精度会更高.注2 实际计算中,若n 不很大,把(16)式右边修正为Φ⎪⎪⎭⎫ ⎝⎛-+npq np 5.0β-Φ⎪⎪⎭⎫ ⎝⎛--npq np 5.0α, (17)一般可提高精度(从上图看,相当于计算密度曲线下[α,β+]之间的面积).例2 设n=104, p=5310-⨯, 求P(70≤n S ).解 尽管p 很小,但np=50很大,此时用泊松逼近并不好, 故用定理5.P(70≤n S )=P ⎪⎭⎫ ⎝⎛≤-50205050n S ≈Φ⎪⎭⎫ ⎝⎛5020≈. 例3 抛掷一枚均匀硬币时需要抛掷多少次才能保证出现正面的频率在与之间的概率不小于90%?解 令n 为抛掷次数, S n 为出现正面的次数, S n ~B(n, 1/2). 题意要求n, 使P≤≤n S n≥利用定理5, 上式左边等于P⎪⎪⎭⎫⎝⎛-≤-≤-4/2/6.04/2/4/2/4.0n n n n n S n n n n ≈Φn -Φn =2Φn -1,当n ≥69时, 上式≥.如果用第三章的切比雪夫不等式,则因E(n S /n)=1/2, Var(n S /n)=1/4n ,取ε=,则P≤≤n S n /n S / n, 只当n ≥250时才满足要求. 通过比较可以看出正态逼近比切比雪夫不等式要精确得多.德莫佛—拉普拉斯定理的意义远不限于这些数值计算. 该定理及其推广形式实际上是概率论早期研究的中心问题.定义2 设{ξn }是一列随机变量. 如果存在常数列B n >0与A n ,使dn nk knA B →-∑=11ξN (0,1),(18)就称{n ξ}满足中心极限定理(central limit theorem).定理6(林德贝格(Lindeberg)—勒维定理) 设{ξn }是一列独立同分布的随机变量. 记S n =∑=nk k1ξ, E ξ1=a, Var ξ1=2σ, 则中心极限定理成立,即−→−-d n n na S σN (0,1).证 我们用特征函数法. 令)(t f 与)(t f n分别为1ξ-a 与σn naS n -的特征函数,由于ξξξ12,,, n 独立同分布,故)(t f n =nn t f ⎪⎪⎭⎫⎝⎛⎪⎪⎭⎫ ⎝⎛σ. 另外,已知E ξ1=a, Var ξ1=σ2, 所以特征函数有二阶连续导数,并且由泰勒 (Taylor) 展开式得+'+=x f f x f )0()0()(12)()0(22x o x f +'', x →0.对给定的t ∈R ,⎪⎪⎭⎫ ⎝⎛σn t f =1-⎪⎭⎫ ⎝⎛+n o n t 122, n →∞,从而2/2)(tn e t f -→, 后者是标准正态分布的特征函数,由定理4即得定理6的结论.中心极限定理有着广泛的应用,在实际工作中,只要n 足够大,便可以把独立同分布的随机变量和的标准化当作正态变量. 下面再看两个例子.例4 近似计算时,原始数据k x 四舍五入到小数第m 位,这时舍入误差k ξ可以看作在[m-⨯10,m-⨯10]上均匀分布,而据此得n 个k x 的和∑k x ,按四舍五入所得的误差是多少呢?习惯上人们总是以各k x 误差上限的和来估计∑k x 的误差限,即×n ×10-m . 当n 很大时,这个数自然很大.事实上,误差不太可能这么大. 因为{k ξ}独立同分布,E k ξ=0, Var k ξ=σ2=102-m /12. 由定理6,P(|σξ∑≤n x k|)≈2Φ(x)-1.若取x=3,上述概率为. 和的误差超过m n n -⨯⨯⨯=1035.03σ的可能性仅为. 显然,对较大的n ,这一误差界限远小于习惯上的保守估计mn -⨯⨯10.*例5 正态随机数的产生有各种方法. 除第二章§5介绍的以外,下面这种方法也是常用的:设{ξk }独立同分布,都服从[0,1 ]上的均匀分布,则Ek ξ=, 12/1==k Var ξσ,由中心极限定理,n 很大时,η=12/2/1n n nk k∑=-ξ近似服从标准正态分布,事实上取n=12就够了. 于是取区间 [0, 1]上12个均匀随机数,则∑=-=1216k k ξη即近似为标准正态随机数.定理6要求各k ξ同分布,这要求有时还是高了一点. 更一般地,林德贝格证明了在各独立随机变量kξ组成的和式∑∑-kkkVar E ξξξ)(中,只要各被加项kkk ar V E ξξξ∑-依概率“均匀地小”,中心极限定理就仍然成立. 即定理7(林德贝格—费勒(Lindeberg-Feller)定理)设{k ξ}为独立随机变量序列,则∑=≤≤∞→nk kknk n 11var var maxlim ξξ=0 (费勒条件)与)(var )(11x E dnk knk k kΦ−→−-∑∑==ξξξ成立的充要条件是林德贝格条件被满足 :τ∀>0,∑⎰=≥-∑-nk E x k k kk x dF E x 1var ||2)()(ξτξξ→0.特别地有定理8(李雅普诺夫(Lyapunov)定理) 若对独立随机变量序列{ξk },存在常数δ>0, 使当n →∞时有∑∑=+=+→-nk k knk k E E Var 1212/10||)(1δδξξξ,则中心极限定理成立.这些结果解释了正态随机变量在自然界中普遍存在的原因.例6 设{}k ξ是相互独立的随机变量序列,k ξ的分布列是 ⎝⎛-5.0k ⎪⎪⎭⎫5.0k . 易知0=k E ξ,2k Var k =ξ,33||k E k =ξ. 因此,当∞→n 时,.0)/()/(||23121312331→=∑∑∑∑====nk n k nk k nk kk k Var ξξ也就是说满足李雅普洛夫条件,所以{}k ξ满足中心极限定理.对数理统计学的许多分支,如参数(区间)估计、假设检验、抽样调查等,中心极限定理都有着重要的作用. 事实上,它也是保险精算等学科的理论基础之一. 假定某保险公司为某险种推出保险业务,现有n 个顾客投保,第i 份保单遭受风险后损失索赔量记为i X . 对该保险公司而言,随机理赔量应该是所有保单索赔量之和,记为S ,即S.1∑=X =ni i弄清S 的概率分布对保险公司进行保费定价至关重要. 在实际问题中,通常假定所有保单索赔相互独立. 这样,当保单总数n 充分大时,我们并不需要计算S 的精确分布(一般情况下这是困难甚至不可能的). 此时,可应用中心极限定理,对S 进行正态逼近:VarS ES S -渐近具有正态分布)1,0(N ,并以此来估计一些保险参数.例7 某保险公司发行一年期的保险索赔金分别为1万元与2万元的两种人身意外险. 索赔概率k q 及投保人数k n 如下表所示(金额单位:万元).保险公司希望只有的可能使索赔金额超过所收取的保费总额. 设该保险公司按期望值原理进行保费定价,即保单i 的保费i i E X +=X )1()(θπ. 要求估计θ.解:计算∑=X =18001i iS 的均值与方差百度文库 - 好好学习,天天向上-11 kk k k i i q b n E ES ∑∑===X =4118001=,16010.0250010.0130002.0250002.01500=⋅⋅+⋅⋅+⋅⋅+⋅⋅)1(41218001k k k k k i i q q b n Var VarS -=X =∑∑== =98.002.0250098.002.0150022⋅⋅⋅+⋅⋅⋅,25690.010.0250090.010.0130022=⋅⋅⋅+⋅⋅⋅+ 由此得保费总额).1(160)1()(θθπ+=+=ES S依题意, 我们有95.0))1((=+≤P ES S θ,也即.95.0)10()(=≤-P =≤-P θθVarS ES S VarS ES VarS ES S 将VarS ES S -近似看作标准正态随机变量,查表可得645.110=θ,故1645.0=θ.。
中心极限定理依分布收敛中心极限定理是概率论中一项重要的定理,它对很多实际问题的分析和推导具有非常重要的指导意义。
它是在分布收敛的前提下得出的,下面我将以生动、全面的方式介绍中心极限定理,并阐述其指导意义。
中心极限定理是指在一定条件下,对于独立随机变量之和的分布,当变量的数量趋于无穷大时,这个和的分布将会逼近一个正态分布。
具体来说,对于任意独立同分布的随机变量序列X1,X2,...,Xn,它们的和Sn=S1+S2+...+Sn符合中心极限定理,当n趋于无穷大时,Sn的分布趋向于正态分布。
中心极限定理具有广泛的应用范围,其中一个重要的应用是在统计学中。
在大部分情况下,我们无法事先准确地得知总体的分布情况,而只能通过从总体中抽取样本来进行分析。
中心极限定理的应用使得我们可以通过样本数据来推断总体的特征,例如总体均值、总体比例等。
这为统计学的发展和应用提供了重要的工具。
另外,中心极限定理也在财务分析、风险评估、医学统计等领域中得到了广泛的应用。
在财务风险评估中,我们通常面临着大量的证券价格、汇率变动等数据,通过应用中心极限定理,我们能够更准确地预测未来的风险和波动性。
在医学统计中,通过对大量病例的分析,中心极限定理使得我们能够更好地对人群健康状况进行判断和预测。
当然,中心极限定理也有一些前提条件。
首先,序列中的随机变量需要独立同分布。
其次,这些随机变量的方差需要有限。
当这些条件满足时,中心极限定理才能成立。
总之,中心极限定理作为概率论中的重要定理,具有丰富的应用价值。
它在统计学、财务分析、医学统计等领域中为我们提供了重要的指导。
通过中心极限定理,我们可以更准确地分析和推断一系列独立随机变量之和的分布情况,从而帮助我们理解和解决实际问题。
因此,了解和应用中心极限定理对我们的学习和工作具有重要的意义。
依概率收敛和依分布收敛在概率论和数理统计中,依概率收敛和依分布收敛是两个重要的概念。
它们是用来描述随机变量序列的收敛性质的。
本文将详细介绍这两个概念的定义、特点及其在实际应用中的意义。
一、依概率收敛依概率收敛是指在概率意义下,随机变量序列Xn收敛于随机变量X的概率趋于1。
形式化的表示为:当n趋向于无穷大时,P(|Xn-X|>=ε)→0其中,ε>0是一个任意给定的正数。
以下是对这个定义的解释:- 在数学语言中,“P(|Xn-X|>=ε)”表示Xn与X之间的距离大于等于ε的概率。
- 在一般情况下,当n趋向无穷大时,Xn与X越来越接近,因此“P(|Xn-X|>=ε)”越来越小。
- 依概率收敛的定义是独立于分布的,也就是说,在随机变量的分布不同的情况下,只要满足上述条件,就可以说Xn依概率收敛于X。
二、依分布收敛依分布收敛是指当n趋向于无穷大时,随机变量序列Xn的分布函数Fn(x)收敛于X的分布函数F(x)。
形式化的表示为:当n趋向于无穷大时,Fn(x)→F(x),对于F(x)的任意一个连续点x。
- 在数学语言中,“Fn(x)→F(x)”表示Fn(x)越来越接近于F(x)。
- 依分布收敛的定义是与随机变量的取值无关的,它只关注于随机变量的分布函数。
- 由于随机变量的分布可以是不同的,因此不能像依概率收敛那样简单地将它们放在一起比较,必须先将它们转换成分布函数的形式,然后再进行比较。
依概率收敛和依分布收敛是两种不同的收敛方式,但它们之间存在着一定的联系,可以通过下面的命题来描述它们之间的关系:如果随机变量序列Xn依概率收敛于随机变量X,则序列Xn也必定依分布收敛于X。
命题的证明需要使用Helly定理,这里不作赘述。
但需要注意的是,反过来则不成立,即随机变量序列Xn依分布收敛于随机变量X并不能推出Xn依概率收敛于X。
依概率收敛和依分布收敛可以用来判断概率极限定理的应用条件,从而给出概率极限的结果。
中心极限定理证明中心极限定理(Central Limit Theorem)是概率论中的一个重要定理,指的是当样本容量足够大时,样本均值的分布逼近于正态分布。
这一定理的证明可以从两个方面入手,一是通过独立随机变量的和的特点,二是通过特征函数的性质。
下面将依次介绍这两种证明方法。
首先从独立随机变量的和的特点进行证明。
设X1, X2, ..., Xn为独立同分布的随机变量序列,其期望和方差分别为μ和σ^2,定义Sn = (X1 + X2 + ... + Xn) / n为这n个随机变量的均值。
根据大数定理,当n趋向于无穷大时,Sn的极限为μ,即Sn依概率收敛于μ。
根据协方差的性质,有Var(Sn) = Var((X1 + X2 + ... + Xn) / n) = (1/n^2) * (Var(X1) + Var(X2) + ... + Var(Xn))。
由于X1,X2, ..., Xn为独立同分布的随机变量,它们的方差都相等,即Var(X1) = Var(X2) = ... = Var(Xn) = σ^2,所以Var(Sn) = σ^2 / n。
根据切比雪夫不等式,对于任意ε > 0,有P(|Sn - μ| ≥ ε) ≤ Var(Sn) / ε^2 = σ^2 / (nε^2)。
当n趋向于无穷大时,右边的概率趋近于0,即Sn依概率收敛于μ。
接下来,我们通过特征函数的性质进行证明。
设X1, X2, ..., Xn 为独立同分布的随机变量序列,其特征函数分别为φ(t) = E(e^itX1),则Sn的特征函数为φ(t/n)^n。
根据独立随机变量和的特征函数的性质,有φ(t/n)^n = φ(t/n) * φ(t/n) * ... * φ(t/n),其中有n个φ(t/n)相乘。
考虑到φ(t)的级数展开形式为φ(t) = 1 + itμ - (t^2σ^2)/ 2 + R(t),其中R(t)为误差项。
将φ(t/n)带入展开形式得到:φ(t/n) = 1 + itμ/n - (t^2σ^2) / (2n^2) + R(t/n)。
第四章 第四章 极限定理§1 依分布收敛与中心极限定理一、 一、分布函数弱收敛 二、性质三、中心极限定理概率论早期发展的目的在于揭示由于大量随机因素产生影响而呈现的规律性. 贝努里首先认识到研究无穷随机试验序列的重要性,并建立了概率论的第一个极限定理——大数定律,清楚地刻画了事件的概率与它发生的频率之间的关系. 棣莫佛和拉普拉斯提出将观察的误差看作大量独立微小误差的累加,证明了观察误差的分布一定渐近正态——中心极限定理. 随后,出现了许多各种意义下的极限定理. 这些结果和研究方法对概率论与数理统计及其应用的许多领域有着重大影响. 本章着重介绍上述大数定律和中心极限定理等有关内容.§1 依分布收敛与中心极限定理我们知道,如果ξ是概率空间 (Ω, F , P)上的随机变量,那么它的分布函数F(x)=P(ξ≤x )刻画了它的全部概率性质. 因此,对随机变量序列的研究就必须首先对相应的分布函数序列作深入研究.一、分布函数弱收敛定义1 设F 是一分布函数,{F n }是一列分布函数,如果对F 的每个连续点x ∈R ,都有F n (x)→F(x) (n →∞),则称F n 弱收敛(weak convergence)于F ,记作F n W−→− F. 设ξ是一随机变量,{ξn }是一列随机变量,如果ξn 的分布函数列弱收敛于ξ的分布函数,则称ξn 依分布收敛(convergence in distribution)于ξ,记作ξn d−→−ξ. 注1 注1 分布函数逐点收敛的极限函数未必是分布函数.例如, F n (x)=⎩⎨⎧,1,0.,n x n x ≥<该分布函数列处处收敛于0, 但G(x)≡0不是分布函数. 因此对一般的分布函数列,要它们逐点收敛于分布函数,要求是过高了,不得不如定义1加上限制.注2 定义1中的限制条件“对F 的每个连续点x ,F n (x) →F(x)”是足够宽的,例如,F n (x)=⎩⎨⎧,1,0./1,/1n x n x ≥< F(x)= ⎩⎨⎧,1,0 .0,0≥<x x 除在0点以外(F n (0)=0→/F(0)=1),逐点收敛于F(x),而0点刚好是F(x) 的唯一不连续点,因此按定义1,F n W−→− F. *注3 由于分布函数F 的不连续点最多有可数个,F n W−→− F 意味着F n 在R 的一个稠密子集上处处收敛于F (D 在R 上稠密,是指对任意x o ∈R, 在x o 的任意小邻域内,一定有x ∈D ).下面给出海莱(Helly)定理,它们对分布函数列弱收敛性的研究起着重要作用.定理1(海莱第一定理) 设{F n }是一列分布函数,那么存在一个单调不减右连续的函数F (不一定是分布函数),0≤≤F x ()1, x ∈R, 和一子列{k n F },使得对F 的每个连续点x ,k n F (x)→F(x) (k →+∞).证 令r r 12,, 表示全体有理数. 01)(≤≤x F n 意味着{)(1r F n }是有界数列,因此可以找到一个收敛子列{)(11r F n }, 记+∞→=n r G lim )(1)(11r F n .接着考虑有界数列{)(21r F n },存在它的一个收敛子列{)(22r F n },记+∞→=n r G lim )(2)(22r F n .如此继续,得到{kn F }⊂{n k F ,1-}, +∞→=n k r G lim )()(k kn r F , k ≥2.现在考虑对角线序列{nn F }. 显然,+∞→n lim )(k nn r F =)(k r G 对所有正整数k 都成立. 另外,由于F n 单调不减,如果r r i j <,有)()(j i r G r G ≤. 因此G(r)是定义在有理数上的有界不减函数. 定义)(inf )(j xr r G x F j ≥= x ∈R. (1)这个函数在有理数上与G(x)相等,它显然也是有界不减的. 下面证明,对F 的每个连续点x,+∞→n lim )(x F nn =F(x). (2)任意给定ε>0和F 的连续点x ,选取h >0,使得F(x+h)--F(x--h) <ε/2.根据有理数的稠密性,存在有理数r r i j ,满足x-h <j i r x r <<< x+h,从而F(x-h))()()()(h x F r F x F r F j i +≤≤≤≤. (3)另外,存在N (ε) 使得当n ≥N()ε时,2/|)()(|ε<-i i nn r F r F , 2/|)()(|ε<-j j nn r F r F .(4)进而由F n 和F 的单调性,当n ≥N()ε时,εεε+≤++≤+≤≤)(2/)(2/)()()(x F h x F r F r F x F j j nn nn ,εεε-≥--≥-≥≥)(2/)(2/)()()(x F h x F r F r F x F i i nn nn .综合得到|ε<-|)()(x F x F nn .(5)(2)式得证. 由F 的定义(1),在它的不连续点上是右连续的. 定理1证毕.定理2 (海莱第二定理) 设F 是一分布函数,{F n }是一列分布函数,F n −→−WF. 如果g(x)是R 上的有界连续函数,则⎰⎰∞∞-∞∞-→)()()()(x dF x g x dF x g n . (6)证 因为g 是有界函数,必存在c >0使得 |g (x) | < c, x ∈R. 因为F 的所有连续点构成R 上的稠密集,又由F(∞-)=0, F(∞)=1,故对于任意给定的ε>0, 可以选取a>0使得±a 是F 的连续点,并且F(-a)<ε/12c,1-F(a)<ε/12c.(7)由于F n W−→−F ,存在N 1()ε, 使得当n ≥N 1()ε时, |F n (-a)-F(-a)|<ε/12c, |1-F n (a)-(1-F(a))|<ε/12c,(8)这样我们有|⎰⎰⎰⎰-∞--∞-∞∞-+-aa aan n x dF x g x dF x g x dF x g x dF x g |)()()()()()()()(≤c ))(1)(1)()((a F a F a F a F n n -+-+-+-≤c [ |n F (-a)-F(-a)|+2F(-a)+|1-n F (a)-(1-F(a))|+2(1-F(a))]<ε/2. (9)下面考虑⎰⎰---a aaan x dF x g x dF x g )()()()(||. 由于g(x)在闭区间[-a, a]上一致连续,可以选取a x x x a m =<<<=- 10, 使得所有x i 是F 的连续点,且i i x x x ≤<-1max |g(x)--g(i x )|<ε/8. 于是⎰⎰---aaaan x dF x g x dF x g )()()()(||=∑⎰∑⎰==---mi x x mi x x n ii ii x dF x g x dF x g 1111)()()()(||∑⎰=--≤mi x x n i ii x dF x g x g 11)(|)()(|+∑⎰=--mi x x i ii x dF x g x g 11)(|)()(|+∑⎰⎰=---⋅mi x x x x n i ii ii x dF x dF x g 111)()(||)(||∑∑==---+-+-≤mi mi i i n i i i ninx F x F c x F x F x F x F 111|)()(|2)}()()()({8ε=∑=-+--+--mi i i n n n x F x F c a F a F a F a F 0|)()(|2))()()()((8ε. (10)由于1)()(≤--a F a F n n , F a F a ()()--≤1, 再选择N 2()ε使得当n ≥N 2()ε时,<-|)()(|i i n x F x F mc 8ε,i = 0,1,2,…,m. (11)故(10)式不超过ε/2. 因此,当n ))(),(max(21εεN N ≥时,⎰⎰∞∞-∞∞--)()()()(|x dF x g x dF x g n | <ε.(12)定理证毕.定理3 (勒维(Levy)连续性定理(continuity theorem)) 设F 是一分布函数,{F n }是一列分布函数. 如果F n W−→− F ,则相应的特征函数列{)(t f n }关于t 在任何有限区间内一致收敛于F的特征函数)(t f .对任何b >0, 仅考虑 | t |≤b . 令itxt e x g =)(, x ∈R. 注意到下列事实:|)(x g t |=1,|||||)()(|sup ||y x b y g x g t t bt -⋅≤-≤,则该定理的证明完全类似于定理2,不再重复.由前面一章知道,特征函数与分布函数相互唯一确定. 同样,勒维连续性定理的逆命题也成立.定理4(逆极限定理) 设)(t f n 是分布函数F x n ()的特征函数,如果对每一个t ,)(t f n →)(t f ,且)(t f 在t=0处连续,则)(t f 一定是某个分布函数F 的特征函数, 且F n W−→− F. 本定理的证明比较繁复,从略. 但定理的作用是很大的,它使得特征函数成为研究某些极限定理的重要工具. 这里先举个例子来说明这个定理的应用.例1 用特征函数法证明二项分布的泊松逼近定理.证 设ξn 服从二项分布B (n,p n ),且λ=+∞→n n np lim . 它的特征函数为)(t f n =nn it n q e p )(+,其中n np q -=1. 当n +∞→时,它的极限为)1())1(1(lim )(lim -+∞→+∞→=-+=it e nit n n n n e n e np t f λ,这正是泊松分布的特征函数. 由逆极限定理,二项分布B (n,p n )依分布收敛于泊松分布P(λ).二、性质除连续性定理外,分布函数弱收敛还有下列性质.性质1 设{F n }是一列分布函数,如果n F −→−WF, F 是一连续的分布函数,则n F (x)在R 上一致收敛于F(x).证明留给读者.性质2 设ξ是一随机变量,{ξn }是一列随机变量,g (x)是R 上的连续函数,如果n ξξ−→−d ,则)(n g ξ)(ξg d−→−.证 假设ξ和n ξ的分布函数分别为F 和n F . 如果n ξξ−→−d,即n F −→−WF ,由定理2,)(n g ξ的特征函数⎰+∞∞-)()(x dF e n x itg 收敛于⎰+∞∞-)()(x dF e x itg , 该极限正是)(ξg 的特征函数. 再类似定理4,)(n g ξ的分布函数弱收敛于)(ξg 的分布函数,即 )(n g ξ)(ξg d−→−.性质3 设{a n }和{b n }是两列常数,F 是一分布函数, {F n }是一列分布函数. 如果 a n →a, b n →b, F n W−→−F, 则F n (n n b x a +)→F(a x +b ),其中x 使得a x +b 是F 的连续点. 证 设x 使得a x +b 是F 的连续点. 令ε>0使得F 在a x +b ±ε处连续(这是可能的,因为F 的连续点在R 上稠密). 显然a x b n n +→a x +b, 故对充分大的n,.εε++≤+≤-+b ax b x a b ax n n(13)因此).()()(εε++≤+≤-+b ax F b x a F b ax F n n n n n由于F n W−→− F ,则 ).()(lim )(lim )(εε++≤+≤+≤-++∞→+∞→b ax F b x a F b x a F b ax F n n n n n n n n让ε→0,由于F 在a x+b 处连续,即可完成证明.推论 如果n ξξ−→−d,则b a b a d n n n +−→−+ξξ, (0,≠a a n ).这是因为n n n b a +ξ与b a +ξ的分布函数分别为n F (n n a b x -)与F(a bx -),再应用性质3即可.三、中心极限定理设一次贝努里试验中成功的概率为p (0 <p <1), 令S n 表示n 重贝努里试验中成功的次数,那么,概率P(S n =k) = b (k; n, p). 在实际问题中, 人们常常对成功次数介于两整数α和β之间(α<β)的概率感兴趣,即要计算P(∑≤≤=≤≤βαβαk n p n k b S ),;(). (14)这一和式往往涉及很多项,直接计算相当困难. 然而德莫佛和拉普拉斯发现,当n →∞时可以用正态分布函数作为二项分布的渐近分布.定理5(德莫佛—拉普拉斯定理) 设Φ(x)为标准正态分布的分布函数. 对-∞<x<∞,有∞→n lim P ⎪⎪⎭⎫ ⎝⎛≤-x npq npS n =Φ(x),(15)其中q=1-p.注意到E S n = np, Var S n = npq, (15)式左边是S n 标准化后的分布函数的极限,因此这个定理表示二项分布的标准化变量依分布收敛于标准正态分布. 简单地说成二项分布渐近正态分布.历史上人们是通过精确估计二项分布的值来说明该定理的. 但从现代分析概率论的观点看,这个结果只是将要介绍的更一般的中心极限定理(见定理6)的特殊情形. 因此, 我们不再给出它的证明.定理的直接应用是:当n 很大,p 的大小适中时,(14)式可用正态分布近似计算:P()βα≤≤n S =P⎪⎪⎭⎫⎝⎛-≤-≤-npq np npq np S npq np n βα =Φ⎪⎪⎭⎫ ⎝⎛-npq np β-Φ⎪⎪⎭⎫ ⎝⎛-npq np α. (16) 它的含义可用右图(图4-1)显示(为了直观,图中显示的是未标准化的随机变量):作相邻小矩形,各小矩形的底边中心为k(α≤k ≤β),底边长为1,高度为b( k; n, p),这些小矩形面积之和即为P()βα≤≤n S . 再作N(np, npq)的密度曲线,在[α,β]之间曲线覆盖的面积为(16)式右边之值.注1 第二章讲过二项分布渐近于泊松分布的泊松定理,它与定理5是没有矛盾的. 因为泊松定理要求λ=∞→n n np lim 是常数,而定理5中p 是固定的. 实际应用中,当n 很大时, 1o若p 大小适中,用正态分布Φ(x)去逼近(15)式左边的概率,精度达到O(n-12/); 2o如果p 接近0(或1), 且np 较小(或较大),则二项分布的图形偏斜度太大,用正态分布去逼近效果就不好. 此时用泊松分布去估计精度会更高.注2 实际计算中,若n 不很大,把(16)式右边修正为Φ⎪⎪⎭⎫ ⎝⎛-+npq np 5.0β-Φ⎪⎪⎭⎫ ⎝⎛--npq np 5.0α, (17)一般可提高精度(从上图看,相当于计算密度曲线下[α-0.5,β+0.5]之间的面积).例2 设n=104, p=5310-⨯, 求P(70≤nS ).解 尽管p 很小,但np=50很大,此时用泊松逼近并不好, 故用定理5.P(70≤n S )=P ⎪⎭⎫⎝⎛≤-50205050n S ≈Φ⎪⎭⎫ ⎝⎛5020≈0.997. 例3 抛掷一枚均匀硬币时需要抛掷多少次才能保证出现正面的频率在0.4与0.6之间的概率不小于90%?解 令n 为抛掷次数, S n 为出现正面的次数, S n ~B(n, 1/2). 题意要求n, 使P(0.4≤≤n S n0.6)≥0.9.利用定理5, 上式左边等于P⎪⎪⎭⎫ ⎝⎛-≤-≤-4/2/6.04/2/4/2/4.0n n n n n S n n n n ≈Φ(0.2n )-Φ(-0.2n )=2Φ(0.2n )-1,当n ≥69时, 上式≥0.9.如果用第三章的切比雪夫不等式,则因E(n S /n)=1/2, Var(n S /n)=1/4n ,取ε=0.1,则P(0.4≤≤n S n/0.6)=P(|n S /n-1/2|<0.1)>1-25 / n, 只当n ≥250时才满足要求. 通过比较可以看出正态逼近比切比雪夫不等式要精确得多.德莫佛—拉普拉斯定理的意义远不限于这些数值计算. 该定理及其推广形式实际上是概率论早期研究的中心问题.定义2 设{ξn }是一列随机变量. 如果存在常数列B n >0与A n ,使dn nk knA B →-∑=11ξN (0,1),(18)就称{n ξ}满足中心极限定理(central limit theorem).定理6(林德贝格(Lindeberg)—勒维定理) 设{ξn }是一列独立同分布的随机变量. 记S n =∑=nk k1ξ, E ξ1=a, Var ξ1=2σ, 则中心极限定理成立,即−→−-d n n na S σN (0,1).证 我们用特征函数法. 令)(t f 与)(t f n 分别为1ξ-a 与σn naS n -的特征函数,由于ξξξ12,,, n 独立同分布,故)(t f n =nn tf ⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫⎝⎛σ. 另外,已知E ξ1=a, Var ξ1=σ2, 所以特征函数有二阶连续导数,并且由泰勒 (Taylor) 展开式得+'+=x f f x f )0()0()(12)()0(22x o x f +'', x →0.对给定的t ∈R ,⎪⎪⎭⎫ ⎝⎛σn t f =1-⎪⎭⎫ ⎝⎛+n o nt 122, n →∞,从而2/2)(tn e t f -→, 后者是标准正态分布的特征函数,由定理4即得定理6的结论.中心极限定理有着广泛的应用,在实际工作中,只要n 足够大,便可以把独立同分布的随机变量和的标准化当作正态变量. 下面再看两个例子.例4 近似计算时,原始数据k x 四舍五入到小数第m 位,这时舍入误差k ξ可以看作在[-0.5m-⨯10,0.5m-⨯10]上均匀分布,而据此得n 个k x 的和∑kx,按四舍五入所得的误差是多少呢?习惯上人们总是以各k x 误差上限的和来估计∑kx的误差限,即0.5×n ×10-m. 当n 很大时,这个数自然很大.事实上,误差不太可能这么大. 因为{k ξ}独立同分布,E k ξ=0, Var k ξ=σ2=102-m/12. 由定理6,P(|σξ∑≤n x k|)≈2Φ(x)-1.若取x=3,上述概率为0.997. 和的误差超过m n n -⨯⨯⨯=1035.03σ的可能性仅为0.003.显然,对较大的n ,这一误差界限远小于习惯上的保守估计0.5mn -⨯⨯10.*例5 正态随机数的产生有各种方法. 除第二章§5介绍的以外,下面这种方法也是常用的:设{ξk }独立同分布,都服从[0,1 ]上的均匀分布,则E k ξ=0.5,12/1==k Var ξσ,由中心极限定理,n 很大时,η=12/2/1n n nk k∑=-ξ近似服从标准正态分布,事实上取n=12就够了. 于是取区间 [0, 1]上12个均匀随机数,则∑=-=1216k k ξη即近似为标准正态随机数.定理6要求各k ξ同分布,这要求有时还是高了一点. 更一般地,林德贝格证明了在各独立随机变量kξ组成的和式∑∑-kkkVar E ξξξ)(中,只要各被加项kkk ar V E ξξξ∑-依概率“均匀地小”,中心极限定理就仍然成立. 即定理7(林德贝格—费勒(Lindeberg-Feller)定理)设{k ξ}为独立随机变量序列,则∑=≤≤∞→nk kknk n 11var var maxlim ξξ=0 (费勒条件)与)(var )(11x E dnk knk k kΦ−→−-∑∑==ξξξ成立的充要条件是林德贝格条件被满足 :τ∀>0,∑⎰=≥-∑-nk E x k k kk x dF E x 1var ||2)()(ξτξξ→0.特别地有定理8(李雅普诺夫(Lyapunov)定理) 若对独立随机变量序列{ξk },存在常数δ>0, 使当n →∞时有∑∑=+=+→-nk k knk k E E Var 1212/10||)(1δδξξξ,则中心极限定理成立.这些结果解释了正态随机变量在自然界中普遍存在的原因.例6 设{}k ξ是相互独立的随机变量序列,k ξ的分布列是 ⎝⎛-5.0k ⎪⎪⎭⎫5.0k . 易知0=k E ξ,2k Var k =ξ,33||k E k =ξ. 因此,当∞→n 时,.0)/()/(||23121312331→=∑∑∑∑====nk n k nk k n k k k k Var ξξ也就是说满足李雅普洛夫条件,所以{}k ξ满足中心极限定理.对数理统计学的许多分支,如参数(区间)估计、假设检验、抽样调查等,中心极限定理都有着重要的作用. 事实上,它也是保险精算等学科的理论基础之一. 假定某保险公司为某险种推出保险业务,现有n 个顾客投保,第i 份保单遭受风险后损失索赔量记为i X . 对该保险公司而言,随机理赔量应该是所有保单索赔量之和,记为S ,即S.1∑=X =ni i弄清S 的概率分布对保险公司进行保费定价至关重要. 在实际问题中,通常假定所有保单索赔相互独立. 这样,当保单总数n 充分大时,我们并不需要计算S 的精确分布(一般情况下这是困难甚至不可能的). 此时,可应用中心极限定理,对S 进行正态逼近:VarS ES S -渐近具有正态分布)1,0(N ,并以此来估计一些保险参数.例7 某保险公司发行一年期的保险索赔金分别为1万元与2万元的两种人身意外险. 索赔概率k q 及投保人数k n 如下表所示(金额单位:万元).保险公司希望只有0.05的可能使索赔金额超过所收取的保费总额. 设该保险公司按期望值原理进行保费定价,即保单i 的保费i i E X +=X )1()(θπ. 要求估计θ.解:计算∑=X =18001i iS 的均值与方差kk k k i i q b n E ES ∑∑===X =4118001=,16010.0250010.0130002.0250002.01500=⋅⋅+⋅⋅+⋅⋅+⋅⋅ )1(41218001k k k k k i i q q b n Var VarS -=X =∑∑== =98.002.0250098.002.0150022⋅⋅⋅+⋅⋅⋅,25690.010.0250090.010.0130022=⋅⋅⋅+⋅⋅⋅+由此得保费总额).1(160)1()(θθπ+=+=ES S依题意, 我们有95.0))1((=+≤P ES S θ,也即.95.0)10()(=≤-P =≤-P θθVarS ES S VarS ES VarS ES S 将VarS ESS -近似看作标准正态随机变量,查表可得645.110=θ,故1645.0=θ.。