(完整版)大数定律和中心极限定理
- 格式:doc
- 大小:300.52 KB
- 文档页数:13
中心极限定理和大数定律中心极限定理和大数定律是统计学中非常重要的两个概念。
它们在统计学中被广泛应用,对于理解随机事件的规律性和分析数据具有重要意义。
本文将对中心极限定理和大数定律进行详细的阐述。
一、中心极限定理1. 定义中心极限定理是指当样本量足够大时,样本均值的分布近似于正态分布。
也就是说,如果我们从总体中抽取足够多的样本,并计算每个样本的平均值,那么这些平均值将近似于正态分布。
2. 原理中心极限定理的原理可以用数学公式表示为:当n趋向于无穷大时,样本均值(Xbar)服从正态分布N(μ,σ^2/n)。
其中,μ代表总体均值,σ代表总体标准差。
3. 应用中心极限定理在实际应用中非常广泛。
例如,在质量控制过程中,我们可以通过抽取一小部分产品进行检测,并根据检测结果推断整个批次产品的质量状况。
而根据中心极限定理,我们可以通过抽取足够多的样本并计算样本均值,来推断总体均值和标准差,从而判断整个批次产品的质量是否符合要求。
二、大数定律1. 定义大数定律是指当样本量足够大时,样本平均值趋近于总体平均值。
也就是说,如果我们从总体中抽取足够多的样本,并计算每个样本的平均值,那么这些平均值将趋近于总体的平均值。
2. 原理大数定律的原理可以用数学公式表示为:当n趋向于无穷大时,样本均值(Xbar)趋近于总体均值(μ)。
3. 应用大数定律在实际应用中也非常广泛。
例如,在股票市场中,我们可以通过抽取一小部分股票进行分析,并根据分析结果预测整个市场的走势。
而根据大数定律,我们可以通过抽取足够多的股票并计算它们的收益率,来推断整个市场的平均收益率和风险水平。
三、中心极限定理和大数定律之间的关系1. 相似性中心极限定理和大数定律都是关于样本均值的定理,它们都是基于样本量足够大的前提条件下成立的。
2. 区别中心极限定理和大数定律的主要区别在于它们所描述的内容不同。
中心极限定理描述了样本均值的分布情况,而大数定律描述了样本均值与总体均值之间的关系。
大数定律和中心极限定理1 大数定律这里强调的是总体与样本大数定律就是说:当随机事件发生的次数足够多时,发生的频率趋近于预期的概率大数定律说的是当随机事件重复多次时频率的稳定性,随着试验次数的增加,事件发生的频率趋近于预期的“概率”2 赌徒缪误:1,2,4,8-----在赌钱时——输了就翻倍,一直到赢为止有人说:如果已经连续4次出现正面,接下来的第5次还是正面的话,就接连有5次“正面”,根据概率论,连抛5次正面的几率是1/25=1/32。
所以,第5次正面的机会只有1/32,而不是1/2。
以上混淆了“在硬币第1次抛出之前,预测接连抛5次均为正的概率”和“抛了4次正之后,第5次为正的概率”,既(11111)---- 1/32,(1111)1 ---- 1/2。
3 中心极限定理3.1 大数定律和中心极限定理的关系:上面通过赌徒谬误介绍了概率论中的大数定律。
大数定律说的是当随机事件重复多次时频率的稳定性,随着试验次数的增加,事件发生的频率趋近于预期的“概率”。
但大数定律并未涉及概率之分布问题。
此外大数定律说明了在一定条件下,当系统的个体足够多时,系统的算数平均值会集中在期望位置。
从这个角度,中心极限定理包含了大数定律。
因为中心极限定理在于揭示系统在期望附近的统计性质,即“以何种方式”集中在期望。
总的来说就是——大数定律反映的是频率->概率(或者认为广义的期望);而中心极限定理反映的是——在整体结果下,结果内部发生各种情况下的一个概率分布情况。
3.2 那什么是中心极限定理?中心极限定理指的是分别适用于不同条件的一组定理,但基本可以用一句通俗的话来概括它们:大量相互独立的随机变量,其求和后的平均值以正态分布(即钟形曲线)为极限。
Eg:以二项分布为例进行解释(抛硬币)对于抛n次硬币,出现正面k次的一个分布情况,如下:但是对于二项分布不一定是对对称的,除了受抛的次数n影响,还受对应的概率p的影响3.3 晋级再后来,中心极限定理的条件逐渐从二项分布推广到独立同分布随机序列,以及不同分布的随机序列。
第五章 大数定律与中心极限定理§5.1 大数定律 §5.2 中心极限定理一、填空题1.设2(),()E X D X μσ==,则由切比雪夫不等式有{||3}P X μσ-≥≤ 1/9 ; 2.设随机变量12,,,n X X X 相互独立同分布,且()i E X μ=,()8i D X =,(1,2,,)i n =, 则由切比雪夫不等式有{}||P X με-≥≤28n ε 。
并有估计{}||4P X μ-<≥ 112n-; 3.设随机变量n X X X ,,,21 相互独立且都服从参数为 的泊松分布,则 1lim n i i n X n P x n λλ=→∞⎧⎫-⎪⎪⎪≤=⎬⎪⎪⎪⎩⎭∑ ()x Φ ;4.设随机变量X 和Y 的数学期望分别为2-和3,方差分别为1和4,而相关系数为0.5-,则根据切比雪夫不等式,{||6}P X Y +≥≤;解:因为 ()()()220E X Y E X E Y +=+=-+=,cov(.)()()0.5141XY X Y D X D Y ρ==-=-, ()()()2cov(.)142(1)3D X Y D X D Y X Y +=++=++⨯-=,故由切比雪夫不等式,231{||6}{|()0|6}612P X Y P X Y +≥=+-≥≤=. 5.设随机变量12,,,n X X X 相互独立,都服从参数为2的指数分布,则n →∞时,211n n i i Y X n ==∑依概率收敛于 。
解:因为 11(),(),(1,2,,)24i i E X D X i n ===,所以 22111()()()442i i i E X D X E X =+=+=,故由辛钦大数定律,对0ε∀>,有{}2111lim ()lim 12n n n i n n i P Y E Y P X n εε→∞→∞=⎧⎫-<=-<=⎨⎬⎩⎭∑,即 211n n i i Y X n ==∑依概率收敛于21()2i E X =。
第五章 大数定律和中心极限定理一、内容提要(一)切贝谢夫不等式 1. 切贝谢夫不等式的内容设随机变量X 具有有限的数学期望E (X )和方差D (X ),则对任何正数ε,下列不等式成立。
(){}()(){}().1,22εεεεX D X E X P X D X E X P -≤-≤≥-2. 切贝谢夫不等式的意义(1)只要知道随机变量X 的数学期望和方差(不须知道分布律),利用切贝谢夫不等式,就能够对事件(){}ε≥-X E X 的概率做出估计,这是它的最大优点,今后在理论推导及实际应用中都常用到切贝谢夫不等式。
(2)不足之处为要计算(){}ε≥-X E X P 的值时,切贝谢夫不等式就无能为力,只有知道分布密度或分布函数才能解决。
另外,利用本不等式估值时精确性也不够。
(3)当X 的方差D (X )越小时,(){}ε≥-X E X P 的值也越小,表明X 与E (X )有较大“偏差”的可能性也较小,显示出D (X )确是刻画X 与E (X )偏差程度的一个量。
(二)依概率收敛如果对于任何ε>0,事件{}ε a X n -的概率当n →∞时,趋于1,即{}1lim =-∞→ε a X P n n ,则称随机变量序列X 1,X 2,…,X n ,…当n →∞时依概率收敛于α。
(三)大数定律 1. 大数定律的内容(1)大数定律的一般提法若X 1,X 2,…,X n ,…是随机变量序列,如果存在一个常数序列α1,…,αn ,…,对任意ε>0,恒有11lim 1=⎭⎬⎫⎩⎨⎧-∑=∞→ε n i n i n a X n P , 则称序列{X n }服从大数定律(或大数法则)。
(2)切贝谢夫大数定律设随机变量X 1,X 2,…,X n ,…相互独立,分别有数学期望E(X i )和方差D(X i ),且它们的方差有公共上界C ,即()().,,,2,1, n i C X D i =≤则对于任意的ε>0,恒有()111lim 11=⎭⎬⎫⎩⎨⎧-∑∑==∞→ε n i ni i i n X E n X n P 。
(3)辛钦大数定律设X 1,X 2,…,X n ,…是一列独立同分布的随机变量,且数学期望存在:() ,2,1,==i a X E i则对于任意的ε>0,有11lim 1=⎭⎬⎫⎩⎨⎧-∑=∞→ε n i i n a X n P 。
(4)贝努里大数定律设n A 是n 次独立试验中事件A 发生的次数,p 是事件A 在每次试验中发生的概率,则对于任意的ε>0,恒有1lim =⎭⎬⎫⎩⎨⎧-∞→ε p n n P A n 。
2. 大数定律的意义(1)大数定律从理论上证明了“频率的稳定性”,对概率论的建立起了奠基作用。
(2)切贝谢夫大数定律说明经验平均值接近于理论平均值;辛钦大数定律说明随机变量的平均值接近于数学期望,这是测量中取平均值的理论依据;贝努里大数定律说明了频率具有稳定性,即频率收敛于概率,这是用频率f n (A )来估计概率p 的理论依据。
(3)把独立随机变量和的平均作为大数定律的研究对象在理论上的应用上都是重要的。
(四)中心极限定理 1. 中心极限定理的内容(1)独立同分布中心极限定理设随机变量X 1,X 2,…,X n ,…相互独立,服从同一分布,且具有有限的数学期望和方差:E (X K )=μ,D (X K )=σ2≠0,(K =1,2,…,n ,…),则随机变量σμn n XY nK Kn ∑=-=1的分布函数F n (x ),对于任意的x ,满足()⎪⎪⎭⎪⎪⎬⎫⎪⎪⎩⎪⎪⎨⎧≤-=∑=∞→x n n X P x F n K K n n σμ1lim lim (2)德莫佛一拉普拉斯中心极限定理设随机变量() ,2,1=n n η具有参数为n ,p )10(<<p 的二项分布,则对于任意区间],(b a ,恒有()⎰-∞→=⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧≤--b a dt tn n e b p np np a P 22211lim πη 。
2. 中心极限定理的意义(1)中心极限定理从理论上证明了“许多类型”的随机变量,它们的极限分布服从正态分布,这既肯定了正态分布在概率论中处于主导地位,又给概率计算提供了强有力有手段。
(2)中心极限定理是把独立随机变量的和作为研究对象。
(3)应用中心极限定理前的准备步骤(a )把问题归结为独立随机变量的和∑==nK KXX 1。
(b )把和“中心化”:().11∑∑==-nK K nK KX E X(c )把和再“标准化”:()().111∑∑∑===-nK KnK K nK K X D X E X对于独立同分布中心极限定理标准化后是,1σμn n XnK K∑=-对于德莫佛一拉普拉斯中心极限定理标准化后是().1p np npn --η(4)由独立同分布中心极限定理知:若X 1,X 2,…,X n ,…独立同分布,则n →∞时,随机变量X= X 1+X 2,+…+X n =∑=ni i X 1渐近地服从正态分布N (E (X ),D (X ))=N (n μ,n σ2),或()()σμn n X X D X E X -=-渐近地服从标准正态分布N (0,1)。
由德莫佛一拉普拉斯中心极限定理知,若随机变量X ~B (n ,p ),则当n 充分大时,npqnp X -就近似服从标准正态分布N (0,1)。
记为()1,0~.N npqnp X da - 从而得当n 较大时,二项分布的近似计算公式{}.⎪⎪⎭⎫⎝⎛--⎪⎪⎭⎫⎝⎛-Φ=⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧-≤--=≤npq np a npq np b npq np b npq np X npq np a P b X a P二、要 求1. 掌握切贝谢夫不等式,会用切贝谢夫不等式估计(){}ε X E X P -、(){}.ε≥-X E X P2. 了解大数定理的内容和意义。
3. 掌握中心极限定理的内容,会做一些简单应用题。
三、例题分析例1 在每次试验中,事件A 发生的概率为0.5,利用切贝谢夫不等式估计在1000次独立试验中,事件A 发生的次数在400~600之间的概率。
分析 利用切贝谢夫不等式估计某事件的概率,需作如下准备:(1)恰当地选择随机变量X ;(2)求出E (X ),D (X );(3)依题意确定ε。
在此基础上可利用切贝谢夫不等式进行估计。
解 设X 表示在1000次独立试验中,事件A 发生的次数,则X ~B (1000,0.5),且E (X )=np =500,D (X )=npq =250.于是{}{}{},100100100500100600400 -=--=X P X P X P在切贝谢夫不等式中,取ε=100,则有{}(){}().403910000250110011006004002=-=-≥-=X D X E X P X P 即在1000次独立试验中,事件A 发生的次数在400~600之间的概率在4039以上。
例2 利用切贝谢夫不等式估计随机变量与其数学期望差的绝对值大于三倍均方差的概率。
分析 依题意,要估计()(){}X D X E X P 3≥-只需在切贝谢夫不等式中取()X D 3=ε即可。
解 设随机变量X 的期望为E (X ),方差为D (X ),在切贝谢夫不等式中,取()X D 3=ε,则有()(){}()()9193=≤≥-X D X D X D X E X P 。
评注 由例1、例2可以看出:利用切贝谢夫不等式可以对随机变量的分布做出估计,即对于任意的ε,可以估计出(){}(){}εε≥--X E X P X E X P , 。
当然这种估计还是非常粗略的,如X ~N (μ,σ2),则{}%3.03 σμ≥-X P 。
而利用切贝谢夫不等式进行估计,则{}913≤≥-σμX P 。
切贝谢夫不等式更重要的价值在于对理论研究的贡献,大数定律的理论证明是其中之一。
例3 设X 为连续型随机变量,p (x )为分布密度,如果E |X |K (K 为正整数)存在,则对于任意的ε>0,有{}KKXE X P εε≤≥证明{}()()()().11KKKKx KKKx x XE dx x p x dx x p xdx x p xdx x p X P εεεεεεεε=≤=⎪⎪⎭⎫⎝⎛≤=≥⎰⎰⎰⎰∞+∞-≥≥≥说明 切贝谢夫不等式的证明方法是很有特色的,同样在本题的证明过程中两次加强了不等式,其一是利用在积分区间1≥≥KK x,x εε上。
其二是利用被积函数非负扩大积分区间(由部分区间扩大到整个数轴上)。
例4 计算机进行加法计算时,把每个加数取为最接近它的整数来计算。
设所有的“加数”取整数的误差是相互独立的随机变量且都在[-0.5,0.5]上均匀分布。
若将1200个数相加,求误差总和的绝对值小于15的概率。
分析 以随机变量X 表示误差总和,X K 表示各个加数取整数的误差(K =1,2,…,1200),则∑==12001K K X X 。
由于X 1,X 2,…X 1200相互独立且服从同一分布,由中心极限定理得X 近似地服从正态分布,从而可计算出{}15 X P 。
解 以随机变量X 表示误差总和,X K (K =1,2,…,1200)表示各个加数取整的误差,则.12001∑==K K X X由题意知X 1,X 2,…X 1200相互独立都在[-0.5,0.5]上服从均匀分布,因此()()()()()()()().100,0,1200,2,1,121125.05.0,025.05.0120011200112001120012==⎪⎭⎫ ⎝⎛===⎪⎭⎫ ⎝⎛===+==+-=∑∑∑∑====K K K K K K K K K K X D X D X D X D X E X E K X D X E由中心极限定理知()()101000XX X D X E X =-=-近似地服从标准正态分布。
所以 {}{}151515 X P X P -=()().8664.05.15.11015101015=-Φ-Φ≈⎭⎬⎫⎩⎨⎧-= X P 例5 现存有一批种子,其中良种占61,今取6000粒种子,试以0.99的概率推断,在这6000粒种子中良种所占的比例与61的差是多少?相应的良种在哪个范围? 分析 以随机变量X 表示在6000粒种子中良种的个数,则⎪⎭⎫ ⎝⎛61,6000~B X 。
由于n =6000较大,由德莫佛一拉普拉斯定理知6510001000⨯-=-X npqnp X 近似地服从N (0,1)。
依题意,就是要确定ε>0,使.99.0616000=⎭⎬⎫⎩⎨⎧-ε X P解 以随机变量X 表示6000粒种子中的良种粒数,则⎪⎭⎫ ⎝⎛61,6000~B X 。