中心极限定理和概率统计
- 格式:doc
- 大小:332.00 KB
- 文档页数:5
概率论与数理统计第五章大数定律及中心极限定理课前导读概率论是研究大量试验后呈现出的统计规律性的一门理论。
数学中研究大量的工具是极限。
因此这一章学习概率论中的极限定理。
第一节大数定律随着试验次数的增大,事件的频率逐步稳定到事件的概率。
意味着随着试验次数的增多,在其中一种收敛意义下,频率的极限是概率。
大数定律解释了这一结论。
首先介绍切比雪夫不等式。
一、切比雪夫(Chebyshev)不等式随机变量X的取值总是围绕着其期望变动,若X的分布已知时,可以计算事件\{,X-E(X),\geq \epsilon \}的概率。
切比雪夫不等式:对切比雪夫不等式的直观理解:方差越小,X在其期望附近取值的密集程度越高,原理期望的区域的概率上加越小。
进一步说明了方差的概率意义,方差时随机变量取值与其中心位置的偏离程度的一种度量指标。
当随机变量X的分布未知时,可由X的观测数据估计得到X的期望和方差,然后使用切比雪夫不等式估计X关于E(X)的偏离程度。
二、依概率收敛随机变量序列即由随机变量构成的一个序列。
不能用类似定义数列极限的方式定义随机变量序列的极限,因为序列中的每一个元素X_n是随机变量,取值不确定,不可能和一个常数c的距离任意小。
只能说一些事件A发生的频率f_n(A)收敛到A的概率P(A)。
依概率收敛的定义:定理2:三、大数定律三个大数定律:切比雪夫大数定律、辛钦大数定律和伯努利大数定律。
注意这三个大数定律的条件有何异同。
定理3 切比雪夫大数定律:若随机变量序列相互不相关,方差存在且一致有上界,当n充分大时,随机序列的前n项的算术平均值和自身的期望充分接近几乎总是发生的。
定理4 相互独立同分布的大数定律(辛钦大数定律):辛钦大数定律为算术平均值法则提供了理论依据。
伯努利大数定律:伯努利大数定律是相互独立同分布大数定律的特例,限定分布为两点分布。
伯努利大数定律体现了:随着试验次数的增大,事件的频率逐步稳定到时间的概率,这里的稳定即为依概率收敛。
概率与统计中的正态分布和中心极限定理正态分布(Normal distribution),又称高斯分布(Gaussian distribution),在概率与统计学中是一种经常出现的分布。
它具有钟形曲线的特征,广泛应用于各个领域,如自然科学、社会科学、经济学等。
正态分布的形状是由均值(μ)和标准差(σ)所决定的。
本文将介绍正态分布的特点以及它在概率与统计中的重要作用,进而探讨与之相关的中心极限定理。
一、正态分布的特点正态分布具有以下几个重要的特点:1. 对称性:正态分布是关于均值对称的,即以均值为中心,两边的尾部概率相等。
这意味着在正态分布中,均值、中位数和众数均相等。
2. 峰值:正态分布的曲线呈现出一个明显的峰值,同时两边的尾部逐渐减少。
这意味着大部分的数据会集中在均值附近,而远离均值的数据发生的概率较小。
3. 参数决定:正态分布的形态由均值和标准差所决定。
均值决定了曲线的位置,而标准差决定了曲线的宽度。
标准差越大,曲线越宽。
二、正态分布的应用正态分布在各个领域都有广泛的应用,下面列举几个常见的应用示例:1. 自然科学:在物理学、生物学等自然科学研究中,许多实验数据都服从正态分布。
例如,物体的测量误差、实验数据的偏差等都可以用正态分布进行描述和分析。
2. 社会科学:在社会调查、民意测验等社会科学研究中,许多指标的分布也符合正态分布。
例如,身高、体重、智力水平、收入水平等都可以用正态分布来描述。
3. 经济学:在经济学中,许多经济指标的分布也近似于正态分布。
例如,收入分布、失业率等经济指标都可以采用正态分布进行统计分析。
三、中心极限定理中心极限定理是概率论与统计学中的一条重要定理,它描述了当样本容量足够大时,样本的均值近似服从正态分布的规律。
中心极限定理有以下几个关键概念:1. 独立性:样本观测值之间相互独立,意味着一个观测值的取值不受其他观测值的影响。
2. 同分布性:样本观测值来自同一个总体,并且具有相同的概率分布。
中心极限定理无论随机变量12,,,,n X X X 服从什么分布,当n 充分大时,其和的极限分布是正态分布,这就是我们今天要讲的中心极限定理。
定理 5.5(独立同分布中心极限定理)设随机变量12,,,,n X X X 相互独立,服从同一分布,且具有数学期望和方差2(),()0,i i E X D X μσ==>1,2,i =,则随机变量之和1ni i X =∑的标准化变量nin Xn Y μ-=∑的分布函数()n F x 对于任意X 满足2/2lim ()lim d ()n i x t n n n X n F x P x t x μΦ-→∞→∞⎧⎫-⎪⎪⎪=≤==⎬⎪⎪⎩⎭∑⎰定理 5.5表明,对于均值为,μ方差为20σ>的独立同分布的随机变量的和1ni i X =∑的标准化随机变量,不论12,,,,n X X X 服从什么分布,当n 充分大时,都有~(0,1)nin Xn Y N μ-=∑近似,从而,当n 充分大时21~(,)nii XN n n μσ=∑近似.定理5.5′ 设随机变量列12,,,,n X X X 相互独立,服从同一分布,且具有数学期望和方差2(),()0,i i E X D X μσ==>1,2,i =,令11nn i i X X n ==∑,则当n 充分大时~(0,1)N 近似,即2~(,/)n X N n μσ近似.例5.3 一盒同型号螺丝钉共有100个,已知该型号的螺丝钉的重量是一个随机变量,期望值是100 g,标准差是10 g,求一盒螺丝钉的重量超过10.2 kg 的概率.解 设i X 为第i 个螺丝钉的重量,,100,,2,1 =i Y 为一盒螺丝钉的重量,则1001,i i Y X ==∑12100,,,X X X 相互独立,由()100,i E X=10,σ= 100n =知()100()10 000,i E X E X =⨯=()100()10 000,i D X D X =⨯=由独立同分布中心极限定理,~(10000,10000)Y N 近似,{}{10 200}110 200P Y P Y >=-≤10 00010 20010 0001100100Y P --⎧⎫=-≤⎨⎬⎩⎭1(2)10.977 20.022 8.Φ≈-=-=定理5.6(李雅普诺夫定理)设随机变量 ,,,,21n X X X 相互独立,它们具有数学期望和方差2(),()0,1,2,k k k kE X D X k μσ==>=,记.122∑==nk k nB σ若存在正数δ,使得当∞→n 时,,0}|{|1122→-∑=++nk k knXE B δδμ则随机变量之和∑=n k k X 1的标准化变量nnk kn k kn k k n k k nk k n B X X D X E X Z ∑∑∑∑∑=====-=⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛-=11111μ的分布函数)(x F n 对于任意x ,满足2/211lim ()lim d ().n nk k x t k k n n n n X F x P x t x B μΦ-==→∞→∞⎧⎫-⎪⎪⎪⎪=≤==⎨⎬⎪⎪⎪⎪⎩⎭∑∑⎰ 定理5.7(棣莫佛—拉普拉斯定理)设随机变量(1,2,)~(,)(01),n n b n p p η=<<则对任意x ,有22lim d ().t x n P x t x Φ--∞→∞⎧⎫⎪≤==⎬⎪⎭⎰证明 由于n η可视为n 个相互独立、服从同一参数p 的(01)-分布的随机变量12,,,n X X X 的和,即有1nn i i X η==∑,其中(),()(1),i i E X p D X p p ==-1,2,i =,故由独立同分布中心极限定理可得22lim lim d ().n i n n t xX np P x P x t x Φ→∞→∞-⎧⎫-⎪⎪⎧⎫⎪⎪≤=≤⎬⎬⎪⎪⎭⎪⎭==∑⎰, 定理5.7表明:若随机变量n η服从二项分布,即~(,)n b n p η,则当n 充分大时,有~(0,1)npN η-近似,从而,当n 充分大时~(,(1))n N np np p η-近似例5.4 假如某保险公司开设人寿保险业务,该保险有1万人购买(每人一份),每人每年付100元保险费,若被保险人在年度内死亡, 保险公司赔付其家属1万元.设一年内一个人死亡的概率为0.005试问:在此项业务中保险公司亏本的概率有多大?保险公司每年利润不少于10万的概率是多少?解 设X 表示一年内被保险人的死亡人数,则,~(10000,0.005)X b ,于是()100000.00550,()100000.0050.99549.75E X D X =⨯==⨯⨯=由棣莫佛—拉普拉斯定理,~(50,49.75)X N 近似.保险公司亏本,也就是赔偿金额大于10 000100100⨯=万元,即死亡人数大于100人的概率所以保险公司亏本的概率为(){100}1{100}117.050P X P X P Φ>=-≤=-≈-= 这说明,保险公司亏本的概率几乎是零.如果保险公司每年的利润不少于10万元,即赔偿人数不超过90人,则保险公司每年利润不少于10万的概率为(){90} 5.671P X ≤≈Φ≈Φ=.可见,保险公司每年利润不少于10万元的概率几乎是100%.。
概率与统计中的大数定律与中心极限定理的应用概率与统计是数学中的一个重要分支,它研究随机现象的规律性,并通过数学模型来描述和分析这些现象。
在概率与统计的理论中,大数定律和中心极限定理是两个基本定理,在实际应用中具有广泛的意义和重要性。
一、大数定律的应用大数定律是概率论中的一个重要定理,它描述了大样本下随机现象的平均值趋于期望值的稳定性。
具体而言,大数定律可以分为弱大数定律和强大数定律两种形式。
在实际应用中,大数定律被广泛运用于统计学、经济学、生物学等领域。
以统计学为例,当我们对一个总体进行抽样调查时,根据大数定律可以知道,样本的平均值会趋于总体的平均值。
通过对样本数据的分析,可以推断和预测总体的特征。
另外,大数定律还可以用于对概率分布进行估计。
例如,在投掷硬币的实验中,我们可以统计投掷n次后正面朝上的频率,根据大数定律可以得到正面出现的概率接近0.5。
二、中心极限定理的应用中心极限定理是概率论中的另一个经典定理,它描述了独立随机变量和的和的分布在一定条件下逼近正态分布。
中心极限定理不仅在理论中有重要意义,而且在实际应用中也有着广泛的应用。
在实际应用中,中心极限定理可以用来估计总体的分布以及参数。
例如,在企业的市场调研中,我们可以通过对一定数量的样本进行调查,根据中心极限定理对总体的特征进行估计。
这对于制定营销策略、定价和产品开发等具有重要意义。
此外,中心极限定理还被广泛应用于信号处理、通信工程、金融学等领域。
以信号处理为例,当我们对信号进行采样和处理时,根据中心极限定理可以知道,经过处理后的信号近似服从正态分布,这对于信号的分析和处理具有指导意义。
总结起来,概率与统计中的大数定律和中心极限定理是两个基本定理,在实际应用中具有重要的意义和价值。
大数定律揭示了大样本下随机现象的规律性,可以用于参数估计和预测;中心极限定理描述了独立随机变量和的和的分布的特性,在总体分布的估计和分析中具有重要作用。
对于从事概率与统计相关工作的人员来说,熟练掌握大数定律和中心极限定理的应用,能够更好地理解和解决实际问题。
概率与统计中的抽样分布与中心极限定理概率与统计学是数学中的一个重要分支,它研究的是随机事件出现的规律性。
在概率与统计学中,抽样分布与中心极限定理是两个核心概念,对于理解和应用统计学非常重要。
一、抽样分布在统计学中,我们通常不能对整个总体进行完全的数据收集和分析,因此我们需要利用样本来推断总体的信息,并作出相应的概率判断。
为了进行有关样本的概率推断,我们需要研究抽样分布。
抽样分布是指从总体中抽取多个样本,并计算各个样本所具有的某种统计量的分布。
常见的统计量有样本均值、样本比例、样本方差等。
根据中心极限定理,当样本量足够大时,这些抽样分布会呈现出一些特定的形态,如正态分布或近似正态分布。
二、中心极限定理中心极限定理是概率与统计学中的一个重要理论。
它表明,当从总体中取得足够大的样本量时,样本均值的抽样分布将近似于正态分布。
具体而言,无论总体分布如何,只要样本量足够大,样本均值的分布就会接近正态分布。
中心极限定理的重要性在于,它使得我们可以利用正态分布的性质进行统计推断。
例如,我们可以使用正态分布的性质来计算置信区间、进行假设检验等。
这为统计学的应用提供了便利。
三、应用示例下面通过一个示例来说明抽样分布与中心极限定理的应用。
假设我们关注某个国家的成年人的身高分布。
为了研究这个问题,我们在该国随机抽取了1000个成年人,并测量了他们的身高。
我们想要推断该国成年人平均身高的范围。
根据中心极限定理,由于我们的样本量足够大,样本均值的分布将近似于正态分布。
假设样本均值为μ,标准差为σ,那么根据正态分布的性质,我们可以计算样本均值的置信区间。
假设我们希望以95%的置信水平推断平均身高的范围,那么根据正态分布的性质,我们可以计算一个包含95%的置信区间,公式为:样本均值 ± 1.96 * (标准差/ √样本量)在这个例子中,我们可以根据样本的身高数据计算出样本均值和标准差,然后带入上述公式,得到一个包含95%置信水平的平均身高范围。
若{}n X 的分布函数序列{()}n F x 与X 的分布函数()F x 有,在任意连续点x ,
lim ()()n n F x F x →∞
=。
依概率收敛
若0ε∀>,有()0n n P X X ε→∞
->−−−→。
准确的表述是,0ε∀>,0δ∀>,
,N n N ∃>,有()n P X X εδ-><成立
(3)几乎必然收敛
如果有(lim )1n n P X X →∞
==。
准确的表述是,除掉一个0概率集A ,对所有的\A ω∈Ω,
有lim ()()n n X X ωω→∞
=成立。
这是概率空间上的点收敛。
定理1。
(切贝雪夫大数律){}n X 相互独立,且有相同的期望和方差,(不一定同分布)
()n E X u =2
()n D X σ=,,n ∀ 记1
1n n i i Y X n ==∑,则P n Y u −−→。
统计发生——事物某方面的定量记录事前是不确定的,发生后的数据由真值和误差两部分构成,εμ+=X。
X 是数据,μ是真值,ε是误差。
导致误差的原因有:
1. 系统性误差:偏离真值的本质性错误,有内在原因所致;
2. 随机性误差:偏离真值的偶然性错误,没有内在原因,是纯偶然因素所致。
总体就是一个特定的随机变量
通过抽样,获得样本,构造样本统计量,由此推断总体中某些未知的信息
从总体中抽样是自由的,且当总体数量足够大,有放回与无放回抽样区别不大,有理由认为,取得的抽样观察值是没有关系的。
所以,样本在未抽取前它们是与总体X 同分布的随机变量,且是相互独立的,称此为随机样本。
定义2。
设1,,n x x 是取自总体X 的一组样本值, 1(,,)n g x x 是Borel 可测函数,则称随机变量1(,,)n g X X 是一个样本统计量。
如果总体X 中分布函数有某些参数信息是未知的,我们用统计量1(,,)n g X X 去推断这些信息,称此问题为统计推断问题。
给样本值11(,,),(,,)N N x x x y y y ''== ,定义: (1)样本均值
1
(/)n
i i x x n ==∑
(2)样本方差
2
21
1ˆˆvar()()1n
i i x x x n σ===--∑ 样本标准差
ˆ..)
s e e σ==(3)样本协方差 11
1ˆ(,)()()
1n
i i c o v x y x
x y y n ==---∑ 样本相关系数
1/2
ˆ(,)ˆˆ[()()]xy cov
x y var
x var y γ=
(4)样本k 阶矩 11n k
k i i A x n ==∑ 1,2,k =
(5)样本k 阶中心矩 1
1()n
k k i i B x x n ==-∑
1,2,k =
X 的左侧分位点F α,()()F P X F dF x α
αα∞
<==⎰。
左α分位点的概率含义是,随机变量
不超过该点的概率等于α
设总体X 分布已知,但其中有一个或多个参数未知,抽样1,,n X X ,希望通过样本来估计总体中的未知参数,称此为参数估计问题,它是统计推断理论中最重要的基础部分。
用样本矩作为总体矩的估计量,以及用样本矩的连续函数作为总体矩的连续函数的估计量,这种方法称为矩估计法,这是一种最自然的估计方法。
称ˆθ是参数θ的一个无偏估计,如果1ˆ((,,))n
E x x θθ= 对任意θ∈Θ成立。
当样本是
有限的时候,我们首先要考虑的是无偏性。
2
2
21
1ˆ()11n i i n S X X n n σ===---∑才是方差2σ的无偏估计。
故我们在样本统计量中定义2S 为样本方差。
ˆθ是参数θ的一个一致估计,如果依概率有1ˆlim (,,)n n x x θθ→∞
= 对任意θ∈Θ成立。
有效性
在所有关于参数θ的无偏估计类中0Θ,或所有的一致估计类1Θ中,如果存在
*ˆˆ()()D D θθ≤对任意0ˆθ∈Θ或任意1
ˆθ∈Θ成立,称*ˆθ是参数θ的一个无偏有效估计或一致渐近有效估计。
即*
ˆθ
具有最小方差性。
。
无论总体X 分布是什么,任意样本i X 和X 都是X 的无偏估计,但1
i DX DX n
=,所以X 比单独的样本估计i X 更有效。
设总体X 关于分布(,)F x θ存在两类问题,一类是分布的形式未知,一类是分布的形式已知但参数未知,提出的问题是,需要对分布的形式作出推断,此称为非参数检验的问题; 或需要对参数作出推断,此称为参数检验问题。
奈克—皮尔逊定理告诉我们,当样本容量n 固定,若要减少犯第一类错误的概率则犯第二类错误的概率会增加,要使两类错误都减少当且仅当增加样本容量。
超过了我们设定的F α,(如,体温超过37度。
)此意味一个小概率事件发生了。
于是,我们有理由拒绝命题0H 是真的。
211~(,)X N u σ,2
22~(,)Y N u σ, 且相互独立,取样有1211(),()n n x x y y 。
欲检验012:H u u =,或更一般,012:H u u u -=(u 已知)。
如何检验?
(1)若21σ、22σ已知
因为2
111
~(,
)X N u n σ,22
22
~(,
)Y N u n σ, 且相互独立,所以22
12
121
2
~(,
)X Y N u u n n σσ--+
,
~(0,1)X Y N ,
所以可找到检验统计量X Y U =。
(2)若22
212σσσ==,但2
σ未知,欲检验012:0H u u -=,
因为222
1122122
1
[(1)(1)]~(2)V n S n S n n χσ
=
-+-+-, 且与
~(0,1)X Y U N =
独立,
12~(2)t n n +-, 令222
1212
12121122n n S S S n n n n --=++-+-, 可得
221211
2V S n n σ
=+-,所以可找到统计量
12~(2)X Y T t n n =
=
+-。
注:如果u 未知,问题就变困难了,可以证明此时统计量T 就是一个非中心的t 分布。
(3)又如何知道22
212σσσ==?
可做假设检验21022
:1H σσ=。
因为2211121(1)~(1)n S n χσ--,2222222(1)~(1)n S n χσ--且独立。
所以,可找到统计量2
11222
~(1,1)S F F n n S =--。
(4)若22
12σσ≠,且未知。
问题就变困难多了,我们找不到合适的统计量。
如果样本容量
足够大,那么,可以用渐近检验的办法处理。
注意,)X Y U =
中,因为22
12σσ,未
知,但已知22
12,S S 是2212σσ,的一致估计,故用它们代替,有:
12,lim ~(0,1)n n X Y U N →∞
=。
从而当12,n n 充分大时可用渐近正态检验。
又当12n n n ==较小时,可以证明,
~()X Y t n
,注意,此与12~(2)X Y T t n n =
=
+-
自由度不同。
此意味当期望、方差相同时,样本可以合并,认为,X Y 属于同一总体。
当期望相同,方差不同时,样本不能简单合并。
注:关于012:H u u u -≤,或012:H u u u -≥,统计量相同,并采用单侧的右分位点或单侧的左分位点检验。
ˆOLS β
是无偏线性估计类中的有效估计。
β的极大似然估计在基本模型假定下就是ˆOLS β
估计做出后,评价、判断模型中的假定是否合理是对事前设定的模型做一个整体的把握。
我们可以把这些假定、设定归结为一些对未知参数的判断,如果这些判断基本正确或错误,那么从整体数据中就能够反映出来。
假设检验是估计完成后对模型的设定做进一步的确认。
它以证否的形式完成。
拒绝原假设,意味着命题真时犯错误的可能性可控制在一定的概率范围内。