概率论与数理统计第11讲
- 格式:ppt
- 大小:435.56 KB
- 文档页数:38
概率论与数理统计第11讲二项概率公式概率论与数理统计是一门研究随机现象的规律性和不确定性的数学学科。
在概率论与数理统计的学习中,二项概率公式是一个非常重要的内容。
本文将详细介绍二项概率公式的定义、应用以及相关的例题。
一、二项概率公式的定义二项概率公式是描述在n次独立重复试验中,成功的次数X服从二项分布的概率公式。
假设每次试验的成功概率为p,失败概率为q=1-p,则在n次试验中,成功的次数X服从二项分布B(n,p)。
二项概率公式的表达式为:P(X=k)=C(n,k)*p^k*q^(n-k)其中,C(n,k)表示从n个不同元素中取出k个元素的组合数,p^k表示成功概率p连续发生k次,q^(n-k)表示失败概率q连续发生n-k次。
二、二项概率公式的应用二项概率公式可以应用于很多实际问题的概率计算。
以下是几个常见的应用场景:1. 投硬币问题:假设有一枚公正的硬币,投掷10次,成功定义为正面朝上,失败定义为反面朝上。
求在10次投掷中正面朝上的次数为5的概率。
根据二项概率公式,可以得到:P(X=5)=C(10,5)*0.5^5*0.5^5=0.24612. 生产线问题:某工厂生产的产品中有10%的次品率。
从该工厂生产的产品中随机抽取20个,求其中有3个次品的概率。
根据二项概率公式,可以得到:P(X=3)=C(20,3)*0.1^3*0.9^17=0.30833. 游戏问题:某游戏中有一个抽奖系统,每次抽奖的中奖概率为0.02。
玩家连续抽奖100次,求中奖次数为2的概率。
根据二项概率公式,可以得到:P(X=2)=C(100,2)*0.02^2*0.98^98=0.2707三、二项概率公式的例题1. 掷一枚骰子10次,求得到6点的次数为3的概率。
根据二项概率公式,可以得到:P(X=3)=C(10,3)*(1/6)^3*(5/6)^72. 一批产品中有10%次品率,从中随机抽取40个,求其中有4个次品的概率。
根据二项概率公式,可以得到:P(X=4)=C(40,4)*(0.1)^4*(0.9)^363. 有一个有10个球的盒子,其中有4个红球和6个蓝球。
习题1.1解答1. 将一枚均匀的硬币抛两次,事件C B A ,,分别表示“第一次出现正面”,“两次出现同一面”,“至少有一次出现正面”。
试写出样本空间及事件C B A ,,中的样本点。
解:{=Ω(正,正),(正,反),(反,正),(反,反)}{=A (正,正),(正,反)};{=B (正,正),(反,反)}{=C (正,正),(正,反),(反,正)}2. 在掷两颗骰子的试验中,事件D C B A ,,,分别表示“点数之和为偶数”,“点数之和小于5”,“点数相等”,“至少有一颗骰子的点数为3”。
试写出样本空间及事件D C B A BC C A B A AB ---+,,,,中的样本点。
解:{})6,6(,),2,6(),1,6(,),6,2(,),2,2(),1,2(),6,1(,),2,1(),1,1( =Ω; {})1,3(),2,2(),3,1(),1,1(=AB ;{})1,2(),2,1(),6,6(),4,6(),2,6(,),5,1(),3,1(),1,1( =+B A ;Φ=C A ;{})2,2(),1,1(=BC ;{})4,6(),2,6(),1,5(),6,4(),2,4(),6,2(),4,2(),5,1(=---D C B A3. 以C B A ,,分别表示某城市居民订阅日报、晚报和体育报。
试用C B A ,,表示以下事件:(1)只订阅日报; (2)只订日报和晚报;(3)只订一种报; (4)正好订两种报;(5)至少订阅一种报; (6)不订阅任何报;(7)至多订阅一种报; (8)三种报纸都订阅;(9)三种报纸不全订阅。
解:(1)C B A ; (2)C AB ;(3)C B A C B A C B A ++; (4)BC A C B A C AB ++;(5)C B A ++; (6)C B A ; (7)C B A C B A C B A C B A +++或C B C A B A ++(8)ABC ; (9)C B A ++ 4. 甲、乙、丙三人各射击一次,事件321,,A A A 分别表示甲、乙、丙射中。
区间估计的基本概念前面介绍了参数的点估计,讨论了估计量的优良性准则,给出了寻求估计量最常用的矩估计法和最大似然估计法.参数的点估计是用一个确定的值去估计未知参数,看似精确,实际上把握不大,没有给出误差范围,为了使估计的结论更可信,需要引入区间估计.Neyman(1894–1981)引例在估计湖中鱼数的问题中,若根据一个实际样本,得到鱼数N的最大似然估计为1000条.实际上,N的真值可能大于1000,也可能小于1000.为此,希望确定一个区间来估计参数真值并且满足:1.能以比较高的可靠程度相信它包含参数真值.“可靠程度”是用概率来度量的.2.区间估计的精度要高.可靠度:越大越好估计你的年龄八成在21-28岁之间区间:越小越好被估参数可靠度范围、区间一、置信区间的定义(Confidence Interval )对于任意θ∈Θ,满足设总体X 的分布函数F (x ,θ)含有一个未知参数θ,θ∈Θ,对于给定常数α(0<α<1),若由抽自X 的样本X 1,X 2,…,X n 确定两个统计量112212ˆˆ{(,,,)(,,,)}1n n P X X X X X X θθθα<<≥-112ˆ(,,,)nX X X θ212ˆ(,,,)nX X X θ和则称随机区间是θ的置信水平为1−α的置信区间.12ˆˆ(,)θθ和分别称为置信下限和置信上限.1ˆθ2ˆθ(1)当X 连续时,对于给定的α,可以求出置信区间满足此时,找区间使得至少为1−α,且尽可能接近1−α.12ˆˆ(,)θθ112212ˆˆ{(,,,)(,,,)}1nnP X X X X X X θθθα<<=-12ˆˆ(,)θθ112212ˆˆ{(,,,)(,,,)}1n n P X X X X X X θθθα<<=-12ˆˆ()P θθθ<<(2)当X 离散时,对于给定的α,常常找不到区间满足12ˆˆ(,)θθ说明:(2)估计的精度要尽可能高. 如要求区间长度尽可能短,或者能体现该要求的其他准则.(1)要求θ以很大的可能被包含在区间内,即概率尽可能的大.可靠度与精度是一对矛盾,一般是在保证可靠度的条件下尽可能提高精度.12ˆˆ()P θθθ<<12ˆˆ(,)θθ21ˆˆθθ-(3)对于样本(X 1,X 2,…,X n )112212ˆˆ((,,,),(,,,))n n X X X X X X θθ以1−α的概率保证其包含未知参数的真值.随机区间112212ˆˆ{(,,,)(,,,)}1n n P X X X X X X θθθα<<=-即有:(4)对于样本观测值(x 1,x 2,…,x n )可以理解为:该常数区间包含未知参数真值的可信程度为1−α.112212ˆˆ((,,,),(,,,))n n x x x x x x θθ常数区间只有两个结果,包含θ和不包含θ.此时,不能说:112212ˆˆ{(,,,)(,,,)}1n n P x x x x x x θθθα<<=-没有随机变量,自然不能谈概率如:取1−α=0.95.若反复抽样100次,样本观测值为112212ˆˆ{(,,,)(,,,)}1n n P X X X X X X θθθα<<=-1121ˆˆ((,,),(,,))i i i in n x x x x θθ于是在100个常数区间中,包含参数真值的区间大约为95个,不包含真值的区间大约为5个.12,,,ii i nx x x1,2,,100i =对应的常数区间为1,2,,100i =对一个具体的区间而言,它可能包含θ,也可能不包含θ,包含θ的可信度为95%.1121ˆˆ((,,),(,,))i i i i nnx x x x θθ二、构造置信区间的方法枢轴量法1.寻求一个样本X 1,X 2,…,X n 和θ的函数W =W (X 1,X 2,…,X n ;θ),使得W 的分布不依赖于θ和其他未知参数,称具有这种性质的函数W 为枢轴量(Pivotal quantity ).3.若由不等式a <W (X 1,X 2,…,X n ;θ)<b 得到与之等价的θ的不等式2.对于给定的置信水平1−α,定出两个常数a 和b ,使得P {a <W (X 1,X 2,…,X n ;θ)<b }=1−α112212ˆˆ(,,,)(,,,)n n X X X X X X θθθ<<即有P {a <W (X 1, X 2,…, X n ;θ)<b }关键:1.枢轴量W (X 1, X 2,…, X n ;θ)的构造2.两个常数a ,b 的确定一般从θ的一个良好的点估计出发构造,比如MLE因此,是θ的一个置信水平为1−α的置信区间.112212ˆˆ{(,,,)(,,,)}1n n P X X X X X X θθθα=<<=-12ˆˆ(,)θθf (w )ababab1−α1−α1−α希望置信区间长度尽可能短.对于任意两个数a 和b ,只要使得f (w )下方的面积为1−α,就能确定一个1−α的置信区间.f(w)abab ab1−α1−α1−α当W 的密度函数单峰且对称时,如:N (0,1),t 分布等,当a =−b 时求得的置信区间的长度最短.如:b =z α/2或t α/2(n )当W 的密度函数不对称时,如χ2分布,F 分布,习惯上仍取对称的分位点来计算未知参数的置信区间.χ21−αα/2α/222()n αχ21-2()n αχ单个正态总体参数的区间估计一、单个正态总体的情形X 1, X 2,…, X n 为来自正态总体N (μ,σ2)的样本,置信水平1−α.样本均值样本方差11nii X X n ==∑2211()1nii S X X n ==--∑0-4-3-2-1012340.050.10.150.20.250.30.350.4是枢轴量W 是样本和待估参数的函数,其分布为N (0,1),完全已知由于是μ的MLE ,且是无偏估计,由抽样分布定理知X ~(0,1)X W N nμσ-=1.均值μ的置信区间(方差σ2已知情形)单峰对称-4-3-2-1012340.050.10.150.20.250.30.350.4即等价变形为选择两个常数b =−a =z α/222{}1X P z z nααμασ--<<=-22{}1P X z X z nnαασσμα-<<+=-1−αα/2α/2z α/2−z α/2简记为因此,参数μ的一个置信水平为1−α的置信区间为22(,)X z X z nnαασσ-+2()X z nασ±置信区间的长度为22n l z nασ=说明:2.置信区间的中心是样本均值;4.样本容量n 越大,置信区间越短,精度越高;1.l n 越小,置信区间提供的信息越精确;5.σ越大,则l n 越大,精度越低.因为方差越大,随机影响越大,精度越低.3.置信水平1−α越大,则z α/2越大.因此,置信区间长度越长,精度越低;22n l z nασ=22(,)X z X z nnαασσ-+2.均值μ的置信区间(方差σ2未知情形)想法:用样本标准差S 代替总体标准差σ.是枢轴量包含了未知未知参数σ,~(0,1)X W N nμσ-=此时,因此不能作为枢轴量.~(1)X T t n Snμ-=-由抽样分布理论知:使即枢轴量~(1)X T t n Snμ-=-22((1)(1))1X P t n t n Snααμα---<<-=-22{(1)(1)}1P t n T t n ααα--<<-=-选择两个常数b =−a =t α/2 (n -1)等价于因此,方差σ2未知情形下均值μ的一个置信水平为1−α的置信区间为22{(1)(1)}1S S P X t n X t n nnααμα--<<+-=-22((1),(1))X t n X t n nnαα--+-例1.现从中一大批糖果中随机取16袋,称得重量(以克记)如下:506508 499 503 504 510 497 512 514 505 493 496 506 502 509 496设每袋糖果的重量近似服从正态分布. 试求总体均值μ的置信水平为0.95的置信区间.解:这是单总体方差未知,总体均值的区间估计问题.均值μ的置信水平1−α的置信区间为22((1),(1))x t n x t n nnαα--+-根据给出的数据,算得这里10.95,16n α-==/20.025(1)(15) 2.1315t n t α-==503.75, 6.2022x s ==因此,μ的一个置信水平为0.95的置信区间为6.20226.2022(503.75 2.1315,503.75 2.1315)1616(500.4,507.1)-⨯+⨯=此区间包含μ的真值的可信度为95%.22((1),(1))x t n x t n nnαα--+-3.方差σ2的置信区间(均值μ未知)σ2的常用点估计为S 2,且是无偏估计。