二项分布poisson分布的检验
- 格式:ppt
- 大小:199.50 KB
- 文档页数:20
●Bernoulli 试验(Bernoulli T est):将感兴趣的事件A出现的试验结果称为“成功”,事件A不出现的试验结果称为“失败”,这类试验就称为Bernoulli 试验●二项分布(binomial distribution):是指在只会产生两种可能结果如阳性或阴性之一的n次独立重复试验中,当每次试验的阳性概率π保持不变时,出现阳性次数X=0,1,2,…,n的一种概率分布。
●Poisson分布(Poisson distribution):随机变量X服从Poisson分布式在足够多的n次独立试验中,X取值为1,2,…,的相应概率为…的分布。
★二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。
★二项分布的图形:当∏=0.5,二项分布图形是对称的,当∏不等于0.5,图形是偏态的,随着n增大,图形趋于对称。
当n趋于无穷大时,只有∏不太靠近0或者1,二项分布近似正态分布。
★二项分布的应用总体率的区间估计,样本率与总体率比较,两样本率的比较★Poisson 分布的应用总体均数的区间估计,样本均数与总体均数的比较,两个样本均数的比较:两个样本计数均较大时,可根据Poisson 分布的正态近似性对其进行u 检验。
★Poisson 分布成立的条件:①平稳性:X 的取值与观察单位的位置无关,只与观察单位的大小有关;②独立增量性:在某个观察单位上X 的取值与前面各观察单位上X 的取值无关;③普通性:在充分小的观察单位上X 的取值最多为1。
Poisson 分布,X~P(μ),X 的均数μX =μ,X的方差σ2 =μ,X的标准差σX★Poisson分布的性质1、总体均数λ与总体方差相等是泊松分布的重要特点。
2、当n增大,而∏很小,且n∏=λ总体均数时,二项分布近似泊松分布。
3、当总体均数增大时,泊松分布渐近正态分布,一般而言,总体均数》20时,泊松分布资料做为正态分布处理。
验证泊松分布近似二项分布的条件和结论二项分布的泊松定理:设0< p 〈1,如果p 充分小,自然数n 充分大,λ=np ,则对于每个k 〈= n ,有近似公式:b(k;n,p)≈λλ-e k k!。
通常,我们取这个n 为10。
以下,就针对n>=10的条件与结论进行验证。
在本文中,我们通过数学软件R 计算并在Matlab 上绘出相应的图形,对定理得条件和结论进行验证,为了使p 足够小,我们取p=0.09。
作出当n = 5,n =10,n =20,n =30,n =50的情况下,二项分布与泊松分布的近似情况。
在R 软件上对n = 5,n =10,n =20,n =30,n =50上分别计算:当 n =5时:> x<-0:5> y<-dbinom(x,5,0.09)> y[1] 0.6240321451 0.3085873245 0.0610392510 0.0060368490 0.0002985255[6] 0.0000059049> z<-dpois(x,0.45)> z[1] 6.376282e-01 2.869327e-01 6.455985e-02 9.683978e-03 1.089447e-03[6] 9.805027e-05在Matlab 上作图,并用折线连结。
>> x=[0 1 2 3 4 5];>> y=[0.6240321451 0.3085873245 0.0610392510 0.0060368490 0.0002985255 0.0000059049]; >> z=[6.376282e-01 2.869327e-01 6.455985e-02 9.683978e-03 1.089447e-03 9.805027e-05]; >> plot(x,y,'ro',x,z,'bo',x,y,'r',x,z)在R上计算y与z的差值:> y-z[1] -1.359601e-02 2.165466e-02 -3.520599e-03 -3.647129e-03 -7.909220e-04 [6] -9.214537e-05当n =10时:> x<-0:10> y<-dbinom(x,5,0.09)> y[1] 0.6240321451 0.3085873245 0.0610392510 0.0060368490 0.0002985255 [6] 0.0000059049 0.0000000000 0.0000000000 0.0000000000 0.0000000000 [11] 0.0000000000> z<-dpois(x,0.45)> z[1] 6.376282e-01 2.869327e-01 6.455985e-02 9.683978e-03 1.089447e-03[6] 9.805027e-05 7.353770e-06 4.727424e-07 2.659176e-08 1.329588e-09 [11] 5.983146e-11在Matlab上作图,并用折线连结。
验证泊松分布近似二项分布的条件和结论二项分布的泊松定理:设0< p 〈1,如果p 充分小,自然数n 充分大,λ=np ,则对于每个k 〈= n ,有近似公式:b(k;n,p)≈λλ-e k k!。
通常,我们取这个n 为10。
以下,就针对n>=10的条件与结论进行验证。
在本文中,我们通过数学软件R 计算并在Matlab 上绘出相应的图形,对定理得条件和结论进行验证,为了使p 足够小,我们取p=0.09。
作出当n = 5,n =10,n =20,n =30,n =50的情况下,二项分布与泊松分布的近似情况。
在R 软件上对n = 5,n =10,n =20,n =30,n =50上分别计算:当 n =5时:> x<-0:5> y<-dbinom(x,5,0.09)> y[1] 0.6240321451 0.3085873245 0.0610392510 0.0060368490 0.0002985255[6] 0.0000059049> z<-dpois(x,0.45)> z[1] 6.376282e-01 2.869327e-01 6.455985e-02 9.683978e-03 1.089447e-03[6] 9.805027e-05在Matlab 上作图,并用折线连结。
>> x=[0 1 2 3 4 5];>> y=[0.6240321451 0.3085873245 0.0610392510 0.0060368490 0.0002985255 0.0000059049]; >> z=[6.376282e-01 2.869327e-01 6.455985e-02 9.683978e-03 1.089447e-03 9.805027e-05]; >> plot(x,y,'ro',x,z,'bo',x,y,'r',x,z)在R上计算y与z的差值:> y-z[1] -1.359601e-02 2.165466e-02 -3.520599e-03 -3.647129e-03 -7.909220e-04 [6] -9.214537e-05当n =10时:> x<-0:10> y<-dbinom(x,5,0.09)> y[1] 0.6240321451 0.3085873245 0.0610392510 0.0060368490 0.0002985255 [6] 0.0000059049 0.0000000000 0.0000000000 0.0000000000 0.0000000000 [11] 0.0000000000> z<-dpois(x,0.45)> z[1] 6.376282e-01 2.869327e-01 6.455985e-02 9.683978e-03 1.089447e-03[6] 9.805027e-05 7.353770e-06 4.727424e-07 2.659176e-08 1.329588e-09 [11] 5.983146e-11在Matlab上作图,并用折线连结。
目录承诺保证书 (I)1 引言 (1)1.1 研究背景 (1)1.2 研究方法及目的 (1)2 Poisson分布检验的步骤和基本理论 (2)2.1 检验步骤 (2)2.2 检验的基本原理 (3)3 关于Poisson分布检验的三个案例及实际研究 (7)3.1 案例分析 (7)3.2 对单位时间到来顾客数的实际研究 (13)参考文献 (18)英文摘要 (19)关于Poisson分布的检验肖秋光摘要:Poisson分布是概率论中的一种重要离散分布,在许多实际问题中都有着广泛应用.本文概括了检验样本数据是否服从泊松分布的一般方法,主要是对随机数据进行图像模拟估计和利用假设检验原理对给定的临界值进行估计.其中2χ检验是众所周知的拟合优度检验,它能适用于任意的备择假设.另外,通过三个例子进行说明,最后用该方法对实测数据进行了分析和检验,并得出了结论.χ统计量关键词:Poisson分布假设检验独立变量21 引言1.1 研究背景改革开放三十年来随着社会的发展、经济的增长,科学技术日新月异、人民拥有的物质日益丰富、感受到的文化也更加多元、社会的各种法规制度日臻成熟,无论是住房、保险、交通、旅游、高质量产品还是教育、饮食等.其结果是构成了大量的随机数据,而这些数据有没有什么规律可循呢?就需要我们对它进行研究.在现实生活中的许多数据经过人们大量的研究是服从泊松分布的.若通过观察记录得到了一组数据,它是否服从泊松分布,则需要我们对其进行检验.泊松分布是1837年由法国数学家泊松(Poisson S.D.1781--1840)首次提出的.它是概率论中的一种重要的离散型随机变量的概率分布,在理论上和实践中都有广泛的应用.如110报警台24小时接到的报警次数、一定时间内发生的意外事件次数或灾害次数、布匹上的疵点数目、放射性物质放射出的粒子数目等.1.2 研究方法及目的由于向110报警台的报警是一次次到来的;自然灾害是一次次发生的;放射性粒子是一个个射出的;进入商场的人是一个个到来的……它们都可以看成是一种于随机时刻到来的“质点流”.要对其进行研究,首先,必须收集到有效的数据.其次,由于得到的样本数据通常是实验或统计而来,因此它不能完全的反映事物的本质.我们主要对部分数据进行抽取分析,根据部分数据对全体数据做出推断及判断.因此,研究单位时间内产生的诸多随机变量有助于当事者们对各种新措施、新技术作出更为科学合理的决策.例如,商场每个时段到达的人数不一,通过调查可以确定哪个时段是人流的高峰期,可以在这个时段做一些宣传或促销产生的效益就会比其他时段高,并有效控制成本,使其用最小的投入换来最大的收益.2 Poisson 分布检验的步骤及基本理论 2.1 检验步骤 2.1.1 数据整理进行Poisson 分布的检验时,首先要对收集到的数据进行整理.假设收集到单位时间的量为n x x x x 321,,,然后把这些量按从小到大顺序排列起来,并查出其频数稍加整理制成表格如下: 表 1其中满足:i i n p x p p x x x ⨯++⨯+⨯=+++ 102110 2.1.2 用图像对样本数据进行模拟由于图形比较直观,而且样本数据在一定程度上能有效反映总体的分布规律,故可以用样本数据的图像模拟通过对比,对该分布进行初步判断.泊松分布的图形一般为左偏,但随λ数值的增大,图形趋于对称.图12.1.3 检验得出结论2.2检验的基本理论2.2.1 假设检验假设检验是对总体的分布函数形式或分布的某些参数作出某些可能的假设,然后根据所得的样本数据,对假设的正确性作出判断.假设检验的步骤:①根据问题建立原假设和备择假设原假设是设总体参数等于某一数值,而备则假设是根据研究的目的来确定:可采用双侧检验,也可采用单侧检验.确定单、双侧检验的同时,也就确定了接受域和拒绝域的位置.H为真时的抽样分布②选择适当的样本统计量,并确定以这一步是假设检验的关键,需要根据已知条件找到一个包含待检验总体参数和样本数据的已知分布,并计算出统计量的数值.③选定显著性水平α,确定临界值α应在抽样之前就确定下来,根据单、双侧检验的情况,将α放置一侧或双侧.然后根据第二步骤中所选择统计量服从的分布,查相应分布表,确定临界值.④进行判别,得出结论将第二步计算的数值与第三步得到的临界值进行比较,根据判别原则,作出结论.2.2.2最大似然估计及拟合优度2χ检验2.2.3 P 值检验所谓P 值,是指在一个假设检验问题中,利用观测值能够做出拒绝原假设选择的最小显著性水平,如果p 值小于显著性水平α,则相应的检验统计量的值落入拒绝域中.其检验规则为:若p ≥α值,则拒绝原假设0H ;若p <α值,则接受原假设0H . 2.2.4 Poisson 分布检验设总体X 服从具有参数为0>λ的泊松分布,n X X X X ,,,,321 为其样本.考虑检验问题:0H λ:010:;λλλ≠=H ,现有∏∑∏∏∏==-=--==⎭⎬⎫⎩⎨⎧=∑===ni in i i n ni ix n ni i x n i i x x ex eex x p ni ii11111)!(1ln )(ex p )!(1!);(1λλλλλλλ其中()λλln )(,,,,121==∑=b x x x x T ni i nλλn ni in e c x x x x h -===∏)(,)!(1),,,(121因此⎪⎩⎪⎨⎧<<==><=212121,02,1,,&,1),,,(cT c j c T b c c T x x x j i n ϕ则[]⎪⎩⎪⎨⎧==⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡∑∑==),,,(),(),,,(21001211000n ni i n n i i x x x E M x x x x E X E ϕλαϕαλλλ 当0H 为真时,统计量∑==ni i X T 1服从参数为0λn 的泊松分布,0)(λn T E =,则02010201)(!)(!!)(!)(02201110100λλλλλλλλαn c n c n c j j n c j j e n c b e n c b e j n e j n ---∞+=--=+++=∑∑02010201)(!)(!!)(!)(02220111101000λλλλλλλλαλn c n c n c j j n c j j e n c cb e nc c b e j n j e j n j n ---∞+=--=+++=∑∑在一般情况下上述方程不易求解,但当0λ不接近于零而n 又不很小时,统计量1λλn n XU ni i∑=-=的渐进分布为正态分布)1,0(N ,则⎭⎬⎫⎩⎨⎧>-=⎭⎬⎫⎩⎨⎧-<-∑∑==n i i n i i u n X P u n X P 101000λλλλ 对一切实数u 都渐近地成立(这是因为正态分布具有对称性).因此,2121,,,c c b b 由下式确定:02020101)(!)()(!!)(202210011100λλλλλλλλαn c n c j j n c n c j j e n c b e j n e n c b e j n --∞+=---=+=+=∑∑ 3关于Poisson 分布检验的三个案例及实际研究3.1 案例分析3.1.1 论反腐败与泊松分布腐败现象作为当今社会的一种非常态,它的发生、出现引起了广大群众的关注.调查显示最近几年科级腐败正在加剧,小官受贿成隐患.据悉,某检察院工作人员对某经济较落后省的320个底层官员在一年时间内的受贿金额调查纪录如下表所示.根据这些数据(金额0表示未受贿,金额1表示受贿金额大于0小于等于1,其余类同)检验受贿金额是否服从泊送分布.表 2 1年内320个官员受贿金额(万元)统计表来源于参考文献[6]用折线图像模拟数据如下:图2从图形走势看,为左偏凸值分布,与泊松分布较为相似,可初步判定为泊松分布.在理论上,这里我们需要检验的是在一年的时间段内受贿官员的受贿金额是否服从泊送分布,所以可以假设0H :一年的时间内受贿官员的受贿金额服从泊送分布; 1H : 一年的时间内受贿官员的受贿金额不服从泊送分布; 我们知道泊送分布的概率密度函数为 !)(x e x X f x λλ-∙==,式中:λ是未知参数.如果假设为真时,可以根据本数据估计λ.由上表的数据可以的到在320个底层官员中,平均每一官员受贿的金额(万元),即0.33201019471150ˆ=⨯+⨯++⨯+⨯= λ因此,可以用λˆ作为λ的估计值,即得到为真时的概率密度函数 !3)(3x e x X f x -∙==根据该密度函数,就可以计算出在每一个官员的受贿金额为各个类别出现的概率,这些概率值可通过泊送分布表查得.例如,在一年内受贿金额为0万元的官员人数的概率是498.0)0(==X f ,受贿金额为1万元的概率是1494.0)1(==X f 等.然后用查出的概率分别乘以样本容量)320(=n n ,就可以得到各类别期望的频数.例如,在320个官员中受贿金额为0万元的期望频数是936.153200498.0=⨯.下表列出了2χ统计量的计算过程.表 3 2χ统计量的计算过程我们注意到表中,受贿金额为8,9和10万元次及以上金额的期望频数都小于5,所以将这三类归于受贿金额为7万元的合并为一类,所以合并之后的类别数8=k .这时2χ统计量为0068.5)(8122=-=∑=i ii i e e n χ需要注意的是:根据Pearson 定理,上式的2χ统计量服从自由度为1--r k 的2χ分布,其中k 时类别的个数,r 是估计的总体参数的个数.在这里1,8==r k (只估计了一个参数λ),所以自由度为61181=--=--r k .于是,当05.0=α时,查表可得592.12)6(205.0=χ.对于样本的2χ值,因为)6(205.02χχ<落在接受域中.所以接受0H ,拒绝1H ,即在一年的时间中该地区官员的受贿金额是服从泊松分布的.大家熟知当n 很大,p 很小时的二项分布趋于泊松分布.按照泊松分布的规律,一项非正常态现象的出现除了在总体中的概率很小外,其最明显的特征则是常常集中分布.通过上面检验和大量案例表明,腐败现象作为社会现象中的一种非正常态,其发生和发展呈泊松分布规律,特点是总体上的稀有性和局部的密集性加偶然性,具体表现有“前腐后继案”、“串案”、“窝案”等形式.因此治理腐败:一是要尽早发现,尽快惩前毖后;二是不能搞扩大化;三是要综合治理.其次表明,泊松分布密集出现的概率跟社会体制有关,尤其是在经济转型、社会发生变革的时期容易出现。
二项分布与Poisson 分布二项分布和Poisson 分布均是常见的离散型分布,在分类资料的统计推断中有非常广泛的应用。
一、二项分布的概念及应用条件1. 二项分布的概念:如某实验中小白鼠染毒后死亡概率P 为0.8,则生存概率为=1-P=0.2,故对一只小白鼠进行实验的结果为:死(概率为P )或生(概率为1-P )对二只小白鼠(甲乙)进行实验的结果为:甲乙均死(概率为P2)、甲死乙生[概率为P(1-P)]、乙死甲生[概率为(1-P)P]或甲乙均生[概率为(1-P)2],概率相加得P 2+P(1-P)+(1-P)P+(1-P)2=[P+(1-P)]2依此类推,对n 只小白鼠进行实验,所有可能结果的概率相加得P n +1n C P(1-P)n-1+...+x n C P x (1-P)n-x +...+(1-P)x =[P+(1-P)]n 其中n 为样本含量,即事件发生总数,x 为某事件出现次数, x n C P x (1-P)n-x 为二项式通式,x n C =n!/x!(n-x)!, P 为总体率。
因此,二项分布是说明结果只有两种情况的n 次实验中发生某种结果为x 次的概率分布。
其概率密度为:P(x)= x n C P x (1-P)n-x , x=0,1,...n 。
2. 二项分布的应用条件:医学领域有许多二分类记数资料都符合二项分布(传染病和遗传病除外),但应用时仍应注意考察是否满足以下应用条件:(1) 每次实验只有两类对立的结果;(2) n 次事件相互独立;(3) 每次实验某类结果的发生的概率是一个常数。
3. 二项分布的累计概率二项分布下最多发生k 例阳性的概率为发生0例阳性、1例阳性、...、直至k 例阳性的概率之和。
至少发生k 例阳性的概率为发生k 例阳性、k+1例阳性、...、直至n 例阳性的概率之和。
4. 二项分布的图形二项分布的图形有如下特征:(1)二项分布图形的形状取决于P 和n 的大小;(2) 当P=0.5时,无论n 的大小,均为对称分布;(3) 当P<>0.5 ,n 较小时为偏态分布,n 较大时逼近正态分布。