二项分布概念及图表和查表方法
- 格式:doc
- 大小:447.50 KB
- 文档页数:15
医学统计学二项分布课件xx年xx月xx日•二项分布概述•二项分布数学模型•二项分布的参数估计•二项分布与其它分布的关系目•二项分布的应用实例•二项分布在SPSS和R语言中的应用录01二项分布概述二项分布是一种离散概率分布,描述了在n次独立的是/非试验中成功的次数的概率分布。
其中,每次试验的成功概率为p,失败概率为1-p。
定义B(n, p) = C(n, k) * p^k * (1-p)^(n-k)公式二项分布的定义二项分布的特点二项分布在n次独立的是/非试验中成功的次数。
二项分布的随机变量取值为0,1,2,…,n。
在n次独立的是/非试验中,每次试验的成功概率为p,失败概率为1-p。
描述病情变化在医学领域中,病情变化是一个二项分布的过程。
病情可能变好也可能变坏,每次试验可以看作是医生对病情的观察和评估。
临床试验设计在临床试验中,通常将二项分布应用于设计试验方案和分析数据。
例如,在随机对照试验中,将患者随机分为试验组和对照组,比较两组的有效率或成功率等指标。
诊断和预后在医学诊断和预后评估中,通常将二项分布应用于计算概率和可信区间。
例如,计算某疾病的发病率、某检查手段的阳性率等指标。
二项分布在医学统计学中的应用02二项分布数学模型二项分布概率函数公式:$P(X=k) = C(n, k) p^k (1-p)^{n-k}$其中 $C(n, k)$ 表示组合数,$p$ 表示每次试验成功的概率,$n$ 表示试验次数二项分布概率函数二项分布的均值$E(X) = np$二项分布的方差$D(X) = np(1-p)$二项分布的均值和方差二项分布曲线是一个钟形曲线随着 $n$ 的增大,曲线越来越接近正态分布曲线二项分布曲线的形状03二项分布的参数估计样本大小的选择确定样本量医学研究中,样本量的选择是至关重要的。
通常根据研究目的、研究因素的数量和研究因素的水平数来决定样本量。
考虑变异性和研究因素在选择样本量时,需要考虑研究因素的变异性和水平数。
目录1 定义▪统计学定义▪医学定义2 概念3 性质4 图形特点5 应用条件6 应用实例定义统计学定义在概率论和统计学中,二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。
这样的单次成功/失败试验又称为伯努利试验。
实际上,当时,二项分布就是伯努利分布,二项分布是显著性差异的二项试验的基础。
医学定义在医学领域中,有一些随机事件是只具有两种互斥结果的离散型随机事件,称为二项分类变量(dichotomous variable),如对病人治疗结果的有效与无效,某种化验结果的阳性与阴性,接触某传染源的感染与未感染等。
二项分布(binomial distribution)就是对这类只具有两种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。
考虑只有两种可能结果的随机试验,当成功的概率()是恒定的,且各次试验相互独立,这种试验在统计学上称为伯努利试验(Bernoulli trial)。
如果进行次伯努利试验,取得成功次数为的概率可用下面的二项分布概率公式来描述:P=C(X,n)*π^X*(1-π)^(n-X)二项分布公式式中的n为独立的伯努利试验次数,π为成功的概率,(1-π)为失败的概率,X为在n次伯努里试验中出现成功的次数,表示在n次试验中出现X的各种组合情况,在此称为二项系数(binomial coefficient)。
所以的含义为:含量为n的样本中,恰好有X例阳性数的概率。
概念二项分布(Binomial Distribution),即重复n次的伯努利试验(Bernoulli Experiment),用ξ表示随机试验的结果。
二项分布公式如果事件发生的概率是P,则不发生的概率q=1-p,N次独立重复试验中发生K次的概率是P(ξ=K)= C(n,k) * p^k * (1-p)^(n-k),其中C(n, k) =n!/(k!(n-k)!),注意:第二个等号后面的括号里的是上标,表示的是方幂。
一、二项分布的背景以及概率计算的简单介绍。
例:用淋菌培养方法,检查患者是否患有淋病。
该检查方法没有假阳性,只有假阴性。
对于淋病患者,若用该方法检查一次的检出率为0.8,问:1)重复检查3次,检查结果均为阴性的概率是多少?P=(1-0.8)3=0.0082)重复检查3次,检查结果中最少是阳性的概率是多少?P=1-(1-0.8)3=0.9924) 检查4个患者,每人检查一次,第一个患者和第二个患者为阳性且其他均为阴性的概率是多少?P=0.820.22=0.02565) 检查4个患者,每人检查一次,其中二个患者为阳性且其他均为阴性的概率是多少?其中2C为4个患者中有2个阳性的各种不同情况总数。
4在医学上,经常需要研究或观察这样一类现象:其结果只有两种可能:如:抢救急性心肌梗塞患者,其结果可分为:抢救成功或失败如:检查幽门螺杆菌(HP):+或-。
上述类似研究中,我们把观察或治疗一个研究对象统称为一次试验(在上例中,把检查一个患者是否阳性视为一次试验)。
如果研究背景满足下列条件:1)每次试验的可能结果(Outcome)仅为两种(视为成功或失败,在上例中阳性或阴性)。
2)定义试验中其中一个可能的结果成功,另一种可能的结果为失败(在上例中把检查结果为阳性可视为成功,检查结果为阴性为失败)。
3)每次试验的条件相同。
每次试验成功的概率为π,失败的概率为π-1(在上例中把检出阳性的概率为π=0.8,检查阴性的概率为π-1=0.2)。
3)试验次数为n(上例中n=4)。
则在n 次试验中,有X 次成功的概率(在上例中,4个患者检查,即:n=4;有x 个患者为阳性的)为X n X X n Xx n)1()!x n (!x !n )1(C )x (P --π-π-=π-π=。
n ,,2,1,0x =。
并记为X ~B(n,π)例:英语测试时,每道题有4个答案选择,随机选择答案,每道题正确的概率为0.25,问(1)做8道题,正好有2道题正确的概率是多少?(2)做20道题,正好有5道题正确的概率是多少? 解:(1)n=8,π=0.25,311462.075.025.0278)2X (P 62=⨯== (2)n=20,π=0.25,202331.075.025.0543211617181920)5X (P 155=⨯⨯⨯⨯⨯⨯⨯⨯== 二、二项分布的图形。
目录1定义▪统计学定义▪医学定义2概念3性质4图形特点5应用条件6应用实例定义统计学定义在概率论和统计学中,二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。
这样的单次成功/失败试验又称为伯努利试验。
实际上,当时,二项分布就是伯努利分布,二项分布是显著性差异的二项试验的基础。
医学定义在医学领域中,有一些随机事件是只具有两种互斥结果的离散型随机事件,称为二项分类变量(dichotomous variable),如对病人治疗结果的有效与无效,某种化验结果的阳性与阴性,接触某传染源的感染与未感染等。
二项分布(binomial distribution)就是对这类只具有两种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。
考虑只有两种可能结果的随机试验,当成功的概率()是恒定的,且各次试验相互独立,这种试验在统计学上称为伯努利试验(Bernoulli trial)。
如果进行次伯努利试验,取得成功次数为的概率可用下面的二项分布概率公式来描述:P=C(X,n)*π^X*(1-π)^(n-X)二项分布公式式中的n为独立的伯努利试验次数,π为成功的概率,(1-π)为失败的概率,X为在n次伯努里试验中出现成功的次数,表示在n次试验中出现X的各种组合情况,在此称为二项系数(binomial coefficient)。
所以的含义为:含量为n的样本中,恰好有X例阳性数的概率。
概念二项分布(Binomial Distribution),即重复n次的伯努利试验(Bernoulli Experiment),用ξ表示随机试验的结果。
二项分布公式如果事件发生的概率是P,则不发生的概率q=1-p,N次独立重复试验中发生K次的概率是P(ξ=K)= C(n,k) * p^k * (1-p)^(n-k),其中C(n, k) =n!/(k!(n-k)!),注意:第二个等号后面的括号里的是上标,表示的是方幂。
那么就说这个属于二项分布。
其中P称为成功概率。
记作ξ~B(n,p)期望:Eξ=np;方差:Dξ=npq;其中q=1-p证明:由二项式分布的定义知,随机变量X是n重伯努利实验中事件A发生的次数,且在每次试验中A发生的概率为p。
因此,可以将二项式分布分解成n个相互独立且以p为参数的(0-1)分布随机变量之和。
设随机变量X(k)(k=1,2,3...n)服从(0-1)分布,则X=X(1)+X(2)+X(3)....X(n).因X(k)相互独立,所以期望:方差:证毕。
如果1.在每次试验中只有两种可能的结果,而且是互相对立的;2.每次实验是独立的,与其它各次试验结果无关;3.结果事件发生的概率在整个系列试验中保持不变,则这一系列试验称为伯努利实验。
在这试验中,事件发生的次数为一随机事件,它服从二次分布。
二项分布可二项分布以用于可靠性试验。
可靠性试验常常是投入n个相同的式样进行试验T小时,而只允许k个式样失败,应用二项分布可以得到通过试验的概率。
若某事件概率为p,现重复试验n次,该事件发生k次的概率为:P=C(n,k)×p^k×(1-p)^(n-k)。
C(n,k)表示组合数,即从n个事物中拿出k个的方法数。
性质(一)二项分布是离散型分布,概率直方图是跃阶式的。
因为x为不连续变量,用概率条图表示更合适,用直方图表示只是为了更形象些。
1.当p=q时图形是对称的例如,,p=q=1/2,各项的概率可写作:2.当p≠q时,直方图呈偏态,p<q与p>q的偏斜方向相反。
如果n很大,即使p≠q,偏态逐渐降低,最终成正态分布,二项分布的极限分布为正态分布。
故当n很大时,二项分布的概率可用正态分布的概率作为近似值。
何谓n很大呢?一般规定:当p<q且np≥5,或p>q且nq≥5,这时的n就被认为很大,可以用正态分布的概率作为近似值了。
(二)二项分布的平均数与标准差如果二项分布满足p<q,np≥5,(或p>q,np≥5)时,二项分布接近正态分布。
这时,也仅仅在这时,二项分布的x变量(即成功的次数)具有如下性质:即x变量具有μ =np,的正态分布。
式中n为独立试验的次数,p为成功事件的概率,q=1- p。
由于n很大时二项分布逼近正态分布,其平均数,标准差是根据理论推导而来的,故用μ和σ而不用X和S表示。
它们的含意是指在二项试验中,成功的次数的平均数μ =np,成功次数的分散程。
例如一个掷10枚硬币的试验,出现正面向上的平均次数为5次(μ= np=),正面向上的散布程度为√10×(1/2)×(1/2)= 1.58(次),这是根据理论的计算,而在实际试验中,有的人可得10个正面向上,有人得9个、8个……,人数越多,正面向上的平均数越接近5,分散程度越接近1.58。
图形特点(1)当(n+1)p不为整数时,二项概率P{X=k}在k=[(n+1)p]时达到最大值;(2)当(n+1)p为整数时,二项概率P{X=k}在k=(n+1)p和k=(n+1)p-1时达到最大值。
注:[x]为不超过x的最大整数。
应用条件1.各观察单位只能具有相互对立的一种结果,如阳性或阴性,生存或死亡等,属于两分类资料。
2.已知发生某一结果(阳性)的概率为π,其对立结果的概率为1-π,实际工作中要求π是从大量观察中获得比较稳定的数值。
二项分布公式3.n次试验在相同条件下进行,且各个观察单位的观察结果相互独立,即每个观察单位的观察结果不会影响到其他观察单位的结果。
如要求疾病无传染性、无家族性等。
应用实例二项分布在心理与教育研究中,主要用于解决含有机遇性质的问题。
所谓机遇问题,即指在实验或调查中,实验结果可能是由猜测而造成的。
比如,选择题目的回答,划对划错,可能完全由猜测造成。
凡此类问题,欲区分由猜测而造成的结果与真实的结果之间的界限,就要应用二项分布来解决。
下面给出一个例子。
已知有正误题10题,问答题者答对几题才能认为他是真会,或者说答对几题,才能认为不是出于猜测因素?分析:此题,即猜对猜错的概率各为0.5。
,故此二项分布接近正态分布:根据正态分布概率,当Z=1.645时,该点以下包含了全体的95%。
如果用原分数表示,则为它的意义是,完全凭猜测,10题中猜对8题以下的可能性为95%,猜对8、9、10题的概率只5%。
因此可以推论说,答对8题以上者不是凭猜测,而是会答。
但应该明确:作此结论,也仍然有犯错误的可能,即那些完全靠猜测的人也有5%的可能性答对8、9、10道题。
此题的概率值,还可用二项分布函数直接计算,亦得与正态分布近似的结果:b(8 10 0.5)=10*9/2*0.58*0.52 = 45/1024b(9 10 0.5)=10*0.59*0.51 = 10/1024b(10 10 0.5) = 1/1024根据概率加法,答对8题及其以上的总概率为:45/1024+10/1024+1/1024=56/1024 = 0.0547 同理,可计算8题以下的概率为95%。
(近似)附表 1 二项分布表P {Xx } ⎛ n ⎛ p k(1 p )nkkk 0 ⎛k ⎛nxp0.001 0.002 0.003 0.005 0.01 0.020.030.050.100.15 0.20 0.25 0.302 0 0.9980 0.9960 0.9940 0.9900 0.9801 0.9604 0.9409 0.9025 0.8100 0.7225 0.6400 0.5625 0.490021 1.0000 1.0000 1.0000 1.0000 0.9999 0.9996 0.9991 0.9975 0.9900 0.9775 0.9600 0.9375 0.9100 3 0 0.9970 0.9940 0.9910 0.9851 0.9703 0.9412 0.9127 0.8574 0.7290 0.6141 0.5120 0.4219 0.343031 1.0000 1.0000 1.0000 0.9999 0.9997 0.9988 0.9974 0.9928 0.9720 0.9393 0.8960 0.8438 0.78403 21.0000 1.0000 1.0000 1.0000 0.9999 0.9990 0.9966 0.9920 0.9844 0.97304 0 0.9960 0.9920 0.9881 0.9801 0.9606 0.9224 0.8853 0.8145 0.6561 0.5220 0.4096 0.3164 0.240141 1.0000 1.0000 0.9999 0.9999 0.9994 0.9977 0.9948 0.9860 0.9477 0.8905 0.8192 0.7383 0.65174 2 1.0000 1.0000 1.0000 1.0000 0.9999 0.9995 0.9963 0.9880 0.9728 0.9492 0.9163 4 31.0000 1.0000 0.9999 0.9995 0.9984 0.9961 0.99195 0 0.9950 0.9900 0.9851 0.9752 0.9510 0.9039 0.8587 0.7738 0.5905 0.4437 0.3277 0.2373 0.168151 1.0000 1.0000 0.9999 0.9998 0.9990 0.9962 0.9915 0.9774 0.9185 0.8352 0.7373 0.6328 0.52825 2 1.0000 1.0000 1.0000 0.9999 0.9997 0.9988 0.9914 0.9734 0.9421 0.8965 0.8369 5 3 1.0000 1.0000 1.0000 0.9995 0.9978 0.9933 0.9844 0.9692 5 41.0000 0.9999 0.9997 0.9990 0.99766 0 0.9940 0.9881 0.9821 0.9704 0.9415 0.8858 0.8330 0.7351 0.5314 0.3771 0.2621 0.1780 0.117661 1.0000 0.9999 0.9999 0.9996 0.9985 0.9943 0.9875 0.9672 0.8857 0.7765 0.6554 0.5339 0.4202 6 2 1.0000 1.0000 1.0000 1.0000 0.9998 0.9995 0.9978 0.9842 0.9527 0.9011 0.8306 0.7443 6 3 1.0000 1.0000 0.9999 0.9987 0.9941 0.9830 0.9624 0.92956 4 1.0000 0.9999 0.9996 0.9984 0.9954 0.9891 6 51.0000 1.0000 0.9999 0.9998 0.99937 0 0.9930 0.9861 0.9792 0.9655 0.9321 0.8681 0.8080 0.6983 0.4783 0.3206 0.2097 0.1335 0.082471 1.0000 0.9999 0.9998 0.9995 0.9980 0.9921 0.9829 0.9556 0.8503 0.7166 0.5767 0.4449 0.32947 2 1.0000 1.0000 1.0000 1.0000 0.9997 0.9991 0.9962 0.9743 0.9262 0.8520 0.7564 0.6471 7 3 1.0000 1.0000 0.9998 0.9973 0.9879 0.9667 0.9294 0.8740 7 4 1.0000 0.9998 0.9988 0.9953 0.9871 0.9712 7 5 1.0000 0.9999 0.9996 0.9987 0.9962 7 61.0000 1.0000 0.9999 0.99988 0 0.9920 0.9841 0.9763 0.9607 0.9227 0.8508 0.7837 0.6634 0.4305 0.2725 0.1678 0.1001 0.057681 1.0000 0.9999 0.9998 0.9993 0.9973 0.9897 0.9777 0.9428 0.8131 0.6572 0.5033 0.3671 0.2553x查表方法:本表对于n、p、x给出二项分布函数P(x;n,p)的数值。