第四章常用概率分布学习指导(定)详解
- 格式:doc
- 大小:489.50 KB
- 文档页数:17
第四章 常用概率分布[教学要求]了解:质量控制的意义、原理和方法 熟悉:三个常用概率分布的特征。
掌握:掌握三个常用概率分布的概念;二项分布及Poisson 分布的概率函数与累计概率、正态分布的分布函数的计算方法;医学参考值的计算。
[重点难点]第一节 二项分布一、二项分布的概念与特征基本概念:如果每个观察对象阳性结果的发生概率均为,阴性结果的发生概率均为(1-π);而且各个观察对象的结果是相互独立的,那么,重复观察n 个人,发生阳性结果的人数X 的概率分布为二项分布,记作B (n ,π)。
二项分布的概率函数:Xn X X n C X P --=)1()(ππ二项分布的特征:二项分布图的形态取决于与n ,高峰在=n 处。
当接近0.5时,图形是对称的;离0.5愈远,对称性愈差,但随着n 的增大,分布趋于对称。
二项分布的总体均数为 πμn = 方差为 )1(2ππσ-=n 标准差为 )1(ππσ-=n 如果将出现阳性结果的频率记为 nX p =则p 的总体均数为 πμ=p 标准差为二、二项分布的应用二项分布出现阳性的次数至多为k 次的概率为np )1(ππσ-=∑∑==-==≤kX kX XX eX P k X P 0!)()(λλ出现阳性的次数至少为k 次的概率为第二节 Poisson 分布的概念与特征一、Poisson 分布的概念与特征基本概念:Poisson 分布可以看作是每个观察对象阳性结果的发生概率很小,而观察例数n 很大时的二项分布。
除二项分布的三个基本条件以外,Poisson 分布还要求 接近于0。
有些情况和n 都难以确定,只能以观察单位(时间、空间、面积等)内某种稀有事件的发生数X 来近似。
Poisson 分布的概率函数:式中,πλn =为Poisson 分布的总体均数,X 为观察单位内某稀有事件的发生次数,e 为自然对数的底,λ为常数,约等于2.71828。
Poisson 分布的特征Poisson 分布当总体均数λ值小于5时为偏峰,λ愈小分布愈偏,随着λ增大,分布趋向对称。
常见概率分布类型解析概率分布是描述随机变量可能取值的概率分布情况的数学模型。
在统计学和概率论中,有许多常见的概率分布类型,每种类型都有其特定的特征和应用场景。
本文将对常见的概率分布类型进行解析,帮助读者更好地理解和应用这些概率分布。
一、离散型概率分布1. 二项分布(Binomial Distribution)二项分布是最常见的离散型概率分布之一,描述了在一系列独立重复的伯努利试验中成功次数的概率分布。
其中,伯努利试验是指只有两种可能结果的随机试验,如抛硬币、投篮等。
二项分布的概率质量函数为二项式系数的形式,通常用于描述成功概率固定的多次独立重复试验的结果。
2. 泊松分布(Poisson Distribution)泊松分布是描述单位时间(或单位空间)内随机事件发生次数的概率分布。
它适用于描述在一个固定时间或空间范围内,事件发生的次数满足一定条件的情况,如电话交换机接到的电话数、一天内发生的交通事故数等。
泊松分布的概率质量函数具有简单的形式,适用于事件发生率低、事件相互独立的情况。
二、连续型概率分布1. 正态分布(Normal Distribution)正态分布是最常见的连续型概率分布,也称为高斯分布。
它具有钟形曲线,均值和标准差完全决定了分布的形状。
正态分布在自然界和社会科学中广泛应用,许多现实世界的数据都服从正态分布,如身高、体重等。
中心极限定理表明,大量独立随机变量的均值近似服从正态分布。
2. 指数分布(Exponential Distribution)指数分布是描述独立随机事件发生时间间隔的概率分布。
它常用于描述连续事件的等待时间,如客户到达间隔时间、设备故障间隔时间等。
指数分布具有无记忆性的特点,即已经等待了一段时间后,未来的等待时间与已经等待的时间长度无关。
3. 均匀分布(Uniform Distribution)均匀分布是最简单的连续型概率分布,描述了在一段区间内所有取值的概率相等的情况。
第四章 常用概率分布[教学要求]了解:质量控制的意义、原理和方法 熟悉:三个常用概率分布的特征。
掌握:掌握三个常用概率分布的概念;二项分布及Poisson 分布的概率函数与累计概率、正态分布的分布函数的计算方法;医学参考值的计算。
[重点难点]第一节 二项分布一、二项分布的概念与特征基本概念:如果每个观察对象阳性结果的发生概率均为,阴性结果的发生概率均为(1-π);而且各个观察对象的结果是相互独立的,那么,重复观察n 个人,发生阳性结果的人数X 的概率分布为二项分布,记作B (n ,π)。
二项分布的概率函数:Xn X X n C X P --=)1()(ππ二项分布的特征:二项分布图的形态取决于与n ,高峰在=n 处。
当接近0.5时,图形是对称的;离0.5愈远,对称性愈差,但随着n 的增大,分布趋于对称。
二项分布的总体均数为 πμn = 方差为 )1(2ππσ-=n 标准差为 )1(ππσ-=n 如果将出现阳性结果的频率记为 nX p =则p 的总体均数为 πμ=p 标准差为二、二项分布的应用二项分布出现阳性的次数至多为k 次的概率为np )1(ππσ-=∑∑==-==≤kX kX XX eX P k X P 0!)()(λλ出现阳性的次数至少为k 次的概率为第二节 Poisson 分布的概念与特征一、Poisson 分布的概念与特征基本概念:Poisson 分布可以看作是每个观察对象阳性结果的发生概率很小,而观察例数n 很大时的二项分布。
除二项分布的三个基本条件以外,Poisson 分布还要求 接近于0。
有些情况和n 都难以确定,只能以观察单位(时间、空间、面积等)内某种稀有事件的发生数X 来近似。
Poisson 分布的概率函数:式中,πλn =为Poisson 分布的总体均数,X 为观察单位内某稀有事件的发生次数,e 为自然对数的底,λ为常数,约等于2.71828。
Poisson 分布的特征Poisson 分布当总体均数λ值小于5时为偏峰,λ愈小分布愈偏,随着λ增大,分布趋向对称。
Poisson 分布的总体均数与总体方差相等, 均为λ,且Poisson 分布的观察结果具有可加性。
特点:凡个体有传染性、聚集性,均不能视为二项分布或Poisson 分布。
三、Poisson 分布的应用如果某稀有事件发生次数的总体均数为λ,那么发生次数至多为k 次的概率为发生次数至少为k 次的概率为!)(X eX P Xλλ-=∑∑==---==≤kX kX X n X X n X n X P k X P 00)1()!(!!)()(ππ∑∑==---==≥n kX nkX Xn X X n X n X P k X P )1()!(!!)()(ππ第三节 正态分布一、正态分布的概念基本概念:正态分布是自然界最常见的一种分布,正态分布的特点是中间频数最多,两边频数渐少且对称。
正态分布的密度函数:222)(21)(σμπσ--=X eX f其中,μ为总体均数,σ为总体标准差 正态分布密度曲线的特点:(1)关于x=μ对称。
(2)在x=μ处取得该概率密度函数的最大值,在σμ±=x 处有拐点,表现为钟形曲线。
(3)曲线下面积为1。
(4)μ决定曲线在横轴上的位置,μ增大,曲线沿横轴向右移;反之,μ减小,曲线沿横轴向左移。
(5)σ决定曲线的形状,当μ恒定时,σ越大,数据越分散,曲线越“矮胖”’;σ越小, 数据越集中,曲线越‘瘦高’。
二、 正态曲线下面积的分布规律标准正态分布:总体均数为0、总体标准差为1的正态分布称为标准正态分布,用)1.0(N 表示。
对任意一个服从正态分布),(2σμN 的随机变量X ,经过如下的标准化变换 σμ-=X Z可以转变为标准正态分布。
正态曲线下面积的分布规律由标准正态分布曲线下面积分布表给出。
标准正态分布的分布函数值等于标准正态曲线下Z 值左侧的面积,记作)(z Φ。
)1(1)(-≤-=≥k X P k X P按正态分布规律,标准正态曲线下面积分布规律为: 单侧:P (Z -Z α)=α 或P (ZZ α)=α双侧:P (Z -Z α/2)+P (Z Z α/2)=α三、正态分布的应用 (一)确定医学参考值范围基本概念:医学参考值范围是指特定的“正常”人群(排除了对所研究指标有影响的疾病和有关因素的特定人群)的解剖、生理、生化指标及组织代谢产物含量等数据中大多数个体取值所在的范围。
人们习惯用该人群中95%的个体某项医学指标的取值范围作为该指标的医学参考值范围。
计算方法:确定医学参考值范围的方法有两种:(1)百分位数法 双侧95%医学参考值范围是),(97525P P ,单侧范围是P 95以下(如血铅、发汞),或P 5以上(如肺活量)。
该法适用于任何分布类型的资料。
(2)正态分布法 若X 服从正态分布,医学参考值范围还可以依正态分布规律计算。
正态分布资料双侧医学参考值范围一般按下式作近似估计:S X 96.1±其中,X 和S 分别为样本的均数和标准差(二)二项分布、泊松分布的正态分布近似1.二项分布的正态近似 随着n 的增大,二项分布趋于对称。
理论上可以证明:当n 相当大时,只要π不太靠近0或1, 特别是当n π和n (1-π)都大于5时,二项分布近似于正态分布。
由于二项分布为离散型变量分布,为了借用连续型变量的分布函数计算概率,要对概率函数作校正。
二项分布累计概率的正态近似计算公式为:∑=---+Φ≈=≤kX X n X X n n n k q p C K X P 0))1(5.0()(πππ∑=----Φ-≈=≥nkX X n X X n n n k q p C k X P ))1(5.0(1)(πππ2.Poisson 分布的正态近似随着总体均数λ的增大,Poisson 分布趋向对称。
理论上可以证明, 随着∞→λ,Poisson 分布也渐近正态分布。
一般,当20≥λ时Poisson 分布资料可按正态分布处理。
和二项分布相同,Poisson 分布也是离散型变量分布。
为了借用连续型变量的分布函数计算概率,也要对概率函数作校正。
校正后Poisson 分布的正态近似计算方法为∑=--+Φ≈=≤ki kk ei k X P 0)5.0(!)(λλλλ)5.0(1)(1)(λλ--Φ-≈〈-=≥k k X P k X P∑=---Φ--+Φ≈=≤≤21)5.0()5.0(!)(1221k k i kk k e i k X k P λλλλλλ[案例讨论参考答案]案例4-1 该案例问题在于艾滋病是传染病,观察单位在是否感染方面互不独立,不管感染人数有多么少都不能按Poisson 分布问题处理。
[电脑实验程序及结果解释]实验4-1 概率及累积概率的计算程序4-1 概率及累积概率的计算01 DATA exam6; 建立sas 数据集exam6; 02 n=150;prob=0.13;指定二项分布的n 和π; 03 p11=PROBBNML(prob,n,2); 计算至多感染2名的概率; 04 p12=1- PROBBNML (prob,n,1); 计算至少感染2名的概率; 05 p13=1- PROBBNML (prob,n,19);计算至少感染20名的概率;06 PROC PRINT; 输出数据集exam6的内容;07 DATA exam7_8; 建立数据集exam7_8;08 m=0.96; 指定Poisson分布的总体均数m;09 p21=PDF('POISSON',4,m); 计算4人患病的概率;10 p22=POISSON(m,4); 计算至多4人患病的概率;11 p23=1-POISSON(m,4); 计算至少5人患病的概率;12 PROC PRINT; 输出数据集exam7_8的内容;13 DATA exam10; 建立数据集exam10;14 mean=123.02; std=4.79; 指定正态分布的总体均数mean和标准差std;15 p31=1-CDF('NORMAL',130,mean,std); 计算身高130cm以上者占总数的百分比;16 p32=CDF('NORMAL',128,mean,std) 计算身高120cm~128cm者占总数的百分比;17 -CDF('NORMAL',120,mean,std);18 rangel=mean-PROBIT(0.9)*std; 计算80%参考值范围的下限;19 range2=mean+PROBIT(0.9)*std; 计算80%参考值范围的上限;20 PROC PRINT; RUN; 输出计算结果;运行程序;说明:改变语句行02,08行,可任意设定二项分布的n、π和Poisson分布的总体均数,09、10、11行中的人数根据需要任意设定。
运行结果:Output窗口:Obs n prob p11 p12 p131 150 0.13 .000000231 1.00000 0.48798Obs m p21 p22 p231 0.96 0.013550 0.99692 .003082683Obs mean std p31 p32 rangel range21 123.02 4.79 0.072530 0.58656 116.881 129.159实验4-2 正态近似法的计算程序4-2 正态近似法的计算03 为随机变量x1赋值;04 z1=(x1-0.5 -mean)/std; 对x1进行标准化正态变换;05 p1=1-PROBNORM(z1); 求标准正态分布中取值大于z1的概率;06 KEEP x1 p1 ; 指定数据集中只包含变量x1和p1;07 PROC PRINT; 输出当前数据集的内容;08 RUN; 运行上述程序;09 DATA norm2; 建立数据集norm2;10 mean=360 ; std=sqrt(mean); 指定Poisson分布近似的正态分布的总体均数和标准差;11 x2=400 ; 指定随机变量x2的值;12 z2=(x2-0.5-mean)/std; 对x2进行标准化正态变换;13 p2=1-PROBNORM(z2); 求取值大于z2的概率;KEEP x2 p2 ; 指定数据集中只包含变量x2和p2;说明:改变语句行02、03、10和11行,可设定任意均数、标准差和随机变量值。
运行结果:Output窗口:Obs x1 p11 20 0.5Obs x2 p21 400 0.018679实验4-3 正态分布的两个参数μ与σ的意义和作用程序4-3 正态分布的两个参数μ与σ的意义和作用14 DATA stdnorm2; 建立sas数据集stdnorm2;15 std1=0.5; std2=0.7;std3=0.9; 指定总体标准差std1、std2和std3;16 pi =3.1415926; c=1/SQRT(2*pi);17 DO u=-3 TO 3 BY 0.05; 设立循环,循环变量u从-3增加到3,每次加0.05;18 f0=c*EXP(-u**2/2); 计算u对应的正态分布N(0,1)的密度函数值f0;19 f1=c/std1*EXP(-u**2/2/std1**2); 计算u对应的正态分布N(0, std1)的密度函数值f1;20 f2=c/std2*EXP(-u**2/2/std2**2); 计算u对应的正态分布N(0, std2)的密度函数值f2;21 f3=c/std3*EXP(-u**2/2/std3**2); 计算u对应的正态分布N(0, std3)的密度函数值f3;22 OUTPUT; 将数据写入数据集;23 END; 结束循环;24 PROC GPLOT; 调用GPLOT过程绘制曲线图;25 PLOT (f0 f1 f2 f3) *u /OVERLAY ;26 RUN; 运行程序;说明:改变语句行02和15,可设定任意均数和标准差。