第四章 常概率分布
- 格式:doc
- 大小:2.10 MB
- 文档页数:23
第四章 常用概率分布五、正态分布的应用正态分布的应用1. 确定医学参考值范围n参考值范围(reference range):指特定的“正常”人群的解 剖、生理、生化指标及组织代谢产物含量等数据中大多数 个体的取值所在的范围。
正态分布的应用 n制定参考值范围的步骤:1. 选择足够数量的正常人作为调查对象。
2. 样本含量足够大。
3. 确定取单侧还是取双侧正常值范围。
4. 选择适当的百分界限。
5. 选择适当的计算方法。
n估计医学参考值范围的方法:1. 正态近似法:适用于正态分布或近似正态分布的资料。
2. 百分位数法:适用于偏态分布资料。
过高异常 过高异常过低异常 过低异常例1 某地调查120名健康女性血红蛋白,直方图显示,其分 布近似于正态分布,得均数为117.4g/L ,标准差为10.2g/L , 试估计该地正常女性血红蛋白的95%医学参考值范围。
分析:正常人的血红蛋白过高过低均为异常,要制定双侧正 常值范围。
该指标的95%医学参考值范围为97.41~137.39(g/L )1.96117.4 1.9610.297.41~137.39X S ±=±´=例 1A 某年某市调查了200例正常成人血铅含量(μg/100g) 如下,试估计该市成人血铅含量的95%医学参考值范围。
分析:血铅的分布为偏峰分布,且血铅含量只以 过高为异常,要用百分位数法制定单侧上限。
( ) ( ) 95 5.%3820095%18938.7/100 7L x iP L n x f g gf m =+-å=+´-=正态分布的应用2. 质量控制图n控制图基本原理:如果某一波动仅仅由个体差异或随机测 量误差所致,那么观察结果服从正态分布。
2. 质量控制图控制图共有7条水平线,中心线位于总体均数μ处,警戒限位于处,控制限位于 处,此外还有2条位于 处。
如果总体均数和总体标准差未知,也可用样本估计值代 替,这时,7条水平线分别位于 、 、 和 处。
选择题1. C 中位数适用于偏态分布资料、分布不明资料、开口资料(分布末端无确定值资料)、有极端值的资料。
2. A3. D 变量X a +→均数'X X a =+、方差2S 和标准差S 不变、变异系数CV 变小。
4. B5. E 变异系数主要用于比较度量衡单位不同或均数相差悬殊资料的变异程度。
6. E 100%SCV X=⨯ 7. C8. D 率的标准化是为了在比较两个不同人群的患病率、发病率、死亡率等资料时,消除其内部构成不同而不能直接比较的所产生的影响。
9. C 直条图:适用于分类资料各组之间指的比较。
10. C 线图:适用于描述两个计量资料之间的关系,即描述一个连续性变量(因变量)是如何随另一个连续性变量(自变量)的变化而变化。
11. A 半对数线图:适用于计量资料,用来比较事物之间相对的变化速度。
12. D 计算题1.素食前、素食后、素食前后胆固醇的差值的均数、中位数、方差、标准差素食前后胆固醇的箱图均数 中位数标准差 方差选择题2. D 在区间 2.58μσ±上,正态曲线下的面积为99.00%。
3. B 双侧95% 1.96μσ±4. D X 的总体标准差σ=5. B 正态曲线在X μσ=±处有拐点。
6. E7. E8. C σ离散度参数,决定着正态曲线的形状,若μ恒定,则σ越大,曲线越平坦;σ越小,曲线越陡峭。
9. D 对数正态分布lg -1 指标过大为异常,仅有上限的单侧医学参考值范围。
10. C选择题 1. B X S = 当样本含量n 增大时,X S 减小。
2. D3. C 通过增加样本含量n 来减小均数的标准误,从而降低抽样。
4. A 相对危险度(RR )指暴露人群的发病率与非暴露人群的发病率。
计算题1. 该地正常人和病毒性肝炎患者血清转铁蛋白总体均数的95%可信区间 n=10,σ未知,()2,2,,vv X X X t S X t S αα-+正常人 X = 2.732 2,v t α= 2.262X S = 0.03405 →(2.66,2.81)g/L病毒性肝炎患者 X = 2.324 2,v t α= 2.262X S = 0.03922 →(2.24,2.41)g/L该地正常人和病毒性肝炎患者血清转铁蛋白总体均数之差的95%可信区间()()()1212121212122,22,2,n n n n X X X X X X t S X X t S αα+-+---⎡⎤⎡⎤---+⎣⎦⎣⎦12XX S -= ()()221122212112c n S n S S n n -+-=+-= 0.0135()122,2n n t α+-=2.101 → (0.30,0.52)g/L2. 肾移植巨细胞感染率的95%可信区间 n=43 ≤50查表法,n=43,X=19 → (29%,60%)3. 该产院阴道分娩与剖宫产产后出血率之差的95%可信区间 5np >且()15n p -> [][]()1212122122,p p p p p p zSp p zS αα-----+12p p S -=(0.0718±1.96×0.0353)→ (0.26%,14.1%)选择题 1. C2. D Ⅰ型错误(α) Ⅱ型错误(β) α越大,β越小; α越小,β越大。
考试练习题常⽤概率分布教学提纲考试练习题常⽤概率分布第四章选择题:1.⼆项分布的概率分布图在条件下为对称图形。
A .n > 50B .π=0.5C .n π=1D .π=1E .n π> 52.满⾜时,⼆项分布B (n,π)近似正态分布。
A .n π和n (1-π)均⼤于等于5B .n π或n (1-π)⼤于等于5C .n π⾜够⼤D .n > 50E .π⾜够⼤3. 的均数等于⽅差。
A .正态分布B .⼆项分布C .对称分布D .Poisson 分布E .以上均不对4.标准正态典线下,中间95%的⾯积所对应的横轴范围是。
A .-∞到+1.96B .-1.96到+1.96C .-∞到+2.58D .-2.58到+2.58E .-1.64到+1.645.服从⼆项分布的随机变量的总体均数为。
A .n (1-π)B .(n -1)πC .n π(1-π)D .n π 6.服从⼆项分布的随机变量的总体标准差为。
A . B .(1-π)(1-π)( -)π1 C . D . π(1-π)(π 7.设X 1,X 2分别服从以λ1,λ2为均数的Poisson 分布,且X 1与X 2独⽴,则X 1+X 2服从以为⽅差的Poisson 分布。
A . B.λ2λ12+2λ2λ1+ C . D . 2λ2λ1+() 2λ2λ1+() E .λ2λ12+2 8.满⾜时,Poisson 分布Ⅱ(λ)近似正态分布。
A.λ⽆限⼤ B.λ>20 C.λ=1 D.λ=0 E.λ=0.59.满⾜时,⼆项分布B(n,π)近似Poisson分布。
A.n很⼤且π接近0 B.n→∞ C.nπ或n(1-π)⼤于等于5D.n很⼤且π接近0.5 E.π接近0.510.关于泊松分布,错误的是。
A.当⼆项分布的n很⼤⽽π很⼩时,可⽤泊松分布近似⼆项分布B.泊松分布均数λ唯⼀确定C.泊松分布的均数越⼤,越接近正态分布D.泊松分布的均数与标准差相等E.如果X1和X2分别服从均数为λ1和λ2的泊松分布,且相互独⽴。
第四章 常用概率分布[教学要求]了解:质量控制的意义、原理和方法 熟悉:三个常用概率分布的特征。
掌握:掌握三个常用概率分布的概念;二项分布及Poisson 分布的概率函数与累计概率、正态分布的分布函数的计算方法;医学参考值的计算。
[重点难点]第一节 二项分布一、二项分布的概念与特征基本概念:如果每个观察对象阳性结果的发生概率均为,阴性结果的发生概率均为(1-π);而且各个观察对象的结果是相互独立的,那么,重复观察n 个人,发生阳性结果的人数X 的概率分布为二项分布,记作B (n ,π)。
二项分布的概率函数:Xn X X n C X P --=)1()(ππ二项分布的特征:二项分布图的形态取决于与n ,高峰在=n 处。
当接近0.5时,图形是对称的;离0.5愈远,对称性愈差,但随着n 的增大,分布趋于对称。
二项分布的总体均数为 πμn = 方差为 )1(2ππσ-=n 标准差为 )1(ππσ-=n 如果将出现阳性结果的频率记为 nX p =则p 的总体均数为 πμ=p 标准差为二、二项分布的应用二项分布出现阳性的次数至多为k 次的概率为np )1(ππσ-=∑∑==-==≤kX kX XX eX P k X P 0!)()(λλ出现阳性的次数至少为k 次的概率为第二节 Poisson 分布的概念与特征一、Poisson 分布的概念与特征基本概念:Poisson 分布可以看作是每个观察对象阳性结果的发生概率很小,而观察例数n 很大时的二项分布。
除二项分布的三个基本条件以外,Poisson 分布还要求 接近于0。
有些情况和n 都难以确定,只能以观察单位(时间、空间、面积等)内某种稀有事件的发生数X 来近似。
Poisson 分布的概率函数:式中,πλn =为Poisson 分布的总体均数,X 为观察单位内某稀有事件的发生次数,e 为自然对数的底,λ为常数,约等于2.71828。
Poisson 分布的特征Poisson 分布当总体均数λ值小于5时为偏峰,λ愈小分布愈偏,随着λ增大,分布趋向对称。
第四章 概率分布及参数估计一、填空题1.抽样误差是不可避免的,但可随着____样本含量___的增大而减小,反映抽样误差大小的指标是___标准误____。
2.参数估计有两种方法:一种是直接利用样本统计量的值来估计总体参数,称为___点估计____;另一种是按一定的置信度来估计总体参数所在范围,称____区间估计___。
3.确定正态分布的两个参数是 ___均数μ____和 ___标准差σ___。
4.二项分布变量X 的均数是____ nπ___,标准差是___π)-n π(1____;频率P=n X的均数是___π____,标准差是___nπ)-π(1____。
5.Poisson 分布变量的均数是____λ___,标准差是____λ___。
二、分析计算题1.有人就食管癌与进食腌制食品的关系进行了病例-对照研究,由某医院近期确诊的所有食管癌患者构成病例组,同一医院中患有其他急性疾患的患者按照性别、年龄和职业匹配构成对照组,以完全相同的方法询问腌制食品的食用情况,结果如下表所示。
腌制食品食管癌 其他急性疾病 经常食用537 554 不常食用639 922 合计1176 1476试估计条件概率P (经常食用|食管癌)和P (经常食用|其他急性疾患)。
能否估计P (食管癌|经常食用)和P (其他急性疾患|经常食用)?如何描述进食腌制食品对食管癌发病机会的影响?答 :设食用腌制品为事件A ,患食管癌为事件B 。
P (A |B )=0.457,P (A |B )=0.3753;不能估计P (B |A );食用腌制品对食管癌发病机会的影响为P (A |B )/P (A |B )=1.2166。
2.据统计,某医院急性腹痛患者中30%患急性阑尾炎;阑尾炎患者中70%体温高于37.5℃,而非急性阑尾炎患者中只有40%体温高于37.5℃作为一项鉴别诊断的依据,试计算条件概率P (急性阑尾炎|急性腹痛患者体温高于37.5℃)。
第四章常用概率分布为了便于读者理解统计分析的基本原理,正确掌握和应用以后各章所介绍的统计分析方法,本章在介绍概率论中最基本的两个概念——事件、概率的基础上,重点介绍生物科学研究中常用的几种随机变量的概率分布——正态分布、二项分布、波松分布以及样本平均数的抽样分布和t分布。
第一节事件与概率一、事件(一)必然现象与随机现象在自然界与生产实践和科学试验中,人们会观察到各种各样的现象,把它们归纳起来,大体上分为两大类:一类是可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果总是确定的,必然发生(或必然不发生)。
例如,在标准大气压下,水加热到100℃必然沸腾;步行条件下必然不可能到达月球等。
这类现象称为必然现象(inevitable phenomena)或确定性现象(definite phenomena)。
另一类是事前不可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果未必相同。
例如,掷一枚质地均匀对称的硬币,其结果可能是出现正面,也可能出现反面;孵化6枚种蛋,可能“孵化出0只雏”,也可能“孵化出1只雏”,…,也可能“孵化出6 只雏”,事前不可能断言其孵化结果。
这类在个别试验中其结果呈现偶然性、不确定性现象,称为随机现象(random phenomena)或不确定性现象(indefinite phenomena)。
人们通过长期的观察和实践并深入研究之后,发现随机现象或不确定性现象,有如下特点:在一定的条件实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果;对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性;但在相同条件下进行大量重复试验时,其试验结果却呈现出某种固有的特定的规律性——频率的稳定性,通常称之为随机现象的统计规律性。
例如,对于一头临产的妊娠母牛产公犊还是产母犊是事前不能确定的,但随着妊娠母牛头数的增加,其产公犊、母犊的比例逐渐接近1:1的性别比例规律。
概率论与数理统计就是研究和揭示随机现象统计规律的一门科学。
(二)随机试验与随机事件1、随机试验通常我们把根据某一研究目的,在一定条件下对自然现象所进行的观察或试验统称为试验(trial)。
而一个试验如果满足下述三个特性,则称其为一个随机试验(random trial),简称试验:(1)试验可以在相同条件下多次重复进行;(2)每次试验的可能结果不止一个,并且事先知道会有哪些可能的结果;(3)每次试验总是恰好出现这些可能结果中的一个,但在一次试验之前却不能肯定这次试验会出现哪一个结果。
如在一定孵化条件下,孵化6枚种蛋,观察其出雏情况;又如观察两头临产妊娠母牛所产犊牛的性别情况,它们都具有随机试验的三个特征,因此都是随机试验。
2、随机事件随机试验的每一种可能结果,在一定条件下可能发生,也可能不发生,称为随机事件(random event),简称事件(event),通常用A、B、C等来表示。
(1)基本事件我们把不能再分的事件称为基本事件(elementary event),也称为样本点(sample point)。
例如,在编号为1、2、3、…、10的十头猪中随机抽取1头,有10种不同的可能结果:“取得一个编号是1”、“取得一个编号是2”、…、“取得一个编号是10”,这10个事件都是不可能再分的事件,它们都是基本事件。
由若干个基本事件组合而成的事件称为复合事件(compound event)。
如“取得一个编号是2的倍数”是一个复合事件,它由“取得一个编号是2”、“是4”、“是6、“是8”、“是10”5个基本事件组合而成。
(2)必然事件我们把在一定条件下必然会发生的事件称为必然事件(certain event),用Ω表示。
例如,在严格按妊娠期母猪饲养管理的要求饲养的条件下,妊娠正常的母猪经114天左右产仔,就是一个必然事件。
(3)不可能事件我们把在一定条件下不可能发生的事件称为不可能事件(impossible event),用ф表示。
例如,在满足一定孵化条件下,从石头孵化出雏鸡,就是一个不可能事件。
必然事件与不可能事件实际上是确定性现象,即它们不是随机事件,但是为了方便起见,我们把它们看作为两个特殊的随机事件。
二、概率(一)概率的统计定义研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。
这就要求有一个能够刻划事件发生可能性大小的数量指标,这指标应该是事件本身所固有的,且不随人的主观意志而改变,人们称之为概率(probability)。
事件A的概率记为P(A)。
下面我们先介绍概率的统计定义。
在相同条件下进行n次重复试验,如果随机事件A发生的次数为m,那么m/n称为随机事件A的频率(frequency);当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近某一数值p,那么就把p称为随机事件A的概率。
这样定义的概率称为统计概率(statistics probability),或者称后验概率(posterior probability)。
例如为了确定抛掷一枚硬币发生正面朝上这个事件的概率,历史上有人作过成千上万次抛掷硬币的试验。
在表4—1中列出了他们的试验记录。
表4—1 抛掷一枚硬币发生正面朝上的试验记录实验者投掷次数发生正面朝上的次数频率(m/n)蒲丰4040 2048 0.5069k.皮尔逊12000 6019 0.5016k.皮尔逊24000 12012 0.5005从表4-1可看出,随着实验次数的增多,正面朝上这个事件发生的频率越来越稳定地接近0.5,我们就把0.5作为这个事件的概率。
在一般情况下,随机事件的概率p是不可能准确得到的。
通常以试验次数n充分大时随机事件A的频率作为该随机事件概率的近似值。
即 P (A )=p ≈m/n (n 充分大) (4-1)(二)概率的古典定义 上面介绍了概率的统计定义。
但对于某些随机事件,用不着进行多次重复试验来确定其概率,而是根据随机事件本身的特性直接计算其概率。
有很多随机试验具有以下特征:1、试验的所有可能结果只有有限个,即样本空间中的基本事件只有有限个;2、各个试验的可能结果出现的可能性相等,即所有基本事件的发生是等可能的;3、试验的所有可能结果两两互不相容。
具有上述特征的随机试验,称为古典概型(classical model )。
对于古典概型,概率的定义如下:设样本空间由n 个等可能的基本事件所构成,其中事件A 包含有m 个基本事件,则事件A 的概率为m/n ,即P (A )=m/n (4-2)这样定义的概率称为古典概率(classical probability )或先验概率(prior probability )。
【例4.1】在编号为1、2、3、…、10的十头猪中随机抽取1头,求下列随机事件的概率。
(1)A =“抽得一个编号≤4”;(2)B =“抽得一个编号是2的倍数”。
因为该试验样本空间由10个等可能的基本事件构成,即n =10,而事件A 所包含的基本事件有4个,既抽得编号为1,2,3,4中的任何一个,事件A 便发生,即m A =4,所以P(A)=m A /n =4/10=0.4同理,事件B 所包含的基本事件数m B =5,即抽得编号为2,4,6,8,10中的任何一个,事件B 便发生,故P(B)=m B /n =5/10=0.5。
【例4.2】 在N 头奶牛中,有M 头曾有流产史,从这群奶牛中任意抽出n 头奶牛,试求:(1)其中恰有m 头有流产史奶牛的概率是多少?(2)若N =30,M =8,n =10,m =2,其概率是多少?我们把从有M 头奶牛曾有流产史的N 头奶牛中任意抽出n 头奶牛,其中恰有m 头有流产史这一事件记为A ,因为从N 头奶牛中任意抽出n 头奶牛的基本事件总数为n N C ,事件A 所包含的基本事件数为m n M N m M C C --⋅ ,因此所求事件A 的概率为)(A P =n N m n MN m M C C C --.将N =30,M =8,n =10,m =2代入上式,得)(A P =103021083028.C C C --= 0.0695即在30头奶牛中有8头曾有流产史,从这群奶牛随机抽出10头奶牛其中有2头曾有流产史的概率为6.95%。
(三)概率的性质 根据概率的定义,概率有如下基本性质:1、对于任何事件A ,有0≤P (A )≤1;2、必然事件的概率为1,即P (Ω)=1;3、不可能事件的概率为0,即P(ф)=0。
三、小概率事件实际不可能性原理随机事件的概率表示了随机事件在一次试验中出现的可能性大小。
若随机事件的概率很小,例如小于0.05、0.01、0.001,称之为小概率事件。
小概率事件虽然不是不可能事件,但在一次试验中出现的可能性很小,不出现的可能性很大,以至于实际上可以看成是不可能发生的。
在统计学上,把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率事件实际不可能性原理,亦称为小概率原理。
小概率事件实际不可能性原理是统计学上进行假设检验(显著性检验)的基本依据。
在下一章介绍显著性检验的基本原理时,将详细叙述小概率事件实际不可能性原理的具体应用。
第二节概率分布事件的概率表示了一次试验某一个结果发生的可能性大小。
若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即必须知道随机试验的概率分布(probability distribution)。
为了深入研究随机试验,我们先引入随机变量(random variable)的概念。
一、随机变量作一次试验,其结果有多种可能。
每一种可能结果都可用一个数来表示,把这些数作为变量x的取值范围,则试验结果可用变量x来表示。
【例4.3】对100头病畜用某种药物进行治疗,其可能结果是“0头治愈”、“1头治愈”、“2头治愈”、“...”、“100头治愈”。
若用x表示治愈头数,则x的取值为0、1、2、 (100)【例4.4】孵化一枚种蛋可能结果只有两种,即“孵出小鸡”与“未孵出小鸡”。
若用变量x表示试验的两种结果,则可令x=0表示“未孵出小鸡”,x=1表示“孵出小鸡”。
【例4.5】测定某品种猪初生重,表示测定结果的变量x所取的值为一个特定范围(a,b),如0.5―1.5kg,x值可以是这个范围内的任何实数。
如果表示试验结果的变量x,其可能取值至多为可列个,且以各种确定的概率取这些不同的值,则称x为离散型随机变量(discrete random variable);如果表示试验结果的变量x,其可能取值为某范围内的任何数值,且x在其取值范围内的任一区间中取值时,其概率是确定的,则称x为连续型随机变量(continuous random variable)。