当前位置:文档之家› 卫生统计学知识点汇总

卫生统计学知识点汇总

第一讲绪论

总体:是研究目的所确定的所有同质个体某指标实际值的集合;或说,总体是根据研究目的确定的所有同质观察对象的全体。

样本:根据随机化的原则从总体中抽取有代表性的部分观察单位,其变量实测值构成样本。

样本含量:样本所包含个体或个体值的个数。

抽样(Sampling):从总体中抽取有代表性的一部分样本的过程,称为抽样。

抽样研究:从确定的同质总体中随机抽取部分样本进行观察,用样本信息来推断总体特征,该研究方法叫抽样研究。

统计推断:样本的现象推断所研究总体的特征。即分析样本数据,获得关于总体的知识。

同质(homogeneity):指研究对象在一定范畴的各种可能影响主要观察指标的其它因素处于相同或非常相似的情况,即把具有相同性质的观察单位简称为同质的(homogeneous),否则称为异质的

(heterogeneous)。

变异(variation):同质基础上的各观察单位间的差异

参数:根据总体变量值统计计算出来,描述总体特征的统计指标。

统计量:根据样本个体值统计计算出来,描述特征的统计指标。

变量:变异性表现为取值上的大小就是变量。通常把观察单位的观察指标称为变量。如身高、体重等

变量值:观察单位的观察值叫变量值,如身高118cm,体重26kg 等。

误差:为观察值(X)与实际值(μ)之差。

抽样误差(sampling error):由抽样造成的样本统计量和总体参数的差别、以及样本统计量之间的差别称为抽样误差。

随机事件(Radom event):随机试验中可能出现的各种结果,叫随机事件。即在一定条件下具有多种可能发生的结果,而究竟发生那一个结果不能肯定,又称偶然事件。

概率(Probability):描述随机事件发生的可能性大小的一种度量,常用P 表示。

小概率事件:当随机事件A的概率P(A)≤α,习惯上,当α=0.05时,就称A为小概率事件;其统计学意义是小概率事件在一次随机试验中不可能发生。

频率(Frequency):

m,则:

统计描述:用统计指标、统计表、统计图等方法,对样本资料的数量特征及其分布规律进行描述

统计推断:指用样本信息推断总体特征,包括参数估计和假设检验。

第二讲:数值变量的统计描述

一、频数表与频数分布图

(一)基本概念:

频数( frequency ):指在一个抽样资料中,某变量值出现的次数。

频数分布表(frequency distribution table):将各数值变量的值及其相应的频数列表,简称频数表。频率是表示频数出现机率的指标,可用百分数或小数表示,频率为100%或1。

频数分布图(frequency distribution figure):根据频数分布表,以变量值为横坐标,频数为纵坐标,绘制的直方图。

(二)连续型变量频数表的编制方法:

⒈求全距(Range,简记R ):是一组资料中最大值(X max)与最小值(X min)之差,亦称极差。

2. 定组距:将全距分为若干段,称为组段。组与组之间的距离,称为组距;用小写i 表示。

原则:(1)“组段”数一般为10-15个;

(2)“组距”一般为R/10取整;

(3)为计算方便根据组距采取取整数方法

3.写组段:即将全距分为若干段的过程。

原则:(1)第一组段要包括X min,最末组段包括X max ;

(2)每组段均用下限值加“~ ”表示,最终组段同时注明上下限。

4. 列表划记:根据预定的组段和组距,用划记的方法整理原始资料。

(三)频数表的用途:

1.揭示频数的分布特征:集中趋势与离散趋势结合能全面反映频数的分布特征

2.揭示频数的分布类型

对称分布:集中部位在中部,两端渐少,左右两侧的基本对称,为对称(正态)分布。

正偏:集中部位偏于较小值一侧(左侧),较大值方向渐减少,为正偏态分布。

负偏:集中部位偏于较大值一侧(右侧),较小值方向渐减少,为负偏态分布。

3.便于发现某些特大或特小的可疑值。

4. 样本含量足够大时,以频率作为概率的估计值。

5.作为陈述资料的形式。

二、集中趋势的指标

集中趋势:用于描述一组计量资料的集中位置,说明这种变量值大小的平均水平,常用平均数(average)表示。注意:1.同质的事物或现象才能求平均数

2.应根据资料分布状态选用适当的均数。

算术均数:单峰对称分布

包括几何均数:对数正态分布

中位数、百分位数:偏态分布

(一)算术平均数(arithmetic mean)

●使用条件:数据分布比较均匀呈正态分布或近似正态分布。

●样本均数用符号:X表示

●总体均数用符号:μ表示

●计算方法有两种:直接法(小样本)和加权法(大样本)

(1)直接法:

举例:某地10名18岁健康男大学生身高为(cm):168.7, 178.4, 170.0, 170.4, 172.1,

167.6, 172.4, 170.7, 177.3, 169.7 求平均身高?

适用范围:小样本资料,n<30

……、X n直接相加,再除以观察值的个数n。

(2)加权法:

适用范围:大样本含量的分组资料或频数表资料。

Σf x ,然后除以总频数Σf 。

举例: 用加权法计算某市8岁男童身高平均数(表3.1 )

①计算各组段的组中值xi 、fxi 和Σfx 第1组段:

② 用加权法计算该组身高值的均值

● 概念:对一组观察值,先进行对数变换,按算术均数计算方法求其对数值的均数,该均数的反对数值即几何均数(G )。

● 使用条件:用于原始数据分布呈偏态分布,等比资料(倍数变化)或对数正态分布资料的平均数的计算。 ● 表示符号:G

● 计算方法:直接法和加权法 (1)直接法:

适用范围:小样本资料

117.5

1 = 2

119

116 + =

=

2

+ 上限

下限 x

举例:设有5份血清样品,滴度分别为: 1:1, 1:10, 1:100, 1:1000, 1:10000 求其平均滴度。

或 G =lg-1((lg1+lg10+lg100+lg1000+lg10000)/5) =lg-1((0+1+2+3+4)/5) =lg-12 =100

即:平均滴度为1:100;较好地代表了观察值的平均水平。 (2)加权法:

适用范围:大样本含量的分组资料或频数表资料。

举例:有 3.3)。

G =lg-1 (Σf lg X /Σf )=lg-1(145.0948/95) =33.68

即95名易感儿童接种疫苗一个月后,血凝抑制抗体的 平均滴度为1:33.68。

计算几何均数(G )注意事项: (1)观察值不能为0;

(2)观察值不能同时有正有负;

(3)同一组资料求得的几何均数小于算术均数。 练习:

1.有8份血清的抗体效价分别为:1:5, 1:10, 1:20, 1:40, 1:80, 1:160, 1:320, 1:640 求平均抗体效价。

将各抗体效价的倒数代入公式:

所以血清的抗体平均为1:56.57

100

1000010001001015

=????G =

表3.4 95名儿童的血凝抑制抗体平均滴度计算(加权法) 抗体滴度 ① 滴度倒数 ② 频数 ③ lgX ④ f ·lgX

⑤=③×④

1: 4 4 4 0.6021 2.4084 1: 8 8 9 0.9031 8.1279 1:16 16 16 1.2041 19.2656 1:32 32 34 1.5051 51.1734 1:64 64 18 1.8062 32.5116

1:128 128 8 2.1072 16.8576

1:256 256 5 2.4082 12.0410

≥1:512 512 1 2.7093 2.7093 合计 95 145.0948 57.56)752575.1(lg ]

8/)640lg 10lg 5[(lg lg 11==+???++=--G

2.有50人的血清抗体效价,分别为:5人

求平均抗体效价。 将各抗体效价的倒数代入公式:

所以该50人的血清抗体效价为1:41.70 (三)中位数(Median ,M )

● 概念:把一组变量值从小到大排列,位于中间位置的变量值叫中位数,用M 表示。 ● 使用条件:当一组资料类型分布不清或明显 偏态分布时的平均数的计算。 ● 表示符号:M

● 计算方法:直接法和加权法

百分位数(Percentile ,P )

● 概念:为一种位置指标,表示位于全部观察值第X %位置处的数值。一个PX 将总体或样本的全部观察值分为两部分,理论上有X %的观察值比它小,(100-X )%的观察值比它大,P 50分位数即是中位数。 ● 表示符号:Px

● 计算方法: 频数表计算

(1)直接法由原始数据计算中位数:

当n 为奇数时:

(2)用频数表计算中位数和百分位数 步骤:

按所分组段,由小到大计算累计频数和累计频率

代入公式计算中位数及其它百分位数

中位数计算公式 百分位数计算公式

注:fm 、 fx 为所在组的频数, i 为该组段的组距,

L 为其下限 ,∑fL 为小于L 的各组段的累积频数。

例:求164例沙门菌食物中毒病人潜伏期的中位数和百分位数P5、P 95 潜伏期(h) ① 频数f ② 累积频数 ③ 累计频率(%) ④ 0~ 21 21 15.24 12 ~ 58 79 48.17 24 ~ 44 123 75.00 36 ~ 23 146 89.02 48 ~ 12 158 96.34 60 ~ 5 163 99.39 72 ~

1

164

100.00

1. 由表第(4)、 (1)栏可见,M (P 50)在24~ 组段, 所以 L =24、i =12、fx =44、ΣfL =79。

2. 把 L =24、i =12、fx =44、ΣfL =79代入公式, 求M 。

3. 同样方法,可求

P 5、P 95 。

P 5 = 0+ (164×5%-0)=4.7(h) P95 = 48+ (164×95%-146)=57.8(h)

应用:

1.中位数:

常用于描述偏态分布资料的集中位置,反映位置居中的观察值的水平,它和均数、几何均数不同,不是由全部观察值的数量值综合计算出来的,只受居中变量值的影响,不受两端特大值和特小值的影响。因此,当分布的一端或两端无确定数值或资料的分布不清可以求中位数。

2.百分位数:

A.用于描述数据某一百分位的位置,最常用的是P 50,即中位数;也可用多个百分位数的结合来描述一组资料的分布特征,如用P 25和 P 75合用时,反映中间50%观察值的分布情况。

B.用于确定参考值范围:

WBC 的95%参考值范围:P 2.5~ P 97.5过高过低均异常 肺活量95%参考值范围:P 5 过低异常 尿铅95%参考值范围:P 95 过高异常

C.用一组P X 可较全面地描述总体或样本的分布特征。

三、离散趋势的指标

离散趋势:用于描述一组数值变量观察值之间参差不齐的程度,即变异程度。 极差(Range, R )

四分位数间距(Quartile, Q )

M (P 50) = 24+ (164/2-79)=24.8(h)

12 44

包括 方差(V ariance , )

标准差(Standard deviation ,S 2)

变异系数(Coefficient of variation,CV )

(一) 极差(Range, 简称R )

●计算:R =最大值-最小值= X max - X min ●意义:反映样本变量值的全范围。

●条件:对变量值的各种分布类型的资料都适用。 ●优点:简单明了,容易理解,使用方便。

●缺点:仅考虑了极大值和极小值,未考虑其它变量的个体差异。 ●建议:与其他离散指标共同使用。 极差的缺点:

1.R 只考虑最大值和最小值之差,不能反映组内其它观察值的变异度。

2.样本例数越多,抽到极大值和极小值的可能性越大,故样本例数悬殊时不易比较极差。

3.即使样本例数不变,极差的抽样误差亦较大,即不够稳定。 (二) 四分位数间距(Quartile, 简称Q) ●计算:Q=QU-QL=P 75-P 25 ●意义:中间一半观察值的极差。

●条件:对变量值的各种分布类型的资料都适用。 ●优点:类似R值但比其稳定。

●缺点:未考虑全部观察值的变异度。 ●建议:与其他离散指标共同使用。

例:有164例沙门氏菌食物中毒病人的潜伏期(小时), 求该潜伏期的四分位数间距。

P 25 =L + i / f 25 ( n ·25 % — ΣfL )

=12 + 12/58(164×25%—21)

= 16.14(小时)

P 75 =L + i / f 75 ( n ·75 % — Σf L )

=24 + 12/44(164×75%—79) = 36(小时)

Q = P 75 - P 25 =36-16.14=19.86 (小时)

即该潜伏期的四分位数间距为19.86小时。 (三) 方差( Variance, 简称 ) ●计算:总体方差 样本方差 ●意义:克服了R值的不足,考虑了每个变量值的离散情况并消除了N的影响。 ●优点:全面地考虑每个变量值的离散情况

表3.5 164例沙门氏菌食物中毒病人的潜伏期(小时) 潜伏期(小时) ① 频数f ② 累计频数 ③ 累计频率(%)

0— 21 21 15.24 12— 58 79 48.17 24— 44 123 75.00 36— 23 146 89.02 48— 12 158 96.34

60— 5 163 99.39

72—84 1 164 100.00

N

X ∑

-=22)(μσ1/)(1)(2

222--=

--=∑∑

∑n n x x n X X s 2σ

●缺点:其单位是原度量单位的平方。

(四)标准差(Standard deviation ,SD 或S ) ●计算:总体标准差:

样本标准差:

标准差的计算:

(1)直接法:用于小样本资料

举例 现有一影像医生,测得10名患者的EA 值分别为: 0.47, 0.60, 0.86, 0.96, 1.01, 1.13, 1.27, 1.58, 1.72, 2.88

试计算其标准差?

①首先列表,求出ΣX 和ΣX 2(表3.6)

(2)加权法:用于大样本资料或频数表资料 举例 计算100名8岁男孩身高的标准差

1

)(1

)(2

2

2

--

=

--=

∑∑∑

n n

x x n X X s 1

)(2

2

--

=

∑∑n n

fx fx

s ⑴ 直接法:

⑵ 加权法:

②将ΣX 、ΣX 2代入公式:

N

X ∑

-=2)(μσ1

( ) 2

- - =

∑ n X X s 表3.6 10名患者EA 值的标准差计算

X X 2 0.47 0.22 0.60 0.36 0.86 0.74 0.96 0.92 1.01 1.02 1.13 1.28 1.27 1.61 1.58 2.50 1.72

2.96 2.88 8.29 ΣX =12.48

ΣX 2=19.90

①从列表可知:

Σfx =13 055.0

②代入公式:

(五 ●概念:是同一组资料的标准差与均数之比,又叫变异度或离散系数。 ●计算:

●实际含义:标准差相对于同组均数的百分比。 ●优点:CV 消除了度量衡单位,用于比较 1.单位不同的多组资料的变异度。 2.均数相差悬殊的多组资料的变异度

举例 :某地7岁男孩身高的均数为123.10cm ,标准差4.71 cm ;体重均数为22.29kg ,标准差2.26kg 。试比较

其身高、体重的变异程度。

说明其体重的变异度大于身高的,即身高比体重稳定。

小 结

⒈为描述数值变量的分布特征,可将观察值编制频数表,绘制频数分布图。 ⒉集中趋势描述的主要指标是平均数。

3.描述频数分布离散程度的指标有:

①极差与四分位数间距,后者较稳定,但均不能综合反映个观察值的变异程度。 ②方差和标准差,最常用,对正态分布尤重要。

③变异系数,可用于多组资料间单位不同或均数相差较大时,变异度的比较。 注意: 变异指标的大小这与平均指标值的大小无关。

百分位数 . ,传染病潜伏期

可用于医学参考值范围,适用于任何分布

观察序列在某百分位置的

水平,是分布的百分界值

%100?=x s CV

%

83.3%10010.12371.4=?=CV %

14.10%10029.2226

.2=?=CV 身高

体重

平均指标和变异指标相结合,能对各种分布的资料作很好的描述。

第三讲概率分布

一、二项分布及其应用摸球模型

小结:摸球模型

二分类:每次摸球都有两种可能的结果(黄球或白球)

独立:每次摸球都是彼此独立的

重复:每次摸到黄球的概率都是π、摸到白球的概率都是1- π

所以,先后摸n次,摸到x次黄球的概率为:n次摸到x次黄球的概率=C nx (π)x(1- π)100-x

二项分布的概念

若变量X 在n 此独立实验中,具有:

1.各观察单位只能具有相互对立的两种结果之一。

2.已知发生某一结果(阳性)的概率为π,其对立结果的概率为1-π。 3.n 次试验在相同条件下进行,且各个观察单位的观察结果相互独立。 则称变量X 服从二项分布,记作:B (X;n,π) 一般地,若随机变量取值x 的概率为:

P (x )=C nx (π)x (1- π)n -x (x 取值0、1、2、…、n )

则称此随机变量附合二项分布

则 :P (x )=C nx (π)x (1- π)n -x 称为二项分布的概率函数。

小结:一个二分类的情况、独立重复事件n 次,若每次出现某事物的概率为π,则n 次中有x 次出现该事物的概率服从二项分布。

举 例:临床上用针炙治疗某型头痛,有效的概率为60%;现以该法治疗患者3例,其中 0 例、1例、2

例、3例有效的概率各是多大?

解:P(x)=Cnx (π)x(1- π)n-x

二项分布的概率分布示意图

C n x =

x !(n -x )!

(n )!

其中:

二项分布图形的特征:

二项分布图的形态取决于π和n ,高峰在μ= πn 处。

或说:π和n 是二项分布的两个参数,n 决定x 的取值范围,n 和P 决定了x 的概率分布。

当π=0.5,图形是对称的; π离0.5愈远,对称性愈差。 当π≠0.5,随着n 的增大,分布趋于对称。

当n →∞时,只要π不太靠近0或1[特别是n π 和n (1-π) 都 大于5时],二项分布接近于正态分布。

二项分布的均数和标准差

对于二分类情况,进行n 次随机试验,每次试验出现阳性结果的概率为π,出现阳性结果的次数为x ,则X 的总体均数μ 、方差σ2及标准差σ分别为:

总体均数: μ =n π

总体方差: σ2= n π

(1- π ) 总体标准差: σ = √π(1- π ) 二项分布的应用: ㈠ 概率估计:

例:如果某地钩虫感染率是13%,随机观察当地150人,其中10人感染钩虫的概率有多大? 解析:二分类(感染、不感染)

独立(假定互不影响) 重复(π=150),每人感染钩虫机率均为π=0.13 故:感染钩虫的人数x 附合二项分布B(150,0.13) 所以:

P (x =10)=C15010 × 0.1310×0.87140=0.0055

㈡单侧累积概率的计算:

单纯计算二项分布x 恰好取某值的概率没有太大意义

n =30,π=0.3

n =10,π=0.3

n =20,π=0.5

n =5,π=0.3

经常需要计算的是二项分布的累积概率 (1)出现阳性次数至多为k 次的概率为:

(2)出现阳性次数至少为k 次的概率为:

举例:某地钩虫感染率是13%,随机观察当地150人。 (1)其中最多有2人感染的概率有多大? 解:P (x ≤2)= ∑C150x 0.13x (0.97)150-x

= C1500 0.130 × 0.97150 +C1501 0.131 × 0.97149+C1502 0.132 × 0.97148 (2)其中最少有2人感染的概率有多大? 解:P (x ≥2)= ∑C150x 0.13x (0.97)150-x

= 1 -(C1500 0.130 × 0.97150 +C1501 0.131 × 0.97149) (3)其中最少有20人感染的概率有多大? 解:P (x ≥20)= ∑C150x 0.13x (0.97)150-x =1-∑C150x 0.13x (0.97)150-x

练习: 5人服药,该药肠胃反应概率为10%;

求:①k 个人、②不多于2人、③有人有反应的概率。

二、Possion 分布及其应用

Poission 分布的概念:是描述罕见事件发生次数的概率分布。 Poisson 分布可看作是二项分布的特例:

独立重复的次数很大很大

每次出现某事件的概率π很小,或未出现某事件的概率1- π很小。

P (x ≤k )= ∑C n x (π)x (1- π)

n -x

k

P (x ≥k )= ∑C n x (π)x (1- π)

n -x n

)1.01(1.01)0(1)1(,;

40951.000001.0......32805.001(1.0)()1()3(0

055

1551--==-=≥=++=-===≥==∑

∑C X P X P or C k X P X P k k k k 99144.007290.032805.059049.0)

1.01(1.0)()2()2(20

5520=++=-===≤∑

∑=-=k k

k k k C k X P X P k

k k C k X P --==55)1.01(1.0)()1(

(λ =n π为Poission 分布的总体均数,X 为观察单位内某稀有事件的发生次数, λ是Poisson 分布

的总体参数,也是唯一的参数)

举例:某地20年间共出生肢短畸形儿10名,平均每年0.5名,估计该地每年出生此类畸形人数为0、1、2…的

概率P (X )。

解析: e =2.71828, λ=0.5

所以不同x 取值时,概率值如下表示: Poission 的概率分布示意图:

=2.71828-0.5 0.5 0! 0 x =0时, P(0)=e -λ

x

λ X!

=0.607

故:

poisson 分布图形与λ有关。当λ>20时,其分布近似正态分布。λ=n π Poission 分布图形的特征:

二项分布图的形态取决于λ , λ<5时为偏峰, λ愈小分布愈偏,随着λ的增大,分布趋向于对称。

总体均数=总体方差= λ ; 当观察结果具有可加性,即:

若X 1服从总体均数为λ1的Poission 分布, X 2服从总体均数为λ2的Poission 分布, 则T= X1+ X2为服从总体均数为λ1+λ2的Poission 分布。

举例:从同一水源独立取水样5次,进行细胞培养。

第1样水样的菌落数 X1 ~ ∏(λ1) 第2样水样的菌落数 X2 ~ ∏(λ2) …

第5样水样的菌落数 X5 ~ ∏(λ5)

把5份水样混合,则合计菌落数也符合Poission 分布,则: X1+X2 +X3 +X4+ X5 ~ ∏ (λ1+ λ2 +λ3+ λ4+ λ5)

医学研究中常利用其可加性,将小的观察单位合并,来增大发生次数X ,以便用后面讲到的正态近似法作出统计推断。

Poission 分布的应用: ㈠ 概率估计:

举例1:若某地新生儿先生性心脏病的发病概率是8‰ ,那么该地120名新生儿中有4人患先天性心脏病的概

率是多少?

解析:发病、不发病 二项分布

发病概率8‰,概率很小

Poission 分布

n =120,相对较大

λ =n π=120×8‰=0.96

㈡单侧累积概率的计算:

(1)稀有事件发生次数至多为k 次的概率为:

2)稀有事件发生次数至少为k 次的概率为:

0.964 4!

=2.71828-0.96 P(4)=e -λ

x

λ X! =0.014 P (x ≤k )= ∑ k

e -λ x

λ X!

(一)正态分布(normal distribution )的概念: 又称高斯分布,(Gauss distribution):是描述连续型随机变量最重要的分布。 正态分布的密度函数f (x ) ,即正态曲线的函数表达式:

当给定不同的x 值后,就可以根据此方程求得相应的纵坐标高度(频数),并可绘制出正态曲线的图形,记作X ~N (μ,σ2) :

正态分布曲线:高峰位于中间,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的“钟

型”曲线。

决定正态曲线图形的两个参数:μ 和 σ

①当σ固定不变时,μ越大,曲线沿横轴越向右移动;反之, μ越小,则曲线沿横轴越向左移动,所以μ叫正态曲线N (μ, σ2)的位置参数, 。

②当μ固定不变时,σ越大,曲线越平阔;σ越小,曲线越尖峭,σ 叫正态曲线 N (μ, σ2)的

形状参数。

为了应用方便,常将上述函数中的 x 相对于正态变量 x ,u 没有度量单位。根据 u 的不同取值,代入上式可绘出标准正态分布的图形。

正态分布曲线 标准正态分布曲线 X ~N (μ,σ2) X ~N (0,1)

P (x ≥k )= n

e -λ x

λ X! k -1

e -λ x

λ X!

这样就把原来个别的正态分布转换为一般的标准正态分布 N (0,1),亦称为u分布(有书中用 Z 表示) 。 (二)正态分布特征及曲线下面积分布规律:

1. 集中性: 正态曲线在横轴上方,且均数位于曲线的最高处,即当x=μ时, f (x )取最大值。

2. 对称性:正态分布以均数为中心,左右对称,即曲线 f (x )关于x=μ对称。

3. 正态分布有两个参数,通常用 N (μ, σ2) 表示均数为μ,标准差为σ的正态分布;用 N (0,1)表示均数为 0 和标准差为 1 的标准正态分布。 μ反映曲线的位置,σ反映曲线的形状。

4. 正态曲线在±σ,标准正态曲线在±1处各有一个拐点

5. 正态曲线下的面积分布有一定的规律性。

由于正态曲线下累计频数的总和等于 100% 或 1,故横轴上曲线下的面积(概率)就等于 100% 或 1。均数两侧的面积或频数(概率)各占 50%。 正态分布和标准正态分布曲线下的面积分布规律

当总体均数和总体标准差未知时,就用样本均数和样本标准差来代替, u 值可用下式计算:

此时可用

来代替 , ,

。 对于正态分布或近似正态分布资料,只要求出均数和标准差,便可就其频数分布作出概略性的估计 举例:已知 120 名 12 岁男孩身高均数为 143 cm ,标准差为 5.8 cm ,试估计该地 12 岁男孩身高在 135 cm 以

下者有多少人?

答:1. 首先按题意计算 u

2. 查 u 值表

当 u = -1.38 时,左侧尾部面积 0.0838,即身高在 135cm 以下者占总人数的 8.38%。 3.据概率计算人数:身高在 135 cm 以下者有:120×8.38% =10人 练 习:

已知某地正常成年女子的血清总蛋白数服从正态分布,调查了该地110名正常成年女子,得样本血清总蛋白均数为72.8g/L ,标准差为3.8g/L ,试估计该地正常成年女子血清总蛋白介于66.0~75.0 g/L 之间的比例,以及110名正常成年女子中血清总蛋白介于66.0~75.0 g/L 之间的人数。 .

解析:由于本例是大样本,可用样本均数X 和样本标准差 S 作为总体μ、σ 的估计值,即将该地正常成年女

子的血清总蛋白数近似看作服从N (72.8, 3.82)的正态分布。 1. 将变量作如下标准化变换:

2. 查 u 值表得

正态分布 标准正态分布 面积分布规律

σμ± 10± 68.27%

σμ96.1± 96.10± 95.00%

σμ58.2± 58.20± 99.00% σμ±σμ96.1±σμ58.2±79.18.38.720.661-=-=Z 0.58

8

.38.7275.02=-=Z 0367.0)(1=z Φ719

.0281.01)58.0(1)(2=-==--Φz Φ

3. 求所定区间概率:

4. 求所定区间的可能人数:

所以110名正常成年女子中血清总蛋白介于之间的人数约为 110× 68.23% =75人。

(三)、正态分布在医学中的应用

(一) 制定医学参考值范围

参考值范围(reference range):指所谓“正常人”的解剖、生理、生化等指标的波动范围。 制定方法:

①制定参考值范围时,首先要确定一批样本含量足够大的“正常人”。所谓“正常人”不是指“健康人”,而是 指排除了影响所研究指标的疾病和有关因素的同质人群,必须是随机选择的大样本。

②而后根据指标的实际用途确定单侧或双侧界值《根据研究目的和使用要求选定适当的百分界值,常用95%。 .

双侧临界值:标准正态分布双侧尾部面积之和等于α时所对应的正侧变量值,记作Z α/2或U α/2。 单侧临界值:标准正态分布单侧尾部面积等于α时所对应的正侧变量值,记作Z α或U α。 以不同的方法计算参考值范围:

(1)正态分布法:适用于正态或近似正态分布资料

常用参考值范围的制定

举例1:调查某地120名健康女性血红蛋白,直方图显示其分布近似正态,试估计该地健康女性血红蛋白的95%参考值范围。

解析:1. 分布近似正态 正态分布法求参考值范围

2. 过高过低均为异常 设定双侧界值

3. 求上、下界值

所以,该地健康女性血红蛋白的95%参考值范围是(97.41,137.39)g/l 。

举例2: 某地调查120名健康成年男性的第一秒肺通气量得均数 X =4.2(L), 标准差S =0.7(L),试据此估计其

=<<)0.750.66(X P Φ(z 2)- Φ(z 1)

=0.719-0.0367=68.23%

即估计血清总蛋白介于66.0~75.0g/L 的比例为68.23%

下界: 上界

第一秒肺通气量的95%参考值范围。

1. 分布近似正态 正态分布法求参考值范围

2. 仅过低为异常

3. 求下界值 (L )。 (2)百分位法:特别适用于偏态分布资料以及资料中一端或两端无确切数值的资料。 如95%参考值范围:

(二)估计频数分布

举例:定出生体重低于2500g 的婴儿为低体重儿,若由某项研究得某地婴儿出生体重均数为3200g ,标准差为

350g ,估计当年出生低体重儿所占的比例。 1. 分布近似正态, X = 3200g ,S =350g 。 2. 转化为标准正态分布,求u 值

说明标准正态曲线下 (-∞,-2)的面积为2.28%,故本题正态曲线(-∞,2500g )的比例为2.28% ,即X <2500g

的为2.28%,故估计当年出生低体重儿的比例为2.28%。 (三)进行质量控制

基本原理:许多临床检验指标,当影响某一指标的随机因素很多,而每个因素所起的作用均不太大时,这个指标的随机波动属于随机误差,则往往服从正态分布。

控制方法:常以 作为上下警戒值,以 作为上下控制值。这里的2s 和3s 可视为1.96s 和2.58s 的约数。

第四讲:抽样分布及参数估计

一、抽样研究和抽样误差

(一)正态分布样本均数的抽样分布

【实验一】假定某年某地16岁所有女学生的身高服从总体均数μ=155.4cm ,总体标准差s 2=5.3cm 的正态分布

N (μ , s 2),在这样的一个总体中进行随机抽样:

1.每次均抽取30例组成一个样本

2.共抽100次

3.计算每个样本的平均身高

得出了一组数据:153.6,153.1,154.9,…,157.7 n =100

从正态总体 N (155.4, 5.32) 抽样得到的100个样本均数的分布频数表(n =30)

相关主题
文本预览
相关文档 最新文档