计量资料的统计描述方法
怎样表达一组数据
描述计量资料的常用指标 一
A 、 描述平均水平(中心位置):
均数X 、中位数和百分位数、几何均数 G 、众数(mode )
B 、 描述数据的分散程度:
标准差、四分位数间距、变异系数、方差、全距
(一)均数 mea n 和标准差
1.(算术)均数X
均数是描述一组计量资料平均水平 或集中趋势的指标。
直接计算公式:
应用条件:适用于对称分布,特别是正态分布资料
2.中位数(median ) M 和百分位数(percentile )
A.中位数M
是将一组观察值从小到大排序后,居于中间位置的那个值或两个 中间值的平均值。 应用条件:
用于任何分布类型,包括偏态资料、两端数据无界限的资料。 计算:
sta ndard deviati on
X ! X 2 L
X n
n 为奇数时--
M
x (=
n 为偶数时--
M X 9 1
X 5
15(天)
2
如果只调查了前八位中学生,贝y : M
X 8+ X 8
2 (X 4+ X )2 (14+15)/2 14.5(天) ?+ 1 *
2 2
B.百分位数
是将N 个观察值从小到大依次排列,再分成
100等份,对应于
X%位的数值即为第X 百分位数。中位数是第百分50位数。
四分位数间距 (quartile range /
=第25百分位数(P25)?第75百分位数(P75)。
四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包 含了全部观察值的一半。
1 — X 门
X 门
2
(2)
(2 1)
9 人数据:12, 13, 14, 14,
15, 15, 15, 17,
19 天
百分位数计算(频数表法):
P X L x -7^ ( nx % f L )
f X
L x :第X百分位数所在组段下限 E f L:小于L x各组段的累计频数
i x:第x百分位数所在组段组距n:总例数f x:所在组段频数
注:有的教材x= r ; f L=C 例:求频数表的第25、第75百分位数(四分位数间距)
组段频数f累积频数刀f
56?22
59?57
62?1219 刀f25
L25 65 ?1534 P25在此
68?2559
71?2685 刀f75
L75 74 ?19104 P75在此
77?15119
80?10129
83 ?851130
合计130
①确定Px所在组段:
P25 所在的组段:n x %=130X 25%=,
65?组最终的累积频数=34,落在65?组段内;
P75所在的组段:n x %=130X 75%=,此值落在74?组段
②确定Px所在组段的L x、i x、f x、E f L
③P25= 65+3X[(130X25%- 19)/15]=
P75 = 74+3x[(130x75%- 85)/19]=
四分位数间距二?(次/分)
3?几何均数G (geometric mean )
应用:
适用于成等比数列的资料,特别是服从对数正态分布资料。 原始数据分布不对称,经对数转换后呈对称分布的资料。 可用于反映一组经对数转换后呈对称分布或正态分布的变量值 在数量上的平均水平。 例
如抗体滴度。
计算:N 个数值的乘积开 N 次方,即为这N 个数的几何均数。
G n X i X z L X n
1
lg X lgG — (IgX i lg X 2 L IgX n )
n
n
1 IgX
G lg 1 ----------
n
lg 表示以10为底的对数;
lg 1表示以10为底的反对数 X 0为正值
有8份血清的抗体效价分别为 1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求平均抗体效价。 使用分母计算!
G 8'5 10 20 40 80 160 320 640
56.57
G lg 1
[(lg5 lg10 lg20 L lg640)/8] 56.57
加权法:
众数
组段的组中值。适用于大样本但较粗糙。
例:有16 例病人的发病年龄为42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数。
正态分布时:均数=中位数=众数正(右)偏态分布时:均数> 中位数>众数负(左)偏态分布时:均数< 中位数<众数
3.标准差S
S描述数据的分散程度?描述一组数据在其平均数周围的分布情况,若每个数据集中在其平均数周围,此平均数对这组数据的代表照就大;反之,代表性较差。
标准差S
甲
组
7580859095100105n 1=7X 1=90
S1
=乙
组45607590105120135n 2=7X 2=90S2
=
数据越分散,分子越大。或者
标准差的5应用:
描述变异程度、计算标准误、计算变异系数、
描述正态分布、估计正常值范围
S用于正态分布资料
怎样使用均数和标准差
S
—2
x x 2 n 1
论文中常用X 士S描述对称、正态或近似正态分布数据的特征。
描述偏态资料的分散程度需用四分位数间距P25?P75(代替标准差S)
方差:
方差=S2
全距R :
R=最大值-!小值。简单,但仅利用了两端点值,稳定性差变异系数(coefficient of variation , CV):
计算:CV= (S/X) 100%,无单位
应用: 1.单位不同的多组数据比较;
2?均数相差悬殊的多组资料
什么是正态分布
(二)正态分布(Normal distribution)
正态分布是描述连续型变量值分布的曲线.当例数比较多时,医学上许多资料近似服从正态分布。正态分布在统计推断上有重要的作
Cl> ⑵
频数分布与正态分布曲线示意图,
正态分布曲线理论上的特征
(1)以X= □均数为中心,X值呈钟型分布,中央高、两端对称性减少、与X轴永不相交。
(2 )在X=卩处,f (x)取最大值(例数最多)。
(3)正态分布由均数卩、标准差。决定曲线的左右位置和高低形
状:
正态分布有两个参数,即位置参数--均数和形态参数--标准差。若固定标准差,改变均数值,曲线沿着X轴平行移动,其形状不变。
若固定,越小,曲线形状越陡峭;反之,越大,曲线越平
坦。
正态分布均数(位置参数)、标准差(变异度)变化示意图
正态曲线面积分布规律:
①X轴与正态曲线所夹面积恒等于1或100%;
②区间的面积为%;
③区间 1.96的面积为%;
④区间 2.58的面积为%。
变量值分布范围(%)尾部面积
a
单侧U值双侧U值80
90
95
99
尾部面积为a的u值,记为u a,称为u界值:
尾部面积各为%时(黑色处),其对应的U值为U二士;
正态分布U值表(标准正态分布概率单位值)
u=(,)区间的面积为(空白处)
正态分布的应用
1?估计正态分布X值在特定值范围内的分布比例(概率)
2.制定某临床指标的参考值范围
3?利用估计变量值的范围或对极端值做取舍。
4.许多统计方法的统计推断建立在正态分布基础上。
怎样确定资料是否属正态分布
1?做正态性检验;
2.粗略估计:正态一般S 1X;S X者必为偏态!
正态分布可用于求参考值范围!
(三)医学参考值范围的制定
概念医学参考值是指包括绝大多数“正常人”的各种生理及生化指标常数,也称正常值(背景值)。
正常值是指在一定范围内波动的值,医学上常用95%的范围作为判定正常或异常的参考标准。
制定参考值的基本原则
1.选定正常人:
即排除了影响研究指标的有关因素的同质人群。
有足够的样本例数(一般不低于100例)
2.确定参考值范围的百分界限(常用95%)
3.考虑制定单侧或双侧诊断界值:
新药肯定比旧药好(旧药肯定比新药差)单侧
新药可能好,也可能差--------------------- -双侧
双侧标准较高,结论较可靠(常用)
4.依分布(正态或偏态)确定计算方法:
(1)正态分布法
X ± U?S,其中
双侧95%参考值范围公式:X ±
单侧95%参考值范围公式:X +
例:已知111人的血铅X =卩g/100ml, S=卩g/100ml
因为血铅可以低而不可以高,故用单侧95%参考值范围
X +=+x =(卩 g/100ml);
血铅95%参考值范围W 卩g/100ml
注意:如果资料非正态分布而使用正态分布法,会得出错误结论!!
(2)百分位数法
适用于偏态分布资料
计算公式:
双侧界值:?
单侧用上界:P95
单侧用下界:P5