当前位置：文档之家› .3.16-统计学-计量资料的统计描述方法

.3.16-统计学-计量资料的统计描述方法

计量资料的统计描述方法

怎样表达一组数据

描述计量资料的常用指标一

A 、描述平均水平（中心位置）：

均数X 、中位数和百分位数、几何均数 G 、众数（mode ）

B 、描述数据的分散程度：

标准差、四分位数间距、变异系数、方差、全距

（一）均数 mea n 和标准差

1.（算术）均数X

均数是描述一组计量资料平均水平或集中趋势的指标。

直接计算公式:

应用条件：适用于对称分布，特别是正态分布资料

2.中位数（median ） M 和百分位数（percentile ）

A.中位数M

是将一组观察值从小到大排序后，居于中间位置的那个值或两个中间值的平均值。应用条件：

用于任何分布类型，包括偏态资料、两端数据无界限的资料。计算:

sta ndard deviati on

X ! X 2 L

X n

n 为奇数时--

x （=

n 为偶数时--

M X 9 1

X 5

15（天）

如果只调查了前八位中学生，贝y ： M

X 8+ X 8

2 （X 4+ X ）2 （14+15）/2 14.5（天） ?+ 1 *

2 2

B.百分位数

是将N 个观察值从小到大依次排列，再分成

100等份，对应于

X%位的数值即为第X 百分位数。中位数是第百分50位数。

四分位数间距（quartile range /

=第25百分位数（P25）?第75百分位数（P75）。

四分位数间距用于描述偏态资料的分散程度（代替标准差S ），包含了全部观察值的一半。

1 — X 门

X 门

（2）

（2 1）

9 人数据：12, 13, 14, 14,

15, 15, 15, 17,

19 天

百分位数计算（频数表法）:

P X L x -7^ （ nx % f L ）

f X

L x :第X百分位数所在组段下限 E f L:小于L x各组段的累计频数

i x：第x百分位数所在组段组距n:总例数f x：所在组段频数

注：有的教材x= r ; f L=C 例：求频数表的第25、第75百分位数（四分位数间距）

组段频数f累积频数刀f

56?22

59?57

62?1219 刀f25

L25 65 ?1534 P25在此

68?2559

71?2685 刀f75

L75 74 ?19104 P75在此

77?15119

80?10129

83 ?851130

合计130

①确定Px所在组段：

P25 所在的组段：n x %=130X 25%=,

65?组最终的累积频数=34,落在65?组段内；

P75所在的组段：n x %=130X 75%=,此值落在74?组段

②确定Px所在组段的L x、i x、f x、E f L

③P25= 65+3X[（130X25%- 19）/15]=

P75 = 74+3x[(130x75%- 85)/19]=

四分位数间距二?（次/分）

3?几何均数G (geometric mean )

应用：

适用于成等比数列的资料，特别是服从对数正态分布资料。原始数据分布不对称，经对数转换后呈对称分布的资料。可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。例

如抗体滴度。

计算：N 个数值的乘积开 N 次方，即为这N 个数的几何均数。

G n X i X z L X n

lg X lgG — (IgX i lg X 2 L IgX n )

1 IgX

G lg 1 ----------

lg 表示以10为底的对数；

lg 1表示以10为底的反对数 X 0为正值

有8份血清的抗体效价分别为 1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求平均抗体效价。使用分母计算！

G 8'5 10 20 40 80 160 320 640

56.57

G lg 1

[(lg5 lg10 lg20 L lg640)/8] 56.57

加权法:

众数

组段的组中值。适用于大样本但较粗糙。

例：有16 例病人的发病年龄为42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62，试求众数。

正态分布时：均数=中位数=众数正（右）偏态分布时：均数> 中位数>众数负（左）偏态分布时：均数< 中位数<众数

3.标准差S

S描述数据的分散程度?描述一组数据在其平均数周围的分布情况，若每个数据集中在其平均数周围，此平均数对这组数据的代表照就大；反之，代表性较差。

标准差S

甲

组

7580859095100105n 1=7X 1=90

=乙

组45607590105120135n 2=7X 2=90S2

数据越分散，分子越大。或者

标准差的5应用：

描述变异程度、计算标准误、计算变异系数、

描述正态分布、估计正常值范围

S用于正态分布资料

怎样使用均数和标准差

—2

x x 2 n 1

论文中常用X 士S描述对称、正态或近似正态分布数据的特征。

描述偏态资料的分散程度需用四分位数间距P25?P75(代替标准差S)

方差：

方差=S2

全距R :

R=最大值-!小值。简单，但仅利用了两端点值，稳定性差变异系数(coefficient of variation , CV):

计算：CV= (S/X) 100%,无单位

应用： 1.单位不同的多组数据比较；

2?均数相差悬殊的多组资料

什么是正态分布

(二)正态分布(Normal distribution)

正态分布是描述连续型变量值分布的曲线.当例数比较多时，医学上许多资料近似服从正态分布。正态分布在统计推断上有重要的作

Cl> ⑵

频数分布与正态分布曲线示意图，

正态分布曲线理论上的特征

(1)以X= □均数为中心，X值呈钟型分布，中央高、两端对称性减少、与X轴永不相交。

(2 )在X=卩处，f (x)取最大值(例数最多)。

(3)正态分布由均数卩、标准差。决定曲线的左右位置和高低形

状：

正态分布有两个参数，即位置参数--均数和形态参数--标准差。若固定标准差，改变均数值，曲线沿着X轴平行移动，其形状不变。

若固定，越小，曲线形状越陡峭；反之，越大，曲线越平

坦。

正态分布均数(位置参数)、标准差(变异度)变化示意图

正态曲线面积分布规律：

①X轴与正态曲线所夹面积恒等于1或100%;

②区间的面积为%；

③区间 1.96的面积为%；

④区间 2.58的面积为％。

变量值分布范围（％）尾部面积

单侧U值双侧U值80

尾部面积为a的u值，记为u a,称为u界值：

尾部面积各为％时（黑色处），其对应的U值为U二士;

正态分布U值表（标准正态分布概率单位值）

u=（,）区间的面积为（空白处）

正态分布的应用

1?估计正态分布X值在特定值范围内的分布比例（概率）

2.制定某临床指标的参考值范围

3?利用估计变量值的范围或对极端值做取舍。

4.许多统计方法的统计推断建立在正态分布基础上。

怎样确定资料是否属正态分布

1?做正态性检验；

2.粗略估计：正态一般S 1X；S X者必为偏态！

正态分布可用于求参考值范围！

（三）医学参考值范围的制定

概念医学参考值是指包括绝大多数“正常人”的各种生理及生化指标常数，也称正常值（背景值）。

正常值是指在一定范围内波动的值，医学上常用95%的范围作为判定正常或异常的参考标准。

制定参考值的基本原则

1.选定正常人：

即排除了影响研究指标的有关因素的同质人群。

有足够的样本例数（一般不低于100例）

2.确定参考值范围的百分界限（常用95%）

3.考虑制定单侧或双侧诊断界值：

新药肯定比旧药好（旧药肯定比新药差）单侧

新药可能好，也可能差--------------------- -双侧

双侧标准较高，结论较可靠（常用）

4.依分布(正态或偏态)确定计算方法：

(1)正态分布法

X ± U?S,其中

双侧95%参考值范围公式：X ±

单侧95%参考值范围公式：X +

例：已知111人的血铅X =卩g/100ml, S=卩g/100ml

因为血铅可以低而不可以高，故用单侧95%参考值范围

X +=+x =(卩 g/100ml);

血铅95%参考值范围W 卩g/100ml

注意：如果资料非正态分布而使用正态分布法，会得出错误结论！！

(2)百分位数法

适用于偏态分布资料

计算公式：

双侧界值：?

单侧用上界：P95

单侧用下界：P5