当前位置:文档之家› 统计学-计量资料的统计描述方法

统计学-计量资料的统计描述方法

统计学-计量资料的统计描述方法
统计学-计量资料的统计描述方法

计量资料得统计描述方法

怎样表达一组数据?

描述计量资料得常用指标—

A 、描述平均水平(中心位置):

均数X 、中位数与百分位数、几何均数G 、众数(mode) B 、描述数据得分散程度:

标准差、四分位数间距、 变异系数、方差、全距

(一)均数mean 与标准差standard deviation

1、 (算术)均数X

均数就是描述一组计量资料平均水平或集中趋势得指标。 *直接计算公式:

12n

X X X X X n

n

+++=

=

应用条件:适用于对称分布,特别就是正态分布资料。

2、 中位数(median )M 与百分位数(percentile)

A 、中位数M

就是将一组观察值从小到大排序后,居于中间位置得那个值或两个中间值得平均值。 应用条件:

用于任何分布类型,包括偏态资料、两端数据无界限得资料。 计算:

n 为奇数时--

1

(

)2

n M X

+=

n 为偶数时--

(

)(1)2212n n M X X +?

?=+ ?

??

9人数据:12,13,14, 14, 15, 15, 15, 17, 19天

B 、百分位数 就是将N 个观察值从小到大依次排列,再分成100等份,对应于

X%位得数值即为第X 百分位数。中位数就是第百分50位数。

四分位数间距(quartile range)

= 第25百分位数(P25)~第75百分位数(P75)。

四分位数间距用于描述偏态资料得分散程度(代替标准差S),包含了全部观察值得一半。

百分位数计算(频数表法):

(%)

X

X X

L X

i P L nX f f =+-∑

X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段得累计频数

X i :第X 百分位数所在组段组距

n :总例数 f x :所在组段频数

注:有得教材X= r ;

L f ∑=C

)

(天1552

19===+X X M 88451

22221415214.5()

M X X X X ??

==== ???+如果只调查了前八位中学生,则:

+(+)(+)天

例:求频数表得第25、第75百分位数(四分位数间距)

组段 频数f 累积频数∑f 56~ 2 2 59~ 5 7

62~ 12 19 ∑f 25 L 25 65~

15 34 P 25在此

68~ 25 59

71~ 26 85 ∑f 75 L 75 74~

19 104 P 75在此

77~ 15 119 80~ 10 129 83~85

1 130

合 计

130

① 确定Px 所在组段:

P 25所在得组段:n X %=130×25%=32、5,

65~组最终得累积频数=34,32、5落在65~组段内;

P 75所在得组段:n X %=130×75%=97、5, 此值落在74~组段 ② 确定Px 所在组段得X L 、X i 、f x 、L Σf ③ P 25=65+3x[(130x25%-19)/15]=65、90

P 75=74+3x[(130x75%-85)/19]=74、66

四分位数间距=65、90~74、66 (次/分)

3、几何均数G (geometric mean)

应用:

适用于成等比数列得资料,特别就是服从对数正态分布资料。 原始数据分布不对称,经对数转换后呈对称分布得资料。 可用于反映一组经对数转换后呈对称分布或正态分布得变量值在数量上得平均水平。例如 抗体滴度。

计算:N 个数值得乘积开N 次方, 即为这N 个数得几何均数。

121

lg 1

lg (lg lg lg )lg lg

n

G X G X X X n

n

X

G n

-==++

+=

=∑∑

有8份血清得抗体效价分别为1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求平均抗体效价。使用分母计算! 平均抗体效价为

: 1:57 加权法:

=众数

正(右)偏态分布时:均数 > 中位数 >众数 负(左)偏态分布时:均数 < 中位数 <众数

3、 标准差S

S 描述数据得分散程度、描述一组数据在其平均数周围得分布情况,若每个数据集中在其平均数周围,此平均数对这组数据得代表照就大;反之,代表性较差。

标准差S

甲组 75 80 85 90 95 100 105 n 1=7 X 1=90 s 1=10、8 乙组

45

60

75

90

105 120 135 n 2=7

X 2=90

s

2=32、4

()数据越分散 1

2

-∑-=

n X X S ,分子越大。 或者

S =

标准差得5应用:

描述变异程度、计算标准误、计算变异系数、

为正值

,为底的反对数

表示以为底的对数;表示以010lg 10lg 1

>-X 57.566403201608040201058=???????=G 1lg [(lg5lg10lg20lg640)/8]56.57

G -=++++=

描述正态分布、估计正常值范围

S用于正态分布资料

怎样使用均数与标准差?

论文中常用X±S描述对称、正态或近似正态分布数据得特征。

描述偏态资料得分散程度需用四分位数间距P25~P75(代替标准差S)。方差:

方差=S2

全距R :

R= 最大值–最小值。简单,但仅利用了两端点值,稳定性差。变异系数(coefficient of variation,CV):

计算:CV=(S/X) 100%, 无单位

应用:1、单位不同得多组数据比较;

2、均数相差悬殊得多组资料

什么就是正态分布?

(二)正态分布(Normal distribution)

正态分布就是描述连续型变量值分布得曲线、当例数比较多时,医学上许多资料近似服从正态分布。正态分布在统计推断上有重要得作用。

正态分布曲线理论上得特征

(1)以X= μ均数为中心, X值呈钟型分布,中央高、两端对称性减少、与X轴永不相交。

(2 )在 X= μ处,f(x)取最大值(例数最多)。

(3 )正态分布由均数μ、标准差σ决定曲线得左右位置与高低形状:

正态分布有两个参数,即位置参数--均数μ与形态参数--标准差σ。

若固定标准差σ,改变均数μ值,曲线沿着X轴平行移动,其形状不变。

若固定μ,σ越小,曲线形状越陡峭;反之,σ越大,曲线越平坦。

正态分布均数(位置参数)、标准差(变异度)变化示意图

正态曲线面积分布规律:

①X轴与正态曲线所夹面积恒等于1或100%;

②区间μσ

±得面积为68、27%;

③区间 1.96

μσ

±得面积为95、00%;

④区间 2.58

μσ

±得面积为99、00%。

正态分布u值表(标准正态分布概率单位值)

变量值

分布范围(%) 尾部面积

α

单侧u值双侧u值

80 0、20 0、84 1、28

90 0、10 1、28 1、64

95 0、05 1、64 1、96

99 0、01 2、33 2、58

尾部面积为α得u值,记为uα,称为u界值:

尾部面积各为2、5%时(黑色处),其对应得u值为u=±1、96; u=(-2、58,2、58)区间得面积为0、99(空白处)

正态分布得应用:

1、估计正态分布X值在特定值范围内得分布比例(概率)。

2、制定某临床指标得参考值范围

3、利用估计变量值得范围或对极端值做取舍。

4、许多统计方法得统计推断建立在正态分布基础上。

怎样确定资料就是否属正态分布?

1、做正态性检验;

2、粗略估计: 正态一般X S 3

1<; X S >者必为偏态!

正态分布可用于求参考值范围!

(三)医学参考值范围得制定

概念 医学参考值就是指包括绝大多数“正常人”得各种生理及生化指标常数,也称正常值(背景值)。

正常值就是指在一定范围内波动得值,医学上常用95%得范围作为判定正常或异常得参考标准。

制定参考值得基本原则

1. 选定正常人:

即排除了影响研究指标得有关因素得同质人群。 有足够得样本例数(一般不低于100例)

2、 确定参考值范围得百分界限(常用95%)

3、 考虑制定单侧或双侧诊断界值:

新药肯定比旧药好(旧药肯定比新药差)——单侧 新药可能好,也可能差------------------------------双侧 双侧标准较高,结论较可靠(常用)

4、 依分布(正态或偏态) 确定计算方法: (1)正态分布法

X ±μ ?S ,其中

双侧95%参考值范围公式:X ±1、96S 单侧95%参考值范围公式: X +1、64S

例11、3: 已知111人得血铅X =0、010 μg/100ml, S=0、012 μg/100ml

因为血铅可以低而不可以高,故用单侧95%参考值范围X+1、64S=0、010+1、64×0、012=0、030(μg/100ml);

血铅95%参考值范围≤0、030 μg/100ml

注意:如果资料非正态分布而使用正态分布法,会得出错误结论!!

(2)百分位数法

适用于偏态分布资料

计算公式:

双侧界值:P2、5~ P97、5

单侧用上界: P95

单侧用下界: P5

习题-计量资料统计描述

计量资料统计描述----习题 1、中位数是表示变量值()的指标。 A.平均水平 B.变化范围 C.频数分布 D.相互间差别大小 E.变异程度 2、血清学滴度资料最常计算()来表示平均水平。 A.算术均数 B.中位数 C.几何均数 D.全距 E.百分位数 3、最小组段无下限或最大组段无上限的频数分布资料宜用() A.算术均数 B.中位数 C.几何均数 D.全距 E.标准差 4、原始数据同减去一个不等于零的常数后,()。 A. x 不变,S 变 B. x 变,S 不变 C. x 和S 都不变 D. x 和S 都变 E.以上均不对 5、变异系数CV()。 A.表示X 的绝对离散度 B.表示X 的相对离散度 C.表示x的绝对离散度 D.表示x的相对离散度 E.以上均不对 6、描述一组偏态分布资料的变异度,以()指标较好。 A.全距 B.标准差 C.变异系数 D.四分位数间距 E.均数 7、用均数和标准差可以全面描述()资料的特征。 A.正偏态分布 B.负偏态分布 C.正态分布和近似正态分布 D.分布不知 E.对数正态分布 8、比较身高和体重两组数据变异度大小宜采用() A.变异系数 B.标准差 C.四分位数间距 D.全距 E.方差 9、偏态分布宜用()描述其分布的集中趋势 A.算术均数 B.标准差 C.中位数 D.众数 E.百分位数 10、各观察值同乘以一个不等于0 的常数后,()不变。 A.算术均数 B.标准差 C.中位数 D.四分位数间距 E.变异系数 11、()分布的资料,均数等于中位数。 A.对称 B.左偏态 C.右偏态 D.偏态 E.以上均不对 12、随机抽查某地成年女子身高,算得均数x =160cm,标准差S=5cm,则可计算变异系数CV=------- 5 160 C.(160/5)cm D.(5/160)cm ×160 13、变异系数CV 的数值()。 A.一定大于1 B.一定小于1 C.可大于1,也可小于1 D.一定比标准差小 E.不能判定 14、列数8、-3、5、0、4、-1 的中位数是()。 、关于标准差,哪项是错误的()。 A.反映全部观察值的离散程度 B.度量了一组数据偏离平均数的大小 C.反映了均数代表性的好坏 D.不会小于算术均数 E.适用于对称分布资料 16、5 人的血清滴度为<1:20、1:40、1:80、1:160、1:320 描述平均滴度,用哪种指标较好()。 A.平均数 B.几何均数 C.算术均数 D.中位数 E.众数

@2017.3.16-统计学-计量资料的统计描述方法

计量资料的统计描述方法 怎样表达一组数据? 描述计量资料的常用指标— A 、描述平均水平(中心位置): 均数X 、中位数和百分位数、几何均数G 、众数(mode ) B 、描述数据的分散程度: 标准差、四分位数间距、 变异系数、方差、全距 (一)均数mean 和标准差standard deviation 1. (算术)均数X 均数是描述一组计量资料平均水平或集中趋势的指标。 *直接计算公式: 应用条件:适用于对称分布,特别是正态分布资料。 2. 中位数(median )M 和百分位数(percentile ) A.中位数M 是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。 应用条件: 12n X X X X X n n +++== ∑L

用于任何分布类型,包括偏态资料、两端数据无界限的资料。 计算: n 为奇数时-- n 为偶数时-- 9人数据:12,13,14, 14, 15, 15, 15, 17, 19天 B.百分位数 是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X 百分位数。中位数是第百分50位数。 四分位数间距(quartile range ) =第25百分位数(P25)~第75百分位数(P75)。 四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包含了全部观察值的一半。 ) (天1552 19===+X X M 88451 22221415214.5() M X X X X ?? ==== ???+如果只调查了前八位中学生,则: +(+)(+)天

百分位数计算(频数表法): X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数 X i :第X 百分位数所在组段组距 n :总例数f x :所在组段频数 注:有的教材X= r ; L f ∑=C 例:求频数表的第25、第75百分位数(四分位数间距) 组段 频数f 累积频数∑f 56~ 2 2 59~ 5 7 62~ 12 19 ∑f 25 L 2565~ 15 34 P 25在此 68~ 25 59 71~ 26 85∑f 75 L 7574~ 19 104 P 75在此 77~ 15 119 80~ 10 129 83~85 1 130 合计 130 ① 确定Px 所在组段: P 25所在的组段:n X %=130×25%=32.5, 65~组最终的累积频数=34,32.5落在65~组段内;

计量资料描述

计量资料的统计描述 描述性统计分析是进行统计分析的第一步,做好这一步是正确进行统计推断的先决条件。 计量资料常用的统计描述指标和方法主要有: 1、集中趋势指标(Central Tendency):包括均数、几何均数、中位数等。其中均数适用于正态分布和对称分布资料;几何均数适用于对数正态分布和呈等比的数据资料;中位数适合于所有分布类型的资料,但在实际中,中位数主要应用于偏态分布资料、分布不明资料和开口资料。 2、离散趋势指标(Dispersion):包括全距、四分位数间距、方差、标准差、变异系数、标准误等。方差、标准差用于正态分布资料,四分位数间距用于偏态分布资料,变异系数用于度量单位不同和均数相差悬殊的资料,标准误用于反映样本均数的离散程度,说明均数抽样误差大小。 SPSS的许多模块均可完成描述性统计分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程: Frequencies过程:产生频数表;按要求给出某百分位数。对计量资料、计数资料和等级资料的描述都适用 Descriptives过程:进行一般性的统计描述,用于服从正态分布的资 料,计算产生均数、标准差等; Explore过程:用于对数据概况不清时的探索性分析;

Crosstabs过程:完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。 本次实习练习前3个过程:Frequencies过程,Descriptives过程,Explore过程。Crosstabs过程在X2检验实习讲述。 Frequencies过程 案例: 某地101例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直方图,计算均数、标准差、变异系数CV、中位数M、p2.5和p97.5。 4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.71 5.69 4.12 4.56 4.37 5.39 6.30 5.21 7.22 5.54 3.93 5.21 4.12 5.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.89 6.25 5.32 4.50 4.63 3.61 4.44 4.43 4.25 4.03 5.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.16 5.10 5.86 4.79 5.34 4.24 4.32 4.77 6.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.60 4.09 5.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.18 6.14 3.24 4.90 3.05 一、建立数据文件 1、定义变量:在数据窗口,点击,定义一个变量,变量名(Name)“x”,类型(Type)“数值()8,小数位数(Decimals)2,变量标签(Label):“血清总胆固醇”。 (2)输入数据:

计量资料汇总统计描述

第二章 计量资料的统计描述 一、教学大纲要求 (一)掌握容 1. 频数分布表与频数分布图 (1)频数表的编制。 (2)频数分布的类型。 (3)频数分布表的用途。 2. 描述数据分布集中趋势的指标 掌握其意义、用途及计算方法。算术均数、几何均数、中位数。 3. 描述数据分布离散程度的指标 掌握其意义、用途及计算方法。极差、四分位数间距、方差、标准差、变异系数。 (二)熟悉容 连续型变量的频数分布图:等距分组、不等距分组。 二、 教学容精要 计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。 (一)频数分布表的编制 频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日死亡0,1,2,…20个病人的天数。如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下: 1.求数据的极差(range )。 min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。 确定组段和组距。每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ

统计学方积乾 第七版 第二章 定量资料的统计描述课后练习题答案

第2章 定量资料的统计描述 案例2-1(P27) 答:该资料为一正常人群发汞值的检测结果,已整理成频率分布表(P27)。统计描述时应首先考察资料的分布规律,通过频率(频数)分布表(表2-9 P27)和直方图(图2-3 P14)可以看出,此238人发汞值的频数分布呈正偏态分布,即观察值绝大多数集中在发汞值较小的组段。 对偏态分布,选用算术均数和标准差进行统计描述是不恰当的。应选用中位数描述该市居民发汞平均水平,选用四分位间距描述居民发汞值变异度,计算如下: 25507523.5(23825%20) 4.7(mol/kg) 6625.5(23850%86) 6.6(mol/kg) 602 7.5(23875%146)8.9(mol/kg) 48(%) x x L x i P L n x f f P u P u P u =+?==+?==+?==+?S

离散程度指标: 四分位间距=P75-P25=8.9-4.7=4.2umol/kg。 故该市居民发汞平均水平为6.6 umol/kg,离散度为4.2umol/kg,

思考与练习(P31) 1. 答: (1) 某年某地120例6-7岁正常男童胸围测量结果(cm)的频数分布 Group Frequency Percent Cumulative Percent 49.0- 1 .8 .8 50.0- 4 3.3 4.2 51.0- 8 6.7 10.8 52.0- 6 5.0 15.8 53.0- 19 15.8 31.7 54.0- 18 15.0 46.7 55.0- 14 11.7 58.3 56.0- 26 21.7 80.0 57.0- 10 8.3 88.3 58.0- 9 7.5 95.8 59.0- 4 3.3 99.2 61.0-62.0 1 .8 100.0 Total 120 100.0

统计学计量的统计描述方法

计量资料的统计描述方法 怎样表达一组数据? 描述计量资料的常用指标— A、描述平均水平(中心位置): 均数X、中位数和百分位数、几何均数G、众数(mode) B、描述数据的分散程度: 标准差、四分位数间距、变异系数、方差、全距 (一)均数mean和标准差standard deviation 1. (算术)均数X 均数是描述一组计量资料平均水平或集中趋势的指标。 *直接计算公式: 应用条件:适用于对称分布,特别是正态分布资料。 2. 中位数(median)M和百分位数(percentile) A.中位数M 是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。 应用条件: 用于任何分布类型,包括偏态资料、两端数据无界限的资料。 计算: n为奇数时-- n为偶数时-- 9人数据:12,13,14, 14, 15, 15, 15, 17, 19天 B.百分位数 是将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数

值即为第X 百分位数。中位数是第百分50位数。 四分位数间距(quartile range ) = 第25百分位数(P25)~第75百分位数(P75)。 四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包含了全部观察值的一半。 百分位数计算(频数表法): X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数 X i :第X 百分位数所在组段组距 n :总例数 f x :所在组段频数 注:有的教材X= r ; L f =C 例:求频数表的第25、第75百分位数(四分位数间距) 组段 频数f 累积频数∑f 56~ 2 2 59~ 5 7 62~ 12 19 ∑f 25 L 25 65~ 15 34 P 25在此 68~ 25 59 71~ 26 85 ∑f 75 L 75 74~ 19 104 P 75在此 77~ 15 119 80~ 10 129 83~85 1 130 合 计 130 ① 确定Px 所在组段: P 25所在的组段:n X %=130×25%=32.5, 65~组最终的累积频数=34,32.5落在65~组段内; P 75所在的组段:n X %=130×75%=97.5, 此值落在74~组段 ② 确定Px 所在组段的X L 、X i 、f x 、L Σf ③ P 25=65+3x[(130x25%-19)/15]=65.90 P 75=74+3x[(130x75%-85)/19]=74.66

(完整版)统计学方积乾第七版第二章定量资料的统计描述课后练习题答案课件

第2章定量资料的统计描述 案例2-1(P27) 答:该资料为一正常人群发汞值的检测结果,已整理成频率分布表(P27) 。统计描述时应首先考察资料的分布规律,通过频率( 频数) 分布表( 表2-9 P27) 和直方图( 图2-3 P14) 可以看出,此238人发汞值的频数分布呈正偏态分布,即观察值绝大多数集中在发汞值较小的组段。 对偏态分布,选用算术均数和标准差进行统计描述是不恰当的。应选用中位数描述该市居民发汞平均水平,选用四分位间距描述居民发汞值变异度,计算如下: i P = L + ( n? x% S f) x x L f x 2 P = 3.5 +(238? 25% 20) = 4.7(u mol/ kg) 25 66 2 P = 5.5 +(238? 50% 86) = 6.6(u m ol/ kg) 50 60

2 P = 7.5 +(238? 75% 146) = 8.9(u m ol/ kg) 75 48

离散程度指标: 四分位间距=P75-P25=8.9-4.7=4.2umol/kg。 故该市居民发汞平均水平为 6.6 umol/kg,离散度为4.2umol/kg,

思考与练习(P31) 1. 答: (1) N Range Min Max Mean 胸围120 12.7 49.1 61.8 55.120 某年某地120 例6-7 岁正常男童胸围测量结果(cm) 的频数分布 Group Frequency Percent Cumulative Percent 49.0- 1 .8 .8 50.0- 4 3.3 4.2 51.0- 8 6.7 10.8 52.0- 6 5.0 15.8 53.0- 19 15.8 31.7 54.0- 18 15.0 46.7 55.0- 14 11.7 58.3 56.0- 26 21.7 80.0 57.0- 10 8.3 88.3 58.0- 9 7.5 95.8 59.0- 4 3.3 99.2 61.0-62.0 1 .8 100.0 Total 120 100.0

计量资料汇总统计描述

第二章计量资料的统计描述 一、教学大纲要求 (一)掌握内容 1. 频数分布表与频数分布图 (1)频数表的编制。 (2)频数分布的类型。 (3)频数分布表的用途。 2. 描述数据分布集中趋势的指标 掌握其意义、用途及计算方法。算术均数、几何均数、中位数。 3. 描述数据分布离散程度的指标 掌握其意义、用途及计算方法。极差、四分位数间距、方差、标准差、变异系数。 (二)熟悉内容 连续型变量的频数分布图:等距分组、不等距分组。 二、教学内容精要 计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。 (一)频数分布表的编制 频数表(frequency table)用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下: 1.求数据的极差(range)。

min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。 确定组段和组距。每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ

计量资料的统计描述

第二章 计量资料的统计描述 一、教学大纲要求 (一)掌握内容 1. 频数分布表与频数分布图 (1)频数表的编制。 (2)频数分布的类型。 (3)频数分布表的用途。 2. 描述数据分布集中趋势的指标 掌握其意义、用途及计算方法。算术均数、几何均数、中位数。 3. 描述数据分布离散程度的指标 掌握其意义、用途及计算方法。极差、四分位数间距、方差、标准差、变异系数。 (二)熟悉内容 连续型变量的频数分布图:等距分组、不等距分组。 二、 教学内容精要 计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。 (一)频数分布表的编制 频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下: 1.求数据的极差(range )。 min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。 确定组段和组距。每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ

第一单元-计量资料的统计描述Word版

第一单元计量资料的统计描述 【习题】 分析计算题 1.1 某医院神经科用火焰原子吸收光谱法测定了102名男性脑卒中患者头发中微量元素锌(Zn)的含量(μg/g),资料如下: 4087105113121127133142152168215 5488105113121127134143153173220 6192106113122127135143153176 7494107114124128136143155177 7794107116124128137145156180 8095109117124128138147156182 8196109119125130138147163183 8297111119125130138149163186 83102112120126131140151166188 85105112120126132141151168195 (1) 编制频数表并绘制直方图,简述频数分布类型和频数分布特征。 (2) 计算适当的集中趋势指标和离散程度指标。 1.2 某医院神经科用火焰原子吸收光谱法测定了102名男性脑卒中患者头发中微量元素铜(Cu)的含量(μg/g),资料如表1,求男性脑卒中患者头发中微量元素铜的平均含量。 表1 102名男性脑卒中患者头发中微量元素铜(Cu)的含量/(μg·g-1)频数表 头发中铜的对数值频数f 0.350 0~ 1 0.450 0~ 2 0.550 0~ 4 0.650 0~ 3 0.750 0~18 0.850 0~36

0.950 0~22 1.050 0~ 6 1.150 0~ 3 1.250 0~ 3 1.350 0~1.450 0 4 合计102 1.3 某年某地一次伤寒暴发潜伏期的分布情况如表2,计算该年伤寒暴发的平均潜伏期。 表2 某年某地一次伤寒暴发潜伏期频数表 潜伏期/d发病人数f 3~3 5~24 7~20 9~17 11~14 13~7 15~6 17~2 19~1 21~232 合计96 1.4 测得566名成年男子的心率及血压情况如表3,试比较这些指标的离散程度。 表3 566名成年男子的心率及血压 指标X S 心率/(次·min-1)77.3012.83 收缩压/kPa17.17 1.74

实验一计量资料频数表的整理与统计描述

实验一计量资料频数表的整理与统计描述 一、测得12人的血红蛋白含量(g/L)121,118,130,120,122,118,116,124, 127,129,125,132。请计算其均数,几何均数,中位数,标准差,极差,变异系数。 二、某地101例30~49岁健康男子血清总胆固醇值(mmol/L)测定结果如下: 4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.71 5.69 4.12 4.56 4.37 5.39 6.30 5.21 7.22 5.54 3.93 5.21 6.51 5.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.89 6.25 5.32 4.50 4.63 3.61 4.44 4.43 4.25 4.03 5.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.16 5.10 5.86 4.79 5.34 4.24 4.32 4.77 6.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.60 4.09 5.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.18 6.14 3.24 4.90 3.05 1、编制频数分布表并绘制直方图,简述其分布特征。 2、选择适当的集中趋势指标、离散趋势指标并计算。 三、某市1974年为了解该地居民发汞(μmol/kg)的基础水平,为汞污染的环境监测积累资料,调查了留住该市一年以上,无明显肝、肾疾病,无汞接触史地238 2、计算均数X、几何均数G和中位数M,何者较大?为什么?何者用于说明本 资料的集中位置较适合? 3、选用何种指标描述其离散程度较好?请计算。 四、 和半对数线图,并说明两种图形的不同意义。 五、思考题及名词解释 1、描述计量资料集中趋势的指标有哪些?它们有何异同? 2、描述计量资料离散趋势的指标有哪些?它们有何异同? 3、说明频数分布表的用途。 4、变异系数的用途是什么?

计量资料的统计描述

第二节 计量资料的统计描述 数值变量的统计描述主要是分成两步:一是正态分布性检验,二是统计描述指标的计算。根据资料是否正态,选择的指标不一样,如资料呈正态性分布则选用算术均数和标准差,如资料呈非正态分布则用中位数和四分位间距进行描述。统计指标计算的具体命令有三个:Frequencies:可以产生详细的频数表,还可以按要求给出某百分位点的数值;Descriptive:适用于正态分布资料;Explore:功能最强大,直接给出四分位间距和可信区间。 一、原始资料的统计描述 例16.2 某地某年测量了100名正常成年男子血清总胆固醇(mol/L)含量,数据见表16.4,请进行统计描述。 表16.4 某地某年100名成年男子血清总胆固醇(mol/L)含量 3.37 4.79 5.10 4.77 5.32 4.50 5.10 4.70 4.44 5.16 4.37 6.25 5.55 4.56 3.35 4.08 4.63 3.61 4.97 4.17 5.77 5.09 4.38 5.18 4.79 5.15 4.79 5.30 4.77 4.40 4.89 5.86 3.40 3.38 4.55 5.15 4.24 4.32 5.85 3.24 5.85 3.04 3.89 6.16 4.58 5.72 4.87 5.17 4.61 4.12 4.43 4.31 6.14 4.88 2.70 4.60 6.55 4.76 4.48 6.51 5.18 3.91 5.39 4.52 4.47 3.64 4.09 5.96 6.14 4.69 6.36 4.60 5.09 4.47 3.56 4.23 4.34 5.18 5.69 4.25 6.30 3.95 4.03 5.38 5.21 7.22 4.31 4.71 5.21 3.97 5.12 4.55 4.90 3.05 5.20 4.74 5.54 3.93 3.50 6.38 1.建立数据文件 取变量CHO,定义为数值型,宽度为8,2位小数。录入数据,如图16.2所示。 图16.2 数据文件 2.正态性分布检验 操作如下: (1)Analyze==>Nonparametic test==>1-sample K-S,弹出窗口,如图16.3。 (2)Test variable list框:选入变量(CHO); (3)Test distribution复选框组:选中normal复选框单击OK钮,结果输出表16.5。 表16.5“Kolmogorov-Smirnov Z”是正态分布的统计量为0.791,P=0.560,可以认为该资料呈正态分布。

文本预览