当前位置:文档之家› 计量资料的统计描述-

计量资料的统计描述-

医学统计学

计量资料的统计描述

大理学院巫秀美

2012年10月18日

Refresh

◆如何学好《医学统计学》

学习目标:工具课,学以致用。

掌握基本概念

统计方法的适用的条件、基本思想 能够进行计算分析

如何进行科学的判断?

◆直观的看,近几年全球的地震活动似乎越来越活跃。地震的强度和次数仿佛有增加的趋势……◆科学的判断:

→收集数据:每年发生很多次地震

→整理数据:分布,指标……

→分析数据:各年对比,趋势分析……

→解释数据:得出结论,结论的可靠性……

◆统计学:从数据到结论(到决策)

统计研究的过程

收集数据

(取得数据)

整理数据

(处理数据)

解释数据

(结果说明)

分析数据

(研究数据)

实际问题

统计设计

统计学基本概念

◆随机事件(random event) v.s. 必然事件◆变异(variation) v.s. 同质(homogeneity) ◆总体(population) v.s. 样本(sample)

◆抽样研究与抽样误差(sampling error)

◆参数(parameter) v.s.统计量(statistics)

随机事件的概念

◆随机现象:在基本条件相同的情况下,却可能出现不同的结果,究竟出现哪一种结果,随“机遇”而定,带有偶然性。内在的规律性?如何研究它们?

◆研究随机现象:进行观察或实验,这些观察和实验统称为随机试验(Experiment),把基本条件每实现一次称为进行一次试验,试验的结果中所发生的现象叫做事件。例如:掷一次硬币,是一次随机试验。

随机事件的概念

(1)导体通电时,发热(2)抛一石块,下落(3)在常温下,焊锡融化(4)在标准大气压下且温度

< 0摄氏度时,冰融化(5)掷一枚硬币,出现正面(6)某人射击一次,中靶

必然事件不可能事件随机事件

同质与变异

◆同质(homogeneity)事物某方面的性质、影响条件或背景相同或相近。

◆变异(variation)同质个体间的差异。来源于一些未加控制或

无法控制的甚至不明原因的因素。是统计学存在的基础。

◆从本质上说:统计学就是通过对个体变异的研究,揭示同质事物的本质特征与规律。

总体与样本

◆总体---参数(parameter)

根据研究目的确定的研究对象的全体,即性质相同的所有观察对象的集合;分为有限总体和无限总体。

◆样本---统计量(statistics)

总体中的部分;研究对象。

◆总体与样本的关系

统计学解决的问题:正确从样本特征推测总体水平。

◆抽样:从总体中选择样本的过程。

◆样本量(sample size):样本所包含的个体数目。

普查与抽样

◆普查(census):全面调查,根据研究目的确定总体,人口普查,肿瘤普查

大多社会学/卫生防疫的指标确定的依据

注意时效性、变化性

传染病报告制度,地震伤亡等都属于普查

◆普查的缺点:耗时耗力,成本高;无法搜集较为深入、详细的信息;普查错误机率大。

◆抽样研究:从总体中抽取少量的样本,计算样本统计量来帮我们推估总体的性质。

总体与样本

◆参数(parameters):总体的统计学特性的数字表达,包括总体均数、总体方差、总体标准差

◆A parameter is a numerical quantity that describes some characteristics of a population.

◆如μ、σ、总体中位数等皆为参数。

◆大多数时候得不到总体数据=> 参数为未知

总体与样本

◆统计主要问题在于如何透过样本的统计量来推估或检证总体的参数。

◆样本统计量(Sample statistics)是用来描述样本特性的数量。

◆Sample mean x、sample variance S2, and the sample proportion ?p

◆Sample statistics为观察到的样本之函数,样本的统计量随着取样的不同,会有不同的变化。因此,样本统计量本身可以被视为是一随机变量。

描述统计学与推断统计学

◆描述统计学(descriptive statistics):计算各种指标来

反应数据的构成分布,以及用一定的表格和图形把结果显示出来

是统计的基本方法

但是受数据采集的局限(局部样本)

◆推断统计学(inferential statistics):在概率论的基础

上,由随机样本的数量特征来推断总体的数量特征,并作出可靠程度的估计或检验

样本的数量特征的概率分布与总体数量特征之间存在客观联系

是现代统计学的主流

描述统计学与推断统计学

◆描述统计学与推断统计学的关系

二者是统计学发展的不同阶段:大致以20世纪20年代小样本分布理论的出现为界

?之前集中在数据的采集和指标的计算上;

?之后推断统计学蓬勃发展,称为主流。

推断统计学不能代替描述统计学:

?纵有难易之别,绝无(层次)高低之分

?描述统计是基本的统计方法,是推断统计的基础

?描述统计学有助于培养对数据的“感觉”(统计观念)

描述统计与推断统计的关系

反映客观现象的数据

总体内在的数量规律性

推断统计

(利用样本信息和概率论对总体的数量特征进行估计和检验等)

概率论

(包括分布理论、大数定律

和中心极限定理等)

描述统计

(统计数据的搜集、整

理、显示和分析等)

总体数据样本数据

统计指标和指标体系

◆统计指标(指标):说明总体的综合数量特

征的概念和数值。

◆一个完整的统计指标包括指标名称和指标数

值两部分。

指标名称是指标本质的抽象概括,对总体数量特征的规定性,它一般反映一定的社会经济范畴;

有时也被当作统计指标;

指标数值是指标量的规定,它是根据指标的内容所计算出来的具体数值。应该包括总体范围、时间、地点、数值及单位等。

数据(统计指标)的四种计量尺度:

定类尺度

定序尺度

定距尺度

定比尺度

数据的计量尺度

统计指标和指标体系

数据的计量尺度与类型

定类尺度定序尺度定距尺度定比尺度

精确

程度

良好

1980

134公斤

中国国籍:健康状况:出生年份:体重:

(1)定类尺度(Nominal Scale)

◆也称分类尺度

◆例如:性别、民族、职业

◆数据表现为“类别”

◆各类之间无等级次序

◆各类别可以用数字代码表示

◆根据定类尺度得到的数据为

分类数据。

(2)定序尺度(Ordinal Scale)

?也称顺序尺度

?例如健康状况、质量等级

?可对等级、大小等排序

?未测量出类别之间的准确差值

?根据定序尺度得到的数据为顺序数据。

@2017.3.16-统计学-计量资料的统计描述方法

计量资料的统计描述方法 怎样表达一组数据? 描述计量资料的常用指标— A 、描述平均水平(中心位置): 均数X 、中位数和百分位数、几何均数G 、众数(mode ) B 、描述数据的分散程度: 标准差、四分位数间距、 变异系数、方差、全距 (一)均数mean 和标准差standard deviation 1. (算术)均数X 均数是描述一组计量资料平均水平或集中趋势的指标。 *直接计算公式: 应用条件:适用于对称分布,特别是正态分布资料。 2. 中位数(median )M 和百分位数(percentile ) A.中位数M 是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。 应用条件: 12n X X X X X n n +++== ∑L

用于任何分布类型,包括偏态资料、两端数据无界限的资料。 计算: n 为奇数时-- n 为偶数时-- 9人数据:12,13,14, 14, 15, 15, 15, 17, 19天 B.百分位数 是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X 百分位数。中位数是第百分50位数。 四分位数间距(quartile range ) =第25百分位数(P25)~第75百分位数(P75)。 四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包含了全部观察值的一半。 ) (天1552 19===+X X M 88451 22221415214.5() M X X X X ?? ==== ???+如果只调查了前八位中学生,则: +(+)(+)天

百分位数计算(频数表法): X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数 X i :第X 百分位数所在组段组距 n :总例数f x :所在组段频数 注:有的教材X= r ; L f ∑=C 例:求频数表的第25、第75百分位数(四分位数间距) 组段 频数f 累积频数∑f 56~ 2 2 59~ 5 7 62~ 12 19 ∑f 25 L 2565~ 15 34 P 25在此 68~ 25 59 71~ 26 85∑f 75 L 7574~ 19 104 P 75在此 77~ 15 119 80~ 10 129 83~85 1 130 合计 130 ① 确定Px 所在组段: P 25所在的组段:n X %=130×25%=32.5, 65~组最终的累积频数=34,32.5落在65~组段内;

习题-计量资料统计描述

计量资料统计描述----习题 1、中位数是表示变量值()的指标。 A.平均水平 B.变化范围 C.频数分布 D.相互间差别大小 E.变异程度 2、血清学滴度资料最常计算()来表示平均水平。 A.算术均数 B.中位数 C.几何均数 D.全距 E.百分位数 3、最小组段无下限或最大组段无上限的频数分布资料宜用() A.算术均数 B.中位数 C.几何均数 D.全距 E.标准差 4、原始数据同减去一个不等于零的常数后,()。 A. x 不变,S 变 B. x 变,S 不变 C. x 和S 都不变 D. x 和S 都变 E.以上均不对 5、变异系数CV()。 A.表示X 的绝对离散度 B.表示X 的相对离散度 C.表示x的绝对离散度 D.表示x的相对离散度 E.以上均不对 6、描述一组偏态分布资料的变异度,以()指标较好。 A.全距 B.标准差 C.变异系数 D.四分位数间距 E.均数 7、用均数和标准差可以全面描述()资料的特征。 A.正偏态分布 B.负偏态分布 C.正态分布和近似正态分布 D.分布不知 E.对数正态分布 8、比较身高和体重两组数据变异度大小宜采用() A.变异系数 B.标准差 C.四分位数间距 D.全距 E.方差 9、偏态分布宜用()描述其分布的集中趋势 A.算术均数 B.标准差 C.中位数 D.众数 E.百分位数 10、各观察值同乘以一个不等于0 的常数后,()不变。 A.算术均数 B.标准差 C.中位数 D.四分位数间距 E.变异系数 11、()分布的资料,均数等于中位数。 A.对称 B.左偏态 C.右偏态 D.偏态 E.以上均不对 12、随机抽查某地成年女子身高,算得均数x =160cm,标准差S=5cm,则可计算变异系数CV=------- 5 160 C.(160/5)cm D.(5/160)cm ×160 13、变异系数CV 的数值()。 A.一定大于1 B.一定小于1 C.可大于1,也可小于1 D.一定比标准差小 E.不能判定 14、列数8、-3、5、0、4、-1 的中位数是()。 、关于标准差,哪项是错误的()。 A.反映全部观察值的离散程度 B.度量了一组数据偏离平均数的大小 C.反映了均数代表性的好坏 D.不会小于算术均数 E.适用于对称分布资料 16、5 人的血清滴度为<1:20、1:40、1:80、1:160、1:320 描述平均滴度,用哪种指标较好()。 A.平均数 B.几何均数 C.算术均数 D.中位数 E.众数

医学统计学第3版,02计量资料的统计描述试题

第二章 计量资料的统计描述 一、教学大纲要求 (一)掌握内容 1. 频数分布表与频数分布图 (1)频数表的编制。 (2)频数分布的类型。 (3)频数分布表的用途。 2. 描述数据分布集中趋势的指标 掌握其意义、用途及计算方法。算术均数、几何均数、中位数。 3. 描述数据分布离散程度的指标 掌握其意义、用途及计算方法。极差、四分位数间距、方差、标准差、变异系数。 (二)熟悉内容 连续型变量的频数分布图:等距分组、不等距分组。 二、 教学内容精要 计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。 (一)频数分布表的编制 频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下: 1.求数据的极差(range )。 min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。 确定组段和组距。每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ

计量资料汇总统计描述

第二章 计量资料的统计描述 一、教学大纲要求 (一)掌握容 1. 频数分布表与频数分布图 (1)频数表的编制。 (2)频数分布的类型。 (3)频数分布表的用途。 2. 描述数据分布集中趋势的指标 掌握其意义、用途及计算方法。算术均数、几何均数、中位数。 3. 描述数据分布离散程度的指标 掌握其意义、用途及计算方法。极差、四分位数间距、方差、标准差、变异系数。 (二)熟悉容 连续型变量的频数分布图:等距分组、不等距分组。 二、 教学容精要 计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。 (一)频数分布表的编制 频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日死亡0,1,2,…20个病人的天数。如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下: 1.求数据的极差(range )。 min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。 确定组段和组距。每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ

统计学计量的统计描述方法

计量资料的统计描述方法 怎样表达一组数据? 描述计量资料的常用指标— A、描述平均水平(中心位置): 均数X、中位数和百分位数、几何均数G、众数(mode) B、描述数据的分散程度: 标准差、四分位数间距、变异系数、方差、全距 (一)均数mean和标准差standard deviation 1. (算术)均数X 均数是描述一组计量资料平均水平或集中趋势的指标。 *直接计算公式: 应用条件:适用于对称分布,特别是正态分布资料。 2. 中位数(median)M和百分位数(percentile) A.中位数M 是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。 应用条件: 用于任何分布类型,包括偏态资料、两端数据无界限的资料。 计算: n为奇数时-- n为偶数时-- 9人数据:12,13,14, 14, 15, 15, 15, 17, 19天 B.百分位数 是将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数

值即为第X 百分位数。中位数是第百分50位数。 四分位数间距(quartile range ) = 第25百分位数(P25)~第75百分位数(P75)。 四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包含了全部观察值的一半。 百分位数计算(频数表法): X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数 X i :第X 百分位数所在组段组距 n :总例数 f x :所在组段频数 注:有的教材X= r ; L f =C 例:求频数表的第25、第75百分位数(四分位数间距) 组段 频数f 累积频数∑f 56~ 2 2 59~ 5 7 62~ 12 19 ∑f 25 L 25 65~ 15 34 P 25在此 68~ 25 59 71~ 26 85 ∑f 75 L 75 74~ 19 104 P 75在此 77~ 15 119 80~ 10 129 83~85 1 130 合 计 130 ① 确定Px 所在组段: P 25所在的组段:n X %=130×25%=32.5, 65~组最终的累积频数=34,32.5落在65~组段内; P 75所在的组段:n X %=130×75%=97.5, 此值落在74~组段 ② 确定Px 所在组段的X L 、X i 、f x 、L Σf ③ P 25=65+3x[(130x25%-19)/15]=65.90 P 75=74+3x[(130x75%-85)/19]=74.66

计量资料汇总统计描述

第二章计量资料的统计描述 一、教学大纲要求 (一)掌握内容 1. 频数分布表与频数分布图 (1)频数表的编制。 (2)频数分布的类型。 (3)频数分布表的用途。 2. 描述数据分布集中趋势的指标 掌握其意义、用途及计算方法。算术均数、几何均数、中位数。 3. 描述数据分布离散程度的指标 掌握其意义、用途及计算方法。极差、四分位数间距、方差、标准差、变异系数。 (二)熟悉内容 连续型变量的频数分布图:等距分组、不等距分组。 二、教学内容精要 计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。 (一)频数分布表的编制 频数表(frequency table)用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下: 1.求数据的极差(range)。

min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。 确定组段和组距。每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ

第一单元-计量资料的统计描述Word版

第一单元计量资料的统计描述 【习题】 分析计算题 1.1 某医院神经科用火焰原子吸收光谱法测定了102名男性脑卒中患者头发中微量元素锌(Zn)的含量(μg/g),资料如下: 4087105113121127133142152168215 5488105113121127134143153173220 6192106113122127135143153176 7494107114124128136143155177 7794107116124128137145156180 8095109117124128138147156182 8196109119125130138147163183 8297111119125130138149163186 83102112120126131140151166188 85105112120126132141151168195 (1) 编制频数表并绘制直方图,简述频数分布类型和频数分布特征。 (2) 计算适当的集中趋势指标和离散程度指标。 1.2 某医院神经科用火焰原子吸收光谱法测定了102名男性脑卒中患者头发中微量元素铜(Cu)的含量(μg/g),资料如表1,求男性脑卒中患者头发中微量元素铜的平均含量。 表1 102名男性脑卒中患者头发中微量元素铜(Cu)的含量/(μg·g-1)频数表 头发中铜的对数值频数f 0.350 0~ 1 0.450 0~ 2 0.550 0~ 4 0.650 0~ 3 0.750 0~18 0.850 0~36

0.950 0~22 1.050 0~ 6 1.150 0~ 3 1.250 0~ 3 1.350 0~1.450 0 4 合计102 1.3 某年某地一次伤寒暴发潜伏期的分布情况如表2,计算该年伤寒暴发的平均潜伏期。 表2 某年某地一次伤寒暴发潜伏期频数表 潜伏期/d发病人数f 3~3 5~24 7~20 9~17 11~14 13~7 15~6 17~2 19~1 21~232 合计96 1.4 测得566名成年男子的心率及血压情况如表3,试比较这些指标的离散程度。 表3 566名成年男子的心率及血压 指标X S 心率/(次·min-1)77.3012.83 收缩压/kPa17.17 1.74

实验一计量资料频数表的整理与统计描述

实验一计量资料频数表的整理与统计描述 一、测得12人的血红蛋白含量(g/L)121,118,130,120,122,118,116,124, 127,129,125,132。请计算其均数,几何均数,中位数,标准差,极差,变异系数。 二、某地101例30~49岁健康男子血清总胆固醇值(mmol/L)测定结果如下: 4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.71 5.69 4.12 4.56 4.37 5.39 6.30 5.21 7.22 5.54 3.93 5.21 6.51 5.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.89 6.25 5.32 4.50 4.63 3.61 4.44 4.43 4.25 4.03 5.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.16 5.10 5.86 4.79 5.34 4.24 4.32 4.77 6.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.60 4.09 5.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.18 6.14 3.24 4.90 3.05 1、编制频数分布表并绘制直方图,简述其分布特征。 2、选择适当的集中趋势指标、离散趋势指标并计算。 三、某市1974年为了解该地居民发汞(μmol/kg)的基础水平,为汞污染的环境监测积累资料,调查了留住该市一年以上,无明显肝、肾疾病,无汞接触史地238 2、计算均数X、几何均数G和中位数M,何者较大?为什么?何者用于说明本 资料的集中位置较适合? 3、选用何种指标描述其离散程度较好?请计算。 四、 和半对数线图,并说明两种图形的不同意义。 五、思考题及名词解释 1、描述计量资料集中趋势的指标有哪些?它们有何异同? 2、描述计量资料离散趋势的指标有哪些?它们有何异同? 3、说明频数分布表的用途。 4、变异系数的用途是什么?

.3.16-统计学-计量资料的统计描述方法

计量资料的统计描述方法 怎样表达一组数据 描述计量资料的常用指标 一 A 、 描述平均水平(中心位置): 均数X 、中位数和百分位数、几何均数 G 、众数(mode ) B 、 描述数据的分散程度: 标准差、四分位数间距、变异系数、方差、全距 (一)均数 mea n 和标准差 1.(算术)均数X 均数是描述一组计量资料平均水平 或集中趋势的指标。 直接计算公式: 应用条件:适用于对称分布,特别是正态分布资料 2.中位数(median ) M 和百分位数(percentile ) A.中位数M 是将一组观察值从小到大排序后,居于中间位置的那个值或两个 中间值的平均值。 应用条件: 用于任何分布类型,包括偏态资料、两端数据无界限的资料。 计算: sta ndard deviati on X ! X 2 L X n

n 为奇数时-- M x (= n 为偶数时-- M X 9 1 X 5 15(天) 2 如果只调查了前八位中学生,贝y : M X 8+ X 8 2 (X 4+ X )2 (14+15)/2 14.5(天) ?+ 1 * 2 2 B.百分位数 是将N 个观察值从小到大依次排列,再分成 100等份,对应于 X%位的数值即为第X 百分位数。中位数是第百分50位数。 四分位数间距 (quartile range / =第25百分位数(P25)?第75百分位数(P75)。 四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包 含了全部观察值的一半。 1 — X 门 X 门 2 (2) (2 1) 9 人数据:12, 13, 14, 14, 15, 15, 15, 17, 19 天

文本预览
相关文档 最新文档