当前位置:文档之家› 定性资料的统计描述

定性资料的统计描述

定性资料的统计描述
定性资料的统计描述

第五章 定性资料的统计描述

在医学研究与实践中,大量资料都是按照事物的特征或属性进行分类的,这类资料称为定性资料,也称分类资料或计数资料。如性别、HIV 感染情况、病情轻重等都属于分类资料。对于这类资料,其绝对数往往不便于进行相互比较。例如甲医院某年因某病死亡105人,同年乙医院因该病死亡185人。但不能据此认为乙医院该病的死亡情况比甲医院严重,因为两医院因该病住院的人数不一定相等,此时需要采用相对数指标进行统计描述。

第一节 常用相对数及其应用

相对数是两个有关联的数值之比,常用的相对数指标有率、构成比和相对比三种。

一、率

率是指某现象实际发生数与某时间点或某时间段可能发生该现象的观察单位总数之比,用以说明该现象发生的频率或强度。根据计算公式中分母的观察单位总数是否引入时间因素,率包括频率和速率两类指标。

频率(frequency)计算中,分母没有引入时间因素,无时间量纲,分子是分母的一部分,其取值在0~1之间,如常见的发病率、患病率、病死率、治愈率等指标,都属于频率型指标,其实质是比例,在流行病学中也常称为累积发生率。其计算公式可表达为:

K =

?同时期实际发生某现象的观察单位数

频率某时期可能发生某现象的观察单位总数

(5.1)

式中,K 为比例基数,可以是100%、1000‰、100000/10万等。比例基数的选择主要根据习惯用法或使计算结果保留1~2位整数,以便阅读。

例5.1 为研究吸烟与肺癌的关系,某医生收集了2003~2005年286例住院肺癌患者的吸烟史,吸烟的肺癌患者有166例,而同时期同年龄段的1855名非肺癌患者中,吸烟的有407例。试计算该资料中肺癌患者与非肺癌患者的吸烟率。

由式(5.1),肺癌患者的吸烟率=166/286100%=58.04%?,非肺癌患者吸烟率=407/1855100%=21.94%?,肺癌患者的吸烟率比非肺癌患者的吸烟率高36.1%。

速率(rate)是带有时间因素的频率,根据数理统计的定义是指随时间变化而

改变的速度,此处取其某现象在单位时间内的发生频率之意。如肿瘤患者的5年生存率;根据追踪随访资料计算的死亡率;年(月、季)发病率等指标,都包含有时间因素,在流行病学中也称为发生密度。速率具有量纲,取值范围是[+∞,0),其计算公式可表达为:

K =

?观察时段内某现象的发生数

速率可能发生某现象的观察人时数

(5.2)

式中的比例基数K 与式(5.1)相同。

例5.2 在一项随访研究中,对125人追踪随访了2年,结果有2人发生了死亡,则由式(5.2)可得,

2

100%=0.8%1252

??年死亡率=

二、构成比

构成比(proportion)即比例,是指事物内部某一组成部分观察单位数与同一事物各组成部分的观察单位总数之比,用以说明事物内部各组成部分所占的比重,常用百分数表示。计算公式为:

%100?=

观察单位总数

同一事物各组成部分的位数

某一组成部分的观察单构成比 (5.3)

例5.3 某医院2003年各科室收治住院患者的构成情况如表5.1所示。外科患者的构成比为1133/2826×100% = 40.09%,在各科室中所占比重最大;其次是内科患者,其构成比为850/2826×100% = 30.08%;接下来依次是妇科和儿科,分别占了15.04%和14.79%,各科室合计构成比为100%。

表5.1 某医院2003年各科室收治住院患者的构成情况 科 别 病例数 构成比(%) 内 科 850 30.08 外 科 1133 40.09 妇 科 425 15.04 儿 科 418 14.79 合 计

2826

100.00

构成比具有以下特点:① 分子是分母的一部分,各组成部分构成比数值在0~1之间波动,各组成部分的构成比数值之和等于1或100%。② 事物内部各组

成部分之间呈此消彼长,当其中某一组成部分构成比数值增大,其他组成部分构成比数值必然会减少。例如在一定数量的人口性别构成中,若男性比例增加,则女性比例减少。

三、相对比

相对比简称比(ratio),是两个有关联的指标之比值,用以说明一个指标是另一个指标的几倍或几分之几。如前面讲到的变异系数、流行病学中常用的相对危险度、人口学研究中常用到的性别比等都属于相对比。相对比的分子和分母可以是绝对数、相对数或平均数,计算公式为:

%)100(?=

或乙指标

甲指标

相对比 (5.4)

根据其分子与分母的关系,相对比也可取分为:① 关系指标:指两个有关的非同类事物的指标,如医护人员与病床数之比,住院日数与床位数之比等。②对比指标:指同类事物的两个指标之比,以达到比较的目的。如2000年我国出生性别比为116.9,说明2000年我国男性出生人数比女性高,男、女性别比有所失衡。又如同时期不同人群的某病发病率之比,以说明该时期不同人群的发病情况。

例5.4 为了解新生儿的锌的营养状况,分别测量某医院足月儿以及早产儿的脐血血清锌含量,结果显示足月儿及早产儿的脐血血清锌含量的均数分别为1.85 mg/L 和1.41 mg/L ,则该医院足月儿与早产儿的脐血血清锌含量之比为1.85/1.41=1.31,即该医院足月儿脐血血清锌含量是早产儿的1.31倍。

在流行病学研究中,常用的相对危险度(RR )和比值比(OR )都属于相对比指标。

相对危险度(relative risk, RR ) 是指暴露于某种危险因素的观察对象的发病危险度与低暴露或非暴露的观察对象的发病危险度之间的比值。相对危险度常用于流行病学队列研究中,用来度量暴露的危险性大小。其计算可用暴露与低暴露(或非暴露)于危险因素的累积发病率或发病密度()p 估计:

12p RR p =

暴露组发病率()

相对危险度()低暴露(或非暴露)组发病率()

(5.5) 例5.5 某锡矿为了解一线作业对工人健康的影响,对1000名新参加工作的工人进行了20年的追踪随访,结果发现从事一线作业的680名工人有5人发生

了肺癌,而从事非一线作业的320名工人仅1人发生了肺癌。试估计该锡矿一线作业对肺癌的相对危险度。

一线作业工人肺癌的发病率1=5/680 =73.53/p 万;非一线作业工人肺癌的发病率2=1/320=31.25/p 万。

1273.53/ 2.3531.25/p RR p === 一线作业工人发病率()万

相对危险度()非一线作业工人发病率()万

可见,该锡矿一线作业工人发生肺癌的危险是非一线作业工人的2.35倍。

比值比(odds ratio, OR ),又称优势比,是指病例组有无暴露于某危险因素的比值与对照组有无暴露于同一危险因素的比值之比,常用于流行病学病例对照研究中,以度量暴露的危险性。计算公式:

//a c ad

OR b d bc

=

==病例组暴露的比值比值比()对照组暴露的比值 (5.6)

式中,a 为病例组中暴露的人数;b 为对照组中暴露的人数;c 为病例组中未暴露的人数;d 为对照组中未暴露的人数。

例5.6 某中学发生一起因饮水引起的甲型肝炎(甲肝)爆发,经调查发现,该校部分学生有生饮自来水的习惯,34名甲肝患者中有22人生饮自来水;而1449名健康学生中,生饮自来水的有255人,结果见表5.2。试估计该中学甲肝发病与生饮自来水的比值比。

表5.2 甲肝与生饮自来水的病例对照研究结果

暴露或特征 病例组 对照组 合计 生饮自来水 22(a ) 255(b ) 277(a+b ) 未生饮自来水

12(c ) 1194(d ) 1206(c+d ) 合计

34(a+c )

1449(b+d )

1483(N )

22/12

8.58255/1194

ad OR bc =

===病例组暴露的比值比值比()对照组暴露的比值

由此可见,甲肝患者生饮自来水与未生饮自来水的比值是健康学生的8.58倍。

第二节 应用相对数的注意事项

一、计算相对数应有足够的观察单位数

计算相对数时,应注意观察的单位数不能太小。必须要有足够的观察单位数作为分母,计算的率才是稳定的。例如临床试验中用某种疗法治疗2例患者,1例有效,则认为有效率是50%;如果2例都有效,则有效率是100%,可见相差1例其有效率波动非常大。因此,观察单位数少时,建议采用绝对数表示结果,如果必须要用相对数表示,应同时列出率的置信区间。但通常认为,在设计周密、质量控制严格的动物实验中,观察数量相对较少时所得的相对数指标也较为稳定。

二、分析时不能以构成比代替率

构成比说明事物内部各组成部分所占的比重,不能说明某现象发生的频率或强度大小。在实际应用中,错误地将构成比当成率来应用,常导致一些不合理的推论。例如在对某月交通事故的数据进行分析后发现,在发生交通事故的车辆中,高速行驶的占31%,中速行驶的占56%,低速行驶的占13%。据此认为,中速行驶的车辆最容易发生交通事故,这明显与常识不符。产生此错误的原因是将发生交通事故的车辆的不同速度构成当成不同速度行驶车辆的事故发生率,由于实际生活中以中速行驶的车辆较多,所以中速行驶车辆的事故发生数构成比较大。车辆事故发生率应该是事故发生数与行驶的车辆数之比。

在医学研究中这种情况也常出现,常见的错误是采用门诊患者或住院患者的资料来分析疾病与年龄、性别、职业等的关系,这种资料所计算的相对数指标通常是构成比,不能当作率来分析。例如,某医师根据门诊资料分析慢性支气管炎与年龄的关系,如表5.3所示:

表5.3 门诊慢性支气管炎患者的年龄构成

年龄组(岁) 患者人数患者构成比(%) 0~ 48 19.4

20~ 74 29.8

40~ 87 35.1

60~ 39 15.7

合计248 100.0 表中“患者构成比”一栏,仅说明各年龄组患者所占的比重,只能计算构成比指标,不能反映各年龄组的患病水平,不能由40~59岁组构成比最高而得出该

年龄组最容易患慢性支气管炎的结论。因为各年龄组的人口数、就诊机会等因素都会影响门诊患者的年龄构成,若要分析慢性支气管炎患病率与年龄的关系,只能通过对一般人群的调查才能了解各年龄组患病率的情况。

在构成比指标中,某一组成部分构成比的增减会影响到其他组成部分构成比的变化。某地2000年和2005年慢性疾病的发病情况如表5.4所示:

表5.4 某地2000年和2005年慢性疾病的发病情况

疾 病 2000年

2005年

病例数 构成比(%) 病例数 构成比(%) 呼吸系统疾病 1685 30.24 2577 28.88 循环系统疾病 1433 25.71 2671 29.93 恶性肿瘤 915 16.42 1711 19.18 其他 1540 27.63 1964 22.01 合 计

5573

100.00

8923

100.00

2005年与2000年相比,呼吸系统疾病的构成比明显下降,而循环系统疾病、恶性肿瘤的构成比均有所上升。如果据此作出呼吸系统疾病发病下降,循环系统疾病、恶性肿瘤发病上升的结论,就犯了以构成比的动态分析代替率的动态分析的错误。因为2005年与2000年相比,各类型慢性疾病发病的人数都在增加,若要反映各类型慢性疾病发病强度的变化,应对2000年和2005年各类型慢性疾病的发病率进行比较。

三、应分别将分子和分母合计求合计率

对分组资料计算合计率时,不能简单地把各组率取平均数,而应分别将分子和分母合计,再求出合计率。例如,某医院消化内科上半年收治250例胃溃疡患者,治愈200例,治愈率为80.0%;下半年收治280例胃溃疡患者,治愈238例,治愈率为85.0%。则该消化内科全年对胃溃疡的治愈率应该是

200238

100%82.6%250280

+?=+

而不是(80%+85%)/2=82.5%。

四、相对数的比较应注意其可比性

影响相对数高低的因素较多,在比较相对数时,除了欲对比的因素之外,其余的影响因素应尽可能相同或相近。例如比较各组患者的年龄、性别、病情轻重

等构成是否相同,若构成不同,则应考虑进行分层(分年龄、性别、病情轻重)比较,或者对合计率进行标准化后再作比较。例如,两种疗法治疗某病的病死率如表5.5所示:

表5.5 两种疗法治疗某病的病死率

病型

新疗法一般疗法

治疗人数死亡人数病死率(%) 治疗人数死亡人数病死率(%) 普通型75 15 20.0 25 5 20.0

重型合计

35 14 40.0 65 26 40.0 110 29 26.4 90 31 34.4

如果只比较合计病死率,似乎新疗法优于一般疗法,但当分别考察普通型病例和重型病例时,两种疗法的病死率是相同的。其原因在于:两种疗法治疗对象的病型构成不同,新疗法组普通型病例多而重型病例少,一般疗法组却是普通型病例少而重型病例多。因此要正确比较两种疗法的病死率,可按病情轻重分层分析,或通过计算标准化病死率进行比较。

五、样本率或样本构成比的比较应作假设检验

由于样本率或样本构成比存在抽样误差,如果通过样本推断总体率或总体构成比有无差异,不能凭样本率或样本构成的差别作结论,而须进行差别的假设检验。

第三节动态数列及其应用

动态数列(dynamic series)是一系列按照时间顺序排列的统计指标(包括绝对数、相对数或平均数),用以反映事物或现象在时间上的变化和发展趋势。常用的动态数列分析指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。

例5.7 表5.6是某地区1999~2002年住院患者数的统计数据,试计算动态数列的分析指标。

表5.6 某地区1999~2002年住院患者数发展动态

年份符号患者数

累计逐年定基比环比定基比环比(1) (2) (3) (4) (5) (6) (7) (8) (9)

1999 a 0 26694 — — — — — — 2000 a 1 50175 23481 23481 1.88 1.88 0.88 0.88 2001 a 2 50600 23906 425 1.90 1.01 0.90 0.01 2002

a 3

54713

28019

4113

2.05

1.08

1.05

0.08

一、绝对增长量

绝对增长量是指事物现象在一定时期增长的绝对值,可分为两种: (一) 累计增长量

累计增长量(cumulative quantity of increase) 是指报告期的指标值与某一固定期(基期)指标值的差值,其计算公式为:

=-累计增长量报告期指标值某固定期指标值 (5.7)

本例中,该地区2002年患者数的累计增长量=5471326694=28019-人,见表5.6第(4)栏。

(二) 逐年增长量

指报告期的指标值与相邻的前期指标值之差,其计算公式为:

=-逐年增长量报告期指标值相邻前期指标值 (5.8)

本例中,该地区2002年较2001年患者数的逐年增长量=5471350600=4113-人,见表5.6第(5)栏。

二、发展速度与增长速度

发展速度(speed of development)与增长速度(speed of increase)都是相对比指标,用以说明事物现象在一定时期的速度变化。

发展速度说明报告期指标值水平与某一固定期指标值相比或与相邻的前期指标值相比,是其多少倍。根据其比较对象的不同,分为定基比发展速度和环比发展速度。

定基比发展速度:指报告期的指标值与某一固定期(基期)指标值之比,可表达为10/a a ,20/a a ,…,0/n a a 。0a 为某一固定期(基期)指标值,n a 为报告期指标值。 本例中,该地区2000年住院患者数的定基比发展速度=50175/26694=1.88,2001年住院患者数的定基比发展速度=50600/26694=1.90,…,以此类推,见表5.6第(6)栏。

环比发展速度:指报告期指标值与相邻前期指标值之比,可表达为

10/a a ,21/a a ,…,1/n n a a -。本例中,该地区2000年住院患者数的环比发展速度

=50175/26694=1.88,2001年住院患者数的环比发展速度=50600/50175=1.01,…,以此类推,见表5.6第(7)栏。

增长速度是发展速度的净增长量,增长速度=发展速度-1,以说明报告期指标值与某一固定期指标值相比或与相邻的前期指标值相比,增长了多少倍。本例中,该地2001年住院患者数的定基比增长速度=1.901=0.90-,见表5.6第(8)栏;同年住院患者数的环比增长速度=1.011=0.01-,见表5.6第(9)栏。

二、平均发展速度与平均增长速度

平均发展速度(average speed of development)是指一定时期内各环比发展速度的平均值,用以说明事物现象在一定时期内逐年的平均发展程度,常用几何平均数来计算平均发展速度。计算公式为:

平均发展速度 (5.9)

式中,0a 为某一固定期(基期)指标值,n a 为报告期指标值。

平均增长速度(average speed of increase )是说明某事物在一定时期内逐年的平均增长程度。计算公式为:

平均增长速度=平均发展速度-1 (5.10)

根据表5.6的资料,该地区1999年有住院患者26694人,到2002年增加到54713人,相当于1999年的2.05倍,3年间共增加患者28019人,增加了1.05

倍。1999~2002 1.27=倍,平均增长速度

=1.271=0.27-倍,住院患者数总体呈增长趋势。从环比增长速度看,2000年增长较快,增长了0.88倍,但2000年后增长速度明显放缓。

动态数列不仅可以分析过去一段时间的变化规律,也可根据其过去的变化规律预测未来发生情况,计算未来几年后指标所达到的水平。如根据表5.6资料,可预测到2004年该地区住院患者数规模,相当于按式(5.9)计算5a :

1.27=55 1.272669488193a =?=

即根据某地区1999~2002年住院患者数的平均发展速度,预计到2004年该地区的住院患者数将达到88193人。

第四节 率的标准化

一、标准化法的意义

在本章第二节中曾提到,当所比较的各组观察对象内部构成不同时,应考虑

进行分层比较,或者对合计率进行标准化后再作比较。

以表5.5资料为例,要比较新疗法和一般疗法的病死率,如果仅比较合计率,一般疗法的合计病死率是34.4%,而新疗法的合计病死率是26.4%,显然一般疗法比新疗法的病死率高。但当我们分别考察普通型病例和重型病例两组人群时,两种疗法的病死率均相同,普通型病例的病死率都是20%,而重型病例的病死率都是40%。那么,为什么一般疗法的合计病死率就比新疗法高呢?其原因就是:两种疗法治疗对象的病型构成不同,新疗法组普通型病例多而重型病例少,一般疗法组却是普通型病例少而重型病例多。要消除这种假象,可以采用率的标准化法进行比较。

标准化法(standardization)的基本思想就是采用统一的标准构成,以消除年龄、性别、病情轻重及病程长短等因素构成不同对病死率、死亡率、治愈率等的影响,使算得的标准化率(standardized rate)具有可比性。标准化法的思想也可用于平均数的比较,如比较两个医院平均住院天数,需考虑不同科室住院患者的构成对平均住院天数的影响。总之,标准化的目的在于消除年龄、性别、病情轻重等混杂因素对研究结果的影响。在医学研究中,混杂因素(confounding factor)通常指与研究因素有关并对研究结果产生影响的非研究因素。在资料分析阶段有许多控制混杂因素的方法,标准化法是其中之一。

二、标准化率的计算

计算标准化率的常用方法有直接法和间接法两种。以表5.7为例说明两组观察对象的年龄构成不同时,其标准化死亡率的计算方法和计算公式。其它标准化率的计算与之类似。

表5.7 计算标准化率的数据符号

年龄组 标准组

被标化组 人口数

死亡数

死亡率

人口数

死亡数

死亡率

1 1N 1R 1P 1

n

1r 1p 2

2N 2R

2

P

2n

2r

2p

┇ ┇ ┇ ┇ ┇ ┇ ┇

k

k N k R k P k n k r k p

合计

N R P

n

r

p

(一) 直接法

当已知被标化组的年龄别死亡率i p 时,宜采用直接法计算标准化率,这里又分两种情况:

1. 已知标准组年龄别人口数时,

i i

N p p N

∑'=

(5.11) 式中,p '为标准化率;i i p N 为各年龄组的预期死亡数,是指用被标化组的年龄别死亡率i p 去预测在标准人口i N 中,可能会有多少人发生死亡。总的预期死亡数∑i i p N 除以标准组总人口数N 就得到标准化率。

2. 已知标准组年龄别人口构成比时,

(

)i

i N p p N

'=∑ (5.12) 式中,标准组的年龄构成比N

N i

乘以被标化组的年龄别死亡率i p 称为分配死亡率,

分配死亡率的累计(

)i

i N p N

∑就是标准化率。 如果采用相同的标准组,式(5.11)和式(5.12)计算的结果是完全一致的。 (二) 间接法

当被标化组的年龄别死亡率i p 未知,只有年龄别人口数i n 和死亡总数r 时,可采用间接法。间接法必须有标准组的年龄别死亡率i P ,计算公式为:

i i

r

p P n P '=?

∑ (5.13) 式中,P 为标准组的合计死亡率,i i n P ∑是被标化组的预期死亡人数,

i i

r

n P ∑是被标化组的实际死亡数与预期死亡数之比,称为标准化死亡率比 (standardized mortality ratio, SMR )。

若1SMR >,表示被标化组的死亡数高于标准组;若1SMR <,表示被标化组死亡数低于标准组。用标准化死亡比(SMR )乘以标准组的合计死亡率P ,即得

到间接法标准化死亡率p '。

(三) 标准化率的计算步骤

1.根据被标化组的数据条件选择直接法或间接法 如对死亡率的年龄构成标准化,如果已知被标化组的年龄别死亡率,宜采用直接法计算标准化率;如果没有被标化组的年龄别死亡率,只有年龄别人口数和死亡总数,应采用间接法计算标准化率。

2.选择标准组 ①根据研究目的选择有代表性的、较稳定的、数量较大的人群,例如全国的、全省的或本地区的数据;②也可将欲比较的两地或两组的人口数合并作为标准组,或选择其中一组人口作为标准。

3.选择公式计算标准化率 根据所选方法和数据条件选择相应的公式。 现以表5.5为例,具体说明标准化率的计算,此处是对病死率进行标准化。 (1) 已知新疗法和一般疗法分别治疗普通型病例和重型病例的病死率,采用直接法计算标准化病死率。

(2) 选择新疗法和一般疗法两组的合并治疗例数作为标准人口数i N ,见表5.8第(2)栏。

(3) 按式(5.11)计算新疗法组和一般疗法组的标准化病死率。

表5.8 直接法计算两种疗法的标准化病死率(%)

病型 标准人口数 新疗法

一般疗法

(1)

i

N (2) 病死率 i p (3) 预期病死数

i i N p (4)=(2) (3) 病死率 i p (5) 预期病死数

i i N p (6)=(2) (5)

普通型 100 20.0 20 20.0 20

重型 100

40.0

40 40.0

40 合 计

200()N

26.4 60()i i N p ∑

34.4

60()i i N p ∑

新疗法组的标准化病死率160

100%30.0%200

p '=

?= 一般疗法组的标准化病死率2

60

100%30.0%200

p '=?= 可见,经标准化以后,新疗法和一般疗法两组的病死率是相同的,与分病型比较的结果一致。标准化法解决了由于患者病型构成不同而导致的合计病死率与分病型比较相矛盾的问题。

本例也可用式(5.12)计算标准化病死率,计算结果与式(5.11)完全一致,见表5.9。

表5.9 利用标准患者病型构成比计算两种疗法的标准化病死率(%) 病 型 (1) 标准患者

病型构成比

/i N N

(2) 新疗法

一般疗法

原病死率

i p

(3) 分配病死率

(/)i i N N p

(4)=(2) (3) 原病死率

i p

(5) 分配病死率

(/)i i N N p

(6)=(2) (5) 普通型 0.5 20.0 10.0 20.0 10.0 重型 0.5

40.0

20.0

40.0

20.0

合 计

1.0 26.4 30.0()p '

34.4

30.0()p '

例5.8 已知某地2000年恶性肿瘤死亡总数23人,该地2000年各年龄组的平均人口数见表 5.10第(3)栏。试问该地恶性肿瘤死亡率是否高于全国平均水平?

(1) 由于知道该地恶性肿瘤死亡总数r 和各年龄组人口数i n ,未知该地各年龄组恶性肿瘤死亡率i p ,故选用间接法计算标准化死亡率。

(2) 选择全国同期各年龄组恶性肿瘤死亡率i P 作为标准,见表5.10第(2)栏。 (3) 按式(5.13)计算该地的恶性肿瘤标准化死亡率。

表5.10 间接法计算某地2000年恶性肿瘤标准化死亡率(1/10万)

年龄组

i (1) 标准死亡率

i P (2) 某 地

人口数 i n (3) 预期死亡数

i i

n P

(4)=(2) (3)

0~ 4.83

3066 0.148 20~ 25.73 2516 0.647 40~ 149.14 1440 2.148 60~ 341.48 1738 5.935

合 计

53.86

8760

8.878()i i n P ∑

某地2000年恶性肿瘤的标准化死亡比 59.2878

.823

==

SMR 标准化死亡率 53.86/10 2.59139.50/10p '=?=万万

注意:在本例中,标准化死亡比和标准化率的计算都是以同期全国平均水平

作参照计算的。该地恶性肿瘤的标化死亡比为2.59,说明该地恶性肿瘤的死亡水平是全国平均水平的2.59倍。通过计算标准化死亡率p 进行比较,其结论是一致的。

(三) 应用标准化法的注意事项

1. 标准化法的目的是为了消除混杂因素的影响,通过选择同一参照标准,使算得的标准化率具有可比性。但标准化率并不代表真实水平,选择的标准不同,计算出的标准化率也不相同。因此标准化率仅适用于相互间的比较,实际水平应采用未标化率来反映。

2. 样本的标准化率是样本指标值,亦存在抽样误差,若要比较其代表的总体标准化率是否不同,需作假设检验。

3. 注意标准化方法的选用。如对死亡率的年龄构成标准化,当已知被标化组的年龄别死亡率时,宜采用直接法计算标准化率。该法计算简便,易于理解,较为常用。但当被标化组各年龄段人口数太少,年龄别死亡率波动较大时,宜采用间接法。

4. 各年龄组率若出现明显交叉,或呈非平行变化趋势时,则不适合采用标准化法,宜分层比较各年龄组率。此外,对于因其它条件不同,而非内部构成不同引起的不可比性问题,标准化法难以解决。

小结

1. 定性资料常用率、构成比、相对比等相对数指标进行描述。应根据研究目的选用相应的指标。使用相对数时要注意杜绝一些常见的错误。

2. 动态数列是一系列按照时间顺序排列起来的统计指标,用以反映事物或现象在时间上的变化和发展趋势。常用的动态数列分析指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。

3. 在对合计率进行比较时,如果各组观察对象内部构成不同,应考虑对合计率(平均率)进行标准化。标准化法就是采用统一的标准构成,消除因混杂因素构成不同对总指标的影响。计算标准化率的常用方法有直接法和间接法两种。如果已知被标化组的年龄别死亡率,宜采用直接法计算标准化率;如果没有被标化组的年龄别死亡率,只有年龄别人口数和死亡总数,可采用间接法计算标准化率。

(贾红)

数据统计与分析(SPSS).

数据统计与分析(SPSS) 一、课程属性说明 适用对象:教育技术学专业,电子信息科学与技术专业,广告学专业 课程代码:11200913 课程类别:专业任选课 所属学科:计算机科学与技术 授课学期:第8学期 学时:讲授54学时,实验34时 学分:3 教材: 《SPSS for Windows 统计与分析》,卢纹岱主编,电子工业版社,2000年版参考书: 考核方式:考查 评分方法:试验报告20%,上机考试 80% 前导课程:计算机基础,线性代数,概率统计

二、大纲制定依据 对数据进行统计分析是一种十分重要的信息获得的方法,很多领域均需要做这方面的工作。传统的统计分析是由人工计算求解;现在随着计算机应用的普及,越来越多的统计分析工作是由计算机来完成的,现在最为流行也最容易被广大用户接受的统计分析软件是SPSS,本课程就以介绍该软件为核心,并渗透介绍一些统计分析的数学方法,从而满足各专业学生对数据统计分析知识和技能的需求。 三、课程概要与目的任务 1.课程概要 本课程主要由三大部分构成:(1)基本概念和基本操作,其中包括SPSS概述、系统运行管理方式、数据统计处理、数据文件的建立与编辑、文件操作与文本文件编辑;(2)统计分析过程,其中包括统计分析概述、基本统计分析、相关分析均值比较与检验、方差分析、回归分析、据类分析与辨别分析、因子分析、非参数检验、生存分析;(3)统计图形生成与编辑,其中包括生成统计图形、编辑统计图形,创建交互式图形、修饰交互图形 2.课程目的和任务 本课程的目的和任务是使学生理解SPSS软件的功能和应用方法,并能开展简单的数据统计与分析工作。

统计学

第一章总论 1、统计数据有哪些分类?不同类型的数据有什么不同特点?试举例说明。 (一)统计数据按照所采用的计量尺度不同,可以分为定性数据与定量数据两类。 一、定性数据是指只能用文字或数字代码来表现事物的品质特征或属性特征的数据,具体又分为定类 数据与定序数据两种。 (1)定类数据:按照事物的某种属性对其进行平行的分类或分组所形成的数据。特点:①定类数据只测度了事物之间的类别差,而对各类之间的其他差别却无法从中得知,因此各类地位相同, 顺序可以任意改变②对定类数据,可以且只能计算每一类别中各元素个体出现的频数。 人口的性别(男、女),为了便于统计处理,用数字代码来表示各个类别,例如分别用1、0表示男性与 女性,要注意的是,这时的数字没有任何程度上的差别或大小多少之分,只是符号而已。 (2)定序数据:对事物之间等级或顺序差别测度所形成的数据。特点:①不仅可以测度类别差(分类),还可以测度次序差(比较优劣或排序)②无法测出类别之间的准确差值,因此该尺度的 计量结果只能排序,不能进行算术运算。产品等级(一等品、二等品…)考试成绩(优、良、差) 二、定量数据是指用数值来表现事物数量特征的数据,具体又分为定距数据与定比数据两种。 (1)定距数据:对事物类别或次序之间间距的测度所形成的数据。特点:①不仅能将事物区分为不同类型并进行排序而且可准确指出类别之间的差距是多少②定距尺度通常以自然或物理单位为计量尺度,因此测量结果往往表现为数值③计量结果可以进行加减运算(加减运算有意义)④“0”是测量尺度上的一个测量点,并不代表“没有”。100分制考试成绩;摄氏温度对不同地区温度的测量。 (2)定比数据(比率尺度):是能够测算两个测度值之间比值的数据。特点:①与定距尺度属于同一层次,计量结果也表现为数值②除了具有其他三种计量尺度的全部特点外,还具有可计算两个测度值之间比值的特点③“0”表示“没有”,即它有一固定的绝对“零点”,因此它可进行加、减、乘、除运算(而定距尺度只可进行加减运算)职工月收入、企业产值、企业销售收入3亿元,人的身高176厘米、体重65公斤,物体的长度30厘米、面积600平方厘米、容积9000立方厘米,水稻的平均亩产400 公斤/亩,某地区的人均国内生产总值25000元/人、第三产业比重48%等,都是定比数据。 (二)统计数据按照其表现形式不同,可以分为绝对数、相对数和平均数三类 绝对数:反映现象或事物绝对数量特征的数据,它以最直观、最基本的形式体现现象或事物的外在数量特征,有明确的计量单位。 相对数:反映现象或事物相对数量特征的数据,它通过另外两个相关统计数据的对比来体现现象(事物)内部或现象(事物)之间的联系关系,其结果主要表现为没有明确计量单位的无名数,少部分表现为有明确计量单位的有名数(限于强度相对数)。 1.结构相对数。将同一总体内的部分数值与全部数值对比求得比重,用以说明事物的性质、结构或质量。居民食品支出 额占消费支出总额比重、产品合格率等。 2.比例相对数。将同一总体内不同部分的数值对比,表明总体内各部分的比例关系,如,人口性别比例、投资与消费比例等。 3.比较相对数。将同一时期两个性质相同的指标数值对比,说明同类现象在不同空间条件下的数量对比关系。如,不同地区 商品价格对比,不同行业、不同企业间某项指标对比等。 4.强度相对数,将两个性质不同但有一定联系的总量指标对比,用以说明现象的强度、密度和普遍程度。如,人均国内生产 总值用“元/人”表示,人口密度用“人/平方公里”表示,也有用百分数或千分数表示的,如,人口出生率用‰表示。 5.计划完成程度相对数,是某一时期实际完成数与计划数对比,用以说明计划完成程度。 6.动态相对数,将同一现象在不同时期的指标数值对比,用以说明发展方向和变化的速度。如,发展速度、增长速度等。平均数:反映现象或事物平均数量特征的数据,体现现象某一方面的一般数量水平。 (三)统计数据按照其来源不同,可以分为观测数据与实验数据两类。 (四)统计数据按照其加工程度不同,可以分为原始数据与次级数据两类。 (五)统计数据按照其时间或空间状态不同,可以分为时序数据与截面数据两类。 2、总体、样本、个体三者关系如何?试举例说明。 总体:统计研究的客观对象的全体,是具有某种共同性质的事物所组成的集合体(也称为母体) 个体:构成统计总体的个别事物称为个体(也称总体单位)

定性数据分析第五章课后答案.doc

定性数据分析第五章课后答案 定性数据分析第五章课后作业 1、为了解男性和女性对两种类型的饮料的偏好有没有差异,分别在年青人和老年人中作调查。调查数据如下: 试分析这批数据,关于男性和女性对这两种类型的饮料的偏好有没有差异的问题,你有什么看法?为什么?解:(1)数据压缩分析首先将上表中不同年龄段的数据合并在一起压缩成二维2X2列联表1.1,合起来看,分析男性和女性对这两种类型的饮料的偏好有没有差异? 表1.1 “性别X偏好饮料”列联表 二维2X2列联表独立检验的似然比检验统计量-2ln A的值为0.7032, P值为p=P(x2⑴m0.7032)=0.4017>0.05,不应拒绝原假设,即认为“偏好类型”与“性别”无关。(2)数据分层分析 其次,按年龄段分层,得到如下三维2X2X2列联表1.2,分开来看,男性和女性对这两种类型的饮料的偏好有没有差异? 表1.2三维2X2X2列联表 在上述数据中,分别对两个年龄段(即年青人和老年人)进行饮料偏好的调查,在“年青人”年龄段,男性中偏好饮料A占58. 73%,偏好饮料B占41.27%;女性中偏好饮料A占58. 73%,偏好饮料B占41.27%, 我们可以得出在这个年龄段,男性和女性对这两种类型的饮料的偏好有一定的差异。同理,在“老年人”年龄段,也有一定的差异。 (3)条件独立性检验

为验证上述得出的结果是否可靠,我们可以做以下的条件独立性检验。即由题意,可令C表示年龄段,C1表示年青人,C2表示老年人;D表示性别,D1表示男性,D2表示女性;E表示偏好饮料的类型,E1表示偏好饮料A,E2表示偏好饮料B。欲检验的原假设为:C给定后D和E条件独立。 按年龄段分层后得到的两个四格表,以及它们的似然比检验统计量-2ln A的值如下: C1层 C2层 -2ln A=6.248 -2ln A =11.822 条件独立性 检验问题的似然比检验统计量是这两个似然比检验统计量的和,其值为-2lnA=6.248+11.822=18.07 由于r=c=t=2,所以条件独立性检验的似然比检验统计量的渐近x 2分布的自由度为r(c-l)(t-l)=2,也就是上面这2个四格表的渐近x 2分布的自由度的和。由于p值P(x 2(2)318.07)=0.000119165很小,所以认为条件独立性不成立,即在年龄段给定的条件下,男性和女性对两种类型的饮料的偏好是有差异的。 (4)产生偏差的原因 a、在(1)中,将不同年龄段的数据压缩在一起合起来后分析发现男性和女性在对两种类型的饮料的偏好上是没有差异的。但将数据以不同的年龄段

医学统计学定性统计描述思考与练习带答案

第五章定性资料的统计描述 【思考与练习】 一、思考题 1.应用相对数时需要注意哪些问题 2. 为什么不能以构成比代替率 3. 标准化率计算的直接法和间接法的应用有何区别 4. 常用动态数列分析指标有哪几种各有何用途 5. 率的标准化需要注意哪些问题 二、案例辨析题 某医生对98例女性生殖器溃疡患者的血清进行检测,发现杜克雷氏链杆菌、梅毒螺旋体和人类单纯疱疹病毒2型病原体感染患者分别是30、51、17例,于是该医生得出结论:女性生殖器溃疡患者3种病原体的感染率分别为%(30/98)、%(51/98)和%(17/98)。该结论是否正确为什么 三、最佳选择题 1. 某地2006年肝炎发病人数占当年传染病发病人数的%,该指标为B A. 率 B. 构成比 C. 发病率 D. 相对比 E. 时点患病率 2. 标准化死亡比SMR是指A

A. 实际死亡数/预期死亡数 B. 预期死亡数/实际死亡数 C. 实际发病数/预期发病数 D. 预期发病数/实际发病数 E. 预期发病数/预期死亡数 3. 某地人口数:男性13,697,600人,女性13,194,142人;五种心血管疾病的死亡人数:男性16774人,女性23334人;其中肺心病死亡人数:男性13952人,女性19369人。可计算出这样一些相对数: 11395283.18%16774 p = =, 21395219369 83.08%1677423334p +==+, 313952 101.86/1013697600 p ==万, 416774122.46/1013697600p = =万,523334 176.85/1013194142 p = =万, 645p p p =+ 71395219369 123.91/101369760013194142 p += =+万 81677423334 149.15/101369760013194142 p += =+万 该地男性居民五种心血管疾病的死亡率为D A. 1p B. 2p C. 3p D. 4p E. 5p 4. 根据第3题资料,该地居民五种心血管病的总死亡率为E A. 1p

数据的基本统计分析

数据的基本统计分析 数据的基本统计分析 1.数据的描述性统计分析 通常在得到数据并对数据进行除错的预处理后,需要对数据进行描述性的统计分析。比如:对数据中变量的最小值、最大值、中位数、平均值、标准差、偏度、峰度以及正态性检验等进行分析。对于这些经常性遇到的重复过程,我们可以自己编写函数,将函数保存在MATLAB自动搜索文件夹下,然后就可以直接调用自己定义的函数了。对于上述描述性统计分析,我们可以在MATLAB命令窗口中输入:edit description,然后在弹出的窗口中选择yes,就创建了一个文件名为description的M文件。然后在弹出的空白文件中编写以下M函数: function D=description(x) %descriptive statistic analysis %input: %x is a matrix, and each colummn stands for a variable %output: %D:structure variable,denotes Minimium,Maximium,Mean,Median, %Standard_deviation,Skewness,Kurtosis,and normal distribution test,respectively. %notes:when the number of oberservations of the colummn variables less than 30, %Lilliefors test is used for normal distribution test,and output D.LSTA denotes %test statistic and D.LCV denote critical value under 5% significant level; %otherwise, Jarque-Bera test is used, and output D.JBSTA denotes test statistic %and D.JBCV denote critical value under 5% significant level.If test statistic is %less than critical value,the null hypothesis (normal distribution) can not %be rejected under 5% significant level. D.Minimium=min(x); D.Maximium=max(x); D.Mean=mean(x); D.Median=median(x); D.Standard_deviation=std(x); D.Skewness=skewness(x); D.Kurtosis=kurtosis(x); if size(x,1)<30 disp('small observations,turn to Lilliefors test for normal distribution') for i=1:size(x,2) [h(i),p(i),Lilliefors(i),LCV(i)]=lillietest(x(:,i),0.05); end

定性数据的统计分析理论与应用研究_刘洋

定性数据的统计分析理论与应用研究 刘 洋 西安财经学院 摘 要:定性数据的统计研究一直以来在统计研究方法中都起着十分重要的作用,尤其近几年更是成为统计学研究的重点之一。由于统计方法的逐步发展,定性数据的研究也正不断有新的突破和新的方法,以求找到更适合自身的理论方法。相应分析方法和结构方程模型方法都是较新的定性数据分析应用中的方法。 关键词:定型数据 相应分析 统计分析 一、定性数据的背景及发展 1.研究背景及意义。随着实际问题中愈来愈多定性数据的出现,学会使用定性数据来处理实际问题便成为了必要的技能之一,定性数据的统计方法也成为统计学研究的重点之一。定性研究方法是根据社会现象或事物所具有的属性和在运动中的矛盾变化,从事物的内在规律性来研究事物的一种方法或角度。它以普遍承认的公理、一套演绎逻辑和大量的历史事实为分析基础,从事物的矛盾性出发,描述、阐述所研究的事物。定性数据的性质间接决定了定性数据成为了统计研究中不可小觑的一部分,也为统计研究方法在实际中遇到的困难扫清了很多障碍。 2.定性数据的发展。定性研究起于19世纪,早期的定性研究是从社会调查运动中的实际问题引发的,但是很少有人能意识到它的价值所在。Pearson(1904)首次提出了列联表的概念,也就意味着开始了定性数据的研究。Bartlett(1935)定义了三维列联表三变量的交互作用,但仍不能进行结构复杂的大量数据的研究。随着科技的不断发展,统计学运用计算机处理数字的能力越来越强,使定性数据的研究更是有大幅的提高,现在对定性数据的研究方法更是多样的,例如相应分析、结构方程模型等。 二、定性数据相关的统计分析理论 1.定性数据。在统计学中,数据按照其取值分为四种类型,即计量数据、计数数据、名义数据和有序数据。其中,计量数据和计数数据称为定量数据。名义数据和有序数据称为定性数据,定性变量中包含了名义定性变量和有序定性变量。 2.相应分析。相应分析(correspondence analysis)也叫对应分析,其特点是它所研究的变量可以是定性的,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。通常意义下的相应分析,是指对两个定性变量(因素)的多种水平进行相应性研究,因而它的应用越来越广泛,现在这种方法已经成为常用的多元分析方法之一。相应分析的思想首先由Richardson和Kuder于1933年提出,后来法国统计学家Benzecri等对该方法进行了详细的论述而使其得到了发展。 3.结构方程模型。结构方程模型(Structural Equation Modeling)在20世纪80年代以来迅速发展,是可以处理多个原因、多个结果关系,或者处理不可直接观测变量即潜变量的好方法,解决了一些传统的统计方法不能很好解决的问题。结构方程模型可以假设潜变量的存在,即潜变量可以在结构方程模型中使用,而不是作为观测变量。使定性数据得到了更好更全面的分析,适用于新的统计方法。主要适用于数据较多的定性数据的调查问卷。 三、定性数据统计分析的实证研究 1.数据处理。 1.1数据来源。本文所采用数据来自于由朱建平主编的《应用多元统计分析》一书中相应分析章节举例。应用spss17.0做相关分析。 1.2定性数据数字化。每个定性数据都含有不可量化成分,所以,在分析定性数据之前需要把定性数据中所代表的不同含义或不同范围用简单整数表示,一种含义或范围只能用一个整数表示,这样就使得定性数据数字化。 2.定性数据的相应分析。 2.1相应分析原理。相应分析是在列联表的基础上通过交互汇总数据来解释变量之间的内在联系,用相同的因子轴同时描述两个因素各个水平的情况,把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上。一般情形,取两个公共因子,在一张二维平面图上绘出两个因素各个水平的情况,即可以直观地描述两个因素A和因素B以及各个水平之间的相关关系。同时揭示了同一变量的各个类别之间的差异以及不同变量各个类别之间的对应关系。 2.2相应分析实证。研究数据为1992年美国总统大选的部分数据。对1847位选民的最高学历与所支持总统候选人进行相应分析。由于该分析通过了卡方检验,所以相应分析的分析结果是有效的。 从图1中可以发现大学本科(bachelor)层次的选民最支持Bush,其次是高中(high school)层次的选民。Clinton更受研究生(graduate degree)层次的选民的青睐,而Perot的支持者更多是专科学历者(junior college)。大学本科和高中学历的选民是普通选民所拥有的最普遍学历,也就是说得到的支持中这部分学历的选民最多的话,也就可以说明这个人得到了相对大多说人的支持。 相应的对选民的年龄与所支持的总统候选人间进行相应分析的结果可以看出,年龄在45-64岁之间的选民最支持Clinton,35-44岁的选民其次,这部分选民相对而言更多的选择了支持Bush。Clinton与Bush更多的赢得的是中年人的支持,其中Clinton赢得了相对较多的老年群体的票数支持。Perot与两名竞争对手在支持选民年龄上显示了很大不同,支持他的选民相对年轻化,且选民随之年龄的增长逐渐减少,超过65岁的选民几乎没有支持者。 3.模型结果分析。以上模型分析了该定性数据的显著特点与有趣的分类,知道了选民在最高学历与年龄的不同上对所支持政客不同的相对应分析,让我们从新认识了这组定性数据。通过以上实证分析模型证实利用相关分析的方法可以对定性数据进行有效合理的分析,使得我们更好的对定性数据进行理解。由于定性数据本身的特点,使得我们不能很好的直接通过定性数据本身观测、理解和使用定性数据,但是借助于相关分析,我们可以透过定性数据难以分析的数据特点来理解定性数据,使数据为研究服务。 四、结论与建议 1.结论。定性数据不应只通过数据表面的观测进行分析,由于定性数据自身性质会给相关研究带来误导性信息且不准确。所以定性数据的统计研究方法为统计研究做出了重要贡献。虽然定性数据在问卷调查的应用中还是相对突出的,但是了解和学会定性数据的分析方法可以使你在任何数据的面前不再担心它的种类,都能做到游刃有余。 定性数据的分析理论正在迅速发展,一些相关理论已经相当成熟,但要深入分析,仍需不断探索新理论与新方法。分析定性数据的对数线性模型、结构方程模型和相应分析方法都已相对成熟,而非线性主成分分析方法仍在起步,需要更多的研究与实证支持。 2.建议。由于定性数据的多样性,可以在分析定性数据时使用多种分析方法,以便正确数据所包含信息。定性数据和定量数据一般都是相互结合使用,互相融合,共同发展的,定性数据在数量化之后也属于定量数据,所以在发展定性数据统计研究方法的同时,定量数据的统计研究方法也会相应进步,相互取长补短。定性数据的分析方法仍然满足不了数字化的发展,对新方法的创新仍是耽误之急。希望完善以前好用的方法,不断创新新方法。 参考文献: [1]葛新锋.有序数据的多元分析模型及实证研究[D].山西财经大学,2009. [2]王静龙、梁小筠.定性数据统计分析[M].中国统计出版社,2008. [3]朱建平.应用多元统计分析[M].科学出版社,2013. [4]王济川,王小倩,姜宝法.结构方程模型:方法与应用[M].高等教育出版社,2011. [5]Donald J. Treiman.量化数据分析:通过社会研究检验想法[M].社会科学文献出版社,2012. 作者简介:刘洋(1989—),女,吉林东丰人,西安财经学院2013级统计学专业研究生,研究方向:经济统计。 2014年·8月·中期经营管理者 学 术 理 论 经营管理者 Manager' Journal 207

matlab数据的基本统计分析

第四讲 数据的基本统计分析 数据的基本统计分析 1.数据的描述性统计分析 通常在得到数据并对数据进行除错的预处理后,需要对数据进行描述性的统计分析。比如:对数据中变量的最小值、最大值、中位数、平均值、标准差、偏度、峰度以及正态性检验等进行分析。对于这些经常性遇到的重复过程,我们可以自己编写函数,将函数保存在MATLAB自动搜索文件夹下,然后就可以直接调用自己定义的函数了。对于上述描述性统计分析,我们可以在MATLAB命令窗口中输入:edit discription,然后在弹出的窗口中选择yes,就创建了一个文件名为discription的M文件。然后在弹出的空白文件中编写以下M函数: function D=discription(x) %descriptive statistic analysis %input: %x is a matrix, and each colummn stands for a variable %output: %D:structure variable,denotes Minimium,Maximium,Mean,Median, %Standard_deviation,Skewness,Kurtosis,and normal distribution test,respectively. %notes:when the number of oberservations of the colummn variables less than 30, %Lilliefors test is used for normal distribution test,and output D.LSTA denotes %test statistic and D.LCV denote critical value under 5% significant level; %otherwise, Jarque-Bera test is used, and output D.JBSTA denotes test statistic %and D.JBCV denote critical value under 5% significant level.If test statistic is %less than critical value,the null hypothesis (normal distribution) can not %be rejected under 5% significant level. D.Minimium=min(x); D.Maximium=max(x); D.Mean=mean(x); D.Median=median(x); D.Standard_deviation=std(x); D.Skewness=skewness(x); D.Kurtosis=kurtosis(x); if size(x,1)<30 disp('small observations,turn to Lilliefors test for normal distribution') for i=1:size(x,2) [h(i),p(i),Lilliefors(i),LCV(i)]=lillietest(x(:,i),0.05); end

《统计学》重点归纳(20200625174335)

统计学》期末重点 1. 统计学的类型和不同类型的特点 统计数据;按所采用的计量尺度不同分; (1)(定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述; (2)(定性数据)顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。 (3)(定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。统计数据;按统计 数据都收集方法分; (4)观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。 (5)实验数据:在实验中控制实验对象而收集到的数据。统计数据;按被描述的现象与实践的关系分; (6)截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。 (7)时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。 2. 变量的题型 第10 页,习题1.1 (1)年龄:数值型变量 (2)性别:分类变量 (3)汽车产量:离散型变量 (4)员工对企业某项改革措施的态度(赞成、中立、反对):顺序变量 (5)购买商品时的支付方式(现金、信用卡、支票):分类变量 3.随机抽样(概率抽样)的抽样方式。 (1)简单随机抽样 (2)分层抽样:就是抽样单位按某种特征或者某种规则划分为不同的层,然后从不同的层中独立、随机地 抽取样本。将各层的样本结合起来,对总体目标量进行估计。 (3)整群抽样: (4)系统抽样 (5)多阶段抽样 分层抽样与整群抽样的区别:

分层抽样的层数就是样本容量;整群抽样的群中单位的个数就是样本容量 4.非概率抽样的几种类型 (1)方便抽样 (2)判断抽样 (3)自愿样本 (4)滚雪球抽样 滚雪球抽样往往用于对稀少群体的调查。在滚雪球抽样中,首先选择一组调查单位,对其实施调查后,再请他们提供另外一些属于研究总特的调查对象,调查人员根据调查线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应。 优点:容易找到那些属于特定群体的被调查者,调查成本也比较低。 (5)配额抽样 比较概率抽样和非概率抽样的特点,指出各自适用情况概率抽样:抽样时按一定的概率以随机原则抽取样本。每个单位别抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽到的概率。技术含量和成本都比较高。如果调查目的在于掌握和研究对象总体的数量特征,得到总体参数的置信区间,就使用概率抽样。 非概率抽样:操作简单,时效快,成本低,而且对于抽样中的统计学专业技术要求不是很高。它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。它同样使用市场调查中的概念测试(不需要调查结果投影到总体的情况)。 5.数据预处理内容 数据审核(完整性和准确性;适用性和实效性),数据筛选和数据排序。 6.数据型数据的分组方法和步骤 分组方法:单变量值分组和组距分组,组距分组又分为等距分组和异距分组。分组步骤:(1)确定组数 (2)确定各组组距 3)根据分组整理成频数分布表 7.散点图与饼图的主要用途 饼图是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例,对于研究结构性问题十分有用。 散点图是描述变量之间关系的一种直观方法,从中可以大体上看出变量之间的关系形态及关系强度。

最新定性数据分析第五章课后答案

定性数据分析第五章课后作业 1、为了解男性和女性对两种类型的饮料的偏好有没有差异,分别在年青人和老 试分析这批数据,关于男性和女性对这两种类型的饮料的偏好有没有差异的问 题,你有什么看法?为什么? 解:(1)数据压缩分析 首先将上表中不同年龄段的数据合并在一起压缩成二维 2X 2列联表1.1 ,合 起来看,分析男性和女性对这两种类型的饮料的偏好有没有差异? 表 1.1 “性别偏好饮料”列联表 二维2X 2列联表独立检验的似然比检验统计量 - 21 n 上的值为0.7032,p 值 为p =P( 2(1) -0.7032) =0.4017 ■ 0.05,不应拒绝原假设,即认为“偏好类型” 与“性别”无关。 (2) 数据分层分析 其次,按年龄段分层,得到如下三维 2X 2X 2列联表1.2,分开来看,男性 和女性对这两种类型的饮料的偏好有没有差异? 表1.2 三维2X 2X 2列联表

在上述数据中,分别对两个年龄段(即年青人和老年人)进行饮料偏好的调 查,在“年青人”年龄段,男性中偏好饮料A 占58. 73%偏好饮料B 占41.27%; 女性中偏好饮料A 占58. 73%偏好饮料B 占41.27%,我们可以得出在这个年 龄段,男性和女性对这两种类型的饮料的偏好有一定的差异。 同理,在“老年人” 年龄段,也有一定的差异。 (3) 条件独立性检验 为验证上述得出的结果是否可靠,我们可以做以下的条件独立性检验。 即由题意,可令C 表示年龄段,0表示年青人,C 2表示老年人;D 表示性别,D ! 表示男性,D 2表示女性;E 表示偏好饮料的类型,E !表示偏好饮料A, E 2表示 偏好饮料B 。欲检验的原假设为:C 给定后D 和E 条件独立 按年龄段分层后得到的两个四格表,以及它们的似然比检验统计量 -21 n 上的值 如下: 条件独立性检验问题的似然比检验统计量是这两个似然比检验统计量的和, 其值 -2ln 上=6.248 11.822 =18.07 由于r = c = t = 2,所以条件独立性检验的似然比检验统计量的渐近 2分布的自 由度为r(c-1)(t-1) =2,也就是上面这 2个四格表的渐近 2分布的自由 G 层 -2ln 上=6.248 C 2层 -2ln 上=11.822

数据统计分析方法

数据统计分析常用方法

目录 1 统计学基础知识 (3) 1.1 统计的含义 (3) 1.2 统计的分类 (3) 1.3 样本 (3) 2 数据的概括性度量 (4) 2.1 总规模度量 (4) 2.1.1 总量指标 (4) 2.2 比较度量 (5) 2.2.1 相对指标 (5) 2.3 平均度量 (6) 2.3.1 概念 (6) 2.3.2 平均数的种类和计算方法 (6) 2.4 离散变量 (8) 2.4.1 变异指标 (8) 2.5 数据的标准化 (11) 2.5.1 Min-max标准化 (11) 2.5.2 Z-score标准化 (11) 3 相关分析 (11) 3.1 概念 (11) 3.2 分类 (12) 3.3 相关分析的作用 (12) 3.4 相关系数的计算 (12) 3.5 相关系数的性质 (12) 3.5.1 相关性类型 (12) 3.5.2 相关性强弱 (12) 4 数据分析 (13) 4.1 数据分析的含义 (13) 4.2 数据分析的作用 (13) 4.3 数据分析方法 (13) 4.3.1 对比分析法 (13) 4.3.2 分组分析法 (14) 4.3.3 结构分析法 (15) 4.3.4 平均分析法 (15) 4.3.5 交叉分析法 (15) 4.3.6 综合评价分析法 (16) 4.3.7 漏斗图分析法 (17) 4.3.8 抽样分析法 (17) 4.3.9 相关分析 (18) 4.3.10 时间序列预测 (20)

1统计学基础知识 1.1统计的含义 “统计”一词在各种实践活动和科学研究领域中都经常出现。然而,不同的人或在不同的场合,对其理解是有差异的。比较公认的看法认为统计有三种含义,即统计活动、统计数据和统计学。 ●统计活动 统计活动又称统计工作,是指收集、整理和分析统计数据,并探索数据的内在数量规律性的活动过程。 ●统计资料 统计资料又称统计数据,即统计活动过程所获得的各种数字资料和其他资料的总称。表现为各种反映社会经济现象数量特征的原始记录、统计台账、统计表、统计图、统计分析报告、政府统计公报、统计年鉴等各种数字和文字资料。 ●统计学 统计学是指阐述统计工作基本理论和基本方法的科学,是对统计工作实践的理论概括和经验总结。它以现象总体的数量方面为研究对象,阐明统计设计、统计调查、统计整理和统计分析的理论与方法,是一门方法论科学。 1.2统计的分类 从统计方法的功能来看,统计学可以分为描述统计学与推断统计学。从方法研究的重点来看,统计学可分为理论统计学和应用统计学。本文中主要按统计方法的功能进行讨论,不涉及理论统计学。 ●描述统计学 研究如何取得反映客观现象的数据,并通过图表形式对所搜集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征。描述统计学的内容包括统计数据的搜集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。 ●推断统计学 研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征作出以概率形式表述的推断。 描述统计是整个统计学的基础,推断统计则是现代统计学的主要内容。 1.3样本 样本是统计学中非常重要的概念,理解这个概念需要注意三大问题: 构成某一样本的每一单位都必须取自某一特定的统计总体,不允许该总体之外的单位介入该总体的样本。 样本单位的抽取应是按一定的概率进行的,而具体样本的产生应是随机的,因此必须排除人的主观因素对样本单位抽取和样本生成的干扰。

定性数据的图表描述分析

定性数据的图表描述分析 内容摘要:数据的整理是为下一步对数据描述和分析打好基础。实际上在企业管理中有很多问题和现象无法通过数值直接表示出来,因此人们经常使用定性数据来反映对应的定类或定序变量的值。下面我们介绍如何用图表对定类和定序变量的定性数据值进行整理和描述。本文通过对单变量和多变量定型数据的图形描述来实现对定性数据图表的全面分析。首先,我们简单介绍一下定性数据的整理;其次我们从单变量定性数据的图标描述着眼,具体可分为条形图、饼图、累积频数分布表和帕累托图。最后我们从多变量定性数据的图形描述着眼,具体可分为环形图、交叉表和多重条形图。这就是本文的全部内容介绍。 关键词:定性数据;单变量;多变量;图表描述 Content abstract: the data of the data for the next step is described and analyzed. Actually has a lot of problems and phenomena in the enterprise management can't directly by numerical representation, so people often use qualitative data to reflect the corresponding nominal or ordinal variable's value. We introduce how to use the chart below for nominal and ordinal variables in order and description about the qualitative data values. Based on univariate and multivariate finalize the design of the data graph description to achieve comprehensive analysis of the qualitative data chart. First, we make a brief introduction of qualitative data sorting; Secondly we from single variable on the basis of the icon description of qualitative data, the concrete can be divided into bar chart, pie chart, cumulative frequency distribution table and pareto chart. We finally on the basis of the graph description of qualitative data from multiple variables, concrete can be divided into circular diagram, cross table and multiple bar chart. This is the entire contents of the introduced in this paper. Keywords: qualitative data; Single variable; Many variables; The chart description

数据表达和常用统计分析的注意事项

第五节数据表达和常用统计分析的注意事项 药理实验资料可以分为计数资料和计量资料。计数资料又称质反应资料,指的是观察指标以出现或不出现,有或无表达。如实验动物是否死亡,惊厥反应是否出现等。其特点是,每一观察对象可获得反应的属性,每一组观察对象可以给出性质相同的反应例数或占总例数的比率。计量资料指的是观察指标可以用连续数据表达。如血压、体重、体温、血细胞数、心功能指数、炎症抑制率等。其特点是,每一观察对象都可获得一个定量的数据。每一组观察对象可获得平均数和标准差。 一、数据的表达和精确度 数据必须来自可靠的实验结果。计量资料的数据应依据测量仪器的精度读取。实验数据通常应至少有3位有效数字,标准差有2位有效数字。有效数据的多少反映数据的相对误差。因为实际测得的数据,其最后一位可能有误差。如15.6的误差是±0.1,相对误差是0.1/15.0;而15.60的误差是±0.01, 相对误差是0.01/15.60。后者的相对误差比前者小,精确度高。有效位数少,表示数据的精确度小或相对误差大。数据的有效位数要与测量仪器所能达到的精确度一致。实验报告中出示的数据,其有效位数大于仪器精度许多是不适当的。进行加减乘除运算时,中间步骤数据可多取1~3位有效数字。但结果数据的有效位数应取实测值中最小的有效位数。如15.12+12.1=27.22,取27.2。因为12.1的第一位小数只是估计值,故两数之和也只能取一位小数。均数的小数位数应与标准差相同,如15.60±0.78。统计数据表达应写出均数、标准差、例数、P值情况(大于、小于0.05或0.01,也可出示具体P值)等。正文用“无显著意义,有显著意义,有非常显著意义”表达统计结论,并做出专业结论,还应写出所用的统计方法。 二、极端数据的处理 在收集的一组计量数据中,有时会遇到极少数过大或过小的数值,称为极端值。对待这样的数据要从实验一开始就给予足够的重视。一方面,实验记录要认真、仔细,尽量避免差错;另一方面,一旦遇到,对可疑数据及时复测或复核,如发现差错及时纠正。对于无法复测的数据,除非能肯定(注意,是肯定,而不是大概)是出于差错,否则此数据即便偏大或偏小,也不可轻易剔除,对此类数据可借助于统计学的方法作出是否可以剔除的判断。如果一组数据按正态分布的话,x±s、x±1.96s、x±2.58s范围内的数据分布应该分别占总数的

定性资料的统计描述

第五章 定性资料的统计描述 在医学研究与实践中,大量资料都是按照事物的特征或属性进行分类的,这类资料称为定性资料,也称分类资料或计数资料。如性别、HIV 感染情况、病情轻重等都属于分类资料。对于这类资料,其绝对数往往不便于进行相互比较。例如甲医院某年因某病死亡105人,同年乙医院因该病死亡185人。但不能据此认为乙医院该病的死亡情况比甲医院严重,因为两医院因该病住院的人数不一定相等,此时需要采用相对数指标进行统计描述。 第一节 常用相对数及其应用 相对数是两个有关联的数值之比,常用的相对数指标有率、构成比和相对比三种。 一、率 率是指某现象实际发生数与某时间点或某时间段可能发生该现象的观察单位总数之比,用以说明该现象发生的频率或强度。根据计算公式中分母的观察单位总数是否引入时间因素,率包括频率和速率两类指标。 频率(frequency)计算中,分母没有引入时间因素,无时间量纲,分子是分母的一部分,其取值在0~1之间,如常见的发病率、患病率、病死率、治愈率等指标,都属于频率型指标,其实质是比例,在流行病学中也常称为累积发生率。其计算公式可表达为: K = ?同时期实际发生某现象的观察单位数 频率某时期可能发生某现象的观察单位总数 (5.1) 式中,K 为比例基数,可以是100%、1000‰、100000/10万等。比例基数的选择主要根据习惯用法或使计算结果保留1~2位整数,以便阅读。 例5.1 为研究吸烟与肺癌的关系,某医生收集了2003~2005年286例住院肺癌患者的吸烟史,吸烟的肺癌患者有166例,而同时期同年龄段的1855名非肺癌患者中,吸烟的有407例。试计算该资料中肺癌患者与非肺癌患者的吸烟率。 由式(5.1),肺癌患者的吸烟率=166/286100%=58.04%?,非肺癌患者吸烟率=407/1855100%=21.94%?,肺癌患者的吸烟率比非肺癌患者的吸烟率高36.1%。 速率(rate)是带有时间因素的频率,根据数理统计的定义是指随时间变化而

数据分析中常用的五个统计学基本概念分析

数据分析中常用的五个统计学基本概念分析 在回答数据分析入门要具备什么样的能力的问题中,我经常提到统计学知识,统计学是一种利用数学理论来进行数据分析的技术,通过统计学我们可以用更富有信息驱动力和针对性的方式对数据进行操作。 在数据分析工作中,利用统计学,我们可以更深入、更细致地观察数据是如何进行精确组织的,并且基于这种组织结构确定数据分析的方法,来获取更多的信息。今天给大家介绍数据分析中常用的五个统计基本概念。 一、特征统计 特征统计可能是数据科学中最常用的统计学概念。它是你在研究数据集时经常使用的统计技术,包括偏差、方差、平均值、中位数、百分数等等。理解特征统计并且在代码中实现都是非常容易的。请看下图: 上图中,中间的直线表示数据的中位数。中位数用在平均值上,因为它对异常值更具有鲁棒性。第一个四分位数本质上是第二十五百分位数,即数据中的25%要低于该值。第三个四分位数是第七十五百分位数,即数据中的75%要低

于该值。而最大值和最小值表示该数据范围的上下两端。箱形图很好地说明了基本统计特征的作用: 当箱形图很短时,就意味着很多数据点是相似的,因为很多值是在一个很小的范围内分布; 当箱形图较高时,就意味着大部分的数据点之间的差异很大,因为这些值分布的很广; 如果中位数接近了底部,那么大部分的数据具有较低的值。如果中位数比较接近顶部,那么大多数的数据具有更高的值。基本上,如果中位线不在框的中间,那么就表明了是偏斜数据; 如果框上下两边的线很长表示数据具有很高的标准偏差和方差,意味着这些值被分散了,并且变化非常大。如果在框的一边有长线,另一边的不长,那么数据可能只在一个方向上变化很大 二、概率分布 我们可以将概率定义为一些事件将要发生的可能性大小,以百分数来表示。在数据科学领域中,这通常被量化到0到1的区间范围内,其中0表示事件确定不会发生,而1表示事件确定会发生。那么,概率分布就是表示所有可能值出现的几率的函数。请看下图:

相关主题
文本预览
相关文档 最新文档