当前位置:文档之家› 第十五章 生存分析第一节生存资料的特点

第十五章 生存分析第一节生存资料的特点

第十五章 生存分析第一节生存资料的特点
第十五章 生存分析第一节生存资料的特点

第十五章生存分析

第一节生存资料的特点

前面有关章节介绍了多种定量资料和定性资料的统计分析方法。下面是一个临床实例,请思考该资料的特点,应选用何种统计方法进行统计分析较为合适。

某医生将22例肺癌患者随机分为两组,分别采用化疗和放化疗联合治疗,从缓解出院日开始随访,随访时间(月)如下(带“+”号的数据表示患者至少存活了多少个月)。试比较化疗和放化疗联合治疗肺癌的疗效是否有差别。

化疗组1,2,3,5,6,9+,11,13,16,26,37+

放化疗联合组10,11+,14,18,22,22,26,32,38,40+,42+

该医生的研究目的是评价化疗和放化疗联合治疗两种临床治疗措施的疗效。临床治疗措施的疗效评价,一方面要看治疗措施所引起的“结局”(该资料中,即为“生存”或“死亡”),另一方面还要看得到这种结局所经历的时间长短(该资料中,即为患者接受化疗或放化疗联合治疗后存活多长时间,或患者接受化疗或放化疗联合治疗后多长时间发生死亡)。显然,结局为“生存”且存活时间越长,其疗效就越好。反之,结局为“死亡”且存活时间越短,其疗效就越差。结局虽然都是“死亡”,但能够使患者生存时间越长的临床治疗措施的疗效就越好。

从前面几个章节所学习的内容来看,可以考虑的方法有t检验、方差分析或秩和检验。但t检验和方差分析都要求所比较的两个样本来自正态分布总体,而该资料两个组中均有带“+”号的数据,其提供的信息不完整,如“9+”表示该患者至少存活了9个月,但准确死亡时间不清楚,这就导致两个样本的总体分布不明确,不满足t检验和方差分析的应用条件。退一步说,即使该资料满足t检验和方差分析的应用条件,但由于这两种方法均只是比较患者接受化疗和放化疗联合治疗后的生存时间有无差别,并未分析两种治疗措施的结局有无差别,因而达不到综合评价这两种治疗措施疗效的目的。因此,不宜采用t检验或方差分析。秩和检验虽不对样本所来自的总体作严格限定,但它也只能比较患者接受两种治疗措施后的生存时间有无差别,并不能分析两种治疗措施的结局有无差别,因而也达不到综合评价这两种治疗措施疗效的目的。因此,该资料也不适宜采用秩和检验。

那么,能否将其转变为定性资料后采用定性资料的统计分析方法进行分析?

如果勉强把带“+”号的患者看作“生存”的话,该资料可转化为二分类(结局为“生存”和“死亡”)的四格表资料:化疗组2人生存,9人死亡;放化疗联合组3人生存,8人死亡。由于样本含量小(2240

n=<),可采用四格表资料确切概率法进行统计分析。但这种处理有失妥当:一是带“+”号的患者并不都是存活的患者;二是将定量资料转化为定性资料会损失部分信息。更为重要的是,转化为定性资料后采用四格表资料Fisher确切概率法进行分析,只是比较两种治疗措施的结局(生存率)有无差别,而未比较患者接受两种治疗措施后的生存时间有无差别,因而也达不到综合评价这两种治疗措施疗效的目的。因此,将该资料转化为定性资料后采用四格表资料确切概率法进行统计分析亦欠妥当。

综上所述,这种类型的资料采用前面章节介绍的定量资料或定性资料的统计分析方法进行统计分析均不合适。那么,这种类型的资料究竟有些什么特点、适宜采用何种统计方法进行统计分析?

在医学科学研究中,与之相类似的资料还有很多。在这类研究中,研究者不仅关心某事件发生的结局,同时还关心发生这种结局所经历的时间。如恶性肿瘤、糖尿病、高血压、心血管疾病等慢性病治疗措施的疗效评价,不仅要考虑治愈率或缓解率,还要考虑治愈时间或缓解时间;预防保健措施的效果评价,不仅要考虑使用保健措施的结果(“好”或“坏”),同时还要考虑出现这种结果所经历的时间,如采取健康教育控制青少年吸烟的效果评价,不仅要考虑青少年接受健康教育后是否吸烟,还要考虑从戒烟到复吸的时间长短;疾病预后的影响因素评价,也要同时考虑疾病的结局(“生存”和“死亡”)和出现这种结局所经历的时间,如肾移植患者术后效果的影响因素评价,不仅要考虑患者是否存活,还要考虑其生存时间。这类资料在统计学上被称为生存资料(survival data),概括起来具有以下几个共同特点:①蕴涵有结局和时间两个方面的信息;②结局为两分类互斥事件;③一般是通过随访收集得到,随访观察往往是从某统一时间点(如确诊、入院或实施手术等某种处理措施后)开始,观察到某规定时间点截止;④常因失访等原因造成某些研究对象的生存时间数据不完整,分布类型复杂,不能简单地套用前面介绍过的统计方法,如t检验、方差分析、2χ检验、四格表资料确切概率法或秩和检验进行分析。

分析生存资料的统计方法称为生存分析(survival analysis),它是将事件的结局和发生这种结局所经历的时间进行综合分析的一大类统计方法。生存分析是近

30多年来逐步发展和完善起来的一种新的数理统计学分支,具有相对独立的理论体系。随着其理论体系的不断完善和计算机技术的飞速发展,目前已广泛应用于工业、农业、国防和医学等领域。本章首先介绍生存分析的基本内容及几个基本概念,然后重点介绍未分组资料和分组资料的生存分析,以及生存曲线比较的假设检验方法。

第二节生存分析的基本内容及几个基本概念

一、生存分析的基本内容

1. 描述生存过程:研究生存时间的分布特点,估计生存率及其标准误、绘制生存曲线等。例如,根据乳腺癌患者手术后的生存资料,可以估计不同时间点的生存率及其标准误,如1年生存率、3年生存率、5年生存率等,还可以绘制生存曲线,观察乳腺癌患者手术后的生存过程。常用方法有乘积极限法和寿命表法。

2. 比较生存过程:获得生存率及其标准误的估计值后,可进行两组或多组生存曲线(生存过程)的比较。例如,比较两种不同治疗措施治疗恶性肿瘤患者的生存曲线,可了解哪种治疗措施较优,从而为临床决策提供依据。常用方法有对数秩检验。

3. 生存过程的影响因素分析:例如,为了改善鼻咽癌患者的预后,应先了解可能影响患者预后的因素,如年龄、病程、病情、术前健康状况、有无淋巴结转移、术后有无感染、辅助治疗措施、营养状况等,通过随访收集患者术后的生存时间和上述因素的资料,然后采用多因素生存分析方法确定影响患者预后的主要因素,从而为在手术前后进行预防或干预提供参考依据。常用的多因素生存分析方法有Cox比例风险回归模型(见第十六章)。

二、生存分析中的几个基本概念

1. 死亡事件(death event) 又称失效事件(failure event)或终点事件,死亡事件是一个广义概念,不单是指通常意义下的生物体死亡,而是泛指标志某种处理措施失败或失效的特征事件。一般是在设计阶段根据研究目的来确定,如乳腺癌患者手术后的死亡、白血病患者化疗后的复发、肾移植患者的肾功能衰竭、接受健康教育戒烟后的青少年复吸烟、接受某种健康保险方式后的中途退保等,均可作

为死亡事件。

2. 生存时间(survival time) 指观察到的存活时间,可用天、周、月、年等时间单位记录,常用符号t表示。如表15.1中6个患者的生存时间分别为117,89,108,96,58,85天。

表15.1 6例乳腺癌患者手术后的随访记录

患者编号

观察记录

生存天数

t

开始日期终止日期

结局

(死=1,生=0)

原因

1 2002-09-03 2002-12-29 0 死于肺癌117+

2 2002-09-10 2002-12-08 1 转移死亡89

3 2002-09-1

4 2002-12-31 0 研究终止108+

4 2002-08-2

5 2002-11-29 0 失访96+

5 2002-10-01 2002-11-28 0 死于车祸58+

6 2002-10-04 2002-12-28 1 复发死亡85

一般情况下,较细的时间单位准确性较高,因为多数生存分析方法都是在生存时间排序的基础上进行统计处理的,即使是较小的舍入误差,也可能改变生存时间顺序而影响分析结果。但实际工作中有时很难采用较细的时间单位来度量生存时间,如研究者知道某乳腺癌患者在2002年11月间死亡,但可能不知道具体是哪一天,此时只能用较粗的时间单位“月”来度量,或用2002年11月15日作为该患者死亡时间的粗略估计值。生存时间也是一个广义概念,不单是指通常意义下生物体的存活时间,而是泛指研究者所关心的某现象的持续时间,如白血病患者化疗后的缓解时间、肾移植患者的存活时间、接受健康教育后青少年的戒烟时间、投保某种健康险至中途退保的时间等。生存时间根据其不同的特点,可分为以下两种类型:

(1) 完全数据(complete data):指从观察起点到发生死亡事件所经历的时间,如表15.1中2和6号患者对应的生存天数89天和85天。

(2) 截尾数据(censored data):简称截尾值(censored value),又称删失值或终检值。生存时间观察过程的截止不是由于死亡事件,而是由于其他原因引起的,称为截尾(censored)。截尾的主要原因有以下三种:①失访(withdrawal):指失去联系,如信访无回音、电话采访不应答、上门采访找不到人、搬迁没留地址等;

②退出:指死于非研究因素或非处理因素而退出研究,如死于车祸等意外事件、死于其它疾病等;③终止:指设计时规定的研究时限已到而终止观察,但研究对象仍然存活。从观察起点到截尾时点所经历的生存时间称为截尾数据,习惯上在生存时间右上标注“+”表示,如表15.1中1, 3, 4, 5号患者的生存天数分别记

录为117+, 108+, 96+, 58+

完全数据提供了观察对象确切的生存时间,是生存分析的主要依据;截尾数据仅提供了部分信息,研究者并不知道观察对象确切的生存时间。因此,截尾数据太多会影响生存分析的效果。

3. 死亡概率与生存概率

(1) 死亡概率(mortality probability):记为q ,是指在某单位时段开始时存活的个体在该时段内死亡的可能性大小。年死亡概率的计算公式为:

q =

某年内死亡数

某年年初观察例数

(15.1)

若年内有截尾,则分母用校正人口数:

截尾例数年初观察例数校正人口数2

1

-

= (15.2) (2) 生存概率(survival probability):记为p ,与死亡概率相对立,表示在某单

位时段开始时存活的个体到该时段结束时仍存活的可能性大小。某年生存概率的计算公式为:

1p q =-=

某年活满一年人数某年年初观察例数

(15.3)

分子即年底尚存人数,若年内有截尾,则分母用校正人口数。

4. 生存率与生存曲线

(1) 生存率(survival rate):记为?()k

S t ,是指观察对象活过t k 时刻的概率。生存率也是一个广义概念,研究者定义的死亡事件不同,其含义亦不同,可以是缓解率、有效率等。如定义白血病化疗的死亡事件为白血病复发,此时生存率即为缓解率;定义预防接种腮腺炎疫苗的死亡事件为接种儿童发生腮腺炎,此时生存率即为疫苗的有效率;定义安置宫内节育器的死亡事件为因带环受孕取出节育器,此时生存率即为节育器的保留率。若无截尾数据,则

?()()k k k

t S t P T t =≥=时刻仍存活的例数观察总例数

(15.4)

式中T 为观察对象的存活时间。但如果含有截尾数据,分母就必须分时段校正,故上式一般不能直接使用,大多采用概率乘法原理估计生存率。

假定观察对象在各个时段的生存事件独立,生存概率分别为12k p p p L ,,

,,则根据概率乘法原理得到生存率的估计公式为:

12?()()k k k

S t P T t p p p =≥=L (15.5) 从式(15.5)可知,?()k

S t 实质上是累积生存概率(cumulative probability of survival)。例如,3年生存率等于第一年、第二年和第三年生存概率的连乘积,是第一年存活,第二年也存活,第三年仍然存活的累积结果。但习惯上仍根据式(15.4)的定义称之为生存率。

(2) 生存曲线(survival curve):是指将各个时点的生存率在坐标轴上连接在一起的曲线图,用以描述生存过程。

5. 中位生存时间(median survival time) 又称半数生存期,是指生存率为0.5时对应的生存时间,表示有50%的观察对象可活这么长时间。一般采用内插法进行估计。

第三节 未分组资料的生存分析

未分组资料是指由每个观察单位的原始测得值组成的资料,在生存分析中即为各观察单位的具体生存时间资料,对该类资料常用乘积极限法(product-limit estimate)进行分析。乘积极限法是一种非参数方法,由Kaplan-Meier 于1958年首先提出,故又称Kaplan-Meier 法(简记为KM 法)。下面结合实例说明该方法的应用。

例15.1 某医师采用手术疗法治疗12例宫颈癌患者,随访时间(月)记录如下:1,2,4,5,7,8+,11,15,18,33+,36,38+。试估计各时点生存率及其标准误、各时点总体生存率的95%置信区间、中位生存时间,并绘制生存曲线。

表15.2 乘积极限法估计生存率及其标准误计算表

序号 生存时间 死亡数 期初病例数 死亡概率 生存概率

生存率

标准误 k

t k

d k

n k

k q k p

?()k

S t ?()k SE S t ????

(1) (2) (3) (4) (5) (6) (7) (8) 1 1 1 12 1/12 1-1/12 0.9167 0.0798 2 2 1 11 1/11 1-1/11 0.8333 0.1076 3 4 1 10 1/10 1-1/10 0.7500 0.1250 4 5 1 9 1/9 1-1/9 0.6667 0.1361 5 7 1 8 1/8 1-1/8 0.5833 0.1423 6 8+ 0 7 0/7 1-0/7 0.5833 0.1423 7 11 1 6 1/6 1-1/6 0.4861 0.1481 8 15 1 5 1/5 1-1/5 0.3889 0.1470 9 18 1 4 1/4 1-1/4 0.2917 0.1387 10 33+ 0 3 0/3 1-0/3 0.2917 0.1387 11 36

1 2 1/2 1-1/2 0.1458 0.1243 12

38+

1

0/1

1-0/1

0.1458

0.1243

1. 生存率及其标准误的计算 本例生存时间以月为单位,并将t 月当作一个时点看待。现对表15.2中各栏的含义解释如下:

第(1)栏为序号:本例k =1, 2, 3, …, 12。

第(2)栏是将生存时间t 由小到大依次排列,如某时间点既有完全数据又有截尾数据,将截尾数据排在后面。

第(3)栏为t 月的死亡人数d k ,如生存时间t 为5个月时有1例死亡,相应的

4d =1。截尾患者即便是已死亡,也非死于处理措施(手术疗法),所以相应的d =0,

如生存时间t 为8月时有1例截尾,相应的6d =0。

第(4)栏为期初病例数k n ,即恰好在t 时点以前尚存活的病例数,如t 为5月时对应的4n =9,表示恰好在5月时点前有9人存活。

第(5)栏计算各时点死亡概率k q ,即在t 时点以前尚存活的患者恰好在t 时点上(第t 个月)死亡的概率,其计算公式为/k k k q d n =。如4q 表示在5月时点前尚存活的9例患者恰好在5月时点上(实指治疗后第5个月的第1天到月末)的死亡概率为41/9q =。

第(6)栏计算各时点生存概率k p ,即在t 时点以前尚存活的患者在t 时点上(第t 个月)继续存活的概率,其计算公式为11/k k k k p q d n =-=-。如t 为5月时对应

的444411/11/9p q d n =-=-=-。

第(7)栏计算各时点生存率?()k

S t ,即在t 时点以前尚存活的患者活过t 时点的概率,按式(15.5)计算。如生存时间t 为4月的生存率为:

3123

111?()(1)(1)(1)0.7500121110

S t p p p =??=---= 第(8)栏为各时点生存率的标准误,其计算公式为:

??[()](k k

SE S t S t = (15.6)

如3?()S t 的标准误3

?[()]SE S t 为:

3

?[()]0.1250SE S t ==

2. 估计各时点总体生存率的95%置信区间 求出各时点样本生存率及其标准误后,可用正态近似原理估计某时点总体生存率的置信区间,公式为:

??()[()]k k

S t u SE S t α± (15.7) 如本例4月总体生存率的95%置信区间为:

下限 33??() 1.96[()]0.7500 1.960.12500.5050S t SE S t -=-?= 上限 33

??() 1.96[()]0.7500 1.960.12500.9950S t SE S t +=+?= 即手术治疗后宫颈癌患者4月生存率的95%置信区间为50.50%~99.50%。 注意:对生存曲线右端尾部的生存率不宜用该法估计其总体生存率的置信区间,因为生存曲线右端尾部的期初观察人数较少,用该法估计总体生存率的置信区间误差较大,可能会出现一些不合理的现象。

3. 中位生存时间的计算 由表15.2可见,中位生存时间估计在7~11月之间,采用内插法计算如下:

(711):(7)(0.58330.4861):(0.58330.5)t --=--

4.104861

.05833.0)

5.05833.0)(117(7=----

=t

即采用手术治疗后宫颈癌患者的中位生存时间为10.4个月。

4. 生存曲线 未分组资料的生存曲线也称Kaplan-Meier 曲线。它是以生存

时间t 为横轴,生存率?()k

S t 为纵轴,绘制而成的连续型的阶梯形曲线,用以说明

生存率与生存时间之间的关系。生存曲线中水平横线的长短代表一个t 时点到下一个t 时点的距离,当最后一个时点的观察对象全部死亡时,曲线与横轴相交。生存曲线图可直观地比较各组观察对象的生存过程,也可对任意时刻的生存率作出粗略估计。例15.1的生存曲线如图15.1。

图15.1 12例宫颈癌患者的生存曲线(Kaplan-Meier 曲线)

第四节 分组资料的生存分析

实际工作中,许多研究的随访是每年1次或每月1次,随访结果只有某年或某月的观察人数、发生死亡事件人数和截尾人数,而没有每个观察对象确切的生存时间,即只能获得按随访时间分组的资料。另外,当样本含量较大(如50n )时,采用乘积极限法估计生存率及标准误较为繁琐,往往是先将原始资料按照生存时间分组后再进行分析。这种分组资料的生存分析常采用寿命表法(life-table method)。实际上,寿命表法的提出早于乘积极限法,可看作乘积极限法的一种近似。下面结合实例说明该方法的应用。

例15.2 某医师对110例原发性肺癌患者确诊后进行随访,得资料见表15.3第(2)栏~第(4)栏,试估计各时点生存率及其标准误、各时点总体生存率的95%置信区间、中位生存时间,并绘制生存曲线。

表15.3 寿命表法估计生存率及其标准误计算表

生存率

序号 k (1) 月数 k t (2) 尾人数 k C (3) 亡人数 k D (4) 察人数 k L (5) 人数 k N (6)

概率 k q (7)

概率 k p (8) ?()k

S t (9)

?[()]k

SE S t (10) 1 0~ 1 25 110 109.5 0.2283 0.7717 0.7717 0.0401 2 1~ 2 21 84 83.0 0.2530 0.7470 0.5765 0.0475 3 2~ 1 30 61 60.5 0.4959 0.5041 0.2906 0.0441 4 3~ 2 18 30 29.0 0.6207 0.3793 0.1102 0.0311 5 4~ 0 2 10 10.0 0.2000 0.8000 0.0882 0.0285 6 5~ 1 1 8 7.5 0.1333 0.8667 0.0764 0.0270 7 6~ 0 2 6 6.0 0.3333 0.6667 0.0510 0.0233 8 7~ 2 0 4 3.0 0.0000 1.0000 0.0510 0.0233 9 8~ 0 1 2 2.0 0.5000 0.5000 0.0255 0.0215 10

9~10

1

1

0.5 0.0000

1.0000

0.0255

0.0215

1. 生存率及其标准误的计算 本例生存时间以月为单位,现对表15.3中各栏的含义解释如下:

第(1)栏为序号:本例k =1,2,3, (10)

第(2)栏为确诊后月数k t 。“0~”表示从确诊日起不满1月,“1~”表示确诊后满1月但未满2月,其他依此类推。

第(3)栏为期内截尾人数C k ,表示确诊后满t 月但未满t+1月期间截尾的人数。如C 3=1,表示确诊后满2月但未满3月期间有1例截尾。

第(4)栏为期内死亡人数k D ,表示确诊后满t 月但未满t+1月期间发生死亡事件的人数。如1D =25,表示确诊后未满1月有25例死于原发性肺癌;4D =18表示确诊满3月但未满4月有18例死于原发性肺癌。

第(5)栏为期初观察人数k L ,指k t 月初尚存活的病例数。此栏自下而上累计求得,计算公式为:

k k k k D C L L ++=+1 (15.8)

如本例84L =,则62047787=++=++=D C L L ,676661L L C D =++=+

18+=,余类推。

第(6)栏为校正人数N k ,相当于实际观察人月数。凡在t 月内截尾的病例都被当作平均观察了半月时间,因此校正人数N k 等于月初观察人数减去当月截尾人数的一半,其计算公式为:

2/k k k C L N -= (15.9)

如“2~”月组,5.602/1612/333=-=-=C L N

“3~”月组,292/2302/444=-=-=C L N ,余类推。

第(7)栏为死亡概率k q ,表示确诊后活满t 月的病人在今后一个月内死亡的概率,其计算公式为:

/k k k q D N = (15.10)

如333/30/60.50.4959q D N ===,表示确诊后活满2月的病人,在第3个月内死亡的概率为0.4959,余类推。

第(8)栏为生存概率k p ,表示确诊后活满t 月的病人在今后一个月内存活的概率,其计算公式为:

1k k p q =- (15.11)

如33110.49590.5041p q =-=-=,余类推。

第(9)栏为t 月生存率,表示确诊后活满t 月的概率,采用式(15.5)计算得到。

如1月生存率1

?()0.7717S t = 2月生存率212

?()0.77170.74700.5765S t p p =?=?= 3月生存率3123?()0.77170.74700.50410.2906S t p p p =??=??= 余类推。

第(10)栏为生存率的标准误?[()]k

SE S t ,其计算公式为:

??[()](k k

SE S t S t = (15.12) 如1月生存率的标准误为:

11

??[()](0.0401SE S t S t === 2月生存率的标准误为:

2

?[()]0.0475SE S t ==

3月生存率的标准误为:

3

?[()]0.0441SE S t ==

余类推。

2. 估计各时点总体生存率的95%置信区间 求出各样本生存率及其标准误后,亦可根据正态近似原理,采用式(15.7)估计其总体生存率的置信区间。如3月生存率的95%置信区间为:

下限 33??() 1.96[()]0.2906 1.960.04410.2042S t SE S t -=-?= 上限 33

??() 1.96[()]0.2906 1.960.04410.3770S t SE S t +=+?= 即原发性肺癌确诊后患者3月生存率的95%置信区间为20.42%~37.70%。 同样要注意,对生存曲线右端尾部的生存率不宜用该法估计其总体生存率的置信区间。

3. 中位生存时间的计算 由表15.3可见,中位生存时间估计在2~3月之间,采用内插法计算如下:

(23):(2)(0.57650.2906):(0.57650.5)t --=--

3.22906

.05765.0)

5.05765.0)(32(2=----

=t

即原发性肺癌确诊后患者的中位生存时间为2.3个月。

4. 生存曲线 分组资料的生存曲线是以生存时间t 为横轴,生存率?()k

S t 为纵轴,绘制而成的连续型的折线形曲线,用以说明生存时间与生存率之间的关系。一般不宜绘成阶梯形曲线,因为分组资料是按生存时间分组的,即便是每个组内的两个时点生存率也是不同的,且不详其变化规律,故用直线连接之。绘制时要注意,各个组段对应的生存率应点在各组段的上限处。同未分组资料生存曲线一样,当最后一个时点的观察对象全部死亡时,曲线与横轴相交。例15.2的生存曲线如图15.2。

图15.2 110例原发性肺癌患者的生存曲线(寿命表法)

第五节 生存曲线的比较

生存曲线比较的假设检验方法较多,本节重点介绍一种常用方法——对数秩检验。

对数秩检验(log-rank test)的基本思想是,假定无效假设成立(两总体生存曲线位置相同),则根据两种处理不同生存时间的期初观察人数和理论死亡概率计算出的理论死亡数,与实际死亡数应相差不大,否则无效假设不成立,认为两条生存曲线的位置不同。对数秩检验可用于两个或多个生存曲线的比较,其检验统计量的计算公式如下:

()∑

-=T

T A 22

χ (15.13)

1ν=-组数

式中,A 为实际死亡数,T 为理论死亡数。

查2χ界值表(附表9),得到P 值,按所取检验水准α作出推断结论。 下面结合实例说明其应用。

例15.3 某临床医生将22例肺癌患者随机分成两组,分别采用化疗和放化疗联合治疗,从缓解出院日开始随访,随访时间(月)如下,试比较化疗和放化疗联合治疗的疗效是否有差别。

化疗组 1,2,3,5,6,9+,11,13,16,26,37+

放化疗联合组 10,11+,14,18,22,22,26,32,38,40+,42+

生存率

先用乘积极限法估计出两组患者不同时点的生存率,绘制生存曲线如图15.3。由图15.3可直观地看出,放化疗联合组的生存曲线位置较高。

图15.3 化疗组和放化疗联合组患者的生存曲线

对本资料进行对数秩检验的步骤:

1. 建立检验假设,确定检验水准 H 0:化疗与放化疗联合治疗的效果相同 H 1:化疗与放化疗联合治疗的效果不同

0.05α=

2. 计算检验统计量

(1) 将两组患者按生存时间统一从小到大排序,并标明组别(化疗组简写为“化”,放化疗联合组简写为“联”)和死亡数,生存时间相同的化、联两组列在同一行,如生存时间为26个月的患者有2例,化疗组和放化疗联合组各1例,故化、联两组列在同一行;某时间点既有完全数据又有截尾数据,截尾数据排在后面。如生存时间t 为11个月时,化疗组和放化疗联合组各1例,但放化疗联合组的为截尾数据,故排在后面。见表15.4第(1)~(4)栏。

表15.4 对数秩检验计算表

序号 组别 生存时间 死亡数 期初病例数

理论死亡数 (1)

(2)

t (3)

d (4)

n 化 (5)

n 联 (6)

合计

(7)

化疗组(8)=(4)×(5)/(7)

放化疗联合组(9)=(4)×(6)/(7)

生存时间(月)

生存率

1 化 1 1 11 11 2

2 0.5000 0.5000 2 化 2 1 10 11 21 0.4762 0.5238

3 化 3 1 9 11 20 0.4500 0.5500

4 化

5 1 8 11 19 0.4211 0.5789 5 化

6 1

7 11 1

8 0.388

9 0.6111 6 化 9+ 0 6 11 17 0.0000 0.0000 7 联 10 1 5 11 16 0.3125 0.6875 8 化 11 1 5 10 15 0.3333 0.6667 9 联 11+ 0 4 10 14 0.0000 0.0000 10 化 13 1 4 9 13 0.3077 0.6923 11 联 14 1 3 9 12 0.2500 0.7500 12 化 16 1 3 8 11 0.2727 0.7273 13 联 18 1 2 8 10 0.2000 0.8000 14 联 22 2 2 7 9 0.4444 1.5556 15 化、联 26 2 2 5 7 0.5714 1.4286 16 联 32 1 1 4 5 0.2000 0.8000 17 化 37+ 0 1 3 4 0.0000 0.0000 18 联 38 1 0 3 3 0.0000 1.0000 19 联 40+ 0 0 2 2 0.0000 0.0000 20 联 42+ 0 0 1 1 0.0000 0.0000 合计

5.1282

11.8718

(2) 列出各时点的期初病例数,见表15.4第(5)~(7)栏。

(3) 分别计算化、联两组各时点的理论死亡数,见表15.4第(8)~(9)栏。化疗组各时点的理论死亡数=(该时点病死数/期初病例总数)×化疗组期初病例数=(4)/(7)×(5)=(4)×(5)/(7),放化疗联合组各时点的理论死亡数=(4)×(6)/(7)。两组生存曲线比较时,每个时点均可列出一个四格表,如生存时间26t =对应的四格表如表15.5,因此,化、联两组理论死亡数的计算公式,实际上就是2χ检验理论频数计算式n

n n T c

r ?=

。 表15.5 生存时间26t =对应的四格表

组别

存活

死亡

合计

化疗组 1 1 2 放化疗联合组

4 1

5 合 计

5

2

7

(4) 求出化疗组和放化疗联合组理论死亡数的合计值分别为 5.1282、11.8718。

将以上结果总结为表15.6,

化疗组 9 5.1282 放化疗联合组

8

11.8718

()()19.48718

.118718.1181282.51282.592

22

=-+

-=χ

211ν=-=

3. 确定P 值,作出推断结论

查2

χ界值表(附表9),,得P <0.05,按0.05α=水准拒绝H 0,接受H 1,差别有统计学意义。从图15.3可直观地看出放化疗联合组的生存曲线位置较高,故可认为放化疗联合治疗肺癌的疗效比单纯化疗的好。

应用对数秩检验应注意以下事项:

1. 该方法亦适用于分组资料以及多组间的比较。

2. 该方法用于生存曲线的比较,若要比较两条生存曲线某时间点的生存率(如2年生存率或3

年生存率)有无差别,可按下式计算检验统计量,然后查t 界值表(附表3)确定P 值。

??Z =

(15.14)

若要同时比较多个时点生存率有无差别,检验水准应作Bonferroni 校正,即

k /αα=',其中k 为比较的次数,以保证总的I 型错误概率不超过α。

3. 各处理措施的优劣除了可根据各组生存曲线的高低直观判断外,还可以根据中位生存时间和死亡比SMR )/(T A SMR =的大小来判断。中位生存时间较大或死亡比较小的处理措施的效果较好。如例15.3中9/5.1282 1.7550SMR ==化,

8/11.87180.6739 SMR==

联,SMR SMR

<

联化

,因此可认为放化疗联合治疗肺癌

的效果比单纯化疗的好。

4. 本法属于单因素分析方法,除需满足生存资料的基本要求外,还要求各样本生存曲线不能交叉。如出现交叉,则提示可能存在混杂因素,应采用分层对数秩检验或Cox比例风险回归模型进行分析。

小结

生存分析是近年来逐步发展和完善起来的新的数理统计学分支,具有相对独立的理论体系。本章主要讲述了生存资料的特点、生存分析的几个基本概念、生存资料的统计描述以及生存曲线的比较等。

生存资料具有以下几个特点:①蕴涵有结局和时间两个方面的信息;②结局为两分类互斥事件;③一般是通过随访收集得到;④常因失访等原因造成某些研究对象的生存时间数据不完整,分布类型复杂。

生存资料的统计描述中生存概率和生存率为两个最基本的统计量。生存率的非参数估计方法有大样本分组资料的寿命表法和小样本未分组资料的乘积极限法(又称Kaplan-Meier法)。中位生存时间指生存率为0.5时对应的生存时间,表示有50%的观察对象可活这么长时间,一般采用内插法估计。以观察时间作横坐标,生存率作纵坐标,将各个时间点生存率连接在一起绘制的线图称为生存曲线,用以描述生存过程。

生存曲线比较的假设检验方法较多,本章重点介绍了一种非参数检验方法,即log-rank检验,亦称对数秩检验,该法不要求生存时间服从某特定的分布,且是对整个生存曲线的比较,而不是某个特定时间点生存率的比较。

(丁元林)

第十四章spss之生存分析2张文彤

第十四章活着--Survival菜单详解(下) (医学统计之星:董伟) 上次更新日期: 13.1 Life Tables过程 13.1.1 界面说明 13.1.2 结果解释 13.2 Kaplan-Meier过程 13.2.1 界面说明 13.2.2 结果解释 13.3 Cox Regression过程 13.3.1 界面说明 13.3.2 结果解释 13.4 Cox w/Time-Dep Cov过程 13.4.1 界面说明 13.4.2 结果解释 §13.3 Cox Regression过程上面给大家介绍的是两种生存分析方法,但它们只能研究一至两个因素对生存时间的影响,当对生存时间的影响因素有多个时,它们就无能为力了,下面我给大家介绍Cox Regression过程,这是一种专门用于生存时间的多变量分析的统计方法。 Cox Regression过程主要用于:

1、用以描述多个变量对生存时间的影响。此时可控制一个或几个因素,考察其他因素对生存时间的影响,及各因素之间的交互作用。 例13.3 40名肺癌患者的生存资料(详见胡克震主编的《医学随访统计方法》1993,77页) 生存时间状态生活能力评分年龄诊断到研究时间鳞癌小细胞癌腺癌疗法癌症类别411 1 70 64 5 1 0 0 1 1.00 126 1 60 63 9 1 0 0 1 1.00 118 1 70 65 11 1 0 0 1 1.00 注:原数据库是用亚变量定义肺癌分类:0,0,0为其它癌;1,0,0为鳞癌;0,1,0为小细胞癌;0,0,1为腺癌。表中的最后一个变量是我加上去的癌症类别,1为鳞癌;2为小细胞癌;3为腺癌;4为其它癌。实践表明结果与用亚变量计算一样。 13.3.1 界面说明 图9 Cox回归主对话框

第19章 生存分析思考与练习参考答案

第19章生存分析 思考与练习参考答案 一、最佳选择题 1. 下列有关生存时间的定义中正确的是( E )。 A.流行病学研究中,从开始接触某危险因素至某病发病所经历的时间 B.乳腺增生症妇女治疗后阳性体征消失至首次复发的时间 C.肺癌患者从手术治疗开始到死亡的时间 D.急性白血病患者从治疗开始到缓解的时间 E.以上均正确 2. 教材表19-18表是急性白血病患者药物诱导后缓解至首次复发的随访记录。 教材表19-18 急性白血病患者药物诱导后缓解至首次复发的随访记录编号缓解日期终止观察日期结局生存时间/天 1 2000.04.01 2000.09.06 复发158 2 2001.11.05 2002.02.05 死亡91 3 2000.07.15 2000.12.10 复发147 4 2001.05.20 2001.08.2 5 失访96 5 2002.09.03 2002.12.31 缓解119 …………… 生存时间属删失数据的有(C)。 A.1号和3号B.1号和2号C.2号、4号和5号 D.2号、3号和4号E.1号、2号和3号 3. 下列有关log-rank检验的描述中正确的是(A)。 A.log-rank检验是各组生存率的整体比较 B.log-rank检验是各组生存率某时间点的比较 C.log-rank检验属生存曲线比较的参数法 D.log-rank检验中,各组实际死亡数必等于理论死亡数 E.log-rank检验的自由度为1 4. Log-rank检验与Breslow检验相比,( B )。 A.log-rank检验对组间死亡近期差异敏感

B.log-rank检验对组间死亡远期差异敏感 C.Breslow检验对组间死亡远期差异敏感 D.两者对组间死亡远期差异同样敏感 E.两者对组间死亡近期差异同样敏感 5. Cox回归模型要求两个不同个体在不同时刻t的风险函数之比(D)。 A.随时间增加而增加 B.随时间增加而减小 C.开始随时间增加而增加,后来随时间增加而减小 D.不随时间改变 E.视具体情况而定 二、思考题 1. 生存分析的主要用途及其统计学方法有哪些? 答:生存分析在生物医学领域主要解决如下问题。 估计:即根据一组生存数据估计它们所来自的总体的生存率及其他一些有关指标。如根据白血病化疗后的缓解时间资料,估计不同时间的缓解率、缓解率曲线以及半数生存期。估计生存率常用寿命表法和Kaplan-Meier(K-M)法。 比较:即比较不同受试对象生存数据的相应指标是否有差别。最常见的是比较各组的生存率是否有差别,如比较不同方案治疗白血病的缓解率曲线,以了解哪种治疗方案较优。生存曲线比较常用log-rank检验和Breslow检验。 影响因素分析:其目的是为了研究影响生存时间长短的因素,或在排除一些因素影响的情况下,研究某个或某些因素对生存率的影响。例如,为改善白血病患者的预后,应了解影响患者预后的主要因素,包括患者的年龄、病程、白细胞数、化疗方案等。影响因素分析常用Cox回归。 生存预测:具有不同因素水平的个体生存预测估计,如根据白血病患者的年龄、病程、白细胞数等预测该患者k年(月)生存率。生存预测常用Cox回归。 2. 生存率估计的K-M法和寿命表法是如何利用删失数据的? 答:常见的右删失数据表示真实的生存时间未知,只知道比观察到的删失时间要长。因此,生存率估计的K-M法和寿命表法计算期初例数时,都利用了删失数据提供的这部分信息。

生存分析

生存分析 本数据资料主要探讨不同处理对生存时间的影响,数据中,treat为连续变量,num2_treat为二分类变量,num3_treat为三分类等级变量。共纳入病人200例,进行生存分析步骤如下: 1.生存资料的定义: 命令:stset[时间变量] [截尾变量] 对应本数据为:stset time mortality 结果: 1)其中time指随访时间,即产生预期结果或者截尾时的时间减去纳入随访时的初始时间得到的天数。 2)Mortality为截尾变量,Stata视变量mortality不等于0的非缺失值为出现预期结果。3)Stata会同时产生4个新的变量: _st代表:数据中该条记录是否被定义为生存资料。 _d 代表:数据中该条记录是否出现预期结果。 _t 代表:数据中观察对象被随访的时间。 _t0 代表:数据中观察对象第一次被观察到的时间(开始过程的时间为0) 2.生存资料的描述。 1)计算中位生存时间的命令: stsum[if 表达式] ,[by(分组变量)选择项] 对应本数据:stsum,by(num2_treat) 结果:

由于两组中截尾数据出现的较早,故25%、50%和75%生存时间无法估计,Stata用缺失值表示。 4)stci命令可以用来计算中位生存时间、平均生存时间、生存时间的百分数及其可信区间。 命令:stci [if 表达式],[by(分组变量) 选择项] 其中选择项有:median(计算中位生存时间);rmean(计算平均生存时间) P(#)(生存时间的百分数);level(#)(可信区间的可信度)对应本数据:stci,by(num2_treat) median 结果: 同样由于两组中截尾数据出现的较早,故中位生存时间无法估计,Stata用缺失值表示。 stci,by(num2_treat) rmean 结果:

第十五章 生存分析第一节生存资料的特点

第十五章生存分析 第一节生存资料的特点 前面有关章节介绍了多种定量资料和定性资料的统计分析方法。下面是一个临床实例,请思考该资料的特点,应选用何种统计方法进行统计分析较为合适。 某医生将22例肺癌患者随机分为两组,分别采用化疗和放化疗联合治疗,从缓解出院日开始随访,随访时间(月)如下(带“+”号的数据表示患者至少存活了多少个月)。试比较化疗和放化疗联合治疗肺癌的疗效是否有差别。 化疗组1,2,3,5,6,9+,11,13,16,26,37+ 放化疗联合组10,11+,14,18,22,22,26,32,38,40+,42+ 该医生的研究目的是评价化疗和放化疗联合治疗两种临床治疗措施的疗效。临床治疗措施的疗效评价,一方面要看治疗措施所引起的“结局”(该资料中,即为“生存”或“死亡”),另一方面还要看得到这种结局所经历的时间长短(该资料中,即为患者接受化疗或放化疗联合治疗后存活多长时间,或患者接受化疗或放化疗联合治疗后多长时间发生死亡)。显然,结局为“生存”且存活时间越长,其疗效就越好。反之,结局为“死亡”且存活时间越短,其疗效就越差。结局虽然都是“死亡”,但能够使患者生存时间越长的临床治疗措施的疗效就越好。 从前面几个章节所学习的内容来看,可以考虑的方法有t检验、方差分析或秩和检验。但t检验和方差分析都要求所比较的两个样本来自正态分布总体,而该资料两个组中均有带“+”号的数据,其提供的信息不完整,如“9+”表示该患者至少存活了9个月,但准确死亡时间不清楚,这就导致两个样本的总体分布不明确,不满足t检验和方差分析的应用条件。退一步说,即使该资料满足t检验和方差分析的应用条件,但由于这两种方法均只是比较患者接受化疗和放化疗联合治疗后的生存时间有无差别,并未分析两种治疗措施的结局有无差别,因而达不到综合评价这两种治疗措施疗效的目的。因此,不宜采用t检验或方差分析。秩和检验虽不对样本所来自的总体作严格限定,但它也只能比较患者接受两种治疗措施后的生存时间有无差别,并不能分析两种治疗措施的结局有无差别,因而也达不到综合评价这两种治疗措施疗效的目的。因此,该资料也不适宜采用秩和检验。 那么,能否将其转变为定性资料后采用定性资料的统计分析方法进行分析?

第14章 创新

思考题 1.什么是创新?创新具有哪些原则? 答:组织在经济活动过程中,为达到目标,对各种资源进行新的、更有效的整合的行为过程。创新不仅包括创造新技术、新产品、新材料、新工艺,也包括创造新市场、新的管理制度和管理方法等。 4.什么是技术创新?具有什么特点?包括哪些方面? 答:技术创新是创新的重要组成部分,是创新活动中最重要的因素。从广义上说,技术创新是在科学技术上的新发现、新发明转化为社会生产力全过程的活动;从狭义上说或,技术创新是指在生产技术或服务技术方面改进或革新的一系列活动。技术创新包括以下几个方面:(1)产品创新。对一个企业而言,生产的产品是企业生存与发展的根本,企业的产品在市场上的受欢迎程度是企业市场竞争成败的主要原因。产品创新包括老产品的改造与新产品的开发。这种改造与开发是指对产品的结构、性能、材质、技术特征等一方面或几方面的改进或发明。它可以是利用新发明、新技术开发出一种全新的产品;也可以是在原有产品基础上部分采用新技术生产出来的满足新需要的换代型产品。 (2)工艺创新。工艺创新是指生产工艺的改革与操作方法的改进。生产工艺是企业生产产品的总体流程与方法,包括工艺过程、工艺参数和工艺配方等。生产工艺改进的典型案例为汽车生产方式的改变,汽车生产由传统的手工生产模式转向现在的流水线生产模式,极大地提高了汽车企业的生产率。操作方法是指劳动者利用生产设备在

个体生产环节对原材料、零部件或半成品进行加工的方法。 (3)材料创新。材料是企业产品和生产手段的基础,也是生产工艺和加工方法作用的对象。材料创新一方面是指寻找和发现现有材料的新用途,生产出新的产品以满足社会的需要,另一方面是指利用新技术与新知识制造新的合成材料。材料创新有着广泛的应用前景,如在制造业中广泛采用的各种新型材料就是材料创新的成功典范。(4)手段创新。手段创新主要是指企业生产的物质条件的改造与更新。企业应当注意生产手段的创新,以生产优质、低成本的产品占领市场。生产手段的创新主要包括两个方面:一方面是将先进的科学技术用于改进或革新现有的设备;另一方面是用更先进、更经济的生产手段取代现有的陈旧的、效率低下的生产手段。 6.技术创新的基本战略是什么? 答:(1)自主创新。所谓自主创新,是指企业主要依靠着自身的技术力量进行研究开发,并在此基础上,实现科技成果的商品化,最终获得市场的认可。自主创新具有率先性,因为一种新技术或者一种新产品的率先创新者只有一家,而其他采用这项技术、生产这种产品的企业都是创新的跟随者或模仿者,“北大方正”推出电子出版系统便是一个自主创新的典型实例。自主创新要求企业有雄厚的研究开发实力和研究成果积累,处于技术的领先地位,否则是做不到率先创新的。 (2)模仿创新。所谓模仿创新,是指在率先创新的示范影响和利益诱导之下,企业通过合法手段(如通过购买专有技术或专利许可的方式)引进技术,并在率先者技术的基础上进行改进的一种创新形

生存分析

Chapter7 Survival Models Our?nal chapter concerns models for the analysis of data which have three main characteristics:(1)the dependent variable or response is the waiting time until the occurrence of a well-de?ned event,(2)observations are cen-sored,in the sense that for some units the event of interest has not occurred at the time the data are analyzed,and(3)there are predictors or explanatory variables whose e?ect on the waiting time we wish to assess or control.We start with some basic de?nitions. 7.1The Hazard and Survival Functions Let T be a non-negative random variable representing the waiting time until the occurrence of an event.For simplicity we will adopt the terminology of survival analysis,referring to the event of interest as‘death’and to the waiting time as‘survival’time,but the techniques to be studied have much wider applicability.They can be used,for example,to study age at marriage, the duration of marriage,the intervals between successive births to a woman, the duration of stay in a city(or in a job),and the length of life.The observant demographer will have noticed that these examples include the ?elds of fertility,mortality and migration. 7.1.1The Survival Function We will assume for now that T is a continuous random variable with prob-ability density function(p.d.f.)f(t)and cumulative distribution function (c.d.f.)F(t)=Pr{T≤t},giving the probability that the event has oc-curred by duration t. G.Rodr′?guez.Revised September,2007

第十四章 生存分析

第十四章生存分析的Stata实现 本章使用的STATA命令: 结局变量为1表示失效事件发生 例14-2 McKelvey et al(1976)收集了3期的某型淋巴瘤患者的生存时间(天)。分别是6,19,32,42,42,43+,94,126+,169+,207,211+,227+,253,255+,270+,310+,316+,335+,346+。现用Kaplan-Meier法计算生存率。

Stata命令为: stset time,failure(d) sts list sts graph 结果为:

例14-3 下面是来自于Berkson & Gage(1950)的一个研究队列。为了叙述方便,把原来的出院后的生存时间改称为某恶性肿瘤术后生存时间。共有374名患者进入研究队列。 表14-3 寿命表法计算生存率的计算用表 (1) (2) (3) (4) (5) (6) (7) (8) (9) 序号术后生存 年数 期初观察 例数 期内 死亡 期内截尾 人数 校正期初 人数 死亡 概率 生存 概率 生存率t n d c n c=n-c/2 q=d/n c p=1-q S(t) 1 0~374 90 0 374 0.2406 0.7594 0.7594 2 1~284 76 0 284 0.2676 0.7324 0.5561 3 2~208 51 0 208 0.2452 0.7548 0.4198 4 3~157 2 5 12 151 0.165 6 0.8344 0.3503 5 4~120 20 5 117.5 0.1702 0.8298 0.2907 6 5~95 7 9 90.5 0.0773 0.9227 0.2682 7 6~79 4 9 74.5 0.0537 0.9463 0.2538 8 7~66 1 3 64.5 0.0155 0.9845 0.2498 9 8~62 3 5 59.5 0.0504 0.9496 0.2372 10 9~54 2 5 51.5 0.0388 0.9612 0.2280 11 10+47 21 26 34 0.6176 0.3824 0.0872 Stata数据格式为:

第9章生存分析思考与练习参考答案

! 第19章生存分析 思考与练习参考答案 一、最佳选择题 1. 下列有关生存时间的定义中正确的是( E )。 A.流行病学研究中,从开始接触某危险因素至某病发病所经历的时间 B.乳腺增生症妇女治疗后阳性体征消失至首次复发的时间 C.肺癌患者从手术治疗开始到死亡的时间 D.急性白血病患者从治疗开始到缓解的时间 ! E.以上均正确 2. 教材表19-18表是急性白血病患者药物诱导后缓解至首次复发的随访记录。 教材表19-18 急性白血病患者药物诱导后缓解至首次复发的随访记录编号缓解日期终止观察日期结局生存时间/天 1 复发 158 2 死亡 91 3 复发 147 4 失访 96 : 5 缓解 119 …………… 生存时间属删失数据的有(C)。 A.1号和3号 B.1号和2号 C.2号、4号和5号 D.2号、3号和4号 E.1号、2号和3号 3. 下列有关log-rank检验的描述中正确的是(A)。 A.log-rank检验是各组生存率的整体比较 B.log-rank检验是各组生存率某时间点的比较 : C.log-rank检验属生存曲线比较的参数法 D.log-rank检验中,各组实际死亡数必等于理论死亡数

E.log-rank检验的自由度为1 4. Log-rank检验与Breslow检验相比,( B )。 A.log-rank检验对组间死亡近期差异敏感 B.log-rank检验对组间死亡远期差异敏感 C.Breslow检验对组间死亡远期差异敏感 D.两者对组间死亡远期差异同样敏感 — E.两者对组间死亡近期差异同样敏感 5. Cox回归模型要求两个不同个体在不同时刻t的风险函数之比(D)。 A.随时间增加而增加 B.随时间增加而减小 C.开始随时间增加而增加,后来随时间增加而减小 D.不随时间改变 E.视具体情况而定 二、思考题 。 1. 生存分析的主要用途及其统计学方法有哪些 答:生存分析在生物医学领域主要解决如下问题。 估计:即根据一组生存数据估计它们所来自的总体的生存率及其他一些有关指标。如根据白血病化疗后的缓解时间资料,估计不同时间的缓解率、缓解率曲线以及半数生存期。估计生存率常用寿命表法和Kaplan-Meier(K-M)法。 比较:即比较不同受试对象生存数据的相应指标是否有差别。最常见的是比较各组的生存率是否有差别,如比较不同方案治疗白血病的缓解率曲线,以了解哪种治疗方案较优。生存曲线比较常用log-rank检验和Breslow检验。 影响因素分析:其目的是为了研究影响生存时间长短的因素,或在排除一些因素影响的情况下,研究某个或某些因素对生存率的影响。例如,为改善白血病患者的预后,应了解影响患者预后的主要因素,包括患者的年龄、病程、白细胞数、化疗方案等。影响因素分析常用Cox回归。

第十四章生存分析的SAS实现

第十四章生存分析的SAS实现 例14-2 McKelvey et al(1976)收集了3期的某型淋巴瘤患者的生存时间(天)。分别是6,19,32,42,42,43+,94,126+,169+,207,211+,227+,253,255+,270+,310+,316+,335+,346+。 SAS分析程序 SAS软件输出结果

SAS软件输出结果解释 该结果包含四个部分:第一部分用乘积极限法估计了生存率(Survival),死亡率(Failure),生存率的标准误(Survival Standard Error),死亡例数(Number Failed)和该时间点前的生存例数(Number Left)。其中带有*号的表示截尾;第二部分给出了关于生存时间的描述性统计量,包括75%,50%和25%分位数以及相应的95%的可信区间(95% Confidence Interval),还有均数(Mean)和标准误(Standard Error)从结果可以看出平均生存时间为181.701天;第三部分列出了完全数据(Failed),截尾数据(Censored)的例数,以及截尾数据占全部数据的百分比(Percent Censored)。最后是生存曲线图。 教材中的说明 现用Kaplan-Meier法计算生存率,步骤如下: (1)将所有生存时间按从小到大顺序排列(见表14-2第(2)列)并标上序号(第(1)列)。 (2)列出各t时点前的存活病例数n(第(3)列)、各个时间点的死亡人数d (第(4)列)和截尾人数c(第(5)列)。

(3)计算各t 时刻的死亡概率/q d n =(第(6)列)。例如生存时间为32天时,死亡概率为1/170.058824q ==。 (4)计算各t 时刻的生存概率1p q =-(第(7)列)。例如生存时间为32天时,生存概率为1-0.0588240.941176p ==。 (5)计算各t 时刻的生存率12()i i S t p p p = (第(8)列)。例如生存时间为32天时,生存率为18171616 (32)0.94117619181719 S = ??==,由此验证了在没有截尾数据的情况下,式(14-4)与式(14-5)是相同的。 (6)以时间t 为横指标,生存率为纵指标,作生存曲线图(图14-1)。 表14-2 Kaplan-Meier 法计算生存率的计算用表 (1) (2) (3) (4) (5) (6) (7) (8) 序号 生存 天数 t 时刻前 的例数n t 时刻 死亡数d t 时刻后 截尾人数c 死亡 概率q 生存 概率p 生存率 S (t ) 1 6 19 1 0 0.052632 0.947368 0.947368 2 19 18 1 0 0.055556 0.944444 0.894737 3 32 17 1 0 0.058824 0.941176 0.842105 4 42 16 2 0 0.125000 0.875000 0.736842 6 43 14 0 1 0.000000 1.000000 0.736842 7 94 13 1 0 0.076923 0.923077 0.680162 8 126 12 0 1 0.000000 1.000000 0.680162 9 169 11 0 1 0.000000 1.000000 0.680162 10 207 10 1 0 0.100000 0.900000 0.612146 11 211 9 0 1 0.000000 1.000000 0.612146 12 227 8 0 1 0.000000 1.000000 0.612146 13 253 7 1 0 0.142857 0.857143 0.524696 14 255 6 0 1 0.000000 1.000000 0.524696 15 270 5 0 1 0.000000 1.000000 0.524696 16 310 4 0 1 0.000000 1.000000 0.524696 17 316 3 0 1 0.000000 1.000000 0.524696 18 335 2 0 1 0.000000 1.000000 0.524696 19 346 1 0 1 0.000000 1.000000 0.524696

第十四章 生存分析

第十四章生存分析 第一节 Life Tables过程 14.1.1 主要功能 14.1.2 实例操作 第二节 Kaplan-Meier过程 14.2.1 主要功能 14.2.2 实例操作 第三节 Cox Regression过程 14.3.1 主要功能 14.3.2 实例操作 在临床诊疗工作的评价中,慢性疾病的预后一般不适合用治愈率、病死率等指标来考核,因为其无法在短时间内明确判断预后情况,为此,只能对患者进行长期随访,统计一定时期后的生存或死亡情况以判断诊疗效果。这就是生存分析。 第一节Life Tables过程 14.1.1主要功能 调用此过程时,系统将采用即寿命表分析法,完成对病例随访资料在任意指定时点的生存状况评价。 14.1.2实例操作 [例14-1]用中药+化疗(中药组,16例)和单纯化疗(对照组,10例)两种疗法治疗白血病患者后,随访记录存活情况如下所示,试比较两组的生存率。

14.1.2.1数据准备 激活数据管理窗口,定义变量名:随访月数的变量名为TIME,是否死亡的变量名为DEATH,分组(即中药组与对照组)的变量名为GROUP。输入原始数据:随访月数按原数值;是否死亡的,是为1,否为0;分组的,中药组为1,对照组为2。 14.1.2.2统计分析 激活Statistics菜单选Survival中的Life Tables...项,弹出Life Tables对话框(图14.1)。从对话框左侧的变量列表中选time,点击 钮使之进入time框;在Display Time Intervals栏中定义需要显示生存率的时点,本例要求从0个月显示至48个月,间隔为2个月,故在0 through框中输入48,在by框中输入2。选death,点击 钮使之进入Status框,点击Define Event...钮弹出Life Tables:Define Event for Status Variable对话框,在Single value栏中输入1,表明death = 1为发生死亡事件者;点击Continue钮返回Life Tables对话框。选group,点击 钮使之进入Factor框,点击Define Range...钮,弹出Life Tables:Define Range for Factor Variable对话框,定义分组的范围,在Mininum框中输入1,在Maxinum框中输入2,点击Continue钮返回Life Tables对话框。

第14章生存分析实现

第十四章生存分析 本章使用的STATA命令: 例14-2 McKelvey et al(1976)收集了3期的某型淋巴瘤患者的生存时间(天)。分别是6,19,32,42,42,43+,94,126+,169+,207,211+,227+,253,255+,270+,310+,316+,335+,346+。现用Kaplan-Meier法计算生存率。 解:STATA数据为: STATA命令为:

stset time,failure(d=1) sts list sts graph 结果为:

例14-3下面是来自于Berkson & Gage(1950)的一个研究队列。为了叙述方便,把原来的出院后的生存时间改称为某恶性肿瘤术后生存时间。共有374名患者进入研究队列。 表14-3 寿命表法计算生存率的计算用表 (1) (2) (3) (4) (5) (6) (7) (8) (9) 序号术后生存 年数 期初观察 例数 期内 死亡 期内截尾 人数 校正期初 人数 死亡 概率 生存 概率 生存率t n d c n c=n-c/2 q=d/n c p=1-q S(t) 1 0~374 90 0 374 0.2406 0.7594 0.7594 2 1~284 76 0 284 0.2676 0.7324 0.5561 3 2~208 51 0 208 0.2452 0.7548 0.4198 4 3~157 2 5 12 151 0.165 6 0.8344 0.3503 5 4~120 20 5 117.5 0.1702 0.8298 0.2907 6 5~95 7 9 90.5 0.0773 0.9227 0.2682 7 6~79 4 9 74.5 0.0537 0.9463 0.2538 8 7~66 1 3 64.5 0.0155 0.9845 0.2498 9 8~62 3 5 59.5 0.0504 0.9496 0.2372 10 9~54 2 5 51.5 0.0388 0.9612 0.2280 11 10+47 21 26 34 0.6176 0.3824 0.0872 解:STATA数据为: time w d 1 90 1 2 76 1 3 51 1

第十六章 生存分析习题

第十六章生存分析习题 一、选择题: 1.研究某种死因对居民生命的影响,最优方法是: A 计算死因别死亡率 B 计算年龄组死因死亡率 C 计算年龄组病死率 D 编制去死因寿命表 E 计算标准化死因死亡率 2.在人口分析和人口预测时,经常需要确定人口的死亡率。但是,由于死亡率受社会、经济、文化及医疗卫生条件等诸因素的影响,存在一定的波动。同时,在一些人口资料不完整或人口数量太少的地区,也得不到有关的资料。这时,可以借助一些数理统计的方法,将世界各地的大量的寿命表汇集起来,进行分析,归纳出几种死亡模式,对各种模式按照其不同的平均预期寿命水平编制出一组寿命表,供人们参考,这种寿命表是: A 队列寿命表 B 现时寿命表 C 简略寿命表 D 去死因寿命表 E 模型寿命表 3.在寿命表中,用于评价居民健康水平的最优指标是: A 生存人年总数 B 生存人年数 C 预期寿命 D 死亡概率 E 尚存人数4.寿命表的用途,不包括下列哪一项: A 评价国家或地区居民健康水面 B 描述疾病的时间分布特征 C 进行人口预测 D 研究人口再生产状况 E 研究人群的生育、发育及疾病发展规律5.生存分析中的生存时间为 A.确诊至死亡的时间 B.出院至失访的时间 C.手术至死亡的时间 D.观察开始至观察终止的时间 E.观察开始至失访的时间 6.关于肝癌治疗的随访资料作生存分析,可当作截尾值处理的是 A.死于肝癌 B.死于意外死亡 C.死于其它肿瘤 D.a.c 都是 E.b.c 都是二、问答题: 1、生存资料中,截尾数据的含义及其出现的原因是什么? 2、Cox 回归模型中,偏回归系数i β的意义是什么? 3、Cox 回归模型与logistic 回归模型相比有何不同?三、计算题: 1、为研究急性淋巴细胞性白血病病人的生存时间与其预后因素的关系,某研究者测得 50例急性淋巴细胞性白血病病人的生存时间(单位)及有关预后因素资料,1x 为入院时白细胞数(L /109 ?),2x 为淋巴结浸润度(分为0、1、2三级),3x 为缓解出院后的巩固治疗(有巩固治疗时3x =1,否则3x =0),随访的终点事件是死于白血

SPSS新手简明教程 (14)

第十四章 生存分析 第一节 Life Tables过程 14.1.1 主要功能 14.1.2 实例操作 第二节 Kaplan-Meier过程 14.2.1 主要功能 14.2.2 实例操作 第三节 Cox Regression过程 14.3.1 主要功能 14.3.2 实例操作 在临床诊疗工作的评价中,慢性疾病的预后一般不适合用治愈率、病死率等指标来考核,因为其无法在短时间内明确判断预后情况,为此,只能对患者进行长期随访,统计一定时期后的生存或死亡情况以判断诊疗效果。这就是生存分析。 第一节 Life Tables过程 14.1.1 主要功能 调用此过程时,系统将采用即寿命表分析法,完成对病例随访资料在任意指定时点的生存状况评价。 返回目录 返回全书目录14.1.2 实例操作

[例14-1] 用中药+化疗(中药组,16例)和单纯化疗(对照组,10例)两种疗法治疗白血病患者后,随访记录存活情况如下所示,试比较两组的生存率。 14.1.2.1 数据准备 激活数据管理窗口,定义变量名:随访月数的变量名为TIME ,是否死亡的变量名为DEATH ,分组(即中药组与对照组)的变量名为 GROUP 。输入原始数据:随访月数按原数值;是否死亡的,是为1,否为0;分组的,中药组为1,对照组为2。 14.1.2.2 统计分析 激活Statistics 菜单选Survival 中的Life Tables...项,弹出Life Tables 对话框(图14.1)。从对话框左侧的变量列表中选time ,点击钮使之进入time 框;在Display Time Intervals 栏中定义需要显示生存率的时点,本例要求从0个月显示至48个月,间隔为2个月,故在0 through 框中输入48,在by 框中输入2。选death ,点击钮使之进入Status 框,点击Define Event...钮弹出Life Tables:Define Event for Status Variable 对话框,在Single value 栏中输入1,表明death = 1为发生死亡事件者;点击Continue 钮返回Life Tables 对话框。选group ,点击钮使之进入Factor 框,点击Define Range...钮,弹出Life Tables:Define Range for Factor Variable 对话框,定义分组的范围,在Mininum 框中输入1,在Maxinum 框中输入2,点击Continue 钮返回Life Tables 对话框。

第13章:生存分析

第13章生存分析 生存分析(Survival analysis)是研究特定人群生存过程的统计分析方法。对急性病的疗效考核,一般可用治愈率或病死率等,但对肿瘤、结核等慢性病,其预后不是短期内能明确判断的,帮上述指标不适用。为评价慢性病的疗效,通常可对慢性病病人进行长期随防,统计一定期限后的生存、死亡情况,然后用生存分柝方法作统计推断。 生存分析中用生存时间的长短评价慢性病的疗效。所谓生存时间,狭义地讲是从某个标准时点起至死亡止,即患者的存活时间。例如,患有某病的病人从发病到死亡或从确诊到死亡所经历的时间。广义地讲,“死亡”可定义为某研究目的的“结果”的发生,例如宫内节育器的失落,疾病的痊愈,女孩月经初潮的到来等(生存分析中往往统指各种“死亡”为失效)。相应的“生存”时间为,放节育器到节育器失落所经历的时间,接受某治闻开始到治俞所经历的时间,从女孩出生到月经初潮到来所经历的时间。不论是广义定义还狭义定义,生存时间均有三个要素:起点、终点和时间尺度(天,周,月,年等)。 理想的生存时间资料是对每个被研究对象,研究者兼掌握其生存时间的起点,又掌握其生存时间的终点(即研究目的的“结果”发生的时间),也就是研究者掌握每个研究对象的“生存时间”的全部信息。但实际工作中难以得到每个研究对象的这种“完全”的生存时间资料。有时,研究者没有掌握研究对象生存时间的起点,也有的是丢失生存过程中间的某段时间的信息,或缺少终点的信息,无论发生三种情况中的哪一,所得的数据资料均是不完全的,生存分析中称这种资料为不完全数据资料(censord data)。能处理不完全数据资料是生存分析的一个优点。 医学随访资料可能出现这些情况:被防对象因搬迁等原因而失去联系(失访);被访者死于其他疾病或非本病的其他原因;或者被访者直到研究者总结工作时仍活着。对这些对象,观察到的生存时间只有起点,没有终点,所得的资料是上述三种不完全数据资料中的第三种。生存分析中,称这种不完全数据为截尾数据。 生存时间是一个随机变量。例如,研究患某病的病人从确诊到死亡所经历的时间T,显然T的取值因人而异,即T是一个变量,而且T的变化不能预先确定(即使性别、年龄、体质等有关因素均已知的情况下,其取值也不能预先确定),这表明T不是一个普通的变量,而是一个随机变量。 在生存分析中,常用生存率(或称生存函数),风险率(或称危险率、风险函数),生存时间T的分布函数或密度函数描述生存过程。 T的分布函数F(t)为生存时间T不超过时点t的概率,即F(t)=Pr(T<=t)。生存时间的密度函数f(t)是F(t)的导数,f(t)=F’(t), f(t)描述所有个体在时点单位时间内死亡的危险性。生存率S(t)是指生存时间T超过时点t的概率,即S(t)=Pr(T>t)=1-F(t)。 例如5年生存率是指生存时间T超过5年的概率,记为S(5)。风险率h(t)是密度函数与生存率的比,即h(t)=f(t)/s(t),风险率h(t)描述已活过时点t的个体在时点t后单位时间内死亡的危险性。 实际工作中,得不到所有患者的生存时间资料,就不可能得到T的总体分布,只能利用样本资料近似地描述T的分布,对T的分布作出有关的推断。若有大样本的完全数据资料,则可以借助频数分布表近似描述T的分布。 例设有100名某病患者生存时间数据资料

相关主题
文本预览
相关文档 最新文档