第十四章生存分析的SAS实现
- 格式:doc
- 大小:299.50 KB
- 文档页数:16
第十一章生存分析与SAS程序在医学研究中,考察研究因素对研究对象的效应,经典的研究设计方法只观察其所出现的结局或结果。
但是在一些诸如癌症等险恶疾病和慢性病的随访研究中,只观察其结局就不够全面,还需要考察研究对象出现某种结局所经历的时间,这段时间称为生存时间(survival time)。
生存分析是用来分析生存时间资料的统计方法,是近几十年来产生且发展甚为迅速的一门应用统计的分支。
到目前为止,生存分析已形成一套完整的体系,包括描述生存规律和进行组间比较的参数和非参数方法以及分析影响生存期因素的回归模型等。
本章主要介绍描述生存规律的寿命表和乘积限估计法,用于组间比较的logrank检验和作预后因素分析的Cox回归模型以及相应的SAS过程。
11.1生存分析的基本概念11.1.1生存时间在医学研究中,对于肿瘤、心血管等慢性疾病,要考察其治疗方法优劣,疾病预后的好坏以及影响疾病预后的因素,通常采用随访研究的方法。
对某一疾病作随访研究时,一般是从某一时间开始,观察到某一规定时间截止,而研究对象是始点以后陆续进入观察。
随访中要规定一个事件作为随访结局,例如:病人死于研究疾病。
如果病人的随访结果是规定的结局,则称为失效或死亡(Failure),那么病人从进入观察随访到规定的结局出现,其间所经历的这段时间称为生存时间或失效时间(Survival time, Failure time, Waiting time)。
通常用Ti表示(i=1,2,…,n, n为观察个体数)。
在随访中,由于客观条件限制,不能也不可能将全部观察对象都观察到规定的结局(Failure)。
在观察截止时,一组观察对象除了出现规定的结局外,还有三种结果:(1)死于其他疾病;(2)由于迁移等原因失去联系(失访);(3)随访截止时尚未出现规定的结局。
这三种结果虽原因不一,但提供的信息是一致的,这类病人不能获得确切的生存时间,而只知道其生存期比随访观察到的时间长的信息。
第十四章生存分析的SAS实现例14-2 McKelvey et al(1976)收集了3期的某型淋巴瘤患者的生存时间(天)。
分别是6,19,32,42,42,43+,94,126+,169+,207,211+,227+,253,255+,270+,310+,316+,335+,346+。
SAS分析程序SAS软件输出结果SAS软件输出结果解释该结果包含四个部分:第一部分用乘积极限法估计了生存率(Survival),死亡率(Failure),生存率的标准误(Survival Standard Error),死亡例数(Number Failed)和该时间点前的生存例数(Number Left)。
其中带有*号的表示截尾;第二部分给出了关于生存时间的描述性统计量,包括75%,50%和25%分位数以及相应的95%的可信区间(95% Confidence Interval),还有均数(Mean)和标准误(Standard Error)从结果可以看出平均生存时间为181.701天;第三部分列出了完全数据(Failed),截尾数据(Censored)的例数,以及截尾数据占全部数据的百分比(Percent Censored)。
最后是生存曲线图。
教材中的说明现用Kaplan-Meier法计算生存率,步骤如下:(1)将所有生存时间按从小到大顺序排列(见表14-2第(2)列)并标上序号(第(1)列)。
(2)列出各t时点前的存活病例数n(第(3)列)、各个时间点的死亡人数d (第(4)列)和截尾人数c(第(5)列)。
(3)计算各t 时刻的死亡概率/q d n =(第(6)列)。
例如生存时间为32天时,死亡概率为1/170.058824q ==。
(4)计算各t 时刻的生存概率1p q =-(第(7)列)。
例如生存时间为32天时,生存概率为1-0.0588240.941176p ==。
(5)计算各t 时刻的生存率12()i i S t p p p =(第(8)列)。
第十四章生存分析本章使用的STATA命令:例14-2 McKelvey et al(1976)收集了3期的某型淋巴瘤患者的生存时间(天)。
分别是6,19,32,42,42,43+,94,126+,169+,207,211+,227+,253,255+,270+,310+,316+,335+,346+。
现用Kaplan-Meier法计算生存率。
解:STATA数据为:STATA命令为:stset time,failure(d=1) sts liststs graph结果为:例14-3下面是来自于Berkson & Gage(1950)的一个研究队列。
为了叙述方便,把原来的出院后的生存时间改称为某恶性肿瘤术后生存时间。
共有374名患者进入研究队列。
表14-3 寿命表法计算生存率的计算用表(1) (2) (3) (4) (5) (6) (7) (8) (9)序号术后生存年数期初观察例数期内死亡期内截尾人数校正期初人数死亡概率生存概率生存率t n d c n c=n-c/2 q=d/n c p=1-q S(t)1 0~374 90 0 374 0.2406 0.7594 0.75942 1~284 76 0 284 0.2676 0.7324 0.55613 2~208 51 0 208 0.2452 0.7548 0.41984 3~157 25 12 151 0.1656 0.8344 0.35035 4~120 20 5 117.5 0.1702 0.8298 0.29076 5~957 9 90.5 0.0773 0.9227 0.26827 6~79 4 9 74.5 0.0537 0.9463 0.25388 7~66 1 3 64.5 0.0155 0.9845 0.24989 8~62 3 5 59.5 0.0504 0.9496 0.237210 9~54 2 5 51.5 0.0388 0.9612 0.228011 10+47 21 26 34 0.6176 0.3824 0.0872解:STATA数据为:time w d1 90 12 76 13 51 14 25 15 20 16 7 17 4 18 1 19 3 110 2 111 21 11 0 02 0 03 0 04 12 05 5 06 9 07 9 08 3 09 5 010 5 011 26 0STA TA命令为:stset time [weight=w],failure(d=1) ltable time d [weight=w],graph 结果为:例14-4在例14-3中介绍了McKelvey et al收集了19名3期淋巴瘤病人的生存资料,该研究者还同时收集了4期淋巴瘤病人的生存数据共61例:4,6,10,11,11,11,13,17,20,20,21,22,24,24,29,30,30,31,33,34,35,39,40,41+,43+,45,46,50,56,61+,61+,63,68,82,85,88,89,90,93,104,110,134,137,160+,169,171,173,175,184,201,222,235+,247+,260+,284+,290+,291+,302+,304+,341+,345+。
第十四章生存分析的SAS实现例14-2 McKelvey et al(1976)收集了3期的某型淋巴瘤患者的生存时间(天)。
分别是6,19,32,42,42,43+,94,126+,169+,207,211+,227+,253,255+,270+,310+,316+,335+,346+。
SAS分析程序SAS软件输出结果SAS软件输出结果解释该结果包含四个部分:第一部分用乘积极限法估计了生存率(Survival),死亡率(Failure),生存率的标准误(Survival Standard Error),死亡例数(Number Failed)和该时间点前的生存例数(Number Left)。
其中带有*号的表示截尾;第二部分给出了关于生存时间的描述性统计量,包括75%,50%和25%分位数以及相应的95%的可信区间(95% Confidence Interval),还有均数(Mean)和标准误(Standard Error)从结果可以看出平均生存时间为181.701天;第三部分列出了完全数据(Failed),截尾数据(Censored)的例数,以及截尾数据占全部数据的百分比(Percent Censored)。
最后是生存曲线图。
教材中的说明现用Kaplan-Meier法计算生存率,步骤如下:(1)将所有生存时间按从小到大顺序排列(见表14-2第(2)列)并标上序号(第(1)列)。
(2)列出各t时点前的存活病例数n(第(3)列)、各个时间点的死亡人数d (第(4)列)和截尾人数c(第(5)列)。
(3)计算各t 时刻的死亡概率/q d n =(第(6)列)。
例如生存时间为32天时,死亡概率为1/170.058824q ==。
(4)计算各t 时刻的生存概率1p q =-(第(7)列)。
例如生存时间为32天时,生存概率为1-0.0588240.941176p ==。
(5)计算各t 时刻的生存率12()i i S t p p p = (第(8)列)。
例如生存时间为32天时,生存率为18171616(32)0.94117619181719S =⨯⨯==,由此验证了在没有截尾数据的情况下,式(14-4)与式(14-5)是相同的。
(6)以时间t 为横指标,生存率为纵指标,作生存曲线图(图14-1)。
表14-2 Kaplan-Meier 法计算生存率的计算用表(1) (2)(3)(4)(5)(6) (7) (8) 序号 生存 天数 t 时刻前的例数n t 时刻死亡数d t 时刻后截尾人数c死亡 概率q 生存 概率p 生存率 S (t ) 1 6 19 1 0 0.052632 0.947368 0.947368 2 19 18 1 0 0.055556 0.944444 0.894737 3 32 17 1 0 0.058824 0.941176 0.842105 4 42 16 2 0 0.125000 0.875000 0.736842 6 43 14 0 1 0.000000 1.000000 0.736842 7 94 13 1 0 0.076923 0.923077 0.680162 8 126 12 0 1 0.000000 1.000000 0.680162 9 169 11 0 1 0.000000 1.000000 0.680162 10 207 10 1 0 0.100000 0.900000 0.612146 11 211 9 0 1 0.000000 1.000000 0.612146 12 227 8 0 1 0.000000 1.000000 0.612146 13 253 7 1 0 0.142857 0.857143 0.524696 14 255 6 0 1 0.000000 1.000000 0.524696 15 270 5 0 1 0.000000 1.000000 0.524696 16 310 4 0 1 0.000000 1.000000 0.524696 17 316 3 0 1 0.000000 1.000000 0.524696 18 335 2 0 1 0.000000 1.000000 0.524696 19 3461 0 10.0000001.0000000.524696图14-1 例14-2的生存曲线图例14-3下面是来自于Berkson & Gage(1950)的一个研究队列。
为了叙述方便,把原来的出院后的生存时间改称为某恶性肿瘤术后生存时间。
共有374名患者进入研究队列。
表14-3 寿命表法计算生存率的计算用表(1) (2) (3) (4) (5) (6) (7) (8) (9)序号术后生存年数期初观察例数期内死亡期内截尾人数校正期初人数死亡概率生存概率生存率t n d c n c=n-c/2 q=d/n c p=1-q S(t)1 0~374 90 0 374 0.2406 0.7594 0.75942 1~284 76 0 284 0.2676 0.7324 0.55613 2~208 51 0 208 0.2452 0.7548 0.41984 3~157 25 12 151 0.1656 0.8344 0.35035 4~120 20 5 117.5 0.1702 0.8298 0.29076 5~957 9 90.5 0.0773 0.9227 0.26827 6~79 4 9 74.5 0.0537 0.9463 0.25388 7~66 1 3 64.5 0.0155 0.9845 0.24989 8~62 3 5 59.5 0.0504 0.9496 0.237210 9~54 2 5 51.5 0.0388 0.9612 0.228011 10+47 21 26 34 0.6176 0.3824 0.0872 SAS分析程序SAS软件输出结果本例结果主要包含三个部分:第一部分给出了时间区间的下限和上限,死亡例数(Number Failed),截尾例数(Number Censored),期初观察人数(Effective Sample Size),生存率(Survival),死亡率(Failure),生存率的标准误(Survival Standard Error)等;第二部分列出了完整数据(Failed),截尾数据(Censored)的例数,以及截尾数据占全部数据的百分比(Percent Censored)。
最后是生存曲线图。
教材中的说明根据表14-3的生存率估计,则以生存时间为横坐标,生存率为纵坐标,各个点的生存率用折线连接,构成寿命表法的生存率曲线(图14-2)。
图14-2 例14-3的生存曲线图生存率估计同样存在抽样误差,往往需要估计标准误和95%可信区间。
对于上述两种生存率计算方法均可以用Greenwood (1926)提出方法计算标准误tj [S ]SE S =例如3~4年这一段的生存率的标准误为:t4[S ]SE 0.0248==Kalbfleisch & Prentice,1980提出对生存率进行ln(ln(()))S t -转换后估计生存率的95%可信区间可以保证可信区间的范围在(0,1)内,所以被广泛使用,具体计算公式如下:exp( 1.96)()s S t ±,其中()/(ln )t t t s SE S S S = (14-7) 例如对于3~4年这一组段的95%可信区间计算为0.0248/(0.3503ln(0.3503))0.0675S =⨯-=-,则95%可信区间为exp( 1.960.0675)(32)S ⨯ (0.302,0.399)=。
两种方法的比较:①.寿命表法适用于大样本或无法准确得知研究结果出现时间的资料,Kaplan-Meier 法可以用于小样本,也可以用于大样本,但要求每个观察对象都有确切的死亡时间和截尾时间。
②.寿命表法是按照指定的时段来分段,估计的是时间区间右端点上的生存率;Kaplan-Meier法是根据死亡时点分段,逐个估计死亡时点的生存率。
③.寿命表法没有确切的死亡时间和失访时间,假定在每个时间段中的“死亡发生时间”和“失访发生的时间”分别呈均匀分布,因此在每个时间段中的生存率呈线性变化,故各个组段间的生存率用直线相连接,Kaplan-Meier法的生存曲线是右连续的阶梯型曲线。
当样本量较大及死亡时点较多时,阶梯形就不明显了。
例14-4 在例14-3中介绍了McKelvey et al收集了19名3期淋巴瘤病人的生存资料,该研究者还同时收集了4期淋巴瘤病人的生存数据共61例:4,6,10,11,11,11,13,17,20,20,21,22,24,24,29,30,30,31,33,34,35,39,40,41+,43+,45,46,50,56,61+,61+,63,68,82,85,88,89,90,93,104,110,134,137,160+,169,171,173,175,184,201,222,235+,247+,260+,284+,290+,291+,302+,304+,341+,345+。
要比较3期淋巴瘤患者和4期淋巴瘤患者的生存率是否有差异。
SAS分析程序SAS软件输出结果解释SAS软件输出结果解释这里只给出了两个(c=1,2)总体生存率之间是否有差异的检验结果,其他的输出结果与前面类似,不再列出了。
由结果可以发现两组的Log-Rank秩统计量分别为-8.6870和8.6870,检验的2χ统计量为6.7097,p值= 0.0096,所以在α=0.05水准上,拒绝H0,接受H1。
,可认为两个(c=1,2)总体生存率之间存在差异。
图形为两个样本的生存曲线图。
教材中的说明由于检验统计量220.05,13.84χχ>=, P< 0.05, 所以在α=0.05水准上,拒绝H,接受H1。
基于两个样本的生存曲线图,可认为3期淋巴瘤病人人群的生存率高于4期淋巴瘤病人人群的生存率。
图14-5 3期和4期淋巴瘤的病人生存曲线Logrank检验是一种非参数的检验方法,对资料的分布基本没有要求,但要求每组均含有失效事件发生的观察对象资料,可以证明:Logrank检验的检验效能仅与发生失效事件的人数有关。
另外在Logrank检验的时候,一般要求各组生存曲线不能交叉,否则需采用分段分析或者采用多因素方法来分析。
例14-5某医生研究手术是否可以延长晚期胰腺癌患者的生存期。
收集到符合入组条件的80名保守治疗和124名手术治疗的晚期胰腺癌患者,这些患者的生存资料如表14-6所示,请分析两种治疗方案的生存情况。