SPSS学习笔记之——生存分析的Cox回归模型(比例风险模型)
- 格式:docx
- 大小:371.92 KB
- 文档页数:11
生存分析是对生存时间进行统计分析的一种技术,所谓生存时间,就是指从某一时间点起到所关心的事件发生的这段时间。
这里的时间不一定就是钟表日历上的时间,也有可能是其他的度量单位,比如长度单位等。
生存时间有两个特点:1.存在删失,是指由于某种原因导致生存时间没用被准确或完整的记录下来,这种情况很常见,如果不存在删失,那么生存分析和一般统计方法没用太大区别,但是一旦出现删失,就必须考虑其影响,一般统计方法将不再适用。
2.生存时间非负,且分布常常右偏,导致基于正态分布理论的常规统计方法不适用。
用生存分析就可以解决以上问题。
生存分析的几个就基本概念1.事件也称为失效事件,是指由研究者所规定的事件的结局,这在生存分析中是一个非常重要的概念,其定义应该非常明确,并且应该在研究开始阶段就要确定。
失效事件并不一定是消极的,也可以是正面、积极的,这取决于研究目的。
2.生存时间指从某一时间点起到所关心的事件也就是实效事件发生前的这段时间,生存时间的起点需要人为规定3.删失是指观察对象的终止观察并不是由于实效事件的发生,而是由于其他原因导致终止,这种情况往往不知道终止的时间点,因此会造成其时间数据不完整,并且删失需要在各组之间随机,如果删失的出现并不随机,则不能用生存分析4.生存函数用于描述生存时间分布的工具,当t=0时,生存函数取值为1,随着时间推移t 增大,生存函数的取值逐渐减小。
5.风险函数也是用于描述生存时间分布,表示随机变量T已至时点t的条件下,在接下来的一瞬间失效事件发生的概率生存分析的基本内有1.刻画生存时间分布2.生存时间分布的组间比较3.评价生存时间分布影响因子的效果生存分析可以分为参数法、半参数法、非参数法三种,参数法相当于非线性回归,半参数法有Cox回归,非参数法有寿命表法和Kaplan-Meier法,SPSS中的生存分析都集中在生存函数过程中,下面我们分别介绍这几种方法一、Kaplan-Meier法分析—生存函数—Kaplan-Meier例:现在有一组临床实验数据,抽取44名患者,被随机分到新药组和对照组,每组22名,对此进行生存分析研究,数据如下可见记录生存时间数据至少需要两个变量,一个是时间变量,另一个是时间状态变量,用于表示该时间点是失效事件发生的时间还是删失的时间,如果有多个组别,还需要加上组别变量,因此本例中一共有三个变量,分别是时间变量,指示变量,组别变量,指示变量中,0表示没有删失,1表示失访,2表示研究结束时仍未发生失效事件以上数据的组成样本量较小,并且每个观察个体的时间能够被准确记录,因此可以使用Kaplan-Meier法二、寿命表法Kaplan-Meier法仅适用于每个观察个体的时间能够被准确记录,但是有时候我们收集的数据组成为分段记录的,这时应该使用寿命表法分析—生存函数—寿命表例,对114名患者进行随访,数据如下这种类型的数据组成形式非常类似于对计数资料分组之后的频数表,在本例中,time为时间变量,died为指示变量,0为删失,1为失效事件,num为人数。
患者生存状态的影响因素分析——生存资料的COX回归分析1、问题与数据某研究者拟观察某新药的抗肿瘤效果,将70名肺癌患者随机分为两组,分别采用该新药和常规药物进行治疗,观察两组肺癌患者的生存情况,共随访2年。
研究以死亡为结局,两种治疗方式为主要研究因素,同时考虑调整年龄和性别的影响,比较两种疗法对肺癌患者生存的影响是否有差异。
变量的赋值和部分原始数据见表1和表2。
表1. 某恶性肿瘤的影响因素与赋值表2. 两组患者的生存情况group gender age time survival0 1 0 22 10 1 1 10 10 1 1 64 10 1 1 12 10 1 0 17 11 0 0 19 11 1 1 4 11 0 1 12 01 0 0 5 01 1 1 27 02、对数据结构的分析该研究以死亡为结局,治疗方式为主要研究因素,每个研究对象都有生存时间(随访开始到死亡、失访或随访结束的时间),同时考虑调整年龄和性别的影响。
欲了解两种疗法对肺癌患者生存的影响是否有差异,可以用Cox比例风险模型(Cox proportional-hazards model,也称为Cox回归)进行分析。
实际上,Cox回归的结局不一定是死亡,也可以是发病、妊娠、再入院等。
其共同特点是,不仅考察结局是否发生,还考察结局发生的时间。
在进行Cox回归分析前,如果样本不多而变量较多,建议先通过单变量分析(KM法绘制生存曲线、Logrank检验等)考察所有自变量与因变量之间的关系,筛掉一些可能无意义的变量,再进行多因素分析,这样可以保证结果更加可靠。
即使样本足够大,也不建议把所有的变量放入方程直接分析,一定要先弄清楚各个变量之间的相互关系,确定自变量进入方程的形式,这样才能有效的进行分析。
单因素分析后,应当考虑应该将哪些自变量纳入Cox回归模型。
一般情况下,建议纳入的变量有:1)单因素分析差异有统计学意义的变量(此时,最好将P值放宽一些,比如0.1或0.15等,避免漏掉一些重要因素);2)单因素分析时,没有发现差异有统计学意义,但是临床上认为与因变量关系密切的自变量。
生存分析:cox回归建模转自【Memo_Cleon】生存分析是分析生存时间的统计学方法,其因变量需要用生存时间和结局状态两个变量来刻画,可以将终点事件是否发生以及发生终点事件所经历的时间相结合起来。
生存分析的主要内容有生存时间的分布描述、生存时间分布的组间比较以及生存时间分布的影响因子的效果评估。
在SPSS中其分析过程存在于菜单"分析(Analyze)>>生存分析(Survival)"中。
本次笔记内容:▪几个概念▪寿命表法▪Kaplan-Meier法▪Cox比例风险模型回归▪含时依协变量的Cox回归【1】几个概念失效事件(Failure Event):常被简称为事件,研究者规定的终点结局,医学研究中可以是患者死亡,也可以是疾病的发生、某种治疗的反应、疾病的复发等。
与之对应的起始事件可以是疾病的确诊、某种治疗的开始等。
生存时间(Survival Time):常用t表示,从规定的起始事件开始到失效事件出现所持续的时间。
对于失访者,是失访前最后一次随访的时间。
删失/截尾(Censoring):由于某些原因在随访中并没有观测到失效事件而不知道确切的生存时间,此部分数据即删失数据。
常见原因有失访、患者退出试验、事件发生是由于非研究性疾病(如研究病人发生脑卒中后的生存时间,结果病人因为车祸死亡)、研究结束时研究对象仍未发生失效事件。
删失数据的生存时间为起始事件到截尾点所经历的时间。
生存函数(Survival Function)与风险函数(Hazard Function):生存函数也称为积累生存函数/概率(Cumulative Survival Function)或生存率,符号S(t),表示观察对象生存时间越过时间点t的概率,t=0时生存函数取值为1,随时间延长生存函数逐渐减小。
以生存时间为横轴、生存函数为纵轴连成的曲线即为生存曲线。
风险函数表示生存时间达到t后瞬时发生失效事件的概率,用h(t)表示,h(t)=f(t)/S(t)。
王江源SPSS学习笔记之——生存分析的Cox回归模型(比例风险模型)王江源 /u/1153366774 2012-09-22 19:05:29一、生存分析基本概念1、事件(Event)指研究中规定的生存研究的终点,在研究开始之前就已经制定好。
根据研究性质的不同,事件可以是患者的死亡、疾病的复发、仪器的故障,也可以是下岗工人的再就业等等。
2、生存时间(Survival time)指从某一起点到事件发生所经过的时间。
生存是一个广义的概念,不仅仅指医学中的存活,也可以是机器出故障前的正常运行时间,或者下岗工人再就业前的待业时间等等。
有的时候甚至不是通用意义上的时间,比如汽车在出故障前的行驶里程,也可以作为生存时间来考虑。
3、删失(Sensoring)指由于所关心的事件没有被观测到或者无法观测到,以至于生存时间无法记录的情况。
常由两种情况导致:(1)失访;(2)在研究终止时,所关心的事件还未发生。
4、生存函数(Survival distribution function)又叫累积生存率,表达式为S(t)=P(T>t),其中T为生存时间,该函数的意义是生存时间大于时间点t的概率。
t=0时S(t)=1,随着t的增加S(t)递减(严格的说是不增),1-S(t)为累积分布函数,表示生存时间T不超过t的概率。
二、生存分析的方法1、生存分析的主要目的是估计生存函数,常用的方法有Kaplan-Meier法和寿命表法。
对于分组数据,在不考虑其他混杂因素的情况下,可以用这两种方法对生存函数进行组间比较。
2、如果考虑其他影响生存时间分布的因素,可以使用Cox回归模型(也叫比例风险模型),利用数学模型拟合生存分布与影响因子之间的关系,评价影响因子对生存函数分布的影响程度。
这里的前体是影响因素的作用不随时间改变,如果不满足这个条件,则应使用含有时间依存协变量的Cox回归模型。
下面用一个例子来说明SPSS中Cox回归模型的操作方法。
COX比例风险回归模型是一种常用的生存分析方法,它能够对生存时间或事件发生时间进行建模,并且能够考虑到不同个体的观测时长不同这一特点。
在研究中,COX比例风险回归模型通常被用来探究某种因素对于生存时间或事件发生时间的影响程度。
本文将以COX比例风险回归模型为主题,深入探讨其原理、应用、结果解读和个人理解。
一、COX比例风险回归模型原理COX比例风险回归模型是由David R. Cox于1972年提出的,它是一种半参数模型,既考虑了危险比的比例关系,又不需要对基本风险函数作出严格的假设。
模型的基本形式为:$$ h(t|x) =h_0(t)exp(\beta_1x_1+\beta_2x_2+...+\beta_px_p) $$ 其中,h(t|x)为在给定协变量x情况下,观测到时间t的瞬时事件发生率;h0(t)为基础风险函数,与协变量无关;β1, β2,…, βp为协变量的回归系数;x1, x2,…, xp为对应的协变量。
二、COX比例风险回归模型应用COX比例风险回归模型主要适用于生存分析领域,例如医学、流行病学和生态学等研究中。
研究者可以利用COX比例风险回归模型来探究不同因素对于生存时间或事件发生时间的影响情况。
这种模型在临床试验中也得到了广泛的应用,可以用来评估治疗效果、预测疾病风险等。
三、COX比例风险回归模型结果解读在进行COX比例风险回归模型分析后,我们通常会得到各个协变量的回归系数、危险比和相应的置信区间。
这些结果对于理解不同因素对生存时间或事件发生时间的影响至关重要。
如果某个协变量的危险比为2.0,且置信区间不包含1.0,就说明该因素对事件发生的影响是显著的。
还需要考虑模型的比例风险假设是否成立,以及是否存在共线性等问题。
个人理解与观点:COX比例风险回归模型是一种非常有用的统计方法,它能够帮助研究者从更深层次理解不同因素对生存能力的影响程度。
然而,在进行模型分析时,我们还需要注意模型的适用性和准确性,避免结果的误导性。
⽣存分析(六)如何判断你的⽣存数据能否⽤cox回归——等⽐例风险假定判断前⾯两篇⽂章分别介绍了两种参数回归,可⽤于相应分布的⽣存数据。
但实际中,据我所知,绝⼤多数⼈更喜欢⽤的是cox回归。
起码在⽂章中,⼏乎99%可能⼤家都在⽤cox回归做⽣存数据的多因素分析。
为什么⼤家这么喜欢cox回归,我个⼈感觉主要原因是:cox回归不⽤考虑⽣存数据的分布,拿起来就⽤。
其实这也是所有⾮参数⽅法的优点。
但我发现⼀个⽭盾的现象:在组间⽐较中,⼤家更喜欢⽤t检验或⽅差分析等参数检验,不喜欢⽤⾮参数的秩和检验,觉得⾮参数不靠谱;然⽽在⽣存数据分析中,⼤家却喜欢⽤⾮参数的cox回归,反⽽参数的weibull回归等⼤家不喜欢⽤。
也许,其实很多临床⼈员并不是喜欢或不喜欢参数或⾮参数本⾝,我想,⼤家选择⽅法的时候,可能就是基于⼀个原则:简单易⽤。
然⽽,尽管cox回归不⽤考虑⽣存数据分布,但有⼀点还是得明确,cox回归绝不是适⽤于所有⽣存数据的多因素分析。
⾄少有⼀个条件,cox回归必须考虑,也必须满⾜,这就是:等⽐例风险(Porportional hazards)。
所谓等⽐例风险,其实简单来说很容易理解:它表⽰,在研究期间内,某因素对⽣存的影响在任何时间都是相同的,不随时间的变化⽽变化。
如吸烟对肿瘤的影响,不管是第⼀年、第⼆年、……,对肿瘤的危险都是相同的。
其实现实中很少有因素能够完全满⾜这⼀条件,但也不⽤担⼼,统计学本⾝就没那么严格。
其实统计学中所有的各种条件,没有⼀个是⾮常严格的。
⽐如正态性,只要不是很偏态就可以了;⽅差齐性,只要两组⽅差差别不是很⼤就好了;同样这个等⽐例风险也是⼀样,只要因素的风险在不同时间差不多就⾏了。
然⽽,尽管要求相对宽松,却也必须验证之后才知道,否则怎么知道你的因素是否满⾜这⼀条件呢?或者换句话说,你的因素有没有违背这⼀条件呢?如果违背了,⽤cox回归就危险了。
任何⽅法都有前提,cox回归也不例外。
一、生存分析基本概念
1、事件(Event)
指研究中规定的生存研究的终点,在研究开始之前就已经制定好。
根据研究性质的不同,事件可以是患者的死亡、疾病的复发、仪器的故障,也可以是下岗工人的再就业等等。
2、生存时间(Survival time)
指从某一起点到事件发生所经过的时间。
生存是一个广义的概念,不仅仅指医学中的存活,也可以是机器出故障前的正常运行时间,或者下岗工人再就业前的待业时间等等。
有的时候甚至不是通用意义上的时间,比如汽车在出故障前的行驶里程,也可以作为生存时间来考虑。
3、删失(Sensoring)
指由于所关心的事件没有被观测到或者无法观测到,以至于生存时间无法记录的情况。
常由两种情况导致:(1)失访;(2)在研究终止时,所关心的事件还未发生。
4、生存函数(Survival distribution function)
又叫累积生存率,表达式为S(t)=P(T>t),其中T为生存时间,该函数的意义是生存时间大于时间点t的概率。
t=0时S(t)=1,随着t的增加S(t)递减(严格的说是不增),1-S(t)为累积分布函数,表示生存时间T不超过t的概率。
二、生存分析的方法
1、生存分析的主要目的是估计生存函数,常用的方法有Kaplan-Meier法和寿命表法。
对于分组数据,在不考虑其他混杂因素的情况下,可以用这两种方法对生存函数进行组间比较。
2、如果考虑其他影响生存时间分布的因素,可以使用Cox回归模型(也叫比例风险模型),利用数学模型拟合生存分布与影响因子之间的关系,评价影响因子对生存函数分布的影响程度。
这里的前体是影响因素的作用不随时间改变,如果不满足这个条件,则应使用含有时间依存协变量的Cox回归模型。
下面用一个例子来说明SPSS中Cox回归模型的操作方法。
例题
要研究胰腺癌术中放疗对患者生存时间的影响,收集了下面所示的数据:
操作步骤:SPSS变量视图
菜单选择:
点击进入Cox主对话框,如下,将time选入“时间”框,将代表删失的censor变量选入“状态”框,其余分析变量选入“协变量”框。
其余默认就行。
点击“状态”框下方的“定义事件”,将事件发生的标志设为值0,即0代表事件发生。
在主对话框中点击“分类”按钮,进入如下的对话框,将所有分类变量选入右边框中。
在主对话框中点击“绘图”按钮,进入如下的对话框,选择绘图的类型,这里只选择“生存函数”。
由于我们关心的主要变量是trt(是否放疗),所以将trt选入“单线”框中,绘制生存曲线。
在主对话框中点击“选项”按钮,进入如下的对话框,设置如下,输出RR 的95%置信区间。
回到主界面,点击“确定”输出结果。
结果输出
这是案例处理摘要,有一个删失数据。
这是分类变量的编码方式。
这是对拟合模型的检验,原假设是“所有影响因素的偏回归系数均为0”,这里可以看出P=0.032<0.05拒绝原假设,认为有偏回归系数不为零的因素,值得进一步分析。
这是多元回归结果,第二列B为偏回归系数,最后三列为OR值及其置信区间。
由P值可以看出,在0.5的显著水平下,只有trt有统计学差异,OR为2.265。
这是协变量的平均值。
这是总体的生存函数,即累积生存率函数。
-------------精选文档-----------------
这是在控制了其他变量后,有无放疗组的生存函数对比,可以看出,术中放疗患者的生存情况优于不放疗的患者。
可编辑。