第六讲 生存分析要点
- 格式:ppt
- 大小:429.00 KB
- 文档页数:21
生存分析与临床应用一.概述在医学科研中,我们常常对观察对象作追踪观察,并记录各个时点某事件的发生状况。
对这种资料进行分析时,不仅应该考虑某事件发生的频率,还要考虑从试验开始到该事件发生的时间。
因为即使事件发生的频率相同,但若某事件的发生与时间有关,则仍可提示各个试验组存在差异。
因此,对于随访研究资料而言,仅仅考虑随访的结果是不够的,还应该考虑随访的时间。
生存分析(survival analysis)就是将随访结果与随访时间(times to event)结合起来对资料进行分析的一类统计方法,它充分地利用了研究中所得到的信息,能够更加全面地、准确地分析随访资料。
生存分析中的观察结果可以是任何事件,如死亡、痊愈、发病等,故生存分析可广泛用于医学科研工作中。
生存分析的主要内容包括了生存率的计算、两组或多组生存率的比较,以及多因素的生存分析方法,如Cox回归模型、Logistic回归。
二.生存分析中的常用术语(1)“死亡”事件,或称失败事件(failure event)在生存分析中,用以反映处理因素失败的特征事件,它可以是任何事件,如死亡、痊愈、发病等。
一般来说,做生存分析最好的资料是全部观察对象都已产生特征事件的资料,也就是说截尾值越少越好,而截尾值太多的资料,其分析结果的可靠性较差。
(2)截尾值(终检值,censored value)由于各种原因无法得到观察对象明确的结局事件,不知道观察对象的确切生存时间,属于信息不完整的数据。
如研究者常遇到如下情况:①直到研究结束时点,观察对象尚未发生某事件(未死亡、未缓解等)。
②观察对象死于其他疾病或因某种原因中断了治疗;③观察对象搬迁到其它地区,中断了联系。
这时,无论把这些观察对象归为发生或归为未发生某个事件都不合理,包含有这些情况的资料都不能提供分析所需要的完整信息。
因此,将其数值称为终检值(截尾值,censored value),有终检值的数据称为终检数据(截尾数据,censored data)。
生存分析(SurvivalAna...1. 生存分析生存分析指的是一系列用来探究所感兴趣的事件的发生的时间的统计方法。
常见的有1)癌症患者生存时间分析2)工程中的失败时间分析等等。
1.1 定义给定一个实例i ii,我们用一个三元组来表示(Xi,δi,Ti) (X_i, \delta_i, T_i)(Xi,δi,Ti),其中Xi X_iXi表示该实例的特征向量,Ti T_iTi 表示该实例的事件发生时间。
如果该实例发生了我们感兴趣的事件,那么 Ti T_iTi表示的是事件发生时间点到基准时间点之间的时间,同时δi=1 \delta_i = 1δi=1。
如果该实例未发生我们感兴趣的事件,那么 Ti T_iTi表示的是事件发生时间点到观察结束时间点的时间,同时δi=0 \delta_i = 0δi=0。
生存分析的研究目标就是对一个新的实例Xj X_jXj,来估计它所发生感兴趣事件的时间。
1.2 删失(censored)在生存分析研究中,对于某些实例,会出现在我们的研究期间,并没有出现任何感兴趣的时间,我们将这种情况称之为删失(censored)。
出现这种情况的可能原因有:1)实例在研究阶段就是没有出现感兴趣的事件(right-censored)2)在研究阶段,丢失了该实例3)该实例经历了其他的事件导致无法继续跟踪2 生存概率(Survival probability)生存概率也叫作生存方程S(t)=Pr(T>t) S(t) = Pr(T>t)S(t)=Pr(T>t),生存方程指的是实例出现感兴趣的事件的时间 T TT不小于给定的时间 t tt的概率。
2.1 Kaplan-Meier survival estimateKM方法是一种无参数方法(non-parametric)来从观察的生存时间来估计生存概率的方法。
对于研究中的第n nn个时间点tn t_ntn,生存概率可以计算为:S(tn)=S(t n−1)(1−dnrn) S(t_n) = S(t_{n-1})(1-\frac{d_n}{r_n})S(tn)=S(tn−1)(1−rndn)其中,S(t n−1) S(t_{n-1})S(tn−1)指的是在t n−1t_{n-1}tn−1时间点的生存概率;dn d_ndn指的是在时间点tn t_ntn所发生的事件数;rn r_nrn指的是在快要到时间点tn t_ntn时,还存活的人(如果在t n−1t_{n-1}tn−1和tn t_ntn之间有实例censored,那么在计算rn r_nrn时应该将该患者剔除出去);t0=0,S(0)=1 t_0=0, S(0)=1t0 =0,S(0)=1。
在某些领域的分析中,常常用追踪的方式来研究事物的发展规律,比如研究某种药物的疗效,手术后的存活时间,某件机器的使用寿命等。
这种分析的特点是追踪研究的对象都要经过一段时间,而且经常会碰到出于某种原因无法继续追踪的情况。
生存分析就是用来研究这段追踪时间的分布规律以及相关因素的一种统计分析方法。
一、生存分析的一些概念1.观察起点是指由研究者确定的研究开始时的时间2.终点事件是指由研究者确定的某种发生的事件,这种事件必须明确定义,而且并不一定是消极事件3.生存时间是指从观察起点到终点事件发生时所经历的时间跨度,这个时间也未必是通常意义上的时间,也可以是和时间相关的变量。
比如距离等,具体要根据研究目的而定义。
4.删失数据由于经常会碰到出于某种原因无法继续追踪的情况,导致终点事件分为两种:一种是完整数据,用t表示,它准确的度量了从观察起点到终点事件发生的完整时间,提供的生存时间的信息是全面准确的。
另一种是删失数据,用t+表示,由于某种原因没有追踪到终点事件的发生,它提供的生存时间信息是不完整的。
造成删失数据的原因主要有失访、终点事件的发生并不是由于预定义的原因造成、研究结束时终点事件并未发生等。
5.死亡概率表示某时段开始存货的个体,在该时段内死亡的可能性,如年死亡概率q=某年内死亡人数/某年年初人口数,如果年内存在删失数据,需要对分母进行校正,校正人口数=年初人口数-删失例数/26.生存概率某时段开始时存活的个体,到该时段结束时让然存活的可能性p=某年存活满一年的人数/某年年初人口数=1-q,如果年内存在删失数据,需要对分母进行校正,校正人口数=年初人口数-删失例数/27.生存函数也称为生存率或累积生存概率,是随着时间的变化而变化的,是关于时间的函数,是指0时刻存活的个体经历t个时段之后仍然存活的可能性,或者说个体的生存时间T大于某时刻t的概率,t=0时,生存函数取值为1,随着t增大,生存函数值逐渐减小如果存在删失数据,则需要分段计算生存概率,在应用概率的乘法定理将分段概率相乘,注意:生存概率是针对单位时段而言的,生存函数是生存概率的累积结果。