第十五章 生存分析第一节生存资料的特点
- 格式:doc
- 大小:461.50 KB
- 文档页数:17
生存分析知识总结一、生存分析的基本概念生存分析是将事件的结果和出现此结果所经历的时间结合起来分析的统计分析方法。
研究生存现象和响应时间数据及其统计规律的一门学科。
对一个或多个非负随机变量(生存时间)进行统计分析研究。
对生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度的统计分析方法。
在综合考虑相关因素(内因和外因)的基础上,对涉及生物学、医学(临床、流行病)、工程(可靠性)、保险精算学、公共卫生学、社会学和人口学(老龄问题、犯罪、婚姻)、经济学(市场学)等领域中,与事件(死亡,疾病发生、发展和缓解,失效,状态持续)发生的时间(也叫寿命、存活时间或失效时间,统称生存时间)有关的问题提供相关的统计规律的分析与推断方法的学科。
生存时间也叫寿命、存活时间、失效时间等等。
比如:医学上包括疾病发生时间、治疗后疾病复发时间;可靠性工程系为元件或系统失效时间;犯罪学方面是重罪犯人的假释时间;社会学上指首次婚姻持续时间;人口学上包括母乳喂养新生儿断奶时间;经济学包括经济危机爆发时间、发行债券的违约时间;保险精算学包括保险人的索赔时间、保险公司某一索赔中所付保费;汽车工业包括汽车车轮转数;市场学中有报纸和杂志的篇幅和订阅费。
这些也可以说明,生存时间可以不是具体的时间。
二、生存分析的历史生存分析方法最早可上溯至十九世纪的死亡寿命表。
现代的生存分析则开始于二十世纪三十年代工业科学中的相关应用。
二次世界大战时期,武器装备的可靠性研究,这一研究兴趣延续到战后。
此时生存分析都集中在参数模型。
二十世纪六七十年代,医学研究中大量临床试验的出现,要求方法学有新的突破,导致了生存分析的研究开始转向非参数方法。
D.R. Cox在72年提出的比例风险模型为此做出了划时代的贡献。
现在,生存分析方法的在医学领域得到了广泛的应用,而通过医学研究要求的不断提高,这一方法也得到了飞速的发展。
三、生存分析的研究目的,内容和具体方法(一)研究目的主要由以下五个方面1.描述生存过程:估计不同时间的总体生存率,计算中位生存期,绘制生存函数曲线。
第1章基本概念第1节生存资料的特点生存资料(Survival Data)或失效时间资料(Failure-time Data)与多元线性回归资料很相似,只不过因变量(或反应变量)通常为观测对象生存的时间,常用t来表示。
当然,生存时间是广义的,可以指在通常意义下生物体的生存时间、也可以指所关心的某现象(如疾病治愈后、合格品使用后)持续的时间。
若生存时间是准确观测到的,则称为完全数据。
生存资料的一个明显特点是:所收集的资料中常常包含不完全数据,也称为截尾数据、删失数据、终检数据(Censored Data)。
包括删失数据的资料,称为删失资料。
对于删失数据,既不能简单地弃之,踊能像对待完全数据那样给予充分的信任,需要采取一些技术处理。
专门处理这种资料的统计方法,称为生存分析(Survival Analysis)。
导致数据删失有多种原因,最常见的有:失访(病人因搬家、随访信件丢失、车祸等原因,导致医生对他们的随访观察中断)和研究截止。
由随机因素引起的,称为随机删失;若事先就定了截止日期,则称为定时删失(也称Ⅰ型删失);若事先就定了观察完多少例就截止研究,则称为Ⅱ型删失(也称为定数删失)。
在表达删失数据时,常在其右上角放一个“+”号;而用SAS软件分析时,常在其前放一个“-”号或产生1个指示变量(如:C=0表示删失数据、C=1表示完全数据,反过来也可以),便于计算时区别对待。
为了使数据的表达与计算在形式上统一起来,本篇一律用负数表示删失数据,因生存时间不可能为负值,故不会产生混淆。
第2节生存时间函数描述生存时间规律的函数很多,统称为生存时间函数。
其中最主要的有生存函数、死亡概率函数、概率密度函数和危险率函数。
1.生存函数(Survival Function)生存函数也称为生存概率或累积生存率,常用S(t)表示,它表示一个体生存时间长于t的概率。
在具体问题中,该函数在t时刻的取值可用式(5.1.1)来估计∶S(t)≈生存时间长于t的病人数/病人总数(5.1.1)2.死亡概率函数(Failure Probability Function)死亡概率函数简称为死亡概率,常用F(t)表示,它表示一个体从开始观察起到时刻t为止的死亡概率。
在某些领域的分析中,常常用追踪的方式来研究事物的发展规律,比如研究某种药物的疗效,手术后的存活时间,某件机器的使用寿命等。
这种分析的特点是追踪研究的对象都要经过一段时间,而且经常会碰到出于某种原因无法继续追踪的情况。
生存分析就是用来研究这段追踪时间的分布规律以及相关因素的一种统计分析方法。
一、生存分析的一些概念1.观察起点是指由研究者确定的研究开始时的时间2.终点事件是指由研究者确定的某种发生的事件,这种事件必须明确定义,而且并不一定是消极事件3.生存时间是指从观察起点到终点事件发生时所经历的时间跨度,这个时间也未必是通常意义上的时间,也可以是和时间相关的变量。
比如距离等,具体要根据研究目的而定义。
4.删失数据由于经常会碰到出于某种原因无法继续追踪的情况,导致终点事件分为两种:一种是完整数据,用t表示,它准确的度量了从观察起点到终点事件发生的完整时间,提供的生存时间的信息是全面准确的。
另一种是删失数据,用t+表示,由于某种原因没有追踪到终点事件的发生,它提供的生存时间信息是不完整的。
造成删失数据的原因主要有失访、终点事件的发生并不是由于预定义的原因造成、研究结束时终点事件并未发生等。
5.死亡概率表示某时段开始存货的个体,在该时段内死亡的可能性,如年死亡概率q=某年内死亡人数/某年年初人口数,如果年内存在删失数据,需要对分母进行校正,校正人口数=年初人口数-删失例数/26.生存概率某时段开始时存活的个体,到该时段结束时让然存活的可能性p=某年存活满一年的人数/某年年初人口数=1-q,如果年内存在删失数据,需要对分母进行校正,校正人口数=年初人口数-删失例数/27.生存函数也称为生存率或累积生存概率,是随着时间的变化而变化的,是关于时间的函数,是指0时刻存活的个体经历t个时段之后仍然存活的可能性,或者说个体的生存时间T大于某时刻t的概率,t=0时,生存函数取值为1,随着t增大,生存函数值逐渐减小如果存在删失数据,则需要分段计算生存概率,在应用概率的乘法定理将分段概率相乘,注意:生存概率是针对单位时段而言的,生存函数是生存概率的累积结果。
SPSS教程第十五课:生存分析信息来源:本站原创更新时间:2004-7-12 21:11:00在临床诊疗工作的评价中,慢性疾病的预后一般不适合用治愈率、病死率等指标来考核,因为其无法在短时间内明确判断预后情况,为此,只能对患者进行长期随访,统计一定时期后的生存或死亡情况以判断诊疗效果。
这就是生存分析。
第一节 Life Tables过程14.1.1主要功能调用此过程时,系统将采用即寿命表分析法,完成对病例随访资料在任意指定时点的生存状况评价。
14.1.2实例操作[例14-1]用中药+化疗(中药组,16例)和单纯化疗(对照组,10例)两种疗法治疗白血病患者后,随访记录存活情况如下所示,试比较两组的生存率。
14.1.2.1 数据准备激活数据管理窗口,定义变量名:随访月数的变量名为TIME,是否死亡的变量名为DEATH,分组(即中药组与对照组)的变量名为GROUP。
输入原始数据:随访月数按原数值;是否死亡的,是为1,否为0;分组的,中药组为1,对照组为2。
14.1.2.2 统计分析激活Statistics菜单选Survival中的Life Tables...项,弹出Life Tables 对话框(图14.1)。
从对话框左侧的变量列表中选time,点击 钮使之进入time框;在Display Time Intervals栏中定义需要显示生存率的时点,本例要求从0个月显示至48个月,间隔为2个月,故在0 through框中输入48,在by 框中输入2。
选death,点击 钮使之进入Status框,点击Define Event...钮弹出Life Tables:Define Event for Status Variable对话框,在Single value栏中输入1,表明death = 1为发生死亡事件者;点击Continue钮返回Life Tables 对话框。
选group,点击 钮使之进入Factor框,点击Define Range...钮,弹出Life Tables:Define Range for Factor Variable对话框,定义分组的范围,在Mininum框中输入1,在Maxinum框中输入2,点击Continue钮返回Life Tables对话框。
生存分析基础知识生存分析是一种统计方法,用于研究个体或群体在特定时间段内生存的概率和影响因素。
它广泛应用于医学、生物学、社会科学等领域,帮助研究人员了解疾病发展、生物进化、社会现象等方面的规律。
本文将介绍生存分析的基础知识,包括生存函数、生存率、危险比等概念和方法。
一、生存函数生存函数是生存分析的核心概念之一,用于描述个体或群体在不同时间点上存活的概率。
生存函数通常用S(t)表示,其中t表示时间。
生存函数的定义如下:S(t) = P(T > t)其中,T表示个体或群体的生存时间,P(T > t)表示生存时间大于t的概率。
生存函数的取值范围为0到1,随着时间的增加,生存函数逐渐减小。
二、生存率生存率是生存函数的导数,表示在某一时间点上存活的概率密度。
生存率通常用s(t)表示,其定义如下:s(t) = dS(t)/dt生存率的取值范围为0到1,随着时间的增加,生存率逐渐减小。
生存率可以用来比较不同时间点上的生存概率,从而了解个体或群体的生存状况。
三、危险比危险比是生存分析中常用的比较指标,用于比较两组个体或群体的生存风险。
危险比通常用HR表示,其定义如下:HR(t) = h1(t)/h0(t)其中,h1(t)表示第一组个体或群体在时间t的危险函数,h0(t)表示第二组个体或群体在时间t的危险函数。
危险函数描述了在给定时间点上个体或群体发生事件的风险。
危险比大于1表示第一组个体或群体的生存风险高于第二组,危险比小于1表示第一组个体或群体的生存风险低于第二组,危险比等于1表示两组个体或群体的生存风险相等。
四、生存分析方法生存分析方法包括Kaplan-Meier方法、Cox比例风险模型等。
Kaplan-Meier方法用于估计生存函数,通过计算观测到的生存时间和事件发生情况,得到生存函数的估计值。
Cox比例风险模型用于分析生存时间与多个危险因素之间的关系,通过估计危险比来评估不同因素对生存的影响。
第十五章生存分析第一节生存资料的特点前面有关章节介绍了多种定量资料和定性资料的统计分析方法。
下面是一个临床实例,请思考该资料的特点,应选用何种统计方法进行统计分析较为合适。
某医生将22例肺癌患者随机分为两组,分别采用化疗和放化疗联合治疗,从缓解出院日开始随访,随访时间(月)如下(带“+”号的数据表示患者至少存活了多少个月)。
试比较化疗和放化疗联合治疗肺癌的疗效是否有差别。
化疗组1,2,3,5,6,9+,11,13,16,26,37+放化疗联合组10,11+,14,18,22,22,26,32,38,40+,42+该医生的研究目的是评价化疗和放化疗联合治疗两种临床治疗措施的疗效。
临床治疗措施的疗效评价,一方面要看治疗措施所引起的“结局”(该资料中,即为“生存”或“死亡”),另一方面还要看得到这种结局所经历的时间长短(该资料中,即为患者接受化疗或放化疗联合治疗后存活多长时间,或患者接受化疗或放化疗联合治疗后多长时间发生死亡)。
显然,结局为“生存”且存活时间越长,其疗效就越好。
反之,结局为“死亡”且存活时间越短,其疗效就越差。
结局虽然都是“死亡”,但能够使患者生存时间越长的临床治疗措施的疗效就越好。
从前面几个章节所学习的内容来看,可以考虑的方法有t检验、方差分析或秩和检验。
但t检验和方差分析都要求所比较的两个样本来自正态分布总体,而该资料两个组中均有带“+”号的数据,其提供的信息不完整,如“9+”表示该患者至少存活了9个月,但准确死亡时间不清楚,这就导致两个样本的总体分布不明确,不满足t检验和方差分析的应用条件。
退一步说,即使该资料满足t检验和方差分析的应用条件,但由于这两种方法均只是比较患者接受化疗和放化疗联合治疗后的生存时间有无差别,并未分析两种治疗措施的结局有无差别,因而达不到综合评价这两种治疗措施疗效的目的。
因此,不宜采用t检验或方差分析。
秩和检验虽不对样本所来自的总体作严格限定,但它也只能比较患者接受两种治疗措施后的生存时间有无差别,并不能分析两种治疗措施的结局有无差别,因而也达不到综合评价这两种治疗措施疗效的目的。
因此,该资料也不适宜采用秩和检验。
那么,能否将其转变为定性资料后采用定性资料的统计分析方法进行分析?如果勉强把带“+”号的患者看作“生存”的话,该资料可转化为二分类(结局为“生存”和“死亡”)的四格表资料:化疗组2人生存,9人死亡;放化疗联合组3人生存,8人死亡。
由于样本含量小(2240n=<),可采用四格表资料确切概率法进行统计分析。
但这种处理有失妥当:一是带“+”号的患者并不都是存活的患者;二是将定量资料转化为定性资料会损失部分信息。
更为重要的是,转化为定性资料后采用四格表资料Fisher确切概率法进行分析,只是比较两种治疗措施的结局(生存率)有无差别,而未比较患者接受两种治疗措施后的生存时间有无差别,因而也达不到综合评价这两种治疗措施疗效的目的。
因此,将该资料转化为定性资料后采用四格表资料确切概率法进行统计分析亦欠妥当。
综上所述,这种类型的资料采用前面章节介绍的定量资料或定性资料的统计分析方法进行统计分析均不合适。
那么,这种类型的资料究竟有些什么特点、适宜采用何种统计方法进行统计分析?在医学科学研究中,与之相类似的资料还有很多。
在这类研究中,研究者不仅关心某事件发生的结局,同时还关心发生这种结局所经历的时间。
如恶性肿瘤、糖尿病、高血压、心血管疾病等慢性病治疗措施的疗效评价,不仅要考虑治愈率或缓解率,还要考虑治愈时间或缓解时间;预防保健措施的效果评价,不仅要考虑使用保健措施的结果(“好”或“坏”),同时还要考虑出现这种结果所经历的时间,如采取健康教育控制青少年吸烟的效果评价,不仅要考虑青少年接受健康教育后是否吸烟,还要考虑从戒烟到复吸的时间长短;疾病预后的影响因素评价,也要同时考虑疾病的结局(“生存”和“死亡”)和出现这种结局所经历的时间,如肾移植患者术后效果的影响因素评价,不仅要考虑患者是否存活,还要考虑其生存时间。
这类资料在统计学上被称为生存资料(survival data),概括起来具有以下几个共同特点:①蕴涵有结局和时间两个方面的信息;②结局为两分类互斥事件;③一般是通过随访收集得到,随访观察往往是从某统一时间点(如确诊、入院或实施手术等某种处理措施后)开始,观察到某规定时间点截止;④常因失访等原因造成某些研究对象的生存时间数据不完整,分布类型复杂,不能简单地套用前面介绍过的统计方法,如t检验、方差分析、2χ检验、四格表资料确切概率法或秩和检验进行分析。
分析生存资料的统计方法称为生存分析(survival analysis),它是将事件的结局和发生这种结局所经历的时间进行综合分析的一大类统计方法。
生存分析是近30多年来逐步发展和完善起来的一种新的数理统计学分支,具有相对独立的理论体系。
随着其理论体系的不断完善和计算机技术的飞速发展,目前已广泛应用于工业、农业、国防和医学等领域。
本章首先介绍生存分析的基本内容及几个基本概念,然后重点介绍未分组资料和分组资料的生存分析,以及生存曲线比较的假设检验方法。
第二节生存分析的基本内容及几个基本概念一、生存分析的基本内容1. 描述生存过程:研究生存时间的分布特点,估计生存率及其标准误、绘制生存曲线等。
例如,根据乳腺癌患者手术后的生存资料,可以估计不同时间点的生存率及其标准误,如1年生存率、3年生存率、5年生存率等,还可以绘制生存曲线,观察乳腺癌患者手术后的生存过程。
常用方法有乘积极限法和寿命表法。
2. 比较生存过程:获得生存率及其标准误的估计值后,可进行两组或多组生存曲线(生存过程)的比较。
例如,比较两种不同治疗措施治疗恶性肿瘤患者的生存曲线,可了解哪种治疗措施较优,从而为临床决策提供依据。
常用方法有对数秩检验。
3. 生存过程的影响因素分析:例如,为了改善鼻咽癌患者的预后,应先了解可能影响患者预后的因素,如年龄、病程、病情、术前健康状况、有无淋巴结转移、术后有无感染、辅助治疗措施、营养状况等,通过随访收集患者术后的生存时间和上述因素的资料,然后采用多因素生存分析方法确定影响患者预后的主要因素,从而为在手术前后进行预防或干预提供参考依据。
常用的多因素生存分析方法有Cox比例风险回归模型(见第十六章)。
二、生存分析中的几个基本概念1. 死亡事件(death event) 又称失效事件(failure event)或终点事件,死亡事件是一个广义概念,不单是指通常意义下的生物体死亡,而是泛指标志某种处理措施失败或失效的特征事件。
一般是在设计阶段根据研究目的来确定,如乳腺癌患者手术后的死亡、白血病患者化疗后的复发、肾移植患者的肾功能衰竭、接受健康教育戒烟后的青少年复吸烟、接受某种健康保险方式后的中途退保等,均可作为死亡事件。
2. 生存时间(survival time) 指观察到的存活时间,可用天、周、月、年等时间单位记录,常用符号t表示。
如表15.1中6个患者的生存时间分别为117,89,108,96,58,85天。
表15.1 6例乳腺癌患者手术后的随访记录患者编号观察记录生存天数t开始日期终止日期结局(死=1,生=0)原因1 2002-09-03 2002-12-29 0 死于肺癌117+2 2002-09-10 2002-12-08 1 转移死亡893 2002-09-14 2002-12-31 0 研究终止108+4 2002-08-25 2002-11-29 0 失访96+5 2002-10-01 2002-11-28 0 死于车祸58+6 2002-10-04 2002-12-28 1 复发死亡85一般情况下,较细的时间单位准确性较高,因为多数生存分析方法都是在生存时间排序的基础上进行统计处理的,即使是较小的舍入误差,也可能改变生存时间顺序而影响分析结果。
但实际工作中有时很难采用较细的时间单位来度量生存时间,如研究者知道某乳腺癌患者在2002年11月间死亡,但可能不知道具体是哪一天,此时只能用较粗的时间单位“月”来度量,或用2002年11月15日作为该患者死亡时间的粗略估计值。
生存时间也是一个广义概念,不单是指通常意义下生物体的存活时间,而是泛指研究者所关心的某现象的持续时间,如白血病患者化疗后的缓解时间、肾移植患者的存活时间、接受健康教育后青少年的戒烟时间、投保某种健康险至中途退保的时间等。
生存时间根据其不同的特点,可分为以下两种类型:(1) 完全数据(complete data):指从观察起点到发生死亡事件所经历的时间,如表15.1中2和6号患者对应的生存天数89天和85天。
(2) 截尾数据(censored data):简称截尾值(censored value),又称删失值或终检值。
生存时间观察过程的截止不是由于死亡事件,而是由于其他原因引起的,称为截尾(censored)。
截尾的主要原因有以下三种:①失访(withdrawal):指失去联系,如信访无回音、电话采访不应答、上门采访找不到人、搬迁没留地址等;②退出:指死于非研究因素或非处理因素而退出研究,如死于车祸等意外事件、死于其它疾病等;③终止:指设计时规定的研究时限已到而终止观察,但研究对象仍然存活。
从观察起点到截尾时点所经历的生存时间称为截尾数据,习惯上在生存时间右上标注“+”表示,如表15.1中1, 3, 4, 5号患者的生存天数分别记录为117+, 108+, 96+, 58+。
完全数据提供了观察对象确切的生存时间,是生存分析的主要依据;截尾数据仅提供了部分信息,研究者并不知道观察对象确切的生存时间。
因此,截尾数据太多会影响生存分析的效果。
3. 死亡概率与生存概率(1) 死亡概率(mortality probability):记为q ,是指在某单位时段开始时存活的个体在该时段内死亡的可能性大小。
年死亡概率的计算公式为:q =某年内死亡数某年年初观察例数(15.1)若年内有截尾,则分母用校正人口数:截尾例数年初观察例数校正人口数21-= (15.2) (2) 生存概率(survival probability):记为p ,与死亡概率相对立,表示在某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小。
某年生存概率的计算公式为:1p q =-=某年活满一年人数某年年初观察例数(15.3)分子即年底尚存人数,若年内有截尾,则分母用校正人口数。
4. 生存率与生存曲线(1) 生存率(survival rate):记为ˆ()kS t ,是指观察对象活过t k 时刻的概率。
生存率也是一个广义概念,研究者定义的死亡事件不同,其含义亦不同,可以是缓解率、有效率等。
如定义白血病化疗的死亡事件为白血病复发,此时生存率即为缓解率;定义预防接种腮腺炎疫苗的死亡事件为接种儿童发生腮腺炎,此时生存率即为疫苗的有效率;定义安置宫内节育器的死亡事件为因带环受孕取出节育器,此时生存率即为节育器的保留率。