第17章--生存分析
- 格式:ppt
- 大小:785.00 KB
- 文档页数:41
⽣存分析(survivalanalysis)⼀、⽣存分析(survival analysis)的定义 ⽣存分析:对⼀个或多个⾮负随机变量进⾏统计推断,研究⽣存现象和响应时间数据及其统计规律的⼀门学科。
⽣存分析:既考虑结果⼜考虑⽣存时间的⼀种统计⽅法,并可充分利⽤截尾数据所提供的不完全信息,对⽣存时间的分布特征进⾏描述,对影响⽣存时间的主要因素进⾏分析。
⽣存分析不同于其它多因素分析的主要区别点:⽣存分析考虑了每个观测出现某⼀结局的时间长短。
应⽤场景 什么是⽣存?⽣存的意义很⼴泛,它可以指⼈或动物的存活(相对于死亡),可以是患者的病情正处于缓解状态(相对于再次复发或恶化),还可以是某个系统或产品正常⼯作(相对于失效或故障),甚⾄可是是客户的流失与否等。
在⽣存分析中,研究的主要对象是寿命超过某⼀时间的概率。
还可以描述其他⼀些事情发⽣的概率,例如产品的失效、出狱犯⼈第⼀次犯罪、失业⼈员第⼀次找到⼯作等等。
在某些领域的分析中,常常⽤追踪的⽅式来研究事物的发展规律,⽐如研究某种药物的疗效,⼿术后的存活时间,某件机器的使⽤寿命等。
在医学研究中,常常⽤追踪的⽅式来研究事物发展的规律。
如,了解某药物的疗效,了解⼿术的存活时间,了解某医疗仪器设备使⽤寿命等等。
对⽣存资料的分析称为⽣存分析。
所谓⽣存资料就是描述寿命或者⼀个发⽣时间的数据。
更详细的说⼀个⼈的⽣存时间的长短与许多因素有联系的,研究因素与⽣存时间的联系有⽆及程度⼤⼩,称为⽣存分析。
例如研究病⼈感染了病毒后,多长时间会死亡;⼯作的机器多长时间会发⽣崩溃等。
这⾥“个体的存活”可以推⼴抽象成某些关注的事件。
所以SA就成了研究某⼀事件与它的发⽣时间的联系的⽅法。
这个⽅法⼴泛的⽤在医学、⽣物学等学科上,近年来也越来越多⼈⽤在互联⽹数据挖掘中,例如⽤survival analysis去预测信息在社交⽹络的传播程度,或者去预测⽤户流失的概率。
⽣存分析研究的内容 1.描述⽣存过程 研究⽣存时间的分布特点,估计⽣存率及平均存活时间,绘制⽣存曲线等,根据⽣存时间的长短,可以估算出各个时点的⽣存率,并根据⽣存率来估计中位⽣存时间,也可以根据⽣存曲线分析其⽣存特点,⼀般使⽤Kaplan-Meier法和寿命表法。
生存分析知识总结一、生存分析的基本概念生存分析是将事件的结果和出现此结果所经历的时间结合起来分析的统计分析方法。
研究生存现象和响应时间数据及其统计规律的一门学科。
对一个或多个非负随机变量(生存时间)进行统计分析研究。
对生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度的统计分析方法。
在综合考虑相关因素(内因和外因)的基础上,对涉及生物学、医学(临床、流行病)、工程(可靠性)、保险精算学、公共卫生学、社会学和人口学(老龄问题、犯罪、婚姻)、经济学(市场学)等领域中,与事件(死亡,疾病发生、发展和缓解,失效,状态持续)发生的时间(也叫寿命、存活时间或失效时间,统称生存时间)有关的问题提供相关的统计规律的分析与推断方法的学科。
生存时间也叫寿命、存活时间、失效时间等等。
比如:医学上包括疾病发生时间、治疗后疾病复发时间;可靠性工程系为元件或系统失效时间;犯罪学方面是重罪犯人的假释时间;社会学上指首次婚姻持续时间;人口学上包括母乳喂养新生儿断奶时间;经济学包括经济危机爆发时间、发行债券的违约时间;保险精算学包括保险人的索赔时间、保险公司某一索赔中所付保费;汽车工业包括汽车车轮转数;市场学中有报纸和杂志的篇幅和订阅费。
这些也可以说明,生存时间可以不是具体的时间。
二、生存分析的历史生存分析方法最早可上溯至十九世纪的死亡寿命表。
现代的生存分析则开始于二十世纪三十年代工业科学中的相关应用。
二次世界大战时期,武器装备的可靠性研究,这一研究兴趣延续到战后。
此时生存分析都集中在参数模型。
二十世纪六七十年代,医学研究中大量临床试验的出现,要求方法学有新的突破,导致了生存分析的研究开始转向非参数方法。
D.R. Cox在72年提出的比例风险模型为此做出了划时代的贡献。
现在,生存分析方法的在医学领域得到了广泛的应用,而通过医学研究要求的不断提高,这一方法也得到了飞速的发展。
三、生存分析的研究目的,内容和具体方法(一)研究目的主要由以下五个方面1.描述生存过程:估计不同时间的总体生存率,计算中位生存期,绘制生存函数曲线。
第十七章 随访资料的生存分析一、教学大纲要求(一)掌握内容 1.生存分析基本概念生存时间、完全数据、截尾数据、死亡率、死亡概率、生存概率、生存率。
2.估计生存率的方法:Kaplan-Meier 法、寿命表法。
(二)熟悉内容1.生存曲线、半数生存期。
2.生存资料的基本要求。
3.两生存曲线的比较的对数秩检验。
(三)了解内容 Cox 回归模型。
二、教学内容精要(一)生存分析中的基本概念1.生存时间(survial time )指观察到的存活时间,如表11-1中t 分别为360,990,1400,1800天。
生存时间有两种类型:(1)完全数据(complete data )指从起点至死亡所经历的时间,即死者的存活时间,如表11-1中360,990,1800天。
(2)截尾数据(censored data )由于失访、改变防治方案、研究时间结束时事件尚未发生等情况,使得部分病人不能随访到底,称之为截尾。
从起点至截尾所经历的时间,称为截尾数据,如表11-1中1400天,习惯上记为1400+天。
表11-1 4例鼻咽癌随访记录患者序号性别 (男=1)处理组号开始日期 终止日期 结局 (死=1)存活天数 10 1 11/29/80 11/04/85 1 360 2 1 1 06/13/82 06/08/83 1 990 3 1 0 03/02/83 12/31/86 0 1400+ 4 008/04/8304/10/86118002.死亡概率与生存概率(1)死亡概率(mortality probability )指死于某时段内的可能性大小,记为q 。
年死亡概率的计算公式为q =某年年初观察例数某年内死亡数,若年内有截尾,则分母用校正人口数(校正人口数=年初人口数-21截尾例数)。
这里的死亡概率与通常所说的死亡率是有区别的,死亡率的分母常用年平均人口,反映过去一年的死亡频率(年平均水平),而死亡概率则用年初人口,表示往后的一年中死亡机会大小。