统计学教案习题17随访资料的生存分析
- 格式:doc
- 大小:298.50 KB
- 文档页数:7
第十七章生存分析练习题一、最佳选择题1.生存分析中的生存时间为( )。
A.出院至失访的时间B.手术至失访的时间C.观察开始至终止的时间D.观察开始至失访的时间E.入院至出院的时间2.关于膀胱癌化疗的随访资料做生存分析,完全数据是指( )。
A.死于膀胱癌B.死于意外死亡C.死于其它肿瘤D.观察结束时仍然存活E.由于搬迁而失访3.采用log-rank检验分析肺癌发病资料,其中吸烟、慢性支气管炎两个因素都有统计学意义,由此可认为( )。
A.吸烟与肺癌有因果联系B.慢性支气管炎与肺癌有因果联系C.两个因素与肺癌有因果联系D.两个因素为肺癌的发病因素E.以上都不对4.生存分析的反应变量是( )。
A.正态的和方差齐性的B.生存时间和结局变量C.生存时间D.结局变量E.完全数据(未截尾)二、问答题1. 在肿瘤预后分析中,死于非肿瘤患者的数据怎样处理?2. 生存分析可用于发病资料的分析吗?请举例说明。
3. 生存时间能计算平均数、标准差吗?4. 生存分析对资料有哪些基本要求?三、计算题1. 下表是296例肝癌患者的生存数据,试作生存分析并绘生存曲线。
296例肝癌患者的生存数据生存时间(月)期初观察人数死亡人数删失人数[0,1) 296 94 10[1,2) 192 74 5[2,3) 103 22 10[3,4) 71 22 6[4,5) 43 5 5[5,6) 33 6 6[6,7) 21 4 1[7,8) 16 2 1[8,9) 13 3 2[9,10) 8 2 0[10,11) 6 2 2[11,12) 2 2 02. 某医院有11例乳腺癌患者接受手术加化疗治疗,其生存时间如下:10 14 15 16+19 19 20 20+24 26 28 试估计生存率,并绘生存曲线。
3. 某医院用甲、乙两疗法治疗急性黄疸性肝炎,随访十年得资料如下:甲疗法组12,25,50+,68,70,79+,83+,91+,114+,114+,乙疗法组1,1,9,17,21,25,37,38,58,72+,73试比较两疗法的生存期(月)有无差别。
随访资料的生存分析对于需要长期观察的病例,如慢性病或恶性肿瘤,原有疗效指标如有效率、治愈率等就不适用,还需要考虑出现结局的时间长短。
生存分析(survival analysis)是将结局和出现时间结合起来分析的统计分析方法。
生存分析最常用的方法有乘积限法和寿命表法、生存率比较的log-rank检验和Wilcoxon检验以及Cox比例风险回归模型。
生存分析的基本概念研究生存时间需要通过随访完成,随访有两种形式:1.从所有观察对象在同一时间接受统一处理后观察到事先规定的时间或一定数量观察对象出现特定结局为止2.观察不同时间接受同一处理,然后观察到规定时间或一定数量出现特定结局(此状况更常见)。
终点事件(endpoint event):又称失效事件(failure event),是指研究对象发生的研究者关心的特定结局。
起始事件:研究对象生存特征的起始特征事件。
生存时间(survival time):两个有联系的起始事件和终点事件之间的时间。
为了得到准确的生存时间,必须明确规定起点事件和终点事件。
需要注意,虽然名词是“生存时间”,但事实上不一定是说生存,只要符合上面定义的任何时间段都可以叫生存时间。
生存时间需要恰当的测度单位(小时、日、月、年等),一般测度时间越小,准确性越高。
删失(censoring):也叫终检,是指没有观察到终点事件,无法得知确切生存时间。
包含删失数据称为不完全数据(incomplete data)。
右删失(right censoring):从时间轴上看,终点事件发生在最后一次随访时间的右方,真实生存时间只能大于这个时间。
产生右删失原因:1 随访对象失访2 随访结束仍未出现终点事件3 治疗措施改变生存率估计与生存曲线常用的两种方法:乘积限法(product-limit method),用于小样本未分组资料。
寿命表法(life table method),用于大样本分组资料。
乘积限法:也叫Kaplan-Meier法或K-M法,主要用于小样本,也可用于大样本。
五、其它30分(3~5道题目,每题6~10分)随访资料的生存分析:【06真题】九、某医生从 2002年 1月 1日起对某医院收治的 6名急性心肌梗塞病人进行跟踪观察,2002年 3月 25日结束观察,共 12周。
记录的资料如下:(5分)1、上述资料随访时间单位以(日)、(月)、(年)哪个较合适?为什么?2、判断上述随访时间哪些属截尾值?写出观察对象编号。
【05真题、04真题、03真题】四、16例某癌症病人在不同时期经随机化分配到A、B两治疗组,并继续进行随访至1974年5月 31日结束。
资料如下表:(8分)16例某种癌症病人随访资料病人号治疗组分组日期终止日期是否该病死亡截尾值1 A 68.05.12 68.05.30 Y2 B 70.10.18 71.04.16 Y3 B 69.02.12 70.11.06 Y4 A 72.01.30 74.05.31 仍存活5 A 73.11.11 74.01.02 Y6 B 68.03.12 73.03.30 车祸死亡7 A 69.01.06 69.01.04 Y8 A 69.02.08 70.02.08 迁出9 B 71.05.02 71.11.13 Y10 B 68.03.08 68.05.23 Y11 B 73.12.12 74.02.20 Y12 A 74.05.01 74.05.09 Y13 B 72.07.02 72.07.15 Y14 B 68.12.18 74.04.31 失访15 A 69.01.01 74.05.31 仍存活16 B 73.09.02 73.09.20 Y1.上述资料随访时间单位以(日)、(月)、(年)哪个较合适?为什么?2.判断上述随访时间哪些属截尾值,写出观察对象编号。
3.要比较A、B疗法对该种癌症病人的疗效,宜选用何种统计检验方法?4.A、B治疗组随访资料生存时间的特征量(代表值)一般用何指标表示?【答案】jszb0、本资料中,第7号观察对象数据,终止日期竟然早于分组日期,是典型的错误数据,应该排除。
第十七章 随访资料的生存分析一、教学大纲要求(一)掌握内容 1.生存分析基本概念生存时间、完全数据、截尾数据、死亡率、死亡概率、生存概率、生存率。
2.估计生存率的方法:Kaplan-Meier 法、寿命表法。
(二)熟悉内容1.生存曲线、半数生存期。
2.生存资料的基本要求。
3.两生存曲线的比较的对数秩检验。
(三)了解内容 Cox 回归模型。
二、教学内容精要(一)生存分析中的基本概念1.生存时间(survial time )指观察到的存活时间,如表11-1中t 分别为360,990,1400,1800天。
生存时间有两种类型:(1)完全数据(complete data )指从起点至死亡所经历的时间,即死者的存活时间,如表11-1中360,990,1800天。
(2)截尾数据(censored data )由于失访、改变防治方案、研究时间结束时事件尚未发生等情况,使得部分病人不能随访到底,称之为截尾。
从起点至截尾所经历的时间,称为截尾数据,如表11-1中1400天,习惯上记为1400+天。
表11-1 4例鼻咽癌随访记录患者序号性别 (男=1)处理组号开始日期 终止日期 结局 (死=1)存活天数 10 1 11/29/80 11/04/85 1 360 2 1 1 06/13/82 06/08/83 1 990 3 1 0 03/02/83 12/31/86 0 1400+ 4 008/04/8304/10/86118002.死亡概率与生存概率(1)死亡概率(mortality probability )指死于某时段内的可能性大小,记为q 。
年死亡概率的计算公式为q =某年年初观察例数某年内死亡数,若年内有截尾,则分母用校正人口数(校正人口数=年初人口数-21截尾例数)。
这里的死亡概率与通常所说的死亡率是有区别的,死亡率的分母常用年平均人口,反映过去一年的死亡频率(年平均水平),而死亡概率则用年初人口,表示往后的一年中死亡机会大小。
第十七章 随访资料的生存分析一、教学大纲要求(一)掌握内容 1.生存分析基本概念生存时间、完全数据、截尾数据、死亡率、死亡概率、生存概率、生存率。
2.估计生存率的方法:Kaplan-Meier 法、寿命表法。
(二)熟悉内容1.生存曲线、半数生存期。
2.生存资料的基本要求。
3.两生存曲线的比较的对数秩检验。
(三)了解内容 Cox 回归模型。
二、教学内容精要(一)生存分析中的基本概念1.生存时间(survial time )指观察到的存活时间,如表11-1中t 分别为360,990,1400,1800天。
生存时间有两种类型:(1)完全数据(complete data )指从起点至死亡所经历的时间,即死者的存活时间,如表11-1中360,990,1800天。
(2)截尾数据(censored data )由于失访、改变防治方案、研究时间结束时事件尚未发生等情况,使得部分病人不能随访到底,称之为截尾。
从起点至截尾所经历的时间,称为截尾数据,如表11-1中1400天,习惯上记为1400+天。
表11-1 4例鼻咽癌随访记录患者序号(男=1)处理组号开始日期 终止日期 (死=1)存活天数10 1 11/29/80 11/04/85 1 360 2 1 1 06/13/82 06/08/83 1 990 3 10 03/02/83 12/31/86 01400+4 008/04/8304/10/86118002.死亡概率与生存概率(1)死亡概率(mortality probability )指死于某时段内的可能性大小,记为q 。
年死亡概率的计算公式为q =某年年初观察例数某年内死亡数,若年内有截尾,则分母用校正人口数(校正人口数=年初人口数-21截尾例数)。
这里的死亡概率与通常所说的死亡率是有区别的,死亡率的分母常用年平均人口,反映过去一年的死亡频率(年平均水平),而死亡概率则用年初人口,表示往后的一年中死亡机会大小。
(2)生存概率(survival probability )与死亡概率相对应,记为p ,表示在某单位时段开始时存活的个体到该时段结束时仍存活的机会大小。
年生存概率的计算公式为=-=q p 1某年年初人口数某年活满一年人数,若年内有截尾,也要用校正人口数。
(二)生存率的Kaplan-Meier 法与寿命表法估计 1.生存率(1)生存率(survival rate ) 指病人经历k t 个单位时间后仍存活的概率,记为)(k t S 。
若无截尾数据,则)(k t S ==≥)(k t T P 观察总例数时刻仍存活的例数k t (11-1)其中T 为病人的存活时间。
如果含有截尾数据,分母就必须分时段校正,故此式一般不能直接应用。
(2) 生存率估计的概率乘法原理假定病人在各个时段生存的事件独立,生存概率为k p p p ,,,21 ,则应用概率乘法得生存率估计的应用公式为)(k t S =k k p p p t T P 21)(=≥ (11-2) 若式中k p p p ,,,21 用校正人数估计,便可处理截尾数据。
生存概率与生存率在意义上差别很大,前者是单个时段的概率,后者是从0至k t 多个时段的累积结果。
(3) 生存曲线(survival curve) 指将各个时点的生存率连接在一起的曲线图。
(4) 半数生存期(median survival time ) 表示恰好有50%的个体可活这么长时间。
2.生存率的估计方法(1)乘积极限法(product-limit method ) 直接用概率乘法原理估计生存率(不分组),由Kaplan-Meier 于1958年提出,因而又称Kaplan-Meier 法。
这是一种非参数法,主要用于小样本,也适用于大样本。
其生存曲线是左连续的阶梯形曲线。
(2)寿命表法(life-table method ) 当样本例数足够多时,乘积极限法可按时间分组计算,这就是寿命表法,实际上是乘积极限法的一种近似。
其生存曲线呈折线形。
(三)两样本生存曲线的比较——对数秩检验对数秩检验(log-rank test )用于两样本生存曲线的比较,其零假设为两总体生存曲线相同,基本思想是如果零假设成立,根据不同日期两种处理的期初人数和死亡人数,计算各种处理在各个时期的理论死亡数。
若零假设成立,则实际死亡数与理论死亡数不会相差太大,否则应认为零假设不可能成立,两条生存率曲线差异有统计学意义。
对数秩检验统计量(近似法)为:∑=-=mk k k k T T A 122)(χ ,1-=m υ (11-3)其中k A 和k T 分别是第k 组死亡的实际数和理论期望数。
在0H 成立的条件下,统计量2χ服从自由度为1-m 的2χ分布,m 为组数,据2χ作出是否拒绝0H 的决定。
(四)Cox 回归模型Cox 回归是生存分析中最重要的方法之一,其优点是适用范围很广和便于做多因素分析。
Cox 回归假定病人的风险函数为)ex p()()(22110p p X b X b X b t h t h +++= (11-4) 其中)(t h 为风险函数,又称风险率或瞬间死亡率,)(0t h 为基准风险函数,是与时间有关的任意函数,b X ,分别是观察变量及其回归系数。
英国统计学家Cox D R 提出了参数i b 的估计和检验方法,故称为Cox 回归。
三、典型试题分析(一)单项选择题1.生存分析的效应变量是 ( )。
A .正态的和方差齐性的B .生存时间和结局变量C .生存时间D .结局变量答案:B[评析] 本题考点:生存分析的概念生存分析是将事件的结果和出现这一结果所经历的时间,结合起来分析的一种统计分析方法,所以它的应变量有两个,即生存时间和结局。
2.随访资料做生存分析的条件为( )。
A .有一定的例数B .有一定的死亡数C .死亡比例不能过小D .自变量取值不随时间变化 答案:B[评析] 本题考点:生存资料的基本要求生存资料的基本要求为:①样本由随机抽样方法获得,并有足够数量;②死亡例数不能太少(≧30);③截尾比例不能太大;④生存时间尽可能精确到天数;⑤缺项要尽量补齐。
所以最佳答案应选B 。
3.Cox 回归风险率( )。
A .等于一个常数B .服从某种分布规律C .等于基准函数乘上一个比例因子D .适用于任意肿瘤资料 答案:C[评析] 本题考点:Cox 回归模型的特点及应用 首先,用于Cox 回归模型分析的资料必须满足生存资料的基本要求,因此任意肿瘤资料不一定满足此要求,排除D 。
Cox 回归风险函数中因)(0t h 未定义,所以不知道风险在病人与病人之间的差别和风险随时间变化的具体分布,排除A ,B 。
所以正确答案为C ,从风险回归函数的定义式也可看出。
4.采用log-rank 检验分析肺癌发病资料,其中吸烟、慢性支气管炎2个因素都有统计学意义,由此可认为( ):A .吸烟与肺癌有因果联系B .慢性支气管炎与肺癌有因果联系C .2个因素与肺癌有因果联系D .以上都不对 答案:D[评析] 本题考点:模型中的变量如何选择取舍选入模型的变量是统计学上的有关变量,不一定都与肺癌有因果关系,其中某些可能只有伴随关系而已;未选入模型的变量不一定全是无关变量,要考虑是否模型内的某些变量代替了它的作用,或因例数不够,或实验中对该因素进行了控制而引起的。
所以正确答案选D 。
5.根据表11-1中的存活时间,试用Kaplan-Meier 法估计生存曲线。
[评析] 本题是考察对乘积极限法的应用情况,此法应用普遍,应熟练掌握。
具体解法见表11-2。
表11-2 乘积极限法估计生存率计算表2 9903 1 132 (43)(2)=参照表11-2,计算步骤为:1. 列出序号:k =1,2,...(第1列); 2. 死亡时间排队:将存活时间t (完全数据)从小到大顺序排列,重复数据只列一次, 截尾数据(如1400)+不列入(第2列);3. 求出t 时刻期初例数n :即存活时间大于或等于t 的例数(含死者)(第3列); 4. 列出t 时刻的死亡数d :即死亡时间为t 的例数(第4列); 5. 求出t 时刻的死亡概率:(第5列); 6. 求出t 时刻的生存概率:(第6列); 7. 分别计算生存率及其标准误;(第7、8列); 8. 绘制生存曲线。
四、习题(一)名词解释1.生存分析2.生存时间3.完全数据4.截尾数据5.死亡率6.死亡概率7.生存概率8.生存率(二)单项选择题1.Cox回归的自变量( )。
A.必须服从正态分布和方差齐性 B.必须是计量资料C.可以是计量资料或分类资料 D.无任何条件2.生存分析中的生存时间为( )。
A.出院至失访的时间 B.手术至失访的时间C.观察开始至终止的时间 D.观察开始至失访的时间3.关于膀胱癌化疗的随访资料做生存分析,可当作截尾值处理的是( ):A.死于膀胱癌 B.死于意外死亡C.死于其它肿瘤 D.b,c都是(三)简答题1.在肿瘤预后分析中,死于非肿瘤患者的数据怎样处理2.生存分析可用于发病资料的分析吗请举例说明。
3.生存时间能计算平均数、标准差吗4.Cox回归可估计参数,故属于参数方法(四)计算题1.表11-3第2-4列是296例肝癌患者的生存数据,试作生存分析并绘图示之。
2.某院用甲、乙两疗法组治疗急性黄疸性肝炎,随访十年得资料如下:甲疗法组 12,25,50+,68,70,79+,83+,91+,114+,114+,乙疗法组 1,1,9,17,21,25,37,38,58,72+,73比较两疗法的生存期(月)有无差别。
五、习题答题要点(一)名词解释1.生存分析:生存分析(survival analysis)是将事件的结果和出现这一结果所经历的时间,结合起来分析的一种统计分析方法,它不仅可以从事件结局的好坏,如疾病的治愈(成功)和死亡(失败),而且可以从事件的持续时间,如某病经治疗后存活的时间长短进行分析比较,因而能够更全面、更精确地反映该治疗的效果。
2.生存时间:生存时间(survival time)指观察到的存活时间。
3.完全数据:完全数据(complete data)指从起点至死亡所经历的时间,即死者的存活时间。
4.截尾数据:由于失访、改变防治方案、研究时间结束时事件尚未发生等情况,使得部分病人不能随访到底,称之为截尾。
从起点至截尾所经历的时间,称为截尾数据(censored data )。
5. 死亡率:某年内死亡例数与年中观察例数之比称为死亡率(mortality rate )。
6. 死亡概率:死亡概率(mortality probability )是指某年内死亡例数与年初观察例数之比,若年内有截尾,分母用校正人口数。
7. 生存率:生存率(survival rate )指病人经历k t 个单位时间后仍存活的概率,即kt 时刻仍存活的例数与观察总例数之比。