非劣效临床试验的统计学考虑_CCTS工作小组
- 格式:pdf
- 大小:293.13 KB
- 文档页数:5
Bootstrap 法与H-L 法中位数差值区间检验在非劣效试验中的模拟比较研究**基金项目:四川养老与老年健康协同创新中心项目(YLZBZ1818);成都医学院教育教学改革研究项目(JG201944)△通信作者:陈卫中,E-mail : wejone@ 126. com成都医学院公共卫生学院(610500)毛昂曾子倩魏敏陈晓芳陈卫中△【提 要】目的 比较Bootstrap 法和Hodges-Lehmann 法(H-L 法)在中位数差值非劣效性检验中的特点,为相关研 究中统计学方法的选择提供依据。
方法以某临床试验中试验组与对照组咽痛消失时间的比较为基础,通过计算机模拟 生成单组样本量分别为20、30、50、100、200各500个两独立样本,分别服从参数为90h(试验组)、100 h(对照组)的Poisson 分布。
针对每个样本采用基于正态近似和百分位数的Bootstrap 法、H-L 法求得中位数差值的置信区间,并通过置信区间 下限与非劣性界值进行比较,得岀三种方法的检验效能。
结果 三种方法均随着样本量增加,检验效能增加。
在样本量为20时,H-L 法与正态近似法检验效能相当(25% vs. 24% ),且都高于百分位数法(19% )。
在样本量为30,50,100时,H-L 法检 验效能高于正态近似法与百分位数法,且正态近似法高于百分位数法。
在样本量为200时,三种方法的检验效能相当,均在 95%以上。
结论 整体来看,H-L 法获得的区间最窄且最稳定,检验效能最高,尤其在样本量不大时建议选择H-L 法。
【关键词】非参数检验非劣效性试验中位数差值的置信区间检验Bootstrap Hodges-Lehmann 【中图分类号】R195.1 【文献标识码】A DOI 10. 3969/j.issn. 1002 -3674. 2020.06.012非劣效性试验(non-inferiority trials )被广泛应用 于药物临床试验研究。
药政管理对临床试验统计学假设检验中非劣效、等效和优效性设计的认识Considerations on the statistical hypothesis of noninferiority,equi valence and superiority design i n clinical tri al黄钦,赵明(国家食品药品监督管理局药品审评中心,北京100038)HUANG Q i n,Z HAO M i n g(C enter for Drug Evaluation,State Food and D rug Adm inistration,Beijing 100038,China)收稿日期:2006-09-12修回日期:2006-12-14作者简介:黄钦(1969-),男,博士,主管药师,主要从事药品审评工作通讯作者:黄钦Te:l(010)-68585566E-ma il:huangq@ 摘要:在对国内药物注册临床试验报告的审评中,常遇到以传统显著性检验代替非劣效、等效和优效性检验的错误,就它们的区别及适用范围,本文对判断界值的确定、样本含量、推断结论及审评中的主要关注点进行了阐释。
关键词:非劣效检验;等效性检验;优效性检验;显著性检验中图分类号:R954文献标识码:C文章编号:1001-6821(2007)01-0063-05药品临床试验设计要求随机、盲法和对照药物比较,以判断和区别其实际的疗效。
我国药品研发,以仿制国外已上市药品为主;基于临床认识和伦理学因素,临床研究也多选择针对目标适应症的已有治疗药物为对照,即所谓的阳性对照药。
目前,已公认的传统假设检验(又称显著性检验)在临床试验中用于判断药物的疗效是不合理的,它不能准确区分2药疗效差异的方向性和体现差异大小所揭示的临床实际意义。
因此,国际上根据研究目的不同,普遍用非劣效、等效或优效性假设检验。
1显著性检验无效假设H0:A药疗效-B药疗效=0备择假设H1:A药疗效X B药疗效结论:如P>0.05,按A=0.05的检验水准,不能拒绝H0假设;如P[0.05,则接受H1假设。
临床非劣效性与等效性评价的统计学方法以安慰剂作为对照的随机双盲临床试验一直被视为药物开发中的金标准,它在确认新的试验药物的疗效优于安慰剂方面发挥着重要的作用。
然而,如果有现成的疗效肯定的药物,仍用安慰剂对照做临床试验,会面临伦理上的困难。
随着愈来愈多可供应用的有效药物的出现,疗效有突破的新药愈来愈少,因而药物临床研究的目的发生了转变。
在阳性对照试验中,更多的情形是探求新药与标准的有效药物相比其疗效是否不差或疗效相等(严格地说,疗效相等应该是既不比标准药差,也不比标准药好),而并不一定要知道新药是否优于标准药,由此而提出了非劣效性/等效性试验(noninfer_iority/equivalencetrials)[1]。
非劣效性/等效性试验与通常意义下的优效性试验(superioritytrials)在设计和统计分析上是有区别的。
近年来,尽管对设计和分析该类试验已给予强调,但遗憾的是,许多非劣效性/等效性临床试验的评价缺少针对性,仍仿照安慰剂对照试验的方式进行,因而导致了非劣效性/等效性试验的样本含量估计、无效假设和备选假设确定、统计学分析和结论推断等方面的不够合理,难以达到设想的目的[2]。
本文拟主要介绍有关非劣效性/等效性试验中涉及的统计学分析方面的一些具体问题,至于在设计时还必须考虑的有关对照的选定等问题可参考文献[2]及ICH文件E10:“临床试验对照的选择”[3]。
1非劣效性/等效性界值从临床上讲,一种新药的药效不比标准对照药差,到底临床上可接受的最大允许的范围是多少呢?或者说,新药比对照药最低到多大程度才能算“非劣效(noninferiority)”呢?类似地,新药和对照药的疗效相比,最低不能低于多少以及最高不能超过多少才可认为是“等效(eq uivalence)”呢?这就涉及到临床非劣效性/等效性界值(nonferiority/equivalencemargin)的问题。
为叙述方便,我们统一用δ表示界值,并以-δ表示劣侧界值,以δ表示优侧界值。
参考文献[1]中华医学会心血管病学分会,中华心血管病杂志编辑委员会.中国心力衰竭诊断和治疗指南2014.中华心血管病杂志,2014,42:98-122.[2]Alahdab MT,Mansour IN,Napan S,et al.Six minute walk test predicts long-term all-cause mortality and heart failurerehospitalization in African-American patients hospitalized withacute decompensated heart failure.J Card Fail,2009,15:130-135.[3]Maisel AS,Peacock WF,Shah KS,et al.Acoustic cardiography S3detection use in problematic subgroups and B-type natriureticpeptide“gray zone”:secondary results from the Heart failure andAudicor technology forRapid Diagnosis and Initial TreatmentMultinational Investigation.Am J Emerg Med,2011,29:924-931.[4]McMurray JJ,Adamopoulos S,Anker SD,et al.ESC Guidelines for the diagnosis and treatment of acute and chronic heart failure2012:The Task Force for the Diagnosis and Treatment of Acuteand Chronic Heart Failure2012of the European Society ofCardiology.Developed in collaboration with the Heart FailureAssociation(HFA)of the ESC.Eur Heart J,2012,33:1787-1847.[5]Kelder JC,Cowie MR,McDonagh TA,et al.Quantifying the added value of BNP in suspected heart failure in general practice:an individual patient data meta-analysis.Heart,2011,97:959-963.(收稿日期:2015-05-05)·医学统计学知识·非劣效性检验的统计学分析李雪迎在临床研究中,经常碰到要验证新的治疗方法与已有的标准治疗方法具有相近的治疗效果。
COMPARZ研究再解读:非劣效研究中的几个统计学问题在晚期肾癌治疗领域,靶向药物已成为一线的主要治疗选择,作为指南推荐的两种一线治疗药物,培唑帕尼和舒尼替尼的疗效和安全性是否存在差异?大型随机对照研究——COMPARZ研究,采用非劣效设计,头对头比较了两类药物的疗效和安全性,给临床治疗提供了参考依据。
因此,对COMPARZ研究结果的解读,也直接影响到临床对两类药物的疗效和安全性的评估。
非劣效研究设计知多少?非劣效研究的设计在于证明干预组不劣于对照组,即为证实新干预措施劣于对照组的程度,不超过预先设定的基于主要研究终点的一个较小量,这个量被称为非劣效性界值(non-inferiority margin)或称为Δ。
Δ是非劣效研究设计成败的关键,如果Δ过大,超过临床普遍接受的范围,即使研究结果为阳性,也很难被广泛接受;如果Δ过小,则所需样本量非常大,研究可能无法进行。
因此,Δ的选择需经过临床专家和统计学家共同讨论确定。
以COMPARZ研究为例,由于标准治疗组舒尼替尼在干扰素对照的临床研究中,主要研究终点PFS的HR为0.42,经过临床专家和统计学专家的共同讨论,最终将COMPARZ的非劣效界值确定为0.25,一个理由是,综合考虑样本量对临床研究的可行性的影响,以及临床认可的中位PFS缩短时间2个月是极限接受水平。
另外一个理由是,通过两步法确保试验组疗效有足够把握优于安慰剂或干扰素治疗,1.25的界值足够保证证明试验组是相对安慰剂、干扰素治疗优效的药物。
在非劣效研究中,要求存在一个已被证实有效的或已广泛使用的标准治疗。
人群入组要求和主要研究终点方面,应与证实标准治疗疗效的关键III期临床保持一致,必须避免任何可能影响干预组和标准治疗组疗效差异的行为,得出错误的非劣效结论。
如COMPARZ研究中,标准治疗组舒尼替尼一线治疗中显著延长晚期肾透明细胞癌患者的无进展生存期(PFS),则新药培唑帕尼,在研究设计中必须入组未接受治疗的晚期肾透明细胞癌患者,主要研究终点设为PFS。
非劣效临床试验的统计学考虑在医学研究和药物开发领域,临床试验是至关重要的环节,用于评估新疗法或新设备的有效性和安全性。
其中,非劣效临床试验旨在验证新疗法或新设备与现有标准疗法或设备的比较效果,本文将详细介绍非劣效临床试验中的统计学考虑。
非劣效临床试验是指通过比较新疗法或新设备与现有标准疗法或设备的疗效,来评估新疗法或新设备是否非劣于现有疗法或设备。
非劣效临床试验通常采用双盲、随机、对照的设计,以消除偏倚和增加试验的可靠性。
在非劣效临床试验中,统计学原理是试验设计和数据分析的基础。
通过运用随机化和对照原则,能够减少偏倚、提高试验的内部效度和外部效度,并最终得出可靠的结果。
在非劣效临床试验中,样本的选取是至关重要的。
通常,研究人员会根据研究目的、研究假设、研究人群和研究资源等因素来制定样本的选取原则。
在确定样本的选取原则后,研究人员需要选择适当的试验组和对照组。
试验组为接受新疗法或新设备的患者,对照组为接受现有标准疗法或设备的患者。
在选择试验组和对照组时,研究人员需要考虑匹配和随机化的原则,以减少偏倚对试验结果的影响。
研究人员还需要评估试验结果的置信区间。
置信区间是用于描述试验结果不确定性的指标,通常是指从样本统计量加减一定比例的抽样误差所得到的一个范围。
在非劣效临床试验中,置信区间的评估对于判断新疗法或新设备的非劣效性具有重要意义。
在非劣效临床试验中,常用的统计学方法包括但不限于以下几种:意向性分析:这是非劣效临床试验中最重要的统计学方法之一。
它按照患者的原始分组进行统计分析,从而能够充分利用所有收集到的数据。
随机化分组和盲法:这些技术有助于减少偏倚,提高试验的内部效度和外部效度。
参数估计和假设检验:这些技术用于描述和解释试验结果,以及推断新疗法或新设备是否非劣于现有疗法或设备。
结论与启示非劣效临床试验在评估新疗法或新设备的疗效方面具有重要意义。
通过运用统计学原理和方法对试验结果进行分析,研究人员可以得出可靠的结论,从而为临床医生和患者提供更多有效的治疗选择。