匹配(1比1)病例对照研究样本量计算
- 格式:xls
- 大小:30.00 KB
- 文档页数:1
SPSS操作:搞定病例与对照的1:1匹配说起病例对照研究(case control study),相信各位⼩伙伴并不陌⽣。
简单来说,就是把患有某种疾病的⼀组病⼈作为病例组(case),不患该疾病但是可⽐的另⼀组个体作为对照组(control),通过⽐较两组中我们关⼼的暴露因素的⽐例,从⽽推断暴露因素和疾病之间的关联。
讲到这⾥,就不得不提到确保病例组和对照组可⽐性的绝招——匹配!⼀般来说匹配包括频数匹配和个体匹配,前者只要保证匹配的因素在两组分布⽐例相同,⽐如说病例组男、⼥各半,对照组也应该⼀样;后者要求病例组每⼀个研究对象,在对照组中也有⼀个匹配因素相近或⼀致的研究对象与之匹配,⽐如说病例组有⼀个23岁男性,对照组中应给他匹配⼀个23岁左右的男性。
本期和⼤家⼀起学习如何使⽤SPSS搞定病例与对照的1:1匹配。
需要注意的是,SPSS22及以上版本才提供病例对照匹配(Case Control Matching)的功能,其他的版本要想使⽤这个功能,必须安装相应插件才能实现。
本次使⽤SPSS22为⼤家演⽰。
⼀、问题与数据⽬前对于吸烟与⾼⾎压之间关系仍存在争议,拟采⽤巢⽒病例对照设计(⾼⾎压组与正常组)探讨吸烟与⾼⾎压之间的关系,其中对照组按照年龄±2岁,性别相同与病例组进⾏匹配。
已有的队列数据在匹配前是这个样⼦(见表1),可以看到两组在匹配之前的性别分布和年龄均有明显差异。
下⾯⼀起看看SPSS如何搞定匹配!表1. 两组基线情况⽐较(匹配前)⼆、 SPSS分析⽅法1. 数据录⼊(1) 变量视图(2) 数据视图2. 病例对照匹配选择Data→Case Control Matching,就进⼊病例对照匹配的主对话框。
将需要匹配的变量(Age, Sex)放⼊Variables to Match on中;Match Tolerance⽤来设置匹配条件,⼀般分类变量要求相同,设置为“0”,对于连续变量,可根据具体情况限定⼀个范围,⽐如这⾥我们限定年龄±2岁,设置为“2”,但是需要注意,设置匹配条件必须与匹配变量放置顺序相⼀致,并且⽤“空格”隔开;Group Indicator指定分组,⼀般病例组赋值为“1”,对照组赋值为“0”;Case ID确定观测对象的ID,⼀般为病例号,调查编码等;Names for Match ID Variables设定⼀个变量,⽤来明确对照组中匹配成功的ID;Names for Matchgroup Variables 设定⼀个变量,⽤来明确病例组中相同条件的观测对象,⽐如有两个23岁男性。
2019年华医网继续教育答案-病例对照研究方法精要备注:红色选项或后方标记“[正确答案]”为正确选项
(一)病例对照研究基本原理
详见
1、匹配法注意事项包括
A、慎重选择匹配因素
B、可疑病因不作为匹配因素
C、比例一般为1:1,最多不超过1:4
D、以上都正确[正确答案]
E、以上都不正确
2、有关匹配说法正确的是
A、每一个病例选择一个或几个对照,使病例与对照配成对
B、要求对照在某些因素或特征上与病例保持一致
C、目的提高研究效率,控制混杂因素
D、以上都正确[正确答案]
E、以上都不正确
3、病例对照研究特点不包括
A、回顾性
B、由果到因的研究
C、观察法
D、采用随机分组的方法[正确答案]
E、一般不能确证暴露与疾病的因果关系
4、流行病学中的病例对照研究属于
A、观察性研究[正确答案]
B、实验性研究
C、理论性研究
D、描述性研究
E、以上都不是
5、病例对照基本原理不包括。
样本量计算教程:非劣效性试验+生存分析医咖会之前推送过的“非劣效性试验的样本量计算”教程中,研究结局是连续变量或者分类变量,那如果是生存数据,又该如何计算样本量呢?一、研究问题与数据某研究者拟开展一项非劣效的随机对照试验,探讨某免疫抑制剂对肺癌的疗效。
估计对照组的中位生存时间(mOS)为8月,假设试验组相对于对照组的HR的非劣效性界值为1.3。
研究的入组时间预计为T1=10月,随访时间计划为T2=12月。
试验组对照组比例1:1。
取α=0.025(单侧),把握度1-β=0.8。
则需要多少样本量?二、对问题的分析在介绍样本量计算之前,首先介绍几个参数的概念。
1. 中位生存时间mOS:即50%的患者死亡时所对应的时间。
如果将所有患者生存时间按从小到大排序,中位生存时间即顺序处于中间的患者的生存时间。
2. 入组时间:入组患者很难瞬间完成,尤其对于发病率比较低的肿瘤,因此患者入组往往要经过相对较长的时间。
入组时间为第1例患者入组到最后一例患者入组所经历的时间。
3. 随访时间:在最后一例患者入组完成后,还需对所有患者随访一段时间。
从最后一例患者入组,到试验截止日期的间隔称为随访时间。
注意,这里的随访时间,跟患者的观察时间意义不同。
如果一个临床试验入组时间为12个月,随访时间为24个月,那么对于第一例入组的患者,其观察时间最长为12+24=36个月(尽管该患者可能在试验截止前就已死亡)。
而对于最后一例入组的患者,其最长观察时间为24个月,即各个患者观察时间不同。
观察时间越长,观察到结局发生的可能性越大。
如图1的3号患者,其观察时间(33个月)大于研究的随访时间(24个月)。
图1. 入组时间、随访时间和观察时间示意图4. 入组模式是指研究对象入组的速度是匀速(等比例)还是非匀速。
常见的入组模式是匀速入组,即单位时间内,研究对象入组的数量相等(图2)。
图2. 匀速入组示意图5. HR:风险比,是两组患者瞬时死亡概率之比,是衡量干预效果最常用的参数。
随机对照试验样本量计算公式概述在医学研究和实验设计中,随机对照试验是一种常用的研究方法。
为了确保研究结果的可靠性和准确性,我们需要合理地计算样本量。
本文将介绍随机对照试验的样本量计算公式及其应用。
什么是随机对照试验?随机对照试验是一种将研究对象分为实验组和对照组进行比较的研究设计。
在随机对照试验中,实验组接受新的治疗方法或干预措施,而对照组接受传统治疗方法或安慰剂。
通过比较两组的疗效或效果,我们可以评估新的治疗方法的有效性。
为什么需要样本量计算?样本量计算是随机对照试验设计的重要组成部分。
合理的样本量计算可以确保试验的科学性和统计学有效性,减少因样本量不足或过多带来的结果偏差。
通过样本量计算,我们可以确定需要多少研究对象才能达到预期的研究目标。
样本量计算公式随机对照试验样本量计算涉及多个因素,包括临床意义差异、功效、显著性水平和变异度。
常用的样本量计算公式如下:n = (Z_1-α/2 + Z_1-β)^2 * (σ_1^2 + σ_2^2) / (μ_1 - μ_2)^2其中, - n为所需的总样本量; - Z_1-α/2是给定显著性水平(通常为0.05)下的标准正态分布的上分位数; - Z_1-β是给定功效(通常为0.8)下的标准正态分布的上分位数; -σ_12和σ_22分别是两个组的总体方差; - μ_1和μ_2分别是两个组的总体均值。
样本量计算实例我们通过一个具体的例子来说明如何使用随机对照试验样本量计算公式。
假设我们正在研究一种新的药物治疗某种疾病的有效性。
我们希望通过随机对照试验比较新药和传统治疗方法的疗效。
根据以往的研究结果,我们假设新药和传统治疗方法的疗效差异为10%。
显著性水平为0.05,功效为0.8。
两组的总体方差分别为1和1.5。
根据样本量计算公式,我们可以计算出所需的总样本量:n = (Z_1-α/2 + Z_1-β)^2 * (σ_1^2 + σ_2^2) / (μ_1 - μ_2)^2= (1.96 + 0.84)^2 * (1 + 1.5) / (0.1^2)= 93.072根据计算结果,我们需要至少93个研究对象才能进行这个随机对照试验。
1.估计样本量的决定因素1.1资料性质计量资料如果设计均衡,误差控制得好,样本可以小于30例;计数资料即使误差控制严格,设计均衡,样本需要大一些,需要30-100例。
1.2研究事件的发生率研究事件预期结局出现的结局(疾病或死亡),疾病发生率越高,所需的样本量越小,反之就要越大。
1.31.41.5度为1.61.71.8双侧检验与单侧检验采用统计学检验时,当研究结果高于和低于效应指标的界限均有意义时,应该选择双侧检验,所需样本量就大;当研究结果仅高于或低于效应指标的界限有意义时,应该选择单侧检验,所需样本量就小。
当进行双侧检验或单侧检验时,其α或β的Ua?界值通过查标准正态分布的分位数表即可得到。
2.样本量的估算由于对变量或资料采用的检验方法不同,具体设计方案的样本量计算方法各异,只有通过查阅资料,借鉴他人的经验或进行预实验确定估计样本量决定因素的参数,便可进行估算。
护理中的量性研究可以分为3种类型:①描述性研究:如横断面调查,目的是描述疾病的分布情况或现况调查;②分析性研究:其目的是分析比较发病的相关因素或影响因素;③实验性研究:即队列研究或干预实验。
研究的类型不同,则样本量也有所不同。
2.1描述性研究护理研究中的描述性研究多为横断面研究,横断面研究的抽样方法主要包括单纯随机抽样、系统抽样、分层抽样和整群抽样。
分层抽样的样本量大小取决于作者选用的对象是用均数还是率进行抽样调查。
例.要做一项有关北京城区护士参与继续教育的学习动机和学习障碍的现状调查,采用分层多级抽样,选用的是均数抽样的公式,Uα为检验水准α对应的υ值,σ为总体标准差,δ为容许误差,根据预实验得出标准差σ=1.09,取α=0.05,δ=0.1,样本量算得520例,考虑到10%-15%的失访率和抽样误差,样本扩展到690例。
2.2分析性研究2.2.1探索有关变量的影响因素研究有关变量影响因素研究的样本量大多是根据统计学变量分析的要求,样本数至少是变量数的5-10倍。
真实世界研究统计分析方法(二):倾向性评分匹配(PSM)试验性研究(例如RCT)做随机化分组目的是:控制混杂。
真实世界研究,不人为分配X(Assigned Exposure X),不做随机分组,需要通过数据分析的方法控制混杂。
2006年美国流行病学杂志Am J Epidemiol 总结了真实世界研究控制混杂常用的五种方法[1],包括:1. 多元回归模型调整混杂2. 倾向性评分匹配(PSM)后构建回归模型3. 回归模型调整倾向性评分(PS)4. 回归模型加权(IPTW)处理5. 回归模型加权(SMR)处理本文分享第二种方法:倾向性评分匹配(PSM)往期相关资料:真实世界研究统计分析方法(一):调整混杂2015年在NEJM发表了一项研究[2],支架和CABG手术相比,对于多支病变的冠心病的疗效。
研究对象:冠心病患者X:两种治疗方式,第二代药物支架(PCI)与冠脉搭桥(CABG)相比Y:预后包括死亡、心梗、再次血运重建和卒中研究设计:观察性研究(observational)中的队列(cohort)研究。
没有随机分配治疗方案,不是RCT,是在真实世界中观察不同治疗方案的疗效。
纳入了3万多人,PSM后剩下不到2万人,样本量少了很多。
目的是控制混杂:挑出一部分人,使得接受不同治疗方案(X)的患者基线情况相似。
这一点非常重要。
试想,如果病情重的人偏向于做搭桥手术,病情重的人预后不好,就会得出搭桥手术疗效差的假象。
解决办法:研究设计时通过PSM的方法选择患者,使得不同X组的人基线相似。
即纳入的人既有可能接受PCI,又有可能接受CABG。
给定一个病例,从数据库里找出满足配对条件的所有可能的对照,然后根据匹配数随机选择对照。
如1:1匹配,随机选一个作对照;1:2匹配,随机选2个配对。
因此PSM的方法又被成为事后随机化,相当于在队列里面构建RCT。
这个就厉害了!正因为倾向性评分(Propensity score ,PS)在控制混杂方面有独特的优势,肿瘤领域的真实世界研究,近年运用PS方法论文的比例出现了爆发[3]:使用PS分析方法的论文数量随发表年份的变化图2017年发布了PS论文报告标准,规范了19条需要在论文中描述的重要内容[3]。
流行病学实验研究1证实病因假设最可靠的流行病学方法是DA 现况调查B 抽样调查C 筛检试验D 实验性研究E 病例对照研究2实验性研究有以下特点,除了CA 可以证实病因假设B 可以在临床和社区进行C 先选择病例,再比较暴露因素D 可以在人群中观察某预防措施的效果E 可以在临床观察某新药或新疗法的疗效3实验性研究中采用双盲法的主要目的是DA 尽可能减少失访B 减少抽样误差的影响C 使实验组和对照组不知道实验目的D 消除研究者和研究对象对结果的主观影响E 使实验组和对照组人口学特征更具有可比性4流行病学实验性研究与分析性研究的基本区别CA 需要计算样本量B 需要以盲法观察C 由研究者控制研究因素D 同时对实验组和对照组进行观察E 病例需要以公认的诊断标准确定5临床试验中,某一药物的双盲试验是指EA 实验组服药,对照组服安慰剂B 实验组和对照组均不知道如何分组C 实验组和对照组均不知道谁是观察者D 实验组和对照组均不知道谁服药物或安慰剂E 研究者和研究对象均不知道如何分组和谁服药物或安慰剂6以下是临床试验效果的评价指标,除了BA 有效率B 患病率C 治愈率D 生存率E 保护率7 由于实验性研究以人为研究对象,所以必须慎重考虑AA 医德问题B 调查员的培训C 研究的持续时间D 开展研究的医院E 调查对象的样本量8 为避免各种偏倚的影响,最佳的对照类型是CA 非随机对照B 历史性对照C 随机同期对照D 不同医院的对照E 不同病种的对照9 以下哪项研究宜采用实验流行病学方法CA 某人群HbsAg筛查B SARS发病与吃果子狸关系的研究C AIDS疫苗保护效果的评价D 肺癌5年生存率研究E 流感病毒基因变异规律研究10 100名失眠患者接受气功疗法治疗,随访3个月,80人失眠有不同程度的改善,下列结论中正确的是E A.气功治疗失眠有效B.气功治疗失眠无效C.因样本量不大而无法下结论D.因观察时间不长而疗效可疑E.因未设立对照组而无法下结论11 为探讨叶酸预防胎儿神经管畸形的作用,研究者选择了10万名孕妇,随机分为服用叶酸的实验组和服用安慰剂的对照组,追踪全部孕妇的胎儿出生情况,观察有无神经管畸形发生。