最新倾向值匹配法(PSM)
- 格式:ppt
- 大小:831.50 KB
- 文档页数:46
倾向得分匹配方法步骤倾向得分匹配方法(Propensity Score Matching, PSM)是一种用于评估因果效应的经典方法之一。
该方法通过倾向得分(Propensity Score)将处理组和对照组进行配对,以减少处理组和对照组之间的混淆偏倚。
下面是倾向得分匹配方法的步骤:1. 研究问题和数据准备:首先明确研究问题,并收集相关的观测数据。
数据应包括处理组和对照组的特征变量,以及因果变量。
2. 变量选择:根据研究问题,选择适当的特征变量作为倾向得分模型的输入变量。
这些变量应具有影响处理组选择的潜在因素,且与因果变量相关。
通常选择的变量包括年龄、性别、教育水平、收入水平等。
3. 倾向得分估计:倾向得分是处理组与对照组之间的条件概率,表示个体被分到处理组的概率。
可以使用各种统计方法来估计倾向得分,包括逻辑回归、梯度提升树等。
估计得到的倾向得分应在0到1之间。
4. 匹配样本选择:通过选择与处理组匹配的对照组样本,减少混淆偏倚。
常见的匹配方法包括最近邻匹配、卡尔曼匹配等。
匹配前,可以根据倾向得分的近似程度设置质量标准,例如最大汉明距离。
5. 匹配效果评估:在匹配完成后,对匹配样本进行处理效果评估。
通常使用平均处理效应(Average Treatment Effect, ATE)或平均处理效应对受处理样本的平均效应(Average Treatment Effect on the Treated, ATT)进行估计。
处理效果的估计可以使用插补法、回归法等。
6. 效果检验和敏感性分析:对匹配效果进行检验,常用的方法有t检验、Bootstrap法等。
此外,还需要进行敏感性分析,检验结果对于倾向得分估计的敏感性。
常见的敏感性分析方法包括皮贝根评分、加入未观测因素等。
7. 结果解读:根据匹配效果评估、效果检验和敏感性分析的结果,对研究问题进行解读。
解读应注意结果的可靠性、合理性和一致性,并结合文献综述和实证研究来进行解释。
倾向得分匹配法(PSM )举例及stata 实现——读书笔记【例】培训对工资的效应1政策背景:国家支持工作示范项目(National Supported Work,NSW )研究目的:检验接受该项目(培训)与不接受该项目(培训)对工资的影响。
基本思想:分析接受培训组(处理组,treatment group )接受培训行为与不接受培训行为在工资表现上的差异。
但是,现实可以观测到的是处理组接受培训的事实,而处理组没有接受培训会怎样是不可能观测到的,这种状态也成为反事实(counterfactual )。
匹配法就是为了解决这种不可观测事实的方法。
在倾向得分匹配方法(Propensity Score Matching )中,根据处理指示变量将样本分为两个组,一是处理组,在本例中就是在NSW 实施后接受培训的组;二是对照组(comparison group ),在本例中就是在NSW 实施后不接受培训的组。
倾向得分匹配方法的基本思想是,在处理组和对照组样本通过一定的方式匹配后,在其他条件完全相同的情况下,通过接受培训的组(处理组)与不接受培训的组(对照组)在工资表现上的差异来判断接受培训的行为与工资之间的因果关系。
变量定义:变量 定义TREAT * 处理指示变量,1表示接受培训(处理组),0表示没有接受培训(对照组)AGE 年龄(年)EDUC 受教育年数(年)BLACK 种族虚拟变量,黑人时,1BLACK =HSIP 民族虚拟变量,西班牙人时,=1HSIPMARR婚姻状况虚拟变量,已婚,1MARR = 74RE 1974年实际工资(1982年美元)75RE 1975年实际工资78RE 1978年实际工资74U 当在1974年失业,741U =75U当在1975年失业,751U = NODEGREE 当12EDUC <时,1NODEGREE =,否则为0 AGESQAGE AGE × 1 本例选自Cameron&Trivedi 《微观计量经济学:方法与应用》(中译本,上海财经大学出版社,2010)pp794-800 所有数据及程序均来自于本书的配套网站(/mmabook/mmaprograms.html )。
倾向得分匹配法步骤
倾向得分匹配法(Propensity Score Matching, PSM)是一种常用的统计方法,用于处理因果推断中的选择偏差。
下面我将从多个角度介绍倾向得分匹配法的步骤。
1. 确定研究目的,在使用倾向得分匹配法之前,首先需要明确研究的目的和问题,确定需要进行匹配的变量和研究对象。
2. 计算倾向得分,倾向得分是指个体被暴露于某个处理(例如接受某种治疗)的概率。
通常使用logistic回归等方法来计算每个个体的倾向得分,得到一个介于0到1之间的概率值。
3. 匹配处理组和对照组,根据计算得到的倾向得分,将处理组和对照组中的个体进行配对,使得处理组和对照组在倾向得分上尽可能接近,从而达到减少选择偏差的效果。
4. 检验匹配质量,匹配完成后,需要进行匹配质量的检验,通常会使用标准化差异(Standardized Mean Difference, SMD)等指标来评估匹配的效果,确保处理组和对照组在匹配后的特征上没有显著差异。
5. 进行因果推断,匹配完成后,可以利用匹配后的样本进行因果效应估计,比较处理组和对照组在结果变量上的差异,从而得出处理对结果变量的影响。
6. 稳健性检验,最后,为了确保结果的稳健性,可以进行一些敏感性分析,例如倾向得分模型的选择、不同的匹配算法等,来检验结果的稳健性。
综上所述,倾向得分匹配法的步骤包括确定研究目的、计算倾向得分、匹配处理组和对照组、检验匹配质量、进行因果推断以及稳健性检验。
这些步骤有助于减少因果推断中的选择偏差,提高研究结论的可信度。
stata:倾向得分匹配(PSM)导读:在经济学中,我们常常希望评估项目实施后的效应,一般的做法是加入虚拟变量,但是这种做法并不科学。
例如政府推行就业培训计划,该项目的参与者,我们将其称作处理组(treatment group),未参与的培训的样本称作控制组(control group)也叫对照组。
PSM考虑就业培训的处理效应评估。
我们一般的做法是比较两组的收入状况。
如果这样处理,可能得到的结论是参加培训的收入低于未参加培训者。
这是由于一开始选择控制组的样本时,选择范围比较广阔,存在选择偏差。
所以在此介绍倾向得分匹配方法(PSM)。
本文在此就不介绍相关理论了,因为小编的理论也不是特别的好,如果想学习的可以参阅连玉君老师的相关视频(重点推介),大概有5个课时;同时也可以参考陈强老师的《高级计量经济学及stata应用》中的第28章处理效应。
在此小编仅仅介绍stata的相关操作。
1、安装psmatch2ssc install psmatch2,replace2、导入数据,方法比较多,可以粘贴复制、也可以使用命令use E:\BaiduNetdiskDownload\A\labor.dta,clear3、命令语法格式介绍psmatch2 D x1 x2 x3 ,outcome(y) logit ties ate common odds /// pscore(varname) qui对以上的标准命令进行解析D为处理变量,是虚拟变量即是否参加培训x1 x2 x3是协变量,一般的称呼也叫解释变量outcome(varname)是输出变量,例如收入logit 表示计算得分的时候使用logit模型,如果不写Logit,默认为probit模型计算得分,在连玉君的视频中论述了二者并不存在明显的差异。
ties表示包括所有倾向得分相同的并列个体,默认按照数据排序选择其中一位个体。
ATE表示同是汇报ATE、ATU、ATT,大家看书重点了解common表示仅对共同取值范围内的个体进行匹配odds使用几率比(odds ratio)算法为p/(1-p),熟悉logit模型的应该了解qui屏幕中不显示logit模型估计过程,可以节省运算时间4 匹配方法连玉君的视频教程讲了三种:最近0匹配、半径匹配、核匹配;陈强老师讲了6种,如果想详细学习,可以参考他们的相关视频与书籍。
倾向得分匹配法(PSM )举例及stata 实现——读书笔记【例】培训对工资的效应1政策背景:国家支持工作示范项目(National Supported Work,NSW )研究目的:检验接受该项目(培训)与不接受该项目(培训)对工资的影响。
基本思想:分析接受培训组(处理组,treatment group )接受培训行为与不接受培训行为在工资表现上的差异。
但是,现实可以观测到的是处理组接受培训的事实,而处理组没有接受培训会怎样是不可能观测到的,这种状态也成为反事实(counterfactual )。
匹配法就是为了解决这种不可观测事实的方法。
在倾向得分匹配方法(Propensity Score Matching )中,根据处理指示变量将样本分为两个组,一是处理组,在本例中就是在NSW 实施后接受培训的组;二是对照组(comparison group ),在本例中就是在NSW 实施后不接受培训的组。
倾向得分匹配方法的基本思想是,在处理组和对照组样本通过一定的方式匹配后,在其他条件完全相同的情况下,通过接受培训的组(处理组)与不接受培训的组(对照组)在工资表现上的差异来判断接受培训的行为与工资之间的因果关系。
变量定义:变量 定义TREAT * 处理指示变量,1表示接受培训(处理组),0表示没有接受培训(对照组)AGE 年龄(年)EDUC 受教育年数(年)BLACK 种族虚拟变量,黑人时,1BLACK =HSIP 民族虚拟变量,西班牙人时,=1HSIPMARR婚姻状况虚拟变量,已婚,1MARR = 74RE 1974年实际工资(1982年美元)75RE 1975年实际工资78RE 1978年实际工资74U 当在1974年失业,741U =75U当在1975年失业,751U = NODEGREE 当12EDUC <时,1NODEGREE =,否则为0 AGESQAGE AGE × 1 本例选自Cameron&Trivedi 《微观计量经济学:方法与应用》(中译本,上海财经大学出版社,2010)pp794-800 所有数据及程序均来自于本书的配套网站(/mmabook/mmaprograms.html )。
psm倾向得分匹配法参差不齐的数据已经成为现在最普遍的存在,来自不同源的数据和模型在预测分析、推荐系统、大数据搜索等领域中得到了极大的应用。
而PSM倾向得分匹配法,作为一种简单有效的非监督学习方法,在众多数据挖掘技术中脱颖而出,以其简单而可视化的处理数据差异的优势受到广泛关注和认可。
PSM倾向得分匹配法是一种基于数据特征的个性化数据建模技术,其目的在于改善由多源数据组成的无结构数据,使得用户可以更好的理解和挖掘数据中的有用信息。
它以某一源数据作为参考,从而使得不同源数据都能够以相同的测度标准进行评价,有效的实现了数据转换。
PSM所采用的倾向得分匹配方法是一种基于数据和特征的数据建模技术,主要应用于大规模多源数据分析,利用朴素贝叶斯、K-means 聚类算法和其他机器学习技术,实现了对不同源数据的一致性建模和分析。
首先,PSM倾向得分匹配法通过将所有源数据通过特征属性聚类,构建出特征模型,以此捕获源数据中共有和异同之处;其次,倾向得分匹配法把不同源数据进行倾向得分匹配,将不同源数据的相似属性进行叠加,从而计算每一个样本的个性分值;最后,PSM倾向得分匹配法还提供了一种可视化的处理方法,在可视化界面以饼图的形式展示各个源数据的对比,进而实现数据的处理和分析。
PSM倾向得分匹配法在解决复杂的大规模数据挖掘上表现出了出色的性能,可以更有效的挖掘数据中隐藏的深层知识,并且可以很好的用于各种市场营销、客户画像以及个性化推荐等应用场景中。
以上是PSM倾向得分匹配法的基本内容,它不仅是一种准确的数据分析模型,而且也是一种有效的推理智能机器学习技术,能够为商业决策者提供准确的洞见及个性化解决方案。
一般来说,应用PSM倾向得分匹配法的主要步骤如下:1、收集和准备数据:采集各种业务中的原始数据,并将其进行数据清洗,筛检,格式化等处理,使其具备分析所需的质量。
2、建模:根据数据特征,建立一个模型,以计算多源数据的相似性。
SPSS—倾向性评分匹配法(PSM)倾向评分匹配(propensity score matching, PSM)的概念由Rosenbaum和Rubin在1983年首次提出。
2010年之后,这一方法日益受到人们的关注。
国际上越来越多的研究者将倾向指数法应用到流行病学、健康服务研究、经济学以及社会科学等许多领域。
在流行病学研究中,该方法可以在分析和设计阶段有效平衡非随机对照研究中的混杂偏倚,使研究结果接近随机对照研究的效果。
在观察性研究中,如病例对照研究,经常会见到匹配的概念,即按照某些因素或特征,将病例组(或暴露组)和对照组的研究对象进行匹配,以保证两组研究对象具有可比性,从而排除匹配因素的干扰。
同样,既然倾向性评分是一个能够反映多个混杂因素影响的综合评分,我们也可以将两组人群按照倾向性评分从小到大来进行匹配,仅用匹配倾向性评分一个指标来达到同时控制多个混杂因素的目的。
倾向性评分匹配是倾向性分析中应用最为广泛的一种方法。
首先我们要计算出每一个研究对象的倾向性评分,然后从小到大进行排序,对于每一个暴露/处理组的研究对象,从对照组中选取与其倾向性评分最为接近的所有个体,并从中随机抽取一个或N个研究对象作为匹配对象,直至所有的研究对象均匹配完毕,未匹配上的研究对象则进行舍去。
当然,有多少研究对象可以成功匹配,常常与选择匹配的比例和匹配的标准有关。
匹配的比例最常见的为1:1匹配,需要根据两组人群的数量来决定合适的匹配比例,建议不要超过1:4匹配。
对于匹配标准,如果匹配的标准很高,则能够成功匹配的对象就可能会少,甚至出现匹配不上的现象,造成研究对象信息的浪费,如果匹配的标准很宽泛,则匹配的效果就会较差,有可能出现两组人群在匹配后依然存在混杂因素分布不均衡的现象。
例如某个个体的倾向性评分为0.8,如果设定匹配标准为±0.02,则需要为其寻找倾向性评分在0.78-0.82之间的对照进行匹配,匹配范围太窄就可能出现匹配不上的情况;如果设定匹配标准为±0.2,则需要为其寻找倾向性评分在0.8-1.0之间的对照进行匹配,匹配范围太宽则可能降低匹配的效果。
真实世界研究统计分析方法(二):倾向性评分匹配(PSM)试验性研究(例如RCT)做随机化分组目的是:控制混杂。
真实世界研究,不人为分配X(Assigned Exposure X),不做随机分组,需要通过数据分析的方法控制混杂。
2006年美国流行病学杂志Am J Epidemiol 总结了真实世界研究控制混杂常用的五种方法[1],包括:1. 多元回归模型调整混杂2. 倾向性评分匹配(PSM)后构建回归模型3. 回归模型调整倾向性评分(PS)4. 回归模型加权(IPTW)处理5. 回归模型加权(SMR)处理本文分享第二种方法:倾向性评分匹配(PSM)往期相关资料:真实世界研究统计分析方法(一):调整混杂2015年在NEJM发表了一项研究[2],支架和CABG手术相比,对于多支病变的冠心病的疗效。
研究对象:冠心病患者X:两种治疗方式,第二代药物支架(PCI)与冠脉搭桥(CABG)相比Y:预后包括死亡、心梗、再次血运重建和卒中研究设计:观察性研究(observational)中的队列(cohort)研究。
没有随机分配治疗方案,不是RCT,是在真实世界中观察不同治疗方案的疗效。
纳入了3万多人,PSM后剩下不到2万人,样本量少了很多。
目的是控制混杂:挑出一部分人,使得接受不同治疗方案(X)的患者基线情况相似。
这一点非常重要。
试想,如果病情重的人偏向于做搭桥手术,病情重的人预后不好,就会得出搭桥手术疗效差的假象。
解决办法:研究设计时通过PSM的方法选择患者,使得不同X组的人基线相似。
即纳入的人既有可能接受PCI,又有可能接受CABG。
给定一个病例,从数据库里找出满足配对条件的所有可能的对照,然后根据匹配数随机选择对照。
如1:1匹配,随机选一个作对照;1:2匹配,随机选2个配对。
因此PSM的方法又被成为事后随机化,相当于在队列里面构建RCT。
这个就厉害了!正因为倾向性评分(Propensity score ,PS)在控制混杂方面有独特的优势,肿瘤领域的真实世界研究,近年运用PS方法论文的比例出现了爆发[3]:使用PS分析方法的论文数量随发表年份的变化图2017年发布了PS论文报告标准,规范了19条需要在论文中描述的重要内容[3]。
倾向得分匹配法结果解读倾向得分匹配法(Propensity Score Matching,PSM)是一种常用的统计方法,用于处理观察性数据中的因果推断问题。
它通过建立一个倾向得分模型,将处理组(接受某种处理或干预)与对照组(未接受处理或干预)进行匹配,从而消除处理组和对照组之间的潜在选择偏差,使得比较更具可靠性。
解读倾向得分匹配法的结果需要考虑以下几个方面:1. 倾向得分模型的质量,首先需要评估倾向得分模型的拟合程度和预测准确性。
常用的评估指标包括C统计量(C-statistic)、区分度指数(Discrimination Index)等。
较高的指标值表明模型的质量较好,倾向得分的预测能力较强。
2. 平衡性检验,在进行倾向得分匹配后,需要检验处理组和对照组之间的基线特征是否得到平衡。
常用的平衡性检验方法包括t 检验、卡方检验等。
如果处理组和对照组在倾向得分匹配后的基线特征上没有显著差异,说明匹配效果较好,处理组和对照组的比较更具可靠性。
3. 效应估计与统计显著性,倾向得分匹配后,可以通过比较处理组和对照组之间的平均差异来估计处理效应。
常见的效应估计方法包括平均处理效应(Average Treatment Effect,ATE)、平均处理效应对于受处理的人群(Average Treatment Effect on the Treated,ATT)等。
此外,还需要进行统计显著性检验,判断处理效应是否显著。
4. 敏感性分析,倾向得分匹配方法对于倾向得分模型的假设敏感,因此需要进行敏感性分析,检验结果的稳健性。
常见的敏感性分析方法包括倾向得分模型的功能形式敏感性分析、倾向得分模型的变量选择敏感性分析等。
综上所述,解读倾向得分匹配法的结果需要综合考虑倾向得分模型的质量、平衡性检验、效应估计与统计显著性以及敏感性分析等多个方面,以确保结果的可靠性和有效性。