断点回归设计的步骤
- 格式:pdf
- 大小:680.00 KB
- 文档页数:10
近在做一个需要利用断点回归设计的研究。
为了保证实践的规范性,并且避免未来审稿中可能面对的质疑,花了几天时间梳理了一下断点回归设计的标准操作,整理出来,供来人参考。
本文参考了三篇文献,先摆在这里,建议大家去读原文:第一篇:Lee, and Lemieux, 2010," Regression Discontinuity Designs in Economics ",Journal ofEconomic Literature, Vol. 48: 281–355.第二篇:Pinotti, Paolo. "Clicking on heaven's door: The effect of immigrant legalization oncrime." American Economic Review107.1 (2017): 138-68.第三篇:Thoemmes, Felix, Wang Liao, and Ze Jin. "The Analysis of the Regression-DiscontinuityDesign in R." Journal of Educational and Behavioral Statistics 42.3 (2017): 341-360.1.断点回归常规操作流程第1步检查配置变量(assignment variable,又叫running variable、forcing variable)是否被操纵。
这里的配置变量,其实就是RD中决定是否进入实验的分数(Score),是否被操纵的意思就是,是否存在某种跳跃性的变化。
在实际操作中有两种方式来检验,一是画出配置变量的分布图。
最直接的方法,是使用一定数量的箱体(bin),画出配置变量的历史直方图(histogrm)。
为了观察出分布的总体形状,箱体的宽度要尽量小。
空间断点回归命令 stata
空间断点回归是一种在计量经济学中常用的分析方法,用于研究某个特定事件对某个变量的影响。
它可以帮助我们判断某个特定事件是否对变量产生了显著的影响,以及影响的方向和大小。
在Stata中,进行空间断点回归分析可以使用命令"rdrobust"。
该命令可以帮助我们实现断点回归的估计和推断,提供了一系列功能,如断点回归模型的估计、断点位置的选择、断点效应的推断等。
使用"rdrobust"命令进行空间断点回归分析的步骤如下:
1. 导入数据:首先需要将需要分析的数据导入到Stata中,可以使用"import"命令或者直接在Stata界面中打开数据文件。
2. 创建变量:根据具体的研究问题,可以创建需要分析的变量,如自变量、因变量、断点变量等。
3. 运行命令:使用"rdrobust"命令进行空间断点回归分析。
命令的语法通常包括自变量、因变量和断点变量等参数。
4. 解释结果:通过命令的输出结果,可以解释分析的结果,如断点位置的选择、断点效应的推断等。
需要注意的是,在进行空间断点回归分析时,需要满足一定的假设条件,如断点位置的选择要合理,样本数据要足够等。
此外,还可以通过绘制图表等方式对分析结果进行可视化展示,以更好地理解
和解释分析结果。
空间断点回归分析是一种重要的计量经济学方法,可以帮助我们研究某个特定事件对变量的影响。
在Stata中,使用"rdrobust"命令可以方便地进行空间断点回归分析,并通过结果解释来判断事件对变量的影响是否显著。
模糊断点回归估计系数推导
模糊断点回归(FuzzyRegressionDiscontinuity)是一种在回归模型中使用断点方法来估计因果效应的方法。
在模糊断
点回归中,我们将特定变量(通常是一个连续变量)作为待估
计效应的“断点”,通过比较断点两侧的数据来估计因果效应。
1.设定断点:首先,我们需要选择一个自变量作为断点,并
且假设该变量存在一个连续的断点。
通常情况下,我们会根据
经验或理论来选择一个断点。
2.构建回归模型:然后,我们需要构建一个回归模型来估计
因果效应。
通常情况下,我们会使用线性回归模型或非参数回
归模型。
3.分组观察样本:接下来,根据自变量与断点的关系将样本
数据分为两个组:位于断点两侧的组。
这样我们就可以比较两
个组之间的差异,以估计因果效应。
4.进行回归分析:然后,我们使用回归模型对两个组的数据
进行回归分析。
具体地,我们将断点作为一个自变量加入回归
模型中,以及其他相关的控制变量,然后进行回归拟合。
5.估计因果效应:最后,我们利用回归模型的拟合结果来估
计因果效应。
一般来说,我们关注的是断点处因变量的差异,
也就是断点两侧的预测值之间的差异。
需要注意的是,模糊断点回归的核心在于寻找一个恰当的断点,以及合理地构建回归模型。
如果断点选择不当或者回归模型不恰当,估计的因果效应可能会有偏差。
因此,在进行模糊断点回归时,我们需要仔细选择合适的断点和回归模型,并进行必要的敏感性分析和稳健性检验,以确保估计的可靠性和有效性。
断点回归方法嘿,咱今儿来聊聊断点回归方法。
这玩意儿啊,就像是一把神奇的钥匙,能帮咱打开好多知识宝库的大门呢!你想想看,生活中很多事情不就像是有个断点似的嘛。
比如说,考试及格线就是个断点呀,过了及格线那感觉肯定不一样,就好像进入了另一个境界。
断点回归方法呢,就是专门来研究这种断点前后变化的。
它就像是个超级侦探,能把那些因为断点而产生的细微变化都给揪出来。
比如说,政策上有个小小的改变,在断点前后,人们的行为或者某些现象可能就会有很大的不同。
断点回归方法就能把这些不同给分析得透透的。
咱可以打个比方啊,就好比是跑步比赛。
在起跑线这儿就是个断点,没到起跑线的时候大家都在准备,到了起跑线后,那可就开跑啦!断点回归方法能看出来起跑前后大家的状态变化,是不是很厉害?这方法在好多领域都能大显身手呢!像经济学、社会学这些领域,经常要研究一些政策或者事件带来的影响。
这时候,断点回归方法就派上大用场啦。
它能让那些隐藏的影响无所遁形。
你说它是不是很神奇?就像有一双慧眼,能看穿一切似的。
而且啊,它还特别靠谱,得出的结论让人信服。
那怎么用这断点回归方法呢?这可得好好琢磨琢磨。
就像做菜一样,得有合适的材料,合适的步骤,才能做出美味的菜肴。
断点回归方法也是,要选对数据,设计好研究方案,一步一步来,才能得出有价值的结果。
比如说,咱要研究一个地区实行新政策后的效果。
那就要找到断点,也就是政策实施的那个时间点。
然后对比断点前后的各种数据,看看有啥不一样。
这可不能马虎,得仔细认真,就跟侦探破案似的,不能放过任何一个小细节。
总之呢,断点回归方法是个特别有用的工具。
它能让我们更好地理解世界,理解那些看似平常但其实蕴含着大道理的现象。
咱可得好好掌握它,让它为咱的学习和工作助力呀!所以啊,断点回归方法真的是值得我们好好去研究和运用的,你说是不是呢?。
断点回归(RD)学习手册断点回归由Thistlewaite and Campbell(1960)首次使用,但直到1990年代末才引起经济学家的重视。
Thistlethwaite、Campbell于1960年首次提出使用断点回归设计研究处理效应, 在该文中他们的目的是研究奖学金对于未来学业的影响, 学生是否获得奖学金取决于考试的分数。
由于奖学金由学习成绩决定,故成绩刚好达到获奖标准与差一点达到的学生具有可比性。
如果考试分数大于获奖标准分数, 则进入处理组;如果考试分数小于获奖标准分数, 则进入控制组。
因此处理变量在获奖标准分数处形成了一个断点, 该研究设计的主要思想是可以利用靠近这一断点附近的样本来有效估计处理效应。
Angrist and Lavy(1999)在研究班级规模对成绩的影响时,利用以色列教育系统的一项制度进行断点回归;该制度限定班级规模的上限为40名学生,一旦超过40名学生(比如41名学生),则该班级被一分为二。
此后30年, 该方法并未引起学术界的重视,直到1990年以后, 断点回归设计开始被应用于各种领域,并且近年来成为因果分析和政策评估领域最重要的研究方法。
Hahn et al(2001)提供了断点回归在计量经济学理论基础。
目前,断点回归在教育经济学、劳动经济学、健康经济学、政治经济学以及区域经济学的应用仍方兴未艾。
参见Imbens and Lemieux(2008),Van Der Klaauw(2008)以及Lee and Lemieux(2010)的文献综述。
断点回归设计是一种准自然实验, 其基本思想是存在一个连续变量, 该变量能决定个体在某一临界点两侧接受政策干预的概率, 由于X在该临界点两侧是连续的,因此个体针对X的取值落入该临界点任意一侧是随机发生的, 即不存在人为操控使得个体落入某一侧的概率更大, 则在临界值附近构成了一个准自然实验。
一般将该连续变量X称为分组变量 (assignment variable) 。
断点回归方法的基本原理
断点回归方法是一种软件测试方法,它的基本原理是在程序代码中设
置断点,通过调试器控制程序执行流程,从而定位和解决程序中的错误。
具体步骤如下:
1. 确定测试目标:首先需要明确要测试的程序模块或功能。
2. 编写测试用例:根据测试目标编写相应的测试用例,包括输入数据、预期输出结果等。
3. 设置断点:在程序代码中设置断点,可以是行级别、函数级别或模
块级别的断点。
这里需要使用调试器来实现。
4. 运行程序:启动程序并按照测试用例提供的输入数据运行程序。
5. 调试程序:当程序执行到设置的断点处时,调试器会暂停程序运行,并提供调试工具来进行查看变量值、单步执行等操作。
通过这些工具
可以定位和解决代码中的错误。
6. 修改代码:根据定位到的错误修改代码,并重新编译运行,直到所有错误都被解决为止。
7. 回归测试:在修改完代码后需要进行回归测试,即重新运行之前编写的所有测试用例以确保修改后的代码没有引入新的错误。
总之,断点回归方法是一种有效的软件测试方法,在定位和解决软件错误方面发挥了重要作用。
让“跳跃”更有意义:断点回归设计(RDD) 在一个高度依赖规则的世界里,有些规则的出现十分随意,这种随意性为我们提供了性质良好的实验(Angrist& Pischke,2009)。
断点回归设计(RegressionDiscontinuity Design)是一种仅次于随机实验的能够有效利用现实约束条件分析变量之间因果关系的实证方法。
Lee(2008)认为在随机实验不可得的情况下,断点回归能够避免参数估计的内生性问题,从而真实反映出变量之间的因果关系。
断点回归方法首先是由美国西北大学心理学家Campbell于1958年提出的;并与1960年,与Thistlethwaite正式发表了第一篇关于断点回归的论文,提出断点回归是在非实验的情况下处理处置效应(Treatment Effects)的一种有效的方法,主要应用于心理学和教育学领域。
1963年,Campbell and Stanley为断点回归提供了更加清晰化的概念,但由于当时还缺乏严密的统计证明,加之IV 方法在处理内生性的思路和范式上具有更广阔的适用范围,因此在随后的几十年间,RD 方法一直没有得到经济学者的重视。
直到上世纪90 年代末,随着该方法的理论基础得到进一步发展,大量经济学文献才开始使用RD 方法对变量之间的因果关系进行识别。
断点回归可以分为两类,一类是模糊断点回归(Fuzzy RD),另一类是清晰断点回归(Sharp RD)。
清晰断点回归可以看作是一种基于可观察变量进行的选择(selection-on-observablesstory),而模糊断点回归则常被视为一种工具变量的方法(instrumental-variables-type)。
清晰断点回归(Sharp RD)当处理状态是协变量确定型、不连续函数时,可以使用清晰间断点回归法。
对于清晰断点回归,个体在临界值的一边接受处理效应(treatment effect)的概率为0,而在临界值另一边的概率则为1。
Stata:断点回归(RDD)教程作者:张子楠 (浙江财经大学)E-mail:******************Stata连享会计量专题 || 公众号合集点击查看完整推文列表连享会直播:我的特斯拉—实证研究设计(连玉君主讲)课程主页:/arlionn/Live•1. RDD基本原理•2. 图形观察o 2.1 生成模拟数据o 2.2 断点效应的图形观察•3. 政策效应估计o 3.1 局部线性回归o 3.2 局部多项式回归o 3.3 全局多项式回归•4. RDD有效性检验o 4.1 局部平滑性的检验o 4.2 驱动变量不受人为控制的检验•5. 稳健性检验o 5.1 断点的安慰剂检验o 5.2 样本选择的敏感性检验o 5.3 带宽选择的敏感性检验1. RDD基本原理断点回归分析被认为是最接近随机实验的检验方法,能够缓解参数估计的内生性问题,近来在越来越多的研究中得到使用。
现有资料已经对断点回归方法的基本原理和效应识别进行了较为广泛的介绍,但对阶数选择和稳健性检验等问题的仍相对较少涉及。
本文将基于Stata软件来系统介绍断点回归方法的图形观测、效应识别和有效性和稳健性检验。
限于篇幅,本文将内容限定于清晰断点回归方法(Sharp Regression Discontinuity Design ),且只考虑只有一个断点和一个分配变量的问题。
2. 图形观察2.1 生成模拟数据我们先生成一份模拟数据,并保存为 RDD_simu_data0 。
生成的数据中, z1 和 z2 为控制变量。
y1 为结果变量(outcome variable)。
x 为分配变量(assignment vaiable)。
分配点(cutoff point)设定为 0.5 ,从而x大于0.5 的为实验组,小于0.5的为对照组。
此外,在RDD检验中,我们通常还会对分配变量进行去中心化处理,即用分配变量减去分配点值。
如本文中,令xc=x-0.5 。
社会科学研究中的断点回归设计
断点回归设计是社会科学研究中常用的一种方法,旨在探究某个自变量在一个或多个特定阈值点发生变化时,对因变量产生的影响。
在断点回归设计中,研究者首先选择一个或多个自变量作为断点,并通过对该自变量的某个或多个阈值点进行分割,将样本观测值划分为低于、高于或等于阈值的不同组别。
然后,通过运用回归分析,分别对每个组别进行回归分析,以探究自变量在不同组别中对因变量的影响。
主要应用领域包括经济学、教育学、社会学等社会科学领域。
例如,在经济学中,研究者可能对所得水平进行断点回归分析,以探究所得对消费行为的影响是否存在非线性关系。
断点回归设计的优点包括能够识别自变量与因变量之间的不同关系模式,帮助理解自变量对因变量的影响方式;同时,通过考察阈值点,还可以揭示政策或实践上的相关意义。
然而,断点回归设计也存在一些限制和挑战。
例如,确定合适的阈值点需要在理论和实证的基础上进行推断,具有一定的主观性和不确定性;此外,样本选择和内生性问题也可能对分析结果产生影响。
总而言之,断点回归设计是一种用于社会科学研究中探究自变量对因变量影响的方法,其在研究领域中应用广泛,可以帮助研究者更深入地理解相关关系,并为政策制定提供参考依据。
近在做一个需要利用断点回归设计的研究。
为了保证实践的规范性,并且避免未来审稿中可能面对的质疑,花了几天时间梳理了一下断点回归设计的标准操作,整理出来,供来人参考。
本文参考了三篇文献,先摆在这里,建议大家去读原文:第一篇:Lee, and Lemieux, 2010," Regression Discontinuity Designs in Economics ",Journal ofEconomic Literature, Vol. 48: 281–355.第二篇:Pinotti, Paolo. "Clicking on heaven's door: The effect of immigrant legalization oncrime." American Economic Review107.1 (2017): 138-68.第三篇:Thoemmes, Felix, Wang Liao, and Ze Jin. "The Analysis of the Regression-DiscontinuityDesign in R." Journal of Educational and Behavioral Statistics 42.3 (2017): 341-360.1.断点回归常规操作流程第1步检查配置变量(assignment variable,又叫running variable、forcing variable)是否被操纵。
这里的配置变量,其实就是RD中决定是否进入实验的分数(Score),是否被操纵的意思就是,是否存在某种跳跃性的变化。
在实际操作中有两种方式来检验,一是画出配置变量的分布图。
最直接的方法,是使用一定数量的箱体(bin),画出配置变量的历史直方图(histogrm)。
为了观察出分布的总体形状,箱体的宽度要尽量小。
频数(frequencies)在箱体间的跳跃式变化,能就断点处的跳跃是否正常给我们一些启发。
从这个角度来说,最好利用核密度估计做出一个光滑的函数曲线。
二是利用McCrary(2008)的核密度函数检验。
(命令是DCdensity,介绍见陈强编著的《高级计量经济学及Stata应用》(第二版)第569页), Frandsen (2013)提出了一种新的检验方法,但目前被使用的并不多。
第2步画因变量均值对配置变量的散点图,并选择带宽(bandwidth selection)。
首先,挑选出一定数目的箱体,求因变量在每个箱体内的均值,画出均值对箱体中间点的散点图。
一定要画每个箱体平均值的图。
如果直接画原始数据的散点图,那么噪音太大,看不出潜在函数的形状。
不要画非参数估计的连续统,因为这个方法自然地倾向于给出存在断点的印象,尽管总体中本来不存在这样的断点。
然后,选择第三步骤中需要的带宽。
Lee和Lemieux(2010)介绍了两种确定最优带宽的方法:拇指规则法(rule of thumb)和交叉验证法(CV)。
还有另外两种比较受关注的方法:IK法和CCT法。
IK法以Imbens和Kalyanaraman两个人命名,对应着论文Imbens和Kalyanaraman(2012)。
这篇论文发表在Review of Economic Studies,Lee和Lemieux(2010)文中提到过此文2009年的NBER工作论文版。
CCT法以Calonico、Cattaneo和Titiunik三个人命名,对应着论文Calonico、Cattaneo和Titiunik(2014a)。
用非参数法做断点回归估计时的stata命令rd,就是用IK发确定最优带宽。
stata命令rdrobust、rdbwselect,提供CV、IK、CCT三种不同的最优带宽计算方法选项。
但是实际上rdrobust中已经更新了IK带宽选择函数,更新的算法与IK算法的区别有待考证,后续会补充。
实际操作中一般是两种算法都会采纳,并汇报参数估计对带宽选择是不敏感的。
第3步估计,又分为参数估计和非(半)参数估计两种方案。
在Sharp RD 情形,参数法将Y在每个箱体内的均值作为因变量,用处理变量、配置变量的多次项作为自变量,在断点两边分别跑回归,得到断点左右两边因变量的拟合值,两个拟合值的差值便是我们想估计的实验对因变量的因果效应。
将这些拟合值画在第2步的图中,并用光滑的曲线连接起来。
在推文人读过的RD 论文中,多次项一般都使用1到4次项,但没有论文解释为什么只用到4次项。
半参数的方法便是用非参数估计的方法替代断点两边估计因变量的拟合。
对于Fuzzy的情形,参数估计意味着将配置变量(score)以及配置变量与是否超过断点的乘积(score*above_cutoff)作为实验变量的工具变量来进行两阶段最小二乘估计,实际应用中往往联合使用score, score*above_cutoff,score^2,score^2*above_cutoff作为估计的工具变量,见第二部分的例子。
非参数估计的做法是,利用核密度函数局部现性回归来代替2SLS里面一般线性回归,rdrobust命令可以直接实现这种估计。
第4步检验前定变量在断点处是否跳跃,这一步的目的是证明不存在跳跃,否则就麻烦了。
前定变量指的是那些在实验之前已经确定的变量,例如,发生在2008年的实验,那些2007年的观测值便是前定的,理论上这些变量是不应该在断点出跳跃的。
此步和第1步是RD方法的适用性检验。
此步的检验包括两项内容:1. 像前三步那样画前定变量的图。
无论参数还是非参数,RD研究都要大把的图!这些图在正式发表的论文中都必不可少!原文中说了这么句话:用RD做的论文,如果缺乏相关的图,十有八九是因为图显示的结果不好,作者故意不报告。
2. 将前定变量作为因变量,将常数项、处理变量、配置变量多次项、处理变量和配置变量多次项的交互项作为自变量,跑回归。
一个前定变量有一个回归,看所有回归中处理变量的系数估计是否都为0。
检验这种跨方程的假设,需要用似不相关回归(Seemingly Unrelated Regression, SUR)(命令是sureg,用法见陈强编著的《高级计量经济学及Stata应用》(第二版)第471-474页)。
在推文人读过的RD实证论文中(尤其是AER2015-2016年所有用RD做的论文中),均没用SUR,只是简单的看每个回归中处理变量的系数估计均为0。
第5步检验结果对不同带宽、不同多项式次数的稳健性。
尝试的其它带宽,一般是最优带宽的一半和两倍。
挑选多项式的最优次数,可用赤池信息准则(Akaike's Information Criterion,AIC)。
在我们尝试的包含配置变量1次方、2次方、……N次方的众多方程中,AIC取值最小的那个就是我们想要的。
实操时,试到多少次为好? Gelman和Imbens(2014)的NBER工作论文说,试到N次的做法要不得,最多只能搞到2次。
原因待我阅读完原文之后补充。
第6步检验结果对加入前定变量的稳健性。
如上所述,如果不能操控配置变量的假设成立,那么无论前定变量与因变量的相关性有多高,模型中加入前定变量都不应该影响处理效应的估计结果。
如果加入前定变量导致处理效应的估计结果变化较大,那么配置变量可能存在排序现象,前定变量在断点处也很可能存在跳跃。
实操时在确定多项式的次数后,直接在回归方程中加入前定变量。
如果这导致处理效应估计值大幅变化或者导致标准误大幅增加,那么可能意味着函数中多项式的次数不正确。
另外一个检验是残差化,看相同次数的多项式模型对残差的拟合好不好。
2.断点回归常规操作示例与stata实现过程这篇论文的研究问题是移民获得合法身份后的犯罪是否会减少。
其中,实验变量是是否获得合法身份,因变量是移民申请人在申请合法身份后的第一年(2008年)是否有犯罪记录,这里面的选择偏误是合法身份并不是随机发放给移民申请人的,那些预期犯罪更少的移民更有机会(有雇主帮助申请)和动力(花更多的时间和精力去准备申请)来申请合法身份,直接对比犯罪率会夸大合法身份的作用(使负向系数更小)。
为了克服这个选择偏误,作者利用了意大利的自然实验,意大利的移民身份申请是先到先得的,也就是在系统开放后,申请时间越晚中签率会越低,作者发现申请递交时间timing上有一个断点,当申请人晚于这个断点提交申请书时,会导致其中签率跳跃式下滑,但不至于完全为零,于是作者找到了一个Fuzzy断点情景。
下面我们看看作者是怎么操作的。
其实这个情景很像上海的机动车抽签系统。
配置与处置变量的散点图在实际操作中,作者Pinotti在描述政策背景的时候直接汇报了配置与处置变量的散点图(5min作为箱体),如下图然后作者使用Andrews(1993)检验的方法检验存在结构性断点,但是作者没有在正文与附录中汇报该检验的结果。
确定断点作者针对每一个“摇号点”,用Andrew(1993)的方案找出“the most likely break points”,同样作者没有汇报cutoff point的详细数据以及寻找过程。
仅仅在附件中汇报了下图。
全局2SLS估计作者将样本人为限制在cutoff point附近半个小时以内样本。
(1)首先汇报了因变量(2008年犯罪率)与前定变量(2007年犯罪率)与配置变量的散点图及其置信区间。
上图的实际实现分为两步,第一步是用是否大于cutoff point的dummy与score 的四次项多项式回归,得出不同分数的拟合值与置信区间,第二步是画出散点图与拟合曲线图。
以2007年为例,stata实现为:bys bin: egen mean=mean(serious07)reg serious07 ontime mindelay mindelay2 ontimexmindelay ontimexmindelay2, robustpredict fitpredict fitsd, stdpgen upfit=fit+1.645*fitsdgen downfit=fit-1.645*fitsdpreservetwoway (rarea upfit downfit mindelay, sort fcolor(gs12) lcolor(gs12)) ///(line fit mindelay if mindelay<0, sort lcolor(green) lwidth(thick)) (line fit mindelay if mindelay>0, sort lcolor(red) lwidth(thick)) (scatter mean midbin, msize(large)mcolor(black) msymbol(circle_hollow)), ///ytitle("") xtitle("Timing of the application, X (cutoff: X=0)") xline(0, lcolor(black)) legend(off) xlabel(-30(10)30) title("2007, all applicants")graph copy all2007, replacerestoredrop *fit* mean(2)然后,作者在一张表中汇报了2sls以及前定变量的ols结果通过上表,我们可以得出在前定变量方面,断点两边的差异是不显著,在因变量方面显著,而且显著性来自type-A样本。