第七章-工具变量、2SLS、GMM
- 格式:ppt
- 大小:1.58 MB
- 文档页数:61
工具变量法(二):弱工具变量世上没有完美的计量方法,因为所有的计量方法与模型均依赖于一定的前提假设。
因此,在估计完计量模型后,通常需要对模型的前提假设进行检验,称为“诊断性检验”(diagnostic checking)或“模型检验”(model checking)。
工具变量法也不例外。
工具变量法的成立依赖于有效的工具变量(valid instruments),即所使用的工具变量须满足相关性(与内生解释变量相关)与外生性(与扰动项不相关)。
工具变量的相关性(Instrument Relevance)在大样本下,2SLS为一致估计。
但对于大多数实践中的有限样本(finite sample),2SLS估计量依然存在偏差(bias),并不以真实参数为其分布的中心,即而且,如果工具变量与内生变量的相关性较弱,则 2SLS 的偏差会变得更为严重。
直观来看,2SLS 的基本思想是通过外生的工具变量,从内生变量中分离出一部分外生变动(exogenous variations),以获得一致估计。
如果工具变量与内生变量的相关性很弱,则通过工具变量分离出的内生变量之外生变动仅包含很少的信息。
因此,利用这些少量信息进行的工具变量法估计就不准确,即使样本容量很大也很难收敛到真实的参数值。
这种工具变量称为“弱工具变量”(weak instruments)。
弱工具变量的后果弱工具变量的后果类似于样本容量过小,会导致 2SLS 的小样本性质变得很差,而 2SLS 的大样本分布也可能离正态分布相去甚远,致使基于大样本理论的统计推断失效。
下面通过蒙特卡洛模拟(Monte Carlo simulation)来直观地考察弱工具变量的后果。
考虑最简单的一元回归模型,假设其数据生成过程(data generating process)为:其中,为内生变量,与扰动项相关;而的真实系数为 2。
假设样本容量为10,000,并使用工具变量进行2SLS 回归。
2sls原理2sls原理解析1. 什么是2sls原理2sls(Two Stage Least Squares)是一种用于解决内生性问题的统计方法。
它通过两个阶段的回归来解决内生性引起的估计偏误问题。
2. 内生性问题内生性是指研究对象之间的关系使得同一方程中的一个变量可能同时被其他变量影响。
在经济学研究中,内生性是非常常见的问题,特别是当我们试图通过回归分析来确定因果效应时。
例如,我们想要研究教育对工资的影响,但我们发现教育水平与个体的家庭背景也存在相关性。
这个相关性可能存在因果关系,即教育决定了个体的家庭背景,也可能存在相反的因果关系,即个体的家庭背景决定了他们的教育水平。
在这种情况下,我们无法准确估计教育对工资的真实影响,因为我们无法将教育与家庭背景的影响区分开来。
3. 第一阶段回归为了解决内生性问题,2sls方法首先进行第一阶段回归。
在第一阶段,我们选择一个外生变量(Instrumental Variable,IV)来替代内生变量,该外生变量与内生变量相关但不与因变量相关。
继续上述的例子,我们可以选择政府实施的教育政策作为我们的外生变量。
政府实施教育政策可能会影响到个体的教育水平,但与个体的家庭背景无关。
我们将家庭背景作为内生变量,使用政府实施的教育政策作为工具变量。
我们先对教育水平与政府实施的教育政策进行回归分析,得到第一阶段的回归系数。
该回归系数代表了教育水平对政府实施的教育政策的影响程度。
4. 第二阶段回归在第一阶段回归得到的第一阶段系数为有效的工具变量后,我们进一步进行第二阶段回归分析。
第二阶段回归分析的目标是估计教育对工资的真实影响,而不受内生性的偏误影响。
我们将工资与个体的教育水平以及其他外生变量进行回归,使用第一阶段得到的有效工具变量作为教育水平的替代。
这样,第二阶段回归的系数代表了教育对工资的真实影响。
5. 2sls的优点与局限性2sls方法可以有效地解决内生性问题,从而得到更准确的因果效应估计。
工具变量法2SLS与GMM1第 10 章工具变量,2SLS 与 GMM10.1 解释变量与扰动项相关的例子例农产品市场均衡模型q d = α + α p + u (需求)t 0 1 t t ? q s = β + β p + v(供给) t ? q d 0 1 t t = q s(均衡)tt令q ≡q d=q s,可得t t tq t =α0+α1 p t +u tq =β+βp +vt 0 1 t t两个方程中的被解释变量与解释变量完全一样。
如直接作回归q ?O?LS?→p,估计的是需求函数还是供给函数?t t2图10.1 需求与供给决定市场均衡341 1 1 11 1把线性方程组中的( p t , q t )看成是未知数(内生变量),把(u t , v t ) 看作已知,可求解( p t , q t )为(u t , v t ) 的函数:p = p (u ,v ) = β0 - α0 + v t - u t ? t t t t α - β α - β ? 1 1 1 1 ?q = q (u ,v ) = α1β0 - α0 β1 + α1v t - β1u t ?? t t t t α - β α - β由于 p t 为(u t , v t ) 的函数,故Cov( p t , u t ) ≠ 0,Cov( p t , v t ) ≠ 0。
OLS 估计值α?1, β? 不是α , β 的一致估计量。
称这种偏差为“联立方程偏差”(simultaneity bias)或“内生变量偏差”(endogen eity bias)。
1如能将内生变量分成两部分,一部分与扰动项相关,另一部分与扰动项不相关,可用与扰动项不相关的那部分得到一致估计。
这种分离常借助另一“工具变量”来实现。
假设在图10.1 中,存在某个因素(变量)使得供给曲线经常移动,而需求曲线基本不动,则可估计需求曲线,参见图10.2。
这个使得供给曲线移动的变量就是工具变量。
工具变量法(四):GMMProf. Lars Peter HansenWhat Hansen did with the generalized method of moments is show that when we have more moment conditions than parameters we can best estimate those parameters by giving more weight to the conditions that we have better information about. -- Alex Tabarrok (Marginal Revolution Blog)传统的工具变量法为2SLS,因为它操作方便,且同时适用于恰好识别与过度识别的情形。
然而,2SLS 仅在扰动项同方差的情况下,才是最有效率的。
理由很简单,如果每位个体的扰动项方差不相同(比如,大企业的方差一般不同于小企业的方差),则方差小的个体观测值所包含的信息量更大,而 2SLS 却对所有数据等量齐观地进行处理,故在异方差的情况下不是最有效率的。
在过度识别且存在异方差的情况下,更有效率的做法是“广义矩估计”(Generalized Method of Moments,简记 GMM)。
该方法由芝加哥大学的 Lars Peter Hansen 教授所提出 (Hansen, 1982),已成为最流行的计量方法之一,Hansen 也因此获得 2013年的诺贝尔经济学奖。
顾名思义,广义矩估计为矩估计的推广,故先介绍矩估计。
矩 (Moment)何为矩?简单说,矩就是随机变量之函数的期望。
比如,对于随机变量,其一阶原点矩为其期望,二阶中心矩为其方差,以此类推。
更一般地,考虑随机变量的函数。
显然,仍为随机变量,其期望也称为“矩”(moment)。
进一步推广,随机向量的函数之期望,也称为“矩”。
⼯具变量法(IV)的Stata操作Stata操作⼯具变量法的难点在于找到⼀个合适的⼯具变量并说明其合理性,Stata操作其实相当简单,只需⼀⾏命令就可以搞定,我们通常使⽤的⼯具变量法的Stata命令主要就是ivregress命令和ivreg2命令。
ivregress命令ivregress命令是Stata⾃带的命令,⽀持两阶段最⼩⼆乘(2SLS)、⼴义矩估计(GMM)和有限信息最⼤似然估计(LIML)三种⼯具变量估计⽅法,我们最常使⽤的是两阶段最⼩⼆乘法(2SLS),因为2SLS最能体现⼯具变量的实质,并且在球形扰动项的情况下,2SLS是最有效率的⼯具变量法。
顾名思义,两阶段最⼩⼆乘法(2SLS)需要做两个回归:(1)第⼀阶段回归:⽤内⽣解释变量对⼯具变量和控制变量回归,得到拟合值。
(2)第⼆阶段回归:⽤被解释变量对第⼀阶段回归的拟合值和控制变量进⾏回归。
如果要使⽤2SLS⽅法,我们只需在ivregress后⾯加上2sls即可,然后将内⽣解释变量lnjinshipop和⼯具变量bprvdist放在⼀个⼩括号中,⽤=号连接。
选项first表⽰报告第⼀阶段回归结果,选项cluster()表⽰使⽤聚类稳健的标准误。
ivregress 2sls lneduyear (lnjinshipop=bprvdist) lnnightlight lncoastdist tri suitability lnpopdensity urbanrates i.provid , first cluster(provid)第⼀阶段回归结果First-stage regressions-----------------------Number of obs = 274No. of clusters = 28F( 7, 239) = 85.27Prob > F = 0.0000R-squared = 0.6487Adj R-squared = 0.5988Root MSE = 0.4442------------------------------------------------------------------------------| Robustlnjinshipop | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------lnnightlight | .183385 .0682506 2.690.008 .0489354 .3178346lncoastdist | .0350333 .0771580.450.650 -.1169634 .1870299tri | 1.06676 .5637082 1.890.060 -.0437105 2.177231suitability | -.0769726 .0549697 -1.400.163 -.1852596 .0313144lnpopdensity | .196144 .0843727 2.320.021 .0299349 .3623532urbanrates | 3.352916 1.687109 1.990.048 .029414 6.676419|provid |12 | .2051006 .0551604 3.720.000 .096438 .313763213 | -1.890425 .0951146 -19.880.000 -2.077795 -1.703055......64 | -1.301895 .1581021 -8.230.000 -1.613346 -.9904433|bprvdist | -.0846917 .0107859 -7.850.000 -.1059393 -.0634441_cons | 2.126233 .9791046 2.170.031 .1974567 4.05501------------------------------------------------------------------------------从表中可以看出,⼯具变量bprvdist的系数为-0.085,标准误为0.011,在1%的⽔平上显著。
工具变量法 GMM估计1 OverviewModel过程可以分析线性、非线性(对参数或者对变量)的单方程和方程组。
使用的估计方法有:OLS, 2SLS, SUR, ITSUR, 3SLS, IT3SLS,GMM ,FIML。
MODEL过程分析的模型如下:这里,Y是内生变量,X是外生变量,TEHTA是参数。
观测到的变量要么是内生变量,要么是外生变量。
上面的方程组可以简写为:这个形式称为一般形式。
还可以写成标准形式:标准形式把内生变量放在方程的一边。
两种形式的方程(组)都可以使用MODEL过程估计。
经常用当前外生变量、滞后的外生变量、滞后的内生变量来解释当前内生变量。
这就构成了一个动态模型。
滞后变量不论内生还是外生都看作外生变量。
以上并不要求扰动项独立同分布。
自相关、异方差甚至不同的分布都有可能。
对于异方差可以使用加权估计,GARCH模型也可以修正异方差。
如果难以确定异方差的来源和形式,难以确定权重变量的话,可以使用GMM方法得到比OLS方法更加有效的估计。
方程组一个常见的问题就是联立偏倚。
考虑:这个方程组对参数是非线性的,不能使用线性回归估计。
同时这里Y1和Y2是同时决定的,普通非线性最小二乘方法的结果也是有偏和非一致的。
这称为联立性偏倚。
在线性模型中,处理联立性偏倚的可以把出现在方程右边的内生变量换成其预测值。
预测值与扰动项无关从而消除了联立性偏倚。
预测值是通过工具变量法估计得到的,这称为第一步回归。
利用预测值进行第二次回归称为两段最小二乘。
在非线性模型中,使用线性近似,把非线性方程组线性化后使用工具变量法,反复迭代。
在方程组中,方程之间的扰动项可能相关。
对于大样本情况,可以使用系统方法考虑到方程内和方程之间关系得到更有效的估计。
如果不存在联立性问题,即不存在内生变量作为解释变量的话,可以使用SUR估计。
SUR方法需要估计方程之间扰动项的协方差矩阵∑。
估计步骤为先使用OLS估计方程组,从残差得到∧∑,然后使用SUR。
GMM的sta操作步骤广义矩估计(Generalized Method of Moments,即GMM)一、解释变量内生性检验首先检验解释变量内生性(解释变量内生性的Hausman 检验:使用工具变量法的前提是存在内生解释变量。
Hausman 检验的原假设为:所有解释变量均为外生变量,如果拒绝,则认为存在内生解释变量,要用IV;反之,如果接受,则认为不存在内生解释变量,应该使用OLS。
reg ldi lofdi estimates store ols xtivreg ldi (lofdi=l.lofdi ldep lexr) estimates store iv hausman iv ols (在面板数据中使用工具变量,Sta 提供了如下命令来执行2SLS:xtivreg depvar [varlist1](varlist_2=varlist_iv)(选择项可以为fe,re 等,表示固定效应、随机效应等。
详见help xtivreg)如果存在内生解释变量,则应该选用工具变量,工具变量个数不少于方程中内生解释变量的个数。
“恰好识别”时用2SLS。
2SLS的实质是把内生解释变量分成两部分,即由工具变量所造成的外生的变动部分,以及与扰动项相关的其他部分;然后,把被解释变量对中的这个外生部分进行回归,从而满足OLS 前定变量的要求而得到一致估计量。
t p t q t p 二、异方差与自相关检验在球型扰动项的假定下,2SLS是最有效的。
但如果扰动项存在异方差或自相关,面板异方差检验:xtgls enc invs exp imp esc mrl,igls panel(het)estimates store hetero xtgls enc invs exp imp esc mrl,igls estimates store homo local df = e(N_g) - 1 lrtest hetero homo,df(`df')面板自相关:xtserial enc invs exp imp esc mrl 则存在一种更有效的方法,即GMM。
GMM的stata操作步骤广义矩估计(Generalized Method of Moments,即GMM)一、解释变量内生性检验首先检验解释变量内生性(解释变量内生性的Hausman 检验:使用工具变量法的前提是存在内生解释变量。
Hausman 检验的原假设为:所有解释变量均为外生变量,如果拒绝,则认为存在内生解释变量,要用IV;反之,如果接受,则认为不存在内生解释变量,应该使用OLS。
reg ldi lofdi estimates store ols xtivreg ldi (lofdi=l.lofdi ldep lexr) estimates store iv hausman iv ols (在面板数据中使用工具变量,Stata 提供了如下命令来执行2SLS:xtivreg depvar [varlist1] (varlist_2=varlist_iv) (选择项可以为fe,re 等,表示固定效应、随机效应等。
详见help xtivreg)如果存在内生解释变量,则应该选用工具变量,工具变量个数不少于方程中内生解释变量的个数。
“恰好识别”时用2SLS。
2SLS 的实质是把内生解释变量分成两部分,即由工具变量所造成的外生的变动部分,以及与扰动项相关的其他部分;然后,把被解释变量对中的这个外生部分进行回归,从而满足OLS 前定变量的要求而得到一致估计量。
t p t q t p 二、异方差与自相关检验在球型扰动项的假定下,2SLS 是最有效的。
但如果扰动项存在异方差或自相关,面板异方差检验:xtgls enc invs exp imp esc mrl,igls panel(het) estimates store hetero xtgls enc invs exp imp esc mrl,igls estimates store homo local df = e(N_g) - 1 lrtest hetero homo, df(`df') 面板自相关:xtserial enc invs exp imp esc mrl 则存在一种更有效的方法,即GMM。