内生性工具变量与GMM估计
- 格式:ppt
- 大小:992.00 KB
- 文档页数:41
系统gmm方法系统GMM方法。
系统GMM方法是一种用于估计面板数据模型参数的方法,它结合了一阶差分和二阶差分的工具变量。
GMM方法是广义矩估计的一种特例,通过使用工具变量来解决内生性和遗漏变量的问题。
在面板数据模型中,内生性和遗漏变量是常见的问题,而系统GMM方法能够有效地解决这些问题,提高参数估计的准确性和稳健性。
系统GMM方法的基本思想是利用过去时期的内生变量的工具变量来估计当前时期的模型参数,这样可以有效地消除内生性和遗漏变量的影响。
与传统的GMM方法相比,系统GMM方法在面对面板数据模型时具有更好的性能,尤其是在样本较小、面板数据结构较为复杂的情况下。
在实际应用中,系统GMM方法通常需要满足一些假设前提,如工具变量的外生性、工具变量的相关性等。
通过对这些假设进行检验,可以确保系统GMM方法的有效性和准确性。
此外,系统GMM方法还需要选择合适的仪器变量和滞后阶数,以达到最优的估计效果。
系统GMM方法在经济学、金融学、管理学等领域都有着广泛的应用。
特别是在面对面板数据模型时,系统GMM方法可以更好地处理内生性和遗漏变量的问题,提高参数估计的精确度和鲁棒性。
因此,掌握系统GMM方法对于进行面板数据模型的估计和分析具有重要意义。
总之,系统GMM方法是一种强大的面板数据估计方法,它通过利用工具变量和滞后差分来解决内生性和遗漏变量的问题,提高了参数估计的准确性和稳健性。
在实际应用中,需要注意选择合适的工具变量和滞后阶数,并对方法的假设进行检验,以确保估计结果的有效性和可靠性。
系统GMM方法的应用将有助于推动面板数据模型的研究和实践,为相关领域的决策提供更加可靠的依据。
实证研究中,不可或缺的GMM模型(附有命令及运用思路)广义矩估计(Generalized Method of Moments,即GMM)一、解释变量内生性检验首先检验解释变量内生性(解释变量内生性的Hausman 检验:使用工具变量法的前提是存在内生解释变量。
Hausman 检验的原假设为:所有解释变量均为外生变量,如果拒绝,则认为存在内生解释变量,要用IV;反之,如果接受,则认为不存在内生解释变量,应该使用OLS。
reg ldi lofdiestimates store olsxtivreg ldi (lofdi=l.lofdi ldep lexr)estimates store ivhausman iv ols(在面板数据中使用工具变量,Stata提供了如下命令来执行2SLS:xtivreg depvar [varlist1] (varlist_2=varlist_iv) (选择项可以为fe,re等,表示固定效应、随机效应等。
详见help xtivreg)如果存在内生解释变量,则应该选用工具变量,工具变量个数不少于方程中内生解释变量的个数。
“恰好识别”时用2SLS。
2SLS的实质是把内生解释变量分成两部分,即由工具变量所造成的外生的变动部分,以及与扰动项相关的其他部分;然后,把被解释变量对中的这个外生部分进行回归,从而满足OLS前定变量的要求而得到一致估计量。
tptqtp二、异方差与自相关检验在球型扰动项的假定下,2SLS是最有效的。
但如果扰动项存在异方差或自相关,面板异方差检验:xtgls enc invs exp imp esc mrl,igls panel(het)estimates store heteroxtgls enc invs exp imp esc mrl,iglsestimates store homolocal df = e(N_g) - 1lrtest hetero homo, df(`df')面板自相关:xtserial enc invs exp imp esc mrl则存在一种更有效的方法,即GMM。
1© 陈强,《高级计量经济学及Stata 应用》课件,第二版,2014年,高等教育出版社。
第10章 工具变量,2SLS 与GMM10.1 解释变量与扰动项相关的例子例 农产品市场均衡模型0101()()()d t t t st t td st t q p u q p v q q ααββ⎧=++⎪=++⎨⎪=⎩需求供给均衡2令d s t t t q q q ≡=,可得0101t t tt t tq p u q p v ααββ=++=++⎧⎨⎩两个方程中的被解释变量与解释变量完全一样。
如直接作回归OLSt t q p −−−→,估计的是需求函数还是供给函数?3图10.1 需求与供给决定市场均衡4把线性方程组中的(,)t t p q 看成是未知数(内生变量),把(,)t t u v 看作已知,可求解(,)t t p q 为(,)t t u v 的函数:0011111001111111(,)(,)t t t t t t t tt t t t v u p p u v v u q q u v βααβαβαβαβαβαβαβ--⎧==+⎪--⎪⎨--⎪==+⎪--⎩由于t p 为(,)t t u v 的函数,故Cov(,)0t t p u ≠,Cov(,)0t t p v ≠。
OLS 估计值11ˆˆ,αβ不是11,αβ的一致估计量。
称这种偏差为“联立方程偏差”(simultaneity bias)或“内生变量偏差”(endogeneity bias)。
5如能将内生变量分成两部分,一部分与扰动项相关,另一部分与扰动项不相关,可用与扰动项不相关的那部分得到一致估计。
这种分离常借助另一“工具变量”来实现。
假设在图10.1中,存在某个因素(变量)使得供给曲线经常移动,而需求曲线基本不动,则可估计需求曲线,参见图10.2。
这个使得供给曲线移动的变量就是工具变量。
假设供给方程的扰动项可分解为两部分,即可观测的气温t x 与不可观测的其他因素:012s t t t t q p x v βββ=+++6图10.2 稳定的需求与变动的供给7假定气温t x 是前定变量,与两个扰动项都不相关,即Cov(,)0t t x u =,Cov(,)0t t x v =。
IV和GMM相关估计步骤,内⽣性、异⽅差性…⼯具变量和⼴义矩估计相关步骤⼀、解释变量内⽣性检验⾸先检验解释变量内⽣性(解释变量内⽣性的Hausman 检验:使⽤⼯具变量法的前提是存在内⽣解释变量。
Hausman 检验的原假设为:所有解释变量均为外⽣变量,如果拒绝,则认为存在内⽣解释变量,要⽤IV;反之,如果接受,则认为不存在内⽣解释变量,应该使⽤OLS。
reg ldi lofdiest imat es st ore olsxt ivreg ldi (lofdi=l.lofdi ldep lexr)est imat es st ore ivhausman iv ols(在⾯板数据中使⽤⼯具变量,St at a提供了如下命令来执⾏2SLS:xt ivreg depvar [varlist1] (varlist_2=varlist_iv) (选择项可以为fe,re等,表示固定效应、随机效应等。
详⻅help xt ivreg)如果存在内⽣解释变量,则应该选⽤⼯具变量,⼯具变量个数不少于⽅程中内⽣解释变量的个数。
“恰好识别”时⽤2SLS。
2SLS的实质是把内⽣解释变量分成两部分,即由⼯具变量所造成的外⽣的变动部分,以及与扰动项相关的其他部分;然后,把被解释变量对中的这个外⽣部分进⾏回归,从⽽满⾜OLS前定变量的要求⽽得到⼀致估计量。
⼆、异⽅差与⾃相关检验在球型扰动项的假定下,2SLS是最有效的。
但如果扰动项存在异⽅差或⾃相关,⾯板异⽅差检验:xt gls enc invs exp imp esc mrl,igls panel(het)est imat es st ore het eroxt gls enc invs exp imp esc mrl,iglsest imat es st ore homolocal df = e(N_g) - 1lrt est het ero homo, df(`df')⾯板⾃相关:xt serial enc invs exp imp esc mrl则存在⼀种更有效的⽅法,即GMM。
GMM估计分析步骤及结果解读GMM估计是⽤于解决内⽣性问题的⼀种⽅法,除此之外还有TSLS两阶段最⼩⼆乘回归。
如果存在异⽅差则GMM的效率会优于TSLS,但通常情况下⼆者结论表现⼀致,很多时候研究者会认为数据或多或少存在异⽅差问题,因⽽可直接使⽤GMM估计。
内⽣变量是指与误差项相关的解释变量。
对应还有⼀个术语叫'外⽣变量’,其指与误差项不相关的解释变量。
产⽣内⽣性的原因通常在三类,分别说明如下:内⽣性问题的判断上,通常是使⽤Durbin-Wu-Hausman检验(SPSSAU在两阶段最⼩⼆乘回归结果中默认输出),当然很多时候会结合⾃⾝理论知识和直观专业性判断是否存在内⽣性问题。
如果假定存在内⽣性问题时,直接使⽤两阶段最⼩⼆乘回归或者GMM估计即可。
⼀般不建议完全依照检验进⾏判断是否存在内⽣性,结合检验和专业理论知识综合判断较为可取。
内⽣性问题的解决上,通常使⽤⼯具变量法,其基本思想在于选取这样⼀类变量(⼯具变量),它们的特征为:⼯具变量与内⽣变量有着相关(如果相关性很低则称为弱⼯具变量),但是⼯具变量与被解释变量基本没有相关关系。
寻找适合的⼯具变量是⼀件困难的事情,解决内⽣性问题时,⼤量的⼯作⽤于寻找适合的⼯具变量。
关于引⼊⼯具变量的个数上,有如下说明:过度识别和恰好识别是可以接受的,但不可识别这种情况⽆法进⾏建模,似想⽤⼀个⼯具变量去标识两个内⽣变量,这是不可以的。
⼯具变量引⼊时,有时还需要对⼯具变量外⽣性进⾏检验(过度识别检验),针对⼯具变量外⽣性检验上,SPSSAU提供Hansen J检验。
特别提⽰,只有过度识别时才会输出此两个检验指标。
GMM估计类型参数说明如下:案例说明本案例引⼊Mincer(1958)关于⼯资与受教育年限研究的数据。
案例数据中包括以下信息,如下表格:数据共有12项,其中编号为1,5,7,8,12共五项并不在考虑范畴。
本案例研究'受教育年限’对于'Ln⼯资’的影响。
工具变量法2SLS与GMM1第 10 章工具变量,2SLS 与 GMM10.1 解释变量与扰动项相关的例子例农产品市场均衡模型q d = α + α p + u (需求)t 0 1 t t ? q s = β + β p + v(供给) t ? q d 0 1 t t = q s(均衡)tt令q ≡q d=q s,可得t t tq t =α0+α1 p t +u tq =β+βp +vt 0 1 t t两个方程中的被解释变量与解释变量完全一样。
如直接作回归q ?O?LS?→p,估计的是需求函数还是供给函数?t t2图10.1 需求与供给决定市场均衡341 1 1 11 1把线性方程组中的( p t , q t )看成是未知数(内生变量),把(u t , v t ) 看作已知,可求解( p t , q t )为(u t , v t ) 的函数:p = p (u ,v ) = β0 - α0 + v t - u t ? t t t t α - β α - β ? 1 1 1 1 ?q = q (u ,v ) = α1β0 - α0 β1 + α1v t - β1u t ?? t t t t α - β α - β由于 p t 为(u t , v t ) 的函数,故Cov( p t , u t ) ≠ 0,Cov( p t , v t ) ≠ 0。
OLS 估计值α?1, β? 不是α , β 的一致估计量。
称这种偏差为“联立方程偏差”(simultaneity bias)或“内生变量偏差”(endogen eity bias)。
1如能将内生变量分成两部分,一部分与扰动项相关,另一部分与扰动项不相关,可用与扰动项不相关的那部分得到一致估计。
这种分离常借助另一“工具变量”来实现。
假设在图10.1 中,存在某个因素(变量)使得供给曲线经常移动,而需求曲线基本不动,则可估计需求曲线,参见图10.2。
这个使得供给曲线移动的变量就是工具变量。
内生性和工具变量法从最根本的定义来说,内生外生首先是取决于系统的,在一个系统内部决定的变量,自然就是内生变量,在系统决定的变量,就是外生变量。
比如,给一个系统,比如地球,那么当前情况下地球上一切可以统计的变量都是内生变量,但是阳光就是外生变量。
那么如果以太阳系为研究的系统,那么自然,阳光此时也是内生变量了。
这样说内生性外生性似乎很容易理解,但是涉及到经济问题似乎不是那么好办了,因为经济系统中,所有的变量很难说是完全独立的,比如货币发行量,似乎是央行决定,按理说是外生的吧,但是慢着,央行的货币不是随便发的,也是因为有经济体有需求才会向社会发行货币,这个就是货币外生和货币内生的讨论,研究的文章有很多。
还是先说外生性吧,Leamer定义,如果y对x的条件分布(这个就是给出x 值,对应随机变量y)不随x的生成过程的修正而发生变化,那么x就是外生变量。
外生性似乎还是可以分为两类,前定性(前定变量是指独立于方程中同期和未来误差项的变量),严格外生(严格外生变量是指独立于方程中所有同期、未来,和过去误差项的变量)。
依照这个定义,我什么也看不出来,倒是可以从CLRM假定cov(Ut,Xt)≠0情况考虑。
既然cov(Ut,Xt)≠0可以叫成内生性,那么cov(Ut,Xt)=0大概可以叫外生变量了吧。
chris的书前面把这个假定强化为X是非随机变量,当显然这一假定是靠不住的,X更多情况下是随机变量。
这里涉及到前面曾经困惑的一个概率,随机解释变量,随机解释变量就是说解释变量是随机的,原因根据我的思考总结,大概是这两类,1.观测值存在误差2.根据Y=α+θX+μ,如果Y能影响X,由于Y是随机的,自然X也就带有随机性了。
随机解释变量容易带来内生性的问题,但却也不是必然,比如X是随机解释变量,但是X和u是独立的,也就是说cov(Ut,Xt)=0的时候,是不违背CLRM 假设的。
其实到这里,我们讨论的一切,什么内生性,自相关,异方差,这些为什么要讨论呢,就是因为我们经常用OLS模型进行估计,而CLRM的五个假定就是为了使得OLS的估计具有一致性,无偏性,有效性。
IV和GMM相关估计步骤,内生性、异方差性等检验方法工具变量和广义矩估计相关步骤一、解释变量内生性检验首先检验解释变量内生性(解释变量内生性的Hausman 检验:使用工具变量法的前提是存在内生解释变量。
Hausman 检验的原假设为:所有解释变量均为外生变量,如果拒绝,则认为存在内生解释变量,要用IV;反之,如果接受,则认为不存在内生解释变量,应该使用OLS。
reg ldi lofdiestimates store olsxtivreg ldi (lofdi=l.lofdi ldep lexr)estimates store ivhausman iv ols(在面板数据中使用工具变量,Stata提供了如下命令来执行2SLS:xtivreg depvar [varlist1] (varlist_2=varlist_iv) (选择项可以为fe,re等,表示固定效应、随机效应等。
详见help xtivreg)如果存在内生解释变量,则应该选用工具变量,工具变量个数不少于方程中内生解释变量的个数。
“恰好识别”时用2SLS。
2SLS的实质是把内生解释变量分成两部分,即由工具变量所造成的外生的变动部分,以及与扰动项相关的其他部分;然后,把被解释变量对中的这个外生部分进行回归,从而满足OLS前定变量的要求而得到一致估计量。
二、异方差与自相关检验在球型扰动项的假定下,2SLS是最有效的。
但如果扰动项存在异方差或自相关,面板异方差检验:xtgls enc invs exp imp esc mrl,igls panel(het)estimates store heteroxtgls enc invs exp imp esc mrl,iglsestimates store homolocal df = e(N_g) - 1lrtest hetero homo, df(`df')面板自相关:xtserial enc invs exp imp esc mrl则存在一种更有效的方法,即GMM。
工具变量法 GMM估计1 OverviewModel过程可以分析线性、非线性(对参数或者对变量)的单方程和方程组。
使用的估计方法有:OLS, 2SLS, SUR, ITSUR, 3SLS, IT3SLS,GMM ,FIML。
MODEL过程分析的模型如下:这里,Y是内生变量,X是外生变量,TEHTA是参数。
观测到的变量要么是内生变量,要么是外生变量。
上面的方程组可以简写为:这个形式称为一般形式。
还可以写成标准形式:标准形式把内生变量放在方程的一边。
两种形式的方程(组)都可以使用MODEL过程估计。
经常用当前外生变量、滞后的外生变量、滞后的内生变量来解释当前内生变量。
这就构成了一个动态模型。
滞后变量不论内生还是外生都看作外生变量。
以上并不要求扰动项独立同分布。
自相关、异方差甚至不同的分布都有可能。
对于异方差可以使用加权估计,GARCH模型也可以修正异方差。
如果难以确定异方差的来源和形式,难以确定权重变量的话,可以使用GMM方法得到比OLS方法更加有效的估计。
方程组一个常见的问题就是联立偏倚。
考虑:这个方程组对参数是非线性的,不能使用线性回归估计。
同时这里Y1和Y2是同时决定的,普通非线性最小二乘方法的结果也是有偏和非一致的。
这称为联立性偏倚。
在线性模型中,处理联立性偏倚的可以把出现在方程右边的内生变量换成其预测值。
预测值与扰动项无关从而消除了联立性偏倚。
预测值是通过工具变量法估计得到的,这称为第一步回归。
利用预测值进行第二次回归称为两段最小二乘。
在非线性模型中,使用线性近似,把非线性方程组线性化后使用工具变量法,反复迭代。
在方程组中,方程之间的扰动项可能相关。
对于大样本情况,可以使用系统方法考虑到方程内和方程之间关系得到更有效的估计。
如果不存在联立性问题,即不存在内生变量作为解释变量的话,可以使用SUR估计。
SUR方法需要估计方程之间扰动项的协方差矩阵∑。
估计步骤为先使用OLS估计方程组,从残差得到∧∑,然后使用SUR。
GMM的stata操作步骤广义矩估计(Generalized Method of Moments,即GMM)一、解释变量内生性检验首先检验解释变量内生性(解释变量内生性的Hausman 检验:使用工具变量法的前提是存在内生解释变量。
Hausman 检验的原假设为:所有解释变量均为外生变量,如果拒绝,则认为存在内生解释变量,要用IV;反之,如果接受,则认为不存在内生解释变量,应该使用OLS。
reg ldi lofdi estimates store ols xtivreg ldi (lofdi=l.lofdi ldep lexr) estimates store iv hausman iv ols (在面板数据中使用工具变量,Stata 提供了如下命令来执行2SLS:xtivreg depvar [varlist1] (varlist_2=varlist_iv) (选择项可以为fe,re 等,表示固定效应、随机效应等。
详见help xtivreg)如果存在内生解释变量,则应该选用工具变量,工具变量个数不少于方程中内生解释变量的个数。
“恰好识别”时用2SLS。
2SLS 的实质是把内生解释变量分成两部分,即由工具变量所造成的外生的变动部分,以及与扰动项相关的其他部分;然后,把被解释变量对中的这个外生部分进行回归,从而满足OLS 前定变量的要求而得到一致估计量。
t p t q t p 二、异方差与自相关检验在球型扰动项的假定下,2SLS 是最有效的。
但如果扰动项存在异方差或自相关,面板异方差检验:xtgls enc invs exp imp esc mrl,igls panel(het) estimates store hetero xtgls enc invs exp imp esc mrl,igls estimates store homo local df = e(N_g) - 1 lrtest hetero homo, df(`df') 面板自相关:xtserial enc invs exp imp esc mrl 则存在一种更有效的方法,即GMM。
统计计量内生性与工具变量,你不可不知的9个问题汇总本文转载自公众号经管学苑来源:网络计量经济学中,线性回归模型的本意是给定x值,然后预测(或估计)y的条件均值。
在给定的x值下,y值可能忽高忽低(即y是随机变量),其变化程度也可大可小(即y有方差),但其条件均值是可以通过回归方法来估计的。
至于y的条件方差,在只有一个固定的x 值下是无法估计的(在重复测量样本下也许可以做到,因为这时有多个固定相同的x值),所以只好简单地假设对于任何给定的x,y的条件方差都是一样的(即同方差假设),此时才可以通过多个样本点来估计一个相同的方差,然后进行各种t检验、f检验。
通俗一点说,回归的思想就是先抓住x,然后观察y将如何变化。
比如说居民收入r与消费c,先抓住1000元收入水平的消费群体,然后看他们将如何消费,c|1000是条件随机变量(当然,实际数据中1000元水平的观测可能只有一个);然后再抓住1500元收入水平的群体,再看他们将如何消费,依次类推。
一般来说,随着收入增长,消费的条件均值将同步增长,此时回归关系成立。
但是,令我们苦恼的是,实际中很有可能是“无法抓住x”的,因为x在变,y也在变,然后y的变化又影响到了x,所以我们观测到的结果,很有可能是x与y相互影响的结果;通俗一点说,就是x已经与y纠缠到了一起,你哪里还能辨清哪是x,哪是y?比如说收入与消费,可以说赚得多,花得也多,但钱花完了,又得想办法去多赚点,这时收入与消费是相互影响的,你是无法'按住x'的。
因为等你'按住x'了,去观察y,y的变动回过头来又造成了x的变化,你转身一看,坏了,x已经不是原来那个x了,它已经变了!这个相互影响的过程,你是观测不到的,你观测到的只是结果。
所以在你观测到实际数据的时候,x已经不是本来的x,x中混杂了y的信息。
既然x已经不是本来意义上的x,你又如何去估计它对Y的真实影响?这就是我们通常所说的联立性偏误(simultaneity bias),即x与y是同时变动的。
内生性与工具变量估计方法一 一元模型的IV 估计采用MROZ 数据,进行练习。
估计教育对工资收入的回报:01log()wage educ ββμ=++为了便于比较首先得到OLS 估计结果,在命令窗口输入smpl 1 428equation eq01.ls log(wage) c educ教育的系数估计值表明,每多接受一年教育可得到月11%的回报。
接下来,我们用父亲的受教育程度(fatheduc )作为educ 的工具变量。
我们必须认为fatheduc 与u 不相关;第二个要求是educ 与fatheduc 相关。
为了验证第二点,作一个educ 对fatheduc 的回归。
equation eq02.ls educ c fatheduc可以看出,educ 与fatheduc 之间存在统计显著的正相关。
采用fatheduc 作为educ 的工具变量,进行工具变量回归。
equation eq03.tsls log(wage) c educ @ fatheducIV 估计量的标准误是OLS 标准误的2.5倍,这在我们的意料之中。
二 多元模型的IV 估计 采用card 数据,进行练习。
估计教育对工资收入的回报:012log()var wage educ Control iables βββμ=+++为了便于对照,先做OLS 回归 Smpl 1 3010Equation eq01.ls log(wage) c educ exper expersq black smsa south smsa66 reg662 reg663 reg664 reg665 reg666 reg667 reg668 reg669在这个例子中,受教育程度的工具变量是标志着一个人是否在一所四年制大学附近成长的虚拟变量(nearc4)。
为了验证受教育程度与该虚拟变量的偏相关性,先做educ对nearc4以及其他所有外生变量的回归:Equation eq02.ls educ c nearc4 exper expersq black smsa south smsa66 reg662 reg663 reg664 reg665 reg666 reg667 reg668 reg669Nearc4的系数估计值意味着,在其他因素固定的情况下,曾住在大学附近的人所受的教育比不在大学附近长大的人平均多出约1/3年。