工具变量(IV):估计与检验
- 格式:ppt
- 大小:2.48 MB
- 文档页数:140
1.一般最小二乘法(Ordinary Least Squares,OLS):已知一组样本观测值{}n i Y X i i ,2,1:),(⋯=,一般最小二乘法要求样本回来函数尽可以好地拟合这组值,即样本回来线上的点∧i Y 及真实观测点Yt 的“总体误差”尽可能地小。
一般最小二乘法给出的推断标准是:被说明变量的估计值及实际观测值之差的平方和最小。
2.广义最小二乘法GLS :加权最小二乘法具有比一般最小二乘法更普遍的意义,或者说一般最小二乘法只是加权最小二乘法中权恒取1时的一种特别状况。
从今意义看,加权最小二乘法也称为广义最小二乘法。
3.加权最小二乘法WLS :加权最小二乘法是对原模型加权,使之变成一个新的不存在异方差性的模型,然后采纳一般最小二乘法估计其参数。
4.工具变量法IV :工具变量法是克服说明变量及随机干扰项相关影响的一种参数估计方法。
5.两阶段最小二乘法2SLS, Two Stage Least Squares :两阶段最小二乘法是一种既适用于恰好识别的结构方程,以适用于过度识别的结构方程的单方程估计方法。
6.间接最小二乘法ILS :间接最小二乘法是先对关于内生说明变量的简化式方程采纳一般小最二乘法估计简化式参数,得到简化式参数估计量,然后过通参数关系体系,计算得到结构式参数的估计量的一种方法。
7.异方差性Heteroskedasticity :对于不同的样本点,随机干扰项的方差不再是常数,而是互不相同,则认为出现了异方差性。
8.序列相关性Serial Correlation :多元线性回来模型的基本假设之一是模型的随机干扰项相互独立或不相关。
假如模型的随机干扰项违反了相互独立的基本假设,称为存在序列相关性。
9.多重共线性Multicollinearity :对于模型i k i i X X X Y μββββ++⋯+++=i k 22110i ,其基本假设之一是说明变量X 1,X 2,…,Xk 是相互独立的。
IV和GMM相关估计步骤,内⽣性、异⽅差性…⼯具变量和⼴义矩估计相关步骤⼀、解释变量内⽣性检验⾸先检验解释变量内⽣性(解释变量内⽣性的Hausman 检验:使⽤⼯具变量法的前提是存在内⽣解释变量。
Hausman 检验的原假设为:所有解释变量均为外⽣变量,如果拒绝,则认为存在内⽣解释变量,要⽤IV;反之,如果接受,则认为不存在内⽣解释变量,应该使⽤OLS。
reg ldi lofdiest imat es st ore olsxt ivreg ldi (lofdi=l.lofdi ldep lexr)est imat es st ore ivhausman iv ols(在⾯板数据中使⽤⼯具变量,St at a提供了如下命令来执⾏2SLS:xt ivreg depvar [varlist1] (varlist_2=varlist_iv) (选择项可以为fe,re等,表示固定效应、随机效应等。
详⻅help xt ivreg)如果存在内⽣解释变量,则应该选⽤⼯具变量,⼯具变量个数不少于⽅程中内⽣解释变量的个数。
“恰好识别”时⽤2SLS。
2SLS的实质是把内⽣解释变量分成两部分,即由⼯具变量所造成的外⽣的变动部分,以及与扰动项相关的其他部分;然后,把被解释变量对中的这个外⽣部分进⾏回归,从⽽满⾜OLS前定变量的要求⽽得到⼀致估计量。
⼆、异⽅差与⾃相关检验在球型扰动项的假定下,2SLS是最有效的。
但如果扰动项存在异⽅差或⾃相关,⾯板异⽅差检验:xt gls enc invs exp imp esc mrl,igls panel(het)est imat es st ore het eroxt gls enc invs exp imp esc mrl,iglsest imat es st ore homolocal df = e(N_g) - 1lrt est het ero homo, df(`df')⾯板⾃相关:xt serial enc invs exp imp esc mrl则存在⼀种更有效的⽅法,即GMM。
工具变量的检验方法
工具变量的检验方法主要包括以下几种:
1. 过度识别检验:过度识别检验是一种常用的工具变量检验方法,用于检验工具变量是否有效。
该检验方法通过比较工具变量的拟合优度与其他解释变量的拟合优度,如果工具变量的拟合优度显著高于其他解释变量,则说明工具变量是有效的。
2. 弱工具变量检验:弱工具变量检验是一种用于检验工具变量是否具有足够的解释能力的方法。
该检验方法通过比较工具变量与其他解释变量的相关性,如果工具变量与其他解释变量的相关性较低,则说明工具变量是弱工具变量,可能无法有效地解释被解释变量。
3. 不可识别检验:不可识别检验是一种用于检验工具变量是否可以识别出模型中的参数的方法。
该检验方法通过比较工具变量与其他解释变量的系数,如果工具变量的系数不显著,则说明工具变量无法识别出模型中的参数。
4. 稳健性检验:稳健性检验是一种用于检验工具变量是否稳健的方法。
该检验方法通过比较不同工具变量的估计结果,如果估计结果在不同工具变量下具有相似性,则说明工具变量是稳健的。
这些检验方法可以帮助研究者确定工具变量是否有效,并提高研究结果的可信度。
在使用工具变量方法时,需要根据具体情况选择合适的检验方法,并结合实际数据进行分析和判断。
工具变量法代码工具变量法(Instrumental Variables,简称IV)是一种常用的估计因果效应的方法。
它主要针对的是存在内生性问题的经济学模型,如回归分析中的自变量与误差项存在相关关系。
下文将介绍工具变量法的基本原理,以及其在实践中的使用方法和代码实现。
一、基本原理工具变量法的基本思想是利用一个或多个与内生性自变量相关但不受误差项影响的外生性变量(即工具变量)来代替内生性自变量,在保证模型符合经济学意义的前提下,得到更精确的因果效应估计。
具体来说,对于回归模型:y = α + βx + u其中,x为内生性自变量,u为误差项,我们考虑引入一个外生变量z作为工具变量,那么可以构建如下两个求解方程:x = δ + ρz + vy = α + β(δ + ρz + v) + u其中,δ和ρ是未知的系数。
第一个方程是用工具变量估计内生性自变量的回归式,第二个方程则是运用估计出的内生性自变量对y进行回归。
对于外生性工具变量z,我们可以假定它只会通过自变量x对y产生影响,而不会通过误差项u对y产生影响,即:Cov(z,u) = 0而通过IV估计,我们可以得到内生性自变量x在z上的部分效应(partial effect),从而得出因果效应的估计。
二、实践应用在实践中,工具变量法常常被用来研究各种经济学问题。
例如,研究教育水平对收入的影响、研究医疗保险对医疗消费的影响等。
下面以一个简单的例子来说明如何使用工具变量法。
假设我们想研究家庭收入对孩子的大学入学率的影响,但是我们发现家庭收入存在内生性问题,因为它与其他一些难以观测的因素(如家庭背景、社会阶层等)存在相关关系。
我们考虑使用父母的教育水平和收入作为工具变量,来估计家庭收入与大学入学率之间的因果关系。
代码实现在工具变量法的实现中,常常需要用到Python中的statsmodels(回归模型和统计测试)和pandas(数据处理)两个库。
我们假设有如下数据集:- family_income:家庭收入(千元) - education:父母教育水平(0-未受过教育,1-小学,2-初中,3-高中,4-大学) - college:是否考入本科(0-否,1-是)- random_var:随机变量,用于混淆我们首先看一下家庭收入与大学入学率是否存在内生性问题,可以通过构建回归模型来检验:import statsmodels.api as sm import pandas as pddf = pd.read_csv('data.csv')x = df[['family_income']] y = df[['college']] x = sm.add_constant(x) results = sm.OLS(y, x).fit() print(results.summary())运行上述代码后,我们可以得到回归模型的结果,其中P值可以判断内生性是否显著。
实证研究中常见的5种工具变量(好用)/ 工具变量(instrumental variable)是社会科学定量分析中解决内生性问题的重要手段,是基于调查数据进行因果推断的前沿方法。
本文在简要介绍工具变量的定义、原理及估算方法的基础上,对实证分析中较为常见的五类工具变量进行回顾梳理,为今后研究寻找工具变量提供了参考。
同时,对工具变量估计量的权重性特征进行了阐述,并结合实例展示了使用工具变量进行因果推断的基本步骤和要点。
最后,就工具变量方法的潜力和局限性进行了剖析。
因果推断的圣杯在反事实因果的框架之下,基于调查数据的社会学定量分析要进行因果推断,难度极大。
其主要原因在于,社会学家一旦要证明某个他们所感兴趣的“因”会带来一定的“果”,就必须面对一个永恒挑战:“内生性”问题( endogeneity) 。
也即: 如果某个潜在的、无法观测的干扰项,既影响“因”,又影响“果”,那么,利用最小二乘法模型( 简称OLS模型) 进行回归分析所得到的估计量就会是有偏误的,而不具有因果推断力。
在实证分析中,无论是经典的教育回报研究( Card,1999),还是我国学界非常关注的关系网、社会资本研究( Mouw, 2003, 2006; 陈云松、范晓光,2010,2011) ,内生性问题都极为重要且亟待解决。
解决内生性问题的常见方法,主要包括工具变量( instrumental variable,简称IV) 、固定效应模型( fixed effects model,简称FE) 、倾向值匹配( propensity score matching,简称PSM) 、实验以及准实验( experimentsand quasi-experiments) 等等。
近年来,其中不少方法已经逐步在我国社会学界得到评述和应用( 梁玉成, 2010; 陈云松、范晓光, 2010, 2011; 陈云松, 2012; 胡安宁,2012; 魏万青,2012) 。
IV和GMM相关估计步骤,内生性、异方差性等检验方法工具变量和广义矩估计相关步骤一、解释变量内生性检验首先检验解释变量内生性(解释变量内生性的Hausman 检验:使用工具变量法的前提是存在内生解释变量。
Hausman 检验的原假设为:所有解释变量均为外生变量,如果拒绝,则认为存在内生解释变量,要用IV;反之,如果接受,则认为不存在内生解释变量,应该使用OLS。
reg ldi lofdiestimates store olsxtivreg ldi (lofdi=l.lofdi ldep lexr)estimates store ivhausman iv ols(在面板数据中使用工具变量,Stata提供了如下命令来执行2SLS:xtivreg depvar [varlist1] (varlist_2=varlist_iv) (选择项可以为fe,re等,表示固定效应、随机效应等。
详见help xtivreg)如果存在内生解释变量,则应该选用工具变量,工具变量个数不少于方程中内生解释变量的个数。
“恰好识别”时用2SLS。
2SLS的实质是把内生解释变量分成两部分,即由工具变量所造成的外生的变动部分,以及与扰动项相关的其他部分;然后,把被解释变量对中的这个外生部分进行回归,从而满足OLS前定变量的要求而得到一致估计量。
二、异方差与自相关检验在球型扰动项的假定下,2SLS是最有效的。
但如果扰动项存在异方差或自相关,面板异方差检验:xtgls enc invs exp imp esc mrl,igls panel(het)estimates store heteroxtgls enc invs exp imp esc mrl,iglsestimates store homolocal df = e(N_g) - 1lrtest hetero homo, df(`df')面板自相关:xtserial enc invs exp imp esc mrl则存在一种更有效的方法,即GMM。
工具变量法工具变量法具体步骤工具变量法目录概念某一个变量与模型随机解释变量高度相关,但却不与为丛藓科扭口藓项相关,那么就可以用此变量与模型中相应回归系数的一个一致估计量,这个变量就称为方法变量,这种估计方法就叫工具基本原理变量法。
缺点工具变量法的关键是选择一个有效的优先选择工具变量,由于工具自变量变量可以选择中的困难,工具变量法本身存在两方面不足:一是由于工具变量不是惟一的,因而工具变量估计量有一定的任意性;其二由于误差项实际上是不可观测的,因而要寻找严格意义上与误差项无关的与所替代而随机解释变量高度相关的变量总的来说事实上是困难的。
工具变量法与内生解释变量可持续性解释变量会造成解读严重的后果:不一致性inconstent 和有偏biased ,因为频域不满足误差以解释线性为条件的期望值为0。
产生解释变量招盛纯一般有三个原因:一、遗漏变量二、测量误差三、联立性第三种情况是无法逐步解决的,前两种可以采用工具变量(IV )法。
IV 会带来的唯一坏处是估计方差的增大,也就是说同时采用OLS 和IV 估计,则前者的方差小于后者。
但IV 的应用是有前提条件的:1.IV 与内生解释函数相关,2.IV 与u 不相关。
在小样本情况下,一般用内生解释变量对IV 进行回归,如果R -sq 值很小的话,一般t值也很小,所以对IV 质量的评价没有大的风险问题,但是当采用大样本时,情况则相反,往往是t 值很大,而R -sq 很小,这时如果采用t 值进行关键问题评价则可能出现出现问题。
这时IV 与内生解释变量之间的若干程度不是阐释太大,但是如果与u 之间有轻微的相关机构的话,则:1、导致很小的不一致性;2、有偏性,并且这种有偏性随着R -sq趋于0而趋于OLS 的有偏性。
所以现在在采用IV 时最好采用R -sq 或F -sta 作为评价标准,另外为了观测IV 与u 的关系,可以将IV 作为解释变量放入方程进行回归,如果没有其他的系数没有多的变化,则说明IV 满足第二个条件。
工具变量的选择与识别问题工具变量(Instrumental Variable, IV)是经济学中常用的一种方法,用于解决内生性(endogeneity)问题。
内生性是指模型中某个解释变量与误差项相关,可能导致估计结果出现偏误。
工具变量方法通过引入外生变量作为工具变量,可以解决内生性问题,并得到一致性的估计结果。
在进行工具变量的选择与识别时,有几个重要的问题需要考虑。
一、合理性与相关性选择工具变量应具备两个基本特征:合理性和相关性。
合理性指工具变量与内生变量之间存在着某种因果关系,可以被理论机制所支持。
例如,研究教育对收入的影响时,一个合理的工具变量可以是家族教育背景,因为家族教育背景会影响个体的受教育水平。
相关性意味着工具变量能够与内生变量相关,但与误差项不相关。
只有具备这两个特点的变量才能成为有效的工具变量。
二、工具变量的强性工具变量的强性是指工具变量与内生变量的相关性的强度。
如果工具变量与内生变量的相关性很弱,那么工具变量的有效性会大打折扣。
在选择工具变量时,应该优先选择那些与内生变量相关性较强的变量。
三、工具变量的外生性工具变量应该是外生变量,即不受模型中其他变量的影响。
如果工具变量自身受到内生变量的影响,那么它就不再是一个有效的工具变量。
使用一些仪器变量检验方法,例如Hausman检验或者Durbin-Wu-Hausman检验,可以用来检验工具变量的外生性。
四、工具变量与内生性工具变量方法可以用来处理单一内生性问题,也可以扩展到多重内生性问题。
对于单一内生性问题,只需要找到一个有效的工具变量即可。
但对于多重内生性问题,需要选择一组相关性较强且不相关的工具变量,以确保工具变量的有效性。
总之,在选择和识别工具变量时,需要考虑工具变量的合理性、相关性、强性和外生性。
通过合理选择和识别有效的工具变量,可以消除内生性问题,得到具有一致性和有效性的估计结果。
工具变量法的选取标准的案例工具变量法(Instrumental Variable, IV)是一种解决内生性问题的方法,它的核心思想是通过引入一个与内生变量相关但与被解释变量无关的工具变量,来估计内生变量对被解释变量的影响。
在使用工具变量法时,选择合适的工具变量非常重要。
下面将以研究教育对经济增长的影响为例,说明工具变量法的选取标准。
一般来说,工具变量要满足两个条件。
首先,工具变量必须与内生变量有相关性,这意味着工具变量对内生变量有预测能力。
其次,工具变量不能与被解释变量相关,否则就无法将工具变量作为一个独立的回归方程中的解释变量。
综合这两个条件,我们可以从实证研究和经济理论中寻找合适的工具变量。
在研究教育对经济增长的影响时,内生变量是教育水平,被解释变量是经济增长率。
教育水平可能受到家庭背景、文化传统等因素的影响,同时教育水平对经济增长也会产生影响,形成一个内生性问题。
为了解决内生性问题,可以选择投入的教育资源作为工具变量,因为教育资源与教育水平有一定的相关性。
具体来说,可以选择教育资源的投入水平作为工具变量。
教育资源的投入水平包括教师数量、教育经费等。
这些变量与教育水平有较强的相关性,教育资源的投入水平较高意味着教育水平较高。
然而,教育资源的投入水平对经济增长的影响应该是通过教育水平来实现的,而与经济增长本身无关。
因此,教育资源的投入水平可以被看作一个符合工具变量的要求的变量,被用来估计教育水平对经济增长的影响。
总之,工具变量法是解决内生性问题的一种有效方法。
在选择工具变量时,需要选择与内生变量有相关性但与被解释变量无关的变量,并进行相关性和合理性检验。
从实证研究和经济理论中寻找合适的工具变量是确保工具变量法有效性的关键步骤。
在研究教育对经济增长的影响时,教育资源的投入水平可以作为一个合理的工具变量,用来解决教育水平的内生性问题。