第15章 工具变量与两阶段最小二乘
- 格式:doc
- 大小:1.10 MB
- 文档页数:34
第15章 工具变量估计与两阶段最小二乘法在本章中,我们进一步研究多元回归模型中的内生解释变量(endogenous explanatory variable )问题。
在第3章中,我们推导出,遗漏一个重要变量时OLS 估计量的偏误;在第5章中,我们说明了在遗漏变量(omitted variable )的情况下,OLS 通常是非一致性的。
第9章则证明了,对未观测到的解释变量给出适宜的代理变量,能消除(或至少减轻)遗漏变量偏误。
不幸的是,我们不是总能得到适宜的代理变量。
在前两章中,我们解释了存在不随时间变化的遗漏变量的情况下,对综列数据如何用固定效应估计或一阶差分来估计随时间变化的自变量的影响。
尽管这些方法非常有用,可我们不是总能获得综列数据的。
即使能获得,如果我们的兴趣在于变量的影响,而该变量不随时间变化,它对于我们也几无用处:一阶差分或固定效应估计排除了不随时间变化的变量。
此外,迄今为止我们已研究出的综列数据法还不能解决与解释变量相关的随时间而变化的遗漏变量的问题。
在本章中,我们对内生性问题采用了一个不同的方法。
你将看到如何用工具变量法(IV )来解决一个或多个解释变量的内生性问题。
就应用计量经济学中线性方程的估计而言,两阶段最小二乘法(2SLS 或TSLS )是第二受人欢迎的,仅次于普通最小二乘。
我们一开始先说明,在存在遗漏变量的情况下,如何用IV 法来获得一致性估计量。
此外,IV 能用于解决含误差变量(errors-in-variable )的问题,至少是在某些假定下。
下一章将证明运用IV 法如何估计联立方程模型。
我们对工具变量估计的论述严格遵照我们在第1篇中对普通最小二乘的推导,其中假定我们有一个来自基本总体的随机样本。
这个起点很合人意,因为除了简化符号之外,它还强调了应根据基本总体来表述对IV 估计所做的重要的假定(正如用OLS 时一样)。
如我们在第2篇中所示,OLS 可以应用于时间序列数据,而工具变量法也一样可以。
两阶段最小二乘法步骤
两阶段最小二乘法是一种分离策略,将内生变量分离为可以被工具变量线性表出的部分,以及随机干扰部分。
其具体步骤如下:
1. 第一阶段:让工具变量z对内生x进行回归,得到估计值$x^$。
2. 第二阶段:利用$x^$对y做回归,得到系数估计值。
这种方法通过将估计分成两个步骤(阶段)回归,因此得名“两阶段最小二乘法”。
对于联立方程组,可以采用三阶段最小二乘法。
如果存在弱工具变量问题,可以采取对信息不太敏感的有限信息极大似然估计法。
第15章工具变量估计与两阶段最小二乘法摘要: 本章继续讨论如何解决模型中的内生解释变量(endogenous explanatory variables )问题。
遗漏变量(omitted variables )是导致内生性问题的一个原因。
本章采用工具变量法(method of instrumental variables,IV )来解决模型中的一个或多个解释变量的内生性问题。
所采用的估计方法被称为两阶段最小二乘估计(method of two stage least squares ,2SLS or TSLS),其受欢迎程度仅次于OLS. IV 也能在某些特定的情形下解决变量带误差(errorsin-variables )的问题.15.1 动机: 简单回归中的遗漏变量如何处理可能发生的变量遗漏带来的偏误,已有三种选择: 1)直接忽略,讨论偏误的方向;2)寻找一个合适的代理变量;3)如果该遗漏变量不随时间变化时,采用FE 或FD 方法。
工具变量法的思路:不是考虑如何处理遗漏变量(此时遗漏变量在误差项中),而是寻找被遗漏的解释变量的替代变量,使得替代变量和误差项不再存在相关性。
y =β0+β1x +u ,此时该模型不满足MLR.4,从而不能保证Cov (x,u )=0,特别地,假定Cov (x,u )≠0. 如果x 的替代变量z 同时满足下面两个条件:1) 工具外生性(instrument exogeneity )条件:Cov (z,u )=0,2) 工具相关性(instrument relevance )条件:Cov (z,x )≠0,则称z 为x 的工具变量(instrumental variable ),或简称工具(instrumental ). 几点说明:1) 工具变量的外生性意味着z 对y 没有偏效应(当x 和u 中遗漏变量被控制时),同时也和其它被遗漏变量不相关;2) 工具外生性检验在多数情况下只能通过经济行为或反思来判断;3) 工具相关性检验借助t 和F 检验就行;外生性和相关性假设足以帮助我们识别(Identification )出β1=COv(z,y)Cov(z,x),那么β1的工具变量估计(instrumental variables (IV) estimator )为:β̂1=∑(z i −z ̅)(y i −y ̅)n i=1∑(z i −z ̅)(x i −x ̅)n i=1, 其是β1的一致但有偏的估计;4)β̂1显然当z=x,该估计就是OLS 估计,但这要以x 和u 无关为条件,也即工具变量法适于u 和x 无关的情形。
第15章 工具变量估计与两阶段最小二乘法在本章中,我们进一步研究多元回归模型中的内生解释变量(endogenous explanatory variable )问题。
在第3章中,我们推导出,遗漏一个重要变量时OLS 估计量的偏误;在第5章中,我们说明了在遗漏变量(omitted variable )的情况下,OLS 通常是非一致性的。
第9章则证明了,对未观测到的解释变量给出适宜的代理变量,能消除(或至少减轻)遗漏变量偏误。
不幸的是,我们不是总能得到适宜的代理变量。
在前两章中,我们解释了存在不随时间变化的遗漏变量的情况下,对综列数据如何用固定效应估计或一阶差分来估计随时间变化的自变量的影响。
尽管这些方法非常有用,可我们不是总能获得综列数据的。
即使能获得,如果我们的兴趣在于变量的影响,而该变量不随时间变化,它对于我们也几无用处:一阶差分或固定效应估计排除了不随时间变化的变量。
此外,迄今为止我们已研究出的综列数据法还不能解决与解释变量相关的随时间而变化的遗漏变量的问题。
在本章中,我们对内生性问题采用了一个不同的方法。
你将看到如何用工具变量法(IV )来解决一个或多个解释变量的内生性问题。
就应用计量经济学中线性方程的估计而言,两阶段最小二乘法(2SLS 或TSLS )是第二受人欢迎的,仅次于普通最小二乘。
我们一开始先说明,在存在遗漏变量的情况下,如何用IV 法来获得一致性估计量。
此外,IV 能用于解决含误差变量(errors-in-variable )的问题,至少是在某些假定下。
下一章将证明运用IV 法如何估计联立方程模型。
我们对工具变量估计的论述严格遵照我们在第1篇中对普通最小二乘的推导,其中假定我们有一个来自基本总体的随机样本。
这个起点很合人意,因为除了简化符号之外,它还强调了应根据基本总体来表述对IV 估计所做的重要的假定(正如用OLS 时一样)。
如我们在第2篇中所示,OLS 可以应用于时间序列数据,而工具变量法也一样可以。
第15.7节讨论IV 法应用于时间序列数据时出现的一些特殊问题。
在第15.8节中,我们将论述在混合横截面和综列数据上的应用。
15.1 动机:简单回归模型中的遗漏变量面对可能发生的遗漏变量偏误(或未观测到的异质性),迄今为止我们已讨论了三种选择:(1)我们可以忽略此问题,承受有偏、非一致性估计量的后果;(2)我们可以试图为未观测到的变量寻找并使用一个适宜的代理变量;(3)我们可以假定遗漏变量不随时间变化,运用第`13与14章中的固定效应或一阶差分方法。
若能把估计值与关键参数的偏误方向一同给出,则第一个回答是令人满意的。
例如,如果我们能说一个正参数(譬如职业培训对往后工资的影响)的估计量有朝零偏误 ,并且我们找到了一个统计上显著的正的估计值,那么我们还是学到了一些东西:职业培训对工资有正的影响,而我们很可能低估了该影响。
不幸的是,相反的情况经常发生,我们的估计值可能在数值上太大了,以致我们要得出任何有用的结论都非常困难。
第9.2节中讨论的代理变量解也能获得令人满意的结果,但并不是总可以找到一个好的代理。
该方法试图通过用代理变量取代不可观测的变量,来解决遗漏变量的问题。
另一种方法是将未观测到的变量留在误差项中,但不是用OLS 估计模型,而是运用一种承认存在遗漏变量的估计方法。
这便是工具变量法所要做的。
举例来说,考虑成年劳动者的工资方程中存在未观测到的能力的问题。
一个简单的模型为:,)log(210e abil educ wage +++=βββ其中e 是误差项。
在第9章中,我们说明了在某些假定下,如何用诸如IQ 的代理变量代替能力,从而通过以下回归可得到一致性估计量)log(wage 对IQ educ , 回归然而,假定不能得到适当的代理变量(或它不具备足以获取一致性估计量所需的性质)。
这样一来,我们将abil 放入误差项中,留下来的就是简单的回归模型:,)log(10u educ wage ++=ββ (15.1)其中u 包含了abil 。
当然,如果用OLS 估计方程(15.1),若是educ 与abil 相关,得到的结果将是1β的有偏、非一致性估计量。
最后证明是,假如我们能为educ 找到一个工具变量,我们仍可以根据方程(15.1)来进行估计。
为描述该方法,将简单回归模型写成:,10u x y ++=ββ(15.2)其中我们认为x 与u 相关: .0),(Cov ≠u x (15.3) 工具变量法无论x 与u 相关与否都行得通,但是,如果x 与u 不相关,我们应该使用OLS ,其原因我们将在后面看到。
为了获得x 与u 相关时0β和1β的一致性估计量,我们还需要一些另外的信息。
这些信息由一个满足某些性质的新变量给出。
假定我们有一个可观测到的变量z ,它满足两个假定:(1)z 与u 不相关,即,.0),(Cov =u z (15.4)(2)z 与x 相关,即,.0),(Cov ≠x z (15.5)我们则称z 是x 的工具变量(instrumental variable )。
有时候,人们把所需条件(15.4)概括为“z 在方程(15.2)中是外生的”。
从遗漏变量的角度看,这意味着z 应当对y 无偏效应,也不应当与其它影响y 的因素相关。
方程(15.5)意味着z 必然与内生解释变量x 有着正的或负的关系。
对工具变量的两个要求之间有一个非常重要的差别。
因为(15.4)是z 与不可观测的误差u 的协方差,我们无法对它进行验证或哪怕是检验:我们必须求助于经济行为或内心感受来维持这一假定。
相比之下,给定一个来自总体的随机样本,z 与x 相关(在总体中)的条件则可加以检验。
做到这一点最容易的方法是估计一个x 与z 之间的简单回归。
在总体中,我们有.10v z x ++=ππ (15.6) 从而,由于)(V ar ),Cov(1z x z =π,(15.5)中的假定当且仅当01≠π时成立。
因而我们就能够以充分小(习惯说充分高——译者)的显著水平(5%或1%)拒绝虚拟假设0 :H 10=π (15.7) 并接受双侧对立假设0 :H 10≠π。
如果真是这样,我们能相当有把握肯定(15.5)是成立的。
对于(15.1)中的log(wage )方程,educ 的工具变量z 必须:(1)与能力(以及其它影响工资的不可观测的因素)不相关,(2)与教育相关。
诸如一个人的社会福利登记号的最后一位数字之类的变量,几乎一定满足第一个必需条件:与能力不相关,因为它是随机决定的。
然而,该变量与教育不相关,因而是educ的一个低劣的工具变量。
我们所谓的用于遗漏变量的代理变量因相应的原因成为低劣的IV 。
例如,在遗漏能力的log(wage )例子中,abil 的代理变量应该尽可能地与abil 高度相关。
而工具变量必须与abil 不相关。
因此,尽管IQ 是abil 的一个好的代理变量候选者,它却不是educ 的好的工具变量。
对其它可能的工具变量候选者,这些必需条件更加不确定。
劳动经济学家已在工资方程中使用家庭背景变量作为教育的IV 。
例如,母亲的教育(motheduc )与孩子的教育是正相关的,这一点通过收集劳动者数据样本并做educ 对motheduc 的简单回归便可以看出来。
因此,motheduc 满足方程(15.5)。
问题是,母亲的教育也可能与孩子的能力相关(通过母亲的能力和可能通过孩子幼年所受的教养的质量)。
(15.1)中educ 的另一个IV 选择是成长过程中兄弟姊妹的数目(sibs )。
一般地说,较多的兄弟姊妹与较低的平均教育水平相联系。
这样,如果兄弟姊妹的数目与能力不相关,它可以 充当educ 的工具变量。
再举一个例子,考虑估计逃课对期末考试成绩的因果影响的问题。
在一个简单的回归框架中,我们有 ,10u skipped score ++=ββ (15.8) 其中score 是期末考试成绩,skipped 是该学期逃课的总数目。
当然,我们可能担心skipped 与u 中其它因素相关:较好的学生可能逃课较少。
因而score 对skipped 的简单回归可能不会给我们一个对逃课的因果影响的好的估计。
什么可能是skipped 的好的IV ?我们所需要的是对score 无直接效应,且与学生能力不相关的IV 。
同时,该IV 必须与skipped 相关。
一个选择是利用住宿区与学校之间的距离。
一所大规模的大学中将有部分学生乘车去学校,这也许会增加逃课的可能性(由于恶劣的天气、睡过头等等)。
因而,skipped 可能与distance 正相关;这一点可通过skipped 对distance 的回归并作一个t 检验得以验证,正如前面所描述的。
distance 是否与u 不相关?在简单回归模型(15.8)中,u 中的一些因素可能与distance 相关。
例如,低收入家庭的学生可能不住在学校;如果收入影响到学生的行为,可能会导致distance 与u 相关。
第15.2节说明如何在多元回归的情况下使用IV ,以便其他影响score 的因素能直接地包含在模型中。
那么,distance 也许是skipped 的一个好的IV 。
如果学生能力有一个好的代理,例如以往学期的累积GPA ,IV 法可能根本就不需要。
现在我们来证明可得到的工具变量能够用于进行方程(15.2)中的一致性参数估计。
特别地,我们将说明(15.4)与(15.5)[等价地,(15.4)与(15.7)]中的假定足以识别参数1β。
在这一点上,参数的识别(identification )意味着我们可以根据总体矩写出1β,总体矩可用样本数据来估计。
为了根据总体协方差写出1β,我们利用方程(15.2):z 与y 之间的协方差为).,(Cov ),(Cov ),(Cov 1u z x z y z +=β现在,在(15.4)中0),(Cov =u z 与(15.5)中0),(Cov ≠x z 的假定下,我们可以解出1β为: .),(Cov ),(Cov 1x z y z =β (15.9) [注意到如果z 与x 不相关,即0),(Cov =x z ,该简单代数式不成立。
] 方程(15.9)表明1β是z 、y 之间的总体协方差除以z 、x 之间的总体协方差的商,这说明了1β被识别。
给定一个随机样本,我们用对应样本量来估计总体的量。
在分子和分母中约去样本容量后,我们得到1β的工具变量(IV )估计量(instrumentalvariables (IV) estimator ):.))(())((ˆ111∑∑==----=n i i in i i i x x z zy y z z β (15.10) 给定x 、y 和z 的样本数据,很容易获得(15.10)中的IV 估计量。