伍德里奇《计量经济学导论》(第5版)笔记和课后习题详解-第14章 高级的面板数据方法【圣才出品】
- 格式:pdf
- 大小:8.10 MB
- 文档页数:36
《计量经济学导论》考研伍德里奇考研复习笔记二第1章计量经济学的性质与经济数据1.1 复习笔记一、什么是计量经济学计量经济学是以一定的经济理论为基础,运用数学与统计学的方法,通过建立计量经济模型,定量分析经济变量之间的关系。
在进行计量分析时,首先需要利用经济数据估计出模型中的未知参数,然后对模型进行检验,在模型通过检验后还可以利用计量模型来进行预测。
在进行计量分析时获得的数据有两种形式,实验数据与非实验数据:(1)非实验数据是指并非从对个人、企业或经济系统中的某些部分的控制实验而得来的数据。
非实验数据有时被称为观测数据或回顾数据,以强调研究者只是被动的数据搜集者这一事实。
(2)实验数据通常是通过实验所获得的数据,但社会实验要么行不通要么实验代价高昂,所以在社会科学中要得到这些实验数据则困难得多。
二、经验经济分析的步骤经验分析就是利用数据来检验某个理论或估计某种关系。
1.对所关心问题的详细阐述问题可能涉及到对一个经济理论某特定方面的检验,或者对政府政策效果的检验。
2构造经济模型经济模型是描述各种经济关系的数理方程。
3经济模型变成计量模型先了解一下计量模型和经济模型有何关系。
与经济分析不同,在进行计量经济分析之前,必须明确函数的形式,并且计量经济模型通常都带有不确定的误差项。
通过设定一个特定的计量经济模型,我们就知道经济变量之间具体的数学关系,这样就解决了经济模型中内在的不确定性。
在多数情况下,计量经济分析是从对一个计量经济模型的设定开始的,而没有考虑模型构造的细节。
一旦设定了一个计量模型,所关心的各种假设便可用未知参数来表述。
4搜集相关变量的数据5用计量方法来估计计量模型中的参数,并规范地检验所关心的假设在某些情况下,计量模型还用于对理论的检验或对政策影响的研究。
三、经济数据的结构1横截面数据(1)横截面数据集,是指在给定时点对个人、家庭、企业、城市、州、国家或一系列其他单位采集的样本所构成的数据集。
第1章解决问题的办法1.1(一)理想的情况下,我们可以随机分配学生到不同尺寸的类。
也就是说,每个学生被分配一个不同的类的大小,而不考虑任何学生的特点,能力和家庭背景。
对于原因,我们将看到在第2章中,我们想的巨大变化,班级规模(主题,当然,伦理方面的考虑和资源约束)。
(二)呈负相关关系意味着,较大的一类大小是与较低的性能。
因为班级规模较大的性能实际上伤害,我们可能会发现呈负相关。
然而,随着观测数据,还有其他的原因,我们可能会发现负相关关系。
例如,来自较富裕家庭的儿童可能更有可能参加班级规模较小的学校,和富裕的孩子一般在标准化考试中成绩更好。
另一种可能性是,在学校,校长可能分配更好的学生,以小班授课。
或者,有些家长可能会坚持他们的孩子都在较小的类,这些家长往往是更多地参与子女的教育。
(三)鉴于潜在的混杂因素 - 其中一些是第(ii)上市 - 寻找负相关关系不会是有力的证据,缩小班级规模,实际上带来更好的性能。
在某种方式的混杂因素的控制是必要的,这是多元回归分析的主题。
1.2(一)这里是构成问题的一种方法:如果两家公司,说A和B,相同的在各方面比B公司à用品工作培训之一小时每名工人,坚定除外,多少会坚定的输出从B 公司的不同?(二)公司很可能取决于工人的特点选择在职培训。
一些观察到的特点是多年的教育,多年的劳动力,在一个特定的工作经验。
企业甚至可能歧视根据年龄,性别或种族。
也许企业选择提供培训,工人或多或少能力,其中,“能力”可能是难以量化,但其中一个经理的相对能力不同的员工有一些想法。
此外,不同种类的工人可能被吸引到企业,提供更多的就业培训,平均,这可能不是很明显,向雇主。
(iii)该金额的资金和技术工人也将影响输出。
所以,两家公司具有完全相同的各类员工一般都会有不同的输出,如果他们使用不同数额的资金或技术。
管理者的素质也有效果。
(iv)无,除非训练量是随机分配。
许多因素上市部分(二)及(iii)可有助于寻找输出和培训的正相关关系,即使不在职培训提高工人的生产力。
使用普通最小二乘法,此时最小化的残差平方和为()211niii y x β=-∑利用一元微积分可以证明,1β必须满足一阶条件()110niiii x y x β=-=∑从而解出1β为:1121ni ii nii x yxβ===∑∑当且仅当0x =时,这两个估计值才是相同的。
2.2 课后习题详解一、习题1.在简单线性回归模型01y x u ββ=++中,假定()0E u ≠。
令()0E u α=,证明:这个模型总可以改写为另一种形式:斜率与原来相同,但截距和误差有所不同,并且新的误差期望值为零。
证明:在方程右边加上()0E u α=,则0010y x u αββα=+++-令新的误差项为0e u α=-,因此()0E e =。
新的截距项为00αβ+,斜率不变为1β。
2(Ⅰ)利用OLS 估计GPA 和ACT 的关系;也就是说,求出如下方程中的截距和斜率估计值01ˆˆGPA ACT ββ=+^评价这个关系的方向。
这里的截距有没有一个有用的解释?请说明。
如果ACT 分数提高5分,预期GPA 会提高多少?(Ⅱ)计算每次观测的拟合值和残差,并验证残差和(近似)为零。
(Ⅲ)当20ACT =时,GPA 的预测值为多少?(Ⅳ)对这8个学生来说,GPA 的变异中,有多少能由ACT 解释?试说明。
答:(Ⅰ)变量的均值为: 3.2125GPA =,25.875ACT =。
()()15.8125niii GPA GPA ACT ACT =--=∑根据公式2.19可得:1ˆ 5.8125/56.8750.1022β==。
根据公式2.17可知:0ˆ 3.21250.102225.8750.5681β=-⨯=。
因此0.56810.1022GPA ACT =+^。
此处截距没有一个很好的解释,因为对样本而言,ACT 并不接近0。
如果ACT 分数提高5分,预期GPA 会提高0.1022×5=0.511。
(Ⅱ)每次观测的拟合值和残差表如表2-3所示:根据表可知,残差和为-0.002,忽略固有的舍入误差,残差和近似为零。
第1章解决问题的办法1.1(一)理想的情况下,我们可以随机分配学生到不同尺寸的类。
也就是说,每个学生被分配一个不同的类的大小,而不考虑任何学生的特点,能力和家庭背景。
对于原因,我们将看到在第2章中,我们想的巨大变化,班级规模(主题,当然,伦理方面的考虑和资源约束)。
(二)呈负相关关系意味着,较大的一类大小是与较低的性能。
因为班级规模较大的性能实际上伤害,我们可能会发现呈负相关。
然而,随着观测数据,还有其他的原因,我们可能会发现负相关关系。
例如,来自较富裕家庭的儿童可能更有可能参加班级规模较小的学校,和富裕的孩子一般在标准化考试中成绩更好。
另一种可能性是,在学校,校长可能分配更好的学生,以小班授课。
或者,有些家长可能会坚持他们的孩子都在较小的类,这些家长往往是更多地参与子女的教育。
(三)鉴于潜在的混杂因素 - 其中一些是第(ii)上市 - 寻找负相关关系不会是有力的证据,缩小班级规模,实际上带来更好的性能。
在某种方式的混杂因素的控制是必要的,这是多元回归分析的主题。
1.2(一)这里是构成问题的一种方法:如果两家公司,说A和B,相同的在各方面比B公司à用品工作培训之一小时每名工人,坚定除外,多少会坚定的输出从B公司的不同?(二)公司很可能取决于工人的特点选择在职培训。
一些观察到的特点是多年的教育,多年的劳动力,在一个特定的工作经验。
企业甚至可能歧视根据年龄,性别或种族。
也许企业选择提供培训,工人或多或少能力,其中,“能力”可能是难以量化,但其中一个经理的相对能力不同的员工有一些想法。
此外,不同种类的工人可能被吸引到企业,提供更多的就业培训,平均,这可能不是很明显,向雇主。
(iii)该金额的资金和技术工人也将影响输出。
所以,两家公司具有完全相同的各类员工一般都会有不同的输出,如果他们使用不同数额的资金或技术。
管理者的素质也有效果。
(iv)无,除非训练量是随机分配。
许多因素上市部分(二)及(iii)可有助于寻找输出和培训的正相关关系,即使不在职培训提高工人的生产力。
伍德里奇《计量经济学导论》(第5版)笔记和课后习题详解目录第1章计量经济学的性质与经济数据1.1复习笔记1.2课后习题详解第一篇横截面数据的回归分析第2章简单回归模型2.1复习笔记2.2课后习题详解第3章多元回归分析:估计3.1复习笔记3.2课后习题详解第4章多元回归分析:推断4.1复习笔记4.2课后习题详解第5章多元回归分析:OLS的渐近性5.1复习笔记5.2课后习题详解第6章多元回归分析:深入专题6.1复习笔记6.2课后习题详解第7章含有定性信息的多元回归分析:二值(或虚拟)变量7.1复习笔记7.2课后习题详解第8章异方差性8.1复习笔记8.2课后习题详解第9章模型设定和数据问题的深入探讨9.1复习笔记9.2课后习题详解第二篇时间序列数据的回归分析第10章时间序列数据的基本回归分析10.1复习笔记10.2课后习题详解第11章OLS用于时间序列数据的其他问题11.1复习笔记11.2课后习题详解第12章时间序列回归中的序列相关和异方差性12.1复习笔记12.2课后习题详解第三篇高级专题讨论第13章跨时横截面的混合:简单面板数据方法13.1复习笔记13.2课后习题详解第14章高级的面板数据方法14.2课后习题详解第15章工具变量估计与两阶段最小二乘法15.1复习笔记15.2课后习题详解第16章联立方程模型16.1复习笔记16.2课后习题详解第17章限值因变量模型和样本选择纠正17.1复习笔记17.2课后习题详解第18章时间序列高级专题18.1复习笔记18.2课后习题详解第19章一个经验项目的实施19.2课后习题详解本书是伍德里奇《计量经济学导论》(第5版)教材的学习辅导书,主要包括以下内容:(1)整理名校笔记,浓缩内容精华。
每章的复习笔记以伍德里奇所著的《计量经济学导论》(第5版)为主,并结合国内外其他计量经济学经典教材对各章的重难点进行了整理,因此,本书的内容几乎浓缩了经典教材的知识精华。
(2)解析课后习题,提供详尽答案。
第14章高级的面板数据方法
14.1复习笔记
一、固定效应估计法
1.固定效应变换
固定效应变换又称组内变换,考虑仅有一个解释变量的模型:对每个i,有
1 1
2 it it i it y x a u t T
β=++=,,,…,对每个i 求方程在时间上的平均,便得到
1i i i i
y x a u β=++其中,11T it t y T y
-==∑(关于时间的均值)。
因为a i 在不同时间固定不变,故它会在原模型和均值模型中都出现,如果对于每个t,两式相减,便得到()1 1 2 it i it i it i y y x x u u t T
β-=-+-=,,,…,或
1 1
2 it it it y x u t T
β=+= ,,,…,其中,it it i y y y =- 是y 的除时间均值数据;对it x
和it u 的解释也类似。
方程的要点在于,非观测效应a i 已随之消失,从而可以使用混合OLS 去估计式1 1 2 it it it y x u t T β=+= ,,,…,。
上式的混合OLS 估计量被称为固定效应估计量或组内估计量。
组间估计量可以从1i i i i y x a u β=++的OLS 估计量而得到,即同时使用y 和x 的时间平均值做一个横截面回归。
如果a i 与i x 相关,估计量是有偏误的。
而如果认为a i 与x it 无关,则使用随机效应估计量要更好。
组间估计量忽视了变量如何随着时间而变化。
2.原始的非观测效应模型
1122 1 2 it it it k itk i it y x x x a u t T
βββ=++⋅⋅⋅+++=,,,…,只需对每个解释变量(包括诸如时期虚拟变量)都除去其时间均值,然后利用全部除时间均值后的变量做混合OLS 回归即可。
在解释变量的严格外生性假定下,固定效用估计量是无偏的:粗略地说,特异误差u it 应与所有时期的每个解释变量都无关。
固定效应估计量如一阶差分估计量一样,容许a i 与任何时期的解释变量任意相关,因为在时间上恒定的解释变量都必定随固定效应变换而消失。
3.固定效应估计量自由度的决定
用混合OLS 估计除时间均值的方程时,总共有NT 个观测值和k 个自变量(截距被固定效应变换消去了),而对于每一个横截面,在时间上取均值都会损失一个自由度,故N 个个体要损失N 个自由度,正确的自由度是
()1df NT N k N T k
=--=--4.衡量拟合优度
根据组内变换计算的R 2,应把它解释为y it 的时间变异被解释变量的时间变异所解释的部分。
5.虚拟变量回归
对每个i 估计一个截距,连同解释变量一起给每一个横截面观测(单位)安排一个虚拟
变量(也许还给每个时期安排有虚拟变量)。
这一方法常被称为虚拟变量回归。
虚拟变量法的特点:
①即使N 还不是很大时,使用此法都会导致产生许多解释变量,以致在大多数情况下,解释变量多到无法进行回归的程度。
因此,虚拟变量法对含有许多横截面观测(单位)的面板数据集来说不是很现实。
②它所给出的j β估计值与用除均值数据所做回归得到的估计值恰好一样,而且标准误和其他主要统计量也一样。
因此,固定效应估计量可以由虚拟变量回归得到。
③可以直接算出恰当的自由度。
④从虚拟变量回归算出的R 2通常都比较高。
这是因为对每一横截面都包含一个虚拟变量,以至于能解释数据中的大部分变异。
⑤从虚拟变量回归得到的R 2,可按通常方法用于计算F 检验。
ˆi a 的计算:11ˆˆˆ....12i ik i k
i a y x x i N ββ=---= ,,,,6.是固定效应(FE)还是一阶差分(FD)
估计非观测效应模型的两种方法:一种是取数据的差分,一种是除时间均值。
两种方法的选择:
(1)当T=2时,FE 和FD 的估计值及其全部检验统计量完全一样,故可随便选用一种。
这种等价是建立在估计相同的模型,因此为了使FE 估计与包含截距的FD 估计完全相同,必须在FE 估计中包含表示第二个时期的虚拟变量。
在T=2时,取一阶差分有一个好处:几乎无论用什么计量经济学软件包,一阶差分法都直截了当地实施,而且在FD 估计之后,还很容易计算异方差—稳健的统计量。
(2)当T≥3时,FE和FD估计量便不相同。
在混合OLS假定成立的条件下,二者都是无偏与一致的,对于较大的N和较小的T,FE和FD之间的选择关键在其估计量的相对效率,而这将由特异误差u it中的序列相关性决定。
①当u it无序列相关时,固定效应法比一阶差分更有效,并且得自固定效应的标准误是确当的。
因为固定效应模型的特异误差是序列无关的。
②如果u it遵循一个随机游走(就是说有一个很强的正的序列相关),那么差分
u 便序
it
列无关,这时一阶差分法便更好。
但在许多情形中,u it表现出某种正的序列相关,却未必达到一个随机游走的程度,这时要比较FE和FD估计量的效率就不那么容易。
一个重要的理论事实是,FD估计量中的偏误不取决于T,而FE估计量中的偏误则以速度1/T趋于零。
当FE和FD给出明显不同的结果时,通常在两者之间作出取舍就很困难。
应同时报告两组结果并试图判断差异的原因所在。
7.非平衡面板数据的固定效应法
在一些面板数据集中,样本缺少了某些横截面单位的某些年份数据,称数据集为非平衡面板数据。
设T i为横截面单位i的时期数,只需用T i个观测去做除时间均值的运算。
观测总数将是T1+T2+…+T N。
与平衡面板数据的情形一样,对每一个观测横截面,都因除时间均值运算而失去一个自由度。
任何一个做固定效应的回归软件包都会做出适当的自由度损失调整。
虚拟变量回归也和平衡面板数据情形完全一样,但要适当地调整自由度。
二、随机效应模型
1.随机效应模型
对于一个非观测效应模型:
01122it it it k itk i it
y x x x a u ββββ=+++⋅⋅⋅+++(1)
引入一个截距项,假定非观测效应a i 有零均值,且与每一个解释变量都无关:()Cov 0 1 2 1 2 itj i x a t T j k
===,,,,…,;,,…,则方程(1)就成为一个随机效应模型。
理想的随机效应假定包括全部固定效应假定,再加上a i 独立于所有时期中每一个解释变量的假定。
如果非观测效应a i 会与任何一个解释变量相关,那么就是固定效应模型,应该对固定效应做一阶差分或者求组内均值。
2.参数的估计
a i 与解释变量无关,可以用单个横截面一致的估计j β,但是只用单个横截面去估计就忽视了其他时期的许多有用信息。
此外,利用混合OLS 将y it 对解释变量也许还加上时间虚拟变量做OLS 回归,在随机效应假定下,也能得到j β的一致估计量,但误差项存在序列相关,如果定义复合误差项为
it i it
v a u =+则式(1)可写为:
01122it it it k itk it
y x x x v ββββ=+++⋅⋅⋅++由于a i 在每个时期都是复合误差的一部分,所以不同时期的v it 应该序列相关。
在随机效应假定下:
()()222Corr / it is a a u v v t s
σσσ=+≠,,其中,()()22Var Var a i u it a u σσ==,。
误差项中这种(必然是)正的序列相关可
能很大:由于通常的混合OLS 标准误忽视了这种相关,所以不正确,从而通常用的检验统计量也不正确。
(1)用GLS 解决序列相关性问题
假定有足够大的N 和相对较小的T,面板为平衡面板。
定义()1/22221/u u a λσσσ⎡⎤=-+⎣⎦它介于0与1之间。
(由GLS 求得的,参见Wooldridge(2002,Chapter10))。
于是,变换后的方程是:()()()()
01111it i it i k itk ik it i y y x x x x v v λβλβλβλλ-=-+-+⋅⋅⋅+-+-它使用每个变量的准除均值数据。
固定效应估计量从相应变量中减去其时间均值,而随机效应变换只减去其时间均值的一个比例,这个比例取决于2u σ、2a σ和时期数T。
GLS 估计量就是变换后的方程的混合OLS 估计量,变换方程容许考虑不随时间而变化的解释变量,与固定效应或一阶差分模型相比,这是随机效应(RE)模型的一个优点。
(2)随机效应估计量
要得到随机效应估计量,必须先知道λ,实际上,参数λ是未知的,但又总是可以估计的,有很多种估计的方法。
利用混合OLS 或固定效应做出估计:
(){}1/2
22ˆˆˆ11/1/a u T λσσ⎡⎤=-+⎣⎦其中2ˆa σ是2a σ的一个一致估计量,而2ˆu σ是2u σ的一个一致估计量。
这些估计量是根据混合OLS 残差或固定效应残差计算的,一种可能性是:
()()112121ˆˆˆ1/21N T T a it is
i t S t NT T k v
v σ--===+=--+⎡⎤⎣⎦∑∑∑其中ˆit v
是用混合OLS 估计式01122it it it k itk it
y x x x v ββββ=+++⋅⋅⋅++的残差。