第二讲 面板数据线性回归模型
- 格式:pdf
- 大小:676.40 KB
- 文档页数:15
第二讲 面板数据回归模型2.1面板数据回归模型的一般形式 面板数据模型的一般形式如下:it Kk kit ki it u x y +=∑=1β (2.1)其中,N ,,,,i "321=,表示N 个个体;T ,,,,t "321=,表示已知的T 个时点。
it y 是被解释变量对个体i 在t 时的观测值;kit x 是第k 个非随机解释变量对于个体i 在t 时的观测值;ki β是待估计的参数;it u 是随机误差项。
用矩阵表示为i i i i =+Y X βU (N ,,,,i "321=) (2.1’)其中,121i i i iT T y y y ×⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦#Y ,112111222212i i Ki i i Ki i iTiTKiT T K x x x x x x x x x ×⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦""##"#"X , 121×⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=K Ki i i i βββ#β,121i i iiT T u u u ×⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦#U .2.2 面板数据回归模型的分类通常,对模型(2.1)将做许多限制性假设,使其成为不同类型的面板数据回归模型。
一般来说,常用的面板数据回归模型有如下九种模型,下面分别介绍它们。
1混合回归模型从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起,用普通最小二乘法(OLS )估计参数。
即估计模型12Kit k kit it k y x u ββ==++∑ (2.2)=+Y X U β (2.2’)其中,121N NT ×⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦#Y Y Y Y ,12N NT K×⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦#X X X X ,121×⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=K K βββ#β,121N NT ×⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦#U U U U .实际上,混合回归模型(Pooled Regression Models )假设了解释变量对被解释变量的影响与个体无关。
第二章 简单线性回归模型第一节 回归分析与回归方程一、回归与相关 1、变量之间的关系(1)函数关系:()Y f X =,其中Y 为应变量,X 为自变量。
(2)相关关系或统计关系:当一个变量X 或若干个变量12,,,k X X X 变化时,Y 发生相应的变化(可能是不确定的),反之亦然。
在相关关系中,变量X 与变量Y 均为不确定的,并且它们之间的影响是双向的(双向因果关系)。
(3)单向因果关系:(,)Y f X u =,其中u 为随机变量。
在计量经济模型中,单一线性函数要求变量必须是单向因果关系。
在(单向)因果关系中,变量Y 是不确定的,变量X 是确定的(或可控制的)。
要注意的是,对因果关系的解释不是靠相关关系或统计关系来确定的,并且,相关关系与统计关系也给不出变量之间的具体数学形式,而是要通过其它相关理论来解释,如经济学理论。
例如,我们说消费支出依赖于实际收入是引用了消费理论的观点。
2、相关关系的类型 (1) 简单相关 (2) 复相关或多重相关 (3) 线性相关 (4) 非线性相关 (5) 正相关 (6) 负相关 (7) 不相关3、用图形法表示相关的类型上述相关类型可直观地用(EViews 软件)画图形来判断。
例如,美国个人可支配收入与个人消费支出之间的相关关系可由下列图形看出,它们为正相关关系。
15002000250030003500150020002500300035004000PDIP C E其中,PDI 为(美)个人可支配收入,PCE 为个人消费支出。
PDI 和PCE 分别对时间的折线图如下PROFIT 对STOCK 的散点图为05010015020025050100150STOCKP R O F I T其中,STOCK 为(美)公司股票利息,PROFIT 为公司税后利润,表现出明显的非线性特征。
以下是利润与股息分别对时间的序列图(或称趋势图)05010015020025020406080100120140GDP 对M2的散点图为02000040000600008000010000050000100000150000M2G D P其中M2为(中国)广义货币供应量,GDP 为国内生产总值。
面板数据模型1.面板数据定义。
时间序列数据或截面数据都是一维数据。
例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。
面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。
面板数据是同时在时间和截面空间上取得的二维数据。
面板数据示意图见图1。
面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。
面板数据用双下标变量表示。
例如y i t, i = 1, 2, …, N; t = 1, 2, …, TN表示面板数据中含有N个个体。
T表示时间序列的最大长度。
若固定t不变,y i ., ( i = 1, 2, …, N)是横截面上的N个随机变量;若固定i不变,y. t, (t = 1, 2, …, T)是纵剖面上的一个时间序列(个体)。
图1 N=7,T=50的面板数据示意图例如1990-2000年30个省份的农业总产值数据。
固定在某一年份上,它是由30个农业总产总值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。
面板数据由30个个体组成。
共有330个观测值。
对于面板数据y i t, i = 1, 2, …, N; t = 1, 2, …, T来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。
若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。
注意:EViwes 3.1、4.1、5.0既允许用平衡面板数据也允许用非平衡面板数据估计模型。
第二讲 面板数据线性回归模型估计、检验和应用 第一节 单因素误差面板数据线性回归模型对于面板数据y i 和X i ,称it it it y αε′=++X βit i it u εξ=+ 1,,;1,,i N t T ==""为单因素误差面板数据线性回归模型,其中,i ξ表示不可观测的个体特殊效应,it u 表示剩余的随机扰动。
案例:Grunfeld(1958)建立了下面的投资方程:12it it it it I F C αββε=+++这里,I it 表示对第i 个企业在t 年的实际总投资,F it 表示企业的实际价值(即公开出售的股份),C it 表示资本存量的实际价值。
案例中的数据是来源于10个大型的美国制造业公司1935-1954共20年的面板数据。
在EViews6中设定面板数据(GRUNFELD.wf1)Eviews6 中建立面板数据EViews 中建立单因素固定效应模型1.1 混合回归模型1 面板数据混合回归模型 假设1 ε ~ N (0, σ2I NT )对于面板数据y i 和X i ,无约束的线性回归模型是y i = Z i δi + εi i =1, 2, … , N(4.1)其中'i y = ( y i 1, … , y iT ),Z i = [ ιT , X i ]并且X i 是T×K 的,'i δ是1×(K +1)的,εi 是T×1的。
注意:各个体的回归系数δi 是不同的。
如果面板数据可混合,则得到有约束模型y = Z δ + ε(4.2)其中Z ′ = ('1Z ,'2Z , … ,'N Z ),u ′ = ('1ε,'2ε, … ,'N ε)。
2 混合回归模型的估计当满足可混合回归假设时,()1''ˆZ Z Z Y −=δ在假设1下,对于Grunfeld 数据,基于EViews6建立的混合回归模型3 面板数据的可混合性检验假设检验原理:基于OLS/ML 估计,对约束条件的检验。
第二讲 面板数据线性回归模型估计、检验和应用 第一节 单因素误差面板数据线性回归模型对于面板数据y i 和X i ,称it it it y αε′=++X βit i it u εξ=+ 1,,;1,,i N t T ==""为单因素误差面板数据线性回归模型,其中,i ξ表示不可观测的个体特殊效应,it u 表示剩余的随机扰动。
案例:Grunfeld(1958)建立了下面的投资方程:12it it it it I F C αββε=+++这里,I it 表示对第i 个企业在t 年的实际总投资,F it 表示企业的实际价值(即公开出售的股份),C it 表示资本存量的实际价值。
案例中的数据是来源于10个大型的美国制造业公司1935-1954共20年的面板数据。
在EViews6中设定面板数据(GRUNFELD.wf1)Eviews6 中建立面板数据EViews 中建立单因素固定效应模型1.1 混合回归模型1 面板数据混合回归模型 假设1 ε ~ N (0, σ2I NT )对于面板数据y i 和X i ,无约束的线性回归模型是y i = Z i δi + εi i =1, 2, … , N(4.1)其中'i y = ( y i 1, … , y iT ),Z i = [ ιT , X i ]并且X i 是T×K 的,'i δ是1×(K +1)的,εi 是T×1的。
注意:各个体的回归系数δi 是不同的。
如果面板数据可混合,则得到有约束模型y = Z δ + ε(4.2)其中Z ′ = ('1Z ,'2Z , … ,'N Z ),u ′ = ('1ε,'2ε, … ,'N ε)。
2 混合回归模型的估计当满足可混合回归假设时,()1''ˆZ Z Z Y −=δ在假设1下,对于Grunfeld 数据,基于EViews6建立的混合回归模型3 面板数据的可混合性检验假设检验原理:基于OLS/ML 估计,对约束条件的检验。
(1) 面板数据可混合的检验 推断面板数据可混合的零假设是:1H :对于所有的i 都有δi = δ. 检验约束条件的统计量是Chow 检验的F 统计量()()1res ures 'uresSSE SSE (N )K'F SSE N T K −−=−其中,1'K K =+,1Nures ii SSE SSE ==∑.在10H 条件下,F obs ~ F [(N -1)K ′, N (T - K ′ )]分布。
对于Grunfeld 数据,在零假设10H 下,混合OLS 估计得到res SSE = 1755850.48;无约束模型的ures SSE 由10个公司的OLS 回归SSE 之和得到,即ures SSE = 324728.47,每个回归有17个自由度,总的自由度为170;共有27(=3*9)个约束;Chow 检验的F 统计量取值为27.75;经检验拒绝了所有系数可混合性的零假设10H 。
(2) 斜率系数的可混合性检验(剔除非时变异质性因素后的可混合性检验)另外,也可以利用Chow 检验的F 统计量只斜率系数的可混合性进行检验(允许截距不完全相同),即检验零假设2H :β1 =β2 =,…,=βN 这时,有约束模型是带有个体虚拟变量的组内回归,无约束模型与前面相同。
对于Grunfeld 数据,在零假设20H 下,组内估计得到res SSE = 523478;同样,无约束模型的ures SSE 由10个公司的OLS 回归SSE 之和得到,即ures SSE = 324728.47,每个回归有17个自由度,总的自由度为170;共有18(=2*9)个约束;得到F 统计量等于5.78;因此拒绝了斜率系数具有可混合性的零假设20H 。
类似地,还可以检验系数是否随时间变化的可混合性问题。
1.2 个体固定效应模型(Fixed-effects (FE) model )面板数据混合回归模型没有考虑不可观测的非时变异质因素,当考虑了这些因素对模型参数估计的影响时,并且,它们与解释变量(可观测的时变异质性因素)相关时,为了保证回归参数估计的无偏性,需要在面板数据回归模型中特别剔除个体固定效应的影响,即将模型设定为个体固定效应模型。
1 个体固定效应模型及其估计 对于面板数据个体固定效应回归模型it it i it y X u αξ=+++β其中,i ξ即为不可观测的非时变异质因素。
其矩阵形式为()NT N T α=++⊗+Y X I ξU ιβι令[]NT N T =⊗X I Z ιι,()'''δα=ξβ,则LSDV 估计是()1''ˆ−=δZ Z Z Y 另外,通过进行组内离差,组内离差模型()()it i it i it i y y X x u u −=−+−...β的OLS 估计ˆwithin β也是无偏估计,被称为组内估计,并且,ˆˆwithin y x α=−....β.EViews 估计结果2 个体固定效应检验检验面板数据固定效应模型设定的零假设是:30H :ξ1 =ξ2 = … =ξN-1=0.检验约束条件的统计量是Chow 检验的F 统计量()()()()311H res ures ures SSE SSE N F ~FN ,NT N K SSE NT N K −−=−−−−−在30H 条件下,对应于混合回归模型,无约束模型是LSDV 回归模型。
如果N 较大,组内均值回归的残差平方和可作为ures SSE .对于Grunfeld 数据,F = 49.18,拒绝了混合回归模型的设定。
1.3 个体随机效应模型(GLS random-effects (RE) model )面板数据回归模型it it i it y x u αβξ=+++,ξi ~IID(0, σξ2),it u ~IID(0,σu 2),被称为随机效应回归模型。
其中,ξi 是独立于it u ,对于所有的i 和t ,X it 也独立于ξi 和it u .通过设定个体效应(ξi )为随机误差项,并假设个体效应(ξi )与X it 独立,以避免固定效应模型参数估计的有偏。
同时,增加模型估计的自由度;另外,也可将模型应用于(个体)样本之外。
1个体随机效应模型的估计 随机效应模型误差项的协方差矩阵'22(')()(')()()N T uN T E E E ξξξσσ′==+=⊗+⊗Ωvv Z ξξZ uu I J I I通过估计Ω,利用FGLS 估计随机效应模型。
并且,12ˆˆ GLS Within Between=+βW βW β .(Baltagi ,2008,P20) 其中,时间均值模型()i i i i y x u αβξ=+++...的OLS 估计称为组间估计ˆBetween β.实际上,在实证分析中,需要估计2ξσ和σu 2,常用的估计方法有三种,分别是Swamy-Arora 、Wallace-Hussain 和Wansbeek-Kapteyn 估计方法,在EViews 中,缺省选择是“Swamy-Arora”方法,详细内容参考Baltagi (2008)。
使用Swamy-Arora 的方差分解估计(Swamy-Arora estimator of the variance components )的EViewsFGLS 估计结果。
2 固定效应和随机效应的Hausman 检验 Hausman 检验H 0:E (εit | X it ) = 0,其中,εit =ξi + u it i =1, … , N ; t =1, … , T因素误差回归模型的一个关键假设是E (εit | X it ) = 0。
因为误差项含有未观测到的个体效应(ξi ),并可能与X it 相关。
例如,在收入方程中,ξi 可能代表不可观测的个人能力,它可能与方程右边的受教育变量相关。
在E (εit | X it ) ≠ 0的情况下,β的GLS 估计量GLSβˆ不仅是有偏,而且也是非一致的。
但是,组内变换消除了这些ξi ,因此,β的组内估计量Within β~是无偏的和一致的。
在零假设H 0:E (ξit | X it ) = 0下二者都是一致的,但如果H 0不成立,二者具有不同的概率极限。
事实上,无论H 0是否成立,Within β~都是一致的,而GLS βˆ仅仅在H 0下是BLUE 的、一致和渐近有效的。
但是,如果H 0不成立,则GLSβˆ是非一致的。
因此,Hausman (1978)构造了一个较自然的检验统计量1~q =GLS βˆ-Within β~因为,在零假设H 0下,plim 1ˆq =0,cov(1ˆq ,GLSβˆ)=0,于是可得到类似于Wald 型检验的Hausman 检验统计量m 1 =111'1ˆ)]ˆ[var(ˆq q q− 其中,var(1ˆq ) = var(Within β~) - var(GLSβˆ) =2v σ(X ′QX )-1 - (X ′Ω-1X )-1 在零假设H 0下,m 1渐近服从2K χ分布,其中K 表示斜率向量β的维度。
显然,m 1拒绝零假设,即,选择固定效应模型较合理。
否则,应该选择随机效应模型。
FE 模型与RE 模型的Hausman 检验在EViews6中,EViews 的Hausman 检验过程:View/Fixed/Random Effects Testing/Correlated Random Effects- Hausman Test 检验结果:可以看到m 1=2.13,m 1不能拒绝零假设。
即,选择随机效应模型较合理。
第二节 双因素误差面板数据线性回归模型对于面板数据y i 和X i ,称it itit y αε′=++X β εit =ξi +λt +u it 1,,;1,,i N t T =="" (2.1)为双因素误差面板数据线性回归模型,其中,ξi 表示未观测到的个体效应,λt 表示未观测到的时间效应,u it 表示剩余的随机误差项。
显然,与单因素误差面板数据线性回归模型比较,双因素误差模型包含了面板数据中不可观测的同质时变因素。
以Grunfeld 数据为例,基于EViews6讨论双因素误差模型的估计及其检验。
12it it it it I F C αββε=+++ εit =ξi +λt +u it这里,I it 表示对第i 个企业在t 年的实际总投资,F it 表示企业的实际价值(即公开出售的股份),C it 表示资本存量的实际价值。