违背基本假设的问题:多重共线性异方差和自相关
- 格式:doc
- 大小:337.00 KB
- 文档页数:51
精品文档精品文档第5章、违背基本假设的问题:多重共线性、异方差和自相关回顾并再次记住最小二乘法(LS)的三个基本假设:1.y=Xβ+ε2.Rank(X)=K3.ε|X~N(0,σ2I)精品文档精品文档精品文档精品文档§1、多重共线性(multicollinearity)1、含义及后果1)完全的多重共线性如果存在完全的多重共线性(perfect multicollinearity),即在X中存在不完全为0的a i,使得a1x1+…+a K x K=0即X的列向量之间存在线性相关。
因此,有Rank(X)<K,从而|X’X|=0,即b=(X’X)-1X’y不存在,OLS失效。
也即违背了基本假设2。
精品文档例子:C=β1+β2nonlabor income + β3salary +β4income + ε精品文档精品文档精品文档2)近似共线性 常见为近似共线性,即a 1x 1+…+a K x K ≈0则有|X’X|≈0,那么(X’X)-1对角线元素较大。
由于21|[,(')]b X N X X βσ-, 21|[,(')]k k kk b XN X X βσ-,所以b k 的方差将较大。
例子:Longley 是著名例子。
精品文档精品文档精品文档精品文档2、检验方法1)VIF 法(方差膨胀因子法,variance inflation factor )第j 个解释变量的VIF 定义为21VIF 1j jR =- 此处2j R 是第j 个解释变量对其他解释变量进行回归的确定系数。
若2j R 接近于1,那么VIF 数值将较大,说明第j 个解释变量与其他解释变量之精品文档精品文档间存在线性关系。
从而,可以用VIF 来度量多重共线性的严重程度。
当2j R 大于0.9,也就是VIF 大于10时,认为自变量之间存在比较严重的多重共线性。
K 个解释变量,就有K 个VIF 。
可以计算K 个VIF 的平均值。
第5章、违背基本假设的问题:多重共线性、异方差和自相关回顾并再次记住最小二乘法(LS)的三个基本假设:1.y=Xβ+ε2.Rank(X)=K3.ε|X~N(0,σ2I)第 1 页§1、多重共线性(multicollinearity)1、含义及后果1)完全的多重共线性如果存在完全的多重共线性(perfect multicollinearity),即在X中存在不完全为0的a i,使得a1x1+…+a K x K=0即X的列向量之间存在线性相关。
因此,有Rank(X)<K,从而|X’X|=0,即b=(X’X)-1X’y不存在,OLS失效。
也即违背了基本假设2。
例子:C=β1+β2nonlabor income + β3salary +β4income + ε第 2 页2)近似共线性常见为近似共线性,即a1x1+…+a K x K≈0则有|X’X|≈0,那么(X’X)-1对角线元素较大。
由于所以b k的方差将较大。
例子:Longley是著名例子。
第 3 页第 4 页2、检验方法1)VIF 法(方差膨胀因子法,variance inflation factor )第j 个解释变量的VIF 定义为此处2j R 是第j 个解释变量对其他解释变量进行回归的确定系数。
若2j R 接近于1,那么VIF 数值将较大,说明第j 个解释变量与其他解释变量之间存在线性关系。
从而,可以用VIF 来度量多重共线性的严重程度。
当2j R 大于0.9,也就是VIF 大于10时,认为自变量之间存在比较严重的多重共线性。
K 个解释变量,就有K 个VIF 。
可以计算K 个VIF 的平均值。
若大于10,认为存在比较严重的多重共线性。
VIF方法直观,但是Eviews不能直接计算VIF的数值。
需要逐个进行回归,较为麻烦。
2)相关系数矩阵例子:对于longley数据。
在Eviews中,quick/group statistics/correlations,输入te year gnpd gnp arm,得到TE YEAR GNPD GNP ARM TE 1.000000 0.971329 0.970899 0.983552 0.457307 YEAR 0.971329 1.000000 0.991149 0.995273 0.417245 GNPD 0.970899 0.991149 1.000000 0.991589 0.464744 GNP 0.983552 0.995273 0.991589 1.000000 0.446437 ARM 0.457307 0.417245 0.464744 0.446437 1.000000 相关系数矩阵的第一列给出了被解释变量与每一个解释变量之间的相第 5 页关系数;度量了每一个解释变量对被解释变量的个别影响。
违背经典假设样本一样本二 … … …一、异方差(u i &X i )1、why 为什么会产生异方差?——某一因素或一些因素(即u)随着解释变量观测值的变化而对被解释变量产生不同的影响;模型中省略了重要的解释变量;模型的函数形式设定不准确等。
2、when 什么数据容易出现异方差?——截面数据3、what 产生异方差后有什么影响?——低估 的真实方差Se( ),导致检验统计量t 值被高估,可能造成本来不显著的某些回归系数变成显著。
4、how 如何判断是否存在异方差?——(1)判断方法:残差图分析法;判断依据:看残差项是否随解释变量表现出趋势性(2)判断方法:等级相关系数法;判断依据:等级相关系数检验(3)判断方法:戈德菲尔德-匡特检验;判断依据:样本排序分段比检验(4)判断方法:戈里瑟检验;判断依据:用残差平方作为被解释变量对每个解释变量、每个解释变量的平方、各解释变量的两两交叉乘积项一起进行线性回归,并检验各回归系数是否为0(5)判断方法:怀特检验;判断依据:用残差平方作为被解释变量对每个解释变量一起建立各种回归模型,并检验各回归系数是否为05、how 判断出存在异方差了该怎么修正?——A.(1) (2) 未知时,如果之间为线性关系,之 X i 为权数变换二、自相关(u i &u i-1)1、why 为什么会产生自相关?——遗漏了重要的解释变量;经济变量的滞后性;回归函数形式的设定错误;蜘蛛网现象2、when 什么数据容易出现自相关?——时间序列数据3、what 产生自相关后有什么影响?——参数的估计量是无偏的,但不是有效,严重低估误差项的方差,导致统计量高估,不显著变为显著。
4、how 如何判断是否存在自相关?——(1)判断方法:图示检验法;判断依据:看t 期残差项(e t )与t-1期残差项(e t-1)是b ˆb ˆ2i s 2i s否表现出相关性、规律性;或者看残差项e t与时间t是否表现出相关性、规律性(2)判断方法:自相关系数法;判断依据:系数越接近于1时,表明误差序列越存在正相关,系数接近于-1时,表明误差序列越存在负相关(3)判断方法:DW检验;判断依据:用DW统计量与dL,du临界值比较得出结论(4)判断方法:拉格朗日乘数检验(高阶自相关);判断依据:假设u t是u t-1到u t-p 等各样本残差项的线性组合,重新构建辅助回归,LM统计量大于临界值,就拒绝原假设,表明存在自相关,反之亦然。
第5章、违背基本假设的问题:多重共线性、异方差和自相关回顾并再次记住最小二乘法(LS)的三个基本假设:1.y=Xβ+ε2.Rank(X)=K3.ε|X~N(0,σ2I)§1、多重共线性(multicollinearity)1、含义及后果1)完全的多重共线性如果存在完全的多重共线性(perfect multicollinearity),即在X中存在不完全为0的a i,使得a1x1+…+a K x K=0即X的列向量之间存在线性相关。
因此,有Rank(X)<K,从而|X’X|=0,即b=(X’X)-1X’y不存在,OLS失效。
也即违背了基本假设2。
例子:C=β1+β2nonlabor income + β3salary +β4income + ε2)近似共线性常见为近似共线性,即a 1x 1+…+a K x K ≈0 则有|X’X|≈0,那么(X’X)-1对角线元素较大。
由于21|[,(')]b X N X X βσ- , 21|[,(')]k k kkb X N X X βσ- ,所以b k 的方差将较大。
例子:Longley 是著名例子。
2、检验方法1)VIF 法(方差膨胀因子法,variance inflation factor )第j 个解释变量的VIF 定义为21V IF 1j jR=-此处2j R 是第j 个解释变量对其他解释变量进行回归的确定系数。
若2j R 接近于1,那么VIF 数值将较大,说明第j 个解释变量与其他解释变量之间存在线性关系。
从而,可以用VIF 来度量多重共线性的严重程度。
当2jR 大于0.9,也就是VIF 大于10时,认为自变量之间存在比较严重的多重共线性。
K 个解释变量,就有K 个VIF 。
可以计算K 个VIF 的平均值。
若大于10,认为存在比较严重的多重共线性。
VIF方法直观,但是Eviews不能直接计算VIF的数值。
需要逐个进行回归,较为麻烦。
异方差:(Heteroscedasticity)一如何检测?①假设我们做一个回归,求出β1、β2、β3,然后返回求出序列{Ut},现在要检测{Ut}是不是异方差的。
②设立辅助方程:既然假设是异方差,那么我们就假设{Ut}与X存在某种关系,这种关系比较复杂,只要我们证明α1、α2、α3……不为0,即可③构建新的统计量:T·R2,先人曾经证明过其服从 卡方(m)分布。
④最后将算出来的T·R2值与卡方分布的临界值比较,……。
二、如何应对?①如果异方差的形式已知,我们可以通过GLS(广义二乘法)来处理:举例说明:②如果异方差的形式未知自相关:(Autocorrelation)一如何检测?我们直接可以看DW值,注意这个ρ值is the残差项之间的estimated correlation coefficient.也可以用另外一种方法:二如何应对?①如果自相关的形式已知•If the form of the autocorrelation is known, we could use a GLS procedureBut such procedures that “correct” for autocorrelation require assumptions about the form of the autocorrelation.②未知:构建动态模型,如:三多重共线性:(Multicollinearity)①如何检测:look at the matrix of correlations between the individual variables.另外:R2 will be high but the individual coefficients will have high standard errors也可能存在多重共线性。
②如何解决:。
《计量经济学》中多重共线性、异方差性、自相关三者之间的联系与区别首先我们先来回顾一下经典线性回归模型的基本假设:1、为什么会出现异方差性我们可以从一下两方面来分析:第一,因为随即误差项包括了测量误差和模型中被省略的一些因素对因变量的影响;第二,来自不同抽样单元的因变量观察值之间可能差别很大。
因此,异方差性多出现在截面样本之中。
至于时间序列,则由于因变量观察值来自不同时期的同一样本单元,通常因变量的不同观察值之间的差别不是很大,所以异方差性一般不明显。
含义及影响:y=X β+ε,var(εi )var(εj ), ij ,E(ε)=0,或者记为212200['|]0000n E X σεεσσ⎛⎫⎪=Ω= ⎪ ⎪⎝⎭即违背假设3。
用OLS 估计,所得b 是无偏的,但不是有效的。
111(')'(')'()(')'b X X X y X X X X X X X βεβε---==+=+由于E(ε)=0,所以有E(b )=β。
即满足无偏性。
但是,b 的方差为1111121var(|)[()()'][(')''(')|] (')'['|](') (')'()(')b X E b b E X X X X X X X X X X E X X X X X X X X X X ββεεεεσ------=--===Ω其中212200['|]0000n E X σεεσσ⎛⎫⎪=Ω= ⎪ ⎪⎝⎭2、自相关产生的原因:(1)、经济数据的固有的惯性带来的相关 (2)、模型设定误差带来的相关 (3)、数据的加工带来的相关 含义及影响:cov(,)0,i j i j εε≠≠影响:和异方差一样,系数的ls 估计是无偏的,但不是有效的。
D -W 检验(Durbin -Watson )221212222121212222112112122211221122121()()()2()()222222(1)n i i i n i i n n n i i i i i i i n i i n n n i i i i i i i n n i i n i i i nn n i i i i nn i ie e d e e e e e e e e e e e e e e e e e e e e e e ρρ=-===-=-====-==-===∑-=∑∑+∑-∑=∑∑+∑-∑--=∑∑+=--∑∑+=--∑≈-其中2121n i i i n i ie e e ρ=-=∑=∑是样本一阶自相关函数。
第5章、违背基本假设的问题:多重共线性、异方差和自相关回顾并再次记住最小二乘法(LS)的三个基本假设:1.y=Xβ+ε2.Rank(X)=K3.ε|X~N(0,σ2I)1 / 51§1、多重共线性(multicollinearity)1、含义及后果1)完全的多重共线性如果存在完全的多重共线性(perfect multicollinearity),即在X中存在不完全为0的a i,使得a1x1+…+a K x K=0即X的列向量之间存在线性相关。
因此,有Rank(X)<K,从而|X’X|=0,即b=(X’X)-1X’y不存在,OLS失效。
也即违背了基本假设2。
例子:C=β1+β2nonlabor income + β3salary +β4income + ε2 / 513 / 514 / 512)近似共线性 常见为近似共线性,即a 1x 1+…+a K x K ≈0则有|X’X|≈0,那么(X’X)-1对角线元素较大。
由于21|[,(')]b X N X X βσ- , 21|[,(')]k k kk b X N X X βσ- ,所以b k 的方差将较大。
例子:Longley 是著名例子。
5 / 516 / 512、检验方法1)VIF 法(方差膨胀因子法,variance inflation factor )第j 个解释变量的VIF 定义为21VIF 1j jR =- 此处2j R 是第j 个解释变量对其他解释变量进行回归的确定系数。
若2j R 接近于1,那么VIF 数值将较大,说明第j 个解释变量与其他解释变量之间存在线性关系。
从而,可以用VIF 来度量多重共线性的严重程度。
当2j R 大于0.9,也就是VIF 大于10时,认为自变量之间存在比较严重的多重共线性。
K个解释变量,就有K个VIF。
可以计算K个VIF的平均值。
若大于10,认为存在比较严重的多重共线性。
VIF方法直观,但是Eviews不能直接计算VIF的数值。
需要逐个进行回归,较为麻烦。
7 / 512)相关系数矩阵例子:对于longley数据。
在Eviews中,quick/group statistics/correlations,输入te year gnpd gnp arm,得到TE YEAR GNPD GNP ARM TE 1.000000 0.971329 0.970899 0.983552 0.457307 YEAR 0.971329 1.000000 0.991149 0.995273 0.417245 GNPD 0.970899 0.991149 1.000000 0.991589 0.464744 GNP 0.983552 0.995273 0.991589 1.000000 0.446437 ARM 0.457307 0.417245 0.464744 0.446437 1.0000008 / 51相关系数矩阵的第一列给出了被解释变量与每一个解释变量之间的相关系数;度量了每一个解释变量对被解释变量的个别影响。
除ARM之外,解释变量与被解释变量之间的相关系数都很大。
但是,从剩下的相关系数矩阵可以看到,变量之间的相关系数也很大。
表明变量之间存在严重的多重共线性。
9 / 513)条件数(condition number)首先计算X’X的最大和最小特征根,然后计算如下条件数若大于20,则认为存在多重共线性。
10 / 513、处理方法1)剔除法(推荐此方法)方法:设法找出引起多重共线性的解释变量,并将之剔除在回归方程之外。
准则1:逐个引入解释变量,根据R2的变化决定是否引入新的解释变量。
如果R2变化显著,那么应该引入,反之不引入。
准则2:剔除VIF最大的解释变量和不显著的解释变量。
请试着计算每个解释变量的VIF值。
11 / 5112 / 512)岭回归(ridge regression estimator )回忆对于多元线性回归方程y X βε=+,系数β的LS 估计是1(')'b X X X y -=岭回归估计就是计算1(')'r b X X rD X y -=+此处D 是一个对角矩阵,定义为('),0,ii ii X X i j D i j=⎧=⎨≠⎩ 具体操作:一般选取r 从0.01开始,逐步增加,每次都计算r b ,一直到b稳定不变为止。
r此方法的优点:在matlab环境下,使用矩阵运算非常容易计算。
缺点:一方面,Eviews不带此功能;另外一方面,缺乏对估计结果的解释的直观含义(b是什么东西?)。
r13 / 5114 / 513)主成分方法(principal components )首先,计算对称矩阵X’X 的特征根和特征向量,(')X X C C =Λ此处12[,,...,]K C c c c =是特征向量矩阵1000000K λλ⎛⎫ ⎪Λ= ⎪ ⎪⎝⎭ 是特征根矩阵,其中特征根从大到小排列。
我们关心最大的前面L 个。
其次,计算Z XC =,即15 / 51,1,...,k k z Xc k L ==是新的数据列向量,作为新的解释变量。
最后,将y 对Z 进行回归,得到1(')'b Z Z Z y -=此方法并不难计算,但是问题仍然是很难解释估计结果。
16 / 51§2、异方差(heteroscedasticity )1、含义及影响y=X β+ε,var(εi )≠var(εj ), i ≠j ,E(ε)=0,或者记为212200['|]0000n E X σεεσσ⎛⎫ ⎪=Ω= ⎪ ⎪⎝⎭即违背假设3。
用LS 估计,所得b 是无偏的,但不是有效的。
111(')'(')'()(')'b X X X y X X X X X X X βεβε---==+=+17 / 51由于E(ε)=0,所以有E(b )=β。
即满足无偏性。
但是,b 的方差为1111121var(|)[()()'][(')''(')|] (')'['|](') (')'()(')b X E b b E X X X X X X X X X X E X X X X X X X X X X ββεεεεσ------=--===Ω其中212200['|]0000n E X σεεσσ⎛⎫ ⎪=Ω= ⎪ ⎪⎝⎭。
18 / 51 2、检验(White 检验)举例说明。
若回归方程为y=β0+β1x 1 + β2x 2 + ε使用残差和解释变量,建立如下辅助回归方程222011223142512e x x x x x x αααααα=+++++ (*)构造如下原假设H0:残差不存在异方差性直观上,若H0为真,那么会有什么?可以证明,若H0为真,则22~()nR m其中n为样本个数,R2为方程(*)的确定系数,m为除常数项外的回归系数的个数。
Eviews命令:view/residual tests/white heteroscedasticitystep1:双击数据文件production_function.wflstep2:输入ls log(x) c log(l1) log(k1),进行回归19 / 51step3:view/residual tests/white heteroscedasticity(no cross term)(当然也要试一下选择white heteroscedasticity(cross term)的输出结果),有White Heteroskedasticity Test:Obs*R-squared 5.090339 Probability 0.278153Test Equation:Dependent Variable: RESID^2Method: Least SquaresDate: 11/03/04 Time: 19:33Sample: 1929 1967Included observations: 39Variable Coefficient Std. Error t-Statistic Prob.20 / 51LOG(L1) 0.068532 0.215341 0.318251 0.7522(LOG(L1))^2 -0.005638 0.020636 -0.273236 0.7863LOG(K1) -0.024077 0.062504 -0.385210 0.7025(LOG(K1))^2 0.001880 0.006457 0.291181 0.7727 Adjusted R-squared 0.028230 S.D. dependent var 0.002170 S.E. of regression 0.002139 Akaike info criterion -9.337819 Sum squared resid 0.000156 Schwarz criterion -9.124542 Log likelihood 187.0875 F-statistic 1.275975 Durbin-Watson stat 1.899724 Prob(F-statistic) 0.298609再试一下具有交叉项的情形。
得到如下输出结果:21 / 51White Heteroskedasticity Test:Obs*R-squared 5.331424 Probability 0.376785 Test Equation:Dependent Variable: RESID^2Method: Least SquaresDate: 11/03/04 Time: 19:34Sample: 1929 1967Included observations: 39Variable Coefficient Std. Error t-Statistic Prob.LOG(L1) -0.054201 0.333444 -0.162549 0.8719 (LOG(L1))^2 0.025440 0.067254 0.378266 0.7077 (LOG(L1))*(LOG(K1)) -0.044198 0.090923 -0.486105 0.6301 LOG(K1) 0.075537 0.214453 0.352231 0.7269 (LOG(K1))^2 0.016259 0.030292 0.536741 0.5950R-squared 0.136703 Mean dependent var 0.001112 Adjusted R-squared 0.005901 S.D. dependent var 0.002170 S.E. of regression 0.002163 Akaike info criterion -9.293672 Sum squared resid 0.000154 Schwarz criterion -9.037740 Log likelihood 187.2266 F-statistic 1.045111 Durbin-Watson stat 1.997638 Prob(F-statistic) 0.40800423 / 513、处理方法两种方法:WLS:适用于异方差形式已知情形HAC:适用于异方差形式未知情形1)WLS方法(weighted least square,加权最小二乘法)WLS方法是GLS(generalized ls,广义最小二乘法)的特例。