计量经济学多重共线性
- 格式:dps
- 大小:1.25 MB
- 文档页数:33
计量经济学:多重共线性多重共线性52=.53085123 第四章专门讨论古典假定中⽆多重共线性假定被违反的情况,主要内容包括多重共线性的实质和产⽣的原因、多重共线性产⽣的后果、多重共线性的检测⽅法及⽆多重共线性假定违反后的处置⽅法。
第⼀节什么是多重共线性⼀、多重共线性的含义第三章讨论多元线性回归模型的估计时,强调了假定⽆多重共线性,即假定各解释变量之间不存在线性关系,或者说各解释变量的观测值之间线性⽆关。
在计量经济学中所谓的多重共线性(Multi-Collinearity),不仅包括解释变量之间精确的线性关系,还包括解释变量之间近似的线性关系。
从数学意义上去说明多重共线性,就是对于解释变量k X 、、X X 32,如果存在不全为0的数k λλλ,2,1 ,能使得n ,2, ,1i 033221 ==++++ki k i i X X X λλλλ ( 4.1 )则称解释变量k X X X ,,,32 之间存在着完全的多重共线性。
⽤矩阵表⽰,解释变量的数据矩阵为X=213112232223111k k nnkn X X X X X X X X X ??(4.2)当Rank(X )在实际经济问题中,完全的多重共线性并不多见。
常见的情形是解释变量k X X X ,,,32 之间存在不完全的多重共线性。
所谓不完全的多重共线性,是指对于解释变量k X 、、X X 32,存在不全为0的数k λλλ,2,1 ,使得n ,2, ,1i 033221 ==+++++i ki k i i u X X X λλλλ(4.3)其中,i u 为随机变量。
这表明解释变量k X 、、X X 32只是⼀种近似的线性关系。
如果k 个解释变量之间不存在完全或不完全的线性关系,则称⽆多重共线性。
若⽤矩阵4表⽰,这时X 为满秩矩阵,即Rank(X )=k 。
需要强调,解释变量之间不存在线性关系,并⾮不存在⾮线性关系,当解释变量存在⾮线性关系时,并不违反⽆多重共线性假定。
计量经济学之多重共线性引言多重共线性是计量经济学中一个重要的概念,在经济学研究中扮演着重要的角色。
在本文中,我们将深入探讨多重共线性的概念、原因和影响,并介绍一些常见的解决方案和应对方法。
什么是多重共线性?多重共线性是指在回归分析中,自变量之间存在高度相关性的情况。
具体来说,多重共线性指的是自变量之间线性相关性较高,可能导致回归分析的结果不准确或难以解释。
多重共线性的原因多重共线性的产生有多种原因,以下是一些常见的原因:1.样本选择偏倚:当样本中存在特定的特征或者数据的选择方式导致一些变量的相关性增强。
2.变量的定义重复:有些变量可能在定义上重复,导致它们之间存在高度相关性。
3.缺少重要变量:当回归模型中存在遗漏的重要变量时,其他变量可能会代替这些遗漏的变量,导致多重共线性。
4.数据测量误差:测量误差也可能导致自变量之间存在高度相关性。
多重共线性的影响多重共线性可能会对回归模型产生一系列的问题和影响:1.估计系数不准确:多重共线性会导致回归系数的估计不准确,使得对自变量的解释变得困难。
2.系数符号相反:多重共线性可能导致估计系数的符号与理论预期相反。
3.误差项的方差增加:多重共线性会导致误差项的方差增加,从而降低了模型的精确度。
4.解释力度减弱:多重共线性会降低模型的解释力度,使得我们难以解释模型的结果。
解决多重共线性的方法针对多重共线性问题,我们可以采取以下方法来解决:1.增大样本量:增大样本量可以降低变量之间的相关性,从而减轻多重共线性的影响。
2.删除相关变量:通过检验变量之间的相关性,删除相关性较高的变量,可以减轻多重共线性的程度。
3.主成分分析:主成分分析是一种降维的方法,可以将相关性较高的变量合并为一个主成分,从而避免了多重共线性的问题。
4.增加惩罚项:在回归模型中增加惩罚项,如岭回归或lasso回归,可以减轻多重共线性的影响。
5.使用时间序列数据:对于存在多重共线性的房地产数据等时间序列数据,可以使用时间序列模型来避免多重共线性的问题。
第七章 多重共线性“多重共线性”一词由R. Frisch 1934年提出,它原指模型的解释变量间存在线性关系。
7.1多重共线性及产生的原因 7.1.1.非多重共线性假定111211212221121111k k T T Tk x x xx xx X x x x ---=如果rk (X 'X ) = rk (X ) < k 或`0X X =称解释变量是完全共线性相关。
在实际经济问题中,完全多重共线性和完全无多重共线性两种极端情况都是极少的,大多数情况是解释变量存在不完全的多重共线性,或者近似的多重共线性,可一表示为:1122110k k x x x u λλλ--++++= 7.1.2.多重共线性的经济解释(1)经济变量在时间上有共同变化的趋势。
如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业率等又都下降。
当这些变量同时进入模型后就会带来多重共线性问题。
0.E+001.E+112.E+113.E+114.E+11808284868890929496980002GDPCONS0.E +001.E +112.E +113.E +114.E +110.0E +005.0E +101.0E +111.5E +112.0E +112.5E +11C O N SG D P o f H o n g K o n g(2)解释变量与其滞后变量同作解释变量。
滞后变量与原因变量在经济意义上没有本质区别,只是时间上的差异,原因变量与解释变量有相关关系,滞后变量也会有相关关系。
(见下图) (3)解释变量之间往往存在密切的关联度。
对同一经济现象的解释变量,往往存在密切的相关关系,如生产函数,资本大,需投入的劳动力也应趆多。
0.E+001.E+112.E+113.E+114.E+11GDP0.E+001.E+112.E+113.E+114.E+110.E+001.E+112.E+113.E+114.E+11GDP(-1)GDP7.2.多重共线性的后果(1) 当 `0X X =,X 为降秩矩阵,则 (X 'X ) -1不存在,βˆ= (X 'X )-1 X 'Y 不可计算。
2020/6/28商学院王中昭教学内容一、多重共线性二、实际经济问题中的多重共线性三、多重共线性的后果四、多重共线性的检验五、克服多重共线性的办法和实例§4.3 多重共线性2020/6/28商学院王中昭对于模型Y i =β0+ β1x 1i + β2x 2i +…… βk x ki +μi如果某两个或多个解释变量之间出现相关性,即:C 1x 1i +C 2X 2i +……C k X ki =0其中C i 不全为0,即某一个解释变量是其他解释变量的线性组合,则称为完全多重共线性。
完全多重共线性的情况并不多见,一般是出现不同程度的多重共线性。
注意多重共线性不是指因变量与解释一、多重共线性概念2020/6/28商学院王中昭Y=Xβ+μ完全共线性:∣X′X ∣=0,(X′X)-1不存在,使B ^=(X′X)-1X′Y 无法求解。
例如:,0)(00201631084104213211 x x x 321332211321≠'=+-=++⎪⎪⎪⎪⎪⎭⎫⎝⎛=X X x x x X i i i i i i x c x c x c 这里,完全多重共线性2020/6/28商学院王中昭完全多重共线性的情况不多,一般出现不同程度的多重共线性。
多重共线性:∣X′X∣≈0,(X′X)-1存在,但(X′X)-1主对角线上的元素很大。
⎪⎪⎪⎪⎫⎛='≈'⇒≈+⎪⎪⎪⎪⎪⎭⎫⎝⎛=400300000300000100040030000030000010002100010004X)X ( ,0)( 0,0x x - x 199.2993001001.4004001099.1992001101.1001001 x x x 1-3i 2i 1i 321||这里,X X X 近似多重共线性2020/6/28商学院王中昭1、各时间序列的解释变量受同一因素影响,导致解释变量之间在时间上具有相同近似同增量的变化,这些因素有:(1)经济发展(2)政治事件(3)偶然事件(4)时间趋势2、解释变量中含有滞后变量容易产生多重共线性。
这是因为滞后变量从经济性质上看与原来的变量无区别,只是时间上有所不同。
例如,投资模型I t =β1+β2r t +β3Y t +β4Y t-1+μt二、实际经济问题中的多重共线性2020/6/28商学院王中昭如粮食产量Y=β0+β1X 1+β2X 2+β3X 3+β4X 4+u 其中Y 为粮食产量,X 1为肥料,X 2为种植面积,X 3为劳动力,X 4为水利浇灌。
种植面积越多则投入的肥料和劳动力就越多,故肥料、种植面积和劳动力三者之间存在相关关系。
又如:Y=β0+β1P+β2Q+β3I+u其中Y 为某种商品需求量,P 为商品价格、Q 为商品质量、I 为居民收入。
一般地质量较高的商品其价格也高,故P 和Q 存在线性关系。
一般地时间序列往往导致多重共线性。
但单独用截面数据,或用时间序列和截面数据相结合可减少多重共线性的发生。
3、各经济变量之间的内在联系2020/6/28商学院王中昭B^=(X ′X)-1X ′Y,Var(B ^)=σ2(X ′X)-11、完全共线性:无法求解参数估计量B^。
2、近似共线性:(参数估计量的方差增大为主要后果):即Var(B ^)变得很大,导致B ^不稳定,。
3、参数估计量经济含义不合理(共线性的解释变量的系数并不表示它们各自对被解释变量的贡献,失去了应有的经济含义。
因为共线解释变量之间可互相线性表示,此系数有可能是它们的共同影响)看模拟分析(第4,5章.do,一.多重共线性的征兆:模拟分析)。
?三、多重共线性的后果2020/6/28商学院王中昭4、变量的显著性检验失去意义:由于系数的标准差变大,从而该系数对应变量t 统计量变小,故使原本重要的自变量而t 检验通不过。
5、预测功能失效:因为β^I 值不稳定,从而导致MSE 不准确,→预测不准确。
2020/6/28商学院王中昭(一)、整体检验X 1,X 2,…..,X k 是否存在多重共线性。
若R 2,F 均很大,但多数解释变量都不显著,甚至系数符号都不对,则认为存在多重共线性。
缺点:此法无法分辩出共线性由哪些解释变量引起,在此基础上须进行下面进一步检验:四、多重共线性的检验2020/6/28商学院王中昭1、简单相关系数法(只有两个解释变量时用)(1)当只有两个自变量时,计算这两个变量的相关系数,若系数绝对值较大。
例如大于被解释变量与解释变量之间的相关系数R 的绝对值。
则认为这两个变量存在共线性。
(二)具体检验共线性是哪些变量引起的那就简单了:只要算出任何两个变量的相关系数不就知道是否存在多重共线性了?如果是三个以上的解释变量,此法行不通!懂吗!2020/6/28商学院王中昭实例(P141):中国粮食生产函数根据理论和经验分析,影响粮食生产(Y )的主要因素有:农业化肥施用量(X1),粮食播种面积(X2),成灾面积(X3) ,农业机械总动力(X4),农业劳动力(X5)。
1.已知中国粮食生产的相关数据,建立中国粮食生产函数:LnY=β0+β 1 LnX1 +β 2 LnX2 +β 3 LnX3 +β 4 LnX4 +β 4 LnX5 +μ经验方法:可以通过每个解释变量与Y 之间的散点图来判断是否为直线关系,然后假定合一起也是直线关系,最后由估计出来的结果再整体检验所有解释变量是否与Y 线相关。
2020/6/28商学院王中昭Stata 命令方式:pwcorr lnx1 lnx2 lnx3 lnx4 lnx5,star(0.05)2020/6/28商学院王中昭(2)但如果有三个以上的解释变量,则不能用求两两相关系数来判断它们是否存在共线性。
这是因为它们若存在共线性,并不能由相关系数看出,即尽管共线性程度很高,但它们的相关系数绝对值未必大。
312231312321,,884.0,564.0,884.0R :, 24482423252121 X X X : :X X X R R R +====⎪⎪⎪⎭⎫ ⎝⎛但并不很大可计算得有如下三个变量例如2020/6/28商学院王中昭此法与判定系数法原理一样。
将某个解释变量X j 与其余的解释变量进行回归:.VIF :, 11:,)......, ,......,X ,j 221121(存在共线性与其它自变量越有可能越大说明结论再求出方差扩大因子求出决定系数j x j x k j j j X R VIF R X jj X X Xf X -==+-2、方差扩大因子法(或膨胀因子Variance inflation factor)VIF 检验的经验准则:(1) VIF 的均值> 2(2) VIF 的最大值>10满足上述2个条件之一就表明存在多重共线性,2020/6/28商学院王中昭实例(P141):中国粮食生产函数数据见P141, d3p141.dta 。
命令方式:reg lny lnx1 lnx2 lnx3 lnx4 lnx5estat vif2020/6/28商学院王中昭VIF 检验的经验准则:(1) VIF 的均值> 2(2) VIF 的最大值>10 满足上述2个条件之一就表明存在多重共线性。
表明lnx1 ,lnx4与其它解释变量存在多重共线性。
2020/6/28商学院王中昭单独计算lnx1的VIF :qui reg lnx1 lnx2 lnx3 lnx4 lnx5 dis 1/(1-e(r2)) lnx1的VIF值和上面结果一样的2020/6/28商学院王中昭3、秩条件的检验方式。
原理:如果解释变量样本所构成矩阵X 是满秩的,则其秩rank(X) = k,则X‘X 是满秩的,则不存在多重共线性问题。
如果X’X 非满秩的,则INV(X‘X)的秩较大,则存在多重共线性。
计算过程:对X‘X 进行分解后得到矩阵的条件指数(CN(X’X)=cond Index ),此条件指数值为矩阵X‘X 的最大特征根和最小特征根之比的平方根。
stata 有两种方式(coldiag2和collin )可以实现此检验。
如果CN(X‘X)=cond Index>20 共线性问题比较严重。
例如:coldiag2 lnx1 lnx2 lnx3 lnx4 lnx5collin lnx1 lnx2 lnx3 lnx4 lnx5两种方式的结果如下:2020/6/28商学院王中昭方法一:coldiag2 这里cond Index=2165.3217,即CN(X’X) =Collin >20,表明存在严重的多重共线性。
2020/6/28商学院王中昭方法二:collin 此法还给出了每个解释变量的VIF 值和每一个解释变量对其它解释变量回归时的R 2,这里cond Index=2165.3217,同时还给出了X‘X 的行列式的值del(correlation matrix)=0.0085,如果矩阵(X’X)非满秩,应行列式接近于0。
这两种方法是一个整体判断方法。
2020/6/28商学院王中昭4、图形法graph matrix lny lnx1 lnx2 lnx3 lnx4 lnx5,half 。
可以看出化肥施用量x1与农业机械总动力x4存在较强的线性相关,农业机械总动力与粮食种植面积x2也存在近似相关性.2020/6/28商学院王中昭一般来说,模型的多重共线性程度多少都会有一些,如果是轻微的则不必处理;如果是严重,导致参数的符号及大小不符合经济理论时才进行处理。
1、逐步回归法2、差分法(包括高阶的广义差分)3、改用相对变量的形式五、克服多重共线性的方法和实例2020/6/28商学院王中昭逐步回归法分为逐个剔除法与逐个引入法逐步指的是在使用回归分析方法建立模型时,一次只能剔除(减少)一个解释变量或者一次只能引入(增加)一个解释变量。
进行一次剔除或引入称为“一步”,这样逐步的进行下去,直到最后得到模型达到最优。
下面详细说明:1、逐步回归法以下的R 2可用R 2来代替2020/6/28商学院王中昭剔除解释变量后不会使模型的拟合优度R 2(及F )显著地减少,并且没有改变模型中的其它自变量的原来t 统计量性质(即原来显著的仍然显著,未显著的仍未显著),则应当剔除该变量;否则不剔除。
如果剔除一个解释变量,使模型拟合优度R 2(及F )显著地减少,那么这个剔除是不应当的。
说明该被剔除变量与留在模型中的解释变量不构成多重共线性。
它对被解释变量Y 的贡献不能由已在模型中的解释变量代替(线性表出)。
具体做法:先将一切可能的解释变量全部引入模型,再依据各个解释变量的显著性和经济意义,每次从模型中剔除一个不显著的解释变量,即从不显著的解释变量中,剔除t 最小(或对应的概率Prob 最大)和从经济意义上看最不重要的解释变量,再根据上面所讲的剔除的准则进行判断是否能剔除该解释变量。