多重共线性
- 格式:doc
- 大小:123.50 KB
- 文档页数:3
多重共线性多重共线性(multicollinearity )的特征● 多重共线性是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系:0...2211=+++k k X X X λλλ其中k λλλ,...,,21为常数,但不同时为零。
● 0...2211≈+++k k X X X λλλ, 近似的多重共线性● 通过巴伦坦图做简单的描述。
共线性部分可用两圆圈的重叠部分来衡量。
重叠部分越大,共线性程度越高。
● 我们定义的多重共线性仅对X 变量之间的线性关系而言,它们之间的非线性关系并不违反无多重共线性的假设i i i i u X X Y +++=2210βββ多重共线性的后果●如果多重共线性是完全的,诸X变量的回归系数将是不正确的,并且它们的标准误差为无穷大●如果多重共线性是不完全的,那末,虽然回归系数可以确定,却有较大的标准误差,意思是,系数不能以很高的精确或准精确加以估计,这会导致:-参数估计不精确,也不稳定-参数估计量的标准差较大,影响系数的显著性检验●多重共线性产生的后果具有一定的不确定性●在近似的多重共线性的情况下,只要模型满足CLRM 假定,回归系数就为BLUE,但特定的样本估计量并不一定等于真值。
多重共线性的来源(1)许多经济变量在时间上由共同变动的趋势,如:收入,投资,消费(2)把一些经济变量的滞后值也作为解释变量在模型中使用,而解释变量和滞后变量通常相关,如:消费和过去的收入多重共线性一般与时间序列有关,但在横截面数据中也经常出现多重共线性的检验● 多重共线性是普遍存在的,造成的后果也比较复杂,对多重共线性的检验缺少统一的准则- 对有两个解释变量的模型,作散点图,或相 关系数,或拟和优度R平方。
- 对有多个解释变量的模型,分别用一个解释 变量对其它解释变量进行线性回归,计算拟 和优度22221,...,,k R R R- 考察参数估计值的符号,符不符合理论 - 增加或减少解释变量,考察参数估计值的变 化- 对比拟和优度和t检验值多重共线性的修正方法● 增加样本观测值,如果多重共线性是由样本引起的,可以通过收集更多的观测值增加样本容量。
第四章 多重共线性第一节 什么是多重共线性一、多重共线性的含义所谓多重共线性,不仅包括解释变量之间完全(精确)的线性关系,还包括解释变量之间近似的线性关系。
对于解释变量23,,,k X X X ,如果存在不全为零的数123,,,,k λλλλ ,能使得12233i i k ki X X X λλλλ++++ =0 ,(i =1,2,,n )——即解释变量的数据矩阵的列向量组线性相关。
则称解释变量23,,,k X X X 之间存在着完全的线性关系。
用数据表示,解释变量的数据矩阵为X =213112232223111k k nnkn X X X XX X X X X ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦当()r X <k 时,也说明解释变量23,,,k X X X 之间存在着完全的线性关系。
当存在完全共线性时,至少有一个变量(列向量)可以用其余的变量(列向量)线性表出。
在实际问题中,完全的共线性并不多见。
常见的情形是解释变量23,,,k X X X 之间存在不完全的共线性,这是指存在不全为零是数123,,,,k λλλλ ,使得12233λλλλ+++++ i i k ki i X X X v =0(i =1,2,,n )其中i v 是随机变量。
这表明此时解释变量之间只是一种近似的线性关系。
二、产生多重共线性的背景1.经济变量之间具有共同的变化趋势2.模型中包含滞后变量3.利用截面数据建立模型也可能出现共线性4. 样本数据自身的原因第二节 多重共线性产生的后果完全共线性时,矩阵X X '不可逆,参数估计式ˆβ=1()X X X Y -''不存在,OLS 无法应用。
不完全的共线性时,1()X X -'也存在,可以得到参数的估计值,但是对计量经济分析可能会产生一系列影响。
一、参数估计量的无偏性依然成立不完全共线性时ˆ()E β=1()E X X X Y -''⎡⎤⎣⎦=1()()E X X X X U β-''⎡⎤+⎣⎦=β+()1()X X X E U -''=β二、参数OLS 估计值方差扩大 如二元回归模型i Y =12233i i i X X u βββ+++中的2X 与3X 为不完全的共线性时,2X 与3X 之间的相关系数23r 可由下式给出223r=2232223()x x x x∑∑∑容易证明2ˆ()Var β=222223(1)i x r σ-∑3ˆ()Var β=222323(1)ixr σ-∑随着共线性的程度增加,23r 的绝对值趋于1,两个参数估计量的方差也增大。
第六章 多重共线性问题
一、 实验目的
熟练使用EViews 软件进行计量分析,理解多重共线性的检验和估计的基本方法。
二、 基本知识点:
多重共线性的基本概念,多重共线性的后果,检验是否存在的基本方法——样本决定系数检验、参数估计值的经济检验和参数估计值的统计检验,多重共线性的解决办法——逐步回归法。
三、 实验内容及要求:
依据经济学理论,以实际数据(实验数据五)为基础,①建立反映天津市粮食市场需求状况的粮食需求函数。
②检验所建立的粮食需求函数是否存在多重共线性。
③如果存在多重共线性,使用恰当的方法加以解决。
四、 实验指导:
经分析,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出以外,还可能与相关基础设施有关。
为此,考虑的影响因素主要有国内旅游人数X1,城镇居民人居旅游支出X2、农村居民人均旅游支出X3、公路里程X4和铁路里程X5。
为此设定如下的对数形式的计量经济模型:t t t t t t t X X X X X Y μββββββ++++++=54321543210
Y t ——第年全国旅游收入; X1t ——国内旅游人数(万人); X2t ——城镇居民人均旅游支出(元); X3t ——农村居民人均旅游支出(元); X4t ——公路里程(万公里); X5t ——铁路里程(万公里)。
数据见实验指导数据五,来源于《中国统计年鉴年》
STEP1:参数估计
在Eviews 中点击NEW 项,建立Workfile 输入Y 、X1、X2、X3、X4、X5的数据。
点 击Quick ,选Estimate Equation 项,在OLS 对话框中,键入Y C X1 X2 X3 X4 X5,输出结果。
见图6.4.1。
Dependent Variable: Y Method: Least Squares Date: 12/12/10 Time: 08:35 Sample: 1994 2006 Included observations: 13
Variable
Coefficient Std. Error t-Statistic Prob. C 658.4612 1822.588 0.361278 0.7285 X1 0.046675 0.006842 6.821912 0.0002 X2 6.161783 1.608916 3.829772 0.0065 X3 2.372393 1.083468 2.189629 0.0647 X4 1.134097 1.417467 0.800087 0.4500 X5
-853.5124
426.8085
-1.999755
0.0857
R-squared
0.996586 Mean dependent var 3201.408 Adjusted R-squared 0.994148 S.D. dependent var 1552.189 S.E. of regression 118.7417 Akaike info criterion 12.69582 Sum squared resid 98697.10 Schwarz criterion 12.95656 Log likelihood -76.52280 F-statistic 408.7042 Durbin-Watson stat
1.368523 Prob(F-statistic)
0.000000
图6.4.1 Eviews 输出的回归结果
分析:模型R 2
=0.996586 0.9941482=R 可决系数很高,F 检验值408.7042,显著。
但当α=5%时,t 统计值=2.776,X3、X4和X5系数的t 检验不显著,同时X5的系数否好不符合实际,这表明很可能存在多重共线性。
STEP2:检验
计算各解释变量的相关系数,选择X1、X2、X3、X4、X5数据,点击“quick\group statistics\correlation ”的相关系数矩阵,见表6.4.1。
有相关系数矩阵可以看出:各解释变量相关之间的相关系数较高,证实存在严重多重共线性。
表6.4.1 自变量相关系数矩阵
STEP3:消除多重共线性
采用逐步回归的办法,检验和解决多重共线性问题。
分别作Y 对X1、X2、X3、X4、X5的一元回归,结果如表6.4.2。
表6.4.2 回归结果
以X1为基础,顺次加入其他变量逐步回归。
首先加入X5回归结果为:
t t t
X X Y 5074.134010333.0029.8814ˆ++-= t (4.3736) (3.6639) R 2=0.9752
当α=5%时,365.2)1210()1(025.02/=--=--t k n t α,X5参数的t 检验显著,不予剔除,加入X2回归得:
t t t
t X X X Y 21858.85876.104110503.04331.979ˆ+-+= t (9.7417) (-2.1023) (5.2147) R 2=0.9938
当α=5%时,447.2)1310()1(025.02/=--=--t k n t α,X5参数的t 检验不显著,剔除X5,加入X4回归得:
t t t t
X X X Y 48284.123624.510350.063.3447ˆ+++-= t (4.9483) (7.1915) (0.9468) R 2=0.9916
当α=5%时,447.2)1310()1(025.02/=--=--t k n t α,X4参数的t 检验不显著,剔除X4,加入X3回归得:
t t t t
X X X Y 37640.222690.310431.0845.29955ˆ+++-= t (15.6195) (3.1570) (2.4482) R 2=0.9916
当α=5%时,447.2)1310()1(025.02/=--=--t k n t α,X1、X2、X3参数的t 检验显著,拟合度也好,这即是消除多重共线性结果。
结论:在其他因素不变的情况下,当城镇居民人均旅游支出X2和农民居民旅游支出X3分别增长1%时,国内旅游收入Y 分别增长3.27%与2.76%。
在其他因素不变的情况下,国内旅游人数每增加1万人次,国内旅游收入Y 将增长0.043亿元。
实验数据五。