多重共线性
- 格式:doc
- 大小:123.50 KB
- 文档页数:3
多重共线性多重共线性(multicollinearity )的特征● 多重共线性是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系:0...2211=+++k k X X X λλλ其中k λλλ,...,,21为常数,但不同时为零。
● 0...2211≈+++k k X X X λλλ, 近似的多重共线性● 通过巴伦坦图做简单的描述。
共线性部分可用两圆圈的重叠部分来衡量。
重叠部分越大,共线性程度越高。
● 我们定义的多重共线性仅对X 变量之间的线性关系而言,它们之间的非线性关系并不违反无多重共线性的假设i i i i u X X Y +++=2210βββ多重共线性的后果●如果多重共线性是完全的,诸X变量的回归系数将是不正确的,并且它们的标准误差为无穷大●如果多重共线性是不完全的,那末,虽然回归系数可以确定,却有较大的标准误差,意思是,系数不能以很高的精确或准精确加以估计,这会导致:-参数估计不精确,也不稳定-参数估计量的标准差较大,影响系数的显著性检验●多重共线性产生的后果具有一定的不确定性●在近似的多重共线性的情况下,只要模型满足CLRM 假定,回归系数就为BLUE,但特定的样本估计量并不一定等于真值。
多重共线性的来源(1)许多经济变量在时间上由共同变动的趋势,如:收入,投资,消费(2)把一些经济变量的滞后值也作为解释变量在模型中使用,而解释变量和滞后变量通常相关,如:消费和过去的收入多重共线性一般与时间序列有关,但在横截面数据中也经常出现多重共线性的检验● 多重共线性是普遍存在的,造成的后果也比较复杂,对多重共线性的检验缺少统一的准则- 对有两个解释变量的模型,作散点图,或相 关系数,或拟和优度R平方。
- 对有多个解释变量的模型,分别用一个解释 变量对其它解释变量进行线性回归,计算拟 和优度22221,...,,k R R R- 考察参数估计值的符号,符不符合理论 - 增加或减少解释变量,考察参数估计值的变 化- 对比拟和优度和t检验值多重共线性的修正方法● 增加样本观测值,如果多重共线性是由样本引起的,可以通过收集更多的观测值增加样本容量。
第四章 多重共线性第一节 什么是多重共线性一、多重共线性的含义所谓多重共线性,不仅包括解释变量之间完全(精确)的线性关系,还包括解释变量之间近似的线性关系。
对于解释变量23,,,k X X X ,如果存在不全为零的数123,,,,k λλλλ ,能使得12233i i k ki X X X λλλλ++++ =0 ,(i =1,2,,n )——即解释变量的数据矩阵的列向量组线性相关。
则称解释变量23,,,k X X X 之间存在着完全的线性关系。
用数据表示,解释变量的数据矩阵为X =213112232223111k k nnkn X X X XX X X X X ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦当()r X <k 时,也说明解释变量23,,,k X X X 之间存在着完全的线性关系。
当存在完全共线性时,至少有一个变量(列向量)可以用其余的变量(列向量)线性表出。
在实际问题中,完全的共线性并不多见。
常见的情形是解释变量23,,,k X X X 之间存在不完全的共线性,这是指存在不全为零是数123,,,,k λλλλ ,使得12233λλλλ+++++ i i k ki i X X X v =0(i =1,2,,n )其中i v 是随机变量。
这表明此时解释变量之间只是一种近似的线性关系。
二、产生多重共线性的背景1.经济变量之间具有共同的变化趋势2.模型中包含滞后变量3.利用截面数据建立模型也可能出现共线性4. 样本数据自身的原因第二节 多重共线性产生的后果完全共线性时,矩阵X X '不可逆,参数估计式ˆβ=1()X X X Y -''不存在,OLS 无法应用。
不完全的共线性时,1()X X -'也存在,可以得到参数的估计值,但是对计量经济分析可能会产生一系列影响。
一、参数估计量的无偏性依然成立不完全共线性时ˆ()E β=1()E X X X Y -''⎡⎤⎣⎦=1()()E X X X X U β-''⎡⎤+⎣⎦=β+()1()X X X E U -''=β二、参数OLS 估计值方差扩大 如二元回归模型i Y =12233i i i X X u βββ+++中的2X 与3X 为不完全的共线性时,2X 与3X 之间的相关系数23r 可由下式给出223r=2232223()x x x x∑∑∑容易证明2ˆ()Var β=222223(1)i x r σ-∑3ˆ()Var β=222323(1)ixr σ-∑随着共线性的程度增加,23r 的绝对值趋于1,两个参数估计量的方差也增大。
第七章 多重共线性Multi-Collinearity多重共线性 一、多重共线性的概念 二、多重共线性的检验 三、克服多重共线性的方法 四、案例一、多重共线性的概念 对于模型 Yi=β0+β1X1i+β2X2i+…+βkXki+μi i=1,2,…,n 其基本假设之一是解释变量是互相独立的。
如果某两个或多个解释变量之间出现了相 关性,则称为多重共线性。
如果存在 c1X1i+c2X2i+…+ckXki=0 性。
如果存在 c1X1i+c2X2i+…+ckXki+vi=0 性或交互相关。
i=1,2,…,n其中: ci不全为0,则称为解释变量间存在完全共线i=1,2,…,n其中ci不全为0,vi为随机误差项,则称为 近似共线注意: 完全共线性的情况并不多见,一般出现的是 近似共线性。
二、多重共线性的检验(1)对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则说 明两变量存在较强的多重共线性。
(2)对多个解释变量的模型,采用经验检验法 模型特征:R2与F值较大,但t检验值较小,三、克服多重共线性的方法(◆)逐步回归法以Y为被解释变量,逐个引入解释变量,构 成回归模型,进行模型估计。
根据拟合优度的变化决定新引入的变量是否 独立。
如果拟合优度变化显著,则说明新引入的变 量是一个独立解释变量; 如果拟合优度变化很不显著,则说明新引入 的变量与其它变量之间存在共线性关系。
四、案例根据理论和经验分析,影响粮食生产(Y)的 主要因素有: 农业化肥施用量(X1);粮食播种面积(X2) 成灾面积(X3); 农业机械总动力(X4); 农业劳动力(X5) 已知中国粮食生产的相关数据,建立中国粮食 生产函数: Y=β0+β1 X1 +β2 X2 +β3 X3 +β4 X4 +β4 X5 +μ年份粮食产量表 4.3.3 中国粮食生产与相关投入资料 受灾面积 粮食播种面 农业机械总 农业化肥施 用量 X 1 (万公斤) 1659.8 1739.8 1775.8 1930.6 1999.3 2141.5 2357.1 2590.3 2806.1 2930.2 3151.9 3317.9 3593.7 3827.9 3980.7 4083.7 4124.3 4146.4 积 X2 (千公顷) 114047 112884 108845 110933 111268 110123 112205 113466 112314 110560 110509 109544 110060 112548 112912 113787 113161 108463Y1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 (万吨) 38728 40731 37911 39151 40208 39408 40755 44624 43529 44264 45649 44510 46662 50454 49417 51230 50839 46218X3(公顷) 16209.3 15264.0 22705.3 23656.0 20392.7 23944.7 24448.7 17819.3 27814.0 25894.7 23133.0 31383.0 22267.0 21233.0 30309.0 25181.0 26731.0 34374.0动力 X 4 (万千瓦) 18022 19497 20913 22950 24836 26575 28067 28708 29389 30308 31817 33802 36118 38547 42016 45208 48996 52574农业劳动 力X5 (万人) 31645.1 31685.0 30351.5 30467.0 30870.0 31455.7 32440.5 33330.4 34186.3 34037.0 33258.2 32690.3 32334.5 32260.4 32434.9 32626.4 32911.8 32797.51、用OLS法估计上述模型:ˆ = −12816.44 + 6.213 X + 0.421X − 0.166 X − 0.098 X − 0.028 X Y 1 2 3 4 5(-0.91)(8.39)(3.32)(-2.81)(-1.45)(-0.14)R2接近于1; 给定α=5%,得F临界值 F0.05(5,12)=3.11 F=638.4 > 15.19, 故认上述粮食生产的总体线性关系显著成立。
多重共线性 §1 概述多重共线性的概念 (一)完全的多重共线性 ⒈定义对于k 个解释变量,如果存在一组不全为零的数12,,...k λλλ,使得1122...0k k X X X λλλ+++=则称12,,...,k X X X 之间存在完全的多重共线性 ⒉等价形式rank (X )< k+1 ,矩阵X 不满秩0X X '=()1X X -'不存在(二)不完全的多重共线性对于k 个解释变量,如果存在一组不全为零的数12,,...k λλλ,使得1122...0k k X X X λλλμ++++=其中μ为随机变量则称12,,...,k X X X 之间存在不完全的多重共线性(三)无多重共线性即没有上述完全和不完全的多重共线性,此时rank (X )< k+1,()1X X -'存在。
§2 多重共线性的产生原因和后果 一、 多重共线性的产生原因 二、 多重共线性的后果 (一) 完全的多重共线性 1. 参数估计值不确定11ˆ()()1()ˆX X X Y rank X k X X X ββ--''='<+⇒⇒⇒不满秩不存在无法估出2. 参数估计量的方差无穷大 (二) 不完全的多重共线性1. 参数估计值具有较大的不确定性2. OLS 估计仍然是无偏估计,但估计量的方差随着共线性程度的提高而提高 对二元回归,有2212221121212212121ˆ()111iiVar VIFxr xVIF r r r VIF σσβ==∙-=---↑⇒↑⇒↑⇒↑⇒↑∑∑其中方差膨胀因子共线性程度方差3.一个或多个系数的t 值不显著 对二元回归,有21212111111ˆˆˆ()()ˆ()r r VIF Var Se t t Se ββββ↑⇒↑⇒↑⇒↑⇒↑↑⇒↑⇒=↓⇒共线性程度方差更容易不显著§3 多重共线性的判断(检测) 一、 直观判断观测t 、F 和2R(1)F ,2R 很高――解释变量对因变量的联合影响明显 (2)部分或全部t 值不显著――无法分解出各解释变量对因变量的单独影响二、 观测相关系数 1. 简单相关系数矩阵法缺点:考察两个解释变量相关程度时,未排除其余解释变量对它们的影响2.偏相关系数法 三、辅助回归法1. 利用不包括某一解释变量所构成的判定系数2. 利用解释变量之间所构成回归方程的判定系数 四、本征值和条件指数 五、容许度和方差膨胀因子§4 多重共线性的解决方法(修正) 一、 增大样本容量001222212221121211 1ˆ()1ˆ()i i i i ii Y X X Var VIF x r x x Var βββσσββ=++==∙-↑⇒↓⇒∑∑∑对于一定程度抵消VIF>1的影响二、 利用先验信息改变参数的约束形式1ln ln ln ln ln ,ln 1t t tt t t t t tt t t tt tt t tt t t Q AL K Q A L K L K K L Q AL KAL A K K K Q L A K K αβαααααααβαβ-==+++⎛⎫=== ⎪⎝⎭⎛⎫= ⎪⎝⎭高度相关加入约束条件=,则三、数据的结合时间序列数据⇒时间序列数据与横截面数据相结合01122t 222i21122tu Y u ˆ MPC MPC ˆ u t t t i i tttY X X X Y X Y X X βββαβββββ=+++=++=+++销量价格收入1.找到某一时点的,的数据(截面数据),估计得出,即该横截面2.假定该不仅适用于该横截面,也适用于一段时间,则22011t011t 01ˆ u ˆˆ u MPC t t t t t Y X X Y X βββββββ*-=++=++估计,可得,局限性:只有当各横截面随时间变化不大时方可使用四、模型的差分变换01122t 10111221t-11111122212t-1 u u u t t t t t t t t t t t t t t Y X X Y X X Y Y X X X X X Y βββββββββ------=+++=+++--∆=()()()()(1)(2)(1)-(2)=()+(-)+(-)1122u u t t t t X X β∆+∆+∆∆缺陷:(1)丧失人们所关注的经济关系(2)易出现自相关问题五、逐步回归法 1. 基本思路Y X ⇒⇒⇒对每个经济意义检验选出最优的逐步引入其他作一元回归统计检验基本回归方程解释变量2.对新增变量的判别标准。
第六章 多重共线性问题
一、 实验目的
熟练使用EViews 软件进行计量分析,理解多重共线性的检验和估计的基本方法。
二、 基本知识点:
多重共线性的基本概念,多重共线性的后果,检验是否存在的基本方法——样本决定系数检验、参数估计值的经济检验和参数估计值的统计检验,多重共线性的解决办法——逐步回归法。
三、 实验内容及要求:
依据经济学理论,以实际数据(实验数据五)为基础,①建立反映天津市粮食市场需求状况的粮食需求函数。
②检验所建立的粮食需求函数是否存在多重共线性。
③如果存在多重共线性,使用恰当的方法加以解决。
四、 实验指导:
经分析,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出以外,还可能与相关基础设施有关。
为此,考虑的影响因素主要有国内旅游人数X1,城镇居民人居旅游支出X2、农村居民人均旅游支出X3、公路里程X4和铁路里程X5。
为此设定如下的对数形式的计量经济模型:t t t t t t t X X X X X Y μββββββ++++++=54321543210
Y t ——第年全国旅游收入; X1t ——国内旅游人数(万人); X2t ——城镇居民人均旅游支出(元); X3t ——农村居民人均旅游支出(元); X4t ——公路里程(万公里); X5t ——铁路里程(万公里)。
数据见实验指导数据五,来源于《中国统计年鉴年》
STEP1:参数估计
在Eviews 中点击NEW 项,建立Workfile 输入Y 、X1、X2、X3、X4、X5的数据。
点 击Quick ,选Estimate Equation 项,在OLS 对话框中,键入Y C X1 X2 X3 X4 X5,输出结果。
见图6.4.1。
Dependent Variable: Y Method: Least Squares Date: 12/12/10 Time: 08:35 Sample: 1994 2006 Included observations: 13
Variable
Coefficient Std. Error t-Statistic Prob. C 658.4612 1822.588 0.361278 0.7285 X1 0.046675 0.006842 6.821912 0.0002 X2 6.161783 1.608916 3.829772 0.0065 X3 2.372393 1.083468 2.189629 0.0647 X4 1.134097 1.417467 0.800087 0.4500 X5
-853.5124
426.8085
-1.999755
0.0857
R-squared
0.996586 Mean dependent var 3201.408 Adjusted R-squared 0.994148 S.D. dependent var 1552.189 S.E. of regression 118.7417 Akaike info criterion 12.69582 Sum squared resid 98697.10 Schwarz criterion 12.95656 Log likelihood -76.52280 F-statistic 408.7042 Durbin-Watson stat
1.368523 Prob(F-statistic)
0.000000
图6.4.1 Eviews 输出的回归结果
分析:模型R 2
=0.996586 0.9941482=R 可决系数很高,F 检验值408.7042,显著。
但当α=5%时,t 统计值=2.776,X3、X4和X5系数的t 检验不显著,同时X5的系数否好不符合实际,这表明很可能存在多重共线性。
STEP2:检验
计算各解释变量的相关系数,选择X1、X2、X3、X4、X5数据,点击“quick\group statistics\correlation ”的相关系数矩阵,见表6.4.1。
有相关系数矩阵可以看出:各解释变量相关之间的相关系数较高,证实存在严重多重共线性。
表6.4.1 自变量相关系数矩阵
STEP3:消除多重共线性
采用逐步回归的办法,检验和解决多重共线性问题。
分别作Y 对X1、X2、X3、X4、X5的一元回归,结果如表6.4.2。
表6.4.2 回归结果
以X1为基础,顺次加入其他变量逐步回归。
首先加入X5回归结果为:
t t t
X X Y 5074.134010333.0029.8814ˆ++-= t (4.3736) (3.6639) R 2=0.9752
当α=5%时,365.2)1210()1(025.02/=--=--t k n t α,X5参数的t 检验显著,不予剔除,加入X2回归得:
t t t
t X X X Y 21858.85876.104110503.04331.979ˆ+-+= t (9.7417) (-2.1023) (5.2147) R 2=0.9938
当α=5%时,447.2)1310()1(025.02/=--=--t k n t α,X5参数的t 检验不显著,剔除X5,加入X4回归得:
t t t t
X X X Y 48284.123624.510350.063.3447ˆ+++-= t (4.9483) (7.1915) (0.9468) R 2=0.9916
当α=5%时,447.2)1310()1(025.02/=--=--t k n t α,X4参数的t 检验不显著,剔除X4,加入X3回归得:
t t t t
X X X Y 37640.222690.310431.0845.29955ˆ+++-= t (15.6195) (3.1570) (2.4482) R 2=0.9916
当α=5%时,447.2)1310()1(025.02/=--=--t k n t α,X1、X2、X3参数的t 检验显著,拟合度也好,这即是消除多重共线性结果。
结论:在其他因素不变的情况下,当城镇居民人均旅游支出X2和农民居民旅游支出X3分别增长1%时,国内旅游收入Y 分别增长3.27%与2.76%。
在其他因素不变的情况下,国内旅游人数每增加1万人次,国内旅游收入Y 将增长0.043亿元。
实验数据五。