第四章 多重共线性
- 格式:ppt
- 大小:758.50 KB
- 文档页数:51
计量经济学课件:第四章多重共线性第四章多重共线性第⼀节违背基本假定的⼀般描述⼀、基本假定的回顾1、零均值假定。
2、同⽅差假定。
3、⽆⾃相关假定。
4、解释变量与随机误差项不相关。
5、⽆多重共线性假定。
6、正态性假定。
除此之外,还有⼀些需要注意的地⽅,回归模型关于参数线性;在重复抽样中X 值是固定的(或X 是⾮随机的);X 的值要有变异;模型设定是正确的。
⼆、假定1和假定6违背的讨论1、违背假定1的情况。
(1)正确理解零均值假定是掌握所有假定的关键(参见Wooldridge ,计量经济学导轮现代观点,pp.23-25)。
(2)假定1不满⾜的数学描述。
设⼀元线性回归模型为121212'1212,1,2,,()0,i i i i i i i i i iY X u i nE u k E Y X E u X k k X X ββββββββββ=++==≠=++=++=++=+如果有则有()()()由上式表明,这时在0≠)(i u E 下,改变的只是截距项,⽽对模型的线性结构并不影响。
(3)对假定1被破坏的解释。
通常在这种情况下,我们认为是变量所取的数据可能出现了异常表现,即有异常值。
因为按照零均值的意义,要求各个散点是均匀地分布在回归线的周围。
修正的⽅法将在后⾯虚拟变量部分介绍。
例如,我们分析江苏省社会商品消费品零售总额与江苏省城乡居民可⽀配收⼊之间的关系,发现在1991年该省的社会消费品零售总额存在异常值,表现为样本回归模型的残差在1991年有估计值与实际值存在明显的差异。
见下图和下表Dependent Variable: JSSHEHSPMethod: Least SquaresDate: 10/16/04 Time: 09:38Sample: 1980 1998Included observations: 19Variable Coefficient Std. Error t-Statistic Prob.R-squared 0.990391 Mean dependent var 751.2384Adjusted R-squared 0.989826 S.D. dependent var 728.4301S.E. of regression 73.47491 Akaike info criterion 11.53107Sum squared resid 91775.55 Schwarz criterion 11.63048Log likelihood -107.5451 F-statistic 1752.172Durbin-Watson stat 1.905133 Prob(F-statistic) 0.000000另⼀⽅⾯,有时通过变量的时序数据的样本折线图也可直接观察到样本是否存在异常表现。
第四章 多重共线性第一节 什么是多重共线性一、多重共线性的含义所谓多重共线性,不仅包括解释变量之间完全(精确)的线性关系,还包括解释变量之间近似的线性关系。
对于解释变量23,,,k X X X ,如果存在不全为零的数123,,,,k λλλλ ,能使得12233i i k ki X X X λλλλ++++ =0 ,(i =1,2,,n )——即解释变量的数据矩阵的列向量组线性相关。
则称解释变量23,,,k X X X 之间存在着完全的线性关系。
用数据表示,解释变量的数据矩阵为X =213112232223111k k nnkn X X X XX X X X X ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦当()r X <k 时,也说明解释变量23,,,k X X X 之间存在着完全的线性关系。
当存在完全共线性时,至少有一个变量(列向量)可以用其余的变量(列向量)线性表出。
在实际问题中,完全的共线性并不多见。
常见的情形是解释变量23,,,k X X X 之间存在不完全的共线性,这是指存在不全为零是数123,,,,k λλλλ ,使得12233λλλλ+++++ i i k ki i X X X v =0(i =1,2,,n )其中i v 是随机变量。
这表明此时解释变量之间只是一种近似的线性关系。
二、产生多重共线性的背景1.经济变量之间具有共同的变化趋势2.模型中包含滞后变量3.利用截面数据建立模型也可能出现共线性4. 样本数据自身的原因第二节 多重共线性产生的后果完全共线性时,矩阵X X '不可逆,参数估计式ˆβ=1()X X X Y -''不存在,OLS 无法应用。
不完全的共线性时,1()X X -'也存在,可以得到参数的估计值,但是对计量经济分析可能会产生一系列影响。
一、参数估计量的无偏性依然成立不完全共线性时ˆ()E β=1()E X X X Y -''⎡⎤⎣⎦=1()()E X X X X U β-''⎡⎤+⎣⎦=β+()1()X X X E U -''=β二、参数OLS 估计值方差扩大 如二元回归模型i Y =12233i i i X X u βββ+++中的2X 与3X 为不完全的共线性时,2X 与3X 之间的相关系数23r 可由下式给出223r=2232223()x x x x∑∑∑容易证明2ˆ()Var β=222223(1)i x r σ-∑3ˆ()Var β=222323(1)ixr σ-∑随着共线性的程度增加,23r 的绝对值趋于1,两个参数估计量的方差也增大。
第四章:多重共线性二、简答题1、导致多重共线性的原因有哪些?2、多重共线性为什么会使得模型的预测功能失效?3、如何利用辅回归模型来检验多重共线性?4、判断以下说法正确、错误,还是不确定?并简要陈述你的理由。
(1)尽管存在完全的多重共线性,OLS 估计量还是最优线性无偏估计量(BLUE )。
(2)在高度多重共线性的情况下,要评价一个或者多个偏回归系数的个别显著性是不可能的。
(3)如果某一辅回归显示出较高的2i R 值,则必然会存在高度的多重共线性。
(4)变量之间的相关系数较高是存在多重共线性的充分必要条件。
(5)如果回归的目的仅仅是为了预测,则变量之间存在多重共线性是无害的。
5、考虑下面的一组数据:12233i i i Y X X βββ=++来对以上数据进行拟合回归。
(1) 我们能得到这3个估计量吗?并说明理由。
(2) 如果不能,那么我们能否估计得到这些参数的线性组合?可以的话,写出必要的计算过程。
6、考虑以下模型:231234i i i i i Y X X X ββββμ=++++由于2X 和3X 是X 的函数,那么它们之间存在多重共线性。
这种说法对吗?为什么? 7、在涉及时间序列数据的回归分析中,如果回归模型不仅含有解释变量的当前值,同时还含有它们的滞后值,我们把这类模型称为分布滞后模型(distributed-lag model )。
我们考虑以下模型:12313233i t t t t t Y X X X X βββββμ---=+++++其中Y ——消费,X ——收入,t ——时间。
该模型表示当期的消费是其现期的收入及其滞后三期的收入的线性函数。
(1) 在这一类模型中是否会存在多重共线性?为什么? (2) 如果存在多重共线性的话,应该如何解决这个问题? 8、设想在模型12233i i i iY X X βββμ=+++中,2X 和3X 之间的相关系数23r 为零。
如果我们做如下的回归:1221i i i Y X ααμ=++ 1332i i i Y X γγμ=++(1)会不会存在22ˆˆαβ=且33ˆˆγβ=?为什么? (2)1ˆβ会等于1ˆα或1ˆγ或两者的某个线性组合吗? (3)会不会有22ˆˆvar()var()βα=且33ˆˆvar()var()γβ=? 9、通过一些简单的计量软件(比如EViews 、SPSS ),我们可以得到各变量之间的相关矩阵:2323232311 1k k k k r r r r R r r ⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭。