第四章 多重共线性
- 格式:doc
- 大小:215.00 KB
- 文档页数:7
第四章 多重共线性第一节 什么是多重共线性一、多重共线性的含义所谓多重共线性,不仅包括解释变量之间完全(精确)的线性关系,还包括解释变量之间近似的线性关系。
对于解释变量23,,,k X X X ,如果存在不全为零的数123,,,,k λλλλ ,能使得12233i i k ki X X X λλλλ++++ =0 ,(i =1,2,,n )——即解释变量的数据矩阵的列向量组线性相关。
则称解释变量23,,,k X X X 之间存在着完全的线性关系。
用数据表示,解释变量的数据矩阵为X =213112232223111k k nnkn X X X XX X X X X ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦当()r X <k 时,也说明解释变量23,,,k X X X 之间存在着完全的线性关系。
当存在完全共线性时,至少有一个变量(列向量)可以用其余的变量(列向量)线性表出。
在实际问题中,完全的共线性并不多见。
常见的情形是解释变量23,,,k X X X 之间存在不完全的共线性,这是指存在不全为零是数123,,,,k λλλλ ,使得12233λλλλ+++++ i i k ki i X X X v =0(i =1,2,,n )其中i v 是随机变量。
这表明此时解释变量之间只是一种近似的线性关系。
二、产生多重共线性的背景1.经济变量之间具有共同的变化趋势2.模型中包含滞后变量3.利用截面数据建立模型也可能出现共线性4. 样本数据自身的原因第二节 多重共线性产生的后果完全共线性时,矩阵X X '不可逆,参数估计式ˆβ=1()X X X Y -''不存在,OLS 无法应用。
不完全的共线性时,1()X X -'也存在,可以得到参数的估计值,但是对计量经济分析可能会产生一系列影响。
一、参数估计量的无偏性依然成立不完全共线性时ˆ()E β=1()E X X X Y -''⎡⎤⎣⎦=1()()E X X X X U β-''⎡⎤+⎣⎦=β+()1()X X X E U -''=β二、参数OLS 估计值方差扩大 如二元回归模型i Y =12233i i i X X u βββ+++中的2X 与3X 为不完全的共线性时,2X 与3X 之间的相关系数23r 可由下式给出223r=2232223()x x x x∑∑∑容易证明2ˆ()Var β=222223(1)i x r σ-∑3ˆ()Var β=222323(1)ixr σ-∑随着共线性的程度增加,23r 的绝对值趋于1,两个参数估计量的方差也增大。
第四章:多重共线性二、简答题1、导致多重共线性的原因有哪些?2、多重共线性为什么会使得模型的预测功能失效?3、如何利用辅回归模型来检验多重共线性?4、判断以下说法正确、错误,还是不确定?并简要陈述你的理由。
(1)尽管存在完全的多重共线性,OLS 估计量还是最优线性无偏估计量(BLUE )。
(2)在高度多重共线性的情况下,要评价一个或者多个偏回归系数的个别显著性是不可能的。
(3)如果某一辅回归显示出较高的2i R 值,则必然会存在高度的多重共线性。
(4)变量之间的相关系数较高是存在多重共线性的充分必要条件。
(5)如果回归的目的仅仅是为了预测,则变量之间存在多重共线性是无害的。
5、考虑下面的一组数据:12233i i i Y X X βββ=++来对以上数据进行拟合回归。
(1) 我们能得到这3个估计量吗?并说明理由。
(2) 如果不能,那么我们能否估计得到这些参数的线性组合?可以的话,写出必要的计算过程。
6、考虑以下模型:231234i i i i i Y X X X ββββμ=++++由于2X 和3X 是X 的函数,那么它们之间存在多重共线性。
这种说法对吗?为什么? 7、在涉及时间序列数据的回归分析中,如果回归模型不仅含有解释变量的当前值,同时还含有它们的滞后值,我们把这类模型称为分布滞后模型(distributed-lag model )。
我们考虑以下模型:12313233i t t t t t Y X X X X βββββμ---=+++++其中Y ——消费,X ——收入,t ——时间。
该模型表示当期的消费是其现期的收入及其滞后三期的收入的线性函数。
(1) 在这一类模型中是否会存在多重共线性?为什么? (2) 如果存在多重共线性的话,应该如何解决这个问题? 8、设想在模型12233i i i iY X X βββμ=+++中,2X 和3X 之间的相关系数23r 为零。
如果我们做如下的回归:1221i i i Y X ααμ=++ 1332i i i Y X γγμ=++(1)会不会存在22ˆˆαβ=且33ˆˆγβ=?为什么? (2)1ˆβ会等于1ˆα或1ˆγ或两者的某个线性组合吗? (3)会不会有22ˆˆvar()var()βα=且33ˆˆvar()var()γβ=? 9、通过一些简单的计量软件(比如EViews 、SPSS ),我们可以得到各变量之间的相关矩阵:2323232311 1k k k k r r r r R r r ⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭。
第四章 多重共线性一、判断题1、多重共线性是一种随机误差现象。
(F )2、多重共线性是总体的特征。
(F )3、在存在不完全多重共线性的情况下,回归系数的标准差会趋于变小,相应的t 值会趋于变大。
(F )4、尽管有不完全的多重共线性,OLS 估计量仍然是最优线性无偏估计量。
(T )5、在高度多重共线的情形中,要评价一个或多个偏回归系数的个别显著性是不可能的。
(T )6、变量的两两高度相关并不表示高度多重共线性。
(F )7、如果分析的目的仅仅是预测,则多重共线性一定是无害的。
(T )8、在多元回归中,根据通常的t 检验,每个参数都是统计上不显著的,你就不会得到一个高的2R 值。
(F ) 。
9、如果简单相关系数检测法证明多元回归模型的解释变量两两不相关,则可以判断解释变量间不存在多重共线性。
( F )10、多重共线性问题的实质是样本问题,因此可以通过增加样本信息得到改善。
(T ) 11、虽然多重共线性下,很难精确区分各个解释变量的单独影响,但可据此模型进行预测。
(T )12、如果回归模型存在严重的多重共线性,可不加分析地去掉某个解释变量从而消除多重共线性。
(F )13、多重共线性的存在会降低OLS 估计的方差。
(F )14、随着多重共线性程度的增强,方差膨胀因子以及系数估计误差都在增大。
(T ) 15、解释变量和随机误差项相关,是产生多重共线性的原因。
(F ) 16、对于模型i ni n i 110i u X X Y ++++=βββ ,n 1i ,, =;如果132X X X -=,模型必然存在解释变量的多重共线性问题。
(T )17、多重共线性问题是随机扰动项违背古典假定引起的。
(F ) 18、存在多重共线性时,模型参数无法估计。
(F ).二、单项选择题1、在线性回归模型中,若解释变量1X 和2X 的观测值成比例,既有12i i X kX =,其中k 为 非零常数,则表明模型中存在 ( B ) A 、异方差 B 、多重共线性 C 、序列相关 D 、随机解释变量2、 在多元线性回归模型中,若某个解释变量对其余解释变量的可决系数接近1,则表明模型中存在 ( C ) A 、异方差性 B 、序列相关 C 、多重共线性 D 、拟合优度低3、对于模型i i 22i 110i u X X Y +++=βββ,与0r 12=相比,当50r 12.=时,估计量1βˆ的方差()1βˆvar 将是原来的 ( B ) A 、 1 倍 B 、 倍 C 、 倍 D 、 2 倍>4、如果方差膨胀因子VIF =10,则认为什么问题是严重的( C )A 、异方差问题B 、序列相关问题C 、多重共线性问题D 、 解释变量与随机项的相关性 5、经验认为某个解释与其他解释变量间多重共线性严重的情况是这个解释变量的VIF ( C )。
第四章 多重共线性一、填空题1. 在多元线性回归模型中,解释变量间呈现近似线性关系的现象为________问题,给计量经济建模带来不利影响,因此需检验和处理它。
2. 在回归分析中,当检验回归系数所得的t 值不显著时,我们往往将它归结为多重共线性。
但也可能是其他原因的影响,如 或 。
3. 存在多重共线时,回归系数的标准差趋于 ,t 值趋于 。
方差膨胀因子越大,OLS 估计量的 将越大。
4. 检验样本是否存在多重共线性的常见方法有:________ 、 和 。
5. 处理多重共线性的方法主要有两大类:__________和_________。
二、问答题1. 简述多重共线性的含义。
2. 简述多重共线性的后果。
3. 方差膨胀因子(Variance Inflation Factor, VIF )及其含义?4. 列举多重共线性的检验方法。
5. 多重共线性的补救办法?6. 假设在模型i i i i u X X Y +++=22110βββ中,1X 与2X 之间的相关系数为零,于是有人建议你进行如下回归:i i i i i i u X Y u X Y 22201110++=++=γγαα(1) 是否存在11ˆˆβα=且22ˆˆβγ=?为什么? (2) 0ˆβ会等于0ˆα或0ˆγ或某两个的某个线性组合吗? (3) 是否有()()11ˆvar ˆvar αβ=且()()22ˆvar ˆvar γβ=? 7. 在决定一个回归模型的“最优”解释变量集时人们常用逐步回归的方法。
在逐步回归中既可采取每次引进一个解释变量的程序(逐步向前回归),也可以先把所有可能的解释变量都放在一个多元回归中,然后逐一地将它们剔除(逐步向后回归)。
加进或剔除一个变量,通常是根据F 检验看其对ESS 的贡献而作出决定的。
根据你现在对多重共线性的认识,你赞成任何一种逐步回归的程序吗?为什么?8.克莱因与戈德伯格曾用1921-1950年(1942-1944年战争期间略去)美国国内消费Y 和工资收入X1、非工资—非农业收入X2、农业收入X3的时间序列资料,利用OLSE 估计得出了下列回归方程:37.107 95.0 (1.09) (0.66) (0.17) (8.92) 121.0452.0059.1133.8ˆ2321==+++=F R X X X Y 括号中的数据为相应参数估计量的标准误。
试对上述模型进行评析,指出其中存在的问题。
9. 将下列函数以适当的方法消除多重共线性(1)消费函数为:u P W C +++=210βββ,式中C 、W 、P 分别表示消费、工资收入和非工资收入,W 与P 可能高度相关,但研究表明2/12ββ=。
(2)需求函数为:u P P Y Q s ++++=3210ββββ,式中Q 、Y 、P 、P s 分别表示需求量、收入水平、该商品价格及其替代品价格水平,P 、P s 可能高度相关。
三、实践题1. 下表给出了中国商品进口额Y 、国内生产总值GDP 、消费者价格指数CPI 。
资料来源:《中国统计年鉴》,中国统计出版社2000年、2004年。
请考虑下列模型:it t t u CPI GDP Y ++=ln ln ln 321βββ+ (1) 利用表中数据估计此模型的参数。
(2) 你认为数据中有多重共线性吗?(3) 进行以下回归:it t it t it t v CPI C C GDP v CPI B B Y v GDP A A Y 321221121ln ln ln ln ln ln ++=+=+=++根据这些回归你能对数据中多重共线性的性质说些什么?(4) 假设数据有多重共线性,但32ˆˆββ和在5%水平上个别地显著,并且总的F 检验也是显著的。
对这样的情形,我们是否应考虑共线性的问题?2. 理论上认为影响能源消费需求总量的因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、能源转换技术等因素。
为此,收集了中国能源消费总量Y (万吨标准煤)、国内生产总值(亿元)X1 (代表经济发展水平)、国民总收入(亿元)X2(代表收入水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发展水平及产业结构)、人均生活电力消费 (千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能源转换技术)等在1985-2002年期间的统计数据,具体如下:资料来源:《中国统计年鉴》2004、2000年版,中国统计出版社。
要求:(1)建立对数线性多元回归模型(2)如果决定用表中全部变量作为解释变量,你预料会遇到多重共线问题吗?为什么? (3)如果有多重共线性,你准备怎样解决这个问题?明确你的假设并说明全部计算。
参考答案 一、填空题1.多重共线性;2.设定偏误;模型的理论依据不强。
3. 无穷大;很小;标准差。
4.简单相关系数;可决系数法;参数t 检验的显著性。
5. 差分法;逐步回归法。
二、问答题1. 答:对于K 元线性回归模型i ik k i i i u X X X Y +++++=ββββ 22110 , i=1,2,…,n其基本假设之一是解释变量之间是互相独立的。
如果某两个或多个解释变量之间出现了相关性,则称为多重共线性。
如果存在02211=+++ik k i i X X X λλλ , i=1,2,…,n 其中λ不全为0,即某一个解释变量可以用其它解释变量的线性组合表示,则称为完全共线性。
2. 答:在多重共线性存在的情况下,OLS 估计量仍然保持BLUE 的性质。
虽然OLS 估计量可以得到,但极不稳定,数据资料即使有极小的变化,估计值及标准差就会有很敏感的反应。
估计量的方差随着共线程度的增加而变大,如果达到完全共线,估计量的方差就会为无限大。
随着共线程度的增加,对于回归系数所进行的t 检验,接受原假设的概率加大,即回归系数可能变得不显著。
但与此同时,可以得到较高的可决系数(R 2),如果模型的用途是预测,那么,高度的多重共线未必不是好事。
3. 答:回归系数的OLS 估计量的方差为:12)()(-'=iiu X X b Var σ,可以看作随机项方差2u σ乘上一个比例常数1)(-'ii X X ,这个比例常数称为方差膨胀因子,即1)(-'=iii X X VIF 可以证明:211i i R VIF -=式中i=1,2,…,k, 表示回归模型中引入了k 个解释变量X 。
2i R 为i X 作为被解释变量,与其余k-1个X 进行多元回归分析后得到的可决系数。
如果2i R 越大,说明i X 与其余k-1个X 的多重共线程度越高,得到的i VIF 就会表现出越大。
为了综合评价OLS 估计时出现的多重共线性的程度,可以采用平均膨胀因子: kVIFVIF Ki i∑==1一般认为i VIF 超过10(也有人主张超过5)时,就认为多重共线的程度较高,必须加以处理。
4. 答:主要有相关系数法、可决系数检验法和方差膨胀因子法。
诊断多重共线性最直接的办法就是观察解释变量之间的相关系数,由此可以观察发生在解释变量之间的相关程度的大小。
如果是在回归分析完成之后考察多重共线性的存在,那末,重要变量的回归系数如果没有通过t 检验, 或回归系数的数值与符号与预期严重不符,可以认为存在多重共线问题。
由于引入模型中的解释变量有多个,到底是哪一个导致了多重共线的后果,可以采用可决系数法来判别。
方差膨胀因子法(VIF )也是诊断多重共线性的常用方法。
5. 答:多重共线性存在的情况下最简单的补救办法就是弃掉一个共线变量。
一般地,减轻多重共线性从三个方面考虑:样本方面、解释变量方面和模型的形式方面。
样本方面。
主要是考虑加大样本容量,增加数据小数点后的位数,目的是降低解释变量序列之间成比例的可能性。
解释变量方面。
应用面板数据估计模型,或利用来自经济理论和以往经验的先验信息,用以消除多重共线对估计模型的影响。
逐步回归法是常用的一种多重共线性存在时选择解释变量的方法。
逐步回归法。
要排除多重共线性产生的不良后果,软件操作中应用较多的是逐步回归法。
逐步回归法的基本思想是:将Y 分别对每一个X 作回归模型(K 个),选一可决系数R 2最大者,作为基础方程。
将其余R 2由小到大排队,将X 按R 2由大到小的顺序逐次加入基础方程。
有三种情况:a.加入某个X 后, R 2提高,t 检验显著,保留该X ;b.加入某个X 后, R 2没改善,剔除该X ;c.加入某个X 后, R 2变大,t 绝对值下降,b 的符号、数值变异,认为该X 引起多重共线,不必加入。
模型形式方面。
一阶差分回归模型可以降低多重共线的严重程度,所以我们往往对原模型进行差分变换,对得到的差分模型进行估计进而得到队原模型的估计结果。
这种办法的不足是:由于计算差分,失去了一个观察值,这在小样本中是一个值得关注的问题。
一阶差分法只适于时间序列资料。
同时由于差分计算,可能给差分模型引入原来并不存在的残差项自相关的问题。
6.答:(1) 存在11ˆˆβα=且22ˆˆβγ=。
因为()()()()()()()22122212122211ˆ∑∑∑∑∑∑∑--=ii iiii ii iii x x x x x x x y x x y β当1X 与2X 之间的相关系数为零时,离差形式的021=∑i i xx有 121122212211ˆˆαβ==⎪⎭⎫ ⎝⎛⎪⎭⎫⎝⎛⎪⎭⎫⎝⎛⎪⎭⎫ ⎝⎛=∑∑∑∑∑∑ii i i i i i i xxy x x x x y同理有:22ˆˆβγ= (2) 会的。
(3) 存在()()11ˆvar ˆvar αβ= 且 ()()22ˆvar ˆvar γβ= 因为()()∑-=21221211ˆvar r x i σβ当012=r 时,()()()12122122121ˆvar 1ˆvar ασσβ==-=∑∑ii x r x同理,有()()22ˆvar ˆvar γβ= 8. 答:从模型拟合结果可知,样本观测个数为27,消费模型的判定系数95.02=R ,F 统计量为107.37,在0.05置信水平下查分子自由度为3,分母自由度为23的F 临界值为3.028,计算的F 值远大于临界值,表明回归方程是显著的。
模型整体拟合程度较高。
依据参数估计量及其标准误,可计算出各回归系数估计量的t 统计量值:11.009.1121.0 ,69.066.0452.0 ,10.617.0059.1 ,91.092.8133.83210========t t t t除1t 外,其余的j t 值都很小。
工资收入X1的系数的t 检验值虽然显著,但该系数的估计值过大,该值为工资收入对消费边际效应,因为它为1.059,意味着工资收入每增加一美元,消费支出的增长平均将超过一美元,这与经济理论和常识不符。