第六章 多重共线性
- 格式:doc
- 大小:39.00 KB
- 文档页数:3
实用回归分析第二版第六章习题答案
6.1试举一个产生多重共线性的经济实例。
答:例如有人建立某地区粮食产量回归模型,以粮食产量为因变量¥,化肥用量为X1,水浇地面积为X2,农业投入资金为X3。
由于农业投入资金X3与化肥用量X1,水浇地面积X2有很强的相关性,所以回归方程效果会很差。
再例如根据某行业企业数据资料拟合此行业的生产函数时,资本投入、劳动力投入、资金投入与能源供应都与企业的生产规模有关,往往出现高度相关情况,大企业二者都大,小企业都小。
6.2多重共线性对回归参数的估计有何影响?答:
1、完全共线性下参数估计量不存在;
2、近似共线性下OLS估计量非有效;
3、参数估计量经济含义不合理;
4、变量的显著性检验失去意义;
5、模型的预测功能失效。
6.3具有严重多重共线性的回归方程能不能用来做经济预测?
答:虽然参数估计值方差的变大容易使区间预测的“区间”变大,使预测失去意义。
但如果利用模型去做经济预测,只要保证自变量的相关类型在未来期中一直保持不变,即使回归模型中包含严重多重共线性的变量,
也可以得到较好预测结果;否则会对经济预测产生严重的影响。
6.4多重共线性的产生于样本容量的个数n、自变量的个数p有无关系?
答:有关系,增加样本容量不能消除模型中的多重共线性,但能适当消除多重共线性造成的后果。
当自变量的个数p较大时,一般多重共线性容易发生,所以自变量应选择少而精。
第6章 多重共线性6.1 多重共线性及其产生的原因6.1.1 多重共线性(Multicollinearity)的定义从数学意义上去解释变量之间存在共线性,就是对于变量k x x x ,,21,如果存在不全为零的常数k λλλ ,,21,使得下式成立02211=+++k k x x x λλλ (6.1.1)则称变量k x x x ,,21之间存在完全共线性。
在计量经济学中,一个具有两个以上解释变量的线性回归模型里,如果解释变量之间存在式(6.1.1)那样的关系,则称这些解释变量之间存在完全的多重共线性。
完全多重共线性还可以用矩阵形式加以描述。
设解释变量矩阵X 为X = ⎪⎪⎪⎪⎪⎭⎫⎝⎛kn k k n n x x x x x x x x x 212222*********所谓完全的多重共线性,就是0='X X 。
或者rank (X )k 〈+1,表明在矩阵X 中,至少有一个列向量可以由其余的列向量线性表示。
所谓近似共线性或不完全多重共线性是指对于k 个解释变量t x (t =1,2,3,…k),如果存在不全为零的数k λλλ ,,21使得02211=++++u x x x k k λλλ (6.1.2)成立,其中u 为随机误差项。
如果k 个解释变量之间不存在上述完全或不完全的线性关系式,则称无多重共线性。
如果用矩阵表示,这时X 为满秩矩阵,即rank (X )=k +1。
6.1.2 多重共线性产生的原因根据经验,多重共线性产生的经济背景和原因有以下几个方面:1.经济变量之间往往存在同方向的变化趋势 2.经济变量之间往往存在着密切的关联度 3.在模型中引入滞后变量也容易产生多重共线性4.在建模过程中由于解释变量选择不当,引起了变量之间的多重共线性6.2 多重共线性造成的影响6.2.1 完全共线性下参数估计量不存在多元线性回归模型U XB Y +=的普通最小二乘估计量为Y X X X B ''=-1)(ˆ如果解释变量之间存在完全多重共线性,由于X 矩阵的系数行列式0='X X ,逆矩阵1)(-'X X 不存在,无法得到参数估计式Bˆ。
回归分析中的多重共线性问题及解决方法回归分析是统计学中常用的一种分析方法,用于研究自变量与因变量之间的关系。
然而,在进行回归分析时,常常会遇到多重共线性的问题。
多重共线性指的是自变量之间存在高度相关性,这会导致回归系数估计不准确,模型预测能力下降,甚至使得结果产生误导。
本文将探讨回归分析中的多重共线性问题及解决方法。
多重共线性问题的产生多重共线性问题通常是由于自变量之间存在高度相关性所导致的。
当自变量之间存在线性相关关系时,回归模型的系数估计变得不稳定,可能会产生较大的标准误差,从而影响对因变量的预测能力。
多重共线性问题的影响多重共线性问题会使得回归系数的估计产生偏离,导致模型的稳定性下降。
此外,多重共线性还会对回归模型的解释能力产生影响,使得模型的可信度下降。
解决多重共线性的方法为了解决多重共线性问题,可以采取以下几种方法:1. 增加样本量增加样本量可以减少参数估计的方差,从而提高估计的精确度。
通过增加样本量,可以减轻多重共线性对参数估计的影响。
2. 删除相关自变量当自变量之间存在高度相关性时,可以考虑删除其中一个或多个相关自变量,以减轻多重共线性的影响。
通过删除相关自变量,可以减少模型的复杂性,提高模型的解释能力。
3. 合并相关自变量另一种解决多重共线性问题的方法是合并相关自变量。
通过将相关自变量进行合并或者构建新的自变量,可以降低自变量之间的相关性,从而减轻多重共线性的影响。
4. 使用主成分分析主成分分析是一种常用的多重共线性处理方法。
通过主成分分析,可以将相关自变量进行线性组合,从而得到一组新的无关自变量,使得回归模型的稳定性得到提高。
5. 使用正则化方法正则化方法是另一种处理多重共线性问题的有效手段。
通过对回归系数进行惩罚,可以有效地控制多重共线性对参数估计的影响,从而提高模型的稳定性。
结语多重共线性是回归分析中常见的问题,对回归模型的稳定性和预测能力都会产生负面影响。
因此,处理多重共线性问题是非常重要的。
试述多重共线性(统计累赘)的概念、特征及其测量方式和处理方式。
1、概念多重共线性是指自变量之间存在线性相关关。
倘若其中两个自变项的关系特别强,则在相互控制后就会使每者的效果减弱,而其他的变相的效果就会因此而增大。
2、特征3、产生原因产生多重相关性的原因主要包括四方面。
一是没有足够多的样本数据; 二是选取的自变量之间客观上就有共线性的关系; 还可能由其它因素导致, 如数据采集所用的方法, 模型设定, 一个过度决定的模型等。
但多数研究者认为共线性本质上是由于样本数据不足引起的。
4、测量方式(1)经验式的诊断方法通过观察,得到一些多重相关性严重存在的迹象。
①在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。
②回归系数的代数符号与专业知识或一般经验相反;或者该自变量与因变量的简单相关系数符号相反。
③对重要自变量的回归系数进行t 检验,其结果不显著。
特别是当F 检验能在高精度下通过,测定系数R 2的值也很大,但自变量的t 检验却全都不显著,这时多重相关性的可能将会很大。
④如果增加或删除一个变量,或者增加或删除一个观测值,回归系数发生了明显的变化。
⑤重要自变量的回归系数置信区别明显过大。
⑥在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。
⑦对于一般的观测数据,如果样本点的个数过少,比如接近于变量的个数或者少于变量的个数,样本数据中的多重相关性就会经常存在。
(2)统计检验方法共线性的诊断方法是基于对自变量的观测数据构成的矩阵X ’X 进行分析,使用各种反映自变量间相关性的指标。
共线性诊断常用的统计量有方差膨胀因子VIF 或容限TOL 、条件指数和方差比例等。
方差膨胀因子VIF 是指回归系数的估计量由于自变量的共线性使其方差增加的一个相对度量。
对于第i 个回归系数,它的方差膨胀因子定义为:VIF=1/1-R 2=1/TOL i 其中R2i 是自变量Xi 对模型中其余自变量线性回归模型的R 平方。
计量经济学习题第6章多重共线性第6章多重共线性⼀、单项选择题1、当模型存在严重的多重共线性时,OLS估计量将不具备()A、线性B、⽆偏性C、有效性D、⼀致性2、经验认为某个解释与其他解释变量间多重共线性严重的情况是这个解释变量的VIF()A、⼤于B、⼩于C、⼤于5D、⼩于53、模型中引⼊实际上与解释变量有关的变量,会导致参数的OLS估计量⽅差()A、增⼤B、减⼩C、有偏D、⾮有效4、对于模型y t=b0+b1x1t+b2x2t+u t,与r12=0相⽐,r12=0.5时,估计量的⽅差将是原来的()A、1倍B、1.33倍C、1.8倍D、2倍5、如果⽅差膨胀因⼦VIF=10,则什么问题是严重的()A、异⽅差问题B、序列相关问题C、多重共线性问题D、解释变量与随机项的相关性6、在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于1,则表明模型中存在( )A 异⽅差B 序列相关C 多重共线性D ⾼拟合优度7、存在严重的多重共线性时,参数估计的标准差()A、变⼤B、变⼩C、⽆法估计D、⽆穷⼤8、完全多重共线性时,下列判断不正确的是()A、参数⽆法估计B、只能估计参数的线性组合C、模型的拟合程度不能判断D、可以计算模型的拟合程度⼆、多项选择题1、下列哪些回归分析中很可能出现多重共线性问题()A、资本投⼊与劳动投⼊两个变量同时作为⽣产函数的解释变量B、消费作被解释变量,收⼊作解释变量的消费函数C、本期收⼊和前期收⼊同时作为消费的解释变量的消费函数D、商品价格、地区、消费风俗同时作为解释变量的需求函数E、每亩施肥量、每亩施肥量的平⽅同时作为⼩麦亩产的解释变量的模型2、当模型中解释变量间存在⾼度的多重共线性时()A、各个解释变量对被解释变量的影响将难以精确鉴别B、部分解释变量与随机误差项之间将⾼度相关C、估计量的精度将⼤幅度下降D、估计对于样本容量的变动将⼗分敏感E、模型的随机误差项也将序列相关3、下述统计量可以⽤来检验多重共线性的严重性()A、相关系数B、DW值C、⽅差膨胀因⼦D、特征值E、⾃相关系数4、多重共线性产⽣的原因主要有()A、经济变量之间往往存在同⽅向的变化趋势B、经济变量之间往往存在着密切的关联C、在模型中采⽤滞后变量也容易产⽣多重共线性D、在建模过程中由于解释变量选择不当,引起了变量之间的多重共线性E、以上都正确5、多重共线性的解决⽅法主要有()A、保留重要的解释变量,去掉次要的或替代的解释变量B、利⽤先验信息改变参数的约束形式C、变换模型的形式D、综合使⽤时序数据与截⾯数据E、逐步回归法以及增加样本容量6、关于多重共线性,判断错误的有()A、解释变量两两不相关,则不存在多重共线性B、所有的t检验都不显著,则说明模型总体是不显著的C、有多重共线性的计量经济模型没有应⽤的意义D、存在严重的多重共线性的模型不能⽤于结构分析7、模型存在完全多重共线性时,下列判断正确的是()A、参数⽆法估计B、只能估计参数的线性组合C、模型的判定系数为0D、模型的判定系数为1三、简述1、什么是多重共线性?产⽣多重共线性的原因是什么?2、什么是完全多重共线性?什么是不完全多重共线性?3、完全多重共线性对OLS估计量的影响有哪些?4、不完全多重共线性对OLS估计量的影响有哪些?5、从哪些症状中可以判断可能存在多重共线性?6、什么是⽅差膨胀因⼦检验法?四、判断(1)如果简单相关系数检测法证明多元回归模型的解释变量两两不相关,则可以判断解释变量间不存在多重共线性。
第六章 多重共线性在多元线性回归分析的经典假设中,假定模型所包含的解释变量之间不存在线性关系,即无多重共线性。
但是由于经济变量本身的固有性质,许多的变量之间总是会存在着一定的相关性。
例如,以企业截面数据为样本估计的生产函数,作为其解释变量的有诸如资本、劳动、能源……等等投入要素,这些投入要素都与企业的生产规模有关,显然,它们之间存在着明显的相关性。
再如,以家庭收入I和商品价格P为解释变量分析家庭生活状况的模型。
由于收入较高的家庭购买商品,普通会选择质地较好、价格较高的;而收入较低的家庭购买商品则会选择较便宜的。
这样两解释变量I与P之间存在着明显的相关性。
本章的目的与要求当解释变量之间存在着线性关系,违背了解释变量之间不存在共线性的经典假定时,如何处理可能浮现的一系列状况,就是本章所要讨论的问题。
通过本章学习,要求重点掌握的内容是:明确多重共线性的概念及其表现形式;充分理解当线性回归模型存在多重共线性情形下,使用普通最小二乘估计模型参数将会引起的各种不良后果;熟练掌握检测多重共线性的各种方法以及在此情形下相应的处理与估计改进方法,从而能够运用这些知识处理经济计量分析实践中的相应问题。
本章内容(计划学时)一、多重共线性的性质1、多重共线性的概念2、解释变量线性关系的表现形式3、多重共线性的产生原因4、多重共线性的性质二、多重共线性的后果与检测1、多重共线性的后果2、多重共线性的检测方法三、多重共线性的补救措施学习重点一、多重共线性的性质二、多重共线性的后果与检测方法三、多重共线性的补救措施学习难点一、多重共线性的性质二、多重共线性的后果与检测方法 三、多重共线性的补救措施第一节 多重共线性的性质一、多重共线性的概念多重共线性就是指线性回归模型中若干解释变量或者全部解释变量的样本观测值之间具有某种线性关系,也就是说,对于有 k 个解释变量的线性回归模型Y = β0 + β1X 1 + β2X 2 + … + βk X k + u (式6-1.1) 即模型中的各解释变量Xi 的样本观测值之间存在一定的线性关系,我们就称模型存在多重共线性。
多重共线性 §1 概述多重共线性的概念 (一)完全的多重共线性 ⒈定义对于k 个解释变量,如果存在一组不全为零的数12,,...k λλλ,使得1122...0k k X X X λλλ+++=则称12,,...,k X X X 之间存在完全的多重共线性 ⒉等价形式rank (X )< k+1 ,矩阵X 不满秩0X X '=()1X X -'不存在(二)不完全的多重共线性对于k 个解释变量,如果存在一组不全为零的数12,,...k λλλ,使得1122...0k k X X X λλλμ++++=其中μ为随机变量则称12,,...,k X X X 之间存在不完全的多重共线性(三)无多重共线性即没有上述完全和不完全的多重共线性,此时rank (X )< k+1,()1X X -'存在。
§2 多重共线性的产生原因和后果 一、 多重共线性的产生原因 二、 多重共线性的后果 (一) 完全的多重共线性 1. 参数估计值不确定11ˆ()()1()ˆX X X Y rank X k X X X ββ--''='<+⇒⇒⇒不满秩不存在无法估出2. 参数估计量的方差无穷大 (二) 不完全的多重共线性1. 参数估计值具有较大的不确定性2. OLS 估计仍然是无偏估计,但估计量的方差随着共线性程度的提高而提高 对二元回归,有2212221121212212121ˆ()111iiVar VIFxr xVIF r r r VIF σσβ==∙-=---↑⇒↑⇒↑⇒↑⇒↑∑∑其中方差膨胀因子共线性程度方差3.一个或多个系数的t 值不显著 对二元回归,有21212111111ˆˆˆ()()ˆ()r r VIF Var Se t t Se ββββ↑⇒↑⇒↑⇒↑⇒↑↑⇒↑⇒=↓⇒共线性程度方差更容易不显著§3 多重共线性的判断(检测) 一、 直观判断观测t 、F 和2R(1)F ,2R 很高――解释变量对因变量的联合影响明显 (2)部分或全部t 值不显著――无法分解出各解释变量对因变量的单独影响二、 观测相关系数 1. 简单相关系数矩阵法缺点:考察两个解释变量相关程度时,未排除其余解释变量对它们的影响2.偏相关系数法 三、辅助回归法1. 利用不包括某一解释变量所构成的判定系数2. 利用解释变量之间所构成回归方程的判定系数 四、本征值和条件指数 五、容许度和方差膨胀因子§4 多重共线性的解决方法(修正) 一、 增大样本容量001222212221121211 1ˆ()1ˆ()i i i i ii Y X X Var VIF x r x x Var βββσσββ=++==∙-↑⇒↓⇒∑∑∑对于一定程度抵消VIF>1的影响二、 利用先验信息改变参数的约束形式1ln ln ln ln ln ,ln 1t t tt t t t t tt t t tt tt t tt t t Q AL K Q A L K L K K L Q AL KAL A K K K Q L A K K αβαααααααβαβ-==+++⎛⎫=== ⎪⎝⎭⎛⎫= ⎪⎝⎭高度相关加入约束条件=,则三、数据的结合时间序列数据⇒时间序列数据与横截面数据相结合01122t 222i21122tu Y u ˆ MPC MPC ˆ u t t t i i tttY X X X Y X Y X X βββαβββββ=+++=++=+++销量价格收入1.找到某一时点的,的数据(截面数据),估计得出,即该横截面2.假定该不仅适用于该横截面,也适用于一段时间,则22011t011t 01ˆ u ˆˆ u MPC t t t t t Y X X Y X βββββββ*-=++=++估计,可得,局限性:只有当各横截面随时间变化不大时方可使用四、模型的差分变换01122t 10111221t-11111122212t-1 u u u t t t t t t t t t t t t t t Y X X Y X X Y Y X X X X X Y βββββββββ------=+++=+++--∆=()()()()(1)(2)(1)-(2)=()+(-)+(-)1122u u t t t t X X β∆+∆+∆∆缺陷:(1)丧失人们所关注的经济关系(2)易出现自相关问题五、逐步回归法 1. 基本思路Y X ⇒⇒⇒对每个经济意义检验选出最优的逐步引入其他作一元回归统计检验基本回归方程解释变量2.对新增变量的判别标准。
第六章多重共线性
前面两章所讲的异方差性和自相关性都是表现在随机误差项中的,我们下面所讲的多重共线性讨论的是模型中的解释变量违背基本假设的问题。
回忆以下我们在讲多元线性回归模型时,基本假定与简单线性回归模型不同的是哪一点?——就是无多重共线性假定:即假定各解释变量之间不存在线性关系,或者说各解释变量的观测值之间线性无关。
这一章我们讨论的多重共线性就是当解释变量违背了这一条基本假定的情形。
第一节多重共线性概念
先看一个实例:我们研究某个地区家庭消费及其影响因素。
我们除了引入收入X1以外,还引入了消费者的家庭财产X2作为第2个解释变量。
根据抽样数据回归得到以下结果:
Y^=24.7747+0.9415X1-0.0424X2
t=(3.6690) (1.1442) (-0.5261)
R2=0.9635 R2——=0.9531 F=92.4020
这一回归结果说明什么?
1、可决系数和修正可决系数都很理想
2、F统计量高度显著,说明X1、X2联合对Y的影响显著
3、各变量参数的t检验都不显著,不能否定等于零的假设
4、财产变量的系数竟然与预期的符号相反。
为什么会出现这样的结果呢?
再看一个例子:分析某地区汽车保养费用支出与汽车的行程数以及汽车拥有的时间建立模型,通过样本数据估计得:Y^=7.29+27.58X1-151.15X2
t= (0.06) (0.958) (-7.06)
R2——=0.946 F=52.53
这个结果修正可决系数理想,F检验也显著,但X的T检验不显著,X2的T检验虽然显著,但系数符号与经济意义不符。
为什么也出现这种结果?
一、多重共线性的概念:
如果某两个或多个解释变量之间出现了相关性,则称为多重共线性。
完全共线性与不完全共线性表示的是一种线性相关程度。
比如我们在第一个例子中,发现可支配收入与家庭财富之间有明显的共线性关系,他们的相关系数高达0.9989,第二个例子中汽车的行程数与拥有汽车的时间的相关系数也为0.9960,表明两个变量之间存在一种不完全的线性相关关系,我们可以认为他们之间有程度很高的多重共线性.
不存在多重共线性只说明解释变量之间没有线性关系,而不排除他们之间存在某种非线性关系。
二、产生多重共线性的原因
1、许多经济变量在随时间的变化过程中往往存在共同的变动趋势。
这就使得它们之间
容易产生多重共线性。
例如在经济繁荣时期,收入、消费、储蓄、投资、就业都趋
向于增长;在经济衰退时期,都趋向于下降。
如果将这些变量作为解释变量同时引
入模型,则它们之间极有可能存在很强的相关性。
时间序列中的这种增长因素和趋
向因素是造成多重共线性的主要根源
2、用截面数据建立回归模型时,根据研究的具体问题选择的解释变量常常从经济意义
上存在着密切的关联度。
比如P69以某一行业的企业为样本建立企业生产函数模型,以产出量为解释变量,选择资本、劳动、技术等投入要素为解释变量。
而这些投入
要素的数量往往与产出量呈正比,产出量高的企业,投入的各种要素都比较多,这
就使得投入要素之间出现线性相关性。
3、在模型中大量采用滞后变量也容易产生多重共线性。
因为滞后变量从经济性质来看
与原来的变量无区别,只是时间上有所不同,从经济意义上这些变量之间的关联度
比较紧密。
P69
一般来讲,解释变量之间存在多重共线性是难以避免的,所以在多元线性回归模型中,我们关心的并不是多重共线性的有无,而是多重共线性的程度。
当多重共线性程度过高时,给最小二乘估计量带来严重的后果。
因此,我们追求的也是使多重共线性的程度尽可能地减弱。
第二节多重共线性产生的后果
一、OLS估计式变得不确定或不精确
当解释变量完全线性相关时——OLS估计式不确定
从偏回归系数意义看:在X1和X2完全共线性时,即X1=a0+a1X2,无法保持X2不变,去单独考虑X1对Y的影响。
另外,从OLS估计式看:可以证明β1^=0/0 ,β2^=0/0在微积分中,我们知道这种情况称为不定型,即当X1、X2完全共线性条件下,参数的估计值是不确定的。
从估计量的方差看:将X1=a0+a1X2代入模型参数估计量的方差的表达式中,可以得到:Var(β1^)=∞,V ar(β2^)=∞。
即参数估计值的方差无穷大,也不是确定的。
1、当解释变量为不完全多重共线性时——OLS估计式不精确
在实际经济问题中,完全共线性是一种不常见的极端情况,大多数情况下是解释变量之间存在不完全的共线性,虽然可以得到普通最小二乘法参数估计量,但参数估计量的方差变得很大,而且会随共线性程度的提高而增大。
从而导致估计值不精确。
2、参数估计量经济含义不合理
如果两个解释变量具有线性相关性,那么它们中的一个变量可以由另一个变量表征,这时它们前面的参数并不反映各自与被解释变量之间的结构关系,而是反映他们对被解释变量的共同影响。
所以,各自的参数已经失去了应有的经济含义,于是经常表现出似乎反常的现象,例如,本来应该是正的,结果恰是负的。
3、变量的显著性检验失去意义
随着方差的增大,意味着t值将会变小,使得本身在经济意义上对被解释变量影响很强的变量被判定为不显著。
4、区间估计与模型的预测精度降低。
注意:如果研究目的仅在于预测Y,而解释变量X之间的多重共线性关系的性质在未来将继续保持(前提条件),这时多重共线性可能并不是严重的问题,只要可决系数高,F检验显著就可行。
但要是分析经济结构就不行了,
第三节多重共线性的检验(判断)
在多元线性回归模型中,由于多重共线性是普遍存在的,造成的后果也比较复杂,因此,对多重共线性的检验缺少统一的准则。
下面介绍几种简单容易操作的办法:
一、利用解释变量之间的相关系数判断
由于多重共线性表现为解释变量之间具有相关关系,对于二个解释变量的模型,利用解释变量样本观测值的散点图,或者计算二者的相关系数r,∣r∣越接近1,二者的线性关系越强;对于有两个以上解释变量的模型,可用两两变量的相关系数矩阵来判断。
二、利用可决系数与偏回归系数的显著性检验去判断
当可决系数较高,F检验显著,但偏回归系数的显著性检验不显著时,通常存在多重共线性。
三、利用解释变量之间的辅助回归及检验判断
因为解释变量之间存在多重共线性可以看做是一个解释变量对其余解释变量的近似线性表出,找出这种线性表达式,可以逐次将每个解释变量作为被解释变量对其他解释变量进行回归——称为辅助回归,分别估计其参数,计算可决系数、作F检验。
若F检验显著,认为该变量与其他变量存在多重共线性。
若不显著,则认为该变量与其他变量不存在严重的多重共线性。
第四节多重共线性的补救
既然当模型出现严重多重共线性时,会产生严重后果,但由于经济系统的复杂性,多重共线性的表现往往比较顽固,欲将多重共线性消除干净几乎是不可能的,只能选用合适的方法减弱影响。
目前,常用的方法有以下几种:
一、增大样本容量
在具体建立计量经济模型时,如果变量的样本数据太少,很容易产生多重共线性。
而且,多重共线性的后果主要是方差变大,V ar(β1^)=σ2/ΣX1i2(1-r2)当r确定时,增大样本容量,ΣX1i2就越大,使方差变小,从而减轻多重共线性的影响。
但是,增大样本容量只能减轻多重共线性的影响,不能根本解决它。
而且增大样本容量在实际操作时都十分困难。
二、利用先验信息
先验信息:在此之前的研究成果所提供的信息。
即知道某些变量之间满足一定的关系
利用某些先验信息可把有共线性的变量组合成新的变量,从而消除多重共线性。
比如生产函数为:Qt=ALtαKtβut,利用对数变换,转换为线性模型ln Qt=lnA+αlnLt+βlnKt+ut
通常资金投入量K和劳动力投入量L是高度相关的。
但如果已知规模报酬不变,即α+β=1,则将此代入模型,可以消除多重共线性。
还可以直接略去不重要的解释变量试一试,或者采用截面数据与时间序列数据结合、或者变换模型的形式等等方法,减轻多重共线性的影响。
三、逐步回归法——最好的方法
基本思想:用逐步回归法发现产生共线性的解释变量,并将其剔除,从而减少多重共线性的影响。
1、将被解释变量Y逐步对每一个解释变量Xi分别进行回归,LS Y C Xi;
2、比较每个回归方程的可决系数Ri2;
3、选出Ri2最大的解释变量作为下一步回归的基础,如X5;
4、将被解释变量逐步对上一步选出的解释变量以及其它解释变量分别进行
回归,LS Y C X5 Xi;
5、选出回归方程的最大的可决系数,并与上一步选出的可决系数进行比较,
如果小,则停止,大则以此为下一轮逐步回归的基础,继续回归直至停止。
在引进新解释变量的回归方程中,(1)如果新解释变量在符合经济意义的前提下,能使拟合优度有所提高,且每个参数统计检验显著,则采纳该变量;(2)如果新解释变量不能改善拟合优度,则可舍弃该变量。