当前位置:文档之家› 多重共线性

多重共线性

多重共线性
多重共线性

第四章 多重共线性

第一节 什么是多重共线性

一、多重共线性的含义

所谓多重共线性,不仅包括解释变量之间完全(精确)的线性关系,还包括解释变量之间近似的线性关系。

对于解释变量23,,,k X X X ,如果存在不全为零的数123,,,,k λλλλ ,能使得

12233i i k ki X X X λλλλ++++ =0 ,(i =1,2,,n )——即解释变量的数据矩阵的列

向量组线性相关。

则称解释变量23,,,k X X X 之间存在着完全的线性关系。 用数据表示,解释变量的数据矩阵为

X =21

31122

32223111k k n

n

kn X X X X

X X X X X ?????

????

?

??

当()r X

在实际问题中,完全的共线性并不多见。常见的情形是解释变量23,,,k X X X 之间存在不完全的共线性,这是指存在不全为零是数123,,,,k λλλλ ,使得

12233λλλλ+++++ i i k ki i X X X v =0(i =1,2,,n )

其中i v 是随机变量。这表明此时解释变量之间只是一种近似的线性关系。 二、产生多重共线性的背景

1.经济变量之间具有共同的变化趋势

2.模型中包含滞后变量

3.利用截面数据建立模型也可能出现共线性

4. 样本数据自身的原因

第二节 多重共线性产生的后果

完全共线性时,矩阵X X '不可逆,

参数估计式?β=1

()X X X Y -''不存在,OLS 无法应用。 不完全的共线性时,1

()X X -'

也存在,可以得到参数的估计值,但是对计量经济分析可能会产生一系列影响。

一、参数估计量的无偏性依然成立

不完全共线性时

?()E β=1

()E X X X Y -''????=1

()()E X X X X U β-''??+??

=β+()1

()X X X E U -'

'

二、参数OLS 估计值方差扩大 如二元回归模型

i Y =12233i i i X X u βββ+++

中的2X 与3X 为不完全的共线性时,2X 与3X 之间的相关系数23r 可由下式给出

2

23r

=

2

23222

3

()x x x x

∑∑∑

容易证明

2?()Var β=2

22

223

(1)i x r σ-∑

3

?()Var β=2

2

2323

(1)

i

x

r σ-∑

随着共线性的程度增加,23r 的绝对值趋于1,两个参数估计量的方差也增大。 方差扩大的速度决定于方差扩大因子VIF 。 VIF=

2

23

1

1r - 当2

23r 趋于1时,VIF 趋于无穷大;当2

23r 等于0时,VIF 将是1。 三、对参数进行区间估计时,置信区间变大 四、假设检验容易做出错误判断 第三节 多重共线性的检验 一、根据回归结果判别

判别是否存在多重共线性的最简单(方便)方法是分析回归结果: 如果 发现参数估计值的符号不对

某些重要的解释变量t 值低,而R 2不低

当一个不太重要的解释变量被删除后,回归结果显著变化

则可能存在多重共线性。其中上述第二种现象是多重共线性存在的典型迹象。 二、简单相关系数检验法

如果解释变量间的相关矩阵中,自变量之间的相关系数(简单相关系数)较大时,则可以认为可能存在着较严重的多重共线性。但是要注意,简单相关系数较高只是多重共线性存

在的充分条件,而不是必要条件。 三、方差膨胀因子(VIF )法

VIF 是方差膨胀因子(Variance Inflation Factor )的缩写,这是一种比较正规的检验方法。该方法通过检验指定的解释变量被回归方程中其它全部解释变量所解释的程度来检测多重共线性。方程中每个解释变量对应一个VIF ,该VIF 是该解释变量相应的系数估计值的方差扩大了多少倍的一个估计值。高VIF 表明多重共线性扩大了参数估计值的方差,从而产生了一个缩小了的t 值。检验步骤如下:

设原方程为

i Y =12233ββββ+++++ i i k ki i X X X u

我们可以计算k 个VIF ,每个Xj 对应一个。为指定的Xj 计算VIF 涉及以下三步: (1)Xj 对原方程中其它全部解释变量进行OLS 回归,即

j X =1221111--++++++++ j j j j k k a a X a X a X a X ,(j =2,, k )

拟合优度为2

j R 。

(2)计算?i

β的方差膨胀因子(VIF ) 可以证明,解释变量Xj 参数估计量j

?β的方差可表示为 ?()βj Var =2

2211σ-∑j j

x R =2

2

σ∑j j VIF x 即 j VIF =

21

1-j

R (3)分析多重共线性的程度

VIF 越高,多重共线性越严重。没有VIF 临界值表,一般认为VIF>10作为存在严重多重共线性的标准。

需要指出的是,所有VIF 都低,并不能排除严重多重共线性的存在,这与使用相关系数的情况相似。

四、通过条件指数检验(?)

条件指数(Condition Index )是X X '矩阵的最大和最小特征根之比的平方根,指数高,表明存在多重共线性。也没有条件指数的临界值表,通常认为,大于10即判断存在多重共线性,大于30表明存在严重多重共线性。

第四节 多重共线性的补救措施

解决多重共线性问题的思路是利用额外信息或去除共线性的变量,常用的具体方法包括以下几种。 一、增加数据

多重共线性实质上是样本(数据)问题。具体数据之间高度相关的变量,理论上未必高度相关,反之亦然。因此,用增加观测值、利用不同的数据集或采用新的样本等方法,就有可能消除或降低多重共线性的程度。 如在需求函数

i Y =123βββ+++i i i X P u (i =1,2,, n )

在时间序列数据中,收入X 和价格P 往往是高度相关的,用时间序列数据估计会产生多重共线性。然而,在截面数据中则不存在这个问题,因为在某个时间点上P 为常数。如果取一组截面样本(如5000个家庭),可先估计

i Y =12αα++i i X u

然后将得到的估计值2?α

作为一个约束条件(2β=2?α)施加于时间序列数据的回归计算中,即估计

i Y =123?βαβ+++i i i X P u

也就是

2?α

-i i Y X =13ββ++i i P u 得到1?β和3

?β。 二、对模型施加某些约束条件

在存在多重共线性的模型中,依据经济理论施加某些约束条件,将减小参数估计值的方差,如在柯布---道格拉斯生产函数中加进规模效益不变的约束,可解决资本和劳动的高度相关而引起的多重共线性问题。

i Y = i u i i AK L e αβ,i =1,2,,n

ln i Y = ln ln ln i i i A K L u αβ+++

假若规模报酬不变,即αβ+=1 ,将β=1α-代入模型,得到

ln

i i

Y L = ln ln i i i K

A u L α++

三、删除一个或几个共线性变量(可用逐步回归实现)

这样做,实际上就是利用给定数据估计较少的参数,从而降低对观测信息的需求,以解决多重共线性问题。删除那些变量,可根据假设检验的结果确定。应当注意,这样做的结果可能使先前设定的理论模型面目全非,并使得到的参数估计量产生偏倚,因此需要权衡利弊。

四、将模型适当变形 如某商品的需求函数为

Q =1234ββββ*++++X P P u

式中,Q 为需求量,X 为收入,P 为该商品的价格,*P 为替代商品的价格。

在实际数据中,P 和*P 之间存在高度相关,它们往往同方向变动,模型存在多重共线性。

如果我们仅要求在知道两种商品相对价格变动时对需求量进行预测,则可将需求函数变形为

Q =123(

)γγγ*

+++P

X v P 就可以解决该模型的多重共线性问题。

在有滞后变量的情形

i Y =1231βββ-+++i i i X X u

一般而言,i X 和1-i X 往往高度相关,将模型变形为

i Y =1213

1()βββ--'+-++i i i i X X X u 其中,3β'=3β+2β

经验表明,?i X 和1-i X 的相关程度要远远小于i X 和1-i X 的相关程度,因而这种变换有可能消除或减轻多重共线性。

模型的变换有时会不可避免的丢失一部分样本的信息。 五、主成分法(?)

可将共线性变量组合在一起形成一个综合指数(变量),用它来代替这组变量。构造综合指数的最常用方法是主成分法,做法是对全部解释变量运用主成分分析以得到主成分,每个主成分都是全部解释变量的线性组合,如

1C =2233ααα+++ k k X X X

其系数23,,,ααα k 的计算涉及X X '矩阵的特征根、计算迭代过程和取值标准,这里不作介绍。读者需要了解的是,主成分法的特点是,各主成分之间互不相关,并且用很少几个主成分就可以解释全部X 变量的绝大部分方差,因而在出现多重共线性时,可以用主成分替代原有解释变量进行回归计算,然后再将所得到的参数估计值还原成原模型中的参数估计值。 六、岭回归法(?) (略)

处理多重共线性问题时也有人总结以下原则:

(1)多重共线性是普遍存在的,轻微的多重共线性问题可不采取措施。

(2)严重的多重共线性问题,一般可根据经验或通过分析回归结果发现。例如,参数估

计值的符号,重要解释变量的t值偏低。要根据不同情况采取必要措施。

(3)如果模型仅用于预测,则只要拟合程度好,可不处理多重共线性问题。存在多重共线性的模型用于预测时,往往不影响预测结果。

多重共线性的解决之法

第七章 多重共线性 教学目的及要求: 1、重点理解多重共线性在经济现象中的表现及产生的原因和后果 2、掌握检验和处理多重共线性问题的方法 3、学会灵活运用Eviews 软件解决多重共线性的实际问题。 第一节 多重共线性的产生及后果 一、多重共线性的含义 1、含义 在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X 1,X 2,……,X k 中的任何一个都不能是其他解释变量的线性组合。如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。 2、类型 多重共线性包含完全多重共线性和不完全多重共线性两种类型。 (1)完全多重共线性 完全多重共线性是指线性回归模型中至少有一个解释变量可以被其他解释变量线性表示,存在严格的线性关系。 如对于多元线性回归模型 i ki k i i i X X X Y μββββ+++++= 22110 (7-1) 存在不全为零的数k λλλ,,,21 ,使得下式成立: X X X 2211=+++ki k i i λλλ (7-2) 则可以说解释变量k X ,,X ,X 21 之间存在完全的线性相关关系,即存在完全多重共线性。 从矩阵形式来看,就是0' =X X , 即1)(-

(2)不完全多重共线性 不完全多重共线性是指线性回归模型中解释变量间存在不严格的线性关系,即近似线性关系。 如对于多元线性回归模型(7-1)存在不全为零的数k λλλ,,,21 ,使得下式成立: X X X 2211=++++i ki k i i u λλλ (7-3) 其中i u 为随机误差项,则可以说解释变量k X ,,X ,X 21 之间存在不完全多重共线性。随机误差项表明上述线性关系是一种近似的关系式,大体上反映了解释变量间的相关程度。 完全多重共线性与完全非线性都是极端情况,一般说来,统计数据中多个解释变量之间多少都存在一定程度的相关性,对多重共线性程度强弱的判断和解决方法是本章讨论的重点。 二、多重共线性产生的原因 多重共线性在经济现象中具有普遍性,其产生的原因很多,一般较常见的有以下几种情况。 (一)经济变量间具有相同方向的变化趋势 在同一经济发展阶段,一些因素的变化往往同时影响若干经济变量向相同方向变化,从而引起多重共线性。如在经济上升时期,投资、收入、消费、储蓄等经济指标都趋向增长,这些经济变量在引入同一线性回归模型并作为解释变量时,往往存在较严重的多重共线性。 (二)经济变量间存在较密切关系 由于组成经济系统的各要素之间是相互影响相互制约的,因而在数量关系上也会存在一定联系。如耕地面积与施肥量都会对粮食总产量有一定影响,同时,二者本身存在密切关系。 (三)采用滞后变量作为解释变量较易产生多重共线性 一般滞后变量与当期变量在经济意义上关联度比较密切,往往会产生多重共线性。如在研究消费规律时,解释变量因素不但要考虑当期收入,还要考虑以往各期收入,而当期收入与滞后收入间存在多重共线性的可能很大。 (四)数据收集范围过窄,有时会造成变量间存在多重共线性问题。 三、多重共线性产生的后果 由前述可知,多重共线性分完全多重共线性和不完全多重共线性两种情况,两种情况都会对模

EVIEWS案例:(消除多重共线性)影响国内旅游市场收入的主要因素分析

第四章 案例分析 一、研究的目的要求 近年来,中国旅游业一直保持高速发展,旅游业作为国民经济新的增长点,在整个社会经济发展中的作用日益显现。中国的旅游业分为国内旅游和入境旅游两大市场,入境旅游外汇收入年均增长 22.6%,与此同时国内旅游也迅速增长。改革开放20多年来,特别是进入90年代后,中国的国内旅游收入年均增长14.4%,远高于同期GDP 9.76%的增长率。为了规划中国未来旅游产业的发展,需要定量地分析影响中国旅游市场发展的主要因素。 二、模型设定及其估计 经分析,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出以外,还可能与相关基础设施有关。为此,考虑的影响因素主要有国内旅游人数2X ,城镇居民人均旅游支出3X ,农村居民人均旅游支出4X ,并以公路里程5X 和铁路里程6X 作为相关基础设施的代表。为此设定了如下对数形式的计量经济模型: 23456123456t t t t t t t Y X X X X X u ββββββ=++++++ 其中 :t Y ——第t 年全国旅游收入 2X ——国内旅游人数 (万人) 3X ——城镇居民人均旅游支出 (元) 4X ——农村居民人均旅游支出 (元) 5X ——公路里程(万公里) 6X ——铁路里程(万公里) 为估计模型参数,收集旅游事业发展最快的 1994—2003年的统 计数据,如表4.2所示: 表4.2 1994年—2003年中国旅游收入及相关数据

数据来源:《中国统计年鉴2004》 利用Eviews 软件,输入Y 、X2、X3、X4、X5、X6等数据,采用这些数据对模型进行OLS 回归,结果如表4.3: 表4.3 由此可见,该模型9954.02=R ,9897.02 =R 可决系数很高,F 检验值173.3525,明 显显著。但是当05.0=α时776 .2)610()(025.02=-=-t k n t α,不仅2X 、6X 系数的t 检 验不显著,而且6X 系数的符号与预期的相反,这表明很可能存在严重的多重共线性。 计算各解释变量的相关系数,选择X2、X3、X4、X5、X6数据, Views/Open Selected/One Windows/Open Group 点”view/correlations ”得相关系数矩阵(如表4.4): 表4.4 由相关系数矩阵可以看出:各解释变量相互之间的相关系数较高,证实确实存在严重多重共线性。

(完整版)多重共线性检验与修正.doc

问题: 选取粮食生产为例,由经济学理论和实际可以知道,影响粮食生产y 的因素有:农业化肥施 用量x1,粮食播种面积x2,成灾面积x3,农业机械总动力x4,农业劳动力x5,由此建立以下方程: y=β0+β1x1+β2x2+β3x3+β4x4+β5x5,相关数据如下: 解: 1、检验多重共线性 (1)在命令栏中输入: ls y c x1 x2 x3 x4 x5,则有; 可以看到,可决系数R2 和 F 值都 很高,二自变量x1 到 x5 的 t 值 均较小,并且x4 和 x5 的 t 检验 不显著,说明方程很可能存在多 重共线性。 (2)对自变量做相关性分析: 将x1—— x5 作为组打开, view —— covariance analysis—— correlation ,结果如下: 可以看到x1 和 x4 的相关系数 为 0.96,非常高,说明原模型 存在多重共线性

2、多重共线性的修正 (1)逐步回归法 第一步:首先确定一个基准的解释变量,即从 x1, x2, x3, x4, x5 中选择解释 y 的最好的一个建 立基准模型。分别用 x1, x2, x3, x4, x5 对 y 求回归,结果如下: 从上面 5 个输出结果可以知道,y 对 x1 的可决系数R2=0.89(最高),因此选择 第一个方程作为基准回归模型。即: Y = 30867.31062 + 4.576114592* x1 在基准模型的基础上,逐步将x2, x3 等加入到模型中, 加入 x2,结果:

拟合优度R2=0.961395 ,显著提高; 并且参数符号符合经济常识,且均显著。 所以将模型修改为: Y= -44174.52+ 4.576460*x1+ 0.672680*x2 再加入 x3,结果: 拟合优度R2=0.984174 ,显著提高; 并且参数符号符合经济常识(成灾面积越大,粮食产 量越低),且均显著。 所以将模型修改为: Y=-12559.35+5.271306*x1+0.417257*x2-0.212103*x3 再加入 x4,结果: 拟合优度R2=0.987158 ,虽然比上一次拟 合提高了; 但是变量x4 的系数为 -0.091271 ,符号不 符合经济常识(农业机械总动力越高, 粮食产量越高),并且 x4 的 t 检验不显著。 因此应该从模型中剔除x4。

多重共线性处理经典例题

理论上认为影响能源消费需求总量的因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、能源转换技术等因素。为此,收集了中国能源消费总量Y (万吨标准煤)、国民总收入(亿元)X1(代表收入水平)、国内生产总值(亿元)X2(代表经济发展水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发展水平及产业结构)、人均生活电力消费(千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能源转换技术)等在1985-2007年期间的统计数据,具体如表4.2所示。 表4.12 1985~2007年统计数据 资料来源:《中国统计年鉴》,中国统计出版社2000、2008年版。 要求: 1)建立对数多元线性回归模型,分析回归结果。 2)如果决定用表中全部变量作为解释变量,你预料会遇到多重共线性的问题吗?为什么?

3)如果有多重共线性,你准备怎样解决这个问题?明确你的假设并说明全部计算。 参考解答: (1)建立对数线性多元回归模型,引入全部变量建立对数线性多元回归模型如下: 生成: lny=log(y), 同样方法生成: lnx1,lnx2,lnx3,lnx4,lnx5,lnx6,lnx7. 作全部变量对数线性多元回归,结果为: 从修正的可决系数和F统计量可以看出,全部变量对数线性多元回归整体对样本拟合很好,,各变量联合起来对能源消费影响显著。可是其中的lnX3、lnX4、lnX6对lnY影响不显著,而且lnX2、lnX5的参数为负值,在经济意义上不合理。所以这样的回归结果并不理想。 (2) 预料此回归模型会遇到多重共线性问题, 因为国民总收入与GDP本来就是一对关联指标;而工业增加值、建筑业增加值、交通运输邮电业增加值则是GDP的组成部分。这两组指标必定存在高度相关。 解释变量国民总收入(亿元)X1(代表收入水平)、国内生产总值(亿元)X2(代表经济发展水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发展水平及产业结构)、人均生活电力消费(千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能源转换技术)等很可能线性相关,计算相关系数如下:

多重共线性问题的几种解决方法

多重共线性问题的几种解决方法 在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释 变量之间不存在线性关系,也就是说,解释变量X 1,X 2 ,……,X k 中的任何一个 都不能是其他解释变量的线性组合。如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。 这里,我们总结了8个处理多重共线性问题的可用方法,大家在遇到多重共线性问题时可作参考: 1、保留重要解释变量,去掉次要或可替代解释变量 2、用相对数变量替代绝对数变量 3、差分法 4、逐步回归分析 5、主成份分析 6、偏最小二乘回归 7、岭回归 8、增加样本容量 这次我们主要研究逐步回归分析方法是如何处理多重共线性问题的。 逐步回归分析方法的基本思想是通过相关系数r、拟合优度R2和标准误差三个方面综合判断一系列回归方程的优劣,从而得到最优回归方程。具体方法分为两步: 第一步,先将被解释变量y对每个解释变量作简单回归: 对每一个回归方程进行统计检验分析(相关系数r、拟合优度R2和标准误差),并结合经济理论分析选出最优回归方程,也称为基本回归方程。

第二步,将其他解释变量逐一引入到基本回归方程中,建立一系列回归方程,根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响,一般根据如下标准进行分类判别: 1.如果新引进的解释变量使R2得到提高,而其他参数回归系数在统计上和经济理论上仍然合理,则认为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。 2.如果新引进的解释变量对R2改进不明显,对其他回归系数也没有多大影响,则不必保留在回归模型中。 3.如果新引进的解释变量不仅改变了R2,而且对其他回归系数的数值或符号具有明显影响,则认为该解释变量为不利变量,引进后会使回归模型出现多重共线性问题。不利变量未必是多余的,如果它可能对被解释变量是不可缺少的,则不能简单舍弃,而是应研究改善模型的形式,寻找更符合实际的模型,重新进行估计。如果通过检验证明回归模型存在明显线性相关的两个解释变量中的其中一个可以被另一个很好地解释,则可略去其中对被解释变量影响较小的那个变量,模型中保留影响较大的那个变量。 下边我们通过实例来说明逐步回归分析方法在解决多重共线性问题上的具体应用过程。 具体实例 例1设某地10年间有关服装消费、可支配收入、流动资产、服装类物价指数、总物价指数的调查数据如表1,请建立需求函数模型。 表1 服装消费及相关变量调查数据

多重共线性 多重共线性实验案例与独立实验问题

实验五 多重共线性模型的检验与处理(1) 一、研究的目的要求 近年来,中国旅游业一直保持高速发展,旅游业作为国民经济新的增长点,在整个社会经济发展中的作用日益显现。中国的旅游业分为国内旅游和入境旅游两大市场,入境旅游外汇收入年均增长22.6%,与此同时国内旅游也迅速增长。改革开放20多年来,特别是进入90年代后,中国的国内旅游收入年均增长14.4%,远高于同期GDP 9.76%的增长率。为了规划中国未来旅游产业的发展,需要定量地分析影响中国旅游市场发展的主要因素。 二、模型设定及其估计 经分析,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出以外,还可能与相关基础设施有关。为此,考虑的影响因素主要有国内旅游人数2X ,城镇居民人均旅游支出3X ,农村居民人均旅游支出4X ,并以公路里程5X 和铁路里程6X 作为相关基础设 施的代表。为此设定了如下对数形式的计量经济模型: 23456123456t t t t t t t Y X X X X X u ββββββ=++++++ 其中 :t Y ——第t 年全国旅游收入 2X ——国内旅游人数 (万人) 3X ——城镇居民人均旅游支出 (元) 4X ——农村居民人均旅游支出 (元) 5X ——公路里程(万公里) 6X ——铁路里程(万公里) 为估计模型参数,收集旅游事业发展最快的1994—2003年的统计数据,如表4.2所示: 利用Eviews 软件,输入Y 、X2、X3、X4、X5、X6等数据,采用这些数据对模型进行OLS 回归,结果如表4.3: 表4.3

由此可见,该模型9954.02=R ,9897.02 =R 可决系数很高,F 检验值173.3525,明 显显著。但是当05.0=α时776 .2)610()(025.02=-=-t k n t α,不仅2X 、6X 系数的t 检 验不显著,而且6X 系数的符号与预期的相反,这表明很可能存在严重的多重共线性。 计算各解释变量的相关系数,选择X2、X3、X4、X5、X6数据,点”view/correlations ”得相关系数矩阵(如表4.4): 表4.4 由相关系数矩阵可以看出:各解释变量相互之间的相关系数较高,证实确实存在严重多重共线性。 三、消除多重共线性 采用逐步回归的办法,去检验和解决多重共线性问题。分别作Y 对X2、X3、X4、X5、X6的一元回归,结果如表4.5所示: 表4.5

多重共线性

城乡居民消费水平研究 —解决多重共线性 一、文献综述 长期以来,我国处于商品短缺的困扰之中,不得不采用配给制的办法限制居民的消费选择自由;随着供求关系的变化,人们的消费取向正在发生根本改变。因此,了解目前城乡居民的消费水平以及其影响因素对于把握国内不同群体消费需求的变化,指导生产、引导消费、开拓市场、发展循环经济、建立和谐社会具有重要意义。 影响消费的因素很多,如价格水平、利率水平、收入水平、消费偏好、家庭财产、风俗习惯、制度模式等。其中,收入是影响消费的最重要因素。改革开放以来,我国居民的收入水平在不断提高,居民消费情况也有明显变化。在居民总体收入逐渐增加的同时,居民的收入差距也有所扩大,形成了高、中、低不同阶层的收入与消费群体。根据国家统计局的调查资料显示,不同消费群体之间的消费与投资倾向已有很大差异,受此影响,社会消费结构也已发生了较大变化。如今生活宽裕的高收入居民,十分关注生活质量的提高,消费倾向也出现明显变化,投资意识日益高涨。调查显示,越来越多的高收入居民,在消费时追求精神消费和服务消费,教育、文化、通信、保健、住宅等成为消费热点,追求时尚化与个性化日趋明显。高收入家庭的投资是社会民间投资中极为重要的部分,在国民经济运行中的作用不可低估. 中等收入群体占到城镇家庭总数的60%以上,收入占到居民收入总数的50%多,是我国消费的主体部分,他们的消费行为对我国整体消费状况的影响是最大的,对这一层次居民消费的启动将直接关系到我国经济启动的成败。这一消费群体的消费特征表现为对未来收入与支出不良预期的影响.所以基于这个问题的重要性,决定研究城乡居民的消费水平及其影响因素。 二、数据资料初步分析 数据的收集来源于2009年中华人民共和国国家统计局公布的年度数据,并选取城乡居民消费水平、城乡居民家庭人均可支配收入、职工平均工资、人均国内生产总值、城乡居民消费价格指数、城乡新建住房面积来研究其对城镇居民消费水平的影响。通过初步的线性回归发行这些数据都能较好的解释城镇居民消费水平。由于财富数据较难取得,所以用城乡新建住房面积来表示这一指标,并且取得较好的效果。所以将以上6个指标定位解释变量。其中城乡居民家庭人收入为城镇居民家庭人均可支配收入与农村居民家庭人均纯收入之和。

多重共线性的几点认识

多重共线性: 可分为完全多重共线性和近似多重共线性“或称高度相关性” 检验多重共线性问题是否严重: 1.若回归模型的R2值高(如>0.8),或F检验值显著,但单个解释变 量系数估计值却不显著; 2.若两个解释变量之间的相关系数高,比如说大于0.8,则可以认为 存在严重的共线性。 对多重共线性本质的认识: 1.多重共线性是由变量之间的性质引起的:这一认识沿袭了传统经 济计量学对多重共线性的认识,而现代经济计量学否定了这一认识; 不管数据以什么形式取得,数据取样是大是小,都会出现解释变量间高度相关问题。 2.多重共线性是数据问题引起的:指即使总体诸解释变量没有线性关系, 但在具体样本中仍可能有线性关系。当n=2时,两点总能连成一条直线,即时,使性质上原本并不存在线性关系的两个变量,由于样本数据问题产生了共线性;时序解释变量之间几乎肯定会出现谬回归,必然导致多重共线性。 线性回归模型解释变量间存在多重共线性可能产生如下后果: 1.增大最小二乘估计量的方差; 2.参数估计值不稳定,对样本变化敏感; 3.检验可靠性降低,产生弃真错误。由于参数估计量方差增大,在进 行显著性检验时,t检验值将会变小,可能使某些本该参数显著的检

验结果变得不显著,从而将重要变量舍弃。 多重共线性的修正: 若多重共线性程度较轻微,并不严重影响系数估计值(符号正确,t 值显著),则可以忽略多重共线性问题。 1.删除不必要的变量 2.改变解释变量的形式:差分法,对于时间序列数据而言,若原始 变量存在严重的多重共线性,则可以考虑对变量取差分形式,可在一定程度上降低多重共线性的程度 3.当模型中有较多解释变量的滞后值,并存在严重共线性时,可以 考虑用被解释变量的滞后值代替解释变量的滞后值;以人均形式的变量代替总体变量在某些状况下也可以在一定程度上降低多重共线性的程度

第七章 多共线性及其处理

第七章 多重共线性及其处理 第一部分 学习辅导 一、本章学习目的与要求 1.理解多重共线性的概念; 2.掌握多重共线性存在的主要原因; 3.理解多重共线性可能造成的后果; 4.掌握多重共线性的检验与修正的方法。 二、本章内容提要 本章主要介绍计量经济模型的计量经济检验。即多重共线性问题。 多重共线性是多元回归模型可能存在的一类现象,分为完全共线与近似共线两类。模型的多个解释变量间出现完全共线性时,模型的参数无法估计。更多的情况则是近似共线性,这时,由于并不违背所有的基本假定,模型参数的估计仍是无偏、一致且有效的,但估计的参数的标准差往往较大,从而使得t 统计值减小,参数的显著性下降,导致某些本应存在于模型中的变量被排除,甚至出现参数正负号方面的一些混乱。显然,近似多重共线性使得模型偏回归系数的特征不再明显,从而很难对单个系数的经济含义进行解释。多重共线性的检验包括检验多重共线性是否存在以及估计多重共线性的范围两层递进的检验。而解决多重共线性的办法通常有逐步回归法、差分法以及使用额外信息、增大样本容量等方法。 (一)多重共线性及其产生的原因 当我们利用统计数据进行分析时,解释变量之间经常会出现高度多重共线性的情况。 1.多重共线性的基本概念 多重共线性(Multicollinearity )一词由弗里希(Frish )于1934年在其撰写的《借助于完全回归系统的统计合流分析》中首次提出。它的原义是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系。 如果在经典回归模型Y X βε=+中,经典假定(5)遭到破坏,则有()1R X k <+,此时称解释变量k X X X ,,,21ΛΛ间存在完全多重共线性。解释变量的完全多重共线性,也就是解释变量之间存在严格的线性关系,即数据矩阵X 的列向量线性相关。因此,必有一个列向量可由其余列向量线性表示。 同时还有另外一种情况,即解释变量之间虽然不存在严格的线性关系,但是却有近似的线性关系,即解释变量之间高度相关。 2.多重共线性产生的原因 多元线性回归模型产生多重共线性的原因很多,主要有: (1)经济变量的内在联系 这是产生多重共线性的根本原因。 (2)解释变量中含有滞后变量 (3)经济变量变化趋势的“共向性” 必须指出,多重共线性基本上是一种样本现象。因为人们在设定模型时,总是尽量避免将理论上具有严格线性关系的变量作为解释变量收集在一起,因此,实际问题中的多重共线性并不是解释变量之间存在理论上或实际上的线性关系造成的,而是由所收集的数据(解释变量观察值)之间存在近似的线性关系所致。 (二)多重共线性的影响 多重共线性会产生以下问题: (1)增大了OLS 估计量的方差 (2)难以区分每个解释变量的单独影响 (3)回归模型缺乏稳定性 (4)t 检验的可靠性降低 (三)多重共线性的判别 在应用多元回归模型中,人们总结了许多检验多重共线性的方法。 1.系数判定法

多重共线性

第六章 6.6 (1)判断多重共线性 做y 与x1,x2,x3,x4x5,x6的线性回归方程,得到 由表中的VIF 值可知x1,x2,x3,x4,x5的方差膨胀因子远大于10,这几个变量之间存在很高的线性相关性,说明回归方程存在多重共线性。 (2)逐步回归法 得到回归方程:215^ 353.0611.0637.06.874x x x y --+= 方程通过了三大检验。 其中,x1为农业,x2为工业,x5为社会消费总额,由方程表明农业每增加一亿元,财政收入减少0.611亿元;工业每增加一亿元,财政收入减少0.353亿元;社会消费总额每增加一亿元,财政收入增加0.637亿元。结合实际可看出该回归方程不合理。 由表中的VIF 值可知三个自变量的方差膨胀因子远大于10,说明逐步回归法得到的回归方程仍然存在多重共线性。 (3)VIF 后退法 由(1)判断得知原方程存在严重的多重共线性,要消除多重共线性利用VIF 后退法。 首先剔除VIF 值最大的自变量x2,得到

由表中的VIF 值可知除x6外其他自变量的方差膨胀因子仍然大于10 ,方程仍存在多重共线性。 再剔除VIF 值最大的自变量x5,得到 由表中的VIF 值可知除x6外其他自变量的方差膨胀因子仍然大于10,方程仍存在多重共线性。 再剔除VIF 值最大的自变量x1,得到 由表中的VIF 值可知剩余自变量的方差膨胀因子都小于10,说明方程的多重共线性已消除。 所以得到回归方程:643^ 004.0.031.0359.1332.2296 x x x y +++-= 方程通过了R 检验和F 检验,但是x6没有通过t 检验,说明不显著,所以剔除x6,得到

最新多重共线性的解决之法

多重共线性的解决之 法

第七章多重共线性 教学目的及要求: 1、重点理解多重共线性在经济现象中的表现及产生的原因和后果 2、掌握检验和处理多重共线性问题的方法 3、学会灵活运用Eviews软件解决多重共线性的实际问题。 第一节多重共线性的产生及后果 一、多重共线性的含义 1、含义 在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,X k中的任何一个都不能是其他解释变量的线性组合。如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。 2、类型 多重共线性包含完全多重共线性和不完全多重共线性两种类型。 (1)完全多重共线性 完全多重共线性是指线性回归模型中至少有一个解释变量可以被其他解释变量线性表示,存在严格的线性关系。 如对于多元线性回归模型

i ki k i i i X X X Y μββββ+++++= 22110 (7- 1) 存在不全为零的数k λλλ,,,21 ,使得下式成立: 0X X X 2211=+++ki k i i λλλ (7-2) 则可以说解释变量k X ,,X ,X 21 之间存在完全的线性相关关系,即存在完全多重共 线性。 从矩阵形式来看,就是0'=X X , 即1)(-

多重共线性案例分析实验报告

《多重共线性案例分析》实验报告

表2 由此可见,该模型,可决系数很高,F 检验值 173.3525,明显显著。但是当时,不仅、 系数的t 检验不显著,而且系数的符号与预期的相反,这表明很可能存在严重的多重共线性。 9954.02=R 9897.02 =R 05.0=α776 .2)610()(025.02=-=-t k n t α2X 6X 6X

②.计算各解释变量的相关系数,选择X2、X3、X4、X5、X6数据,点”view/correlations ”得相关系数矩阵 表3 由关系数矩阵可以看出:各解释变量相互之间的相关系数较高,证实确实存在严重多重共线性相。 4.消除多重共线性 ①采用逐步回归的办法,去检验和解决多重共线性问题。 分别作Y 对X2、X3、X4、X5、X6的一元回归 如下图所示 变量 X2 X3 X4 X5 X6 参数估计值 0.0842 9.0523 11.6673 34.3324 2014.146 t 统计量 8.6659 13.1598 5.1967 6.4675 8.7487 0.9037 0.9558 0.7715 0.8394 0.9054 表4 按的大小排序为:X3、X6、X2、X5、X4。 以X3为基础,顺次加入其他变量逐步回归。首先加入X6回归结果为: t=(2.9086) (0.46214) 2R 2 R 6 31784.285850632.7639.4109?X X Y t ++-=957152.02 =R

1995 1375.7 62900 464.0 61.5 115.70 5.97 1996 1638.4 63900 534.1 70.5 118.58 6.49 1997 2112.7 64400 599.8 145.7 122.64 6.60 1998 2391.2 69450 607.0 197.0 127.85 6.64 1999 2831.9 71900 614.8 249.5 135.17 6.74 2000 3175.5 74400 678.6 226.6 140.27 6.87 2001 3522.4 78400 708.3 212.7 169.80 7.01 2002 3878.4 87800 739.7 209.1 176.52 7.19 2003 3442.3 87000 684.9 200.0 180.98 7.30 表1:1994年—2003年中国游旅收入及相关数据

多重共线性

第六章 多重共线性问题 一、 实验目的 熟练使用EViews 软件进行计量分析,理解多重共线性的检验和估计的基本方法。 二、 基本知识点: 多重共线性的基本概念,多重共线性的后果,检验是否存在的基本方法——样本决定系数检验、参数估计值的经济检验和参数估计值的统计检验,多重共线性的解决办法——逐步回归法。 三、 实验内容及要求: 依据经济学理论,以实际数据(实验数据五)为基础,①建立反映天津市粮食市场需求状况的粮食需求函数。②检验所建立的粮食需求函数是否存在多重共线性。③如果存在多重共线性,使用恰当的方法加以解决。 四、 实验指导: 经分析,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出以外,还可能与相关基础设施有关。为此,考虑的影响因素主要有国内旅游人数X1,城镇居民人居旅游支出X2、农村居民人均旅游支出X3、公路里程X4和铁路里程X5。为此设定如下的对数形式的计量经济模型:t t t t t t t X X X X X Y μββββββ++++++=54321543210 Y t ——第年全国旅游收入; X1t ——国内旅游人数(万人); X2t ——城镇居民人均旅游支出(元); X3t ——农村居民人均旅游支出(元); X4t ——公路里程(万公里); X5t ——铁路里程(万公里)。 数据见实验指导数据五,来源于《中国统计年鉴年》 STEP1:参数估计 在Eviews 中点击NEW 项,建立Workfile 输入Y 、X1、X2、X3、X4、X5的数据。点 击Quick ,选Estimate Equation 项,在OLS 对话框中,键入Y C X1 X2 X3 X4 X5,输出结果。见图6.4.1。 Dependent Variable: Y Method: Least Squares Date: 12/12/10 Time: 08:35 Sample: 1994 2006 Included observations: 13 Variable Coefficient Std. Error t-Statistic Prob. C 658.4612 1822.588 0.361278 0.7285 X1 0.046675 0.006842 6.821912 0.0002 X2 6.161783 1.608916 3.829772 0.0065 X3 2.372393 1.083468 2.189629 0.0647 X4 1.134097 1.417467 0.800087 0.4500 X5 -853.5124 426.8085 -1.999755 0.0857

多重共线性

第四章 多重共线性 第一节 什么是多重共线性 一、多重共线性的含义 所谓多重共线性,不仅包括解释变量之间完全(精确)的线性关系,还包括解释变量之间近似的线性关系。 对于解释变量23,,,k X X X ,如果存在不全为零的数123,,,,k λλλλ ,能使得 12233i i k ki X X X λλλλ++++ =0 ,(i =1,2,,n )——即解释变量的数据矩阵的列 向量组线性相关。 则称解释变量23,,,k X X X 之间存在着完全的线性关系。 用数据表示,解释变量的数据矩阵为 X =21 31122 32223111k k n n kn X X X X X X X X X ????? ???? ? ?? 当()r X

计量经济学中多重共线性案例问题研究报告方案

计量经济学中多重共线性案例问题研究 摘要:本论文主要通过案例来研究计量经济学中的多重共线性的问题,对案例进行EVIEWS分析,并利用诊断共线性的经验方法及修正共线性的经验方法和通过EVIEWS分析对案例中的多重共线性进行诊断与修正,以能够完成减弱多重共线性的目标。 关键字:多重共线性诊断共线性的经验方法修正共线性的经验方法经典的线性回归模型的假定之一是各解释变量X之间不存在多重共线性。然而,在计量经济学中所说的多重共线性(mnlti-collinearity),不仅包含解释变量之间精确的线性关系,还包含解释变量之间近似的线性关系。下面来通过研究国内生产总值的增加会影响财政收入的增加还是减少的案例对多重共线性进行研究。 一、研究的目的和要求 国内生产总值GDP按照支出法的公式为:国内生产总值=消费+投资+政府购买支出+净出口,而财政收入的主要来源为各项税收收入如增值税等。只有经济持续的增长,才能提供稳定的税收来源。所以,影响财政收入的主要因素是税收收入。但是,税收收入还影响着国内生产总值。因此,为了中国未来经济的发展,需要定量的分析影响中国财政收入的因素。 二、模型设定及其估计 经过研究与分析,影响财政收入的主要因素,除了税收收入以外,还有与一些其他因素有关。为此,考虑的影响因素主要有财政支出CZZC/亿元用X2表示,国内生产总值GDP/亿元用X3表示,税收总额SSZE/亿元用X4表示。各影响变量与财政收入之间呈现正相关。因此设定了如下形式的计量经济模型来研究“国内生产总值的增加会减少财政收入吗”这个问题: Y t=β1+β2X2t+β3X3t+β4X4t+μt 式中,Yt为第t年国内财政收入(亿元);X2为财政支出(亿元);X3为国内生产总值(亿元);X4为税收总额(亿元)。各解释变量前的回归系数预期都大于0. 为估计模型参数,1985~2011年阶段财政收入的统计数据,如下表:

多重共线性的检验与修正

计量经济学实验报告成绩 课程名称计量经济学指导教师苏卫东实验日期 2014-6-24 院(系)财政与金融学院专业班级金融二专实验地点实验楼八机房 学生姓名单一芳学号 201212041018 同组人无 实验项目名称多重共线性的检验与修正 一、实验目的和要求 1、理解多重共线性的含义与后果 2、掌握Eviews软件的操作和多重共线性的检验与修正 二、实验原理 Eviews软件的操作和多重共线性的检验修正方法 三、主要仪器设备、试剂或材料 Eviews软件,计算机 四、实验方法与步骤 1、准备工作:建立工作文件,并输入数据 CREATE A 1974 1981; DATA Y X1 X2 X3 X4 X5 2、OLS估计: LS Y C X1 X2 X3 X4 X5; 3、计算简单相关系数 COR X1 X2 X3 X4 X5 4、多重共线性的解决 LS Y C X1; LS Y C X2; LS Y C X3; LS Y C X4; LS Y C X5;

LS Y C X1 X3; LS Y C X1 X3 X2; LS Y C X1 X3 X4; LS Y C X1 X3 X5 五、实验数据记录、处理及结果分析 1、建立工作组,输入以下数据: obs Y X1 X2 X3 X4 X5 1974 98.45 560.2 153.2 6.53 1.23 1.89 1975 100.7 603.11 190 9.12 1.3 2.03 1976 102.8 668.05 240.3 8.1 1.8 2.71 1977 133.95 715.47 301.12 10.1 2.09 3 1978 140.13 724.27 361 10.93 2.39 3.29 1979 143.11 736.13 420 11.85 3.9 5.24 1980 146.15 748.91 497.16 12.28 5.13 6.83 1981 144.6 760.32 501 13.5 5.47 8.36 1982 148.94 774.92 529.2 15.29 6.09 10.07 1983 158.55 785.3 552.72 18.1 7.97 12.57 1984 169.68 795.5 771.16 19.61 10.18 15.12 1985 162.14 804.8 811.8 17.22 11.79 18.25 1986 170.09 814.94 988.43 18.6 11.54 20.59 1987 178.69 828.73 1094.65 23.53 11.68 23.37 2、OLS估计 LS Y C X1 X2 X3 X4 X5 Dependent Variable: Y Method: Least Squares Date: 06/24/14 Time: 18:45 Sample: 1974 1987 Included observations: 14 Variable Coefficient Std. Error t-Statistic Prob. C -3.650950 30.00144 -0.121692 0.9061 X1 0.125752 0.059087 2.128275 0.0660 X2 0.072656 0.037445 1.940317 0.0883 X3 2.681426 1.258639 2.130418 0.0658 X4 3.405866 2.444896 1.393052 0.2011 X5 -4.430561 2.194164 -2.019248 0.0781 R-squared 0.970397 Mean dependent var 142.7129

多重共线性

多重共线性 1.含义:存在不全为0的1+p 个数p c c c c ,...,,,210,使得 0...22110=++++ip p i i x c x c x c c n i ,...2,1=称自变量p x x x ,...,21之间存在着多重共线性 2.产生原因和背景: 1)当我们所研究的经济问题涉及到时间序列资料时,由于经济变量随时间往往存在共同的变化趋势,使得它们之间就容易出现共线性。2)不同的观测误差也会引起异方差性 2)许多利用截面数据建立回归方程的问题常常也存在自变量高度相关的情形 3.带来的问题: 1)完全共线性下参数估计量不存在 2近似共线性下OLS 估计量非有效 3)参数估计量经济含义不合理 4)变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外 5)模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测 失去意义 4.多重共线性的检验: 1)方差扩大因子法 2)特征根判别法 3)直观判定法 5.消除多重共线性的方法: 1)剔除一些不重要的解释变量 2)增大样本量

课后习题 1.多重共线性对回归参数的估计有何影响? 答:1)完全共线性下参数估计量不存在;2)参数估计量经济含义不合理; 3)变量的显著性检验失去意义;4)模型的预测功能失效 2.具有严重多重共线性的回归方程能否用来作经济预测? 答:如果利用模型去作经济结构分析,要尽可能避免多重共线性; 如果利用模型去作经济预测,只要保证自变量的相关类型在未来时期中保持不变,即未来时期自变量间仍具有当初建模时数据的联系特征,即使回归模型中含有严重多重共线性的变量,也可以得到较好的预测结果; 如果不能保证自变量的相关类型在未来时期中保持不变,那么多重共线性就会对回归预测产生严重的影响。 3.多重共线性的产生与样本量的个数n,自变量的个数p有无关系? 答:有关系,增加样本容量不能消除模型中的多重共线性,但能适当消除多重共线性造成的后果。 当自变量的个数p较大时,一般多重共线性容易发生,所以自变量应选择少而精。

多重共线性题目的检验和处理

山西大学 实 验 报 告 实验报告题目:多重共线性问题的检验和处理 学 院: 专 业: 课程名称: 计量经济学 学 号: 学生姓名: 教师名称: 崔海燕 上课时间: 题电源备,检查料试卷资料试

一、实验目的: 熟悉和掌握Eviews在多重共线性模型中的应用,掌握多重共线性问题的检 验和处理。 二、实验原理:1、综合统计检验法; 2、相关系数矩阵判断; 3、逐步回归法; 三、实验步骤: (一)新建工作文件并保存 打开Eviews软件,在主菜单栏点击File\new\workfile,输入start date 1978和end date 2006并点击确认,点击save键,输入文件名进行保存。 (二)输入并编辑数据 在主菜单栏点击Quick键,选择empty\group新建空数据栏,根据理论和 经验分析,影响粮食生产(Y)的主要因素有农业化肥施用量(X1)、粮食播种面 积(X2)、成灾面积(X3)、农业机械总动力(X4)和农业劳动力(X5),其中成灾 面积的符号为负,其余均应为正。下表给出了1983——2000中国粮食生产的相关 数据。点击name键进行命名,选择默认名称Group01,保存文件。 Y X1X2X3X4X5 1983387281660114047162091802231151 1984407311740112884152641949730868 1985379111776108845227052091331130 1986391511931110933236562295031254 1987402081999111268203932483631663 1988394082142110123239452657532249 1989407552357112205244492806733225 1990446242590113466178192870838914 1991435292806112314278142938939098 1992442642930110560258953030838669 1993456493152110509231333181737680 1994445103318109544313833380236628 1995466623594110060222673611835530 1996504543828112548212333854734820 1997494173981112912303094201634840 1998512304084113787251814520835177 1999508394124113161267314899635768 2000462184146108463343745257436043 2001452644254106080317935517236513 2002457064339103891273195793036870 200343070441299410325166038736546

相关主题
文本预览
相关文档 最新文档