多重共线性

格式：ppt
大小：319.50 KB
文档页数：3

下载文档原格式

第四章多重共线性

5
二、产生多重共线性的背景
多重共线性产生的经济背景主要有几种情形： 1.经济变量之间具有相同的变化趋势。 2.模型中包含滞后变量。 3.利用截面数据建立模型也可能出现多重共线性。 4.样本数据的原因。
6
第二节多重共线性的后果
一、完全多重共线性产生的后果
1.参数的估计值不确定 2.参数估计值的方差无限大
Cov( ˆ2 ,
ˆ3 )

(1

r223 )
r23 2
x22i

x32i
随着共线性增加，r23趋于1，方差将增大。同样协方差的绝对值也增大，它们增大的速度决定于
方差扩大（膨胀）因子(variance inflation factor, VIF)
VIF

1
1 r223
这时
Var(ˆ2 )
4.多重共线性严重时，甚至可能使估计的回归系数符号相反，得出完全错误的结论。（如引例）
18
第三节多重共线性的检验
本节基本内容：简单相关系数检验法方差扩大因子法直观判断法病态指数检验法逐步回归法
19
一、简单相关系数检验法简单相关系数检验法是利用解释变量之间的线性相关程度去判断是否存在严重多重共线性的一种简便方法。适用于只有两个变量的情形。

2

x32i 0

同理
ˆ3
这说明完全多重共线性时，参数估计量的方差将变成无穷大。
9
关于方差的推导
Var(ˆ2 )

x32i (x22i ) (x32i )
(x2i x3i )2

2
1 X21 X 1 X22
1 X2n

多重共线性

多重共线性多重共线性（multicollinearity ）的特征● 多重共线性是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系：0...2211=+++k k X X X λλλ其中k λλλ,...,,21为常数，但不同时为零。

● 0...2211≈+++k k X X X λλλ，近似的多重共线性● 通过巴伦坦图做简单的描述。

共线性部分可用两圆圈的重叠部分来衡量。

重叠部分越大，共线性程度越高。

● 我们定义的多重共线性仅对X 变量之间的线性关系而言，它们之间的非线性关系并不违反无多重共线性的假设i i i i u X X Y +++=2210βββ多重共线性的后果●如果多重共线性是完全的，诸X变量的回归系数将是不正确的，并且它们的标准误差为无穷大●如果多重共线性是不完全的，那末，虽然回归系数可以确定，却有较大的标准误差，意思是，系数不能以很高的精确或准精确加以估计，这会导致：-参数估计不精确，也不稳定-参数估计量的标准差较大，影响系数的显著性检验●多重共线性产生的后果具有一定的不确定性●在近似的多重共线性的情况下，只要模型满足CLRM 假定，回归系数就为ＢＬＵＥ，但特定的样本估计量并不一定等于真值。

多重共线性的来源（1）许多经济变量在时间上由共同变动的趋势，如：收入，投资，消费（2）把一些经济变量的滞后值也作为解释变量在模型中使用，而解释变量和滞后变量通常相关，如：消费和过去的收入多重共线性一般与时间序列有关，但在横截面数据中也经常出现多重共线性的检验● 多重共线性是普遍存在的，造成的后果也比较复杂，对多重共线性的检验缺少统一的准则－对有两个解释变量的模型，作散点图，或相关系数，或拟和优度Ｒ平方。

－对有多个解释变量的模型，分别用一个解释变量对其它解释变量进行线性回归，计算拟和优度22221,...,,k R R R－考察参数估计值的符号，符不符合理论－增加或减少解释变量，考察参数估计值的变化－对比拟和优度和ｔ检验值多重共线性的修正方法● 增加样本观测值，如果多重共线性是由样本引起的，可以通过收集更多的观测值增加样本容量。

计量经济学第四章多重共线性

R-squared
0.989654
Adjusted R-squared 0.986955 S.E. of regression 1437.448 Sum squared resid 47523916 Log likelihood -256.7013 Durbin-Watson stat 1.654140
4
（二）不完全的多重共线性
实际中，常见的情形是解释变量之间存在不完全的多重共线性。
对于解释变量 X 2 , X 3, X k，存在不全为0的数
1
,

2
,
，使得
k
1 2X2 3X3 ...k Xk u 0
5
（三）解释变量的关系小节
可能表现为三种情形： r为相关系数 (1) rxixj 0 ，解释变量间毫无线性关系。这时多元
Var(ˆ2 )
9
二、不完全多重共线性产生的后果
1、参数估计值的方差增大
Var( βˆ 2 ) = σ 2
1 x22i (1-
r223 )
=
σ2
1
x22i (1 - r223 )
当 r23增大时,
^
Var( 2)
也增大
10
方差膨胀因子 (Variance Inflation Factor)
17 17
2、交叉相关系数（Cross correlation）
相关系数计算的是两组样本的同期相关程度，交叉相关则可以表示不同期之间的相关程度。
Eviews操作： Group窗口的view/cross correlation/输入滞后期设定/ 输出结果阅读：看是否超出2倍标准差线
18
2倍标准差线
1、参数估计值有很大的偶然性。 2、参数显著性检验未通过。 3、经济意义检验未通过。 4、相关系数大。

多重共线性

第二章知多元线性回归模型参数向量的最小二乘估计量为: 1 X X X Y 这一表达式成立的前提条件是解释变量X 1 , X 2 , X k 之间没有多重共线性. 如果矩阵X 不是满秩的,则X X 也不是满秩的.必有: X X 0, 从而 X X 不存在, OLS失效, 此时称该模型存在完全的多重共线性.
解释变量的精确线性组合表示,它们的相关系数的绝对值为1.
X s ,h =
Var X is Var X ih ch cs
n
Cov( X is , X ih )

n
n i 1
( X is X is )( X ih X ih )
2
i1 ( X is X is )
则:
x y x
i1 i 2 i1
, 而1与 2却无法估计.
2 在近似共线性下OLS参数估计量的方差变大
我们前面已论述, 在近似共线性下,虽然可以得到OLS估计量: ) X X 1 2 Var (

由于此时 X X 0, 引起 X X 主对角线元素较大, 即 i的方差较大.
1
对此, 如果我们合并两个(或多个)高度线性相关的变量, 可以使用OLS , 但两个(或多个)变量前的参数将无法估计. 例如,对于回归模型:Yi 0 1 X i1 2 X i 2 i i 1, 2 , n 如果有:X i 2 X i1 , 合并两变量 : Yi 0 1 2 X i1 i , 令 1 2 ,
n
( X ih X ih ) i1
n 2
2
1 X s , h 1 在近似的多重共线性下则得不到这样的精确线性组合, 它们的相关系数的绝对值近似为1.

第四章多重共线性

2
x2j VIFj
注意：R2j 是多个解释变量辅助回归的多重可决系数，
而相关系数 r223只是说明两个变量的线性关系。
（一元回归中可决系数的数值等于相关系数的平方）
17
方差扩大因子的作用
由
R2j 越大
VIFJ 1 (1 R2j ) 多重共线性越严重
VIFj越大
VIFj的大小可以反映解释变量之间存在多重共线性的严重
1 x22i (1
r223 )
2
x22i
1 (1 r223)
2
x22i
VIF2
当 r23 增大时，VIF2 增大， Var(ˆ2 ) 也会增大，
思考: 当 r23 0 时 Var(ˆ2) 2
x22i
(与一元回归比较)
当 r23 1 时 Var(ˆ2 )
（见前页结论） 8
三、当多重共线性严重时，甚至可能使估计
在总体中部分或全部解释变量可能没有线性关系，但是在具体获得的样本中仍可能有共线性关系，因此多重共线性问题本质上是一种样本现象。
正因为如此，我们无法对多重共线性问题进行统计假设检验，只能设法评价解释变量之间多重共线性的严重程度。
5
第二节多重共线性产生的后果
从参数估计看，在完全无多重共线性时，各解释变量都独
Kt
Kt
ln Qt ln A ln Lt ln Kt ln u
（ln Lt 与 ln Kt 有多重共线性） ln Qt ln A ln Lt ln u
Kt
Kt 22
三、截面数据与时间序列数据的结合
有时在时间序列数据中多重共线性严重的变量，在截面数据中不一定有严重的共线性
假定前提：截面数据估计出的参数在时间序列中变化不大

多重共线性

第四章多重共线性第一节什么是多重共线性一、多重共线性的含义所谓多重共线性，不仅包括解释变量之间完全（精确）的线性关系，还包括解释变量之间近似的线性关系。

对于解释变量23,,,k X X X ，如果存在不全为零的数123,,,,k λλλλ ，能使得12233i i k ki X X X λλλλ++++ =0 ，（i =1,2,,n ）——即解释变量的数据矩阵的列向量组线性相关。

则称解释变量23,,,k X X X 之间存在着完全的线性关系。

用数据表示，解释变量的数据矩阵为X =213112232223111k k nnkn X X X XX X X X X ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦当()r X <k 时，也说明解释变量23,,,k X X X 之间存在着完全的线性关系。

当存在完全共线性时，至少有一个变量（列向量）可以用其余的变量（列向量）线性表出。

在实际问题中，完全的共线性并不多见。

常见的情形是解释变量23,,,k X X X 之间存在不完全的共线性，这是指存在不全为零是数123,,,,k λλλλ ，使得12233λλλλ+++++ i i k ki i X X X v =0（i =1,2,,n ）其中i v 是随机变量。

这表明此时解释变量之间只是一种近似的线性关系。

二、产生多重共线性的背景1.经济变量之间具有共同的变化趋势2.模型中包含滞后变量3.利用截面数据建立模型也可能出现共线性4. 样本数据自身的原因第二节多重共线性产生的后果完全共线性时，矩阵X X '不可逆，参数估计式ˆβ=1()X X X Y -''不存在，OLS 无法应用。

不完全的共线性时，1()X X -'也存在，可以得到参数的估计值，但是对计量经济分析可能会产生一系列影响。

一、参数估计量的无偏性依然成立不完全共线性时ˆ()E β=1()E X X X Y -''⎡⎤⎣⎦=1()()E X X X X U β-''⎡⎤+⎣⎦=β+()1()X X X E U -''=β二、参数OLS 估计值方差扩大如二元回归模型i Y =12233i i i X X u βββ+++中的2X 与3X 为不完全的共线性时，2X 与3X 之间的相关系数23r 可由下式给出223r=2232223()x x x x∑∑∑容易证明2ˆ()Var β=222223(1)i x r σ-∑3ˆ()Var β=222323(1)ixr σ-∑随着共线性的程度增加，23r 的绝对值趋于1，两个参数估计量的方差也增大。

第七章多重共线性

2
X 1i 1 r 2
2
ˆ 同理:Var b2

2
X 2i 1 r 2
2
第二节
多重共线性的影响后果
2
ˆ 当完全不共线时，r=0, Var b1
X
2 1i
当不完全共线时，r越接近1,相关程度越高， bi Var ˆ 越大，参数估计值越不准确。
第四节
多重共线性的解决方法
三、逐步回归法 (1)计算因变量对每一个解释变量的回归方程,并分别进行统计检验,从中选取最合适的基本回归方程。 (2)逐一引入其他解释变量,重新进行回归，在模型中每个解释变量均显著,参数符号正确, R 2 值有所提高的前提下,从中再选取最合适的二元回归方程。 (3)在选取的二元回归方程的基础上以同样的方式引入第三解释变量;如此引入,直至无法引入新变量为止。
第四节
多重共线性的解决方法
（2）如果历年的平均收入弹性与近期的收入弹性近似相等，就可以用 a2代替原模型中的 b2 。将原模 ln y a2 ln I b0 b1 ln P 型变为 y1 ln y a2 ln I 令：
p1 ln P 再利用时间序列数据求出价格弹性 b1 以及 b0即可。
第四节
多重共线性的解决方法
二、间接剔除重要的解释变量 1、利用已知信息所谓已知信息，就是在建立模型之前，根据经济理论、统计资料或经验分析，已知的解释变量之间存在某种关系。为了克服模型的多重共线性，可以将解释变量按已知关系加以处理。
第四节
多重共线性的解决方法
例如：柯布－道格拉斯生产函数
y aL K e
ln y / K ln a ln L / K

多重共线性(统计累赘)的概念、特征及其测量方式和处理方式

试述多重共线性（统计累赘）的概念、特征及其测量方式和处理方式。

1、概念多重共线性是指自变量之间存在线性相关关。

倘若其中两个自变项的关系特别强，则在相互控制后就会使每者的效果减弱，而其他的变相的效果就会因此而增大。

2、特征3、产生原因产生多重相关性的原因主要包括四方面。

一是没有足够多的样本数据; 二是选取的自变量之间客观上就有共线性的关系; 还可能由其它因素导致, 如数据采集所用的方法, 模型设定, 一个过度决定的模型等。

但多数研究者认为共线性本质上是由于样本数据不足引起的。

4、测量方式（1）经验式的诊断方法通过观察,得到一些多重相关性严重存在的迹象。

①在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。

②回归系数的代数符号与专业知识或一般经验相反;或者该自变量与因变量的简单相关系数符号相反。

③对重要自变量的回归系数进行t 检验,其结果不显著。

特别是当F 检验能在高精度下通过,测定系数R 2的值也很大,但自变量的t 检验却全都不显著,这时多重相关性的可能将会很大。

④如果增加或删除一个变量,或者增加或删除一个观测值,回归系数发生了明显的变化。

⑤重要自变量的回归系数置信区别明显过大。

⑥在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。

⑦对于一般的观测数据,如果样本点的个数过少,比如接近于变量的个数或者少于变量的个数,样本数据中的多重相关性就会经常存在。

（2）统计检验方法共线性的诊断方法是基于对自变量的观测数据构成的矩阵X ’X 进行分析,使用各种反映自变量间相关性的指标。

共线性诊断常用的统计量有方差膨胀因子VIF 或容限TOL 、条件指数和方差比例等。

方差膨胀因子VIF 是指回归系数的估计量由于自变量的共线性使其方差增加的一个相对度量。

对于第i 个回归系数,它的方差膨胀因子定义为：VIF=1/1-R 2=1/TOL i 其中R2i 是自变量Xi 对模型中其余自变量线性回归模型的R 平方。

多重共线性讲义

当存在不完全多重共线性时，从上面已经知道，参数的OLS估计量方差较大，其标准误也就较大，从而使得参数估计量的精度较低。
9
3.参数估计量经济含义不合理如果模型中两个解释变量具有线性相关性，例如 X2= X1 ，这时，X1和
X2前的参数1、2并不反映各自与被解释变量之间的结构关系，而是反映它们对被解释变量的共同影响。1、2已经失去了应有的经济含义，于是经常表现出似乎反常的现象：例如1本来应该是正的，结果恰是负的。
如果存在 c1X1i+c2X2i+…+ckXki+vi=0 i=1,2,…,n
其中ci不全为0，vi为随机误差项，则称为不完全多重共线性或欠完全多重共线性（approximate multicollinearity）。
4
7.2.产生多重共线性的原因
一般地，产生多重共线性的主要原因有以下四个方面：（1）经济变量相关的共同趋势时间序列样本：经济繁荣时期，各基本经济变量（收入、消费、投资、价格）都趋于增长；衰退时期，又同时趋于下降。横截面数据：生产函数中，资本投入与劳动力投入往往出现高度相关情况，大企业二者都大，小企业都小。（2）滞后变量的引入在经济计量模型中，往往需要引入滞后经济变量来反映真实的经济关系。例如，消费=f(当期收入, 前期收入），显然，两期收入间有较强的线性相关性。
14
15
2、辅助回归法
利用模型中每一个解释变量分别以其余解释变量为解释变量进行回归，并计算相应的拟合优度。
如果某一种回归 X j c 1X1 2 X 2 ... j1X j1 j1X j1 ... k X k
的判定系数较大，说明Xj与其他X间存在共线性。判别的标准是回归模型是否通过F检验。

多重共线性

我们可以分别作y对x1和y对x2的回归，以便弄清 x1和x2单独对y的影响如何：
yˆi 9.4092 1.6449 x1i (0.0704)
线性。
如果存在不为零的常数 1, 2 ，使得下式成立
1 x1i 2 x2i vi 0 其中vi是随机项，这表示解释变量x1和x2之间存在近似的线性关系，则说x1和x2之间高度相关，即存在不完全多重共线性。完全多重共线性和不完全多重共线性，统称为多重共线性。因此，所谓多重共线性是指解释变量之间存在完全的线性关系或近似的线性关系。
§7.2 多重共线性的后果
一般模型
Y X U
(7.2.11)
完全多重共线，即解释变量中存在
0 1 x1i k xki 0 （7.2.12)
其中λi不全为零。于是
rk(X) < k +1
(7.2.13)
便有
| X′X |＝0
(7.2.14)
从而使得参数估计量
ˆ ( X X )1 X Y
i＝1，2，…，k，皆有R2i=0。
多重共线性基本上是一种样本现象。因为人们在制定模型时，总是尽量避免将理论上具有严格线性关系的变量作为自变量收集在一起，因此，实际问题中的多重共线性并不是自变量之间存在理论上或实际上的线性关系造成的，而是由于所收集的数据(自变量观察值)之间存在近似的线性关系所致。
例7.2.1 设因变量y和自变量x1、x2具有表7.2.1所示的观察值，我们用模型
yi 0 1 x1i 2 x2i ui
拟合表7.2.1中的数据。
表7.2.1
y、x1和x2的观察值
yi 30 35 40 45 50 60 68 80 92 104 x1i 10 15 18 22 28 32 38 42 50 55 x2i 9.8 14.9 17.6 21.6 27.6 31 37.2 42.3 50.2 54.6

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

多重共线性案例分析
王欣 13120501
一、案例背景
本案例选取了某地区1984年—2003年出口总额（亿美元）及国内生产总值（亿元）、进口额（亿美元）、储蓄（亿元）的数据资料，解释变量是国内生产总值x1、进口额x2、储蓄x3，被解释变量是出口总额y。
净出口作为国内生产总值的一个组成部分，可见国内生产总值的增长与进出口额的提高是密切相关的。那么，出口总额是否也受到国内生产总值等因素的影响呢？
方法一：分析→度量→可靠性分析→项目：自变量，统计量：项间相关性→确定。方法二：分析→回归→线性→统计量：描述性→确定。
1.2通过t检验判断

判断标准：当回归方程通过了F检验，但是解释变量没有通过t检验时说明可能存在多重共线性。
SPSS操作：方法：分析→回归→线性→统计量：估计→确定。
t 0.025 (16) 2.120
对于X1、X2、X3进行t检验，t值均大于临界值，则拒绝原假设，接受备择假设，即认为 i 显著不为零。
判断标准：如果多个维度特征值至少有一个近似等于0，条件指数大于10则认为存在多重共线性，条件指数大于30认为存在严重的多重共线性。
2.1剔除变量
思想：设法找出引起多重共线性的解释变量，将其剔除，主要运用的方法为向前法、向后法、逐步回归法。
向前法操作：分析→回归→线性→方法：向前→确定。向后法操作：分析→回归→线性→方法：向后→确定。逐步回归法操作：分析→回归→线性→方法：逐步→确定。
二、案例分析
1.检验变量之间是否存在多重共线性
1.1通过解释变量之间的相关系数判断 1.2通过t检验判断 1.3通过方差膨胀因子判断 1.4其他方法
2.解决办法
2.1剔除变量 2.2岭回归
1.1通过相关系数判断
判断标准：
当解释变量之间的相关系数值都较高时，说明存在严重的多重共线性。
SPSS操作：
2.2岭回归
SPSS操作：文件→新建→语法 INCLUDE ‘安装路径（文件regression.sps所在位置）\regression.sps'. ridgereg enter=x1 x2 x3 /dep=y /start=0 /stop=1 /inc=0.05. 运行→全部。
通过分析岭迹图，判断k值在什么范围内，各变量系数趋于平稳。然后再通过程序运行得到具体k值所对应的回归方程。
操作： INCLUDE ‘安装路径（文件regression.sps所在位置）\regression.sps'. ridgereg enter=x1 x2 x3 /dep=y /start=0 /stop=1 /inc=0.05 /k=0.5. 运行→全部。
结果如上图所示，其中B/SE（B）就是t值，它的自由度为n-k-1。通过查表得到：

1.3通过方差膨胀因子判断
计算方法：
1 VIF 1 R2 tolerance判断标准： Nhomakorabea

1
容忍度＜0.1，VIF＞10，认为存在较严重的多重共线性。 SPSS操作：分析→回归→线性→统计量：共线性诊断→确定。
1.4其他方法
除上述方法外，还可以通过特征值、条件指数等判断是否存在多重共线性。

多重共线性

合集下载

第四章多重共线性

多重共线性

计量经济学第四章多重共线性

多重共线性

第四章多重共线性

多重共线性

第七章多重共线性

多重共线性(统计累赘)的概念、特征及其测量方式和处理方式

多重共线性讲义

多重共线性

文档推荐

最新文档

多重共线性

合集下载

第四章 多重共线性

多重共线性

计量经济学第四章多重共线性

多重共线性

第四章多重共线性

多重共线性

第七章 多重共线性

多重共线性(统计累赘)的概念、特征及其测量方式和处理方式

多重共线性讲义

多重共线性

文档推荐

最新文档

第四章多重共线性

第七章多重共线性