第五章 多重共线性的诊断与处理

  • 格式:pdf
  • 大小:61.12 KB
  • 文档页数:15

下载文档原格式

  / 15
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第五节 多重共线性的诊断与处理

5.1 多重共线性的诊断 数据来源:《计量经济学》于俊年 编著 对外经济贸易大学出版社 2000.6 p208-p209 某国1998-1998的经济数据

年份 进口额(y ) 国内产值(x 1t ) 存货额(x 2t ) 国内消费(x 3t

) 1988 15.9 149.3 4.2 108.1 1989 16.4 161.2 4.1 114.8 1990 19 171.5 3.1 123.2 1991 19.1 175.5 3.1 126.9 1992 18.8 180.8 1.1 132.1 1993 20.4 190.7 2.2 137.7 1994 22.7 202.1 2.1 146 1995 26.5 212.1 5.6 154.1 1996 28.1 226.1 5 162.3 1997 27.6 231.9 5.1 164.3 1998

26.3

239

0.7

167.6

5.1.1 条件数与病态指数诊断

重共线性。

,则认为存在严重的多共线性;若或较强的多重,则认为存在中等程度很小;则认为多重共线性程度重共线性。

,则认为存在严重的多的多重共线性;若或较强,则认为存在中等程度度很小;若,则认为多重共线性程阵(不包括常数项)

为自变量的相关系数矩303010,1010001000100100)

()

()()(min max 1>≤≤<>≤≤<==

•=−CI CI CI R R CI R R R R R κκκκλκ

设x 1,x 2,…,x p 是自变量X 1,X 2,…X P ,经过中心化和标准化得到的向量,即:

R x x X X

X

X x T i

i i =−−=

∑2

)(

记(x 1,x 2,…,x p )为x,设λ为x T x 一个特征值,ϕ为对应的特征向量,其长度为1,若0≈λ,则:

221122110000c X c X c X c x x x x x x x x p p p p T T T T ≈+++⇒≈+++⇒≈⇒≈==⇒≈=L L ϕϕϕϕλϕλϕϕϕλϕϕ

根据上表,计算如下: x=[149.3, 4.2, 108.1; 161.2, 4.1, 114.8; 171.5, 3.1,123.2; 175.5, 3.1, 126.9; 180.8, 1.1, 132.1; 190.7, 2.2, 137.7; 202.1, 2.1, 146; 212.1, 5.6, 154.1; 226.1,5, 162.3; 231.9, 5.1, 164.3; 239, 0.7, 167.6] 求x 的相关矩阵R

R=corrcoef(x) R =

1.00000000000000 0.02447049083573 0.99715218582079 0.02447049083573 1.00000000000000 0.03567322292007 0.99715218582079 0.03567322292007 1.00000000000000

求R 的条件数: cond(R) ans =

7.178039564809832e+002 也可先求R 的特征值 e=eig(R) e =

0.00278483106125 0.99825241504342 1.99896275389533 注:

3自变量的个数==∑e

e(3)/e(1) ans =

7.178039564809491e+002

条件数为717.804,大于100,存在较严重的多重共线性。

为了进一步了解哪些变量之间存在线性关系,计算相关矩阵的特征值和相应的特征向量: [v,d]=eig(R) v =

0.70696453896575 0.03569873579633 0.70634746471371 0.00795062868633 -0.99906334219563 0.04253499482058 -0.70720430439049 0.02445482658777 0.70658618250581 d =

0.00278483106125 0 0 0 0.99825241504342 0 0 0 1.99896275389533 注意:Rv=vd v 为标准正交矩阵

最小的特征值为0.00278483106125,对应的向量为:

(0.70696453896575,0.00795062868633,-0.70720430439049)T 考虑到第二个数0.00795062868633约等于0,从而 即:07072.0707.031≈−x x 所以存在310,,c c c 使得:

03211c x c x c ≈+

5.1.2 方差膨胀因子诊断

每一个自变量对应的方差膨胀因子为R -1相应的对角元素r jj 。 若记x j 关于其他p-1个自变量的复相关系数为R j 则有:

}

{max 112jj

j

j

jj

r

VIF R

r

=−=

如果VIF<5,则认为自变量间不存在多重共线性。

如果性。程度或较强的多重共线就认为自变量间存中等

,105≤≤VIF 如果VIF>10,则认为自变量间存在严重的多重共线性。

在本例中:

diag(inv(R)) ans =

1.0e+002 *

1.79722747043643 0.01023478872590 1.79843993838056 VIF=max(diag(inv(R))) VIF =

1.798439938380555e+002

VIF 远大于10,存在严重的多重共线性。

注意:书上结果错了,我用SPSS 算了,也是这个结果。 方差膨胀因子也可按此计算:

x1=x(:,1);x2=x(:,2);x3=x(:,3); [b bint,r,rint,stats]=regress(x1,[ones(11,1) x2 x3]);一定要常数项

1/(1-stats(1)) ans =

1.797227470435788e+002

5.1.3 容许度(Tolerance)诊断

若记x j 关于其他p-1个自变量的复相关系数为R j 则有:

Tol j =1-R 2j

它是方差膨胀化因子的倒数。越小自变量共线性越强。小于0.1高度共线 在本例中:

Tol=1./diag(inv(R)) Tol =

0.00556412594649 0.97705973887803 0.00556037473734

最小的值远小0.1,高度多重共线性。

5.1.4 方差比例诊断(看Applied Econometric using Matlab 的第84页)