当前位置:文档之家› 第五章 多重共线性的诊断与处理

第五章 多重共线性的诊断与处理

第五章  多重共线性的诊断与处理
第五章  多重共线性的诊断与处理

第五节 多重共线性的诊断与处理

5.1 多重共线性的诊断 数据来源:《计量经济学》于俊年 编著 对外经济贸易大学出版社 2000.6 p208-p209 某国1998-1998的经济数据

年份 进口额(y ) 国内产值(x 1t ) 存货额(x 2t ) 国内消费(x 3t

) 1988 15.9 149.3 4.2 108.1 1989 16.4 161.2 4.1 114.8 1990 19 171.5 3.1 123.2 1991 19.1 175.5 3.1 126.9 1992 18.8 180.8 1.1 132.1 1993 20.4 190.7 2.2 137.7 1994 22.7 202.1 2.1 146 1995 26.5 212.1 5.6 154.1 1996 28.1 226.1 5 162.3 1997 27.6 231.9 5.1 164.3 1998

26.3

239

0.7

167.6

5.1.1 条件数与病态指数诊断

重共线性。

,则认为存在严重的多共线性;若或较强的多重,则认为存在中等程度很小;则认为多重共线性程度重共线性。

,则认为存在严重的多的多重共线性;若或较强,则认为存在中等程度度很小;若,则认为多重共线性程阵(不包括常数项)

为自变量的相关系数矩303010,1010001000100100)

()

()()(min max 1>≤≤<>≤≤<==

?=?CI CI CI R R CI R R R R R κκκκλκ

设x 1,x 2,…,x p 是自变量X 1,X 2,…X P ,经过中心化和标准化得到的向量,即:

R x x X X

X

X x T i

i i =??=

∑2

)(

记(x 1,x 2,…,x p )为x,设λ为x T x 一个特征值,?为对应的特征向量,其长度为1,若0≈λ,则:

221122110000c X c X c X c x x x x x x x x p p p p T T T T ≈+++?≈+++?≈?≈==?≈=L L ????λ?λ???λ??

根据上表,计算如下: x=[149.3, 4.2, 108.1; 161.2, 4.1, 114.8; 171.5, 3.1,123.2; 175.5, 3.1, 126.9; 180.8, 1.1, 132.1; 190.7, 2.2, 137.7; 202.1, 2.1, 146; 212.1, 5.6, 154.1; 226.1,5, 162.3; 231.9, 5.1, 164.3; 239, 0.7, 167.6] 求x 的相关矩阵R

R=corrcoef(x) R =

1.00000000000000 0.02447049083573 0.99715218582079 0.02447049083573 1.00000000000000 0.03567322292007 0.99715218582079 0.03567322292007 1.00000000000000

求R 的条件数: cond(R) ans =

7.178039564809832e+002 也可先求R 的特征值 e=eig(R) e =

0.00278483106125 0.99825241504342 1.99896275389533 注:

3自变量的个数==∑e

e(3)/e(1) ans =

7.178039564809491e+002

条件数为717.804,大于100,存在较严重的多重共线性。

为了进一步了解哪些变量之间存在线性关系,计算相关矩阵的特征值和相应的特征向量: [v,d]=eig(R) v =

0.70696453896575 0.03569873579633 0.70634746471371 0.00795062868633 -0.99906334219563 0.04253499482058 -0.70720430439049 0.02445482658777 0.70658618250581 d =

0.00278483106125 0 0 0 0.99825241504342 0 0 0 1.99896275389533 注意:Rv=vd v 为标准正交矩阵

最小的特征值为0.00278483106125,对应的向量为:

(0.70696453896575,0.00795062868633,-0.70720430439049)T 考虑到第二个数0.00795062868633约等于0,从而 即:07072.0707.031≈?x x 所以存在310,,c c c 使得:

03211c x c x c ≈+

5.1.2 方差膨胀因子诊断

每一个自变量对应的方差膨胀因子为R -1相应的对角元素r jj 。 若记x j 关于其他p-1个自变量的复相关系数为R j 则有:

}

{max 112jj

j

j

jj

r

VIF R

r

=?=

如果VIF<5,则认为自变量间不存在多重共线性。

如果性。程度或较强的多重共线就认为自变量间存中等

,105≤≤VIF 如果VIF>10,则认为自变量间存在严重的多重共线性。

在本例中:

diag(inv(R)) ans =

1.0e+002 *

1.79722747043643 0.01023478872590 1.79843993838056 VIF=max(diag(inv(R))) VIF =

1.798439938380555e+002

VIF 远大于10,存在严重的多重共线性。

注意:书上结果错了,我用SPSS 算了,也是这个结果。 方差膨胀因子也可按此计算:

x1=x(:,1);x2=x(:,2);x3=x(:,3); [b bint,r,rint,stats]=regress(x1,[ones(11,1) x2 x3]);一定要常数项

1/(1-stats(1)) ans =

1.797227470435788e+002

5.1.3 容许度(Tolerance)诊断

若记x j 关于其他p-1个自变量的复相关系数为R j 则有:

Tol j =1-R 2j

它是方差膨胀化因子的倒数。越小自变量共线性越强。小于0.1高度共线 在本例中:

Tol=1./diag(inv(R)) Tol =

0.00556412594649 0.97705973887803 0.00556037473734

最小的值远小0.1,高度多重共线性。

5.1.4 方差比例诊断(看Applied Econometric using Matlab 的第84页)

注意:Applied Econometric using Matlab的第84页,4.4式是错的,4.3,4.5,4.6式是对的。

某国1998-1998的经济数据

年份 进口额(y)国内产值

(x1t)

存货额(x2t)国内消费(x3t)

198815.9149.34.2108.1

198916.4161.24.1114.8

199019171.53.1123.2

199119.1175.53.1126.9

199218.8180.81.1132.1

199320.4190.72.2137.7

199422.7202.12.1146

199526.5212.15.6154.1

199628.1226.15162.3

199727.6231.95.1164.3

199826.32390.7167.6

x1=[149.3,4.2,108.1;161.2,4.1,114.8;171.5,3.1,123.2;175.5,3.1, 126.9;180.8,1.1,132.1;190.7,2.2,137.7;202.1,2.1,146;212.1,5.6,154.1; 226.1,5,162.3;231.9,5.1,164.3;239,0.7,167.6];

x=[ones(size(x1,1),1),x1];

vnames=strvcat('constant','x1','x2','x3');

fmt='%12.6f';

bkw(x,vnames,fmt);

Belsley, Kuh, Welsch V ariance-decomposition

K(x) constant x1 x2 x3

1 0.000000 0.000051 0.000000 0.000012

140 0.000006 0.140284 0.598136 0.116948

188 0.000011 0.680208 0.375680 0.646263

1978 0.999983 0.179457 0.026184 0.236777

K(x)=188时,有两个方差比例大于0.5,x1与x3可以存在共线性。

K(X)>30 或者方差比例>0.5,则存在多重共线性。

上表的算法:

[nobs nvar] = size(x);

[u d v] = svd(x,0);

lamda = diag(d(1:nvar,1:nvar));

lamda2 = lamda.*lamda;

v = v.*v;

phi = zeros(nvar,nvar);

for i=1:nvar;

phi(i,:) = v(i,:)./lamda2';

end;

pi = zeros(nvar,nvar);

for i=1:nvar;

phik = sum(phi(i,:));

pi(i,:) = phi(i,:)/phik;

end;

pi'

ans =

0.00000000000428 0.00005121386618 0.00000000753568 0.00001248205274

0.00000606371588 0.14028373758356 0.59813616157856 0.11694753752154

0.00001066784928 0.68020848180663 0.37568029573565 0.64626252084123

0.99998326843056 0.17945656674363 0.02618353515011 0.23677745958449

K(x)的算法:

[u d v] = svd(x,0);

d1=diag(d);

d1 =

1.0e+002 *

8.02837099962981

0.05746006631173

0.04260231288293

0.00405906633001

kx=[d1(1)/d1(1);d1(1)/d1(2);d1(1)/d1(3);d1(1)/d1(4)]

kx =

1.0e+003 *

0.00100000000000

0.13972087947263

0.18844918166043

1.97788613117054

5.2 多重共线性的处理

可参见《经济计量学》李景华编著中国商业出版社第四章

5.2.1 岭回归(脊回归)

年份 进口额(y)国内产值(x1t)存货额(x2t)国内消费(x3t)

198815.9149.34.2108.1

198916.4161.24.1114.8

199019171.53.1123.2

199119.1175.53.1126.9

199218.8180.81.1132.1

199320.4190.72.2137.7

199422.7202.12.1146

199526.5212.15.6154.1

1996 28.1 226.1 5 162.3 1997 27.6 231.9 5.1 164.3 1998

26.3

239

0.7

167.6

x=[149.3, 4.2, 108.1; 161.2, 4.1, 114.8; 171.5, 3.1,123.2; 175.5, 3.1, 126.9; 180.8, 1.1, 132.1; 190.7, 2.2, 137.7; 202.1, 2.1, 146; 212.1, 5.6, 154.1; 226.1,5, 162.3; 231.9, 5.1, 164.3; 239, 0.7, 167.6]; y=[15.9; 16.4;19;19.1; 18.8; 20.4; 2

2.7; 26.5; 28.1; 27.6; 26.3]; bb = zeros(4,101); kvec = 0:0.01:1; count = 0;

for k = 0:0.01:1

b(:,count) = ridge(y,[ones(11,1) x],k); end

plot(kvec',b'),xlabel('k'),ylabel('b','FontName','Symbol')

k

β

点击最上面一要线,删除得:

k

β

如果不想在图中包括常数项,则可: bb = zeros(3,101);

kvec = 0:0.01:1;

count = 0;

for k = 0:0.01:1

count = count + 1;

bb(:,count) = ridge(y, x,k);

end

plot(kvec',bb'),xlabel('k'),ylabel('b','FontName','Symbol')

β

k

为了看清k在0到0.1之间回归系数的变化情况,则:

bb = zeros(3,11);

kvec = 0:0.01:0.1;

count = 0;

for k = 0:0.01:0.1

count = count + 1;

bb(:,count) = ridge(y, x,k);

end

plot(kvec',bb'),xlabel('k'),ylabel('b','FontName','Symbol')

β

k

因此,在k=0.04,各回归系数基本稳定。

不用ridge,也可做岭回归图:

x=[149.3, 4.2, 108.1; 161.2, 4.1, 114.8; 171.5, 3.1,123.2; 175.5, 3.1, 126.9; 180.8, 1.1, 132.1; 190.7, 2.2, 137.7; 202.1, 2.1, 146; 212.1, 5.6, 154.1; 226.1,5, 162.3; 231.9, 5.1, 164.3; 239, 0.7, 167.6];

y=[15.9; 16.4;19;19.1; 18.8; 20.4; 22.7; 26.5; 28.1; 27.6; 26.3]; xb=zscore(x)/sqrt(10);

x1=x(:,1);x2=x(:,2);x3=x(:,3); bb = zeros(3,11); kvec = 0:0.01:0.1; count = 0;

for k = 0:0.01:0.1 count = count + 1; bb(:,count) =inv(diag([norm(x1-mean(x1)) norm(x2-mean(x2))

norm(x3-mean(x3))]))*inv(xb'*xb+eye(3)*k)*xb'*y end

plot(kvec',bb'),xlabel('k'),ylabel('b','FontName','Symbol')

k

β

上图的y 轴是经处理后最后模型的回归系数。

也可绘制k 在

0到1变化时,最后模型的回归系数变化情况。 bb = zeros(3,101); kvec = 0:0.01:1; count = 0;

for k = 0:0.01:1 count = count + 1; bb(:,count) =inv(diag([norm(x1-mean(x1)) norm(x2-mean(x2))

norm(x3-mean(x3))]))*inv(xb'*xb+eye(3)*k)*xb'*y end

plot(kvec',bb'),xlabel('k'),ylabel('b','FontName','Symbol')

k

β

xb=zscore(x)/sqrt(10); 标准化,即:

R x x X X

X

X x T i

i i =??=

∑2

)(

xb =

-0.47740966120325 0.17256712249066 -0.48483579038679 -0.35189665728378 0.15339299776947 -0.38215648650315 -0.24325935137029 -0.03834824944237 -0.25342422491769 -0.20107010635534 -0.03834824944237 -0.19672072874315 -0.14516935671053 -0.42183074386605 -0.11702932871405 -0.04075097529853 -0.21091537193303 -0.03120782099041 0.07948837299407 -0.23008949665421 0.09599191367141 0.18496148553145 0.44100486858724 0.22012659448596 0.33262384308377 0.32596012026013 0.34579380222414 0.39379824835544 0.34513424498132 0.37644434069687 0.46868415825698 -0.49852724275079 0.42701772917687

x1=x(:,1);x2=x(:,2);x3=x(:,3); b=inv(diag([norm(x1-mean(x1))

norm(x2-mean(x2))

norm(x3-mean(x3))]))*inv(xb'*xb+eye(3)*0.04)*xb'*y b =

0.06334061443129 0.58739760837860 0.11592051232022

b0=mean(y)-b(1)*mean(x1)-b(2)*mean(x2)-b(3)*mean(x3) b0 =

-8.56959415249174 最后的岭回归方程:

y=-8.56956+0.06334x 1+0.5874x 2+0.11592x 3 残差平方和:

sse=(norm(y-(b0+b(1)*x1+b(2)*x2+b(3)*x3)))^2 sse =

2.42768928001254 可决系数:

1-sse/norm(y-mean(y))^2 ans =

0.98824073639984 OLS 的残差平方和:

[bb,bint,r,rint]=regress(y,[ones(11,1) x]); norm(r)^2 ans =

1.67142209436149 增加了45.25%

《计量经济学》于俊年 P210 表中的VIF 值算错了。

k=0.04时

VIF= diag(inv(xb'*xb+0.04*eye(3)))

VIF =

11.9276

0.9637

11.9350

k=0.1

VIF= diag(inv(xb'*xb+0.1*eye(3)))

VIF =

5.1014

0.9103

5.1043

因此,我们取k=0.1

b=inv(diag([norm(x1-mean(x1)) norm(x2-mean(x2)) norm(x3-mean(x3))]))*inv(xb'*xb+eye(3)*0.1)*xb'*y

b =

0.0660

0.5582

0.1061

b0=mean(y)-b(1)*mean(x1)-b(2)*mean(x2)-b(3)*mean(x3)

b0 =

-7.6286

最后的方程:

y=-7.6286+0.0660x1+0.5582x2+0.1061x3

sse=(norm(y-(b0+b(1)*x1+b(2)*x2+b(3)*x3)))^2

sse =

2.9054

可决系数:

1-sse/norm(y-mean(y))^2

ans =

0.9859

(2.9054-1.67142209436149)/1.67142209436149

ans =

0.7383

残差平方和比OLS增加了73.83%

下面再求y=-7.6286+0.0660x1+0.5582x2+0.1061x3

各回归系数的标准差与相应的T值。参见于俊年的计量书P213。

bb=inv(xb'*xb+0.1*eye(3))*xb'*yb

bb =

0.4357

0.2026

0.4820

sse=norm(yb-bb(1)*xb(:,1)-bb(2)*xb(:,1)-bb(3)*xb(:,1))^2

sse =

0.0933

1-sse/norm(yb)^2

ans =

0.9067

估计的方差:

sse/(11-3)

ans =

0.0117

回归系数的标准差:

sb=sqrt(VIF*sse/(11-3))

sb =

0.2439

0.1030

0.2439

也可按:

sb=diag(sqrt(inv(xb'*xb+0.1*eye(3))*sse/(11-3)))

sb =

0.2439

0.1030

0.2439

最后方程的回归系数的标准差:

std(y)*sb./(std(x))'

ans =

0.0370

0.2838

0.0537

P1=(1-tcdf(0.0660/0.0370,7))*2

P1=0.1176

P2=(1-tcdf(0.5582/0.2838,7))*2

P2=0.0899

P3=(1-tcdf(0.1061/0.0537,7))*2

P3=0.0887

因此,y=-7.6286+0.0660x1+0.5582x2+0.1061x3

标准差(0.0370) (0.2838) (0.0537)

P值(0.1176) (0.0899) (0.0887)

在显著性水平0.12下,各回归系数均通过了检验。

5.2.2 主成分回归

原理参见:《经济计量学》李景华P117-P126

x=[149.3, 4.2, 108.1; 161.2, 4.1, 114.8; 171.5, 3.1,123.2; 175.5, 3.1, 126.9; 180.8, 1.1, 132.1; 190.7, 2.2, 137.7; 202.1, 2.1, 146; 212.1, 5.6, 154.1; 226.1,5, 162.3; 231.9, 5.1, 164.3; 239, 0.7, 167.6];

y=[15.9; 16.4;19;19.1; 18.8; 20.4; 22.7; 26.5; 28.1; 27.6; 26.3];

x1=x(:,1);x2=x(:,2);x3=x(:,3);

xb=zscore(x)/sqrt(10);

dinv=inv(diag([norm(x1-mean(x1)) norm(x2-mean(x2)) norm(x3-mean(x3))])) dinv =

0.0105 0 0

0 0.1917 0

0 0 0.0153

Z=xb*A

Z =

0.0067 -0.2013 -0.6725

0.0227 -0.1752 -0.5121

0.0069 0.0234 -0.3525

-0.0033 0.0263 -0.2827

-0.0232 0.4134 -0.2032

-0.0084 0.2085 -0.0598

-0.0135 0.2351 0.1142

-0.0214 -0.4286 0.3049

-0.0068 -0.3053 0.4931

0.0149 -0.3215 0.5588

0.0254 0.5252 0.6116

[A,d]=eig(corrcoef(x))

A =

0.7070 0.0357 0.7063

0.0080 -0.9991 0.0425

-0.7072 0.0245 0.7066

d =

0.0028 0 0

0 0.9983 0

0 0 1.9990

A1=A(:,[2,3])

A1 =

0.0357 0.7063

-0.9991 0.0425

0.0245 0.7066

Z=xb*A

Z =

0.0067 -0.2013 -0.6725

0.0227 -0.1752 -0.5121

0.0069 0.0234 -0.3525

-0.0033 0.0263 -0.2827

-0.0232 0.4134 -0.2032

-0.0084 0.2085 -0.0598

-0.0135 0.2351 0.1142

-0.0214 -0.4286 0.3049

-0.0068 -0.3053 0.4931

0.0149 -0.3215 0.5588

0.0254 0.5252 0.6116

Z1=Z(:,[2,3]) 因为d的第一对角元接近于0,所以取Z的二三列

Z1 =

-0.2013 -0.6725

-0.1752 -0.5121

0.0234 -0.3525

0.0263 -0.2827

0.4134 -0.2032

0.2085 -0.0598

0.2351 0.1142

-0.4286 0.3049

-0.3053 0.4931

-0.3215 0.5588

0.5252 0.6116

b=dinv*A1*inv(Z1'*Z1)*Z1'*y

b =

0.0728

0.6111

0.1063

b0=mean(y)-mean(x)*b

b0 =

-9.1416

主成份回归的模型为:

y=-9.1416+0.0728x1+0.6111x2+0.1063x3

相应的残差平方和为:

sse=(norm(y-(b0+b(1)*x1+b(2)*x2+b(3)*x3)))^2

sse =

2.4372

可决系数为:

1-sse/norm(y-mean(y))^2

ans =

0.9882

[bbb,bint,rr,rint]=regress(y,[ones(11,1) x]);

(norm(rr))^2

ans =

1.6714

(sse-1.6714)/1.6714

ans =

0.4582

比OLS残差平方和增加了45.82%

求自变量和因变量都标准化模型的回归系数。(特指处理了主成份后的) yb=zscore(y)/sqrt(10);

xbb=A1*inv(Z1'*Z1)*Z1'*yb

xbb =

0.4804

0.2218

0.4827

与于俊年的书P225 中8.7.45相同

相应的误差项方差的估计为:

fc=norm(yb-xb(:,1)*xbb(1)-xb(:,2)*xbb(2)-xb(:,3)*xbb(3))^2/(11-2)

fc =

0.0013

注意:不是11-3,因为已去掉一个特征值接近0的向量。

xbb的标准差:

下面讨论主成份回归的各回归系数的标准差。参见于俊年的计量书,P214-P226 [a,aint,r,rint]=regress(yb,[z1 z2]);

a =

-0.1926

0.6898

相应的误差项方差的估计为:

f=norm(r)^2/(11-2)

ans =

0.0013

相应的回归系数方差:

va=diag(inv([z1 z2]'*[z1 z2])*norm(r)^2/(11-2))

va =

0.0013

0.0007

d1=inv(d)

d1 =

359.0882 0 0

0 1.0018 0

0 0 0.5003

d2=[zeros(3,1) d1(:,[2 3])]

d2 =

0 0 0

0 1.0018 0

0 0 0.5003

cova=d2*f

cova =

0 0 0

0 0.0013 0

0 0 0.0007

C=[zeros(3,1) A(:,[2 3]) ]

C =

0 0.0357 0.7063

0 -0.9991 0.0425

0 0.0245 0.7066

a1=[0;a]

a1 =

-0.19263868212532

0.68979828723010

xbb=C*a1

xbb =

0.48036031393150

0.22179881217486

0.48269099290749

vb=diag(C*cova*C')

vb =

0.00032906769554

0.00131273208946

0.00032840028288

vb为因变量和自变量均标准化后回归系数的方差,即xbb的方差。

最后模型回归系数的标准差为:

vbb=std(y)*sqrt(vb)./(std(x))'

vbb =

0.00274910213224

0.09981828093438

0.00399039935574

p=2*(1-tcdf(b./vbb,(11-4)))

p =

1.0e-003 *

0.00002804666499

0.48071056392351

0.00002692998913

最后的模型为:

y=-9.1416+0.0728x1+0.6111x2+0.1063x3

标准差:(0.00275) (0.0998) (0.00399)

P值:(0.0000) (0.00048) (0.0000)

可决系数=0.9882

多重共线性的解决之法

第七章 多重共线性 教学目的及要求: 1、重点理解多重共线性在经济现象中的表现及产生的原因和后果 2、掌握检验和处理多重共线性问题的方法 3、学会灵活运用Eviews 软件解决多重共线性的实际问题。 第一节 多重共线性的产生及后果 一、多重共线性的含义 1、含义 在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X 1,X 2,……,X k 中的任何一个都不能是其他解释变量的线性组合。如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。 2、类型 多重共线性包含完全多重共线性和不完全多重共线性两种类型。 (1)完全多重共线性 完全多重共线性是指线性回归模型中至少有一个解释变量可以被其他解释变量线性表示,存在严格的线性关系。 如对于多元线性回归模型 i ki k i i i X X X Y μββββ+++++= 22110 (7-1) 存在不全为零的数k λλλ,,,21 ,使得下式成立: X X X 2211=+++ki k i i λλλ (7-2) 则可以说解释变量k X ,,X ,X 21 之间存在完全的线性相关关系,即存在完全多重共线性。 从矩阵形式来看,就是0' =X X , 即1)(-

(2)不完全多重共线性 不完全多重共线性是指线性回归模型中解释变量间存在不严格的线性关系,即近似线性关系。 如对于多元线性回归模型(7-1)存在不全为零的数k λλλ,,,21 ,使得下式成立: X X X 2211=++++i ki k i i u λλλ (7-3) 其中i u 为随机误差项,则可以说解释变量k X ,,X ,X 21 之间存在不完全多重共线性。随机误差项表明上述线性关系是一种近似的关系式,大体上反映了解释变量间的相关程度。 完全多重共线性与完全非线性都是极端情况,一般说来,统计数据中多个解释变量之间多少都存在一定程度的相关性,对多重共线性程度强弱的判断和解决方法是本章讨论的重点。 二、多重共线性产生的原因 多重共线性在经济现象中具有普遍性,其产生的原因很多,一般较常见的有以下几种情况。 (一)经济变量间具有相同方向的变化趋势 在同一经济发展阶段,一些因素的变化往往同时影响若干经济变量向相同方向变化,从而引起多重共线性。如在经济上升时期,投资、收入、消费、储蓄等经济指标都趋向增长,这些经济变量在引入同一线性回归模型并作为解释变量时,往往存在较严重的多重共线性。 (二)经济变量间存在较密切关系 由于组成经济系统的各要素之间是相互影响相互制约的,因而在数量关系上也会存在一定联系。如耕地面积与施肥量都会对粮食总产量有一定影响,同时,二者本身存在密切关系。 (三)采用滞后变量作为解释变量较易产生多重共线性 一般滞后变量与当期变量在经济意义上关联度比较密切,往往会产生多重共线性。如在研究消费规律时,解释变量因素不但要考虑当期收入,还要考虑以往各期收入,而当期收入与滞后收入间存在多重共线性的可能很大。 (四)数据收集范围过窄,有时会造成变量间存在多重共线性问题。 三、多重共线性产生的后果 由前述可知,多重共线性分完全多重共线性和不完全多重共线性两种情况,两种情况都会对模

第四章多重共线性答案(1)

第四章 多重共线性 一、判断题 1、多重共线性是一种随机误差现象。(F ) 2、多重共线性是总体的特征。(F ) 3、在存在不完全多重共线性的情况下,回归系数的标准差会趋于变小,相应的t 值会趋于变大。(F ) 4、尽管有不完全的多重共线性,OLS 估计量仍然是最优线性无偏估计量。(T ) 5、在高度多重共线的情形中,要评价一个或多个偏回归系数的个别显著性是不可能的。(T ) 6、变量的两两高度相关并不表示高度多重共线性。(F ) 7、如果分析的目的仅仅是预测,则多重共线性一定是无害的。(T ) 8、在多元回归中,根据通常的t 检验,每个参数都是统计上不显著的,你就不会得到一个高的2R 值。(F ) 9、如果简单相关系数检测法证明多元回归模型的解释变量两两不相关,则可以判断解释变量间不存在多重共线性。( F ) 10、多重共线性问题的实质是样本问题,因此可以通过增加样本信息得到改善。(T ) 11、虽然多重共线性下,很难精确区分各个解释变量的单独影响,但可据此模型进行预测。(T ) 12、如果回归模型存在严重的多重共线性,可不加分析地去掉某个解释变量从而消除多重共线性。(F ) 13、多重共线性的存在会降低OLS 估计的方差。(F ) 14、随着多重共线性程度的增强,方差膨胀因子以及系数估计误差都在增大。(T ) 15、解释变量和随机误差项相关,是产生多重共线性的原因。(F ) 16、对于模型i ni n i 110i u X X Y ++++=βββ ,n 1i ,, =;如果132X X X -=,模型必然存在解释变量的多重共线性问题。(T ) 17、多重共线性问题是随机扰动项违背古典假定引起的。(F ) 18、存在多重共线性时,模型参数无法估计。(F ) 二、单项选择题 1、在线性回归模型中,若解释变量1X 和2X 的观测值成比例,既有12i i X kX =,其中k 为 非 零 常 数 , 则 表 明 模 型 中 存 在 ( B ) A 、异方差 B 、多重共线性 C 、序列相关 D 、随机解释变量 2、 在多元线性回归模型中,若某个解释变量对其余解释变量的可决系数接近1,则表明模型 中存在

多重共线性问题的几种解决方法

多重共线性问题的几种解决方法 在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释 变量之间不存在线性关系,也就是说,解释变量X 1,X 2 ,……,X k 中的任何一个 都不能是其他解释变量的线性组合。如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。 这里,我们总结了8个处理多重共线性问题的可用方法,大家在遇到多重共线性问题时可作参考: 1、保留重要解释变量,去掉次要或可替代解释变量 2、用相对数变量替代绝对数变量 3、差分法 4、逐步回归分析 5、主成份分析 6、偏最小二乘回归 7、岭回归 8、增加样本容量 这次我们主要研究逐步回归分析方法是如何处理多重共线性问题的。 逐步回归分析方法的基本思想是通过相关系数r、拟合优度R2和标准误差三个方面综合判断一系列回归方程的优劣,从而得到最优回归方程。具体方法分为两步: 第一步,先将被解释变量y对每个解释变量作简单回归: 对每一个回归方程进行统计检验分析(相关系数r、拟合优度R2和标准误差),并结合经济理论分析选出最优回归方程,也称为基本回归方程。

第二步,将其他解释变量逐一引入到基本回归方程中,建立一系列回归方程,根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响,一般根据如下标准进行分类判别: 1.如果新引进的解释变量使R2得到提高,而其他参数回归系数在统计上和经济理论上仍然合理,则认为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。 2.如果新引进的解释变量对R2改进不明显,对其他回归系数也没有多大影响,则不必保留在回归模型中。 3.如果新引进的解释变量不仅改变了R2,而且对其他回归系数的数值或符号具有明显影响,则认为该解释变量为不利变量,引进后会使回归模型出现多重共线性问题。不利变量未必是多余的,如果它可能对被解释变量是不可缺少的,则不能简单舍弃,而是应研究改善模型的形式,寻找更符合实际的模型,重新进行估计。如果通过检验证明回归模型存在明显线性相关的两个解释变量中的其中一个可以被另一个很好地解释,则可略去其中对被解释变量影响较小的那个变量,模型中保留影响较大的那个变量。 下边我们通过实例来说明逐步回归分析方法在解决多重共线性问题上的具体应用过程。 具体实例 例1设某地10年间有关服装消费、可支配收入、流动资产、服装类物价指数、总物价指数的调查数据如表1,请建立需求函数模型。 表1 服装消费及相关变量调查数据

第八章(多重共线性)

第八章 多重共线性 一、多重共线性及其产生原因 定义:对于多元线性回归模型: 01122...i i i k ki i y x x x u ββββ=+++++ 如果模型的解释变量之间存在着较强的线性相关关系,或者说,存在一组不全为零的常数12,,....,k λλλ,使得: 1122...0i i k ki i x x x v λλλ+++=,i v 是随机误差项。 则称模型存在着多重..共线性,如果0i v =,则称存在完全的多重共线性。 ?直观地看,多重共线性是不是造成了冗余变量,这里的冗余的含义是什么? 思考:只有一个解释变量会出现多重共线性吗? 产生原因: 1.经济变量的内在联系,这是根本原因,这导致多重共线性无法克服。 2.经济变量变化趋势的“共向性”。 3.解释变量中含有滞后变量。 二、多重共线性的影响 古典回归模型要求模型不存在完全的多重共线性。所以,即使存在严重的多重共线性,OLS 估计仍然是最佳线性无偏估计(BLUE )。但会产生以下问题: (一) 增大OLS 估计的方差 设模型为二元线性, 01122i i i i y x x u βββ=+++ 可以证明, 2 12 21112 1 ()()1i D x x r σβ= ? --∑ VIF 被称为方差膨胀因子。 分别计算12r 分别等于0,0.5,0.9时的方差膨胀因子。 ?方差变得过大,有什么不好?? (二) 难以区分每个解释变量的独立影响 对于多元线性回归模型,回归系数为

i i y x β?= ?,根据偏导数的概念,i β的经济含义是什么? (三) T 检验的可靠性降低 可能使T 检验失效,原来显著的T 值变成不显著的,从而将有重要影响的变量剔除出模型。 思考:比较一下和模型存在异方差及自相关时对T 检验的影响有何不同? (四) 回归模型缺乏稳定性 参数估计值对样本的变化比较敏感,这实际上也是OLS 估计方差较大的另一个表现。 例子来说明: 见表一 如果改成: 再重新进行回归,看会发生什么情况? 一个理念:多重共线性不可避免。 三、多重共线性的检验 外在症兆:R-平方很高,但只有极个别或少数几个解释变量前的系数显著(T 值偏小)。 1.相关系数检验 利用相关系数可以分析解释变量之间的两两相关情况。 例:服装需求函数。根据理论和经验分析,影响居民服装需求的主要因素有:可支配收入X ,流动资产拥有量K ,服装类价格指数P1和总物价指数P0。下表给出了有关统计资料。

第五章 答案.doc

第5章 多重共线性 习题: 1. 什么是共线性?什么是多重共线性? 答:共线性是指回归模型中的各个解释变量之间不存在线性关系。“多重共线性”一词常常用来表示解释变量之间具有较高的共线性程度,但又不是完全共线性的情形。 2. 在k 变量的模型中有k 个正规方程用以估计k 个未知系数。假定X k 是其余X 变量的一个完 全线性组合,你怎样说明在这种情形中不可能估计这k 个回归系数? 答:当一个变量是另一些变量的线性函数时,在这k 正规个方程中,实际只有k-1个有效方程,利用线性代数的知识我们可以知道k-1个方程是无法准确估计k 个未知数的。 3. 一般来说,如何判断模型中是否存在严重的多重共线性问题? 答:(1)2R 较高但t 值显著的系数不多。(2)解释变量两两高度相关。(3)观察每个解释变量对其它剩余解释变量的回归方程,这样的回归称为辅助回归。如果某个辅助回归方程的拟合优度显著不为零(即整体显著:F 检验),则存在多重共线性。(4)使用方差膨胀因子判断。克莱因经验法则(Klein ’s rule of thumb ) 如果某个解释变量还有一些诸如偏相关系数(partial correlation coefficient )、本征值(eigenvalues )或病态指数(condition index )等其他方法可用于诊断多重共线性的程度。对其余解释变量的辅助回归的拟合优度大于因变量Y 对所有解释变量作回归所得到的拟合优度2 R ,则可能存在比较严重的多重共线性。 4. 什么是方差膨胀因子(VIF ),它有什么作用? 答:22322222323?var()()()()i i i i i x x x x x βσ??=???-??∑∑∑∑ 即 222222222323222231?var()1()()1i i i i i i x r x x x x x σσβ??????==?????-??- ??????? ∑∑∑∑∑ (5.7)

第七章 多共线性及其处理

第七章 多重共线性及其处理 第一部分 学习辅导 一、本章学习目的与要求 1.理解多重共线性的概念; 2.掌握多重共线性存在的主要原因; 3.理解多重共线性可能造成的后果; 4.掌握多重共线性的检验与修正的方法。 二、本章内容提要 本章主要介绍计量经济模型的计量经济检验。即多重共线性问题。 多重共线性是多元回归模型可能存在的一类现象,分为完全共线与近似共线两类。模型的多个解释变量间出现完全共线性时,模型的参数无法估计。更多的情况则是近似共线性,这时,由于并不违背所有的基本假定,模型参数的估计仍是无偏、一致且有效的,但估计的参数的标准差往往较大,从而使得t 统计值减小,参数的显著性下降,导致某些本应存在于模型中的变量被排除,甚至出现参数正负号方面的一些混乱。显然,近似多重共线性使得模型偏回归系数的特征不再明显,从而很难对单个系数的经济含义进行解释。多重共线性的检验包括检验多重共线性是否存在以及估计多重共线性的范围两层递进的检验。而解决多重共线性的办法通常有逐步回归法、差分法以及使用额外信息、增大样本容量等方法。 (一)多重共线性及其产生的原因 当我们利用统计数据进行分析时,解释变量之间经常会出现高度多重共线性的情况。 1.多重共线性的基本概念 多重共线性(Multicollinearity )一词由弗里希(Frish )于1934年在其撰写的《借助于完全回归系统的统计合流分析》中首次提出。它的原义是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系。 如果在经典回归模型Y X βε=+中,经典假定(5)遭到破坏,则有()1R X k <+,此时称解释变量k X X X ,,,21ΛΛ间存在完全多重共线性。解释变量的完全多重共线性,也就是解释变量之间存在严格的线性关系,即数据矩阵X 的列向量线性相关。因此,必有一个列向量可由其余列向量线性表示。 同时还有另外一种情况,即解释变量之间虽然不存在严格的线性关系,但是却有近似的线性关系,即解释变量之间高度相关。 2.多重共线性产生的原因 多元线性回归模型产生多重共线性的原因很多,主要有: (1)经济变量的内在联系 这是产生多重共线性的根本原因。 (2)解释变量中含有滞后变量 (3)经济变量变化趋势的“共向性” 必须指出,多重共线性基本上是一种样本现象。因为人们在设定模型时,总是尽量避免将理论上具有严格线性关系的变量作为解释变量收集在一起,因此,实际问题中的多重共线性并不是解释变量之间存在理论上或实际上的线性关系造成的,而是由所收集的数据(解释变量观察值)之间存在近似的线性关系所致。 (二)多重共线性的影响 多重共线性会产生以下问题: (1)增大了OLS 估计量的方差 (2)难以区分每个解释变量的单独影响 (3)回归模型缺乏稳定性 (4)t 检验的可靠性降低 (三)多重共线性的判别 在应用多元回归模型中,人们总结了许多检验多重共线性的方法。 1.系数判定法

第4章多重共线性

计量经济学课程教案

第四章 多重共线性 § 什么是多重共线性 一、多重共线性的概念 对于模型 Y i = 1 + 2 X 2i + 3X 3i ++ k X ki + i i=1,2,…,n 其基本假设之一是解释变量是互相独立的。 如果存在 c 1X 1i +c 2X 2i +…+c k X ki =0 i=1,2,…,n 其中: c i 不全为0,则称为解释变量间存在完全共线性(perfect multicollinearity )。 在矩阵表示的线性回归模型 Y=X + 中,完全共线性指:秩(X)

(2)滞后变量的引入 在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。 (3)样本资料的限制 由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。 一般经验: 时间序列数据样本:简单线性模型,往往存在多重共线性。 截面数据样本:问题不那么严重,但多重共线性仍然是存在的。 § 多重共线性产生的后果 一、完全共线性下参数估计量不存在 μX βY += 的OLS 估计量为: Y X X X β''=-1)(? 如果存在完全共线性,则(X’X)-1不存在,无法得到参数的估计量。 二、近似共线性下OLS 估计量非有效 近似共线性下,可以得到OLS 参数估计量, 但参数估计量方差的表达式为 12)()?(-'=X X β σCov 由于|X’X| 0,引起(X’X)-1主对角线元素较大,使参数估计值的方差增大,OLS 参数估计量非有效。

解决多元线性回归中多重共线性问题的方法分析

解决多元线性回归中多重共线性问题的方法分析 谢小韦,印凡成 河海大学理学院,南京 (210098) E-mail :xiexiaowei@https://www.doczj.com/doc/874452698.html, 摘 要:为了解决多元线性回归中自变量之间的多重共线性问题,常用的有三种方法: 岭回 归、主成分回归和偏最小二乘回归。本文以考察职工平均货币工资为例,利用三种方法的 SAS 程序进行了回归分析,根据分析结果总结出三种方法的优缺点,结果表明如果能够使用 定性分析和定量分析结合的方法确定一个合适的k 值,则岭回归可以很好地消除共线性影 响;主成分回归和偏最小二乘回归采用成份提取的方法进行回归建模,由于偏最小二乘回归 考虑到与因变量的关系,因而比主成分回归更具优越性。 关键词:多重共线性;岭回归;主成分回归;偏最小二乘回归 1. 引言 现代化的工农业生产、社会经济生活、科学研究等各个领域中,经常要对数据进行分析、 拟合及预测,多元线性回归是常用的方法之一。多元线性回归是研究多个自变量与一个因变 量间是否存在线性关系,并用多元线性回归方程来表达这种关系,或者定量地刻画一个因变 量与多个自变量间的线性依存关系。 在对实际问题的回归分析中,分析人员为避免遗漏重要的系统特征往往倾向于较周到地 选取有关指标,但这些指标之间常有高度相关的现象,这便是多变量系统中的多重共线性现 象。在多元线性回归分析中,这种变量的多重相关性常会严重影响参数估计,扩大模型误差, 破坏模型的稳健性,从而导致整体的拟合度很大,但个体参数估计值的t 统计量却很小,并 且无法通过检验。由于它的危害十分严重,存在却又十分的普遍,因此就要设法消除多重线 性的不良影响。 常用的解决多元线性回归中多重共线性问题的模型主要有主成分回归、岭回归以及偏最 小二乘回归。三种方法采用不同的方法进行回归建模,决定了它们会产生不同的效果。本文 以统计职工平均货币工资为例,考察一组存在共线性的数据,运用SAS 程序对三种回归进 行建模分析,并对结果进行比较,总结出它们的优势与局限,从而更好地指导我们解决实际 问题。 2. 共线性诊断 拟合多元线性回归时,自变量之间因存在线性关系或近似线性关系,隐蔽变量的显著性, 增加参数估计的方差,导致产生一个不稳定的模型,因此共线性诊断的方法是基于自变量的 观测数据构成的矩阵T x x 进行分析,使用各种反映自变量间相关性的指标。共线性诊断常 用统计量有方差膨胀因子VIF (或容限TOL )、条件指数和方差比例等。 一般认为:若VIF>10,说明模型中有很强的共线性关系;若条件指数值在10与30间 为弱相关,在30与100间为中等相关,大于100为强相关;在大的条件指数中由方差比例 超过0.5的自变量构成的变量子集就认为是相关变量集[1]。 3. 三种解决方法 岭回归基本思想: 当出现多重共线性时,有0T X X ≈,从而使参数的1?()T T X X X Y β ?=很不稳定,出现不符合含义的估计值,给T X X 加上一个正常数矩阵(0)KI K >,则T X X KI +等

最新多重共线性的解决之法

多重共线性的解决之 法

第七章多重共线性 教学目的及要求: 1、重点理解多重共线性在经济现象中的表现及产生的原因和后果 2、掌握检验和处理多重共线性问题的方法 3、学会灵活运用Eviews软件解决多重共线性的实际问题。 第一节多重共线性的产生及后果 一、多重共线性的含义 1、含义 在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,X k中的任何一个都不能是其他解释变量的线性组合。如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。 2、类型 多重共线性包含完全多重共线性和不完全多重共线性两种类型。 (1)完全多重共线性 完全多重共线性是指线性回归模型中至少有一个解释变量可以被其他解释变量线性表示,存在严格的线性关系。 如对于多元线性回归模型

i ki k i i i X X X Y μββββ+++++= 22110 (7- 1) 存在不全为零的数k λλλ,,,21 ,使得下式成立: 0X X X 2211=+++ki k i i λλλ (7-2) 则可以说解释变量k X ,,X ,X 21 之间存在完全的线性相关关系,即存在完全多重共 线性。 从矩阵形式来看,就是0'=X X , 即1)(-

第八章练习题参考解答

第八章练习题参考解答: 练习题 8.1 Sen 和Srivastava (1971)在研究贫富国之间期望寿命的差异时,利用101个国家的数据,建立了如下的回归模型: 2.409.39ln 3.36((ln 7))i i i i Y X D X =-+-- (4.37) (0.857) (2.42) R 2=0.752 其中:X 是以美元计的人均收入; Y 是以年计的期望寿命; Sen 和Srivastava 认为人均收入的临界值为1097美元(ln10977=),若人均收 入超过1097美元,则被认定为富国;若人均收入低于1097美元,被认定为贫穷国。 括号内的数值为对应参数估计值的t-值。 (1)解释这些计算结果。 (2)回归方程中引入()ln 7i i D X -的原因是什么?如何解释这个回归解释变量? (3)如何对贫穷国进行回归?又如何对富国进行回归? (4)从这个回归结果中可得到的一般结论是什么? 8.2 表中给出1965—1970年美国制造业利润和销售额的季度数据。假定利润不仅与销售额有关,而且和季度因素有关。要求: (1)如果认为季度影响使利润平均值发生变异,应如何引入虚拟变量? (2)如果认为季度影响使利润对销售额的变化率发生变异,应当如何引入虚拟变量? (3)如果认为上述两种情况都存在,又应当如何引入虚拟变量? (4)对上述三种情况分别估计利润模型,进行对比分析。 8.3 在统计学教材中,采用了方差分析方法分析了不同班次对劳动效率的影响,其样本数据为 早班 中班 晚班

34 49 39 37 47 40 35 51 42 33 48 39 33 50 41 35 51 42 36 51 40 试采用虚拟解释变量回归的方法对上述数据进行方差分析。 8.4 Joseph Cappelleri 基于1961—1966年的200只Aa 级和Baa 级债券的数据(截面数据和时间序列数据的合并数据),分别建立了LPM 和Logit 模型: LPM i i i i i i u X X X X Y ++++++=5544332 211βββββ Logit i i i i i i i u X X X X p p In Li ++++++=-=5544332 211)1( βββββ 其中:i Y =1 债券信用等级为Aa (穆迪信用等级) i Y =1 债券信用等级为Baa (穆迪信用等级) 2X =债券的资本化率,作为杠杆的测度(100?=总资本的市值 长期债券的市值) =3X 利润率(100?=总资产净值 税后收入) =4X 利润率的标准差,测度利润率的变异性 =5X 总资产净值,测度规模 上述模型中2β和4β事先期望为负值,而3β和5β期望为正值(为什么)。 对于LPM ,Cappeleri 经过异方差和一阶自相关校正,得到以下结果: i Y ?=0.6860-0.017922i X +0.0486i X 3+0.0572i X 4+0.378×10-7×5i Se=(0.1775)(0.0024) (0.0486) (0.0178) (0.039×10- 8) R 2=0.6933 对于Logit 模型,Cappeleri 在没有对异方差进行弥补的情形下用ML 得以下结果: i i i i i i X X X X p p In 56 43221092.09041.06248.03185.06622.1)1(-?+-+--=- 试解下列问题: (1)为什么要事先期望2β和4β为负值? (2)在LPM 中,当4β>0是否合理?

第四章 多重共线性

第四章 多重共线性 一、填空题 1. 在多元线性回归模型中,解释变量间呈现近似线性关系的现象为________问题,给计量经济建模带来不利影响,因此需检验和处理它。 2. 在回归分析中,当检验回归系数所得的t 值不显著时,我们往往将它归结为多重共线性。但也可能是其他原因的影响,如 或 。 3. 存在多重共线时,回归系数的标准差趋于 ,t 值趋于 。方差膨胀因子越大,OLS 估计量的 将越大。 4. 检验样本是否存在多重共线性的常见方法有:________ 、 和 。 5. 处理多重共线性的方法主要有两大类:__________和_________。 二、问答题 1. 简述多重共线性的含义。 2. 简述多重共线性的后果。 3. 方差膨胀因子(Variance Inflation Factor, VIF )及其含义? 4. 列举多重共线性的检验方法。 5. 多重共线性的补救办法? 6. 假设在模型i i i i u X X Y +++=22110βββ中,1X 与2X 之间的相关系数为零,于是有人建议你进行如下回归: i i i i i i u X Y u X Y 22201110++=++=γγαα (1) 是否存在11??βα=且22??βγ=?为什么? (2) 0?β会等于0?α 或0?γ或某两个的某个线性组合吗? (3) 是否有() ()11 ?var ?var αβ=且() ()22?var ?var γβ=? 7. 在决定一个回归模型的“最优”解释变量集时人们常用逐步回归的方法。在逐步回归中既可采取每次引进一个解释变量的程序(逐步向前回归),也可以先把所有可能的解释变量都放在一个多元回归中,然后逐一地将它们剔除(逐步向后回归)。加进或剔除一个变量,通常是根据F 检验看其对ESS 的贡献而作出决定的。根据你现在对多重共线性的认识,你赞成任何一种逐步回归的程序吗?为什么? 8.克莱因与戈德伯格曾用1921-1950年(1942-1944年战争期间略去)美国国内消费Y 和工资收入X1、非工资—非农业收入X2、农业收入X3的时间序列资料,利用OLSE 估计得出了下列回归方程:

计量经济学

第八章 多重共线性:其中的某一个解释变量可以表示为其它解释变量的线性函数。 完全多重共线性的存在对计量经济学方程的估计产生的影响? 当存在完全多重共线性时,运用普通最小二乘估计将无法得出回归参数的估计值,并且,大多数通最小二乘估计程序会意识错误信息。 完全多重共线性举例:可以观察一个解释变量是不是另一个解释变量的倍数,或者观察一个解释变量是不是另一个解释变量加上一个常数项。 简答题:多重共线性 产生的后果:(1)估计量是无偏的;(2)估计量的方差和标准差将会增大(3)多重共线性下的t统计量会变小(4)估计量对模型设定的变化变得及其敏感。当存在显著的多重共线性时,增加或者删除某个解释变量,或者某些观测值的增加或减少,通常会导致参数估计β有较大的改变。 (5)方程的整体拟合优度以及不存在多重共线性的变量的参数估计几乎不受影响。 多重共线性的诊断:(1)考察两个解释变量之间的简单相关系数,一般r>0.8,则认为存在多重共线性。 (2)有较高的方差膨胀因子,一般VIF>5,则认为存在严重的多重共线性 多重共线性的补救措施:(1)什么都不做。(方程中的多重共线性并非总是减少t统计量使其减少到不显著的程度,对β的影响也并非总是导致它的符号与预期的不同。 (2)去掉多余的变量 (3)增大样本容量 第十四章 分析题 内生变量:由系统本身确定的变量 外生变量:由系统外部因素所决定的变量前定变量:外生变量和置后的内生变量 结构式方程:是以外生变量和内生变量的方式,描述了隐含在每个内生变量背后的内在经济理论。 简约式方程:每个特定的内生变量都单独用用所有的前定变量和随机误差项表示的方程。 简答使用简约式方程的三个原因:(1)由于简约式方程没有内在的联动性,因而没有违背古典假设。(2)简约式参数被解释为效应乘数,意味着它们有着经济意义和应用价值。 (3)简约式方程在最常用的的联立方程估计方法中扮演着重要的角色, 二阶段最小二乘估计法:第一阶段:对与每个内生变量相对应的简约式方程进行回归,这里的内生变量在联立方程系统中作为解释变量。第二阶段:用简约式方程中 得到的 S Y?替代出现在结构式方程右边的Ys,然后用普通最小二乘估计修正后的结构式方程。 模型识别的阶条件:是判断联立系统中的特定方程是否可惜别的一种系统方法。(1)整个联立系统中前定变量的个数(2)所考察方程中需要估计的斜率参数的个数。 第十章 名词解释:异方差性的本质,后果,诊断,修正 非纯异方差性:有模型设定误差(比如遗漏误差)引起的。 异方差的后果:(1)纯异方差性并不会导致参数估计量有偏 (2)异方差性通常会导致普通最小二乘估计量不再具有最小方差性 (3)异方差性将导致SE(β?)的最小二乘估计量有偏,因而导致假设检验结果不可信。 第九章 名词解释序列相关:误差项的序列之间存在相关性 一阶序列相关: t t t μ ρε ε+ = -1 ε代表回归方程中的误差项。 简答序列相关性的后果:(1)纯序列相关不会导致对参数的有偏估计。 (2)序列相关是普通最小二乘估计量不再是线性无偏估计量 (3)序列相关性导致SE(β?)的普通最小二乘估计是有偏的,并使假设检验不可靠。 杜宾-沃森检验重点自己去翻书 序列相关性的修正:如果确定是纯序列相关,则应考虑用广义最小二乘法或者

第5章习题(多重共线性)

第5章 多重共线性 1、所谓不完全多重共线性是指存在不全为零的数k λλλ,,,21 ,有( ) 是随机误差项式中v e v x x x .D e v x x x .C x x x .B v x x x .A k x x k k x k k k k k k ? ∑=++++=++++=+++=++++ 12211221221122110 0λλλλλλλλλλλλ 2、设21,x x 为解释变量,则完全多重共线性是( ) 0.(021.0.02 1.22121121=+=++==+x x e x D v v x x C e x B x x A 为随机误差项) 3.设线性回归模型为i i i i u x x y +++=33221βββ,下列表明变量之间具有完全多重共线性的是( )(其中v 为随机误差项) 0000.0000.0 020.0 020.321321321321=+*+*+*=*+*+*=+*++*=*++*v x x x D x x x C v x x x B x x x A 4.设线性回归模型为i i i i u x x y +++=33221βββ,下列表明变量之间具有不完全多重共线性的是( )(其中v 为随机误差项) 0000.0000.0 020.0 020.321321321321=+*+*+*=*+*+*=+*++*=*++*v x x x D x x x C v x x x B x x x A 5.如果模型中的解释变量存在完全的多重共线性,参数的最小二乘估计量是( ) A .无偏的 B. 有偏的 C. 不确定 D. 确定的 6.下列说法不正确的是( ) A.多重共线性产生的原因有模型中大量采用滞后变量

多重共线性的检验与处理

实验名称:多重共线性的检验与处理 实验时间:2011.12.10 实验要求: 主要是学习多重共线性的检验与处理,主要是研究解释变量与其余解释变量之间有严重多重共线性的模型,分析变量之间的相关系数。通过具体案例建立模型,然后估计参数,求出相关的数据。再对模型进行检验,看数据之间是否存在多重共线性。最后利用所求出的模型来进行修正。 实验内容: 实例:我国钢材供应量分析 通过分析我国改革开放以来(1978-1997)钢材供应量的历史资料,可以建立一个单一方程模型。根据理论及对现实情况的认识,影响我国钢材供应量 Y(万吨)的主要因素有:原油产量X1(万吨),生铁产量X2(万吨),原煤产量X3(万吨),电力产量X4(亿千瓦小时),固定资产投资X5(亿元),国内生产总值 X6(亿元),铁路运输量X7(万吨)。 (一)建立我国钢材供应量的计量经济模型: (二)估计模型参数,结果为: Dependent Variable: Y Method: Least Squares Date: 11/02/09 Time: 16:09 Sample: 1978 1997 Included observations: 20 Variable Coefficient Std. Error t-Statistic Prob. C 139.2362 718.2493 0.193855 0.8495 X1 -0.051954 0.090753 -0.572483 0.5776 X2 0.127532 0.132466 0.962751 0.3547 X3 -24.29427 97.48792 -0.249203 0.8074 X4 0.863283 0.186798 4.621475 0.0006 X5 0.330914 0.105592 3.133889 0.0086 X6 -0.070015 0.025490 -2.746755 0.0177 X7 0.002305 0.019087 0.120780 0.9059 R-squared 0.999222 Mean dependent var 5153.350 Adjusted R-squared 0.998768 S.D. dependent var 2511.950 S.E. of regression 88.17626 Akaike info criterion 12.08573 Sum squared resid 93300.63 Schwarz criterion 12.48402 Log likelihood -112.8573 F-statistic 2201.081 Durbin-Watson stat 1.703427 Prob(F-statistic) 0.000000 由此可见,该模型可绝系数很高,F检验值2201.081,明显显著。但当,系数的t检验不显著,而且系数的符号与预期的相反,这表明很可能存在严重的多重共线性。 (三)计算各解释变量的相关系数,选择数据,得相关系数矩阵(表3.1)。

计量经济学课后答案第四、五章(内容参考)

第四章随机解释变量问题 1. 随机解释变量的来源有哪些? 答:随机解释变量的来源有:经济变量的不可控,使得解释变量观测值具有随机性;由于随机干扰项中包括了模型略去的解释变量,而略去的解释变量与模型中的解释变量往往是相关的;模型中含有被解释变量的滞后项,而被解释变量本身就是随机的。 2.随机解释变量有几种情形? 分情形说明随机解释变量对最小二乘估计的影响与后果? 答:随机解释变量有三种情形,不同情形下最小二乘估计的影响和后果也不同。(1)解释变量是随机的,但与随机干扰项不相关;这时采用OLS估计得到的参数估计量仍为无偏估计量;(2)解释变量与随机干扰项同期无关、不同期相关;这时OLS估计得到的参数估计量是有偏但一致的估计量;(3)解释变量与随机干扰项同期相关;这时OLS估计得到的参数估计量是有偏且非一致的估计量。 3. 选择作为工具变量的变量必须满足那些条件? 答:选择作为工具变量的变量需满足以下三个条件:(1)与所替代的随机解释变量高度相关;(2)与随机干扰项不相关;(3)与模型中其他解释变量不相关,以避免出现多重共线性。 4.对模型 Y t =β +β 1 X 1t +β 2 X 2t +β 3 Y t-1 +μ t 假设Y t-1与μ t 相关。为了消除该相关性,采用工具变量法:先求Y t 关于X 1t 与 X 2t 回归,得到Y t ?,再做如下回归: Y t =β +β 1 X 1t +β 2 X 2t +β 3Y t?1-+μt 试问:这一方法能否消除原模型中Y t-1与μ t 的相关性? 为什么? 解答:能消除。在基本假设下,X1t,X2t与μt应是不相关的,由此知,由X1t 与X 2t 估计出的Y t ?应与μt不相关。 5.对于一元回归模型 Y t =β +β 1 X t *+μ t 假设解释变量X t *的实测值X t 与之有偏误:X t = X t *+e t ,其中e t 是具有零均值、无 序列相关,且与X t *及μ t 不相关的随机变量。试问: (1) 能否将X t= X t*+e t代入原模型,使之变换成Y t=β0+β1X t+νt后进行估计? 其中,ν t 为变换后模型的随机干扰项。 (2) 进一步假设μt与e t之间,以及它们与X t*之间无异期相关,那么E(X t-1νt)=0成立吗?X t与X t-1相关吗? (3) 由(2)的结论,你能寻找什么样的工具变量对变换后的模型进行估计? 解答:(1)不能。因为变换后的模型为 Y t=β0+β1X t+(μt-β1e t)

实验四-多重共线性模型的检验和处理

实验报告 课程名称:计量经济学 实验项目:实验四多重共线性模型的 检验和处理 实验类型:综合性□设计性□验证性 专业班别:11本国贸五班 姓名: 学号: 实验课室:厚德楼A207 指导教师: 实验日期:2014/5/20 广东商学院华商学院教务处制

一、实验项目训练方案 小组合作:是□否 小组成员:无 实验目的: 掌握多重共线性模型的检验和处理方法: 实验场地及仪器、设备和材料 实验室:普通配置的计算机,Eviews软件及常用办公软件。 实验训练内容(包括实验原理和操作步骤): 【实验原理】 多重共线性的检验:直观判断法(R2值、t值检验)、简单相关系数检验法、方差扩大因子法(辅助回归检验) 多重共线性的处理:先验信息法、变量变换法、逐步回归法 【实验步骤】 (一)多重共线性的检验 1.直观判断法(R2值、t值检验) 根据广东数据(见附件1),先分别建立以下模型: 【模型1】财政收入CS对第一产业产值GDP1、第二产业产值GDP2和第三产业产值GDP3的多元线性回归模型; (请对得到的图表进行处理,以上在一页内)

【模型2】固定资产投资TZG对固定资产折旧ZJ、营业盈余YY和财政支出CZ的多元线性回归模型。 观察模型结果,初步判断模型自变量之间是否存在多重共线性问题。 【模型1】从上图可以得到,估计方程的判定系数R 2 很高,但三个参数t检验值两个不显著,有一个较显著,其中 一个参数估计值还是负的,不符合经济理论。所以,出现了严重的多重共线性。 【模型2】1】从上图可以得到,估计方程的判定系数R 2 很高,方程显著性F检验也显著,但只有两个参数显著性 t检验比较显著,这与很高的判定系数不相称,出现了严重的多重共线性。 2.简单相关系数检验法 分别计算【模型1】和【模型2】的自变量的简单相关系数。 【模型1】 【模型2】 (请对得到的图表进行处理,以上在一页内) 根据计算的简单相关系数,判断模型是否存在多重共线性。 【模型1】可看出三个解释变量GDP1 、GDP2和GDP3之间高度相关,存在严重的多重共线性。 【模型2】可以看出三个解释变量ZJ 、YY和CZ之间也高度相关,特别是ZJ和CZ之间高度相关,必然也存在严重的多重共线性。

计量经济学多重共线性的诊断及处理Eviews

数学与统计学院实验报告 院(系):数学与统计学学院 学号: 姓名: 实验课程: 计量经济学 指导教师: 实验类型(验证性、演示性、综合性、设计性): 综合性 实验时间:2017年 4 月 5 日 一、实验课题 多重共线性的诊断及处理 二、实验目的和意义 第8周练习 多重共线性 右表是某城市财政收入rev 、第一、第二、第三产业gdp1、gdp2、gdp3的有关数据。 1).建立rev 对gdp1,gdp2,gdp3的多元线性回归,并从经济和数理统计上简要说明模型存在着哪些不足。 2).写出rev ,gdp1,gdp2,gdp3的相关系数矩阵。 3).利用判别系数法判断模型是否存在着多重共线性。 4).用逐步回归的方法排除引起共线性的变量,重新建立多元回归。 5).如果不想排除变量,通过经验,假设:gdp1对财政收入的贡献是 gdp3 年份 rev gdp1 gdp2 gdp3 1983 6604 27235 26781 7106 1984 6634 26680 28567 10240 1985 6710 26762 31766 11912 1986 6823 33595 40062 14160 1987 8103 38510 52935 16960 1988 8578 41529 61337 18777 1989 8469 47994 67848 30498 1990 11118 65138 98946 39700 1991 16053 86983 112531 66960 1992 20221 105825 143545 92231 1993 27076 129136 223697 117031 1994 31888 138619 216161 151334 1995 35139 146637 305940 193573 1996 42436 149788 371066 227561 1997 56204 161800 426925 256684 1998 93828 162960 614341 372177 1999 130532 199519 821302 524562 2000 179063 246648 1121058 688567

相关主题
文本预览
相关文档 最新文档