第五讲-多重共线性、异方差、自相关
- 格式:ppt
- 大小:761.00 KB
- 文档页数:70
一、含义:多重共线性:对于解释变量 ,如果存在不全为0的数 ,使得 则称解释变量 之间存在着完全的多重共线性。
或者 异方差性:如果对于模型中随机误差项Ui 有: 则称Ui 具有异方差性。
自相关:是指总体回归模型的随机误差项之间存在相关关系。
即不同观测点上的误差项彼此相关。
可以表示为:造成的后果:不完全的多重共线性:(1)OLS 估计量仍保持BLUE 的性质(2)假设检验容易作出错误的判断(3)可能造成可决系数较高,但对各个参数单独的 t 检验却可能不显著,甚至可能使估计的回归系数符号相反,得出完全错误的结论。
异方差性和自相关:(1)OLS 估计量仍然是线性无偏的,但不再是有效的,即方差不再是最小的。
(2) T 检验和F 检验失效。
检验方法:多重共线性:(1)简单相关系数检验法(如果每两个解释变量的简单相关系数比较高,如果大于0.8则可以认为存在着严重的多重共线性.但此种方法只是充分条件而不是必要条件,也需要同时检查偏相关系数) (2)方差扩大(膨胀)因子法(3)直观判断法(当增加一个或者剔除一个解释变量改变一个观测值时,回归参数的估计值发生较大变化;从定性分析一些重要的解释变量的回归系数的标准误差较大,在回归方程没有通过显著性检验;有些解释变量回归系数所带正负号与定性结果违背时;相关矩阵种自变量之间的相关系数较大时都可能存在多重共线性一些重要的解释变量在回归方程中没有通过显著性检验,同时R2很高(或F 检验显著),即t 检验和F 检验的结果相矛盾,或解释变量的回归系数所带正负号与定性分析结果违背时,模型可能存在严重的多重共线性。
(4)逐步回归法。
异方差性:(1)图示检验法(2)Goldfeld-Quanadt 检验作用:检验递增性(或递减性)异方差。
(3)White 检验检验步骤1)提出假设2)构造辅助回归方程 3)构造统计量并计算统计量的值,构造并计算统计量nR ²。
R ²为辅助回归的可决系数,n 为样本容量。
多重共线性、异方差、自相关的检测与模型修正从《国家统计数据库》找到了自1978—2008年我国人均居民消费、人均国内生产总值、居民消费价格指数、前期人均居民消费、城镇居民人均可支配收入以及农村居民人均纯收入的官方数据。
以此来分析我国人均消费的影响因素以及它们具体是如何对消费产生影响的。
1978—2008年我国人均消费及其影响因素相关数据城镇居民农村居民人均居民人均国内居民消费前期人均年份人均可支人均纯收消费生产总值价格指数居民消费配收入入343 134 1978 184 381 100.7 165405 160 1979 208 419 101.9 184477 191 1980 238 463 107.5 208501 223 1981 264 492 102.5 238535 270 1982 288 528 102 264564 310 1983 316 583 102 288652 355 1984 361 695 102.7 316739 398 1985 446 858 109.3 361901 424 1986 497 963 106.5 4461002 463 1987 565 1112 107.3 4971180 545 1988 714 1366 111.8 5651373 602 1989 788 1519 118 7141510 686 1990 833 1644 103.1 7881701 709 1991 932 1893 103.4 8332027 784 1992 1116 2311 106.4 9322577 922 1993 1393 2998 114.7 11163496 1221 1994 1833 4044 124.1 13934283 1578 1995 2355 5046 117.1 18334839 1926 1996 2789 5846 108.3 23555160 2090 1997 3002 6420 102.8 27895425 2162 1998 3159 6796 99.2 30025854 2210 1999 3346 7159 98.6 31596280 2253 2000 3631 7858 100.4 33466859 2366 2001 3886 8622 100.7 36317703 2476 2002 4143 9398 99.2 38868472 2622 2003 4474 10542 101.2 41439422 2936 2004 5031 12336 103.9 447410493 3255 2005 5572 14053 101.8 503111759 3587 2006 6263 16165 101.5 557213786 4140 2007 7255 19524 104.8 626315781 4761 2008 8348 23648 105.9 7255来自《国家统计数据库》设定如下形式的计量经济模型1:=++++ Y,X,,,X,Xi33i24124其中,Y为人均居民消费 , X2为人均国内生产总值 , X3为居民消费价格指数 , X4为前期人均消费。
Ch5 双变量回归的区间估计与假设检验 (Interval estimation and hypothesis test) 第三章的OLS 得到如下模型:1224.45450.5091i i iY X X ββ∧∧=+=+上述模型中(MPC)2β∧=0.5091,与2β的差距有多大?(虽然E(2β∧)=2β)。
寻找δ和α(0<α<1)使随机区间(2β∧-δ,2β∧+δ)包含2β的概率为1-α 一、区间估计我们是否能找到一个区间,使其包含真值。
22222()1(,)P βδββδαβδβδ∧∧∧∧-≤≤+=--+为置信区间*置信区间是随机的。
二、12ββ和的置信区间2β的置信区间:222~(,())N V a r βββ∧∧222~(0,1)()z N se ββσβ∧∧-==因σ未知,则:22222()tseββσβββσ∧∧∧∧--===~遵循自由度为n-2的t分布。
用t分布建立2β的置信区间22()1p t t tααα-≤≤=-给定α,可以确定一个临界值2tα,t在此区间[-2tα,2tα]的概率为1-α。
22222()1()p t tseααββαβ∧∧--≤≤=-2222222222(()())1100(1)()p t se t set seαααβββββαβαββ∧∧∧∧∧⇒-≤≤+=-⇒-±2的置信区间为:同理可推出1β的置信区间:112()t seαββ∧∧±注:置信区间宽度的决定因素:22()t se αβ∧(==)在支出一收入一例中220.5091,()0.0357,8.5%se df ββα∧∧====取22.306t α=则;2(0.5091 2.3060.03570.5091 2.3060.0357)15%p β-⨯≤≤+⨯=-2(0.42680.5914)95%p β≤≤=解释:从长远看,在类似于(0.4268,0.5914)的每100个区间,将有95个包含真实的2β值。
第5章、违背基本假设的问题:多重共线性、异方差和自相关回顾并再次记住最小二乘法(LS)的三个基本假设:1.y=Xβ+ε2.Rank(X)=K3.ε|X~N(0,σ2I)§1、多重共线性(multicollinearity)1、含义及后果1)完全的多重共线性如果存在完全的多重共线性(perfect multicollinearity),即在X中存在不完全为0的a i,使得a1x1+…+a K x K=0即X的列向量之间存在线性相关。
因此,有Rank(X)<K,从而|X’X|=0,即b=(X’X)-1X’y不存在,OLS失效。
也即违背了基本假设2。
例子:C=β1+β2nonlabor income + β3salary +β4income + ε2)近似共线性常见为近似共线性,即a 1x 1+…+a K x K ≈0 则有|X’X|≈0,那么(X’X)-1对角线元素较大。
由于21|[,(')]b X N X X βσ- , 21|[,(')]k k kkb X N X X βσ- ,所以b k 的方差将较大。
例子:Longley 是著名例子。
2、检验方法1)VIF 法(方差膨胀因子法,variance inflation factor )第j 个解释变量的VIF 定义为21V IF 1j jR=-此处2j R 是第j 个解释变量对其他解释变量进行回归的确定系数。
若2j R 接近于1,那么VIF 数值将较大,说明第j 个解释变量与其他解释变量之间存在线性关系。
从而,可以用VIF 来度量多重共线性的严重程度。
当2jR 大于0.9,也就是VIF 大于10时,认为自变量之间存在比较严重的多重共线性。
K 个解释变量,就有K 个VIF 。
可以计算K 个VIF 的平均值。
若大于10,认为存在比较严重的多重共线性。
VIF方法直观,但是Eviews不能直接计算VIF的数值。
需要逐个进行回归,较为麻烦。