异方差性
1定义: 对于不同的样本点,随机干扰项的方差不再是常数,而是互不相同。则认为出现了异方差性。
2影响:
① OLS 参数估计量非有效:
具有:线性性、无偏性 不具有:有效性
(大样本下)
具有:一致性 不具有:渐进有效性
②变量的显著性检验失去意义
关于变量的显著性检验中,构造了t 统计量,他是建立在随机干扰项共同的方差 不变,而真确地估计了参数方差j
B S ∧的基础之上的。如果出现了异方差性其估计值会偏大或偏小。t
检验失去意义。
③ 模型的预测失效
预测值的置信区间中也包含有参数的方差的估计量j
B S ∧。所以当模型出现异方差性是,任然
使用ols 估计量,将导致预测区间篇大或小,预测功能失效。
3判断:
假设4:2
)|(σμ=xi i Var
由于异方差性是相对于不同的解释变量观测值,随机误差项具有不同的方差。那么检验异方差性,也就是检验随机误差项的方差与解释变量观测值之间的相关性及其相关的“形式”。
随机误差项方差的表示! 一般的处理方法:首先采用OLS 估计,得到残差估计值。用它的平方近似随机误差项的方差。 残差估计值^~
)(OLS Y Y e i -=
近似随机误差项的方差 2
~
)()(i e i E i Var ≈=μμ
图示检验法
帕克检验与戈里瑟检验 由于f(x)的形式未知,所以要进行各种形式的检验。
i
ji i X f e ε+=)(~2i ji i X f e ε+=)(|~|
选择关于变量X 的不同的函数形式,对方程进行估计并进行显著性检验,如果存在某一种函数形式,使得方程显著成立,则说明原模型存在异方差性。
GQ 检验:适合样本容量大,异方差为单调增或单调减的函数形式。
Step1 将样本观测值按照有可能引起异方差的解释变量观测值排序
Step2 除去c=0.25n 观测值,讲剩下的观测值分为两组,每个子样样本容量为0.5(n-c ) Step3 对每个子样做OLS ,计算出两个残差平方和, 自由度为 0.5(n-c )-k-1 Step4 构建F 分布
F>F a (v1,v2) 拒绝同方差性假设,表明存在异方差。
White 检验:对任何形式的异方差均试用。
Step1 做OLS 回归,得到
Step2 辅助回归
辅助回归是检验2
~i e 与解释变量可能组合的显著性。如果存在异方差性,则表明2
~i e 与某种解释变量的组合存在显著的相关性,往往显示出比较大的可决系数,并且某一参数的t 检验值
比较大。
Step3 在同方差性假设下,辅助回归的可决系数R 2 ,与样本容量n 的乘积,渐进地服从自由度为辅助回归中解释变量个数的2
χ分布,即 2
2
~χnR 。
)(2
2数辅助回归中解释变量个a nR χ> 拒绝同方差性假设,表明存在异方差。
4解决:
加权最小二乘法WLS (也称为广义最小二乘法GLS ):关键是寻找随机干扰项与解释变量间适当的函数形式。
加权最小二乘估计量,是无偏、有效的估计量。 广义最小二乘法估计量具有BLUE 特征。
思路:加权最小二乘法就是对原模型进行加权处理,使新模型不存在异方差性,然后采用普通最小二乘法进行回归。
对较大的残差平方和赋予较小的权,对较小的残差平方和赋予较大的权。
i
i i i i i i i X X X X X X e εαααααα++++++=215224213221102~Var E e i i i
( ) ( ) ~ μ μ = ≈ 2
2
w 权=)
(1xij f 普通最小二乘法就是权等于1时的加权最小二乘法。
异方差稳健标准误法:适合样本容量足够大的情况。不具有有效性。 仍用普通最小二乘法估计量,对方差进行修正。 用wls 时,寻找合适的函数形式比较困难,所以可以应用异方差稳标准误法来消除异方差带来的后果。
思路:存在异方差性的时候,用普通最小二乘回归的估计量是具有无偏性,一致性,但不具有有效性。只影响了参数估计量的方差和标准差的正确估计。
优点:找不到wls 的权时候使用异方差稳健标准误法。修正方差后,使得以估计量方差为基础的统计检验不再失效,预测区间更加合理。
一般经验:对于采用截面数据作为样本的计量及经济学问题,由于在不同样本点上解释变量以外的其他因素差异较大,所以往往存在异方差性。
序列相关性: 经常出现在以时间序列数据为样本的模型中
1定义:随机干扰项序列相关 假设4 0),(),(≠=j i E j i Cov μμμμ 一阶序列相关/自相关:形式10)1,(≠+i i E μμ
经济变量固有惯性和滞后期 模型设定偏误:(遗漏了重要的解释变量/模型设定有误 虚假序列相关) 随机干扰项中一个重要的系统性影
响因素。
数据的编造:新数据是通过源数据生
成的。
形式2 i i i ερμμ+-=1 一阶自相关系数/自协方差系数 ρ
2影响
① OLS 参数估计量非有效:
具有线性无偏性,不具有有效性。因为在证明中用了 同方差性 和 独立性条件。 (大样本)具有一致性,不具有渐进有效性。 ②变量的显著性检验失去意义
T 统计量是建立在参数方差正确估计的基础之上的。只有当随机干扰项具有同方差和相互独立性时才成立。如果存在序列相关性,则估计的参数方差j
B S ^出现偏误,t 检验失去意义。
③ 模型的预测失效
区间预测和参数估计量的方差有关,在方差估计有偏误的情况下,预测就不准。 3判断
图示法:残差可以作为i μ的估计
回归检验法:
进行显著性检验,如果存在某一种函数形式,使得方程显著成立,则说明原模型存在序列相关性。有点就是,可以确定序列相关的形式,适用于各种类型的序列相关。
D.W 检验法: Step1 假定条件: 解释变量非随机
随机干扰项为一阶自回归形式:t t t ερμμ+-=1 回归模型模型中不能还有滞后变量作为解释变量 回归模型中含有截距项
Step2: 原假设:H0: p=0 即t μ不存在一阶自回归
)1(2..ρ-≈W D
完全1阶正相关 p=1 dw=0 完全1阶负相关 p=-1 dw=4
完全不相关 p=0 dw=2
上限du 下限dL 只与 样本容量n 和解释变量k 有关 而与解释变量取值无关
缺点:只能检验一阶自相关,存在一片无法判断的dw 值区域,不能检验存在滞后的解释变量的模型。
LM 拉格朗日乘数检验法: 克服了DW 的缺陷,适用于高阶序列相关和存在滞后解释变量的模型。
Step1:如果怀疑随机干扰项存在p 阶段序列相关
Step2:拉格朗日乘数检验就可以用来检验如下受约束回归方程
约束条件: H0:
Step3:如果约束条件为真,则LM 统计量服从在大样本下自由度为p 的渐进x 2分布
辅助回归:
n 为辅助回归中样本容量,可决系数也来自该辅助回归。
2)(2
~P nR LM χ
= 一阶序列相关就是(n-1)二阶序列相关就是(n-2)
Step4 如果
2
)(2
P nR LM αχ>=则拒绝约束条件为真的原假设,表明可能存在
直到p 阶的序列相关性。
i
ki k i i i X X X Y μββββ+++++= 22110t
p t p t t t εμρμρμρμ+++=--- 2211t
p t p t kt k t t X X Y εμρμρβββ+++++++=-- 11110t
p t p t kt k t t e e X X e ερρβββ+++++++=--~~~11110
在实际检验中,可以逐步向高阶检验,并参考辅助回归中原模型经普通最小二乘法估计的残差项前参数的显著性来判断序列相关阶数。
4解决
广义最小二乘法:GLS 的原理与WLS 相同,只是将权矩阵W 换为方差-协方差矩阵Ω。 (只要知道随机干扰项的方差-协方差矩阵就可以用GLS 得到参数的最佳线性无偏估计量) 广义最小二乘估计量是无偏的,有效地。 如何得到方差-协方差矩阵?
有n 个样本,要对22/)1(++-k n n 参数进行估计非常困难。所以要经过特殊设定后,才可得到其估计值。例如设定随机干扰项为一阶序列相关形式。
广义差分法:广义差分法是将原模型变换为满足OLS 法的差分模型,再d 对差分模型进行OLS 估计。得到的原模型参数无偏且有效估计量。
注意:大样本下面广义差分法和广义最小二乘法的估计结果接近,但在小样本中观测值的损失可能会对估计结果又影响,为了弥补损失,可以进行普来斯-温斯特变换。这样广义差分法和广义最小二乘法的结果相同。
随机干扰项相关系数的估计:
应用广义最小二乘法或广义差分法,必须已知随机干扰项的相关系数ρ1, ρ2, … , ρL 。实际上,人们并不知道它们的具体数值,所以必须首先对它们进行估计。
给一个精度,当次估计之差小于这个精度就终止迭代。
如果能够找到一种方法,求得Ω或各序列相关系数 j的估计量,使得GLS能够实现,则称为可行的广义最小二乘法(FGLS, Feasible Generalized Least Squares)。
如果参数是被估计出来的。FGLS估计量,也称为可行的广义最小二乘估计量(feasible general least squares estimators)
可行的广义最小二乘估计量不再是无偏的,但却是一致的,而且在科克伦-奥科特迭代法下,估计量也具有渐近有效性。前面提出的方法,就是FGLS。
序列相关稳健标准误法:(大样本一致估计)出现序列相关只是影响到了参数方差的正确估计,从而无法保证最小二乘估计量的有效性,并不影响估计量的无偏性和一致性。仍采用OLS,但修正其方差。异方差+序列相关同时存在时,这个方法可以把方差都纠正了。
多重共线性
1定义:如果某两个或者多个解释变量间出现了相关性,则称为存在多重共线性。
Ci不全为0 完全共线性
Ci不全为0 近似共线性
完全共线性
2影响:1.完全共线性下参数估计量不存在。
如果存在完全共线性,则(X’X)-1不存在,无法得到参数的估计量。
2.近似共线性下OLS估计量非有效
3.参数估计量经济含义不合理:
不反应解释变量各自对于被解释变量的影响,而反应了共同影响。所以当出现解释变量系数不合理的情况应该首先怀疑存在多重共线性。
4.变量的显著性检验失去意义
2
2
1
1
=
+
+
+
ki
k
i
i
X
c
X
c
X
c
2
2
1
1
=
+
+
+
+
i
ki
k
i
i
v
X
c
X
c
X
c
1
)
(+
R X 经济变量相关的共同趋势(时间序列和截面数据) 滞后变量的引入 样本资料的限制 5.模型的预测功能失效 注意: 除非是完全共线性,多重共线性并不意味着任何基本假设的违背; 因此,即使出现较高程度的多重共线性,OLS估计量仍具有线性性等良好的统计性质。问题在于,即使OLS法仍是最好的估计方法,它却不是“完美的”,尤其是在统计推断上无法给出真正有用的信息。 3判断:任务1、检验模型是否存在多重共线性2、判断存在多重共线性的范围。 Step1:检验是否存在多重共线性 Step2:判断多重共线性存在的范围