第九章 多元线性回归-异方差问题
- 格式:pptx
- 大小:568.44 KB
- 文档页数:20
§5.1 多元线性回归模型及其假设条件 1.多元线性回归模型 多元线性回归模型:εi pi p iiix b xb x b b y +++++= 2211,n i ,,2,1 =2.多元线性回归模型的方程组形式 3.多元线性回归模型的矩阵形式4.回归模型必须满足如下的假设条件:第一、有正确的期望函数。
即在线性回归模型中没有遗漏任何重要的解释变量,也没有包含任何多余的解释变量。
第二、被解释变量等于期望函数与随机干扰项之和。
第三、随机干扰项独立于期望函数。
即回归模型中的所有解释变量Xj与随机干扰项u 不相关。
第四、解释变量矩阵X 是非随机矩阵,且其秩为列满秩的,即:n k k X rank 〈=,)(。
式中k 是解释变量的个数,n 为观测次数。
第五、随机干扰项服从正态分布。
第六、随机干扰项的期望值为零。
()0=u E 第七、随机干扰项具有方差齐性。
()σσ22=u i(常数)第八、随机干扰项相互独立,即无序列相关。
()()u u u u jiji,cov ,=σ=0§5.2 多元回归模型参数的估计建立回归模型的基本任务是:求出参数bb b p,,,,1σ的估计值,并进行统计检验。
残差:yy e iiiˆ-=;残差平方和:Q=()∑-∑==y y e i i ni iˆ212矩阵求解:X=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡x xxx x x x x x pn nnp p212221212111111,⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎣⎡=b b b b p B ˆˆˆˆ210ˆ ,⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎣⎡=-y y y y n n Y 121 ,()YB X X X ττ1ˆ-=1ˆ2--=p n Qσ要通过四个检验:经济意义检验、统计检验、计量经济学检验、模型预测检验。
§5.4 多元线性回归模型的检验一、R2检验1.R2检验定义R2检验又称复相关系数检验法。
是通过复相关系数检验一组自变量xx x m,,,21与因变量y 之间的线性相关程度的方法。
多元线性回归的异方差问题1、异方差的定义:如果ui的方差为σ2i,即方差随观察值不同而发生变化(注意σ2的下标)——这就是异方差情形,或称非同方差、非恒定方差。
异方差主要出现在截面数据分析中。
2、异方差的影响:a.OLS 估计量仍是线性的。
b.OLS 估计量仍是无偏的。
c.OLS 估计量不再具有最小方差性,即不再是有效的。
d.OLS 估计量的方差通常是有偏的,无法先验地辨别偏差是正的(上偏)还是负的(下偏)。
e.偏差的产生是由于2^σ,即∑e i 2/d.f.,不再是真实σ2的无偏估计量,在计算OLS 估计量的方差时用到了2^σ。
f.因此,建立在t 分布和F 分布之上的置信区间和假设检验是不可靠的。
3、异方差的诊断(请大家结合着课本和PPT 看,重点是怀特检验) (1)残差的图形检验 (2)帕克检验 (3)格莱泽检验 (4)怀特检验4、异方差的补救措施 A 、加权最小二乘法 (1)当σ2i已知时考虑双变量PRF :u X B B Y iii++=21对模型进行如下变换:σσσσiii i i ii u X B B Y +⎪⎪⎭⎫ ⎝⎛+⎪⎪⎭⎫ ⎝⎛=211即把回归方程的两边都除以或“缩减”σi,σi是方差σ2i的平方根。
令σii i uv =,v i称为变换后的误差项。
现需证明v i具有同方差性:σ222iiiuv=,则()()u u v i i i i iE E E222221σσ=⎪⎪⎭⎫ ⎝⎛= 由于σ2i 是已知的,因此=()σσ221i i ⎪⎪⎭⎫ ⎝⎛=1 显然它是一个常数,简言之,变换后的误差项v i是同方差的。
因此,变换后的模型不存在异方差问题,因而可以用常规的OLS 方法进行估计。
由此得到的B 1、B2的OLS 估计量称为加权最小二乘估计量,Y 和X 的每个观察值都以标准差σi为权数。
(2)当σ2i未知时情形1:误差方差与X i 成比例:平方根变换 ()Xu iiEσ22=,表明误差方差与Xi成比例,或者说与Xi线性相关;常数σ2是比例因子。
多元回归分析总结1、多元共线性问题产生的根源(可以从两方面考虑,各举一个50字左右的例子)①由变量性质引起:在进行多元统计分析时,作为自变量的某些变量高度相关,比如身高、体重和胸围,变量之间的相关性是由变量自身的性质决定的,此时不论数据以什么形式取得,样本含量是大是小,都会出现自变量的共线性问题。
因此,变量间自身的性质是导致多元共线性的重要原因。
②由数据问题引起:1、样本含量过小 2、出现强影响观测值 3、时序变量1、样本含量过小:假设只有两个自变量X1和X2,当n=2时两点总能连成一条直线,即使性质上原本并不存在线性关系的变量X1和X2由于样本含量问题产生了共线性。
样本含量较小时,自变量容易呈现线性关系。
如果研究的自变量个数大于2,设为X1,X2,...,XP,虽然各自变量之间没有线性关系,但如果样本含量n小于模型中自变量的个数,就可能导致多元共线性问题。
2、出现强影响观测值:进入20世纪80年代后期人们开始关注单个或几个样本点对多重共线性的影响。
研究表明存在两类这样的数据点或点群:1导致或加剧多重共线性 2掩盖存在着的多重共线性。
a中因异常观测值的出现而掩盖了共线性b中因异常观测值的出现而产生了共线性。
这样的异常观测值称为多元共线性强影响观测值。
显然这种观测值会对设计矩阵的性态产生很大影响从而影响参数估计。
3、时序变量:若建模所用的自变量是时序变量并且是高阶单整时序变量,这种时序变量之间高度相关必然导致多重共线性。
当所研究的经济问题涉及到时间序列资料时,由于经济变量随时间往往存在共同的变化趋势,使得它们之间容易出现共线性。
例如,我国近年来的经济增长态势很好,经济增长对各种经济现象都产生影响,使得多种经济指标相互密切关联。
比如研究我国居民消费状况,影响居民消费的因素很多,一般有职工平均工资、农民平均收入、银行利率、国债利率、货币发行量、储蓄额等,这些因素显然对居民消费产生影响,它们之间又有着很强的相关性。