计量经济学课件:第五章-异方差性汇总
- 格式:doc
- 大小:647.00 KB
- 文档页数:18
计量经济学课件第五章异方差性第五章异方差性1 / 80计量经济学课件第五章 异方差性 2 / 80引子:更为接近真实的结论是什么?根据四川省2000年21个地市州医疗机构数及人口数资料,分析医疗机构及人口数量的关系,建立卫生医疗机构数及人口数的回归模型。
对模型估计的结果如下:ˆ Yi -563.0548 5.3735 X i(291.5778) (0.644284) t (-1.931062) (8.340265) R2 0.785456 R 2 0.774146 F 69.56003式中 Y 表示卫生医疗机构数(个), X 表示人口数量(万人)。
计量经济学课件第五章 异方差性3 / 80模型显示的结果和问题 ●人口数量对应参数的标准误差较小;● t 统计量远大于临界值,可决系数和修正的可决系数结果较好,F 检验结果明显显著;表明该模型的估计效果不错,可以认为人口数量每增加1万人,平均说来医疗机构将增加5.3735人。
然而,这里得出的结论可能是不可靠的,平均说来每增加1万人口可能并不需要增加这样多的医疗机构,所得结论并不符合真实情况。
有什么充分的理由说明这一回归结果不可靠呢?更为接近真实的结论又是什么呢?计量经济学课件第五章 异方差性4 / 80第五章 异 方 差 性 本章讨论四个问题:●异方差的实质和产生的原因●异方差产生的后果●异方差的检测方法●异方差的补救计量经济学课件第五章 异方差性5 / 80第一节 异方差性的概念 本节基本内容:●异方差性的实质●异方差产生的原因计量经济学课件第五章 异方差性6 / 80一、异方差性的实质 同方差的含义同方差性:对所有的 i (i1,2,..., n)有: Var(ui ) = 2 (5.1) 因为方差是度量被解释变量 Y 的观测值围绕回归线 E(Yi ) 1 2 X 2i 3 X 3i ... k X ki (5.2) 的分散程度,因此同方差性指的是所有观测值的分散程度相同。
第五章异方差性本章教学要求:根据类型,异方差性是违背古典假定情况下线性回归模型建立的另一问题。
通过本章的学习应达到,掌握异方差的基本概念包括经济学解释,异方差的出现对模型的不良影响,诊断异方差的方法和修正异方差的方法。
经过学习能够处理模型中出现的异方差问题。
第一节异方差性的概念一、例子例1,研究我国制造业利润函数,选取销售收入作为解释变量,数据为1998年的食品年制造业、饮料制造业等28个截面数据(即n=28)。
数据如下表,其中y表示制造业利润函数,x表示销售收入(单位为亿元)。
Y对X的散点图为从散点图可以看出,在线性的基础上,有的点分散幅度较小,有的点分散幅度较大。
因此,这种分散幅度的大小不一致,可以认为是由于销售收入的影响,使得制造业利润偏离均值的程度发生了变化,而这种偏离均值的程度大小不同是一种什么现象?如何定义?如果非线性,则属于哪类非线性,从图形所反映的特征看并不明显。
下面给出制造业利润对销售收入的回归估计。
模型的书写格式为2ˆ12.03350.1044(0.6165)(12.3666)0.8547,..84191.34,152.9322213.4639,146.4905Y YX R S E FY s =+=====通过变量的散点图、参数估计、残差图,可以看到模型中(随机误差)很有可能存在一种系统性的表现。
例2,改革开放以来,各地区的医疗机构都有了较快发展,不仅政府建立了一批医疗机构,还建立了不少民营医疗机构。
各地医疗机构的发展状况,除了其他因素外主要决定于对医疗服务的需求量,而医疗服务需求与人口数量有关。
为了给制定医疗机构的规划提供依据,分析比较医疗机构与人口数量的关系,建立卫生医疗机构数与人口数的回归模型。
根据四川省2000年21个地市州医疗机构数与人口数资料对模型估计的结果如下:i iX Y 3735.50548.563ˆ+-= (291.5778) (0.644284) t =(-1.931062) (8.340265)785456.02=R 774146.02=R 56003.69=F式中Y 表示卫生医疗机构数(个),X 表示人口数量(万人)。
第五章-异方差性-答案第五章 异方差性一、判断题1. 在异方差的情况下,通常预测失效。
( T )2. 当模型存在异方差时,普通最小二乘法是有偏的。
( F )3. 存在异方差时,可以用广义差分法进行补救。
(F )4. 存在异方差时,普通最小二乘法会低估参数估计量的方差。
(F )5. 如果回归模型遗漏一个重要变量,则OLS 残差必定表现出明显的趋势。
( T )二、单项选择题1.Goldfeld-Quandt 方法用于检验( A )A.异方差性B.自相关性C.随机解释变量D.多重共线性2.在异方差性情况下,常用的估计方法是( D )A.一阶差分法B.广义差分法C.工具变量法D.加权最小二乘法3.White 检验方法主要用于检验( A )A.异方差性B.自相关性C.随机解释变量D.多重共线性4.下列哪种方法不是检验异方差的方法( D )A.戈德菲尔特——匡特检验B.怀特检验C.戈里瑟检验D.方差膨胀因子检验5.加权最小二乘法克服异方差的主要原理是通过赋予不同观测点以不同的权数,从而提高估计精度,即( B )A.重视大误差的作用,轻视小误差的作用B.重视小误差的作用,轻视大误差的作用C.重视小误差和大误差的作用D.轻视小误差和大误差的作用6.如果戈里瑟检验表明,普通最小二乘估计结果的残差与有显著的形式的相关关系(满足线性模型的全部经典假设),则用加权最小二乘法估计模型参数时,权数应为( B )A. B. C. D. 7.设回归模型为,其中()2i2i x u Var σ=,则b 的最有效估计量为( D )i e i x i i i v x e +=28715.0i v i x 21i x i x 1ix 1i i i u bx y +=A. B. C. D. ∑=i i x y n 1b ˆ 8.容易产生异方差的数据是( C )A. 时间序列数据B.平均数据C.横截面数据D.年度数据9.假设回归模型为i i i u X Y ++=βα,其中()2i 2i X u Var σ=,则使用加权最小二乘法估计模型时,应将模型变换为( C )。
《计量经济学》中多重共线性、异方差性、自相关三者之间的联系与区别首先我们先来回顾一下经典线性回归模型的基本假设:1、为什么会出现异方差性我们可以从一下两方面来分析:第一,因为随即误差项包括了测量误差和模型中被省略的一些因素对因变量的影响;第二,来自不同抽样单元的因变量观察值之间可能差别很大。
因此,异方差性多出现在截面样本之中。
至于时间序列,则由于因变量观察值来自不同时期的同一样本单元,通常因变量的不同观察值之间的差别不是很大,所以异方差性一般不明显。
含义及影响:y=X β+ε,var(εi )var(εj ), ij ,E(ε)=0,或者记为212200['|]0000n E X σεεσσ⎛⎫⎪=Ω= ⎪ ⎪⎝⎭即违背假设3。
用OLS 估计,所得b 是无偏的,但不是有效的。
111(')'(')'()(')'b X X X y X X X X X X X βεβε---==+=+由于E(ε)=0,所以有E(b )=β。
即满足无偏性。
但是,b 的方差为1111121var(|)[()()'][(')''(')|] (')'['|](') (')'()(')b X E b b E X X X X X X X X X X E X X X X X X X X X X ββεεεεσ------=--===Ω其中212200['|]0000n E X σεεσσ⎛⎫⎪=Ω= ⎪ ⎪⎝⎭2、自相关产生的原因:(1)、经济数据的固有的惯性带来的相关 (2)、模型设定误差带来的相关 (3)、数据的加工带来的相关 含义及影响:cov(,)0,i j i j εε≠≠影响:和异方差一样,系数的ls 估计是无偏的,但不是有效的。
D -W 检验(Durbin -Watson )221212222121212222112112122211221122121()()()2()()222222(1)n i i i n i i n n n i i i i i i i n i i n n n i i i i i i i n n i i n i i i nn n i i i i nn i ie e d e e e e e e e e e e e e e e e e e e e e e e ρρ=-===-=-====-==-===∑-=∑∑+∑-∑=∑∑+∑-∑--=∑∑+=--∑∑+=--∑≈-其中2121n i i i n i ie e e ρ=-=∑=∑是样本一阶自相关函数。
第五章异方差性本章教学要求:根据类型,异方差性是违背古典假定情况下线性回归模型建立的另一问题。
通过本章的学习应达到,掌握异方差的基本概念包括经济学解释,异方差的出现对模型的不良影响,诊断异方差的方法和修正异方差的方法。
经过学习能够处理模型中出现的异方差问题。
第一节异方差性的概念一、例子例1,研究我国制造业利润函数,选取销售收入作为解释变量,数据为1998年的食品年制造业、饮料制造业等28个截面数据(即n=28)。
数据如下表,其中y表示制造业利润函数,x表示销售收入(单位为亿元)。
Y对X的散点图为从散点图可以看出,在线性的基础上,有的点分散幅度较小,有的点分散幅度较大。
因此,这种分散幅度的大小不一致,可以认为是由于销售收入的影响,使得制造业利润偏离均值的程度发生了变化,而这种偏离均值的程度大小不同是一种什么现象?如何定义?如果非线性,则属于哪类非线性,从图形所反映的特征看并不明显。
下面给出制造业利润对销售收入的回归估计。
模型的书写格式为2ˆ12.03350.1044(0.6165)(12.3666)0.8547,..84191.34,152.9322213.4639,146.4905Y YX R S E FY s =+=====通过变量的散点图、参数估计、残差图,可以看到模型中(随机误差)很有可能存在一种系统性的表现。
例2,改革开放以来,各地区的医疗机构都有了较快发展,不仅政府建立了一批医疗机构,还建立了不少民营医疗机构。
各地医疗机构的发展状况,除了其他因素外主要决定于对医疗服务的需求量,而医疗服务需求与人口数量有关。
为了给制定医疗机构的规划提供依据,分析比较医疗机构与人口数量的关系,建立卫生医疗机构数与人口数的回归模型。
根据四川省2000年21个地市州医疗机构数与人口数资料对模型估计的结果如下:i iX Y 3735.50548.563ˆ+-= (291.5778) (0.644284) t =(-1.931062) (8.340265)785456.02=R 774146.02=R 56003.69=F式中Y 表示卫生医疗机构数(个),X 表示人口数量(万人)。
从回归模型估计的结果看,人口数量对应参数的标准误差较小,t 统计量远大于临界值,说明人口数量对医疗机构确有显著影响,可决系数和修正的可决系数还可以,F 检验结果也明显显著。
表明该模型的估计效果还不错,可以认为人口数量每增加1万人,平均说来医疗机构将增加5.3735个。
然而,这里得出的结论可能是不可靠的,按照四川省的经济水平和实际情况看,平均说来每增加1万人口可能并不需要增加这样多的医疗机构,所得结论并不符合真实情况。
那末,有什么充分的理由说明这一回归结果不可靠呢?更为接近真实的结论又是什么呢? 二、异方差的定义设模型为122331,2,,i i i k ki iY X X X u i n ββββ=+++++=L L如果对于模型中随机误差项i u ,有22(|)(|),1,2,3,,.i i i i i Var u X E u X i n σ===L (()0i E u =)则称i u 具有异方差性。
进一步,把异方差看成是由于某个解释变量的变化而引起的,则22(|)()i i i i Var u X f X σσ==例1,一个食品支出与收入的关系。
表明异方差的产生与人们的收入状况有关。
设食品支出与收入之间的关系为 2123t t t t Y X X u βββ=+++式中,Y 为食品支出,X 为收入,X 2为收入的平方,并且230,0ββ><。
在食品支出与收入这种假定关系下,当X 很大的时候,Y 与均值2123()E Y X X βββ=++的偏差有可能比当X 很小时大。
这是由于低收入住户的食品支出几乎全部由收入来解释,而高收入住户的食品支出在很大程度上取决于其它因素,这样就出现了高收入住户的食品支出有一部分没有得到其收入的解释,而这一部分可能会相当大。
例2,研究浙江省农业总产值与农业劳动力人数、耕地面积之间的关系。
选取该省17个县市1992年的数据资料(截面数据),为了研究的方便,将各县市按农业总产值从小到大进行了排列。
通过EViews的操作可以看到该问题中的农业总产值与其均值之间差异程度的变化现象。
例3,根据美国一项制造业调查的资料,可以看到企业规模越大,平均生产力会越高,但生产力的波动也变大了(用标准差反映),数据见下表。
表明生产力的波动随着企业人数的增加而变大。
三、产生异方差的背景1、由于模型中缺失了某些重要解释变量,或者是随着时间的推移有可能成为重要影响因素的变量,但也应注意设定误差问题。
2、截面数据更易引起异方差(时间序列数据也要引起异方差,比如人们的打字技术随时间推移而出现的差异)。
3、由于样本数据的观测误差。
4、异方差的出现与某个解释变量的变动有关。
5、模型的设定误差。
在实际经济问题中,人们很难得到总体u的信息,因此,我们只能够通过对残差e的认识和处理,来实现对总体随机误差是否存在异方差的推断和分析。
第二节异方差性对模型的影响一、在异方差存在的前提下,参数估计值的特性1、参数估计值仍是无偏的。
设模型为n i U X Y i i i ,,2,1,21Λ=++=ββ对于参数2β的估计量2ˆβ用如下离差形式表示 ∑∑=22ˆiii xyx β式中Y Y y X X x i i i i -=-=,。
则i i i u x y +=2β U U u i i -=222222222222222)()()ˆ()(ˆββββββββ=+=+=+=+=+==∑∑∑∑∑∑∑∑∑∑∑∑∑ii i iii iii iiiiiii iiiix u x E x u x E E xux xu x x x u x x xy x在证明中用了假定0)(=i i u x E 。
2、参数估计值的方差不再是最小。
在异方差下[]())()ˆ()()()()()()(2)()(2ˆ)ˆ(ˆ)ˆ(22222222222222222222222222222222b x Var a x x x u E x x u u E x x uE x x u u x x u x E x u x E x u x E E E E Var ii j i i i iji ii iji j i j i j i ii i ji ji j i j i i i i i i i i i ∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑===+=⎪⎪⎪⎭⎫⎝⎛+=⎪⎪⎭⎫⎝⎛=⎪⎪⎭⎫ ⎝⎛-+=-=-====≠=≠σβσβββββββ同方差下有同理在上述推导中用了假定j i u u E j i ≠=,0)(。
在上述讨论的过程中,用到了边际分析的思想。
比较上述(a )式与(b )式的结果,可以看到只有当对每个i 都有22i σσ=时,才能相等。
因此,在同方差假定下,有参数估计值的方差最小,而在异方差下,参数估计值的方差就不再最小了。
二、参数显著性检验失效在参数估计中,如果忽略上述差异,仍然用(b )作为参数估计方差去衡量,可能会使得参数估计值的方差低估其真实方差。
同时,当出现异方差时,)ˆ(ˆ2βe s 与X i 的变化有关,它不再为一固定值。
从而t 统计量不确定,这时参数(如2β)的置信区间将会无意义。
三、预测精度降低由于受上述差异的影响,这时kn e i-=∑22ˆσ不再是2σ的无偏估计,从而置信区间将受到严重的误导,并且预测区间也会随着方差的变动而变化,从而使Y 的预测区间的精度会降低。
第三节 异方差性的检验对异方差性的检验主要有以下一些方法, 1、图形法。
2、Goldfeld-Quandt 方法。
3、Glejser 方法。
4、White 方法。
5、ARCH 方法。
6、Park 检验。
7、Spearman 等级相关检验。
8、Breusch-Pagan-Godfrey 检验。
9、Koenker-Bassett 检验。
等等。
下面只介绍前1-5检验方法。
1、图形法。
由残差ˆe Y Y =-,得到2e 。
以2e 为纵轴,某个解释变量jX 为横轴,画出散点图,由此可粗略判断异方差的存在。
利用前面制造业利润与销售收入之间短系的例子,由残差平方与解释变量的散点图说明异方差存在。
2、Goldfeld-Quandt 方法。
(1)前提条件。
●样本容量要充分的大(为什么?);●随机误差项~i u 正态分布,除异方差以外,其它基本假定成立。
(2)检验的基本步骤。
●将解释变量的取值按从小到大排序(也可从大到小,但F 统计量的分子于分母需要交换,为什么?)。
●将排列在中间的约1/4的观察值删除掉,记为c ,再将剩余的分为两个部分,每部分观察值的个数为(n-c)/2(根据Goldfeld 和Quandt 的证实,一元线性模型里当样本容量大于60时,c 可取16,而当n=30时,取c 为4)。
Jack Johnston ,John DiNardo (2002)指出,在除去其它因素之外,该检验功效有赖于剔除的c 的多少。
如果c 太大,∑∑2221i i e e 和的自由度会很小,检验功效自然会很低;如果c 太小,将会减弱∑∑2221i i e e 和之间的对比,检验供销也会很低。
因此,按照经验,一般c 的选取大致在n 左右。
●提出假设。
即222211220:;,,2,1,:n i H n i H σσσσσ≤≤≤==ΛΛ●构造F 统计量。
分别对上述两个部分的观察值求回归模型,由此得到的两个部分的残差平方和为∑∑2221i i e e 和,它们的自由度均为[(n-c)/2]-k ,其中k 为参数的个数。
(这里如果假定u 服从正态分布,并且同方差性假定是真实的,则可证明下式成立)于是在原假设成立的前提下,有)2,2(~]2/[]2/[2122*k c n k c n F k c n e k cn e F i i --------=∑∑●判断。
给定显著性水平α,查F 分布表,得临界值)()2,2(αk cn k cn F ----,如果F *>)()2,2(αk cn k cn F ----则拒绝原假设,接受备择假设,即模型中的随机误差存在异方差。
例如,分析某地区家庭消费与收入之间的关系,n=30。
下面是在EViews 上运用G-Q 检验的操作过程。
3、Glejser 方法。
Glejser 检验的基本思想是,由OLS 法得到残差i e ,取i e 的绝对值i e ,然后将i e 对某个解释变量i X 回归,根据回归模型的显著性和拟合优度来判断是否存在异方差。
该检验的特点是不仅能对异方差的存在进行判断,而且还能对异方差随某个解释变量变化的函数形式进行诊断。
该检验要求变量的观测值为大样本。