戈德菲尔德-匡特检验的讨论
张荷观
(江南大学 商学院,江苏 无锡 214063)
摘要:本文通过对G-Q 检验的分析,指出了G-Q 检验所存在的问题,并提出了解决的方法.
关键词:线性回归模型 异方差 G-Q 检验
一、引言
在目前流行的国内外经济计量学教材中,例如Greene(2000)、Gujarati(2000)、贺铿(2000)和高炜宇(2002)等,都把戈德菲尔德-匡特(Goldfeld-Quandt)检验(以下简称G-Q 检验)作为异方差检验的主要方法. 并且,近期仍有学者对其进行推广(龚秀芳,2005).
为便于讨论,考虑一元线性回归模型
n i x b b y i i i ,,2,1,10 =++=ε (1)
并假定模型满足古典假定. 当
n i Var i i ,,1,0,)(22 =≠=εσσε (2)
即随机项ε 不满足等方差的假定时,则称随机项ε 存在异方差. 若回归模型的随机项存在异方差,不仅回归系数的最小二乘估计不再具有最优性,并且回归系数显著性检验时的t 检验也不再适用. 因而,异方差的检验是经济计量学的一个重要内容.
本文通过对G-Q 检验的分析,指出了G-Q 检验在理论上所存在的问题,同时提出了解决的方法.
二、G-Q 检验犯第一类错误的概率与略去的数据c 有关
G-Q 检验的主要步骤如下:
(1) 把解释变量x 按从小到大的顺序排列,而被解释变量y 保持原对应关系. 略去位于中间的c 对数据后,把数据等分为前后两组,分别称为较小组和较大组. 一般取
3
4n c n ≤≤ 且使n-c 为偶数,即较小组和较大组各包含(n-c )/2对数据.
(2) 假定较小组和较大组的随机项都具有等方差,分别记为21σ和23σ. G-Q 检验的
原假设为
23
210:σσ=H (3) 即假定回归模型(1)满足等方差. 并对较小组和较大组数据分别采用最小二乘法建立样本回归方程,较小组和较大组的残差平方和分别记为1RSS 和3RSS .
(3) 用RSS 大表示1RSS 和3RSS 中的较大者,而用RSS 小表示其中的较小者,则G-Q
检验统计量为
=F RSS 大/RSS 小 (4) 当)22
,22(
---->c n c n F F α时,G-Q 检验拒绝0H ,认为线性回归模型(1)的随机项存在递增(或递减)异方差. 否则,就认为随机项不存在异方差,即随机项满足等方差. G-Q 检验实际上按解释变量的大小把数据划分为三组,可分别称为较小组、中间
组和较大组. 并假定各组的随机项满足等方差,若分别用21σ、22σ和23σ表示较小组、
中间组和较大组的随机项方差,则G-Q 检验的原假设(3)式可改写为
23
22210:σσσ==H (5) (5)式与(3)式都表示线性回归模型(1)的随机项满足等方差,即(5)式与(3)式等价. 并且,当残差平方和递增时,1RSS 和3RSS 就是这三组数据中残差平方和的最小值和最大值,即1min RSS RSS ==RSS 小,3max RSS RSS ==RSS 大. 于是根据(4)式,当残差平方和递增时
有
m a x m i n
m a x ?F R S S R S S F == (6) 即这时的G-Q 检验统计量为最大残差平方和与最小残差平方和之比. 特别,当3n c =,即三组数据个数都相等时,则(6)式实际上就是哈特利(Hartley)的最大F 比检验统计量. 这就是说,当已知残差平方和递增且n c =时,那么G-Q 检验统计量和最大F 比检验
统计量相同. 而根据最大F 比检验,当)23
,3(max max ->n F F α时拒绝0H ,可以认为随机项存在异方差. 否则,就认为随机项不存在异方差,即满足等方差. 根据最大F 比检验的
临界值表(Sachs 1984),对于给定的显著性水平α,总有)23,23(--n n F α)23
,3(max - ,23(--n n F α作检验时,必使G-Q 检验犯第一类错误的概率超过规定的显著性水平α(当残差平方和递减时可得相同结 论). 表1给出了G-Q 检验的临界值)23,23(--n n F α和最大F 比检验的临界值)23 ,3(max -n F α的比较表. 表1 )2 ,2(--n n F α和)2,3(max -n F α的比较表 例 1 30户家庭收入x (单位:美元)与消费支出y (单位:美元)的数据如下(Gujarati ,2000). 已知残差平方和递增,试检验随机项是否存在异方差. 表2 30户家庭收入x 与消费支出y 的数据 已知30=n ,取c =10,即较小组和较大组各包含10对数据. 求得 03.1204,45.516,91.292321===RSS RSS RSS 则根据(4)式得 11.491 .29203.1204==F 在05.0=α时,查F 分布表得临界值44.3)8,8(05.0=F . 由于)8,8(05.0F F >,从而根据G-Q 检验认为随机项存在异方差. 但事实上,由于本例的残差平方和递增且103 ==n c ,则 F R S S R S S F ===91 .29203.1202min max max 即这时G-Q 检验统计量和最大F 比检验统计量的取值相等. 从而在05.0=α时,根据表 1可得最大F 比检验的临界值00.6)8,3(max 05.0=F . 因 则根据最大F 比检验应接受0H ,可以认为随机项不存在异方差,即满足等方差. 由于已知例1的残差平方和递增, 因而也可采用斯皮尔曼(Spearman)等级相关检验. 根据表1求得 33 .1243.012 30243.012243.0)130(30340461) 1(619466.0,6378.02903.9?22 223012 2=--=--==-?-=--==+=∑=s s i i s r n r t n n d r R x y 在05.0=α时,查t 分布表得临界值048.2)28(2 05.0=t ,从而同样可以认为随机项满足等 方差. 由于当残差平方和递增且n c =时max F F =,即这时G-Q 检验和最大F 比检验统 计量的取值相等. 但因总有)23 ,3()23,23(max -<--n F n n F αα,所以这时采用G-Q 检验会使犯第一类错误的实际概率大于规定的显著性水平α. 对于例1,最大F 比检验的临界值应为6.00,但G-Q 检验却取3.44作为临界值,则使G-Q 检验增大了犯第一类错误的概率. 这就是说,对于例1,当G-Q 检验规定0102.0=α,即取临界值为6.00时犯第一类错误的实际概率才是0.05. 显然,当残差平方和递增(或递减)时, 略去的数据c 愈多,则G-Q 检验的F 值愈大,从而愈容易发现递增(或递减)异方差,但同时也使G-Q 检验犯第一类错误的概率愈大. 三、G-Q 检验犯第二类错误的概率与异方差类型有关 当残差平方和先随x 的增加而增大,然后又随x 的增加而减小(或残差平方和先随x 的增加而减小,然后又随x 的增加而增大)时,这时2max RSS RSS =(或2min RSS RSS =). 但只要31RSS RSS ≈,即1≈F ,根据G-Q 检验,则仍认为随机项不存在异方差. 这就是说,不管1RSS 、2RSS 和3RSS 之间的差别有多大,只要31RSS RSS ≈,G-Q 检验就认为不存在异方差. 因而,G-Q 检验不能识别复杂异方差. 于是,在不了解异方差类型时 采用G-Q 检验又会增大犯第二类错误的概率. 例2 30名学生的数学成绩x (单位:分)与统计学成绩y (单位:分)的数据如下,试检验是否存在异方差. 表3 30名学生的数学成绩x 与统计学成绩y 的数据 仍略去中间的10对数据(c=10),即较小组和较大组各包含10对数据. 同样可得 04.523,79.162,08.1011321===RSS RSS RSS 于是由(4)式得 93.104 .52308.1011==F 在05.0=α时,由于)8,8(05.0F F <,从而G-Q 检验认为随机项为等方差. 但根据最大F 比检验则有 21.679 .16208.1011min max max ===RSS RSS F 于是)8,3(max 05.0max F F >,从而根据最大F 比检验可认为随机项存在异方差. 实际上,例2的数据显示随机项存在复杂异方差现象,但G-Q 检验不能识别复杂异方差从而误认为等方差. 所以在不了解异方差类型时采用G-Q 检验,又会增加犯第二类错误的概率. 四、结语 由于递增(或递减)异方差是一种常见的异方差类型,从而使G-Q 检验成为一种常用的异方差检验方法. 但因为G-Q 检验不能识别复杂异方差,从而在随机项可能存在复杂异方差时采用G-Q 检验会增大犯第二类错误的概率. 所以,当随机项可能存在复杂异方差时,不宜采用G-Q 检验,例2给出了这种情况的一个实例. G-Q 检验的统计量表明,G-Q 检验适用于检验递增(或递减)的异方差. 但这时的G-Q 检验统计量已成为最大残差平方和与最小残差平方和之比的最大F 比,从而这时 G-Q检验犯第一类错误的概率会随c增加而增大. 一般,当c很小,即0 c时,G-Q ≈ 检验是适用的. 而当c较大,例如4 n c=时, c≥时,G-Q检验不再适用. 特别,当3 n G-Q检验统计量和最大F比检验统计量相同(见例1). 所以,当c较大时,为避免G-Q 检验增大犯第一类错误的概率,可以采用Hartley的最大F比检验或Cochran的最大方差检验. 参考文献 [1] William H. Greene,Econometric Analysis,4th ed. Prentice-Hall International Inc.,2000 [2] Damodar N. Gujarati,林少宫译,《计量经济学》(第3版),中国人民大学出版社,2000. [3] 贺铿,《经济计量学教程》,中国统计出版社,2000. [4] 高炜宇、谢识予,《高等计量经济学》,高等教育出版社,2002. [5] 龚秀芳,《戈德菲尔德-匡特检验的推广》,《数理统计与管理》,2005年第1期. [6] Lothar Sachs,Applied Statistics,A Handbook of Techniques[M],Springer-Verlag,New York, 1984 研究领域:经济计量学、应用统计学 电话:0510-******* 电子信箱:heguanzh@https://www.doczj.com/doc/2514144627.html, 通讯地址:江苏省无锡市滨湖区青山二村60号102室 邮编:214062