当前位置:文档之家› 张晓峒4讲-模型诊断与检验

张晓峒4讲-模型诊断与检验

张晓峒4讲-模型诊断与检验
张晓峒4讲-模型诊断与检验

第4讲 模型诊断与检验

(1)回归函数的F 检验。 (2)回归参数的t 检验。

(3)检验线性约束条件是否成立的F 检验。 (4)JB 正态性检验 (5)似然比(LR )检验 (6)W 检验

(7)LM 乘数检验。

(8)邹突变点检验(Chow Breakpoint Tests ) (9)回归系数的稳定性检验(Chow 检验) (10)是否为白噪声过程的Q 检验 (11)平方的残差值序列的Q 检验

(12)Ramsey RESET 检验(Ramsey 模型设定误差检验) (13)异方差的White 检验(略)

(14)自相关的LM 检验(亦称BG 检验)(略) (15)格兰杰非因果性检验

(16)内生性Hausman 检验(不讲)

(1)回归函数的F 检验。 多元回归模型,

y t = β0 +β1x t 1 + β2x t 2 +…+ βk - 1x t k -1 + u t , (1) H 0:β1= β2 = … = βk -1 = 0;H 1:βj 不全为零 原假设成立条件下,统计量

F =

)

/()

1/(k T SSE k SSR --~ F (k -1,T -k )

其中SSR 是回归平方和,SSE 是残差平方和。k 表示被估参数个数。

注意:SSR 旧指回归平方和(regression sum of squares ),现指残差平方和(sum of squared residuals )。SSE 旧指残差平方和(error sum of squares (sum of squared errors)),现指回归平方和(explained sum of squares )。

检验规则是,若 F ≤ F α (k -1,T -k ),接受H 0;

若 F > F α (k -1,T -k ) , 拒绝H 0。

(2)回归参数的t 检验。 对于多元回归模型,

y t = β0 +β1x t 1 + β2x t 2 +…+ βk - 1x t k -1 + u t , (2)

如果F 检验的结论是接受原假设,则检验止。如果F 检验的结论是拒绝原假设,则进一步作t 检验。

H 0:βj = 0;H 1:βj ≠ 0,(j = 1, 2, …, k -1) 原假设成立条件下,统计量

t =

)?(?j

j s ββ~ t (T -k )

判别规则:若∣ t ∣≤ t α(T -k ),接受H 0; 若∣ t ∣> t α(T -k ),拒绝H 0。

(3)检验线性约束条件是否成立的F 检验。

约束条件的F 检验可以用来检验回归参数的一个或多个线性约束条件,如H 0:β1 = 0,β2 = 0,α1 +β0 + β1 =1,β1 /β2 =0.8等。

在零假设“约束条件成立”条件下,统计量

F =

)

/(/)(k T SSE m

SSE SSE u u r --~ F ( m , T – k )

其中SSE r 表示施加约束条件后估计模型的残差平方和;SSE u 表示未施加约束条件的估计模型的残差平方和;m 表示约束条件个数;T 表示样本容量;k 表示非约束模型中被估参数的个数。

判别规则是,若F < F α (2, T - 4),约束条件成立, 若F > F α (2, T - 4),约束条件不成立。 例:(file: b1c4)中国国债发行额模型

首先分析中国国债发行额序列的特征。1980年国债发行额是43.01亿元,占GDP 当年总量的1%,2001年国债发行额是4604亿元,占GDP 当年总量的4.8%。以当年价格计算,21年间(1980-2001)增长了106倍。平均年增长率是24.9%。

中国当前正处在社会主义市场经济体制逐步完善,宏观经济运行平稳阶段。国债发行总量应该与经济总规模,财政赤字的多少,每年的还本付息能力有关系。选择3个解释变量,国内

生产总值,财政赤字额,年还本付息额,根据散点图(略)建立中国国债发行额模型如下:

DEBT t = β0 +β1 GDP t +β2 DEF t +β3 REP AY t + u t

其中DEBT t 表示国债发行总额(单位:亿元),GDP t 表示年国内生产总值(单位:百亿元),DEF t 表示年财政赤字额(单位:亿元),REP AY t 表示年还本付息额(单位:亿元)。用1980~2001年数据(资料来源:《中国统计年鉴》2002,表8-19,表3-1,表8-1,表8-20)得输出结果如下;

DEBT t = 4.31 +0.35 GDP t +1.00 DEF t +0.88 REP AY t (11.7)

(0.2) (2.2) (31.5) (17.8)

R 2 = 0.9990, DW=2.12, T =22, SSE u = 48460.78, (1980-2001)

图11.2

由上述4个变量的相关系数矩阵(图11.2)知,DEBT t 和GDP t 的相关性最强。那么是否可以从模型中删掉DEF t 和REP AY t 呢?

可以用F 统计量完成上述检验。原假设H 0是β3 = β4 = 0(约束DEF t 和REP AY t 的系数为零)。给出约束模型估计结果如下,

DEBT t = -388.40 +4.49 GDP t (11.8)

(-3.1) (17.2)

R 2 = 0.94, DW=0.25, T =22, SSE r = 2942679, (1980-2001)

已知约束条件个数m = 2,T - k -1 = 18。根据(11.7)、(11.8)式,SSE u = 48460.78,SSE r = 2942679。依照(11.6)式,

F =

)

1/(/)(---k T SSE m SSE SSE u u r = )422/(78.484602/)78.484602942679(--= 537.5

因为F =537.5远远大于临界值F 0.05 (2, 18) =3.55,所以拒绝原假设。不能从模型中删除解释变量

DEF t 和REP AY t 。

EViews 可以有三种途径完成上述检验。 (1)在(11.7)式输出结果窗口中点击View ,选Coefficient Tests, Wald Coefficient Restrictions 功能(Wald 参数约束检验),在随后弹出的对话框中填入c(3) = c(4) = 0。可得如图11.3结果。其中F = 537.5。

图11.3

(2)在(11.7)式输出结果窗口中点击View ,选Coefficient Tests, Redundant Variables -Likelihood Ratio 功能(模型中是否存在多余的不重要解释变量),在随后弹出的对话框中填入DEF ,REP AY 。可得图11.4。计算结果同样是F = 537.5。

图11.4

(3)在(11.8)式输出结果窗口中点击View ,选Coefficient Tests, Omitted Variables -Likelihood Ratio 功能(模型中是否丢了重要的解释变量),在随后弹出的对话框中填入拟加入的解释变量DEF ,REP AY 。可得到如图11.5的结果。同样是F = 537.5。

图11.5

(4)JB 正态性检验

在给出JB 统计量的定义之前,先给出偏度(skewness )和峰度(kurtosis ,峭度)的定义。对于时间序列(y 1, y 2, …, y T ),偏度S 定义为,

31)(1∑=-=T t t s

y y T S

其中y t 是观测值,y 是样本平均数,s 表示y t 的标准差,1

)(1

2

--=

∑=T y y

s T

t t

,T 是样本容量。由

公式知,若分布是以y 对称的,则偏度为零。所以若y t 服从正态分布,则偏度为零;若分布是右偏倚的,则偏度S > 0;若分布是左偏倚的,则偏度S < 0。

x

< Md < Mo x = Md = Mo M O < Md < x

峰度K 定义为

41)(1∑=-=T

t t s

y y T K

其中y t 是观测值,y 是样本平均数,s 是样本标准差,T 是样本容量。正态分布的峰度值为3。如果一个分布的两侧尾部比正态分布的两侧尾部“胖”,则该分布的峰度K > 3,反之则K < 3。

JB (Jarque-Bera )统计量定义如下,

JB =

])3(4

1[622-+-K S n T ~ χ2

(2)

其中T表示观测值个数。对于直接得到的观测时间序列,取n = 0。对于残差序列,取n等于原回归模型中解释变量个数。S表示偏度。K表示峰度。计算结果

若JB <χ2α(2),该分布为正态分布,

若JB >χ2α(2),该分布不是正态分布。

当用样本计算偏度和峰度时,T应换为T -1,σ2用y t的样本方差s2代替。

例:(file: simu2, x)EViews操作如下。

因为JB = 3.71 < χ0.05 (2) = 5.99,所以上述分布为正态分布。

因为JB = 6009 > χ 2

0.05 (2) = 5.99,所以上述分布不是正态分布。 英 K. Pearson 提出的分布律检验适用性更广。

(5)似然比(LR )检验

下面介绍三种常用的检验方法,即似然比(LR )检验,沃尔德(W )检验和拉格朗日(lagrange )乘数(LM )检验。这三种检验所用统计量都是利用极大似然估计法计算的。LR 检验由内曼—皮尔逊(Neyman-Pearson 1928)提出,只适用于对线性约束的检验。W 检验和LM 检验既适用于对线性约束条件的检验,也适用于对非线性约束条件的检验。

首先介绍LR 检验。LR 检验的基本思路是如果约束条件成立则相应约束模型与非约束模型的极大似然函数值应该是近似相等的。用

log L (β?,2

?σ) = -2T log 2π2?σ-22?2?σ

t u (3) 表示非约束模型的极大似然函数。其中β?和2?σ分别是对 β(参数集合),σ 2 的极大似然估计。

log L (β~,2~σ) = -2T log 2π2~σ-22~2~σ

t u (4) 表示约束模型的极大似然函数。其中β~

和2~σ

分别是对 β 和 σ 2 的极大似然估计。定义似然比(LR )统计量为

LR = - 2 [ log L (β~, 2

~σ) - log L (β

?, 2?σ) ] (5) 中括号内是两个似然函数之比(似然比检验由此而得名)。在零假设约束条件成立条件下 LR ~ χ 2(m ) (6)

其中m 表示约束条件个数。用样本计算LR 统计量。

判别规则是,若LR < χ 2α (m ) , 则接受零假设,约束条件成立。 若LR > χ 2α (m ) , 则拒绝零假设,约束条件不成立。 例:(file: b1c4)仍以中国国债发行总量(DEBT t ,亿元)模型为例。选择3个解释变量,国内生产总值(百亿元),财政赤字额(亿元),年还本付息额(亿元),根据散点图建立中国国债发行额(DEBT t ,亿元)模型如下:

DEBT t = β0 +β1 GDP t +β2 DEF t +β3 REP AY t + u t

其中GDP t 表示年国内生产总值(百亿元),DEF t 表示年财政赤字额(亿元),REP AY t 表示年还本付息额(亿元)。用1980-2001年数据得输出结果如下;

DEBT t = 4.31 +0.35 GDP t +0.99 DEF t +0.88 REP AY t (11.7)

(0.2) (2.2) (31.5) (17.8)

R 2 = 0.9990, DW=2.12, T =22, logL = -115.8888, (1980-2001)

有相关系数矩阵知,DEBT t 和GDP t 的相关性最强。那么是否可以从模型中删掉DEF t 和REP AY t 呢?

用LR 统计量检验是否可以对上式施加约束DEF t 和REP AY t 的系数β3 = β4 = 0。给出约束模型估计结果如下,

DEBT t = -388.40 +4.49 GDP t (11.8)

(-3.1) (17.2)

R 2 = 0.94, DW=0.25, T =22, logL = -161.0583, (1980-2001)

LR = - 2 [ log L (β~, 2

~σ) - log L (β

?, 2?σ) ]= -2 (-161.0583 +115.8888) = 90.34 因为LR = 90.34 >χ 2(2) = 5.99,所以推翻原假设,即不能从模型中删除变量DEF t 和REP AY t 。

附录:

EViews 操作(1):在(11.7)式窗口中点击View ,选Coefficient Tests, Redundant Variables -Likelihood Ratio 功能(模型中是否存在多余的不重要解释变量),在随后弹出的对话框中填入DEF 和REP AY 。可得如下结果。

EViews 操作(2):在(11.8)式窗口中点击View ,选Coefficient Tests, Omitted Variables -Likelihood Ratio 功能(模型中是否丢了重要的解释变量),在随后弹出的对话框中填入拟加入的解释变量DEF 和REP AY 。也可得到如上结果。

(6)W 检验

W 检验的优点是只需估计无约束模型。当约束模型的估计很困难时,此方法尤其适用。W 检验由沃尔德(Wald 1943)提出,适用于线性与非线性约束条件的检验。

W 检验的原理是测量无约束估计量与约束估计量之间的距离。先举一个简单例子。比如对如下模型

y t = β1 x 1t + β2 x 2 t + β3 x 3 t + v t (7) 检验线性约束条件β2 = β3是否成立。W 检验只需对无约束模型(7)进行估计,因为对约束模型,

上式必变化为y t = β1 x 1t + β2 (x 2t + x 3t ) + v t ,所以对约束估计量2~β和3~β来说,必然有2~β-3~

β= 0。

如果约束条件成立,则无约束估计量2?β-3?β应该近似为零。如果约束条件不成立,则无约束估计量2?β-3

?β应该显著地不为零。关键是要找到一个准则,从而判断什么是显著地不为零。 首先需要知道(2?β-3?β)的抽样分布。依据经典回归的假定条件,(2?β-3?β)服从均值为(β2-β3),方差为V ar(2?β-3?β) 的正态分布。通常Var(2?β-3?β) 是未知的,使用的是Var(2?β-3

?β) 的样本估计量,定义W 统计量为,

W =)??(Var )??(3

23

2ββββ--~ N(0, 1) 在约束条件成立条件下,W 渐进服从N(0, 1) 分布。

下面讨论多个约束条件的情形。假定若干约束条件是以联合检验的形式给出,

f (β ) = 0, (8)

其中f (β) 表示由约束条件组成的列向量。用β~

表示施加约束条件后对参数集合 {β1, β2, …, βk }

的估计。若把 β~ 代入上式,则上式一定成立。当把无约束估计值β?代入上式时,通常上式不会成立。W 统计量定义如下,

)1(1)(')1()?())?(()?(?-??=m m m m W βββf f Var f (9)

其中f (β?)是用β?代替β 后的f (β )表达式,Var (f (β?)) 是f (β?)的估计的方差协方差矩阵。计算公

式如下:

[]

'

)

()()(?)?()?(?)?())?((m k k k k m ???????????????????????=ββββββf Var f f Var (10) 其中ββ?)?(??f 表示 f (β) 用无约束估计量 β? 代替后的偏导数矩阵,其中第i 行第j 列位置上的元素表示第i 个约束条对第 j 个无约束估计量的偏导数值。Var (β

?) 是β?的估计的方差协方差矩阵。

在约束条件成立条件下,W = f (β

?)' [Var ( f (β?) ) ] –1 f (β?) 渐近服从 χ 2(m ) 分布。

)1(1)(')1()?())?(()?(?-??=m m m m W βββf f Var f ~ χ 2(m )

其中m 表示被检验的约束条件的个数,

举一个非线性约束的例子如下。假定对模型

y t = β1 x t 1 +β2 x t 2 +β3 x t 3 + u t (11) 检验约束条件 β1 β2 = β3 是否成立。用,?1β2?β和3?β分别表示 β1,β2 和 β3 的非约束估计量。1?β,2?β和3?β既可以是极大似然估计量,也可以是最小二乘估计量。因为对于本例 f (β?) 只含有一个约束条件,所以改用f (β

?) 表示,有 f (β?) = 1?β2?β-3?β (12)

ββ?)?(??f = (1?)?(ββ??f 2?)?(ββ??f 3

?)?(ββ??f ) = (2?β 1?β -1 ), (13)

Var (β?) =

????????)?(Var )??(Cov )??(Cov )??(Cov )?(Var )??(Cov )??Cov )??(Cov )?(Var 332313222131211βββββββββββββββ (14) 和 Var (f (β?)) = (2?β 1?β -1) Var ()?β????

?

? ??-1??1

2ββ

, 根据(9)式,W 统计量的具体表达式是,

W =

???????

?

-????

?

??--1??)?()1??()???(121

22321ββββββββVar

在零假设 β1 β2 = β3 成立条件下,W 统计量近似服从 χ 2(1) 分布。

例:(file: nonli12)对台湾制造业生产函数,检验β1/β2 = 0.5是否成立。

t Lny = -8.4010 + 0.6731 Lnx t 1 + 1.1816 Lnx t 2 (15) (-3.1) (4.4) (3.9) R 2 = 0.98, F = 335.8, DW=1.3, T=15, (1958~1972)

检验β2/β3 = 0.5是否成立。 变换约束条件为

β2 - 0.5β3 = 0

因为只有一个约束条件,则

f (β

?) = f (β?) = β2 - 0.5β3 ββ

?)?(??f = (1?)?(ββ??f 2

?)?(ββ??f 3?)?(ββ??f ) = (0 1

-0.5 )

在(15)式窗口中点击View ,选Coefficient Covariance 功能。

Var (β?) = ??

??

??????----0912.00439.08157.00439.00235.03776.08157.03776.03860

.7 Var (f (β

?)) = (ββ?)?

(??f ) (Var (β?) ) (β

β?)?

(??f )'

= []5.010- ??

??

??????----0912.00439.08157.00439.00235.03776.08157.03776.03860

.7????

?

?????-5.010= 0.0903 f (β

?) = f (β?) = β2 - 0.5β3 = (0.6731-0.5?1.1816) = 0.0823 W = f (β

?)' [Var ( f (β?) ) ]-1 f (β?) = 0.0823 (0903

.01

) 0.0823 = 0903.0)0823.0(2= 0.0750

因为W = 0.075 < χ 2(1) = 3.8,所以,约束条件β0 = β1 = 0被接受,成立。

在(15)式窗口中点击View ,选Coefficient Tests, Wald-Coefficient Restrictions 功能得

概率大于0.05,说明统计量落在了零假设的接收域。结论是接受原假设(约束条件成立)。

(7)LM 乘数检验。

与W 检验不同的是拉格朗日(Lagrange )乘数(LM )检验只需估计约束模型。所以当施加约束条件后模型形式变得简单时,更适用于这种检验。LM 检验是由艾奇逊—西尔维(Aitchison-Silvey 1960)提出的。LM 检验另一种表达式是由拉奥(Rao 1948)提出的,称为得分检验。

首先给出非约束模型的对数似然函数

logL ( β, σ 2 ) (16) 对于非约束极大似然估计量β

?j 必然有

j

L l o g

β

???= 0, ? j (17) 若约束条件成立,则施加约束条件下 βj 的极大似然估计量 j β~

应与不施加约束条件下βj 的极大

似然估计量β?j 非常接近。也就是说 ?logL /?j β~应近似为零。LM 检验的原理是如果 ?logL /?j β~

显著地不为零,则约束条件不成立。LM 统计量定义为

LM = (β~??L log )' (I (1))~

-β)~(β

??L log (18)

其中(?logL /?β~)是以(?logL /?βj )为元素组成的列向量,同时用j β~

替换了βj 。I (β~) 称为信

息矩阵,其逆矩阵是j β~

的方差协方差矩阵。在约束条件成立条件下,LM 近似服从 χ2(m ) 分布。

LM ~ χ 2(m ) ,

其中m 表示约束条件个数。

假定有两个约束条件f 1(β) = 0和f 2(β) = 0。为求这两个约束条件下的对数似然函数(16)的极大似然估计量,应按拉格朗日乘数法则建立如下函数,

logL * = logL + λ1 f 1 (β) + λ2 f 2 (β) , (19) 其中λ1,λ2为拉格朗日乘数,求解约束极值问题应对所有的j 都满足? logL */? βj = 0, 即

j L log β??*=j L

log β?? + λ1j f ββ??)(1 + λ2j f ββ??)(2 = 0, ? j

由上式得

j L l o g

β?? = - λ1j

f ββ??)(1 - λ2j f ββ??)(2, ? j (20)

当上式中的βj 用j β~

代替后,如果显著地不为零,则约束条件不成立。根据上式,只有当λ1, λ2

不为零时,?logL /?βj 才显著地不为零。所以判别规则是如果 λ1,λ2 显著地不为零,则拒绝约

束条件。因为(20)式是 ?logL /?j β~

的函数,所以称其为拉格朗日乘数统计量。

对于线性回归模型,通常并不是按(18)式,而是通过一个辅助回归式计算LM 统计量的值。LM 统计量与辅助回归式的可决系数R 2 有直接联系,而辅助回归式的形式直接与被检验的约束条件有关。

LM 检验的实际步骤如下:

(1) 确定LM 辅助回归式的因变量t u

?。用OLS 法估计约束模型,计算残差序列t u ?,并把t u ?作为LM 辅助回归式的因变量。

(2) 确定LM 辅助回归式的解释变量。例如非约束模型如下式,

y t = β0 + β1 x 1t + β2 x 2 t +… + βk x k t + u t . (21) 把上式改写成如下形式

u t = y t - β0 - β1 x 1t - β2 x 2 t -… - βk x k t . (22)

则LM 辅助回归式中的解释变量按如下形式确定。

-j

t

u β??, j = 0, 1, …, k . 对于非约束模型(5.70),LM 辅助回归式中的解释变量是1, x 1t , x 2t , …, x k t 。第一个解释变量1表明常数项应包括在LM 辅助回归式中。 (3) 建立LM 辅助回归式如下

t u

?= α0 + α1 x 1t + α2 x 2 t + … + αk x k t + v t , (23) 其中t u

?由第一步得到。 (4) 用OLS 法估计上式并计算可决系数R 2。 (5) 用第四步得到的R 2计算LM 统计量的值。 LM = T R 2

其中T 表示样本容量。由于上式计算的LM 的值与(18)式定义的LM 的值相等(证明略)。在零假设成立前提下,T R 2 服从m 个自由度的 χ2(m ) 分布,

LM = T R 2 ~ χ2(m ) 其中m 表示约束条件个数。

例:(file: nonli12)对台湾制造业生产函数

t Lny = -8.4 + 0.67 Lnx t 1 + 1.18 Lnx t 2

(4.4) (3.9) R 2 = 0.89, F = 48.45, DW=1.3, T =15 用LM 统计量检验Lnx t 2的系数,β3 = 0是否成立。

(1) 用OLS 法估计约束模型,计算残差序列t u ?, Lny t = 2.16 + 1.24 Lnx t 1 + t u

? (4.9) (17.6) R 2 = 0.96, F = 312

并把t u

?作为LM 辅助回归式的因变量。 (2) 确定LM 辅助回归式的解释变量。例如非约束模型如下式,

Lny t = β1 + β2 Ln x 1t + β3 Lnx 2 t + u t (29) 把上式改写成如下形式

u t = Lny t - β1 - β2 Lnx 1t - β3 Lnx 2 t (30)

则LM 辅助回归式中的解释变量按如下形式确定。

-j

t

u β??, j = 1, 2, 3 对于非约束模型(30),LM 辅助回归式中的解释变量是1, Lnx 1t , Lnx 2t 。第一个解释变量1表明常数项应包括在LM 辅助回归式中。 (3) 建立LM 辅助回归式如下

t u

?= α0 + α1 Ln x 1t + α2 Ln x 2 t + v t , (23) 其中t u

?由第一步得到。 (4) 用OLS 法估计上式并计算可决系数R 2。

t u

?= -10.67 - 0.67 Lnx t 1 + 1.18 Lnx t 2 (23) (-3.9) (-3.7) (3.9) R 2 = 0.89, F = 48.45, DW=1.3

(5) 用第四步得到的R 2计算LM 统计量的值。

LM = T R 2 = 0.89?15 = 13.35 > χ2(1) = 3.8 原假设β3 = 0不成立。

例:自相关BG 检验属于LM 检验。

以2元线性回归模型,检验是否存在1阶自相关为例,约束模型和非约束模型分别是 y t = β0 +β1 x 1t + β2 x 2 t + u t (约束模型,ρ = 0) (33)

y t = β0 +β1 x 1t + β2 x 2 t + u t , u t = ρu t -1 + v t (34) 即

y t = β0 +β1 x 1t + β2 x 2 t + ρu t -1 + v t (非约束模型) (35)

用OLS 法估计(33)式,得到t u

?作为LM 辅助回归式的因变量。由非约束模型(35)知LM 辅助回归式的解释变量是1,x 1t ,x 2t ,u t -1,所以LM 辅助回归式是

t u

?= α0 + α1 x 1t + α2 x 2 t + α3 t u ?-1 + v t (5.72) 上式正是自相关BG 检验式。从中提取R 2计算统计量。

对LR ,W 和LM 检验方法的选择应以做实际计算时的难易程度而定。一般来说W 和LM 检验应优于LR 检验,因为W 和LM 检验只需要估计一个模型即可,而LR 检验需估计约束与非约束两个模型。对W 和LM 检验方法的选择应以约束模型与非约束模型哪个更容易估计而定。应该注意,即使三种检验方法都可使用,它们的计算结果通常也是不相同的。因为三个统计量只是渐近相同,对于线性回归模型,在小样本条件下有如下关系成立。

LM ≤ LR ≤ W (29)

上式说明只有当 LM 检验的结果为拒绝零假设(约束条件不成立)或者W 检验的结果为接受零假设(约束条件成立)时,三种检验的结论才是一致的。所以实际中,三种检验方法有可能得出相互不一致的结论。另外只有当用参数的样本估计值计算的约束条件完全成立时,即把参数估计值代入约束条件能准确成立时,(29)式中的三个统计量才有完全相等的关系。 当对数似然函数中只含有一个参数β 时,LM , LR 和W 三种检验的关系可用图5.1表示。β?和β~ 分别表示无约束和约束估计量。LR 检验是对纵向距离 log L ()?β- log L ()~β 的测量,W 检

验则是对水平距离 (ββ~?-) 的测量,而LM 检验计算的是当β?=β~ 时,对数似然函数的斜率。

因为这三个统计量都是渐近地服从χ2

(m ) 分布,

所以当样本比较小且约束条件为线性时,用F 检

验要比用上述三种检验更可靠。

图5.1 LR , W 和LM 检验

(8)邹突变点检验(Chow Breakpoint Tests )

突变点检验由邹至庄1960年提出。当研究同一问题,在不同时段得到两个子样本时,需要考察两个不同时段的回归系数是否相同,即回归系数在不同时段是否稳定。当然这一检验也适用于两个截面样本的情形。

图5.2 一个解释变量情形

两个样本容量分别用n 1和n 2表示,并定义T = n 1 + n 2。假定所建立的多元回归模型形式为, y t = θ0 + θ1x t 1 + … + θk -1 x t k -1 + u t

以T ,n 1和n 2为样本分别对上述模型进行估计,所得结果用以下符号表示。

样本容量 残差平方和 相应自由度 回归系数 1 T SSE T T - k θj , j = 1, …, k -1 2 n 1 SSE 1 n 1 - k αj , j = 1, …, k -1

对数似然函数

3 n 2 SSE 2 n 2 - k βj , j = 1, …, k -1

注:3次回归的模型形式应相同。

原假设与备择假设:

H 0:αj = βj , j = 1, …, k -1。 H 1:αj , βj ,不全对应相等。 则所用统计量定义为 F =

)/()()]

(/[)]([21212121k n k n SSE SSE k n k n k T SSE SSE SSE T -+-+-+---+-

=

)

2/()(/)]([2121k T SSE SSE k

SSE SSE SSE T -++-~ F (k , T -2 k )

检验规则是

若F > F α (k ,T -2k ) 拒绝H 0(回归系数有显著性变化) 若F < F α (k ,T -2k ) 接受H 0(回归系数无显著性变化)

例:中国对数货币流通量(LnM t )的突变点检验(1952-1998,file: 5Dummy5)

检验中国对数货币流通量LnM 是否在1978年发生突变。

EViwes 操作:用LnM 对时间t 回归,在回归结果视窗内点击View 选Stability Tests / Chow Breakpoint Tests (邹突变点检验)功能。在对话框中输入1978(注意:1978属于后一个子样本),得EViwes 结果如下:

直接计算,SSE T = 11.0326, SSE 1 = 0.802576, SSE 2 = 0.232164。代入公式,

F =

)2/()(/)]([2121k T SSE SSE k SSE SSE SSE T -++-=43

/)232164.0802567.0(2

/)]232164.0802567.0(0326.11[++-= 207.737

与EViwes 输出结果相同。

(9)回归系数的稳定性检验(Chow 检验)

在样本T 基础上求出回归模型系数的估计值后,再增加n 个观测值从而考查原参数估计值是否稳定时,可采用如下的Chow 检验法,

首先对同一形式模型(含k 个被估参数)用样本T 和样本T+ n 分别进行回归,计算结果表

示如下,

样本容量 残差平方和 相应自由度 回归系数

1 T SSE 1 T - k β j 2

T + n SSE 2 T + n - k

αj

注:两次回归的模型形式应相同。

原假设与备择假设:

H 0: βj = αj , (j = 1, …, k -1)。 H 1: βj 与αj , (j = 1, …, k -1),不全对应相等。 则所用统计量定义为 F =

)

/(/)()/()](/[)(112112k T SSE n

SSE SSE k T SSE k T k n T SSE SSE --=----+-~ F (n , T - k )

检验规则是

若F < F α (n , T - k ) 接受H 0(回归系数无显著性变化) 若F > F α (n , T - k ) 拒绝H 0(回归系数有显著性变化)

例:中国对数货币流通量的稳定性检验(1952-1998,file: 5Dummy5)

由上例知1978年有一个突变点,做稳定性检验时,应在回归模型中加入描述结构突变的虚拟变量。按上面的表示方法,EViews 先算出T + n 个样本的回归式,对于本例即先算出1952-1998年为样本的回归式,

2

4

6

8

10

55

60

65

70

75

80

85

90

95

LM

LMF

然后再从1998年开始除掉一个或若干个年份的值,检验参数稳定性。

下面的计算相当于用1952-1997年数据估计一个模型,然后加入1998年数据检验预测的稳定性。

LnM = 3.64 + 0.07t -3.87D 1+0.14 t D 1

(58.1) (16.8) (-17.7) (20.3) R 2 = 0.9926, T = 47, (1952-1998)

EViwes 操作:在当前回归估计结果视窗中点击View 键,选择Stability Tests ,Chow Forecast Tests (邹预测检验)功能。

LM=???=+-=+1997)-(1978 46, 27,...,

,2122.03575.01977)-(1952 26, 1,...,

,0683.06383.3t t t t

样本容量 残差平方和 相应自由度 回归系数 1 46 0.9667 T - k = 42 β j 2

47 1.0347 T + n – k = 43 αj

F =

)/(/)(112k T SSE n SSE SSE --=)

446/(9967.01

/)9967.00347.1(--=2.95

也可以做若干期的邹预测检验。比如用1952-1996年数据估计一个模型,然后加入1997、

1998年数据检验模型的稳定性。估计过程如上,但对话框中要填入1997 1998两年。

(10)是否为白噪声过程的Q 检验

在介绍Q 统计量之前,先介绍序列y t 的估计的自相关函数(相关图)的定义,

r k =

∑∑=+=-----T

t t t

T

k t t k t t t

y y

T

y y y y

k

T 1

2

1

)(1)

)((1, k = 1, 2, ….

其中r k 表示y t 与y t-k 估计的自相关系数,是对自相关系数ρk 的估计。k t y -= (∑k t y -)/ (T -k )。在EViews 中定义t y = (∑y t )/ T 。

模型残差序列是否为白噪声的检验是用Box-Pierce (1970) 提出的Q 统计量完成的。Q 检验的零假设是

H :ρ1 = ρ2 = … = ρK = 0

即序列是一个白噪声过程。其中ρi 表示自相关系数。Q 统计量定义为

Q = T

∑=K

k k

r

1

2

(30)

随着T→∞,Q渐近服从χ2( K - p - q)分布,其中T表示样本容量,r k 表示用残差序列计算的自相关系数值,K表示自相关系数的个数,p表示模型自回归部分的最大滞后值,q表示移动平均部分的最大滞后值。

Ljung和Box认为(30)式定义的Q统计量的分布与χ2( K - p - q)分布存在差异(相应值偏小),于是提出修正的Q统计量。

Q = T (T+2)∑

=-

K k

k

k

T

r

1

2

(31)

其中r k ,K,p,q的定义如(30)式。修正的Q统计量(31) 渐近服从χ2(K-p-q) 分布。且它的近似性比原Q统计量的近似性更好。(注意:EViews中给出的Q统计量就是按(31)式定义的。)用残差序列计算Q统计量的值。显然若残差序列不是白噪声,残差序列中必含有其他成份,自相关系数不等于零。则Q值将很大,反之Q值将很小。判别规则是:

若Q < χ2α(K-p-q),则接受H0。

若Q > χ2α(K-p-q),则拒绝H0。

其中α表示检验水平;p,q分别表示时间序列模型中自回归和移动平均滞后项的个数。

实际检验中,K取15左右即可。

例:(file: simu2, x t)白噪声序列x t~ IID(0, 1)。Q统计量的值如下,

(file: simu2, x t)

因为Q(10) = 5.9 < χ20.05 (10-0 -0) = 18.3,则序列非自相关。

(11)平方的残差值序列的Q检验

Correlogram-Squared Residuals(残差值平方序列的Q检验)。在

Q = T (T+2)∑

=-

K k

k

k

T

r

1

2

(31)

的定义式中,如果估计的自相关系数r k是用残差值的平方序列计算的,那么Q统计量考察的是残差序列中是否存在自回归条件异方差(ARCH、GARCH过程)。Q统计量渐近服从χ2( K - p - q) 分布。检验方法与所用临界值与上述检验是否为白噪声过程的Q统计量相同。

这时的零假设是残差序列中不存在自回归条件异方差。备择假设是存在自回归条件异方差。

例1 日元兑美元汇率AR (2)模型中的残差是否存在条件异方差(file:JPYEN)

下两图是日元兑美元汇率序列和建立AR(3)模型后的残差值序列。

80

100

120

140

160

200

400

600

800

1000

1200

1400

JPY

-8

-6

-4-2

246

200400600800100012001400

RESID

日元兑美元汇率序列 建立AR(3)模型后的残差值序列(file:JPYEN/EQ01)

分别计算残差值序列和残差值平方序列的相关图和偏相关图(10期)如下。

残差序列的Q (10) =7.0 残差值平方序列的Q (10) = 277.99

以k = 10为例,因为Q (10) = 277.99 < χ20.05 (10 - 2 - 0) = 15.5 ,所以模型残差序列中存在ARCH 过程(条件异方差特征)。

(12)Ramsey RESET 检验(Ramsey 模型设定误差检验)

RESET (Re gression S pecification E rror T est )检验(Ramsey 模型设定误差检验)由Ramsey (1969)提出。模型设定误差包括①丢失变量、②模型形式不正确、③解释变量与误差项相关、误差项存在自相关、异方差、非正态性分布等。对模型

y t = α0 +α1 x t + u t (43)

的设定误差检验是通过对新加入变量z t 回归式

y t = α0 +α1 x t +α2 z t + u t (44)

完成的。如果(43)式不存在设定误差,那么α2应该等于零。

对于模型形式的设定错误可以通过增添解释变量的高次幂实现。例如对(43)式可以检验下式中α2估计量的显著性。

y t = α0 +α1 x t +α2 x t 2 + u t (45) Ramsey (1969) 建议用(43)式的拟合值的高次幂代替(45)式中的x t 2。例如

y t = α0 +α1 x t +α2t y?2+α3t y? 3 + u t(46)

原假设是

H0:α2 =α3 = 0

EViews输出结果给出的是关于检验约束条件是否成立的F和LR检验。判别规则是,若F < Fα (m, T - k),LR < χ2α(m),约束条件成立,不存在设定误差。

若F>Fα(m, T - k),LR>χ2α(m),约束条件不成立,存在设定误差。

其中m表示约束条件个数。

例:(file: b1c4)中国国债发行额模型

假设只取GDP做国债发行额(debt)的解释变量,因为散点图是2次的,显然设定不足。

Ramsey RESET Test的步骤是,在debt对GDP回归的基础上,点击View键,选择Stability Tests,Ramsey RESET Test功能(如图),并在对话框中选1(即只取拟合值的平方项),

第11章 模型的诊断与检验

第11章 模型的诊断与检验 习 题 一、多项选择题 1.计量经济模型的检验一般包括内容有 (ABCD ) A 、经济意义的检验 B 、统计推断的检验 C 、计量经济学的检验 D 、预测检验 E 、对比检验 2.对美国储蓄与收入关系的计量经济模型分成两个时期分别建模,重建时期是1946—1954;重建后时期是1955—1963,模型如下: 重建时期: ;重建后时期: ; 关于上述模型,下列说法正确的是(ABCD ) A. ,时则称为重合回归 B. ,时称为平行回归 C. ,时称为共点回归 D. ,时称为相异回归 E. ,时,表明两个模型没有差异 二、问答题 1.对模型需要进行检验的原因。 2.计量经济学检验的主要内容。 三、计算题 1.利用下表所给数据,估计模型。其中Y=库存和X=销售量, 均以10亿美元计。 (a) 估计上述回归模型(记为原模型)。 (b) 对原模型回归残差进行正态性检验。 (c) 原模型否为自相关模型?若原模型为自相关模型,如何修正该问题? (d) 对原模型进行异方差检验。若原模型为异方差模型,如何修正该问题? 表1 1950-1991年美国制造业的库存与销售(10亿美元) 年份 销售 库存 年份 销售 库存 1950 38596 59822 1971 117023 188991 1951 43356 70242 1972 131227 203227 1952 44840 72377 1973 153881 234406 t t t X Y 121μλλ++=t t t X Y 243μλλ++=3 1λλ=42λλ=42λλ=3 1λλ≠31λλ=42λλ≠3 1λλ≠42λλ≠31λλ≠4 2λλ=t t t X Y μββ++=10

面板数据模型设定检验方法

1:(ST ATA 的双固定效应)xi :xtreg y x1 x2 i.year ,fe 2:变系数模型 (1)生成虚拟变量 tab id,gen(id) gen open1=id1*open gen open2=id2*open (2)变系数命令 xtreg y open1 open2。。。,fe 面板数据模型设定检验方法 4.1 F 检验 先介绍原理。F 统计量定义为 ()()/~, (30)/() R U U RSS RSS J F F J N k RSS N k -= -- 其中RSS r 表示施加约束条件后估计模型的残差平方和,RSS u 表示未施加约束条件的估计模型的残差平方和,J 表示约束条件个数,N 表示样本容量,k 表示未加约束的模型中被估参数的个数。在原假设“约束条件真实”条件下,F 统计量渐近服从自由度为( J , N – k )的F 分布。 以检验个体固定效应回归模型为例,介绍F 检验的应用。建立假设

H 0:αi =α。模型中不同个体的截距相同(真实模 型为混合回归模型)。 H 1:模型中不同个体的截距项αi 不同(真实模型为个体固定效应回归模型)。 F 统计量定义为: F = ) /()] ()/[()(k N NT SSE k N NT k NT SSE SSE u u r --------1= ) /()/()(k N NT SSE N SSE SSE u u r ----1 (31) 其中SSE r 表示约束模型,即混合估计模型的残差平方和,SSE u 表示非约束模型,即个体固定效应回归模型的残差平方和。非约束模型比约束模型多了N -1个被估参数。 以案例1为例,已知SSE r = 4824588,SSE u = 2270386, F = ) /()/()(11----N NT SSE N SSE SSE u u r =) /() /()(115105227038611522703864824588 ---- = 22510 182443= 8.1 (32) F 0.05(6, 87) = 1.8 因为F = 8.1 > F 0.05(14, 89) = 1.8,推翻原假设,比较上述两种模型,建立个体固定效应回归模型更合理。 4.2 Hausman 检验 对同一参数的两个估计量差异的显著性检验称作

故障检测与诊断的模型

故障检测与诊断的模型 发表时间:2017-08-01T11:15:27.483Z 来源:《电力设备》2017年第9期作者:陈明庆 [导读] 摘要:快速、准确的故障检测与诊断离不开有效的系统模型。针对故障检测与诊断的特点,文章简要介绍了机理建模(南京理工大学江苏南京 210094) 摘要:快速、准确的故障检测与诊断离不开有效的系统模型。针对故障检测与诊断的特点,文章简要介绍了机理建模、知识建模和数据驱动建模三类传统建模方法,并从不同维度对以上几种建模方法作了比较阐述,同时基于上述各模型的特点,给出了几种混合建模的思路。 关键词:机理;知识;数据驱动;混合模型 0 引言 故障检测与诊断是一门相对独立的技术。我国在1979 年才初步接触故障检测与诊断技术,经过30多年的发展,故障检测与诊断技术已在自动驾驶、人造卫星、航天飞机、汽轮发电机组、大型电网系统等重要核心领域得到广泛应用。 目前,故障检测与诊断的模型大致有基于机理的模型、基于知识工程的模型、基于数据驱动的模型,文章将结合各模型的特点重点探讨故障检测与诊断中混合建模的思路。 1 机理模型 基于机理模型的方法首先需要被诊断系统精确的机理模型,然后利用构造出来的观测器预估系统的输出值,再将估计值与实际值做差产生残差。当系统运行正常时,残差应为零或近似于零;当系统出现故障时,残差量会明显超出允许范围。基于机理模型的方法根据残差产生的原因可细分为参数估计法、状态估计法、等价空间法等。参数估计法根据观测数据来辨识系统的动态参数,依据系统参数与模型参数的差值来判断系统是否出现故障。状态估计法通过对系统的状态进行重构,通过与可测变量做差生成残差序列,并采用统计检验法从残差序列中把故障检测出来,前提是系统可观测或者部分可观测,一般用各种状态观测器或滤波器进行状态估计。等价空间法是通过系统的输入输出真实值来检验系统机理的等价性,通过确定系统的输入输出间的冗余,实现检测和分离故障的效果。 基于解析模型的故障诊断方法充分体现了过程的内部机理,外延性好。但当系统过于复杂时无法获取其内部机理的全部信息,具有一定的局限性。 2知识工程模型 基于知识的方法主要是通过相关的经验建立系统的定性模型来解决复杂的故障诊断问题。基于神经网络、模糊逻辑方法是常用的方法。其中,神经网络因其具有处理非线性和自学习以及并行计算能力的特点,有利于非线性系统的故障诊断。模糊逻辑由于其概念易于理解,表达上更接近人的思维,适用于复杂的故障诊断中。 基于知识的方法不需要精确的定量机理模型,其适用于有相关经验和知识的对象,且诊断的结果易于理解。但是,其最大的缺点是通用性差,必须通过大量的经验知识才能够建立“知识库”;当系统比较复杂时,很容易出现一种未知故障会导致误报和漏报的情况。此时,基于知识的方法将不再适用。 3数据驱动模型 基于数据驱动的方法是通过采集系统的输入输出数据,然后分析数据的各种统计特征,建立过程的数据特征模型。目前,常用的方法有小波分析、神经网络、主成分分析等。小波分析方法是对所采集的信号进行相关处理,处理后的信号中除去由于输入变化引起的奇异点,剩下的奇异点即为系统可能出现的故障点。神经网络能够实现自组织、自学习,同时还具有处理非线性、并行、信息分布存储等能力,这大大提高了故障诊断的效率。主成分分析方法的主要是通过坐标变换将数据从高维空间映射到低维空间,建立正常情况下的主成分模型,当实测信号偏离所建模型时即可判断系统出现异常。 基于数据驱动的方法不必像基于机理模型那样需要过程的模型或先验知识只需对过程数据进行处理与分析,简单方便,实时性好,实用性强。但是数据模型的内插性及外延性较差,无法获取大量的各种状态下的过程数据。 4 混合模型 基于机理与基于数据驱动模型相结合的混合建模技术既能保证模型有明确的物理意义,又能保证模型具有较高的精度[6]。

线性回归 异方差的诊断 检验和修补 SPSS操作

线性回归(异方差的诊断、检验和修补)—S P S S操作首先拟合一般的线性回归模型,绘制残差散点图。步骤和结果如下: 为方便,只做简单的双变量回归模型,以当前工资作为因变量,初始工资作为自变量。(你们自己做的时候可以考虑加入其他的自变量,比如受教育程度等等) Analyze——regression——linear 将当前工资变量拉入dependent框,初始工资进入independent 点击上图中的PLOTS,出现以下对话框: 以标准化残差作为Y轴,标准化预测值作为X轴,点击continue,再点击OK 第一个表格输出的是模型拟合优度2R,为0.775。调整后的拟合优度为0.774. 第二个是方差分析,可以说是模型整体的显着性检验。F统计量为1622.1,P值远小于0.05,故拒绝原假设,认为模型是显着的。 第三个是模型的系数,constant代表常数项,初始工资前的系数为1.909,t检验的统计量为40.276,通过P值,发现拒绝原假设,认为系数显着异于0。 以上是输出的残差对预测值的散点图,发现存在喇叭口形状,暗示着异方差的存在, 故接下来进行诊断,一般需要诊断异方差是由哪个自变量引起的,由于这里我们只选用一个变量作为自变量,故认为异方差由唯一的自变量“初始工资”引起。接下来做加权的最小二乘法,首先计算权数。

Analyze——regression——weight estimation 再点击options, 点击continue,再点击OK,输出如下结果: 由于结果比较长,只贴出一部分,第二栏的值越大越好。所以挑出来的权重变量的次数为2.7。得出最佳的权重侯,即可进行回归。Analyze——regression——linear 继续点击save, 在上面两处打勾,点击continue,点击ok 这是输出结果,和之前同样的分析方法。 接下需要绘制残差对预测值的散点图,首先通过transform里的compute 计算考虑权重后的预测值和残差。 以上两个步骤后即可输出考虑权重后的预测值和残差值 然后点击graph,绘制出的散点图如下:

面板数据模型设定检验方法

1:(STATA 的双固定效应)xi :xtreg y x1 x2 i.year,fe 2:变系数模型 (1)生成虚拟变量 tab id,gen(id) gen open1=id1*open gen open2=id2*open (2)变系数命令 xtreg y open1 open2。。。,fe 面板数据模型设定检验方法 4.1 F 检验 先介绍原理。F 统计量定义为 ()()/~, (30)/() R U U RSS RSS J F F J N k RSS N k -=-- 其中RSS r 表示施加约束条件后估计模型的残差平方和,RSS u 表示未施加约束条件的估计模型的残差平方和,J 表示约束条件个数,N 表示样本容量,k 表示未加约束的模型中被估参数的个数。在原假设“约束条件真实”条件下,F 统计量渐近服从自由度为( J , N – k )的F 分布。 以检验个体固定效应回归模型为例,介绍F 检验的应用。建立假设

H 0:αi =α。模型中不同个体的截距相同(真实模 型为混合回归模型)。 H 1:模型中不同个体的截距项αi 不同(真实模型为个体固定效应回归模型)。 F 统计量定义为: F = ) /()] ()/[()(k N NT SSE k N NT k NT SSE SSE u u r --------1= ) /() /()(k N NT SSE N SSE SSE u u r ----1 (31) 其中SSE r 表示约束模型,即混合估计模型的残差平方和,SSE u 表示非约束模型,即个体固定效应回归模型的残差平方和。非约束模型比约束模型多了N -1个被估参数。 以案例1为例,已知SSE r = 4824588,SSE u = 2270386, F = )/()/()(11----N NT SSE N SSE SSE u u r =) /() /()(115105227038611522703864824588---- = 22510 182443 = 8.1 (32) F 0.05(6, 87) = 1.8 因为F = 8.1 > F 0.05(14, 89) = 1.8,推翻原假设,比较上述两种模型,建立个体固定效应回归模型更合理。 4.2 Hausman 检验 对同一参数的两个估计量差异的显著性检验称作

疾病诊断模型

我们仔细阅读了中国大学生数学建模竞赛的竞赛规则. 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。 我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。 我们参赛选择的题号是(从A/B/C/D 中选择一项填写): 我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):广东商学院参赛队员(打印并签名):1. 邓思文 2. 苏境财 3. 吴妙 指导教师或指导教师组负责人(打印并签名):戴宏亮 日期:2012 年8 月18 日赛区评阅编号(由赛区组委会评阅前进行编号)

2010 高教社杯全国大学生数学建模竞赛 编号专用页 赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用): 全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):

疾病诊断问题 摘要 随着就医压力增加,在降低误诊率的前提下提高诊断效率是非常重要的,本文利用确诊样本数据建立判别模型,并利用模型筛选出主要元素,对就诊人员进行诊断。 针对问题(1),利用确诊数据建立Fisher判别模型、Logistic 回归模型和BP神经网络模型,运用matlab、spss求解,定出判别标准,并进行显著性检验和回代检验,判别模型的准确率。结果显示Fisher 判别模型的准确率为%,Logistic回归模型和BP神经网络模型准确率均为100%,Logistic 回归模型相对简便。 针对问题(2),选择问题一中检验准确率为100%的Logistic 回归模型和BP神经网络模型对40 名就诊人员进行诊断,结果如下表: 针对问题(3),建立Logistic 逐步回归模型对元素进行筛选,利用spss 软件求解,确定Ca和Fe 是影响人们患这种病的主要因素,因此在建立诊断模型时,其他元素不作为参考指标。 针对问题(4),筛选出主要影响因素后,将Ca和Fe作为指标建立Logistic 回归模型和BP 神经网络模型,发现两个模型的诊断结果一致,如下: 针对问题(5),对比问题二和问题四结果,发现无关元素会影响模型进行诊断的准

模型诊断与检验

模型诊断与检验 (1)回归函数的F 检验。 (2)回归参数的t 检验。 (3)检验线性约束条件是否成立的F 检验。 (4)JB 正态性检验 (5)邹突变点检验(Chow Breakpoint Tests ) (6)回归系数的稳定性检验(Chow 检验) (7)平方的残差值序列的Q 检验 (8)Ramsey RESET 检验(Ramsey 模型设定误差检验) (9)格兰杰非因果性检验 (10)赤池信息准则、施瓦茨准则(贝叶斯信息准则)和汉南准则 (11)递归残差检验 (1)回归函数的F 检验。 多元回归模型, y t = β0 +β1x t 1 + β2x t 2 +…+ βk - 1x t k -1 + u t , H 0:β1= β2 = … = βk -1 = 0;H 1:βj 不全为零 原假设成立条件下,统计量 F = ) /() 1/(k T SSE k SSR --~ F (k -1,T -k ) (1) 其中SSR 是回归平方和,SSE 是残差平方和。k 表示被估参数个数。 注意:SSR 旧指回归平方和(r egression s um of s quares ),现指残差平方和(s um of s quared r esiduals )。SSE 旧指残差平方和(e rror s um of s quares (sum of squared errors)),现指回归平方和(e xplained s um of s quares )。 检验规则是,若 F ≤ F α (k -1,T -k ),接受H 0; 若 F > F α (k -1,T -k ) , 拒绝H 0。 (2)回归参数的t 检验。 对于多元回归模型, y t = β0 +β1x t 1 + β2x t 2 +…+ βk - 1x t k -1 + u t , 如果F 检验的结论是接受原假设,则检验止。如果F 检验的结论是拒绝原假设,则进一步作t 检验。 H 0:βj = 0;H 1:βj ≠ 0,(j = 1, 2, …, k -1) 原假设成立条件下,统计量 t = )?(?j j s ββ~ t (T -k ) (2) 判别规则:若∣ t ∣≤ t α(T -k ),接受H 0; 若∣ t ∣> t α(T -k ),拒绝H 0。 (3)检验线性约束条件是否成立的F 检验。 约束条件的F 检验可以用来检验回归参数的一个或多个线性约束条件,如H 0:β1 = 0,β2 = 0,α1 +β0 + β1 =1,β1 /β2 =0.8等。

实验八 模型设定偏误问题

实验八 模型设定偏误问题 姓名:何健华 学号:201330110203 班级:13金融数学2班 一 实验目的: 掌握模型设定偏误问题的估计与应用,熟悉 EViews 的基本操作。 二 实验要求: 应用教材 P183 例子 5.3.1 的案例,利用RESET 检验检验模型设定偏误问题;应用教材 P185 例子 5.3.2 的案例,利用Box-Cox 变换比较线性模型与双对数线性模型的优劣。 三 实验原理: 普通最小二乘法、阿尔蒙法、格兰杰因果关系检验、DW 检验。 四 预备知识: 普通最小二乘法,F 检验,Box -Cox 变换。 五 实验步骤 一、下表列出了中国某年按行业分的全部制造业国有企业及规模以上制造业非 确设定的模型,将如何检验哪一个模型设定更正确? i i i i L K Y μβββ+++=210

1.建立工作工作文件并录入数据,得到图1.1 图1.1 2.采用RESET 检验来检验模型的设定偏误 2.1对于原幂函数形式的模型,变换成双对数模型 0lnY alnK lnL ββμ=+++ 采用OLS 进行估计,估计结果如图1.2。 图1.2

在图1.2窗口选择“Views\Stability Test\Ramsey RESET Test...”,在出现的RESET Specification窗口的Number of fitted terms 栏内输入“1”,点击“OK”,得到检验结果如图1.3所示。 图1.3 由F统计量的伴随概率知,在5%的显著性水平下,不拒绝原模型没有设定偏误的假设。 2.2采用OLS对线性模型进行估计,估计结果如图1.4。 图1.4 同样地,选择“Views\Stability Test\Ramsey RESET Test”,在新出现的对话框中输入“1”,得如图1.5所示的RESET检验结果。 图1.5

时间序列中回归模型的诊断检验

时间序列中回归模型的诊断检验 【摘要】:时间序列是指被观测到的依时间次序排列的数据序列。从经济、金融到工程技术,从天文、地理到气象,从医学到生物,几乎在各个领域中都涉及到时间序列。对时间序列数据进行统计分析及推断,被称为时间序列分析。近几十年来,金融时间序列分析得到了人们广泛的关注。Engle在1982年对英国的通货膨胀率数据进行分析时提出一种统计建模思想:时间序列自回归模型误差的条件方差不一定是常数,可以随时间的变化而不同。基于这个思想,Engle首次提出了条件异方差模型,即人们熟知的ARCH(p)模型。由于Engle出色的开创性工作,金融时间序列条件异方差模型很快在学术界和实际应用中得到了极大的关注。许多专家学者根据实际中经济、金融数据的各种特征,提出了各种各样的条件异方差模型,并研究各种参数或非参数估计方法。但是,提出的模型是否合理?或者说,观测数据是否真的来自这一模型?人们往往不太关心。这个问题实际上是所谓的模型检验问题。对于著名的Box-Jenkins时间序列建模三步曲:模型的建立、模型的参数估计和模型的检验,理论上他们具有同等重要的地位。但是,正如专著Li所述,人们关注更多的是前面两步工作,而第三步(即模型的检验)常常得不到应有的重视。对于近二十年来受到广泛关注的条件异方差模型,模型检验问题同样没有得到应有的关注,相关的研究寥寥无几。对传统的回归模型,文献中主要有两大类模型检验方法:局部光滑方法和整体光滑方法。局部光滑方法涉及用非参数

估计方法估计其均值函数从而有可能导致维数问题。为了避免维数问题,学者们提出了各种各样的整体光滑方法用于模型检验,构造的检验不需要非参数光滑,但是对高频备择不敏感。上述两种方法各有优缺点。另外,这两种方法基本上都是针对因变量为一元情形。因此,本文提出一些新的方法来处理时间序列自回归模型的模型检验问题。需要特别指出的是,本文考虑的时间序列包括一元和多元情形,回归函数形式可以非常一般,自回归变量可以有多个后置项。本文首先研究了一元时间序列一般形式的自回归模型(包括条件异方差模型的均值模型和方差模型)的模型检验问题。通过模型的残差或标准化的残差进行加权平均,我们构造了一个得分型检验统计量。该检验具有许多优良性质,比如:在零假设模型下是渐近卡方分布的,处理起来简单;对备择假设敏感,能检测到以参数的速度收敛到原假设的备择假设模型;通过权函数的选择可以构造功效高的检验。在方向备择情形,我们研究得到了最优(功效最高)的得分型检验。当备择不是沿着某一方向而是多个可能的方向趋于原假设时,我们构造了极大极小(maximin)检验,该检验是渐近分布自由的,并具有许多优良性质。另外,对备择完全未知(即完全饱和备择)情形,我们也基于得分型检验的思想提出了一个构造万能检验(omnibustest)的可行性方案。需要指出的是,关于时间序列回归模型的诊断检验问题,本文是第一篇理论上研究检验的功效性质的文章。另外,在进行功效研究的过程中,我们得到了当模型被错误指定时参数估计(拟极大似然估计)的渐近性质。注意到得分型检验在构造过程中涉及渐近方差的插入估计

经典线性回归模型的诊断与修正

经典线性回归模型的诊断与修正下表为最近20年我国全社会固定资产投资与GDP的统计数据:1 年份国内生产总值(亿元)GDP 全社会固定资产投资(亿元)PI 1996 199779715 1998 1999 2000 2001 2002 2003137422 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014643974 2015 1、普通最小二乘法回归结果如下: 方程初步估计为: GDP=+ 1数据来源于国家统计局网站年度数据

F= DW= 2、异方差的检验与修正 首先,用图示检验法,生成残差平方和与解释变量PI的散点图如下: 从上图可以看出,残差平方和与解释变量的散点图主要分布在图形的下半部分,有随PI的变动增大的趋势,因此,模型可能存在异方差。但是否确定存在异方差,还需作进一步的验证。 G-Q检验如下: 去除序列中间约1/4的部分后,1996-2003年的OLS估计结果如下所示: 残差平方和RSS1=.

2008-2015年的OLS估计结果如下: 残差平方和RSS2=+09. 根据G-Q检验,F统计量为 F=> 因此,在5%的显著性水平下拒绝两组子样本方差相同的假设,即存在异方差。Gleiser检验结果如下 参数的估计值显著地不为0,则可以认定模型存在着异方差。

异方差的修正: 运用加权最小二乘法对异方差进行修正 对加权后的模型进行异方差检验,结果如下:

已知 White统计量n,由于>,因此,可以判断在给 定显著性水平的情况下,加权后的模型不再存在异方差,说明异方差性已经消除。3、序列相关性的检验与修正 序列相关性的检验如下: 做残差与残差滞后一期的散点图: 可以看出,E与E(-1)逐渐合拢,因此残差与其滞后一期的残差存在序列相关性。 D-W检验: 从OLS估计结果中可直接得到DW值为,给定α=,已知n=20,k=2,查DW检验临界值表可得,,,由<可知模型存在正自相关。 序列相关性的修正: 利用广义差分法,由于,有估计结果如下:

第7章_模型选择:标准与检验

第7章 模型选择模型选择::标准与检验标准与检验 本章主要讲授以下内容: 7.1 “好的”模型具有的性质 7.2 设定误差的类型 7.3 设定误差的诊断与检验 7.1 7.1 ““好的好的””模型具有的性质模型具有的性质 著名的计量经济学家哈维(A. C. Harvey )列出了模型判断的一些标准: (1)简约性(parsimony )。即模型应尽可能地简单。 (2)可识别性(identifiability )。对于给定的一组数据,估计的参数值必须是惟一的。 (3)拟合优度(goodness of fit )较好。拟合优度R 2(矫正的拟合优度2 R )越高,模型越好。 (4)理论的一致性(theoretical consistency )。即回归结果要与理论分析结果一致。 (5)预测能力(predictive power )。即预测值与实际经验所验证的结果越接近越好。 7.2 7.2 设定误差的类型设定误差的类型设定误差的类型 模型设定误差主要有遗漏相关变量、包括不必要的变量、采取了不正确的函数形式和测量误差 等方面,下面来具体进行分析。 1.遗漏相关变量遗漏相关变量::“过低拟合过低拟合””模型 考虑如下回归模型: i i i i X B X B B Y μ+++=33221 (1) 其中,Y=婴儿死亡率,X 2=人均GNP ,X 3=女性识字率。 假如采取了下列错误的估计模型: i i i X A A Y ν++=221 (2) 由于遗漏了变量X 3,可能会产生如下后果: (1)如果遗漏变量X 3与模型中变量X 2相关,则a 1和a 2是有偏的。 事实上,可以证明: 32322)(X X b B B a E += )()(2331132X b X B B a E X X ?+= 其中,32X X b 是遗漏变量X 3对模型中变量X 2回归的斜率系数。 (2)a 1和a 2也是不一致的,即无论样本容量有多大,偏差也不会消失。 (3)如果X 3与X 2不相关,则32X X b 为0。这时a 1仍然是有偏的。 (4)根据错误模型得到的误差方差是真实误差方差的有偏估计量。 (5)通常估计的a 2的方差是真实估计量b 2方差的有偏估计量。

实验八模型设定偏误问答

实验八模型设定偏误问题 姓名:何健华学号:201330110203 班级:13金融数学2班一实验目的: 掌握模型设定偏误问题的估计与应用,熟悉EViews 的基本操作。 二实验要求: 应用教材P183 例子5.3.1 的案例,利用RESET检验检验模型设定偏误问题;应用教材P185 例子5.3.2 的案例,利用Box-Cox变换比较线性模型与双对数线性模型的优劣。 三实验原理: 普通最小二乘法、阿尔蒙法、格兰杰因果关系检验、DW 检验。 四预备知识: 普通最小二乘法,F检验,Box-Cox变换。 五实验步骤 一、下表列出了中国某年按行业分的全部制造业国有企业及规模以上制造业非国有企业的工业总产值Y,资产合计K及职工人数L。序号工业总产值Y(亿)

12 617.94 516.01 28 28 867.91 984.52 46 13 4429.19 3785.91 61 29 4611.39 18626.94 218 14 5749.02 8688.03 254 30 170.30 610.91 19 15 1781.37 2798.90 83 31 325.53 1523.19 45 16 1243.07 1808.44 33 假设有人不同意原幂函数模型是正确设定的模型,而下面的线性形式是正确设定的模型,将如何检验哪一个模型设定更正确? i i i i L K Y μβββ+++=210 1.建立工作工作文件并录入数据,得到图1.1 图1.1 2.采用RESET 检验来检验模型的设定偏误 2.1对于原幂函数形式的模型,变换成双对数模型 0lnY alnK lnL ββμ=+++ 采用OLS 进行估计,估计结果如图1.2。

关于模型诊断与检验

关于模型诊断与检验 1.动态分布滞后模型与一般到特殊建模法 最常见的动态分布滞后模型是ADL (1, 1) 和ADL (2, 2) , y = α0 + α1 y t-1 + β0 x t + β1 x t-1+ u t, u t~ IID (0, σ 2 ), t (5.9) 和 y = α0 + α1 y t-1 + α2 y t-2 + β0 x t + β1 x t-1+ β2 x t-2+ u t, u t~ IID t (0, σ 2 ) 通过对α0 , β0 和β1施加约束条件,从ADL模型(5.9)可以得到许多特殊 的经济模型。下面以9种约束条件为例,给出特定模型如下: (1)当α1 = β1 = 0 成立,摸型(5.9)变为 y = α0 +β0 x t + u t . t (5.11) 这是一个静态回归模型。 (2)当β0= β1= 0时,由模型(5.9)得 y = α0 + α1 y t-1 + u t . t (5.12) 这是一阶自回归模型。 (3)当α1 =β0 = 0 时,则有 y = α0 + β1 x t-1 + u t . t (5.13) x 是y t的超前指示变量。此模型称为前导模型。 t-1 (4)当约束条件是α1 =1,β1 = - β0时,(5.9)式变为 ? y = α0 + β0 ? x t+ u t . t (5.14) 这是一个一阶差分模型。当x t与y t为对数形式时,上述模型为增长率模型。 (5)若α1 = 0成立,模型(5.9)则变为一阶分布滞后模型。 y = α0 + β0 x t+β1 x t - 1 + u t. t (5.15) (6) 取β1 = 0,则模型(5.9)变为标准的局部调整模型(偏调整模型)。

相关主题
文本预览
相关文档 最新文档