当前位置:文档之家› 计量经济学重点笔记第三讲

计量经济学重点笔记第三讲

第三讲 假设检验

一、 经典线性模型假定

对于模型01

i i i y x ββε=++,利用OLS 有: 112()?()

i i i x x x x εββ-=+-∑∑ 其证明可参见第二讲附录。在高斯-马尔科夫假定下,OLS 估计量的抽样分布完全取决于误差项的分布。

在高斯-马尔科夫假定中,我们要求误差项是序列

无关与同方差的。现在,我们施加更强的假定,即误差项服从正态分布,即2(0,)i N δε 。应该注意到,当误差项服从正态分布时,序列无关与独立性是等价的。因此,我们可以把上述分布假设写为:..2(0,)i i d

i N δε ,即误差项服从独立同正态分布。为什么要施加更强的假定呢?这是为了进行小样本下的假设检验。

2(0,)i N δε 与高斯-马尔科夫假定一起,

被称为经典线性模型假定。在经典线性模型假定下,可以证明,OLS 估计量是方差最小的无偏估计量(注意此时不需要把比较范围限制在线性估计量之中,因此该结论比高斯-马尔科夫定理更强。施加更多的假设而得到更强结论,这非常自然!)。

笔记:

1、假设误差项服从正态分布的合理性在于,误差项是由很多因素构成的,当这些因素是独立同分布时,依照中心极限定理,那么这些因素之和应该近似服从正态分布。当然,这并不意味着用正态分布来近似误差项的分布总是恰当的,例如,各因素或许并不同分布。另外,如果y 是价格这样的变量,那么假设误差项服从正态分布是不合理的,因为价格不可能是负数,不过我们可以进行变量变换,例如对价格取自然对数或者考察价格的变化率,那么经过变量变换之后,或许再假设误差项服从正态分布就变得合理了。

2、如果能够对误差项是否服从正态分布进行检验,那最好不过了。一种常用的检验方法是Jarqe-Bera 检验,这可以参见相关的教科书。问题是,尽管我们能观察到解释变量、被解释变量的取值,然而,由于对参数的真实取值无法确定,因此误差是观测不到的,我们或许不得不利用残差来代替误差以进行相关的检验。当然,一个前提是残差确实是对误差的良好近似,这进而要求,我们对参数的估计是合理的。

3、根据公式:

111221()()1?()()i i i i i i x x N x x x x x x εεβββ=?--=++--∑∑∑∑ 考虑x 非随机这种简单情况,显然,当样本容量很大时,只要误差项是独立同分布的(并不需要要假定误差项服从正态分布),

那么根据中心极限定理,1

?β应该近似服从正态分布。当然,为

了保证误差项的独立性,抽样的随机性十分关键。

二、 利用标准正态分布作假设检验

假定01

i i i y x ββε=++是真实模型,当然我们并不知道各参数的真实值是多少。如果某一经济经济理论预言1ωβ=,而现在你手中正掌握一样本,一个问题是,你所掌握的样本支持这个预言吗?

笔记:

由于抽样误差的存在,1

?β恰好等于ω的概率很小。然而,即使1

?ωβ=,我们也不能说理论被证实,因为计量经济学方法本质上是属于归纳法,并且由于其结论是基于某一样本而得到的,因此它还是属于不完全归纳,故,计量经济学不能证实经济学理论。当然,计量经济学也不能推翻经济学理论。经济学理论是逻辑推导,其正确与否需要从逻辑入手。总而言之,我们能够说的是“样本是否支持某个理论的预言”或者“样本与某个理论的预言是否一致”。

在经典线性模型假定下,11

21??(,)N βββδ~或者

111??()/()(0,1)sd N βββ-~①,其中122?2()i x x βδδ=

-∑,

1?()sd β=。

练习:确定0

?β的分布。 现在,假设经济理论的预言是正确的,那么针对

特定的样本你将得到标准正态分布图横坐标上的一个

点:11

??()/()sd βωβ-②。 现在来考察标准正态分布。在该分布上,存在对

称的两点:0.025z 与0.025z -,其中:

0.0250.025Pr()Pr()0.025Z z Z z ≥=≤-=

如果把概率为5%的事件称为小概率事件,那么,当

11

??()/()sd βωβ-的取值大于0.025z 或者小于0.025z -时,我们认为小概率事件发生了!小概率事件一般是不容易发生的,现在居然发生了,因此,我们应该怀疑上述经济理论所作出的预言。

①定义111

??z ()/()sd βββ=-,则z 就是所谓的z 统计量。估计量是用来估计真实参数的,而统计量是用来做统计推断(或者假设检验)的;统计量是随机的,其分布也被称为抽样分布,针对特定样本,我们得到统计量值,它是非随机的。

②在这里,该式是非随机的,而特别应该注意的是,分子中的1

?β是估计值,而分母中的1?β是估计量。估计值的标准差是零!。

笔记:

举一个生活中的例子。我预先认为某一个同学十分优秀。优秀学生某一次考试考砸了非常正常,然而连续十次考试考砸了就应该是小概率事件了。如果我预先所认为的那一个优秀同学确实连续十次考试都考砸了,我是不是应该对我的先验判断产生怀疑?当然,如果我就此认为那一个同学并不优秀,我也会犯错误,此即“第一类错误”,即“弃真”的错误。但犯这个错误的概率是很小的。如果优秀学生连续十次考试考砸了其概率是5%,那么我犯“第一类错误”的概率就是5%。

问题是,为什么我们取正态分布两端的区间作为

小概率区间呢?为什么我们不在正态分布密度曲线中随意取一小段作为小概率区间?

从直觉上看,当1ωβ=这个假设为真时,即使估

计值1?β与ω完全相等不太可能,但估计值1

?β应该接近于ω。然而我们也要注意到,对1β的估计还存在精确

性问题,这通过1

?β统计量的标准差体现出来。也就是说,在原假设为真时,即使估计值1

?β与ω有一定的差异,然而如果1?()sd β较大,那么在1

?β与ω间存在一定的也许是正常的。不过总的来看,当原假设为真时,z

统计量值是应该接近于0的,这要么是因为

11

??()/()z sd βωβ=-中的分子确实接近于0,要么是因为尽管1

?β与ω有一定的差异,但主要是由1?()sd β较大所引起的。当z 统计量值与0具有较大差异时,那么1ωβ=这个假设的真实性是值得怀疑的!

假设检验的正式步骤是:

(1)建立原假设与备择假设:

0111::H H βω

βω

=≠

笔记:

原假设与备择假设互斥;假设体系应该是完备的,即原假设与备择假设两者之一必为真,但两者不能同时为真。

(2)确定小概率标准a 。

经常我们把1%、5%或者10%作为小概率标准。对a 更加正式的称呼是“显著水平”。

(3)考察统计量值11

??()/()sd βωβ-是否落在拒绝域: /2/2(,][,)a a z z -∞-?+∞之内。

如果落在上述区间之内,那么在a 显著水平上,我们拒绝原假设,接受备择假设;反之,我们不拒绝原

假设,拒绝备择假设。

笔记:

1、为什么当统计量值落在拒绝域/2/2(,][,)a a z z -∞-?+∞之外时我们说“不拒绝原假设”而不是说“接受原假设”?其解释是:我们可以作出很多的原假设,例如11βω=或者12βω=而我们所计算出来的一些统计量值恰好都落在/2/2(,][,)a a z z -∞-?+∞之外,难道我们既接受11βω=也接受12βω=?显然更恰当的表达方式是,即不拒绝11βω=也不拒绝12βω=。

2、“接受原假设”没有留有余地,而“不拒绝原假设”表

明我们的结论是留有余地的,即,在另外的原假设下也可能不拒绝12βω=。“接受备择假设”留有余地吗?应该注意到,备择假设是11:H βω≠,因此,即使说“接受备择假设”,这也是留有余地的。

3、设定1%、5%或者10%为显著水平显得有点随意,为何不设2%、6%、7%等为显著水平呢?是否可以依据一个更一般的标准来进行假设检验?答案是肯定的,我们可以依据一个更一般的标准来进行假设检验!既然我们已经计算出统计量值

11

??()/()z sd βωβ=-,如果z 为正,那么根据正态分布表,我们就能够确定Pr()Z z Z z ≥?≤-的值(如果z 值为负,那么我们能够确定Pr()Z z Z z ≥-?≤的值),我们通常把这个概率值称为伴随概率,简写为P 或者Prob.这个概率值很有用处!例

如,假定P 值是0.062,那么,显然,以任何小于6.2%的概率为小概率标准,我们并不拒绝原假设;以任何大于 6.2%的概率为小概率标准,我们拒绝原假设。

4、一个总结:在进行双尾检验时,当P 小于给定的显著水平时,那么在给定的显著水平下应该拒绝原假设;反之,则不拒绝原假设。

上述检验都属于双尾检验,即/2/2(,][,)a a z z -∞-?+∞是拒绝域。如果假设体系是:

0111::H H βω

βω=>

那么在显著水平a 下,拒绝域应该是[,)a z +∞,我们进行的是单侧(尾)检验。为了理解上述单侧检验,我们回答如下几个问题:

问题一:为什么拒绝域是[,)a z +∞?

答案:当原假设为真时,那么11

??()/()Z sd βωβ=-应该在0左右不远处;当备择假设为真时,1

?β在真实参数1β左右不远处。因此,只要真实参数远大于ω,则

11

??()/()Z sd βωβ=-远大于0是非常可能的,而在这种情况下Z 远小于0则不太可能的。因此,我们把拒绝

域设定为[,)a z +∞。当Z 值落在该区间内时,我们拒绝原假设,接受被择假设。

问题二:为什么/2[,)a z -∞-不是拒绝域?

答案:当Z 值落在该区间内时如果我们拒绝了原假设,则我们更应该拒绝被择假设。因为当备择假设为真时, Z 值落在该区间内的概率更小。基于假设体系的完备性,故我们不把/2[,)a z -∞-设定为拒绝域。

问题三:设置这样的假设体系有何依据?

答案:这依赖于先验的理论与判断。例如,假定1β是某正常商品的消费收入弹性,那么1β不可能为负,则我们可以通过建立如下的假设体系:

0111:0

:0H H ββ=>

并基于样本来判断10β=是否为真。

问题四:单侧检验与双侧检验相比有何特点?

答案:从假设体系的形式来看,单侧检验与双侧检验明显不同。但最关键的不同在于,给定显著水平a (犯“第一类错误”的概率),上述单侧检验的拒绝域

[,)a z +∞与双侧检验右端拒绝域/2[,)a z +∞相比更宽,因此更容易拒绝原假设,从而犯“第二类错误”(取误)的概率更低。

笔记:

1、一个检验如果犯“第二类错误”(取误)的概率更低,则称该检验具有更高的检验势。在检验中提高检验的势一般来说是相当重要的。如果检验势较低则很容易“取误”,而科学精神要求我们不要轻易相信某一个确定性的判断!

2、从本质上看,单侧检验之所以比双侧检验具有更高的检验势,其原因在于,在建立单侧检验时我们预先接受了有关理论的指导,从而掌握了更多的信息,故在检验时我们能够做到更精细,不会轻易“上当”(取误)。

3、事物往往都具有两面性。尽管单侧检验比双侧检验具有更高的检验势,但要注意,它依赖于先验理论指导的正确性。如果先验理论指导是错误的,那么我们的“挑剔”很可能是“过度”的,即我们“弃真”的概率非常大。尽管名义上的“弃真”概率是a,但实际上的“弃真”概率超过了a,这被称为显著水平扭曲。

4、如果显著水平不扭曲,则给定显著水平,一个检验的检验势越高越好。不幸的是,在显著水平不扭曲的情况下,一个检验的“弃真”概率与“取误”概率其走向通常相反:如果设定较低的显著水平以降低“弃真”的概率,则拒绝域变窄,故“取误”概率增加,反之则相反。问题是我们如何取舍?本质上这涉及到比较“弃真”与“取误”所造成后果的严重性。假设现在要检验一种新药是否有效果,如果有效果则推广使用。现在的原假设是没有效果,备择假设是有效果。考虑到假药的危害,则“弃真”

所带来的后果非常严重,而“取误”所造成后果相对不严重。因此我们应该保守一点,设定更低的显著水平,以降低“弃真”的概率。

思考题:

在假设体系:

0111::H H βω

βω=≠

下,计量软件包计算出为正的统计量值z ,而且P 值为0.120(注:计量软件包默认的P 值是双尾的概率,当z 为正时,它计算的是Pr()Z z Z z ≥?≤-)。问:在假设体系

0111::H H βω

βω=>

下,以10%为显著水平,我们是否拒绝原假设?

三、 t 检验

虽然在经典线性模型假定下:

111

??()/()(0,1)sd N βββ-~ 然而,

在1?()sd β==2δ经常是未知的,需要我们估计。在第二讲时,我们已知道,在

高斯马尔可夫假定下,22??11i

RSS N k N k εδ==----∑是对2δ的一个无偏估计。

我们记1

?()se β=(注:the standard error,se;the standard deviation,sd )。可以证

明,111

??()/()se βββ-服从t(N-2)分布。 证明:

在经典线性模型假定下有:

11111222???()/()()/(0,1)?/2)i sd N N βββββεδχ????

????-=-~-∑

(112)?()/[t N ββ-- (

化简可得:111

()/()2)se t N βββ-- ( 笔记:

1、关于随机变量概率分布的知识点见本讲附录1。

2、在经典线性模型假定下可证明

222?/1)i N k εδχ--∑ ( 具体可参见一些较为高级的教科书。另外,根据附录1的知识点,一个服从卡方分布的随机变量其期望值等于自由度,故

22?(/)1i E N k ε

δ=--∑。实际上在第二讲我们已经表明22?[/(1)]i E N k ε

δ--=∑,这验证了该知识点。 3、2221/()N

i

i N εδχ=∑ ,如果残差是对误差的良好近似,

22?/i εδ∑也服从卡方分布还是比较好理解的。由于残差自

由度是N-k-1,因此22?/i εδ∑所服从的卡方分布其自由度为N-k-1。

接下来,检验步骤和应该注意的细节就和第二小

节没有差异了,除了所利用的是t 分布而不是标准正态分布。

笔记:

随着自由度趋于无穷大,t 分布渐进于与标准正态分布,

见附录1知识点4。事实上,当自由度趋于无穷大时,1

?()se β在概率上收敛于1

?()sd β(前者是对后者的一致估计),因此,随着自由度趋于无穷大,111

??()/()se βββ-渐进服从于标准正态分布。

前面我们讨论的是简单线性回归模型。事实上相

关结论与检验完全可以被推广到多元线性回归模型:

......011j j k k

y x x x ββββε=++++++ 在该模型下,1

??()/()j j j N k se t βββ---~ 思考题:

一样本其容量为30,建立回归模型:

0112233i i i i i y x x x ββββε=++++

?t β等于-4,请判断在显著水平1%、5%与10%下是否拒绝原假设。

笔记:

通过观察t 分布表可知,给定显著水平,随着自由度的增加,右侧临界值递减。

当自由度为10时,有:

0.050.0250.00510%2Pr[(10)]2Pr[ 1.812];

5%2Pr[(10)]2Pr[ 2.228];1%2Pr[(10)]2Pr[ 3.169].

a t t t a t t t a t t t ==≥=≥==≥=≥==≥=≥

进行回归分析时自由度一般都大于10。如果情况确实如此,那么当你得到一具体的t 值时,你应该能够粗略地判断在多大的显著水平下是否拒绝原假设。

在实践中,我们经常对1

β是否为零的假设感兴趣,显然在假设体系:

0111:0

:0H H ββ=≠

下,此时的t 统计量是11

??/()se ββ。针对特定样本,计量软件一般会自动计算出对应于上述假设体系的t 值。如果原假设被拒绝,那么我们就说在某一种显著水平

上x (所对应的系数估计1

?β)是统计上显著(不为零)

的;如果不能被拒绝,则就说x (所对应的系数估计1

?β)在某一种显著水平上是统计上不显著的。应该注意:

即使1

?β的绝对值很小(即所谓的变量x 无经济显著性或者实际显著性(economic significance/practical significance ),但在统计上,它可能显著地与0不同。 笔记:

在这里我们说1?β是否与零有显著差异,而不是说1

β是否与零有显著差异。1

β是确定性的参数,它要么等于零要么不等于零。

四、 置信区间

在模型01

i i i y x ββε=++下,如果有: /()2)111

??se N -t βββ-~( 则有:11111

/2/2????Pr[()()]1a a t se t se a βββββ-≤≤+=-。我们称 1/211/21

????[(),()]a a t se t se ββββ-+为1β的区间估计量,而1-a 是置信水平。应该注意,当样本并未指定时,1/211/21

????[(),()]a a t se t se ββββ-+是一个随机区间!我们可以说,该随机区间包含真实参数的概率为1-a 。然而,

当样本给定后,1

?β及其1?()se β通过计算已经被获得,那么1/211/21????[(),()]a a t se t se ββββ-+就不再是随机区间

了,该区间要么包含β的真实值要么不包含,故我们不能说,该确定性区间包含真实参数的概率为1-a 。在这种情况下,置信区间其含义在于:在重复抽样中,很多类似的确定性区间将被获得,在这些区间中,大约有百分之100(1-a )的区间将包含1β的真实值。

当原假设01:H βω=为真时,如果根据某一样本所

得到的置信区间并未包含ω,那么小概率事件发生了,因此,我们将拒绝01:H βω=这个原假设。反之,则不拒绝原假设。如此看来,利用置信区间作假设检验本质上是与t 检验等价的。

与区间估计量有联系的一个概念是所谓的区间预

测,见附录2。

思考题:

对于模型01

i i i y x ββε=++,根据一样本,我们得到:10.05110.051

????[(),()][0.23,0.89]t se t se ββββ-+=- (1)试判断变量x 在10%显著水平下是否统计显著。

(2)在假设体系:

0111:4

:4H H ββ=≠

及其10%显著水平下,我们是否拒绝原假设?

五、 F 检验

现在我们把简单线性回归模型扩展为多元线性模

型,例如模型是:

0112233i i i i i y x x x ββββε=++++

如果我们对原假设01122

:;H w w ββ==是否成立感兴趣,我们该怎么办?。

第一步:估计受约束模型:

0112233i i i i i y w x w x x ββε=++++,

或者

1122033i i i i i y w x w x x ββε--=++

估计上述模型得到残差平方和RSS r ;

第二步:估计不受约束模型:

0112233i i i i i y x x x ββββε=++++

得到残差平方和RSS ur ;

第三步:定义F 统计量:

()/()/r ur r ur ur ur

RSS RSS df df F RSS df --= 在 经典线性模型假定假定下及其原假设下,该统计量服从(,)r ur ur F df df df -分布③。在这里,df r 是估计受约束模型时所得到的残差的自由度;df ur 是估计不受约束模型时所得到的残差的自由度。在我们的例子中,

222222/(2);/(4);()/(2)r ur r ur RSS N RSS N RSS RSS δχδχδχ~-~--~ 4)][()/2]/[(2,4)r ur ur N -RSS RSS RSS F N /(∴-~-

()/2/4

r ur ur RSS RSS F RSS N -=- 。 笔记:

OLS 要求残差平方和最小,现在我们得到了两个残差平方

和,即RSSr 与RSSur ,显然RSSr ≥RSSur (回忆第一讲关于局部最优与全局最优的概念),于是,上述对F 的定义满足F ≥0。回忆F 分布的图形,它是在第一象限被定义的。

如果原假设为真,即我们所施加的约束是正确的,那么,尽管RSS r ≥RSS ur ,但RSS r 与RSS ur 应该相差不多,因此,如果相差很大,那么我们就应该怀疑原假设了!由于RSS r 与RSS ur 与被解释变量的测度单位有关,因此,我们把两者的差距除以RSS ur ,以使其“无单位化”。

笔记:

1、尽管RSSr ≥RSSu ,但RSSr 与RSSur 应该相差不多。两个模型中由于被解释变量都是y ,因此TSS 相同。如果RSSr 与RSSur 相差不多,那么这意味着ESSr 与ESSur 应该相差不多。为什么呢?注意到:

2011223320112233??()????()ur r r r i i i i i i

ESS w x w x x y ESS x x x y ββββββ=+++-=+++-∑∑ 当约束为真时,只要估计不是过于的不精确,那么12

??ββ、应该不

会偏离真实参数12w w 、太远;00??r β

β、应该不会偏离真实参数0β太远,33??r ββ、应该不会偏离真实参数3β太远,尽管我们不知道03ββ、的取值是多少。因此当约束为真时ESSr 与ESSur 应该相差不多。

2、为了理解笔记1,在这里提供一个日常生活场景。我通过在你家对面长期观测发现,经常有五个不同的人出入你家,于是我估计你家总人口是5个(由于是长期观察,因此这个估计不会过于不精确)。现在你的一位亲戚告诉我,你家的性别构成是3男3女,于是通过该信息,我直接判断(注意不是估计)你家总人口是6个。我不会怀疑你的亲戚在撒谎,尽管我先前估计的总人口并不是6个,这是因为,你家的一个成员也许在外地上大学从而长期不在家。但如果你的亲戚告诉我,你家的性别构成是5男6女,我将怀疑你的亲戚在撒谎。因为假设你的亲戚未撒谎,那么你家的总人口是11个,这进一步意味着有6个人长期不出入家门,这应当被认为是小概率事件出现了(请问,在上述场景中,无约束估计是什么?有约束估计是什么?有约束估计是否导致估计精度提高?当约束为真时,无约束估计与有约束估计是否相差不大?)。

3、施加约束意味着我们在估计时掌握了更多的先验信息,这一般意味着我们能够得到更精确的估计。但RSSr 竟然大于等于RSSur ,这似乎与上述结论相矛盾。事实上,估计的精度使用率估计量的标准误来恒量的。斜率系数估计量的标准误是1

RSS

N k --的增函数。当施加约束1122w w ββ==、后,RSS 一般来说会增

加(一定不会减少),但应该注意到,在该约束被施加后,待估计参数个数减少了2个,因此

1RSS N k --并不一定增加。特别是当施加约束为真时,RSS 即使增加但也不会增加太多,结果1

RSS N k --很可能是减少的。

4、为什么除以RSS ur 而不是RSS r ?如果除以RSS r ,那么计算所得的F 值会更小,从而更容易不拒绝原假设,即犯第二类错误(取误)的概率增加,因此,为提高检验的势(降低犯第二类错误的概率),在此除以RSS ur 而不是RSS r , 除以RSS ur 相当于“提供一个放大镜,以使我们对原假设更加苛刻,不会轻易相信原假设所告诉的故事”,这不正好体现了科学的怀疑精神吗?”

总而言之,一个直觉是当F 值远大于零时我们应该拒绝原假设。多远才算远?设定临界值(,)r ur ur F df df df a -,当我们依据样本所得到的F 值落在((,),)r ur ur a F df df df -+∞时,我们说“在a 显著水平下拒绝原假设”。

笔记:

1、在经典线性模型假定及其原假设下,2()/r ur RSS RSS δ-与2/ur RSS δ独立吗?只有两者是独立的,我们才能利用附录1知识点5。事实上,当原假设为真时RSSr 与RSSur 应该相差不多,

这并不依赖于RSSur 的取值。因此,直观看来,

2()/r ur RSS RSS δ-与2/ur RSS δ应该是独立的。

相关主题
文本预览
相关文档 最新文档