第三讲 假设检验
一、
经典线性模型假定 对于模型
1
i i i y x ββε=++,利用OLS 有:
112()?()i i i
x x x x εββ-=+
-∑∑
在高斯-马尔科夫假定下,OLS 估计量的抽样分布完全取决于误差项的分布。
在高斯-马尔科夫假定中,我们要求误差项是序列无关与同方差的,现在,我们施加更强的假定,即误差项服从正态分布,即
2(0,)i N δε 。应该注意到,当误差项服从正
态分布时,序列无关与独立性是等价的。因此,我们可以把上述分布假设写为:
..2(0,)i i d
i
N δε
,即误差项服从独立同正态分布。为什么要施加更强的假定呢?这是为
了进行小样本下的假设检验。
2(0,)i N δε 与高斯-马尔科夫假定一起,被称为经典线
性模型假定。在经典线性模型假定下,可以证明,OLS 估计量是方差最小的无偏估计量(注意!此时不需要把比较范围限制在线性估计量之中)。
笔记:
1、假设误差项服从正态分布的合理性在于,误差项是由很多因素构成的,当这些因素是独立同分布时,依照中心极限定理,那么这些因素之和应该近似服从正态分布。当然,这并不意味着用正态分布来近似误差项的分布总是恰当的,例如,各因素或许并不同分布。另外,如果y 是价格这样的变量,那么假设误差项服从正态分布是不合理的,因为价格不可能是负数,不过我们可以进行变量变换,例如对价格取自然对数或者考察价格的变化率,那么经过变量变换之后,或许再假设误差项服从正态分布就变得合理了。
2、如果能够对误差项是否服从正态分布进行检验,那最好不过了。一种常用的检验方法是Jarqe-Bera 检验,这可以参见相关的教科书。问题是,尽管我们能观察到解释变量、被解释变量的取值,然而,由于对参数的真实取值无法确定,因此误差是观测不到的,我们或许不得不利用残差来代替误差以进行相关的检验。当然,一个前提是残差确实是对误差的良好近似,这进而要求,我们对参数的估计是合理的。
3、根据公式:
111221
()()1?()()i i i i i
i
N
x x N x x x x x x εεβββ=?
--=++--∑∑∑∑
考虑x 非随机这种简单情况,显然,当样本容量很大时,只要误差项是独立同分布的(并不
需要要假定误差项服从正态分布),那么根据中心极限定理,1
?β
应该近似服从正态分布。当然,为了保证误差项的独立性,抽样的随机性十分关键。
二、
利用标准正态分布作假设检验
假定
1
i i i y x ββε=++是真实模型,当然我们并不知道各参数的真实值是多
少。但某一经济经济理论预言1βω=。如果你手中掌握一样本,一个问题是,你所掌握
的样本支持这个预言吗?
在
经
典
线
性
模
型
假
定
下
,
11
21?
?(,)N β
ββδ~或者
111
??()/()(0,1)sd N βββ-~①
,其中
1
2
2?2()i
x x β
δδ=
-∑,
1
?()sd β=
练习:确定0
?β
的分布。
现在,假设经济理论的预言是正确的,那么针对特定的样本你将得到标准正态分布图横坐标上的一个点:11
??(
)/()sd βωβ-②
。
现在来考察标准正态分布。在该分布上,存在对称的两点:0.025z 与0.025z -,其
中:
0.0250.025Pr()Pr()0.025Z z Z z ≥=≤-=
如果把概率为5%的事件称为小概率事件,那么,当11
??(
)/()sd βωβ-的取值大于0.025z 或者小于0.025z -时,我们认为小概率事件发生了!小概率事件一般是不容易发生
①
定义1
1
1
??z ()/()sd βββ=-,则z 就是所谓的z 统计量。估计量是用来估计真实参数的,而统计量是用来做统计推断(或者假设检验)的;统计量是随机的,其分布也被称为抽样分布,针对特定样本,我们得到统计量值,它是非随机的。
②
在这里,该式是非随机的,而特别应该注意的是,分子中的1
?β
是估计值,而分母中的1
?β是估计量。估计值的标准差是零!。
的,现在居然发生了,因此,我们应该怀疑上述经济理论所作出的预言。 笔记:
另外一种直觉性的解释:当
1ωβ=这个假设为真时,粗略看来,即使估计值1?β 与ω
完全相等不太可能,但估计值
1
?β 应该接近于ω。然而我们也要注意到,对
1β的估
计还存在精确性问题,这通过
1
?β统计量的标准差体现出来。也就是说,在原假设为真时,即使估计值
1
?β与ω有一定的差异,然而如果
1?()sd β较大,那么出现1
?β与ω的较大
差异也许是正常的。不过总的来看,当原假设为真时,z 统计量值是应该接近于0的,这要么是因为
11??()/()z sd βωβ=-中的分子确实接近于0,要么是因为尽管1
?β与ω有一定的差异,但主要是由
1
?()sd β较大所引起的。当z 统计量值与0具有较大差异时,那么1ωβ=这个假设的真实性是值得怀疑的!
假设检验的正式步骤是:
(1)建立原假设与备择假设:
0111::H H βωβω
=≠
笔记:
原假设与备择假设互斥;假设体系应该是完备的,即原假设与备择假设两者之一必为真,但两者不能同时为真。
(2)确定小概率标准a 。
经常我们把1%、5%或者10%作为小概率标准。对a 更加正式的称呼是“显著水平”。 (3)考察统计量值11
??(
)/()sd βωβ-是否落在拒绝域: /2/2(,][,)a a z z -∞-?+∞之内。
如果落在上述区间之内,那么在a 显著水平上,我们拒绝原假设,接受备择假设;反之,我们不拒绝原假设,拒绝备择假设。 笔记:
1、为什么当统计量值落在拒绝域/2/2(,][,)a a z z -∞-?+∞之外时我们说“不
拒绝原假设”而不是说“接受原假设”?其解释是:我们可以作出很多的原假设,例如
11
βω=或者
12
βω=而我们所计算出来的一些统计量值恰好都落在
/2/2
(,][,)a a
z z -∞-?+∞之
外,难道我们既接受11
βω=也接受
12βω=?显然更恰当的表达方式是,即不拒绝11
βω=也不拒绝12βω=。
2、“接受原假设”没有留有余地,而“不拒绝原假设”表明我们的结论是留有余地的,
即,在另外的原假设下也可能不拒绝12βω=。“接受备择假设”留有余地吗?应该注意
到,备择假设是1
1:H βω
≠,因此,即使说“接受备择假设”,这也是留有余地的。
3、设定1%、5%或者10%为显著水平显得有点随意,为何不设2%、6%、7%等为显著水平呢?是否可以依据一个更一般的标准来进行假设检验?答案是肯定的,我们可以依据一个更一般的标准来进行假设检验!既然我们已经计算出统计量值
11
??()/()z sd βωβ=-,如果z 为正,那么根据正态分布表,我们就能够确定
Pr()
Z z Z z ≥?≤-的值(如果z 值为负,那么我们能够确定
P r ()Z z Z z ≥-?≤的值),我们通常把这个概率值称为伴随概率,简写为P 或者Prob.这个概率值很有用处!例如,假定P 值是0.062,那么,显然,以任何小于6.2%的概率为小概率标准,我们并不拒绝原假设;以任何大于6.2%的概率为小概率标准,我们拒绝原假设。
4、一个总结:在进行双尾检验时,当P 小于给定的显著水平时,那么在给定的显著水平下应该拒绝原假设;反之,则不拒绝原假设。
上述检验都属于双尾检验,即/2/2(,][,)a a z z -∞-?+∞是拒绝域。如果假设
体系是:
0111::H H βωβω
=>
那么在显著水平a 下,拒绝域应该是[,)a z +∞,我们进行的是单侧(尾)检验。为了理解单侧检验,我们回答如下两个问题:
问题一:为什么拒绝域是[,)a z +∞?
答案:当原假设为真时,那么11
??()/()Z
sd βωβ=-应该在0左右不远处;当备
择假设为真时,
1
?β在真实参数1β左右不远处。因此,只要真实参数远大于ω,则
11
??()/()Z sd βωβ=-远大于0是非常可能的,而在这种情况下Z 远小于0则不太可能的。因此,我们把拒绝域设定为[,)a z +∞。当实际计算出的Z 值落在该区间内时,我们拒绝原假设,接受被择假设。
问题二:为什么/2[,)a z -∞-并不是拒绝域?
答案:如果实际计算出的Z 值落在该区间内时我们拒绝了原假设,那么我们更应该拒绝被择假设。因为当备择为真时,实际计算出的Z 值落在该区间内的概率更小。基于假设体系的完备性,故我们不把/2[,)a z -∞-设定为拒绝域。
问题三:为何要设置这样的假设体系?
答案:这依赖于先验的理论与判断。例如,假定1β是某正常商品的消费收入弹性,那么1β不可能为负。我们可以通过建立如下的假设体系:
0111:0:0
H H ββ=>
并基于样本来判断10β=是否为真。
思考题:
在假设体系:
0111::H H βωβω
=≠
下,计量软件包计算出为正的统计量值z ,而且P 值为0.120【注:计量软件包默认的P 值
是双尾的概率,当z 为正时,它计算的是Pr()Z
z Z z ≥?≤-】
。问:在假设体系 0111::H H βωβω
=>
下,以10%为显著水平,我们是否拒绝原假设?
三、 t 检验
虽然在经典线性模型假定下:
111
??()/()(0,1)sd N βββ-~
然而,在1
?()sd β==2
δ
经常是未知的,需要我们
估计。在第二讲时,我们已知道,在高斯马尔可夫假定下,
2
2
??1
1
i
RSS N k N k εδ=
=
----∑是对
2
δ
的一个无偏估计。我们
记
1
?()se β=(注:the standard error,se;the standard deviation,sd )。可以证明,111
??()/()se βββ-服从t(N-2)分布。 证明:
在经典线性模型假定下有:
11111
222
???()/()()/(0,1)?/2)i
sd N N βββββεδχ?
??
?????
-=-~-∑
(112)?()/
[/
t N ββ-- (
化简可得:
111
??()/()2)se t N βββ-- (
笔记:
1、关于随机变量概率分布的知识点见本讲附录1;
2、在经典线性模型假定下可证明
222
?/1)i N k εδχ--∑ (
具体可参见一些较为高级的教科书。另外,根据附录1的知识点,一个服从卡方分布的随机变量其期望值等于自由度,故22
?(/)1i E N k εδ=--∑。实际上在第二讲
我们已经表明2
2
?[
/(1)]i E N k εδ
--=∑,这验证了该知识点。
接下来,检验步骤和应该注意的细节就和第二小节没有差异了,除了所利用的是t 分布
而不是标准正态分布。
笔记:
随着自由度趋于无穷大,t 分布渐进于与标准正态分布,见附录1知识点4。事实上,当自由度趋于无穷大时,
1?()se β在概率上收敛于1
?()sd β【前者是对后者的一致估计】,因此,随着自由度趋于无穷大,111
??(
)/()se βββ-渐进服从于标准正态分布。
前面我们讨论的是简单线性回归模型。事实上相关结论与检验完全可以被推广到多元线性回归模型:
0
11
j j k k
y x x x ββββε
=++++++
在该模型下,1
??()/()j j j N k se t βββ---~
思考题:
一样本其容量为30,建立回归模型:
112233i i i
i
i
y x x x ββββε=++++
?
t β等于-4,请判断在显著水平1%、5%与10%下是否拒绝原假设。
笔记:
通过观察t 分布表可知,给定显著水平,随着自由度的增加,右侧临界值递减。
当自由度为10时,有:
0.050.0250.00510%2Pr[(10)]2Pr[ 1.812];5%2Pr[(10)]2Pr[ 2.228];1%2Pr[(10)]2Pr[ 3.169].
a t t t a t t t a t t t ==≥=≥==≥=≥==≥=≥ 进行回归分析时自由度一般都大于10。如果情况确实如此,那么当你得到一具体的t 值时,你应该能够粗略地判断在多大的显著水平下是否拒绝原假设。
在实践中,我们经常对
1β是否为零的假设感兴趣,显然在假设体系:
0111:0:0
H H ββ=≠
下,此时的t 统计量是
11
??/()se ββ。针对特定样本,计量软件一般会自动计算出对应
于上述假设体系的t 值。如果原假设被拒绝,那么我们就说在某某显著水平上x 是统计上显
著的;如果不能被拒绝,则就说x 在某某显著水平上是统计上不显著的。应该注意:即使1
?β的绝对值很小很小(即所谓的变量x 无经济显著性或者实际显著性(economic
significance/practical significance ),但在统计上,它可能显著地与0不同。
四、
置信区间
在模型
1
i i i y x ββε=++下,如果有:
??/())1
1
1
se t n -k -1βββ-~( 则有:
11111/2/2
????Pr[()()]1a a t se t se a βββββ-≤≤+=-
1/211/21
????((),())a a t se t se ββββ-+被称为1β的区间估计量,而1-a 是置信水平。应该注意,当样本并未指定时,1
/211/21
????((),())a a t se t se ββββ-+是一个随机区间!我们可以说,该随机区间包含真实参数的概率为1-a 。然而,当样本给定后,
1
?β及其1?()se β通过计算已经被获得,那么1/211/21
????((),())a a t se t se ββββ-+就不再是随机区间了,该区间要么包含β的真实值要么不包含,故我们不能说,该确定性区间包含真实参数的概率为1-a 。然而,在重复抽样的情景下,我们可以获得无限多的确定性区间,在这些区间中,有百分之100(1-a )的区间将包含1β的真实值。
当原假设
01:H βω=为真时,如果根据某一样本所得到的置信区间并未包含
ω
,那么小概率事件发生了,因此,我们将拒绝0
1:H βω=这个原假设。反之,则
不拒绝原假设。如此看来,利用置信区间作假设检验本质上是与t 检验等价的。
与区间估计量有联系的一个概念是所谓的区间预测,见附录2。
思考题:
对于模型
1
i i i
y x ββε=++,根据一样本,我们得到:
10.05110.051
????((),())(0.23.0.89)t se t se ββββ-+=- (1)试判断变量x 在10%显著水平下是否统计显著。(2)在假设体系:
0111:4:4
H H ββ=≠及
其10%显著水平下,我们是否拒绝原假设?
五、 F 检验
现在我们把简单线性回归模型扩展为多元线性模型,例如模型是:
112233i i i i i
y x x x ββββε=++++
如果我们对原假设
1
1
2
2
:;H w w
ββ==是否成立感兴趣,我们该怎么办?。
第一步:估计受约束模型:
112233i i i
i
i
y w x w x x ββε=++++,
或者
11220
33i i i
i
i
y w x w x x ββε--=++
估计上述模型得到残差平方和RSS r ; 第二步:估计不受约束模型:
112233i i i
i
i
y x x x ββββε=++++
得到残差平方和RSS ur ; 第三步:定义F 统计量:
()/()
/r ur r ur ur ur
RSS RSS df df F RSS df --=
在 经典线性模型假定假定下及其原假设下,该统计量服从(,)r
ur ur F df df df -分
布③。在这里,df r 是估计受约束模型时所得到的残差的自由度;df ur 是估计不受约束模型时所得到的残差的自由度。在我们的例子中,()/2/4
r ur ur RSS RSS F
RSS N -=
- 。
笔记:
OLS 要求残差平方和最小,现在我们得到了两个残差平方和,即RSSr 与RSSur ,显然RSSr ≥RSSur ,于是,上述对F 的定义满足F ≥0。回忆F 分布的图形,它是在第一象限被定义的。
如果原假设为真,即我们所施加的约束是正确的,那么,尽管RSS r ≥RSS ur ,但RSS r
与RSS ur 应该相差不多,因此,如果相差很大,那么我们就应该怀疑原假设了!由于RSS r 与RSS ur 与被解释变量的测度单位有关,因此,我们把两者的差距除以RSS ur ,以使其“无单位化”。 笔记:
为什么除以RSS ur 而不是RSS r ?如果除以RSS r ,那么计算所得的F 值会更小,从而更容 ③
222
22
2/(2);/(4);()/(2)
r ur r ur RSS N RSS N RSS RSS δχδ
χδ
χ~-~--~ 4)][()/2]/[(2,4)r ur ur N -RSS RSS RSS F N /(∴-~-
易不拒绝原假设,即犯第二类错误(取误)的概率增加,因此,为提高检验的势(降低犯第二类错误的概率),在此除以RSS ur 而不是RSS r , 除以RSS ur 相当于“提供一个放大镜,以使我们对原假设更加苛刻,不会轻易相信原假设所告诉的故事,这不正好体现了科学的怀疑精神吗?”【注:犯第一类错误(弃真)的概率就是显著水平,因此,显著水平越小,则犯第一类错误的概率就越低】
总而言之,一个直觉是当F 值远大于零时我们应该拒绝原假设。多远才算远?设定临界值
(,)
r ur ur F df df df a -,当我们依据样本所得到的F 值落在
((,
),r u r u r a F d f d f d f -
+∞时,我们说“在a 显著水平下拒绝原假设”
。 笔记:
在经典线性模型假定及其原假设下,2()/r ur RSS RSS δ-与2/ur RSS δ独立吗?只有两者是独立的,我们才能利用附录1知识点5。事实上,当原假设为真时,()r ur RSS RSS -趋于0,这并不依赖于RSSur 的取值,因此,直观看来,2()/r ur RSS RSS δ-与2
/ur RSS δ应该是独立的。
同样,当我们依据样本得到
sample
F
值时,我们也能够依据F 分布表计算
P r()sam ple
F F
≥,计量软件包在F 值后所给出的P 值正是这个概率。
笔记:
利用R 2指标,F 统计量还被可以改写为另外一种形式,即所谓的R-平方型。
22
1;1;ur r r ur r ur r ur
RSS RSS R R TSS TSS TSS TSS =-
=-=,因此有:
()/()
/(//)/()
(/)/r ur r ur ur ur
r ur r ur ur ur
RSS RSS df df F RSS df RSS TSS RSS TSS df df RSS TSS df --=--=
222()/()(1)/ur r r ur ur ur
R R df df R df --=- 应该注意到2
2ur r R R ≥,一个直观的理解是,不受约束的样本回归模型由于更具弹性因此
应该拟合得更好。
在实践中,我们也许对原假设
0123:0H βββ===最感兴趣。如果这个假设被
拒绝,那么我们就说x 1、x 2、x 3在统计上是联合显著的;如果不能被拒绝,则就说x 1、x 2、
x 3在统计上是联合不显著的。针对特定样本,计量软件一般会自动计算出对应于上述假设的F 值。
练习:
1、估计模型
011...i i i k ki
y x x βββε=++++并获得R 2
,针对原假设
...01:0
k H ββ===,请推导出R-平方型的F 统计量:
22
/(1)/(1)
R k R N k ---。 2、如果利用F 统计量检验原假设
012:...0k H βββ====,证明有关系:
21
11N N k kF
R ---+=-
笔记:
根据在原假设
...01:0k H ββ===下的R-平方型F 统计量表达式可知,此时
的F 检验实际上也是检验R 2
是否显著不为0。 六、 t 检验与F 检验的联系与区别 (一) 联系 对于模型:
0
11
j j k k
y x x x ββββε
=++++++
现在我们对假设0j β=进行检验,首选检验方法是t 检验,不过F 检验也是可行的。可
以证明,此时
2?j
t F
β=。
为简单计,考虑简单模型0
1
i i i y x ββε=++,我们对1β是否为0感兴趣。
一方面可以进行t 检验:
1?/
1
?t
ββ
=另一方面也可以进行F 检验:
()/()()/1//2/2
r ur r ur ur ur
ur ur ur ur RSS RSS df df TSS RSS ESS F RSS df RSS N RSS N ---=
==
--
笔记:
此时受约束模型是:
i i y βε=+,根据第一讲相关知识点,0?y β
=。因此,
22
?()()r i i i RSS y y y y TSS
=
-=-=∑∑
接下来我们阐述证明
1
2?t F
β
=的思路。我们实际上需要证明的是:
221?()ur i x x ESS β-=∑
是否成立。由于
2ur
ur
ESS R TSS
=,故需证明
2212?()i
ur ur x x ESS TSS
TSS
R β-==∑是否成立。注意到:
22
221
222()()?()[]()()[()()]
()i i i i i
i i i
x x y y x x x x x x x x y y x x β
---=----=
-∑∑∑∑∑∑
因此,
2212
2
2
?()[()()]()()i i i i i x x TSS
x x y y x x y y β=
----
-
∑
∑∑∑,而
2
22[()()]()()i i i i
x x y y x x y y ----∑∑∑是x 与y 的样本相关系数的平方,按照第二讲关于
R 2的相关结论,它与
2ur
R 相等。
我们所证明的关系
2?j
t F
β
=是一个代数关系,问题是
2
?j
t β
服从F 分布吗?根据
附录1知识点4与5,一个服从t(m)分布的随机变量其平方一定服从F(1,m)分布,进而有:
2
2
2
2/2/2
?
?
()()()Pr[
]Pr[
1,]
a a a t t a m m F m t t t βββ≥?
≤==≥因此F 检验与t 检验将得到完全相同的检验结论。
笔记:
上述结论的一个应用。对于模型
011...i i i k ki y x x βββε=++++,通过前
面的练习,我们知道
21
11N N k k F
R ---+=-
。现在考虑简单模型:
011i i i y x ββε=++,则根据前面的结论有:1
2?
2121N N t R β--+=-
,显然,如
果
1
?
1t β>,则2
0R >。注意到对模型:
i i y βε=+,其调整的判定系数等于0(作
为一个练习请证明)。011i
i i y
x ββε=++与0i i y βε=+相比较,前者增加了一
个解释变量,因此,其判定系数将大于等于后者的判定系数。然而,只有当
1
?
1t β>时,前
者的调整的判定系数才会大于后者的调整的判定系数。这个结论可以推广:在初始的线性模型上增加解释变量,只有所增加变量所对应的t 值其绝对值大于1时(在计算该t 值时所对应的原假设是真实系数为0),调整的判定系数才会增加(应该注意到,t 值的绝对值大于1并不意味着变量一定是显著的)。
(二) 区别
t 检验关注的单个参数的取值问题,如果需要同时关注多个参数的取值问题,那么此时我们应该利用F 检验。
对于模型:
112233i i i
i
i
y x x x ββββε=++++
在实践中,我们一方面可能对
0j β=是否成立感兴趣,即关注单个解释变量的显著性,
此时用到的是t 检验;另一方面,我们也可能对
1230βββ===是否成立感兴趣,
即关注所有解释变量的联合显著性,此时用到的是F 检验。应该注意到,根据此时的R-平方型F 统计量表达式可知,我们实际上是在检验R 2是否显著不为0,因此,关注所有解释变量的联合显著性即关注整个模型的拟合程度。
特别要注意的是,单个变量显著并不意味着变量联合显著,反之亦然。
笔记:
与生活中的一种现象进行类比:一种药品包含两种成份,其中任何一种成份单独看来其药性都很强,但联合时使用时可能并无药效;另外一种情况是,其中任何一种成份单独看来其药性都很弱,但联合时使用时药品的药效可能很大。
七、补充知识点:相关系数的假设检验
(一)简单相关系数的假设检验
我们想判断随机变量x 与y 的简单相关系数r 是否为零。按照Fisher ,在假设体系:
01:0:0
H r H r =≠
下,当原假设为真时,(2)r t
t n =
- 【注:sam ple r 是样本相关
系数】,现在我们考虑另外一种思路。建立回归模型:01y x ββε
=++,再考察1
?β是否与0有显著差异。
1
1
?2
?22(1)/(2)sam ple t F t R R n r ββ
==
==--∴
上面最后一个等式之所以成立,首先是因为在简单线性回归模型中,
2R 等于y 与x 的样
本简单相关系数的平方,其次是因为当sam ple r 小于零时,1?β是负数,因此t 值为正数;当sam ple r 大于零时,1
?β是正数,因此t 值为正数。 总的来看,Fisher 的方法与回归检验方法等价。换句话说,如果你试图依据样本判断随机变量x 与y 的简单相关系数r 是否为零,你可以建立简单线性回归模型然后对斜率系数进
行t 检验,如果1
?β与0有显著差异,则可以拒绝r 为0的原假设。 (二)偏相关系数的假设检验
x 1与x 2的简单相关可能是由于两变量分别与x 3相关造成的。在控制了x 3之后,x 1与x 2还具有相关性吗?在控制了x 3之后,x 1与x 2的相关关系被称为偏相关,记为123.x x x r 。如
何计算样本偏相关系数
12
3
.sam ple
x x x r ?
步骤: 第一步:把
1x 对3x 进行回归有:
1023???i i i
x x v ββ=++ (1)
第二步:把2x 对
3x 进行回归,即有:
2023???i i i x x w ??=++ (2)
第三步:计算
?
v 与
?
ω的样本简单相关系数,有
:
??
123
.()()??????w v sam ple
sam ple
x x x w
w v v w
v r
r
--=
=
=
当然我们还可以利用变量间的样本简单相关系数来计样本偏相关系数,这是因为存在关系:
1 2.3
sam ple
sam ple
sam ple
sam ple x x x r r r r
-=
,其证明见附录3。
我们还能检验
12
3
.sam ple
x x x r 是否与0有显著差异。
方法是对回归模型:??i i i w e v η=+(注:不含截距,当然你可以包含截距,但你会发现,截距的估计结果肯定为0,这是因为
?w 与?v 其均值都为零,而基于简单线性回归截距估计量的公式,这意味着截距估计量为
0),在原假设
0η=下进行t 检验。值得注意的是,此时自由度应该是(N-2)-1=N-3而不
是N-1!这是因为
?w 与?v 的自由度是N-2。
利用上述检验方法来检验x 1与x 2的偏相关关系显得太复杂了,事实上基于回归模型:
11223i i i i x a b x b x ε=+++,在原假设01:0H b =下进行t 检验即可检验x 1
与x 2的偏相关关系。为什么呢?因为b 1就是控制了x 3后x 2对x 1的影响(在第六讲,我们将证明
1
??b η=)。
(二)复相关系数的假设检验
x 1与(x 2,x 3)的相关关系被称为复相关,记为R 。如何计算样本复相关系数sample R ?基于回归模型:11223i i
i i x
a b x b x ε=+++,计算1
x 与1?x 的样本简单相关系数,
并取绝对值,则得到x 1与(x 2,x 3)的样本复相关系数。根据第一讲,1x 与1?x 的样本简
单相关系数的平方就是上述回归的判定系数R 2。 基于回归模型:
11223i i i i x a b x b x ε=+++在原假设012:0
H b b ==下进行F 检验,则等价于检验原假设:复相关系数R=0。回忆一下,在原假设
012:0H b b ==下,22/2(1)/(21)
R F R N =
---,当判定系数R 2
=0时,F=0。 笔记:
对于回归模型:11223i i
i i x
a b x b x ε=+++,在原假设012:0
H b b ==下进行F 检验实际上是检验x 1与(x 2,x 3)的复相关关系;在原假设0
1:0H b =下进行t
检验实际上是检验x 1与x 2的偏相关关系(控制了x 3)。
附录1:正态分布、卡方分布、t 分布与F 分布
1. X 是期望值为u ,标准差为δ的随机变量,则X 所服从分布的偏度与峰度分别被定义为3
4
3
4
()
()
;E X u E X u S K δ
δ
--=
=
2. 如果2(,)X N u δ~,则0,3S K ==。另外,当j 是奇数时,()0j E X u -=
3. ..22
1
(0,1)()n
i i d
i i
i z N z
n χ=~?
~∑,则
2
221
1
2
22222
1
11
42
2
2
2
4
2
11
42
1
1
(())()()()(())()()[()]
[()2()](12]
()2()322n
n
i
i
i i i n
n
n
i
i
i i i i i n
n
i
i i i i i i i n
n
i
i i i E n E z E z
nV ar z n
V ar n V ar z V ar z E z E z E z
E z z E z E z z E z
n E z n n n n
χχ===========
====
=-=+-=+-=
+-=+-=∑∑∑∑∑∑∑∑∑
4.
2
(0,1)()n z N t t y n χ~?
?=~?~?
222()1,(),lim ()0,lim 1,(0,1)n y y n y y E Var Var p n N n n n n n n
→∞====∴=∴→∞ 当时t 渐进分布于。
5. 22
1122,n n y y χχ~~, 且两者独立,则111222
/(,)/y n F F n n y n =
~
2
2
2
/1(1,)/z t F n y n
==
~。另外,当2n →∞时,1n F 渐进分布于12
n χ。
附录2: 区间预测
假定真实模型是:
01y x ββε
=++,模型满足经典线性模型假定。以
01???f f
y x ββ=+作为对y f 的预测。此时预测误差是:
10011???()()f f f
f
e y y x ββββε=-=-+-+
显然,E(e 1
)=0,2
2
12
)()[1](1()
f i Var e x x N
x x δ=+
+--∑(参见第二讲补充
知识点2),e 1服从正态分布。即
111111?()(0,1)()
()
()
f f y y e E e e N Sd e Sd e Sd e --=
=
~
/2/21?Pr ()1()
f f a a y y ob z z a Sd e --≤
≤=-
因此,在置信水平a 下,对f y 的区间预测是:
/21/21??[(),()]a f a f z Sd e y
z Sd e y -++ 与上述过程类似,我们可以得到E(y f )的区间预测。 一个问题是,我们经常需要对2
δ进行估计。换句话说,我们不知Sd(e 1),但我们可以获得
对它的估计Se(e 1)。
(
)1?Se e δδ
==
由于
1?(0,1)()
f f y y N Sd e -~,22
2
1
?/1)N
i i N k εδ
χ=~--∑(
)?()/()1y y
Sd e t N k -~--(
即,
1?(1)()
f f y y t N k Se e -~--
因此,在置信水平a 下,对f y 的区间预测是:
/21/21??[(),()]a f a f t Se e y
t Se e y -++ 与上述过程类似,我们也可以利用t 分布重新构建对E(y f )的区间预测。
附录3
:证明
1 2.3
sam ple
sam ple
sam ple
sam ple x x x r r r r
-=
证明:
基于OLS 代数有: 112
2
,
,(
)()()(),,
1
0232122
2023
2333
323()(()
(
)
((((((?????,??)
)
????)))????))
?C ov C ov Var C ov Var Var Var Var Var Var C ov Var C ov Var x x v x v x x x x w x w x x x w x x x x νββββ????
=+=+=
=++=++=+故
??
,,,
,,1213323()(()()()
((((???))))w v sam ple C ov Var C ov C ov C ov C ov Var Var Var x x x x x x x x x x x x r β?=
=
=
--
,
,(())C ov C ov x x x x =
sam ple
sam ple
sam ple
=
=
按照判定系数的定义,1
(
)/()1?Var Var x x 与2
2
()/(
)?Var Var x
x
分别是回归
(1)与回归(2)的判定系数。而在简单线性回归中,判定系数等于被解释变量与解释变量(样本)简单相关系数的平方,因此有:
1 2.3
sam ple
sam ple
sam ple
sam ple x x x r r r r
-=
计量经济学题库 一、单项选择题(每小题1分) 1.计量经济学是下列哪门学科的分支学科()。 A.统计学 B.数学 C.经济学 D.数理统计学 2.计量经济学成为一门独立学科的标志是()。 A.1930年世界计量经济学会成立B.1933年《计量经济学》会刊出版 C.1969年诺贝尔经济学奖设立 D.1926年计量经济学(Economics)一词构造出来 3.外生变量和滞后变量统称为()。 A.控制变量 B.解释变量 C.被解释变量 D.前定变量 4.横截面数据是指()。 A.同一时点上不同统计单位相同统计指标组成的数据B.同一时点上相同统计单位相同统计指标组成的数据 C.同一时点上相同统计单位不同统计指标组成的数据D.同一时点上不同统计单位不同统计指标组成的数据 5.同一统计指标,同一统计单位按时间顺序记录形成的数据列是()。 A.时期数据 B.混合数据 C.时间序列数据 D.横截面数据 6.在计量经济模型中,由模型系统内部因素决定,表现为具有一定的概率分布的随机变量,其数值受模型中其他变量影响的变量是()。 A.内生变量 B.外生变量 C.滞后变量 D.前定变量 7.描述微观主体经济活动中的变量关系的计量经济模型是()。 A.微观计量经济模型 B.宏观计量经济模型 C.理论计量经济模型 D.应用计量经济模型 8.经济计量模型的被解释变量一定是()。 A.控制变量 B.政策变量 C.内生变量 D.外生变量 9.下面属于横截面数据的是()。 A.1991-2003年各年某地区20个乡镇企业的平均工业产值 B.1991-2003年各年某地区20个乡镇企业各镇的工业产值 C.某年某地区20个乡镇工业产值的合计数 D.某年某地区20个乡镇各镇的工业产值 10.经济计量分析工作的基本步骤是()。 A.设定理论模型→收集样本资料→估计模型参数→检验模型B.设定模型→估计参数→检验模型→应用模型 C.个体设计→总体估计→估计模型→应用模型D.确定模型导向→确定变量及方程式→估计模型→应用模型 11.将内生变量的前期值作解释变量,这样的变量称为()。 A.虚拟变量 B.控制变量 C.政策变量 D.滞后变量 12.()是具有一定概率分布的随机变量,它的数值由模型本身决定。 A.外生变量 B.内生变量 C.前定变量 D.滞后变量 13.同一统计指标按时间顺序记录的数据列称为()。 A.横截面数据 B.时间序列数据 C.修匀数据 D.原始数据 14.计量经济模型的基本应用领域有()。 A.结构分析、经济预测、政策评价 B.弹性分析、乘数分析、政策模拟 C.消费需求分析、生产技术分析、 D.季度分析、年度分析、中长期分析 15.变量之间的关系可以分为两大类,它们是()。 A.函数关系与相关关系B.线性相关关系和非线性相关关系 C.正相关关系和负相关关系D.简单相关关系和复杂相关关系 16.相关关系是指()。 A.变量间的非独立关系B.变量间的因果关系C.变量间的函数关系 D.变量间不确定性的依存关系17.进行相关分析时的两个变量()。
计量经济学(庞浩)第二版第十一章练习题及参考解答 11.1 考虑以下凯恩斯收入决定模型: βββββ-=++=+++=++1011120212212t t t t t t t t t t t C Y u I Y Y u Y C I G 其中,C =消费支出,I =投资指出,Y =收入,G =政府支出;t G 和1t Y -是前定变量。 (1)导出模型的简化型方程并判定上述方程中哪些是可识别的(恰好或过度)。 (2)你将用什么方法估计过度可识别方程和恰好可识别方程中的参数。 练习题11.1参考解答: 1011120212212112122112102012221112111211121112110111121(1)1 1111t t t t t t t t t t t t t t t t t t t t t t t Y C I G Y u Y Y u G Y Y Y G u u u u Y Y G Y G v βββββββββββββββββββπππ----=++=+++++++=++++++++=+++ --------=+++ 102012221011111121112111211121 1011211110201122 111211121 111211111211121101021112011 ()1111(1)()11()111t t t t t t t t t t t u u C Y G u Y u u G u βββββββββββββββββββββββββββββββββββββ--++=+++++----------++= ++ ----++++-----+=-11212111122111121112111211121 20211222111t t t t t t t t u u u Y G Y G v ββββββββββββπππ--+-+++-------=+++ 10201222202111121112111211121 2212201121211020212221 1112111211121 211222********* 1 () 1111(1)()111()11t t t t t t t t t t t t u u I Y G Y u Y G u u Y βββββββββββββββββββββββββββββββββββ----++=++++--------++--++= +++ ------++++----220201120211021202122211112111211121 211211222 1112111213031132311111t t t t t t t t t t u Y G u u u Y Y G v ββββββββββββββββββββββββπππ-----++=+++ ------+-++----=+++
第六章 1、答:给定显著水平α,依据样本容量n和解释变量个数k’,查D.W.表得d统计量的上界 du和下界dL,当0 计量经济学讲义共十讲文档编制序号:[KKIDT-LLE0828-LLETD298-POI08] 第一讲 普通最小二乘法的代数 一、 问题 假定y 与x 具有近似的线性关系:01y x ββε=++,其中ε是随机误差项。我们对01ββ、这两个参数的值一无所知。我们的任务是利用样本数据去猜测01ββ、的取值。现在,我们手中就有一个样本容量为N 的样本,其观测值是:1122(,),(,),...,(,)N N y x y x y x 。问题是,如何利用该样本来猜测01ββ、的取值 为了回答上述问题,我们可以首先画出这些观察值的散点图(横轴x ,纵轴y )。既然y 与x 具有近似的线性关 系,那么我们就在图中拟合一条直线:01 ???y x ββ=+。该直线是对y 与x 的真实关系的近似,而0 1 ??,β β分别是对01 ,ββ的猜测(估计)。问题是,如何确定0?β与1 ?β,以使我们的猜测看起来是合理的呢 笔记: 1、为什么要假定y 与x 的关系是0 1y x ββε=++呢一种合理的解释 是,某一经济学理论认为x 与y 具有线性的因果关系。该理论在讨论x 与y 的关系时认为影响y 的其他因素是不重要的,这些因素对y 的影响即为模型中的误差项。 2、0 1y x ββε=++被称为总体回归模型。由该模型有: 01E()E()y x x x ββε=++。既然ε代表其他不重要因素对y 的影 响,因此标准假定是:E()0x ε=。故进而有: 01E()y x x ββ=+,这被称为总体回归方程(函数),而 01 ???y x ββ=+相应地被称为样本回归方程。由样本回归方程确定的?y 与y 是有差异的,?y y -被称为残差?ε。进而有:0 1 ???y x ββε=++,这被称为样本回归模型。 二、 两种思考方法 法一: 12(,,...,)N y y y '与12???(,,...,)N y y y '是N 维空间的两点,0 ?β与1 ?β的选择应该是这两点的距离最短。这可以归结为求解一个数学问题: 由于?i i y y -是残差?i ε的定义,因此上述获得0?β与1 ?β的方法即是0 ?β 与1 ?β的值应该使残差平方和最小。 法二: 给定i x ,看起来i y 与?i y 越近越好(最近距离是0)。然而,当你选择拟合直线使得i y 与?i y 是相当近的时候,j y 与?j y 的距离也许变远了,因此存在一个权衡。一种简单的权衡方式是,给定12,,..,N x x x ,拟合直线的选择应该使1y 与 2?y 、2y 与2?y 、...、N y 与?N y 的距离的平均值是最小的。距离是一个绝对值,数学处理较为麻烦,因此,我们把第二种思考方法转化求解数学问题: 由于N 为常数,因此法一与法二对于求解0?β与1 ?β的值是无差异的。 三、 求解 第11章 OLS 用于时间序列数据的其他问题11.1复习笔记 一、平稳和弱相关时间序列 1.平稳和非平稳时间序列 平稳时间序列过程,就是概率分布在如下意义上跨时期稳定的时间序列过程:如果从这个序列中任取一个随机变量集,并把这个序列向前移动h 个时期,那么其联合概率分布仍然保持不变。 (1)平稳随机过程 对于随机过程{ 1 2 }t x t =:,,…,如果对于每一个时间指标集121m t t t ≤<??<和任意整数h≥1,()12m t t t x x x ???,,,的联合分布都与() 12 m t h t h t h x x x ++???+,,,的联合分布相同,那么这个随机过程就是平稳的。这种平稳经常称为严平稳,它是从概率分布的角度去定义的。其含义之一是(取m=1和t 1=1):对所有t=2,3,…,x 1与x t 都有相同的分布。序列{ 1 2 }t x t =:,,…是同分布的。 不平稳的随机过程称为非平稳过程。因为平稳性是潜在随机过程而非其某单个实现的性质,所以很难判断所搜集到的数据是否由一个平稳过程生成。但是,要指出某些序列不是平稳的却很容易。 (2)协方差平稳过程(宽平稳,弱平稳) 对于一个具有有限二阶矩()2t E x ??∞??<的随机过程{ 1 2 }t x t =:, ,…,若:(i)E(x t )为常数;(ii)Var(x t )为常数;(iii)对任何t,h≥1,Cov(x t ,x t+h )仅取决于h,而不取决于t,那它就是协方差平稳的。 协方差平稳只考虑随机过程的前两阶矩:这个过程的均值和方差不随着时间而变化,而且,x t 和x t+h 的协方差只取决于这两项之间的距离h,与起始时期t 的位置无关。由此立即可知x t 与x t+h 之间的相关性也只取决于h。 如果一个平稳过程具有有限二阶矩,那么它一定是协方差平稳的,但反过来未必正确。由于严平稳的条件比较苛刻,在实际中从概率分布的角度去验证是无法实现的,所以在实际运用中所指的平稳都是指宽平稳,即协方差平稳。一个时间序列是严平稳的不一定是宽平稳,只有当它的二阶矩存在时,才是宽平稳。 2.弱相关时间序列 (1)弱相关 对于一个平稳时间序列过程{ 1 2 }t x t =:,,…,若随着h 无限增大,x t 和x t+h “近乎独立”,则称之为弱相关的。 对于协方差平稳序列,可以用相关系数来刻画弱相关:如果随着h →∞,x t 和x t+h 之间的相关系数“足够快”地趋于0,这个协方差平稳的时间序列就是弱相关的。换言之,随着变量在时间上的距离变大,它们之间的相关系数变得越来越小。随着h →∞,()Corr 0t t h x x →+,的协方差平稳序列被称为渐近无关的。 (2)弱相关对回归分析重要的原因 本质上,它取代了能使大数定律(LLN)和中心极限定理(CLT)成立的随机抽样假定。对于时间序列数据,中心极限定理要求平稳性和某种形式的弱相关,因此,在多元回归分析中使用平稳而又弱相关的时间序列最为理想。 (3)弱相关时间序列的例子 ①独立同分布序列:一个独立序列无疑是弱相关序列。 第一讲 普通最小二乘法的代数 一、 问题 假定y 与x 具有近似的线性关系:01y x ββε=++,其中ε是随机误差项。我们对01ββ、这两个参数的值一无所知。我们的任务是利用样本数据去猜测01ββ、的取值。现在,我们手中就有一个样本容量为N 的样本,其观测值是:1122(,),(,),...,(,)N N y x y x y x 。问题是,如何利用该样本来猜测01ββ、的取值? 为了回答上述问题,我们可以首先画出这些观察值的散点图(横轴x ,纵轴y )。既然y 与x 具有近似的线性关系,那么我们就在图中拟合一条直线: 1 ???y x ββ=+。该直线是对y 与x 的真实关系的近似,而01??,ββ分别是对01 ,ββ的猜测(估计)。问题是,如何确定0 ?β 与1 ?β,以使我们的猜测看起来是合理的呢? 笔记: 1、为什么要假定y 与x 的关系是0 1y x ββε=++呢?一种合 理的解释是,某一经济学理论认为x 与y 具有线性的因果关系。该理论在讨论x 与y 的关系时认为影响y 的其他因素是不重要的,这些因素对y 的影响即为模型中的误差项。 2、 01y x ββε=++被称为总体回归模型。由该模型有: 01E()E()y x x x ββε=++。既然ε代表其他不重要因素对y 的影响,因此标准假定是:E()0x ε=。故进而有: 01E()y x x ββ=+,这被称为总体回归方程(函数),而01 ???y x ββ=+相应地被称为样本回归方程。由样本回归方程确定的 ?y 与y 是有差异的,?y y -被称为残差?ε。进而有:01 ???y x ββε=++,这被称为样本回归模型。 二、 两种思考方法 法一: 12(,,...,)N y y y '与12???(,,...,)N y y y '是N 维空间的两点,0 ?β 与1 ?β的选择应该是这两点的距离最短。这可以归结为求解一个数学问题: 01012201????,,11 ???()()N N i i i i i i Min y y Min y x ββββββ==-=--∑∑ 由于?i i y y -是残差?i ε的定义,因此上述获得0 ?β与1?β的方法即是0 ?β 与1 ?β的值应该使残差平方和最小。 法二: 给定i x ,看起来i y 与?i y 越近越好(最近距离是0)。然而,当你选择拟合直线使得i y 与?i y 是相当近的时候,j y 与?j y 的距离也许变远了,因此存在一个权衡。一种简单的权衡方式是,给定12,,..,N x x x ,拟合直线的选择 应该使1y 与2?y 、2y 与2?y 、...、N y 与?N y 的距离的平均值是最小的。距离是一个绝对值,数学处理较为麻烦, 第六讲 多重共线 一、 FWL 定理及其应用 考虑模型: 112233i i i i i y a b x b x b x ε=++++ (1) 假如我们只关注 1 ?b ,则通过如下步骤可以获得之。 第1步:把 1x 对其他解释变量进行回归(请注意,截距所对应的解释变量为1) ,即有: 101223????i i i i x x x v βββ=+++ (2) 第2步:把 y 也对(2)中的解释变量进行回归,即有: 01223????i i i i y x x w ???=+++ (3) 第3步:把 ?w 对?v 进行回归(不含截距,当然你可以包含截距,但你会发现,截距 的估计结果是零,这是因为?w 与?v 其均值都为零) ,即有模型: ??i i i v e w η=+ (4) 则有:2????i i i w v v η=∑∑,可以验证,1??b η=,且残差?i e 等于初始的残差?i ε。此即著名的FWL 定理(Frisch-Waugh-Lovell theorem )。关于FWL 定理的一个简单证明见附录1。思考题: 利用关于“偏导数”的直觉,你能够理解 1 ??b η=吗? 考察2????i i i w v v η=∑∑,把01223????i i i i y x x w ? ??=---代入,现在分子是: 2012230123????()?????????i i i i i i i i i i i v x i i y x x y v x v v v w v ??????------∑∑∑==∑∑∑ 应该注意到,在进行第一步回归时,OLS 法保证了 203???i i i i i v x x v v ===∑∑∑ 因此,22??????i i i i i i w v y v v v η== ∑∑∑∑ 显然,如果把 y 对?v 直接进行无截距回归: *?i i i y v η? =+ (5) 我们也可以得到: *122???????i i i i i i y v w v b v v η η====∑∑∑∑。 因此,如果只关注如何获得1 ?b ,我们可以把FWL 定理中第二步与第三步合并为把y 对 ? v 直接进行无截距回归。 思考题: ?i ?与?i e 相等吗?提示: ???????i i i e v i i i w y v η ?η--== 注意到, 2?i v ∑是(2)中的残差平方和,对(2),有: 22211 11 ()()??i i i x x x x v TSS ESS RSS -=-+↓↓↓∑∑∑ 计量经济学讲义 第四讲 趋势和DF 检验(修订版) 此翻译稿制作学习之用,如有错误之处,文责自负。 趋势平稳序列(TS )(图1和2) 一个趋势平稳序列绕着一个确定的趋势(序列的均值),其波动幅度不显示增大或者减小的趋势。 线性确定性趋势: t t t y εβα++= ),0(~2 σεiid t t=1,2,… 平方确定性趋势: t t t t y εγβα+++=2 ),0(~2 σεiid t t=1,2,… 通常: t t t f y ε+=)( ),0(~2 σεiid t t=1,2,… 均值是是随时间变化的(川),但是方差是常数。t ε可以为任意平稳序列,也就是说,不一定要是白噪声过程。 通过拟合一个确定的多项式时间趋势,趋势可以来消除:拟合趋势后残差将给出一个去趋势的序列。 一个带线性确定性趋势AR (1)过程可以写作: t 1-t 1t )1)-t (y (t y εβαφβα+--=-- ),0(~2 σεiid t t=1,2,… 此处确定性趋势被t y 减去。然而在实践中,α、β是未知的而且必须估计出来。于是模型可以被重述为: t 1-t 1111t y t )1()1(y εφβφβφαφ++-++-= 其中包含一个截距和一个趋势,也就是 t 1-t 1* *t y t y εφβα+++= 此处 βφαφα11*)1(+-= 且 βφβ)1(1* -= 若1||1<φ,那么此AR 过程就是围绕一个确定性趋势的平稳过程. 差分平稳序列(DF )(也叫单整序列)和随机性趋势 如果一个非平稳序列可以由一个平稳序列通过d 次差分得到,那么我们说这个序列就是d 阶单整的,写做I (d ).这一过程也因此叫做差分平稳过程(DSP ). 因此,平稳序列就是零阶单整的,I (0)。白噪声序列是I (0)。 所以如果序列t d t y w ?=是平稳的,那么t y 就是I (d )。?是差分算子,即 等等2-t 1-t t 2-t 1-t 1-t t 1-t t t t 21-t t t y 2y y )y y ()y y ()y y (y y ,y y y +-=---=-?=??=?-=? 如果序列 1-t t t t y y y w -=?= 是平稳的话,t y 是I (1); 如果序列2-t 1-t t t 2 t y 2y y y w +-=?= 是平稳的,t y 是I (2), 1 根据1961年到1985年期间美国个人消费支出和个人可支配收入数据,得到如下的回归模型: ()() () 8755 .0.9979 .06933.22936.702392.20925.088544.04664.49?232==-=++-=W D R t X X Y t t t 其中:=Y 个人消费支出(1982年10亿美元),=2X 个人可支配收入(PDI )(1982年10亿美元),=3X 道.琼斯工业平均指数。0.946, 1.543L U d d == (1)在回归方程的残差中存在一阶自相关吗?你是如何知道的。 (2)利用杜宾两阶段回归,将上述回归模型进行转换,重新进行回归,结果如下: ()() 28 .2.981 .066.272.3009.089.097.17?2*3*2*===++-=W D R t X X Y t t t 自相关问题解决了吗?你是如何知道的? (3)比较初始回归和变换后的回归,PDI 的t 值急剧下降,这一变化说明了什么? (4)初始方程的2 0.9979R =大于变换后的方程2 0.981R =,因此,初始方程的解释能力比变换后的方程的解释能力强,这种说法是否正确,为什么? 1)存在。因为0.946, 1.543L U d d ==,0.87550.946<,所以存在正相关。 2)自相关问题已经解决。因为0.946, 1.543L U d d ==,1.543 2.284 1.543<<-, 所以不存在自相关。 3)这一变化说明,初始回归方程中,由于存在自相关,使得PDI 的方差被高估了。 4)这种说法不正确。因为被解释变量不同。 2.下面是一个回归模型的检验结果。 White Heteroskedasticity Test: F-statistic 19.41659 Probability 0.000022 Obs*R-squared 16.01986 Probability 0.006788 Test Equation: Dependent Variable: RESID^2 Method: Least Squares Date: 05/31/06 Time: 10:54 Sample: 1 18 Included observations: 18 Variable Coefficient Std. Error t-Statistic Prob. 选择题(单选题1-10 每题1 分,多选题11-15 每题2 分,共20 分) 1、在多元线性回归中,判定系数R2随着解释变量数目的增加而 B A.减少 B.增加 C.不变 D.变化不定 2、在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近1,则表明模型中 存在 C A.异方差性 B.序列相关 C.多重共线性 D.拟合优度低 3、经济计量模型是指 D A.投入产出模型 B.数学规划模 C.模糊数学模型 D.包含随机方程的经济数学模型 4、当质的因素引进经济计量模型时,需要使用 D A.外生变量 B.前定变量 C.生变量 D.虚拟变量 5、将生变量的前期值作解释变量,这样的变量称为 D A.虚拟变量 B.控制变量 C.政策变量 D.滞后变量 6、根据样本资料已估计得出人均消费支出Y对人均收入X的回归模型Ln Y=5+0.75LnX,这表明 人均收入每增加1%,人均消费支出将预期增加 B A.0.2% B.0.75% C.5% D.7.5% 7、对样本相关系数r,以下结论中错误的是 D A.越接近于1,Y与X之间线性相关程度越高 B.越接 近于0,Y与X之间线性相关程度越弱 C.-1≤r≤1 D.若r=0,则X与Y独立 8、当DW>4-d L,则认为随机误差项εi A.不存在一阶负自相关 B.无一阶序列相关 C.存在一阶正自相关D.存在一阶负自相关 9、如果回归模型包含二个质的因素,且每个因素有两种特征,则回归模型中需要引入 A.一个虚拟变量B.两个虚拟变量 C.三个虚拟变量 D.四个虚拟变量 10、线性回归模型中,检验H0: i =0(i=1,2,…,k) 时,所用的统计量t ?i 服从 var(?i ) A.t(n-k+1) B.t(n-k-2) C.t(n-k-1) D.t(n-k+2) 11、对于经典的线性回归模型,各回归系数的普通最小二乘法估计量具有的优良特性有ABC A.无偏性 B.有效性 C.一致性 D.确定性 E.线性特性 12、经济计量模型主要应用于ABCD A.经济预测 B.经济结构分析 C.评价经济政策 D.政策模拟 13、常用的检验异方差性的方法有ABC、 A.戈里瑟检验 B.戈德菲尔德-匡特检验 C.怀特检验 D.DW检验 E.方差膨胀因子检测 14、对分布滞后模型直接采用普通最小二乘法估计参数时,会遇到的困难有BCE A.不能有效提高模型的拟合优度 B.难以客观确定滞后期的长度 C.滞后期长而样本小时缺乏足够自由度 D.滞后的解释变量存在序列相关问题 E.解释变量间存在多重共线性问题 《中级计量经济学》 蒋岳祥 第一章引言 1.1什么是计量经济学? 计量经济学是由挪威经济学家R.Fisher在三十年代首先创立的一门学科,是关于运用统计方法测量经济关系的艺术与科学,已经成为现代经济学的重要组成部分之一。 如果要给计量经济学(Econometrics)下一个较为确切的定义,我们可以这样界定:计量经济学是这样一门学科,它根据以往历史的经济资料与数据,从经济理论出发,运用数理统计的分析方法对经济关系建立经济计量模型,并依据所建立的模型对经济系统进行结构分析,经济预测和政策评价。所以计量经济学涉及数学学科中的统计学领域和经济学领域,统计学与经济理论是计量经济学的两块基石。 经济现象包罗万象,影响经济的因素有很多,如果我们企图将所有的因素作为研究的对象,我们可能什么结论也得不到,研究经济问题的一般方法是:我们总是选用最重要的因素变量而屏弃一些非本质的因素(变量),还需要了解哪些经济现象是有待解释的,哪些重要因素是有助于解释这些经济现象的,如何度量量化那些因素,并努力寻求它们之间存在的数量关系,并用统计推断来检验这些关系,故一般建立计量经济模型的过程与方法是: 计量经济模型建立,求解,解释过程图 2 1.2 计量经济模型(Econometric Modeling)实例 学过经济学中凯恩斯经济理论的人都知道,理论上说消费和收入存在着密切的联系,如果C 表示消费,Y 表示收入。则C 与Y 的关系,可用消费函数表示: C=f (Y ) (1) 这样的函数满足: 1)边际消费倾向(MPC )dY dC 位于0和1之间,即 0< dY dC <1; 2)平均消费倾向(APC ) Y C 是随着收入的增加而减少。 我们不妨将第二个条件作些化解,这个条件用数学语言表示是:dY Y C d ??? ??<0, 而 C Y Y dY dC dY Y C d dY Y C d 2 111- ? = ? ?? ?? ?= )(1)( 1APC MPC Y Y C dY dC Y -=-?= <0 即MPC <APC 。 在现实经济社会中,消费与收入之间的关系很难确切地用方程(1)表示收入,我们所能采集到的数据往往受到这样那样的影响,我们可用随机扰动ε来表示这些影响,所以,我们要对方程(1)要作适当调整,于是消费和收入之间的关系可以写成如下形式: ),(εY f C = (2) 其中ε是随机扰动。 满足凯恩斯条件的)(ε?Y f 很多,无法枚举穷尽,但我们可以大致将它们分为线性模型与非线性模型两类。 [例1]线性模型(Linear Model) 方程(2)的一个最简单的情况,是C 与Y 的线性关系,即 C=α+βY+ε (3) 其中0<β<1,α>0 如果我们现在从历史记录中或观察到N 个样本,即(Y t ,C t ),t=1.2,……N ,于是我们有如下一组方程: 第八讲 平稳时间序列 在严格意义上,随机过程{}t X 的平稳性是指这个 过程的联合和条件概率分布随着时间t 的改变而保持不变。在实践中,我们更关注弱意义上的平稳或者所谓的协方差平稳: 2();();(,)t t t t j j E X Var X Cov X X μδδ+=== 显然20δδ=。 在本讲义中,平稳皆指协方差平稳。当上述条件中的任意一个被违背时,则称{}t X 是非平稳的。 (一)平稳随机过程的例子 1、白噪声过程{}t ε: 20()0;();(,)0,t t t t j j E Var Cov εεδεε+≠=== 笔记: 假定t ε还服从正态分布,则{}t ε被称为高斯白噪声。在正态分布下,独立与不相关是两个等价的概念,从而高斯白噪声{}t ε也属于严格白噪声。对于严格白噪声过程,有: , (12) ()()t t t t E E εεεε--=,。因此,就预测t ε来说,,1t i i ε-≥没有任何信息价值。当一个变量的当期及其过去值对预测变量未来值没有任何帮助时,我们常常称该变量是不可预测的。 2、AR(1)过程: 011,11t t t y a a y a ε<-=++,{}t ε是白噪声过程 为了验证上述过程满足平稳性条件,我们首先通过迭代得到:1 1 1 1 00 1 0t t i i t i i i t t y a a a y a ε---===++∑∑。接下来注意到, 1 1 1)0(t i i t t E y a a a y -==+∑,进一步假设数据生成过程发生了 很久,即t 趋于无穷大,则0 1 )1(t a E y a μ-==;其次也有 1 1 ()() t i t i i t Var y Var a ε--==∑,当t 趋于无穷大时, 2 12 2 1()11()i t Var a a Var y εδ-= - = ;最后,当t 趋于无穷大时,有: 1211111111222 (12411112) 1......(...) [()()] [()()]s s t t s t s t t s t s t s t t s s s s s a a a a a E y y E a a a a a μμδδεεεεεεε+-----------++- -+++++++++++= == 关于AR(p)过程的平稳性,见附录。下图是对一个 平稳AR(1)过程的模拟。 1,(0,1) 10.8t N ID t t t y y εε-+=+ 笔记: 4 最小二乘原理 计量经济学最关心的理论模型是类似于y x αβ=+ 表示变量之间的关系。 1. 散点图 为了弄清楚变量之间的关系,我们从画出他们的散点图开始比较好。从画的图中我们可以大体上判断以下变量之间是呈直线关系,还是二次曲线关系。这对准确建立模型很有帮助。 模型y x αβ=+代表只要我们知道x ,我们就可以完全知道y 。但是现实中不是这样。这时除了系统因素x 之外,还有其他别的因素影响y 。此时我们用确率模型 ,1,2,,t t t Y X u t n αβ=++= 来表示。其中,y 是被说明变量,或从属变量;x 是说明变量,或独立变量;u 是误差项,也可以叫做搅乱项。 2. 函数的设定与参数的意义 不同的模型定义,它所定义的参数的意义不同。为简单起见,在本节中,我们先省去误差项。我们讨论一下参数的意义。 在y x αβ=+中,dy dx β= ,β意味着x 发生一单位的变化时,y 相应地变化几个单 位,也就是我们所熟悉的限界消费性向。 但是对于y x βα=来说,我们先两边取自然对数,log log log y x αβ=+,这时, log log d y d x β=,其中,log ,log dy dx d y d x y x ==,结果log log d y x dy d x y dx β==。β代 表x 变化1%时,y 变化β%单位。也就是弹力性。 3. 最小二乘法 3-1. 基本符号 样本平均 1 111,n n t t t t X X Y Y n n === = ∑ ∑ 偏离样本平均的平方和 () 2 2222 1 1 1 n n n x t t t t t t S x X X X nX ==== = -= -∑∑∑ ; () 2 2222 1 11n n n y t t t t t t S y Y Y Y nY ==== = -= -∑ ∑∑ ()()1 1 1 n n n xy t t t t t t t t t S x y X X Y Y X Y nX Y ==== = --=-∑∑∑ 其中,,t t t t x X X y Y Y =-=-,小写代表偏离样本平均的程度,即偏差。 偏差有以下重要性质: ()1 1 0n n t t t t x X X === -=∑∑; ()1 1 0n n t t t t y Y Y === -=∑ ∑ 计量经济学讲义 计量经济学讲义 第四讲 趋势和DF 检验(修订版) 此翻译稿制作学习之用,如有错误之处,文责自负。 趋势平稳序列(TS )(图1和2) 一个趋势平稳序列绕着一个确定的趋势(序列的均值),其波动幅度不显示增大或者减小的趋势。 线性确定性趋势: t t t y εβα++= ) ,0(~2σεiid t t=1,2,… 平方确定性趋势: t t t t y εγβα+++=2 ) ,0(~2σεiid t t=1,2,… 通常: t t t f y ε+=)( ) ,0(~2σεiid t t=1,2,… 均值是是随时间变化的(川),但是方差是常数。t ε可以为任意平稳序列,也就是说,不一 定要是白噪声过程。 通过拟合一个确定的多项式时间趋势,趋势可以来消除:拟合趋势后残差将给出一个去趋势的序列。 一个带线性确定性趋势AR (1)过程可以写作: t 1-t 1t )1)-t (y (t y εβαφβα+--=-- ) ,0(~2σεiid t 版权所 t=1,2,… 此处确定性趋势被t y 减去。然而在实践中,α、 β 是未知的而且必须估计出来。于是模型可以被 重述为: t 1-t 1111t y t )1()1(y εφβφβφαφ++-++-= 其中包含一个截距和一个趋势,也就是 t 1 -t 1 * * t y t y εφβα+++= 此处 β φαφα11* )1(+-= 且 β φβ)1(1*-= 若1 ||1 <φ ,那么此AR 过程就是围绕一个确定性 趋势的平稳过程. 差分平稳序列(DF )(也叫单整序列)和随机性趋势 如果一个非平稳序列可以由一个平稳序列通过d 次差分得到,那么我们说这个序列就是d 阶单整的,写做I (d ).这一过程也因此叫做差分平稳过程(DSP ). 因此,平稳序列就是零阶单整的,I (0)。白噪声序列是I (0)。 所以如果序列t d t y w ?=是平稳的,那么t y 就是I (d )。? 是差分算子,即 等等 2-t 1-t t 2-t 1-t 1-t t 1-t t t t 21-t t t y 2y y )y y ()y y ()y y (y y ,y y y +-=---=-?=??=?-=? 第二讲 普通最小二乘估计量 一、基本概念:估计量与估计值 对总体参数的一种估计法则就是估计量。例如,为了估计总体均值为u ,我们可以抽取一个容量为N 的样本,令Y i 为第i 次观测值,则u 的一个很自然的 估计量就是?i Y u Y N ==∑。A 、B 两同学都利用了这种 估计方法,但手中所掌握的样本分别是12(,,...,)A A A N y y y 与12(,,...,)B B B N y y y 。A 、B 两同学分别计算出估计值 ?A i A y u N =∑ 与?B i B y u N =∑ 。因此,在上例中,估计量?u 是随机的,而??,A B u u 是该随机变量可能的取值。估计量 所服从的分布称为抽样分布。 如果真实模型是:01y x ββε=++,其中01,ββ是待估计的参数,而相应的OLS 估计量就是: 1 01 2 ()???;() i i i x x y y x x x βββ-==--∑∑ 我们现在的任务就是,基于一些重要的假定,来考察上述OLS 估计量所具有的一些性质。 二、高斯-马尔科夫假定 ●假定一:真实模型是:01y x ββε=++。有三种 情况属于对该假定的违背:(1)遗漏了相关的解释变量或者增加了无关的解释变量;(2)y 与x 间的关系是非线性的;(3)01,ββ并不是常数。 ●假定二:在重复抽样中,12(,,...,)N x x x 被预先固定 下来,即12(,,...,)N x x x 是非随机的(进一步的阐释见附录),显然,如果解释变量含有随机的测量误差,那么该假定被违背。还存其他的违背该假定的情况。 笔记: 12(,,...,)N x x x 是随机的情况更一般化,此时,高斯-马尔科夫假定二被更改为:对任意,i j ,i x 与j ε不相关,此即所谓的解释变量具有严格外生性。显然,当12(,,...,)N x x x 非随机时,i x 与j ε必定不相关,这是因为j ε是随机的。 ●假定三:误差项期望值为0,即 ()0,1,2i E i N ε==。 笔记: 1、当12(,,...,)N x x x 随机时,标准假定是: 12(,,...,)0,1,2,...,i N E x x x i N ε== 根据迭代期望定律有:12[(,,...,)]()i N i E E x x x E εε=,因 此,如果12(,,...,)0i N E x x x ε=成立,必定有:()0i E ε=。 计量经济学(第四版)习题参考答案 潘省初 第一章 绪论 1.1 试列出计量经济分析的主要步骤。 一般说来,计量经济分析按照以下步骤进行: (1)陈述理论(或假说) (2)建立计量经济模型 (3)收集数据 (4)估计参数 (5)假设检验 (6)预测和政策分析 1.2 计量经济模型中为何要包括扰动项? 为了使模型更现实,我们有必要在模型中引进扰动项u 来代表所有影响因变量的其它因素,这些因素包括相对而言不重要因而未被引入模型的变量,以及纯粹的随机因素。 1.3什么是时间序列和横截面数据? 试举例说明二者的区别。 时间序列数据是按时间周期(即按固定的时间间隔)收集的数据,如年度或季度的国民生产总值、就业、货币供给、财政赤字或某人一生中每年的收入都是时间序列的例子。 横截面数据是在同一时点收集的不同个体(如个人、公司、国家等)的数据。如人口普查数据、世界各国2000年国民生产总值、全班学生计量经济学成绩等都是横截面数据的例子。 1.4估计量和估计值有何区别? 估计量是指一个公式或方法,它告诉人们怎样用手中样本所提供的信息去估计总体参数。在一项应用中,依据估计量算出的一个具体的数值,称为估计值。如Y 就是一个估计量,1 n i i Y Y n == ∑。现有一样本,共4个数,100,104,96,130,则 根据这个样本的数据运用均值估计量得出的均值估计值为 5.1074 130 96104100=+++。 第二章 计量经济分析的统计学基础 2.1 略,参考教材。 2.2请用例2.2中的数据求北京男生平均身高的99%置信区间 N S S x = =45 =1.25 用α=0.05,N-1=15个自由度查表得005.0t =2.947,故99%置信限为 x S t X 005.0± =174±2.947×1.25=174±3.684 也就是说,根据样本,我们有99%的把握说,北京男高中生的平均身高在170.316至177.684厘米之间。 2.3 25个雇员的随机样本的平均周薪为130元,试问此样本是否取自一个均值为120元、标准差为10元的正态总体? 原假设 120:0=μH 备择假设 120:1≠μH 检验统计量 () 10/25X X μσ-Z == == 查表96.1025.0=Z 因为Z= 5 >96.1025.0=Z ,故拒绝原假设, 即 此样本不是取自一个均值为120元、标准差为10元的正态总体。 2.4 某月对零售商店的调查结果表明,市郊食品店的月平均销售额为2500元,在下一个月份中,取出16个这种食品店的一个样本,其月平均销售额为2600元,销售额的标准差为480元。试问能否得出结论,从上次调查以来,平均月销售额已经发生了变化? 原假设 : 2500:0=μH 备择假设 : 2500:1≠μH ()100/1200.83?X X t μσ-= === 查表得 131.2)116(025.0=-t 因为t = 0.83 < 131.2=c t , 故接受原假 设,即从上次调查以来,平均月销售额没有发生变化。计量经济学讲义共十讲
伍德里奇《计量经济学导论》(第5版)笔记和课后习题详解-第11章 OLS用于时间序列数据的其他问题【
(新)计量经济学讲义第一讲(共十讲)
计量经济学讲义第六讲(共十讲)
计量经济学讲义
计量经济学复习10
计量经济学试卷汇总_(含答案)
中级计量经济学讲义_第一章引言
计量经济学第八讲v
计量经济学讲义-3--第一章 线性回归基础
计量经济学讲义
计量经济学讲义第二讲(共十讲)
计量经济学(第四版)习题及参考答案详细版