第三章 模型中误差项假定的诸问题汇总
- 格式:doc
- 大小:632.50 KB
- 文档页数:28
计量经济学试题误差项的假设检验在计量经济学中,我们经常需要对模型中的误差项进行假设检验。
误差项是指模型中未能被解释的变异部分,它们可能包含一些结构性偏差或者随机误差。
这些误差项对于我们准确度量经济变量之间的关系至关重要,因此需要进行假设检验以确认我们的模型是否准确和可靠。
本文将就计量经济学试题中的误差项假设检验进行讨论。
一、误差项的常见假设在计量经济学中,误差项通常被假设满足一些基本条件,包括:1. 零均值假设:误差项的平均值应该为零,即E(ε) = 0。
2. 同方差假设:误差项的方差应该是常数,即Var(ε) = σ^2。
3. 独立性假设:误差项之间应该是相互独立的,即Cov(ε_i, ε_j) = 0(i ≠ j)。
4. 正态性假设:误差项应该服从正态分布,即ε ~ N(0, σ^2)。
保证这些假设成立非常重要,因为它们是许多计量经济学方法和模型的基础。
接下来,我们将对这些假设进行具体的假设检验。
二、误差项假设检验方法1. 零均值检验零均值检验用于检验误差项的均值是否为零。
常见的假设检验方法包括t检验和F检验。
在t检验中,我们假设:H0:E(ε) = 0Ha:E(ε) ≠ 0通过计算误差项的平均值的t统计量,然后与t分布进行比较,可以得出是否拒绝零均值的结论。
在F检验中,我们假设:H0:E(ε) = 0Ha:E(ε) ≠ 0通过计算误差项平方和的F统计量,然后与F分布进行比较,可以得出是否拒绝零均值的结论。
2. 同方差检验同方差检验用于检验误差项的方差是否是常数。
常见的假设检验方法包括BP检验和Goldfeld-Quandt检验。
在BP检验中,我们假设:H0:Var(ε) = σ^2Ha:Var(ε) ≠ σ^2通过计算残差平方和的BP统计量,然后与卡方分布进行比较,可以得出是否拒绝同方差的结论。
在Goldfeld-Quandt检验中,我们假设:H0:Var(ε) = σ^2Ha:Var(ε) ≠ σ^2通过计算不同组别间残差平方和的比值,然后与F分布进行比较,可以得出是否拒绝同方差的结论。
第三章 模型中误差项假定的诸问题第一节 广义最小二乘法前面的分析知道,多元线性回归的数学模型可以表示为:12233t t t k kt tY X X X ββββμ=+++⋅⋅⋅++(t=1,2,3,…,n )其中t μ是随机误差项,它代表的是对于t Y 的变化,it X 不能解释的微小变动的全部。
用矩阵表示,则上述回归模型可以表示为:Y X U β=+其中,123n Y Y Y Y Y ⎛⎫ ⎪ ⎪ ⎪= ⎪⎪⎪⎝⎭,123k βββββ⎛⎫⎪⎪ ⎪= ⎪ ⎪ ⎪⎝⎭,213112232223111k k n nkn X X X X X X X X X X ⋅⋅⋅⎛⎫ ⎪⋅⋅⋅⎪= ⎪ ⎪⋅⋅⋅⎝⎭,123n u u U u u ⎛⎫⎪⎪ ⎪= ⎪ ⎪ ⎪⎝⎭运用最小二乘准则,我们得到的参数的估计量为:()1''ˆX X X Y β-=对于随机误差项t μ,我们所做的假定有三个:零均值、同方差和非自相关。
这三个假定的矩阵表述为:()()()()()12300000n E u E u E U E u E u ⎛⎫⎛⎫ ⎪ ⎪ ⎪ ⎪ ⎪⎪=== ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭,()()()()()()()()()()()11212122122222'2var cov ,cov ,cov ,var cov ,var cov ,cov ,var 100000001000000001000n n n n n u u uu n u u u u u u u u u u u U u u u u u I E UU σσσσσ⋅⋅⋅⎛⎫⎪⋅⋅⋅ ⎪= ⎪ ⎪⎪⋅⋅⋅⎝⎭⎛⎫⎛⎫⎪ ⎪⎪ ⎪==== ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭ 在上述假定条件下,我们得出的参数估计值具有最优线性无偏估计特性。
现实情况的偏离:1、随机扰动项均值不为零时,通过将随机扰动项与常数项结合,不会对估计产生影响。
第三章 一元经典线性回归模型的基本假设与检验问题 3.1TSS,RSS,ESS 的自由度如何计算?直观含义是什么?答:对于一元回归模型,残差平方和RSS 的自由度是(2)n -,它表示独立观察值的个数。
对于既定的自变量和估计量1ˆβ和2ˆβ,n 个残差2ˆˆˆi i i iu Y X ββ=-- 必须满足正规方程组。
因此,n 个残差中只有(2)n -个可以“自由取值”,其余两个随之确定。
所以RSS 的自由度是(2)n -。
TSS 的自由度是(1)n -:n 个离差之和等于0,这意味着,n 个数受到一个约束。
由于TSS=ESS+RSS ,回归平方和ESS 的自由度是1。
3.2 为什么做单边检验时,犯第一类错误的概率的评估会下调一半?答:选定显著性水平α之后,对应的临界值记为/2t α,则双边检验的拒绝区域为/2||t t α≥。
单边检验时,对参数的符号有先验估计,拒绝区域变为/2t t α≥或/2t t α≤-,故对犯第I 类错误的概率的评估下下降一半。
3.3 常常把高斯-马尔科夫定理简述为:OLS 估计量具有BULE 性质,其含义是什么? 答:含义是:(1)它是线性的(linear ):OLS 估计量是因变量的线性函数。
(2)它是无偏的(unbiased ):估计量的均值或数学期望等于真实的参数。
比如22ˆ()E ββ=。
(3)它是最优的或有效的(Best or efficient ):如果存在其它线性无偏的估计量,其方差必定大于OLS 估计量的方差。
3.4 做显著性检验时,针对的是总体回归函数(PRF )的系数还是样本回归函数(SRF )的系数?为什么?答:做显著性检验时,针对的是总体回归函数(SRF )的系数。
总体回归函数是未知的,也是研究者所关心的,所以只能利用样本回归函数来推测总体回归函数,后者是利用样本数据计算所得,是已知的,无需检验。
(习题)3.5 以下陈述正确吗?不论正确与否,请说明理由。
§5.3 模型设定偏误问题到目前为止,经典计量经济模型的回归分析,都是对模型的估计以及对基本假设的相关检验,而较少关注模型的具体设定形式。
如果模型通过了所有相关检验,就认为得到了一个“满意”的模型估计结果,从而可以进一步用于经济分析与预测。
然而,如果我们设定了一个“错误的”或者说是“有偏误的”模型,即使所有的基本假设都满足,得到的估计结果也会与“实际”有偏误,这种偏误称为模型设定偏误。
一、模型设定偏误的类型模型设定偏误主要有两大类,一类是关于解释变量选取的偏误,主要包括漏选相关变量和多选无关变量,另一类是关于模型函数形式选取的偏误。
1、相关变量的遗漏(omitting relevant variables )在建立模型时,由于人们认识上的偏差、理论分析的缺陷、或者是有关统计数据的限制,可能有意或无意地忽略了某些重要变量。
例如,如果“正确”的模型为μβββ+++=22110X X Y (5.3.1)而我们将模型设定为v X Y ++=110αα (5.3.2)也就是说,设定模型时漏掉了一个相关的解释变量。
这类错误称为遗漏相关变量。
由于“正确”模型可能包含有被解释变量Y 与解释变量X 的滞后项,即为自回归分布滞后模型,因此,遗漏相关变量可能表现为对Y 或X 滞后项的遗漏。
这类模型设定偏误也称为动态设定偏误(dynamic mis-specification )。
2、无关变量的误选(including irrevelant variables)无关变量的误选是指在设定模型时,包括了无关解释变量。
例如,如果(5.3.1)仍为“真”,但我们将模型设定为v X X X Y ++++=3322110αααα (5.3.3)也就是说,设定模型时,多选了一个无关解释变量。
3、错误的函数形式(wrong functional form )错误的函数形式是指在设定模型时,选取了不正确的函数形式。
最常见的就是当“真实”的函数形式为非线性时,却选取了线性的函数形式。
误差项的标准假定误差项的标准假定是指在回归分析中,对于模型中的误差项ε,它满足一定的统计性质,以便进行参数估计、假设检验和置信区间等统计推断。
在普通最小二乘回归模型中,误差项的标准假定包括线性性、无误差项间的相关性、零条件均值、同方差性和正态性。
首先,线性性是指被解释变量与解释变量之间的关系是线性关系,即模型中的参数是线性的。
这个假定是回归分析的基础,如果不满足线性性,将导致回归系数的解释和推断产生错误。
其次,无误差项间的相关性指误差项之间不存在相关性,即不同观测值下的误差项相互独立。
这个假定是为了确保对每一个观测值的误差项能够独立地进行估计,否则相关的误差项会导致对模型参数的估计产生偏误。
零条件均值是指对于每一个解释变量的取值点,误差项的平均值为零。
这个假定是为了确保回归模型解释了观测值变量中的大部分变异,也就是说因变量的线性组合可以解释观测值中的全部变异,而遗留下来的部分是由误差项,即不可解释的随机误差,来解释的。
同方差性是指在每一个解释变量取值下,误差项的方差是相同的。
这个假定是为了确保模型的适用性,并且有助于参数估计的有效性和置信区间的准确性。
如果存在异方差性,则可能会导致最小二乘估计量的无偏性和有效性受到损害,从而影响对模型的统计推断。
最后,正态性是指误差项ε服从正态分布。
根据中心极限定理,当样本量足够大时,回归模型的估计量和检验统计量的分布会趋近于正态分布。
正态性假设在假设检验和构建置信区间等统计推断中起着重要作用,同时也方便了统计量的标准化。
总之,误差项的标准假定包括线性性、无误差项间的相关性、零条件均值、同方差性和正态性。
这些假定在回归分析中是为了确保模型的准确性和可靠性,为进一步推断和解释提供了基础。
logit模型误差项**一、logit模型简介**Logit模型,又称逻辑回归模型,是一种用于分类问题的线性模型。
它的基本思想是通过拟合特征变量与概率之间的关系,从而预测某一事件发生的概率。
在实际应用中,logit模型广泛应用于金融、医疗、教育等领域。
**二、logit模型的误差项**在logit模型中,误差项是一个关键部分,它反映了模型预测结果与实际结果之间的差异。
误差项ε的定义为:`ε = y - μ = y - exp(Xβ) / (1 + exp(Xβ))`其中,y表示真实标签,X为特征变量,β为模型参数。
**三、误差项的来源及影响因素**1.数据噪声:实际应用中,数据往往存在噪声,导致模型预测结果与真实值存在偏差。
2.模型假设:logit模型假设特征变量与概率之间存在线性关系,但实际上这种关系可能并非线性。
3.特征选择:特征选择不当或特征维度不足,可能导致模型拟合效果不佳。
4.模型参数估计:模型参数是通过最大似然估计或贝叶斯估计得到的,估计过程中的不确定性也会影响误差项。
**四、如何减小误差项的影响**1.数据预处理:对数据进行清洗,去除异常值和噪声,提高数据质量。
2.特征选择:通过特征选择方法,如相关性分析、主成分分析等,选取与目标变量相关性较高的特征。
3.增加数据量:增加训练样本数量,提高模型泛化能力。
4.调整模型参数:通过交叉验证等方法,选取最优的模型参数。
5.使用集成学习:将多个logit模型组合起来,提高预测准确性。
**五、总结**logit模型误差项是模型预测结果与实际结果之间的差异,受到数据噪声、模型假设、特征选择和模型参数估计等多方面因素的影响。
第三章 模型中误差项假定的诸问题第一节 广义最小二乘法前面的分析知道,多元线性回归的数学模型可以表示为:12233t t t k kt tY X X X ββββμ=+++⋅⋅⋅++(t=1,2,3,…,n )其中t μ是随机误差项,它代表的是对于t Y 的变化,it X 不能解释的微小变动的全部。
用矩阵表示,则上述回归模型可以表示为:Y X U β=+其中,123n Y Y Y Y Y ⎛⎫ ⎪ ⎪ ⎪= ⎪⎪⎪⎝⎭,123k βββββ⎛⎫⎪⎪ ⎪= ⎪ ⎪ ⎪⎝⎭,213112232223111k k n nkn X X X X X X X X X X ⋅⋅⋅⎛⎫ ⎪⋅⋅⋅⎪= ⎪ ⎪⋅⋅⋅⎝⎭,123n u u U u u ⎛⎫⎪⎪ ⎪= ⎪ ⎪ ⎪⎝⎭运用最小二乘准则,我们得到的参数的估计量为:()1''ˆX X X Y β-=对于随机误差项t μ,我们所做的假定有三个:零均值、同方差和非自相关。
这三个假定的矩阵表述为:()()()()()12300000n E u E u E U E u E u ⎛⎫⎛⎫ ⎪ ⎪ ⎪ ⎪ ⎪⎪=== ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭,()()()()()()()()()()()11212122122222'2var cov ,cov ,cov ,var cov ,var cov ,cov ,var 100000001000000001000n n n n n u u uu n u u u u u u u u u u u U u u u u u I E UU σσσσσ⋅⋅⋅⎛⎫⎪⋅⋅⋅ ⎪= ⎪ ⎪⎪⋅⋅⋅⎝⎭⎛⎫⎛⎫⎪ ⎪⎪ ⎪==== ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭ 在上述假定条件下,我们得出的参数估计值具有最优线性无偏估计特性。
现实情况的偏离:1、随机扰动项均值不为零时,通过将随机扰动项与常数项结合,不会对估计产生影响。
2、同方差和非自相关假设不满足时,会对最小二乘估计产生重要影响。
因此,不满足假定条件的分析可以归结为同方差和非自相关的偏离。
用矩阵来表示为:()'2uE UUσ=Ω,其中,Ω为n 阶正定矩阵。
当正定对称矩阵已知时,可以通过对给出的模型做变换,使得变换后的模型满足标准线性回归模型的条件,进而,运用最小二估计准则,求出满足最优线性无偏估计特性的参数估计量。
假设有模型YX U β=+,其中随机扰动项不满足同方差和非自相关条件,即有()'2uE UU σ=Ω因此,不能直接用最小二乘估计准则进行估计。
现在,由于Ω为n 阶对称正定矩阵,故存在可逆矩阵D 使得下述式子成立:'DD Ω=对原有模型YX U β=+进行变换,即等式两边同时左乘矩阵1D -有:111Y X UD Y D X D U ββ---=+⇒=+令:111,,Y D Y X D X U D U ***---===。
从而,原有模型YX U β=+转换为:Y X U β***=+,新模型中的随机扰动项的协方差矩阵为:()()()()()()()()()()()()()'1111111212112111111''''''''''''u u u nn Var U E U U E D U D U E D UU D D E UU D D D D D I DD D D D DD D D D I σσσ***----------------=====Ω=Ω=⎛⎫Ω=⇒Ω= ⎪ ⎪⇒Ω=⎝⎭这样,就可以运用最小二乘法进行估计,并得出参数估计值:()1''ˆX X X Y β*-****=将111,,Y D Y X D X U D U ***---===代入得到: ()()()()()()()()()11''''11111'11'111'1'1ˆ''X X X Y D X D X D X D Y X DD XX D D YX X X Yβ*------****--------====ΩΩ因此,这里我们得出的ˆβ*称为参数的广义最小二乘估计量,很明显,ˆβ*具有最优线性无偏估计量特征。
上述在随机扰动项不满足假定条件的情况下,我们仍然能够得到参数的最优线性无偏估计量的关键是,误差项协方差矩阵 Ω已知,进而我们通过变换和处理使其化为满足假定条件的模型。
现实情况是误差项协方差矩阵 Ω未知。
因此,必须首先对Ω进行讨论。
第二节序列相关随机扰动项不满足同方差和非自相关条件,即有()'2u=ΩE UUσ。
如果Ω已知,我们仍然能够得到最优线性无偏估计量,在现实情况下,Ω通常未知,首先应该对其进行分析讨论。
因此,对随机扰动项假设不满足的条件的讨论分为两个方面:一个是同方差是否满足,一个是非自相关是否满足。
这两个方面用数学语言来说明,就是讨论误差项协方差矩阵Ω,因为,此矩阵上的主对角线上的元素是方差;非主对角线的元素是协方差,说明的就是误差项之间的关系。
本节先讨论误差项非自相关不满足的情况。
一、误差项之间产生序列相关的原因序列相关的定义:模型中随机误差项不满足关系式:()0Eμμ=t s这时称误差项之间存在着序列相关。
误差项存在自相关,主要有如下几个原因。
(1) 模型的数学形式不妥。
若所用的数学模型与变量间的真实关系不一致,误差项常表现出自相关。
比如平均成本与产量呈抛物线关系,当用线性回归模型拟合时,误差项必存在自相关。
(2) 惯性。
大多数经济时间序列都存在自相关。
其本期值往往受滞后值影响。
突出特征就是惯性与低灵敏度。
如国民生产总值,固定资产投资,国民消费,物价指数等随时间缓慢地变化,从而建立模型时导致误差项自相关。
(3) 回归模型中略去了带有自相关的重要解释变量。
若丢掉了应该列入模型的带有自相关的重要解释变量,那么它的影响必然归并到误差项u t 中,从而使误差项呈现自相关。
当然略去多个带有自相关的解释变量,也许因互相抵消并不使误差项呈现自相关。
二、序列相关存在时的回归分析结果与主要影响 1、序列相关的主要形式: 一阶自回归模型:1t t t t t tY X u u u αβρε-=++=+其中,t ε满足条件:()()()2200t tt s E E E εεεσεε===上述模型成为随机误差项的一阶自回归模型(?),是一种重要的自相关模型。
2、序列相关的表现形式:1t t t u u ρε-=+。
分三种情况:相关系数ρ的符号而定。
3、序列相关的回归分析()()12211221322312323123t t tt t t t t t t t t t t t t t t t t t t t t u u u u u u u u u ρερρεεερερερερρεερερερερερερε--------------=+=++=++=+++=+++=++++又因为有:()()()2200t t t s E E E εεεσεε===所以有:()()231230t t t t t E u E ερερερε---=++++=()()()()231232222211t t t t t Var u Var εεερερερεσρρσρ---=++++=+++=-进一步,我们可以得到U 的协方差矩阵:212'221231...1...E() =........1n n uu n n n UU ρρρρρρσσρρρ-----⎡⎤⎢⎥⎢⎥=Ω⎢⎥⎢⎥⎣⎦这里有()2221uεσσρ=-。
4、序列存在自相关时,如果继续采用最小二乘法,对模型的估计与检验到来以下的后果: 1、参数估计不再具有最小方差性;2、序列正相关时,即ρ为正值时,最小二乘法估计时的方差偏小,从而t 检验值变大,容易出现拒零假设,从而造成解释变量的人为保留,导致伪回归的危险增大。
3、t 检验和F 检验不能用。
三、序列自相关的检验 1、图示法图示法就是依据残差e t 对时间t 的序列图作出判断。
由于残差e t 是对误差项ut 的估计,所以尽管误差项u t 观测不到,但可以通过e t 的变化判断u t 是否存在自相关。
图示法的具体步骤是,(1) 用给定的样本估计回归模型,计算残差e t , (t = 1, 2, … T),绘制残差图;(2) 分析残差图。
说明是属于:不存在自相关、存在正自相关、存在负自相关。
需要说明的是,经济变量由于存在惯性,所以经济变量的变化常表现为正自相关。
2、DW (Durbin-Watson )检验法DW 检验是J. Durbin, G. S. Watson 于1950,1951年提出的。
它是利用残差e t 构成的统计量推断误差项u t 是否存在自相关。
使用DW 检验,应首先满足如下三个条件。
误差项u t 的自相关为一阶自回归形式。
因变量的滞后值y t-1不能在回归模型中作解释变量。
样本容量应充分大(T > 15) DW 检验步骤如下。
给出假设 H 0: ρ = 0 (u t 不存在自相关) H 1: ρ ≠ 0 (u t 存在一阶自相关) 用残差值 e t 计算统计量DW 。
21221()nt t t n t t e e DW e -==-=∑∑其中分子是残差的一阶差分平方和,分母是残差平方和。
把上式展开,得2211222212nnnt t t t t t t ntt e e e e DW e--====+-=∑∑∑∑.因为有2221221nnntt tt t t eee -===≈≈∑∑∑所以2111222221122222121nnnt t t t t t t t nn t t t t ee e e e DW ee ρ---∧===--==⎛⎫- ⎪⎛⎫ ⎪≈=-=- ⎪⎝⎭ ⎪⎪⎝⎭∑∑∑∑∑因为 ρ 的取值范围是 [-1, 1],所以DW 统计量的取值范围是 [0, 4]。
ρ 与DW 值的对应关系见下表表 ρ 与DW 值的对应关系及意义ρ DWu t 的表现 ρ = 0 DW = 2 u t 非自相关 ρ = 1 DW = 0 u t 完全正自相关 ρ = -1 DW = 4 u t 完全负自相关0 < ρ < 1 0 < DW < 2 u t 有某种程度的正自相关 -1 < ρ < 02 < DW < 4u t 有某种程度的负自相关实际中DW = 0, 2, 4 的情形是很少见的。
当DW 取值在(0, 2),(2, 4)之间时,怎样判别误差项u t 是否存在自相关呢?推导统计量DW 的精确抽样分布是困难的,因为DW 是依据残差e t 计算的,而e t 的值又与x t 的形式有关。