误差修正模型.
- 格式:doc
- 大小:148.00 KB
- 文档页数:13
stata误差修正模型命令(原创版)目录1.引言2.Stata 误差修正模型的基本概念3.Stata 误差修正模型的命令格式4.示例:使用 Stata 误差修正模型命令进行分析5.总结正文1.引言在实证研究中,由于数据的局限性,我们常常需要对数据进行误差修正。
Stata 作为一种广泛应用于社会科学、经济学、统计学等领域的数据分析软件,提供了丰富的误差修正模型命令,以帮助研究者更准确地分析数据。
本文将介绍 Stata 误差修正模型的基本概念以及命令格式,并通过示例演示如何使用 Stata 误差修正模型命令进行分析。
2.Stata 误差修正模型的基本概念Stata 误差修正模型主要包括两种类型:内生性误差和选择性误差。
(1)内生性误差:当一个或多个解释变量与误差项相关时,就存在内生性误差。
内生性误差可能导致估计系数的偏误,从而影响研究结论的有效性。
(2)选择性误差:当样本的选择不是随机的,而是基于某些观测到的或未观测到的变量时,就存在选择性误差。
选择性误差可能导致估计系数的偏误,从而影响研究结论的有效性。
3.Stata 误差修正模型的命令格式Stata 误差修正模型的命令格式主要包括以下两个部分:(1)模型设定部分:这部分主要包括被解释变量、解释变量和误差项的定义。
(2)修正部分:这部分主要包括使用哪种误差修正方法,如两阶段最小二乘法(2SLS)、三阶段最小二乘法(3SLS)等。
4.示例:使用 Stata 误差修正模型命令进行分析假设我们有一个数据集,其中包括个体的收入、教育水平和是否失业等变量。
我们希望研究教育水平对收入的影响,但由于教育水平可能是内生变量(例如,家庭背景可能同时影响教育水平和收入),因此需要使用误差修正模型进行分析。
以下是使用 Stata 进行两阶段最小二乘法分析的命令示例:```* 导入数据* insheet using "data.csv", clear* 定义变量local income "收入"local education "教育水平"local unemployed "是否失业"* 模型设定部分reg income education unemployed* 修正部分estimates store olstwostage, none```在这个示例中,我们首先导入数据并定义变量,然后使用回归模型(reg)进行基本分析。
第二节 误差修正模型(Error Correction Model ,ECM )一、误差修正模型的构造对于y t 的(1,1)阶自回归分布滞后模型:t t t t t y x x y εβββα++++=--12110在模型两端同时减y t-1,在模型右端10-±t x β,得:tt t t tt t t t t t t t x y x x y x y x x y εααγβεββββαββεββββα+--+∆=+---+--+∆=+-+++∆+=∆------)(])1()1()[1()1()(1101012120120121100其中,12-=βγ,)1/()(2ββαα-+=,)1/(211ββα-=。
记 11011-----=t t t x y ecm αα(5-5) 则t t t t ecmx y εγβ++∆=∆-1(5-6)称模型(5-6)为“误差修正模型”,简称ECM 。
二、误差修正模型的含义如果y t ~ I(1),x t ~ I(1),则模型(5-6)左端)0(~I y t∆,右端)0(~I x t∆,所以只有当y t 和x t 协整、即y t 和x t 之间存在长期均衡关系时,式(5-5)中的ecm~I(0),模型(5-6)两端的平稳性才会相同。
当y t 和x t 协整时,设协整回归方程为:t t t x y εαα++=10它反映了y t 与x t 的长期均衡关系,所以称式(5-5)中的ecm t -1是前一期的“非均衡误差”,称误差修正模型(5-6)中的1-t ecmγ是误差修正项,12-=βγ是修正系数,由于通常1||2<β,这样0<γ;当ecm t -1 >0时(即出现正误差),误差修正项1-t ecm γ< 0,而ecm t -1 < 0时(即出现负误差),1-t ecm γ> 0,两者的方向恰好相反,所以,误差修正是一个反向调整过程(负反馈机制)。
实验报告(二)——误差修正模型(ECM)的建立与分析一、单位根检验:1、绘制cons与GDP的时间序列图:从时间序列图中可以看出,cons与GDP随时间增加都呈上升趋势,表现出非平稳性。
2、对cons进行单位根检验:先选择对原序列(level)进行单位根检验,根据cons与GDP的时间序列图的走势,选择trend and intercept的检验方法,在maximum lags中填写ADF 检验方法的滞后期为0,从上表中可以看出,P值为0.9888,大于0.05的显著性水平,说明原序列是非平稳的。
选择cons的一阶差分(1st)和trend and intercept,从上表中可以看出,经过一阶差分后,P值(=0.5099)仍然没有通过0.05的置信水平检验,说明是不平稳的,需要继续改进。
再试用ADF检验,在滞后期(maximum lags)中填入8,选择一阶差分和trend and intercept,得出上表,可以看出P值=0.0801,大于0.05,没有通过0.05的置信水平检验,说明是不平稳的,需要继续改进。
再试用ADF检验,在滞后期(maximum lags)中填入6,选择二阶差分和trend and intercept,得出上表,可以看出P值=0.0137,小于0.05,通过0.05的置信水平检验,说明是平稳的。
3、对GDP进行单位根检验:先选择对原序列(level)进行单位根检验,根据cons与GDP的时间序列图的走势,选择trend and intercept的检验方法,在maximum lags中填写ADF 检验方法的滞后期为0,从上表中可以看出,P值为1.0000,大于0.05的显著性水平,说明原序列是非平稳的。
选择GDP的一阶差分(1st)和trend and intercept,从上表中可以看出,经过一阶差分后,P值(=0.5574)仍然没有通过0.05的置信水平检验,说明是不平稳的,需要继续改进。
误差修正模型的stata应用误差修正模型:如果用两个变量,人均消费y和人均收入x(从格林的数据获得)来研究误差修正模型。
令z=(y x)’,则模型为:k,z,A,,z,p,z,, ,t0t,1it,1ti,1,,,,'其中,如果令,即滞后项为1,则模型为 k,1,z,A,,z,p,z,,t0t,11t,1t实际上为两个方程的估计:,y,a,by,bx,p,y,p,x,,ty11t,112t,111t,112t,11t,x,a,by,bx,p,y,p,x,,tx21t,122t,121t,122t,12t用ols命令做出的结果:gen t=_ntsset ttime variable: t, 1 to 204gen ly=L.y(1 missing value generated)gen lx=L.x(1 missing value generated)reg D.y ly lx D.ly D.lxSource | SS df MS Number of obs = 202 -------------+------------------------------ F( 4, 197) = 21.07Model | 37251.2525 4 9312.81313 Prob > F = 0.0000Residual | 87073.3154 197 441.996525 R-squared = 0.2996 -------------+------------------------------ Adj R-squared = 0.2854 Total | 124324.568 201 618.530189 Root MSE = 21.024------------------------------------------------------------------------------D.y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- ly | .0417242 .0187553 2.22 0.027 .0047371 .0787112lx | -.0318574 .0171217 -1.86 0.064 -.0656228 .001908ly |D1. | .1093189 .082368 1.33 0.186 -.0531173 .2717552lx |D1. | .0792758 .0566966 1.40 0.164 -.0325344 .1910861_cons | 2.533504 3.757158 0.67 0.501 -4.875909 9.942916,y,a,by,bx,p,y,p,x,,a这是的回归结果,其中=2.5335,ty11t,112t,111t,112t,11tyb=0.04172,b= -0.03186,p=0.10932,p=0.07928 11121112同理可得的回归结果,见下 ,x,a,by,bx,p,y,p,x,,tx21t,122t,121t,122t,12treg D.x ly lx D.ly D.lxSource | SS df MS Number of obs = 202 -------------+------------------------------ F( 4, 197) = 11.18Model | 36530.2795 4 9132.56988 Prob > F = 0.0000Residual | 160879.676 197 816.648101 R-squared = 0.1850 -------------+------------------------------ Adj R-squared = 0.1685 Total | 197409.955 201 982.139082 Root MSE = 28.577------------------------------------------------------------------------------D.x | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- ly | .037608 .0254937 1.48 0.142 -.0126676 .0878836lx | -.0307729 .0232732 -1.32 0.188 -.0766694 .0151237ly |D1. | .4149475 .111961 3.71 0.000 .1941517 .6357434lx |D1. | -.1812014 .0770664 -2.35 0.020 -.3331825 -.0292203_cons | 11.20186 5.10702 2.19 0.029 1.130419 21.27331如果用vec 命令vec y x, piVector error-correction modelSample: 3 - 204 No. of obs = 202AIC = 18.29975 Log likelihood = -1839.275 HQIC = 18.35939Det(Sigma_ml) = 277863.4 SBIC = 18.44715Equation Parms RMSE R-sq chi2 P>chi2 ---------------------------------------------------------------- D_y 4 20.9706 0.6671 396.7818 0.0000D_x 4 28.5233 0.5328 225.8313 0.0000 ---------------------------------------------------------------- ------------------------------------------------------------------------------| Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- D_y | _ce1 |L1. | .0418615 .0069215 6.05 0.000 .0282956 .0554273y |LD. | .1091985 .0807314 1.35 0.176 -.0490323 .2674292x |LD. | .0793652 .055411 1.43 0.152 -.0292384 .1879687_cons | -3.602279 3.759537 -0.96 0.338 -10.97084 3.766278 -------------+---------------------------------------------------------------- D_x |_ce1 |L1. | .0256414 .0094143 2.72 0.006 .0071897 .044093y |LD. | .4254495 .1098075 3.87 0.000 .2102308 .6406683x |LD. | -.1889879 .0753677 -2.51 0.012 -.3367058 -.04127_cons | 5.880993 5.113562 1.15 0.250 -4.141405 15.90339 ------------------------------------------------------------------------------这里_ce1 L1显示的是速度调整参数α的估计值,上述结果没有π的估计,而是在下面的表格中。
误差修正模型(Error Correction Model)误差修正模型的产生原因对于非稳定时间序列,可通过差分的方法将其化为稳定序列,然后才可建立经典的回归分析模型。
如:建立人均消费水平(Y)与人均可支配收入(X)之间的回归模型:Y t = α0 + α1X t + μt如果Y与X具有共同的向上或向下的变化趋势,进行差分,X,Y成为平稳序列,建立差分回归模型得:ΔY t = α1ΔX t + v t式中,v t = μt−μt− 1然而,这种做法会引起两个问题:(1)如果X与Y间存在着长期稳定的均衡关系Y t = α0 + α1X t + μt且误差项μt不存在序列相关,则差分式ΔY t = α1ΔX t + v t中的v t是一个一阶移动平均时间序列,因而是序列相关的;(2)如果采用差分形式进行估计,则关于变量水平值的重要信息将被忽略,这时模型只表达了X与Y间的短期关系,而没有揭示它们间的长期关系。
因为,从长期均衡的观点看,Y在第t期的变化不仅取决于X本身的变化,还取决于X 与Y在t-1期末的状态,尤其是X与Y在t-1期的不平衡程度。
另外,使用差分变量也往往会得出不能令人满意回归方程。
例如,使用ΔY1 = ΔX t + v t回归时,很少出现截距项显著为零的情况,即我们常常会得到如下形式的方程:式中,(*)在X保持不变时,如果模型存在静态均衡(static equilibrium),Y也会保持它的长期均衡值不变。
但如果使用(*)式,即使X保持不变,Y也会处于长期上升或下降的过程中,这意味着X与Y间不存在静态均衡。
这与大多数具有静态均衡的经济理论假说不相符。
可见,简单差分不一定能解决非平稳时间序列所遇到的全部问题,因此,误差修正模型便应运而生。
误差修正模型的概述误差修正模型(Error Correction Model,简记为ECM)是一种具有特定形式的计量经济学模型,它的主要形式是由Davidson、Hendry、Srba和Yeo于1978年提出的,称为DHSY 模型。
《误差修正模型的非均衡误差参数估计值》一、引言在统计分析和建模中,误差修正模型是一种常用的方法,用于解决非均衡数据集的分类问题。
对于非均衡数据集而言,不同类别的样本数量存在较大差异,这就导致了在建模和预测过程中的非均衡误差问题。
而非均衡误差参数估计值则是误差修正模型中的重要环节,本文将深入探讨这一主题。
二、误差修正模型的基本原理误差修正模型的基本原理是通过在建模过程中对样本进行加权,以降低非均衡数据集中不同类别样本的影响程度。
通常情况下,误差修正模型会考虑到不同类别样本的权重,并在损失函数中引入这一权重参数。
在模型训练和预测过程中,通过调整这些权重参数,使模型更加关注少数类别的样本,从而提高分类模型的性能。
三、非均衡误差参数估计值的重要性在误差修正模型中,非均衡误差参数估计值扮演着至关重要的角色。
这些参数值的准确性将直接影响到模型的分类效果和性能。
在实际建模过程中,我们需要对非均衡误差参数进行有效的估计,以确保模型能够更好地适应非均衡数据集,提高分类的准确性和泛化能力。
四、对非均衡误差参数的评估方法对于非均衡数据集中的误差参数估计,通常可以采用以下几种常见方法进行评估:1. 混淆矩阵和相关指标:通过混淆矩阵中的真阳性、假阳性、真阴性、假阴性等指标,来评估模型在不同类别样本上的准确率、召回率、精确率等性能指标。
2. 重采样技术:例如过采样、欠采样、SMOTE等方法,来调整数据集中不同类别样本的比例,用于评估模型在不同非均衡情况下的性能表现。
3. ROC曲线和AUC值:通过ROC曲线下的面积(AUC)来评估分类模型在不同类别样本上的性能,其中AUC值越接近于1,模型性能越好。
五、非均衡误差参数估计值的个人理解和观点在实际的数据分析和建模过程中,我认为正确的非均衡误差参数估计值是非常重要的。
它能够帮助我们更加全面、准确地评估模型的性能,从而提高模型的泛化能力和稳定性。
对于非均衡数据集而言,我们需要充分重视非均衡误差参数的估计,同时结合混淆矩阵、ROC曲线等多重评估方法,来全面地评估模型在不同类别样本上的性能表现。
什么是误差修正模型(ECM)如何建立和估计ECM模型误差修正模型(Error Correction Model, ECM)是一种用于揭示时间序列数据中长期和短期关系的统计模型。
它是基于协整理论(Cointegration Theory)的发展而来,用于处理非平稳时间序列数据的建模和分析。
本文将介绍误差修正模型的基本概念、建立方法以及估计过程。
一、误差修正模型的基本概念误差修正模型是基于向量自回归模型(Vector Autoregressive Model, VAR)的延伸,用于描述经济系统中变量之间的动态关系。
它的核心思想是变量之间存在长期均衡关系,并且当系统偏离均衡状态时,会通过误差修正机制迅速回归到均衡。
在误差修正模型中,被解释变量(因变量)的变化量由其自身的滞后项、其他变量的滞后项和误差修正项来决定。
其中,误差修正项是系统偏离均衡状态的驱动力,它通过反映系统失衡的程度来进行调整,促使系统回归到长期均衡。
因此,误差修正模型可以同时捕捉长期和短期的关系,具有强大的解释和预测能力。
二、建立误差修正模型的方法建立误差修正模型主要包括两个步骤:协整关系检验和模型参数估计。
1. 协整关系检验协整关系检验是判断变量之间是否存在长期均衡关系的重要步骤。
常用的协整关系检验方法包括ADF检验(Augmented Dickey-Fuller test)、PP检验(Phillips-Perron test)等。
这些检验方法可以判断变量是否为非平稳的单整序列,以及变量之间是否存在稳定的线性关系。
2. 模型参数估计在进行误差修正模型参数估计之前,需要确定模型的滞后阶数(Lag Order)。
滞后阶数的选择可以通过信息准则(如AIC、BIC等)来确定,准则值较小的滞后阶数会得到更好的模型拟合效果。
模型参数估计可以使用最小二乘法(Ordinary Least Squares, OLS)或极大似然估计法(Maximum Likelihood Estimation, MLE)进行。
第二节误差修正模型(Error Correction Model,ECM)一、误差修正模型的构造对于yt的(1,1阶自回归分布滞后模型:在模型两端同时减yt-1,在模型右端,得:其中,,,。
记(5-5)则(5-6)称模型(5-6)为“误差修正模型”,简称ECM。
二、误差修正模型的含义如果yt ~ I(1,xt ~ I(1,则模型(5-6)左端,右端,所以只有当yt和xt协整、即yt 和xt之间存在长期均衡关系时,式(5-5)中的ecm~I(0,模型(5-6)两端的平稳性才会相同。
当yt和xt协整时,设协整回归方程为:它反映了yt与xt的长期均衡关系,所以称式(5-5)中的ecmt-1是前一期的“非均衡误差”,称误差修正模型(5-6)中的是误差修正项,是修正系数,由于通常,这样;当ecmt-1 >0时(即出现正误差),误差修正项< 0,而ecmt-1 < 0时(即出现负误差),> 0,两者的方向恰好相反,所以,误差修正是一个反向调整过程(负反馈机制)。
误差修正模型有以下几个明确的含义:1.均衡的偏差调整机制2.协整与长期均衡的关系3.经济变量的长期与短期变化模型长期趋势模型:短期波动模型:三、误差修正模型的估计建立ECM的具体步骤为:1.检验被解释变量y与解释变量x(可以是多个变量)之间的协整性;2.如果y与x存在协整关系,估计协整回归方程,计算残差序列e t:3.将e t-1作为一个解释变量,估计误差修正模型:说明:(1)第1步协整检验中,如果残差是确定趋势过程,可以在第2步的协整回归方程中加入趋势变量;(2)第2步可以估计动态自回归分布滞后模型:此时,长期参数为:协整回归方程和残差也相应取成:,(3)第2步估计出ECM之后,可以检验模型的残差是否存在长期趋势和自相关性。
如果存在长期趋势,则在ECM中加入趋势变量。
如果存在自相关性,则在ECM的右端加入的滞后项来消除自相关性,误差修正项的滞后期一般也要作相应调整。
如取成以下形式:由于模型中的各项都是平稳变量,所以可以用t检验判断各项的显著性,逐个剔除其中不显著的变量,当然误差修正项要尽可能保留。
【例5-3】建立例5-2中我国货币供应量与国民收入的误差修正模型。
协整关系。
在例5-2中已经得到我国货币供应量和国民收入的对数都是一阶单整变量,而且是协整的;所以,直接估计误差修正模型(设残差序列是):LS D(LX D(LX E(-1估计结果如图5-9所示,误差修正项的符号是负的,但是t 检验不显著。
对模型的残差序列进行自相关检验,DW检验和BG检验结果都说明存在一阶自相关;所以,点击方程窗口的Estimate按钮,在方程描述框中重新定义待估方程:D(LX D(LX E(-1 D(LX(-1 D(LY(-1根据输出结果,剔除其中不显著的,得到图5-10的估计结果。
模型中误差修正项的符号是负的,而且各项的t检验显著,所以,我国货币供应量的误差修正模型为:(4.87)(-2.92)(-2.58)R2=0.4693 SE=0.0603 DW=0.9649图5-9 ECM的最初估计结果图5-10 ECM的最终估计结果案例分析:我国金融发展与经济增长的协整分析表5-4中列出了1989~2006年期间我国国内生产总值指数(1978=100)、货币供应量M2(亿元)、金融机构年末贷款余额(亿元)和商品零售价格指数(1978=100)的统计资料。
现以货币供应量和贷款余额反映金融的发展情况,分析金融发展与经济增长的协整关系,以及相应的误差修正模型。
表5-4 我国1989~2006年统计资料年份国内生广义货贷款余商品零产总值Y 币M2额L 售价格指数P1 989271.312716.914360.123.41 99281.715293.417680.727.71 991307.619349.921337.8213.71 992351.425402.226322.9225.21 993400.434879.832943.1254.91 994452.846923.539976.0310.21 995502.360750.550544.1356.11 996552.676094.961156.6377.81 997603.990995.374914.1380.8165110448379 9 8.2 98.5 6524.10.9 19 9 9700.9119897.993734.3359.8 20 0 0759.9134610.499371.1354.4 20 0 1823.0158301.9112314.7351.6 20 0 2897.8185007.0131293.9347.0 20 0987.8221222.815899346.3 6.2 72 041087.4254107.0178197.8356.42 051200.8298755.7194690.0359.32 061334.345603.6225347.0362.91.数据处理与单整性检验为消除价格因素的影响,将货币供应量M2和贷款余额L 都除以物价指数P,得到实际货币量;同时为了将各项指标的变化趋势转变成线性趋势,对所有变量都取对数。
变量的处理过程为:GENR LY=LOG(YGENR LMP=LOG(M2/PGENR LLP=LOG(L/P模型形式为:对模型中的变量进行单位根检验,表5-5列出了有关检验结果。
该表是另外一种常用的检验结果表现形式,其中,p表示麦金农单侧概率值,即ADF统计量对应的伴随概率;在ADF统计量值上的*号,表示检验的显著情况:无*号表示不显著,***、**、*分别表示在1%、5%、10%的显著水平下显著。
表5-5的检验结果表明,所有变量都是确定趋势过程,此时不需要再对各个变量的一阶差分进行单位根检验了,即都~I(1。
表5-5 单位根检验输出结果变量(c,t,m)ADF检验值pLY (c,t,3)-3.6044* 0.0582LMP (c,t,2)-8.1469*** 0.0000LLP (c,t,1)-3.9926** 0.02912.协整性检验估计协整回归方程,由于模型中变量都含有长期趋势,所以在原模型中再加上取食变量T,键入命令:LS LY C LMP LLP T,估计结果如图5-11所示。
图5-11 协整回归方程估计结果(1)由于模型中LMP与LLP高度相关,多重共线性的影响使得贷款变量的系数符号为负,经济意义不合理。
经过多个模型的测算,最终将LMP与LLP合并成一个变量表示金融的发展规模,得到如图5-12所示的估计结果。
图5-12 协整回归方程估计结果(2)在方程窗口中点击Proc \Make Residual Series,生成残差序列(设变量名为E);进一步检验残差序列的平稳性(检验结果见图5-13),在1%的显著水平下,残差序列是平稳的。
所以,根据EG两步检验法,lnGDP与实际货币和实际贷款(的对数)之间存在着协整关系。
协整回归方程为:图5-13 残差序列E的平稳性检验结果3.建立误差修正模型为表示简单起见,设:LX=LMP+LLP;键入命令:GENR LX=LMP+LLPLS D(LY E(-1输出结果显示Et-1的系数不显著,对模型进行残差检验,发现存在一阶自相关性;所以,在模型中再加入LY和LX的滞后项,利用t检验剔除不显著变量后,得到ECM的最后估计结果(见图5-14)。
图5-14 ECM的最终估计结果所以,我国经济增长与金融发展的关系模型可以表述成:长期均衡关系:短期波动模型:。