经典线性回归模型的诊断与修正
- 格式:docx
- 大小:398.77 KB
- 文档页数:8
经典线性回归模型经典回归模型在涉及到时间序列时,通常存在以下三个问题:1)非平稳性→ ADF单位根检验→ n阶单整→取原数据序列的n阶差分(化为平稳序列)2)序列相关性→D.W.检验/相关图/Q检验/LM检验→n阶自相关→自回归ar(p)模型修正3)多重共线性→相关系数矩阵→逐步回归修正注:以上三个问题中,前两个比较重要。
整体回归模型的思路:1)确定解释变量和被解释变量,找到相关数据。
数据选择的时候样本量最好多一点,做出来的模型结果也精确一些。
2)把EXCEL里的数据组导入到Eviews里。
3)对每个数据序列做ADF单位根检验。
4)对回归的数据组做序列相关性检验。
5)对所有解释变量做多重共线性检验。
6)根据上述结果,修正原先的回归模型。
7)进行模型回归,得到结论。
Eviews具体步骤和操作如下。
一、数据导入1)在EXCEL中输入数据,如下:除去第一行,一共2394个样本。
2)Eviews中创建数据库:File\new\workfile, 接下来就是这个界面(2394就是根据EXCEL里的样本数据来),OK3)建立子数据序列程序:Data x1再enter键就出来一个序列,空的,把EXCEL里对应的序列复制过来,一个子集就建立好了。
X1是回归方程中的一个解释变量,也可以取原来的名字,比如lnFDI,把方程中所有的解释变量、被解释变量都建立起子序列。
二、ADF单位根检验1)趋势。
打开一个子数据序列,先判断趋势:view\graph,出现一个界面,OK。
得到类似的图,下图就是有趋势的时间序列。
X1.4.2.0-.2-.4-.6-.8100020003000400050002)ADF检验。
直接在图形的界面上进行操作,view\unit root test,出现如下界面。
在第二个方框内根据时序的趋势选择,Intercept指截距,Trend为趋势,有趋势的时序选择第二个,OK,得到结果。
上述结果中,ADF值为-3.657113,t统计值小于5%,即拒绝原假设,故不存在单位根。
线性回归模型的建模与分析方法线性回归模型是一种常用的统计学方法,用于研究自变量与因变量之间的关系。
在本文中,我们将探讨线性回归模型的建模与分析方法,以及如何使用这些方法来解决实际问题。
一、线性回归模型的基本原理线性回归模型假设自变量与因变量之间存在线性关系,即因变量可以通过自变量的线性组合来预测。
其基本形式可以表示为:Y = β0 + β1X1 + β2X2 + ... + βnXn + ε其中,Y表示因变量,X1、X2、...、Xn表示自变量,β0、β1、β2、...、βn表示回归系数,ε表示误差项。
二、线性回归模型的建模步骤1. 收集数据:首先需要收集自变量和因变量的相关数据,确保数据的准确性和完整性。
2. 数据预处理:对数据进行清洗、缺失值处理、异常值处理等预处理步骤,以确保数据的可靠性。
3. 模型选择:根据实际问题和数据特点,选择适合的线性回归模型,如简单线性回归模型、多元线性回归模型等。
4. 模型拟合:使用最小二乘法等方法,拟合回归模型,得到回归系数的估计值。
5. 模型评估:通过统计指标如R方值、调整R方值、残差分析等,评估模型的拟合优度和预测能力。
6. 模型应用:利用已建立的模型进行预测、推断或决策,为实际问题提供解决方案。
三、线性回归模型的分析方法1. 回归系数的显著性检验:通过假设检验,判断回归系数是否显著不为零,进一步判断自变量对因变量的影响是否显著。
2. 多重共线性检验:通过计算自变量之间的相关系数矩阵,判断是否存在多重共线性问题。
若存在多重共线性,需要进行相应处理,如剔除相关性较高的自变量。
3. 残差分析:通过观察残差的分布情况,判断模型是否符合线性回归的基本假设,如误差项的独立性、正态性和方差齐性等。
4. 模型诊断:通过观察残差图、QQ图、杠杆值等,判断是否存在异常值、离群点或高杠杆观测点,并采取相应措施进行修正。
5. 模型优化:根据模型评估结果,对模型进行优化,如引入交互项、非线性变换等,以提高模型的拟合效果和预测准确性。
线性回归(异方差的诊断、检验和修补)—SPSS操作首先拟合一般的线性回归模型,绘制残差散点图。
步骤和结果如下:为方便,只做简单的双变量回归模型,以当前工资作为因变量,初始工资作为自变量。
(你们自己做的时候可以考虑加入其他的自变量,比如受教育程度等等)Analyze——regression——linear将当前工资变量拉入dependent框,初始工资进入independent点击上图中的PLOTS,出现以下对话框:以标准化残差作为Y轴,标准化预测值作为X轴,点击continue,再点击OK第一个表格输出的是模型拟合优度2R,为0.775。
调整后的拟合优度为0.774.第二个是方差分析,可以说是模型整体的显著性检验。
F统计量为1622.1,P值远小于0.05,故拒绝原假设,认为模型是显著的。
第三个是模型的系数,constant代表常数项,初始工资前的系数为1.909,t检验的统计量为40.276,通过P值,发现拒绝原假设,认为系数显著异于0。
以上是输出的残差对预测值的散点图,发现存在喇叭口形状,暗示着异方差的存在,故接下来进行诊断,一般需要诊断异方差是由哪个自变量引起的,由于这里我们只选用一个变量作为自变量,故认为异方差由唯一的自变量“初始工资”引起。
接下来做加权的最小二乘法,首先计算权数。
Analyze——regression——weight estimation再点击options,点击continue,再点击OK,输出如下结果:由于结果比较长,只贴出一部分,第二栏的值越大越好。
所以挑出来的权重变量的次数为2.7。
得出最佳的权重侯,即可进行回归。
Analyze——regression——linear继续点击save,在上面两处打勾,点击continue,点击ok这是输出结果,和之前同样的分析方法。
接下需要绘制残差对预测值的散点图,首先通过transform里的compute计算考虑权重后的预测值和残差。
DOI:10.13546/ki.t j y j c.2019.24.001基于残差分析的线性回归模型的诊断与修正胡菊华(江西农业大学理学院,南昌330045)摘要:残差蕴含了线性回归模型基本假定的许多重要信息,文章通过分析残差,探讨回归模型基本假定的适应性和模型的合理性问题。
以预测某一类型的肝手术病人的生存时间为例,利用残差的特点反推数据的适用性和模型的合理性。
通过相应的措施实施改进,建立“最优”回归模型,减少盲目尝试修改模型的做法,为模型优化提供方向,为问题解决提供有效途径。
关键词:残差分析;残差图;线性回归模型中图分类号:0221.1 文献标识码:A 文章编号:1002-6487(2019)24-0005-04〇引言随着统计软件的普及,回归分析再次受到人们的重 视,它已成为各个领域中科技人员分析数据的一种常用工 具,但在实际应用中往往对回归分析的适用性以及违反了 模型假设条件的处理重视不够,简单套用的情况时有发 生。
解决这一问题的方法就是进行回归诊断。
自19世纪 70年代起,F.J.Anscombe和J.W.Tukey等学者进行了回归 诊断方面的研究,而残差分析在考察回归模型假设条件的 合理性及模型的适应性方面有独特的优势。
£■(£,.)= 〇;③D(e,)= f f2 ,称之为齐方差性假定。
如果该项 假定不满足,则称之为异方差问题;④C〇v(e,_,e;) =0,(!'#人~'=1,2,〜,《),如果不满足该项假定,称之为 自相关问题。
如何考察数据是否满足这些基本假定呢?由于这些 假设主要都是针对随机误差项e提出的,所以要从分析随 机误差项e的估计量(残差)人手,通过对残差及残差图的 分析来考察模型假设的适用性和模型的合理性。
2残差分析的相关理论1线性回归模型及其基本假定设线性回归模型的矩阵形式为:Y=Xp+eE(s)= 0,cov(e)= a2/ (1)在模型(l)中,称y为观测向量,称x为设计矩阵,称A为回归系数,称e为随机误差向量,称£(e)= 0和cov(e)= <j2/…为高斯-马可夫条件。
语言的线性回归模型诊断基于R20151013刘顺祥每天进步一点点2015我们接着上篇文章《R语言下的线性回归模型》开始讲解线性模型诊断方面的操作。
我们说过,线性模型的参数估计采用了最小二乘法的思想,但基于该思想是有前提假设的:1)正态性假设:随机误差项服从均值为0,标准差为sigma的正态分布;2)独立性:因变量y之间相互独立,即互不影响;3)线性关系:因变量与自变量之间必须满足线性相关;4)同方差性:随机误差项满足方差齐性;只有线性模型满足以上几个假设条件,通过最小二乘法得到的结果才可能比较准确。
首先看一下多元线性模型的参数估计:该模型除了Income和HS Grad变量没有通过显著性检验以外,剩余变量都是显著的,并且模型也通过检验,5个自变量解释了79%的因变量,似乎模型还能说的过去。
接下来就对该模型做进一步的验证。
1、模型残差的正态性假设正态性检验可以使用《定性与定量的单变量正态性检验》中自定义函数norm.test。
通过定性与定量的结果显示,模型的误差项满足正态性的假设。
如果误差项不满足正态性检验,那么可以考虑对因变量采取BoxCox转换(由于误差项是随机变量,因变量也是随机变量,如果误差项不满足正态性假设,也就意味着因变量也不满足正态性假设)。
关于BoxCox转换可以使用car包中的powerTransform()函数。
常见的转换形式可见如下表格:从上图发现,需要变换的参数估计值为0.6,比较接近常见变换中的0.5,所以可以考虑将因变量Y变换为Y的开根号。
但这里没有不建议这样操作,因为模型中的误差项已经服从正态分布了。
有关norm.test自定义函数的脚本可以到此处下载:/cH7dXVnCPRqKs 访问密码 f11e2、独立性假设对于截面数据,检验个体间是否相互独立,一般通过收集到的数据本身进行验证,无法直接定量得出。
例如不同用户的购买习惯、网页浏览情况等。
在计量经济学建模实践中,研究者都力所能及的令所创建的模型满足经典线性回归模型的所有基本假定,因为只有这样,该模型的参数估计才具有一系列的优良统计性质,与之相关的各种假设检验才精确可靠,模型总体l来讲也才具有最佳的应用价值,否则,模型将或多或少存在着不足之处,使得其应用性能大打折扣。
为什么计量经济学模型需要这些基本假定呢这些假定又具有什么样的意义呢对于这些最基本的问题,笔者将结合计量经济学的教学实践经验以及对该学科的理解,来对计量经济学经典线性回归模型的基本假定作出通俗的解释。
1.计量经济学模型需要完美性辨证唯物主义告诉我们,不管是什么偶然的现象,其背后都有必然的规律性在起着支配作用,世界是偶然性与必然性的辩证统一。
科学研究的目的,即是在诸多的偶然性现象中发现其不变的必然性,从而推动人类物质文明和精神文明的进步。
计量经济学的研究也不例外,其目的是为了在复杂多变的经济现象中发现其不变的本质,从而获得对特定经济系统的规律性认识,为经济发展与社会进步服务。
计量经济学通过创建数学模型来揭示经济现象的数量规律,从而弥补了以逻辑推理和文字描述为主、缺乏定量分析的经济理论的不足。
以研究商品需求为例,传统的经济学理论“需求定律”只能告诉我们商品需求与价格之间具有反向变动的关系,但无法告诉我们当价格变化一定量时,需求会随之变化多少量,而计量经济学的建模分析则能够把两者之间的定量关系估计出来,这种能力是其他经济学理论所不能替代的。
既然计量经济学建模分析的目的是通过创建适当的数学模型来揭示经济变量之间的数量规律性,那么计量经济学就必须首先要回答这样一个问题一一“我们到底需要一个什么样的计量经济学模型”这个问题的答案是显而易见的,那就是,我们需要一个“尽可能完全揭示经济变量之间的数量规律性”(以下称“第一大完美性特征”)并且“便于进行研究” (以下称“第二大完美性特征”)的计量经济学模型。
这里的“便于进行研究”是指便于进行参数估计和假设检验,并且便于进行数学推导。
一、数据来源
数据:国家统计局(1981~2010年国内生产总值与固定资产投资)软件版本:EVIEWS7.2
二、回归结果
1、一元线性回归:
三、模型诊断与修正
DW检验:相关系数δ=0.8546,查表得,
1.35
1.49
L
U
d
d
=
=
经检验,DW<1.35,自变量呈一阶正自
相关
四、广义差分法修正后的结果
对E 进行滞后一期的自回归,可得回归方程:E=0.9337E(-1)
对原模型进行广义差分,输出结果为:
**ˆˆ6981.723 1.002749t t y x =+
由于使用广义差分数据,样本容量减少了1个,为29个。
查5%的显著性水平的DW
统计表可知, 1.341.48
L U d d ==,模型中的4-DU>DW>DU ,所以广义差分模型已无序列相关。
根据()1ˆˆ16981.723βρ-=,可得1
ˆ=105305.023β。
因此,原回归模型应为 105305.023 1.002749t t y x =+
采用普莱斯-文斯滕变换后第一个观测值变为211y δ-为1750.7019和211x δ-为344.1377,变换后普通最小二乘结果为**ˆˆ7555.503 1.0611t t y
x =+,根据()1ˆˆ17555.503βρ-=,得1
ˆ=113959.321β,由此,最终模型是 ˆ113959.321 1.0611t t y
x =+。
经典线性回归模型的诊断与修正下表为最近20年我国全社会固定资产投资与GDP的统计数据:1
年份国内生产总值(亿元)GDP 全社会固定资产投资(亿元)PI
1996 71813.6 22913.5
1997 79715 24941.1
1998 85195.5 28406.2
1999 90564.4 29854.7
2000 100280.1 32917.7
2001 110863.1 37213.49
2002 121717.4 43499.91
2003 137422 55566.61
2004 161840.2 70477.43
2005 187318.9 88773.61
2006 219438.5 109998.16
2007 270232.3 137323.94
2008 319515.5 172828.4
2009 349081.4 224598.77
2010 413030.3 251683.77
2011 489300.6 311485.13
2012 540367.4 374694.74
2013 595244.4 446294.09 1数据来源于国家统计局网站年度数据
1、普通最小二乘法回归结果如下:
方程初步估计为:
GDP=75906.54+1.1754PI
(32.351)
R2=0.9822F=1046.599 DW=0.3653
2、异方差的检验与修正
首先,用图示检验法,生成残差平方和与解释变量PI的散点图如下:
从上图可以看出,残差平方和与解释变量的散点图主要分布在图形的下半部分,有随PI的变动增大的趋势,因此,模型可能存在异方差。
但是否确定存在异方差,还需作进一步的验证。
G-Q检验如下:
去除序列中间约1/4的部分后,1996-2003年的OLS估计结果如下所示:
残差平方和RSS1=4274.201.
2008-2015年的OLS估计结果如下:
残差平方和RSS2=2.39E+09.
根据G-Q检验,F统计量为
=2.39∗109/4274.201=559168.836>F0.057,7=3.79 F=RSS2
RSS1
因此,在5%的显著性水平下拒绝两组子样本方差相同的假设,即存在异方差。
Gleiser检验结果如下
参数的估计值显著地不为0,则可以认定模型存在着异方差。
异方差的修正:
运用加权最小二乘法对异方差进行修正
对加权后的模型进行异方差检验,结果如下:
已知White统计量n R2=3.682,由于χ20.052=5.991>3.682,因此,可以判断在给定
显著性水平0.05的情况下,加权后的模型不再存在异方差,说明异方差性已经消除。
3、序列相关性的检验与修正
序列相关性的检验如下:
做残差与残差滞后一期的散点图:
可以看出,E与E(-1)逐渐合拢,因此残差与其滞后一期的残差存在序列相关性。
D-W检验:
从OLS估计结果中可直接得到DW值为0.3653,给定α=0.05,已知n=20,k=2,查DW检验临界值表可得,d l=1.20,d u=1.41,由0.3653<1.20可知模型存在正自相关。
序列相关性的修正:
利用广义差分法,由于ρ=1−DW
2=1−0.3653
2
=0.8174,有估计结果如下:
在新序列估计结果下,d u=1.41<DW=1.577<4-d u=4−1.41=2.59,故不再存在序列相关性,自相关已经得到消除。
运用Cochrane-Orcutt迭代法进行自相关的修正:
根据结果可知,d u=1.41<DW=1.7687<4-d u=4−1.41=2.59,故不再存在自相关。