经典线性回归模型的诊断与修正
- 格式:doc
- 大小:423.00 KB
- 文档页数:6
R--线性回归诊断(⼀)线性回归诊断--R【转载时请注明来源】:Ljt 勿忘初⼼⽆畏未来作为⼀个初学者,⽔平有限,欢迎交流指正。
在R中线性回归,⼀般使⽤lm函数就可以得到线性回归模型,但是得到的模型到底合不合适?在我们使⽤所得到的线性模型之前就需要进⾏回归诊断。
线性回归的诊断,主要是检验线性回归模型的假设是否成⽴。
线性回归模型 y=Θ0+Θ1x1+Θ2x2+.......+Θm x m+ε(⾃变量与因变量之间是线性关系)基本假设:(1)随机⼲扰项ε服从零均值,同⽅差,零协⽅差(相互独⽴)的正态分布E(εi)=0 ; var(εi)=σ2 ;cov(εi , εj)=0 ;εi~N(0,σ2)(2)随机⼲扰项ε与解释变量间不相关cov(X i , εi) =0(⼀)显著性检验(1)回归⽅程显著性 F 检验:看⾃变量 X1 , X2 .....X m 从整体上对随机变量Y是否有明显的影响。
原假设 H0:Θ1 =Θ2=.....=Θm=0 (H0 若被接受则表明随机变量Y与X1 , X2 .....X m 之间的关系由线性回归模型表⽰不合适)P值<α : 拒绝原假设。
即在显著性⽔平α下,Y 与 X1 , X2 .....X m 有显著的线性关系,回归⽅程是显著的。
(⾃变量全体对因变量产⽣线性影响)(2)回归系数显著性 t 检验:看单个的⾃变量 X i 对Y是否有明显影响。
原假设 H0i:Θi =0 (H0i若被接受则表明⾃变量X i 对因变量Y的线性效果不显著)P值<α : 拒绝原假设。
即在显著性⽔平α下,Y 与 X i有显著的线性关系。
对于⼀元线性回归这两种检验是等价的;对于多元线性回归,这两种检验是不等价的:F检验显著,说明Y对⾃变量X1 , X2 .....X m整体的线性回归效果是显著的,但不等于Y对每个⾃变量X i 的效果都显著;反之,某个或某⼏个X i的系数不显著,回归⽅程显著性的F检验仍然有可能是显著的。
一、数据来源
数据:国家统计局(1981~2010年国内生产总值与固定资产投资)软件版本:EVIEWS7.2
二、回归结果
1、一元线性回归:
三、模型诊断与修正
DW检验:相关系数δ=0.8546,查表得,
1.35
1.49
L
U
d
d
=
=
经检验,DW<1.35,自变量呈一阶正自
相关
四、广义差分法修正后的结果
对E 进行滞后一期的自回归,可得回归方程:E=0.9337E(-1)
对原模型进行广义差分,输出结果为:
**ˆˆ6981.723 1.002749t t y x =+
由于使用广义差分数据,样本容量减少了1个,为29个。
查5%的显著性水平的DW
统计表可知, 1.341.48
L U d d ==,模型中的4-DU>DW>DU ,所以广义差分模型已无序列相关。
根据()1ˆˆ16981.723βρ-=,可得1
ˆ=105305.023β。
因此,原回归模型应为 105305.023 1.002749t t y x =+
采用普莱斯-文斯滕变换后第一个观测值变为211y δ-为1750.7019和211x δ-为344.1377,变换后普通最小二乘结果为**ˆˆ7555.503 1.0611t t y
x =+,根据()1ˆˆ17555.503βρ-=,得1
ˆ=113959.321β,由此,最终模型是 ˆ113959.321 1.0611t t y
x =+。
线性回归模型的经典假定及检验、修正一、线性回归模型的基本假定1、一元线性回归模型一元线性回归模型是最简单的计量经济学模型,在模型中只有一个解释变量,其一般形式是Y =β0+β1X 1+μ其中,Y 为被解释变量,X 为解释变量,β0与β1为待估参数,μ为随机干扰项。
回归分析的主要目的是要通过样本回归函数(模型)尽可能准确地估计总体回归函数(模型)。
为保证函数估计量具有良好的性质,通常对模型提出若干基本假设。
假设1:回归模型是正确设定的。
模型的正确设定主要包括两个方面的内容:(1)模型选择了正确的变量,即未遗漏重要变量,也不含无关变量;(2)模型选择了正确的函数形式,即当被解释变量与解释变量间呈现某种函数形式时,我们所设定的总体回归方程恰为该函数形式。
假设2:解释变量X 是确定性变量,而不是随机变量,在重复抽样中取固定值。
这里假定解释变量为非随机的,可以简化对参数估计性质的讨论。
假设3:解释变量X 在所抽取的样本中具有变异性,而且随着样本容量的无限增加,解释变量X 的样本方差趋于一个非零的有限常数,即∑(X i −X ̅)2n i=1n→Q,n →∞ 在以因果关系为基础的回归分析中,往往就是通过解释变量X 的变化来解释被解释变量Y 的变化的,因此,解释变量X 要有足够的变异性。
对其样本方差的极限为非零有限常数的假设,旨在排除时间序列数据出现持续上升或下降的变量作为解释变量,因为这类数据不仅使大样本统计推断变得无效,而且往往产生伪回归问题。
假设4:随机误差项μ具有给定X 条件下的零均值、同方差以及无序列相关性,即E(μi|X i)=0Var(μi|X i)=σ2Cov(μi,μj|X i,X j)=0, i≠j随机误差项μ的条件零均值假设意味着μ的期望不依赖于X的变化而变化,且总为常数零。
该假设表明μ与X不存在任何形式的相关性,因此该假设成立时也往往称X为外生性解释变量随机误差项μ的条件同方差假设意味着μ的方差不依赖于X的变化而变化,且总为常数σ2。
经典线性回归模型经典回归模型在涉及到时间序列时,通常存在以下三个问题:1)非平稳性→ ADF单位根检验→ n阶单整→取原数据序列的n阶差分(化为平稳序列)2)序列相关性→D.W.检验/相关图/Q检验/LM检验→n阶自相关→自回归ar(p)模型修正3)多重共线性→相关系数矩阵→逐步回归修正注:以上三个问题中,前两个比较重要。
整体回归模型的思路:1)确定解释变量和被解释变量,找到相关数据。
数据选择的时候样本量最好多一点,做出来的模型结果也精确一些。
2)把EXCEL里的数据组导入到Eviews里。
3)对每个数据序列做ADF单位根检验。
4)对回归的数据组做序列相关性检验。
5)对所有解释变量做多重共线性检验。
6)根据上述结果,修正原先的回归模型。
7)进行模型回归,得到结论。
Eviews具体步骤和操作如下。
一、数据导入1)在EXCEL中输入数据,如下:除去第一行,一共2394个样本。
2)Eviews中创建数据库:File\new\workfile, 接下来就是这个界面(2394就是根据EXCEL里的样本数据来),OK3)建立子数据序列程序:Data x1再enter键就出来一个序列,空的,把EXCEL里对应的序列复制过来,一个子集就建立好了。
X1是回归方程中的一个解释变量,也可以取原来的名字,比如lnFDI,把方程中所有的解释变量、被解释变量都建立起子序列。
二、ADF单位根检验1)趋势。
打开一个子数据序列,先判断趋势:view\graph,出现一个界面,OK。
得到类似的图,下图就是有趋势的时间序列。
X1.4.2.0-.2-.4-.6-.8100020003000400050002)ADF检验。
直接在图形的界面上进行操作,view\unit root test,出现如下界面。
在第二个方框内根据时序的趋势选择,Intercept指截距,Trend为趋势,有趋势的时序选择第二个,OK,得到结果。
上述结果中,ADF值为-3.657113,t统计值小于5%,即拒绝原假设,故不存在单位根。
线性回归模型的建模与分析方法线性回归模型是一种常用的统计学方法,用于研究自变量与因变量之间的关系。
在本文中,我们将探讨线性回归模型的建模与分析方法,以及如何使用这些方法来解决实际问题。
一、线性回归模型的基本原理线性回归模型假设自变量与因变量之间存在线性关系,即因变量可以通过自变量的线性组合来预测。
其基本形式可以表示为:Y = β0 + β1X1 + β2X2 + ... + βnXn + ε其中,Y表示因变量,X1、X2、...、Xn表示自变量,β0、β1、β2、...、βn表示回归系数,ε表示误差项。
二、线性回归模型的建模步骤1. 收集数据:首先需要收集自变量和因变量的相关数据,确保数据的准确性和完整性。
2. 数据预处理:对数据进行清洗、缺失值处理、异常值处理等预处理步骤,以确保数据的可靠性。
3. 模型选择:根据实际问题和数据特点,选择适合的线性回归模型,如简单线性回归模型、多元线性回归模型等。
4. 模型拟合:使用最小二乘法等方法,拟合回归模型,得到回归系数的估计值。
5. 模型评估:通过统计指标如R方值、调整R方值、残差分析等,评估模型的拟合优度和预测能力。
6. 模型应用:利用已建立的模型进行预测、推断或决策,为实际问题提供解决方案。
三、线性回归模型的分析方法1. 回归系数的显著性检验:通过假设检验,判断回归系数是否显著不为零,进一步判断自变量对因变量的影响是否显著。
2. 多重共线性检验:通过计算自变量之间的相关系数矩阵,判断是否存在多重共线性问题。
若存在多重共线性,需要进行相应处理,如剔除相关性较高的自变量。
3. 残差分析:通过观察残差的分布情况,判断模型是否符合线性回归的基本假设,如误差项的独立性、正态性和方差齐性等。
4. 模型诊断:通过观察残差图、QQ图、杠杆值等,判断是否存在异常值、离群点或高杠杆观测点,并采取相应措施进行修正。
5. 模型优化:根据模型评估结果,对模型进行优化,如引入交互项、非线性变换等,以提高模型的拟合效果和预测准确性。
DOI:10.13546/ki.t j y j c.2019.24.001基于残差分析的线性回归模型的诊断与修正胡菊华(江西农业大学理学院,南昌330045)摘要:残差蕴含了线性回归模型基本假定的许多重要信息,文章通过分析残差,探讨回归模型基本假定的适应性和模型的合理性问题。
以预测某一类型的肝手术病人的生存时间为例,利用残差的特点反推数据的适用性和模型的合理性。
通过相应的措施实施改进,建立“最优”回归模型,减少盲目尝试修改模型的做法,为模型优化提供方向,为问题解决提供有效途径。
关键词:残差分析;残差图;线性回归模型中图分类号:0221.1 文献标识码:A 文章编号:1002-6487(2019)24-0005-04〇引言随着统计软件的普及,回归分析再次受到人们的重 视,它已成为各个领域中科技人员分析数据的一种常用工 具,但在实际应用中往往对回归分析的适用性以及违反了 模型假设条件的处理重视不够,简单套用的情况时有发 生。
解决这一问题的方法就是进行回归诊断。
自19世纪 70年代起,F.J.Anscombe和J.W.Tukey等学者进行了回归 诊断方面的研究,而残差分析在考察回归模型假设条件的 合理性及模型的适应性方面有独特的优势。
£■(£,.)= 〇;③D(e,)= f f2 ,称之为齐方差性假定。
如果该项 假定不满足,则称之为异方差问题;④C〇v(e,_,e;) =0,(!'#人~'=1,2,〜,《),如果不满足该项假定,称之为 自相关问题。
如何考察数据是否满足这些基本假定呢?由于这些 假设主要都是针对随机误差项e提出的,所以要从分析随 机误差项e的估计量(残差)人手,通过对残差及残差图的 分析来考察模型假设的适用性和模型的合理性。
2残差分析的相关理论1线性回归模型及其基本假定设线性回归模型的矩阵形式为:Y=Xp+eE(s)= 0,cov(e)= a2/ (1)在模型(l)中,称y为观测向量,称x为设计矩阵,称A为回归系数,称e为随机误差向量,称£(e)= 0和cov(e)= <j2/…为高斯-马可夫条件。
线性回归(异方差的诊断、检验和修补)—S P S S操作-CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN线性回归(异方差的诊断、检验和修补)—SPSS操作首先拟合一般的线性回归模型,绘制残差散点图。
步骤和结果如下:为方便,只做简单的双变量回归模型,以当前工资作为因变量,初始工资作为自变量。
(你们自己做的时候可以考虑加入其他的自变量,比如受教育程度等等)Analyze——regression——linear将当前工资变量拉入dependent框,初始工资进入independent点击上图中的PLOTS,出现以下对话框:以标准化残差作为Y轴,标准化预测值作为X轴,点击continue,再点击OK第一个表格输出的是模型拟合优度2R,为0.775。
调整后的拟合优度为0.774.第二个是方差分析,可以说是模型整体的显着性检验。
F统计量为1622.1,P值远小于0.05,故拒绝原假设,认为模型是显着的。
第三个是模型的系数,constant代表常数项,初始工资前的系数为1.909,t检验的统计量为40.276,通过P值,发现拒绝原假设,认为系数显着异于0。
以上是输出的残差对预测值的散点图,发现存在喇叭口形状,暗示着异方差的存在,故接下来进行诊断,一般需要诊断异方差是由哪个自变量引起的,由于这里我们只选用一个变量作为自变量,故认为异方差由唯一的自变量“初始工资”引起。
接下来做加权的最小二乘法,首先计算权数。
Analyze——regression——weight estimation再点击options,点击continue,再点击OK,输出如下结果:由于结果比较长,只贴出一部分,第二栏的值越大越好。
所以挑出来的权重变量的次数为2.7。
得出最佳的权重侯,即可进行回归。
Analyze——regression——linear继续点击save,在上面两处打勾,点击continue,点击ok这是输出结果,和之前同样的分析方法。
回归分析中的线性模型选择与评估回归分析是统计学中一种重要的数据分析方法,用于探索自变量与因变量之间的关系。
在回归分析中,线性模型的选择与评估是非常关键的环节。
本文将介绍回归分析中的线性模型选择与评估的方法和步骤。
一、线性模型选择在线性回归分析中,线性模型的选择是基于变量之间的关系和模型的拟合程度。
常见的线性模型选择方法有以下几种:1. 前向选择法(Forward Selection):从一个空模型开始,逐步添加自变量,每次添加一个最相关的自变量,直到满足一定的准则为止。
2. 后向消元法(Backward Elimination):从一个包含所有自变量的完全模型开始,逐步剔除最不相关的自变量,直到满足一定的准则为止。
3. 逐步回归法(Stepwise Regression):结合前向选择法和后向消元法,既可以添加自变量,也可以剔除不相关的自变量。
4. 最优子集选择(Best Subset Selection):遍历所有可能的子集模型,通过比较其拟合优度和准则选择最优的子集模型。
在选择线性模型时,需要考虑以下几个因素:1. 自变量与因变量之间的相关性:选择与因变量相关性较高、影响较大的自变量。
2. 自变量之间的共线性:避免选择存在共线性问题的自变量,以免降低模型的稳定性和可靠性。
3. 模型的解释力:选择能够提供较好解释因变量变化的自变量。
二、线性模型评估在选择线性模型后,需要对模型进行评估,判断其拟合程度和可靠性。
常用的线性模型评估方法有以下几种:1. 残差分析:通过分析模型的残差(观测值与模型预测值之间的差异)来评估模型的拟合程度和误差。
2. 拟合优度检验:利用F检验或多重判定系数R^2来判断模型是否能够解释因变量的变异。
3. 参数估计与显著性检验:对模型的系数进行估计,并进行显著性检验,判断模型中的自变量是否对因变量有统计显著影响。
4. 多重共线性检验:通过计算VIF(方差膨胀因子)来评估模型中自变量之间的共线性程度。
经典线性回归模型的诊断与修正下表为最近20年我国全社会固定资产投资与GDP的统计数据:1
年份国内生产总值(亿元)GDP 全社会固定资产投资(亿元)PI
1996
199779715
1998
1999
2000
2001
2002
2003137422
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014643974
2015
1、普通最小二乘法回归结果如下:
方程初步估计为:
GDP=+
1数据来源于国家统计局网站年度数据
F= DW=
2、异方差的检验与修正
首先,用图示检验法,生成残差平方和与解释变量PI的散点图如下:
从上图可以看出,残差平方和与解释变量的散点图主要分布在图形的下半部分,有随PI的变动增大的趋势,因此,模型可能存在异方差。
但是否确定存在异方差,还需作进一步的验证。
G-Q检验如下:
去除序列中间约1/4的部分后,1996-2003年的OLS估计结果如下所示:
残差平方和RSS1=.
2008-2015年的OLS估计结果如下:
残差平方和RSS2=+09.
根据G-Q检验,F统计量为
F=>
因此,在5%的显著性水平下拒绝两组子样本方差相同的假设,即存在异方差。
Gleiser检验结果如下
参数的估计值显著地不为0,则可以认定模型存在着异方差。
异方差的修正:
运用加权最小二乘法对异方差进行修正
对加权后的模型进行异方差检验,结果如下:
已知 White统计量n,由于>,因此,可以判断在给
定显著性水平的情况下,加权后的模型不再存在异方差,说明异方差性已经消除。
3、序列相关性的检验与修正
序列相关性的检验如下:
做残差与残差滞后一期的散点图:
可以看出,E与E(-1)逐渐合拢,因此残差与其滞后一期的残差存在序列相关性。
D-W检验:
从OLS估计结果中可直接得到DW值为,给定α=,已知n=20,k=2,查DW检验临界值表可得,,,由<可知模型存在正自相关。
序列相关性的修正:
利用广义差分法,由于,有估计结果如下:
在新序列估计结果下, <DW=<4-,故不再存在序列相关性,自相关已经得到消除。
运用Cochrane-Orcutt迭代法进行自相关的修正:
根据结果可知, <DW=<4-,故不再存在自相关。