当前位置:文档之家› 经典线性回归模型的Eviews操作

经典线性回归模型的Eviews操作

经典线性回归模型的Eviews操作
经典线性回归模型的Eviews操作

经典线性回归模型

经典回归模型在涉及到时间序列时,通常存在以下三个问题:

1)非平稳性→ ADF单位根检验→ n阶单整→取原数据序列的n阶差分(化为平稳序列)2)序列相关性→D.W.检验/相关图/Q检验/LM检验→n阶自相关→自回归ar(p)模型修正3)多重共线性→相关系数矩阵→逐步回归修正

注:以上三个问题中,前两个比较重要。

整体回归模型的思路:

1)确定解释变量和被解释变量,找到相关数据。数据选择的时候样本量最好多一点,做出来的模型结果也精确一些。

2)把EXCEL里的数据组导入到Eviews里。

3)对每个数据序列做ADF单位根检验。

4)对回归的数据组做序列相关性检验。

5)对所有解释变量做多重共线性检验。

6)根据上述结果,修正原先的回归模型。

7)进行模型回归,得到结论。

Eviews具体步骤和操作如下。

一、数据导入

1)在EXCEL中输入数据,如下:

除去第一行,一共2394个样本。

2)Eviews中创建数据库:

File\new\workfile, 接下来就是这个界面(2394就是根据EXCEL里的样本数据来),OK

3)建立子数据序列

程序:Data x1

再enter键就出来一个序列,空的,把EXCEL里对应的序列复制过来,一个子集就建立好了。X1是回归方程中的一个解释变量,也可以取原来的名字,比如lnFDI,把方程中所有的解释变量、被解释变量都建立起子序列。

二、ADF单位根检验

1)趋势。打开一个子数据序列,先判断趋势:view\graph,出现一个界面,OK。

得到类似的图,下图就是有趋势的时间序列。

-.8

-.6

-.4

-.2

.0

.2

.4

1000

2000

3000

4000

5000

X1

2)ADF 检验。直接在图形的界面上进行操作,view\unit root test ,出现如下界面。

在第二个方框内根据时序的趋势选择,Intercept 指截距,Trend 为趋势,有趋势的时序选择第二个,OK ,得到结果。

上述结果中,ADF值为-3.657113,t统计值小于5%,即拒绝原假设,故不存在单位根。若大于5%,则存在单位根。按照这个做法将所有的序列都操作一遍。

3)修正。倘若原序列存在单位根,就对原序列进行一阶差分。

程序:genr dx1=D(x1)

Enter键后,Eviews里会自动生成子序列dx1,x1只是解释变量,可以自己命名。再对该一阶差分序列进行ADF检验,若所得均显著,即为一阶单整序列,此序列不存在单位根。按照一阶单整序列建立模型,模型的数据序列是平稳的。

三、模型回归

程序:data y x1 x2

Y是模型的被解释变量,后面的解释变量随模型的具体情况而定。

Enter键,出来一个数据组合,我这里DX11做为被解释变量。

接下来是回归的操作。

点击Proc/make equation,出来界面,直接点确定。其中,dx11是被解释变量,其余都为解释变量。

得到结果,形式如下。

结果说明:coefficient是每个解释变量对应的系数,第四列是t统计值,最后一列是伴随概率。R-squared是拟合优度,下面那个是调整的拟合优度。

分析时遵循下列原则:

<1>模型总体拟合优度R2,一般而言50%以上就很好。这个说明的是方程解释变量总体对被解释变量的解释力度好,即你的模型建立的比较正确。F值和此类似,判断方法和t统计值的一样,看伴随概率。

<2>系数。看t值和伴随概率,如果伴随概率小于自己设定的显著性水平(1%、5%、10%),则拒绝原假设,说明该一个解释变量对被解释变量有显著的贡献度。

注:R2看的是整体(所有解释变量),t注重的是单个解释变量的贡献度。

四、序列相关性检验

序列相关性指的是模型回归后产生的残差序列(resid序列)具有自相关性,即前一个时间段的残差对现今的残差有影响,因此需要进行修正。方法有下列4种:D.W.统计量检验,相关图,Q检验,LM检验。可随机选一种,但要注意:D.W.检验法方便但比较粗糙,而且只能针对一阶自回归,无法进行高阶自回归的验证和模型自带滞后项的验证。LM检验能克服以上问题。另外,相关图和Q检验也较常用。

1)D.W.检验——只针对一阶自相关

DW值直接在模型回归结果中显示,下述红色值。

Sample (adjusted): 2 5957

Included observations: 5956 after adjustments

Variable Coefficient Std. Error t-Statistic Prob.

DX1 0.963865 0.006527 147.6794 0.0000

DX2 0.006964 0.001868 3.727361 0.0002

DX3 0.002006 0.001365 1.469924 0.1416

DX13 0.004876 0.001101 4.430584 0.0000

DX4 0.024139 0.006576 3.670863 0.0002

C 1.01E-06 4.96E-06 0.203737 0.8386

R-squared 0.994890 Mean dependent var 6.02E-05

Adjusted R-squared 0.994886 S.D. dependent var 0.005341

S.E. of regression 0.000382 Akaike info criterion -12.90144

Sum squared resid 0.000868 Schwarz criterion -12.89470

Log likelihood 38426.50 Hannan-Quinn criter. -12.89910

F-statistic 231679.7 Durbin-Watson stat 2.398212

Prob(F-statistic) 0.000000

2)相关图与Q检验

在模型回归后的界面上进行操作,view\Residual Diagnostics\Correlogram-Q-statistics

弹出对话框后直接OK,出现下述结果。

AC代表自相关系数,PAC表示偏自相关系数,判断模型是几阶自相关,看其AC和PAC 图形有多少超出区域,图中有临界值线,这张图不是很清楚。也可以观察Q值和伴随概率,若小于5%就显著,拒绝原假设。

但是,这个方法在一些模型结果中不太明显,所以不清楚的时候进行LM检验比较直观。3)LM统计量检验

同样,在回归结果界面操作,view\Residual Diagnostics\Serial Correlation LM test

弹出对话框,意在选择阶数,在不确定具体是几阶自相关时,可以一步一步来。

这是一阶的检验,结果中会给出RESID(-1)的结果,且t统计值的伴随概率Prob小于5%,即拒绝原假设(不存在自相关性),说明该模型存在自相关性。

继续进行二阶的检验,重复上述操作,在对话框输入2,得到结果。

仍然拒绝假设,再进行操作,直到RESID(-n)的t值不显著。

当进行到6阶的时候,RESID(-6)的t值不显著,故该模型的自相关阶数为5阶。

4)修正。对于自相关模型的修正,也有一系列方法,但是建立自回归模型ar(p)比较简单。操作如下,在原模型数据组界面进行操作,即进行简单回归的界面。

点击Proc/make equation,出来界面,根据模型自相关阶数,进行修改如下。

在出来的结果中,可以看到模型的拟合优度R2有所提高,且模型的DW值接近2。一般而言,DW值为2时说明该模型不存在自相关性。(可与上面的结果比较)

Dependent Variable: DX5

Method: Least Squares

Date: 04/29/15 Time: 18:26

Sample (adjusted): 7 5957

Included observations: 5951 after adjustments

Convergence achieved after 4 iterations

Variable Coefficient Std. Error t-Statistic Prob.

DX1 0.960615 0.006150 156.1974 0.0000

DX2 0.006804 0.001632 4.168534 0.0000

DX3 0.002038 0.001244 1.638556 0.1014

DX13 0.003691 0.000967 3.815573 0.0001

DX4 0.028310 0.006244 4.533668 0.0000

C 1.25E-06 2.96E-06 0.422018 0.6730

AR(1) -0.249123 0.012972 -19.20470 0.0000

AR(2) -0.196537 0.013365 -14.70575 0.0000

AR(3) -0.084137 0.013549 -6.209773 0.0000

AR(4) -0.048747 0.013350 -3.651427 0.0003

AR(5) -0.041069 0.012971 -3.166196 0.0016

R-squared 0.995270 Mean dependent var 6.04E-05

Adjusted R-squared 0.995262 S.D. dependent var 0.005342

S.E. of regression 0.000368 Akaike info criterion -12.97650

Sum squared resid 0.000803 Schwarz criterion -12.96413

Log likelihood 38622.56 Hannan-Quinn criter. -12.97220

F-statistic 124979.4 Durbin-Watson stat 2.000095

Prob(F-statistic) 0.000000

Inverted AR Roots .32+.43i .32-.43i -.20+.50i -.20-.50i

-.49

这样回归出来的结果就自动进行了序列相关性的修正。做分析结果时,直接按照上述结果的系数就可以,不存在系数不可信的问题。

五、多重共线性检验

多变量的线性回归模型可能存在多重共线性问题,即模型的解释变量之间存在相关性,可通过相关系数矩阵进行检验。

1)相关系数矩阵

建立解释变量的数据组,程序:data dx1 dx2 dx3 dx13 dx4

Enter键,跳出数据组。其中,dx1 dx2 dx3 dx13 dx4是我模型中的解释变量,其他模型视具体情况而定。

点击Quick\Group Statistics\Correlations

在弹出的对话框内输入需要进行相关关系检验的解释变量:dx1 dx2 dx3 dx13 dx4,OK

在弹出的对话框中点击YES,出现结果。

以上就是相关系数矩阵。通常认为,两变量的相关系数在0.8以上属于强相关系。如上,DX1与DX4之间属于有相关性,因此模型存在多重共线性。

2)修正。采用逐步回归法、差分法、岭回归法。但是三种方法都有缺点,逐步回归法会改变模型系数的经济意义,差分法会带来模型的自相关性,岭回归引入偏误。

注:在做实证分析时,拟合优度和多重共线性并不是很大的问题,即若拟合优度比较低、多重共线性的存在不是大问题,而单位根检验和序列自相关是比较重要的。

多元线性回归模型的案例分析

1. 表1列出了某地区家庭人均鸡肉年消费量Y 与家庭月平均收入X ,鸡肉价格P 1,猪肉价格P 2与牛肉价格P 3的相关数据。 年份 Y/千 克 X/ 元 P 1/(元/千克) P 2/(元/千克) P 3/(元/千克) 年份 Y/千克 X/元 P 1/(元/ 千克) P 2/(元/ 千克) P 3/(元/千克) 1980 2.78 397 4.22 5.07 7.83 1992 4.18 911 3.97 7.91 11.40 1981 2.99 413 3.81 5.20 7.92 1993 4.04 931 5.21 9.54 12.41 1982 2.98 439 4.03 5.40 7.92 1994 4.07 1021 4.89 9.42 12.76 1983 3.08 459 3.95 5.53 7.92 1995 4.01 1165 5.83 12.35 14.29 1984 3.12 492 3.73 5.47 7.74 1996 4.27 1349 5.79 12.99 14.36 1985 3.33 528 3.81 6.37 8.02 1997 4.41 1449 5.67 11.76 13.92 1986 3.56 560 3.93 6.98 8.04 1998 4.67 1575 6.37 13.09 16.55 1987 3.64 624 3.78 6.59 8.39 1999 5.06 1759 6.16 12.98 20.33 1988 3.67 666 3.84 6.45 8.55 2000 5.01 1994 5.89 12.80 21.96 1989 3.84 717 4.01 7.00 9.37 2001 5.17 2258 6.64 14.10 22.16 1990 4.04 768 3.86 7.32 10.61 2002 5.29 2478 7.04 16.82 23.26 1991 4.03 843 3.98 6.78 10.48 (1) 求出该地区关于家庭鸡肉消费需求的如下模型: 01213243ln ln ln ln ln Y X P P P u βββββ=+++++ (2) 请分析,鸡肉的家庭消费需求是否受猪肉及牛肉价格的影响。 先做回归分析,过程如下: 输出结果如下:

经典线性回归模型

2 经典线性回归模型 §2.1 概念与记号 1.线性回归模型是用来描述一个特定变量y 与其它一些变量x 1,…,x p 之间的关系。 2. 称特定变量y 为因变量 (dependent variable )、 被解释变量 (explained variable )、 响应变量(response variable )、被预测变量(predicted variable )、回归子 (regressand )。 3.称与特定变量相关的其它一些变量x 1,…,x p 为自变量(independent variable )、 解释变量(explanatory variable )、控制变量(control variable )、预测变量 (predictor variable )、回归量(regressor )、协变量(covariate )。 4.假定我们观测到上述这些变量的n 组值:( ) ip i i x x y , , , 1 L (i=1,…,n)。称 这n 组值为样本(sample )或数据(data )。 §2.2 经典线性回归模型的假定 假定 2.1(线性性(linearity)) i ip p i i x x y e b b b + + + + = L 1 1 0 (i=1,…,n)。 (2.1) 称方程(2.1)为因变量y 对自变量x 1,…,x p 的线性回归方程(linear regression equation ),其中 ( ) p , k k , , 1 0 L = b 是待估的未知参数(unknown parameters ), ( ) n i i , , 1 L = e 是满足一定限制条件的无法观测的误差项(unobserved error term ) 。称自 变量的函数 ip p i x x b b b + + + L 1 1 0 为回归函数(regression function )或简称为回归 (regression )。称 0 b 为回归的截距(ntercept),称 ( ) p k k , , 1 L = b 为自变量的回归系数 (regression coefficients ) 。某个自变量的回归系数表示在其它条件保持不变的情况下,

一元线性回归模型案例分析

一元线性回归模型案例分析 一、研究的目的要求 居民消费在社会经济的持续发展中有着重要的作用。居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。改革开放以来随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也不断增长。但是在看到这个整体趋势的同时,还应看到全国各地区经济发展速度不同,居民消费水平也有明显差异。例如,2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元,最高的上海市达人均10464元,上海是黑龙江的2.35倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我们研究的对象是各地区居民消费的差异。居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。 因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。因此建立的是2002年截面数据模型。 影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。为了与“城市居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 从2002年《中国统计年鉴》中得到表2.5的数据: 表2.52002年中国各地区城市居民人均年消费支出和可支配收入

实验一 Eviews的基本使用、线性回归模型的估计和检验

实验一 Eviews 的基本使用、线性回归模型的估计和检验 实验目的与要求:熟悉Eviews 软件基本使用功能、掌握线性回归模型的参数估计及其检验。 实验内容:建立一个工作文件、数据的输入、数据的保存、生成新序列、 作序列图和相关图。线性回归模型的参数估计及其检验。 实验步骤:(具体步骤同学们可按照课堂讲解的程序进行也可按下面的指导操作,无论怎么操作,只要得到正确的结果即可) 一、模型的构建 表 2002年中国各地区城市居民人均年消费支出和可支配收入 作城市居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)的散点图,如图 从散点图可以看出居民家庭平均每人每年消费支出 (Y)和城市居民人均年可支配 收入(X)大体呈现为线性关系, 4000 6000 8000 10000 12000 4000 6000 8000 10000 12000 14000 X Y

所以建立的计量经济模型为如下线性模型: 12i i i Y X u ββ=++ 二、估计参数 利用EViews 作简单线性回归分析的步骤如下: 1、建立工作文件 首先,双击EViews 图标,进入EViews 主页。在菜单一次点击File\New\Workfile ,出现对话框“Workfile Range ”。在“Workfile frequency ”中选择数据频率: Annual (年度) Weekly ( 周数据 ) Quartrly (季度) Daily (5 day week ) ( 每周5天日数据 ) Semi Annual (半年) Daily (7 day week ) ( 每周7天日数据 ) Monthly (月度) Undated or irreqular (未注明日期或不规则的) 在本例中是截面数据,选择“Undated or irreqular ”。并在“Start date ”中输入开始时间或顺序号,如“1”在“end date ”中输入最后时间或顺序号,如“31”点击“ok ”出现“Workfile UNTITLED ”工作框。其中已有变量:“c ”—截距项 “resid ”—剩余项。 在“Objects ”菜单中点击“New Objects”,在“New Objects”对话框中选“Group”,并在“Name for Objects”上定义文件名,点击“OK ”出现数据编辑窗口。 若要将工作文件存盘,点击窗口上方“Save ”,在“SaveAs ”对话框中给定路径和文件名,再点击“ok ”,文件即被保存。 2、输入数据 在数据编辑窗口中,首先按上行键“↑”,这时对应的“obs”字样的空格会自动上跳,在对应列的第二个“obs”有边框的空格键入变量名,如“Y ”,再按下行键“↓”,对因变量名下的列出现“NA ”字样,即可依顺序输入响应的数据。其他变量的数据也可用类似方法输入。 也可以在EViews 命令框直接键入“data X Y ”(一元时) 或 “data Y 1X 2X … ”(多元时),回车出现“Group”窗口数据编辑框,在对应的Y 、X 下输入数据。 若要对数据存盘,点击 “fire/Save As”,出现“Save As ”对话框,在“Drives ”点所要存的盘,在“Directories ”点存入的路径(文件名),在“Fire Name ”对所存文件命名,或点已存的文件名,再点“ok ”。 若要读取已存盘数据,点击“fire/Open”,在对话框的“Drives”点所存的磁盘名,在“Directories”点文件路径,在“Fire Name”点文件名,点击“ok”即可。

多元线性回归模型案例分析

多元线性回归模型案例分析 ——中国人口自然增长分析一·研究目的要求 中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的降到1980年,接近世代更替水平。此后,人口自然增长率(即人口的生育率)很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,需要建立计量经济学模型。 影响中国人口自然增长率的因素有很多,但据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。 二·模型设定 为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。暂不考虑文化程度及人口分布的影响。 从《中国统计年鉴》收集到以下数据(见表1): 表1 中国人口增长率及相关数据

, 设定的线性回归模型为: 1222334t t t t t Y X X X u ββββ=++++ 三、估计参数 利用EViews 估计模型的参数,方法是: 1、建立工作文件:启动EViews ,点击File\New\Workfile ,在对 话框“Workfile Range ”。在“Workfile frequency ”中选择“Annual ” (年 年份 @ 人口自然增长率 (%。) 国民总收入 (亿元) 居民消费价格指数增长 率(CPI )% 人均GDP (元) 1988 15037 1366 1989 … 17001 18 1519 1990 18718 1644 1991 【 21826 1893 1992 26937 2311 1993 . 35260 2998 1994 48108 4044 1995 — 59811 5046 1996 70142 5846 1997 ~ 78061 6420 1998 83024 6796 1999 【 88479 7159 2000 98000 7858 2001 [ 108068 8622 2002 119096 9398 2003 : 135174 10542 2004 159587 12336 2005 、 184089 14040 2006 213132 16024

经典线性回归模型的诊断与修正

经典线性回归模型的诊断与修正下表为最近20年我国全社会固定资产投资与GDP的统计数据:1 年份国内生产总值(亿元)GDP 全社会固定资产投资(亿元)PI 1996 71813.6 22913.5 1997 79715 24941.1 1998 85195.5 28406.2 1999 90564.4 29854.7 2000 100280.1 32917.7 2001 110863.1 37213.49 2002 121717.4 43499.91 2003 137422 55566.61 2004 161840.2 70477.43 2005 187318.9 88773.61 2006 219438.5 109998.16 2007 270232.3 137323.94 2008 319515.5 172828.4 2009 349081.4 224598.77 2010 413030.3 251683.77 2011 489300.6 311485.13 2012 540367.4 374694.74 2013 595244.4 446294.09 1数据来源于国家统计局网站年度数据

1、普通最小二乘法回归结果如下: 方程初步估计为: GDP=75906.54+1.1754PI (32.351) R2=0.9822F=1046.599 DW=0.3653 2、异方差的检验与修正 首先,用图示检验法,生成残差平方和与解释变量PI的散点图如下:

从上图可以看出,残差平方和与解释变量的散点图主要分布在图形的下半部分,有随PI的变动增大的趋势,因此,模型可能存在异方差。但是否确定存在异方差,还需作进一步的验证。 G-Q检验如下: 去除序列中间约1/4的部分后,1996-2003年的OLS估计结果如下所示:

案例分析 一元线性回归模型

案例分析报告 (2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号: 2204120202 学生姓名:陈维维 2014 年 11月 案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为11242.85元,?最低的青海省仅为人均8192.56元,最高的上海市达人均19397.89元,上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定?

我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。 为了与“城镇居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 以下是2008年各地区城镇居民人均年消费支出和可支配收入表

使用eviews做线性回归分析

使用eviews做线性回归分析 关键字: linear regression Glossary: ls(least squares)最小二乘法 R-sequared样本决定系数(R2):值为0-1,越接近1表示拟合越好,>0.8认为可以接受,但是R2随因变量的增多而增大,解决这个问题使用来调整 Adjust R-seqaured() S.E of regression回归标准误差 Log likelihood对数似然比:残差越小,L值越大,越大说明模型越正确Durbin-Watson stat:DW统计量,0-4之间 Mean dependent var因变量的均值 S.D. dependent var因变量的标准差 Akaike info criterion赤池信息量(AIC)(越小说明模型越精确) Schwarz ctiterion:施瓦兹信息量(SC)(越小说明模型越精确) Prob(F-statistic)相伴概率 fitted(拟合值) 线性回归的基本假设: 1.自变量之间不相关 2.随机误差相互独立,且服从期望为0,标准差为σ的正态分布 3.样本个数多于参数个数 建模方法: ls y c x1 x2 x3 ... x1 x2 x3的选择先做各序列之间的简单相关系数计算,选择同因变量相关系数大而自变量相关系数小的一些变量。模型的实际业务含义也有指导意义,比如 m1同gdp肯定是相关的。 模型的建立是简单的,复杂的是模型的检验、评价和之后的调整、择优。 模型检验: 1)方程显著性检验(F检验):模型拟合样本的效果,即选择的所有自变量对因变量的解释力度 F大于临界值则说明拒绝0假设。 Eviews给出了拒绝0假设(所有系统为0的假设)犯错误(第一类错误或α错误)的概率(收尾概率或相伴概率)p值,若p小于置信度(如0.05)则可以拒绝0假设,即认为方程显著性明显。 2)回归系数显著性检验(t检验):检验每一个自变量的合理性 |t|大于临界值表示可拒绝系数为0的假设,即系数合理。t分布的自由度为 n-p-1,n为样本数,p为系数位置

多元线性回归模型案例

我国农民收入影响因素的回归分析 本文力图应用适当的多元线性回归模型,对有关农民收入的历史数据和现状进行分析,探讨影响农民收入的主要因素,并在此基础上对如何增加农民收入提出相应的政策建议。?农民收入水平的度量常采用人均纯收入指标。影响农民收入增长的因素是多方面的,既有结构性矛盾因素,又有体制性障碍因素。但可以归纳为以下几个方面:一是农产品收购价格水平。二是农业剩余劳动力转移水平。三是城市化、工业化水平。四是农业产业结构状况。五是农业投入水平。考虑到复杂性和可行性,所以对农业投入与农民收入,本文暂不作讨论。因此,以全国为例,把农民收入与各影响因素关系进行线性回归分析,并建立数学模型。 一、计量经济模型分析 (一)、数据搜集 根据以上分析,我们在影响农民收入因素中引入7个解释变量。即:2x -财政用于农业的支出的比重,3x -第二、三产业从业人数占全社会从业人数的比重,4x -非农村人口比重,5x -乡村从业人员占农村人口的比重,6x -农业总产值占农林牧总产值的比重,7x -农作物播种面积,8x —农村用电量。

资料来源《中国统计年鉴2006》。 (二)、计量经济学模型建立 我们设定模型为下面所示的形式: 利用Eviews 软件进行最小二乘估计,估计结果如下表所示: DependentVariable:Y Method:LeastSquares Sample: Includedobservations:19 Variable Coefficient t-Statistic Prob. C X1 X3 X4 X5 X6 X7 X8 R-squared Meandependentvar AdjustedR-squared 表1最小二乘估计结果 回归分析报告为: () ()()()()()()()()()()()()()()() 2345678 2? -1102.373-6.6354X +18.2294X +2.4300X -16.2374X -2.1552X +0.0100X +0.0634X 375.83 3.7813 2.066618.37034 5.8941 2.77080.002330.02128 -2.933 1.7558.820900.20316 2.7550.778 4.27881 2.97930.99582i Y SE t R ===---=230.99316519 1.99327374.66 R Df DW F ====二、计量经济学检验 (一)、多重共线性的检验及修正 ①、检验多重共线性 (a)、直观法 从“表1最小二乘估计结果”中可以看出,虽然模型的整体拟合的很好,但是x4x6

SPSS线性回归分析案例

回归分析 实验内容:基于居民消费性支出与居民可支配收入的简单线性回归分析 【研究目的】 居民消费在社会经济的持续发展中有着重要的作用。影响各地区居民消费支出的因素很多,例如居民的收入水平、商品价格水平、收入分配状况、消费者偏好、家庭财产状况、消费信贷状况、消费者年龄构成、社会保障制度、风俗习惯等等。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的经济模型去研究。 【模型设定】 : 我们研究的对象是各地区居民消费的差异。由于各地区的城市与农村人口比例及经济结构有较大差异,现选用城镇居民消费进行比较。模型中被解释变量Y选定为“城市居民每人每年的平均消费支出”。从理论和经验分析,影响居民消费水平的最主要因素是居民的可支配收入,故可以选用“城市居民每人每年可支配收入”作为解释变量X,选取2010年截面数据。 1、实验数据 表1: —

2010年中国各地区城市居民人均年消费支出和可支配收入

| 数据来源:《中国统计年鉴》2010年 2、实验过程 作城市居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)的散点图,如图1:

表2 模型汇总b — 模型 R R方调整R方标准估计的误差 - 1 .965a.932.930 ~ a.预测变量:(常量),可支配收入X(元)。 b.因变量:消费性支出Y(元) 表3 相关性 、 消费性支出Y (元) 可支配收入X(元) Pearson相关 性消费性支出Y(元)& .965 ! 从散点图可以看出居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)大体呈现为线性关系,所以建立如下线性模型:Y=a+bX

计量经济学 第三章、经典单方程计量经济学模型:多元线性回归模型

第三章、经典单方程计量经济学模型:多元线性回归模型 一、内容提要 本章将一元回归模型拓展到了多元回归模型,其基本的建模思想与建模方法与一元的情形相同。主要内容仍然包括模型的基本假定、模型的估计、模型的检验以及模型在预测方面的应用等方面。只不过为了多元建模的需要,在基本假设方面以及检验方面有所扩充。 本章仍重点介绍了多元线性回归模型的基本假设、估计方法以及检验程序。与一元回归分析相比,多元回归分析的基本假设中引入了多个解释变量间不存在(完全)多重共线性这一假设;在检验部分,一方面引入了修正的可决系数,另一方面引入了对多个解释变量是否对被解释变量有显著线性影响关系的联合性F检验,并讨论了F检验与拟合优度检验的内在联系。 本章的另一个重点是将线性回归模型拓展到非线性回归模型,主要学习非线性模型如何转化为线性回归模型的常见类型与方法。这里需要注意各回归参数的具体经济含义。 本章第三个学习重点是关于模型的约束性检验问题,包括参数的线性约束与非线性约束检验。参数的线性约束检验包括对参数线性约束的检验、对模型增加或减少解释变量的检验以及参数的稳定性检验三方面的内容,其中参数稳定性检验又包括邹氏参数稳定性检验与邹氏预测检验两种类型的检验。检验都是以F检验为主要检验工具,以受约束模型与无约束模型是否有显著差异为检验基点。参数的非线性约束检验主要包括最大似然比检验、沃尔德检验与拉格朗日乘数检验。它们仍以估计无约束模型与受约束模型为基础,但以最大似然 χ分布为检验统计原理进行估计,且都适用于大样本情形,都以约束条件个数为自由度的2 量的分布特征。非线性约束检验中的拉格朗日乘数检验在后面的章节中多次使用。 二、典型例题分析 例1.某地区通过一个样本容量为722的调查数据得到劳动力受教育的一个回归方程为36 .0 . + = - 10+ 094 medu fedu .0 sibs edu210 131 .0 R2=0.214 式中,edu为劳动力受教育年数,sibs为该劳动力家庭中兄弟姐妹的个数,medu与fedu分别为母亲与父亲受到教育的年数。问

回归分析实验1-Eviews基本操作及一元线性回归

第一部分EViews基本操作 第一章预备知识 一、什么是EViews EViews (Econometric Views)软件是QMS(Quantitative Micro Software)公司开发的、基于Windows平台下的应用软件,其前身是DOS操作系统下的TSP软件。EViews具有现代Windows软件可视化操作的优良性。可以使用鼠标对标准的Windows菜单和对话框进行操作。操作结果出现在窗口中并能采用标准的Windows技术对操作结果进行处理。EViews还拥有强大的命令功能和批处理语言功能。在EViews的命令行中输入、编辑和执行命令。在程序文件中建立和存储命令,以便在后续的研究项目中使用这些程序。 EViews是Econometrics Views的缩写,直译为计量经济学观察,通常称为计量经济学软件包,是专门从事数据分析、回归分析和预测的工具,在科学数据分析与评价、金融分析、经济预测、销售预测和成本分析等领域应用非常广泛。 应用领域 ■ 应用经济计量学■ 总体经济的研究和预测 ■ 销售预测■ 财务分析 ■ 成本分析和预测■ 蒙特卡罗模拟 ■ 经济模型的估计和仿真■ 利率与外汇预测 EViews引入了流行的对象概念,操作灵活简便,可采用多种操作方式进行各种计量分析和统计分析,数据管理简单方便。其主要功能有: (1)采用统一的方式管理数据,通过对象、视图和过程实现对数据的各种操作; (2)输入、扩展和修改时间序列数据或截面数据,依据已有序列按任意复杂的公式生成新的序列; (3)计算描述统计量:相关系数、协方差、自相关系数、互相关系数和直方图; (4)进行T 检验、方差分析、协整检验、Granger 因果检验; (5)执行普通最小二乘法、带有自回归校正的最小二乘法、两阶段最小二乘法和三阶段最小二乘法、非线性最小二乘法、广义矩估计法、ARCH 模型估计法等; (6)对选择模型进行Probit、Logit 和Gompit 估计; (7)对联立方程进行线性和非线性的估计; (8)估计和分析向量自回归系统; (9)多项式分布滞后模型的估计; (10)回归方程的预测; (11)模型的求解和模拟; (12)数据库管理; (13)与外部软件进行数据交换 EViews可用于回归分析与预测(regression and forecasting)、时间序列(Time Series)以及横截面数据(cross-sectional data )分析。与其他统计软件(如EXCEL、SAS、SPSS)相比,EViews 功能优势是回归分析与预测,其功能框架见表1.1.1。 本手册以EViews5.1版本为蓝本介绍该软件的使用。

多元线性回归模型的案例讲解

多元线性回归模型的案 例讲解 Document number:NOCG-YUNOO-BUYTT-UU986-1986UT

1. 表1列出了某地区家庭人均鸡肉年消费量Y 与家庭月平均收入X ,鸡肉价格P 1,猪肉价格P 2与牛肉价格P 3的相关数据。 年份 Y/ 千克 X/元 P 1/(元/千克) P 2/(元/千克) P 3/(元/千克) 年份 Y/ 千克 X/元 P 1/(元/千克) P 2/(元/千克) P 3/(元/ 千克) 1980 397 1992 911 1981 413 1993 931 1982 439 1994 1021 1983 459 1995 1165 1984 492 1996 1349 1985 528 1997 1449 1986 560 1998 1575 1987 624 1999 1759 1988 666 2000 1994 1989 717 2001 2258 1990 768 2002 2478 1991 843 (1) 求出该地区关于家庭鸡肉消费需求的如下模型: 01213243ln ln ln ln ln Y X P P P u βββββ=+++++ (2) 请分析,鸡肉的家庭消费需求是否受猪肉及牛肉价格的影响。 先做回归分析,过程如下: 输出结果如下:

所以,回归方程为: 123ln 0.73150.3463ln 0.5021ln 0.1469ln 0.0872ln Y X P P P =-+-++ 由上述回归结果可以知道,鸡肉消费需求受家庭收入水平和鸡肉价格的影响,而牛肉价格和猪肉价格对鸡肉消费需求的影响并不显着。 验证猪肉价格和鸡肉价格是否有影响,可以通过赤池准则(AIC )和施瓦茨准则(SC )。若AIC 值或SC 值增加了,就应该去掉该解释变量。 去掉猪肉价格P 2与牛肉价格P 3重新进行回归分析,结果如下: Variable Coefficient Std. Error t-Statistic Prob.?? C LOG(X) LOG(P1) R-squared ????Mean dependent var Adjusted R-squared ????. dependent var . of regression ????Akaike info criterion Sum squared resid ????Schwarz criterion Log likelihood ????F-statistic Durbin-Watson stat ????Prob(F-statistic)

经典线性回归模型自变量选择

§ 自变量选择 信息时代的一个重要特征是数据便宜信息值钱,我们经常要从海量数据中挖掘有用信息。比如影响产品质量的因素,从生产过程、员工培训过程到原材料供应过程,可能多达几百个,甚至上千个。对这些质量指标和影响因素制造商在日常生产管理过程中都有记录。现在的问题是如何从这众多的影响因素中找出影响产品质量的重要因素。有时只需判断一个自变量对因变量是否有重要影响,而不需要了解它们之间的精确定量关系。比如判断原材料供应对产品质量是否有重要影响比了解它们之间的精确定量关系更重要。线性回归模型的自变量选择就是用于有众多自变量时识别重要自变量的方法。用于线性回归模型自变量选择的方法可分为两类:全局择优法和逐步回归法。 一、全局择优法 全局择优法就是用衡量回归模型与数据拟合程度的准则,从全部可能的回归模型中选择对数据拟合最优的回归模型。对于一个包含P 个自变量的回归问题,全部 可能的回归模型有01 2P P P P P C C C +++=个,全局择优法要求出每个回归模型的准则 值,然后找出最优的回归模型。 回归模型对数据的拟合程度可用残差平方和来表示。残差平方和越小,模型拟合的越好。但残差平方和的大小与因变量的计量单位有关,因此我们定义了决定系数。决定系数越大,模型拟合的越好。决定系数不仅与因变量的计量单位无关,而且能说明在因变量的变异中,归功于自变量变化的部分所占比例。但不论是用残差平方和还是用决定系数来度量线性拟合模型拟合程度,都会得出模型中包含越多自变量拟合就越好的结论。但在样本容量给定的情况下,自变量越多,模型就越复杂,

模型参数估计就越不精确,导致模型应用的效果就越差。因此我们需要能综合用残差平方和表示的模型拟合精度和用模型中包含的自变量个数表示的模型复杂程度的准则,以便选择出最优的回归模型。回归分析中用于选择自变量的准则很多。由于残差平方和RSS p 和决定系数R 2只考虑模型拟合精度,因而只能作为自变量个数相 同时自变量选择的准则。残差均方s 2和修正决定系数2 adj R 是一个综合模型拟合精度 和模型复杂程度的准则。综合性准则除了残差均方和修正决定系数外,还有如下一些准则: ·Mallows C p 准则 )1(22 ++-= p n s RSS C p p 其中,s 2为包含全部自变量的拟合模型的残差均方,RSS p 为当前拟合模型的残差平方和,p 为当前拟合模型的自变量个数。 ·信息准则 信息准则根据公式 npar *k +logLik *2- 计算,其中logLik= -n{log(RSS/n)+log(2π)+1}/2为当前拟合模型的对数似然函数,npar 为当前拟合模型的参数个数,当k=2时称为AIC 准则,当k=log(n)时称为BIC 准则。在小样本情况下,AIC 准则的表现不太好,为此人们提出的修正AIC 准则AICc ,其计算公式为 1 -npar -n n npar *2 +logLik *-2AICc = ()()1/1*2--++=napr n npar npar AIC

Eviews之变系数回归模型

EVIEWS 之变系数回归模型 1 变系数回归模型 前面讨论的是变截距模型,并假定不同个体的解释变量的系数是相同的,然而在现实中变化的经济结构或者不同的经济背景等不可观测的反映个体差异的因素会导致经济结构的参数随着横截面个体的变化而变化,即解释变量对被解释变量的影响要随着截面的变化而变化。这时要考虑系数随着横截面个体的变化而变化的变系数模型。 1.变系数回归模型原理 变系数模型一般形式如下: ,1,2,,,1,2,,it i it i it y x u i N t T αβ=++==(1) 其中:it y 为因变量,it x 为1k ?维解释变量向量,N 为截面成员个数,T 为每个截面成员的观测时期总数。参数i α表示模型的常数项,i β为对应于解释变量的系数向量。随机误差项it u 相互独立,且满足零均值、等方差的假设。 在式子(1)中所表示的变系数模型中,常数项和系数向量都是随着截面个体变化而变化,因此将该模型改写为: it it i it y x u λ=+ (2) 其中:1(1)(1,)it it k x x ?+=,'(,)i i i λαβ= 模型的矩阵形式为: u X Y +?= (3) 其中:11N NT y Y y ?????=??????;121i i i iT T y y y y ???????=??????;????????????=N X X X X 00000021;1121112 22212i i ki i i ki i iT iT kiT T k x x x x x x x x x x ???????=??????,12(1)1N N k λλλ+????????=??????,11N NT u u u ?????=??????,121i i i iT T u u u u ???????=??????

第一部分2经典线性回归模型

第二章 经典线性回归模型 一、线性回归模型的概念 1、一元线性回归模型 (1)总体回归模型 总体回归模型:12i i i Y X u ββ=++,(|)0E u X = 总体回归方程:12(|)E Y X X ββ=+ 说明:确定性部分——Y 对于给定X 的期望值 随机部分——代表了排除在模型以外的所有因素对Y 的影响。它是期望为0的,具有一定分布的随机变量。 研究的目标: ①确定总体回归方程的参数 ②随机扰动项的分布(想想看,为什么?)2|(0,)X N μσ (2)样本回归模型 问题:我们往往无法获得全体数据,无法准确的分析出总体回归参数。能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息? 画一条直线以尽好地拟合该散点图,由于样本取自总体,可以用该直线近似地代表总体回归线。该直线称为样本回归线。 样本回归模型:12?? i i i Y X e ββ=++ 样本回归方程:12???i i Y X ββ=+

(3)样本回归线与总体回归线的关系

2、多元线性回归模型 在许多实际问题中,我们所研究的因变量的变动可能不仅与一个解释变量有关。 122ββ...βu i i k ki i Y X X =++++ 斜率 “β”的含义是其它变量不变的情况下,X j 改变一个单位对因变量所产生的影响 即对于n 组观测值,有 11221331112122233222 12233βββ...ββββ...β...... βββ...βK K K K n n n K Kn n Y X X X u Y X X X u Y X X X u =+++++=+++++=+++++ 定义: 12*1...n n Y Y Y Y ?? ? ?= ? ??? 21 12222*1...1...............1...K K n Kn n k X X X X X X X ????? ?=?????? 1122 *1*1 ,......n n K k u u u u ββββ?? ?? ? ? ? ? ?== ? ? ? ??? ??? 多元线性回归模型的矩阵形式为(总体):Y =X β+μ,(|)E Y =X β (样本)?Y =X β +e ,??Y =X β

一般线性回归分析案例

一般线性回归分析案例 1、案例 为了研究钙、铁、铜等人体必需元素对婴幼儿身体健康的影响,随机抽取了30个观测数据,基于多员线性回归分析的理论方法,对儿童体内几种必需元素与血红蛋白浓度的关系进行分析研究。这里,被解释变量为血红蛋白浓度(y),解释变量为钙(ca)、铁(fe)、铜(cu)。 表一血红蛋白与钙、铁、铜必需元素含量 (血红蛋白单位为g;钙、铁、铜元素单位为ug) case y(g)ca fe cu 1 7.00 76.90 295.30 0.840 2 7.25 73.99 313.00 1.154 3 7.75 66.50 350.40 0.700 4 8.00 55.99 284.00 1.400 5 8.25 65.49 313.00 1.034 6 8.25 50.40 293.00 1.044 7 8.50 53.76 293.10 1.322 8 8.75 60.99 260.00 1.197 9 8.75 50.00 331.21 0.900 10 9.25 52.34 388.60 1.023 11 9.50 52.30 326.40 0.823 12 9.75 49.15 343.00 0.926 13 10.00 63.43 384.48 0.869 14 10.25 70.16 410.00 1.190 15 10.50 55.33 446.00 1.192 16 10.75 72.46 440.01 1.210 17 11.00 69.76 420.06 1.361 18 11.25 60.34 383.31 0.915 19 11.50 61.45 449.01 1.380 20 11.75 55.10 406.02 1.300 21 12.00 61.42 395.68 1.142 22 12.25 87.35 454.26 1.771 23 12.50 55.08 450.06 1.012 24 12.75 45.02 410.63 0.899 25 13.00 73.52 470.12 1.652 26 13.25 63.43 446.58 1.230 27 13.50 55.21 451.02 1.018 28 13.75 54.16 453.00 1.220 29 14.00 65.00 471.12 1.218 30 14.25 65.00 458.00 1.000

案例分析一元线性回归模型

案例分析一元线性回归 模型 Revised as of 23 November 2020

案例分析报告 (2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号: 02 学生姓名:陈维维 2014 年 11月 案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为元,最低的青海省仅为人均元,最高的上海市达人均元,上海是黑龙江的倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定

我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。 为了与“城镇居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 以下是2008年各地区城镇居民人均年消费支出和可支配收入表

相关主题
文本预览
相关文档 最新文档