当前位置：文档之家› 实验六多元线性回归和多重共线性

实验六多元线性回归和多重共线性

姓名：何健华学号：201330110203 班级：13金融数学2班

一实验目的：

掌握多元线性回归模型的估计方法、掌握多重共线性模型的识别和修正。

二实验要求：

应用教材P140例子4.3.1案例做多元线性回归模型，并识别和修正多重共线性。

三实验原理：

普通最小二乘法、简单相关系数检验法、综合判断法、逐步回归法。

四预备知识：

最小二乘法估计的原理、t 检验、F 检验、R 2值。

五实验步骤：

有关的研究分析表明，影响国内旅游市场收入的主要因素，除了国内旅游人数和旅游支出外，还可能与基础设施有关。因此考虑影响国内旅游收入Y （单位为亿元）的以下几个因素：国内旅游人数X1、城镇居民人均旅游支出X2（单位为元）、农村居民人均旅游支出X3（单位为元）、并以公路里程X4（单位为万公里）和铁路里程X5（单位为万公里）作为相关设施的代表，根据这些变量建立如下的计量经济模型：

01122334455y x x x x x ββββββμ=++++++

为了估计上述模型，从《中国统计年鉴》收集到1994年到2003年的有关统计数据。

1、请用普通最小二乘方法估计模型参数；

2、检验模型是否存在多重共线性，如果存在共线性，试采用适当的方法消除共线性。

1. 用普通最小二乘方法估计模型参数

1.1设定并估计多元线性回归模型

01122334455y x x x x x ββββββμ=++++++ ------- (1-1)

1.2建立工作工作文件并录入数据，得到图1.1。

图1.1

点击主界面菜单Quick\Estimate Equation ，在弹出的对话框中输入Y C X1 X2 X3 X4 X5，点击确定即可得到回归结果图1.2。

图1.2

由图1.2数据结果，可得到模型(1-1)的估计结果为

12345274.37730.013088 5.438193 3.27177312.98624563.1077y x x x x x =-++++- （-0.208384）（1.031172）（3.939591）（3.465073）（3.108296）（-1.752685） ()220.995406,0.989664,.. 2.311565,173.3525,5,4R R DW F df ===== 其中，括号内的数为相应的t 检验值。从以上回归结果可以看出，拟合优度很高，整体效果的F 检验通过，但有重要变量X1、X5的t 检验不显著，而且符合的经济意义也不合理，故认为解释变量之间存在多重共线性。

2．检验模型是否存在多重共线性，如果存在共线性，试采用适当的方法消除共线性。

2.1多重共线性模型的识别

2.1.1综合判断法

由模型（1-1）的估计结果可以看出，220.995406,0.989664R R ==，可决系数很高，说明模型对样本的拟合很好；173.3525F =检验值很大，相应的0.00092p =，说明回归方程显著，即各自变量联合起来确实对因变量“国内旅游收入”有显著影响；给定显著性水平0.05,α=但变量X1、X5系数的t 统计量分别为1.031172、-1.752685，相应的p 值分别为0.8451、0.1545，说明变量X1、X5对因变量影响不显著，而且符号的经济意义也不合理。

综合上述分析，表明模型（1-1）存在严重的多重共线性。

2.1.2简单相关系数检验法

计算解释变量X1、X2、X3、X4、X5的简单相关系数矩阵。

将解释变量X1、X2、X3、X4、X5选中，双击Open Group （或点击右键，选择Open\as Group ），然后再点击View\Covariance analysis\仅勾选Correlation ，点击OK 即可得出相关系数矩阵（图2.1.1）。再点击顶部的Freeze 按钮，可以得到一个Table 类型独立的Object （图2.1.2）。

图2.1.1

图2.1.2

由图2.1.1相关系数矩阵可以看出，各解释变量之间的相关系数较高，特别是X2和X5之间的高度相关，证实解释变量之间存在多重共线性。

根据综合判别法与简单相关系数法分析的结果可以知道，回归变量间确实存在多重共线性。注意，多重共线性是一个程度问题而不是存在与否的问题。下面我们将采用逐步回归法来减少共线性的严重程度而不是彻底地消除它。

2.2多重共线性模型的修正

这里仅用向前逐步回归法，来减少共线性的严重程度。

第一步：运用OLS方法分别求Y对各解释变量X1、X2、X3、X4、X5进行一元回归。五个方程的回归结果详见图2.2.1——图2.2.5，再结合经济意义和统计检验选出拟合效果好的一元线性回归方程。

图2.2.1 图2.2.2

图2.2.3 图2.2.4

图2.2.5

通过一元回归结果图2.2.1——2.2.5进行对比分析，依据调整可决系数2R

最大原则，选择X2作为进入回归模型的第一个解释变量，形成一元回归模型。

第二步：逐步回归。将剩余解释变量分别加入模型，得到分别如图2.2.6——图2.2.9所示的二元回归结果。

图2.2.6 图2.2.7

图2.2.8 图2.2.9

通过观察比较图2.2.6——图2.2.9所示结果，并根据逐步回归的思想，我们可以看到，新加入变量X4的二元回归方程971751.02

=R 最大，并且各参数的检验显著，参数符号也符合经济意义，因此，保留变量X4。

第三步：在保留变量X2、X4的基础上，继续进行逐步回归，分别得到图2.2.10——2.2.12所示的回归结果。

图2.2.10 图2.2.11

图2.2.12

结果分析:

观察图 2.2.11，我们可以看到，在X2、X4的基础上加入X3后的方程987168.02

=R 明显增大，F 统计量也很大，说明模型对样本的拟合很好并且回归方程显著；同时各解释变量的系数所对应的t 值较大，相应的p<0.05，说明各解释变量对因变量的影响显著，并且参数的符号也符合经济意义，只是DW 值落入了无法判断的区域，但由LM 检验知仍不存在一阶自相关性。因此，根据逐步回归的思想，模型应保留自变量X2、X3、X4。

进行拉格朗日乘数检验（LM 检验）：

在图6.14中，点击：View\Residual Diagnostics\Serial Correlation LM Test …，在弹出对话框中输入：1，点击OK ，得到图2.2.11.2所示结果。

图2.2.11.2

由图 2.2.11.2中数据得到123212.02=nR 其所对应的伴随概率为7256.0=P 说明在5%的显著性水平下不存在1阶序列相关性。

但通过图2.2.10，我们可以看到，在X2、X4基础上加入X1后，方程的修正拟合优度971751.0957998.02

<=R ，度略有提下降，但变量X1系数的t 值很小，相应的p 值大于显著性水平0.05，没有通过显著性检验，说明自变量X1对因变量的影响不显著；

同样，由图2.2.12可知，加入X5后拟合优度虽有所提高，但X5参数的t 值很小，相应的p 值远大于显著性水平0.05，说明X5对因变量的影响不显著。因此，根据逐步回归的思想，说明X1、 X5的出现引起严重的多重共线性。

第四步：在保留变量X2、X3、X4的基础上，继续进行逐步回归，分别得到如图2.2.13、图2.2.14所示的回归结果。

图2.2.13 图2.2.14