当前位置:文档之家› 计量经济学多重共线性

计量经济学多重共线性

2014-8-8

商学院

王中昭

教学内容

一、多重共线性

二、实际经济问题中的多重共线性

三、多重共线性的后果

四、多重共线性的检验

五、克服多重共线性的办法和实例

§4.3 多重共线性

2014-8-8商学院

王中昭

对于模型Y i =β0+ β1x 1i + β2x 2i +…… βk x ki +μi

如果某两个或多个解释变量之间出现相关性,即:C 1x 1i +C 2X 2i +……C k X ki =0

其中C i 不全为0,即某一个解释变量是其他解释变量的线性组合,则称为完全多重共线性。

完全多重共线性的情况并不多见,一般是出现不同程度的多重共线性。

注意多重共线性不

是指因变量与解释

一、多重共线性概念

2014-8-8商学院

王中昭

Y=Xβ+μ完全共线性:∣X′X ∣=0,(X′X)-1不存在,

使B ^=(X′X)-1X′Y 无法求解。

例如:,

0)(0020

1631084104213211 x x x 3213322113

21≠'=+-=++??????? ??=X X x x x X i i i i i i x c x c x c 这里,完全多重共线性

2014-8-8商学院

王中昭完全多重共线性的情况不多,一般出现不同程度的多重共线性。

多重共线性:∣X′X∣≈0,(X′X)-1存在,但

(X′X)-1主对角线上的元素很大。

????? ?='≈'?≈+??????? ??=400300000300000100040030000030000010002100010004X)X ( ,0)( 0,0x x - x 199

.2993001001.4004001099.1992001101.1001001 x x x 1

-3i 2i 1i 3

21||这里,X X X 近似多重共线性

2014-8-8商学院王中昭1、各时间序列的解释变量受同一因素影响,导致解释变量之间在时间上具有相同近似同增量的变化,这些因素有:(1)经济发展(2)政治事件(3)偶然事件(4)时间趋势2、解释变量中含有滞后变量容易产生多重共线性。这是因为滞后变量从经济性质上看与原来的变量无区别,只是时间上有所不同。例如,投资模型

I t =β1+β2r t +β3Y t +β4Y t-1+μt

二、实际经济问题中的多重共线性

2014-8-8商学院王中昭

如粮食产量Y=β0+β1X 1+β2X 2+β3X 3+β4X 4+u

其中Y 为粮食产量,X 1为肥料,X 2为种植面积,X 3为劳动力,X 4为水利浇灌。种植面积越多则投入的肥料和劳动力就越多,故肥料、种植面积和劳动力三者之间存在相关关系。又如:Y=β0+β1P+β2Q+β3I+u

其中Y 为某种商品需求量,P 为商品价格、Q 为商品质量、I 为居民收入。一般地质量较高的商品其价格也高,故P 和Q 存在线性关系。

一般地时间序列往往导致多重共线性。

但单独用截面数据,或用时间序列和截面数据相结合可减少多重共线性的发生。3、各经济变量之间的内在联系

2014-8-8商学院王中昭

B^=(X ′X)-1X ′Y,Var(B ^)=σ2(X ′X)-11、完全共线性:无法求解参数估计量B^。

2、近似共线性:(参数估计量的方差增大

为主要后果):即Var(B ^)变得很大,导致B ^不稳定,。

3、参数估计量经济含义不合理(共线性的

解释变量的系数并不表示它们各自对被解释变量的贡献,失去了应有的经济含义。因为共线解释变量之间可互相线性表示,此系数有可能是它们的共同影响)

看模拟分析(第4,5章.do,一.多重共线性的征兆:模拟分析)。

?三、多重共线性的后果

2014-8-8商学院

王中昭4、变量的显著性检验失去意义:

由于系数的标准差变大,从而该系

数对应变量t 统计量变小,故使原本

重要的自变量而t 检验通不过。

5、预测功能失效:因为β^I 值不

稳定,从而导致MSE 不准确,→预

测不准确。

2014-8-8商学院

王中昭

(一)、整体检验X 1,X 2,…..,X k 是否存在多重共线性。

若R 2,F 均很大,但多数解释变量都不显著,甚至系数符号都不对,则认为存在多重共线性。

缺点:此法无法分辩出共线性由哪些解释变量引起,在此基础上须进行下面进一步检验:

四、多重共线性的检验

2014-8-8商学院

王中昭

1、简单相关系数法(只有两个解释变量时用)

(1)当只有两个自变量时,计算这两个变量的相关系数,若系数绝对值较大。例如大于被解释变量与解释变量之间的相关系数R 的绝对值。则认为这两个变量存在共线性。

(二)具体检验共线性是哪些变量引起的那就简单了:只要

算出任何两个变量的相

关系数不就知道是否存

在多重共线性了?如果是三个以上的解释变量,此法行不通!懂吗!

2014-8-8商学院

王中昭

实例(P141):中国粮食生产函数根据理论和经验分析,影响粮食生产(Y )的主要因素有:农业化肥施用量(X1),粮食播种面积(X2)

,成灾面积(X3) ,农业机械总动力(X4),农业劳动力(X5)。

1.已知中国粮食生产的相关数据,建立中国粮食生产函数:

LnY=β0+β1 LnX1 +β2 LnX2 +β3 LnX3 +β4 LnX4 +β4 LnX5 +μ

经验方法:可以通过每个解释变量与Y 之间的散点图来判断是否为直线关系,然后假定合一起也是直线关系,最后由估计出来的结果再整体检验所有解释变量是否与Y 线相关。

2014-8-8商学院

王中昭

Stata 命令方式:

pwcorr lnx1 lnx2 lnx3 lnx4 lnx5,star(0.05)

2014-8-8商学院

王中昭

(2)但如果有三个以上的解释变量,则不能用求两两相关系数来判断它们是否存在共线性。这是因为它们若存在共线性,并

不能由相关系数看出,即尽管共线性程度

很高,但它们的相关系数绝对值未必大。

3

122313123

21,,

884.0,564.0,884.0R :

, 24482423252121 X X X : :X X X R R R +====????

? ??但并不很大可计算得有如下三个变量例如

2014-8-8商学院

王中昭

此法与判定系数法原理一样。将某个解释变量X j 与其余的解释变量进行回归:

.VIF :, 11:,)......, ,......,X ,j 22

1121(存在共线性与其它自变量越有可能越大说明结论再求出方差扩大因子求出决定系数j x j x k j j j X R VIF R X j

j X X X

f X -==+-2、方差扩大因子法(或膨胀因子Variance inflation factor)VIF 检验的经验准则:(1) VIF 的均值> 2

(2) VIF 的最大值>10

满足上述2个条件之一就表明存在多重共线性,

2014-8-8商学院

王中昭

实例(P141

):中国粮食生产函数

数据见P141, d3p141.dta 。命令方式:reg lny lnx1 lnx2 lnx3 lnx4 lnx5

estat vif

2014-8-8商学院

王中昭

VIF 检验的经验准则:(1) VIF 的均值> 2(2) VIF 的最大值>10 满足上述2个条件之一就表明存在多重共线性。

表明lnx1 ,lnx4与其它解释

变量存在多重共线性。

2014-8-8商学院

王中昭单独计算lnx1的VIF :qui reg lnx1 lnx2 lnx3 lnx4 lnx5 dis 1/(1-e(r2))

lnx1的VIF

值和上面结果一样的

2014-8-8商学院

王中昭3、秩条件的检验方式。原理:如果解释变量样本所构成矩阵X 是满秩的,则其秩rank(X) = k,则X‘X 是满秩的,则不存在多重共线性问题。如果X’X 非满秩的,则INV(X‘X)的秩较大,则存在多重共线性。

计算过程:对X‘X 进行分解后得到矩阵的条件指数

(CN(X’X)=cond Index ),此条件指数值为矩阵X‘X 的最大特征根和最小特征根之比的平方根。

stata 有两种方式(coldiag2和collin )可以实现此检验。

如果CN(X‘X)=cond Index>20 共线性问题比较严重。例如:coldiag2 lnx1 lnx2 lnx3 lnx4 lnx5collin lnx1 lnx2 lnx3 lnx4 lnx5

两种方式的结果如下:

2014-8-8商学院

王中昭方法一:coldiag2 这里cond Index=2165.3217,即CN(X’X) =Collin >20

,表明存在严重的多重共线性。

2014-8-8商学院

王中昭方法二:collin 此法还给出了每个解释变量的VIF 值和每一个解释变量对其它解释变量回归时的R 2,这里cond Index=2165.3217,同时还给出了X‘X 的行列式的值del(correlation matrix)=0.0085,如果矩阵(X’X)非满秩,应行列式接近于0。

这两种方法是一个整体判断方法。

计量经济学·多元线性回归模型

计量经济学·多元线性回归模型

2006年 217656.6 77597.2 63376.86 2007年 268019.4 93563.6 73300.1 2008年 316751.7 100394.94 79526.53 2009年 345629.2 82029.69 68618.37 2010年 408903 107022.84 94699.3 2011年 484123.5 123240.56 113161.39 2012年 534123 129359.3 114801 2013年 588018.8 137131.4 121037.5 2014年 636138.7 143911.66 120422.84 数据来源:国家统计局 三、模型的检验及结果的解释、评价 (一)OLS 法的检验 相关系数: Y X1 X2 Y 1 0.9799919175967026 0.98352422945 0628 X1 0.97999191759 67026 1 0.99756527944 46187 X2 0.983524229450628 0.99756527944 46187 1 线性图: 100,000 200,000300,000400,000500,000600,000700,000Y X1 X2 估计参数: Dependent Variable: Y

Method: Least Squares Date: 12/14/15 Time: 14:47 Sample: 1985 2014 Included observations: 30 Variable Coefficient Std. Error t-Statistic Prob. C 3775.319359 326024 8769.9280467 183 0.4304846447 102545 0.67026006 64360232 X1 -0.91272630 85551189 1.9385186318 83585 -0.470837005 9194414 0.64153894 75333828 X2 5.522785592 51161 2.2548570541 42605 2.4492841275 08302 0.02108703 0146243 R-squared 0.967586049 4429319 Mean dependent var 173871.823 3333334 Adjusted R-squared 0.965185016 0683343 S.D. dependent var 187698.441 4104575 S.E. of regression 35022.22758 863741 Akaike info criterion 23.8599929 764685 Sum squared resid 3311702348 2.29852 Schwarz criterion 24.0001127 1463471 Log likelihood -354.899894 6470274 Hannan-Quinn criter. 23.9048184 8460881 F-statistic 402.9873385 683694 Durbin-Watson stat 0.54328498 36158895 Prob(F-statistic) 7.850214650 723685e-21 统计检验: (1)拟合优度:从上表可以得到R2=0.9675860494429319,修正后的可决系数R2=0.9651850160683343,这说明模型对样本的拟合很好。 (2)F检验:针对H0: (二)多重共线性的检验及修正 相关系数矩阵: X1 X2

多重共线性的解决之法

第七章 多重共线性 教学目的及要求: 1、重点理解多重共线性在经济现象中的表现及产生的原因和后果 2、掌握检验和处理多重共线性问题的方法 3、学会灵活运用Eviews 软件解决多重共线性的实际问题。 第一节 多重共线性的产生及后果 一、多重共线性的含义 1、含义 在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X 1,X 2,……,X k 中的任何一个都不能是其他解释变量的线性组合。如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。 2、类型 多重共线性包含完全多重共线性和不完全多重共线性两种类型。 (1)完全多重共线性 完全多重共线性是指线性回归模型中至少有一个解释变量可以被其他解释变量线性表示,存在严格的线性关系。 如对于多元线性回归模型 i ki k i i i X X X Y μββββ+++++= 22110 (7-1) 存在不全为零的数k λλλ,,,21 ,使得下式成立: X X X 2211=+++ki k i i λλλ (7-2) 则可以说解释变量k X ,,X ,X 21 之间存在完全的线性相关关系,即存在完全多重共线性。 从矩阵形式来看,就是0' =X X , 即1)(-

(2)不完全多重共线性 不完全多重共线性是指线性回归模型中解释变量间存在不严格的线性关系,即近似线性关系。 如对于多元线性回归模型(7-1)存在不全为零的数k λλλ,,,21 ,使得下式成立: X X X 2211=++++i ki k i i u λλλ (7-3) 其中i u 为随机误差项,则可以说解释变量k X ,,X ,X 21 之间存在不完全多重共线性。随机误差项表明上述线性关系是一种近似的关系式,大体上反映了解释变量间的相关程度。 完全多重共线性与完全非线性都是极端情况,一般说来,统计数据中多个解释变量之间多少都存在一定程度的相关性,对多重共线性程度强弱的判断和解决方法是本章讨论的重点。 二、多重共线性产生的原因 多重共线性在经济现象中具有普遍性,其产生的原因很多,一般较常见的有以下几种情况。 (一)经济变量间具有相同方向的变化趋势 在同一经济发展阶段,一些因素的变化往往同时影响若干经济变量向相同方向变化,从而引起多重共线性。如在经济上升时期,投资、收入、消费、储蓄等经济指标都趋向增长,这些经济变量在引入同一线性回归模型并作为解释变量时,往往存在较严重的多重共线性。 (二)经济变量间存在较密切关系 由于组成经济系统的各要素之间是相互影响相互制约的,因而在数量关系上也会存在一定联系。如耕地面积与施肥量都会对粮食总产量有一定影响,同时,二者本身存在密切关系。 (三)采用滞后变量作为解释变量较易产生多重共线性 一般滞后变量与当期变量在经济意义上关联度比较密切,往往会产生多重共线性。如在研究消费规律时,解释变量因素不但要考虑当期收入,还要考虑以往各期收入,而当期收入与滞后收入间存在多重共线性的可能很大。 (四)数据收集范围过窄,有时会造成变量间存在多重共线性问题。 三、多重共线性产生的后果 由前述可知,多重共线性分完全多重共线性和不完全多重共线性两种情况,两种情况都会对模

《计量经济学》第四章精选题及答案

第四章:多重共线性 二、简答题 1、导致多重共线性的原因有哪些? 2、多重共线性为什么会使得模型的预测功能失效? 3、如何利用辅回归模型来检验多重共线性? 4、判断以下说法正确、错误,还是不确定?并简要陈述你的理由。 (1)尽管存在完全的多重共线性,OLS 估计量还是最优线性无偏估计量(BLUE )。 (2)在高度多重共线性的情况下,要评价一个或者多个偏回归系数的个别显著性是不可能的。 (3)如果某一辅回归显示出较高的2 i R 值,则必然会存在高度的多重共线性。 (4)变量之间的相关系数较高是存在多重共线性的充分必要条件。 (5)如果回归的目的仅仅是为了预测,则变量之间存在多重共线性是无害的。 12233i i i Y X X βββ=++ 来对以上数据进行拟合回归。 (1) 我们能得到这3个估计量吗?并说明理由。 (2) 如果不能,那么我们能否估计得到这些参数的线性组合?可以的话,写出必要的计 算过程。 6、考虑以下模型: 23 1234i i i i i Y X X X ββββμ=++++ 由于2X 和3 X 是X 的函数,那么它们之间存在多重共线性。这种说法对吗?为什么? 7、在涉及时间序列数据的回归分析中,如果回归模型不仅含有解释变量的当前值,同时还含有它们的滞后值,我们把这类模型称为分布滞后模型(distributed-lag model )。我们考虑以下模型: 12313233i t t t t t Y X X X X βββββμ---=+++++ 其中Y ——消费,X ——收入,t ——时间。该模型表示当期的消费是其现期的收入及其滞后三期的收入的线性函数。 (1) 在这一类模型中是否会存在多重共线性?为什么? (2) 如果存在多重共线性的话,应该如何解决这个问题? 8、设想在模型 12233i i i i Y X X βββμ=+++ 中,2X 和3X 之间的相关系数23r 为零。如果我们做如下的回归:

多重共线性问题的几种解决方法

多重共线性问题的几种解决方法 在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释 变量之间不存在线性关系,也就是说,解释变量X 1,X 2 ,……,X k 中的任何一个 都不能是其他解释变量的线性组合。如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。 这里,我们总结了8个处理多重共线性问题的可用方法,大家在遇到多重共线性问题时可作参考: 1、保留重要解释变量,去掉次要或可替代解释变量 2、用相对数变量替代绝对数变量 3、差分法 4、逐步回归分析 5、主成份分析 6、偏最小二乘回归 7、岭回归 8、增加样本容量 这次我们主要研究逐步回归分析方法是如何处理多重共线性问题的。 逐步回归分析方法的基本思想是通过相关系数r、拟合优度R2和标准误差三个方面综合判断一系列回归方程的优劣,从而得到最优回归方程。具体方法分为两步: 第一步,先将被解释变量y对每个解释变量作简单回归: 对每一个回归方程进行统计检验分析(相关系数r、拟合优度R2和标准误差),并结合经济理论分析选出最优回归方程,也称为基本回归方程。

第二步,将其他解释变量逐一引入到基本回归方程中,建立一系列回归方程,根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响,一般根据如下标准进行分类判别: 1.如果新引进的解释变量使R2得到提高,而其他参数回归系数在统计上和经济理论上仍然合理,则认为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。 2.如果新引进的解释变量对R2改进不明显,对其他回归系数也没有多大影响,则不必保留在回归模型中。 3.如果新引进的解释变量不仅改变了R2,而且对其他回归系数的数值或符号具有明显影响,则认为该解释变量为不利变量,引进后会使回归模型出现多重共线性问题。不利变量未必是多余的,如果它可能对被解释变量是不可缺少的,则不能简单舍弃,而是应研究改善模型的形式,寻找更符合实际的模型,重新进行估计。如果通过检验证明回归模型存在明显线性相关的两个解释变量中的其中一个可以被另一个很好地解释,则可略去其中对被解释变量影响较小的那个变量,模型中保留影响较大的那个变量。 下边我们通过实例来说明逐步回归分析方法在解决多重共线性问题上的具体应用过程。 具体实例 例1设某地10年间有关服装消费、可支配收入、流动资产、服装类物价指数、总物价指数的调查数据如表1,请建立需求函数模型。 表1 服装消费及相关变量调查数据

计量经济学实验报告(多元线性回归 自相关 )

实验报告 课程名称计量经济学 实验项目名称多元线性回归自相关 异方差多重共线性班级与班级代码 08国际商务1班实验室名称(或课室)实验楼910 专业国际商务 任课教师刘照德 学号: 043 姓名:张柳文 实验日期: 2011 年 06 月 23日 广东商学院教务处制

姓名张柳文实验报告成绩 评语: 指导教师(签名) 年月日说明:指导教师评分后,实验报告交院(系)办公室保存。

计量经济学实验报告 实验项目:多元线性回归、自相关、异方差、多重共线性 实验目的:掌握多元线性回归模型、自相关模型、异方差模型、多重共线性模型的估计和检验方法和处理方法 实验要求:选择方程进行多元线性回归;熟悉图形法检验和掌握D-W 检验,理解广义差分法变换和掌握迭代法;掌握Park或 Glejser检验,理解同方差性变换; 实验原理:普通最小二乘法图形检验法 D-W检验广义差分变换加权最小二乘法 Park检验等 实验步骤: 首先:选择数据 为了研究影响中国税收收入增长的主要原因,选择国内生产总值(GDP)、财政支出(ED)、商品零售价格指数(RPI)做为解释变量,对税收收入(Y)做多元线性回归。从《中国统计年鉴》2011中收集1978—2009年各项影响因素的数据。如下表所示: 中国税收收入及相关数据

实验一:多元线性回归 1、将数据导入后,分别对三个解释变量与被解释变量做散点图,选择两个变量作为group打开,在数据表“group”中点击view/graph/scatter/simple scatter,出现数据的散点图,分别如下图所示: 从散点图看,变量间不一定呈现线性关系,可以试着作线性回归。 2、进行因果关系检验

计量经济学简单线性回归实验报告精编

实验报告 1. 实验目的随着中国经济的发展,居民的常住收入水平不断提高,粮食销售量也不断增长。研究粮食年销售量与人均收入之间的关系,对于探讨粮食年销售量的增长的规律性有重要的意义。 2. 模型设定 为了分析粮食年销售量与人均收入之间的关系,选择“粮食年销售量” 为被解释变量(用Y 表示),选择“人均收入”为解释变量(用X 表 示)。本次实验报告数据取自某市从1974 年到1987 年的数据(教材书上101页表3.11),数据如下图所示:

1粮食年销售量Y/万吨人均收入X/ rF1974[ 9& 45153.2 1975100.7190 pl1976102.8240.3 1977133. 95301.12 [61978140.13361 71979143.11420 8—1980146.15491.76「91981144.6501 101982148. 94529.2 1 11-1983158.55552. 72匸1984169. 68771.16 131985P 162.1481L8 14二1986170. 09988.43 1519871F& 691094.65为分析粮食年销售量与人均收入的关系,做下图所谓的散点图 从散点图可以看出粮食年销售量与人均收入大体呈现为线性关 系,可以建立如下简单现行回归模型: 3?估计参数

Y t = ■? 1 2 X t ——I t 假定所建模型及其中的随机扰动项叫满足各项古典假定,可以 用OLS法估计其参数。 通过利用EViews对以上数据作简单线性回归分析,得出回归结果如下表所示: Dependent Variable Y Method: Least Squares Date 10/15/11 Time 14 49 Sample- 1 14 Included observations: 14 Variable Coefficient Std Error t-Statistic Prob C99 61349 6 431242 15 489000 0000 X0.0814700.010738 7.5071190.0000 R-squared0 827493Mean dependent var142 7129 Adjusted R-squared0 813123S.D. dependent var26.09805 S E of regression11 28200Akaike info criterion7 915858 Sum squared resid1527 403Schwarz criterion7 907152 Log likelihood-52.71101F-statisti c5756437 Durbin-V/atson stat0 638969Prob(尸-statistic)0 000006 可用规范的形式将参数估计和检验的结果写为: A Y t =99.61349+0.08147 X t (6.431242)(0.10738) t= (15.48900) (7.587119) R2=0.827498 F=57.56437 n=14 4?模型检验 (1).经济意义检验 A A 所估计的参数1=99.61349, 1 2=0.08147,说明人均收入每增加 1元,平均说来可导致粮食年销售量提高0.08147元。这与经济学中

2019年1计量经济学作业多重共线性p171.doc复习进程

2019年1计量经济学作业多重共线性 p171.d o c

计量经济学作业 ——多重共线性P171 8.下表是被解释变量Y,解释变量X1,X2,X3,X4的时间序列观测值: 时间序列观测值表 3 6.5 47.5 5.2 108 86 4 7.1 49.2 6.8 100 100 5 7.2 52.3 7.3 99 107 6 7.6 58.0 8. 7 99 111 7 8.0 61.3 10.2 101 114 8 9.0 62.3 14.1 97 116 9 9.0 64.7 17.1 93 119 10 9.3 66.8 21.3 102 121 (1)采用适当的方法检验多重共线性。 (2)多重共线性对参数估计值有何影响? (3)用Frisch法确定一个较好的回归模型。 解:(1)采用参数估计值的统计检验法检验多重共线性。 用OLS最小二乘法,估计被解释变量Y与解释变量X1,X2,X3,X4的样本方程,如下所示:

图1-1 在Eviews中建立样本回归模型 图1-2 样本回归模型数据表 输入被解释变量与解释变量: 图1-3 整体样本回归模型建立

用最小二乘法求得结果如下所示: 图1-4 Eviews的结果分析一元线性样本回归方程为: 1.拟合优度检验 由上表可知,样本可决系数为: R-squared=0.978915 修正样本可决系数为: Adjusted-squared=0.962046 即

计算结果表明,估计的样本回归方程较好的拟合了样本观测值。 2.F检验 提出检验的原假设为 对立假设为 由图1-4,得F统计量为 F-statistic=58.03254 对于给定的显著性水平α=0.05,查出分子自由度为4,分母自由度为5的F分布上侧分位数F0.05(4,5)=5.19。因为 F=58.03254>5.19,所以否定H0,总体回归方程显著。 3.t检验 提出检验的原假设为 由上表可知,t统计量为 β0的t-statistic=1.975329 β1的t-statistic=1.149646 β2的t-statistic=2.401806 β3的t-statistic=-0.662938

计量经济学·多元线性回归模型

计量经济学·多元线性回归模型应用作业 1985~2014年中国GDP与进口、出口贸易总额的关系 一、概述 在当今市场上,一国的GDP与多个因素存在着紧密的联系,例如进口总额和出口总额等都是影响一国GDP 的重要因素。本次将以中国1985-2014年GDP和进口总额、出口总额两个因素因素的数据,通过建立计量经济模型来分析上述变量之间的关系,强调贸易对GDP 的重要性,从而促进国内生产总值的发展。 二、模型构建过程 ⒈变量的定义 解释变量:X1进口贸易总额,X2出口贸易总额被解释变量:Y国内生产总值 建立计量经济模型:解释原油产量与进口贸易总额、出口贸易总额之间的关系。 ⒉模型的数学形式 设定GDP与两个解释变量相关关系模型,样本回归模型为: ⒊数据的收集 该模型的构建过程中共有两个变量,分别是中国从1990-2006年民用汽车拥有量、电力产量、国内生产总值以及能源消费总量,因此为时间序列数据,最后一个即2006年的数据作为预测对比数据,收集的数据如下所示 时间国内生产总值(亿元) 出口总额(人民币亿 元) 进口总额(人民币亿 元) 1985年9039.9 808.9 1257.8 1986年10308.8 1082.1 1498.3 1987年12102.2 1470 1614.2 1988年15101.1 1766.7 2055.1 1989年17090.3 1956 2199.9 1990年18774.3 2985.8 2574.3 1991年21895.5 3827.1 3398.7 1992年27068.3 4676.3 4443.3 1993年35524.3 5284.8 5986.2 1994年48459.6 10421.8 9960.1 1995年61129.8 12451.8 11048.1 1996年71572.3 12576.4 11557.4 1997年79429.5 15160.7 11806.5 1998年84883.7 15223.6 11626.1 1999年90187.7 16159.8 13736.5 2000年99776.3 20634.4 18638.8 2001年110270.4 22024.4 20159.2 2002年121002 26947.9 24430.3 2003年136564.6 36287.9 34195.6 2004年160714.4 49103.3 46435.8 2005年185895.8 62648.1 54273.7

第七章 多共线性及其处理

第七章 多重共线性及其处理 第一部分 学习辅导 一、本章学习目的与要求 1.理解多重共线性的概念; 2.掌握多重共线性存在的主要原因; 3.理解多重共线性可能造成的后果; 4.掌握多重共线性的检验与修正的方法。 二、本章内容提要 本章主要介绍计量经济模型的计量经济检验。即多重共线性问题。 多重共线性是多元回归模型可能存在的一类现象,分为完全共线与近似共线两类。模型的多个解释变量间出现完全共线性时,模型的参数无法估计。更多的情况则是近似共线性,这时,由于并不违背所有的基本假定,模型参数的估计仍是无偏、一致且有效的,但估计的参数的标准差往往较大,从而使得t 统计值减小,参数的显著性下降,导致某些本应存在于模型中的变量被排除,甚至出现参数正负号方面的一些混乱。显然,近似多重共线性使得模型偏回归系数的特征不再明显,从而很难对单个系数的经济含义进行解释。多重共线性的检验包括检验多重共线性是否存在以及估计多重共线性的范围两层递进的检验。而解决多重共线性的办法通常有逐步回归法、差分法以及使用额外信息、增大样本容量等方法。 (一)多重共线性及其产生的原因 当我们利用统计数据进行分析时,解释变量之间经常会出现高度多重共线性的情况。 1.多重共线性的基本概念 多重共线性(Multicollinearity )一词由弗里希(Frish )于1934年在其撰写的《借助于完全回归系统的统计合流分析》中首次提出。它的原义是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系。 如果在经典回归模型Y X βε=+中,经典假定(5)遭到破坏,则有()1R X k <+,此时称解释变量k X X X ,,,21ΛΛ间存在完全多重共线性。解释变量的完全多重共线性,也就是解释变量之间存在严格的线性关系,即数据矩阵X 的列向量线性相关。因此,必有一个列向量可由其余列向量线性表示。 同时还有另外一种情况,即解释变量之间虽然不存在严格的线性关系,但是却有近似的线性关系,即解释变量之间高度相关。 2.多重共线性产生的原因 多元线性回归模型产生多重共线性的原因很多,主要有: (1)经济变量的内在联系 这是产生多重共线性的根本原因。 (2)解释变量中含有滞后变量 (3)经济变量变化趋势的“共向性” 必须指出,多重共线性基本上是一种样本现象。因为人们在设定模型时,总是尽量避免将理论上具有严格线性关系的变量作为解释变量收集在一起,因此,实际问题中的多重共线性并不是解释变量之间存在理论上或实际上的线性关系造成的,而是由所收集的数据(解释变量观察值)之间存在近似的线性关系所致。 (二)多重共线性的影响 多重共线性会产生以下问题: (1)增大了OLS 估计量的方差 (2)难以区分每个解释变量的单独影响 (3)回归模型缺乏稳定性 (4)t 检验的可靠性降低 (三)多重共线性的判别 在应用多元回归模型中,人们总结了许多检验多重共线性的方法。 1.系数判定法

解决多元线性回归中多重共线性问题的方法分析

解决多元线性回归中多重共线性问题的方法分析 谢小韦,印凡成 河海大学理学院,南京 (210098) E-mail :xiexiaowei@https://www.doczj.com/doc/5d1728244.html, 摘 要:为了解决多元线性回归中自变量之间的多重共线性问题,常用的有三种方法: 岭回 归、主成分回归和偏最小二乘回归。本文以考察职工平均货币工资为例,利用三种方法的 SAS 程序进行了回归分析,根据分析结果总结出三种方法的优缺点,结果表明如果能够使用 定性分析和定量分析结合的方法确定一个合适的k 值,则岭回归可以很好地消除共线性影 响;主成分回归和偏最小二乘回归采用成份提取的方法进行回归建模,由于偏最小二乘回归 考虑到与因变量的关系,因而比主成分回归更具优越性。 关键词:多重共线性;岭回归;主成分回归;偏最小二乘回归 1. 引言 现代化的工农业生产、社会经济生活、科学研究等各个领域中,经常要对数据进行分析、 拟合及预测,多元线性回归是常用的方法之一。多元线性回归是研究多个自变量与一个因变 量间是否存在线性关系,并用多元线性回归方程来表达这种关系,或者定量地刻画一个因变 量与多个自变量间的线性依存关系。 在对实际问题的回归分析中,分析人员为避免遗漏重要的系统特征往往倾向于较周到地 选取有关指标,但这些指标之间常有高度相关的现象,这便是多变量系统中的多重共线性现 象。在多元线性回归分析中,这种变量的多重相关性常会严重影响参数估计,扩大模型误差, 破坏模型的稳健性,从而导致整体的拟合度很大,但个体参数估计值的t 统计量却很小,并 且无法通过检验。由于它的危害十分严重,存在却又十分的普遍,因此就要设法消除多重线 性的不良影响。 常用的解决多元线性回归中多重共线性问题的模型主要有主成分回归、岭回归以及偏最 小二乘回归。三种方法采用不同的方法进行回归建模,决定了它们会产生不同的效果。本文 以统计职工平均货币工资为例,考察一组存在共线性的数据,运用SAS 程序对三种回归进 行建模分析,并对结果进行比较,总结出它们的优势与局限,从而更好地指导我们解决实际 问题。 2. 共线性诊断 拟合多元线性回归时,自变量之间因存在线性关系或近似线性关系,隐蔽变量的显著性, 增加参数估计的方差,导致产生一个不稳定的模型,因此共线性诊断的方法是基于自变量的 观测数据构成的矩阵T x x 进行分析,使用各种反映自变量间相关性的指标。共线性诊断常 用统计量有方差膨胀因子VIF (或容限TOL )、条件指数和方差比例等。 一般认为:若VIF>10,说明模型中有很强的共线性关系;若条件指数值在10与30间 为弱相关,在30与100间为中等相关,大于100为强相关;在大的条件指数中由方差比例 超过0.5的自变量构成的变量子集就认为是相关变量集[1]。 3. 三种解决方法 岭回归基本思想: 当出现多重共线性时,有0T X X ≈,从而使参数的1?()T T X X X Y β ?=很不稳定,出现不符合含义的估计值,给T X X 加上一个正常数矩阵(0)KI K >,则T X X KI +等

最新多重共线性的解决之法

多重共线性的解决之 法

第七章多重共线性 教学目的及要求: 1、重点理解多重共线性在经济现象中的表现及产生的原因和后果 2、掌握检验和处理多重共线性问题的方法 3、学会灵活运用Eviews软件解决多重共线性的实际问题。 第一节多重共线性的产生及后果 一、多重共线性的含义 1、含义 在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,X k中的任何一个都不能是其他解释变量的线性组合。如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。 2、类型 多重共线性包含完全多重共线性和不完全多重共线性两种类型。 (1)完全多重共线性 完全多重共线性是指线性回归模型中至少有一个解释变量可以被其他解释变量线性表示,存在严格的线性关系。 如对于多元线性回归模型

i ki k i i i X X X Y μββββ+++++= 22110 (7- 1) 存在不全为零的数k λλλ,,,21 ,使得下式成立: 0X X X 2211=+++ki k i i λλλ (7-2) 则可以说解释变量k X ,,X ,X 21 之间存在完全的线性相关关系,即存在完全多重共 线性。 从矩阵形式来看,就是0'=X X , 即1)(-

计量经济学判断题 )

1. 总离差平方和可分解为回归平方和与残差平方和。( 对 ) 2. 整个多元回归模型在统计上是显着的意味着模型中任何一个单独的解释变量均是统计显着的。( 错 ) 3. 多重共线性只有在多元线性回归中才可能发生。( 对 ) 4. 通过作解释变量对时间的散点图可大致判断是否存在自相关。( 错 ) 5. 在计量回归中,如果估计量的方差有偏,则可推断模型应该存在异方差( 错 ) 6. 存在异方差时,可以用广义差分法来进行补救。( 错 ) 7. 当经典假设不满足时,普通最小二乘估计一定不是最优线性无偏估计量。( 错 ) 8. 判定系数检验中,回归平方和占的比重越大,判定系数也越大。( 对 ) 9. 可以作残差对某个解释变量的散点图来大致判断是否存在自相关。( 错 )做残差 ) n 5、经典线性回归模型(CLRM )中的干扰项不服从正态分布的,OLS 估计量将有偏的。错,,即使经典线性回归模型(CLRM )中的干扰项不服从正态分布的,OLS 估计量仍然是无偏的。 因为222)()?(βμββ=+=∑i i K E E ,该表达式成立与否与正态性无关。 1、在简单线性回归中可决系数2R 与斜率系数的t 检验的没有关系。错误,在简单线性回归 中,由于解释变量只有一个,当t 检验显示解释变量的影响显着时,必然会有该回归模型的可决系数大,拟合优度高。 2、异方差性、自相关性都是随机误差现象,但两者是有区别的。正确,异方差的出现总是与模型中某个解释变量的变化有关。自相关性是各回归模型的随机误差项之间具有相关关

系。3、通过虚拟变量将属性因素引入计量经济模型,引入虚拟变量的个数与模型有无截距项无关。错误,模型有截距项时,如果被考察的定性因素有m个相互排斥属性,则模型中引入m-1个虚拟变量,否则会陷入“虚拟变量陷阱”;模型无截距项时,若被考察的定性因素有m个相互排斥属性,可以引入m个虚拟变量,这时不会出现多重共线性。 4、满足阶条件的方程一定可以识别。错误,阶条件只是一个必要条件,即满足阶条件的的方程也可能是不可识别的。 5、库依克模型、自适应预期模型与局部调整模型的最终形式是不同的。错误,库依克模型、自适应预期模型与局部调整模型的最终形式是相同的,其最终形式都是一阶自回归模型。2、多重共线性问题是随机扰动项违背古典假定引起的。错误,应该是解释变量之间高度相关引起的. (3) 线性回归模型意味着因变量是自变量的线性函数。(错) (4) 在线性回归模型中,解释变量是原因,被解释变量是结果。(对) 1、虚拟变量的取值只能取0或1(对) 2、通过引入虚拟变量,可以对模型的参数变化进行检验(对) 1、简单线性回归模型与多元线性回归模型的基本假定是相同的。错 在多元线性回归模型里除了对随机误差项提出假定外,还对解释变量之间提 出无多重共线性的假定。 2、在模型中引入解释变量的多个滞后项容易产生多重共线性。对 在分布滞后模型里多引进解释变量的滞后项,由于变量的经济意义一样,只

计量经济学多元线性回归模型

多元线性回归模型 一.概述 当今农村农民人均纯收入与多个因素存在着紧密的联系,例如人均工资收入,人均农林牧渔产值人均生产费用支出,人均转移性和财产性收入等。本次将以安徽1995-2009年农村居民纯收入与人均工资收入,人均生产费用支出,人均转移性和财产性收入等因素的数据,通过建立计量经济模型来分析上述变量之间的关系,强调农村居民生活的重要性,从而促进全国经济的发展。 二、模型构建过程 ⒈变量的定义 被解释变量:农民人均纯收入y 解释变量:人均工资收入x1, 人均农林牧渔产值x2 人均生产费用支出x3 人均转移性和财产性收入x4。 建立计量经济模型:解释农民人均纯收入与人均工资收入,人均生产费用支出,人均转移性和财产性收入的关系 ⒉模型的数学形式 设定农民人均纯收入与五个解释变量相关关系模型,样本回归模型为: ∧Y i=∧ β + ∧ β 1 X i1+∧β 2 X i2+∧β 3 X i3+∧β 4 X i4+e i ⒊数据的收集 该模型的构建过程中共有四个变量,分别是中国从1995-2009年人均工资收入,人均农林牧渔产值人均生产费用支出,人均转移性和财产性收入,因此为时间序列数据,最后一个即2009年的数据作为预测对比数据,收集的数据如下所示: ⒋用OLS法估计模型 回归结果,散点图分别如下:

Y?=33.632+0.659X1+0.59X2-0.274X3+0.152X4 i d.f.=10 ,R2=0.997116 , Se=(186.261) (0.1815 (0.1245) (0.2037) (0.5699) t=(0.1805) (3.632) (4.741) (-1.347) (2.674) 三、模型的检验及结果的解释、评价

计量经济学多元线性回归

低碳农业发展影响因素分析——以新疆南疆五地州为例 学生姓名方芳 学号1075717008 所属学院经济与管理学院 专业农村与区域发展 塔里木大学教务处制

目录 1 引言 (1) 2 数据来源和研究方法 (1) 2.1数据来源 (1) 2.2研究方法 (2) 3 模型检验与结果 (3) 3.1初始模型计量 (3) 3.2检验 (3) 4 结论与建议 (4) 5 参考文献 (4)

低碳农业发展影响因素分析 --以新疆南疆五地州为例 方芳 摘要:全球变暖问题引起世界各国的广泛关注,这一变化使得自然灾害频发,甚至危及人类安全,因此解决这一问题迫在眉睫。通过对新疆南疆五地州的农业总产值与化肥施用量、农用机械总动力及农作物总播种面积进行回归分析后,发现化肥施用量对农作物的总产值影响极大,是其主要的制约因素。要发展低碳农业应转变农业生产方式,实施保护性耕作;应推广施肥新技术,提高化肥利用率;应改进装置,利用新技术生产化肥;发展生态农业,实现经济循环发展。 关键字:低碳农业影响因素回归分析 1 引言 近年来气候变化所导致的高温热潮、暴雨连连、旱灾、沙尘暴频发事件的概率持续增加,CO2是造成该现象的源头之一,因此,发展低碳经济、发展节能减排成为全球关注的热点。2014 年《中美气候变化联合声明》提出我国将于2030 年左右达到碳排放峰值的庄严承诺,2015 年12 月12 日,195个缔约方在巴黎达成了新的全球气候协议———《巴黎协议》,提出努力将气温升幅限制在1.5℃内的目标。农业碳排放量介于电热生产和尾气之间,成为第二大排放源,占我国碳排放总量的17%。新疆位于亚欧大陆腹地,地处中国西北边陲,是中国面最大、交界邻国最多、陆地边境线最长的省区,肩负着与重要世界经济资源大国沿边开放的重任。同时,新疆作为我国重要的种植业和畜牧业基地,以8%的绿洲面积承载了90%以上的人口、耕地和生产总值,绿色生态压力相当严峻。新疆南疆位于天山以南的塔里木盆地 ,四周高山环抱。在行政区划上包括巴音郭楞、阿克苏、喀什、克孜勒苏、和田等五地州及生产建设兵团的四个农业师。塔里木河是我国最大的内陆河,它由西向东1321km,流域覆盖新疆南部地区,面积102万km2,人口825.7万 ,分别占新疆自治区的61%和 47%,是我国重要的棉花基地。冉锦成、苏洋等人研究表明,南疆各地 (州,市) 区域差异明显,喀什地区属碳排放量、碳排放强度“双高”型地区,因此,通过对农业产值与化肥施用量、机械总动力以及农作物播种面积的回归分析,试图找到影响低碳农业发展的主要因素,并提出相关的建议,促进农业实现低碳生产。 2 数据来源和研究方法 2.1数据来源 本文选取的是新疆2006--2016年的农业生产数据,其中包括:农业总产值(亿)Y,化肥施用量(万吨)(X1)、农用机械总动力(万千瓦)(X2)、农作物总播种面积(万公顷)(X3),数据来源于《中国统计年鉴》和《新疆统计年鉴》(2006--2016),数据见表1。 表1 新疆统计年鉴2006-2016样本数据

计量经济学多重共线性

2014-8-8 商学院 王中昭 教学内容 一、多重共线性 二、实际经济问题中的多重共线性 三、多重共线性的后果 四、多重共线性的检验 五、克服多重共线性的办法和实例 §4.3 多重共线性

2014-8-8商学院 王中昭 对于模型Y i =β0+ β1x 1i + β2x 2i +…… βk x ki +μi 如果某两个或多个解释变量之间出现相关性,即:C 1x 1i +C 2X 2i +……C k X ki =0 其中C i 不全为0,即某一个解释变量是其他解释变量的线性组合,则称为完全多重共线性。 完全多重共线性的情况并不多见,一般是出现不同程度的多重共线性。 注意多重共线性不 是指因变量与解释 一、多重共线性概念

2014-8-8商学院 王中昭 Y=Xβ+μ完全共线性:∣X′X ∣=0,(X′X)-1不存在, 使B ^=(X′X)-1X′Y 无法求解。 例如:, 0)(0020 1631084104213211 x x x 3213322113 21≠'=+-=++??????? ??=X X x x x X i i i i i i x c x c x c 这里,完全多重共线性

2014-8-8商学院 王中昭完全多重共线性的情况不多,一般出现不同程度的多重共线性。 多重共线性:∣X′X∣≈0,(X′X)-1存在,但 (X′X)-1主对角线上的元素很大。 ????? ?='≈'?≈+??????? ??=400300000300000100040030000030000010002100010004X)X ( ,0)( 0,0x x - x 199 .2993001001.4004001099.1992001101.1001001 x x x 1 -3i 2i 1i 3 21||这里,X X X 近似多重共线性

多重共线性的检验与处理

实验名称:多重共线性的检验与处理 实验时间:2011.12.10 实验要求: 主要是学习多重共线性的检验与处理,主要是研究解释变量与其余解释变量之间有严重多重共线性的模型,分析变量之间的相关系数。通过具体案例建立模型,然后估计参数,求出相关的数据。再对模型进行检验,看数据之间是否存在多重共线性。最后利用所求出的模型来进行修正。 实验内容: 实例:我国钢材供应量分析 通过分析我国改革开放以来(1978-1997)钢材供应量的历史资料,可以建立一个单一方程模型。根据理论及对现实情况的认识,影响我国钢材供应量 Y(万吨)的主要因素有:原油产量X1(万吨),生铁产量X2(万吨),原煤产量X3(万吨),电力产量X4(亿千瓦小时),固定资产投资X5(亿元),国内生产总值 X6(亿元),铁路运输量X7(万吨)。 (一)建立我国钢材供应量的计量经济模型: (二)估计模型参数,结果为: Dependent Variable: Y Method: Least Squares Date: 11/02/09 Time: 16:09 Sample: 1978 1997 Included observations: 20 Variable Coefficient Std. Error t-Statistic Prob. C 139.2362 718.2493 0.193855 0.8495 X1 -0.051954 0.090753 -0.572483 0.5776 X2 0.127532 0.132466 0.962751 0.3547 X3 -24.29427 97.48792 -0.249203 0.8074 X4 0.863283 0.186798 4.621475 0.0006 X5 0.330914 0.105592 3.133889 0.0086 X6 -0.070015 0.025490 -2.746755 0.0177 X7 0.002305 0.019087 0.120780 0.9059 R-squared 0.999222 Mean dependent var 5153.350 Adjusted R-squared 0.998768 S.D. dependent var 2511.950 S.E. of regression 88.17626 Akaike info criterion 12.08573 Sum squared resid 93300.63 Schwarz criterion 12.48402 Log likelihood -112.8573 F-statistic 2201.081 Durbin-Watson stat 1.703427 Prob(F-statistic) 0.000000 由此可见,该模型可绝系数很高,F检验值2201.081,明显显著。但当,系数的t检验不显著,而且系数的符号与预期的相反,这表明很可能存在严重的多重共线性。 (三)计算各解释变量的相关系数,选择数据,得相关系数矩阵(表3.1)。

相关主题
文本预览
相关文档 最新文档