当前位置:文档之家› 第11章 多重线性回归分析案例辨析及参考答案

第11章 多重线性回归分析案例辨析及参考答案

第11章 多重线性回归分析案例辨析及参考答案
第11章 多重线性回归分析案例辨析及参考答案

第11章 多重线性回归分析

案例辨析及参考答案

案例11-1 预测人体吸入氧气的效率。为了解和预测人体吸入氧气的效率,某人收集了31名中年男性的健康调查资料。一共调查了7个指标,分别是吸氧效率(Y ,%)、年龄(1X ,岁)、体重(2X ,kg )、跑1.5 km 所需时间(3X ,min )、休息时的心跳频率(4X ,次/min )、跑步时的心跳频率(5X ,次/min )和最高心跳频率(6X ,次/min )(教材表11-9)。试用多重线性回归方法建立预测人体吸氧效率的模型。

教材表11-9 吸氧效率调查数据

该研究员采用后退法对自变量进行筛选,最后得到结果如教材表11-10所示。

教材表11-10 多重线性回归模型的参数估计 Table 11-10 Parameter estimation of regression model

Variable Unstandardized Coefficients Standardized Coefficients

t

P

B Std. Error Intercept

100.079 11.577 8.644 0.000 1X

-0.213 0.091 -0.214

-2.337 0.027 3X -2.768 0.331 -0.721 -8.354 0.000 5X

-0.339

0.116

-0.653 -2.939 0.007 6X

0.255 0.132 0.439

1.936

0.064

* 90.34=F , 001.0

=R

对模型进行方差分析的结果认为模型有统计学意义(P <0.05),确定系数的数值(0.843)也说明模型拟合的效果较好。考察各个自变量的偏回归系数,研究者发现,6X 的偏回归系数符号为正,认为最高心跳频率越大,人的吸氧效率就越高,这与专业结论相反。出现这种悖论的原因是什么呢?

案例辨析 我们先分析一下各个自变量之间的简单相关系数,结果发现5X 和6X 存在有较强的相关(r =0.930, P <0.001), 对回归模型进行共线性诊断,结果发现自变量5X 的容忍度为0.122,方差膨胀因子等于8.188,自变量6X 的容忍度为0.117,方差膨胀因子等于8.522,说明自变量之间存在多重共线性,所以出现了与专业结论相反的现象。

正确做法 在这里,我们可以把自变量6X 从模型中删除以消除多重共线性的影响,应重新建立多重线性回归方程。最好多用几种筛选自变量的方法(如前进法、后退法、逐步回归分析、最优回归子集法等)筛选自变量,结合专业知识和统计学知识,综合分析和比较,从而得到比较优的多重回归方程。

案例11-2 医院住院人数的预测 石磊(1991)发表了其所在医院1970-1989年期间历年门诊人次

1X 、病床利用率2X 、病床周转次数3X 和住院人数Y 的数据(教材表11-11),建立由1X 、2X 、3X 预

测Y 的线性回归方程[中国卫生统计,1991,8(6)]。下面列出了多重线性回归分析的主要结果(教材表11-12)。

教材表11-11 重庆医科大学附属第二医院1970-1989年若干统计资料

年份 住院人数

Y 门诊人数/万人

1X

病床利用率/%

2X

病床周转次数

3X

1970 6 349 49.8 94.25 19.84 1971 6 519 38.1 98.50 20.37 1972 5 952 36.6 89.86 18.80 1973 5 230 36.0 86.00 16.34 1974 5 411 32.3 83.29 16.91 1975 5 277 37.8 77.88 18.07 1976 3 772 34.1 92.62 17.96 1977 3 846 42.2 86.57 18.31 1978 3 866 38.1 84.29 18.41 1979 5 142 39.5 89.29 20.61 1980 7 724 55.8 97.63 21.72 1981 8 167 63.0 96.53 23.33 1982 8 107 65.2 93.43 21.91 1983 7 998 66.1 94.45 21.05 1984 7 331 65.4 93.03 19.96 1985 6 447 60.1 91.79 18.81 1986 4 869 56.9 88.94 15.82 1987 5 506 57.7 91.79 16.01 1988 5 741 53.4 99.03 16.59 1989

5 568

48.7

94.93

19.09

教材表11-12 多重线性回归模型的参数估计

Table 11-12 Parameter estimation of regression model

Variable Unstandardized Coefficients Standardized

Coefficients t

P

B Std. Error Intercept

-3219.628

1505.165

-2.139 0.047 1X

59.834 15.780 0.512 3.792 0.001 3X

327.553 85.725 0.515 3.821

0.001

*39.24=F , 001.0

=R

作者采用逐步回归的方法建立了门诊人数和病床周转次数关于住院人数的多重回归方程,得到表11-12的结果,认为回归效果很好。但是,读者小明作了残差分析图(教材图11-4),认为回归效果不好。请仲裁一下,到底谁对谁错?

教材图11-4 残差分析图

案例辨析 作者采用逐步回归的方法建立了门诊人数和病床周转次数关于住院人数的多重回归方程。从结果中可以看出,整个方程是有统计学意义的,各个总体偏回归系数不为零,确定系数等于0.861,说明回归的效果也很好。但是,回头考虑资料是否适合进行多重线性回归分析,也就是资料是否满足多重回归分析的前提条件LINE ?于是,对回归分析的结果进行残差分析,上面的残差图提示资料不满足方差齐性的要求。Durbin-Watson 统计量等于0.580,结果提示资料不满足独立性的要求。其实,常识也认为同一医院不同年份之间的数据不是独立的。因此,可以认为本资料不满足多重线性回归分析的前提条件,不宜进行多重线性回归分析。

正确做法 由于各年数据前后可能存在关联性,即其取值与时间有关,故可以考虑采用时间序列等

多元线性回归模型的案例分析

1. 表1列出了某地区家庭人均鸡肉年消费量Y 与家庭月平均收入X ,鸡肉价格P 1,猪肉价格P 2与牛肉价格P 3的相关数据。 年份 Y/千 克 X/ 元 P 1/(元/千克) P 2/(元/千克) P 3/(元/千克) 年份 Y/千克 X/元 P 1/(元/ 千克) P 2/(元/ 千克) P 3/(元/千克) 1980 2.78 397 4.22 5.07 7.83 1992 4.18 911 3.97 7.91 11.40 1981 2.99 413 3.81 5.20 7.92 1993 4.04 931 5.21 9.54 12.41 1982 2.98 439 4.03 5.40 7.92 1994 4.07 1021 4.89 9.42 12.76 1983 3.08 459 3.95 5.53 7.92 1995 4.01 1165 5.83 12.35 14.29 1984 3.12 492 3.73 5.47 7.74 1996 4.27 1349 5.79 12.99 14.36 1985 3.33 528 3.81 6.37 8.02 1997 4.41 1449 5.67 11.76 13.92 1986 3.56 560 3.93 6.98 8.04 1998 4.67 1575 6.37 13.09 16.55 1987 3.64 624 3.78 6.59 8.39 1999 5.06 1759 6.16 12.98 20.33 1988 3.67 666 3.84 6.45 8.55 2000 5.01 1994 5.89 12.80 21.96 1989 3.84 717 4.01 7.00 9.37 2001 5.17 2258 6.64 14.10 22.16 1990 4.04 768 3.86 7.32 10.61 2002 5.29 2478 7.04 16.82 23.26 1991 4.03 843 3.98 6.78 10.48 (1) 求出该地区关于家庭鸡肉消费需求的如下模型: 01213243ln ln ln ln ln Y X P P P u βββββ=+++++ (2) 请分析,鸡肉的家庭消费需求是否受猪肉及牛肉价格的影响。 先做回归分析,过程如下: 输出结果如下:

EVIEWS案例:(消除多重共线性)影响国内旅游市场收入的主要因素分析

第四章 案例分析 一、研究的目的要求 近年来,中国旅游业一直保持高速发展,旅游业作为国民经济新的增长点,在整个社会经济发展中的作用日益显现。中国的旅游业分为国内旅游和入境旅游两大市场,入境旅游外汇收入年均增长 22.6%,与此同时国内旅游也迅速增长。改革开放20多年来,特别是进入90年代后,中国的国内旅游收入年均增长14.4%,远高于同期GDP 9.76%的增长率。为了规划中国未来旅游产业的发展,需要定量地分析影响中国旅游市场发展的主要因素。 二、模型设定及其估计 经分析,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出以外,还可能与相关基础设施有关。为此,考虑的影响因素主要有国内旅游人数2X ,城镇居民人均旅游支出3X ,农村居民人均旅游支出4X ,并以公路里程5X 和铁路里程6X 作为相关基础设施的代表。为此设定了如下对数形式的计量经济模型: 23456123456t t t t t t t Y X X X X X u ββββββ=++++++ 其中 :t Y ——第t 年全国旅游收入 2X ——国内旅游人数 (万人) 3X ——城镇居民人均旅游支出 (元) 4X ——农村居民人均旅游支出 (元) 5X ——公路里程(万公里) 6X ——铁路里程(万公里) 为估计模型参数,收集旅游事业发展最快的 1994—2003年的统 计数据,如表4.2所示: 表4.2 1994年—2003年中国旅游收入及相关数据

数据来源:《中国统计年鉴2004》 利用Eviews 软件,输入Y 、X2、X3、X4、X5、X6等数据,采用这些数据对模型进行OLS 回归,结果如表4.3: 表4.3 由此可见,该模型9954.02=R ,9897.02 =R 可决系数很高,F 检验值173.3525,明 显显著。但是当05.0=α时776 .2)610()(025.02=-=-t k n t α,不仅2X 、6X 系数的t 检 验不显著,而且6X 系数的符号与预期的相反,这表明很可能存在严重的多重共线性。 计算各解释变量的相关系数,选择X2、X3、X4、X5、X6数据, Views/Open Selected/One Windows/Open Group 点”view/correlations ”得相关系数矩阵(如表4.4): 表4.4 由相关系数矩阵可以看出:各解释变量相互之间的相关系数较高,证实确实存在严重多重共线性。

案例分析(一元线性回归模型)

案例分析报告(2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号:2204120202 学生姓名:陈维维 2014 年11月

案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为11242.85元,最低的青海省仅为人均8192.56元,最高的上海市达人均19397.89元,上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支

SPSS线性回归分析案例

回归分析 实验内容:基于居民消费性支出与居民可支配收入的简单线性回归分析 【研究目的】 居民消费在社会经济的持续发展中有着重要的作用。影响各地区居民消费支出的因素很多,例如居民的收入水平、商品价格水平、收入分配状况、消费者偏好、家庭财产状况、消费信贷状况、消费者年龄构成、社会保障制度、风俗习惯等等。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的经济模型去研究。 【模型设定】 我们研究的对象是各地区居民消费的差异。由于各地区的城市与农村人口比例及经济结构有较大差异,现选用城镇居民消费进行比较。模型中被解释变量Y选定为“城市居民每人每年的平均消费支出”。从理论和经验分析,影响居民消费水平的最主要因素是居民的可支配收入,故可以选用“城市居民每人每年可支配收入”作为解释变量X,选取2010年截面数据。 1、实验数据 表1: 2010年中国各地区城市居民人均年消费支出和可支配收入

2、实验过程 作城市居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)的散点图,如图1:

表2 模型汇总b 表3 相关性 从散点图可以看出居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)大体呈现为线性关系,所以建立如下线性模型:Y=a+bX

表4 系数a 3、结果分析 表2模型汇总:相关系数为0.965,判定系数为0.932,调整判定系数为0.930,估计值的标准误877.29128 表3是相关分析结果。消费性支出Y与可支配收入X相关系数为0.965,相关性很高。 表4是回归分析中的系数:常数项b=704.824,可支配收入X的回归系数a=0.668。a的标准误差为0.034,回归系数t的检验值为19.921,P值为0,满足95%的置信区间,可认为回归系数有显著意义。得线性回归方程Y=0.668X+704.824. 【实验结论】 (1)结果显示,变量之间具有如下关系式:Y=0.668X+704.824.也就是说消费与收入之间存在稳定的函数关系。随着收入的增加,消费将增加,但消费的增长低于收入的增长。这与凯尔斯的绝对收入消费理论刚好吻合。但为了研究方便,这里假设边际消费倾向为常数。由公式知X每增长1个单位,Y增加0.668个单位。

一元线性回归模型案例分析

一元线性回归模型案例分析 一、研究的目的要求 居民消费在社会经济的持续发展中有着重要的作用。居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。改革开放以来随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也不断增长。但是在看到这个整体趋势的同时,还应看到全国各地区经济发展速度不同,居民消费水平也有明显差异。例如,2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元,最高的上海市达人均10464元,上海是黑龙江的2.35倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我们研究的对象是各地区居民消费的差异。居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。 因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。因此建立的是2002年截面数据模型。 影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。为了与“城市居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 从2002年《中国统计年鉴》中得到表2.5的数据: 表2.52002年中国各地区城市居民人均年消费支出和可支配收入

多重共线性 多重共线性实验案例与独立实验问题

实验五 多重共线性模型的检验与处理(1) 一、研究的目的要求 近年来,中国旅游业一直保持高速发展,旅游业作为国民经济新的增长点,在整个社会经济发展中的作用日益显现。中国的旅游业分为国内旅游和入境旅游两大市场,入境旅游外汇收入年均增长22.6%,与此同时国内旅游也迅速增长。改革开放20多年来,特别是进入90年代后,中国的国内旅游收入年均增长14.4%,远高于同期GDP 9.76%的增长率。为了规划中国未来旅游产业的发展,需要定量地分析影响中国旅游市场发展的主要因素。 二、模型设定及其估计 经分析,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出以外,还可能与相关基础设施有关。为此,考虑的影响因素主要有国内旅游人数2X ,城镇居民人均旅游支出3X ,农村居民人均旅游支出4X ,并以公路里程5X 和铁路里程6X 作为相关基础设 施的代表。为此设定了如下对数形式的计量经济模型: 23456123456t t t t t t t Y X X X X X u ββββββ=++++++ 其中 :t Y ——第t 年全国旅游收入 2X ——国内旅游人数 (万人) 3X ——城镇居民人均旅游支出 (元) 4X ——农村居民人均旅游支出 (元) 5X ——公路里程(万公里) 6X ——铁路里程(万公里) 为估计模型参数,收集旅游事业发展最快的1994—2003年的统计数据,如表4.2所示: 利用Eviews 软件,输入Y 、X2、X3、X4、X5、X6等数据,采用这些数据对模型进行OLS 回归,结果如表4.3: 表4.3

由此可见,该模型9954.02=R ,9897.02 =R 可决系数很高,F 检验值173.3525,明 显显著。但是当05.0=α时776 .2)610()(025.02=-=-t k n t α,不仅2X 、6X 系数的t 检 验不显著,而且6X 系数的符号与预期的相反,这表明很可能存在严重的多重共线性。 计算各解释变量的相关系数,选择X2、X3、X4、X5、X6数据,点”view/correlations ”得相关系数矩阵(如表4.4): 表4.4 由相关系数矩阵可以看出:各解释变量相互之间的相关系数较高,证实确实存在严重多重共线性。 三、消除多重共线性 采用逐步回归的办法,去检验和解决多重共线性问题。分别作Y 对X2、X3、X4、X5、X6的一元回归,结果如表4.5所示: 表4.5

一般线性回归分析研究案例

一般线性回归分析案例 1、案例 为了研究钙、铁、铜等人体必需元素对婴幼儿身体健康地影响,随机抽取了30个观测数据,基于多员线性回归分析地理论方法,对儿童体内几种必需元素与血红蛋白浓度地关系进行分析研究.这里,被解释变量为血红蛋白浓度(y),解释变量为钙(ca)、铁(fe)、铜(cu). 表一血红蛋白与钙、铁、铜必需元素含量 (血红蛋白单位为g;钙、铁、铜元素单位为ug) case 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30y(g) 7.00 7.25 7.75 8.00 8.25 8.25 8.50 8.75 8.75 9.25 9.50 9.75 10.00 10.25 10.50 10.75 11.00 11.25 11.50 11.75 12.00 12.25 12.50 12.75 13.00 13.25 13.50 13.75 14.00 14.25 ca 76.90 73.99 66.50 55.99 65.49 50.40 53.76 60.99 50.00 52.34 52.30 49.15 63.43 70.16 55.33 72.46 69.76 60.34 61.45 55.10 61.42 87.35 55.08 45.02 73.52 63.43 55.21 54.16 65.00 65.00 fe 295.30 313.00 350.40 284.00 313.00 293.00 293.10 260.00 331.21 388.60 326.40 343.00 384.48 410.00 446.00 440.01 420.06 383.31 449.01 406.02 395.68 454.26 450.06 410.63 470.12 446.58 451.02 453.00 471.12 458.00 cu 0.840 1.154 0.700 1.400 1.034 1.044 1.322 1.197 0.900 1.023 0.823 0.926 0.869 1.190 1.192 1.210 1.361 0.915 1.380 1.300 1.142 1.771 1.012 0.899 1.652 1.230 1.018 1.220 1.218 1.000

多重共线性案例分析实验报告

《多重共线性案例分析》实验报告

表2 由此可见,该模型,可决系数很高,F 检验值 173.3525,明显显著。但是当时,不仅、 系数的t 检验不显著,而且系数的符号与预期的相反,这表明很可能存在严重的多重共线性。 9954.02=R 9897.02 =R 05.0=α776 .2)610()(025.02=-=-t k n t α2X 6X 6X

②.计算各解释变量的相关系数,选择X2、X3、X4、X5、X6数据,点”view/correlations ”得相关系数矩阵 表3 由关系数矩阵可以看出:各解释变量相互之间的相关系数较高,证实确实存在严重多重共线性相。 4.消除多重共线性 ①采用逐步回归的办法,去检验和解决多重共线性问题。 分别作Y 对X2、X3、X4、X5、X6的一元回归 如下图所示 变量 X2 X3 X4 X5 X6 参数估计值 0.0842 9.0523 11.6673 34.3324 2014.146 t 统计量 8.6659 13.1598 5.1967 6.4675 8.7487 0.9037 0.9558 0.7715 0.8394 0.9054 表4 按的大小排序为:X3、X6、X2、X5、X4。 以X3为基础,顺次加入其他变量逐步回归。首先加入X6回归结果为: t=(2.9086) (0.46214) 2R 2 R 6 31784.285850632.7639.4109?X X Y t ++-=957152.02 =R

1995 1375.7 62900 464.0 61.5 115.70 5.97 1996 1638.4 63900 534.1 70.5 118.58 6.49 1997 2112.7 64400 599.8 145.7 122.64 6.60 1998 2391.2 69450 607.0 197.0 127.85 6.64 1999 2831.9 71900 614.8 249.5 135.17 6.74 2000 3175.5 74400 678.6 226.6 140.27 6.87 2001 3522.4 78400 708.3 212.7 169.80 7.01 2002 3878.4 87800 739.7 209.1 176.52 7.19 2003 3442.3 87000 684.9 200.0 180.98 7.30 表1:1994年—2003年中国游旅收入及相关数据

多元线性回归模型案例

我国农民收入影响因素的回归分析 本文力图应用适当的多元线性回归模型,对有关农民收入的历史数据和现状进行分析,探讨影响农民收入的主要因素,并在此基础上对如何增加农民收入提出相应的政策建议。?农民收入水平的度量常采用人均纯收入指标。影响农民收入增长的因素是多方面的,既有结构性矛盾因素,又有体制性障碍因素。但可以归纳为以下几个方面:一是农产品收购价格水平。二是农业剩余劳动力转移水平。三是城市化、工业化水平。四是农业产业结构状况。五是农业投入水平。考虑到复杂性和可行性,所以对农业投入与农民收入,本文暂不作讨论。因此,以全国为例,把农民收入与各影响因素关系进行线性回归分析,并建立数学模型。 一、计量经济模型分析 (一)、数据搜集 根据以上分析,我们在影响农民收入因素中引入7个解释变量。即:2x -财政用于农业的支出的比重,3x -第二、三产业从业人数占全社会从业人数的比重,4x -非农村人口比重,5x -乡村从业人员占农村人口的比重,6x -农业总产值占农林牧总产值的比重,7x -农作物播种面积,8x —农村用电量。

资料来源《中国统计年鉴2006》。 (二)、计量经济学模型建立 我们设定模型为下面所示的形式: 利用Eviews 软件进行最小二乘估计,估计结果如下表所示: DependentVariable:Y Method:LeastSquares Sample: Includedobservations:19 Variable Coefficient t-Statistic Prob. C X1 X3 X4 X5 X6 X7 X8 R-squared Meandependentvar AdjustedR-squared 表1最小二乘估计结果 回归分析报告为: () ()()()()()()()()()()()()()()() 2345678 2? -1102.373-6.6354X +18.2294X +2.4300X -16.2374X -2.1552X +0.0100X +0.0634X 375.83 3.7813 2.066618.37034 5.8941 2.77080.002330.02128 -2.933 1.7558.820900.20316 2.7550.778 4.27881 2.97930.99582i Y SE t R ===---=230.99316519 1.99327374.66 R Df DW F ====二、计量经济学检验 (一)、多重共线性的检验及修正 ①、检验多重共线性 (a)、直观法 从“表1最小二乘估计结果”中可以看出,虽然模型的整体拟合的很好,但是x4x6

计量经济学中多重共线性案例问题研究报告方案

计量经济学中多重共线性案例问题研究 摘要:本论文主要通过案例来研究计量经济学中的多重共线性的问题,对案例进行EVIEWS分析,并利用诊断共线性的经验方法及修正共线性的经验方法和通过EVIEWS分析对案例中的多重共线性进行诊断与修正,以能够完成减弱多重共线性的目标。 关键字:多重共线性诊断共线性的经验方法修正共线性的经验方法经典的线性回归模型的假定之一是各解释变量X之间不存在多重共线性。然而,在计量经济学中所说的多重共线性(mnlti-collinearity),不仅包含解释变量之间精确的线性关系,还包含解释变量之间近似的线性关系。下面来通过研究国内生产总值的增加会影响财政收入的增加还是减少的案例对多重共线性进行研究。 一、研究的目的和要求 国内生产总值GDP按照支出法的公式为:国内生产总值=消费+投资+政府购买支出+净出口,而财政收入的主要来源为各项税收收入如增值税等。只有经济持续的增长,才能提供稳定的税收来源。所以,影响财政收入的主要因素是税收收入。但是,税收收入还影响着国内生产总值。因此,为了中国未来经济的发展,需要定量的分析影响中国财政收入的因素。 二、模型设定及其估计 经过研究与分析,影响财政收入的主要因素,除了税收收入以外,还有与一些其他因素有关。为此,考虑的影响因素主要有财政支出CZZC/亿元用X2表示,国内生产总值GDP/亿元用X3表示,税收总额SSZE/亿元用X4表示。各影响变量与财政收入之间呈现正相关。因此设定了如下形式的计量经济模型来研究“国内生产总值的增加会减少财政收入吗”这个问题: Y t=β1+β2X2t+β3X3t+β4X4t+μt 式中,Yt为第t年国内财政收入(亿元);X2为财政支出(亿元);X3为国内生产总值(亿元);X4为税收总额(亿元)。各解释变量前的回归系数预期都大于0. 为估计模型参数,1985~2011年阶段财政收入的统计数据,如下表:

3案例分析(多重共线性)

多重共线性的案例分析 一、研究的目的要求 近年来,中国旅游业一直保持高速发展,旅游业作为国民经济新的增长点,在整个社会经济发展中的作用日益显现。中国的旅游业分为国内旅游和入境旅游两大市场,入境旅游外汇收入年均增长22.6%,与此同时国内旅游也迅速增长。改革开放20多年来,特别是进入90年代后,中国的国内旅游收入年均增长14.4%,远高于同期GDP 9.76%的增长率。为了规划中国未来旅游产业的发展,需要定量地分析影响中国旅游市场发展的主要因素。 二、模型设定及其估计 经分析,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出以外,还可能与相关基础设施有关。为此,考虑的影响因素主要有国内旅游人数2X ,城镇居民人均旅游支出3X ,农村居民人均旅游支出4X ,并以公路里程5X 和铁路里程6X 作为相关基础设 施的代表。为此设定了如下对数形式的计量经济模型: 23456123456t t t t t t t Y X X X X X u ββββββ=++++++ 其中 :t Y ——第t 年全国旅游收入 2X ——国内旅游人数 (万人) 3X ——城镇居民人均旅游支出 (元) 4X ——农村居民人均旅游支出 (元) 5X ——公路里程(万公里) 6X ——铁路里程(万公里) 为估计模型参数,收集旅游事业发展最快的1994—2003年的统计数据,如表4.1所示: 利用Eviews 软件,输入Y 、X2、X3、X4、X5、X6等数据,采用这些数据对模型进行OLS 回归,结果如表4.2: 表4.2

由此可见,该模型9954.02=R ,9897.02 =R 可决系数很高,F 检验值173.3525,明 显显著。但是当05.0=α时776 .2)610()(025.02=-=-t k n t α,不仅2X 、6X 系数的t 检 验不显著,而且6X 系数的符号与预期的相反,这表明很可能存在严重的多重共线性。 计算各解释变量的相关系数,选择X2、X3、X4、X5、X6数据,点”Quick/Group statistics/correlations ”得相关系数矩阵(如表4.3): 表4.3 由相关系数矩阵可以看出:各解释变量相互之间的相关系数较高,证实确实存在严重多重共线性。 三、消除多重共线性 采用逐步回归的办法,去检验和解决多重共线性问题。分别作Y 对X2、X3、X4、X5、X6的一元回归,结果如表4.4所示: 表4.4

多元线性回归实例分析

SPSS--回归-多元线性回归模型案例解析!(一) 多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程为: 毫无疑问,多元线性回归方程应该为: 上图中的x1, x2, xp分别代表“自变量”Xp截止,代表有P个自变量,如果有“N组样本,那么这个多元线性回归,将会组成一个矩阵,如下图所示: 那么,多元线性回归方程矩阵形式为: 其中:代表随机误差,其中随机误差分为:可解释的误差和不可解释的误差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样) 1:服成正太分布,即指:随机误差必须是服成正太分别的随机变量。 2:无偏性假设,即指:期望值为0 3:同共方差性假设,即指,所有的随机误差变量方差都相等 4:独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。 今天跟大家一起讨论一下,SPSS---多元线性回归的具体操作过程,下面以教程教程数据为例,分析汽车特征与汽车销售量之间的关系。通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。数据如下图所示:

点击“分析”——回归——线性——进入如下图所示的界面:

将“销售量”作为“因变量”拖入因变量框内,将“车长,车宽,耗油率,车净重等10个自变量拖入自变量框内,如上图所示,在“方法”旁边,选择“逐步”,当然,你也可以选择其它的方式,如果你选择“进入”默认的方式,在分析结果中,将会得到如下图所示的结果:(所有的自变量,都会强行进入) 如果你选择“逐步”这个方法,将会得到如下图所示的结果:(将会根据预先设定的“F统计量的概率值进行筛选,最先进入回归方程的“自变量”应该是跟“因变量”关系最为密切,贡献最大的,如下图可以看出,车的价格和车轴跟因变量关系最为密切,符合判断条件的概率值必须小于0.05,当概率值大于等于0.1时将会被剔除)

(5)案例:多重共线性

案例分析 一、研究的目的要求 近年来,中国旅游业一直保持高速发展,旅游业作为国民经济新的增长点,在整个社会经济发展中的作用日益显现。中国的旅游业分为国内旅游和入境旅游两大市场,入境旅游外汇收入年均增长22.6%,与此同时国内旅游也迅速增长。改革开放20多年来,特别是进入90年代后,中国的国内旅游收入年均增长14.4%,远高于同期GDP 9.76%的增长率。为了规划中国未来旅游产业的发展,需要定量地分析影响中国旅游市场发展的主要因素。 二、模型设定及其估计 经分析,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出以外,还可能与相关基础设施有关。为此,考虑的影响因素主要有国内旅游人数2X ,城镇居民人均旅游支出3X ,农村居民人均旅游支出4X ,并以公路里程5X 和铁路里程6X 作为相关基础设 施的代表。为此设定了如下对数形式的计量经济模型: 23456123456t t t t t t t Y X X X X X u ββββββ=++++++ 其中 :t Y ——第t 年全国旅游收入 2X ——国内旅游人数 (万人) 3X ——城镇居民人均旅游支出 (元) 4X ——农村居民人均旅游支出 (元) 5X ——公路里程(万公里) 6X ——铁路里程(万公里) 为估计模型参数,收集旅游事业发展最快的1994—2003年的统计数据,如表4.2所示: 利用Eviews 软件,输入Y 、X2、X3、X4、X5、X6等数据,采用这些数据对模型进行OLS 回归,结果如表4.3: 表4.3

由此可见,该模型9954.02=R ,9897.02 =R 可决系数很高,F 检验值173.3525,明 显显著。但是当05.0=α时776 .2)610()(025.02=-=-t k n t α,不仅2X 、6X 系数的t 检 验不显著,而且6X 系数的符号与预期的相反,这表明很可能存在严重的多重共线性。 计算各解释变量的相关系数,选择X2、X3、X4、X5、X6数据,点”view/correlations ”得相关系数矩阵(如表4.4): 表4.4 由相关系数矩阵可以看出:各解释变量相互之间的相关系数较高,证实确实存在严重多重共线性。 三、消除多重共线性 采用逐步回归的办法,去检验和解决多重共线性问题。分别作Y 对X2、X3、X4、X5、X6的一元回归,结果如表4.5所示:

多元线性回归模型的案例讲解

多元线性回归模型的案 例讲解 Document number:NOCG-YUNOO-BUYTT-UU986-1986UT

1. 表1列出了某地区家庭人均鸡肉年消费量Y 与家庭月平均收入X ,鸡肉价格P 1,猪肉价格P 2与牛肉价格P 3的相关数据。 年份 Y/ 千克 X/元 P 1/(元/千克) P 2/(元/千克) P 3/(元/千克) 年份 Y/ 千克 X/元 P 1/(元/千克) P 2/(元/千克) P 3/(元/ 千克) 1980 397 1992 911 1981 413 1993 931 1982 439 1994 1021 1983 459 1995 1165 1984 492 1996 1349 1985 528 1997 1449 1986 560 1998 1575 1987 624 1999 1759 1988 666 2000 1994 1989 717 2001 2258 1990 768 2002 2478 1991 843 (1) 求出该地区关于家庭鸡肉消费需求的如下模型: 01213243ln ln ln ln ln Y X P P P u βββββ=+++++ (2) 请分析,鸡肉的家庭消费需求是否受猪肉及牛肉价格的影响。 先做回归分析,过程如下: 输出结果如下:

所以,回归方程为: 123ln 0.73150.3463ln 0.5021ln 0.1469ln 0.0872ln Y X P P P =-+-++ 由上述回归结果可以知道,鸡肉消费需求受家庭收入水平和鸡肉价格的影响,而牛肉价格和猪肉价格对鸡肉消费需求的影响并不显着。 验证猪肉价格和鸡肉价格是否有影响,可以通过赤池准则(AIC )和施瓦茨准则(SC )。若AIC 值或SC 值增加了,就应该去掉该解释变量。 去掉猪肉价格P 2与牛肉价格P 3重新进行回归分析,结果如下: Variable Coefficient Std. Error t-Statistic Prob.?? C LOG(X) LOG(P1) R-squared ????Mean dependent var Adjusted R-squared ????. dependent var . of regression ????Akaike info criterion Sum squared resid ????Schwarz criterion Log likelihood ????F-statistic Durbin-Watson stat ????Prob(F-statistic)

多重共线性案例

能源消耗量多重共线性 数据来源:《2001年一2015年中国统计年鉴》 最小二乘法:

Dep endent Sample: 20Q1 2015 In eluded observatio ns: 15 Vanable CoefUaent Std Error t-Statistic Prob C 132334.0 103956.8 1.272849 0.2437 GDP -0.344084 0.212689 -1.6177S4 0 1497 QC -2096395 2060207 -1.017566 0.3428 FDL 7.647163 2.353612 3.249118 0.0141 HXXW 3559803 23.04932 1.269123 0.2450 TU 1337.533 729.2753 1.834058 0.1093 HF -3.055542 8.653656 -0.353208 0.7343 LSCL -1.669657 2.724030 -0.612936 0.5593 R-squared 0.996149 Mean dependentvar 290620 1 Adjusted R-squared 0.992297 S.D dependent var 90737 42 S.E. of regression 7963.604 Akaike info criterion 21.10768 Sum squared resid 4 44E+0S Schwarz critenon 21.48530 Log liKelifiood -1503076 Hannan-Quinn criter. 21.10366 F-statistic 258 6471 Durbin-Watson stat 2.66U01 Prob(F-statistic) 0.000000 得到的回归模型为 Y = 132333.984713 - 0.344084350491*GDP - 20.9639535518*QC + 7.64716297259*FDL + 35.5980328128*HXXW + 1337.53288876*TLJ - 3.0565********HF - 1.66965708916*LSCL 258.6471,明显显著。但是当 G =0.05时,口2 (n - k-1)=鮎.02 5(15 — 8) = 1.7531 不仅 HF 、HXXW 的系数t 检验不显著,而且 GDP 、QC 、LSCL 系数的符号与预期相反,这样表明可能存在严重的多重共线 性。 计算各解释变量的相关系数,选择 GDP 、QC 、FDL 、HXXW 、TLJ 、HF 、LSCL 的数据 ¥ GDP QC FDL HXXW TLJ HF LSCL Y 1.D000G0 0 978962 0.9715M 0.993906 0.392043 0 982450 0.95517B OJ70274 GDP 097G962 1 000000 0.933772 0 992184 0993639 098S076 0906618 0936553 t= ( 1.273) (-1.617) (1.269) (1.834) R2=0.996,F =258.647 : ,DW=2.661 由以上结果可见,该模型 (-0.353 ) (-1.018 ) (-0.613 ) (3.249 ) 2 R =0.996149,修正的可决系数为 0.992297,可决系数非常高, F 检验值为

SPSS多元线性回归分析报告实例操作步骤

SPSS 统计分析 多元线性回归分析方法操作与分析 实验目的: 引入1998~2008年上海市城市人口密度、城市居民人均可支配收入、五年以上平均年贷款利率和房屋空置率作为变量,来研究上海房价的变动因素。 实验变量: 以年份、商品房平均售价(元/平方米)、上海市城市人口密度(人/平方公里)、城市居民人均可支配收入(元)、五年以上平均年贷款利率(%)和房屋空置率(%)作为变量。 实验方法:多元线性回归分析法 软件:spss19.0 操作过程: 第一步:导入Excel数据文件 1.open data document——open data——open;

2. Opening excel data source——OK. 第二步: 1.在最上面菜单里面选中Analyze——Regression——Linear ,Dependent(因变量)选择商品房平均售价,Independents(自变量)选择城市人口密度、城市居民人均可支配收入、五年以上平均年贷款利率、房屋空置率;Method选择Stepwise. 进入如下界面: 2.点击右侧Statistics,勾选Regression Coefficients(回归系数)选项组中的Estimates;勾选Residuals(残差)选项组中的Durbin-Watson、

Casewise diagnostics默认;接着选择Model fit、Collinearity diagnotics;点击Continue. 3.点击右侧Plots,选择*ZPRED(标准化预测值)作为纵轴变量,选择DEPENDNT(因变量)作为横轴变量;勾选选项组中的Standardized Residual Plots(标准化残差图)中的Histogram、Normal probability plot;点击Continue.

多元线性回归模型案例分析.doc

多元线性回归模型案例分析 ——中国人口自然增长分析一·研究目的要求 中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的5.8降到1980年2.24,接近世代更替水平。此后,人口自然增长率(即人口的生育率)很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,需要建立计量经济学模型。 影响中国人口自然增长率的因素有很多,但据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。 二·模型设定 为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。暂不考虑文化程度及人口分布的影响。 从《中国统计年鉴》收集到以下数据(见表1): 表1 中国人口增长率及相关数据

设定的线性回归模型为: 1222334t t t t t Y X X X u ββββ=++++ 三、估计参数 利用EViews 估计模型的参数,方法是: 1、建立工作文件:启动EViews ,点击File\New\Workfile ,在对 话框“Workfile Range ”。在“Workfile frequency ”中选择“Annual ” (年度),并在“Start date ”中输入开始时间“1988”,在“end date ”中输入最后时间“2005”,点击“ok ”,出现“Workfile UNTITLED ”工作框。其中已有变量:“c ”—截距项 “resid ”—剩余项。在“Objects ”菜单中点击“New Objects”,在“New Objects”对话框中选“Group”,并在“Name for Objects”上定义文件名,点击“OK ”出现数据编辑窗口。 年份 人口自然增长率 (%。) 国民总收入(亿元) 居民消费价格指数增长 率(CPI )% 人均GDP (元) 1988 15.73 15037 18.8 1366 1989 15.04 17001 18 1519 1990 14.39 18718 3.1 1644 1991 12.98 21826 3.4 1893 1992 11.6 26937 6.4 2311 1993 11.45 35260 14.7 2998 1994 11.21 48108 24.1 4044 1995 10.55 59811 17.1 5046 1996 10.42 70142 8.3 5846 1997 10.06 78061 2.8 6420 1998 9.14 83024 -0.8 6796 1999 8.18 88479 -1.4 7159 2000 7.58 98000 0.4 7858 2001 6.95 108068 0.7 8622 2002 6.45 119096 -0.8 9398 2003 6.01 135174 1.2 10542 2004 5.87 159587 3.9 12336 2005 5.89 184089 1.8 14040 2006 5.38 213132 1.5 16024

多重共线性案例

能源消耗量多重共线性 数据来源:《2001年—2015年中国统计年鉴》 最小二乘法: 能源消耗量 (万吨标准煤) GDP (亿元) 汽车 (万辆) 发电量 (亿千瓦时) 化学纤维 (万吨) 大中型拖拉机 (万台) 化肥 (万吨) 粮食产量 (万吨) 2001 150406.00 110270.00 234.17 14808.02 828.00 3.80 3397.00 45262.00 2002 159431.00 121002.00 325.10 16540.00 991.00 4.50 3791.00 45711.00 2003 183792.00 136565.00 444.39 19105.75 1181.14 4.88 4200.00 43067.00 2004 213456.00 160714.00 509.11 22033.09 1424.54 9.83 4469.47 46947.00 2005 235997.00 185896.00 570.49 25002.60 1618.00 16.20 5220.00 48401.00 2006 258676.00 217657.00 727.89 28657.26 2025.50 19.90 5592.80 49746.00 2007 280508.00 268019.00 888.89 32815.53 2390.00 20.30 5786.90 50150.00 2008 291448.00 316752.00 930.59 34957.61 2415.00 31.70 6012.70 52850.00 2009 306647.00 345629.00 1379.53 37146.51 2730.00 37.10 6599.70 53082.00 2010 324939.00 408903.00 1826.53 42071.60 3090.00 38.40 6740.60 54641.00 2011 348002.00 484124.00 1841.60 47000.00 3390.00 40.20 6217.20 57121.00 2012 365000.00 534123.00 1927.70 49377.70 3800.00 46.30 7296.00 58957.00 2013 385000.00 588019.00 2211.70 53975.90 4121.90 58.70 7037.00 60194.00 2014 426000.00 635910.00 2372.50 56495.80 4389.80 64.40 6887.20 60710.00 2015 430000.00 676708.00 2450.40 58105.80 4831.70 68.80 7432.00 62144.00

相关主题
文本预览
相关文档 最新文档