北航数理统计大作业(逐步回归)

  • 格式:doc
  • 大小:341.70 KB
  • 文档页数:17

下载文档原格式

  / 17
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

应用数理统计第一次大作业

学号:

班级:B11班

2015年12月

民航客运量的多元线性回归分析

摘要:本文为建立以民航客运量为因变量的多元线性回归模型,选取了1996

年至2013年的统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人数,城镇居民可支配收入等因素,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,并采用2014年的数据进行检验,得到的结果达到预期,证明该模型建立是较为成功的。

关键词:多元线性回归,逐步回归法,民航客运量

0.符号说明

变量符号

国民生产总值X1

铁路客运量X2

民航航线里程X3

入境过夜旅游人数X4

城镇居民人均可支配收入X5

1.引言

随着社会的进步,人民生活水平的提高,如何获得更快捷方便的交通成为人们日益关注的问题。因为航空的安全性,快速且价格水平越来越倾向大众,越来越多的人们选择航空这种交通方式。近年来,我国的航空客运量已经进入世界前列,为掌握航空客运的动态,合理安排班机数量。科学地对我国民航客运量的影响因素的分析,并得出其回归方程,进而能够估计航空客运量是非常有必要的。本文收集整理了与我国航空客运量相关的历年数据,运用SPSS软件对数据进行分析,研究1996年起至2013年我国民航客运量y(万人)与国民生产总值X1(亿元)、铁路客运量X2(万人)、民航航线里程X3(万公里)、入境过夜旅游

人数X4(万人)、城镇居民人均可支配收入X5(元)的关系。采用逐步回归法建立线性模型,选出较优的线性回归模型。

2.数据的统计与分析

本文在进行统计时,查阅《中国统计摘要》,《中国统计年鉴2014》以及中国知网数据查询中的数据,收集了1996年至2013年各个自变量因素的数据,分析它们之间的联系。整理如表1所示。

表1:

2004 12123 159878.3 111764 204.94 2519.89 9421.6 2005 13827 184937.4 115583 199.85 2925.63 10493.1 2006 15968 216314.4 125656 211.35 3486.45 11759.5 2007 18576 265810.3 135670 234.3 3398.58 13785.8 2008 19251 314045.4 146193 246.18 3696.71 15780.8 2009 23052 340506.9 152451 234.51 4025.96 17174.7 2010 26769 397983.5 168145 276.5 4753.84 19109.4 2011 29316 473104 146192 349.05 4924.32 21809.8 2012 31896 519470.1 189337 328.01 5668.63 24564.7 2013 35397 568845.2 210597 410.6 5562.39 26955.1 2.1模型的建立

以民航客运量y为因变量,以上5种影响因素为自变量X i,构建回归方程:其中为常数项,为误差项。

先观察自变量与因变量的关系,用SPSS得到各个自变量与因变量的散点图:

图1 民航客运量与国生产总值散点图图2 民航客运量与铁路客运量散点图

图3 民航客运量与航线里程散点图

图4 民航客运量与入境过夜人数散点图

图5 民航客运量与人均可支配收入散点图

从以上五散点图,我们可以看出因变量民航客运量与国生产总值,入境过夜

旅游人数和城镇居民人均可支配收入均有较好的线性关系,这说明建立线性模型是有意义的。

继续下一步逐步回归分析,逐步回归的基本思想是将变量逐个引入模型,每引入一个变量后都要进行F检验,并对已经选入的变量逐个进行t检验,当原来引入的变量由于后面变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含先主动变量。这是一个反复的过程,直到既没有显著的变量选入回归方程,也没用不显著的变量从回归方程中剔除为止。在SPSS 软件中可直接进行逐步回归分析,得出以下结果:

由表2知,逐步回归后得出两个模型,模型1只包含城镇居民可支配收入,其他自变量都没有进入模型,模型2在1的基础上再纳入了过夜入境旅游人数,其他的自变量也都被排除了。

表2

输入/移去的变量a

模型输入的变量移去的变量方法

1 城镇居民人均可支配

收入

. 步进(准则:

F-to-enter 的概率

<= .050,F-to-remove

的概率 >= .100)。

2 过夜游客. 步进(准则:

F-to-enter 的概率

<= .050,F-to-remove

的概率 >= .100)。

a. 因变量: 民用航空客运量表3

2.2拟合度检验

由表4,模型1的决定系数R2=0.992,模型2的决定系数R2=0.995,可以看出回归方程都高度显著,且模型2比模型1更优。

2.3回归方程的显著性检验:

由表5,方差分析表Sig值都<0.05,说明每个模型都拒绝回归系数均为0的假设,每个方程都是显著的。

表5

Anova a

模型平方和df 均方 F Sig.

1 回归1678659397.184 1 1678659397.184 2183.841 .000b 残差12298767.261 16 768672.954

总计1690958164.444 17

2 回归1684069181.370 2 842034590.685 1833.437 .000c 残差6888983.075 15 459265.538

总计1690958164.444 17

a. 因变量: 民用航空客运量

b. 预测变量: (常量), 城镇居民人均可支配收入。

c. 预测变量: (常量), 城镇居民人均可支配收入, 过夜游客。

由表6可以得到两个模型的回归方程分别:

1.以城镇居民可支配收入为自变量的拟合函数:

y=-1698.669+1.406X5

2. 以城镇居民可支配收入和过夜入境旅游人数为自变量的拟合函数:

y=-3267.728+0.817X5+2.871X4

且所有系数的显著性水平都小于0.05,每个回归方程都是有意义的。