北航数理统计大作业(逐步回归)

  • 格式:doc
  • 大小:319.50 KB
  • 文档页数:16

下载文档原格式

  / 16
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

应用数理统计第一次大作业

学号:

姓名:

班级:B11班

2015年12月

民航客运量的多元线性回归分析

摘要:本文为建立以民航客运量为因变量的多元线性回归模型,选取了1996年至2013年的统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人数,城镇居民可支配收入等因素,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,并采用2014年的数据进行检验,得到的结果达到预期,证明该模型建立是较为成功的。

关键词:多元线性回归,逐步回归法,民航客运量

0.符号说明

变量符号

国民生产总值X1

铁路客运量X2

民航航线里程X3

入境过夜旅游人数X4

城镇居民人均可支配收入X5

1.引言

随着社会的进步,人民生活水平的提高,如何获得更快捷方便的交通成为人们日益关注的问题。因为航空的安全性,快速且价格水平越来越倾向大众,越来越多的人们选择航空这种交通方式。近年来,我国的航空客运量已经进入世界前列,为掌握航空客运的动态,合理安排班机数量。科学地对我国民航客运量的影响因素的分析,并得出其回归方程,进而能够估计航空客运量是非常有必要的。本文收集整理了与我国航空客运量相关的历年数据,运用SPSS软件对数据进行分析,研究1996年起至2013年我国民航客运量y(万人)与国民生产总值X1(亿元)、铁路客运量X2(万人)、民航航线里程X3(万公里)、入境过夜旅游人数X4(万人)、城镇居民人均可支配收入X5(元)的关系。采用逐步回归法建立线性模型,选出较优的线性回归模型。

2.数据的统计与分析

本文在进行统计时,查阅《中国统计摘要》,《中国统计年鉴2014》以及中国知网数据查询中的数据,收集了1996年至2013年各个自变量因素的数据,分析它们之间的联系。整理如表1所示。

表1:

201026769397983.5168145276.54753.8419109.4 201129316473104146192349.054924.3221809.8 201231896519470.1189337328.015668.6324564.7 201335397568845.2210597410.65562.3926955.1

2.1模型的建立

以民航客运量y为因变量,以上5种影响因素为自变量X i,构建回归方程:

其中为常数项,为误差项。

先观察自变量与因变量的关系,用SPSS得到各个自变量与因变量的散点图:

图1 民航客运量与国内生产总值散点图

图2 民航客运量与铁路客运量散点图

图3 民航客运量与航线里程散点图

图4 民航客运量与入境过夜人数散点图

图5 民航客运量与人均可支配收入散点图

从以上五张散点图,我们可以看出因变量民航客运量与国内生产总值,入境

过夜旅游人数和城镇居民人均可支配收入均有较好的线性关系

,这说明建立线性模型是有意义的。

继续下一步逐步回归分析,逐步回归的基本思想是将变量逐个引入模型,每引入一个变量后都要进行F检验,并对已经选入的变量逐个进行t检验,当原来引入的变量由于后面变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含先主动变量。这是一个反复的过程,直到既没有显著的变量选入回归方程,也没用不显著的变量从回归方程中剔除为止。在SPSS 软件中可直接进行逐步回归分析,得出以下结果:

由表2知,逐步回归后得出两个模型,模型1只包含城镇居民可支配收入,其他自变量都没有进入模型,模型2在1的基础上再纳入了过夜入境旅游人数,其他的自变量也都被排除了。

表2

输入/移去的变量a

模型输入的变量移去的变量方法

1 城镇居民人均可支配

收入

. 步进(准则:

F-to-enter 的概率

<= .050,F-to-remove

的概率 >= .100)。

2 过夜游客. 步进(准则:

F-to-enter 的概率

<= .050,F-to-remove

的概率 >= .100)。

a. 因变量: 民用航空客运量表3

2.2拟合度检验

由表4,模型1的决定系数R2=0.992,模型2的决定系数R2=0.995,可以看出回归方程都高度显著,且模型2比模型1更优。

2.3回归方程的显著性检验:

由表5,方差分析表Sig值都<0.05,说明每个模型都拒绝回归系数均为0的假设,每个方程都是显著的。

表5

Anova a

模型平方和df均方F Sig.

1回归1678659397.18411678659397.1842183.841.000b 残差12298767.26116768672.954

总计1690958164.44417

2回归1684069181.3702842034590.6851833.437.000c 残差6888983.0751*******.538

总计1690958164.44417

a. 因变量: 民用航空客运量

b. 预测变量: (常量), 城镇居民人均可支配收入。

c. 预测变量: (常量), 城镇居民人均可支配收入, 过夜游客。

由表6可以得到两个模型的回归方程分别:

1.以城镇居民可支配收入为自变量的拟合函数:

y=-1698.669+1.406X5

2. 以城镇居民可支配收入和过夜入境旅游人数为自变量的拟合函数:

y=-3267.728+0.817X5+2.871X4

且所有系数的显著性水平都小于0.05,每个回归方程都是有意义的。

表6

系数a

模型非标准化系数标准系数t Sig.

B标准误差试用版

1

(常量)-1698.669423.955-4.007.001城镇居民人均可支配收入 1.406.030.99646.732.000

2(常量)-3267.728562.492-5.809.000城镇居民人均可支配收入.817.173.579 4.721.000过夜游客 2.871.837.421 3.432.004

a. 因变量: 民用航空客运量

表7是残差统计结果。主要显示预测值、标准化预测值、残差和标准化残差等统计量的最大值、最小值、均值和标准差。残差平方和Q描述的是随机误差