时间序列分析课程报告

  • 格式:docx
  • 大小:894.03 KB
  • 文档页数:17

下载文档原格式

  / 17
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

电子科技大学

基于时间序列分析的乘客人数预测

摘要:本文基于国际航空公司部分年限每个月的乘客数据,给出了一般非平稳时间序列的处理方式,通过对数据的预处理和分析,我们可以大致确定一个时间序列的平稳性,在确保了平稳性的基础之上后续的分析和建模才能顺利展开。通过构建ARIMA模型能够对大部分的时间序列产生较好的拟合结果,除此之外,本文还将数据集进行了一定的划分,使得训练和验证能够独立进行,能够检验模型的泛化能力,使得整个预测能够达到比较好的效果。

关键词:时间序列,ARIMA,分析和建模

一.研究背景

时间序列最早起源于古埃及人把尼罗河涨落的情况逐天记录下来,构成了所谓最早的时间序列相关的概念。初期的时间序列分析通常都是通过直观的数据比较或绘图观测,寻找序列中蕴含的发展规律,尼罗河周期性泛滥的规律发现就是依靠这种原始的分析方法。一个重要的转折点则是随机变量的引入,因为与时间序列相关的问题经常呈现出非常强的随机性,人们发现依靠单纯的描述性时序分析已不能准确地寻找出随机变量发展变化的规律。为了更准确地估计随机序列发展变化的规律,从20世纪20年代开始,一个大的趋势就是利用数理统计学的相关原理分析时间序列,研究的重心从表面现象的总结转移到分析序列值内在的相关关系上,由此开辟了应用统计学科[1]:时间序列分析。

关于时间序列分析方法,最早起源于1927年数学家Yule提出的自回归模型(AR 模型),用来预测市场变化的规律。1931年,另一位数学家在AR模型的启发下,建立了移动平均模型(MA模型),初步奠定了时间序列分析方法的基础。随后又逐渐提出其他模型,逐渐形成完整的时间序列分析方法。当前时间序列分析方法迈上了一个新的台阶,在工程领域方面的应用非常广泛,随着计算机技术和信号处理技术的迅速发展,时间序列分析理论和方法更趋完善。

具体而言,按照时间的顺序把随机事件变化发展的过程记录下来就构成了一个时间序列。对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析。简言之,时间序列分析的基本思想是根据系统有限长度的历史记录(即已知的观察数据),建立能够比较精确地反映时间序列中所包含的动态依存关系的数学模型,并借以对系统的未来行为进行预测。典型的时间举例如下图所示:

图1.1951~1980美国劳工统计局统计的罢工人数

图2.1770~1869年间太阳黑子数统计

从模型构建的基础上讲,时间序列中的每个观察值大小,是由各种不同因素在同一时刻发生作用的综合结果。从这些影响因素发生作用的大小和方向变化的时间特性来看,这些因素造成的时间序列数据的变动分为下面几种:

趋势性:某个变量随着时间进展,呈现一种比较缓慢而长期的持续上升或者下降或者停留的不同属性的变动趋向,这种变动使得时间序列随机变量的方差在逐渐变化,进而凸显出一定的统计规律;

周期性:时间序列由于外部或者内部变量的影响随着时间的延伸,交替地出现高峰与低谷的规律;

随机性:由于随机白噪声的影响使得时间序列呈现出统计意义上的随机性;

因为时间序列本身的特点,常见的基本分析模型有下面几种:

1)P 阶自回归模型(AR(p)):

X t=ϕ1X t−1+ϕ2X t−2+⋯+ϕp X t−p+εt

即当前时刻的序列值由过去序列值的线性组合以及当前随机噪声构成;

2) Q 阶滑动平均模型(MA(q)):

X t=εt+θ1εt−1+⋯+θqεt−q

即当前时刻的序列值由过去的随机噪声和当前随机噪声构成;

3)ARMA模型(p,q):

X t−ϕ1X t−1−ϕ2X t−2+⋯−ϕp X t−p=εt+θ1εt−1+⋯+θqεt−q

即包含上述两种影响的时间序列问题,当前时刻值受过去的序列值以及过去的噪声和当前的噪声影响;

4)ARIMA模型(p,d,q):

由Box与Jenkins于上世纪七十年代提出,ARIMA的含义是单积自回归移动平均过程,其含义为:假设一个随机过程其经过d次差分后可以变换为一个平稳的自回归滑动平均过程,则该随机过程称为单积(整)自回归移动平均过程,其关键在于通过次数不多的差分使得非平稳的时间序列模型转化为平稳的时间序列模型(即普通ARMA模型)。

5)其他模型:

更为一般的非线性模型,如门限自回归、马尔科夫链;动态系统模型,如Kalman滤波,多层递阶预测;多元回归模型;变量场预测模型;

当然在实际应用中时间序列的分析方法远不止上述所列的,这里只是对基本的模型进行概述。时间序列在各个领域都有所应用,其中典型的应用领域就包括经济学的相关预测,信号处理领域,大数据挖掘以及气象信息预测等。举例而言,就经济学领域,诸如在证券领域中得到的观测数据列一般都具有较强的时间变化趋势,股票价格的数据都是以时间序列的形式出现的。因此,采用时间序列分析法对股市数据进行分析预测是可行的,并且很多文献都说明了它的有效性;除此之外间序列分析方法在数据挖掘中的应用也取得了一定的进展。研究者们利用数据挖掘对象,根据时间序列分析方法,提出了基于模糊集合的数据挖掘时间序列模式算法以及结合当下主流机器学习方法,比如支持向量机,随机森林等等;还有的则根据某些时间序列所具有的分形特征,分析了利用分形理论中的R/S分析,发现具有分形特

征的时间序列模式的方法;这些方法通过对大型数据库的海量数据分析提出了进行时间序列模式挖掘的算法,为用户的决策支持和趋势预测提供了依据。在气候预测领域,基于均生函数的时间序列预测延伸出了很多在气候分析及预测上有很好效果的模型,实验结果表明这类模型不但能较好地拟合历史实而且对未来1~5年的演变趋势也具有一定的预报能力[2]。

图3.时间序列分析在天气预测中的举例

二.基于R的乘客人数预测

本文希望通过借助于R平台,结合时间序列分析的基本方法,展现对于一般的非平稳模型的建模分析过程,借此加深对时间序列分析本身的理解以及相关理论知识的算法标准化,有助于后续对于时间序列分析的应用。

首先,本文的数据来源R本身的数据集“AirPassengers”,其中包含了1949-1960年每个月国际航空的乘客数量的数据,该数据集的特点为具有季节性和趋势性,是一种非平稳的时间序列,因此大致的思路是通过差分使得数据变得平稳,然后借助ARIMA模型来实现对规律的预测和分析。下图展示了该数据集:

图4.国际航空乘客数据集概览