第五章 时间序列的模型识别
- 格式:doc
- 大小:1.04 MB
- 文档页数:17
时间序列模型的分析时间序列模型是一种用于分析时间序列数据的统计模型,在许多领域都有广泛的应用,如经济学、金融学、自然科学等。
时间序列模型通过建立数学模型,来描述随时间变化而产生的观测数据的模式和规律,从而可以预测未来的变化趋势。
时间序列模型的分析过程一般包括数据收集、数据预处理、模型选择和评估以及预测。
首先,收集数据是分析时间序列的第一步,可以通过各种途径获得观测数据。
然后,对数据进行预处理,包括去除趋势、季节性和异常值等,以保证模型分析的准确性。
接下来,选择适当的时间序列模型是至关重要的,常见的时间序列模型包括自回归移动平均模型(ARMA)、自回归积分移动平均模型(ARIMA)、季节性自回归积分移动平均模型(SARIMA)等。
根据观测数据的特点和分析目的,选择合适的模型对数据进行拟合和预测。
最后,通过对模型进行评估,可以判断模型的拟合效果和预测准确性,如果模型不理想,需要对模型进行优化或者选择其他模型。
时间序列模型的选择和评估涉及到许多统计方法和技术。
首先,可以通过观察自相关图(ACF)和偏自相关图(PACF)来初步判断时间序列是否存在自相关性和季节性。
自相关图展示了观测值与某个滞后阶数的观测值之间的相关性,而偏自相关图则展示了在排除其他相关性的情况下,某个滞后阶数的观测值与当前观测值之间的相关性。
接着,可以使用信息准则(如赤池信息准则、贝叶斯信息准则)和残差分析等方法来选择合适的模型。
信息准则是一种模型选择标准,通过最小化信息准则的值来选择最优模型。
残差分析则用于检验模型的拟合效果,通常要求残差序列是白噪声序列,即残差之间不存在相关性。
在时间序列模型的预测过程中,常用的预测方法包括移动平均法、指数平滑法、ARMA模型预测法等。
其中,移动平均法用于捕捉序列的平稳性和周期性,指数平滑法适用于序列有趋势性和趋势变化的场景,而ARMA模型则可应对序列存在自相关性的情况。
根据实际情况,可以选择不同的方法进行预测。
时间序列分析模型概述时间序列分析是一种统计方法,用于研究时间序列数据中的模式、趋势和周期性。
它基于时间序列数据的特点,通过建立数学模型来预测未来的数值。
时间序列数据是按照时间顺序排列的一系列观测值,它们通常用于描述一种随时间变化的现象。
例如,股票价格、气温、销售数据等都是时间序列数据。
时间序列分析的目标是通过对已知的观测值进行分析,找出数据中的规律,并利用这些规律来预测未来的数值。
时间序列分析模型通常可以分为两类:基于统计方法的模型和基于机器学习的模型。
基于统计方法的时间序列模型包括AR(自回归模型)、MA (移动平均模型)、ARMA(自回归移动平均模型)和ARIMA(差分自回归移动平均模型)等。
这些模型基于不同的假设和理论,通过寻找数据中的自相关和移动平均性质,来建立模型并进行预测。
它们常常需要对数据进行平稳性检验和参数估计。
基于机器学习的时间序列模型包括神经网络模型、支持向量机模型和深度学习模型等。
这些模型不同于统计方法,它们通过学习时间序列数据中的特征和模式来建立预测模型。
这些模型通常需要大量的数据进行训练,并且需要对模型进行调参。
除了上述模型,时间序列分析还可以包括季节性调整模型、外生变量模型等。
季节性调整模型是用于处理具有明显季节性的时间序列数据,它通过分解数据中的趋势和季节成分,来消除季节性的影响,从而提高预测的准确性。
外生变量模型是将其他影响因素(例如经济指标、政策变化等)引入时间序列模型中,以更全面地考虑影响因素对数据的影响。
时间序列分析模型在经济学、金融学、气象学等领域有着广泛的应用。
例如,在金融领域,时间序列分析模型可以用于预测股票价格和汇率等,帮助投资者做出更准确的投资决策。
在气象学领域,时间序列分析模型可以用于预测天气变化,从而为农业生产和灾害预防提供支持。
总之,时间序列分析是一种重要的数据分析方法,用于处理时间序列数据并进行预测。
它采用统计方法和机器学习方法来建立模型,并通过对数据的分析来找出数据中的规律和趋势。
时间序列分析中模式识别方法的应用摘要:时间序列通常是按时间顺序排列的一系列被观测数据,其观测值按固定的时间间隔采样。
时间序列分析(Time Series Analysis)是一种动态数据处理的统计方法,就是充分利用现有的方法对时间序列进行处理,挖掘出对解决和研究问题有用的信息量。
经典时间序列分析在建模、预测等方面已经有了相当多的成果,但是由于实际应用中时间序列具有不规则、混沌等非线性特征,使得预测系统未来的全部行为几乎不可能,对系统行为的准确预测效果也难以令人满意,很难对系统建立理想的随机模型。
神经网络、遗传算法和小波变换等模式识别技术使得人们能够对非平稳时间序列进行有效的分析处理,可以对一些非线性系统的行为作出预测,这在一定程度上弥补了随机时序分析技术的不足。
【1】本文主要是对时间序列分析几种常见方法的描述和分析,并重点介绍神经网络、遗传算法和小波变换等模式识别方法在时间序列分析中的典型应用。
关键字:时间序列分析模式识别应用1 概述1.1 本文主要研究目的和意义时间序列分析是概率论与数理统计学科的一个分支,它是以概率统计学作为理论基础来分析随机数据序列(或称动态数据序列),并对其建立数学模型,即对模型定阶、进行参数估计,以及进一步应用于预测、自适应控制、最佳滤波等诸多方面。
由于一元时间序列分析与预测在现代信号处理、经济、农业等领域占有重要的地位,因此,有关的新算法、新理论和新的研究方法层出不穷。
目前,结合各种人工智能方法的时序分析模型的研究也在不断的深入。
时间序列分析已是一个发展得相当成熟的学科,已有一整套分析理论和分析工具。
传统的时间序列分析技术着重研究具有随机性的动态数据,从中获取所蕴含的关于生成时间序列的系统演化规律。
研究方法着重于全局模型的构造,主要应用于对系统行为的预测与控制。
时间序列分析主要用于以下几个方面:a 系统描述:根据观测得到的时间序列数据,用曲线拟合的方法对系统进行客观的描述;b 系统分析:当观测值取自两个以上变量时,可用一个时间序列中的变化去说明另一个时间序列中的变化,从而深入了解给定时间序列产生的机理;c 未来预测:一般用数学模型拟合时间序列,预测该时间序列未来值;d 决策和控制:根据时间序列模型可调整输入变量使系统发展过程保持在目标值上,即预测到偏离目标时便可进行控制。
第五章时间序列的模型识别前面四章我们讨论了时间序列的平稳性问题、可逆性问题,关于线性平稳时间序列模型,引入了自相关系数和偏自相关系数,由此得到ARMA(p, q)统计特性。
从本章开始,我们将运用数据开始进行时间序列的建模工作,其工作流程如下:图5.1 建立时间序列模型流程图在ARMA(p,q)的建模过程中,对于阶数(p,q)的确定,是建模中比较重要的步骤,也是比较困难的。
需要说明的是,模型的识别和估计过程必然会交叉,所以,我们可以先估计一个比我们希望找到的阶数更高的模型,然后决定哪些方面可能被简化。
在这里我们使用估计过程去完成一部分模型识别,但是这样得到的模型识别必然是不精确的,而且在模型识别阶段对于有关问题没有精确的公式可以利用,初步识别可以我们提供有关模型类型的试探性的考虑。
对于线性平稳时间序列模型来说,模型的识别问题就是确定ARMA(p,q)过程的阶数,从而判定模型的具体类别,为我们下一步进行模型的参数估计做准备。
所采用的基本方法主要是依据样本的自相关系数(ACF)和偏自相关系数(PACF)初步判定其阶数,如果利用这种方法无法明确判定模型的类别,就需要借助诸如AIC、BIC 等信息准则。
我们分别给出几种定阶方法,它们分别是(1)利用时间序列的相关特性,这是识别模型的基本理论依据。
如果样本的自相关系数(ACF)在滞后q+1阶时突然截断,即在q处截尾,那么我们可以判定该序列为MA(q)序列。
同样的道理,如果样本的偏自相关系数(PACF)在p处截尾,那么我们可以判定该序列为AR(p)序列。
如果ACF和PACF 都不截尾,只是按指数衰减为零,则应判定该序列为ARMA(p,q)序列,此时阶次尚需作进一步的判断;(2)利用数理统计方法检验高阶模型新增加的参数是否近似为零,根据模型参数的置信区间是否含零来确定模型阶次,检验模型残差的相关特性等;(3)利用信息准则,确定一个与模型阶数有关的准则函数,既考虑模型对原始观测值的接近程度,又考虑模型中所含待定参数的个数,最终选取使该函数达到最小值的阶数,常用的该类准则有AIC 、BIC 、FPE 等。
实际应用中,往往是几种方法交叉使用,然后选择最为合适的阶数(p,q )作为待建模型的阶数。
§5.1 自相关和偏自相关系数法在平稳时间序列分析中,最关键的过程就是利用数据去识别和建模,根据第三章讨论的内容,一个比较直观的方法,就是通过观察自相关系数(ACF )和偏自相关系数(PACF )可以对拟合模型有一个初步的识别,这是因为从理论上说,平稳AR 、MA 和ARMA 模型的ACF 和PACF 有如下特性:模型(序列) AR(p ) MA(q ) ARMA(p,q ) 自相关系数(ACF ) 拖尾 q 阶截尾 拖尾 偏自相关系数(PACF ) p 阶截尾 拖尾 拖尾 但是,在实际中ACF 和PACF 是未知的,对于给定的时间序列观测值12,,,T x x x ,我们需要使用样本的自相关系数{}ˆk ρ和偏自相关系数{}ˆkkφ对其进行估计。
然而由于{}ˆk ρ和{}ˆkkφ均是随机变量,对于相应的模型不可能具有严格的“截尾性”,只能呈现出在某步之后围绕零值上、下波动,因此,我们需要借助{}ˆk ρ和{}ˆkkφ的“截尾性”来判断{}k ρ和{}kkφ的截尾性,进而由此可以给出模型的初步识别。
首先,我们需要给出样本的自相关系数{}ˆk ρ和偏自相关系数{}ˆkkφ的定义。
设平稳时间序列{}t X 的一个样本1,,T x x 。
则样本自协方差系数定义为()()11ˆ,11ˆˆ,11T kk j j k j k k x x x x k T T k T γγγ-+=-=--≤≤-=≤≤-∑ (5.1)其中11Tj j x x T ==∑为样本均值,则样本自协方差系数{}ˆk γ是{}t X 的自协方差系数{}k γ的估计。
样本自相关系数定义为0ˆˆˆ,1k k k T ργ=≤- (5.2)是{}t X 的自相关系数{}k ρ的估计。
作为{}t X 的自协方差系数{}k γ的估计,根据数理统计知识,样本自协方差系数还可以写为()()11ˆ,11ˆˆ,11T kk j j k j k k x x x x k T T k k T γγγ-+=-=--≤≤--=≤≤-∑(5.3)在上述两种估计中,当样本容量T 很大,而k 的绝对值较小时,上述两种估计值相差不大,其中由(5.1)定义的第一种估计值的绝对值较小。
根据前面章节的讨论,因为AR(p ),MA(q )或者ARMA(,p q )模型的自协方差系数{}k γ都是以负指数阶收敛到零,所以在对平稳时间序列的数据拟合AR(p ),MA(q )或者ARMA(,p q )模型时,希望实际计算的样本自协方差系数{}ˆk γ能以很快的速度收敛。
因此,我们一般选择由(5.1)定义的第一种估计值作为{}k γ的点估计。
根据第三章偏自相关系数的计算,利用样本自相关系数{}ˆk ρ的值,定义样本偏自相关系数{}ˆkkφ如下: ˆˆ,1,2,,ˆk kk D k TDφ==(5.4)其中111112121212ˆˆˆˆ11ˆˆˆˆ11ˆˆ,ˆˆˆˆˆ1k k kk k k k k DD ρρρρρρρρρρρρρ------==关于样本的自相关系数{}ˆk ρ的统计性质,我们将在下一章给予讨论。
Quenouille 证明,{}ˆkkφ也满足Bartlett 公式,即当样本容量T 充分大时, ()ˆ~0,1kkN T φ (5.5)这样根据正态分布的性质,我们有ˆ68.3%kkP φ⎧≤=⎨⎩ (5.6) ˆ95.5%kkP φ⎧≤=⎨⎩(5.7) 这样,关于偏自相关系数{}kk φ的截尾性的判断,转化为利用上述性质(5.6)或者(5.7),可以判断{}ˆkkφ的截尾性。
具体方法为对于每一个p >0,考查1,1p p φ++,2,2p p φ++,…,,p M p M φ++中落入ˆkkφ≤ˆkkφ≤M 的68.3%或95.5%。
一般地,我们取M =0p p =之前ˆkk φ都明显地不为零,而当0p p >时,01,1p p φ++,002,2p p φ++,…,00,p M p M φ++中满足不等式ˆkkφ≤ˆkkφ≤的个数占总数M 的68.3%或95.5%,则可以认定{}kk φ在0p 处截尾,由此可以初步判定序列}{t X 为AR(0p )模型。
对于样本的自相关系数{}ˆk ρ,由第二章的Bartlett 公式,对于0>q ,{}ˆk ρ满足 ~ˆk ρ211ˆ0,12q j j N T =⎛⎫⎡⎤+ρ ⎪⎢⎥ ⎪⎣⎦⎝⎭∑ (5.8)进一步地,当样本容量T 充分大时,{}ˆk ρ也满足 ()ˆ~0,1k N T ρ(5.9)类似于(5.6)或者(5.7)式,对于每一个0>q ,检查1ˆq ρ+,2ˆq ρ+,…,ˆq M ρ+中落入ˆk ρ≤或者ˆk ρ≤中的比例是否占总数M 的68.3%或95.5%左右。
如果在0q 之前,ˆk ρ都明显不为零,而当0q q =时,01ˆq ρ+,02ˆq ρ+,…,0ˆq M ρ+中满足上述不等式的个数达到比例,则判断{}k ρ在0q 处截尾。
初步认为序列}{t X 为MA(0q )模型。
至此,我们可以利用样本的自相关系数{}ˆk ρ和偏自相关系数{}ˆkkφ,得到ARMA 模型阶数的初步判定方法。
具体做法如下:(1) 如果样本自相关系数{}ˆk ρ在最初的q 阶明显的大于2倍标准差范围,即(2,而后几乎95%的样本自相关系数ˆk ρ都落在2倍标准差范围之内,并且由非零样本自相关系数衰减为在零附近小值波动的过程非常突然,这时通常视为自相关系数{}k ρ截尾,既可以初步判定相应的时间序列为MA(q )模型(2) 同样,样本偏自相关系数{}ˆkkφ如果满足上述性质,则可以初步判定相应的时间序列为AR(p )模型。
(3) 对于样本自相关系数{}ˆk ρ和样本偏自相关系数{}ˆkkφ,如果均有超过5%的值落入2倍标准差范围之外,或者由非零样本自相关系数和样本偏自相关系数衰减为在零附近小值波动的过程非常缓慢,这时都视为不戴尾的,我们将初步判定时间序列为ARMA 模型,那么这样的判断往往会失效,因为这时ARMA(p,q )模型的阶数p 和q 很难确定。
总之,基于样本自相关和偏自相关系数的定阶法只是一种初步定阶方法,可在建模开始时加以粗略地估计。
例5.1绿头苍蝇数据的时间序列。
具有均衡性别比例数目固定的成年绿头苍蝇保存在一个盒子中,每天给一定数量的食物,每天对绿头苍蝇的总体计数,共得到T=82个观测值。
经过平稳性处理后计算其基于样本自相关和偏自相关系数,见表5.1表5.1 绿头苍蝇的样本ACF 和PACF图5.2绿头苍蝇的样本ACF 和PACF由表5.1和图5.2知,样本自相关函数}ˆ{k ρ呈拖尾状,而从10个偏自相关系数的绝对值来看,除11ˆφ显著地异于零之外,其余90.11==的有8个,80.8968.3%9≈>,故该时间序列初步判定为AR(1)模型。
例5.2某时间序列数据(T=273)的样本自相关系数和偏自相关系数计算数据如下:表5.2 某时间序列数据的样本自/偏自相关系数由上表知,样本自相关函数}ˆ{k ρ呈拖尾状,而从15个偏自相关系数的绝对值来看,除11ˆφ,22ˆφ显著地异于零之外,其余13个中绝对值不大于0.0605==的有9个,%3.68692.0139≈=,故该时间序列初步判定为AR(2)模型。
例5.3 某车站1993-1997年个月的列车运行数量数据共60个,见表5.3,试对该序列给出初步的模型识别。
表5.3 某车站1993-1997年个月的列车运行数量数据(单位:千列·千米)图5.3,5.4分别为原始数据和平稳化以后(第8章将给出具体平稳化方法)数据的散点图。
图5.3 列车运行数量数据 图5.4 平稳化列车运行数量数据经过计算,其前20个样本自相关系数和偏自相关系数如下 表5.4 平稳化列车运行数量数据样本自/偏自相关系数样本自相关系数样本偏自相关系数kˆk ρkˆk ρkˆkkφ kˆkkφ 1 2 3 4 5 6 7 8 9 10-0.685 0.341 -0.193 0.042 -0.068 0.199 -0.221 0.185 -0.130 0.03711 12 13 14 15 16 17 18 19 20-0.036 0.156 -0.165 0.038 0.001 -0.027 0.143 -0.130 0.004 0.0211 2 3 4 5 6 7 8 9 10-0.685 -0.243 -0.139 -0.208 -0.313 0.046 -0.030 -0.037 -0.002 -0.04211 12 13 14 15 16 17 18 19 20-0.130 0.139 0.136 -0.184 -0.120 -0.012 0.196 0.025 -0.143 -0.073由上表知,样本自相关函数{}ˆkkφ呈拖尾状,而从20个自相关系数的绝对值来看,样本自相关系数{}ˆk ρ在最初的2阶明显的大于2倍标准差范围,即(-0.26, 0.26),而后95%以上的样本自相关系数ˆk ρ都落在(-0.26, 0.26)内,并且由非零样本自相关系数衰减为在零附近小值波动的过程非常突然,这时通常视为自相关系数{}k ρ截尾,故该时间序列初步判定为MA(2)或MA(3)模型。