时间序列分析-第三章--平稳时间序列分析
- 格式:doc
- 大小:629.00 KB
- 文档页数:36
注:图中,S号代表序列的观察值;连续曲线代表拟合序列曲线;虚线代表拟合序列的95%上下置信限。
所谓预测就是要利用序列以观察到的样本值对序列在未来某个时刻的取值进行估计。
目前对平稳序列最常用的预测方法是线性最小方差预测。
线性是指预测值为观察值序列的线性函数,最小方差是指预测方差达到最小。
在预测图上可以看到,数据围绕一个范围内波动,即说明未来的数值变化时平稳的。
二、课后习题第十七题:根据某城市过去63年中每年降雪量数据(单位:mm)得:(书本P94)程序:data example17_1;input x@@;time=_n_;cards;2579588397 110;proc gplot data=example17_1;plot x*time=1;symbol c=red i=join v=star;run;proc arima data=example17_1;identify var=x nlag=15minic p= (0:5) q=(0:5);run;estimate p=1;run;estimate p=1 noin;run;forecast lead=5id=time out=results;run;proc gplot data=results;plot x*time=1 forecast*time=2 l95*time=3 u95*time=3/overlay;symbol1c=black i=none v=start;symbol2c=red i=join v=none;symbol3c=green i=join v=none l=32;run;(1)判断该序列的平稳性与纯随机性该序列的时序图如下(图a)图a由时序图显示过去63年中每年降雪量数据围绕早70mm附近随机波动,没有明显趋势或周期,基本可以看成平稳序列,为了稳妥起见,做了如下自相关图(图b)图b时序图就是一个平面二维坐标图,通常横轴表示时间,纵轴表示序列取值。
时间序列分析模型时间序列分析是一种广泛应用于统计学和经济学领域的建模方法,用于研究随时间变化的数据。
它的目的是揭示和预测数据中隐含的模式和关系,以便更好地理解和解释现象,并做出相应的决策。
时间序列分析模型可以分为统计模型和机器学习模型两类。
一、统计模型1.平稳时间序列模型:平稳时间序列是指在统计学意义上均值和方差都是稳定的序列。
常用的平稳时间序列模型包括:自回归移动平均模型(ARMA)、自回归整合移动平均模型(ARIMA)和季节性自回归整合移动平均模型(SARIMA)等。
-自回归移动平均模型(ARMA)是根据时间序列数据的自相关和移动平均性质建立的模型。
它将序列的当前值作为过去值的线性组合来预测未来值。
ARMA(p,q)模型中,p表示自回归项的阶数,q表示移动平均项的阶数。
-自回归整合移动平均模型(ARIMA)在ARMA模型基础上引入差分操作,用于处理非平稳时间序列。
ARIMA(p,d,q)模型中,d表示差分的次数。
-季节性自回归整合移动平均模型(SARIMA)是ARIMA模型的扩展,在存在季节性变化的时间序列数据中应用。
SARIMA(p,d,q)(P,D,Q)s模型中,s表示季节周期。
2.非平稳时间序列模型:非平稳时间序列是指均值和/或方差随时间变化的序列。
常用的非平稳时间序列模型包括:趋势模型、季节性调整模型、自回归积分滑动平均模型(ARIMA)和季节性自回归积分滑动平均模型(SARIMA)等。
- 趋势模型用于描述数据中的趋势变化,例如线性趋势模型(y = ax + b)和指数趋势模型(y = ab^x)等。
-季节性调整模型用于调整季节性变化对数据的影响,常见的方法有季节指数调整和X-12-ARIMA方法。
-自回归积分滑动平均模型(ARIMA)和季节性自回归积分滑动平均模型(SARIMA)在非平稳时间序列中引入差分操作进行模型建立。
二、机器学习模型机器学习模型在时间序列分析中发挥了重要作用,主要应用于非线性和高维数据的建模和预测。
《时间序列分析——基于R》王燕,读书笔记笔记:⼀、检验:1、平稳性检验:图检验⽅法:时序图检验:该序列有明显的趋势性或周期性,则不是平稳序列⾃相关图检验:(acf函数)平稳序列具有短期相关性,即随着延迟期数k的增加,平稳序列的⾃相关系数ρ会很快地衰减向0(指数级指数级衰减),反之⾮平稳序列衰减速度会⽐较慢衰减构造检验统计量进⾏假设检验:单位根检验adfTest()——fUnitRoots包2、纯随机性检验、⽩噪声检验(Box.test(data,type,lag=n)——lag表⽰输出滞后n阶的⽩噪声检验统计量,默认为滞后1阶的检验统计量结果)1、Q统计量:type=“Box-Pierce”2、LB统计量:type=“Ljung-Box”⼆、模型1、ARMA平稳序列模型1.1平稳性检验1.2ARMA的p、q定阶——acf(),pacf(),auto.arima()⾃动定阶1.3建模arima()1.4模型显著性检验:残差的⽩噪声检验Box.test();参数显著性检验t分布2、⾮平稳确定性分析2.1趋势拟合:直线、曲线(⼀般是多项式,还有其它函数)2.2平滑法移动平均法:SMA()——TTR包指数平滑法:HoltWinters()3、⾮平稳随机性分析3.1ARIMA1平稳性检验,差分运算2拟合ARMA3⽩噪声检验3.2疏系数模型arima(p,d,f)3.3季节模型可以叠加的模型4、残差⾃回归模型:4.1建⽴线性模型4.2对滞后的因变量间拟合线性模型,对模型做残差⾃相关DW检验。
dwtest()——lmtest包,增加选项order.by指定延迟因变量4.3对残差建⽴ARIMA模型5、条件异⽅差模型:异⽅差检验:LM检验ArchTest()——FinTS包,⽤ARCH、GARCH模型建模第⼀章简介统计时序分析⽅法:1、频域分析⽅法2、时域分析⽅法步骤:1、观察序列特征2、根据序列特征选择模型3、确定模型的⼝径4、检验模型,优化模型5、推断序列其它统计性质或预测序列将来的发展时域分析研究的发展⽅向:1、AR,MA,ARMA,ARIMA(Box-Jenkins模型)2、异⽅差场合:ARCH,GARCH等(计量经济学)3、多变量场合:“变量是平稳”不再是必需条件,协整理论3、⾮线性场合:门限⾃回归模型,马尔科夫转移模型第⼆章时间序列的预处理预处理内容:对它的平稳性和纯随机性进⾏检验,最好是平稳⾮⽩噪声的序列1、特征统计量1.1概率分布分布函数或密度函数能够完整地描述⼀个随机变量的统计特征,同样⼀个随机变量族{Xt}的统计特性也完全由它们的联合分布函数或联合密度函数决定。
时间序列分析中的平稳性与非平稳性时间序列分析是一种用来研究时间数据的统计方法,它可以揭示出时间序列数据的模式和趋势,并预测未来的发展。
在进行时间序列分析时,我们经常会遇到平稳性和非平稳性的问题,本文将重点讨论这两个概念及其在时间序列分析中的重要性。
1. 什么是平稳性?平稳性是指时间序列在统计特性上具有不变性,即其均值和方差不随时间的推移而发生改变。
具体而言,平稳时间序列的均值在时间维度上是稳定的,方差也不会随时间变化而增加或减小。
此外,平稳时间序列的自协方差只与时间间隔有关,而与特定时间点无关。
2. 平稳性的判断方法为了判断一个时间序列是否具有平稳性,我们可以使用一些统计检验方法。
常见的方法有ADF检验(Augmented Dickey-Fuller test)、KPSS检验(Kwiatkowski-Phillips-Schmidt-Shin test)等。
ADF检验通常用于检验平稳性,其原假设是时间序列具有单位根(非平稳),如果检验结果拒绝了原假设,则可以得出时间序列是平稳的结论。
3. 非平稳性的表现形式非平稳性的时间序列可能会呈现出明显的趋势、季节性或周期性变化。
趋势是时间序列长期的、持续的上升或下降,季节性是指时间序列在特定时间点上出现的周期性波动,周期性是指时间序列存在长期的、不规则的上升或下降。
4. 非平稳性的处理方法如果时间序列是非平稳的,我们需要对其进行处理,以使其具备平稳性。
常见的处理方法有差分法、对数变换等。
差分法可以通过计算相邻时间点的差值来消除趋势和季节性,对数变换则可以通过对时间序列取对数来减少其波动性。
5. 平稳性的重要性平稳性在时间序列分析中非常重要,具有以下几个方面的意义: - 简化模型:平稳时间序列的统计特性稳定,可以简化模型的建立和预测。
- 降低误差:平稳时间序列的随机误差具有恒定的方差,使得模型的预测更准确。
- 提高可靠性:基于平稳时间序列建立的模型具有更好的可靠性和稳定性,可以更好地应对未来的变化。
第3章平稳时间序列分析本章教学内容与要求:了解时间序列分析的方法性工具;理解并掌握ARMA 模型的性质;掌握时间序列建模的方法步骤及预测;能够利用软件进行模型的识别、参数的估计以及序列的建模与预测。
本章教学重点与难点:利用软件进行模型的识别、参数的估计以及序列的建模与预测。
型来息。
t x 为t x 的1阶差分: ▽1t t t x x x --=对1阶差分后的序列再进行一次1阶差分运算称为2阶差分,记▽2tx 为t x 的2阶差分:▽2t x =▽t x -▽1-t x以此类推,对p-1阶差分厚序列再进行一次1阶差分运算称为p 阶差分。
记▽p t x 为t x 的p 阶差分:▽p t x =▽p-1t x -▽p-11-t x (二)k 步差分kt x 为t x 的10,,1t = 10,,2 = 即2阶差分序列▽2t x :3,22,-63,-54,-6,16,-52,-40,10,,3t = 2步差分:▽29x x x 133=-= ▽234x x x 244=-=……▽2-28x x x 81010=-=即2步差分序列:9,34,-7,-26,12,21,-16,-28 二、延迟算子(滞后算子) (一)定义延迟算子类似于一个时间指针,当前序列值乘以一个延迟算子,就相x因此,15-18+6=343-30+9=222.k 步差分▽k =t k t k t k t t x )B 1(x B x x x -=-=--三、线性差分方程在实践序列的时域分析中,线性差分方程是非常重要的,也是极为有效的工具,事实上,任何一个ARMA模型都是一个现象差分方程。
因此,ARMA模型的性质往往取决于差分方程的性质。
为了更好地讨论ARMA 模型的性质,先简单介绍差分方程的一般性质。
设,,方程两边同除以,得特征方程(这是一个一元p次方程,应该至少有p个非零实根,称这p个实根为特征方程(3)的特征根,不防记作.特征根的取值情况不同,齐次线性差分方程的解会有不同的表达形式。
t Pp t tt t t x B x x B x Bxx ===---221第3章第三章平稳时间序列分析一个序列通过预处理被识别为平稳非白噪声序列,那就说明该序列是一个蕴含着有关信息的平稳序列。
3.1 方法性工具 3.1.1 差分运算 一、p 阶差分记t x ∇为t x 的1阶差分:1--=∇t t t x x x记t x 2∇为t x 的2阶差分:21122---+-=∇-∇=∇t t t t t t x x x x x x以此类推:记t p x ∇为t x 的p 阶差分:111---∇-∇=∇t p t p t p x x x 二、k 步差分记t k x ∇为t x 的k 步差分:k t t t k x x x --=∇3.1.2 延迟算子 一、定义延迟算子相当与一个时间指针,当前序列值乘以一个延迟算子,就相当于把当前序列值的时间向过去拨了一个时刻。
记B 为延迟算子,有延迟算子的性质:1.10=B2.若c 为任一常数,有1)()(-⋅=⋅=⋅t t t x c x B c x c B3.对任意俩个序列{t x }与{t y },有11)(--±=±t t t t y x y x B4.n t t n x x B -=5.)!(!!,)1()1(0i n i n C B C B i n i i n ni i n-=-=-∑=其中二、用延迟算子表示差分运算 1、p 阶差分t p t p x B x )1(-=∇ 2、k 步差分t k k t t t k x B x x x )1(-=-=∇-3.2 ARMA 模型的性质 3.2.1 AR 模型定义 具有如下结构的模型称之p 阶自回归模型,简记为AR(p):ts Ex t s E Var E x x x x t s t s t t p tp t p t t t ∀=≠===≠+++++=---,0,0)(,)(,0)(,0222110εεεσεεφεφφφφε (3.4)AR(p)模型有三个限制条件:条件一:0≠p φ。
时间序列分析-第三章--平稳时间序列分析cards;126.4 82.4 78.1 51.1 90.9 76.2 104.5 87.4110.5 25 69.3 53.5 39.8 63.6 46.7 72.979.6 83.6 80.7 60.3 79 74.4 49.6 54.771.8 49.1 103.9 51.6 82.4 83.6 77.8 79.389.6 85.5 58 120.7 110.5 65.4 39.9 40.188.7 71.4 83 55.9 89.9 84.8 105.2 113.7124.7 114.5 115.6 102.4 101.4 89.8 71.5 70.998.3 55.5 66.1 78.4 120.5 97 110;proc gplot data=example17_1;plot x*time=1;symbol c=red i=join v=star;run;proc arima data=example17_1;identify var=x nlag=15minic p= (0:5) q=(0:5);run;estimate p=1;run;estimate p=1 noin;run;forecast lead=5id=time out=results;run;proc gplot data=results;plot x*time=1 forecast*time=2 l95*time=3 u95*time=3/overlay;symbol1c=black i=none v=start;symbol2c=red i=join v=none;symbol3c=green i=join v=none l=32;run;(1)判断该序列的平稳性与纯随机性该序列的时序图如下(图a)图a 由时序图显示过去63年中每年降雪量数据围绕早70mm附近随机波动,没有明显趋势或周期,基本可以看成平稳序列,为了稳妥起见,做了如下自相关图(图b)图b 时序图就是一个平面二维坐标图,通常横轴表示时间,纵轴表示序列取值。
时序图可以直观地帮助我们掌握时间序列的一些基本分布特征。
根据平稳时间序列均值、方差为常数的性质,平稳序列的时序图应该显示出该序列始终在一个常数值附近随机波动,而且波动的范围有界的特点。
如果观察序列的时序图,显示出该序列有明显的趋势性或周期性,那它通常不是平稳序列。
样本的自相关图我们可以知道该图横轴表示自相关系数,综轴表示延迟时期数,用水平方向的垂线表示自相关系数的大小。
我们发现样本自相关图延迟2阶之后,自相关系数都落入2倍标准差范围以内,自相关图显示该序列自相关系数一直都比较小,1阶开始控制在2倍的标准差范围以内,可以认为该序列自始自终都在零轴附近波动,这是随即性非常强的平稳时间序列。
纯随机性检验见下图:(图c)图c 根据图c的检验结果我们知道,在6阶延迟下LB 检验统计量的P值显著小于0.05,所以我们可以以很大的把握(置信水平>95%)断定这个拟合模型的残差序列属于非白噪声序列。
(2)如果序列平稳且非白躁声,选择适当模型拟合该序列的发展。
模型识别如下图(图d)图d假如某个观察值序列通过序列预处理,可以判定为平稳非白噪声序列,就可以利用ARMA模型对该序列建模。
建模的基本步骤如下:1:求出该观察值序列的样本自相关系数(ACF)和样本偏自相关系数(PACF)的值。
2:根据样本自相关系数和偏自相关系数的性质,选择适当地ARMA(p,q)模型进行拟合。
3:估计模型中未知参数的值。
4:检验模型有效性。
如果拟合模型不通过检验,转向步骤B,重新选择模型再拟合。
5:模型优化。
如果拟合模型通过检验,仍然转向步骤B,充分考虑各种可能,建立多个拟合模型,从所有通过检验中选择最优模型。
6:利用拟合模型,预测序列的将来走势。
最后一条信息显示,在自相数迟阶数小于等于5,移动平均延迟阶数也小于等于5的所有ARMA(p,q)模型中,BIC信息量相对最小的是ARMA(1,0)模型,既AR(1)模型。
它们的自相关系数都呈现出拖尾性和呈指数衰减到零值附近的性质。
自相关系数是按负指数单调收敛到零;利用拟合模型,预测该城市未来5年的降雪量.由(2)可以知道该模型是AR(1)模型;预测结果如下图(图e)由图得未来5(64-68年)的降雪量分别为103.6820mm、97.7270mm、92.1139mm、86.8232mm、81.8365mm。
18. 某地区连续74年的谷物产量(单位:千吨)data example18_1;input x@@;time=_n_;cards;0.97 0.45 1.61 1.26 1.37 1.43 1.32 1.230.84 0.89 1.181.33 1.21 0.98 0.91 0.61 1.23 0.97 1.10 0.74 0.80 0.810.80 0.60 0.59 0.63 0.87 0.36 0.81 0.91 0.77 0.96 0.930.95 0.65 0.98 0.70 0.86 1.32 0.88 0.680.78 1.25 0.791.19 0.69 0.92 0.86 0.86 0.85 0.90 0.54 0.32 1.40 1.140.69 0.91 0.68 0.57 0.94 0.35 0.39 0.45 0.99 0.84 0.620.85 0.73 0.66 0.76 0.63 0.32 0.17 0.46 ;proc gplot data=example18_1;plot x*time=1;symbol c=red i=join v=star;run;proc arima data=example18_1;identify var=x nlag=18minic p= (0:5)q=(0:5);run;estimate q=1;run;forecast lead=5id=time out=results; run;proc gplot data=results;plot x*time=1forecast*time=2l95*time=3 u95*time=3/overlay;symbol1c=black i=none v=start;symbol2c=red i=join v=none;symbol3c=green i=join v=none l=32; run;(1)判断该序列的平稳性与纯随机性该序列的时序图如下(图f)图f 时序图就是一个平面二维坐标图,通常横轴表示时间,纵轴表示序列取值。
时序图可以直观地帮助我们掌握时间序列的一些基本分布特征。
根据平稳时间序列均值、方差为常数的性质,平稳序列的时序图应该显示出该序列始终在一个常数值附近随机波动,而且波动的范围有界的特点。
如果观察序列的时序图,显示出该序列有明显的趋势性或周期性,那它通常不是平稳序列。
由时序图显示过去74年中每年谷物产量数据围绕早0.8千吨附近随机波动,没有明显趋势或周期,基本可以看成平稳序列,为了稳妥起见,做了如下自相关图(图g)图g 样本的自相关图我们可以知道该图横轴表示自相关系数,综轴表示延迟时期数,用水平方向的垂线表示自相关系数的大小。
我们发现样本自相关图延迟2阶之后,自相关系数都落入2倍标准差范围以内,自相关图显示该序列自相关系数一直都比较小,1阶开始控制在2倍的标准差范围以内,可以认为该序列自始自终都在零轴附近波动,这是随即性非常强的平稳时间序列。
纯随机性检验见下图:(图h)图h 根据图h的检验结果我们知道,在各阶延迟下LB 检验统计量的P值显著小于0.05,所以我们可以以很大的把握(置信水平>95%)断定这个拟合模型的残差序列属于非白噪声序列。
选择适当模型拟合该序列的发展。
如果序列平稳且非白躁声,选折适当模型拟合序列的发展模型识别如下图(图i)图i假如某个观察值序列通过序列预处理,可以判定为平稳非白噪声序列,就可以利用ARMA模型对该序列建模。
建模的基本步骤如下:A:求出该观察值序列的样本自相关系数(ACF)和样本偏自相关系数(PACF)的值。
B:根据样本自相关系数和偏自相关系数的性质,选择适当地ARMA(p,q)模型进行拟合。
C:估计模型中未知参数的值。
D:检验模型有效性。
如果拟合模型不通过检验,转向步骤B,重新选择模型再拟合。
E:模型优化。
如果拟合模型通过检验,仍然转向步骤B,充分考虑各种可能,建立多个拟合模型,从所有通过检验中选择最优模型。
F:利用拟合模型,预测序列的将来走势。
最后一条信息显示,在自相数迟阶数小于等于5,移动平均延迟阶数也小于等于5的所有ARMA(p,q)模型中,BIC信息量相对最小的是ARMA(1,0)模型,既AR(1)模型。
它们的自相关系数都呈现出拖尾性和呈指数衰减到零值附近的性质。
自相关系数是按负指数单调收敛到零;利用拟合模型,预测该地区未来5年的谷物产量,预测结果如下图(图j)由(2)可知,该模型为AR(1)模型;图j未来5年的谷物产量一次为0.7849,0.8518,0.8518,0.8518。
19. 现有201个连续的生产记录data example19_1;input x@@;time=_n_;cards;81.9 89.4 79.0 81.4 84.8 85.9 88.0 80.382.683.5 80.2 85.2 87.2 83.5 84.3 82.9 84.7 82.981.5 83.4 87.7 81.8 79.6 85.8 77.9 89.785.486.3 80.7 83.8 90.5 84.5 82.4 86.7 83.0 81.889.3 79.3 82.7 88.0 79.6 87.8 83.6 79.5 83.388.4 86.6 84.6 79.9 86.0 84.2 83.0 84.8 83.681.8 85.9 88.2 83.5 87.2 83.7 87.3 83.0 90.580.7 83.1 86.5 90.0 77.5 84.7 84.6 87.2 80.586.1 82.6 85.4 84.7 82.8 81.9 83.6 86.8 84.084.2 82.8 83.0 82.0 84.7 84.4 88.9 82.4 83.085.0 82.2 81.6 86.2 85.4 82.1 81.4 85.085.884.2 83.5 86.5 85.0 80.4 85.7 86.7 86.7 82.386.4 82.5 82.0 79.5 86.7 80.5 91.7 81.6 83.985.6 84.8 78.4 89.9 85.0 86.2 83.0 85.4 84.484.5 86.2 85.6 83.2 85.7 83.5 80.1 82.2 88.682.0 85.0 85.2 85.3 84.3 82.3 89.7 84.883.180.6 87.4 86.8 83.5 86.2 84.1 82.3 84.8 86.683.5 78.1 88.8 81.9 83.3 80.0 87.2 83.3 86.679.5 84.1 82.2 90.8 86.5 79.7 81.0 87.2 81.684.4 84.4 82.2 88.9 80.9 85.1 87.1 84.0 76.582.7 85.1 83.3 90.4 81.0 80.3 79.8 89.083.780.9 87.3 81.1 85.6 86.6 80.0 86.6 83.3 83.182.3 86.7 80.2;proc gplot data=example19_1;plot x*time=1;symbol c=red i=join v=star;run;proc arima data=example19_1;identify var=x nlag=24 minic p= (0:5) q=(0:5);run;estimate q=1;run;forecast lead=5id=time out=results; run;proc gplot data=results;plot x*time=1forecast*time=2l95*time=3 u95*time=3/overlay;symbol1c=black i=none v=start;symbol2c=red i=join v=none;图l 时序图就是一个平面二维坐标图,通常横轴表示时间,纵轴表示序列取值。