5_第三章_平稳时间序列建模
- 格式:pdf
- 大小:4.62 MB
- 文档页数:20
时间序列分析建模步骤及Python实现平稳时间序列的意义根据数理统计学常识,要分析的随机变量获得的样本信息越多,分析的结果就会越可靠,但由于时间序列分析的特殊数据结构,对随机序列{...,X1,X2...,Xt,...}⽽⾔,它在任意时刻 t 的序列值 Xt 都是⼀个随机变量,⽽且由于时间的不可重复性,该变量在任意⼀个时刻都只能获得唯⼀的样本观察值,通常是没有办法分析的。
在平稳序列场合⾥,序列的均值等于常数,意味着原本含有可列多个随机变量的均值序列变成了⼀个常数序列,原本每个随机变量的均值只能依靠唯⼀的⼀个样本观察值去估计,现在每⼀个样本观察值都变成了常数均值的样本观察值,这极⼤的减少了随机变量的个数,并增加了待估参数的样本容量。
平稳性校验⼀种是根据时序图和⾃相关图显⽰的特征做出判断的图检验⽅法(⾃相关图是⼀个平⾯⼆维坐标悬垂线图,⼀个坐标轴便是延迟时期数,另⼀个坐标轴表⽰⾃相关系数,通常以悬垂线表⽰⾃相关系数的⼤⼩。
⾃相关图进⾏平稳性判断的标准:随着延迟期数 k 的增加,平稳序列的⾃相关系数会很快的衰减向零;反之,⾮平稳序列的⾃相关系数衰减向零的速度通常⽐较慢)import numpy as npimport pandas as pdfrom datetime import datetimeimport matplotlib.pylab as pltfrom statsmodels.graphics.tsaplots import plot_acf, plot_pacf#读取原始时间序列数据df=pd.read_csv('wq.csv',encoding='utf-8', index_col='datatime') #从csv⽂件中读取时间序列数据,index_col列定义为索引对象df.index=pd.to_datetime(df.index)ts=df['dataColumn'] #指定时间序列中对应的数据列ts.head()ts.head().indexts=ts.dropna() #去除掉时间序列中的空值,否则⽆法绘制出正常的acf图#输出原始序列f = plt.figure(facecolor='white')ts.plot(color='blue', label='Original')plt.title('TimeSeries Original Data')plt.show()#输出ACF(⾃相关图)、PACF(偏⾃相关图)f = plt.figure(facecolor='white')ax1 = f.add_subplot(211)plot_acf(ts, lags=31, ax=ax1)ax2 = f.add_subplot(212)plot_pacf(ts, lags=31, ax=ax2)plt.show()另⼀种是构造检验统计量进⾏假设检验的⽅法(⽬前最常⽤的平稳性统计校验⽅法是单位根检验,DF检验和ADF检验)DF检验只适合1阶⾃回归过程的平稳性检验,ADF检验是对DF检验做了⼀个修正,得到增⼴DF检验(augrmented Dickey-Fuller)。
平稳时间序列建模步骤什么是时间序列建模时间序列建模是一种用于分析和预测时间序列数据的统计方法。
时间序列是按照时间顺序排列的一组连续观测值,例如每日销售额、每月气温、每年股票收益等。
通过建立时间序列模型,我们可以探索时间序列的内在规律和趋势,并做出相应的预测。
平稳时间序列建模是时间序列建模的一种常用方法,它假设时间序列的统计特性在时间上是不变的。
平稳时间序列具有恒定的均值、方差和自协方差,这使得我们可以应用各种经典的时间序列模型进行建模和预测。
以下是平稳时间序列建模的步骤:步骤一:数据收集和观察首先,我们需要收集要建模的时间序列数据。
可以从各种数据源获取时间序列数据,包括经济指标、物理测量、金融数据等等。
收集到数据后,我们需要对数据进行观察,检查数据的特点、趋势、异常值等,并做必要的数据清洗和准备工作。
步骤二:时间序列分解时间序列通常由趋势、季节性和随机因素组成。
为了更好地分析和建模时间序列,我们需要先对时间序列进行分解,将其拆分为这些组成部分。
常用的时间序列分解方法有加法模型和乘法模型。
加法模型假设时间序列是趋势、季节性和随机误差之和,而乘法模型假设时间序列是趋势、季节性和随机误差之积。
选择合适的分解模型可以根据时间序列的特点和趋势来确定。
步骤三:平稳性检验平稳性是时间序列建模的前提之一。
在进行建模之前,我们需要对时间序列的平稳性进行检验。
平稳性检验可以通过统计检验方法来进行,例如单位根检验、ADF检验等。
如果时间序列不平稳,我们需要进行差分处理,使其变成平稳序列。
步骤四:模型选择和拟合在确定时间序列的平稳性后,我们可以选择合适的时间序列模型进行拟合。
常见的时间序列模型包括自回归移动平均模型(ARMA模型)、自回归积分移动平均模型(ARIMA模型)等。
模型选择可以通过观察自相关图(ACF)和偏自相关图(PACF)来辅助判断。
ACF图可以显示序列之间的相关性,PACF图可以显示去除其他变量的直接相关性。
第3章 单元测验一、单项选择题1. 的阶差分是( C )t X k A Bkt t t k X X X -∇=-11kk k t t t k X X X ---∇=∇-∇C D111kk k t t t X X X ---∇=∇-∇1112k k k t t t X X X ----∇=∇-∇2. MA(2)模型,则移动平均部分的特征根是( A )121.10.24t t t t X εεε--=-+A , B ,10.8λ=20.3λ=10.8λ=-20.3λ=C , D ,10.8λ=-20.3λ=-10.8λ=-20.2λ=3. AR(2)模型,其中,则( B ) 121.10.24t t t t X X X ε--=-+0.04t D ε=t t EX ε=A B 00.04C D0.140.24. 若零均值平稳序列,其样本ACF 和样本PACF 都呈现拖尾性,则对可能建立( B{}t X {}t X )模型。
A. MA(2)B.ARMA(1,1)C.AR(2)D.MA(1) 5. 对于一阶滑动平均模型MA(1): ,则其一阶自相关函数为( C )。
15.0--=t t te e Y A. B. C. D. 5.0-25.04.0-8.06. 关于平稳时间序列模型,说法正确的是( B )A. 可以对未来很长一段时间的序列值进行精确预测。
B. 当前观测序列时间为t,MA(q)模型对大于t+q 时间点序列值的预测值恒为常数。
C .自相关系数具有非唯一性,偏自相关系数不具有非唯一性 D .均值非平稳的序列,可以通过对数变换将其变成平稳的。
二、多项选择题1. 关于延迟算子的性质,下列表示中正确的有 ( AD )A B10=B n-=(1-)tt n tx x B x -C∑=-=-ni n in nnB C B 0)1()1(D 对任意两个序列和,有{}t x {}t y 11()t t t t B x y x y --+=+2. ARMA 模型可逆性条件是( CD )A 的特征根都在单位圆内B 的根都在单位圆内 ()0t B εΦ=()0B Θ=C 的特征根都在单位圆内D 的根都在单位圆外 0=Θt B ε)(()0B Θ=3. 关于平稳可逆的ARMA 模型的序列预测问题,下列公式正确的有( ABCD )A12(|,,,)(0)t l t t t t lE x x x x x l +--+=≤ B12ˆ(|,,,)()(0)t l t t t t E x x x x xl l +--=>C 12(|,,,)(0)t l t t t t lE x x x l εε+--+=≤ D12(|,,,)0(0)t l t t t E x x x l ε+--=> 4. 对平稳时间序列模型矩估计方法评价正确的是 ( BCD )A 估计精度高B 估计思想简单直观C 不需要假设总体分布D 计算量小5. 下列属于模型优化方法的有( ABC )A 残差方差图定阶法B F 检验定阶法C 最佳准则函数定阶法D 最小二乘估计法 6. 下列关于说法正确的是( ABCDE ) A AR 模型总是可逆的B 平稳MA 模型的均值就等于模型的截距项参数C 偏自相关系数用来描述时间序列值间的直接影响D 只要ARMA 模型的AR 部分的系数的绝对值和小于1,该模型一定平稳。
注:图中,S号代表序列的观察值;连续曲线代表拟合序列曲线;虚线代表拟合序列的95%上下置信限。
所谓预测就是要利用序列以观察到的样本值对序列在未来某个时刻的取值进行估计。
目前对平稳序列最常用的预测方法是线性最小方差预测。
线性是指预测值为观察值序列的线性函数,最小方差是指预测方差达到最小。
在预测图上可以看到,数据围绕一个范围内波动,即说明未来的数值变化时平稳的。
二、课后习题第十七题:根据某城市过去63年中每年降雪量数据(单位:mm)得:(书本P94)程序:data example17_1;input x@@;time=_n_;cards;2579588397 110;proc gplot data=example17_1;plot x*time=1;symbol c=red i=join v=star;run;proc arima data=example17_1;identify var=x nlag=15minic p= (0:5) q=(0:5);run;estimate p=1;run;estimate p=1 noin;run;forecast lead=5id=time out=results;run;proc gplot data=results;plot x*time=1 forecast*time=2 l95*time=3 u95*time=3/overlay;symbol1c=black i=none v=start;symbol2c=red i=join v=none;symbol3c=green i=join v=none l=32;run;(1)判断该序列的平稳性与纯随机性该序列的时序图如下(图a)图a由时序图显示过去63年中每年降雪量数据围绕早70mm附近随机波动,没有明显趋势或周期,基本可以看成平稳序列,为了稳妥起见,做了如下自相关图(图b)图b时序图就是一个平面二维坐标图,通常横轴表示时间,纵轴表示序列取值。
欢迎共阅t P p t tt t t x B x x B x Bx x ===---221第3章 平稳时间序列分析一个序列经过预处理被识别为平稳非白噪声序列,那就说明该序列是一个蕴含着相关信息的平稳序列。
3.1 方法性工具 3.1.1 差分运算 一、p 阶差分记t x ∇为t x 的1阶差分:1--=∇t t t x x x记t x 2∇为t x 的2阶差分:21122---+-=∇-∇=∇t t t t t t x x x x x x 以此类推:记t p x ∇为t x 的p 阶差分:111---∇-∇=∇t p t p t p x x x 二、k 步差分记t k x ∇为t x 的k 步差分:k t t t k x x x --=∇3.1.2 延迟算子 一、定义延迟算子相当与一个时间指针,当前序列值乘以一个延迟算子,就相当于把当前序列值的时间向过去拨了一个时刻。
记B 为延迟算子,有延迟算子的性质:1.10=B2.若c 为任一常数,有1)()(-⋅=⋅=⋅t t t x c x B c x c B3.对任意俩个序列{t x }和{t y },有11)(--±=±t t t t y x y x B4.n t t n x x B -=5.)!(!!,)1()1(0i n i n C B C B in i i nni i n-=-=-∑=其中二、用延迟算子表示差分运算 1、p 阶差分 2、k 步差分3.2 ARMA 模型的性质 3.2.1 AR 模型定义 具有如下结构的模型称为p 阶自回归模型,简记为AR(p):ts Ex t s E Var E x x x x t s t s t t p tp t p t t t ∀=≠===≠+++++=---,0,0)(,)(,0)(,0222110εεεσεεφεφφφφε(3.4)AR(p)模型有三个限制条件:条件一:0≠p φ。
这个限制条件保证了模型的最高阶数为p 。
t Pp t tt t t x B x x B x Bxx ===---M221第3章 平稳时间序列分析一个序列经过预处理被识别为平稳非白噪声序列,那就说明该序列是一个蕴含着相关信息的平稳序列。
方法性工具 差分运算 一、p 阶差分记t x ∇为t x 的1阶差分:1--=∇t t t x x x 记t x 2∇为t x 的2阶差分:21122---+-=∇-∇=∇t t t t t t x x x x x x以此类推:记t px ∇为t x 的p 阶差分:111---∇-∇=∇t p t p t p x x x二、k 步差分记t k x ∇为t x 的k 步差分:k t t t k x x x --=∇ 延迟算子 一、定义延迟算子相当与一个时间指针,当前序列值乘以一个延迟算子,就相当于把当前序列值的时间向过去拨了一个时刻。
记B 为延迟算子,有延迟算子的性质:1.10=B2.若c 为任一常数,有1)()(-⋅=⋅=⋅t t t x c x B c x c B3.对任意俩个序列{t x }和{t y },有11)(--±=±t t t t y x y x B4.n t t nx x B-=5.)!(!!,)1()1(0i n i n CB C B i niinni in-=-=-∑=其中二、用延迟算子表示差分运算 1、p 阶差分 2、k 步差分ARMA 模型的性质 AR 模型定义 具有如下结构的模型称为p 阶自回归模型,简记为AR(p):ts Ex t s E Var E x x x x t s t s t t p tp t p t t t πΛ∀=≠===≠+++++=---,0,0)(,)(,0)(,0222110εεεσεεφεφφφφεAR(p)模型有三个限制条件: 条件一:0≠pφ。
这个限制条件保证了模型的最高阶数为p 。
条件二:t s E Var E t s t t ≠===,0)(,)(,0)(2εεσεεε。
时间序列模型定义时间序列:是按时间顺序排列的、随时间变化且相互关联的数据序列。
时间序列预测技术:通过对预测目标自身时间序列的处理,来研究其变化趋势。
组成要素:一个时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。
趋势:是时间序列在长时期内呈现出来的持续向上或持续向下的变动。
季节变动:是时间序列在一年内重复出现的周期性波动。
它是诸如气候条件、生产条件、节假日或人们的风俗习惯等各种因素影响的结果。
循环波动:是时间序列呈现出得非固定长度的周期性变动。
循环波动的周期可能会持续一段时间,但与趋势不同,它不是朝着单一方向的持续变动,而是涨落相同的交替波动。
不规则波动:是时间序列中除去趋势、季节变动和周期波动之后的随机波动。
不规则波动通常总是夹杂在时间序列中,致使时间序列产生一种波浪形或震荡式的变动。
只含有随机波动的序列也称为平稳序列。
时间序列分析预测法的特点:(1)假定事物的过去趋势会延伸到未来;(2)预测所依据的数据具有不规则性;(3)撇开了市场发展之间的因果关系。
时间序列的特征:不同的时间序列有不同的特征,例如一个人在一年中每天消耗的粮食基本上是相同的,把这365个数字排列起来。
发现它所构成的时间序列总保持在一定水平,上下相差不太大,我们称它是"平稳"时间序列。
它的取值和具体是哪个时期无关,只和时期的长短有关。
一般来说.只有属于平稳过程的时间序列.才是可以被预测的。
优点:时间序列预测法对于中短期预测的效果要比长期预测的效果好,结构简单、预测速度快、方便操作,对平稳性较好的时间序列具有较好的预测效果。
缺点:突出时间序列暂不考虑外界因素影响,因而存在着预测误差的缺陷,当遇到外界发生较大变化,往往会有较大偏差;对非平稳序列预测效果较差,多步预测误差较大。
决策和控制: 根据时间序列模型可调整输入变量使系统发展过程保持在目标值上,即预测到过程要偏离目标时便可进行必要的控制。
时间序列的作用:1.可以反映社会经济现象的发展变化过程,描述现象的发展状态和结果。
平稳时间序列建模步骤一、什么是平稳时间序列平稳时间序列是指在统计意义下具有不变性的时间序列。
具体来说,平稳时间序列的均值、方差和自相关函数都不随时间变化而发生显著的改变。
二、为什么要建立平稳时间序列模型建立平稳时间序列模型可以对数据进行预测和分析,从而更好地理解数据背后的规律和趋势。
此外,平稳时间序列模型还可以用于信号处理、金融分析等领域。
三、建立平稳时间序列模型的步骤1.观察数据并进行预处理首先需要观察数据并进行预处理,包括去除趋势、季节性和异常值等。
这有助于使数据更加平滑,并且减少噪声对模型的影响。
2.确定差分阶数如果原始数据不是平稳的,需要进行差分操作使其变成平稳的。
差分阶数可以通过观察自相关函数(ACF)和偏自相关函数(PACF)来确定。
3.选择合适的模型根据差分后得到的数据,可以选择适合该数据集的ARIMA模型。
ARIMA模型包括AR(p)、MA(q)和ARMA(p,q)三种类型。
4.估计模型参数使用最大似然估计(MLE)或最小二乘法(OLS)等方法来估计模型参数。
5.检验模型的拟合程度对于建立的模型,需要对其进行检验,包括残差的自相关性、正态性等。
如果存在问题,则需要调整模型或重新选择模型。
6.预测未来值使用建立好的模型进行未来值的预测,并对预测结果进行评估和修正。
四、总结建立平稳时间序列模型是一个复杂的过程,需要对数据进行观察和处理,选择合适的模型并估计参数,最后对模型进行检验和预测。
在实际应用中,需要根据具体情况灵活运用这些步骤,并结合领域知识和经验来优化建模过程。
第三章 平稳ARMA 过程一元ARMA 模型是描述时间序列动态性质的基本模型。
通过介绍ARMA 模型,可以了解一些重要的时间序列的基本概念,并且为描述单变量时间序列的动态性质提供一类十分有用的模型。
§3.1 预期、平稳性和遍历性3.1.1 预期和随机过程假设可以观察到一个样本容量为T 的随机变量t Y 的样本:},,,{21T y y y这意味着这些随机变量之间的是相互独立且同分布的。
例3.1 假设T 个随机变量的集合为:},,,{21T εεε ,),0(~2σεN i 且相互独立,我们称其为高斯白噪声过程产生的样本。
对于一个随机变量t Y 而言,它是t 时刻的随机变量,因此即使在t 时刻实验,它也可以具有不同的取值,假设进行多次试验,其方式可能是进行多次整个时间序列的试验,获得I 个时间序列:+∞=-∞=t t t y }{)1(,+∞=-∞=t t t y }{)2(,…,+∞=-∞=t t I t y }{)(将其中仅仅是t 时刻的观测值抽取出来,得到序列:},,,{)()2()1(I t t t y y y ,这个序列便是对随机变量t Y 在t 时刻的I 次观测值,也是一种简单随机子样。
定义3.1 假设随机变量t Y 是定义在相同概率空间},,{P ℜΩ上的随机变量,则称随机变量集合},2,1,0,{ ±±=t Y t 为随机过程。
例3.2 假设随机变量t Y 的概率密度函数为:]21exp[21)(22t t Y y y f t σσπ= 此时称此时密度为该过程的无条件密度,此过程也称为高斯过程或者正态过程。
定义3.2 可以利用各阶矩描述随机过程的数值特征:(1) 随机变量t Y 的数学期望定义为(假设积分收敛):⎰==+∞∞-tt Y t t t dy y f y Y E t )()(μ (3.1) 此时它是随机样本的概率极限:∑==∞→I i i t I t y I P Y E 1)(1lim)( (3.2) (2) 随机变量t Y 的方差定义为(假设积分收敛): 20)(t t t Y E μγ-= (3.3) 例3.3 几种重要类型的随机过程1) 假设},,{21 εε是一个高斯白噪声过程,随机过程t Y 为常数加上高斯白噪声过程:t t Y εμ+=则它的均值和方差分别为:μεμμ=+==)()(t t t E Y E2220)()(σεμγ==-=t t t t E Y E(2) 随机过程t Y 为时间的线性趋势加上高斯白噪声过程:t t t Y εβ+=则它的均值和方差分别为:t E t Y E t t t βεβμ=+==)()(2220)()(σεμγ==-=t t t t E Y E3.1.2 随机过程的自协方差函数将j 个时间间隔的随机变量构成一个随机向量),,,(1'=--j t t t t Y Y Y X ,通过随机试验可以获得该随机向量的简单随机样本。
第3章 平稳时间序列分析本章教学内容与要求:了解时间序列分析的方法性工具;理解并掌握ARMA 模型的性质;掌握时间序列建模的方法步骤及预测;能够利用软件进行模型的识别、参数的估计以及序列的建模与预测。
本章教学重点与难点:利用软件进行模型的识别、参数的估计以及序列的建模与预测。
计划课时:21(讲授16课时,上机3课时、习题3课时) 教学方法与手段:课堂讲授与上机操作§3.1 方法性工具一个序列经过预处理被识别为平稳非白噪声序列,那就说明该序列是一个蕴含着相关信息的平稳序列。
在统计上,我么通常是建立一个线性模型来拟合该序列的发展,借此提取该序列中的有用信息。
ARMA(auto regression moving average)模型是目前最常用的一个平稳序列拟合模型。
时间序列分析中一些常用的方法性工具可以使我们的模型表达和序列分析更加简洁、方便。
一、差分运算 (一)p 阶差分相距一期的两个序列值之间的减法运算称为1阶差分运算。
记▽t x 为t x 的1阶差分:▽1t t t x x x --=对1阶差分后的序列再进行一次1阶差分运算称为2阶差分,记▽2t x 为t x 的2阶差分:▽2t x =▽t x -▽1-t x以此类推,对p-1阶差分厚序列再进行一次1阶差分运算称为p 阶差分。
记▽p t x 为t x 的p 阶差分:▽p t x =▽p-1t x -▽p-11-t x (二)k 步差分相距k 期的两个序列值之间的减法运算称为k 步差分运算。
记▽k t x 为t x 的k 步差分:▽k =k t t x x --例:简单的序列:t x :6,9,15,43,8,17,20,38,4,10,10,,1t =1阶差分:▽3x x x 122=-= ▽6x x x 233==-=……▽6x x x 91010=-=,即1阶差分序列▽t x :3,6,28,-35,9,3,18,-34,6,10,,2t =2阶差分:▽23x =▽3x -▽2x =3▽24x =▽4x -▽3x =22……▽210x =▽10x -▽9x =-40即2阶差分序列▽2t x :3,22,-63,-54,-6,16,-52,-40,10,,3t =2步差分:▽29x x x 133=-=▽234x x x 244=-=……▽2-28x x x 81010=-=即2步差分序列:9,34,-7,-26,12,21,-16,-28 二、延迟算子(滞后算子) (一)定义延迟算子类似于一个时间指针,当前序列值乘以一个延迟算子,就相当于把当前序列值的时间向过去拨去了一个时刻。
时间序列分析方法智慧树知到课后章节答案2023年下哈尔滨工业大学哈尔滨工业大学第一章测试1.英国的工业革命所进行的时间是()。
A:18世纪70年代到19世纪中期 B:18世纪60年代到19世纪上半期 C:18世纪60年代到18世纪末 D:18世纪30年代到18世纪末答案:18世纪60年代到19世纪上半期2.时间序列通常会受到哪些因素的影响()。
A:长期趋势 B:循环波动 C:季节变化 D:随机波动答案:长期趋势;循环波动;季节变化;随机波动3.时间序列分析有助于比较两个或多个序列。
()A:错 B:对答案:错4.可以应用时间序列模型准确地通过对历史数据分析预测未来发生的结果。
()A:错 B:对答案:错5.时间序列往往呈现某种趋势性或出现周期性变化的现象。
()A:错 B:对答案:对6.平稳时间序列差分后还是平稳时间序列。
()A:错 B:对答案:对7.时间序列分析有助于了解企业的行为。
()A:对 B:错答案:对8.一个时间序列的年度数据包含长期和周期性变化。
()A:错 B:对答案:对9.在计算年度数据的季节性指数时,删除最高和最低的实际滑动平均,减少了季节性变化。
()A:错 B:对答案:错10.一个时间序列的变化模式每年都会重复出现,这叫做季节性变化。
()A:错 B:对答案:对11.时间序列数据中的连续观测是独立且同分布的。
()A:错 B:对答案:错第二章测试1.纯随机序列的均值是零,方差是定值。
()A:错 B:对答案:错2.对于各种时间序列的ADF平稳性检验,其拟合方程式应该都相同。
()A:错 B:对答案:错3.由于观察值序列的有限性,纯随机序列的样本自相关系数可能不为零。
()A:对 B:错答案:对4.严平稳序列一定是宽平稳序列。
()A:错 B:对答案:错5.宽平稳序列一定是严平稳序列。
()A:错 B:对答案:错6.宽平稳序列的二阶矩一定存在。
()A:对 B:错答案:错7.当序列服从正态分布时,宽平稳和严平稳等价。
时间序列分析第三章平稳时间序列分析轴表示序列取值。
时序图可以直观地帮助我们掌握时间序列的一些基本分布特征。
根据平稳时间序列均值、方差为常数的性质,平稳序列的时序图应该显示出该序列始终在一个常数值附近随机波动,而且波动的范围有界的特点。
如果观察序列的时序图,显示出该序列有明显的趋势性或周期性,那它通常不是平稳序列。
从图上可以看出,数值围绕在0附近随机波动,没有明显或周期,其本可以视为平稳序列,时序图显示该序列波动平稳。
procarimadata=e某ample3_1;identifyvar=某nlag=8;run;图一图二样本自相关图图三样本逆自相关图2图四样本偏自相关图图五纯随机检验图实验结果分析:(1)由图一我们可以知道序列样本的序列均值为-0.06595,标准差为1.561613,观察值个数为84个。
(2)根据图二序列样本的自相关图我们可以知道该图横轴表示自相关系数,综轴表示延迟时期数,用水平方向的垂线表示自相关系数的大小。
我们发现样本自相关图延迟3阶之后,自相关系数都落入2倍标准差范围以内,而且自相关系数向0.03衰减的速度非常快,延迟5阶之后自相关系数即在0.03值附近波动。
这是一个短期相关的样本自相关图。
所以根据样本自相关图的相关性质,可以认为该序列平稳。
(3)根据图五的检验结果我们知道,在各阶延迟下LB检验统计量的P值都非常小(<0.0001),所以我们可以以很大的把握(置信水平>99.999%)断定该序列样本属于非白噪声序列。
procarimadata=e某ample3_1;identifyvar=某nlag=8minicp=(0:5)q=(0:5);run;IDENTIFY命令输出的最小信息量结果3某个观察值序列通过序列预处理,可以判定为平稳非白噪声序列,就可以利用ARMA模型对该序列建模。
建模的基本步骤如下:A:求出该观察值序列的样本自相关系数(ACF)和样本偏自相关系数(PACF)的值。
3.3 平稳时间序列建模3.3.1 时间序列建模的一般步骤怎样判断序列的平稳性?● 什么是平稳性?这里的平稳指宽平稳。
如果序列满足下列条件,则称为是平稳的:1.2. 3.性质3的一个推论是,记为,称为延迟为的自相关系数(ACF),其中.平稳性的直观含义是“序列的前二阶矩不随时间的推移而改变”,这使得我们可以把不同时间点的数据放在一起作统计推断.观察时序图根据平稳性的定义,平稳序列具有常数均值和常数方差的性质,因此其时序图应该在一个常数值附近波动,且波动的范围有界;具有明显趋势性和周期性的序列通常不是平稳序列;例如1964-1999年中国纱年产量时序图1962年至1975年每头奶牛月产量时序图北京市每年的最高温度时序图自相关图检验前面的课程里面我们知道平稳序列通常只具有短期的自相关,即自相关函数(ACF) 往往很快的衰减到零。
因此衰减很慢的序列很可能是非平稳的.例如前面三个例子里面对应的自相关图分别如下:中国纱产量自相关图Lag Covariance Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 Std Error0 21741.103 1.00000 | |********************| 01 19869.670 0.91392 | . |****************** | 0.1666672 18336.945 0.84342 | . |***************** | 0.2723613 16679.644 0.76719 | . |*************** | 0.3371964 15119.827 0.69545 | . |**************. | 0.3826235 13234.768 0.60874 | . |************ . | 0.4162576 11822.365 0.54378 | . |*********** . | 0.4402927 10355.425 0.47631 | . |********** . | 0.4585688 8597.171 0.39543 | . |******** . | 0.4721109 6977.227 0.32092 | . |****** . | 0.48122310 5262.589 0.24206 | . |***** . | 0.48713111 3185.458 0.14652 |. |*** .| 0.49046112 1257.065 0.05782 |. |* .| 0.49167513 -717.129 -.03298 |. *| .| 0.49186414 -2356.762 -.10840 |. **| .| 0.49192615 -3657.864 -.16825 |. ***| .| 0.49258916 -4675.021 -.21503 |. ****| .| 0.49418217 -5645.938 -.25969 |. *****| .| 0.49677518 -6662.959 -.30647 |. ******| .| 0.50053119 -7523.279 -.34604 |. *******| .| 0.50571720 -8300.856 -.38180 |. ********| .| 0.51225221 -9068.912 -.41713 | ********| | 0.52009722 -9409.375 -.43279 | *********| | 0.529308"." marks two standard errors每头奶牛每月平均产量自相关图Lag Covariance Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 Std Error0 10383.588 1.00000 | |********************| 01 9257.734 0.89157 | . |****************** | 0.0771522 8080.289 0.77818 | . |**************** | 0.1241593 6440.643 0.62027 | . |************ | 0.1504154 5053.314 0.48666 | . |********** | 0.1649395 4445.713 0.42815 | . |********* | 0.1732756 3904.890 0.37606 | . |******** | 0.1794627 4306.827 0.41477 | . |******** | 0.1840938 4716.761 0.45425 | . |********* | 0.1895749 5833.655 0.56181 | . |*********** | 0.19594610 7128.946 0.68656 | . |************** | 0.20531011 7980.333 0.76855 | . |*************** | 0.21854912 8773.234 0.84491 | . |***************** | 0.23408513 7735.639 0.74499 | . |*************** | 0.25158314 6621.269 0.63767 | . |************* | 0.26438915 5084.621 0.48968 | . |**********. | 0.27339016 3775.004 0.36355 | . |******* . | 0.27856217 3176.849 0.30595 | . |****** . | 0.28137218 2646.859 0.25491 | . |***** . | 0.28334519 2984.458 0.28742 | . |****** . | 0.28470720 3328.659 0.32057 | . |****** . | 0.28642921 4324.928 0.41652 | . |******** . | 0.28855722 5489.933 0.52871 | . |***********. | 0.292113"." marks two standard errors北京市最高气温自相关图Lag Covariance Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 Std Error0 2.569604 1.00000 | |********************| 01 -0.449960 -.17511 | . ****| . | 0.1414212 -0.0091078 -.00354 | . | . | 0.1456933 0.463204 0.18026 | . |**** . | 0.1456954 0.059232 0.02305 | . | . | 0.1500895 -0.421428 -.16400 | . ***| . | 0.1501606 0.253512 0.09866 | . |** . | 0.1537017 -0.067559 -.02629 | . *| . | 0.1549628 -0.0083274 -.00324 | . | . | 0.1550519 -0.057247 -.02228 | . | . | 0.15505310 0.148917 0.05795 | . |* . | 0.15511711 0.095461 0.03715 | . |* . | 0.15554912 -0.267799 -.10422 | . **| . | 0.15572713 0.260969 0.10156 | . |** . | 0.15711514 0.011069 0.00431 | . | . | 0.15842315 -0.069243 -.02695 | . *| . | 0.15842516 -0.110643 -.04306 | . *| . | 0.15851717 0.118249 0.04602 | . |* . | 0.15875118 -0.213603 -.08313 | . **| . | 0.15901719 -0.330938 -.12879 | . ***| . | 0.15988420 0.467098 0.18178 | . |**** . | 0.16194521 -0.156538 -.06092 | . *| . | 0.16597622 -0.128454 -.04999 | . *| . | 0.166423"." marks two standard errors怎样做白噪声检验?●什么是白噪声?如果序列满足:为白噪声序列(White Noise),记为如果还服从正态分布,则称为高斯白噪声.●白噪声是纯随机性序列,它具有性质因此我们可以通过检验下列假设来检验序列是否是白噪声使得检验统计量为LB(Ljung-Box)统计量在原假设成立的条件下,LB近似服从自由度为的卡方分布,因此时拒绝原假设.例如:对前面的北京市最高温度数据做白噪声检验,结果如下:Autocorrelation Check for White NoiseTo Chi- Pr >Lag Square DF ChiSq --------------------Autocorrelations--------------------6 5.58 6 0.4713 -0.175 -0.004 0.180 0.023 -0.164 0.09912 6.71 12 0.8760 -0.026 -0.003 -0.022 0.058 0.037 -0.10418 8.36 18 0.9727 0.102 0.004 -0.027 -0.043 0.046 -0.083注:为什么只需要检验前6期,12期或者前18期的自相关呢?这是因为一个平稳序列通常只存在短期的自相关,如果短期之间都不存在显著的自相关,则更长期的延迟之间就更不会存在自相关了;相反的,如果存在显著的短期自相关,则该序列必然不是白噪声;怎样计算自相关系数和偏自相关系数?● 样本自相关系数(SACF)● 样本偏自相关系数(SPACF)其中,怎样识别模型?,也就是模型的定阶;● ARMA 模型的理论ACF 和理论PACF模型自相关系数 (ACF )偏自相关系数 (PACF )模型 模型 模型 拖尾 阶截尾 拖尾 阶截尾 拖尾拖尾理论上讲,我们可以根据上述特点确定模型的阶;但在实际操作中具有下列的障碍 a) SACF,SPACF 不会出现理论上的完美截尾情况;本应截尾的SACF 和SPACF 仍会出现小值震荡的情况;b)平稳序列通常只具有短期相关性,当足够大时,SACF和SPACF总会衰减到零值附近做小值震荡;现在我们的问题是:当SACF和SPACF衰减到零时,什么时候认为它是属于ACF和PACF 截尾?什么时候认为它是正常衰减到零?●什么时候认为近似服从标准正态分布,因此当时,于是有因此,当SACF落在2倍标准差的范围内时,我们认为;●怎样判断截尾还是拖尾?如果有SACF在最初的阶明显大于2倍标准差,而后几乎95%的SACF都落在2倍标准差内,且这种过程很突然,则可以视为是“截尾”;反之,如果超过5%的SACF落在2倍标准差范围之外,或者SACF衰减到零的过程比较缓慢连续,则通常不是截尾;实际建模中往往依靠分析人员的主观经验;下面要看一些例子:【例2.5】1950年-1980年北京市城乡居民定期储蓄的占比定期储蓄占比时序图AutocorrelationsLag Covariance Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 Std Error0 30.725523 1.00000 | |********************| 01 21.583411 0.70246 | . |************** | 0.1428572 18.293557 0.59539 | . |************ | 0.2013683 14.684303 0.47792 | . |********** | 0.2345584 10.080193 0.32807 | . |******* . | 0.2536545 10.931717 0.35579 | . |******* . | 0.2621716 9.318240 0.30327 | . |****** . | 0.2718467 8.944975 0.29113 | . |****** . | 0.2786658 4.927541 0.16037 | . |*** . | 0.2848059 1.842114 0.05995 | . |* . | 0.28664210 -1.151434 -.03747 | . *| . | 0.28689711 -2.369343 -.07711 | . **| . | 0.28699712 -1.130247 -.03679 | . *| . | 0.287420 "." marks two standard errorsPartial AutocorrelationsLag Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 11 0.70246 | . |************** |2 0.20124 | . |**** . |3 0.00512 | . | . |4 -0.12611 | . ***| . |5 0.22698 | . |*****. |6 0.01190 | . | . |7 0.03000 | . |* . |8 -0.26241 | .*****| . |9 -0.06206 | . *| . |10 -0.10468 | . **| . |11 0.07879 | . |** . |12 0.05519 | . |* . |Autocorrelation Check for White NoiseTo Chi- Pr >Lag Square DF ChiSq --------------------Autocorrelations--------------------6 75.46 6 <.0001 0.702 0.595 0.478 0.328 0.356 0.303 12 82.87 12 <.0001 0.291 0.160 0.060 -0.037 -0.077 -0.037因此,我们可以考虑用如下的AR(1)模型来拟合该数据【例3.8】对美国科罗拉多州某一加油站连续57天的OVERSHORT序列建模OVERSHORT序列时序图AutocorrelationsLag Covariance Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 Std Error0 3416.350 1.00000 | |********************| 01 -1720.868 -.50372 | **********| . | 0.1324532 416.631 0.12195 | . |** . | 0.1626243 -720.027 -.21076 | . ****| . | 0.1642214 271.977 0.07961 | . |** . | 0.1689005 63.982656 0.01873 | . | . | 0.1695576 399.283 0.11687 | . |** . | 0.1695937 -738.754 -.21624 | . ****| . | 0.1710008 859.881 0.25170 | . |***** . | 0.1757329 -659.957 -.19318 | . ****| . | 0.18194710 191.094 0.05594 | . |* . | 0.18551011 -353.922 -.10360 | . **| . | 0.18580612 41.967115 0.01228 | . | . | 0.18681613 744.903 0.21804 | . |**** . | 0.18683014 -201.885 -.05909 | . *| . | 0.191243 "." marks two standard errorsPartial AutocorrelationsLag Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 11 -0.50372 | **********| . |2 -0.17658 | .****| . |3 -0.31456 | ******| . |4 -0.26277 | *****| . |5 -0.15323 | . ***| . |6 0.04263 | . |* . |7 -0.19105 | .****| . |8 0.12067 | . |** . |9 0.05047 | . |* . |10 -0.06996 | . *| . |11 -0.15282 | . ***| . |12 -0.24937 | *****| . |13 0.09607 | . |** . |14 0.10302 | . |** . |Autocorrelation Check for White NoiseTo Chi- Pr >Lag Square DF ChiSq --------------------Autocorrelations--------------------6 20.24 6 0.0025 -0.504 0.122 -0.211 0.080 0.019 0.11712 31.37 12 0.0017 -0.216 0.252 -0.193 0.056 -0.104 0.012 因此,我们可以选取如下的MA(1)模型来对该数据建模【例3.9】对1880-1985年全球气表平均温度改变值差分序列(原数据不平稳,已经做过平稳化处理了)原数据的实序列图差分后的时序图AutocorrelationsLag Covariance Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 Std Error0 0.020061 1.00000 | |********************| 01 -0.0050732 -.25289 | *****| . | 0.0975902 -0.0022778 -.11354 | . **| . | 0.1036443 -0.0031786 -.15845 | .***| . | 0.1048224 0.00089372 0.04455 | . |* . | 0.1070785 -0.0019930 -.09935 | . **| . | 0.1072556 0.0043177 0.21523 | . |**** | 0.1081287 -0.0040567 -.20222 | ****| . | 0.1121348 0.0021045 0.10490 | . |** . | 0.1155559 -0.0021195 -.10566 | . **| . | 0.11645810 0.0020664 0.10301 | . |** . | 0.11736811 -0.0002314 -.01154 | . | . | 0.11822612 0.00086729 0.04323 | . |* . | 0.11823613 -0.0015514 -.07733 | . **| . | 0.11838714 0.0021955 0.10944 | . |** . | 0.11886715 -0.0013739 -.06849 | . *| . | 0.11982316 0.00070155 0.03497 | . |* . | 0.12019517 -0.0013574 -.06766 | . *| . | 0.12029218 -0.0000845 -.00421 | . | . | 0.12065419 -0.0021001 -.10469 | . **| . | 0.12065520 0.0027179 0.13548 | . |*** . | 0.12151721 -0.0002430 -.01211 | . | . | 0.12294722 0.00087534 0.04363 | . |* . | 0.12295923 0.00073761 0.03677 | . |* . | 0.12310624 -0.0038475 -.19179 | .****| . | 0.123211 "." marks two standard errorsPartial AutocorrelationsLag Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 11 -0.25289 | *****| . |2 -0.18963 | ****| . |3 -0.26659 | *****| . |4 -0.13025 | .***| . |5 -0.24134 | *****| . |6 0.05558 | . |* . |7 -0.23049 | *****| . |8 -0.03122 | . *| . |9 -0.15970 | .***| . |10 -0.04892 | . *| . |11 -0.01493 | . | . |12 -0.05320 | . *| . |13 -0.00372 | . | . |14 0.04443 | . |* . |15 0.04637 | . |* . |16 0.03166 | . |* . |17 0.00799 | . | . |18 -0.02622 | . *| . |19 -0.13657 | .***| . |20 -0.00620 | . | . |21 -0.03672 | . *| . |22 -0.01598 | . | . |23 0.10546 | . |** . |24 -0.23220 | *****| . |Autocorrelation Check for White NoiseTo Chi- Pr >Lag Square DF ChiSq --------------------Autocorrelations--------------------6 17.67 6 0.0071 -0.253 -0.114 -0.158 0.045 -0.099 0.21512 26.43 12 0.0093 -0.202 0.105 -0.106 0.103 -0.012 0.04318 29.97 18 0.0377 -0.077 0.109 -0.068 0.035 -0.068 -0.00424 39.39 24 0.0248 -0.105 0.135 -0.012 0.044 0.037 -0.192上面的SACF和PACF均没有明显的截尾性,因此我们可以考虑用ARMA模型来拟合,例如下面的ARMA(1,1)模型3.3.4 怎样估计未知参数?在确定所采用的模型之后,下一步就是估计模型中的未知参数,主要有两种方法:极大似然估计和最小二乘估计,这里只是简单介绍它们的基本原理;对于下列一般的ARMA(p,q)模型,其中,的估计由于是序列的均值,因此我们用样本均值来估计它,.我们需要估计下列参数,共计未知参数;●极大似然估计似然原则:样本来自使得该样本出现概率最大的总体.方法:找出样本的联合密度函数(即似然函数),找使得该函数达到最大的参数值.,服从多元正态分布;则似然函数为然后对上式求最大值得;上面我们不能求出的显示表达式,但是可以用数值迭代的办法求得;●最小二乘估计最小化下面的准则显然上述优化也只能借助数值算法来求得;●条件最小二乘法实际中用得最多的是所谓的条件最小二乘法,它的想法如下:回顾ARMA模型的逆转形式:我们假设则条件最小二乘法最小化下列准则在SAS软件里,只需要在ARIMA过程里面添加如下语句即可自动得到未知参数的估计Estimate p=* q=*;【例2.5续】1950-1998年北京市城乡居民定期储蓄比例estimate p=1method=ml;estimate p=1 ;极大似然估计的结果如下Maximum Likelihood EstimationStandard ApproxParameter Estimate Error t Value Pr > |t| Lag MU 81.55159 1.76807 46.12 <.0001 0 AR1,1 0.69141 0.10293 6.72 <.0001 1Constant Estimate 25.16639Variance Estimate 16.17266Std Error Estimate 4.021525AIC 278.047SBC 281.8306Number of Residuals 49条件最小二乘估计的结果如下Conditional Least Squares EstimationStandard ApproxParameter Estimate Error t Value Pr > |t| LagMU 81.73874 1.76532 46.30 <.0001 0 AR1,1 0.70407 0.10379 6.78 <.0001 1Constant Estimate 24.18924Variance Estimate 16.20287Std Error Estimate 4.025278AIC 277.4882SBC 281.2719Number of Residuals 49* AIC and SBC do not include log determinant.因此估计的模型为【例3.8续】美国科罗拉多州某加油站连续57天的OVERSHORT数据estimate q=1method=ml;estimate q=1;极大似然估计的结果如下Maximum Likelihood EstimationStandard ApproxParameter Estimate Error t Value Pr > |t| LagMU -4.79475 1.03255 -4.64 <.0001 0 MA1,1 0.84764 0.07874 10.77 <.0001 1Constant Estimate -4.79475Variance Estimate 2093.205Std Error Estimate 45.75156AIC 600.8384SBC 604.9245Number of Residuals 57条件最小二乘估计的结果如下Conditional Least Squares EstimationStandard ApproxParameter Estimate Error t Value Pr > |t| LagMU -4.40915 1.18720 -3.71 0.0005 0 MA1,1 0.82083 0.07799 10.53 <.0001 1Constant Estimate -4.40915Variance Estimate 2181.637Std Error Estimate 46.70799AIC 601.9294SBC 606.0155Number of Residuals 57* AIC and SBC do not include log determinant.因此,估计得到的模型为【例3.9续】1980-1985年全球气表平均温度改变差分值序列estimate p=1q=1;estimate p=1q=1method=ml;极大似然估计的结果如下Maximum Likelihood EstimationStandard ApproxParameter Estimate Error t Value Pr > |t| LagMU 0.0053321 0.0024472 2.18 0.0293 0 MA1,1 0.88758 0.06182 14.36 <.0001 1 AR1,1 0.39253 0.11958 3.28 0.0010 1Constant Estimate 0.003239Variance Estimate 0.015952Std Error Estimate 0.126302AIC -132.713SBC -124.751Number of Residuals 105条件最小二乘估计的结果如下Conditional Least Squares EstimationStandard ApproxParameter Estimate Error t Value Pr > |t| Lag MU 0.0050393 0.0022219 2.27 0.0254 0 MA1,1 0.90009 0.05509 16.34 <.0001 1 AR1,1 0.40697 0.11624 3.50 0.0007 1Constant Estimate 0.002988Variance Estimate 0.015999Std Error Estimate 0.126487AIC -133.266SBC -125.304Number of Residuals 105* AIC and SBC do not include log determinant.因此,所得的模型为模型的有效性检验模型的有效性是看模型是否充分地从数据中提取了信息,因此在这里,一个有效的好的模型应该几乎提取了数据中所有的信息,使得剩下的残差中不再蕴含任何相关信息,即残差应该是纯随机的序列,即白噪声序列。