时间序列分析作业讲解
- 格式:docx
- 大小:272.16 KB
- 文档页数:13
第一章 差分方程差分方程是连续时间情形下微分方程的特例。
差分方程及其求解是时间序列方法的基础,也是分析时间序列动态属性的基本方法。
经济时间序列或者金融时间序列方法主要处理具有随机项的差分方程的求解问题,因此,确定性差分方程理论是我们首先需要了解的重要内容。
§1.1 一阶差分方程假设利用变量t y 表示随着时间变量t 变化的某种事件的属性或者结构,则t y 便是在时间t 可以观测到的数据。
假设t y 受到前期取值1-t y 和其他外生变量t w 的影响,并满足下述方程:t t t w y y ++=-110φφ (1.1)在上述方程当中,由于t y 仅线性地依赖前一个时间间隔自身的取值1-t y ,因此称具有这种结构的方程为一阶线性差分方程。
如果变量t w 是确定性变量,则此方程是确定性差分方程;如果变量t w 是随机变量,则此方程是随机差分方程。
在下面的分析中,我们假设t w 是确定性变量。
例1.1 货币需求函数 假设实际货币余额、实际收入、银行储蓄利率和商业票据利率的对数变量分别表示为t m 、t I 、bt r 和ct r ,则可以估计出美国货币需求函数为:ct bt t t t r r I m m 019.0045.019.072.027.01--++=-上述方程便是关于t m 的一阶线性差分方程。
可以通过此方程的求解和结构分析,判断其他外生变量变化对货币需求的动态影响。
1.1.1 差分方程求解:递归替代法差分方程求解就是将方程变量表示为外生变量及其初值的函数形式,可以通过以前的数据计算出方程变量的当前值。
由于方程结构对于每一个时间点都是成立的,因此可以将(1.1)表示为多个方程:0=t :01100w y y ++=-φφ 1=t :10101w y y ++=φφt t =:t t t w y y ++=-110φφ依次进行叠代可以得到:1011211010110101)()1()(w w y w w y y ++++=++++=--φφφφφφφφ0111122113121102)1(w w w y y φφφφφφφ++++++=-i ti i t t i it w y y ∑∑=-=++=011110φφφφ (1.2)上述表达式(1.2)便是差分方程(1.1)的解,可以通过代入方程进行验证。
第五章SAS作业问题1:1867-1938年英国绵羊数量如下所示:2203 2360 2254 2165 2024 2078 2214 2292 2207 2119 2119 2137 2132 1955 1785 1747 1818 1909 1958 1892 1919 1853 1868 1991 2111 2119 1991 1859 1856 1924 1892 1916 1968 1928 1898 1850 1841 1824 1823 1843 1880 1968 2029 1996 1933 1805 1713 1726 1752 1795 1717 1648 1512 1338 1383 1344 1384 1484 1597 1686 1707 1640 1611 1632 1775 1850 1809 1653 1648 1665 1627 17911、选择恰当模型,拟合该序列的发展;2、利用拟合模型预测1938-1945年英国绵羊的数量;3、按照书本相应例题的格式完成问题,并附上SAS程序。
解:(1)时序图显示,序列具有长期趋势,对序列进行1阶差分▽Xt=Xt-Xt-1,观察差分后序列▽Xt的时序图。
时序图显示长期趋势信息基本被差分运算提取充分,考察差分后序列的自相关图和偏自相关图。
自相关图显示延迟3阶后自相关系数基本在2倍标准差范围内,因此认为该序列为平稳序列。
自相关图表现出拖尾现象,偏自相关图表现出3阶结尾现象,且自相关图中2阶自相关系数在2倍标准差范围内,所以考虑构造疏系数模型AR(1,3)。
残差自相关检验结果显示延迟6期后P值都大于0.05,因此认为残差为白噪声序列,即拟合模型显著有效。
参数估计结果显示两参数P值都小于0.05,都显著有效。
则拟合的AR(1,3)模型为▽Xt=0.32196▽Xt-1 –0.37616▽Xt-3 + εt(2)利用拟合模型对1938-1945年英国绵羊的数量进行预测结果如上图所示,预测图为(3)SAS程序为data a;input x@@;dif1=dif(x);t=1867+_n_-1;format time year4.;cards;2203 2360 2254 2165 2024 2078 2214 2292 2207 2119 211921372132 1955 1785 1747 1818 1909 1958 1892 1919 1853 186819912111 2119 1991 1859 1856 1924 1892 1916 1968 1928 1898 18501841 1824 1823 1843 1880 1968 2029 1996 1933 1805 1713 17261752 1795 1717 1648 1512 1338 1383 1344 1384 1484 1597 16861707 1640 1611 1632 1775 1850 1809 1653 1648 1665 1627 1791;run;proc gplot data=a;plot x*t dif1*t;symbol c=black i=join v=dot;proc arima;identify var=x(1) ;estimate p=(13) noint;forecast lead=7id=t out=out;proc gplot data=out;plot x*t=1 forecast*t=2 l95*t=3 u95*t=3/overlay;symbol1c=black i=none v=star;symbol2 c =red i =join v =none; symbol3 c =green i =join v =none; run ;问题2,使用Auto-Regressive 模型分析例5.9序列。
想象一下,你的任务是:根据已有的历史时间数据,预测未来的趋势走向。
作为一个数据分析师,你会把这类问题归类为什么?当然是时间序列建模。
从预测一个产品的销售量到估计每天产品的用户数量,时间序列预测是任何数据分析师都应该知道的核心技能之一。
常用的时间序列模型有很多种,在本文中主要研究ARIMA模型,也是实际案例中最常用的模型,这种模型主要针对平稳非白噪声序列数据。
时间序列概念时间序列是按照一定的时间间隔排列的一组数据,其时间间隔可以是任意的时间单位,如小时、日、周月等。
通过对这些时间序列的分析,从中发现和揭示现象发展变化的规律,并将这些知识和信息用于预测。
比如销售量是上升还是下降,是否可以通过现有的数据预测未来一年的销售额是多少等。
1 ARIMA(差分自回归移动平均模型)简介模型的一般形式如下式所示:1.1 适用条件●数据序列是平稳的,这意味着均值和方差不应随时间而变化。
通过对数变换或差分可以使序列平稳。
●输入的数据必须是单变量序列,因为ARIMA利用过去的数值来预测未来的数值。
1.2 分量解释●AR(自回归项)、I(差分项)和MA(移动平均项):●AR项是指用于预测下一个值的过去值。
AR项由ARIMA中的参数p定义。
p值是由PACF图确定的。
●MA项定义了预测未来值时过去预测误差的数目。
ARIMA中的参数q代表MA项。
ACF图用于识别正确的q值●差分顺序规定了对序列执行差分操作的次数,对数据进行差分操作的目的是使之保持平稳。
ADF可以用来确定序列是否是平稳的,并有助于识别d值。
1.3 模型基本步骤1.31 序列平稳化检验,确定d值对序列绘图,进行ADF 检验,观察序列是否平稳(一般为不平稳);对于非平稳时间序列要先进行d 阶差分,转化为平稳时间序列1.32 确定p值和q值(1)p 值可从偏自相关系数(PACF)图的最大滞后点来大致判断,q 值可从自相关系数(ACF)图的最大滞后点来大致判断(2)遍历搜索AIC和BIC最小的参数组合1.33 拟合ARIMA模型(p,d,q)1.34 预测未来的值2 案例介绍及操作基于1985-2021年某杂志的销售量,预测某商品的未来五年的销售量。
《时间序列分析》习题解答�0�2习题2.3�0�21考虑时间序列12345…201判断该时间序列是否平稳2计算该序列的样本自相关系数kρ∧k12… 6 3绘制该样本自相关图并解释该图形. �0�2解1根据时序图可以看出该时间序列有明显的递增趋势所以它一定不是平稳序列�0�2即可判断该时间序是非平稳序列其时序图程序见后。
�0�2 时间序描述程序data example1 input number timeintnxyear01jan1980d _n_-1 format time date. cards 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 proc gplot dataexample1 plot numbertime1 symbol1 cblack vstar ijoin run�0�2�0�2�0�22当延迟期数即k本题取值1 2 3 4 5 6远小于样本容量n本题为20时自相关系数kρ∧计算公式为number1234567891011121314151617181920time01JAN8001J AN8101JAN8201JAN8301JAN8401JAN8501JAN8601JAN870 1JAN8801JAN8901JAN9001JAN9101JAN9201JAN9301JAN9 401JAN9501JAN9601JAN9701JAN9801JAN99121nkttktknttX XXXXXρ�6�1∧�6�1�6�1≈�6�1∑∑ 0kn4.9895�0�2注20.05125.226χ接受原假设认为该序列为纯随机序列。
�0�2解法三、Q统计量法计算Q统计量即12214.57kkQnρ∑�0�2�0�2�0�2�0�2�0�2�0�2�0�2�0�2�0�2�0�2查表得210.051221.0261χ�6�1由于Q统计量值4.57Q小于查表临界值即可认为接受原假设即该序列可视为纯随机序列为白噪声序列 5表2——9数据是某公司在2000——2003年期间每月的销售量。
20XX级XX专业时间序列分析大作业20XX年X月X日某国佃60年第一季度-佃93年第四季度GNP平减指数的季度序列分析摘要附录中给出了某国1960年第一季度-1993年第四季度GNP平减指数的季度序列,本文旨在利用时间序列分析并结合Eviews来研究该时间序列,并给出该国GNP平减指数的时间序列方程式,从而对该国的GNP平减指数进行定性分析。
在进行时间序列分析时,先对数据进行平稳性检测,发现这个序列不平稳且具有季节性,故要用差分进行平稳化操作。
经过4阶普通差分,周期为4的季节差分后序列达到平稳。
平稳化后进行模型的识别。
首先要进行模型的识别与定阶,通过平稳后的序列的自相关系数和偏自相关系数图初步判定模型的种类,当模型都可以通过检验时,通过AIC准则进行模型的拟合度检验,模型的AIC值较小的拟合度较高。
拟合度检验后发现AR(4)SAR(4)的模型拟合度最高,故此序列的模型为AR(4)SAR(4)模型。
当模型定阶后,就要对模型参数T T: 」,;2,山p ,二- *狂,川入进行估计,这一步可以得到模型表达式。
定阶与参数估计完成后,还要对模型进行检验,即要检验弋是否为平稳白噪声,这里我们用检验法进行模型检验。
关键字:时间序列分析,Eviews,乘积季节模型1、平稳性和季节性检测1.1从序列的时序图可以初步判断样本序列是否平稳:根据平稳时间序列均值、方差为常数的性质,平稳时间序列的时序图应该显示出该序列始终在一个常数值附近随机波动,而且波动的范围有界的特点。
如果观察序列的时序图显示出该序列有明显的趋势性或者周期性,则时间序列通常不是平稳的时间序列。
该时间序列的时序图如下图所示:该时序图存在明显的上升趋势,故可判定该时间序列非平稳。
1.2从序列的自相关系数和偏自相关系数图判断样本序列是否平稳:样本自相关函数与样本偏相关函数如果是截尾的或者是拖尾的 (即被负指数控制的),说明已服从ARMA 模型。
若自相关函数与偏相关函数至少有1个不是截尾的或拖尾的,说明序列不是平稳的,可以作1阶差分,并求其样本自相关函数与样本偏相关函数,再用上述方法讨论。
一、案例分析的目的按国际货币基金组织的划分口径可以把货币供给划分为:M0 (现钞):是指流通于银行体系以外的现钞,即居民手中的现钞和企业单位的备用金,不包括商业银行的库存现金。
M1 (狭义货币):M0加上商业银行活期存款构成。
M2 (广义货币):由M1加上准货币构成。
准货币由银行的定期存款、储蓄存款、外币存款以及各种短期信用工具如银行承兑汇票、短期国库券等构成。
我国参照国际货币基金组织的划分口径,把货币供给层次划分如下:M0 =现金M1 =M0 +活期存款M2 = M1+城乡居民储蓄存款+定期存款+其他存款M3=M2+商业票据+大额可转让定期存单在这三个层次中,M0的流动性最强,M1次之,M2的流动性最差。
M0与消费变动密切相关,是最活跃的货币;M1反映居民和企业资金松紧变化,是经济周期波动的先行指标,流动性仅次于M0;M2流动性偏弱,但反映的是社会总需求的变化和未来通货膨胀的压力状况,通常所说的货币供应量,主要指M2。
1. M1反映着经济中的现实购买力;M2不仅反映现实的购买力,还反映潜在的购买力。
若M1增速较快,则消费和终端市场活跃;若M2增速较快,则投资和中间市场活跃。
中央银行和各商业银行可以据此判定货币政策。
M2过高而M1过低,表明投资过热、需求不旺,有危机风险;M1过高M2过低,表明需求强劲、投资不足,有涨价风险。
2. M1增加表示货币市场流通性增强,M2中包括了M1,因此,再排除M1变化因素后,M2的增减代表了储蓄的增加,货币流通性降低。
根据央行的数据,2009年9月份货币供应,M2余额58.5万亿,同比增长29.3%,比上年末加快11.5个百分点。
M1余额20.2万亿元,增长29.5%,加快20.5个百分点。
9月末M1与M2的同比与环比增速双双创出了新高。
与此同时,M1的同比增速已经超越了M2的同比增速,这意味着整个经济领域的活跃度已被有效激活,储蓄开始活期化。
本案例主要研究M1的数量与M2的数量关系。
时间序列作业本页仅作为文档页封面,使用时可以删除This document is for reference only-rar21year.March习题2.31. 考虑系列{1,2,…,20}:(1)判断该系列是否平稳。
(2)计算该序列的样本自相关系数(k=1,2,…,6)。
(3)绘制该样本自相关图,并解释该图形。
解:(1)绘制该序列的时序图;平稳序列的时序图应该显示出该序列始终在一个常数值附近随机波动,而且波动的范围有界,但是该时序图显示系列并不平稳,呈现明显的递增趋势,所以一定不是平稳序列。
(2)分析上图得; 1ρ=0.850 2ρ=0.702 3ρ=0.556 4ρ=0.415 5ρ=0.280 6ρ=0.153(3)考察该序列的自相关图,进一步检验该序列的平稳性。
从图中我们发现序列的自相关系数递减到零的速度相当缓慢,在很长的延迟时期里,自相关系数一直为正,而后又一直为负,在自相关图中显示三角对称性,这是具有单调趋势的非平稳序列的一种自相关图形式。
该序列并不平稳。
同时,由于Q 检验的P 值都非常小,所以有很大的把握,断定该序列属于非白噪声序列。
2、1975-1980年夏威夷岛莫纳罗亚火山(Mauna Loa )每月释放的CO 2 数据(单位:ppm )如表2-7所示(行数据)。
表2-7:(1) 绘制该序列的时序图,并判断该序列是否平稳。
(2) 计算该序列的样本自相关系数(k=1,2, (24)(3) 绘制该样本自相关图,并解释该图形。
2.解:(1)绘制时序图由该序列的时序图可知,夏威夷岛莫纳罗亚火山(Mauna Loa)平均每月释放的CO2 数据以年为周期呈现出规则的周期性,除此之外,还有明显的逐年递增趋势。
所以该序列一定不是平稳序列。
(2)由上图知,自相关系数ρ1=0.908 ρ2=0.722 ρ3=0.513 ρ4=0.350 ρ5=0.247 ρ6=0.203 ρ7=0.210 ρ8=0.264 ρ9=0.364 ρ10=0.485 ρ11=0.585 ρ12=0.602 ρ13=0.518ρ14=0.369ρ15=0.207 ρ16=0.081 ρ17=0.001 ρ18=-0.032ρ19=-0.027ρ20=0.011ρ21=0.083ρ22=0.170 ρ23=0.243 ρ24=0.253(3)该序列的样本自相关系数(k=1,2,…,24)长期位于零轴的一侧,这是具有单调趋势序列的典型特征,同时自相关图呈现出明显的正弦波动规律,这是具有周期变化规律的非平稳序列的典型特征。
一案例分析的目的本案例选取2001年1月,到2013年我国铁路运输客运量月度数据来构建ARMA模型,并利用该模型进行外推预测分析。
二、实验数据数据来自中经网统计数据库2013-04 1.75 2013-05 1.62 2013-06 1.80 2013-07 1.99 2013-08 2.03 2013-09 1.92 2013-10 1.64数据来源:中经网数据库三、ARMA模型的平稳性首先绘制出N的折线图,如图从图中可以看出,N序列具有较强的非线性趋势性,因此从图形可以初步判断该序列是非平稳的。
此外,N在每年同期出现相同的变动方式,表明N还存在季节性特征。
下面对N 的平稳性和季节季节性进行进一步检验。
四、单位根检验为了减少N 的变动趋势以及异方差性,先对N进行对数处理,记为LN其曲线图如下:GENR LN = LOG(N)对数后的N趋势性也很强。
下面观察N 的自相关表,选择滞后期数为36,如下:从上图可以看出,LN的PACF只在滞后一期是显著的ACF随着阶数的增加慢慢衰减至0,因此从偏/自相关系数可以看出该序列表现一定的平稳性。
进一步进行单位根检验,打开LN选择存在趋势性的形式,并根据AIC自动选择滞后阶数,单位根检验结果如下:T统计值的值小于临界值,且相伴概率为0.0001,因此该序列不存在单位根,即该序列是平稳序列。
五、季节性分析趋势性往往会掩盖季节性特征,从LN的图形可以看出,该序列具有较强的趋势性,为了分析季节性,可以对LN进行差分处理来分析季节性:Genr = DLN = LN – LN (-1)观察DLN的自相关表,如下:DLN在之后期为6、12、18、24、30、36处的自相关系数均显著异于0,因此,该序列是以周期6呈现季节性,而且季节自相关系数并没有衰减至0,因此,为了考虑这种季节性,进行季节性差分:GENR SDLN = DLN –DLN(-6)再做关于SDLN的自相关表,如下:SDLN在滞后期36之后的季节ACF和PACF已经衰减至0,下面对SDLN建立SARMA模型。
时间序列分析技巧例题和知识点总结时间序列分析在许多领域都有着广泛的应用,从经济预测到气象研究,从股票走势分析到工业生产监控等。
为了帮助大家更好地理解和掌握时间序列分析的技巧,下面将通过一些具体的例题,并结合相关知识点进行详细的阐述。
一、时间序列的基本概念时间序列是按时间顺序排列的一组数据。
它的特点是数据的产生与时间有关,且前后数据之间可能存在一定的依赖关系。
时间序列通常可以分为平稳序列和非平稳序列。
平稳序列的统计特性(如均值、方差等)不随时间变化;而非平稳序列则反之。
二、常见的时间序列模型1、自回归模型(AR)简单来说,就是当前值由过去若干个值的线性组合加上一个随机误差项决定。
例如,AR(1)模型表示为:$Y_t =\phi Y_{t-1} +\epsilon_t$ ,其中$\phi$ 是自回归系数,$\epsilon_t$ 是随机误差。
2、移动平均模型(MA)认为当前值是由当前和过去若干个随机误差的线性组合。
比如,MA(1)模型:$Y_t =\epsilon_t +\theta \epsilon_{t-1}$,$\theta$ 是移动平均系数。
3、自回归移动平均模型(ARMA)结合了自回归和移动平均的特点。
三、时间序列分析的步骤1、数据预处理检查数据的完整性和准确性。
对异常值进行处理,可以采用删除、替换或修正的方法。
2、平稳性检验常用的方法有单位根检验,如 ADF 检验。
如果序列非平稳,需要进行差分处理使其平稳。
3、模型识别与定阶通过观察自相关函数(ACF)和偏自相关函数(PACF)的形状来初步判断模型的类型和阶数。
4、参数估计利用最小二乘法等方法估计模型的参数。
5、模型诊断检查残差是否为白噪声,如果不是,可能需要重新选择模型或调整参数。
6、预测使用确定好的模型进行未来值的预测。
四、例题分析假设我们有一组某商品的月销售量数据,如下:|时间|销售量||||| 1 月| 100 || 2 月| 120 || 3 月| 110 || 4 月| 130 || 5 月| 125 || 6 月| 140 || 7 月| 135 || 8 月| 150 || 9 月| 145 || 10 月| 160 || 11 月| 155 || 12 月| 170 |首先,我们对数据进行平稳性检验。
作业1 时间序列构成因素的分析一、作业名称:时间序列构成因素的分析。
二、作业目的和任务:掌握时间序列构成因素的分析方法。
三、作业要求:1用数据图直观的描述数据,分析序列的构成因素。
2用典型分解方法分析时间序列构成因素。
长期趋势的分解用时间回归方法(用Matlab 指令完成计算,要有完整正确的指令序列),在同一图中画出趋势项、季节项和随机项的数据图。
3用差分方法删除序列的趋势项和季节项;用延迟d步差分方法删除序列的季节项。
4编写问题解决过程的Matlab_Notebook报告。
四、作业内容:下表给出了1986至1997年某商品销售额12年的季度数据,试根据这组数据估计1998年各个季度的五、1.用数据图直观的描述数据,分析序列的构成因素Y=[3017.60 3043.54 2094.35 2809.84 3274.80 3163.28 2114.31 3024.57 3327.84 3493.48 2439.93 3490.79 3685.08 3661.23 2378.43 3459.55 3849.63 3701.18 2642.38 3585.52 4078.66 3907.06 2828.46 4089.50 4339.61 4148.60 2916.45 4084.64 4242.42 3997.58 2881.01 4036.23 4360.33 4360.53 3172.18 4223.76 4690.48 4694.48 3342.35 4577.63 4965.46 5026.05 3470.14 4525.94 5258.71 5189.58 3596.76 3881.60]plot(Y)从图中分析序列的构成因素:长期趋势、季节变动、随机变动;2.用典型分解方法分析时间序列构成因素,长期趋势的分解用时间回归方法,在同一图中画出趋势项、季节项和随机项的数据图分析该序列的一阶差分如下z=Y(2:48)-Y(1:47);plot(z)其一阶差分曲线图形基本呈水平趋势,故可以用线性方程拟和,设T=a+bt, A=[ones(48,1),(1:48)'];w=inv(A'*A)*A'*Y'w =1.0e+003 *2.73610.0390所以:T=2736.1+39tt=1:48;T=2736.1+39.*t;D=Y-T;s=[0,0,0,0];for i=1:4for j=i:4:48s(i)=s(i)+D(j);ends(i)=s(i)/12;ends;S=[];for i=1:12S=[S,s];endS;R=D-S;clf,subplot(4,1,1)plot(t,Y)subplot(4,1,2)plot(t,T)subplot(4,1,3)plot(t,S)subplot(4,1,4)plot(t,R)2.用差分方法删除序列的趋势项和季节项;用延迟d步差分方法删除序列的季节项在第2问中已经求得其一阶差分即z消除了趋势项,在对z进行延迟d=4步的差分运算消除季节项,过程如下d=4;C=z(d+1:end)-z(1:end-d);clf;plot(C)上图即用延迟4步差分方法删除序列的季节项。
《时间序列分析与应用》
课程作业
地震数据(COP.BHZ-24)时间序列分析
一.前言
本次作业选取了第24号文件,共1440个数据。
截取前1200个数据进行理分析,然后建立模型。
之后再对数据进行预测,然后对1200之后的30个数据进行更新,将更新结果与原观测值进行比对分析,最后得出结论。
二.数据处理
1. 数据读取与画图
首先将文件“COP.BHZ.txt”保存到E盘根目录下,以便于读取。
用scan()函数将数据读入,并保存到sugar2文件中。
如图1所示。
图1 数据读取
然后,画出该时间序列图。
横轴表示时间,单位是*10ms,纵轴表示高程,单位是um。
代码及图示如图2、图3所示。
图2 时序图代码
图3 前1200个数据散点图
2. 平稳性检验
从图中看出,该组数据随时间变化基本平稳,仅有小幅波动。
最高点与最低点相差也仅在250um之内。
通过adf.test()函数可以验证该假设,可以看出该序列是平稳的(stationary)。
如图4所示。
然后用求平均函数mean()求出这1200个数据的平均值a,可以从图5看到结果。
图4 平稳性检验结果
图5 求平均值
然后,将原始数据减去平均值,得到一组零均值的新数据,命名为sugar3。
3. 数据建模分析
接下来绘制震前数据的自相关函数和偏自相关函数图像,初步判断其大概符合什么模型。
图6为画出图像的代码,新序列sugar3的ACF、PACF图像如下所示。
图6 ACF、PACF、EACF图像代码
图7 ACF图
图8 PACF图
从ACF、PACF图可以看出,序列一阶之后相关性较强,虽然在第19阶滞后处有超限的情况,但从总体来看,两个图都是拖尾的情况。
因此要借助于EACF 图来做进一步判断。
扩展自相关函数EACF图如下。
图9 EACF图
3 模型识别
由EACF图可以看出此时间序列符合ARMA(0,1)或ARMA(2,2),根据以上信息尚不能明确判断出具体的模型,要建立确定的模型,就需要排除上述模型中的一种,用模型诊断的方法可以实现。
模型诊断,或模型评价,涉及检验模型的拟合优度,并且如果拟合程度很差,要给出适当的调整建议。
模型诊断的方法有两种:分析拟合模型的残差和分析过度参数化的模型。
下面先使用残差法。
3.1 ARMA(0,1)模型诊断
图10 ARMA(0,1)模型3.1.1 残差法
图11 画残差图的代码
图12 ARMA(0,1)模型残差图3.1.2 分位数图法
图13 分位数法代码
图14 ARMA(0,1)模型的分位数-分位数图3.2 ARMA(2,2)模型诊断
图15 ARMA(2,2)模型
3.2.1 残差法
图16 画残差图代码
图17 ARMA(2,2)模型残差图
3.2.2 分位数图法
图18 分位数法代码
图19 ARMA(0,1)模型的分位数-分位数图
从两种待定模型的残差图和分位数-分位数图看出:两种模型都较好符合,难以比较优劣,因此较难取舍。
下面使用第二种模型诊断的方法,过度拟合法。
3.3 利用过度拟合法进行模型诊断
图20 ARMA(0,1)情况过度拟合
根据过度拟合时应遵守的原则:第一,在拟合时不能同时增加AR和MA部分的阶数;第二应按残差分析建议的方向来扩展模型。
本文中,拟合了MA(1)模型,残差在2阶滞后处仍存在明显相关性,则尝试MA(2)、MA(3)模型,而不是ARMA(1,1)模型。
由此得到以上三种模型的参数估计。
比较前两种模型,可以看出,arima(0,0,2)中的新增的参数为0.0437,不显著地不为零。
而且两种模型的共同的参数相差很小。
再结合第三种模型,同样可以看出新增参数为-0.0096,不显著地不为零,且此三种模型的共同参数相差无几,因此可以判断出ARMA(0,1)模型是较合适的。
另外,结合以上三种模型的对数似然值和AIC值,可以看出,ARMA(0,2)模型AIC值较小,且对数似然值较大,因此选取ARMA(0,2)模型。
下面来诊断ARMA(2,2)模型是否合适。
图21 ARMA(2,2)情况过度拟合
将ARIMA(2,0,2)模型同下面两种模型比较可以看出:虽然额外的参数不显著地不为零,但是它们公同的参数发生了显著的变化,因此可以得出结论:通过过度拟合的诊断,ARMA(2,2)模型不合适。
通过上面的叙述,得出了二阶滑动平均MA(2)模型,即ARIMA(0,0,2)模型,接下来,对该模型的参数进行估计,使用的估计方法是条件平方和估计法、极大似然估计法,通过对不同的方法得出的参数估值进行比较,得到最优估值。
图22 参数估计图
可以看出,两种方法得出的参数估值、方差、对数似然值等相差无几,因此选用哪种方法所得的参数估值都可以,在这里选用对数似然值较大的CSS方法。
可得模型表达式:Y t + 0.0004= e t – 0.0982e t-1 – 0.0436e t-2 – 1.8783
4 模型预测
时间序列建模的主要目标之一,是预测该序列未来的取值。
图23 时间序列预测图
从图中可知,预测结果并不好,好像哪里出了问题。
(可能哪里代码有误,暂时还没有发现。
)下面利用新建模型更新原观测数值30步,即1201至1230。
图24 预测更新代码
图25 预测更新结果
从上图更新的30步观测值可以看出,虽然拟合模型的趋势(黄色)大致与实际观测结果的走向(黑色)大致相同,但是有些点上还是有不小的拟合误
差,例如2号、10号、27号点等。
究其原因,可能是因为所选本组数据相对平缓数据变化相对稳定,因此较难拟合出趋势较明显的模型。
5 心得体会
通过一学期的课程学习,我感觉收货颇丰。
首先,在学习上我不仅学会了如何对一组时间序列进行基本的模型识别、参数估计、模型诊断预测更新等理论方法,还学会了如何用R语言去具体实现。
同时也锻炼了自己的自学及钻研能力。
其次,在课堂上,张老师、李老师除了交给我们课本上的理论知识外,还教导我们为人处世的道理,特别是张老师,从老师的身上学到了如何去尊重别人等基本的却是容易被人忽视的基本礼节。
学术固然重要,礼节却更可贵。
参考书目:
[1] Jonathan D.Cryer, Kung-Sik Chan.时间序列分析与应用[M].机械工业出版社.
[2] 王福林,王吉权,吴昌友,吴秋峰.实数遗传算法的改进研究[J]. 生物数学学报. 2006(01)
[3] 孙晓云,高鑫,王鹏.新型并行遗传算法及其在参数估计中的应用[J]. 计算机工程与应用. 2005(19)
[4] 田小梅,龚静.实数编码遗传算法的评述[J]. 湖南环境生物职业技术学院学报. 2005(01)
[5] 陈晓梅,杨成祥.遗传进化算法在时间序列建模中的应用[J]. 计算机工程与应用. 2005(05)
[6] 来鹏,陈平.基于遗传算法的时序混合模型的参数估计[J]. 山西师范大学学报(自然科学版). 2004(03)
[7] 孙靖,程大章.基于季节性时间序列模型的空调负荷预测[J]. 电工技术学报. 2004(03)
[8] 安德洪,柳湘月,刘嘉焜,许树荆.基于季节ARIMA模型的电力负荷建模与预报[J]. 天津大学学报. 2004(02)
[9] 孙晓云,蔡远利.利用改进遗传算法的参数估计[J]. 自动化技术与应用. 2004(01)
[10] 何大阔,王福利.一种提高遗传算法全局收敛性的方法[J]. 东北大学学报. 2003(06)。