第二章 时间序列分析的基本概念
本章将介绍时间序列分析的一些基本概念,其中关于平稳性、自协方差函数和样本自协方差函数的概念尤为重要。由于时间序列是随机过程的特例,所以我们首先介绍随机过程的一些基础概念和基本理论,最后介绍一些差分方程理论和动态数据的预处理方法。
§2.1 随机过程
在对某些随机现象的变化过程进行研究时,需要考虑无穷多个随机变量,必须用一簇随机变量才能刻画这种随机现象的全部统计特征,这样的随机变量族通常称为随机过程。下面为几个常见的随机过程的例子:
例2.1 (随机游动) 设12,,
X X 是一列独立同分布的随机变量序列,令
012
n n S S X X X =+++
则称随机变量序列{};0,1,
n S n =为随机游动。其中0S 是与12,,
X X 相互独立(但是不
同分布)的随机变量,一般地,我们总是假定00S =。如果
()()1112n n P X P X ===-=
{}n S 就是一般概率论与数理统计教材中提到的简单随机游动。
例 2.2 (布朗运动) 英国植物学家布朗注意到漂浮在液面上的微小粒子不断进行无规则的运动,它是分子大量随机碰撞的结果。这种运动后来称为布朗运动。若记))(),((t Y t X 为粒子在平面坐标上的位置,则它是平面上的布朗运动。
例2.3 在通信工程中,电话交换台在时间段[0,t]内接到的呼唤次数是与t 有关的随机变量)(t X ,对于固定的t ,)(t X 是一个取非负整数的随机变量,则)},0[),({∞∈t t X 是随机过程。
下面介绍随机过程的定义。随机试验所有可能结果组成的集合称为这个试验的样本空间,记为Ω,其中的元素ω称为样本点或基本事件,Ω的子集A 称为事件,样本空间Ω称为必然事件,空集Φ称为不可能事件,F 是Ω的某些子集组成的集合组,P 是),(F Ω上的概率。
定义2.1 随机过程是概率空间),,(P F Ω上的一族随机变量}),({T t t X ∈,其中t 是参数,它属于某个指标集T ,T 称为参数集。
随机过程可以这样理解:对于固定的样本点Ω∈0ω,),(0ωt X 就是定义在T 上的一个函数,称之为)(t X 的一条样本路径或一个样本函数;而对于固定的时刻T t ∈,
),()(ωt X t X =是概率空间Ω上的一个随机变量,其取值随着试验的结果而变化,变化的
规律成为概率分布。随机过程的取值称为过程所处的状态,状态的全体称为状态空间,记为S 。根据T 及S 的不同,过程可以分成不同的类:依照状态空间可分为连续状态和离散状态;依照参数集可分为离散参数和连续参数过程。
对于一维随机变量,掌握了它的分布函数就能完全了解该随机变量。对于多维随机变量,掌握了它们的联合分布函数就能确定它们的所有统计特性。对于由一族或多个随机变量形成的随机过程,要采用有限维分布函数族来刻画其统计特性。
定义2.2 随机过程的一维分布,二维分布,…,n 维分布,等等,其全体
}1,,,),,,({11,,1≥∈n T t t x x F n n t t n
称为过程)(t X 的有限维分布族。
一个随机过程的有限维分布族具有如下两个性质: (1)对称性:
对),,2,1(n 的任一排列),,,(21n j j j ,有
),,(),,(1,,,,111
n t t j j t t x x F x x F n n n
j j = (2.1)
(2)相容性:
对n m <,有),,(),,,,,(1,,1,,,,,111m t t m t t t t x x F x x F m n m m =∞∞+ (2.2) 对于满足对称性和相容性条件的分布函数族F ,是否一定存在一个以F 作为有限维分布函数族的随机过程呢?柯尔莫哥洛夫定理给出了确定的结论。
定理2.1 (柯尔莫哥洛夫定理)设分布函数族}1,,,),,,({11,,1≥∈n T t t x x F n n t t n 满足上述的对称性和相容性,则必存在一个随机过程}),({T t t X ∈,使
}1,,,),,,({11,,1≥∈n T t t x x F n n t t n 恰好是)(t X 的有限维分布族。
柯尔莫哥洛夫定理说明,随机过程的有限维分布函数族是随机过程概率特征的完整描述。在实际问题中,要掌握随机过程的全部有限维分布函数族是不可能的,一般是利用随机过程的某些统计特征,如下是一些常用的统计特征:
定义2.3 设}),({T t t X ∈是一个随机过程,如果对任意T t ∈,)]([t X E 存在,则称函数 T t t X E t X ∈=)],([)(μ (2.3) 为}),({T t t X ∈的均值函数。称
T t s t t X s s X E t s r X X X ∈--=,))],()())(()([(),(μμ (2.4)
为}),({T t t X ∈的协方差函数。称
T t s t t X E t t r t D X X X ∈-==,,)]()([),()(2μ (2.5)
为}),({T t t X ∈的方差函数。
均值函数是随机过程}),({T t t X ∈在时刻t 的平均值,方差函数是随机过程在时刻t 对均值)(t X μ的偏离程度,而协方差函数和相关函数则反映了随机过程在时刻s 和t 时的线性相关程度。
§2.2 平稳过程的特征及遍历性
有一类重要的过程,它处于某种平稳状态,其主要性质与变量之间的时间间隔有关,与所考察的起始点无关,这样的过程称为平稳过程。
定义 2.4 如果随机过程}),({T t t X ∈对任意的T t t n ∈,,1 和任意的h (使得
n i T h t i ,,2,1, =∈+),有:
))(,),(),((21h t X h t X h t X n +++ 与))(,),(),((21n t X t X t X 具有相同的联合分
布,记为
))(,),(),((21h t X h t X h t X n +++ d
=))(,),(),((21n t X t X t X (2.6)
则称}),({T t t X ∈为严平稳的。
对于严平稳过程而言,有限维分布关于时间是平移不变的,条件很强,不容易验证。所以引入另一种所谓的宽平稳过程或二阶平稳过程。
定义2.5 设}),({T t t X ∈是一个随机过程,若}),({T t t X ∈的所有二阶矩都存在,并且对任意T t ∈,μ=)]([t X E 为常数,对任意T t s ∈,,),(t s r 只与时间差s t -有关,则称}),({T t t X ∈为宽平稳过程,简称平稳过程。若T 是离散集,则称平稳过程}),({T t t X ∈为平
稳序列。
例2.4 随机过程定义为}0),()({∞<≤+=t t f t X ε,其中)(t f 是具有周期T 的函数,
ε是区间),0(T 上均匀分布的随机变量。问)(t X 是否宽平稳过程?给出理由。
解:)(t f 是具有周期T 的函数,因而是有界函数,ε是区间),0(T 上均匀分布的随机变量,因而?=+?+?=?
+=T
T
t d T
t f d T t f t X E 000)(1)(1)())((εεεε,为常数, )))](()(()))(()([()),(s X E s X t X E t X E s t r -?-=
))()((s X t X E =
=??
-+++T
d T
t s t f t f 01))(()(εεε
=?
?
?≠-=-nT s t nT s t t X Var ,0;
)),((
因而)(t X 的二阶矩都存在,均值函数为常数,协方差函数),(t s r 只与s t -有关,因而是宽平稳过程。
对于平稳过程而言,由于),0(),(s t r t s r -=,所以可以记为)(s t r -。对所有的t 有
)()(t r t r =-,即为偶函数。所以)(t r 的图形关于坐标轴对称,其在0点的值就是)(t X 的
方差,并且)0()(r t r ≤。此外,宽平稳过程的协方差函数具有非负定性,即对任意时刻n t ,
实数n a ,N n ,,2,1 =,有
∑∑≥-==N
n N
m m n m n t t r a a 11
0)(
平稳随机过程的统计特征完全由其二阶矩函数确定。对固定时刻t ,均值函数和协方差函数是随机变量)(t X 的取值在样本空间Ω上的概率平均,是由)(t X 的分布函数确定的,通常很难求得。在实际中,如果已知一个较长时间的样本记录,是否可按照时间取平均代替统计平均呢?这是平稳过程的遍历性所要讨论的问题。
由大数定律,设独立同分布的随机变量序列},2,1,{ =n X n 具有μ=n EX ,
2σ=n DX ,则
11lim 1N k N k P X N με→∞
=??-<=????
∑ 这里,若将随机序列},2,1,{ =n X n 看作是具有离散参数的随机过程,则∑=N
k k X N 1
1为
随机过程的样本函数按不同时刻所取的平均值,该函数随样本不同而变化,是随机变量。而
μ=n EX 是随机过程的均值,即任意时刻的过程取值的统计平均。大数定律表明,随时间
n 的无限增长,随机过程的样本函数按时间平均以越来越大的概率近似于过程的统计平均。那么,只要观测的时间足够长,则随机过程的每个样本函数都能够遍历各种可能状态。这种特性称为遍历性或各态历经性。
定义2.6 设}),({+∞<<∞-t t X 为均方连续的平稳过程,则分别称
?>=<-∞→T
T
T dt t X T t X )(21lim
)( (2.7) ?->=-<-∞→T
T T dt t X t X T t X t X )()(21lim )()(ττ (2.8) 为该过程的时间均值和时间相关函数。
定义2.7设}),({+∞<<∞-t t X 为均方连续的平稳过程,若
X T
T T dt t X T μ=?-∞→)(21lim
(2.9)
则称该平稳过程的均值具有各态历经性。
若
)()()(21lim
ττX T
T
T r dt t X t X T =?--∞→ (2.10) 则称该平稳过程的协方差函数具有各态历经性。
定义2.8如果均方连续的平稳过程的均值和相关函数都具有各态历经性,则称该平稳过程具有各态历经性或遍历性。
定理2.2 (均值遍历性定理)
(1)设}2,1,0,{±±==n X X n 是平稳序列,其协方差函数为)(t r ,则X 具有遍历性的充分必要条件是
0)(1lim 1
=∑-=∞→N t N t r N (2.11) (2)设},{∞<<-∞=t X X t 是平稳过程,则X 具有遍历性的充分必要条件是
0)()21(1lim
20=?-∞→T T d r T T τττ
(2.12) 证明:由于证明的思路相同,这里只证明连续时间的均值遍历性定理。首先计算X 的均值和方差。记
?=
-T
T T dt t X T
X )(21 则有
?===-∞→∞
→∞
→T
T
T T T T T dt t EX T X E X E X E )(21lim
)(lim ]lim [ 进而
2)()var(X E X E X -=
2
]))((21[
lim ?-=-∞
→T T T dt t X T
E μ 22]))(([41lim
?-=-∞→T
T T dt t X E T
μ ??--=--∞→T T T
T
T dtds s X t X E T )])()()([(41lim
2μμ ??-=--∞→T T T
T
T dtds s t T )(41lim
2γ (2.13) 在上述积分中,作变换
?
??+=-=s t s
t υτ
则变换的Jacobi 行列式值为
1
1
1
11--=
J =
2
1 因而积分区域变换为顶点分别在τ轴和υ轴上的菱形区域:T T 22≤±≤-υτ。由于
)(τγ是偶函数,故(2.13)式等于
??----∞→T T T T T d d T 222)2(2)(81lim τ
τυττγ ?-=-∞→T
T
T d T T 222)2)((41lim τττγ ?-=∞→T
T d T T 20
2)2)((21lim
τττγ ?-=∞→T T d T
T 20)21)((1lim
τττγ (2.14) 故关于均值的遍历性定理就化为上式极限是否趋于零的问题。于是由均方收敛的定义知这确实是等价的,定理结论得证。
推论2.1 若?∞<∞
∞-dt t r )(,则均值遍历性定理成立。
证明:当T t 20≤≤时,)()()2/1(t r t r T t ≤- (2.15)
?≤?-T
T dt t r T dt t r T t T 20
20)(1)()1(1 ?≤
∞
)(1dt t r T 0→ (2.16) 对于平稳过程的协方差函数的遍历性定理,可以考虑随机过程
}),({∞<<∞-=t t Y Y ττ,其中
))()()(()(μμττ--+=t X t X t Y
则)()(ττr t EY =。由定理的证明过程可见,均值具有遍历性等价于0)var(=X 。因此可以类推协方差函数具有遍历性等价于0))(var(=τr 。于是有以下定理:
定理2.1.3 (协方差函数遍历性定理)
设},{∞<<-∞=t X X t 是平稳过程,其均值函数为零,则协方差函数有遍历性的充分必要条件是
0))0()()(21(1lim
201211
=?--∞→T T d r B T T τττ (2.17)
其中
)()()()()(111t X t X t X t EX B τττττ++++= (2.18)
在实际问题中,要严格验证平稳过程是否满足遍历性的条件是比较困难的。遍历性定理的重要意义在于从理论上给出如下结论:一个实平稳过程,如果它是遍历的,则可用任意一个样本函数的时间平均代替平稳过程的统计平均。
在时间序列分析中,还会经常遇到白噪声过程,定义如下:
定义2.9如果随机过程),2,1)(( =t t X 是由一个不相关的随机变量序列构成,即对于所有t s ≠,随机变量t X 和s X 的协方差均为零,即随机变量t X 和s X 互不相关,则称其为纯随机过程。对于一个纯随机过程来说,若其期望和方差都为常数,则称其为白噪声过程。白噪声过程的样本实现称为白噪声序列(White noise )。
特别地,对于白噪声序列{}t ε,如果对于任意的,s t ,
()2
,
cov ,0t t s s t
E s t
σεμεε?===?
≠? (2.19)
则称{}t ε是一个白噪声序列,记为()2,t WN εμσ。
当{}t ε独立时,称{}t ε是一个独立的白噪声序列。
对于一个独立的白噪声序列,当t ε服从正态分布时,称{}t ε是一个正态白噪声序列。
下面是随机产生的1000个服从标准正态分布的白噪声序列绘制的序列图,见图2.1。
图2.1 标准正态白噪声序列
§2.3 线性差分方程
2.3.1一阶差分方程
假定当前时期t 期的y (输出变量)和另一个变量ω(输入变量)、及前一期的y 之间存在如下动态方程:
ωφ+=-1t t y y (2.20)
则此方程称为一阶线性差分方程,这里假定ω为一个确定性的数值序列。差分方程就是关于一个变量与它的前期值之间关系的表达式。 (1)用递归替代法解差分方程
根据方程(2.20),如果我们知道1-=t 期的初始值1-y 和ω的各期值,则可以通过
动态系统得到任何一个时期的值,即
t t t t t y y ωωφωφφ++++=--+ 11011 (2.21)
这个过程称为差分方程的递归解法。 (2)动态乘子:
对于方程(2.21),如果0ω随1-y 变动,而t w w w ,,,21 都与1-y 无关,则0ω对t y 的影响为:
t t
y φω=??0或j t
j t y φω=??+ (2.22) 方程(2.22)称为动态系统的乘子,或脉冲响应函数(即暂时性影响)。动态乘子依赖于j ,即 输入t ω的扰动和输出j t y +的观察值之间的时间间隔。
对于方程(2.20),当0<φ<1时,动态乘子按几何方式衰减到零;当-1<φ<0,动态乘子振荡衰减到零;φ>1,动态乘子指数增加;φ< -1,动态乘子发散性振荡。因此,φ<1,动态系统稳定,即给定t ω的变化的后果将逐渐消失。φ>1,系统发散。
当φ=1时,此时t t y y ωωω++++=- 101,即输出变量的增量是所有输入ω的历 史值之和。
如果ω产生持久性变化,即j t t t ++ωωω,,,1 都增加一个单位,此时持久性影响为:
111
++++=??+
+??+
??-+++++φφφωωω j j j
t j t t j t t
j t y y y (2.23)
当φ<1时,且j →∞时,持久性影响为
φφφφωωω-=+++++=???
???????++??+??-+++++∞→11
1lim 11 j j j t j t t j t t j t j y y y (2.24) 如果考察t ω的一个暂时性变化对输出y 的累积性影响,则和长期影响一致。 2.3.2 p 阶差分方程
如果动态系统中的输出t y 依赖于它的p 期滞后值以及输入变量t ω:
t p t p t t t y y y y ωφφφ++++=--- 2211 (2.25)
此时可以写成向量的形式,定义
???????
?????????=+---121p t t t t t y y y y ξ, ?????????????
???=-01000001
00001121 p p F φφφφ, ??
?
??
??
?
????????=000 t t v ω
从而(2.25)写成向量形式:
t t t v F +=-1ξξ (2.26)
这个系统由p 个方程组成,为了便于处理,将p 阶数量系统变成一阶向量系统。
0期的ξ值为: 0
10v F +=-ξ
ξ
1期的ξ值为: 1012
101101)(v Fv F v v F F v F ++=++=+=--ξξξξ t 期的ξ值为: t t t t t t t v Fv v F v F v F F +++++=----+122
11011 ξξ
写成ξ和v 的形式为:
?????
???????????+????????????????++????????????????+????????????????+???????
?????????=????????????????------++---00000000000011
1103211121 t t t t p t p t t t t F F F y y y y F y y y y ωωωω (2.27) 该系统中的第一个方程代表了t y 的值。令
)(11t f 表示t F 中第(1, 1)个元素,
)
(12
t f 表示t
F 中第(1, 2)个元素等等。于是t y 的值为:
p t j p t j t j t j j t y f y f y f y f y -+-+-+-++++++=)1(13)
1(132)1(121)1(11
j t j t t j t j f f f +-++-+++++ωωωω1)
1(111)1(11)(11 (2.28)
表示成初始值和输入变量历史值的函数,此时p 阶差分方程的动态乘子:
)
(11
j t
j t f y =??+ω (2.29) 是j
F 的(1,1)元素。因此对于任何一个p 阶差分方程,
22
1211,φφωφω+=??=??++t
t t t y y (2.30) 对于更大j 值,通过分析表达式(2.28)就非常有用。通过矩阵F 的特征根进行求解。
矩阵F 的特征根为满足下式的λ值:
0=-p I F λ (2.31)
对于一个p 阶系统,行列式(2.31)为特征根λ的p 阶多项式,多项式的p 个解是F 的p 个特征根。
定理2.4 矩阵F 的特征根由满足下式的λ值组成:
012211=--------p p p p p φλφλφλφλ (2.32)
证明:考虑具有相异特征根的p 阶差分方程的通解,此时存在一个p p ?阶非奇异矩阵T ,满足:
1-Λ=T T F
12112---Λ=ΛΛ=T T T T T T F
1-Λ=T T F j j (2.33)
其中Λ是一个
p p ?矩阵,主对角线由F 的特征根组成,其它元素为零。令ij t 表示T
的第i 行、第j 列的元素,ij
t 表示1-T 的第i 行、第j 列的元素。则有:
?
?
??
?
??
?????
??????????????
???????????
????
?=pp p p p p j p j
j
pp p p p p j t t t t t t t t t t t t t t t t t t F
2
122221112
112121222211121100
000000
λλλ (2.34) 因此j
F 的第(1, 1)个元素为:
j
p
p j j j c c c f λλλ+++= 2211)(11 (2.35) 其中1
1i i i t t c =。因为11
1
111
==∑=∑-==TT t t c p
i i i p i i 。将(2.35)代入(2.29),得到p 阶差分方
程的动态乘子:
j
p
p j j j t
j t c c c f y λλλω+++==??+ 2211)(11 (2.36) 定理2.5 如果矩阵F 特征值是相异的,则
∏-=
≠=-p
i k k k i p i i c 1
1
)
(λλλ (2.37)
因此求出F 的特征值λ,就可以求出相应的i c ,由此就可以根据(2.36)计算得到动态乘子。
如果所有的特征值都是实根,且存在一个特征根的绝对值大于1,则系统是发散的。根据(2.36),动态乘子最终由绝对值最大的特征根的指数函数决定。
§2.4 动态数据预处理
具有动态随机变化特征的数据序列通常称为动态随机数据。动态数据的统计特性可以用概率分布密度来描述,但由于动态数据的随机过程往往具有很复杂的多维概率分布特性,实际上难以分析和应用。时间序列分析作为另外一种描述动态数据统计特性的理论和方法,具有方便和实用的突出特点。
在建立时间序列模型之前,必须先对动态数据进行必要的预处理,以便剔除那些不符合统计规律的异常样本,并对这些样本数据的基本统计特性进行检验,以确保建立时间序列模型的可靠性和置信度,并满足一定的精度要求。 2.4.1平稳性检验
时间序列的平稳性是时间序列建模的重要前提。在检验时间序列的平稳性时,必须考虑两点:序列的均值和方差是否为常数;序列的自相关函数是否仅与时间间隔有关,而与时间间隔端点的位置无关。
下面介绍平稳性检验的几种常用方法。 1.平稳性的参数检验法
设样本序列N x x x ,,,21 足够长,即N 相当大。把样本序列分成k 个子序列,即取
kM N =,M 是一个较大的正整数,k 也是一个正整数。分段后的样本序列为
M j k i x ij ,,2,1;,,2,1},{ ==
对于k 个子序列,可以分别计算它们的样本均值、样本方差和样本自相关函数。它们的定义分别为:
∑=
=M
j ij i x M x 1
1 (2.38) ∑-==M j i ij i
x x M s 1
2
2)(1 (2.39)
))((1)(,1
1
i j i M j i ij i x x x x M R -∑-=
+-=ττ ),,,2,1;,,2,1(M m m k i <<== τ(2.40) 由平稳性的假定,以上各统计量对不同的子序列i 不应有显著差异,否则就应否定}{t x 是平稳。
设}{t x 具有理论上的均值μ、方差2
σ和自相关函数τρ,这时样本统计量i x 、2
i s 及
)(τi R 的方差可由随机变量四阶矩的算式得到:
样本均值的方差)(2
1i x D =σ
∑∑--=
==M j M l il ij x x E M 11
2)])(([1
μμ ∑∑=
==-M j M
l l j M 11
2
2
ρσ
∑-+=
=M
j j M
j
M
1
2
2
])1(21[ρσ (2.41) 样本方差的方差)(22
2
i
s D =σ∑
-+==M j j M
j M 12
22])1(21[2ρσ (2.42) 样本自相关函数的方差
≈=)(22
3
i
R D σ∑+--++--=-+ττττρρρτρτM j j j j M j M 122
)])(1(21[1 (2.43)
采用统计检验方法,取显著水平05.0=α和σ2原则,置信度0.95,当
1296.1σ>-j i x x (2.44)
2296.1σσ>-i s (2.45) )(296.1)()(3τσττ>-j i R R (2.46)
),,2,1;,,2,1,,(m k j i j i ==≠τ
成立时,可拒绝}{t x 为平稳序列的假设,即该序列不具有平稳性。但一般并不知道}{t x 的理论方差与自相关函数,因此无法得出2
1σ,2
2σ,和)(2
3τσ,只能以它们的样本估计值代之。因此,这个方法还不够理想,还须结合背景判断在过程运行中周围条件及相关参数是否维持不变来确定是否是平稳的。 2.平稳性的非参数检验法
平稳性的非参数检验中常使用游程检验法。由于该方法只涉及一组实测数据,不需要假设数据的分布规律,所以实际中应用最多。
在保持随机序列原有顺序的情况下,游程定义为具有相同符号的序列,这种符号将观测值分成两个相互排斥的类。假如观测序列的值是N i x i ,,2,1, =,其均值为x ,用符号“+”
表示x x i ≥,而“-”表示x x i <。按符号“+”和“-”出现的顺序将原序列写成如下形式
+ + + - + + - - + - - - - +
观察可知,“+”和“-”共14个,分为7个游程。游程过多或过少都被认为是存在非平稳性趋势。游程检验的原假设为:样本数据出现的顺序没有明显的趋势,就是平稳的。
样本统计量有:1N 表示一种符号出现的次数;2N 表示另一种符号出现的次数;r 表示游程的总数。其中r 作为检验统计量。对于显著水平05.0=α的双边检验,由附表给出概率分布左右两侧为
025.02
=α
时的上限U r 和下限L r 。如果r 在界限以内,则接受原假设;
否则拒绝原假设。
当1N 或2N 超过15时,可用正态分布来近似,利用附表来确定检验的接受域和否定域。此时用的统计量为
r
r
Z σμγ-=
(2.47) 式中:
122
1+=
N N N r μ (2.48) 2
/12
2121])
1()2(2[
--=N N N N N N N r σ (2.49) 21N N N += (2.50)
对于05.0=α的显著性水平,如果96.1≤Z (按σ2原则),则可接受原假设,否则就拒绝。
下面两种方法是图检验方法,利用时序图和自相关图显示的特征来作出判断检验时间序列的。图检验方法用于判断检验时间序列平稳性操作简便、运用广泛,但也有主观性较强的缺点。 3.时序图检验法
根据平稳时间序列均值、方差为常数的性质,平稳时间序列的时序图应该显示出该序列始终在一个常数值附近随机波动,而且波动的范围有界的特点。如果观察序列的时序图显示出该序列有明显的趋势性或者周期性,则时间序列通常不是平稳时间序列。据此我们可以判断一些时间序列的平稳性。
例2.5
例2.6 1975—1980年夏威夷岛莫那罗亚火山(Mauna Loa )每月释放的二氧化碳的数据(单位:ppm )。
图2.3
由时序图显示。我们可以看到这些数据中存在着某种季节趋势和明显的增长趋势,因此可以初步判定这一时间序列是非平稳的。 2.4.2正态性检验
通常,时间序列模型建立在具有正态分布特性的白噪声基础上,所以需要检验采集的数据序列是否具有正态特性。正态分布的概率密度函数为
2
22)(21
)(σμπ
σ--
=
x e
x f
式中μ和2
σ分别为样本总体的均值和方差。概率分布为
)(
21
)(2
22)(σ
μ
π
σσμ-Φ=?=
∞---
X dx e
x F x
x
式中Φ称为概率积分。
检验随机数据正态性的有效方法是“2χ拟合优度检验”。该方法是利用2
χ统计量作为观察到的概率密度函数和理论密度函数之间的偏差的度量,两者是否相同可通过分析2
χ的样本分布来检验。如果数据是正态的,则应落入第j 组区间中的数据个数为
??
??
?
?
?
????
-Φ-=--+Φ--+Φ=-Φ=+)](1[)])1(()(
[)(10σμσμσμσμb N F c j a jc a N F a N F k j
(2.51) 式中a 和b 是两个端点值,k
a
b c -=,k 是数据分组数。j F 和观察到的频数j N 之间的偏
差为)(j j F N -,由于
N F N k j j k j j =∑=∑+=+=1
10
(2.52)
因此总偏差为零。根据Pearson 定理,样本的2
χ统计量为
∑
-=+=10
2
2
)(k j j
j j F F N χ (2.53)
假定这个样本2
χ统计量近似为2
χ分布,并将该统计量和理论2
χ分布作比较。此时,自由度2+=k n 减去一些线性约束的数目,其中一个约束是当前1+k 个组区间的频数已知时,由于总频数为N ,最后一个组区间的频数也知道了。另外两个约束是由于同理论正态概率密度函数拟合观察数据的频数直方图而引起的,统计量2
χ是利用样本均值和样本方差计算}{j F ,而不是用真正的均值和方差。因此,如果利用全部}{j N ,则自由度为:
13)2(-=-+=k k n
实际n 值可能比这还要小些,因为2 正态性假设检验规则是:假设随机变量服从正态分布,在把观察数据分组列入2+k 个组区间后,利用样本均值和方差计算j F ,再求2 χ。样本分布函数对正态分布的任何偏差都会使2 χ增大。如果 2 ,2a n χχ≤ (2.54) 则在显著水平α上接受样本数据为正态分布的假设;反之,如果2 ,2a n χχ>,则在显著水平 α上拒绝上述假设。 经验表明,总体样本量和分组数目应满足的最优关系式为 5 2 )1(87.1-=N k 此外,需要注意的是采用2 χ检验方法必须保证每个区间中的期望频数至少为2。由于范围两端的期望频数最少,所以上述要求可以用来确定a 和b ,而参数a 应满足如下关系式 ])2 1(ex p )2[(22 /)(21 dx x N a - ? =-∞ -- σμπ 据此求得a ,又利用2 a b -= μ,得参数b 为 a b +=μ2 而分组区间数目为2-=r k ,其中r 为最小区间数。以上三个参数确定之后就可以计算样本概率密度。 2.4.3独立性检验 在时间序列分析和建模过程中,除了要求检验样本数据的平稳性和正态性之外,还要求检验其独立性。本节介绍的独立性方法是基于正态随机变量自相关函数的统计性质。 设随机变量),0(~2 σN X ,其自相关函数 ? ? ?≠==0,00 ,1)(r r r ρ (2.55) 当1≥r 时,0)(=r ρ。实际中我们只能得到样本自相关系数的估计值)(?r ρ ,一般不等于0,从自相关系数的估计值判断是否满足独立性条件,需要借助Bartlett 公式。 Bartlett 公式:若)(r ρ在M r >时趋于零,则在N 足够大的情况下其方差为 )()(?1)](?[2 M r m N r D M M m >∑≈-=ρ ρ (2.56) 并且,当M r >时,)(?r ρ 近似于正态分布。 若)(?r ρ 是白噪声的自相关系数,则0=M )0(1)](?[>≈r N r D ρ (2.57) 根据统计检验的σ2准则,当 N N r 1 2196.1)(?≈≤ρ (2.58) 或 2)(?≤r N ρ (2.59) 时,便可认为)(?r ρ 为零的可能性是95%,从而接受)0(0)(?>=r r ρ这一估计,即数据是独立的。 如果有个别)0()(?>r r ρ 超出式(2.57)所约束的范围,可以采用另一种检验该随机变量是否独立的整体检验方法。考虑到1≥r 时,白噪声序列的样本自相关分布渐近于正态分 布,或是说当N 较大时,)}(?,),2(?),1(?{k N N N ρρ ρ 这k 个量近似为相互独立的正态随机变量)1,0(N ,因而它们的平方和符合2 χ分布。构造统计量为 ∑==k r r N Q 1 2)(?ρ (2.60) 则检验N x x x ,,,21 是否为白噪声样本值的问题可转化为检验统计量Q 是否是自由度为k 的2 χ分布问题。 具体算法是:以“}{t x 为白噪声”做原假设,以α为显著水平,则根据α和自由度k 由2χ分布表查出相应的)(2 k a χ值,并与计算出的Q 值比较。如果 )(2 k Q a χ≤ (2.61) 则肯定原假设,即在)1(α-的置信水平上接受}{t x 为独立的假定。如果 )(2k Q a χ> (2.62) 则否定原假设。 2.4.4离群点的检验与处理 离群点是指一个时间序列中,远离序列一般水平的极端大值和极端小值,也成为奇异值或野值。形成离群点的原因是多种多样的,例如由于数据传输过程、采样及记录过程中发生信号失真或丢失等而产生,又如研究现象本身由于受各种偶然非正常的因素影响而形成离群点等等。不论何种原因引起离群点,通常都会在之后的时间序列分析中带来误差,影响建立时序模型的精度。在得到时间序列以后,首先要检查是否存在离群点,下面介绍一种线性外推的方法来寻找和剔出离群点。 该方法是将时间序列值与平滑值进行比较,认为正常的数据是“平滑的”,而离群点是“突变的”。用2 i X 表示先对序列进行平滑、再平方得到的数值,2i X 表示先对序列取平方、再做平滑而得到的数值,用2 i S 表示方差,有2 i S =2i X -2 i X ,如果 i i i kS X X <-+1 (2.63) 则认为1+t X 是正常的,否则认为1+t X 是一个离群点。K 是常数,一般取3-9的整数。 如果1+t X 是离群点,则可用1 ?+t X 来代替,即 1 12?-+-=i i t X X X (2.64) 为避免出现无休止的外推计算,建议事先规定连续外推的次数,因为接连检测到一些离群点后,最终的外推结果可能偏离很远,以致会排出本来是很正常的数据点。 习题二 2.1 EVIEWS软件介绍(Ⅱ) 借助Eviews5.1,我们可以很方便的判断一个时间序列是否平稳以及是否为纯随即性序列。作出判断的步骤如下: 一、绘制时间序列图 时序图可以大致看出序列的平稳性,平稳序列的时序图应该显示出序列始终围绕一个常数值波动,且波动的范围不大。如果观察序列的时序图显示出该序列有明显的趋势或周期,那它通常不是平稳序列,现以例子来说明。 例1、1964-1999年中国纱年产量序列(单位:万吨)。 按照第一章的方法建立工作文件和导入外部Excel文件,创建新序列SHA,如图2.2。点击主菜单Quick/Graph就可作图,见图2.3,分别是折线图(Line graph)、条形图(Bar graph)、散点图(Scatter)等,也可双击序列名,出现显示电子表格的序列观测值,然后点击工具栏的View/Graph。如果选择折线图,出现图2.4的对话框,在此对话框中键入要做图的序列,点击OK则出现折线图,横轴表示时间,纵轴表示纱产量,见图2.5,选择图2.5上工具栏options可以对折线图做相应修饰。点击主菜单的Edit/Copy,然后粘贴到文档就变成了如图2.6的折线图。 图2.2 图2.3 图2.4 图2.5 图2.6 从图1.5可以看出,纱产量呈现波动中上升的趋势,显然不平稳,所以不是一个平稳序列。这一结论,还可以通过平稳性统计检验来进一步说明。 二、平稳性判断 例1续. 为了进一步的判断序列SHA 的平稳性,需要绘制出该序列的自相关图。双击序列名sha 出现序列观测值的电子表格工作文件,点击View/Correlogram ,出现图1.6的相关图设定对话框,上面选项要求选择对谁计算自相关系数:原始序列(Level )、一阶差分(1st difference )和二阶差分(2nd difference ),默认是对原始序列显示相关图。下面指定相关图显示的最大滞后阶数k ,若观测值较多,k 可取[]T/10或;若样本量较小k 一般取[] T/4(T 表示时间序列观测值个数,[]表明不超过其的最大整数) 。若序列是季节数据,一般k 取季节周期的整数倍。设定完毕点击OK 就出现图1.7的序列相关图和相应的统计量。 图2.7