非线性 时间序列 模型PPT课件
- 格式:ppt
- 大小:1.00 MB
- 文档页数:31
近代时间序列分析选讲:一. 非线性时间序列二. GARCH模型三. 多元时间序列四. 协整模型第一部分非线性时间序列第一章.非线性时间序列浅释1.从线性到非线性自回归模型2.线性时间序列定义的多样性第二章. 非线性时间序列模型1. 概述2. 非线性自回归模型3.带条件异方差的自回归模型4.两种可逆性5.时间序列与伪随机数第三章.马尔可夫链与AR模型1. 马尔可夫链2. AR模型所确定的马尔可夫链3. 若干例子第四章. 统计建模方法1. 概论2. 线性性检验3.AR模型参数估计4.AR模型阶数估计第五章. 实例和展望1. 实例2.展望第一章.非线性时间序列浅释1. 从线性到非线性自回归模型时间序列{x t}是一串随机变量序列,它有广泛的实际背景, 特别是在经济与金融领域中尤其显著. 关于它们的从线性与非线性概念, 可从以下的例子入手作一浅释的说明.考查一阶线性自回归模型---LAR(1):x t=αx t-1+e t, t=1,2,…(1.1)其中{e t}为i.i.d.序列,且Ee t=0, Ee t=σ2<∞, 而且e t与{x t-1,x t-1,…}独立. 反复使用(1.1)式的递推关系, 就可得到x t=αx t-1+e t= e t + αx t-1= e t + α{ e t-1 + αx t-2}= e t + αe t-1 + α2 x t-2=…= e t + αe t-1 + α2e t-2+…+ αn-1e t-n+1 +αn x t-n. (1.2)如果当n→∞时,αn x t-n→0, (1.3){e t +αe t-1+α2e t-2+…+αn-1e t-n+1}→ ∑j=0∞ αj e t-j . (1.4)虽然保证以上的收敛是有条件的, 而且要涉及到具体收敛的含义, 但是, 对以上的简单模型, 不难相信, 当|α|<1时, (1.3)(1.4)式成立. 于是, 当|α|<1时, 模型LAR(1)有平稳解, 且可表达为x t =∑j=0∞ αj e t-j . (1.5)通过上面叙述可见求LAR(1)模型的解有简便之优点, 此其一. 还有第二点, 容易推广到LAR(p)模型. 为此考查如下的p 阶线性自回归模型LAR(p):x t =α1x t-1+α2x t-2+...+αp x t-p +e t ,t=1,2,… (1.6)其中{e t }为i.i.d.序列,且Ee t =0, Ee t =σ2<∞, 而且e t 与{x t-1, x t-1,…}独立.虽然反复使用(1.6)式的递推式, 仍然可得到(1.2)式的类似结果, 但是,用扩张后的一阶多元AR 模型求解时, 可显示出与LAR(1)模型求解的神奇的相似. 为此记X t =⎪⎪⎪⎪⎪⎭⎫ ⎝⎛+--11p t t t x xx , U=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛001 , A=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛00000121 pααα, (1.7)于是(1.6)式可写成如下的等价形式:X t =A X t-1+ e t U. (1.8)反复使用此式的递推关系, 形式上仿照(1.2)式可得X t =AX t-1+e t U= e t U+ e t-1AU+A 2x t-2=⋯=e t U+e t-1AU+e t-2A2U+…+e t-n+1A n-1U+A n x t-n.如果矩阵A的谱半径(A的特征值的最大模)λ(A), 满足如下条件λ(A)<1, (1.10)由上式可猜想到(1.8)式有如下的解:X t=∑k=0∞A k Ue t-k. (1.11)其中向量X t的第一分量x t形成的序列{x t}, 就是模型(1.6)式的解. 由此不难看出, 它有以下表达方式x t=∑k=0∞ϕk e t-k. (1.11)其中系数ϕk由(1.6)式中的α1,α2, ... ,αp确定, 细节从略. 不过, (1.11)式给了我们重要启发, 即考虑形如x t=∑k=0∞ψk e t-k, ∑k=0∞ψk2<∞, (1.12)的时间序列类(其中系数ψk能保证(1.12)式中的x t有定义). 在文献中, 这样的序列{x t}就被称为线性时间序列.虽然以上给出了线性时间序列的定义, 以下暂时不讨论什么是非线性时间序列, 代之先讨论一阶非线性自回归模型---NLAR(1), 以便与LAR(1)模型进行比较分析. 首先写出NLAR(1)模型如下x t=ϕ(x t-1)+e t,t=1,2,…(1.13)其中{e t}为i.i.d.序列,且Ee t=0, Ee t=σ2<∞, 而且e t与{x t-1,x t-2,…}独立, 这些假定与LAR(1)模型相同, 但是, ϕ(x t-1)不再是x t-1的线性函数, 代之为非线性函数, 比如ϕ(x t-1)=x t-1/{a+bx t-12}.此时虽然仍可反复使用(1.13)式进行迭代, 但是所得结果是x t=ϕ (x t-1) +e t= e t+ ϕ (x t-1)= e t+ ϕ ( e t-1+ ϕ (x t-2))= e t+ ϕ ( e t-1+ ϕ ( e t-2+ ϕ (x t-3)))=…=e t+ϕ ( e t-1+ ϕ ( e t-2+ …+ϕ (x t-n))…).(1.14)根据此式, 我们既不能轻易判断ϕ(x t-1)函数满足怎样的条件时, 上式会有极限, 也不能猜测其极限有怎样的形式.对于p 阶非线性自回归模型x t =ϕ(x t-1,x t-2,…,x t-p )+e t ,t=1,2,… (1.15)仿照(1.6)至(1.9)式的扩张的方法, 我们引入如下记号Φ( x t-1,x t-2,…,x t-p )≡⎪⎪⎪⎪⎪⎭⎫ ⎝⎛+-----1121,...,,(p t t p t t t x x x x x ϕ, (1.16)我们得到与(1.15)式等价的模型X t =Φ(X t-1) +e t U, t=1,2,… (1.17)但是, 我们再也得不出(1.9)至(1.14)式的结果,至此我们已将看出, 从线性到非线性自回归模型有实质性差异, 要说清楚它们, 并不是很简单的事情. 从数学角度而言, 讨论线性自回归模型可借用泛函分析方法, 然而, 讨论非线性自回归模型, 则要借用马尔可夫链的理论和方法. 这也正是本讲座要介绍的主要内容.2. 线性时间序列定义的多样性现在简单叙述一下非线性时间序列定义的复杂性, 它与线性时间序列的定义有关. 前一小节中(1.12)式所显示的线性时间序列, 只是一种定义方式. 如果改变对系数ψk 的限制条件, 就会给出不同的定义. 更为重要的是, 在近代研究中, 将(1.12)式中的i.i.d.序列{e t }放宽为平稳鞅差序列, 这在预报理论中很有意义.无论引用哪一种线性时间序列定义, 都对相应的序列的性质有所研究, 因为其研究成果可用于有关的线性时间序列模型解的特性研究. 事实上, 已经有丰富的成果被载入文献史册.依上所述可知, 由于线性时间序列定义的多样性, 必然带来非线性时间序列定义的复杂性. 这里需要强调指的是, 对于非线性时间序列, 几乎没有文章研究它们的一般性质, 这与线性时间序列情况不同. 于是人们要问, 我们用哪些工具来研究非线性时间序列模型解的特性呢? 这正是本次演讲要回答的问题. 确切地说, 我们将介绍马尔可夫链, 并借助于此来讨论非线性自回归模型解的问题.第二章. 非线性时间序列模型1. 概论从(1.12)式可见,一个线性时间序列{x t }, 被{e t }的分布和全部系数ψi 所决定. 在此有无穷多个自由参数,这对统计不方便,因此人们更关心只依赖有限个自由参数的线性时间序列,这就是线性时间序列的参数模型. 其中最常用的如ARMA模型. 对于非线性时间序列而言, 使用参数模型方法几乎是唯一的选择. 由于非线性函数的多样性, 带来了非线性时间序列模型的多样性. 但是, 迄今为止被研究得较多, 又有应用价值的非线性时序模型, 为数极少, 而且主要是针对非线性自回归模型. 在介绍此类模型之前, 我们先对非线性时序模型的分类作一概述.通用假定: {εt}为i.i.d.序列,且Eεt=0, 而且εt与{x t-1, x t-2,…}独立.可加噪声模型:x t=ϕ(x t-1,x t-2,…)+εt,t=1,2,…(2.1)其中ϕ(…)是自回归函数. 当它仅依赖于有限个未知参数时, 记此参数向量为α, 其相应的(2.1)模型常写成x t=ϕ(x t-1,x t-2,…;α)+εt,t=1,2,…(2.2)否则, 称(2.1)式称为非参数模型.关于(2.1)(2.2)的模型的平稳性, 要在下一章讨论, 但是, 它有类似于线性AR模型的几个简单性质, 是重要的而且容易获得的, 它们是:E(x t|x t-1,x t-2,…)=E{ϕ(x t-1,x t-2,…)+εt|x t-1,x t-2,…}=ϕ(x t-1,x t-2,…)+E(εt|x t-1,x t-2,…)=ϕ(x t-1,x t-2,…) (2.3)var{x t|x t-1, x t-2 , …}≡E{[x t-ϕ(x t-1,…)]2|x t-1, x t-2 , …}= E{εt2|x t-1, x t-2 , …}= Eεt2=σ2. (2.4)P{x t<x|x t-1,x t-2, …}= P{ϕ(x t-1,…)+εt<x|x t-1,x t-2, …}= P{εt<x-ϕ(x t-1,…)|x t-1,x t-2, …}=Fε(x-ϕ(x t-1,…)). (2.5)其中Fε是εt的分布函数.带条件异方差的模型:x t=ϕ(x t-1,x t-2,…)+S(x t-1,x t-2,…)εt,t=1,2,…(2.6)其中ϕ(…)和S(…)也有限参数与非参数型之分, 这都是不言自明的. 另外, (2.6)式显然不属于可加噪声模型. 但是, 它比下面的更一般的非可加噪声模型要简单得多. 这可通过推广(2.3)(2.4)(2.5)式看出, 即有,E(x t|x t-1,x t-2,…)=E{ϕ(x t-1,x t-2,…)+S(x t-1,x t-2,…)εt|x t-1,x t-2,…}=ϕ(x t-1,x t-2,…)+S(x t-1,x t-2,…)E{εt|x t-1,x t-2,…}=ϕ(x t-1,x t-2,…) . (2.3)’var{x t|x t-1, x t-2 , …}≡E{[x t-ϕ(x t-1,…)]2|x t-1, x t-2 , …}=E{S2(x t-1,x t-2,…)εt2|x t-1, x t-2 , …}=S2(x t-1,x t-2,…)E{εt2|x t-1, x t-2 , …}=S2(x t-1,x t-2,…)σ2. (2.4)’P{x t<x|x t-1,x t-2, …}=P{ϕ(x t-1,…)+S(x t-1,…)εt<x|x t-1, x t-2 , …}= P{εt<[x-ϕ(x t-1,…)]/S(x t-1,…)}=Fε([x-ϕ(x t-1,…)]/S(x t-1,…)). (2.5)’一般非线性时序模型:x t=ψ(x t-1,x t-2,…; εt, εt-1,…)t=1,2,…(2.7)其中ψ(…)也有参数与非参数型之区别, 这也是不言自明的. 显然, (2.7)式既不是可加噪声模型, 也不属于(2.6)式的带条件异方差的模型. 虽然, 它可能具有条件异方差性质. 相反, 后两者都是(2.7)式的特殊类型. 虽说(2.7)式是更广的模型形式, 在文献中却很少被研究. 只有双线性模型作为它的一种特殊情况, 在文献中有些应用和研究结果出现. 现写出其模型于后, 可供理解其双线性模型的含义x t=∑j=1pαj x t-j+∑j=1qβjεt-j+∑i=1P∑j=1Qθijεt-i x t-j.2. 非线性自回归模型在前一小节中的(2.1)和(2.2)式就是非线性自回归模型, 而且属于可加噪声模型类. 在这一小节里, 我们将介绍几种(2.2)式的常见的模型.函数后的线性自回归模型:f(x t)=α1f(x t-1)+α2f(x t-2)+...+αp f(x t-p)+εt,t=1,2,…(2.8)其中f(.)是一元函数, 它有已知和未知的不同情况, 不过总考虑单调增函数的情况, α=(α1,α2,…,αp )τ是未知参数. 在实际应用中, {x t }是可获得量测的序列.当f(.)是已知函数时, {f(x t )}也是可获得量测的序列, 于是只需考虑y t =f(x t )所满足的线性AR 模型y t =α1y t-1+α2y t-2+...+αp y t-p +εt ,t=1,2,… (2.9)此时可不涉及非线性自回归模型概念. 在宏观计量经济分析中, 常常对原始数据先取对数后, 再作线性自回归模型统计分析, 就属于此种情况. 这种先取对数的方法, 不仅简单, 而且有经济背景的合理解释,它反应了经济增长幅度的量化规律. 虽然在统计学中还有更多的变换可使用, 比如Box-Cox 变换, 但是, 由于缺少经济背景的合理解释, 很少被使用. 由此看来, 当f(.)有实际背景依据时, 可以考虑使用(2.7)式的模型.当f(.)是未知函数时, {f(x t )}不是可量测的序列, 于是只能考虑(2.8)模型. 注意f(.)是单调函数, 可记它的逆变换函数为f -1(.), 于是由(2.8)模型可得x t = f -1(α1f(x t-1)+α2f(x t-2)+...+αp f(x t-p )+εt ),t=1,2,… (2.9)’此式属于(2.7)式的特殊情况, 此类模型很少被使用. 取而代之是考虑如下的模型x t =α1f(x t-1)+α2f(x t-2)+...+αp f(x t-p )+εt ,t=1,2,… (2.10)其中f(.)是一元函数, 也有已知和未知之分, 可不限于单调增函数. 此式属于(2.1)式的特殊情况, 有一定的使用价值.当(2.10)式中的f(.)函数是已知时, 此式还有更进一步的推广模型,x t =α1f 1(x t-1,…,x t-s )+α2f 2(x t-1,…,x t-s )+...+αp f p (x t-1,…,x t-s )+εt ,t=1,2,… (2.11)其中f k (…)(k=1,2,…,p)是已知的s 元函数.例如, 以后将要多次提到的如下的模型:x t =α1I(x t-1<0)x t-1+α2I(x t-1≥0)x t-1+εt ,t=1,2,… (2.12)其中I(.)是示性函数. 此模型是分段线性的, 是著名的TAR 模型的特殊情况. 为了有助于理解它, 我们写出它的分段形式:x t =.0,0,,111211≥<⎩⎨⎧++--t t t tx x x x εαεα t=1,2,…请注意, (2.8)(2.10)和(2.11)式具有一个共同的特征, 就是未知参数都以线性形式出现在模型中. 这一特点在统计建模时带来极大的方便. 此类模型便于实际应用. 但是, 对于{x t }而言不具有线性特性, 所以, 讨论它们的平稳解的问题, 讨论它们的建模理论依据问题,都需要借助于马尔可夫链的工具.已知非线性自回归函数的模型:x t =ϕ(x t-1,x t-2,…,x t-p ;α)+εt ,t=1,2,… (2.13)其中ϕ(…)是p 元已知函数, 但是其中含有未知参数α=(α1,α2,…,αp )τ.一般说来, α在一定范围内取值.例如,x t =t t t x x εαα++--212111,t=1,2,…其中α=(α1,α2)τ是未知参数, 它们的取值范围是: -∞<α<∞, 0≤α<∞.这里需要指出, 使用上式的模型, 不仅要借助于马尔可夫链的工具, 而且在统计建模时遇到两种麻烦, 其一是参数估计的计算麻烦, 二是确定ϕ(…)函数的麻烦. 一般来说, 只有根据应用背景能确定ϕ(…)函数时, 才会考虑使用此类模型.广义线性模型(神经网络模型):x t =ϕ(α1x t-1+α2x t-2+…+αp x t-p )+εt ,t=1,2,… (2.14)其中ϕ(.)是一元已知或未知函数, 参数α=(α1,α2,…,αp )τ总是未知的. 为保证模型的唯一确定性, 或者说是可识别性, 要对α作些约定, 其一, ||α||=1, 其二, α=(α1,α2,…,αp )τ中第一个非零分量为正的. 不难理解, 若不加这两条约定, 模型(2.14)不能被唯一确定.当ϕ(.)是一元已知函数时, 与神经网络模型相通.当ϕ(.)是一元未知函数时, 与回归模型中的PP 方法相通.除了以上两类模型外, 还有(2.1)式的非参数自回归模型, 以及从统计学中引入的半参数自回归模型. 对它们的统计建模更困难. 本讲座主旨在于介绍如何用马尔可夫链的工具, 描述非线性自回归模型的基本特性问题, 对这类模型不再仔细讨论.3. 带条件异方差的自回归模型在第一小节中的(2.6)式就是带条件异方差的自回归模型. 在这一小节里, 我们将介绍几种(2.2)式的常见参数模型.参数型条件异方差的自回归模型:x t =ϕ(x t-1,x t-2,…,x t-p )+S(x t-1,x t-2,…,x t-q )εt ,t=1,2,… (2.15)其中ϕ(…)是p 元函数, S(…)是q 元函数. 它们也有限参数型和非参数型之分别, 这里不在赘述. 有两点必须指出: 为了保证(2.15)式中的ϕ(…)和S(…)被唯一确定, 还要限定E εt 2=1; 另外, 在根据数据为(2.15)式建模时, 需要对ϕ(…)和S(…)都作估计.x t =ϕ(x t-1,x t-2,…,x t-p )+{α0+α1x t-12+…+αp x t-p 2}1/2εt ,=ϕ(x t-1,x t-2,…,x t-p )+S(x t-1,x t-2,…,x t-q )εt ,t=1,2,… (2.16)其中S 2(x t-1,x t-2,…,x t-q )={α0+α1x t-12+…+αp x t-p 2}. (2.17)我们将看到, 带异方差ARCH 模型的自回归模型. 它们都可以借助于马尔可夫链的工具加以研究, 但是, 对于推广后的GARCH 模型, 还会遇到某些麻烦.此为后话.现在, 让我们再回顾一下(2.12)式的原始的一般形式:x t=⎩⎨⎧≥++++<++++------,,...,,...22121201111101c x x x c x x x dt t p t p t dt t p t p t εαααεαααt=1,2,… (2.18)其中{ε1t }和{ε2t }为相互独立的i.i.d.序列, 且ε1t ~N(0,σ12), ε2t ~N(0,σ22),此外, 在(2.18)式中, d ≥1可能是未知的, c 被称为门限值, 一般也是未知的, 这些未知信息都会带来统计的麻烦. 现在我们关心它的类型问题. 为此先改写它的形式如下:x t ={α10+α11x t-1+…+α1p x t-p +ε1t }I(x t-d <c)+{α20+α21x t-1+…+α2q x t-q +ε2t }I(x t-d ≥c)={α10+α11x t-1+…+α1p x t-p }I(x t-d <c)+{α20+α21x t-1+…+α2q x t-q }{I(x t-d ≥c)+{ε1t I(x t-d <c)+ε2t I(x t-d ≥c)}.(2.19)对此模型计算x t 的条件均值和方差,即(2.1)(2.2)式, 并不难, 其条件均值是:E{x t |x t-1,x t-2,…}={α10+α11x t-1+…+α1p x t-p }I(x t-d <c)+{α20+α21x t-1+…+α2q x t-q }{I(x t-d ≥c).但是, 条件方差有异样, 我们只给出它的计算过程如下:var{x t|x t-1,x t-2,…} (用前一式)=E{[ε1t I(x t-d<c)+ε2t I(x t-d≥c)]2|x t-1,x t-2,…}=E{ε1t2I(x t-d<c)|x t-1,x t-2,…}+E{ε2t2I(x t-d≥c)|x t-1,x t-2,…}+2E{[ε1tε2t I(x t-d<c)I(x t-d≥c)]|x t-1,…}= I(x t-d<c)E{ε1t2|x t-1,x t-2,…}+I(x t-d≥c)E{ε2t2|x t-1,x t-2,…}+2I(x t-d<c)I(x t-d≥c)E{ε1tε2t|x t-1,…}=σ12I(x t-d<c)+σ22I(x t-d≥c)+2I(x t-d<c)I(x t-d≥c)≡S(x t-d).据此可见, (2.19)式不能写成(2.6)式的条件异方差模型, 虽然它的条件方差不是常数!进而, x t的条件分布要比(2.3)式更复杂, 不仿一试.由此可见, 当{ε1t}={ε2t}={εt}时, 上式变成x t={α10+α11x t-1+…+α1p x t-p}I(x t-d<c)+{α20+α21x t-1+…+α2q x t-q}I(x t-d≥c)+εt ,={α10+α11x t-1+…+α1p x t-p}+{(α20+α21x t-1+…+α2q x t-q)-(α10+α11x t-1+…+α1p x t-p)}I(x t-d≥c)+εt , (2.20)此式表明, 它属于函数后的线性自回归模型. 由(2.20)式不难写出(2.11)式中的f k(.)函数(k=1,2,…,p), 注意它们都不是连续函数. 但是, 在实际应用中发现, (2.19)式中的两个残差项很少相同. 在此情况下, (2.19)式属于上述提到的哪一类呢? 易见, 它有条件异方差特性, 但是, 它又不像(2.15)或(2.16)式的任何一类. 事实上它属于下面的多噪声驱动的性自回归模型.多噪声驱动的自回归模型:x t=ϕ(x t-1,x t-2,…,x t-p)+S1(x t-1,x t-2,…,x t-q)ε1t+ S2(x t-1,x t-2,…,x t-q)ε2t,t=1,2,…(2.21)其中{ε1t}和{ε2t}为相互独立的i.i.d.序列, Eε1t=Eε1t=0, Eε1t2=σ12, Eε2t2=σ22. 为了统计建模方便, 常假定它们有正态分布. 读者不难看出(2.19)式中的ϕ(x t-1,x t-2,…,x t-p), S1(x t-1,x t-2,…,x t-q)和S2(x t-1,x t-2,…,x t-q)的具体表达式.仿照对(2.19)式的条件均值和方差的讨论, 不难讨论(2.21)式的条件均值和方差, 不仿一试.虽然还可写出比(2.21)式更广的形式, 那不是我们所关心的内容. 这里顺便指出,称{ε1t}和{ε2t}为驱动噪声, 它们都是白噪声序列, 而且是不可观测的. 因此, 这样的模型可称为自激系统. 此类模型亦可借助于马尔可夫链的工具加以研究.(总结两要点: 非线性的复杂性与实用性)4. 两种可逆性(1). 对严平稳序列{x t }而言, 称它对新息序列{e t } (e t 定义见(2.2)式)是可逆的,如果F t x =F t e , 对每个t 成立, (2.22)其中F t x 和F t e 的定义:F t x =σ{x s ; s ≤t}, F t e =σ{e s ; s ≤t},显然, x t ∈F t e .(2). 平稳序列{x t }对时间是可逆的, 如果{x t }与{x -t }有相同概率分布结构。
近代时间序列分析选讲:一. 非线性时间序列二. GARCH模型三. 多元时间序列四. 协整模型非线性时间序列第一章.非线性时间序列浅释1.从线性到非线性自回归模型2.线性时间序列定义的多样性第二章. 非线性时间序列模型1. 概述2. 非线性自回归模型3.带条件异方差的自回归模型4.两种可逆性5.时间序列与伪随机数第三章.马尔可夫链与AR模型1. 马尔可夫链2. AR模型所确定的马尔可夫链3. 若干例子第四章. 统计建模方法1. 概论2. 线性性检验3.AR模型参数估计4.AR模型阶数估计第五章. 实例和展望1. 实例2.展望第一章.非线性时间序列浅释1. 从线性到非线性自回归模型时间序列{x t}是一串随机变量序列, 它有广泛的实际背景, 特别是在经济与金融领域中尤其显著. 关于它们的从线性与非线性概念, 可从以下的例子入手作一浅释的说明.考查一阶线性自回归模型---LAR(1): x t=αx t-1+e t, t=1,2,… (1.1)其中{e t}为i.i.d.序列,且Ee t=0, Ee t=σ2<∞, 而且e t与{x t-1,x t-1,…}独立. 反复使用(1.1)式的递推关系, 就可得到x t=αx t-1+e t= e t + αx t-1= e t + α{ e t-1 + αx t-2}= e t + αe t-1 + α2 x t-2=…= e t + αe t-1 + α2e t-2+…+ αn-1e t-n+1 +αn x t-n. (1.2)如果当n→∞时,αn x t-n→0, (1.3){e t+αe t-1+α2e t-2+…+αn-1e t-n+1}→∑j=0∞αj e t-j . (1.4)虽然保证以上的收敛是有条件的, 而且要涉及到具体收敛的含义, 但是, 对以上的简单模型, 不难相信, 当|α|<1时, (1.3)(1.4)式成立. 于是, 当|α|<1时, 模型LAR(1)有平稳解, 且可表达为x t=∑j=0∞αj e t-j . (1.5)通过上面叙述可见求LAR(1)模型的解有简便之优点, 此其一. 还有第二点, 容易推广到LAR(p)模型. 为此考查如下的p阶线性自回归模型LAR(p):x t =α1x t-1+α2x t-2+...+αp x t-p +e t ,t=1,2,… (1.6)其中{e t }为i.i.d.序列,且Ee t =0, Ee t =σ2<∞,而且e t 与{x t-1, x t-1,…}独立.虽然反复使用(1.6)式的递推式, 仍然可得到(1.2)式的类似结果, 但是,用扩后的一阶多元AR 模型求解时, 可显示出与LAR(1)模型求解的神奇的相似. 为此记X t =⎪⎪⎪⎪⎪⎭⎫ ⎝⎛+--11p t t t x x x , U=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛001 , A=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛00000121 pααα, (1.7)于是(1.6)式可写成如下的等价形式:X t=A X t-1+ e t U. (1.8)反复使用此式的递推关系, 形式上仿照(1.2)式可得X t=AX t-1+e t U= e t U+e t-1AU+A2x t-2=⋯=e t U+e t-1AU+e t-2A2U+…+e t-n+1A n-1U+A n x t-n.如果矩阵A的谱半径(A的特征值的最大模)λ(A), 满足如下条件λ(A)<1, (1.10) 由上式可猜想到(1.8)式有如下的解: X t=∑k=0∞A k Ue t-k. (1.11)其中向量X t的第一分量x t形成的序列{x t}, 就是模型(1.6)式的解. 由此不难看出, 它有以下表达方式x t=∑k=0∞ϕk e t-k. (1.11)其中系数ϕk由(1.6)式中的α1,α2, ... ,αp 确定, 细节从略. 不过, (1.11)式给了我们重要启发, 即考虑形如x t=∑k=0∞ψk e t-k, ∑k=0∞ψk2<∞, (1.12)的时间序列类 (其中系数ψk能保证(1.12)式中的x t有定义). 在文献中, 这样的序列{x t}就被称为线性时间序列.虽然以上给出了线性时间序列的定义, 以下暂时不讨论什么是非线性时间序列, 代之先讨论一阶非线性自回归模型---NLAR(1), 以便与LAR(1)模型进行比较分析. 首先写出NLAR(1)模型如下x t=ϕ(x t-1)+e t, t=1,2,… (1.13)其中{e t}为i.i.d.序列,且Ee t=0, Ee t=σ2<∞,而且e t与{x t-1,x t-2,…}独立, 这些假定与LAR(1)模型相同, 但是, ϕ(x t-1)不再是x t-1的线性函数, 代之为非线性函数, 比如ϕ(x t-1)=x t-1/{a+bx t-12}.此时虽然仍可反复使用(1.13)式进行迭代, 但是所得结果是x t=ϕ (x t-1) +e t= e t+ ϕ (x t-1)= e t+ ϕ ( e t-1+ ϕ (x t-2))= e t+ ϕ ( e t-1+ ϕ ( e t-2+ ϕ (x t-3))) =…=e t+ϕ ( e t-1+ ϕ ( e t-2+ …+ϕ (x t-n))…).(1.14)根据此式, 我们既不能轻易判断ϕ(x t-1)函数满足怎样的条件时, 上式会有极限, 也不能猜测其极限有怎样的形式.对于p阶非线性自回归模型x t =ϕ(x t-1,x t-2,…,x t-p )+e t ,t=1,2,… (1.15)仿照(1.6)至(1.9)式的扩的方法, 我们引入如下记号Φ( x t-1,x t-2,…,x t-p )≡⎪⎪⎪⎪⎪⎭⎫ ⎝⎛+-----1121,...,,(p t t p t t t x x x x x ϕ, (1.16)我们得到与(1.15)式等价的模型X t =Φ(X t-1) +e t U, t=1,2,… (1.17)但是, 我们再也得不出(1.9)至(1.14)式的结果,至此我们已将看出, 从线性到非线性自回归模型有实质性差异, 要说清楚它们, 并不是很简单的事情. 从数学角度而言,讨论线性自回归模型可借用泛函分析方法, 然而, 讨论非线性自回归模型, 则要借用马尔可夫链的理论和方法. 这也正是本讲座要介绍的主要容.2. 线性时间序列定义的多样性现在简单叙述一下非线性时间序列定义的复杂性, 它与线性时间序列的定义有关. 前一小节中(1.12)式所显示的线性时间序列, 只是一种定义方式. 如果改变对系数 k的限制条件, 就会给出不同的定义. 更为重要的是, 在近代研究中, 将(1.12)式中的i.i.d.序列{e t}放宽为平稳鞅差序列, 这在预报理论中很有意义.无论引用哪一种线性时间序列定义, 都对相应的序列的性质有所研究, 因为其研究成果可用于有关的线性时间序列模型解的特性研究. 事实上, 已经有丰富的成果被载入文献史册.依上所述可知, 由于线性时间序列定义的多样性, 必然带来非线性时间序列定义的复杂性. 这里需要强调指的是, 对于非线性时间序列, 几乎没有文章研究它们的一般性质, 这与线性时间序列情况不同. 于是人们要问, 我们用哪些工具来研究非线性时间序列模型解的特性呢? 这正是本次演讲要回答的问题. 确切地说, 我们将介绍马尔可夫链, 并借助于此来讨论非线性自回归模型解的问题.第二章. 非线性时间序列模型1. 概论从(1.12)式可见,一个线性时间序列{x t}, 被{e t}的分布和全部系数 i 所决定. 在此有无穷多个自由参数,这对统计不方便,因此人们更关心只依赖有限个自由参数的线性时间序列,这就是线性时间序列的参数模型. 其中最常用的如ARMA模型. 对于非线性时间序列而言, 使用参数模型方法几乎是唯一的选择. 由于非线性函数的多样性, 带来了非线性时间序列模型的多样性. 但是, 迄今为止被研究得较多, 又有应用价值的非线性时序模型, 为数极少, 而且主要是针对非线性自回归模型. 在介绍此类模型之前, 我们先对非线性时序模型的分类作一概述.通用假定: {εt}为i.i.d.序列,且Eεt=0, 而且εt与{x t-1, x t-2,…}独立.可加噪声模型:x t=ϕ(x t-1,x t-2,…)+εt,t=1,2,… (2.1)其中ϕ(…)是自回归函数. 当它仅依赖于有限个未知参数时, 记此参数向量为α, 其相应的(2.1)模型常写成x t=ϕ(x t-1,x t-2,…;α)+εt,t=1,2,… (2.2)否则, 称(2.1)式称为非参数模型.关于(2.1)(2.2)的模型的平稳性, 要在下一章讨论, 但是, 它有类似于线性AR 模型的几个简单性质, 是重要的而且容易获得的, 它们是:E(x t|x t-1,x t-2,…)=E{ϕ(x t-1,x t-2,…)+εt|x t-1,x t-2,…}=ϕ(x t-1,x t-2,…)+E(εt|x t-1,x t-2,…)=ϕ(x t-1,x t-2,…) (2.3)var{x t|x t-1, x t-2 , …}≡E{[x t-ϕ(x t-1,…)]2|x t-1, x t-2 , …}= E{εt2|x t-1, x t-2 , …}= Eεt2=σ2. (2.4)P{x t<x|x t-1,x t-2, …}= P{ϕ(x t-1,…)+εt<x|x t-1,x t-2, …}= P{εt<x-ϕ(x t-1,…)|x t-1,x t-2, …}=Fε(x-ϕ(x t-1,…)). (2.5)其中Fε是εt的分布函数.带条件异方差的模型:x t=ϕ(x t-1,x t-2,…)+S(x t-1,x t-2,…)εt,t=1,2,… (2.6)其中ϕ(…)和S(…)也有限参数与非参数型之分, 这都是不言自明的. 另外, (2.6)式显然不属于可加噪声模型. 但是, 它比下面的更一般的非可加噪声模型要简单得多.这可通过推广(2.3)(2.4)(2.5)式看出, 即有,E(x t|x t-1,x t-2,…)=E{ϕ(x t-1,x t-2,…)+S(x t-1,x t-2,…)εt|x t-1,x t-2,…}=ϕ(x t-1,x t-2,…)+S(x t-1,x t-2,…)E{εt|x t-1,x t-2,…}=ϕ(x t-1,x t-2,…) .(2.3)’var{x t|x t-1, x t-2 , …}≡E{[x t-ϕ(x t-1,…)]2|x t-1, x t-2 , …}=E{S2(x t-1,x t-2,…)εt2|x t-1, x t-2 , …}=S2(x t-1,x t-2,…)E{εt2|x t-1, x t-2 , …}=S2(x t-1,x t-2,…)σ2.(2.4)’P{x t<x|x t-1,x t-2, …}=P{ϕ(x t-1,…)+S(x t-1,…)εt<x|x t-1, x t-2 , …}= P{εt<[x-ϕ(x t-1,…)]/S(x t-1,…)}=Fε([x-ϕ(x t-1,…)]/S(x t-1,…)).(2.5)’一般非线性时序模型:x t=ψ(x t-1,x t-2,…; εt, εt-1,…)t=1,2,… (2.7)其中ψ(…)也有参数与非参数型之区别, 这也是不言自明的. 显然, (2.7)式既不是可加噪声模型, 也不属于(2.6)式的带条件异方差的模型. 虽然, 它可能具有条件异方差性质. 相反, 后两者都是(2.7)式的特殊类型. 虽说(2.7)式是更广的模型形式, 在文献中却很少被研究. 只有双线性模型作为它的一种特殊情况, 在文献中有些应用和研究结果出现. 现写出其模型于后, 可供理解其双线性模型的含义x t=∑j=1pαj x t-j+∑j=1qβjεt-j+∑i=1P∑j=1Qθijεt-i x t-j.2. 非线性自回归模型在前一小节中的(2.1)和(2.2)式就是非线性自回归模型, 而且属于可加噪声模型类. 在这一小节里, 我们将介绍几种(2.2)式的常见的模型.函数后的线性自回归模型:f(x t)=α1f(x t-1)+α2f(x t-2)+...+αp f(x t-p)+ε,tt=1,2,… (2.8)其中f(.)是一元函数, 它有已知和未知的不同情况, 不过总考虑单调增函数的情况, α=(α1,α2,…,αp)τ是未知参数. 在实际应用中, {x t}是可获得量测的序列.当f(.)是已知函数时, {f(x t)}也是可获得量测的序列, 于是只需考虑y t=f(x t)所满足的线性AR模型y t=α1y t-1+α2y t-2+...+αp y t-p+εt,t=1,2,… (2.9)此时可不涉及非线性自回归模型概念. 在宏观计量经济分析中, 常常对原始数据先取对数后, 再作线性自回归模型统计分析, 就属于此种情况. 这种先取对数的方法, 不仅简单, 而且有经济背景的合理解释,它反应了经济增长幅度的量化规律. 虽然在统计学中还有更多的变换可使用, 比如Box-Cox变换, 但是, 由于缺少经济背景的合理解释, 很少被使用. 由此看来, 当f(.)有实际背景依据时, 可以考虑使用(2.7)式的模型.当f(.)是未知函数时, {f(x t)}不是可量测的序列, 于是只能考虑(2.8)模型. 注意f(.)是单调函数, 可记它的逆变换函数为f-1(.), 于是由(2.8)模型可得x t= f-1(α1f(x t-1)+α2f(x t-2)+...+αp f(x t-p)+εt),t=1,2,…(2.9)’此式属于(2.7)式的特殊情况, 此类模型很少被使用. 取而代之是考虑如下的模型x t=α1f(x t-1)+α2f(x t-2)+...+αp f(x t-p)+εt,t=1,2,… (2.10)其中f(.)是一元函数, 也有已知和未知之分, 可不限于单调增函数. 此式属于(2.1)式的特殊情况, 有一定的使用价值.当(2.10)式中的f(.)函数是已知时, 此式还有更进一步的推广模型,x t =α1f 1(x t-1,…,x t-s )+α2f 2(x t-1,…,x t-s )+...+αp f p (x t-1,…,x t-s )+εt ,t=1,2,… (2.11)其中f k (…)(k=1,2,…,p)是已知的s 元函数.例如, 以后将要多次提到的如下的模型:x t =α1I(x t-1<0)x t-1+α2I(x t-1≥0)x t-1+εt ,t=1,2,… (2.12)其中I(.)是示性函数. 此模型是分段线性的, 是著名的TAR 模型的特殊情况. 为了有助于理解它, 我们写出它的分段形式:x t =.0,0,,111211≥<⎩⎨⎧++--t t t t x x x x εαεα t=1,2,…请注意, (2.8)(2.10)和(2.11)式具有一个共同的特征, 就是未知参数都以线性形式出现在模型中. 这一特点在统计建模时带来极大的方便. 此类模型便于实际应用. 但是, 对于{x t }而言不具有线性特性, 所以, 讨论它们的平稳解的问题, 讨论它们的建模理论依据问题,都需要借助于马尔可夫链的工具.已知非线性自回归函数的模型:x t =ϕ(x t-1,x t-2,…,x t-p ;α)+εt ,t=1,2,… (2.13)其中ϕ(…)是p 元已知函数, 但是其中含有未知参数α=(α1,α2,…,αp )τ.一般说来, α在一定围取值.例如,x t =tt t x x εαα++--212111, t=1,2,…其中α=(α1,α2)τ是未知参数, 它们的取值围是: -∞<α<∞, 0≤α<∞.这里需要指出, 使用上式的模型, 不仅要借助于马尔可夫链的工具, 而且在统计建模时遇到两种麻烦, 其一是参数估计的计算麻烦, 二是确定ϕ(…)函数的麻烦. 一般来说, 只有根据应用背景能确定ϕ(…)函数时, 才会考虑使用此类模型.广义线性模型(神经网络模型):x t=ϕ(α1x t-1+α2x t-2+…+αp x t-p)+εt,t=1,2,… (2.14)其中ϕ(.)是一元已知或未知函数, 参数α=(α1,α2,…,αp)τ总是未知的. 为保证模型的唯一确定性, 或者说是可识别性, 要对α作些约定, 其一, ||α||=1, 其二, α=(α1,α2,…,αp)τ中第一个非零分量为正的. 不难理解, 若不加这两条约定, 模型(2.14)不能被唯一确定.当ϕ(.)是一元已知函数时, 与神经网络模型相通.当ϕ(.)是一元未知函数时, 与回归模型中的PP方法相通.除了以上两类模型外, 还有(2.1)式的非参数自回归模型, 以及从统计学中引入的半参数自回归模型. 对它们的统计建模更困难. 本讲座主旨在于介绍如何用马尔可夫链的工具, 描述非线性自回归模型的基本特性问题, 对这类模型不再仔细讨论.。
近代时间序列分析选讲:一. 非线性时间序列二. GARCH模型三. 多元时间序列四. 协整模型第一部分非线性时间序列第一章.非线性时间序列浅释1.从线性到非线性自回归模型2.线性时间序列定义的多样性第二章. 非线性时间序列模型1. 概述2. 非线性自回归模型3.带条件异方差的自回归模型4.两种可逆性5.时间序列与伪随机数第三章.马尔可夫链与AR模型1. 马尔可夫链2. AR模型所确定的马尔可夫链3. 若干例子第四章. 统计建模方法1. 概论2. 线性性检验3.AR模型参数估计4.AR模型阶数估计第五章. 实例和展望1. 实例2.展望第一章.非线性时间序列浅释1. 从线性到非线性自回归模型时间序列{x t}是一串随机变量序列,它有广泛的实际背景, 特别是在经济与金融领域中尤其显著. 关于它们的从线性与非线性概念, 可从以下的例子入手作一浅释的说明.考查一阶线性自回归模型---LAR(1):x t=αx t-1+e t, t=1,2,…(1.1)其中{e t}为i.i.d.序列,且Ee t=0, Ee t=σ2<∞, 而且e t与{x t-1,x t-1,…}独立. 反复使用(1.1)式的递推关系, 就可得到x t=αx t-1+e t= e t + αx t-1= e t + α{ e t-1 + αx t-2}= e t + αe t-1 + α2 x t-2=…= e t + αe t-1 + α2e t-2+…+ αn-1e t-n+1 +αn x t-n. (1.2)如果当n→∞时,αn x t-n→0, (1.3){e t +αe t-1+α2e t-2+…+αn-1e t-n+1}→ ∑j=0∞ αj e t-j . (1.4)虽然保证以上的收敛是有条件的, 而且要涉及到具体收敛的含义, 但是, 对以上的简单模型, 不难相信, 当|α|<1时, (1.3)(1.4)式成立. 于是, 当|α|<1时, 模型LAR(1)有平稳解, 且可表达为x t =∑j=0∞ αj e t-j . (1.5)通过上面叙述可见求LAR(1)模型的解有简便之优点, 此其一. 还有第二点, 容易推广到LAR(p)模型. 为此考查如下的p 阶线性自回归模型LAR(p):x t =α1x t-1+α2x t-2+...+αp x t-p +e t ,t=1,2,… (1.6)其中{e t }为i.i.d.序列,且Ee t =0, Ee t =σ2<∞, 而且e t 与{x t-1, x t-1,…}独立.虽然反复使用(1.6)式的递推式, 仍然可得到(1.2)式的类似结果, 但是,用扩张后的一阶多元AR 模型求解时, 可显示出与LAR(1)模型求解的神奇的相似. 为此记X t =⎪⎪⎪⎪⎪⎭⎫ ⎝⎛+--11p t t t x xx , U=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛001 , A=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛00000121 pααα, (1.7)于是(1.6)式可写成如下的等价形式:X t =A X t-1+ e t U. (1.8)反复使用此式的递推关系, 形式上仿照(1.2)式可得X t =AX t-1+e t U= e t U+ e t-1AU+A 2x t-2=⋯=e t U+e t-1AU+e t-2A2U+…+e t-n+1A n-1U+A n x t-n.如果矩阵A的谱半径(A的特征值的最大模)λ(A), 满足如下条件λ(A)<1, (1.10)由上式可猜想到(1.8)式有如下的解:X t=∑k=0∞A k Ue t-k. (1.11)其中向量X t的第一分量x t形成的序列{x t}, 就是模型(1.6)式的解. 由此不难看出, 它有以下表达方式x t=∑k=0∞ϕk e t-k. (1.11)其中系数ϕk由(1.6)式中的α1,α2, ... ,αp确定, 细节从略. 不过, (1.11)式给了我们重要启发, 即考虑形如x t=∑k=0∞ψk e t-k, ∑k=0∞ψk2<∞, (1.12)的时间序列类(其中系数ψk能保证(1.12)式中的x t有定义). 在文献中, 这样的序列{x t}就被称为线性时间序列.虽然以上给出了线性时间序列的定义, 以下暂时不讨论什么是非线性时间序列, 代之先讨论一阶非线性自回归模型---NLAR(1), 以便与LAR(1)模型进行比较分析. 首先写出NLAR(1)模型如下x t=ϕ(x t-1)+e t,t=1,2,…(1.13)其中{e t}为i.i.d.序列,且Ee t=0, Ee t=σ2<∞, 而且e t与{x t-1,x t-2,…}独立, 这些假定与LAR(1)模型相同, 但是, ϕ(x t-1)不再是x t-1的线性函数, 代之为非线性函数, 比如ϕ(x t-1)=x t-1/{a+bx t-12}.此时虽然仍可反复使用(1.13)式进行迭代, 但是所得结果是x t=ϕ (x t-1) +e t= e t+ ϕ (x t-1)= e t+ ϕ ( e t-1+ ϕ (x t-2))= e t+ ϕ ( e t-1+ ϕ ( e t-2+ ϕ (x t-3)))=…=e t+ϕ ( e t-1+ ϕ ( e t-2+ …+ϕ (x t-n))…).(1.14)根据此式, 我们既不能轻易判断ϕ(x t-1)函数满足怎样的条件时, 上式会有极限, 也不能猜测其极限有怎样的形式.对于p 阶非线性自回归模型x t =ϕ(x t-1,x t-2,…,x t-p )+e t ,t=1,2,… (1.15)仿照(1.6)至(1.9)式的扩张的方法, 我们引入如下记号Φ( x t-1,x t-2,…,x t-p )≡⎪⎪⎪⎪⎪⎭⎫ ⎝⎛+-----1121,...,,(p t t p t t t x x x x x ϕ, (1.16)我们得到与(1.15)式等价的模型X t =Φ(X t-1) +e t U, t=1,2,… (1.17)但是, 我们再也得不出(1.9)至(1.14)式的结果,至此我们已将看出, 从线性到非线性自回归模型有实质性差异, 要说清楚它们, 并不是很简单的事情. 从数学角度而言, 讨论线性自回归模型可借用泛函分析方法, 然而, 讨论非线性自回归模型, 则要借用马尔可夫链的理论和方法. 这也正是本讲座要介绍的主要内容.2. 线性时间序列定义的多样性现在简单叙述一下非线性时间序列定义的复杂性, 它与线性时间序列的定义有关. 前一小节中(1.12)式所显示的线性时间序列, 只是一种定义方式. 如果改变对系数ψk 的限制条件, 就会给出不同的定义. 更为重要的是, 在近代研究中, 将(1.12)式中的i.i.d.序列{e t }放宽为平稳鞅差序列, 这在预报理论中很有意义.无论引用哪一种线性时间序列定义, 都对相应的序列的性质有所研究, 因为其研究成果可用于有关的线性时间序列模型解的特性研究. 事实上, 已经有丰富的成果被载入文献史册.依上所述可知, 由于线性时间序列定义的多样性, 必然带来非线性时间序列定义的复杂性. 这里需要强调指的是, 对于非线性时间序列, 几乎没有文章研究它们的一般性质, 这与线性时间序列情况不同. 于是人们要问, 我们用哪些工具来研究非线性时间序列模型解的特性呢? 这正是本次演讲要回答的问题. 确切地说, 我们将介绍马尔可夫链, 并借助于此来讨论非线性自回归模型解的问题.第二章. 非线性时间序列模型1. 概论从(1.12)式可见,一个线性时间序列{x t }, 被{e t }的分布和全部系数ψi 所决定. 在此有无穷多个自由参数,这对统计不方便,因此人们更关心只依赖有限个自由参数的线性时间序列,这就是线性时间序列的参数模型. 其中最常用的如ARMA模型. 对于非线性时间序列而言, 使用参数模型方法几乎是唯一的选择. 由于非线性函数的多样性, 带来了非线性时间序列模型的多样性. 但是, 迄今为止被研究得较多, 又有应用价值的非线性时序模型, 为数极少, 而且主要是针对非线性自回归模型. 在介绍此类模型之前, 我们先对非线性时序模型的分类作一概述.通用假定: {εt}为i.i.d.序列,且Eεt=0, 而且εt与{x t-1, x t-2,…}独立.可加噪声模型:x t=ϕ(x t-1,x t-2,…)+εt,t=1,2,…(2.1)其中ϕ(…)是自回归函数. 当它仅依赖于有限个未知参数时, 记此参数向量为α, 其相应的(2.1)模型常写成x t=ϕ(x t-1,x t-2,…;α)+εt,t=1,2,…(2.2)否则, 称(2.1)式称为非参数模型.关于(2.1)(2.2)的模型的平稳性, 要在下一章讨论, 但是, 它有类似于线性AR模型的几个简单性质, 是重要的而且容易获得的, 它们是:E(x t|x t-1,x t-2,…)=E{ϕ(x t-1,x t-2,…)+εt|x t-1,x t-2,…}=ϕ(x t-1,x t-2,…)+E(εt|x t-1,x t-2,…)=ϕ(x t-1,x t-2,…) (2.3)var{x t|x t-1, x t-2 , …}≡E{[x t-ϕ(x t-1,…)]2|x t-1, x t-2 , …}= E{εt2|x t-1, x t-2 , …}= Eεt2=σ2. (2.4)P{x t<x|x t-1,x t-2, …}= P{ϕ(x t-1,…)+εt<x|x t-1,x t-2, …}= P{εt<x-ϕ(x t-1,…)|x t-1,x t-2, …}=Fε(x-ϕ(x t-1,…)). (2.5)其中Fε是εt的分布函数.带条件异方差的模型:x t=ϕ(x t-1,x t-2,…)+S(x t-1,x t-2,…)εt,t=1,2,…(2.6)其中ϕ(…)和S(…)也有限参数与非参数型之分, 这都是不言自明的. 另外, (2.6)式显然不属于可加噪声模型. 但是, 它比下面的更一般的非可加噪声模型要简单得多. 这可通过推广(2.3)(2.4)(2.5)式看出, 即有,E(x t|x t-1,x t-2,…)=E{ϕ(x t-1,x t-2,…)+S(x t-1,x t-2,…)εt|x t-1,x t-2,…}=ϕ(x t-1,x t-2,…)+S(x t-1,x t-2,…)E{εt|x t-1,x t-2,…}=ϕ(x t-1,x t-2,…) . (2.3)’var{x t|x t-1, x t-2 , …}≡E{[x t-ϕ(x t-1,…)]2|x t-1, x t-2 , …}=E{S2(x t-1,x t-2,…)εt2|x t-1, x t-2 , …}=S2(x t-1,x t-2,…)E{εt2|x t-1, x t-2 , …}=S2(x t-1,x t-2,…)σ2. (2.4)’P{x t<x|x t-1,x t-2, …}=P{ϕ(x t-1,…)+S(x t-1,…)εt<x|x t-1, x t-2 , …}= P{εt<[x-ϕ(x t-1,…)]/S(x t-1,…)}=Fε([x-ϕ(x t-1,…)]/S(x t-1,…)). (2.5)’一般非线性时序模型:x t=ψ(x t-1,x t-2,…; εt, εt-1,…)t=1,2,…(2.7)其中ψ(…)也有参数与非参数型之区别, 这也是不言自明的. 显然, (2.7)式既不是可加噪声模型, 也不属于(2.6)式的带条件异方差的模型. 虽然, 它可能具有条件异方差性质. 相反, 后两者都是(2.7)式的特殊类型. 虽说(2.7)式是更广的模型形式, 在文献中却很少被研究. 只有双线性模型作为它的一种特殊情况, 在文献中有些应用和研究结果出现. 现写出其模型于后, 可供理解其双线性模型的含义x t=∑j=1pαj x t-j+∑j=1qβjεt-j+∑i=1P∑j=1Qθijεt-i x t-j.2. 非线性自回归模型在前一小节中的(2.1)和(2.2)式就是非线性自回归模型, 而且属于可加噪声模型类. 在这一小节里, 我们将介绍几种(2.2)式的常见的模型.函数后的线性自回归模型:f(x t)=α1f(x t-1)+α2f(x t-2)+...+αp f(x t-p)+εt,t=1,2,…(2.8)其中f(.)是一元函数, 它有已知和未知的不同情况, 不过总考虑单调增函数的情况, α=(α1,α2,…,αp )τ是未知参数. 在实际应用中, {x t }是可获得量测的序列.当f(.)是已知函数时, {f(x t )}也是可获得量测的序列, 于是只需考虑y t =f(x t )所满足的线性AR 模型y t =α1y t-1+α2y t-2+...+αp y t-p +εt ,t=1,2,… (2.9)此时可不涉及非线性自回归模型概念. 在宏观计量经济分析中, 常常对原始数据先取对数后, 再作线性自回归模型统计分析, 就属于此种情况. 这种先取对数的方法, 不仅简单, 而且有经济背景的合理解释,它反应了经济增长幅度的量化规律. 虽然在统计学中还有更多的变换可使用, 比如Box-Cox 变换, 但是, 由于缺少经济背景的合理解释, 很少被使用. 由此看来, 当f(.)有实际背景依据时, 可以考虑使用(2.7)式的模型.当f(.)是未知函数时, {f(x t )}不是可量测的序列, 于是只能考虑(2.8)模型. 注意f(.)是单调函数, 可记它的逆变换函数为f -1(.), 于是由(2.8)模型可得x t = f -1(α1f(x t-1)+α2f(x t-2)+...+αp f(x t-p )+εt ),t=1,2,… (2.9)’此式属于(2.7)式的特殊情况, 此类模型很少被使用. 取而代之是考虑如下的模型x t =α1f(x t-1)+α2f(x t-2)+...+αp f(x t-p )+εt ,t=1,2,… (2.10)其中f(.)是一元函数, 也有已知和未知之分, 可不限于单调增函数. 此式属于(2.1)式的特殊情况, 有一定的使用价值.当(2.10)式中的f(.)函数是已知时, 此式还有更进一步的推广模型,x t =α1f 1(x t-1,…,x t-s )+α2f 2(x t-1,…,x t-s )+...+αp f p (x t-1,…,x t-s )+εt ,t=1,2,… (2.11)其中f k (…)(k=1,2,…,p)是已知的s 元函数.例如, 以后将要多次提到的如下的模型:x t =α1I(x t-1<0)x t-1+α2I(x t-1≥0)x t-1+εt ,t=1,2,… (2.12)其中I(.)是示性函数. 此模型是分段线性的, 是著名的TAR 模型的特殊情况. 为了有助于理解它, 我们写出它的分段形式:x t =.0,0,,111211≥<⎩⎨⎧++--t t t tx x x x εαεα t=1,2,…请注意, (2.8)(2.10)和(2.11)式具有一个共同的特征, 就是未知参数都以线性形式出现在模型中. 这一特点在统计建模时带来极大的方便. 此类模型便于实际应用. 但是, 对于{x t }而言不具有线性特性, 所以, 讨论它们的平稳解的问题, 讨论它们的建模理论依据问题,都需要借助于马尔可夫链的工具.已知非线性自回归函数的模型:x t =ϕ(x t-1,x t-2,…,x t-p ;α)+εt ,t=1,2,… (2.13)其中ϕ(…)是p 元已知函数, 但是其中含有未知参数α=(α1,α2,…,αp )τ.一般说来, α在一定范围内取值.例如,x t =t t t x x εαα++--212111,t=1,2,…其中α=(α1,α2)τ是未知参数, 它们的取值范围是: -∞<α<∞, 0≤α<∞.这里需要指出, 使用上式的模型, 不仅要借助于马尔可夫链的工具, 而且在统计建模时遇到两种麻烦, 其一是参数估计的计算麻烦, 二是确定ϕ(…)函数的麻烦. 一般来说, 只有根据应用背景能确定ϕ(…)函数时, 才会考虑使用此类模型.广义线性模型(神经网络模型):x t =ϕ(α1x t-1+α2x t-2+…+αp x t-p )+εt ,t=1,2,… (2.14)其中ϕ(.)是一元已知或未知函数, 参数α=(α1,α2,…,αp )τ总是未知的. 为保证模型的唯一确定性, 或者说是可识别性, 要对α作些约定, 其一, ||α||=1, 其二, α=(α1,α2,…,αp )τ中第一个非零分量为正的. 不难理解, 若不加这两条约定, 模型(2.14)不能被唯一确定.当ϕ(.)是一元已知函数时, 与神经网络模型相通.当ϕ(.)是一元未知函数时, 与回归模型中的PP 方法相通.除了以上两类模型外, 还有(2.1)式的非参数自回归模型, 以及从统计学中引入的半参数自回归模型. 对它们的统计建模更困难. 本讲座主旨在于介绍如何用马尔可夫链的工具, 描述非线性自回归模型的基本特性问题, 对这类模型不再仔细讨论.3. 带条件异方差的自回归模型在第一小节中的(2.6)式就是带条件异方差的自回归模型. 在这一小节里, 我们将介绍几种(2.2)式的常见参数模型.参数型条件异方差的自回归模型:x t =ϕ(x t-1,x t-2,…,x t-p )+S(x t-1,x t-2,…,x t-q )εt ,t=1,2,… (2.15)其中ϕ(…)是p 元函数, S(…)是q 元函数. 它们也有限参数型和非参数型之分别, 这里不在赘述. 有两点必须指出: 为了保证(2.15)式中的ϕ(…)和S(…)被唯一确定, 还要限定E εt 2=1; 另外, 在根据数据为(2.15)式建模时, 需要对ϕ(…)和S(…)都作估计.x t =ϕ(x t-1,x t-2,…,x t-p )+{α0+α1x t-12+…+αp x t-p 2}1/2εt ,=ϕ(x t-1,x t-2,…,x t-p )+S(x t-1,x t-2,…,x t-q )εt ,t=1,2,… (2.16)其中S 2(x t-1,x t-2,…,x t-q )={α0+α1x t-12+…+αp x t-p 2}. (2.17)我们将看到, 带异方差ARCH 模型的自回归模型. 它们都可以借助于马尔可夫链的工具加以研究, 但是, 对于推广后的GARCH 模型, 还会遇到某些麻烦.此为后话.现在, 让我们再回顾一下(2.12)式的原始的一般形式:x t=⎩⎨⎧≥++++<++++------,,...,,...22121201111101c x x x c x x x dt t p t p t dt t p t p t εαααεαααt=1,2,… (2.18)其中{ε1t }和{ε2t }为相互独立的i.i.d.序列, 且ε1t ~N(0,σ12), ε2t ~N(0,σ22),此外, 在(2.18)式中, d ≥1可能是未知的, c 被称为门限值, 一般也是未知的, 这些未知信息都会带来统计的麻烦. 现在我们关心它的类型问题. 为此先改写它的形式如下:x t ={α10+α11x t-1+…+α1p x t-p +ε1t }I(x t-d <c)+{α20+α21x t-1+…+α2q x t-q +ε2t }I(x t-d ≥c)={α10+α11x t-1+…+α1p x t-p }I(x t-d <c)+{α20+α21x t-1+…+α2q x t-q }{I(x t-d ≥c)+{ε1t I(x t-d <c)+ε2t I(x t-d ≥c)}.(2.19)对此模型计算x t 的条件均值和方差,即(2.1)(2.2)式, 并不难, 其条件均值是:E{x t |x t-1,x t-2,…}={α10+α11x t-1+…+α1p x t-p }I(x t-d <c)+{α20+α21x t-1+…+α2q x t-q }{I(x t-d ≥c).但是, 条件方差有异样, 我们只给出它的计算过程如下:var{x t|x t-1,x t-2,…} (用前一式)=E{[ε1t I(x t-d<c)+ε2t I(x t-d≥c)]2|x t-1,x t-2,…}=E{ε1t2I(x t-d<c)|x t-1,x t-2,…}+E{ε2t2I(x t-d≥c)|x t-1,x t-2,…}+2E{[ε1tε2t I(x t-d<c)I(x t-d≥c)]|x t-1,…}= I(x t-d<c)E{ε1t2|x t-1,x t-2,…}+I(x t-d≥c)E{ε2t2|x t-1,x t-2,…}+2I(x t-d<c)I(x t-d≥c)E{ε1tε2t|x t-1,…}=σ12I(x t-d<c)+σ22I(x t-d≥c)+2I(x t-d<c)I(x t-d≥c)≡S(x t-d).据此可见, (2.19)式不能写成(2.6)式的条件异方差模型, 虽然它的条件方差不是常数!进而, x t的条件分布要比(2.3)式更复杂, 不仿一试.由此可见, 当{ε1t}={ε2t}={εt}时, 上式变成x t={α10+α11x t-1+…+α1p x t-p}I(x t-d<c)+{α20+α21x t-1+…+α2q x t-q}I(x t-d≥c)+εt ,={α10+α11x t-1+…+α1p x t-p}+{(α20+α21x t-1+…+α2q x t-q)-(α10+α11x t-1+…+α1p x t-p)}I(x t-d≥c)+εt , (2.20)此式表明, 它属于函数后的线性自回归模型. 由(2.20)式不难写出(2.11)式中的f k(.)函数(k=1,2,…,p), 注意它们都不是连续函数. 但是, 在实际应用中发现, (2.19)式中的两个残差项很少相同. 在此情况下, (2.19)式属于上述提到的哪一类呢? 易见, 它有条件异方差特性, 但是, 它又不像(2.15)或(2.16)式的任何一类. 事实上它属于下面的多噪声驱动的性自回归模型.多噪声驱动的自回归模型:x t=ϕ(x t-1,x t-2,…,x t-p)+S1(x t-1,x t-2,…,x t-q)ε1t+ S2(x t-1,x t-2,…,x t-q)ε2t,t=1,2,…(2.21)其中{ε1t}和{ε2t}为相互独立的i.i.d.序列, Eε1t=Eε1t=0, Eε1t2=σ12, Eε2t2=σ22. 为了统计建模方便, 常假定它们有正态分布. 读者不难看出(2.19)式中的ϕ(x t-1,x t-2,…,x t-p), S1(x t-1,x t-2,…,x t-q)和S2(x t-1,x t-2,…,x t-q)的具体表达式.仿照对(2.19)式的条件均值和方差的讨论, 不难讨论(2.21)式的条件均值和方差, 不仿一试.虽然还可写出比(2.21)式更广的形式, 那不是我们所关心的内容. 这里顺便指出,称{ε1t}和{ε2t}为驱动噪声, 它们都是白噪声序列, 而且是不可观测的. 因此, 这样的模型可称为自激系统. 此类模型亦可借助于马尔可夫链的工具加以研究.(总结两要点: 非线性的复杂性与实用性)4. 两种可逆性(1). 对严平稳序列{x t }而言, 称它对新息序列{e t } (e t 定义见(2.2)式)是可逆的,如果F t x =F t e , 对每个t 成立, (2.22)其中F t x 和F t e 的定义:F t x =σ{x s ; s ≤t}, F t e =σ{e s ; s ≤t},显然, x t ∈F t e .(2). 平稳序列{x t }对时间是可逆的, 如果{x t }与{x -t }有相同概率分布结构。
第六章 时间序列的平滑6.1 引论上一章我们引进非参数函数估计的基本概念,现在将它应用到时间序列别的重要平滑问题上. 对估计慢变化时间趋势,平滑技术是有用的图示工具,它产生了时域平滑(§6.2). 对将来事件和与之相联系的现在与过去变量之间的关系的非参数统计推断导致了§6.3的状态域平滑. §6.4 引入的样条方法是对§6.3引入的局部多项式方法的有用替代. 这此方法能够容易地推广到时间序列的条件方差(波动性)的估计,甚至整个条件分布的估计,参阅§6.5.6.2 时域平滑6.2.1 趋势和季节分量分析时间序列的第一步是画数据图. 这种方法使得人们可以从视觉上检查一个时间序列是否像一个平稳随机过程. 如果观察到趋势或季节分量,在分析时间序列之前通常要将它们分离开来.假定时间序列{}t Y 能够分解成t t t t Y f s X =++, (6.1)其中t f 表示慢变函数,称为“趋势分量”,t s 是周期函数,称为“季节分量”,t X 是随机分量,它被假定是零均值的平稳序列. 在使用这种分解之前,可以先用方差稳定变换或Box-Cox 变换. 这类幂变换有如下以参数λ为指标的形式,0,()log(),0,u g x u λλλ⎧≠=⎨=⎩ (6.2)或具有在0λ=点处连续的变换形式()(1)/g u u λλ=-.这类变换由Box 和Cox (1964)给出. 注意,由在幂变换中数据必须是非负的,因此,在使用幂变换之前,可能必须先实施平移变换.我们的目的是估计和提取确定性分量t f 和t s . 我们希望残差分量t X 是平稳的,且能够用线性和非线性技术做进一步的分析. 通过推广Box 和Jenkins (1970)而发展的一个替代方法是对时间序列{}t Y 重复应用差分算子,直到被差分的序列表现为平稳为止. 这时,被差分的序列可以进一步平衡时间序列技术来处理. 作为说明Box 和Jenkins 方法的一个例子,我们先取S&P500指数的对数变换,然后计算一阶差分. 图6.1给出了这个预处理序列. 所得序列基本上是该指数中变化的每日价格的百分比. 除了几个异常值(即1987年10月19日20.47%的市场崩盘,金融市场称之为“黑色星期一”)外,这个序列显示出平稳性. 这个变换与金融工程中常用资产定价的几何布朗运动模型的离散化有关.图6.1 1972年1月3日至1999年12月31日(上图)和1999年1月4日至1999年12月31日(下图)S&P500指数对数变换的差分我们首先把注意力集中在没有季节分量的情形,即,0t t t t Y f X EX =+=. (6.3)然后,我们再在§6.3.8中估计趋势和季节分量.6.2.2 滑动平均平均是最常用的消除随机噪声的技术. 假定趋势是慢变化的,使得其能够在大小为h 的局部时间窗中用常数来逼近,即,t i t t i Y f X h i h ++≈+-≤≤. (6.4)这时t f 能够用该窗周围的局部平均来估计: µ1(21)ht i t i hf h Y -+=-=+∑, (6.5) 随着中心t 的改变,局部窗也在移动. 例如,在图6.2中,50t =处20h =所得的估计是落在第一个窗内的那些数据的平均. 窗的中心移动到新的点处以构成在这些点处的估计. 随着局部窗从左向右滑动,它的轨迹就是所得的滑动平均曲线. 这是滑动平均平滑的最简单的例子. 它常常被用来验证时间序列的趋势. 图6.2描绘的是从1999年1月4日到1999年12月1日S&P500指数一个月和两个月的滑动平均.图6.2 1999年1月4日至12月31日S&P500指数和它的21个交易日(粗线)和41个交易日(虚线)的滑动平均在边界处,滑动平均估计的习惯做法是忽略超出观察时间范围的那些数据. 例如,2f 是用数据12,,h Y Y +L 的平均所得的简单估计(时间点2右边的数据比左边更多). 这种不对称平均可能会产生边界偏倚. 当边界处趋势陡峭且带宽又大时,这种边界效应更为明显. 正如图6.2所示那样,在右边界处的滑动平均低估了趋势. 该问题能够通过使用局部线性平滑. (参见§6.2.6)或别的边界改善方法,比如,边界核方法(Gasser 和Müller 1979;Müller 1993)和数据削尖方法(Choi, Hall 和Bousson 2000)来减弱.滑动平均数列(6.5)利用了时间t 周围两边的数据. 这样它还依赖于时间t 之后的数据. 为便于预报,单变滑动平均数列µ*11ht i t i f h Y --==∑ (6.6)也常被用来验证时间趋势. 数列仅用直到时间1t -的过去的数据.6.2.3 核平滑滑动平均估计的一个改善方法是引进一个加权设计. 这允许对所给时间点附近的数据给予较大的权数. 这也就得到了核回归估计,定义为µ00101()()T t t t T t t t Y K h f t t K h ==-∑=-∑. (6.7) 这个估计还被称为Nadaraya-Watson 估计. 参阅Nadaraya (1964)和Watson (1964). 当我们使用均匀核()0.5(||1)K u I u =≤时,上述核估计就变成滑动平均估计(6.5). 当核函数有有界支撑[1,1]-时,核回归估计就是一个局部(21)h +数据的加权平均. 当核()K t 是模在零点的单峰函数时,0t 附近的数据点获得更多的权. 一般地,核函数不要求有一个有界的支撑,只要它薄尾的(如它是一个有二阶矩的密度函数). K 的非负性要求还能被减弱. 带宽h 也不必是整数.注意,在高斯核定义中的标准化常数和核的对称Beta 族只是用来保证函数K 是一个概率密度函数. 在核回归估计中它们并不起作用. 在计算时,我们常常标准化各种核函数使得它们如图 5.2那样有相同的最大值 1. 由于这种标准化,(6.7)可以直观地理解为10{()/}Tt K t t h =∑-数据点的有效平均. 当核函数有在(,0)-∞中的支撑时(这样的核还可看作是单边核),核回归估计所使用的数据仅到时间01t -. 这是单边滑动平均(6.6)的推广.如同在核密度估计中那样,在核回归估计中带宽h 是一个重要参数. 如同在图6.2中所显示的那样,大的带宽h 产生过度平滑的估计,遗漏趋势和所估计的峰和谷的度量上的一些可能的细节. 特别地,当使用大的带宽时,估计可能产生大的偏差. 当使用小的带宽时,仅有几个局部的数据被使用,降低了估计的方差,却导致所得估计是一条波动的曲线. 例如,用带宽0h =,滑动平均估计(6.5)简单地复制原始数据. 为了得到满意的结果需要反复尝试和修正. 带宽的数据驱动选择能够帮助我们确定所要的平滑度. 正如在§6.2.9所看到的那样,渐近方差本质上依赖于所研究的过程的相关结构. 因此,针对独立数据的由数据驱动选择的带宽在时域平滑中效果不佳. 实际上,Altman (1990),Chu 和Marron (1991a )以及Hart (1991)指出,对相依数据,通常的留一在外(leave-one-out ) 交叉核实方法效果不好. 这些作者提出了几个修正的方法. 对带宽选择的嵌入方法由Ray 和Tsay (1997)以及Beran 和Feng (2000)提出.以上考虑能够通过计算核回归估计的偏倚和方差得到理解. 经过直接计算,在模型(6.3)下,核估计得偏倚为 µ0000101()()()T t t t t t T t t t f f K h E f f t t K h==-∑--=-∑. 它不依赖于误差过程. 它实际上是一个逼近误差. 当带宽取得小时,逼近误差0t t f f -小,从而偏倚也小. 另一方面,当h 取得大时,大多数逼近误差0t t f f -是大的归因于t 和0t 间的距离是大的,因此,偏倚可能是大的. 这个线性估计的方差 µ00011(),()T t t t t T t t t t K h f wY w t t K h ==-==-∑∑还能够被计算. 令()X t γ是过程()X t 的自协方差函数,则µ011Var()(||)T TX i j t i j f i j w w γ===-∑∑. (6.8) 该方差依赖于自相关函数. 进一步简化需要渐近分析. 我们将在§6.2.9中讨论. 在那里我们将看到当k →∞时方差()X k γ的渐近行为. 但我们现在可以指出,当带宽小时,核平滑的方差增大,这归因于在局部领域中数据点数太小的缘故.6.2.4 核平滑的变种核平滑有许多变种. (6.7)中的分母对相对于t 求导数和数学上的分析是不方便的. 代替用核函数的高度作为权,我们还可用核函数下方的面积作为权. 由于核函数下方的总面积是1,分母不需要. 这就是隐含在Gasser-Müller 估计中的基本思想.在现在的框架下,令(21)/2(1,,1)t s t t T =+=-L ,其中0s =-∞和T s =∞. Gasser 和Müller (1979)提出了以下的估计:µ0101()t t T s h t t s t f K u t duY -==-∑⎰.由于总的权1001()()1t t T s h h s t K u t du K u t du -∞-∞=-=-=∑⎰⎰,所以没有分母. Gasser-Müller 估计是对Priestley 和Chao (1972)早期版本的一种修正. Priestley 和Chao (1972)给出的估计定义为µ001()Th t t t f K t t Y ==-∑.这个估计简单地去掉了Nadaraya-Watson 估计的分母. 通过积分和变量变换逼近黎曼和,对适当选择的h ,我们得到总的权00()/001(1)/1()()()T T T t hh h t h t K t t K t t du K u du ---=-≈-=∑⎰⎰,如果0t 不太接近边界,且h 相对于T 小,并使得0(1)/t h -和0()/T t h -大,则上述积分近似地等同于()1K u du ∞-∞=⎰.事实上,只要K 的支撑限制在区间00[(1)/,()/]t h T t h ---内,等式就精确地成立. 换句话,对不在边界区域的点0t ,总的权近似于1. 以上观点依赖于设计点为等间隔的. 事实上,Priestley 和Chao 估计仅能用于等间隔情形. 它不能用于§6.3所讨论的状态域平滑.6.2.5 滤波核回归是用于工程的卷积滤波的一种特殊形式. 一般地,一个长度为21h +的线性滤波定义为µh i t i t i h f wY +=-=∑. (6.9)当K 有支撑[1,1]-时,核回归对应(/)(/)hi j h w K i h K j h =-=∑. 滤波能够被设计为拥有各种性质. 例如,它能够被设计成可以去掉高频信号(低通滤波),或低频信号(高通滤波)或超出某个频率范围的信号(带通滤波);见§2.3.3.核平滑是一种低通滤波.线性滤波变换可以用递推方式来定义. 例如,单边滑动平均µt f 可以对某个1b <,利用下式来定义µµ1(1),2,,t t t f bY b f t T -=+-=L ,这等价于用1,,t Y Y L 的如下的加权滑动平均:µ21121(1)(1)(1)t t t t t f bY b b Y b b Y b b Y ---=+-++-+-L .由于权以指数速度快速衰减,以上滤波实际上仅用了时刻t 附近的局部数据. 平滑的有效性依赖于参数b . 这种方法称为指数平滑.指数平滑是用1/1h b λ=-的()(0)x h K x I x λ=≥的一种特殊的核平滑. 这是一种单边平滑. 它仅使用直到现大时刻t 的数据. 关于这方面内容的进一步讨论可参见Gijbels 、Pope 和Wand (1999).6.2.6 局部线性平滑局部常数逼近(6.4)能够通过使用局部线性逼近来改善. 我们把趋势i f 通过如下线性函数局部地近似为i 的函数(),||i t t i Y f f i t X i t h '≈+-+-≤.这样,t f 就近似地看做上述局部线性模型的截距. 可见图6.3中时刻200t =处的图示. 窗内的数据用一个线性回归来拟合. 对局部窗附件的数据用最小二乘方法,我们通过相对于a 和b 极小化下式可得到局部截距的估计21{()}()T ih i Y a b i t K i t =----∑.这里引进核权是为了减少距离给定时间点t 较远的数据的贡献. 令$t a 和t b $是最小二乘解.这里用下标t 是为了表示所得的解依赖于给定的时间点t . 这时,t f 用局部截距$t a 来估计,它有如下的精确表示µ$,,,,2,111/,(){()()()}T T t i i t it i h T T t i i f a w Y w w K i t S t i t S t =====---∑∑, (6.10)其中,1()()()T jT j i h S t K i t i t ==∑--. 当t 从1取到T 时就得到整个趋势函数. 这样,局部线性平滑实际上是一种移动线性回归方法. 正如图6.3所示那样,在80t =处的估计由一个新的局部最小二乘问题得到. 在每个数据窗中拟合的直线用实线表示. 估计的局部截距的值位于虚垂直线和局部直线的交叉处. 局部斜率是时间趋势导数的估计. 此外,这些局部窗还可以互相重叠(见图6.2). S-Plus 函数“lls.s ”已写成程序差可用于计算图6.3中的平滑曲线. 这个S-Plus 函数能够从本书的网址获得.图6.3 使用Epanechnikov 核和带宽20h =所得的1999年1月4日至1999年12月31日S&P500指数局部线性拟合. 在每个窗中的虚抛物线表示每个局部数据点所得的权局部线性平滑能够很容易地堆广到局部多项式平滑. 局部多项式拟合和它的应用的全面介绍可参阅Fan 和Gijbels (1996). 局部多项式拟合的优点总结在§6.3.3中. 注意,(6.11)中的权,t i w 满足,,1,2,2,11()()()()()0.T t i T T T T i wi t S t S t S t S t =-=-=∑ (6.11)这就蕴涵了如果趋势是线性的,t f t αβ=+,则局部线性平滑是无偏的:µ,,11()/T Tt i t i t i i E f w i w t αβαβ===+=+∑∑.换句话,无论趋势函数多以陡峭,只估计线性趋势时,局部线性平滑就是无偏的. 这对在内部以及边界处的点t 的同样成立. 也就是说对于估计陡峭趋势,局部线性估计将有小的偏倚. 另一方面,因为类似于(6.11)的方程即便是近似地也都不成立,因此,对估计边界区域附近的点估计陡峭趋势,核平滑将有较大的偏差.6.2.7 其他的平滑方法核局部线性平滑有许多别的方法. 例如,Gasser 和Müller (1979)使用了不同于核和局部线性平滑的权形式,Jones (1997)介绍了局部线性平滑的各种形式. Fan 和Gijbels (1996)给出了各种平滑技术的概述,包括样本和正交级数方法.核回归和局部多项式建模是基于在许多格子点上的局部近似. 诸如样条这样的全局逼近方法还能够用于对时间域的平滑. 这些思想将在关于状态域平滑的§6.4中介绍.对诸如时域平滑这样的等间隔设计,正交级数方法也非常容易使用. 其基本思想是先用正交矩阵对数据进行变换,然后,在高频点向零点有选择地调整系数(或向零点收缩它们). 平滑估计能够通过tapered 系数的逆变换来获得. 常用的正交变换包括傅里叶变换和小波变换. 它们的统计应用可参阅Ogden (1997)、Efromovich (1999)和Vidakovic (1999)等近期出版的专著.6.2.8 季节分量修正有许多实用的修正季节分量的方法. 在此我们概要地介绍一个方法以说明其基本大意.假定(6.1)中的季节分量的周期是p ,即1,0p k jp k k k s s s+===∑. (6.12)后一个约束是一个可识别条件. 若此约束不成立时,只要加一个常数到趋势分量t f ,并在季节分量修正中减去相同的常数. 归因于约束(6.12),当p 是一个奇数时,趋势能够方便地用具有(1)/2h p =-的滑动平均(6.5)来估计. 在(6.5)中季节分量平均掉,因而对趋势估计没有贡献. 当周期p 是偶数时,用如下稍加修改的形式估计趋势µ11(0.50.5)/,/2t d t d t d t d t f Y Y Y Y p d p --++-+=++++=L .季节分量能够按如下步骤来估计. 就一个例子来说,我们假定要处理的月度数据,且周期12p =. 在3月的季节分量的值能用在3月所得一切观测值的移去趋势分量后的平均来很好地近似. 这就得到估计µ[()/]*[()/]1()/{[()/][()/]1}T d k p k k jp k jp j d k p s Y f T d k p d k p --++=-+=-----+∑$,其中[]a 表示a 的整数部分,[/2]d p =. 在上述求和中对上下限所作的限制是为了保证数据不要太接近边界使得在趋势估计中边界影响达到最小. 这种初步估计可能不能精确地满足约束(6.12). 但这能够容易地通过用下式估计季节分量{}k s 来作修正**11,1,,dk k i i s s d s k p -==-=∑$$$L .以上方法还被用于没有趋势分量t f 的情形. 在这种情形,不需要移去趋势,即令µ0.t f =6.2.9 理论概况*问题(6.3)的理论表述应该得到注意. 一个简单的方式是把所得的时间序列{}t Y 看作是来自如下连续过程的离散化样本路径()()().Y t f t X t =+这种表述常常被用在金融时间序列建模中. 时间单位通常取年,每星期数据被看作是以1/52∆=的速度抽自连续过程. 对金融中的期权定价和风险管理,这种表述是非常有效的. 然而,在时域平滑方面,这种述有一些缺点. 首先,为了能够相容地估计()f t ,我们需要在给定的时间0t 的周围用大小为0h →的窗局部化数据. 但是,只要过程()X t 是连续的,所有的局部数据0{():}Y t t t h ∈±都是高度相关的,且当0h →时,相关系数趋于1. 这就蕴涵了局部数据变化不大,因而也就不需要局部平滑. 正如在图6.2中所看到的那样,局部数据变化很大,局部平滑就能改善趋势估计. 这样,以上表述从理论的观点来看似乎是病态的. 其次,在以上的表述下,趋势()f t 和随机误差()X t 有相似的光滑度(两者都是连续的). 因此,在()Y t 中没有希望将随机部分与趋势部分分离开来.一个代替的表述是推广等间隔设计的非线性回归模型到时间序列框架. 假定所得到的时间序列是来自模型(/),1,,,t t Y g t T X t T =+=L (6.13)其中g 是平滑时间趋势函数,{}t X 是随机过程,0t EX =. 在这种表述下,我们现在能够利用平滑技术从随机噪声中分离出平滑趋势. 一个小的缺点是平滑趋势()(/)f t g t T =依赖于观测数量T . 这个问题早就出现在具有固定设计的非参数回归文献中. 实际上它不是一个严重问题. 渐近理论毕竟只是一个工具,为我们理解理论性质提供简化的结构. 用(/)g t T 建模趋势是捕捉趋势比噪声变化更慢这一特征的简单的技术手段.在以上两种表述之间选择哪一个依赖于所研究的问题. 在纵向数据和泛函数据分析中,Hart 和Wehrly (1986)以及Silverman (1996)基本上是用前一种表述:人们通过模型()()()Y t f t X t =+观测到大量独立序列. 这种表述对他们的问题是适合的. 对时域平滑,模型(6.13)常被假定. 例如见Hall 和Hart (1990),Robinson (1997),以及Johnstone 和Silverman (1997). 这就保证了能捕捉到时间趋势比随机噪声更光滑这一特征. 进一步,它也保证了能相容地估计时间趋势.由公式(6.13)能够获得核和局部线性平滑的渐近性质. 估计g 的偏倚与具有均匀设计的独立样本情形是相同的. 核和局部线性平滑的方差经繁琐的计算也可得到. 它们依赖于噪声过程{}t X 的协方差结构. 一般地,我们假定{}t X 的自方差函数满足()Cov(,)~,X t t k X k X X C k k αγ-+≡→∞, (6.14)其中0,X C α>是常数. 在2.5.2中定义的分式ARIMA 过程就满足(6.14). 我们将估计(6.10)重写为µ(/)g t T . 对任何/(0,1)u t T =∈,使用(/)iEY g i T =和(6.11),我们得到偏倚 µ1,1,{(/)()()(/)}()()Ti Tu i T i Tu i w g i T g u g u i T u Eg u g u w =='∑----=∑. (6.15)注意,这个偏倚不依赖于误差过程{()}X t . 它完全是局部线性拟合的近似误差.为理论叙述的简单,我们假定K 有有界支撑. 这个假定可以冗长的叙述为代价而得到减弱. 特别地,可以使用像高斯核这样的轻尾核. 由j μ表示()j v K v dv +∞-∞⎰.在下面的定理中我们总结了渐近偏倚和方差,定理的证明放在§6.6.1. 注意,由于时间单位的尺度,/h T 和用在一般的非参数回归中的带宽是相同的.定理6.1 假定K 有有界支撑,满足0()1K μ=和1()0K μ=,且当/0h T →时,带宽h →∞.(a )如果()g ''⋅存在,且在点u 处连续,则 µ3221()()()()(/){(/)}2Eg u g u K g x x T o h T μ''-=+. (b )如果自方差函数X γ满足(6.14),我们有µ212212()()||,01,Var{()}2||||log(),1,()||||, 1.X X j X C K x K y x y dxdyh g u C K h h j K h ααααγα---∞-=-∞⎧-<<⎪⎪==⎨⎪∑>⎪⎩⎰⎰ (6.16) 定理6.1表明,过程{}t X 的协方差结构对渐近方差有强烈的影响. 反过来这也影响到渐近最优带宽,并解释了为什么独立数据的数据驱动带宽选择不能直接应用到相依数据.对核估计的类似于定理6.1的结果由Hall 和Hart (1990)证明. 最近,这些结果被Beran 和Feng (2000)用不同于§6.6.1给出的方法推广到局部多项式拟合. 他们还证明了对anti-persistent 过程,渐近方差具有阶12d h --.局部线性估计的渐近正态性也可以被建立. 如果误差过程{}t X 是高斯的,则它的加权平均估计(6.10)还是高斯的. 这样,局部线性估计的渐近正态性直接由定理6.1得到. 此外,在正态假定下,Csörgö和Mielniczuk (1995)建立了类似于定理5.4的最大偏差的渐近分布. 然而,对{}t X 的正态假定并不是本质的. 正如在Robinson (1997)中所证明的那样,这个条件可以去掉. 我们在此概要地叙述用于本章的技术. 令{}t ε是相对于它自身σ域的鞅差序列,即(|{,})0, a.s.t j E j t εε<=假定{}t X 是一双边无穷阶滑动平均过程:2,,t j t jjj j X a aε∞∞-=-∞=-∞=<∞∑∑且2{}t ε是一致可积的,并满足2(|{,})1,a.s.t j E j t εε<=分式ARIMA 过程满足这三个假定. 考虑加权和,,11TT T T t t T t t j j t j t S w X w a ε∞-==-∞=⎛⎫== ⎪⎝⎭∑∑∑,它是鞅差序列的和. 由鞅的性质,2,1Var()T T t t j j t S w a ∞∞-=-∞=⎛⎫= ⎪⎝⎭∑∑,假定这个方差存在. 下面的定理由Robinson (1997)给出. 类似的结果还可在Ibragimov 和Linnik (1971)中发现.定理6.2 在上面所述的条件下,倘若1/2,1max(Var())TT t t jT jt wao S --==∑,则有1/2Var()N(0,1)DT T S S -−−→.对于局部线性估计(6.10),易见µµ,,11/.T Tt i i t i t t i i f E f w X w ====∑∑这时渐近正态性变为验证定理6.2中所叙述的条件. 我们略去细节.6.3 状态域平滑6.3.1 非参数自回归状态域平滑与非参数预报密切相关. 考虑一个平稳时间序列{}t X . 为了简单起见,我们考虑仅基于变量1t X -的预报. 基于1t X x -=的t X 的最优预报是给定1t X x -=时,t X 的条件期望1()(|)t t m x E X X x -==,它在所有的预报函数g 中极小化MSE21{()}t t E X g X --.这个函数还称为阶为1的自回归函数. 当{}t X 是零均值平稳高斯过程时,这个条件均值是线性函数()m x ax =,条件方差是常数. 这就得到一个AR (1)模型1t t t X aX ε-=+.一般地,函数()m x 不必是线性的,条件方差也不必是常数. 然而,总是能够以如下方式表示数据11()()t t t t X m X X σε--=+, (6.17)其中21()Var(|)t t x X X x σ-==. 这里,t ε的条件均值为零,条件方差为1,即11(|)0,Var(|)1t t t t E X X εε--==.非参数平滑技术还能够用于包括自回归函数的估计以外的领域. 考虑一个双变量序列{(,):1,,}t t X Y t T =L ,它可以被看作是来自平稳过程的一个实现. 我们的兴趣是估计回归函数()(|)t t m x E Y X x ==. 为便于对问题的理解,我们记()()t t t t Y m X X σε=+, (6.18)其中2()Var(|),t t t x Y X x σε==满足(|)0,Var(|)1t t t t E X X εε==.显然,这个结构包括通过取1t t Y X +=而把估计的自回归函数作为一个特定的例子. 下面是三个有用的例子.例6.1 考虑平稳时间序列{}t Z . 对给定的k ,我们取1(),kt t t t Y Z X Z -==. 则目标函数变为1()(|)k k t t m x E Z Z x -==.条件方差可以通过用µµ221()()m x m x -来估计. 特别地,当1()m x 小得如例1.1中所给的利率差分数据,2()m x 基本上就如同条件方差. 换句话,对下面图6.4中所给的数据,均值回归函数是波动函数的平方()x σ=这就是由Stanton (1997)以及Fan 和Yao (1998)所给出的波动估计的基础.图6.4 对12个月国库券回报用局部线性拟合估计条件方差. (a )具有Epanechnikov 核和带宽索3.06h =的局部线性拟合的图示;(b )估计条件标准差用局部线性拟合(实曲线), Fan 和Yao (1998)的基于残差的方法(短虚曲线)和具有0.143α=和 1.324β=的参数模型()x x βσα=(长虚曲线)例6.2 再考虑平稳时间序列{}t Z . 我们取()t t Y I a Z b =<≤,它是区间(,]a b 上的示性函数,1t t X Z -=. 则目标函数变为1()(|)t t m x P a Z b Z x -=<≤=.特别地,如果a =-∞,我们就得到条件分布估计. 进一步,如果a y δ=-和b y δ=+,则当δ取值小时,()/(2)m x δ基本上就如同给定1t Z x -=时t Z 的条件密度. 这个条件密度函数对了解给定1t Z x -=时t Z 分布的全貌是非常有用的. 特别地,自回归函数是这个分布的中心,波动函数是这个分布的扩展. 这个思想形成了Fan 、Yao 和Tong (1996)估计条件密度(§6.5)和与它们相关的泛函(§10.3),以及Hall ,Wolff 和Yao (1999)估计条件分布函数(§10.3),Polonik 和Yao (2000)估计最小量预报区域(§10.4)等所用方法的起源.例6.3 对给定的时间序列{}t Z ,多步预报能够通过令t t d Y Z +=和t t X Z =来完成,其中d 是预报步长数. 对这种情形,我们用非参数方法,基于变量t Z 来估计最优d 步预报()(|)t d t m x E Z Z x +==,下面的图6.6画出了山猫数据的一步和两步预报. 把这个方法和例6.1和例6.2中的技术结合起来,我们能够估计多步预报的条件方差和条件密度. 6.3.2 局部多项式拟合局部多项式拟合是一个用途广泛的非参数技术. 它拥有多种好的统计性质. 关于这些内容可参阅Fan 和Gijbels (1996). 令()()v mx 是定义在(6.18)中的回归函数v 阶导数. 局部多项式技术可非常方便地用来估计()()v mx ,包括回归函数本身(0)()()m x m x =. 由于回归函数的形式没有被指定,因而距离0x 远的数据点对0()m x 提供了很少的信息. 因此,我们只能使用0x 附近的局部数据点. 假定()m x 在0x 点处有(1)p +阶导数. 由泰勒展开,对0x 局部邻域的x ,我们有200000()()()()()()2!m x m x m x m x x x x x '''=+-+- ()1000()(){()}!p p p m x x x O x x p +++-+-L . (6.19) 在统计建模方面,对0x 周围的局部点,我们建模()m x 为00()()pj jj m x x x β=≈-∑. (6.20)参数{}j β依赖于0x ,故称之为局部参数. 显然,局部参数()0()/!v v m x v β=. 用局部数据拟合局部模型(6.20)可极小化2001{()}()pT j tjt h t t j Y X x K X x β==---∑∑, (6.21)其中h 是控制局部邻域大小的带宽.作为一个说明的例子,我们取21()t t t Y X X -=-,其中t X 是12个月国库券回报. 带宽为 3.06h =,它是由预渐近代入法(见§6.3.5)用C-程序“lls.c ”计算得到的. 在012x =点处(百分数),线段(1)p =用来拟合在阴影区域0x h ±中的局部数据,在此对每个数据,权用虚曲线(对应于Epanechnikov 核)表示. 在0x 点处局部截距0β是拟合的线段和垂直线段间的交点. 这就构成了在点012x =处的回归函数(0)v =的估计. 沿着水平轴滑动这个窗,我们就获得在区间[3,14]上要估计的曲线. 条件标准差被展示在图6.4(b )中. 基于残差来估计条件方差的方法由Fan 和Yao (1998)提出,其计算通过C 程序“autovar.c ”来实现(还可见§8.7.2),为比较方便,它用短虚曲线表示. 参数模型()m x x βα=常被用来对生产率动态的波动进行建模,它用长的虚曲线表示. 正如人们所看到的那样,在参数和非参数方法之间还存在本质差异,这对参数拟合是否合适提出了疑问. 选择带宽预渐近代入方法由Fan 和Gijbels (1995)提出,见§6.3.5.用µ,0,,j j p β=L ,表示最小二乘问题(6.21)的解. ()0()v m x 的局部多项式估计是µµ0()!(0,1,,)v v m x v v p β==L . 这里,我们不用记号µ()0()v m x 是为了避免由估计回归µ0()mx 的v 阶导函数所带来的混淆. 事实上,导数()m x '是用局部斜率来估计,而不是用估计的回归函数的导数来估计.当0p =,局部多项式拟合退化为该回归估计11()()()T t t h t T t h tY K X x m x K X x ==∑-=∑-, 它还被称为Nadaraya-Watson 估计. 因此,从局部逼近的观点来看,核回归估计是基于局部常数逼近的. 见(6.19).使用矩阵记号来表示局部多项式回归更为方便. 用X 表示相应于(6.21)的设计矩阵:1010001()()1()()pp T T X x X x X x X x ⎛⎫-- ⎪= ⎪ ⎪--⎝⎭X LM MML ,且令µµµ01,T p Y Y βββ⎛⎫⎛⎫ ⎪ ⎪== ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭y M M . 则加权最小二乘问题(6.21)能够写为min()()T βββ--y X W y X , (6.22)其中0(,,)Tp βββ=L ,W 是对角矩阵,它的第i 个元素为0()h i K X x -. 解向量为µ1()T T β-=X WX X Wy . (6.23) 为了实现局部多项式估计,我们需要选择阶p ,带宽h 和核K . 当然,这些参数相互关联. 当h =∞时,局部多项式拟合就变成全局多项式拟合,阶p 决定模型的复杂性. 与参数模型不同,局部多项式拟合的复杂性主要是由带宽来控制. 因此,p 通常是较小的,故而选择p 的问题就变得不重要了. 如果目的是估计()v m,则当p v -是奇数,局部多项式拟合自动修正边界偏倚. 进一步,当p v -是奇数,与1p -阶拟合(则1p v --是偶数)相比较,p 阶拟合包含了一个多余参数,但没有增加估计()v m的方差. 不过这个。
第7章 非线性时间序列模型经济理论建议:许多重要的时间序列显示出非线性行为。
工资有向下刚性是许多宏观经济模型的关键特征。
在经济周期中,衰退比恢复更明显,如重要的宏观经济变量:产出和就业,下降比上升更明显。
由于标准的ARMA 模型依赖于线性差分方程,需要新的动态设定来捕捉非线性行为。
本章有三个目的:1.比较ARMA 模型与各种非线性模型。
几个非线性形式是非常有用的。
这些非线性模型可用OLS 方法、非线性OLS 、最大似然方法来估计。
2.给出一些检验,确定非线性调整的存在。
检验非线性的存在比建立非线性要简单得多。
3.介绍了非线性形式的单位根和协整。
7.1 ARMA 模型的简单扩充非线性自回归(NLAR )的最简单形式是1()t t t y f y ε-=+这是一个一阶非线性自回归模型,也可以用更有趣的方式 111()t t t t y a y y ε--=+ (7.1.1) 这里1111()()t t t a y y f y ---=方程(7.1.1)与AR(1)模型很象,除了系数11()t a y -是1t y -的函数。
如果我们不知道()f ⋅的形式,非线性和时变参数就很难确定。
一般的,p 阶非线性自回归模型12(,,,)t t t t p t y f y y y ε---=+ (7.1.2) 表示为()NLAR p 。
估计(7.1.2)的困难在于函数()f ⋅的形式是未知的。
一种方式是利用Taylor 展开。
如,对于(2)NLAR 模型12(,)t t t t y f y y ε--=+不高于3阶的Taylor 级数展开是22011221212111222t t t t t t t y a a y a y a y y a y a y ------=+++++22331112121211112222t t t t t t t a y y a y y a y a y ε------+++++对于更一般的()NLAR p 有广义自回归(GAR )模型011111p p p r sk l ti t i ijkl t i t j t i i j k l y a a y a y y ε---======+++∑∑∑∑∑ (7.1.3) 通常选取,4r s ≤。