数学人生
首发于数学人生
时间序列模型之相空间重构模型

时间序列模型之相空间重构模型

一般的时间序列主要是在时间域中进行模型的研究,而对于混沌时间序列,无论是混沌不变量的计算,混沌模型的建立和预测都是在所谓的相空间中进行,因此相空间重构就是混沌时间序列处理中非常重要的一个步骤。所谓混沌序列,可以看作是考察混沌系统所得到的一组随着时间而变化的观察值。假设时间序列是  \{ x(i): i=1,\cdot \cdot \cdot, n\}, 那么吸引子的结构特性就包含在这个时间序列之中。为了从时间序列中提取出更多有用的信息,1980 年 Packard 等人提出了时间序列重构相空间的两种方法:导数重构法坐标延迟重构法。而后者的本质则是通过一维的时间序列 \{x(i)\} 的不同延迟时间 \tau 来构建 d 维的相空间矢量

y(i)=(x(i),...,x(i+(d-1)\tau)), \text{ where }1\leq i\leq n-(d-1)\tau.

1981年 Takens 提出嵌入定理:对于无限长,无噪声的 d' 维混沌吸引子的一维标量时间序列  \{x(i): 1\leq i \leq n\} 都可以在拓扑不变的意义下找到一个 d 维的嵌入相空间,只要维数 d\geq 2d^{'}+1. 根据 Takens 嵌入定理,我们可以从一维混沌时间序列中重构一个与原动力系统在拓扑意义下一样的相空间,混沌时间序列的判定,分析和预测都是在这个重构的相空间中进行的,因此相空间的重构就是混沌时间序列研究的关键。


1. 相空间重构

相空间重构技术有两个关键的参数:嵌入的维数 d 和延迟时间 \tau. 在 Takens 嵌入定理中,嵌入维数和延迟时间都只是理论上证明了其存在性,并没有给出具体的表达式,而且实际应用中时间序列都是有噪声的有限序列,嵌入维数和时间延迟必须要根据实际的情况来选取合适的值。

关于嵌入维数 d 和延迟时间 \tau 的取值,通常有两种观点:第一种观点认为 d\tau 是互不相关的,先求出延迟时间之后再根据它求出合适的嵌入维数。求出延迟时间 \tau 比较常用的方法主要有自相关法平均位移法复自相关法互信息法等,关键的地方就是使得原时间序列经过时间延迟之后可以作为独立的坐标来使用。同时寻找嵌入维数的方法主要是几何不变量方法虚假最临近法(False Nearest Neighbors)和它改进之后的 Cao 方法等。第二种观点则是认为延迟时间和嵌入维数是相关的。1996 年 Kugiumtzis 提出的时间窗长度则是综合考虑两者的重要参数。1999年,Kim 等人提出了 C-C 方法,该方法使用关联积分同时估计出延迟时间和时间窗。

(1) 延迟时间 \tau 的确定:

如果延迟时间 \tau 太小,则相空间向量

y(i)=(x(i),\cdot\cdot\cdot, x(i+(d-1)\tau), \text{ where } 1\leq i\leq n-(d-1)\tau

中的两个坐标分量 x(i+j\tau)x(i+(j+1)\tau) 在数值上非常接近,以至于无法相互区分,从而无法提供两个独立的坐标分量;但是如果延迟时间 \tau 太大的话,则两个坐标分量又会出现一种完全独立的情况,混沌吸引子的轨迹在两个方向上的投影就毫无相关性可言。因此需要合适的方法来确定一个合适的延迟时间 \tau, 从而在独立和相关两者之间达到一种平衡。

(1.1) 自相关系数法:

自相关函数是求延迟时间 \tau 比较简单的一种方法,它的主要理念就是提取序列之间的线性相关性。对于混沌序列 x(1), x(2),\cdot \cdot \cdot, x(n), 可以写出其自相关函数如下:

R(\tau)=\frac{1}{n}\sum_{i=1}^{n-\tau}x(i)\cdot x(i+\tau).

此时就可以使用已知的数据 x(1),\cdot \cdot\cdot, x(n) 来做出自相关函数 R(\tau) 随着延迟时间 \tau 变化的图像,当自相关函数下降到初始值 R(0)1-e^{-1} 时,i.e. R(\tau)=(1-e^{-1})R(0), 所得到的时间 \tau 也就是重构相空间的延迟时间。虽然自相关函数法是一种简便有效的计算延迟时间的方法,但是它仅仅能够提取时间序列的线性相关性。根据自相关函数法可以让 x(i), x(i+\tau) 以及 x(i+\tau), x(i+2\tau) 之间不相关,但是 x(i), x(i+2\tau) 之间的相关性可能会很强。这一点意味着这种方法并不能够有效的推广到高维的研究。而且选择下降系数 1-e^{-1} 时,这一点可能有点主观性,需要根据具体的情况做适当的调整。因此再总结了自相关法的不足之后,下面介绍一种判断系统非线性关系性的一种方法:交互信息法。

(1.2) 交互信息法:

在考虑了以上方法的局限性之后,Fraser 和 Swinney 提出了交互信息法(Mutual Information Method)。假设两个离散信息系统  \{ s_{1},\cdot \cdot \cdot, s_{m}\}, \{q_{1},\cdot\cdot\cdot, q_{n}\}

所构成的系统 SQ 。通过信息论和遍历论的知识,从两个系统中获得的信息熵分别是:

H(S)=-\sum_{i=1}^{m}P_{S}(s_{i})\log_{2}P_{S}(s_{i}), H(Q)=-\sum_{j=1}^{n}P_{Q}(q_{j})\log_{2}P_{Q}(q_{j}).

其中 P_{S}(s_{i}), P_{Q}(q_{i}) 分别是 SQ 中事件 s_{i}q_{i} 的概率。交互信息的计算公式是:

I(S,Q)=H(S)+H(Q)-H(S,Q), 其中 H(S,Q)=-\sum_{i=1}^{m}\sum_{j=1}^{n}P_{S,Q}(s_{i},q_{j})\log_{2}P_{S,Q}(s_{i},q_{j}).

这里的 P_{S,Q}(s_{i},q_{j}) 称为事件 s_{i} 和事件 q_{j} 的联合分布概率。交互信息标准化就是

I(S,Q)=I(S,Q)/\sqrt{H(S)\times H(Q)}.

现在,我们通过信息论的方法来计算延迟时间 \tau.

定义 (S,Q)=(x(i), x(i+\tau)), \text{ where }1\leq i\leq n-\tau, 也就是 S 代表时间 x(i), Q 代表时间 x(i+\tau). 那么 I(S,Q) 则是关于延迟时间 \tau 的函数,可以写成 I(\tau). I(\tau) 的大小表示在已知系统 S, 也就是 x(i) 的情况下,系统 Q 也就是 x(i+\tau) 的确定性的大小。 I(\tau)=0 表示 x(i)x(i+\tau) 是完全不可预测的,也就是说两者完全不相关。而 I(\tau) 的第一个极小值,则表示了 x(i)x(i+\tau) 是最大可能的不相关,重构时使用 I(\tau) 的第一个极小值最为最优的延迟时间 \tau.

交互信息法的关键在于怎么计算联合概率分布 P_{S,Q}(s_{i},q_{j}) 以及 SQ 系统的概率分布 P_{S}(s_{i})P_{Q}(q_{j}). 这里采取的方法是等间距格子法,其方法简要概述如下。

(S,Q)=(x(i), x(i+\tau)), \text{ where }1\leq i \leq n-\tau,(S,Q) 平面用一个矩形包含上面所有的点。将矩形 S 方向上等分成 M_{1} 份, Q 方向等分成 M_2 份(注: M_{1},M_{2}取值100~200之间即可)。那么在 S 方向上格子的长度就是 \epsilon_{1}, Q 方向上格子的长度就是 \epsilon_{2}. 假设 (a,b)(S,Q) 平面矩形左下角的顶点坐标。

如果 (j-1)\epsilon_{2}\leq s-b <j\epsilon_{2}, 那么 s 在第 i 个格子中,对 Row[i] 做一次记录;

如果 (j-1)\epsilon_{2}\leq s-b <j\epsilon_{2}, 那么 q 在第 j 个格子中,对 Col[j] 做一次记录。 x(i)x(i+\tau) 序列的总数都是 n-\tau, 那么

P_{S}(i)=Row[i]/(n-\tau), \text{ where } 1\leq i\leq M_{1},

P_{Q}(j)=Col[j]/(n-\tau), \text{ where } 1\leq j\leq M_{2}.

如果 (i-1)\epsilon_{1}\leq s-a<i\epsilon_{1}(j-1)\epsilon_{2}\leq q-b < j\epsilon_{2},(s,q) 在标号为 (i,j) 的格子中,对 Together[i][j] 做一次记录。那么

P_{S,Q}(i,j)=Together[i][j]/(n-\tau)^{2}, \text{ where } 1\leq i\leq M_{1}, 1\leq j\leq M_{2}.

根据以上信息论的公式,可以得到:

H(S)=-\sum_{i=1}^{M_{1}}P_{S}(i)\log_{2}P_{S}(i),

H(Q)=-\sum_{j=1}^{M_{2}}P_{Q}(j)\log_{2}P_{Q}(j),

H(S,Q)=-\sum_{i=1}^{M_{1}}\sum_{j=1}^{M_{2}}P_{S,Q}(i,j)\log_{2}P_{S,Q}(i,j).

I(S,Q)=H(S)+H(Q)-H(S,Q),

I(S,Q)=I(S,Q)/\sqrt{H(S)\times H(Q)}.


交互信息曲线 I(\tau)=I(S,Q) 第一次下降到极小值所对应的延迟时间 \tau 则是最佳延时时间。

(2) 嵌入维数 d 的确定:

(2.1) 几何不变量法:

为了确定嵌入维数 d, 实际应用中通常的方法是计算吸引子的某些几何不变量(如关联维数,Lyapunov 指数等)。选择好延迟时间 \tau 之后逐渐增加维数 d, 直到他们停止变化为止。从Takens 嵌入定理分析可知,这些几何不变量具有吸引子的几何性质,当维数 d 大于最小嵌入维数的时候,几何结构已经被完全打开,此时这些几何不变量与嵌入的维数无关。基于此理论,可以选择吸引子的几何不变量停止变化时的嵌入维数 d 作为重构的相空间维数。

(2.2) 虚假最临近点法:

从几何的观点来看,混沌时间序列是高维相空间混沌运动的轨迹在一维空间的投影,在这个投影的过程中,混沌运动的轨迹就会被扭曲。高维相空间并不相邻的两个点投影到一维空间上有的时候就会成为相邻的两点,也就是虚假邻点。重构相空间,实际上就是从混沌时间序列中恢复混沌运动的轨迹,随着嵌入维数的增大,混沌运动的轨道就会被打开,虚假邻点就会被逐渐剔除,从而整个混沌运动的轨迹得到恢复,这个思想就是虚假最临近点法的关键。

d 维相空间中,每一个矢量

y_{i}(d)=(x(i),\cdot \cdot \cdot, x(i+(d-1)\tau), \text{ where }1\leq i\leq n-(d-1)\tau

都有一个欧几里德距离的最邻近点y_{n(i,d)}(d), (n(i,d)\neq i, 1\leq n(i,d)\leq n-(d-1)\tau) 其距离是

R_{i}(d)=||y_{i}(d)-y_{n(i,d)}(d)||_{2}.

当相空间的维数从 d 变成 d+1 时,这两个点的距离就会发生变化,新的距离是 R_{i}(d+1), 并且

(R_{i}(d+1))^{2}=(R_{i}(d))^{2}+||x(i+d\tau)-x(n(i,d)+d\tau)||_{2}^{2}.

如果 R_{i}(d+1)R_{i}(d) 大很多,那么就可以认为这是由于高维混沌吸引子中两个不相邻得点投影到低维坐标上变成相邻的两点造成的,这样的临近点是虚假的,令

a_{1}(i,d)=||x(i+d\tau)-x(n(i,d)+d\tau)||_{2}/R_{d}(i).

如果 a_{1}(i,d)>R_{\tau} \in [10,50], 那么 y_{n(i,d)}(d) 就是 y_{i}(d) 的虚假最临近点。这里的 R_{\tau} 是阀值。

对于实际的混沌时间序列,从嵌入维数的最小值 2 开始,计算虚假最临近点的比例,然后逐渐增加维数 d, 直到虚假最临近点的比例小于 5% 或者虚假最临近点的不再随着 d 的增加而减少时,可以认为混沌吸引子已经完全打开,此时的 d 就是嵌入维数。在相空间重构方面,虚假最临近点法(FNN)被认为是计算嵌入维数很有效的方法之一。

(2.3) 虚假最临近点法的改进-Cao方法:

虚假最临近点法对数据的噪声比较敏感,而且实际操作中需要选择阀值 R_{\tau}, 具有很强的主观性。此时 Cao Liangyue 教授提出了改进的 FNN 方法,此方法计算时只需要延迟时间 \tau 一个参数,用较小的数据量就可以求的嵌入维数 d.

假设我们有时间序列 x(1),\cdot\cdot\cdot, x(n), 那么基于延迟时间 \tau 所构造的向量空间就是: y_{i}(d)=(x(i),\cdot\cdot\cdot x(i+(d-1)\tau)), \text{ where } i=1,2, \cdot\cdot\cdot, n-(d-1)\tau,

这里的 d 是作为嵌入维数, \tau 是作为嵌入时间。 y_{i}(d) 则表示第 id 维重构向量。与虚假最临近点法类似,定义变量

a(i,d)=||y_{i}(d+1)-y_{n(i,d)}(d+1)||_{\infty}/||y_{i}(d)-y_{n(i,d)}(d)||_{\infty}, \text{ where }i=1,2,\cdot\cdot\cdot, n-d\tau,

这里的 ||\cdot ||_{\infty} 是最大模范数。其中 y_{i}(d+1) 是第 id+1 维的重构向量,i.e. y_{i}(d+1)=(x(i),\cdot\cdot\cdot, x(i+d\tau)). n(i,d) \in \{1,\cdot\cdot\cdot, n-d\tau\} 是使得 y_{n(i,d)}(d)d 维相空间里面,在最大模范数下与 y_{i}(d) 最近的向量,并且  n(i,d)\neq i, 显然 n(i,d)id 所决定。

定义 E(d)=(n-d\tau)^{-1}\cdot\sum_{i=1}^{n-d\tau} a(i,d). E(d) 与延迟时间 \tau 和嵌入维数 d 有关。为了发现从 dd+1, 该函数变化了多少,可以考虑 E1(d)=E(d+1)/E(d).d 大于某个值 d_0 时, E1(d) 不再变化,那么 d_{0}+1 则是我们所寻找的最小嵌入维数。除了 E1(d), 还可以定义一个变量 E2(d) 如下。令

E^{*}(d)=(n-d\tau)^{-1}\cdot \sum_{i=1}^{n-d\tau}|x(i+d\tau)-x(n(i,d)+d\tau)|,

这里的 n(i,d) 和上面的定义一样,也就是使得 y_{n(i,d)}(d)y_{i}(d) 最近的整数,并且 n(i,d)\neq i. 定义 E2(d)=E^{*}(d+1)/E^{*}(d). 对于随机序列,数据之间没有相关性, E2(d)\equiv 1. 对于确定性的序列,数据点之间的关系依赖于嵌入维数 d 的变化,总存在一些值使得 E2(d)\neq 1.


2. 相空间的预测

通过前面的相空间重构过程,一个混沌时间序列 x(1),\cdot \cdot \cdot, x(n) 可以确定其延迟时间 \tau 和嵌入维数 d, 形成 n-(d-1)\taud 维向量:

\vec{y}_{1}=y_{1}(d)=(x(1),\cdot\cdot\cdot, x(1+(d-1)\tau)),

\vec{y}_{2}=y_{2}(d)=(x(2),\cdot\cdot\cdot, x(2+(d-1)\tau)),

\cdot \cdot \cdot

\vec{y}_{i}=y_{i}(d)=(x(i),\cdot\cdot\cdot, x(i+(d-1)\tau)),

\cdot \cdot \cdot

\vec{y}_{n-(d-1)\tau}=y_{n-(d-1)\tau}(d)=(x(n-(d-1)\tau),\cdot\cdot\cdot, x(n)).

这样我们就可以在 d 维欧式空间 \mathbb{R}^{d} 建立一个动力系统的模型如下: \vec{y}_{i+1}=F(\vec{y}_{i}), 其中 F 是一个连续函数。

(1) 局部预测法:

假设 N=n-(d-1)\tau, 根据连续函数的性质可以知道:如果 \vec{y}_{N}\vec{y}_{j} 非常接近,那么 \vec{y}_{N+1}\vec{y}_{j+1} 也是非常接近的,可以用 x(j+1+(d-1)\tau) 作为 x(N+1+(d-1)\tau)=x(n+1) 的近似值。

(1.1) 局部平均预测法:

考虑向量 \vec{y}_{N}k 个最临近向量  \vec{y}_{t_{1}},\cdot\cdot\cdot, \vec{y}_{t_{k}}. i.e. 也就是从其他的 N-1 个向量中选取前 k 个与 \vec{y}_{N} 最临近的向量,此处用欧几里德范数 ||\cdot ||_{2} 或者最大模范数 ||\cdot ||_{\infty}. 根据局部预测法的观点,可以得到 x(n+1) 的近似值:

x(n+1)\approx k^{-1}\cdot \sum_{j=1}^{k}x(t_{j}+1+(d-1)\tau).

也可以引入权重的概念来计算近似值:

x(n+1)\approx \sum_{j=1}^{k}x(t_{j}+1+(d-1)\tau)\cdot \omega(\vec{y}_{t_{j}},\vec{y}_{N}).

其中 \omega(\vec{y}_{t_{j}}, \vec{y}_{N})=K_{h}(||\vec{y}_{t_{j}}-\vec{y}_{N}||) / \sum_{j=1}^{k} K_{h}(||\vec{y}_{t_{j}}-\vec{y}_{N}||), \text{ where } 1\leq j \leq k,

K(x)=\exp(-x^{2}/2),

K_{h}(x)=h^{-1}K(h^{-1}x)=h^{-1}\exp(-x^{2}/(2*h^{2})).


(1.2) 局部线性预测法:

假设 N=n-(d-1)\tau, 则有 y_{N}(d)=(x(N),\cdot\cdot\cdot, x(n)).

局部线性预测模型为

\hat{x}(n+1)=c_{0}x(N)+c_{1}x(N+\tau)+\cdot\cdot\cdot+c_{d-1}x(N+(d-1)\tau)+c_{d},

其中 c_{i}, 0\leq i\leq d 是待定系数。假设向量 \vec{y}_{N}k 个最临近向量是 \vec{y}_{t_{1}},\cdot\cdot\cdot,\vec{y}_{t_{k}}. 此处可以用欧几里德范数 ||\cdot ||_{2} 或者最大模范数 ||\cdot ||_{\infty}. 这里使用最小二乘法来求出 c_{i}, 0\leq i\leq d 的值。也就是求 c_{i} 使得

||Ab-Y||_{2}^{2}=\sum_{j=1}^{k}(\hat{x}(t_{j}+1+(d-1)\tau)-x(t_{j}+1+(d-1)\tau))^{2}

=\sum_{j=1}^{k}(c_{0}x(t_{j})+c_{1}x(t_{j}+\tau)+\cdot\cdot\cdot+c_{d-1}x(t_{j}+(d-1)\tau)+c_{d}-x(t_{j}+1+(d-1)\tau))^{2}

取得最小值,其中 Y=(x(t_{1}+1+(d-1)\tau), x(t_{2}+1+(d-1)\tau),\cdot\cdot\cdot x(t_{k}+1+(d-1)\tau))^{T}, b=(c_{0},c_{1},\cdot\cdot\cdot, c_{d})^{T}, 矩阵 A 的第 j 行是 d+1 维向量  (x(t_{j}),\cdot\cdot\cdot, x(t_{j}+(d-1)\tau), 1), \text{ where }1\leq j\leq k. 根据最小二乘法可以得到待定系数向量 b=(A^{T}A)^{-1}A^{T}Y 是最小二乘解。

(1.3) 局部多项式预测法:

(2) 全局预测法:

(2.1) 神经网络

(2.2) 小波网络

(2.3) 遗传算法

3. 实验数据

这里使用 Lorenz 模型来作为测试数据,

dx/dt=\sigma(y-x),

dy/dt=x(\rho-z)-y,

dz/dt=xy-\beta z,

其中 x, y, z 是系统的三个坐标,  \sigma, \rho, \beta 是三个系数。在这里,我们取 \rho=28, \sigma=10, \beta=8/3. 在解这个常微分方程的时候,使用了经典的 Runge-Kutta 数值方法。

测试数据1:

使用 1300 个点,预测未来 100 个点,绿色曲线表示 Lorenz 模型在 z 坐标上的实际数据,红线右侧表示开始预测,蓝色曲线表示使用相空间重构模型所预测的数据。根据统计学分析可以得到:在红色线条的右侧,蓝色曲线的点和绿色曲线的点的 Normalized Root Mean Square Error<8%, Mean Absolute Percentage Error<5.3%, 相关系数>97%.

把红线附近的图像放大可以看的更加清楚:


测试数据2:

使用 1800 个点,预测未来 100 个点,绿色曲线表示 Lorenz 模型在 x 坐标上的实际数据,红线右侧表示开始预测,蓝色曲线表示使用相空间重构模型所预测的数据。根据统计学分析可以得到:在红色线条的右侧,蓝色曲线的点和绿色曲线的点的 Normalized Root Mean Square Error<1%, Mean Absolute Percentage Error<2%, 相关系数>99%.


把红线附近的图像放大:


使用同样的数据量,也就是 n=1800,预测未来 100 个点,绿色曲线表示 Lorenz 模型在 z 坐标上的实际数据,红线右侧表示开始预测,蓝色曲线表示使用相空间重构模型所预测的数据。根据统计学分析可以得到:在红色线条的右侧,蓝色曲线的点和绿色曲线的点的Normalized Root Mean Square Error<1%, Mean Absolute Percentage Error<1%, 相关系数>99%.


把红线附近的图像放大:


参考文献:

  1. en.wikipedia.org/wiki/L
  2. en.wikipedia.org/wiki/R
  3. en.wikipedia.org/wiki/M
  4. Practical method for determining the minimum embedding dimension of a scalar time series
  5. 基于混沌理论的往复式压缩机故障诊断
  6. determining embedding dimension for phase-space reconstruction using a geometric construction
  7. Time Series Prediction by Chaotic Modeling of Nonlinear Dynamical Systems
  8. nonlinear dynamics delay times and embedding windows
发布于 2018-01-13

文章被以下专栏收录