首发于Gryffindor
(No.38)时间序列异常点检测算法

(No.38)时间序列异常点检测算法

写在前面:

针对一个数值序列,识别出其中的异常波动点。例如:

p = [1 1 1.1 1 0.9 1 1 1.1 1 0.9 1 1.1 1 1 0.9 1 1 1.1 1 1 1 1 1.1 0.9 1 1.1 1 1 0.9 1, ...
     1.1 1 1 1.1 1 0.8 0.9 1 1.2 0.9 1 1 1.1 1.2 1 1.5 1 3 2 5 3 2 1 1 1 0.9 1 1 3, ... 
     2.6 4 3 3.2 2 1 1 0.8 4 4 2 2.5 1 1 1];

其实不同场景有不同的使用需求,有的场景需要识别peak点,有的场景需要识别异常波动的起始点。

下面介绍一种方法对不同场景下都有一定启发意义,可以在该基础上做一定的trick。


Smoothed z-score algorithm

主要思想

1 利用过去一段历史窗口针对下个节点值做预测(利用平均值,方差信息),若是其超过了一定的阈值,则是个异常点。

2 对异常点的数值进行平滑,以便评估下下个点是否为异常点。因为不做平滑,由于当前是个异常点,对平均值、方差影响较大,若是下一个点仍是异常点,可能不会识别。


可以看到红色是序列数据,灰色区域是可接受的范围值,中间的绿线是平滑后的预估值。
当红色点超出灰色区域,则在下面标记一个信号量,其取值为-1,0,1.

这样就把一个序列数据,转变成一个类似脉冲信号的中间态。然后我们就可以基于这个信号根据需求加以利用。


python代码:

可见,根据当前值和历史平均值的绝对差值和方差做比较。

然后对当前节点做平滑,平滑系数是(0,1),值越大越受当前值的影响。

参考参数:lag=5左右, threshold=3.5左右, influence=0.5左右



参考:
stackoverflow.com/quest

编辑于 2018-08-10 18:17