(No.38)时间序列异常点检测算法
写在前面:
针对一个数值序列,识别出其中的异常波动点。例如:
p = [1 1 1.1 1 0.9 1 1 1.1 1 0.9 1 1.1 1 1 0.9 1 1 1.1 1 1 1 1 1.1 0.9 1 1.1 1 1 0.9 1, ...
1.1 1 1 1.1 1 0.8 0.9 1 1.2 0.9 1 1 1.1 1.2 1 1.5 1 3 2 5 3 2 1 1 1 0.9 1 1 3, ...
2.6 4 3 3.2 2 1 1 0.8 4 4 2 2.5 1 1 1];
其实不同场景有不同的使用需求,有的场景需要识别peak点,有的场景需要识别异常波动的起始点。
下面介绍一种方法对不同场景下都有一定启发意义,可以在该基础上做一定的trick。
Smoothed z-score algorithm
主要思想:
1 利用过去一段历史窗口针对下个节点值做预测(利用平均值,方差信息),若是其超过了一定的阈值,则是个异常点。
2 对异常点的数值进行平滑,以便评估下下个点是否为异常点。因为不做平滑,由于当前是个异常点,对平均值、方差影响较大,若是下一个点仍是异常点,可能不会识别。
可以看到红色是序列数据,灰色区域是可接受的范围值,中间的绿线是平滑后的预估值。
当红色点超出灰色区域,则在下面标记一个信号量,其取值为-1,0,1.
这样就把一个序列数据,转变成一个类似脉冲信号的中间态。然后我们就可以基于这个信号根据需求加以利用。
python代码:
可见,根据当前值和历史平均值的绝对差值和方差做比较。
然后对当前节点做平滑,平滑系数是(0,1),值越大越受当前值的影响。
参考参数:lag=5左右, threshold=3.5左右, influence=0.5左右
参考:
https://stackoverflow.com/questions/22583391/peak-signal-detection-in-realtime-timeseries-data/43512887#43512887
编辑于 2018-08-10 18:17