视觉跟踪Visual Tracking同学一定要关注这篇Correlation Filter理论文章

视觉跟踪Visual Tracking同学一定要关注这篇Correlation Filter理论文章

我觉得下面这篇文章很可能是近几年相关滤波correlation filter最重大的理论进展。

视觉跟踪这几年发展很快,然而有突出创新的并不多。这几年在相关滤波的方法基础上的改进的文章很多,然而理论上并没有什么大的创新,自MOSSE 【1】和 KCF【2,3】 出现,相关滤波的理论便停滞不前。可是基于相关滤波的tracking 文章却层出不穷,可以参考【4-5】。

然而今天我发现了一篇将相关滤波理论进一步推广完善,但似乎被visual tracking community 忽略的一篇理论文章,该文章发表于AAAI2018,但并不是一篇pure tracking paper。虽然不是由国内单位发表,但毕竟是华人,一定支持,毕竟能做出理论推广难度很大。

  • Chen Wang, Le Zhang, Lihua Xie, and Junsong Yuan, "Kernel Cross-Correlator", The Thirty-Second AAAI Conference on Artificial Intelligence (AAAI-18), Feb. 2018
[1709.05936] Kernel Cross-Correlatorarxiv.org

做tracking的人都知道,相关滤波理论最重要的就是可以在o(n log n) 的复杂度预测目标的平移运动,基本原理是将先将数据转化到频率域,然后空间域的矩阵的逆操作便成功转化成频率域的element-wise division。于是整个算子的复杂度由傅立叶变换的o(n log n)决定。

可是在KCF 推导时候,从ridge regression出发,引用了一个重要定理【6】:

循环矩阵X可以由其第一列(或第一行)生成,F 为傅立叶矩阵(常数阵),\hat(x) 是X 第一行的傅立叶变换


于是乎,KCF 的结论有如下两条限制:

  1. 所有的training sample必须互为 circular shifts, 这也是KCF可以预测平移运动的重要原因。
  2. 所用到的kernel function必须具有circular不变性,否则无法将矩阵的逆操作转化成频率域的element-wise division。

这两条限制是KCF可以在频率域内加速的重要原因,然而也成为KCF应用到其他领域的的巨大阻碍:

  1. 无法预测除translation之外的其他affine transform, 如scale, rotation。
  2. 无法应用所有的kernel function。

然而,今天我推荐的这篇文章完全去除了这两条限制,并且最终解的形式完全相同,仍旧为o(n log n) 的复杂度!

这篇文章直接从cross-correlation 出发,首先定义了一个kernel vector  \boldsymbol{\kappa}_{\mathbf{z}}(\mathbf{x}) = [\cdots\kappa(\mathbf{x}, \mathbf{z}_i) \cdots]^T ,其中 \mathbf{z}_i 是由training sample任意生成的affine transform,比如translation, scale和rotation。因为cross-correlation在频率域内是element-wise相乘,所以作者直接定义了目标输出 \mathbf{g} 和未知的correlator \mathbf{h} , 于是直接有如下kernel cross-correlator!

\hat{\mathbf{g}} =  \hat{\boldsymbol{\kappa}}_{\mathbf{z}}(\mathbf{x}) \odot \hat{\mathbf{h}}^*

与此同时,为了求得\mathbf{h} ,把测试sample \mathbf{x} 映射到pre-defined target \mathbf{g},作者直接最小化频率域内的sum of squared error (SSE) :

\min_{\hat{\mathbf{h}}^*}\sum_{i=1}^{s}\|\hat{\boldsymbol{\kappa}}_{\mathbf{z}^i}(\mathbf{z}^i) \odot \hat{\mathbf{h}}^* - \hat{\mathbf{g}}^i \|^2 + \lambda \|\hat{\mathbf{h}}^*\|^2

于是乎,将这个目标方程直接求导,便可以直接求得未知的correlator \mathbf{h}

\hat{\mathbf{h}}^* = \frac{\sum_{i=1}^s  \hat{\mathbf{g}}^{i} \odot \hat{\boldsymbol{\kappa}}^*_{\mathbf{z}^i}(\mathbf{z}^i)}{\sum_{i=1}^s  \hat{\boldsymbol{\kappa}}^*_{\mathbf{z}^i}(\mathbf{z}^i)\odot \hat{\boldsymbol{\kappa}}_{\mathbf{z}^i}(\mathbf{z}^i)+\lambda}

因为这个结果在推导时,没有引用任何定理或者限制,所以理论上可以预测 \mathbf{x}的任意的affine transform和应用任意的kernel function!

作者还给出了该结果的特殊情况,当\mathbf{z}_i只是平移变换的时候,该结果和KCF 结果一样,但是不限制kernel function。当进一步限制kernel function是线性核时,该结果直接退化为MOSSE。

作者还分析了当\mathbf{z}_i是其他变换的时候(scale, rotation),该结果的复杂度仍旧是o(n log n)。作者在实验中,只将scale prediction加入到了tracking的实验中,就有相当高的准确度提升,可以相信,如果可以将rotation等其他affine transform 的预测也加入的实验中,应该会有更大的提升。


【1】D. S. Bolme, J. R. Beveridge, B. A. Draper, and Y. M. Lui, “Visual object tracking using adaptive correlation filters,” in Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, pp. 2544–2550, IEEE, 2010.

【2】J. F. Henriques, R. Caseiro, P. Martins, and J. Batista, “Exploiting the circulant structure of tracking-by-detection with kernels,” in European conference on computer vision, pp. 702–715, Springer, 2012.

【3】J. F. Henriques, R. Caseiro, P. Martins, and J. Batista, “High-speed tracking with kernelized correlation filters,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 37, no. 3, pp. 583–596,2015.

【4】Jack Valmadre, Luca Bertinetto, João F. Henriques, Andrea Vedaldi, Philip H. S. Torr. "End-to-end representation learning for Correlation Filter based tracking." CVPR (2017).

【5】Tang, Ming, et al. "High-speed Tracking with Multi-kernel Correlation Filters."Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. CVPR 2018

【6】Robert M Gray. Toeplitz and Circulant Matrices: A Review. Foundations and Trends⃝R in Communications and Information Theory, 2(3):155–239, 2005.



编辑于 2018-10-31

文章被以下专栏收录