ECCV2020论文“Towards Streaming Perception”讨论感知的延迟问题

ECCV2020论文“Towards Streaming Perception”讨论感知的延迟问题

CMU、UIUC和Argo的论文“Towards Streaming Perception“,发表在ECCV2020。

这篇论文特别讨论的是感知延迟,即精度和延迟的算法折衷问题,定义为“streaming accuracy"。主要是分析object detection and instance segmentation的任务,并提供了标注数据做benchmark。对此文章得到一些结论:(1)存在一个“最佳点”,可以使沿Pareto最佳延迟-精度曲线的达到streaming accuracy最大化;(2)异步跟踪和未来预测自然而然地成为streaming perception的内部表示,并且(3)动态调度用来克服时间混叠(aliasing),这样比较矛盾的是,闲置或者什么都不做,可以将延迟最小化。

如下图就是延迟示意图:车在时刻不同的不同位置,采集数据时候A和算法运行后的B。

这里有一个分析将图像检测分辨率变化而得到不同延迟(运算时间)对精度的变化图:

注:Hybrid Task Cascade (HTC)是指一个SoA的检测器,这样产生的结果称为伪真值(pseudo ground truth)。

如下图是提出的streaming perception系统评估图:不是评估一个算法功能,而是对一段在连续时间执行代码的评估。

所以,这样的评估是依赖硬件平台的,包括图像传感器的采样率。同时运行的环境变化随机性,也是造成性能评估的随机性。

采用这样的评估,下图给出一个数据集之间的结果对比(Argoverse-HD和微软COCO):标注只采用8个类,即person,bicycle,car,motorcycle,bus,truck,traffic light和stop sign;这样对图像而言,Mask R-CNN的运行结果即AP(大目标、中目标、小目标以及IoU分别为50%和75%)比较看,基本差不多。

如下表给出对于streaming perception的检测性能:最优解是输入图像0.5尺度(5-6行)Mask R-CNN (ResNet 50)结果。

其中给出Alg. 1(如下伪代码)是一种动态调度算法(shrinking-tail),可以加强算法性能(AP/AP大目标)。

注:附录给出调度算法的理论分析,基于MDP(Markov decision process),对细节有兴趣可仔细阅读原文。

如下图是单GPU的调度算法:(a)理想的快速算法和高精度算法的比较;(b)应用动态调度算法。

其实对检测而言,预测和跟踪才是对延迟最好的解决手段,计算资源(GPU)总是有限的。

下图是讨论检测的预测和相关(Kalman滤波器)等的调度示意图:

而下表给出检测加预测和相关的streaming perception性能:

最后是加跟踪的性能:

跟踪的算法MOT见附录:采用两步法,所以有RPN;还有FPN。


附录中,给出实验中硬件(GPU数目)的影响:

还有Argoverse-HD标注(Scale AI)数据和更多数据的目标检测结果比较:

另外,是instance segmentation和object detection的运行负担比较:

以及instance segmentation的streaming evaluation:

考虑预测:

最后,给出一个在Tesla V100平台上考虑检测、预测和跟踪的评估:

编辑于 10-18

文章被以下专栏收录