首发于PaperWeekly
CVPR'20: 多种可能性行人未来路径预测

CVPR'20: 多种可能性行人未来路径预测

在这篇博客里我将介绍我们最新在CVPR'20上发表的工作:The Garden of Forking Paths: Towards Multi-Future Trajectory Prediction,主题是关于多种可能性的行人未来路径预测。我们的数据集和代码已经全部开源,里面包括完整的在3D模拟器中重建多种可能性未来行人路径的tutorial,欢迎尝试:

JunweiLiang/Multiversegithub.com图标

行人未来路径预测问题:你能预测下面行人的未来路径吗?

在这篇文章里,我们研究的是多种可能性的行人未来预测问题。从下面的例子可以看到,这个人可能会走向几个不同的方向:

我们提出新的数据集:The Forking Paths Dataset

在真实世界的视频中,我们只能看到一种可能的事件发生,比如上面的例子中,红框中的人是一直往前走,但也许在另一个平行宇宙中,他可能走向另外一个不同的方向,但我们在真实视频中无法观察到。

为了能够取得一个能够量化评估多种可能性路径预测模型的数据集,我们使用基于游戏引擎-虚幻4的3D模拟器(CARLA)创建了一个新的trajectory prediction数据集。在这个数据集中,我们重建了真实世界的场景和动态事件,然后让标注者控制agents走到设置好的目标点,记录下这些能反映真实人类在同样情况下可能会走的路径。

重建真实动态场景到3D模拟器中

多名人类标注者观察该场景4.8秒后就可以以第一人称或者第三人称控制agent走到目的地。我们希望在这种方式下,可以在同样的场景中,捕捉到人类真实的反应以及可能选择的路线。

标注界面

以下是我们数据集的展示:

在我们的设定中,标注者会先观察4.8秒时间(如下图中的黄色路线),然后就可以控制agent走到目的地点。整个标注过程限时10.4秒,然后如果跟其他agent碰撞到的话会要求重新标注。

标注完成后,我们在3D模拟器中选择多个摄像头位置和角度进行数据录取,可以模拟一般的45度角监控视频的角度,也有头顶的无人机视频角度。我们甚至可以使用不同的天气状况和光照条件。

整个数据集,代码,以及3D assets都已经开源,详见我们的Github repo. 里面包含了一个详细的建立这个数据集的tutorial,对3D视觉和模拟器感兴趣的同学可以尝试一下。

我们提供了一个简单易用的场景可视化编辑工具

我们的新模型:The Multiverse Model

We propose a multi-decoder framework that predicts both coarse and fine locations of the person using scene semantic segmentation features.

The Multiverse Model for Multi-Future Trajectory Prediction
  • History Encoder computes representations from scene semantics
  • Coarse Location Decoder predicts multiple future grid location sequences by using beam search
  • Fine Location Decoder predicts exact future locations based on the grid predictions
  • Our model achieves STOA performance in the single-future trajectory prediction experiment and also the proposed multi-future trajectory prediction on the Forking Paths Dataset.
Single-Future Trajectory Prediction. The numbers are displacement errors and they are lower the better. For more details see [1].
Multi-Future Trajectory Prediction on the Forking Paths Dataset. The numbers are displacement errors and they are lower the better. For more details see [1].

Qualitative analysis with the popular Social-GAN [2] model:

Qualitative comparison. The left column is from the Social-GAN [2] model. On the right it is our Multiverse model. The yellow trajectory is the observed trajectory and the green ones are the multi-future trajectory ground truth. The yellow-orange heatmaps are the model outputs.

回到前面的例子,你的预测对了吗?

项目网站:The Garden of Forking Paths: Towards Multi-Future Trajectory Prediction

References:

[1] Liang, Junwei, Lu Jiang, Kevin Murphy, Ting Yu, and Alexander Hauptmann. “The garden of forking paths: Towards multi-future trajectory prediction.” In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020. [Dataset/Code/Model]

[2] Gupta, Agrim, Justin Johnson, Li Fei-Fei, Silvio Savarese, and Alexandre Alahi. “Social gan: Socially acceptable trajectories with generative adversarial networks.” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018.

编辑于 06-15

文章被以下专栏收录