OpenMMLab的新篇章

OpenMMLab的新篇章

一年一度的CVPR在美国长滩拉开帷幕了。将近1300篇论文发表于本届会议上。在学术界百花齐放的同时,大家也面临着新的挑战:复现层出不穷的新算法新模型。相信很多尝试过复现别人算法的同学都明白其中的艰辛。

从2018年年中开始,香港中文大学多媒体实验室(MMLab)就启动了OpenMMLab计划。这项计划的初衷是为计算机视觉的一些重要方向建立统一而开放的代码库,并不断把新的算法沉淀其中。我们相信,这一项工作可以推动可复现算法生态的建立,也是对计算机视觉社区的重要贡献。

在OpenMMLab的首期计划中,我们开放了MMCV和MMDetection(初期版本)。在过去一年中,这些代码库已经产生了重要影响,MMDetection获得了超过4000个star和超过1000个fork。而且,越来越多的MMLab以外的研究团队开始把MMDetection作为实现新的目标检测算法的基础,并不断把他们开发的新算法回馈到MMDetection。

今天,我们进行OpenMMLab第二期发布。这一期包含两个重要的更新:

  1. MMDetection(目标检测库)升级到1.0 ,提供了一大批新的算法实现
  2. MMAction(动作识别和检测库)全新发布

MMDetection

Github地址:

open-mmlab/mmdetectiongithub.com

技术报告:

MMDetection: Open MMLab Detection Toolbox and Benchmarkarxiv.org

最新的MMDetection是MMLab、商汤科技以及十多个研究团队(列表在我们的技术报告中)紧密合作,共同努力的成果。我们感谢这些团队的贡献,同时也欢迎更多的团队加入到这一项目。

相比于其它开源检测库,MMDetection有几个重要的优点:

1. 高度模块化的设计。我们对不同的检测算法流程进行了分解,形成一系列可定制的模块。通过对这些模块的随机组合,我们可以迅速搭建不同的检测框架。

2. 多种算法框架支持。MMDetection直接支持多种主流的目标检测与实例分割的算法框架,包括single-stage、two-stage、multi-stage等多种典型架构,以及各种新型模块。MMDetection还提供了200多个预训练的模型。

3. 高计算性能。MMDetection所支持的主要模块均能在GPU上运行。整体的训练速度优于Detectron、maskrcnn-benchmark、以及SimpleDet。特别值得一提的是,MMDetection还直接支持混合精度训练以及多卡联合训练,这些技术的引入都能显著提高训练的效率。

4. 先进算法。MMDetection提供了在MSCOCO 2018比赛中夺冠的HTC算法。随着越来越多研究团队加入到mmdetection的开发中,我们将持续保持和最新算法的同步。

下表比较了MMDetection和其它开源库。我们可以清楚地看到,它提供的算法远比其它的开源库丰富得多:

MMLab的研究团队还在MMDetection的基础上对相关算法进行了全方位的对比试验。我们比较了损失函数、归一化策略、训练尺度等一系列设计参数的选择对于检测性能的影响。新一代MMDetection以及上述比较实验在我们的[技术报告](MMDetection: Open MMLab Detection Toolbox and Benchmark)里都有详尽介绍。

MMAction

Github地址:

open-mmlab/mmactiongithub.com图标

在深度学习刚刚开始进入计算机视觉领域的时候,MMLab已经开始了对使用深度学习进行视频动作分析的研究,提出了一系列有影响的算法框架。比如,我们在ECCV 2016提出的时序分段网络(Temporal Segmental Network)已经被广泛运用于实际系统中,并影响了很多新的算法设计。

我们基于过去几年的探索,建立了专门用于视频动作分析的统一代码库MMAction。它有以下的重要优点:

1. 全面支持视频动作分析的各种任务,包括动作识别(action recognition)、时域动作检测(temporal action detection)以及时空动作检测(spatial-temporal action detection)。

2. 支持多种流行的数据集,包括Kinetics、THUMOS、UCF101、ActivityNet、Something-Something、以及AVA等。

3. 已实现多种动作分析算法框架,包括TSN、I3D、SSN、以及新的spatial-temporal action detection方法。MMAction还通过Model Zoo提供了多个预训练模型,以及它们在不同数据集上的性能指标。

4. 采用高度模块化设计。用户可以根据需要对不同模块,比如backbone网络、采样方案等等进行灵活重组,以满足不同的应用需要。

我们希望通过MMAction为视频动作分析的相关研究提供一个标准的代码基础,从而促进社区在这一方向上的探索。

发布于 2019-06-19

文章被以下专栏收录

    MMLab(香港中文大学多媒体实验室)是由汤晓鸥教授在本世纪初创建的实验室,专注于计算机视觉和机器学习的研究。在商汤科技创办后,实验室和商汤建立了紧密的合作关系,成为香港中文大学-商汤科技联合实验室。MMLab一直以来活跃在学术前沿。每年,实验室的老师和同学都有大量的新成果发表在CVPR/ICCV/ECCV/NIPS等顶级学术会议上。我们希望透过这个专栏以通俗的语言向读者分享我们的最新研究成果,以及我们对学术研究和技术发展的思考。