Few Shot Learning 的第一篇记录

Few Shot Learning 的第一篇记录

a closer look at few-shot classification 笔记

introduction


深度学习的方法在大多数有监督的任务下往往能达到不错的效果,但是由于需要大量的标注数据。例如在图像分类任务中,即使在采用预训练模型的情况下,每个类别也需要成千上万张图片才能达到满意的效果。对于人类,我们对于认知一个新的类别事物,往往只需要几个少数的例子就能完全理解。因此本文的主题:对于新的类别,如何只需要有限的标注数据就能分别该新的类别。对于深度学习模型这样参数较多的方法,如果只有少数几个样本,很容易过拟合。

当前学习问题也称为 few-shot learning,即小样本学习。就当前来说,小样本学习一个可能得方向是从现有大量的有标注类别数据中学习到泛化能力,现有的这类方法包括:

  • initialized based method
  • metric based method
  • hallucination based methods

尽管这些方法都声称他们取得了state-of-art的效果。但是这些方法存在一下的局限来公正的比较它们:

  • 当前算法在实现上的差异,使得不能正确的体验出它们到底提高了多少?
  • 当前baseline的方法被严重低估了,能数据增强方法极大的提升它的效果。
  • 尽管这些方法都的评价方法都是:只通过有限数量的的新类别训练样本训练出来的模型效果。但是novel class还是从同一个数据集中采样出的,当meta-training 和meta-testing的样本之间不存在domain的差别的时候,当前的评价方法不太客观。

本文的工作和贡献

  • 提供了一个统一比较的框架,不同的few-shot的方法在同一个基础上公正的比较。并且从作者的实验结果表明在当前不存在class invariant的情况下,通过一个表现效果更好的骨架模型【即特征提取器】,现有的算法之间的差距并不大
  • 作者实现了一个distance based的简单的线性分类器,在mini-ImageNet和cub数据集上,就能与当前最好的meta-learning algorithm媲美。
  • 作者做了一个与现实场景贴近的实验,即base class 和novel class来自不同的domain。从实验效果来看,当前的方法并不能解决domain shift的问题.并且实验效果甚至差于baseline的方法。

Related work

  • initialized based method有 [1][2]
  • Distance metric learning based methods cosin similarity[3] Euclidean distance to class-mean representation[4] CNN-based relation module[5]
    ridge regression [6]
  • Domain adaption 最近,Dong&Xing 提出的方法[7] 解决了one-shot novel category 领域适应问题

OverView About The Few Shot Algorithm

首先将meta-training阶段的数据定义为Xb​【b指带的是base class】,meta-testing阶段定义的数据为xn​【n 指的是novel class】,few-shot learning算法的目的是为在meta-training阶段没有见过得类别、在少量样本的情况下训练出分类器

Base Model

Training Stage 一个特征抽取器​、分类器 C(.∣W_b​) 其中 W_b \in D^{d \times c} ,分类器之后接上一个softmax的函数得到每个类别的概率

Fine-tuning Stage 为了让模型能在fine-tuning的阶段能识别新的类别,固定好特征抽取器在训练阶段得到的参数θ ,同时训练一个新的分类器,得到参数 W_n

在分类模块,同样有 W_n W_b ,但是base 和base++模型不同的是,base++将Wc​当作一个class prototype,然后分别计算距离。

Experiments

实验场景有

  1. 物体识别,数据集mini-ImageNet
  2. 细粒度的图像分类, CUB-200-2011数据集
  3. 跨领域的适应 mini-ImageNet---> CUB

如图2所示,一下所有的实验均基于conv4-backbone, baseline∗ 指的是没有采用数据增强的结果,可以看到通过数据增强,baseline方法在一定程度上缓解了过拟合的情况。

在标准的设定下的测试:

Effect of the increasing network depth

  1. 如图三所示,在cub数据集上,1-shot、5-shot不同方法的测试结果随着特征抽取的骨干网络的增大趋于一样
图三

2. 如图四所示,在领域偏移(cross domain shift)的情况下,现有方法的表现还不如baseline的方法

图四

实验总结:

  1. 在同样的参数、特征提取框架的设定下,Baseline++可以与现有state-of-art的模型媲美,BaseLine的方法也取得了不错的效果。
  2. 在一个现实场景的设定下,即meta-training和meta-testing这两个阶段存在domain shift,实验数据集的设定为mini-ImageNet->CUB,Baseline方法比现有state-of-art的模型均表现较好

Reference

[1]: Model-agnostic meta-learning for fast adaptation of deep networks

[2]: Probabilistic model-agnostic meta-learning

[3]: Matching networks for one shot learning

[4]: Learning to compare: Relation network for few-shot learning

[6]: Meta-learning with differenterable closed-form solvers

编辑于 2019-08-06