剪枝真的没有那么好！伯克利、清华大学ICLR论文质疑6大剪枝方法

新智元

人工智能话题下的优秀答主

模型剪枝被认为是一种有效的模型压缩方法。然而，剪枝方法真的有文献中声称的那么有效吗？最近UC Berkeley、清华大学的研究人员提交给ICLR 2019的论文《重新思考剪枝》质疑了六种剪枝方法，引起关注。

网络剪枝（Network Pruning）是常用的模型压缩方法之一，被广泛用于降低深度模型的繁重计算量。

一个典型的剪枝算法通常有三个阶段，即训练（大型模型），剪枝和微调。在剪枝过程中，根据一定的标准，对冗余权重进行修剪并保留重要权重，以最大限度地保持精确性。

剪枝通常能大幅减少参数数量，压缩空间，从而降低计算量。

然而，剪枝方法真的有它们声称的那么有效吗？

最近一篇提交给ICLR 2019的论文似乎与最近所有network pruning相关的论文结果相矛盾，这篇论文质疑了几个常用的模型剪枝方法的结果，包括韩松（Song Han）获得ICLR2016最佳论文的“Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding”。

这篇论文迅速引起关注，有人认为它甚至可能改变我们在工业中训练和部署模型的workflow。论文作者来自UC Berkeley和清华大学，他们在OpenReview上与被他们质疑的模型作者有一些有意思的反馈，感兴趣的读者可以去看看。地址：

https://openreview.net/forum?id=rJlnB3C5Ym

论文地址：

https://arxiv.org/pdf/1810.05270.pdf

在这篇论文里，作者发现了几个与普遍观念相矛盾的的观察。他们检查了6种最先进的剪枝算法，发现对剪枝后的模型进行fine-tuning，只比使用随机初始化权重训练的网络的性能好一点点，甚至性能更差。

作者说：“对于采用预定义目标网络架构的剪枝算法，可以摆脱整个pipeline并直接从头开始训练目标网络。我们的观察结果对于具有多种网络架构，数据集和任务的各种剪枝算法是一致的。”

作者总结认为，这一发现有几个意义：

1）训练一个大型、over-parameterized的模型对于最终得到一个efficient的小模型不是必需的;

2）为了得到剪枝后的小模型，求取大模型的“important” weights不一定有用；

3）剪枝得到的结构本身，而不是一组“important” weights，是导致最终模型效果提升的原因。这表明一些剪枝算法可以被视为执行了“网络结构搜索”（network architecture search）。

推翻网络剪枝背后的两个共同信念

过度参数化（over-parameterization）是深度神经网络的一个普遍属性，这会导致高计算成本和高内存占用。作为一种补救措施，网络剪枝（network pruning）已被证实是一种有效的改进技术，可以在计算预算有限的情况下提高深度网络的效率。

网络剪枝的过程一般包括三个阶段：1）训练一个大型，过度参数化的模型，2）根据特定标准修剪训练好的大模型，以及3）微调（fine-tune）剪枝后的模型以重新获得丢失的性能。

通常，这种剪枝程序背后有两个共同的信念。

首先，人们认为从训练一个大型的、过度参数化的网络开始是很重要的，因为它提供了一个高性能的模型，从中可以安全地删除一组冗余参数而不会显着损害准确性。因此，这通常被认为是比直接从头开始训练较小的网络更好的方法，也是一种常用的baseline方法。

其次，修剪后得到的结构及其相关权重被认为是获得最终的有效模型所必需的。

因此，大多数现有的剪枝技术选择fine-tune剪枝模型，而不是从头开始训练。剪枝后保留的权重通常被认为是关键的，因此如何准确地选择重要权重集是一个非常活跃的研究课题。

在这项工作中，我们发现上面提到的两种信念都不一定正确。

基于对具有多个网络架构的多个数据集的最新剪枝算法的经验评估，我们得出了两个令人惊讶的观察。

首先，对于具有预定义目标网络架构的剪枝算法（图2），从随机初始化开始直接训练小型目标模型可以实现与剪枝方法获得的模型相同（甚至更好）的性能。在这种情况下，不需要从大型模型开始，而是可以直接从头开始训练目标模型。

其次，对于没有预定义目标网络的剪枝算法，从头开始训练剪枝模型也可以实现与fine-tune相当或甚至更好的性能。这一观察表明，对于这些剪枝算法，重要的是获得的模型架构，而不是保留的权重，尽管找到目标结构需要训练大型模型。

我们的结果主张重新思考现有的网络剪枝算法。似乎在第一阶段的训练期间的过度参数化并不像以前认为的那样有益。此外，从大型模型继承权重不一定是最优的，并且可能将修剪后的模型陷入糟糕的局部最小值，即使权重被剪枝标准视为“重要”。

相反，我们的结果表明，自动剪枝算法的价值在于识别有效的结构和执行隐式架构搜索（implicit architecture search），而不是选择“important”权重。我们通过精心设计的实验验证了这一假设，并展示了剪枝模型中的模式可以为有效的模型架构提供设计指导。

从头开始训练小模型的方法

本节描述了从头开始训练小型目标模型的方法。

目标剪枝架构（Target Pruned Architectures）

我们首先将网络剪枝方法分为两类。在pruning pipeline中，目标剪枝模型的架构可以由人（即预定义的）或剪枝算法（即自动的）来确定（见图2）。

数据集，网络架构和剪枝方法

在network pruning 的相关文献中，CIFAR-10，CIFAR-100和ImageNet数据集是事实上的基准，而VGG，ResNet和DenseNet是常见的网络架构。

我们评估了三种预定义目标架构的剪枝方法：Li et al. (2017), Luo et al. (2017), He et al. (2017b)，以及评估了三种自动发现目标模型的剪枝方法Liu et al. (2017), Huang & Wang (2018), Han et al. (2015)。

训练预算

一个关键问题是，我们应该花多长时间从头开始训练这个剪枝后的小模型？用与训练大型模型同样的epoch数量来训练可能是不公平的，因为小模型在一个epoch中需要的计算量要少得多。

在我们的实验中，我们使用Scratch-E表示训练相同epoch的小剪枝模型，用Scratch-B表示训练相同数量的计算预算。

实现（Implementation）

为了使我们的设置尽可能接近原始论文，我们使用了以下协议：

1)如果以前的剪枝方法的训练设置是公开的，如Liu et al.(2017)和Huang & Wang(2018)，就采用原始实现；

2)对于更简单的剪枝方法，如Li et al.(2017)和Han et al.(2015)，我们重新实现了剪枝方法，得到了与原论文相似的结果；

3)其余两种方法(Luo et al., 2017; He et al., 2017b)，剪枝后的模型是公开的，但是没有训练设置，因此我们选择从头训练目标模型。

结果和训练模型的代码可以在这里中找到：

https://github.com/Eric-mingjie/rethinking-networks-pruning

实验与结果

在本节中，我们将展示实验结果，这些实验结果比较了从头开始的训练剪枝模型和基于继承权重进行微调，以及预定义和自动发现的目标体系结构的方法。此外还包括从图像分类到物体检测的转移学习实验。

表1：基于L1范数的通道剪枝的结果（准确度）。“剪枝模型”是从大型模型中进行剪枝的模型。原模型和剪枝模型的配置均来自原始论文。

表2：ThiNet的结果（准确度）。“VGG-GAP”和“ResNet50-30％”等指ThiNet中配置的剪枝模型。为了适应本文的方法和原论文之间不同框架的影响，我们比较了相对于未剪枝的大型模型的相对精度下降。例如，对于剪枝后的模型VGG-Conv为-1.23，即表示相对左侧的71.03的精度下降，后者为原始论文中未剪枝的大型VGG-16的报告精度