首发于Msnhnet
图解NC4HW4使用im2col+gemm计算卷积

图解NC4HW4使用im2col+gemm计算卷积

im2col+gemm在深度学习中是最常用的对卷积进行加速计算的方案。最早在caffe框架中支持。思路如下:

使用im2col+gemm进行计算:

对于NC4HW4内存排布的Tensor来说,同样可以采用im2col+gemm来处理, 对于NC4HW4不太了解的同学可以先看看这篇文章:

有如下卷积,可以使用NC4HW4内存排布方式,使用指令集优化对卷积进行加速.

NCHW转NC4HW4

NC4HW4对feature进行im2col

NC4HW4对kernel进行im2col

使用SSE,Neon,OpenCL或OpenGL实现Gemm.

编辑于 2020-11-06 17:00