温故知新——梯度下降（Gradient Descent）

不敢说无悔，起码能死心

梯度下降（Gradient Descent）又称最速下降，是迭代法的一种，可以用于求解最小二乘法(线性和非线性都可以)。在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一。在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。反过来，如果我们需要求解损失函数的最大值，这时就需要用梯度上升法来迭代了。

梯度下降的本质：是一种使用梯度去迭代更新权重参数使目标函数最小化的方法。

一、梯度下降的直观解释（最为经典的"下山"例子）

假设我们在一座大山上的某处位置（起点），由于我们不知道怎么下山，于是决定走一步算一步。在每走到一个位置的时候，求解当前位置的梯度，沿着梯度的负方向，也就是当前最陡峭的位置向下走一步。然后继续求解当前位置梯度，向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去，一直走到觉得我们已经到了山脚。当然这样走下去，有可能我们不能走到山脚，而是到了某一个局部的山峰低处。

从上面可以看出，梯度下降不一定能够找到全局的最优解，有可能是一个局部最优解。当然，如果损失函数是凸函数，梯度下降法得到的解就一定是全局最优解。这里给出一个关于局部最小值和全局最小值的直观的理解。

除了局部极小值，还有一类值为“鞍点”，简单来说，它就是在某一些方向梯度下降，另一些方向梯度上升，形状似马鞍，如下图红点就是鞍点。

对于深度学习模型的优化来说，鞍点比局部极大值点或者极小值点带来的问题更加严重。

很多机器学习或深度学习模型都以凸函数（convex function）作为损失函数，到底什么是凸函数呢？下面简单介绍一下凸函数。

凸函数的定义：如果函数f(x)在某段区间上的任意两个点 x_{1}，x_{2}，都有f(tx_{1} + (1-t)x_{2}) \le tf(x_{1}) + (1-t)f(x_{2})，则称其在某段区间上凸函数。

凸函数其实就是在某段区间只有一个低谷的函数。下图二维的例子会更加直观地理解，"碗状"曲线，"碗口"向上。

二、梯度下降算法的过程

我们以线性回归为例： h_{\theta}(x)=\theta_{0}+\theta_{1}x 。假设我们一共有 m 个样本， (x^{(i)},y^{(i)}) (i=1,2,...,m) 。则损失函数为：

其中 \theta 可以看做是一个参数向量， (\theta_{0},\theta_{1})^{T} 。

计算损失函数的梯度，可以得到：

也就是说，为了使损失函数达到局部最小值，我们只需要沿着这个向量的反方向进行迭代即可。

那么参数的值到底该一次变化多少呢？我们通常用 \alpha 来表示这个大小，称为“步长”。它的值是需要我们手动设定的。显然，步长太小，迭代速度太慢，很长时间算法都不能结束；而步长太大，会导致迭代过快，则有可能在下降时跳过了最优解。所以，我们应该根据实际的情况，合理地设置 \alpha 的值。

在每次迭代中，我们令