Python · SVM(二)· LinearSVM

Python · SVM(二)· LinearSVM

(这里是本章会用到的 Jupyter Notebook 地址)

很多人(包括我)第一次听说 SVM 时都觉得它是个非常厉害的东西,但其实 SVM 本身“只是”一个线性模型。只有在应用了核方法后,SVM 才会“升级”成为一个非线性模型

不过由于普遍说起 SVM 时我们都默认它带核方法,所以我们还是随大流、称 SVM 的原始版本为 LinearSVM。不过即使“只是”线性模型,这个“只是”也是要打双引号的——它依旧强大,且在许许多多的问题上甚至要比带核方法的 SVM 要好(比如文本分类)

感知机回顾

在进入正题之前,我们先回顾一下感知机,因为 LinearSVM 往简单来说其实就只是改了感知机的损失函数而已,而且改完之后还很像

感知机模型只有wb这两个参数,它们决定了一张超平面\Pi:w\cdot x+b=0。感知机最终目的是使得y(w\cdot x+b)>0,\forall(x,y)\in D,其中D是训练数据集、y只能取正负一

训练方法则是梯度下降,其中梯度公式为:

\frac{\partial L}{\partial w}(x_i,y_i) = -y_ix_i\frac{\partial L}{\partial b}(x_i,y_i)=-y_i

我们在实际实现时,采用了“极大梯度下降法”(亦即每次只选出使得损失函数最大的样本点来进行梯度下降)(注:这不是被广泛承认的称谓,只是本文的一个代称):

for _ in range(epoch):
    # 计算 w·x+b
    y_pred = x.dot(self._w) + self._b
    # 选出使得损失函数最大的样本
    idx = np.argmax(np.maximum(0, -y_pred * y))
    # 若该样本被正确分类,则结束训练
    if y[idx] * y_pred[idx] > 0:
        break
    # 否则,让参数沿着负梯度方向走一步
    delta = lr * y[idx]
    self._w += delta * x[idx]
    self._b += delta

然后有理论证明,只要数据集线性可分,这样下去就一定能收敛

感知机的问题与 LinearSVM 的解决方案

由感知机损失函数的形式可知,感知机只要求样本被正确分类,而不要求样本被“很好地正确分类”。这就导致感知机弄出来的超平面(通常又称“决策面”)经常会“看上去很不舒服”:

之所以看上去很不舒服,是因为决策面离两坨样本都太近了。从直观上来说,我们希望得到的是这样的决策面:

(之所以画风突变是因为 matplotlib 的默认画风变了,然后我懒得改了……)(喂

那么应该如何将这种理想的决策面的状态翻译成机器能够学习的东西呢?直观来说,就是让决策面离正负样本点的间隔都尽可能大;而这个“间隔”翻译成数学语言,其实就是简单的:

d((x,y),\Pi)=\frac {1}{\|w\|}y(w\cdot x+b)(文末会给出相应说明)

在有了样本点到决策面的间隔后,数据集到决策面的间隔也就好定义了:

d(D, \Pi)=\min_{(x,y)\in D}d((x,y),\Pi)

所以我们现在的目的就转化为:

  • 让所有样本点都被正确分类:y(w\cdot x+b)>0,\forall(x,y)\in D
  • 让决策面离正负样本点的间隔都尽可能大:\max\min_{(x,y)\in D}\frac {1}{\|w\|}y(w\cdot x+b)

注意到y(w\cdot x+b)>0的性质和\frac {1}{\|w\|}y(w\cdot x+b)的值wb同时扩大 k 倍时不会改变,所以我们完全可以假设:

  • (x^*,y^*)=\arg\min_{(x,y)\in D}\frac {1}{\|w\|}y(w\cdot x+b),则y^*(w\cdot x^*+b)=1

(否则假设y^*(w\cdot x^*+b)=c,令w\leftarrow\frac wc,b\leftarrow\frac bc即可)

注意由于(x^*,y^*)=\arg\min_{(x,y)\in D}\frac {1}{\|w\|}y(w\cdot x+b)这个最小化过程中w是固定的,所以我们可以把\frac1{\|w\|}这一项拿掉,从而:

(x^*,y^*)=\arg\min_{(x,y)\in D}y(w\cdot x+b)

所以y^*(w\cdot x^*+b)=1\Rightarrow y(w\cdot x+b)\ge1,\forall(x,y)\in D

于是优化问题转为:

  • \max_{w,b}\frac {1}{\|w\|},使得y_i(w\cdot x_i+b)\ge1,\forall(x_i,y_i)\in D

亦即

  • \min_{w,b}\frac {\|w\|^2}2,使得y_i(w\cdot x_i+b)\ge1,\forall(x_i,y_i)\in D

但是这会导致另一个问题:当数据集线性不可分时,上述优化问题是必定无解的,这就会导致模型震荡(换句话说,y_i(w\cdot x_i+b)\ge1这个约束太“硬”了)。所以为了让模型在线性不可分的数据上仍有不错的表现,从直观来说,我们应该“放松”对我们模型的限制(让我们模型的约束“软”一点):

  • \min_{w,b}\frac {\|w\|^2}2,使得y_i(w\cdot x_i+b)\ge1-\xi_i,\forall(x_i,y_i)\in D

其中\xi_i\ge0。当然仅仅放松限制会使模型变得怠惰(咦),所以我们还需要让这种放松受到惩罚:

  • \min_{w,b}\left[\frac {\|w\|^2}2+C\sum_{i=1}^N\xi_i\right],使得y_i(w\cdot x_i+b)\ge1-\xi_i,\forall(x_i,y_i)\in D\xi_i\ge0

其中C是一个常数,可以把它理解为“惩罚力度”(这样做的合理性会在文末给出)。若假设数据集为D=\left\{(x_1,y_1),...,(x_N,y_N)\right\}的话,那么经过数学变换后,可知上述优化问题等价于(文末会给出过程):


\min_{w,b}{\left[\frac{\|w\|^2}2 + C\sum_{i=1}^N[1-y_i(w\cdot x_i+b)]_+\right]}


其中“[ \cdot ]_+”其实就是 ReLU 函数:

[x]_+=\left\{ \begin{aligned} 0&\ \ x\le0 \\ x&\ \ x>0 \end{aligned} \right.

注意我们感知机的损失函数为\sum_{i=1}^N[-y(w\cdot x+b)]_+,于是综上所述可以看出,LinearSVM 在形式上和感知机的差别只在于损失函数、且这两个损失函数确实长得很像

LinearSVM 的训练

虽然比较简单,但是调优 LinearSVM 的训练这个过程是相当有启发性的事情。仍然是那句老话:麻雀虽小,五脏俱全。我们会先展示“极大梯度下降法”的有效性,然后会展示极大梯度下降法存在的问题,最后则会介绍如何应用 Mini-Batch 梯度下降法(MBGD)来进行训练


为了使用梯度下降法,我们需要先求导。我们已知:

L(D)=\frac{\|w\|^2}2 + C\sum_{i=1}^N[1-y_i(w\cdot x_i+b)]_+

所以我们可以认为:

L(x,y)=\frac{\|w\|^2}2+C[1-y(w\cdot x+b)]_+

于是:

  • y(w\cdot x+b)\ge1时:\frac{\partial L(x,y)}{\partial w} = w\frac{\partial L(x,y)}{\partial b}=0
  • y(w\cdot x+b)<1时:\frac{\partial L(x,y)}{\partial w} = w-Cyx\frac{\partial L(x,y)}{\partial b}=-Cy

所以我们可以把极大梯度下降的形式写成(假设学习速率为\eta):

w\leftarrow (1-\eta)w

  • y(w\cdot x+b)<1,则选出某个被错分的样本(x,y),然后:

w\leftarrow w+\eta Cyx

b\leftarrow b+\eta Cy

我们完全可以照搬感知机里的代码来完成实现(由于思路基本一致,这里就略去注释了):

import numpy as np

class LinearSVM:
    def __init__(self):
        self._w = self._b = None
        
    def fit(self, x, y, c=1, lr=0.01, epoch=10000):
        x, y = np.asarray(x, np.float32), np.asarray(y, np.float32)
        self._w = np.zeros(x.shape[1])
        self._b = 0.
        for _ in range(epoch):
            self._w *= 1 - lr
            err = 1 - y * self.predict(x, True)
            idx = np.argmax(err)
            # 注意即使所有 x, y 都满足 w·x + b >= 1
            # 由于损失里面有一个 w 的模长平方
            # 所以仍然不能终止训练,只能截断当前的梯度下降
            if err[idx] <= 0:
                continue
            delta = lr * c * y[idx]
            self._w += delta * x[idx]
            self._b += delta
    
    def predict(self, x, raw=False):
        x = np.asarray(x, np.float32)
        y_pred = x.dot(self._w) + self._b
        if raw:
            return y_pred
        return np.sign(y_pred).astype(np.float32)

下面这张动图是该 LinearSVM 的训练过程:


虽然看上去不错,但仍然存在着问题:

  • 训练过程其实非常不稳定
  • 从直观上来说,由于 LinearSVM 的损失函数比感知机要更复杂,所以相应的函数形状也会更复杂。这意味着当数据集稍微差一点的时候,直接单纯地应用极大梯度下降法可能会导致一些问题——比如说模型会卡在某个很奇怪的地方无法自拔(什么鬼)

通过将正负样本点的“中心”从原点 (0, 0)(默认值)挪到 (5, 5)(亦即破坏了一定的对称性)并将正负样本点之间的距离拉近一点,我们可以复现这个问题:


原理我不敢乱说,这里只提供一个牵强附会的直观解释:

  • 每次只取使得损失函数极大的一个样本进行梯度下降\rightarrow模型在某个地方可能来来回回都只受那么几个样本的影响\rightarrow死循环(什么鬼!)

专业的理论就留待专业的观众老爷补充吧 ( σ'ω')σ

然后解决方案的话,主要还是从改进随机梯度下降(SGD)的思路入手(因为极大梯度下降法其实就是 SGD 的特殊形式)。我们知道 SGD 的“升级版”是 MBGD、亦即拿随机 Mini-Batch 代替随机抽样,我们这里也完全可以依样画葫芦。以下是对应代码(只显示出了核心部分):

self._w *= 1 - lr
# 随机选取 batch_size 个样本
batch = np.random.choice(len(x), batch_size)
x_batch, y_batch = x[batch], y[batch]
err = 1 - y_batch * self.predict(x_batch, True)
if np.max(err) <= 0:
    continue
# 注意这里我们只能利用误分类的样本做梯度下降
# 因为被正确分类的样本处、这一部分的梯度为 0
mask = err > 0
delta = lr * c * y_batch[mask]
# 取各梯度平均并做一步梯度下降
self._w += np.mean(delta[..., None] * x_batch[mask], axis=0)
self._b += np.mean(delta)

这样的话,通常而言会比 SGD 要好

但是问题仍然是存在的:那就是它们所运用的梯度下降法都只是朴素的 Vanilla Update,这会导致当数据的 scale 很大时模型对参数极为敏感、从而导致持续的震荡(所谓的 scale 比较大,可以理解为“规模很大”,或者直白一点——以二维数据为例的话——就是横纵坐标的数值很大)。下面这张动图或许能提供一些直观:


Again,原理我不敢乱说,所以只提供一个有可能对(更有可能错)(喂)的直观解释:

  • scale太大\rightarrow梯度很大\rightarrow蹦跶得很欢(什么鬼!)

专业的理论就留待专业的观众老爷补充吧 ( σ'ω')σ
解决方案的话,一个很直接的想法就是进行数据归一化:X\leftarrow \frac{X-\bar X}{\sqrt{Var(X)}}。事实证明这样做了之后,最基本的极大梯度下降法也能解决上文出现过的所有问题了

然后一个稍微“偷懒”一点的做法就是,用更好的梯度下降算法来代替朴素的 Vanilla Update。比如说 Adam 的训练过程将如下(这张动图被知乎弄得有点崩……将就着看吧 ( σ'ω')σ):


关于各种梯度下降算法的定义、性质等等可以参见这篇文章,实现和在 LinearSVM 上的应用则可以参见这里这里

相关数学理论

我们尚未解决的问题有三个,但这些问题基本都挺直观的,所以大体上不深究也没问题(趴:

  • 为什么被正确分类的样本(x,y)到决策面\Pi:w\cdot x+b=0的间隔可以写成d((x,y),\Pi)=\frac {1}{\|w\|}y(w\cdot x+b)
  • 为什么把优化问题从
    * \min_{w,b}\frac {\|w\|^2}2,使得y_i(w\cdot x_i+b)\ge1,\forall(x_i,y_i)\in D
    转化成
    * \min_{w,b}\left[\frac {\|w\|^2}2+C\sum_{i=1}^N\xi_i\right],使得y_i(w\cdot x_i+b)\ge1-\xi_i,\forall(x_i,y_i)\in D\xi_i\ge0
    是合理的
  • 为什么上面这 个优化问题
    * \min_{w,b}\left[\frac {\|w\|^2}2+C\sum_{i=1}^N\xi_i\right],使得y_i(w\cdot x_i+b)\ge1-\xi_i,\forall(x_i,y_i)\in D\xi_i\ge0
    等价于
    * \min_{w,b}{\left[\frac{\|w\|^2}2 + C\sum_{i=1}^N[1-y_i(w\cdot x_i+b)]_+\right]}


这三个问题有一定递进关系,我们一个个来看

1)间隔的定义

我们在定义点(x,y)到平面(超平面)\Pi的间隔时,一般都是这样做的:

  • (x,y)(垂直)投影到\Pi
  • 设投影点为(x^*,y^*),则定义d((x,y),\Pi)=\left\{ \begin{aligned} \|x-x^*\|^2,&\ \ y(w\cdot x + b) \ge0 \\ -\|x-x^*\|^2,&\ \ y(w\cdot x + b) <0 \end{aligned} \right.

注意这里我们允许(当样本被错分类时的)间隔为负数,所以间隔其实严格来说并不是一般意义上的距离

那么为了找到垂直投影,我们得先找到垂直于超平面\Pi的方向。不难看出w就是垂直于\Pi的,因为对\forall x_1,x_2\in\Pi,由\left\{ \begin{aligned} &w\cdot x_1+b=0 \\ &w\cdot x_2+b=0 \end{aligned} \right.w\cdot(x_1-x_2)=0(两式相减即可),从而w垂直于向量x_1-x_2,从而也就垂直于\Pi

那么结合之前那张图,不难得知我们可以设x-x^*=\lambda w(这里的\lambda可正可负),于是就有(注意由x^*\in\Piw\cdot x^*+b=0

\begin{align} \|x-x^*\|^2&=(x-x^*)\cdot(x-x^*)=\lambda w\cdot(x-x^*) \\ &=\lambda \left[w\cdot(x-x^*)+(b-b)\right]\\ &=\lambda\left[ w\cdot x+b - (w\cdot x^* + b)\right] \\ &=\lambda(w\cdot x+b) \end{align}

从而

d((x,y),\Pi)=\left\{ \begin{aligned} \lambda(w\cdot x+b),&\ \ y(w\cdot x + b) \ge0 \\ -\lambda(w\cdot x+b),&\ \ y(w\cdot x + b) <0 \end{aligned} \right.

注意这么定义的间隔有一个大问题:当wb同时增大k倍时,新得到的超平面\tilde\Pi:(kw)\cdot x+(kb)其实等价于原超平面\Pi

x\in\tilde\Pi\Leftrightarrow(kw)\cdot x+(kb)=0\Leftrightarrow w\cdot x+b=0\Leftrightarrow x\in\Pi

但此时d((x,y),\Pi)却会直接增大k倍。极端的情况就是,当wb同时增大无穷倍时,超平面没变,间隔却也跟着增大了无穷倍,这当然是不合理的

所以我们需要把 scale 的影响给抹去,常见的做法就是做某种意义上的归一化:

d((x,y),\Pi)=\left\{ \begin{aligned} \frac1{\|w\|}|w\cdot x+b|,&\ \ y(w\cdot x + b) \ge0 \\ -\frac1{\|w\|}|w\cdot x+b|,&\ \ y(w\cdot x + b) <0 \end{aligned} \right.

(注意:由于 scale 的影响已被抹去,所以\lambda也就跟着被抹去了;同时由0\le\|x-x^*\|^2=\lambda(w\cdot x+b)知,我们需要在抹去\lambda的同时、给w\cdot x+b套一个绝对值)

不难看出上式可改写为:

d((x,y),\Pi)=\frac1{\|w\|}y(w\cdot x+b)

这正是我们想要的结果


2)优化问题的转化的合理性

我们已知原问题为

  • \min_{w,b}\frac {\|w\|^2}2,使得y_i(w\cdot x_i+b)\ge1,\forall(x_i,y_i)\in D

且由 1)知,式中的y_i(w\cdot x_i+b)其实就是(没有抹去 scale 的影响的)间隔。所以想要放松对模型的限制的话,很自然的想法就是让这个间隔不必一定要不小于 1、而是只要不小于1-\xi_i就行,其中\xi_i是个不小于 0 的数。正如前文所说,只放松限制的话肯定不行、还得给这个放松一些惩罚,所以就在损失函数中加一个C\xi_i即可,其中C是个大于 0 的常数、可以理解为对放松的惩罚力度

综上所述,优化问题即可合理地转化为:

  • \min_{w,b}\left[\frac {\|w\|^2}2+C\sum_{i=1}^N\xi_i\right],使得y_i(w\cdot x_i+b)\ge1-\xi_i,\forall(x_i,y_i)\in D\xi_i\ge0

3)优化问题的等价性

为方便,称优化问题:

  • \min_{w,b}\left[\frac {\|w\|^2}2+C\sum_{i=1}^N\xi_i\right],使得y_i(w\cdot x_i+b)\ge1-\xi_i,\forall(x_i,y_i)\in D\xi_i\ge0

为问题一;称:

\min_{w,b}{\left[\frac{\|w\|^2}2 + C\sum_{i=1}^N[1-y_i(w\cdot x_i+b)]_+\right]}

为问题二,则我们需要证明问题一与问题二等价

先来看问题一怎么转为问题二。事实上不难得知:

y_i(w\cdot x_i+b)\ge1-\xi_i,\forall(x_i,y_i)\in D\Rightarrow\xi_i\ge1-y_i(w\cdot x_i+b)

注意问题一是针对wb进行优化的,且当wb固定时,为使\frac {\|w\|^2}2+C\sum_{i=1}^N\xi_i最小,必有:

  • 1-y_i(w\cdot x_i+b)\ge0时,\xi_i=1-y_i(w\cdot x_i+b)
  • 1-y_i(w\cdot x_i+b)<0时,\xi_i=0(因为我们要求\xi_i\ge0

亦即\xi_i=[1-y_i(w\cdot x_i+b)]_+。此时损失函数即为\frac{\|w\|^2}2 + C\sum_{i=1}^N[1-y_i(w\cdot x_i+b)]_+,换句话说,我们就把问题一转为了问题二

再来看问题二怎么转为问题一。事实上,直接令\xi_i=[1-y_i(w\cdot x_i+b)]_+,就有:

  • 模型的损失为\frac {\|w\|^2}2+C\sum_{i=1}^N\xi_i
  • 模型的约束为\xi_i\ge 1-y_i(w\cdot x_i+b)\xi_i\ge0

亦即转为了问题一

4)LinearSVM 的对偶问题

原始问题

  • \min_{w,b}\left[\frac {\|w\|^2}2+C\sum_{i=1}^N\xi_i\right],使得y_i(w\cdot x_i+b)\ge1-\xi_i,\forall(x_i,y_i)\in D\xi_i\ge0

的对偶问题为

  • \min_{\alpha}\left[ \frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i\right],使得\sum_{i=1}^N\alpha_iy_i=00\le\alpha_i\le C

通过拉格朗日乘子法可以比较简单地完成证明。不难得知原始问题相应的拉格朗日函数为:

L=\frac{\|w\|^2}2+C\sum_{i=1}^N\xi_i-\sum_{i=1}^N\alpha_i[y_i(w\cdot x_i+b)-1+\xi_i]-\sum_{i=1}^N\beta_i\xi_i

其中\alpha_i\ge0\beta_i\ge0,于是原始问题为

\min_{w,b,\xi}\max_{\alpha,\beta} L

从而对偶问题为

\max_{\alpha,\beta}\min_{w,b,\xi}L

于是我们需要求偏导并令它们为 0:

  • w求偏导:\frac{\partial L}{\partial w}=w-\sum_{i=1}^N\alpha_iy_ix_i=0\Rightarrow w=\sum_{i=1}^N\alpha_iy_ix_i
  • b求偏导:\frac{\partial L}{\partial b}=-\sum_{i=1}^N\alpha_iy_i=0\Rightarrow\sum_{i=1}^N\alpha_iy_i=0
  • \xi_i求偏导:\frac{\partial L}{\partial\xi_i}=C-\alpha_i-\beta_i=0\Rightarrow\alpha_i+\beta_i=C

注意这些约束中\beta_i除了\beta_i\ge0之外没有其它约束,\alpha_i+\beta_i=C的约束可以转为\alpha_i\le C。然后把这些东西代入拉格朗日函数L、即可得到:

\begin{align} L&=\frac{\|\sum_{i=1}^N\alpha_iy_ix_i\|^2}2+\sum_{i=1}^N(C-\alpha_i-\beta_i)\xi_i-\sum_{i=1}^N\alpha_iy_i\left(\sum_{j=1}^N\alpha_jy_jx_j\right)\cdot x_i-b\sum_{i=1}^N\alpha_iy_i+\sum_{i=1}^N\alpha_i \\ &=-\frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i \end{align}

于是对偶问题为

  • \max_{\alpha}\left[ -\frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i\right],使得\sum_{i=1}^N\alpha_iy_i=00\le\alpha_i\le C

亦即

  • \min_{\alpha}\left[ \frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i\right],使得\sum_{i=1}^N\alpha_iy_i=00\le\alpha_i\le C

可以看到在对偶形式中,样本仅以内积的形式(x_i\cdot x_j)出现,这就使得核方法的引入变得简单而自然


5)Extra

作为结尾,我来叙述一些上文用到过的、但是没有给出具体名字的概念(假设样本为(x,y),超平面为\Pi:w\cdot x+b=0

  • 样本到超平面的函数间隔为:y(w\cdot x+b)
  • 样本到超平面的几何间隔为:\frac1{\|w\|}y(w\cdot x+b)
  • 优化问题
    * \min_{w,b}\frac {\|w\|^2}2,使得y_i(w\cdot x_i+b)\ge1,\forall(x_i,y_i)\in D
    的求解过程常称为硬间隔最大化,求解出来的超平面则常称为最大硬间隔分离超平面
  • 优化问题
    * \min_{w,b}\left[\frac {\|w\|^2}2+C\sum_{i=1}^N\xi_i\right],使得y_i(w\cdot x_i+b)\ge1-\xi_i,\forall(x_i,y_i)\in D\xi_i\ge0
    的求解过程常称为软间隔最大化,求解出来的超平面则常称为最大软间隔分离超平面


然后最后的最后,请允许我不加证明地给出两个结论(因为结论直观且证明太长……):

  • 若数据集线性可分,则最大硬间隔分离超平面存在且唯一
  • 若数据集线性不可分,则最大软间隔分离超平面的解存在但不唯一,其中:
    • 法向量(w )唯一
    • 偏置量(b可能不唯一(感谢评论区@shuyu cheng 指出)

下一篇文章我们则会介绍核方法,并会介绍如何将它应用到感知机和 SVM 上

希望观众老爷们能够喜欢~

(猛戳我进入下一章!( σ'ω')σ )

文章被以下专栏收录