机器学习8-SVM 支持向量机

本文最后更新于122 天前，其中的信息可能已经过时，如有错误请留言

是一种二分类模型，SVM 和感知机一样，也会找到一个将样本分类的超平面，感知机：只要求能把样本分开，不管你分得多紧。SVM：不仅要分开，还要“分得最开”（即最大化边界间隔）。自然SVM模型的学习策略就是间隔最大化

该平面距离两个类别的最近样本最远

超平面（回顾）

支持向量机（SVM）中，w是定义分类超平面的权重向量，也可以叫做法向量（normal vector）。它决定了超平面的位置和方向。

SVM 中的分类超平面由以下方程定义： \(w^Tx + b = 0\)

x：输入样本（特征向量）
w：权重向量，超平面的法向量（垂直于超平面）
b：偏置项（bias），控制超平面距离原点的远近

这条超平面将数据空间分成两个区域，对应于两个类别（正类和负类）：

\(w^Tx + b > 0\)：预测为正类 (+1)
\(w^Tx + b < 0\)：预测为负类 (-1)

函数间隔和几何间隔

函数间隔 (Functional Margin)-确信度

定义：对于一个样本点 \((x_i, y_i)\)，假设超平面由 w 和 b 定义，即 \(f(x)=w^Tx + b\)，那么这个点的函数间隔定义为： \(\hat{\gamma}_i = y_i(w^Tx_i + b)\)

函数间隔（functional margin）是支持向量机（SVM）中用来衡量：一个样本点离分类器远不远、分类对不对

解释：

\(y_i \in \{+1, -1\}\)，表示真实类别；
\(w^Tx_i + b\) 是模型对样本 \(x_i\) 的预测结果（未经过激活函数）；
所以 \(y_i(w^Tx_i + b)\) 是预测结果的正确性和确信度(符号是否一致)：
- 如果结果是正数，说明预测正确；
- 如果值越大，说明分类 “更有把握”；
- 如果是负的，说明分类错误。

注意：函数间隔受 w 的缩放影响。你把 w 和 b 同时乘以一个数，函数间隔也会变大，但实际上超平面并没有 “真正改变”。

几何间隔 (Geometric Margin)

定义：几何间隔是样本点 \(x_i\) 到超平面的 “真正的几何距离”，定义为： \(\gamma_i = \frac{y_i(w^Tx_i + b)}{\|w\|}\)

解释：

分子是函数间隔；
分母是权重向量 w 的范数；
这就把函数间隔 “标准化” 了，去除了缩放影响；
几何间隔才是真正衡量点到超平面的距离。

总结

概念	定义公式	是否真实距离	是否受 w缩放影响
函数间隔	yi(wTxi+b)	❌ 不是距离	✅ 受影响
几何间隔	∥w∥yi(wTxi+b)	✅ 是距离	❌ 不受影响

如果 \(\|w\| = 1\)，那么函数间隔和几何间隔相等。如果超平面参数 w 和 b 成比例地改变（超平面没有改变），函数间隔也按此比例改变，而几何间隔不变。

间隔最大化

线性可分离的超平面有无穷多个但是间隔最大的分离超平面是唯一的。对训练数据集找到几何间隔最大的超平面意味着不仅将正负实例点分开，而且对最难分的实例点也有足够大的确信度将其分开，求最大间隔分离超平面可以转化为以下约束最优化问题：

w,b 按照比例变化，γ ̂也按照比例变化；
γ ̂的变化对结果没有影响；

支持向量和间隔边界

支持向量(Support vector)：分离超平面距离最近的样本点。支持向量是约束条件式等号成立的点。

间隔(margin)：支持向量之间的距离，间隔以来于分离超平面的法向量w，等于2/||w||

间隔边界：距离分类超平面（决策边界）最远、且仍接触支持向量的两条平行边界线

例：

数据与例 2.1 相同。已知一个如图 7.4 所示的训练数据集，其正例点是\(x_1=(3,3)^{\mathrm{T}}\)，\(x_2=(4,3)^{\mathrm{T}}\)，负例点是\(x_3=(1,1)^{\mathrm{T}}\)，试求最大间隔分离超平面。

解：按照算法 7.1，根据训练数据集构造约束最优化问题： \(\begin{align*} \min_{w,b}&\frac{1}{2}(w_1^2 + w_2^2)\\ \text{s.t.}&\ 3w_1 + 3w_2 + b\geq1\\ &4w_1 + 3w_2 + b\geq1\\ & – w_1 – w_2 – b\geq1 \end{align*}\) 求得此最优化问题的解\(w_1 = w_2=\frac{1}{2}\)，\(b = – 2\)。于是最大间隔分离超平面为 \(\frac{1}{2}x^{(1)}+\frac{1}{2}x^{(2)}-2 = 0\) 其中，\(x_1=(3,3)^{\mathrm{T}}\)与\(x_3=(1,1)^{\mathrm{T}}\)为支持向量。

线性可分支支持向量机学习算法

凸优化问题和KKT条件

凸优化问题：一个目标函数是凸函数，并且约束条件（等式/不等式）也构成凸集的优化问题

把优化问题看成“找最低点”的过程：

凸优化：目标函数像碗的形状，无论从哪里出发，最终都能走到唯一的最低点（最优解）
非凸优化：像“山谷+山峰”，可能有多个局部最小值，不好找全局最优

满足 KKT 条件意味着一定是最优解（在凸优化问题中），KKT 条件是最优解的充分必要条件（对 SVM 这类问题来说）

硬间隔线性SVM学习的对偶算法

为了求解线性可分支持向量机的最优化问题 (7.13)～(7.14)，将它作为原始最优化问题，应用拉格朗日对偶性，通过求解对偶问题（dual problem）得到原始问题（primal problem）的最优解，这就是线性可分支持向量机的对偶算法（dual algorithm）。
被用在最大熵模型和支持向量机等许多统计学习方法中

这样做的优点，一是对偶问题往往更容易求解；二是自然引入核函数，进而推广到非线性分类问题

这一步的目标是将原始问题转换为仅关于 α的问题（也叫“对偶问题”）,做题时，我们直接解决对偶问题，不需要再对目标函数对w和b求偏导，事实上，此时的目标函数因为刚对w和b求偏导得来，已经没有w和b。所以我们需要对目标函数求关于\(alpha\)的偏导数

N：样本数量（训练集中总的样本数）
yi,yj：第 i个和第 j 个样本的类别标签（取值为 +1 或 -1）

限制条件解释：

样本的权重αi乘以类别标签yi加起来必须等于 0
每个拉格朗日乘子（αi\alpha_iαi）必须是非负数。

解原始问题 (7.13)~(7.14) 可以转换为求解对偶问题 (7.22)~(7.24) 。

例题：

当目标函数的极小值点不在这个区域内时，最优解必然会出现在边界上。

线性SVM与对偶算法

松弛变量ξi 和 惩罚参数C

线性可分问题的支持向量机学习方法，对线性不可分训练数据是不适用的，因为这时上述方法中的不等式约束并不能都成立。怎么才能将它扩展到线性不可分问题呢？这就需要修改硬间隔最大化，使其成为软间隔最大化。假设给定一个特征空间上的训练数据集 \[ T = \{(x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N)\} \] 其中，\(x_i \in \mathcal{X} = \mathbf{R}^n\)，\(y_i \in \mathcal{Y} = \{+1, -1\}\)，\(i = 1, 2, \cdots, N\)，\(x_i\) 为第 \(i\) 个特征向量，\(y_i\) 为 \(x_i\) 的类标记。再假设训练数据集不是线性可分的。通常情况是，训练数据中有一些特异点（outlier），将这些特异点除去后，剩下大部分的样本点组成的集合是线性可分的。线性不可分意味着某些样本点 \((x_i, y_i)\) 不能满足函数间隔大于等于 1 的约束条件 (7.14)。为了解决这个问题，可以对每个样本点 \((x_i, y_i)\) 引进一个松弛变量 \(\xi_i \geq 0\)，使函数间隔加上松弛变量大于等于 1。这样，约束条件变为 \[ y_i(w \cdot x_i + b) \geq 1 – \xi_i \]

同时，对每个松弛变量\(\xi_i\)，支付一个代价\(\xi_i\)。目标函数由原来的\(\frac{1}{2}\|w\|^2\)变成 \[ \frac{1}{2}\|w\|^2 + C\sum_{i = 1}^{N}\xi_i \tag{7.31} \] 这里，\(C > 0\)称为惩罚参数，一般由应用问题决定，\(C\)值大时对误分类的惩罚增大，\(C\)值小时对误分类的惩罚减小。最小化目标函数 (7.31) 包含两层含义：使\(\frac{1}{2}\|w\|^2\)尽量小即间隔尽量大，同时使误分类点的个数尽量小，\(C\)是调和二者的系数。有了上面的思路，可以和训练数据集线性可分时一样来考虑训练数据集线性不可分时的线性支持向量机学习问题。相应于硬间隔最大化，它称为软间隔最大化。

支持向量

线性不可分时为什么变复杂了？因为我们允许了“违约”，即：

一些点可以不满足函数间隔 ≥ 1
有些点甚至可以被误分类

这是通过引入松弛变量 ξi实现的。

软间隔 SVM 的支持向量定义变为：只要 αi∗>0，该样本就是支持向量（无论它是否落在间隔边界上）

从图上来说线性SVM的支持向量可以出现在间隔边界上或之间的任何位置

在间隔边界上
落在间隔与分界面之间
被分错（甚至在分界面另一侧）

图 7.5 所示，这时的支持向量要比线性可分时的情况复杂一些。图中，分离超平面由实线表示，间隔边界由虚线表示，正例点由 “○” 表示，负例点由 “×” 表示。图中还标出了实例 \(x_i\) 到间隔边界的距离 \(\frac{\xi_i}{\|w\|}\)。

合页损失函数(SVM的另一种解释)

推导：

非线性SVM与核函数

非线性问题往往不好求解，所以希望能用解线性分类问题的方法解决这个问题。所采取的方法是进行一个非线性变换，将非线性问题变换为线性问题。对图 7.7 所示的例子，通过变换，将左图中椭圆变换成右图中的直线，将非线性分类问题变换为线性分类问题。

用线性分类方法求解非线性分类问题分为两步：首先使用一个变换将原空间的数据映射到新空间；然后在新空间里用线性分类学习方法从训练数据中学习分类模型。核技巧就属于这样的方法。

核函数定义

核技巧（Kernel trick ）的想法是，在学习与预测中只定义核函数\(K(x,z)\)，而不显式地定义映射函数\(\phi\)。通常，直接计算\(K(x,z)\)比较容易，而通过\(\phi(x)\)和\(\phi(z)\)计算\(K(x,z)\)并不容易。注意，\(\phi\)是输入空间\(\mathbf{R}^n\)到特征空间\(\mathcal{H}\)的映射，特征空间\(\mathcal{H}\)一般是高维的，甚至是无穷维的。

例题：核函数与映射函数的关系：——如何用核函数等价实现高维空间的内积运算

下面通过一个例子观察 核函数（Kernel Function） 与 映射函数（Feature Mapping） 的关系，以解释为什么“在高维空间做内积”的效果，可以通过“低维空间中的核函数”来实现

使用一个核函数： \(K(x,z)=(x\cdot z)^2\) 实际计算中并不显式地将x和z映射到高维空间，只通过核函数直接得到高维空间的内积结果。核技巧的核心：不显式求 ϕ(x)，直接用 K(x,z) 计算，节省计算并允许映射到无限维空间

假设输入空间是二维：\(x = (x^{(1)},x^{(2)})^{\mathrm{T}}\)，我们使用核函数： \(K(x,z)=(x\cdot z)^2\)

目标：找到一个映射\(\phi(x)\)，使得： \(K(x,z)=\phi(x)\cdot\phi(z)\) 也就是想找到一个函数\(\phi(x)\)，把二维x映射到高维空间，让高维空间的点积等于核函数的值。(答案不唯一)

公式中的x和z都是列向量，属于输入空间\(\mathbb{R}^2\)。

\(x = \begin{pmatrix}x^{(1)}\\x^{(2)}\end{pmatrix}\in\mathbb{R}^2\)

\(z = \begin{pmatrix}z^{(1)}\\z^{(2)}\end{pmatrix}\in\mathbb{R}^2\)

上标 (1)、(2)表示向量的分量（分量下标）

\(x^{(1)}\)：表示向量x的第一个分量（第一个维度）

\(x^{(2)}\)：表示向量x的第二个分量

所以\(x\cdot z\)是它们的标准点积（内积）： \(x\cdot z = x^{(1)}z^{(1)} + x^{(2)}z^{(2)}\in\mathbb{R}\)

\(\begin{align*} (x\cdot z)^2&=(x^{(1)}z^{(1)} + x^{(2)}z^{(2)})^2=(x^{(1)}z^{(1)})^2 + 2x^{(1)}z^{(1)}x^{(2)}z^{(2)}+(x^{(2)}z^{(2)})^2\\ &=x^{(1)^2}z^{(1)^2}+2x^{(1)}x^{(2)}z^{(1)}z^{(2)}+x^{(2)^2}z^{(2)^2}\\ &=[(x^{(1)})^2,\sqrt{2}x^{(1)}x^{(2)},(x^{(2)})^2]\cdot[(z^{(1)})^2,\sqrt{2}z^{(1)}z^{(2)},(z^{(2)})^2] \end{align*}\)

容易验证：\(\phi(x)\cdot\phi(z)=(x\cdot z)^2 = K(x,z)\)

得出结论：因此可以定义一个特征映射： \(\phi(x)=((x^{(1)})^2,\sqrt{2}x^{(1)}x^{(2)},(x^{(2)})^2)^T\in\mathbf{R}^3\) 使得： \(\phi(x)\cdot\phi(z)=K(x,z)\)

同样： \(\phi(x)=\frac{1}{\sqrt{2}}((x^{(1)})^2 – (x^{(2)})^2,2x^{(1)}x^{(2)},(x^{(1)})^2 + (x^{(2)})^2)^{\mathrm{T}}\) \(\phi(x)=((x^{(1)})^2,x^{(1)}x^{(2)},x^{(1)}x^{(2)},(x^{(2)})^2)^{\mathrm{T}}\)

再次验证其内积：
\(\begin{align*} \phi(x)\cdot\phi(z)&=(x^{(1)}z^{(1)})^2 + x^{(1)}x^{(2)}z^{(1)}z^{(2)}+x^{(1)}x^{(2)}z^{(1)}z^{(2)}+(x^{(2)}z^{(2)})^2\\ &=(x^{(1)}z^{(1)})^2 + 2x^{(1)}x^{(2)}z^{(1)}z^{(2)}+(x^{(2)}z^{(2)})^2=(x\cdot z)^2 \end{align*}\)

它比第一个维度更高（4 维而不是 3 维）

核技巧在SVM中的应用

常用核函数

序列最小最优化算法（SMO）

SVM的学习问题可以形式化为求解凸二次规划问题：

这样的凸二次规划问题具有全局最优解，并且有许多最优化算法可以用于这一问题的求解。但是当训练样本容易很大时，这些算法往往变得非常低效，以致无法使用。如何高效地实现SVM就成为一个重要问题。序列最小优化算法（Sequential Minimal Optimization, SMO）是其中一种快速学习算法。可用于求解如下凸二次规划的对偶问题

基本思路是：如果所有变量的解都满足此最优化问题的KKT条件，那么解就得到了。否则，选择两个变量，固定其它变量，针对这两个变量构建一个二次规划问题。这个二次规划问题关于这两个变量的解应该更接近原始二次规划问题的解，因为这会使得原始二次规划问题的目标函数变得更小。重要的是，这时子问题可以通过解析方法求解，就可以大大提高计算速度。

子问题有两个变量，一个是违反KKT条件最严重的那个，另一个由约束条件自动确定。如此，SMO算法将原问题不断分解为子问题并对子问题求解，进而达到求解原问题的目的。SVM 就是在所有合法超平面中找那个“间隔最大”的，而 SMO 是帮我们一步步找出对应的 αi\alpha_iαi，从而构造出这个超平面。

整个SMO算法包括两个部分：

求解两个变量二次规划的解析方法
选择变量的启发式方法。

两个变量二次规划的求解方法

由于 SMO 每次仅选取两个变量（α₁ 和 α₂）进行优化，其余 αₖ（k ≠ 1,2）保持不变，因此原始的对偶问题可以被转化为一个仅包含 α₁ 和 α₂ 的二次规划子问题。，所以SMO最优问题(7.98)~(7.100)的子问题可以写成：

其中，Kij=K(xi,xj)，i,j=1,2,⋯,N，ς 是常数，目标函数式 (7.101) 中省略了不含α1,α2 的常数项。

为了求解两个变量的二次规划问题 (7.101)~(7.103)，首先分析约束条件，然后在此约束条件下求极小。

由于只有两个变量(α1,α2)，约束可以用二维空间中的图形表示（如图 7.8 所示）。

不等式约束 (7.103) 使得\((\alpha_1,\alpha_2)\)在盒子\([0,C]\times[0,C]\)内，等式约束 (7.102) 使\((\alpha_1,\alpha_2)\)在平行于盒子\([0,C]\times[0,C]\)的对角线的直线上。因此要求的是目标函数在一条平行于对角线的线段上的最优值。这使得两个变量的最优化问题成为实质上的单变量的最优化问题，不妨考虑为变量\(\alpha_2\)的最优化问题。

假设问题 (7.101)~(7.103) 的初始可行解为\(\alpha_1^{\text{old}},\alpha_2^{\text{old}}\)，最优解为\(\alpha_1^{\text{new}},\alpha_2^{\text{new}}\)，并且假设在沿着约束方向未经剪辑时\(\alpha_2\)的最优解为\(\alpha_2^{\text{new,unc}}\)。

由于\(\alpha_2^{\text{new}}\)需满足不等式约束 (7.103)，所以最优值\(\alpha_2^{\text{new}}\)的取值范围必须满足条件

其中，L与H是\(\alpha_2^{\text{new}}\)所在的对角线段端点的界。

证明

所以为什么要画两条：每一条直线 α1±α2=k\alpha_1 \pm \alpha_2 = kα1±α2=k 是一个可能的合法解空间；图中红线和灰线代表 两个不同的 k 值（比如 k > 0 和 k = 0），从而让你看到：解空间在正方形中的交集位置也会变。

取哪个点？两条线代表不同K(此处的y/x是α1/α2)，以y1=y2为例即类别异样时，要找L最小值，我们需要对比K＜0的情况下的最小值和k＞0时的最小值的更大者作为下限，所以要找直线右下端在横轴上和直线的右下端在\(\alpha_1 = C\)上的两个点，这与\(H=\min(C,\alpha_2^{\text{old}}+\alpha_1^{\text{old}})\)是一致的，其他同理

这条线上的点表示：所有在满足约束条件 α1y1+α2y2=常数\alpha_1 y_1 + \alpha_2 y_2 = \text{常数}α1y1+α2y2=常数前提下，α₁ 与 α₂ 可能的组合。

不同 k ⇒ 直线平移；

(黄色部分：为什么斜率的系数为常数且为1)

L代表lower-最小值：限制条件是交集，在下限式两个点中取最大值，好比要同时满足a＞1和a＞2，只需要满足a＞2就能满足a＞1。H代表higher-最大值：同理在决定上限时要取小于条件中的较小值

如果\(y_1\neq y_2\)（如图 7.8 (a) 所示）

如果\(y_1 = y_2\)（如图 7.8 (b) 所示），则

下面，首先求沿着约束方向未经剪辑即未考虑不等式约束 (7.103) 时\(\alpha_2\)的最优解\(\alpha_2^{\text{new,unc}}\)；然后再求剪辑后\(\alpha_2\)的解\(\alpha_2^{\text{new}}\)。我们用定理来叙述这个结果。为了叙述简单，记 \(g(x)=\sum_{i = 1}^{N}\alpha_iy_iK(x_i,x)+b\) (7.104) 令 \(E_i = g(x_i) – y_i=\left(\sum_{j = 1}^{N}\alpha_jy_jK(x_j,x_i)+b\right)-y_i,\ i = 1,2\) (7.105) 当\(i = 1,2\)时，\(E_i\)为函数\(g(x)\)对输入\(x_i\)的预测值与真实输出\(y_i\)之差。

我们在数学上先不考虑“上下界（0 和 C）”，直接根据公式算出一组新的最优解，这个值叫做“未经剪辑的α₂ – new，unc。这是你“理想情况下”可以取的 α₂ 值，但它不一定落在合法区间 [0, C] 内。因为如果这个值超出了合法范围，就要“剪回”到范围，则取边界值

变量选择的启发式方法

为什么 SMO 中要“选违反最严重的那个点”？

在 SMO 外层循环中，我们每次只优化两个变量，所以我们得优先选：那个“最该改的人”，也就是违反 KKT 条件最严重的 αᵢ；这样选出来的 α₁，才更有可能带来显著改进！