当前位置: 开发笔记 > 人工智能 > 正文

SVM推导硬间隔线性可分

作者：无限的天空-空间 | 来源：互联网 | 2023-06-10 11:50

SVM基本原理：最小距离最大化推导过程以二维空间为例1最大间隔模型1.1w^T*x+b0表示方法二维空间中一条直线的表示方法：Ax+By+C0将式中的x,y换成x1,x2，得到：A

SVM基本原理：最小距离最大化

推导过程以二维空间为例

1 最大间隔模型

1.1 w^T*x+b=0表示方法

二维空间中一条直线的表示方法：Ax+By+C=0

将式中的x,y换成x1,x2，得到：Ax1+Bx2+C=0

转换成矩阵乘法的形式： $(A,B)\binom{x_{1}}{x_{2}}+C=0$

设向量w = $\binom{A}{B}$ ，向量x = $\binom{x_{1}}{x_{2}}$ ，b = C，则有二维空间中一条直线可表示为 $w^{T}x+b=0$

(机器学习中的向量默认是列向量，要是想令w=(A,B)，方程写成wx+b=0也可以)

1.2 支持向量平面的表示

(支持向量平面：超平面平移到两个类别的支持向量，得到的两条直线，图像里的w^T*x+b=±1两条直线，没有找到这两个平面的名称，就先这样叫吧)

将直线进行平移，只改变Ax+By+C=0中的C，即 $w^{T}x+b=0$ 中的b参数，超平面到两类支持向量的距离相同，则平移量相同

支持向量所在的平移直线为 $w^{T}x+b=m$ ，对不同的数据样本m的数值是不相同的

为了计算方便，对数据进行归一化，将数据统一到同一个空间，等比例的缩放成±1

1.3 距离的表示

数学中点(x,y)到直线Ax+By+C=0的距离为： $\frac{\ |Ax+By+C|}{\sqrt{A^{2}+B ^{2} }}$ (几何距离)

前面设了w = $\binom{A}{B}$ ，向量x = $\binom{x_{1}}{x_{2}}$ ，b = C，则||w|| = ${\sqrt{A^{2}+B ^{2} }}$ (向量的模)，|Ax+By+C| = $|w^{T}x+b|$

则点到直线的距离可表示为： $\frac{\ |w^{T}x+b|}{||w||}$ (函数距离)

1.3.1去掉绝对值

设图像中“+”一类为正例，即 $y_{i}$ = 1， $w^{T}x_{i}+b\geqslant 1$ ，“-”一类为负例，即 $y_{i}$ = -1， $w^{T}x_{i}+b\leqslant -1$

对于每一个样本数据，满足： $y_{i}(w^{T}x_{i}+b)\geq 1$

则当 $x_{i}$ 为正例， $|w^{T}x_{i}+b|=(w^{T}x_{i}+b)=y_{i}(w^{T}x_{i}+b)$

当 $x_{i}$ 为负例， $|w^{T}x_{i}+b|=-(w^{T}x_{i}+b)=y_{i}(w^{T}x_{i}+b)$

距离可表示为： $\frac{\ y_{i}(w^{T}x_{i}+b)}{||w||}$

1.4 模型函数

最大间隔即max mariage(w，b)，对所有的样本又满足 $y_{i}(w^{T}x_{i}+b)\geqslant 1$

两类样本的间隔即样本中每个点到直线的最小距离，即 $mariage(w,b) =\min_{x_{i}} \frac{\ y_{i}(w^{T}x_{i}+b)}{||w||}$

间隔中的最小值是和 $x_{i}$ 相关的，与w无关，则 $mariage(w,b) =\frac{1}{||w||}\min_{x_{i}}\ y_{i}(w^{T}x_{i}+b)=\frac{1}{||w||}$

再对间隔的表示形式做变换， $\max_{w,b}\frac{1}{||w||} \Rightarrow \min_{w,b}{\frac{1 }{2}||w||^{2}}$

得到，模型函数为： $\left\{\begin{matrix} \min_{w,b}{\frac{1 }{2}||w||^{2}} \\ s.t.y_{i}(w^{T}x_{i}+b)\geqslant 1 \end{matrix}\right.$

由于约束条件的标准形式是...≤0的形式，将约束条件移项， $\left\{\begin{matrix} \min_{w,b}{\frac{1 }{2}||w||^{2}} \\ s.t. 1-y_{i}(w^{T}x_{i}+b)\leqslant 0 \end{matrix}.........(1)\right.$

2 对偶问题

求多元函数的极值，可借助高等数学中的拉格朗日函数。

令 $L(w,b,\lambda ) = \frac{1 }{2}||w||^{2}+\sum_{i=1}^{N}\lambda _{i}[1-y_{i}(w^{T}x_{i}+b)]$ ， $\lambda _{i}\geqslant 0$ ， $s.t. 1-y_{i}(w^{T}x_{i}+b)\leqslant 0$

结合上面的这些，可将模型函数转换成：

$\left\{\begin{matrix} \min_{w,b}{\frac{1 }{2}||w||^{2}} \\ s.t. 1-y_{i}(w^{T}x_{i}+b)\leqslant 0 \end{matrix}\right.$ $\Rightarrow$ $\left\{\begin{matrix} \min_{w,b}\max_{\lambda }L(w,b,\lambda )\\ s.t. \lambda _{i}\geqslant 0 \end{matrix}.....(2)\right.$

从对所求参数w,b有限制条件的极值，变成了无条件极值。

2.1 转换过程的解释

记 $\Delta =1-y_{i}(w^{T}x_{i}+b)$ ，对于w和b的不同取值， $\Delta$ 要么＞0，要么≤0。

①如果 $\Delta$ ＞0， $L(w,b,\lambda )> 0$ ，其最大值为正无穷

②如果 $\Delta$ ≤ 0， $L(w,b,\lambda )$ 最大值在 $\Delta$ 取0的时候取到，即 $\max_{\lambda }L(w,b,\lambda )=\frac{1 }{2}||w||^{2}$

则 $\min_{w,b}\max_{\lambda }L(w,b,\lambda ) = \min_{w,b}{(+\infty, \frac{1 }{2}||w||^{2}})=\min_{w,b}\frac{1 }{2}||w||^{2}$

相当于，新的函数 $\min_{w,b}\max_{\lambda }L(w,b,\lambda )$ 去掉了 $\Delta$ ＞0对应的w和b的取值情况，等价于，原函数 $\min_{w,b}\frac{1 }{2}||w||^{2}$ 添加上限制条件 $1-y_{i}(w^{T}x_{i}+b)\leqslant 0$

2.2 转换成对偶形式

将模型函数(2)转换成对偶形式为：

$\left\{\begin{matrix} \max_{\lambda }\min_{w,b}L(w,b,\lambda )\\ s.t. \lambda _{i}\geqslant 0 \end{matrix}.....(3)\right.$

(对于任意一个表达式，对偶的转换满足：min max L ≥ max imn L(弱对偶)，凸优化中都是强对偶性，则min max L =max imn L)

2.2.1 为什么要转换成对偶形式

(1) 原问题是先求最大再求最小，对偶问题是先求最小再求最大，习惯上是先求最小再求最大。

(2) 原问题先求最大，确定了λ的值之后，还有两个w和b自由度，再求最小值的时候，需要对w和b分情况讨论；而对偶问题先求最小，确定了w和b的值，再求最大的时候只有λ一个自由度，不需要分情况讨论，更为简单。

2.3 求解w，b

转换成对偶问题之后，要先对拉格朗日函数求出w,b的值

2.3.1 对w求偏导

$L(w,b,\lambda ) = \frac{1 }{2}||w||^{2}+\sum_{i=1}^{N}\lambda _{i}[1-y_{i}(w^{T}x_{i}+b)]$ , 则 $\frac{\partial L}{\partial w} = w - \sum \lambda _{i}y_{i}x_{i}$

这里是对向量求偏导，可以去查一下向量求导公式

$\frac{1 }{2}||w||^{2} = \frac{1 }{2}w^{T}w$ ，而 $\frac{\partial w^{T}w}{\partial w}\ = 2w$

$\frac{\partial \sum_{i=1}^{N}\lambda _{i}[1-y_{i}(w^{T}x_{i}+b)]}{\partial w}\ =-\frac{\partial \sum_{i=1}^{N}\lambda _{i}y_{i}w^{T}x_{i}}{\partial w}\ =-\sum_{i=1}^{N}\lambda _{i}y_{i}x_{i}$

令 $\frac{\partial L}{\partial w} =0$ 得， $w = \sum \lambda _{i}y_{i}x_{i}$

2.3.2 对b求偏导

$\frac{\partial L}{\partial b} =- \frac{\partial \sum \lambda _{i}y_{i}b}{\partial b}=-\sum \lambda _{i}y_{i}$

令 $\frac{\partial L}{\partial b} =0$ ，得 $\sum \lambda _{i}y_{i} = 0$

2.3.3 代入拉格朗函数

$L(w,b,\lambda ) = \frac{1 }{2}||w||^{2}+\sum_{i=1}^{N}\lambda _{i}[1-y_{i}(w^{T}x_{i}+b)]$

$= \frac{1 }{2}w^{T}w+\sum_{i=1}^{N}\lambda _{i}[1-y_{i}(w^{T}x_{i}+b)]$

$= \frac{1 }{2}(\sum_{i=1}^{N}\lambda _{i}y_{i}x_{i})^{T}(\sum_{j=1}^{N}\lambda _{j}y_{j}x_{j})+\sum_{i=1}^{N}\lambda _{i}-\sum_{i=1}^{N}y_{i}(\sum_{j=1}^{N}\lambda _{j}y_{j}x_{j})^{T}x_{i}-\sum_{i=1}^{N}\lambda _{j}y_{i}b$

$= \frac{1 }{2}[\sum_{i=1}^{N}\lambda _{i}y_{i}(x_{i})^{T}](\sum_{j=1}^{N}\lambda _{j}y_{j}x_{j})+\sum_{i=1}^{N}\lambda _{i}-\sum_{i=1}^{N}y_{i}[\sum_{j=1}^{N}\lambda _{j}y_{j}(x_{j})^{T}]x_{i}$

$= \frac{1 }{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\lambda _{i}\lambda _{j}y_{i}y_{j}(x_{i})^{T}x_{j}+\sum_{i=1}^{N}\lambda _{i}-\sum_{i=1}^{N}\sum_{j=1}^{N}\lambda _{i}\lambda _{j}y_{i}y_{j}(x_{i})^{T}x_{j}$

$= -\frac{1 }{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\lambda _{i}\lambda _{j}y_{i}y_{j}(x_{i})^{T}x_{j}+\sum_{i=1}^{N}\lambda _{i}$

则模型函数 $\left\{\begin{matrix} \max_{\lambda }\min_{w,b}L(w,b,\lambda )\\ s.t. \lambda _{i}\geqslant 0 \end{matrix}\right.$ 转换成 $\left\{\begin{matrix} \max_{\lambda }-\frac{1 }{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\lambda _{i}\lambda _{j}y_{i}y_{j}(x_{i})^{T}x_{j}+\sum_{i=1}^{N}\lambda _{i}\\ s.t. \lambda _{i}\geqslant 0\\ \sum \lambda _{i}y_{i} = 0\end{matrix}\right.$ 或 $\left\{\begin{matrix} \min_{\lambda }\frac{1 }{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\lambda _{i}\lambda _{j}y_{i}y_{j}(x_{i})^{T}x_{j}-\sum_{i=1}^{N}\lambda _{i}\\ s.t. \lambda _{i}\geqslant 0\\ \sum \lambda _{i}y_{i} = 0\end{matrix}\right.$

3 模型求解

原问题和对偶问题是强对偶 $\Leftrightarrow$ 满足KKT条件

3.1 KKT条件形式

$\left\{\begin{matrix} \frac{\partial L}{\partial b} =0, \frac{\partial L}{\partial w} =0\\ \lambda _{i}[1-y_{i}(w^{T}x_{i}+b)]=0\\ \lambda _{i}\geqslant 0\\ 1-y_{i}(w^{T}x_{i}+b)\leqslant 0\end{matrix}\right.$

其中第二个表达式为互补松弛条件。

结合后三个表达式，当样本点在 $w^{T}x+b=\pm 1$ 这两个超平面上的时候， $\lambda _{i}$ 才能够不为零；对于其他的样本点， $\lambda _{i}$ 的取值只能为0。即只有在 $w^{T}x+b=\pm 1$ 这两个超平面上的样本点才对模型参数的取值有影响，其他的点则不影响模型参数，故，将这些样本点称为支持向量。

3.2 求解

w的值使用 $\frac{\partial L}{\partial w} =0$ 即可求得 $w = \sum \lambda _{i}y_{i}x_{i}$

对于参数b，取样本点 $(x_{k},y_{k})$ ，满足 $1-y_{k}(w^{T}x_{k}+b)=0$ ，(即样本点在支持向量的超平面上)，则 $y_{k}(w^{T}x_{k}+b)=1$

等式两边同乘 $y_{k}$ ，得到 $(w^{T}x_{k}+b)=y_{k}$ ，(由于 $y_{k}^{2}=1$ )

则 $b = y_{k}-w^{T}x_{k}= y_{k}- (\sum \lambda _{i}y_{i}x_{i}^{T})x_{k}$

模型： $f(x)=sign(w^{T}x+b)$

推荐阅读

机器学习
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
机器学习
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
机器学习
cs231n Lecture 3 线性分类笔记（一）

内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注：中文翻译 ... [详细]

蜡笔小新 2023-10-17 19:40:56
机器学习
支持向量机训练集多少个_25道题检测你对支持向量机算法的掌握程度

介绍在我们学习机器算法的时候，可以将机器学习算法视为包含刀枪剑戟斧钺钩叉的一个军械库。你可以使用各种各样的兵器，但你要明白这些兵器是需要在合适的时间合理 ... [详细]

蜡笔小新 2023-10-17 16:21:13
机器学习
机器学习之数据均衡算法种类大全+Python代码一文详解

目录前言一、为什么要做数据均衡？二、数据场景1.大数据分布不均衡2.小数据分布不均衡三、均衡算法类型1.过采样2.欠采样3.组合采样四、算法具体种类1 ... [详细]

蜡笔小新 2023-10-15 23:34:41
机器学习
Stanford机器学习第九讲. 聚类

原文：http:blog.csdn.netabcjenniferarticledetails7914952本栏目（Machinelearning）包括单参数的线性回归、多参数的线性 ... [详细]

蜡笔小新 2023-10-15 16:17:01
机器学习
开发笔记:小白python机器学习之路——支持向量机

篇首语：本文由编程笔记#小编为大家整理，主要介绍了小白python机器学习之路——支持向量机相关的知识，希望对你有一定的参考价值。支持 ... [详细]

蜡笔小新 2023-10-15 12:00:18
机器学习
使用机器学习的疾病预测

使用机器学习的疾病预测原文:https://www.gees ... [详细]

蜡笔小新 2023-10-14 16:00:09
机器学习
开源真香离线识别率高 Python 人脸识别系统

本文主要介绍关于python,人工智能,计算机视觉的知识点，对【开源真香离线识别率高Python人脸识别系统】和【】有兴趣的朋友可以看下由【000X000】投稿的技术文章，希望该技术和经验能帮到 ... [详细]

蜡笔小新 2023-10-14 15:43:38
机器学习
词袋模型的通俗介绍

词,袋, ... [详细]

蜡笔小新 2023-12-12 08:20:03
机器学习
绕过WAF的XSS检测机制及构建XSS payload的方法

本文介绍了绕过WAF的XSS检测机制的方法，包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法，该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型（DOM）接收器和源、实施适当的跨域资源共享（CORS）策略和其他安全策略，可以有效阻止XSS漏洞。但是，WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制，构建与正则表达式不匹配的XSS payload。 ... [详细]

蜡笔小新 2023-12-11 19:42:30
机器学习
如何使用代理服务器进行网页抓取？

本文介绍了如何使用代理服务器进行网页抓取，并探讨了数据驱动对竞争优势的重要性。通过网页抓取，企业可以快速获取并分析大量与需求相关的数据，从而制定营销战略。同时，网页抓取还可以帮助电子商务公司在竞争对手的网站上下载数百页的有用数据，提高销售增长和毛利率。 ... [详细]

蜡笔小新 2023-12-11 13:12:52
机器学习
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
机器学习
老牌医药收割AI红利：先投个15亿美元抢中国人才

萧箫发自凹非寺量子位报道|公众号QbitAI没想到，一场大会把我的“刻板印象”攻破了。2021世界人工智能大会现场，能看见不少熟悉的身影， ... [详细]

蜡笔小新 2023-10-17 17:40:25
机器学习
plt python 画直线_机器学习干货，一步一步通过Python实现梯度下降的学习

GradientDescent-梯度下降梯度下降法(英语：Gradientdescent)是一个一阶最优化算法，通常也称为最速下降法。要使用梯度下降法找 ... [详细]

蜡笔小新 2023-10-17 14:30:10

无限的天空-空间

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章