机器学习SVM硬间隔与软间隔：重要参数C

作者：小心大巧 | 来源：互联网 | 2023-10-09 19:34

SVM在软间隔数据上的推广到这里，我们已经了解了线性SVC的基本原理，以及SVM如何被推广到非线性情况下，还了解了核函数的选择和应用。但

SVM在软间隔数据上的推广

到这里&＃xff0c;我们已经了解了线性SVC的基本原理&＃xff0c;以及SVM如何被推广到非线性情况下&＃xff0c;还了解了核函数的选择和应用。但实际上&＃xff0c;我们依然没有完全了解SVM用于二分类的全貌。我们之前在理论推导中使用的数据都有一个特点&＃xff0c;那就是他们或是完全线性可分&＃xff0c;或者是非线性的数据。在我们对比核函数时&＃xff0c;实际上用到了一种不同的数据&＃xff0c;那就是不完全线性可分的数据集。比如说如下数据集&＃xff1a;
在这里插入图片描述
这个数据集和我们最开始介绍SVM如何工作的时候的数据集一模一样&＃xff0c;除了多了P和Q两个点。我们注意到&＃xff0c;虽然决策边界B₁的间隔已经非常宽了&＃xff0c;然而点P和Q依然被分错了类别&＃xff0c;相反&＃xff0c;边际比较小的B₂却正确地分出了点P和Q的类别。这里并不是说B₂此时此刻就是一条更好的边界了&＃xff0c;与之前的论述一致&＃xff0c;如果我们引入更多的训练数据&＃xff0c;或引入测试数据&＃xff0c; 更加宽敞的边界可以帮助它有更好的表现。但是&＃xff0c;和之前不一样&＃xff0c;现在让边际最大的决策边界的训练误差也不可能为0了。此时&＃xff0c;我们就需要引入“软间隔”的概念&＃xff1a;

硬间隔与软间隔

当两组数据是完全线性可分&＃xff0c;我们可以找出一个决策边界使得训练集上的分类误差为0&＃xff0c;这两种数据就被称为是存在”硬间隔“的。当两组数据几乎是完全线性可分的&＃xff0c;但决策边界在训练集上存在较小的训练误差&＃xff0c;这两种数据就被称为是存在”软间隔“。
我们可以通过调整我们对决策边界的定义&＃xff0c;将硬间隔时得出的数学结论推广到软间隔的情况上&＃xff0c;让决策边界能够忍受一小部分训练误差。这个时候&＃xff0c;我们的决策边界就不是单纯地寻求最大边际了&＃xff0c;因为对于软间隔地数据来说&＃xff0c;边际越大被分错的样本也就会越多&＃xff0c;因此我们需要找出一个”最大边际“与”被分错的样本数量“之间的平衡。
在这里插入图片描述
看上图&＃xff0c;原始的决策边界 $ω⋅x&＃43;b&＃61;0\boldsymbol{ω\cdot x}&＃43;b&＃61;0$ &＃xff0c;原本的平行于决策边界的两个虚线超平面 $ω⋅x&＃43;b&＃61;1\boldsymbol{ω\cdot x}&＃43;b&＃61;1$ 和 $ω⋅x&＃43;b&＃61;−1\boldsymbol{ω\cdot x}&＃43;b&＃61;-1$ 都依然有效。我们的原始判别函数为&＃xff1a;
$ω⋅xi&＃43;b⩾1ifyi&＃61;1ω⋅xi&＃43;b⩽−1ifyi&＃61;−1\boldsymbol{ω\cdot x_i}&＃43;b\geqslant 1 \qquad if \quad y_i&＃61;1 \\ \boldsymbol{ω\cdot x_i}&＃43;b\leqslant -1 \qquad if \quad y_i&＃61;-1$
不过&＃xff0c;这些超平面现在无法让数据上的训练误差等于0了&＃xff0c;因为此时存在了一个混杂在红色点中的紫色点x_p。于是&＃xff0c;我们需要放松我们原始判别函数中的不等条件&＃xff0c;来让决策边界能够适用于我们的异常点&＃xff0c;引入松弛系数ζ来帮助我们优化原始的判别函数&＃xff1a;
$ω⋅xi&＃43;b⩾1−ζiifyi&＃61;1ω⋅xi&＃43;b⩽−1&＃43;ζiifyi&＃61;−1\boldsymbol{ω\cdot x_i}&＃43;b\geqslant 1-ζ_i \qquad if \quad y_i&＃61;1 \\ \boldsymbol{ω\cdot x_i}&＃43;b\leqslant -1&＃43;ζ_i \qquad if \quad y_i&＃61;-1$
其中ζ_i>0。可以看得出&＃xff0c;这其实是将原本的虚线超平面向图像的上方和下方平移。松弛系数其实很好理解&＃xff0c;来看上面的图像。位于红色点附近的紫色点x_p在原本的判别函数中必定会被分为红色&＃xff0c;所以一定会被判断错。现在作一条与决策边界平行且过点x_p的直线 $ω⋅xi&＃43;b&＃61;1−ζi\boldsymbol{ω\cdot x_i}&＃43;b &＃61; 1-ζ_i$ &＃xff08;图中的蓝色虚线&＃xff09;。这条直线是由 $ω⋅xi&＃43;b&＃61;1\boldsymbol{ω\cdot x_i}&＃43;b &＃61; 1$ 平移得到&＃xff0c;所以两条直线在纵坐标上的差异就是ζ&＃xff08;竖直的黑色箭头&＃xff09;。而点x_p到 $ω⋅xi&＃43;b&＃61;1\boldsymbol{ω\cdot x_i}&＃43;b &＃61; 1$ 的距离就可以表示为 $ζ⋅ω∣∣ω∣∣\frac{ζ \cdot ω}{||ω||}$ &＃xff0c;即ζ在ω方向上的投影。由于单位向量是固定的&＃xff0c;所以ζ可以作为点x_p在原始的决策边界上的分类错误的程度的表示&＃xff0c;隔得越远&＃xff0c;分得越错。但注意&＃xff0c; ζ并不是点到决策超平面的距离本身。
不难注意到&＃xff0c;我们让 $ω⋅xi&＃43;b⩾1−ζi\boldsymbol{ω\cdot x_i}&＃43;b\geqslant 1-ζ_i$ 作为我们的新决策超平面&＃xff0c;此时此刻&＃xff0c;混杂在红色点中的紫色点就是我们的支持向量了。所以软间隔让决定两条虚线超平面的支持向量可能是来自于同一个类别的样本点&＃xff0c;而硬间隔的两条虚线超平面必须是由来自两个不同类别的支持向量决定的。而所有可能影响我们的超平面的样本可能都会被定义为支持向量&＃xff0c;此时此刻&＃xff0c;支持向量就不再是所有压在虚线超平面上的点&＃xff0c;而是所有可能影响我们的超平面的位置的那些混杂在彼此的类别中的点了。观察一下我们对不同数据集分类时&＃xff0c;支持向量都有哪些&＃xff1f;软间隔如何影响了超平面和支持向量&＃xff0c;就一目了然了。
这个新的超平面还有其他的问题&＃xff0c;虽然我们把异常的紫色点分类正确了&＃xff0c;但我们同时也分错了一系列红色的点。所以我们必须在我们求解最大边际的损失函数中加上一个惩罚项&＃xff0c;用来惩罚我们具有巨大松弛系数的决策超平面。我们的拉格朗日函数&＃xff0c;拉格朗日对偶函数&＃xff0c;也因此都被松弛系数改变。现在&＃xff0c;我们的损失函数为&＃xff1a;
在这里插入图片描述
其中C是用来控制惩罚项的惩罚力度的系数。
我们的拉格朗日函数为&＃xff08;其中μ是第二个拉格朗日乘数&＃xff09;&＃xff1a;

需要满足的KKT条件为&＃xff1a;

拉格朗日对偶函数为&＃xff1a;

这种状况下的拉格朗日对偶函数看起来和线性可分状况下的对偶函数一模一样&＃xff0c;但是需要注意的是&＃xff0c;在这个函数中&＃xff0c;拉格朗日乘数α的取值的限制改变了。在硬间隔的状况下&＃xff0c;拉格朗日乘数值需要大于等于0&＃xff0c;而现在α被要求不能够大于用来控制惩罚项的惩罚力度的系数C。有了对偶函数之后&＃xff0c;我们的求解过程和硬间隔下的步骤一致。以上所有的公式&＃xff0c;是以线性硬间隔数据为基础&＃xff0c;考虑了软间隔存在的情况和数据是非线性的状况而得来的。而这些公式&＃xff0c;就是sklearn类SVC背后使用的最终公式。公式中现在唯一的新变量&＃xff0c;松弛系数的惩罚力度C&＃xff0c;由我们的参数C来进行控制。

重要参数C

**参数C用于权衡”训练样本的正确分类“与”决策函数的边际最大化“**两个不可同时完成的目标&＃xff0c;希望找出一个平衡点来让模型的效果最佳。

C的含义

浮点数&＃xff0c;默认1&＃xff0c;必须大于等于0&＃xff0c;可不填
C是松弛系数的惩罚项系数。如果C值设定比较大&＃xff0c;那SVC可能会选择边际较小的&＃xff0c;能够更好地分类所有训练点的决策边界&＃xff0c;不过模型的训练时间也会更长。如果C的设定值较小&＃xff0c;那SVC会尽量最大化边界&＃xff0c;决策功能会更简单&＃xff0c;但代价是训练的准确度。换句话说&＃xff0c;C在SVM中的影响就像正则化参数对逻辑回归的影响。
在实际使用中&＃xff0c;C和核函数的相关参数&＃xff08;gamma&＃xff0c;degree等等&＃xff09;们搭配&＃xff0c;往往是SVM调参的重点。与gamma不同&＃xff0c;C没有在对偶函数中出现&＃xff0c;并且是明确了调参目标的&＃xff0c;所以我们可以明确我们究竟是否需要训练集上的高精确度来调整C的方向。默认情况下C为1&＃xff0c;通常来说这都是一个合理的参数。如果我们的数据很嘈杂&＃xff0c;那我们往往减小C。当然&＃xff0c;我们也可以使用网格搜索或者学习曲线来调整C的值。

#参数 C 的学习曲线#调线性核函数 score &＃61; [] C_range &＃61; np.linspace(0.01,30,50) for i in C_range:clf &＃61; SVC(kernel&＃61;"linear",C&＃61;i).fit(Xtrain,Ytrain)score.append(clf.score(Xtest,Ytest))print(max(score), C_range[score.index(max(score))]) plt.plot(C_range,score) plt.show()

0.9766081871345029 1.2340816326530613

在这里插入图片描述

#换rbf score &＃61; [] C_range &＃61; np.linspace(0.01,30,50) for i in C_range:clf &＃61; SVC(kernel&＃61;"rbf",C&＃61;i,gamma &＃61; 0.012).fit(Xtrain,Ytrain)score.append(clf.score(Xtest,Ytest))print(max(score), C_range[score.index(max(score))]) plt.plot(C_range,score) plt.show()

0.9824561403508771 6.7424489795918365

在这里插入图片描述

#进一步细化 score &＃61; [] C_range &＃61; np.linspace(5,7,50) for i in C_range:clf &＃61; SVC(kernel&＃61;"rbf",C&＃61;i,gamma &＃61; 0.012).fit(Xtrain,Ytrain)score.append(clf.score(Xtest,Ytest))print(max(score), C_range[score.index(max(score))]) plt.plot(C_range,score) plt.show()

0.9824561403508771 6.26530612244898

在这里插入图片描述
此时&＃xff0c;我们找到了乳腺癌数据集上的最优解&＃xff1a;rbf核函数下的98.24%的准确率。当然&＃xff0c;我们还可以使用交叉验证来改进我们的模型&＃xff0c;获得不同测试集和训练集上的交叉验证结果。但上述过程&＃xff0c;为大家展现了如何选择正确的核函数&＃xff0c;以及如何调整核函数的参数&＃xff0c;过程虽然简单&＃xff0c;但是希望可以对大家有所启发。

推荐阅读

list
如何从列表中删除所有零？

本文介绍了如何使用python从列表中删除所有的零，并将结果以列表形式输出，同时提供了示例格式。 ... [详细]

蜡笔小新 2023-12-13 13:02:00
const
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
list
python机器学习之数据探索

🐱今天我们来讲解数据建模之前需要处理的工作，也就是数据探索的过程，很多同学会说，不就是处理缺失值，异常值&# ... [详细]

蜡笔小新 2023-10-16 17:06:54
list
开发笔记:小白python机器学习之路——支持向量机

篇首语：本文由编程笔记#小编为大家整理，主要介绍了小白python机器学习之路——支持向量机相关的知识，希望对你有一定的参考价值。支持 ... [详细]

蜡笔小新 2023-10-15 12:00:18
split
使用机器学习的疾病预测

使用机器学习的疾病预测原文:https://www.gees ... [详细]

蜡笔小新 2023-10-14 16:00:09
split
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
string
Python爬虫中使用正则表达式的方法和注意事项

本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤，并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法，包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块，并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习，读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]

蜡笔小新 2023-12-12 11:51:07
match
Python基础篇：315道题目及答案整理，帮助你检验学习成果

本文整理了315道Python基础题目及答案，帮助读者检验学习成果。文章介绍了学习Python的途径、Python与其他编程语言的对比、解释型和编译型编程语言的简述、Python解释器的种类和特点、位和字节的关系、以及至少5个PEP8规范。对于想要检验自己学习成果的读者，这些题目将是一个不错的选择。请注意，答案在视频中，本文不提供答案。 ... [详细]

蜡笔小新 2023-12-10 14:33:46
match
支持向量机训练集多少个_25道题检测你对支持向量机算法的掌握程度

介绍在我们学习机器算法的时候，可以将机器学习算法视为包含刀枪剑戟斧钺钩叉的一个军械库。你可以使用各种各样的兵器，但你要明白这些兵器是需要在合适的时间合理 ... [详细]

蜡笔小新 2023-10-17 16:21:13
split
词向量计算文本相似度,通过词向量求文本相似度

基于词向量计算文本相似度1.测试数据：链接：https:pan.baidu.coms1fXJjcujAmAwTfsuTg2CbWA提取码：f4vx2.实验代码：imp ... [详细]

蜡笔小新 2023-10-17 12:10:15
split
用pandas库修改excel文件里的内容，并把excel文件格式存为csv格式，再将csv格式改为html格式

假设有Excel文件data.xlsx，其中内容为： ID age height sex weight张三 1 39 181 female 85李四 2 40 180 male 80王五 3 38 178 female 78赵六 4 59 1 ... [详细]

蜡笔小新 2023-10-16 17:56:35
string
Tensorflow 训练自己的cnn模型行人识别

代码如下：#coding:utf-8importstring,os,sysimportnumpyasnpimportmatplotlib.py ... [详细]

蜡笔小新 2023-10-16 16:57:06
web
Azure机器学习入门（三）创建Azure机器学习实验

在此动手实践中，我们将在Azure机器学习Studio中一步步地开发预测分析模型，首先我们从UCI机器学习库的链接下载普查收入数据集的样本并开始动手实践：http:archive. ... [详细]

蜡笔小新 2023-10-15 18:56:17
web
Visualizing and Understanding Convolutional Networks(ZFNet网络)论文阅读笔记

VisualizingandUnderstandingConvolutionalNetworksZFNet网络架构论文阅读笔记2022.4.4论文地址https:arxiv ... [详细]

蜡笔小新 2023-10-13 12:30:06
go
IJCAI18 阿里妈妈搜索广告转化预测总结

IJCAI-18阿里妈妈搜索广告转化预测总结,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-10-13 10:28:29

小心大巧

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章