当前位置: 开发笔记 > 后端 > 正文

浅谈过拟合

作者：月舞B的啊 | 来源：互联网 | 2023-07-06 13:24

概念为了得到一致假设而使假设变得过度严格称为过拟合。定义给定一个假设空间H，一个假设h属于H，如果存在其他的假设h’属于H,使得在训练样例上h的错

概念

为了得到一致假设而使假设变得过度严格称为过拟合。

定义

给定一个假设空间H&＃xff0c;一个假设h属于H&＃xff0c;如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小&＃xff0c;但在整个实例分布上h’比h的错误率小&＃xff0c;那么就说假设h过度拟合训练数据。

我们可以举个例子理解一下
举个例子&＃xff1a;

(1)打个形象的比方&＃xff0c;给一群天鹅让机器来学习天鹅的特征&＃xff0c;经过训练后&＃xff0c;知道了天鹅是有翅膀的&＃xff0c;天鹅的嘴巴是长长的弯曲的&＃xff0c;天鹅的脖子是长长的有点曲度&＃xff0c;天鹅的整个体型像一个“2”且略大于鸭子.这时候你的机器已经基本能区别天鹅和其他动物了。

(2)然后&＃xff0c;很不巧你的天鹅全是白色的&＃xff0c;于是机器经过学习后&＃xff0c;会认为天鹅的羽毛都是白的&＃xff0c;以后看到羽毛是黑的天鹅就会认为那不是天鹅.

(3)好&＃xff0c;来分析一下上面这个例子&＃xff1a;(1)中的规律都是对的&＃xff0c;所有的天鹅都有的特征&＃xff0c;是全局特征&＃xff1b;然而&＃xff0c;(2)中的规律&＃xff1a;天鹅的羽毛是白的.这实际上并不是所有天鹅都有的特征&＃xff0c;只是局部样本的特征。机器在学习全局特征的同时&＃xff0c;又学习了局部特征&＃xff0c;这才导致了不能识别黑天鹅的情况.

然后&＃xff0c;我们再放到机器里面

(1)对于机器来说&＃xff0c;在使用学习算法学习数据的特征的时候&＃xff0c;样本数据的特征可以分为局部特征和全局特征&＃xff0c;全局特征就是任何你想学习的那个概念所对应的数据都具备的特征&＃xff0c;而局部特征则是你用来训练机器的样本里头的数据专有的特征.

(2)在学习算法的作用下&＃xff0c;机器在学习过程中是无法区别局部特征和全局特征的&＃xff0c;于是机器在完成学习后&＃xff0c;除了学习到了数据的全局特征&＃xff0c;也可能习得一部分局部特征&＃xff0c;而习得的局部特征比重越多&＃xff0c;那么新样本中不具有这些局部特征但具有所有全局特征的样本也越多&＃xff0c;于是机器无法正确识别符合概念定义的“正确”样本的几率也会上升&＃xff0c;也就是所谓的“泛化性”变差&＃xff0c;这是过拟合会造成的最大问题.

(3)所谓过拟合&＃xff0c;就是指把学习进行的太彻底&＃xff0c;把样本数据的所有特征几乎都习得了&＃xff0c;于是机器学到了过多的局部特征&＃xff0c;过多的由于噪声带来的假特征&＃xff0c;造成模型的“泛化性”和识别正确率几乎达到谷点&＃xff0c;于是你用你的机器识别新的样本的时候会发现就没几个是正确识别的.

判断方法

一个假设在训练数据上能够获得比其他假设更好的拟合&＃xff0c; 但是在训练数据外的数据集上却不能很好地拟合数据&＃xff0c;此时认为这个假设出现了过拟合的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。

图列

可以看出在a中虽然完全的拟合了样本数据&＃xff0c;但对于b中的测试数据分类准确度很差。而c虽然没有完全拟合样本数据&＃xff0c;但在d中对于测试数据的分类准确度却很高。过拟合问题往往是由于训练数据少等原因造成的。
在这里插入图片描述

常见引起过拟合的原因

&＃xff08;1&＃xff09;建模样本选取有误&＃xff0c;如样本数量太少&＃xff0c;选样方法错误&＃xff0c;样本标签错误等&＃xff0c;导致选取的样本数据不足以代表预定的分类规则&＃xff1b;
&＃xff08;2&＃xff09;样本噪音干扰过大&＃xff0c;使得机器将部分噪音认为是特征从而扰乱了预设的分类规则&＃xff1b;
&＃xff08;3&＃xff09;假设的模型无法合理存在&＃xff0c;或者说是假设成立的条件实际并不成立&＃xff1b;
&＃xff08;4&＃xff09;参数太多&＃xff0c;模型复杂度过高&＃xff1b;

常见引起过拟合的处理方法

1&＃xff09;在神经网络模型中&＃xff0c;可使用权值衰减的方法&＃xff0c;即每次迭代过程中以某个小因子降低每个权值。
&＃xff08;2&＃xff09;选取合适的停止训练标准&＃xff0c;使对机器的训练在合适的程度&＃xff1b;
&＃xff08;3&＃xff09;保留验证数据集&＃xff0c;对训练成果进行验证&＃xff1b;
&＃xff08;4&＃xff09;获取额外数据进行交叉验证&＃xff1b;
&＃xff08;5&＃xff09;正则化&＃xff0c;即在进行目标函数或代价函数优化时&＃xff0c;在目标函数或代价函数后面加上一个正则项&＃xff0c;一般有L1正则与L2正则等。

谈到了正则&＃xff0c;我们来了解一下L1正则与L2正则

L1正则化&＃xff08;Losso&＃xff09; L2正则化&＃xff08;Ridge&＃xff09;

推荐阅读

ci
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
api
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
注入
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
注入
南邮ctf-web的writeup

本文介绍了南邮ctf-web的writeup，包括签到题和md5 collision。在CTF比赛和渗透测试中，可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型，可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]

蜡笔小新 2023-12-13 10:58:55
ci
统一知识图谱学习和建议：更好地理解用户偏好

本文介绍了一种将知识图谱纳入推荐系统的方法，以提高推荐的准确性和可解释性。与现有方法不同的是，本方法考虑了知识图谱的不完整性，并在知识图谱中传输关系信息，以更好地理解用户的偏好。通过大量实验，验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]

蜡笔小新 2023-12-11 11:11:02
ci
Learning to Paint with Model-based Deep Reinforcement Learning

本文介绍了一种基于模型的深度强化学习方法，通过结合神经渲染器，教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等，以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战，包括绘制纹理丰富的图像等。通过对比实验的结果，作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]

蜡笔小新 2023-12-11 10:27:44
ci
建立分类感知器二元模型对样本数据进行分类

本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型，使用最小二乘、Logistic回归等方法进行建模，考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数，使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]

蜡笔小新 2023-12-09 10:22:15
ci
读手语图像识别论文笔记2

文章目录一、前言二、笔记1.名词解释2.流程分析上一篇快速门:读手语图像识别论文笔记1（手语识别背景和方法）一、前言一句：“做完了&#x ... [详细]

蜡笔小新 2023-10-17 20:45:15
ci
cs231n Lecture 3 线性分类笔记（一）

内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注：中文翻译 ... [详细]

蜡笔小新 2023-10-17 19:40:56
ci
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
ci
概论组合最优化问题、计算复杂性和启发式算法概念（现代优化计算方法）

1.组合最优化问题定义：是通过数学方法的研究去寻找离散事件的最优编排、分组、次序或筛选等。描述：最优化问题的数学模型的一般描述是，x为决策 ... [详细]

蜡笔小新 2023-10-17 18:23:43
ci
Opencv Python版学习笔记（八）字符识别-分类器（SVM，KNearest，RTrees，Boost，MLP）

Opencv提供了几种分类器，例程里通过字符识别来进行说明的1、支持向量机（SVM）：给定训练样本，支持向量机建立一个超平面作为决策平面，使得正例和反例之间的隔离边缘被最大化。函数原型：训练原型cv ... [详细]

蜡笔小新 2023-10-17 17:02:44
session
3年半巨亏242亿！商汤高估了深度学习，下错了棋？

转自：新智元三年半研发开支近70亿，累计亏损242亿。AI这门生意好像越来越不好做了。近日，商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]

蜡笔小新 2023-10-17 16:41:52
session
php设置数组大小_【大厂必备】2020超经典PHP面试题

结合我自己这段时间的面试情况，面对的一些php面试题列举出来，基本上结合自己的看法回答的，不妥的地方请大家指出去，与大家一起 ... [详细]

蜡笔小新 2023-10-17 15:35:45
session
ICRA2019最佳论文 Making Sense of Vision and Touch: SelfSupervised Learning of Multimodal Representatio

文章目录摘要模型架构模态编码器自监督预测控制器设计策略学习控制器设计实验结论和展望会议：ICRA2019标题：《MakingSenseofVision ... [详细]

蜡笔小新 2023-10-17 12:49:25

月舞B的啊

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章