当前位置: 开发笔记 > 编程语言 > 正文

六种方法帮你解决模型过拟合问题

作者：lodng | 来源：互联网 | 2023-09-23 18:07

每天给你送来NLP技术干货！作者丨MahithaSingirikonda来源丨机器之心导读在机器学习中，过拟合（overfitting&#

每天给你送来NLP技术干货&＃xff01;

作者丨Mahitha Singirikonda

来源丨机器之心

导读

在机器学习中&＃xff0c;过拟合&＃xff08;overfitting&＃xff09;会使模型的预测性能变差&＃xff0c;通常发生在模型过于复杂的情况下&＃xff0c;如参数过多等。本文对过拟合及其解决方法进行了归纳阐述。

正如巴菲特所言&＃xff1a;「近似的正确好过精确的错误。」

在机器学习中&＃xff0c;如果模型过于专注于特定的训练数据而错过了要点&＃xff0c;那么该模型就被认为是过拟合。该模型提供的答案和正确答案相距甚远&＃xff0c;即准确率降低。这类模型将无关数据中的噪声视为信号&＃xff0c;对准确率造成负面影响。即使模型经过很好地训练使损失很小&＃xff0c;也无济于事&＃xff0c;它在新数据上的性能仍然很差。欠拟合是指模型未捕获数据的逻辑。因此&＃xff0c;欠拟合模型具备较低的准确率和较高的损失。

如何确定模型是否过拟合&＃xff1f;

构建模型时&＃xff0c;数据会被分为 3 类&＃xff1a;训练集、验证集和测试集。训练数据用来训练模型&＃xff1b;验证集用于在每一步测试构建的模型&＃xff1b;测试集用于最后评估模型。通常数据以 80:10:10 或 70:20:10 的比率分配。

在构建模型的过程中&＃xff0c;在每个 epoch 中使用验证数据测试当前已构建的模型&＃xff0c;得到模型的损失和准确率&＃xff0c;以及每个 epoch 的验证损失和验证准确率。模型构建完成后&＃xff0c;使用测试数据对模型进行测试并得到准确率。如果准确率和验证准确率存在较大的差异&＃xff0c;则说明该模型是过拟合的。

如果验证集和测试集的损失都很高&＃xff0c;那么就说明该模型是欠拟合的。

如何防止过拟合

交叉验证

交叉验证是防止过拟合的好方法。在交叉验证中&＃xff0c;我们生成多个训练测试划分&＃xff08;splits&＃xff09;并调整模型。K-折验证是一种标准的交叉验证方法&＃xff0c;即将数据分成 k 个子集&＃xff0c;用其中一个子集进行验证&＃xff0c;其他子集用于训练算法。

交叉验证允许调整超参数&＃xff0c;性能是所有值的平均值。该方法计算成本较高&＃xff0c;但不会浪费太多数据。交叉验证过程参见下图&＃xff1a;

用更多数据进行训练

用更多相关数据训练模型有助于更好地识别信号&＃xff0c;避免将噪声作为信号。数据增强是增加训练数据的一种方式&＃xff0c;可以通过翻转&＃xff08;flipping&＃xff09;、平移&＃xff08;translation&＃xff09;、旋转&＃xff08;rotation&＃xff09;、缩放&＃xff08;scaling&＃xff09;、更改亮度&＃xff08;changing brightness&＃xff09;等方法来实现。

移除特征

移除特征能够降低模型的复杂性&＃xff0c;并且在一定程度上避免噪声&＃xff0c;使模型更高效。为了降低复杂度&＃xff0c;我们可以移除层或减少神经元数量&＃xff0c;使网络变小。

早停

对模型进行迭代训练时&＃xff0c;我们可以度量每次迭代的性能。当验证损失开始增加时&＃xff0c;我们应该停止训练模型&＃xff0c;这样就能阻止过拟合。

下图展示了停止训练模型的时机&＃xff1a;

正则化

正则化可用于降低模型的复杂性。这是通过惩罚损失函数完成的&＃xff0c;可通过 L1 和 L2 两种方式完成&＃xff0c;数学方程式如下&＃xff1a;

L1 惩罚的目的是优化权重绝对值的总和。它生成一个简单且可解释的模型&＃xff0c;且对于异常值是鲁棒的。

L2 惩罚权重值的平方和。该模型能够学习复杂的数据模式&＃xff0c;但对于异常值不具备鲁棒性。

这两种正则化方法都有助于解决过拟合问题&＃xff0c;读者可以根据需要选择使用。

Dropout

Dropout 是一种正则化方法&＃xff0c;用于随机禁用神经网络单元。它可以在任何隐藏层或输入层上实现&＃xff0c;但不能在输出层上实现。该方法可以免除对其他神经元的依赖&＃xff0c;进而使网络学习独立的相关性。该方法能够降低网络的密度&＃xff0c;如下图所示&＃xff1a;

总结

过拟合是一个需要解决的问题&＃xff0c;因为它会让我们无法有效地使用现有数据。有时我们也可以在构建模型之前&＃xff0c;预估到会出现过拟合的情况。通过查看数据、收集数据的方式、采样方式&＃xff0c;错误的假设&＃xff0c;错误表征能够发现过拟合的预兆。为避免这种情况&＃xff0c;请在建模之前先检查数据。但有时在预处理过程中无法检测到过拟合&＃xff0c;而是在构建模型后才能检测出来。我们可以使用上述方法解决过拟合问题。

原文链接&＃xff1a;https://mahithas.medium.com/overfitting-identify-and-resolve-df3e3fdd2860

最近文章

EMNLP 2022 和 COLING 2022&＃xff0c;投哪个会议比较好&＃xff1f;

一种全新易用的基于Word-Word关系的NER统一模型&＃xff0c;刷新了14种数据集并达到新SoTA

阿里&＃43;北大 | 在梯度上做简单mask竟有如此的神奇效果

下载一&＃xff1a;中文版&＃xff01;学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套&＃xff01; 后台回复【五件套】下载二&＃xff1a;南大模式识别PPT 后台回复【南大模式识别】

投稿或交流学习&＃xff0c;备注&＃xff1a;昵称-学校&＃xff08;公司&＃xff09;-方向&＃xff0c;进入DL&NLP交流群。

方向有很多&＃xff1a;机器学习、深度学习&＃xff0c;python&＃xff0c;情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易&＃xff0c;还望给个在看&＃xff01;

推荐阅读

io
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
object
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
bit
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
process
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
process
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
process
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
object
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
io
3年半巨亏242亿！商汤高估了深度学习，下错了棋？

转自：新智元三年半研发开支近70亿，累计亏损242亿。AI这门生意好像越来越不好做了。近日，商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]

蜡笔小新 2023-10-17 16:41:52
io
python打卡记录去重_Python零基础学习笔记与记录之一（了解Python这个小伙伴）

本人学习笔记，知识点均摘自于网络，用于学习和交流(如未注明出处，请提醒，将及时更正，谢谢)OS:我学习是为了上 ... [详细]

蜡笔小新 2023-10-17 16:05:58
io
Windows7 安装TensorflowGPU文档

安装Tensorflow-GPU文档第一步：通过Anaconda安装python从这个链接https:www.anaconda.comdownload#window ... [详细]

蜡笔小新 2023-10-17 07:23:13
io
干货 | 携程AI推理性能的自动化优化实践

作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中性能优化组为AI模型提供全方位的优化方案，提升推理性能降低成本࿰ ... [详细]

蜡笔小新 2023-10-16 14:03:03
io
TensorFlow入门上

前置准备在阅读本文之前，请确定你已经了解了神经网络的基本结构以及前向传播、后向传播的基本原理，如果尚未了解，可以查看下文。神经网络初探chrer.com也可以直接在我博客阅读Te ... [详细]

蜡笔小新 2023-10-16 10:25:39
io
面试之python进阶的简单介绍

本文目录一览：1、对于Python面试,我们要做哪些准备? ... [详细]

蜡笔小新 2023-10-15 14:42:10
io
基于TensorFlow的Keras高级API实现手写体数字识别

前言这个项目的话我也是偶然在B站看到一个阿婆主（SvePana）在讲解这个，跟着他的视频敲的代码并学习起来的。并写在自己这里做个笔记也为 ... [详细]

蜡笔小新 2023-10-15 08:10:04
dll
关于VS Code下运行PyTorch的一些小bug及其解决

一、无法正确识别引用库默认情况下回出现importmatplotlibcouldnotberesolved的提示，可能是没有安装对应的扩展包。首先在anaconda的 ... [详细]

蜡笔小新 2023-10-14 20:03:58

lodng

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章