常见损失函数小结

作者：手机用户2502878095 | 来源：互联网 | 2023-09-23 11:01

摘要本文主要总结一下常见的损失函数，包括：MSE均方误差损失函数、SVM合页损失函数、CrossEntropy交叉熵损失函数、目标检测中常用的Smoo

摘要

本文主要总结一下常见的损失函数&＃xff0c;包括&＃xff1a;MSE均方误差损失函数、SVM合页损失函数、Cross Entropy交叉熵损失函数、目标检测中常用的Smooth L1损失函数。

其中还会涉及到梯度消失、梯度爆炸等问题&＃xff1a;MSE均方误差&＃43;Sigmoid激活函数会导致学习缓慢&＃xff1b;Smooth L1损失是为了解决梯度爆炸问题。仅供参考。

一、均方误差损失(Mean Squared Error&＃xff0c;MSE)

1、均方误差损失定义&＃xff1a;

均方差损失函数常用在最小二乘法中。它的思想是使得各个训练点到最优拟合线的距离最小&＃xff08;平方和最小&＃xff09;。均方差损失函数也是我们最常见的损失函数了&＃xff0c;相信大很熟悉了&＃xff0c;我们用神经网络中激活函数的形式表达一下&＃xff0c;定义如下&＃xff1a;

[公式]

Sigmoid的导数推导以及图像&＃xff1a;

[公式]

从sigmiod的导数图像中可以看到&＃xff0c;除了中间比较小的区域&＃xff0c;其他区域的十分值接近于0。

神经网络的反向传播是逐层对函数偏导相乘&＃xff0c;因此当神经网络层数非常深的时候&＃xff0c;最后一层产生的偏差&＃xff08;网络输出和标签之间的偏差&＃xff09;因为乘了很多的小于1的数而越来越小&＃xff0c;最终就会变为0&＃xff0c;从而导致层数比较浅的权重w没有更新&＃xff0c;即梯度消失。可以看出&＃xff0c;sigmoid函数作为激活函数本身就存在梯度消失的问题。

&＃xff08;2&＃xff09;MSE均方误差&＃43;Sigmoid激活函数&＃xff1a;输出层神经元学习率缓慢

先以一个故事来进入主题&＃xff1a;“我们大多数人不喜欢被指出错误。在开始学习弹奏钢琴不久后&＃xff0c;我在⼀个听众前做了首秀。我很紧张&＃xff0c;开始时将八度音阶的曲段演奏得很低。我很困惑&＃xff0c;因为不能继续演奏下去了&＃xff0c;直到有个人指出了其中的错误。当时&＃xff0c;我非常尴尬。不过&＃xff0c;尽管不开心&＃xff0c;我们却能够因为明显的犯错快速地学习到正确的东西。你应该相信下次我再演奏肯定会是正确的&＃xff01;相反&＃xff0c;在我们的错误不是很好地定义的时候&＃xff0c;学习的过程会变得更加缓慢。”理想地&＃xff0c;我们也希望和期待神经网络可以从错误中快速地学习。

我们以一个神经元&＃xff0c;MSE均方误差损失 [公式]

&＃xff08;2&＃xff09;交叉熵损失&＃xff1a;

公式定义如下&＃xff1a; [公式]

则该图片的交叉熵损失为&＃xff1a; [公式]

&＃xff08;2&＃xff09;对数图像&＃xff1a;

网络输出转化为概率后&＃xff0c;范围必然是0-1&＃xff0c;又取负对数得到最后的损失值。根据下面的负对数图像&＃xff0c;这样做扩大低概率高损失、高概率低损失的差距&＃xff0c;同样使得损失函数对网络输出“更敏感”&＃xff0c;更有利于分类。

3、交叉熵损失&＃43;Sigmoid激活函数&＃xff1a;

&＃xff08;1&＃xff09;推导&＃xff1a;

接着上一部分留下的问题&＃xff0c;我们仍然以Sigmoid激活函数 [公式]

→这里也小结一下ReLU函数相对于tanh和sigmoid函数好在哪里&＃xff1a;

·第一&＃xff0c;采用sigmoid等函数&＃xff0c;算激活函数是&＃xff08;指数运算&＃xff09;&＃xff0c;计算量大&＃xff1b;反向传播求误差梯度时&＃xff0c;求导涉及除法&＃xff0c;计算量相对大。而采用Relu激活函数&＃xff0c;整个过程的计算量节省很多。

·第二&＃xff0c;对于深层网络&＃xff0c;sigmoid函数反向传播时&＃xff0c;很容易就会出现梯度消失的情况&＃xff08;在sigmoid接近饱和区时&＃xff0c;变换太缓慢&＃xff0c;导数趋于0&＃xff09;&＃xff0c;这种情况会造成信息丢失&＃xff0c;梯度消失在网络层数多的时候尤其明显&＃xff0c;从而无法完成深层网络的训练。

·第三&＃xff0c;ReLU会使一部分神经元的输出为0&＃xff0c;这样就造成了网络的稀疏性&＃xff0c;并且减少了参数的相互依存关系&＃xff0c;缓解了过拟合问题的发生。

三、SVM合页损失

1、定义&＃xff1a;

合页损失函数想让正确分类的“得分”比其他错误分类的“得分”高出至少一个边界值 [公式]

→这里看一个计算合页损失的小例子&＃xff1a;

仍然假设共有三个类别cat、dog、bird&＃xff0c;那么一张cat的图片标签应该为 [公式]

整理一下就是&＃xff1a;

[公式]

通过上式可以看出&＃xff1a;

①当 [公式] 时&＃xff0c;即预测值和目标值相差小于1&＃xff0c;不易造成梯度爆炸&＃xff0c;此时还原成均方误差损失形式并给一个0.5的平滑系数&＃xff0c;即 &＃xff1b;

②当 [公式] 时&＃xff0c;即预测值和目标值相差大于等于1&＃xff0c;易造成梯度爆炸&＃xff0c;此时降低损失次幂数&＃xff0c;变成 &＃xff0c;这时候反向传播求导时候就不存在这一项了&＃xff0c;从而防止了梯度爆炸。

→这里最后再给出解决梯度爆炸的一些其他方法:

&＃xff08;1&＃xff09;减少学习率&＃xff08;个人理解梯度爆炸是模型训练发散的一种情况&＃xff09;&＃xff1b;

&＃xff08;2&＃xff09;使用ReLU函数&＃xff0c;使得梯度稳定&＃xff1b;

&＃xff08;3&＃xff09;使用正则化&＃xff0c;即检查网络中权重的大小&＃xff0c;对较大的权重进行惩罚&＃xff0c;限制了梯度爆炸造成的权重变得很大的情况。

推荐阅读

int
Visualizing and Understanding Convolutional Networks(ZFNet网络)论文阅读笔记

VisualizingandUnderstandingConvolutionalNetworksZFNet网络架构论文阅读笔记2022.4.4论文地址https:arxiv ... [详细]

蜡笔小新 2023-10-13 12:30:06
function
cs231n Lecture 3 线性分类笔记（一）

内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注：中文翻译 ... [详细]

蜡笔小新 2023-10-17 19:40:56
int
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
int
开源真香离线识别率高 Python 人脸识别系统

本文主要介绍关于python,人工智能,计算机视觉的知识点，对【开源真香离线识别率高Python人脸识别系统】和【】有兴趣的朋友可以看下由【000X000】投稿的技术文章，希望该技术和经验能帮到 ... [详细]

蜡笔小新 2023-10-14 15:43:38
go
IJCAI18 阿里妈妈搜索广告转化预测总结

IJCAI-18阿里妈妈搜索广告转化预测总结,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-10-13 10:28:29
copy
PHP图片截取方法及应用实例

本文介绍了使用PHP动态切割JPEG图片的方法，并提供了应用实例，包括截取视频图、提取文章内容中的图片地址、裁切图片等问题。详细介绍了相关的PHP函数和参数的使用，以及图片切割的具体步骤。同时，还提供了一些注意事项和优化建议。通过本文的学习，读者可以掌握PHP图片截取的技巧，实现自己的需求。 ... [详细]

蜡笔小新 2023-12-14 16:44:09
hash
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36
copy
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
int
也就是|小窗_卷积的特征提取与参数计算

篇首语：本文由编程笔记#小编为大家整理，主要介绍了卷积的特征提取与参数计算相关的知识，希望对你有一定的参考价值。Dense和Conv2D根本区别在于，Den ... [详细]

蜡笔小新 2023-12-13 12:59:48
int
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
int
统一知识图谱学习和建议：更好地理解用户偏好

本文介绍了一种将知识图谱纳入推荐系统的方法，以提高推荐的准确性和可解释性。与现有方法不同的是，本方法考虑了知识图谱的不完整性，并在知识图谱中传输关系信息，以更好地理解用户的偏好。通过大量实验，验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]

蜡笔小新 2023-12-11 11:11:02
object
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
int
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
select
机器学习之数据均衡算法种类大全+Python代码一文详解

目录前言一、为什么要做数据均衡？二、数据场景1.大数据分布不均衡2.小数据分布不均衡三、均衡算法类型1.过采样2.欠采样3.组合采样四、算法具体种类1 ... [详细]

蜡笔小新 2023-10-15 23:34:41
select
开发笔记:小白python机器学习之路——支持向量机

篇首语：本文由编程笔记#小编为大家整理，主要介绍了小白python机器学习之路——支持向量机相关的知识，希望对你有一定的参考价值。支持 ... [详细]

蜡笔小新 2023-10-15 12:00:18

手机用户2502878095

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章