去除0值和nan_【PyTorch】梯度爆炸、loss在反向传播变为nan

作者：中二丶夜夜 | 来源：互联网 | 2023-09-13 16:34

0.遇到大坑笔者在最近的项目中用到了自定义loss函数，代码一切都准备就绪后，在训练时遇到了梯度爆炸的问题，每次训练几个iteration

0. 遇到大坑

笔者在最近的项目中用到了自定义loss函数&＃xff0c;代码一切都准备就绪后&＃xff0c;在训练时遇到了梯度爆炸的问题&＃xff0c;每次训练几个iterations后&＃xff0c;梯度和loss都会变为nan。一般情况下&＃xff0c;梯度变为nan都是出现了

等情况&＃xff0c;导致结果变为&＃43;inf&＃xff0c;也就成了nan。

1. 问题分析

笔者需要的loss函数如下&＃xff1a;

其中&＃xff0c;

。

从理论上分析&＃xff0c;这个loss函数在反向传播过程中很可能会遇到梯度爆炸&＃xff0c;这是为什么呢&＃xff1f;反向传播的过程是对loss链式求一阶导数的过程&＃xff0c;那么&＃xff0c;

的导数为&＃xff1a;

由于

&＃xff0c;这个导数又可以表示为&＃xff1a;

这样的话&＃xff0c;出现了类似于

的表达式&＃xff0c;也就会出现典型的$0/1$问题了。为了避免这个问题&＃xff0c;首先进行了如下的

改变&＃xff1a;

经过改变&＃xff0c;在

时&＃xff0c;不再是

问题了&＃xff0c;而是转换为了一个线性函数&＃xff0c;梯度成为了恒定的12.9&＃xff0c;从理论上来看&＃xff0c;避免了梯度爆炸的问题。

2. PyTorch初步实现

在实现这一过程时&＃xff0c;依旧...遇到了大坑&＃xff0c;下面通过示例代码来说明&＃xff1a;

""" loss &＃61; mse(X, gamma_inv(X)) """ def loss_function(x):mask &＃61; (x <0.003).float()gamma_x &＃61; mask * 12.9 * x &＃43; (1-mask) * (x ** 0.5)loss &＃61; torch.mean((x - gamma_x) ** 2)return lossif __name__ &＃61;&＃61; &＃39;__main__&＃39;:x &＃61; Variable(torch.FloatTensor([0, 0.0025, 0.5, 0.8, 1]), requires_grad&＃61;True)loss &＃61; loss_function(x)print(&＃39;loss:&＃39;, loss)loss.backward()print(x.grad)

改进后的

是一个分支结构&＃xff0c;在实现时&＃xff0c;就采用了类似于Matlab中矩阵计算的mask方式&＃xff0c;mask定义为

&＃xff0c;满足条件的$x_i$在mask中对应位置的值为1&＃xff0c;因此&＃xff0c;

的结构只会保留

的结果&＃xff0c;同样的道理&＃xff0c;

就实现了上述改进后的

公式。

按理来说&＃xff0c;此时&＃xff0c;在反向传播过程中的梯度应该是正确的&＃xff0c;但是&＃xff0c;上面代码的输出结果为&＃xff1a;

loss: tensor(0.0105, grad_fn&＃61;) tensor([ nan, 0.1416, -0.0243, -0.0167, 0.0000])

emmm....依旧为nan&＃xff0c;问题在理论层面得到了解决&＃xff0c;但是&＃xff0c;在实现层面依旧没能解决.....

3. 源码调试分析

上面源码的问题依旧在

的实现&＃xff0c;这个过程&＃xff0c;在Python解释器解释的过程或许是这样的&＃xff1a;

计算
&＃xff0c;对mask进行广播式的乘法&＃xff0c;结果为&＃xff1a;原本为1的位置变为了12.9&＃xff0c;原本为0的位置依旧为0&＃xff1b;
将1.的结果继续与x相乘&＃xff0c;本质上仍然是与x的每个元素相乘&＃xff0c;只是mask中不满足条件的
位置为0&＃xff0c;表现出的结果是仅对满足条件的
进行了计算&＃xff1b;
按照2.所述的原理&＃xff0c;
公式的后半部分也是同样的计算过程&＃xff0c;即&＃xff0c;
中的每个值依旧会进行
的计算&＃xff1b;

按照上述过程进行前向传播&＃xff0c;在反向传播时&＃xff0c;梯度不是从某一个分支得到的&＃xff0c;而是两个分支的题目相加得到的&＃xff0c;换句话说&＃xff0c;依旧没能解决梯度变为nan的问题。

4. 源码改进及问题解决

经过第三部分的分析&＃xff0c;知道了梯度变为nan的根本原因是当

时依旧参与了

的计算&＃xff0c;导致在反向传播时计算出的梯度为nan。

要解决这个问题&＃xff0c;就要保证在

时不会进行这样的计算。

新的PyTorch代码如下&＃xff1a;

def loss_function(x):mask &＃61; x <0.003gamma_x &＃61; torch.FloatTensor(x.size()).type_as(x)gamma_x[mask] &＃61; 12.9 * x[mask]mask &＃61; x >&＃61; 0.003gamma_x[mask] &＃61; x[mask] ** 0.5loss &＃61; torch.mean((x - gamma_x) ** 2)return lossif __name__ &＃61;&＃61; &＃39;__main__&＃39;:x &＃61; Variable(torch.FloatTensor([0, 0.0025, 0.5, 0.8, 1]), requires_grad&＃61;True)loss &＃61; loss_function(x)print(&＃39;loss:&＃39;, loss)loss.backward()print(x.grad)

改变的地方位于&＃96;loss_function&＃96;&＃xff0c;改变了对于

分支的处理方式&＃xff0c;控制并保住每次计算仅有满足条件的值可以参与。此时输出为&＃xff1a;

loss: tensor(0.0105, grad_fn&＃61;) tensor([ 0.0000, 0.1416, -0.0243, -0.0167, 0.0000])

就此&＃xff0c;问题解决&＃xff01;

如有疑问&＃xff0c;欢迎留言~

推荐阅读

function
Backwardsincompatible change made.

Commit1ced2a7433ea8937a1b260ea65d708f32ca7c95eintroduceda+Clonetraitboundtom ... [详细]

蜡笔小新 2023-12-14 15:35:09
python
lua语言闭包、模式匹配、日期、编译、模块的特性及应用

本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值，函数可以作为变量自由传递，也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性，为程序开发带来了便利。 ... [详细]

蜡笔小新 2023-12-14 18:18:21
python
Python正则表达式学习记录及常用方法

本文记录了学习Python正则表达式的过程，介绍了re模块的常用方法re.search，并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具，通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]

蜡笔小新 2023-12-13 16:37:19
python
python创建一个窗口_等一个大佬啊要求用python创建一个窗口，窗口按钮功能是创建一个球体或立方体。明天上课之前交给我...

展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ... [详细]

蜡笔小新 2023-12-13 16:26:09
dll
PE总结9PE文件结构之解析导出表

本文介绍了PE文件结构中的导出表的解析方法，包括获取区段头表、遍历查找所在的区段等步骤。通过该方法可以准确地解析PE文件中的导出表信息。 ... [详细]

蜡笔小新 2023-12-13 11:47:24
python
Java中闭包的争论以及闭包的定义和特性

闭包一直是Java社区中争论不断的话题，很多语言都支持闭包这个语言特性，闭包定义了一个依赖于外部环境的自由变量的函数，这个函数能够访问外部环境的变量。本文以JavaScript的一个闭包为例，介绍了闭包的定义和特性。 ... [详细]

蜡笔小新 2023-12-13 10:46:54
function
C++中的三角函数计算及其应用

本文介绍了C++中的三角函数的计算方法和应用，包括计算余弦、正弦、正切值以及反三角函数求对应的弧度制角度的示例代码。代码中使用了C++的数学库和命名空间，通过赋值和输出语句实现了三角函数的计算和结果显示。通过学习本文，读者可以了解到C++中三角函数的基本用法和应用场景。 ... [详细]

蜡笔小新 2023-12-13 10:06:01
export
VueCLI多页分目录打包的步骤记录

本文介绍了使用VueCLI进行多页分目录打包的步骤，包括页面目录结构、安装依赖、获取Vue CLI需要的多页对象等内容。同时还提供了自定义不同模块页面标题的方法。 ... [详细]

蜡笔小新 2023-12-11 16:14:11
python
Python函数的定义与调用及其作用

本文介绍了Python函数的定义与调用的方法，以及函数的作用，包括增强代码的可读性和重用性。文章详细解释了函数的定义与调用的语法和规则，以及函数的参数和返回值的用法。同时，还介绍了函数返回值的多种情况和多个值的返回方式。通过学习本文，读者可以更好地理解和使用Python函数，提高代码的可读性和重用性。 ... [详细]

蜡笔小新 2023-12-10 15:36:57
python
利用PyTorch快速实现分类任务

关于如何快速定义自己的数据集，可以参考我的前一篇文章PyTorch中快速加载自定义数据（入门）_晨曦473的博客-CSDN博客刚开始学习P ... [详细]

蜡笔小新 2023-10-17 18:12:24
python
python打卡记录去重_Python零基础学习笔记与记录之一（了解Python这个小伙伴）

本人学习笔记，知识点均摘自于网络，用于学习和交流(如未注明出处，请提醒，将及时更正，谢谢)OS:我学习是为了上 ... [详细]

蜡笔小新 2023-10-17 16:05:58
function
语义分割系列3SegNet（pytorch实现）

SegNet手稿最早是在2015年12月投出，和FCN属于同时期作品。稍晚于FCN，既然属于后来者，又是与FCN同属于语义分割网络 ... [详细]

蜡笔小新 2023-10-17 10:14:20
input
pytorch Dropout过拟合的操作

这篇文章主要介绍了pytorchDropout过拟合的操作，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完 ... [详细]

蜡笔小新 2023-10-16 19:35:56
python
都会|可能会_###haohaohao###图神经网络之神器——PyTorch Geometric 上手 & 实战

篇首语：本文由编程笔记#小编为大家整理，主要介绍了###haohaohao###图神经网络之神器——PyTorchGeometric上手&实战相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 18:30:35
python
ubantu系统下安装pytorch

配置环境的步骤：1、下载anacondawgethttps:mirrors.tuna.tsinghua.edu.cnanacondaarchiveAnaconda3 ... [详细]

蜡笔小新 2023-10-15 08:47:24

中二丶夜夜

Tags | 热门标签

RankList | 热门文章