一次解决Pytorch训练时损失和参数出现Nan或者inf的经历

目前在做实验，参考了一个新的网络架构之后发现训练时损失出现Nan，参数了出现了inf的情况，先说说我的排查经历。

首先肯定是打印损失，损失是最容易出现Nan的，有各种原因，网上也有很多解决办法，我这里就不一一赘述了，大伙打开CSDN就一搜就有很多很全的

我的问题是在训练的中间参数中出现了inf，导致最终的损失为NaN或者inf

用下面的代码判断参数是否出现了NaN或者inf


for i in range(5):   # exam是一个参数列表
    if torch.isnan(exeam[i]).any(): print('下表为{}的元素存在NaN！'.format(i))
    if torch.isinf(exeam[i]).any(): print('下表为{}的元素存在inf！'.format(i))

确定是哪些为NaN之后，直接上Relu或者归一化，很可惜，没用。。。

我参考的文章是这两篇

Vision Transformers for Single Image Dehazing

MixDehazeNet : Mix Structure Block For Image Dehazing Network

这两篇文章中都用到了soft reconstruction。现在我还搞不明白这东西是啥

模仿论文MixDehazeNet的代码，将生成的参数按照下面的代码计算下


# feat是网络输出的结果，10通道
K, atp, tran, B = torch.split(feat, (1, 3, 3, 3), dim=1)
 
# x是网络的输入
atp = K * atp - atp + x
tran = K * tran - tran + x
x = K * x - B + x
# H, W是限定的尺寸
rgb = x[:, :, :H, :W]
atp = atp[:, :, :H, :W]
tran = tran[:, :, :H, :W]

这样一弄，问题就解决了

我分析了下原因，代码中的参数出现NaN是因为出现了除以0的情况，加上了soft reconstruction之后（类似于全局残差，关键是后面加上x的那个操作）是原先为0的参数变得不为0了，除以0的情况消失了，就不存在NaN啦。

我是做视觉方向的，全局残差机制（ResNet，FFA-Net）在视觉中可谓是有百利而无一害，所以这样加应该没问题的

疑问

soft reconstruction究竟是什么东西呢？网上的资料甚少，chatGPT也没有给出完全的定义。

还请知道的大佬不吝赐教。

相关阅读:
使用Java构建RESTful API：实现灵活、可扩展的Web服务
一种基于 RFID 技术的养老院人员定位解决方案
JDK命令使用总结
2.6 Go语言中的Map
每日练习------有n个整数，使其前面各数顺序向后移m个位置，最后m个数变成最前面的m个数
HarmonyOS 音频开发指导：使用 OpenSL ES 开发音频播放功能
TEngine框架的导入与运行
GEO生信数据挖掘（四）数据清洗（离群值处理、低表达基因、归一化、log2处理）
为什么工业物联网平台要配备MQTT网关?|
Apache SeaTunnel在VIP 中的使用

原文地址：https://blog.csdn.net/qq_61567032/article/details/133553826