JPEG 压缩预处理引发的混合精度训练 Loss Nan 问题排查

2025-05-23

字数：781字 | 预计阅读时长：2分钟

最近在训练一个图像篡改检测网络时，为了提升模型的鲁棒性，我对数据集进行了随机 JPEG 压缩作为预处理手段。本以为这只是一个常规的数据增强操作，没想到却引发了一场艰难的 Debug 之旅——模型训练过程中 Loss 突然变成了 NaN。

经过一系列常规排查无果后，最终锁定了混合精度训练与数据分布之间的问题。在此记录下排查思路和解决方法。

训练设置：我使用MMSeg框架的自动混合精度AmpOptimWrapper。

遇到 Loss Nan，我首先按照常规经验进行了一系列排查，但均未解决问题：

在排除了上述常规原因后，我又在github上面查找相关问题解决办法，在一条评论中发现有人说改用fp32精度，尝试过后确实没有报错。我又查找了为什么fp16为什么会报错的原因：

JPEG 压缩的副作用：高强度的随机 JPEG 压缩会在图像中引入复杂的压缩伪影（Artifacts）。这导致输入数据的分布变得极其不规律，可能产生某些极端的像素值或特征值。
Attention 机制的数值溢出：在 Transformer 或类似的 Attention 模块计算中（通常包含 Softmax(Q @ K^T / scale)），如果输入特征的数值差异过大，点积后的结果会非常大。
FP16 的局限性：
- FP16（半精度浮点数）的最大表示范围仅为 65504。
- 当 Attention 中的数值或中间梯度超过这个范围（Overflow）时，在 FP16 下就会直接变成 inf（无穷大）。
- 随后的计算（如 inf * 0 或 inf - inf）就会导致 NaN 的产生，并迅速传播到整个网络。

针对精度不够导致溢出的问题，主要有两种解决方案：

最直接的方法是关闭混合精度训练，全程使用 FP32 (float32)，在我的框架中将AmpOptimWrapper改为OptimWrapper。

如果显卡支持 BF16 ，可以使用。