JPEG 压缩预处理引发的混合精度训练 Loss Nan 问题排查
最近在训练一个图像篡改检测网络时,为了提升模型的鲁棒性,我对数据集进行了随机 JPEG 压缩作为预处理手段。本以为这只是一个常规的数据增强操作,没想到却引发了一场艰难的 Debug 之旅——模型训练过程中 Loss 突然变成了 NaN。
经过一系列常规排查无果后,最终锁定了混合精度训练与数据分布之间的问题。在此记录下排查思路和解决方法。
训练设置:我使用MMSeg框架的自动混合精度AmpOptimWrapper。
JPEG 压缩预处理引发的混合精度训练 Loss Nan 问题排查
最近在训练一个图像篡改检测网络时,为了提升模型的鲁棒性,我对数据集进行了随机 JPEG 压缩作为预处理手段。本以为这只是一个常规的数据增强操作,没想到却引发了一场艰难的 Debug 之旅——模型训练过程中 Loss 突然变成了 NaN。
经过一系列常规排查无果后,最终锁定了混合精度训练与数据分布之间的问题。在此记录下排查思路和解决方法。
训练设置:我使用MMSeg框架的自动混合精度AmpOptimWrapper。