训练模型时遇到loss为NaN的现象及解决方法

在深度学习模型训练过程中，遇到loss变成NaN（Not a Number）是一个常见的问题。这种情况通常表明训练过程中出现了数值不稳定性，需要及时处理以避免模型训练失败。以下是这种现象的原因分析和解决方法。

常见原因

1. 学习率过高

过高的学习率可能导致优化过程不稳定，使梯度爆炸，最终导致loss变为NaN。

2. 梯度爆炸

当梯度变得非常大时，权重更新会变得过大，导致模型参数迅速发散到无穷大或NaN。

3. 数据预处理问题

输入数据中的异常值、缺失值或未标准化的数据可能导致计算过程中出现数值不稳定。

4. 数值溢出

某些激活函数（如指数函数）在输入值过大时可能导致数值溢出。

5. 除零错误

计算过程中的除零操作会导致NaN。

6. 模型架构不合理

某些网络结构可能天生不稳定，特别是在深层网络中。

解决方法

1. 降低学习率

python
展开代码
# 原来的学习率设置
optimizer = torch.optim.Adam(model.parameters(), lr=0.01)

# 降低学习率
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)  # 或更低

2. 梯度裁剪

python
展开代码
# PyTorch中实现梯度裁剪
torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)

3. 数据标准化和异常值处理

python
展开代码
# 数据标准化
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

4. 使用更稳定的激活函数

python
展开代码
# 替换不稳定的激活函数
# 例如，用ReLU替代Sigmoid在某些情况下更稳定
model = nn.Sequential(
    nn.Linear(input_size, hidden_size),
    nn.ReLU(),  # 使用ReLU而非Sigmoid
    nn.Linear(hidden_size, output_size)
)

5. 批量归一化（Batch Normalization）

python
展开代码
# 在网络层之间添加BatchNorm
model = nn.Sequential(
    nn.Linear(input_size, hidden_size),
    nn.BatchNorm1d(hidden_size),
    nn.ReLU(),
    nn.Linear(hidden_size, output_size)
)

6. 权重初始化优化

python
展开代码
# 使用更合适的权重初始化方法
def init_weights(m):
    if type(m) == nn.Linear:
        torch.nn.init.xavier_uniform_(m.weight)
        m.bias.data.fill_(0.01)

model.apply(init_weights)

7. 检查并修复数据中的NaN或无穷大值

python
展开代码
# 检查输入数据中的NaN
import numpy as np
print(np.isnan(X_train).any())

# 替换NaN值
X_train = np.nan_to_num(X_train)

8. 使用混合精度训练

python
展开代码
# PyTorch中使用混合精度训练
from torch.cuda.amp import autocast, GradScaler

scaler = GradScaler()

for epoch in range(epochs):
    for batch in dataloader:
        optimizer.zero_grad()
        
        # 使用autocast进行前向传播
        with autocast():
            outputs = model(inputs)
            loss = criterion(outputs, targets)
        
        # 使用scaler进行反向传播和优化
        scaler.scale(loss).backward()
        scaler.step(optimizer)
        scaler.update()

9. 添加损失函数检查

python
展开代码
# 在训练循环中添加检查
for epoch in range(epochs):
    for batch in dataloader:
        # 前向传播
        outputs = model(inputs)
        loss = criterion(outputs, targets)
        
        # 检查loss是否为NaN
        if torch.isnan(loss):
            print("NaN loss detected! Skipping batch...")
            continue
        
        # 反向传播
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

目录