LLaMA-Factory gradient_accumulation

gradient_accumulation_steps 的作用

基本原理


展开代码
实际batch_size = per_device_train_batch_size × gradient_accumulation_steps × 设备数量

您的设置：
- per_device_train_batch_size = 12
- gradient_accumulation_steps = 2  
- 假设8张卡：实际batch_size = 12 × 2 × 8 = 192

具体工作流程

前向传播: 处理2个小批次（每个12样本）
梯度累积: 将2次的梯度累加起来
反向传播: 一次性更新参数
通信同步: 只在累积完成后进行一次

对通信的影响

✅ 减少通信频率

python
展开代码
# gradient_accumulation_steps = 1 (默认)
for batch in dataloader:
    loss = model(batch)
    loss.backward()          # 每次都通信
    optimizer.step()         # 每次都同步梯度
    
# gradient_accumulation_steps = 4
for i in range(4):
    loss = model(batch[i])
    loss.backward()          # 只累积，不通信
optimizer.step()             # 4次累积后才通信一次

通信减少量

原来: 每个小批次都要同步梯度
现在: gradient_accumulation_steps 个批次才同步一次
通信减少: 1/gradient_accumulation_steps

对训练速度的影响

✅ 优势

减少网络开销: 通信次数减少
更大有效批次: 提高训练稳定性
减少同步等待: 减少进程间等待时间

⚠️ 潜在问题

显存增加: 需要累积更多梯度
延迟更新: 参数更新频率降低
可能影响收敛: 特别是学习率需要调整

目录

gradient_accumulation_steps 的作用

基本原理

具体工作流程

对通信的影响

✅ 减少通信频率

通信减少量

对训练速度的影响

✅ 优势

⚠️ 潜在问题