You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

设置相同随机种子后PyTorch训练精度为何出现差异?

问题解答:添加测试集评估后训练精度变化的原因

你遇到的这种训练精度的细微变化是完全预期的,并没有操作错误,主要原因可以从以下几点拆解:

1. 模型eval()模式下的行为差异

当你调用model.eval()切换到评估模式后,模型里的一些层会改变运行逻辑:

  • Dropout层:会关闭随机失活机制,所有神经元都会参与前向计算;
  • BatchNorm层:会使用训练阶段累积的运行时统计量(running mean/var),而非当前batch的统计值,这会让前向传播的输出结果和train()模式下产生细微差异。

你的两种实现都是在eval()模式下计算训练精度,但修改后的代码多跑了一轮测试集评估——虽然这不会改变模型参数,但结合下面的因素,就会放大精度的细微波动。

2. DataLoader的未固定随机性

你虽然设置了torch.manual_seed(1)固定主进程的随机种子,但如果你的train_loadertest_loader开启了多进程加载(num_workers > 0),每个worker进程的随机种子并没有被显式固定。PyTorch默认会给worker分配基于主种子的随机值,但这个分配逻辑在不同运行流程(比如是否加载测试集)中可能产生差异,导致训练阶段的数据加载顺序、数据增强随机操作(如果有)发生变化,最终影响梯度更新的细节,使得训练精度出现波动。

如果想要完全固定数据加载的随机性,可以给DataLoader添加worker_init_fn

def worker_init_fn(worker_id):
    seed = torch.initial_seed() % 2**32
    torch.manual_seed(seed)

# 初始化DataLoader时传入该函数
train_loader = DataLoader(..., num_workers=4, worker_init_fn=worker_init_fn)
test_loader = DataLoader(..., num_workers=4, worker_init_fn=worker_init_fn)

3. 浮点数计算的累积误差

即使所有随机因素都被完全固定,浮点数运算的微小累积误差也可能导致精度数值出现小数点后第二位的差异。比如,先算训练精度再算测试精度的计算顺序,和只算训练精度的顺序,会产生不同的舍入误差累积,最终反映在精度的细微变化上。

总结

你没有操作错误,这种细微的精度差异是深度学习训练中的正常现象。如果想要完全复现训练精度,可以:

  • 固定DataLoader的worker种子;
  • 确保所有涉及随机操作的模块(比如数据增强、Dropout)都被固定种子;
  • 保持一致的运行流程(比如每次都同时评估训练集和测试集)。

内容的提问来源于stack exchange,提问作者sr snow

火山引擎 最新活动