PyTorch中output.data的含义及代码中使用outputs.data而非直接使用outputs的原因

阿华AIGC实验室

2026-4-30

PyTorch中outputs.data的含义与使用区别

嘿，这个问题问到点子上了！刚接触PyTorch的时候，确实很容易被张量的.data属性搞懵，咱们结合你贴的代码来唠清楚：

1. `outputs.data`到底是什么？

在PyTorch 1.0之前的版本里，.data是专门用来提取张量原始数据部分的属性。它返回的张量和原张量共享底层数据，但有个关键区别：它不会参与梯度追踪——不管你对它做什么操作，都不会影响反向传播的梯度计算流程。

2. 教程里为啥要用`outputs.data`？

看你贴的代码，整个循环都包裹在torch.no_grad()上下文里，这个上下文本身就已经禁用了梯度计算。那这里用.data其实是旧版写法的遗留习惯：
在早期PyTorch中，即使是评估场景，张量默认还是会开启梯度追踪，所以当时必须用.data或者detach()来明确切断梯度链路，避免不必要的计算。
但放在现在的PyTorch（1.0+）版本里，torch.no_grad()已经能让outputs完全不追踪梯度了，所以这里直接写torch.max(outputs, 1)和用outputs.data效果完全一样，没必要多此一举。

3. 直接用`outputs`和`outputs.data`的核心区别

得分场景来看：

在torch.no_grad()/模型eval()模式下：两者几乎没差别。此时outputs本身就不追踪梯度，.data返回的张量和outputs共享数据，也没有梯度信息。
在训练模式下（未禁用梯度）：
- 直接用outputs：这是一个带梯度追踪的张量，对它的操作会被记录到计算图中，后续反向传播时会正常计算梯度。
- 用outputs.data：返回的张量直接脱离了计算图，任何操作都不会触发梯度更新。不过现在PyTorch官方更推荐用outputs.detach()替代.data——因为.detach()更安全，在一些复杂场景下（比如原张量被修改时），.data可能会导致梯度计算的隐性bug，而.detach()的行为更明确可控。

举个直观的对比例子

import torch

# 训练模式下的张量，开启梯度追踪
x = torch.tensor([1.0], requires_grad=True)
y = x * 2

print("直接用y的梯度状态:", y.requires_grad)  # 输出: True
# 用.data提取无梯度张量
y_data = y.data
print("y.data的梯度状态:", y_data.requires_grad)  # 输出: False

# 修改y.data会直接影响原张量，但不会触发梯度更新
y_data[0] = 100
print("修改y.data后的原张量y:", y)  # 输出: tensor([100.], requires_grad=True)

总结一下：你贴的教程里的outputs.data是旧时代的写法，现在在torch.no_grad()里直接用outputs就够了；如果是训练中需要获取无梯度的张量，优先选detach()而不是.data哦。

内容的提问来源于stack exchange，提问作者user17293460