PyTorch GPU计算中函数调用顺序为何会影响运行时间？

阿华AIGC实验室

2026-4-30

调用顺序影响PyTorch CUDA函数性能的原因解析

这个现象其实是GPU缓存与CUDA内核执行交互导致的典型问题，结合你的测试细节，我来拆解背后的核心原理：

1. GPU内存缓存的复用与访问模式冲突

当你提前把所有测试张量（a和b）加载到GPU后，第一个运行的函数会把这些张量从GPU全局内存拉到L2缓存、甚至流式多处理器（SM）的共享内存里。而第二个函数能不能复用这份缓存，完全取决于它的内存访问模式和第一个函数是否匹配：

torch.linalg.norm是PyTorch底层高度优化的内置内核，它的内存访问逻辑非常紧凑，能最大化利用缓存。但如果先跑dist_geom（手动计算平方和开根号），它的访问模式会打乱缓存里的数据布局，导致后续dist_linalg不得不重新从全局内存加载数据，耗时自然就上去了。
反过来，先跑dist_linalg时，它留下的缓存布局对dist_geom的友好度很低——毕竟手动计算的内存访问逻辑没那么规整，缓存复用的收益有限，所以dist_geom的耗时变化不大，但dist_linalg本身因为是首次执行，享受到了干净的内存状态，跑得最快。

2. 张量创建时机决定内存状态

你补充测试里的现象正好验证了缓存的影响：如果调用第一个函数后再创建第二个函数的独立张量，新张量会被分配到GPU的全新内存区域，第二个函数相当于在“干净”的环境里运行，完全不会被前序函数的缓存状态干扰，所以不管调用顺序如何，耗时都和首次跑dist_linalg的结果一致。

3. 关于CUDA内核预热的补充

虽然PyTorch的CUDA内核是懒加载的（第一次调用会有编译、加载的额外开销），但你多次测试后现象依然存在，说明这不是主要原因。不过首次执行的函数会初始化GPU的执行上下文，后续函数的执行确实会受到前序内核留下的SM资源占用、缓存状态影响。

更准确的性能测试建议

如果想得到可靠的性能对比结果，可以这么优化测试流程：

测试前清空GPU缓存：调用torch.cuda.empty_cache()，确保每次函数执行都从干净的内存状态开始。
增加预热步骤：正式计时前，让两个函数各跑几次，消除内核懒加载的影响，再开始计时。
用torch.utils.benchmark代替timeit：这个工具专门针对PyTorch的CUDA操作优化了计时逻辑，能自动处理预热、同步GPU操作，统计结果也更准确。

给你一个优化后的测试代码示例：

import torch
import numpy as np
from torch.utils.benchmark import Timer

device = torch.device("cuda:0")

def dist_geom(a, b):
    dist = (a - b)**2
    dist = dist.sum(axis=1)**0.5
    return dist

def dist_linalg(a, b):
    dist = torch.linalg.norm(a - b, axis=1)
    return dist

# 创建测试数据并移至GPU
a = torch.from_numpy(np.random.randint(0, 100000, (100000, 10, 10)).astype(np.float64)).to(device)
b = torch.from_numpy(np.random.randint(0, 100000, (1, 10)).astype(np.float64)).to(device)

# 预热：跑几次消除内核加载开销
dist_geom(a, b)
dist_linalg(a, b)
torch.cuda.synchronize()  # 等待所有GPU操作完成，避免异步影响计时

# 正式计时
timer_geom = Timer(
    stmt="dist_geom(a, b)",
    setup="from __main__ import dist_geom",
    globals={"a": a, "b": b}
)
timer_linalg = Timer(
    stmt="dist_linalg(a, b)",
    setup="from __main__ import dist_linalg",
    globals={"a": a, "b": b}
)

result_geom = timer_geom.timeit(100)
result_linalg = timer_linalg.timeit(100)

print(f"Geometry time: {result_geom.mean:.9f} seconds per iteration")
print(f"Linear algebra time: {result_linalg.mean:.9f} seconds per iteration")
print(f"linear algebra:geometry ratio: {result_linalg.mean / result_geom.mean:.6f}")

用这个方式测试，就能减少缓存状态的干扰，得到更真实的性能对比结果。

内容的提问来源于stack exchange，提问作者tnknepp