遇到OOM错误时如何有效清空GPU显存？

阿华AIGC实验室

2026-4-2

我太懂这种憋屈的感觉了——LLM模型好不容易加载进GPU，突然爆OOM，调用torch.cuda.empty_cache()完全没反应，最后只能硬着头皮重启GPU，半天的功夫全耗在等重启上！

下面是我踩过无数坑后总结的有效解决方案，从软清理到硬释放都有，亲测能解决大部分情况：

1. 先搞懂：为什么`torch.cuda.empty_cache()`没用？

这个函数不是“一键清显存”的魔法棒——它只会释放PyTorch已经不再持有引用的显存块。如果你的模型、张量还被Python变量（比如全局变量、Notebook历史单元格的变量）引用着，显存根本不会被释放，调用它自然没效果。

2. 软清理：先清引用，再清缓存

这是最常用的软解决方法，步骤不能乱：

第一步：手动删除所有和模型、推理相关的变量引用
第二步：强制触发Python垃圾回收，彻底销毁无引用的对象
第三步：再调用CUDA缓存清空

代码示例：

# 1. 删除模型、输入输出、中间张量的所有引用
del model
del input_tensor
del generation_outputs
# 如果有多个模型/相关变量，全部删掉
del model_2, attention_masks

# 2. 强制垃圾回收（必须导入gc模块）
import gc
gc.collect()

# 3. 最后清空CUDA缓存
import torch
torch.cuda.empty_cache()

⚠️ 特别提醒：如果是在Jupyter Notebook里，一定要检查之前的单元格有没有残留的模型变量！比如你在Cell 1加载了模型，Cell 5爆OOM，Cell 1的变量还活着，这时候必须先删掉那些历史变量，或者用%reset -f一键清空所有变量（但会清掉所有数据，谨慎使用）。

3. 用上下文管理器隔离模型（从根源减少引用泄漏）

把模型加载和推理逻辑放在函数或者上下文管理器里，函数执行完后，局部变量会被自动回收，从根源避免引用残留：

def run_llm_inference(model_path):
    # 模型在函数内是局部变量，函数结束后自动失去引用
    model = AutoModelForCausalLM.from_pretrained(
        model_path,
        load_in_4bit=True,  # 顺便提一句，4bit加载能大幅减少显存占用
        device_map="auto"
    )
    tokenizer = AutoTokenizer.from_pretrained(model_path)
    inputs = tokenizer("Hello world!", return_tensors="pt").to("cuda")
    outputs = model.generate(**inputs)
    return tokenizer.decode(outputs[0])

# 执行完函数，model的引用就被销毁了
result = run_llm_inference("your-model-path")

# 再做一次收尾清理
gc.collect()
torch.cuda.empty_cache()