Jetson TX2上OpenCV DNN运行SSD MobileNet未用GPU，如何启用GPU提FPS？

阿华AIGC实验室

2026-5-25

解决Jetson TX2上OpenCV DNN GPU使用率为0的问题

看起来你遇到的核心问题是OpenCV的DNN模块默认跑在了CPU上，没利用到Jetson TX2的GPU算力。下面是一步步的解决方法，帮你把推理任务迁移到GPU上提升FPS：

1. 先确认你的OpenCV是否带CUDA支持

首先得排查基础问题：你编译的OpenCV3.4.1有没有启用CUDA支持。可以跑这段简单的代码验证：

import cv2
print(cv2.cuda.getCudaEnabledDeviceCount())

如果输出是0，说明你的OpenCV完全没编译CUDA支持——这时候你需要重新编译OpenCV，编译时要确保开启这些关键选项：

WITH_CUDA=ON
WITH_CUDNN=ON
CUDA_ARCH_BIN=6.2（Jetson TX2的GPU是GP106，对应Pascal架构6.2）
同时开启ENABLE_NEON、WITH_OPENMP等ARM架构优化选项，进一步提升性能。

2. 强制DNN模块使用CUDA后端

如果OpenCV已经支持CUDA，那问题就是默认后端没选CUDA。你只需要在加载模型后，添加两行代码指定后端和目标设备：

# 加载你的SSD MobileNet模型之后
net.setPreferableBackend(cv2.dnn.DNN_BACKEND_CUDA)
net.setPreferableTarget(cv2.dnn.DNN_TARGET_CUDA)

# 再执行后续的输入设置和推理
net.setInput(blob)
detections = net.forward()

这会强制DNN模块用CUDA来执行推理，而不是默认的CPU后端。

3. 用CUDA加速预处理环节

你现在的cv2.resize是在CPU上执行的，这部分也可以迁移到GPU，减少CPU负载：

# 把帧上传到GPU内存
gpu_frame = cv2.cuda_GpuMat()
gpu_frame.upload(frame)

# 在GPU上完成resize
resized_gpu = cv2.cuda.resize(gpu_frame, (300, 300))

# 直接从GPU Mat生成blob（OpenCV3.4.1支持这个API）
blob = cv2.dnn.blobFromGpuMat(resized_gpu, 0.007843, (300, 300), 127.5)

这样整个预处理+推理的流程都能最大化利用GPU。