为何高端GPU的CPU至GPU数据传输速度快于GPU至CPU？

阿华AIGC实验室

2026-5-27

解答：P100 PCIe版GPU传输不对称的原因与优化方案

针对你发现的高端GPU（尤其是P100 PCIe版本）主机→GPU传输速度远高于GPU→主机回传速度的问题，结合你的测试数据和GPU硬件特性，我来逐一解答：

你的测试结果整理

使用MathWorks提供的基准测试函数，得到以下峰值传输速度：
Tesla P100-PCIE-12GB：
主机→GPU（Send）：11.042 GB/s
GPU→主机（Gather）：4.20609 GB/s
Tesla K20m：
主机→GPU：2.5269 GB/s
GPU→主机：2.52399 GB/s

1. P100传输不对称的核心原因

（1）PCIe协议与主机端硬件瓶颈

PCIe 3.0单lane单向带宽为8Gbps（约1GB/s），P100采用16-lane PCIe 3.0，理论单向峰值约16GB/s，实际因协议开销降至~12GB/s，和你测得的11GB/s主机→GPU速度吻合。而GPU→主机的速度受限，主要是因为：

主机CPU的内存控制器处理PCIe写入时，需要额外的缓存一致性检查，开销远大于主机读取自身内存；
主机内存的写入吞吐量通常低于读取，且GPU发起的写入无法充分利用主机端的写合并优化（写合并是主机→GPU传输的关键优化点）。

（2）GPU硬件设计的优化偏向

P100这类数据中心级GPU，设计目标是最大化计算效率，而大部分高性能计算/AI场景的数据流是大量输入数据传入GPU，仅少量结果回传。因此NVIDIA在硬件上优先优化主机→GPU的传输路径：

配备更大的写合并缓冲区，能批量处理主机到GPU的数据写入；
对GPU→主机的传输路径未做同等优先级的硬件优化，导致带宽损耗更高。

（3）架构迭代带来的不对称性

K20采用的Kepler架构，缓存与内存控制器的设计更对称，而P100的Pascal架构引入了HBM2内存，GPU内存到PCIe控制器的交互逻辑更复杂，主机读取GPU内存时需要经过更多缓存层级转发，增加了延迟和带宽损耗。

2. 这是高端GPU的普遍现象吗？

这是近年高端数据中心GPU的普遍特性，并非系统相关问题（你已确认这点）。从Pascal（P100）开始，到Volta（V100）、Ampere（A100）、Hopper（H100）的PCIe版本，均存在主机→GPU速度显著高于GPU→主机的情况。本质是这类GPU的设计优先服务于计算密集型场景，传输优化偏向输入路径。

3. 如何提升GPU→CPU的回传速度？

可以通过以下方法优化回传性能：

使用分页锁定内存：将测试代码中的普通主机内存改为分页锁定内存（gpuArray.pinned），避免内存页交换开销，提升传输效率。修改示例：
```
hostData = gpuArray.pinned(randi([0 9], numElements, 1));
```
异步传输与计算重叠：利用MATLAB的异步传输功能（如asyncGPUArray），将GPU→主机的回传与后续计算任务重叠，隐藏传输延迟（虽不提升峰值带宽，但能提升整体工作流效率）。
批量传输大尺寸数据：确保每次传输的数据集足够大，填满PCIe传输缓冲区，避免小数据传输的额外协议开销（你的测试已覆盖大尺寸数据，可继续保持）。
减少不必要的回传：尽量在GPU端完成所有后处理步骤，仅回传最终结果而非中间数据——这是最有效的优化方式，从根源上降低回传需求。
更新驱动与工具链：使用最新的NVIDIA驱动和MATLAB版本，新版本通常会优化PCIe传输的底层逻辑，修复潜在的性能瓶颈。