内存带宽利用率瓶颈及多线程/多进程性能下降原因咨询

阿华AIGC实验室

2026-6-16

针对数组求和性能瓶颈的分析

基于你提供的代码与M2 Mac的测试环境，以下是对两个核心问题的具体分析：

1. 为何无法突破65GB/s阈值？

首先要明确：内存峰值带宽是理想场景下的极限值，实际持续流式访问的带宽远低于此。M2的统一内存架构中，主存持续读取的实际可用带宽通常就在60-70GB/s区间，这是由内存控制器的硬件特性（如命令调度开销、内存刷新周期、总线利用率上限）决定的，并非计算操作占用了剩余35GB/s的带宽。

你的求和操作属于访存密集型任务：

剩余的35GB/s是理论峰值与实际持续带宽的正常差距，并非被计算操作消耗。

多线程/多进程性能下降的核心原因是内存带宽饱和+调度/缓存开销：

单线程已经用掉了接近内存的实际持续带宽，多线程同时发起内存读取请求时，内存控制器的请求队列会饱和，导致每个线程的访存延迟大幅增加，总吞吐量无法线性提升，甚至因竞争出现下降；
M2采用大核（Firestorm）+小核（Icestorm）架构，小核的内存访问带宽远低于大核，若线程被调度到小核，性能会明显下滑；
多进程场景下，若每个进程独立加载数组到私有地址空间，会导致内存重复缓存，引发缓存污染，进一步加剧访存开销；即便使用共享内存，进程间的内存映射开销也会带来额外损耗；
线程/进程的调度、数据块拆分等操作存在微小但不可忽视的开销，当任务已处于访存瓶颈时，这些开销会被放大。