for循环中CPU缓存工作机制：循环展开为何提升代码性能？

阿华AIGC实验室

2026-5-13

为什么循环展开的写法性能更优？

这是个非常好的问题！第二种写法的性能提升核心来自**循环展开（Loop Unrolling）**和CPU缓存的协同作用，咱们一步步拆解清楚：

先搞懂CPU缓存的基础逻辑

CPU读取内存数据时，不是单个字节读取，而是按**缓存行（Cache Line，通常64字节）**批量加载。这是因为程序天生有「空间局部性」——相邻的数据很大概率会被连续访问。

比如你的_values是short类型（2字节），第一次读取_values[0]时，CPU会把_values[0]到_values[31]（整整32个元素，刚好64字节）的整个缓存行加载到最快的L1缓存里。之后访问这些元素时，直接从L1缓存读取，速度比读内存快几十到上百倍。

第一种写法的瓶颈

第一种循环每次只处理一个元素：

for (var index = 0; index < _values.Length; index++) {
    max = Math.Max(max, _values[index]);
}

虽然缓存行已经帮你把数据都加载好了，但CPU的执行单元没被充分利用——每次循环只做一个Math.Max操作，CPU里的多个算术逻辑单元（ALU）还有空闲，相当于“大材小用”了。另外，每次循环还要做index递增、边界检查这些额外的控制开销，累计100次循环下来也是一笔不小的成本。

第二种循环展开的优势

第二种写法把循环展开成每次处理两个元素，刚好踩中了CPU的两个优化点：

1. 充分利用指令级并行（ILP）

现代CPU都支持指令级并行——同一个时钟周期内可以同时执行多个相互独立的指令。你看这个代码：

for (var index = 0; index < _values.Length; index+=2) {
    max1 = Math.Max(max1, _values[index]);
    max2 = Math.Max(max2, _values[index + 1]);
}

max1和max2的更新操作完全独立，没有依赖关系，CPU可以同时启动这两个Math.Max的计算，把空闲的执行单元都利用起来。同时，循环迭代次数从100次降到50次，直接砍掉了一半的循环控制开销（index递增、边界检查）。

2. 缓存利用效率最大化

因为_values[index]和_values[index+1]属于同一个缓存行（毕竟缓存行能装32个元素），所以第一次加载缓存行后，这两个元素都在L1缓存里，根本不用再去内存读取——没有额外的缓存 miss，只是把已经加载到缓存里的数据更高效地用起来了。这也是你疑惑的“循环间的值为何不会被重复读取”的原因：缓存行只需要加载一次，后续访问都是读缓存，没有重复读内存的开销。