为何现代C编译器仍偏好PUSH而非MOV保存寄存器？——基于llvm-mca的架构性能对比疑问

阿华AIGC实验室

2026-4-8

嘿，你的这个观察真的戳中了编译器优化里一个很有意思的权衡点！我之前也对着类似的llvm-mca结果挠过头——明明mov+sub的组合在孤立代码块的模拟里性能碾压push序列，为啥GCC、Clang这些主流编译器还是死咬着push不放？结合你给出的Skylake和Zen5的测试数据，我来拆解下背后的核心原因：

先看看你实测的性能差距有多夸张

你用llvm-mca在Skylake上的测试数据，把push和mov的性能差异拉得非常明显：

性能指标	12条`push`序列	12条`mov`+1条`sub rsp,96`序列
总执行周期（Total Cycles）	27	15
微操作数（Total uOps）	36	13
每周期指令数（IPC）	0.44	0.87

从数据上看，mov序列简直是降维打击——微操作数只有前者的1/3，IPC直接翻了一倍，连执行周期都快减半了。但编译器的优化从来不是只看孤立代码块的理论性能，而是要做全局的综合权衡，这几个点是关键：

1. 代码体积：`push`是极致的空间优化，缓存友好性拉满

先算一笔指令长度的账：

单条pushq %rax是1字节的机器码（比如0x50），12条push加起来才12字节；
单条movq %rax, -8(%rsp)是5字节的机器码，12条mov加1条sub rsp,96（4字节）总长度是12*5+4=64字节——是push序列的5倍多！

在实际程序里，指令缓存（I-Cache）的命中率直接决定了全局性能：体积更小的代码能更高效地填满缓存，减少缓存缺失带来的停顿——这种停顿通常是几十到上百个周期，远超过你测试里那12个周期的差距。尤其是在大量函数调用的场景（比如业务代码里的工具函数、回调链），代码体积带来的缓存收益会完全覆盖prologue的周期损失。

2. 工具链与调试友好性：`push`是栈操作的“通用语”

现代调试器、栈展开器（比如libunwind）、性能分析工具对push序列的处理已经打磨了几十年，非常成熟。栈回溯时，工具可以通过跟踪push的次数快速计算栈帧大小，而mov+sub的自定义栈操作如果没有精准的调试信息（比如DWARF），很可能导致栈展开失败、调试变量无法正常显示——这对开发和调试阶段的成本影响极大，编译器绝不会为了一点点性能损失牺牲调试体验。

3. 架构兼容性：不是所有CPU都像Skylake一样偏爱`mov`

你的测试只覆盖了Skylake和Zen5，但编译器要兼容从老到新的所有x86架构：

在更早的Intel架构（比如Nehalem、Core2）上，push是硬件优化过的单微操作指令，而mov到栈内存反而需要更多微操作；
在低功耗架构（比如Atom、赛扬）上，push的流水线兼容性更好，不会因为内存地址计算带来额外停顿；
即使是Zen5，你也提到push的性能已经接近mov，在更多实际场景下两者的差距会进一步缩小。

4. 性能占比：函数prologue的周期在全局里不值一提

对于绝大多数实际函数来说，prologue（保存寄存器）和epilogue（恢复寄存器）的执行时间占比极低——比如一个函数内部有100条计算指令，那prologue的12个周期只占总周期的10%不到；如果是计算密集型函数，这个占比会低到可以忽略。编译器的优化优先级永远是先啃函数内部的热点代码，而不是在占比极低的prologue上浪费精力。

附：你的llvm-mca原始测试输出

`push`序列测试命令与结果

llvm-mca -mcpu=skylake -timeline -iterations=1 test_push.s -o test_push.txt

Iterations: 1
Instructions: 12
Total Cycles: 27
Total uOps: 36
Dispatch Width: 6
uOps Per Cycle: 1.33
IPC: 0.44
Block RThroughput: 12.0

Instruction Info:
[1] [2] [3] [4] [5] [6]
Instructions:            3          2         1.00
* pushq %rax              3          2         1.00
* pushq %rbx              3          2         1.00
* pushq %rcx              3          2         1.00
* pushq %rdx              3          2         1.00
* pushq %r8               3          2         1.00
* pushq %r9               3          2         1.00
* pushq %r10              3          2         1.00
* pushq %r11              3          2         1.00
* pushq %r12              3          2         1.00
* pushq %r13              3          2         1.00
* pushq %r14              3          2         1.00
* pushq %r15              3          2         1.00

...（省略后续资源压力与时间线信息）

`mov`序列测试命令与结果

llvm-mca -mcpu=skylake -timeline -iterations=1 test_mov.s -o test_mov.txt

Iterations: 1
Instructions: 13
Total Cycles: 15
Total uOps: 13
Dispatch Width: 6
uOps Per Cycle: 0.87
IPC: 0.87
Block RThroughput: 12.0

Instruction Info:
[1] [2] [3] [4] [5] [6]
Instructions:            1          1         1.00
* movq %rax, -8(%rsp)     1          1         1.00
* movq %rbx, -16(%rsp)    1          1         1.00
* movq %rcx, -24(%rsp)    1          1         1.00
* movq %rdx, -32(%rsp)    1          1         1.00
* movq %r8, -40(%rsp)     1          1         1.00
* movq %r9, -48(%rsp)     1          1         1.00
* movq %r10, -56(%rsp)    1          1         1.00
* movq %r11, -64(%rsp)    1          1         1.00
* movq %r12, -72(%rsp)    1          1         1.00
* movq %r13, -80(%rsp)    1          1         1.00
* movq %r14, -88(%rsp)    1          1         1.00
* movq %r15, -96(%rsp)    1          1         1.00
  subq $96, %rsp          1          1         0.25

...（省略后续资源压力与时间线信息）

内容来源于stack exchange