为何numpy fftn处理多图像二维FFT的效率远低于循环调用fft2？

阿华AIGC实验室

2026-5-14

为什么numpy.fft.fftn指定axes比循环调用fft2慢？

先还原你的测试场景和结果：

我需要计算多张图像的傅里叶变换，因此在Jupyter Notebook中对比测试了numpy.fft.fftn与暴力循环调用numpy.fft.fft2的性能。测试代码如下：

import numpy as np
x = np.random.rand(32, 256, 256)
def iterate_fft(arr):
    k = np.empty_like(arr, dtype=np.complex64)
    for i, a in enumerate(arr):
        k[i] = np.fft.fft2(a)
    return k
k_it = iterate_fft(x)
k_np = np.fft.fftn(x, axes=(1, 2))
np.testing.assert_allclose(k_it.real, k_np.real)
np.testing.assert_allclose(k_it.imag, k_np.imag)

性能测试结果：

%%timeit k_it = iterate_fft(x)
输出：63.6 ms ± 1.23 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

%%timeit k_np = np.fft.fftn(x, axes=(1, 2))
输出：122 ms ± 1.79 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

这个结果看起来有点反直觉，但背后主要是这几个关键原因：

函数优化的针对性差异：numpy.fft.fft2是专门为单张2D数组的傅里叶变换做过深度优化的，内部的计算路径完全适配2D场景的需求——比如内存布局、缓存利用、FFT算法的选择都是针对单2D输入量身定制的。而fftn是通用的N维FFT接口，当你指定axes=(1,2)时，它虽然能完成批量2D变换的功能，但并没有针对这种“批量处理多个独立2D子数组”的场景做专门优化，反而要处理通用N维变换的额外逻辑，导致额外开销。
内存访问局部性的影响：你的输入是(32,256,256)的数组，循环调用fft2时，每次处理的都是连续的(256,256)切片，这种内存访问模式非常符合CPU缓存的工作机制，缓存命中率极高，能充分利用缓存加速计算。而fftn在处理指定axes的变换时，内存访问的模式更复杂，跨维度的操作会导致更多的缓存失效，直接拖慢了计算速度。
通用接口的额外开销：fftn作为通用函数，需要做更多的参数校验、维度解析、通用变换逻辑的调度工作，这些步骤都会产生额外的性能开销。相比之下，循环调用fft2每次都是直接进入针对2D场景优化好的执行路径，省去了这些通用逻辑的开销。