为何numpy.add.at执行速度远慢于原地加法？该函数的适用场景是什么？

阿华AIGC实验室

2026-4-29

为什么np.add.at比原地加法慢？它的适用场景是什么？

咱们先看你给出的测试数据——同样的逻辑，fast()用普通原地加法跑10次只需要0.88秒，而slow()和slower()用np.add.at()居然要50多秒，差距确实夸张。这背后的核心原因，得从两个函数的设计目标和实现逻辑说起：

一、为什么np.add.at这么慢？

np.add.at()的文档里已经点明了关键：它是无缓冲的原地操作。这意味着它放弃了numpy最擅长的向量化缓冲优化，转而用一种更“笨拙”但更准确的方式处理索引：

重复索引的强制累加逻辑
普通的a[indices] += b本质是先取出a[indices]的视图，再做向量加法——如果indices里有重复的位置，这个操作只会保留最后一次赋值的结果（因为视图里的重复位置会被覆盖）。但np.add.at()会逐个遍历每个索引，对每个目标位置做累加操作，哪怕同一个位置被索引多次。这种逐个处理的逻辑，在索引量大或者重复多的时候，开销会直线上升。
无缓冲带来的额外开销
numpy的普通ufunc（比如加法）会利用内存缓冲、连续内存块操作等优化，尤其是面对你测试里的连续切片slice(i,i+n)时，能直接对整块内存做向量运算，效率极高。但np.add.at()为了支持任意形式的索引（包括多维、非连续、重复索引），必须绕过这些优化，逐个解析并更新每个索引位置，自然慢很多。

比如你在slower()里用的二维indices，np.add.at()需要把每个二维索引对应的retval位置单独找出来，再逐个加上A里的元素——这和fast()里直接对连续切片做整块加法的效率完全不在一个量级。

二、np.add.at的适用场景

既然它这么慢，为什么还要存在？因为它解决了普通原地加法搞不定的问题：当你需要对重复索引的位置做累加时。

举个简单的例子：

a = np.zeros(3)
indices = [0, 0, 1]
b = [1, 1, 1]

# 普通原地加法：同一个索引只会保留最后一次操作结果
a[indices] += b
print(a)  # 输出: [1., 1., 0.]

# np.add.at：重复索引的位置会被累加
np.add.at(a, indices, b)
print(a)  # 输出: [2., 1., 0.]

这种场景下，如果你需要统计“同一个位置被多次命中后的累加值”，普通的索引赋值根本做不到，必须用np.add.at()（或者np.bincount，但后者只支持一维非负整数索引，灵活性不如前者）。

回到你的测试代码：你的场景里虽然有切片重叠，但这些重叠是连续的，普通原地加法的向量运算刚好能正确完成累加（因为每次都是对切片位置做加法，而非覆盖），这时候用np.add.at()完全是大材小用，浪费了它的特性，还牺牲了效率。

总结

如果你的索引是连续切片、无重复，或者重复索引的累加可以通过向量运算间接实现（比如你的测试场景），优先用普通原地加法+=，效率碾压np.add.at()。
只有当你需要处理非连续的重复索引，且必须对同一位置做多次累加时，np.add.at()才是不可替代的选择——这时候慢一点也是值得的，因为普通方法根本做不对。

内容的提问来源于stack exchange，提问作者Kevin