Python Multiprocessing加速优化：进程间数据传输耗时问题求解

阿华AIGC实验室

2026-5-28

优化进程间数据传输瓶颈的实用方案

嘿，这个问题我太有共鸣了——进程间的数据传输（尤其是频繁传递小对象或者大数组）经常会把多进程并行的优势给抵消掉，毕竟IPC（进程间通信）的开销真的不容小觑。针对你这个场景，我整理了几个靠谱的优化方案，咱们一个个拆解：

1. 用共享内存让子进程直接写入结果（最推荐）

核心思路是让所有进程共享同一块内存空间，子进程计算完成后直接把结果写入共享的numpy数组，完全避免了进程间的数据拷贝和传输。Python 3.8+提供的multiprocessing.shared_memory可以完美对接numpy，老版本可以用multiprocessing.Array。

举个适配你代码的例子：

import multiprocessing
from multiprocessing import shared_memory
import numpy as np

cores = 4

def heavy_thinking_shared(data, shm_name, shm_shape, shm_dtype):
    # 连接到共享内存
    existing_shm = shared_memory.SharedMemory(name=shm_name)
    # 把共享内存映射成numpy数组
    shared_array = np.ndarray(shm_shape, dtype=shm_dtype, buffer=existing_shm.buf)
    # 执行计算
    idx1, idx2, result = data // 4, data % 4, [data, data + 1]
    # 直接写入共享数组
    shared_array[idx1][idx2] = result
    # 关闭共享内存连接
    existing_shm.close()

if __name__ == "__main__":
    # 初始化要写入的数组
    array_shape = (2, 4)
    array_dtype = object
    array = np.empty(array_shape, dtype=array_dtype)
    
    # 创建共享内存，大小和原数组一致
    shm = shared_memory.SharedMemory(create=True, size=array.nbytes)
    # 把原数组关联到共享内存
    shared_array = np.ndarray(array_shape, dtype=array_dtype, buffer=shm.buf)
    
    calc_pool = multiprocessing.Pool(cores)
    task_list = [0, 1, 2, 3, 4, 5, 6, 7]
    # 给每个子进程传递共享内存的参数
    for data in task_list:
        calc_pool.apply_async(heavy_thinking_shared, args=(data, shm.name, array_shape, array_dtype))
    
    # 等待所有任务完成
    calc_pool.close()
    calc_pool.join()
    
    # 把共享内存的数据同步到原数组（其实直接用shared_array也可以）
    array[:] = shared_array[:]
    print(array)
    
    # 释放共享内存
    shm.close()
    shm.unlink()

这个方案的优势是完全消除了进程间的结果传输开销，子进程写完数据主进程直接就能读到，效率提升非常明显。

2. 任务分块，减少IPC通信次数

原来的map是每个任务单独返回结果，相当于要进行8次IPC传输。我们可以把任务分成和核心数一致的块，每个子进程处理一整块任务，只返回一次该块的所有结果，这样把IPC次数从8次降到4次，减少开销。

示例代码：

import multiprocessing
import numpy as np

cores = 4

def heavy_thinking_chunk(chunk_data):
    # 处理一个任务块，返回该块的所有结果集合
    results = []
    for data in chunk_data:
        idx1, idx2, result = data // 4, data % 4, [data, data + 1]
        results.append((idx1, idx2, result))
    return results

if __name__ == "__main__":
    calc_pool = multiprocessing.Pool(cores)
    task_list = [0, 1, 2, 3, 4, 5, 6, 7]
    # 把任务分成4块
    chunks = [task_list[i::cores] for i in range(cores)]
    
    array = np.empty([2, 4], dtype=object)
    print(array)
    
    # 每个进程处理一个块
    chunk_results = calc_pool.map(heavy_thinking_chunk, chunks)
    
    # 遍历所有块的结果写入数组
    for result_chunk in chunk_results:
        for idx1, idx2, result in result_chunk:
            array[idx1][idx2] = result
    
    print(array)
    calc_pool.close()

这个方案实现简单，不需要改太多代码，适合快速优化。如果你的任务量更大，分块的收益会更明显。

3. 用回调函数异步写入结果

使用apply_async配合回调函数，让子进程完成一个任务后立刻通知主进程写入结果，不用等所有任务都完成再批量处理。这样既减少了主进程的等待时间，也不用把所有结果都存在内存里（适合超大任务量的场景）。

示例代码：

import multiprocessing
import numpy as np

cores = 4

def heavy_thinking(data):
    # 原计算逻辑不变
    return data // 4, data % 4, [data, data + 1]

def write_result(result):
    # 回调函数：收到结果就写入数组
    idx1, idx2, value = result
    array[idx1][idx2] = value

if __name__ == "__main__":
    calc_pool = multiprocessing.Pool(cores)
    task_list = [0, 1, 2, 3, 4, 5, 6, 7]
    array = np.empty([2, 4], dtype=object)
    print(array)
    
    # 给每个任务注册回调函数
    for data in task_list:
        calc_pool.apply_async(heavy_thinking, args=(data,), callback=write_result)
    
    # 等待所有任务完成
    calc_pool.close()
    calc_pool.join()
    
    print(array)

这个方案的好处是异步处理，内存占用低，而且代码改动很小，适合不想大改原有计算逻辑的场景。

4. 单进程优化替代多进程（极端情况）

如果你的heavy_thinking是纯CPU密集型计算，也可以试试用numba给计算逻辑加速。有时候单进程优化后的速度可能比多进程（加IPC开销）还要快，而且更简单。比如用numba.jit装饰你的计算函数：

from numba import jit

@jit(nopython=True)
def heavy_thinking(data):
    # 这里写纯数值计算的逻辑，numba会编译成机器码加速
    idx1 = data // 4
    idx2 = data % 4
    result = [data, data + 1]
    return idx1, idx2, result

这个方案需要你的计算逻辑能被numba兼容，但一旦适用，开发成本极低，效果也很显著。

内容的提问来源于stack exchange，提问作者Lucy The Brazen