Scipy稀疏矩阵乘法是否支持并行？求多核加速方案

阿华AIGC实验室

2026-5-8

Scipy稀疏矩阵乘法的并行困境与解决方案

先直接给你明确答案：没错，Scipy原生的稀疏矩阵点积（比如csr_matrix.dot()这类核心操作）确实没有内置的多线程并行实现——这也是很多人处理大规模稀疏矩阵时踩的坑，明明有几十核的机器，却只能看着单核心跑满，剩下的核摸鱼。

接下来给你几个亲测有效的可行方案，按落地难度和效果排序：

1. 用`sparse_dot_mkl`直接替换（代码改动最小）

这个库基于Intel MKL的稀疏矩阵乘法实现，天然支持多线程，对CSR格式的矩阵适配极好，性能提升非常明显。

安装之后，直接用它的dot_product_mkl替代Scipy的dot就行：

from sparse_dot_mkl import dot_product_mkl
# 假设A是500万×500万的csr_matrix，B是500万×10000的csr_matrix
result = dot_product_mkl(A, B)

它会自动识别你的CPU核心数并充分利用，不需要额外配置，返回的结果也是Scipy的稀疏矩阵格式，完全兼容现有代码。

2. 用Dask做分布式/并行计算（适合超大规模矩阵）

如果你的矩阵大到单进程内存有点吃紧，Dask是个很好的选择。它会把大矩阵拆分成多个小分块，在多个核心上并行计算，最后自动拼接结果。

用法也很简单：

import dask.sparse as ds
# 把Scipy稀疏矩阵转换成Dask稀疏矩阵
dask_A = ds.from_scipy_sparse(A)
dask_B = ds.from_scipy_sparse(B)
# 并行计算点积，compute()触发实际计算
result = dask_A.dot(dask_B).compute()

你可以通过调整分块大小来平衡内存占用和计算效率，Dask会自动处理并行调度，非常省心。

3. 手动拆分矩阵+多进程（无额外依赖）

如果不想引入任何新库，你可以自己动手把大矩阵拆分成多个行块，用Python的multiprocessing来并行计算每个块和B的乘积，最后把结果拼起来。

举个适配你40核的例子：

from multiprocessing import Pool
from scipy.sparse import csr_matrix, vstack

def compute_chunk(chunk):
    # 每个子块和B做乘法
    return chunk.dot(B)

# 把A拆分成40个行块（对应你的40核）
total_rows = A.shape[0]
chunk_size = total_rows // 40
chunks = []
for i in range(40):
    start = i * chunk_size
    end = start + chunk_size
    chunks.append(A[start:end])
# 处理最后剩下的不足一个chunk的行
if total_rows % 40 != 0:
    chunks.append(A[40*chunk_size:])

# 启动40进程并行计算
with Pool(processes=40) as pool:
    chunk_results = pool.map(compute_chunk, chunks)

# 把所有子结果垂直拼接成最终矩阵
final_result = vstack(chunk_results)

这个方法要注意：如果每个子块的计算结果内存占用较高，要适当调整chunk大小，避免内存溢出；另外进程间的数据传递会有一定开销，所以chunk不能拆得太小。

4. 借助深度学习框架（适合兼容场景）

如果你的业务场景能兼容PyTorch或TensorFlow，这两个框架的稀疏矩阵乘法都天然支持多线程（甚至GPU加速，如果有硬件的话）。比如PyTorch的实现：

import torch
from scipy.sparse import csr_matrix

# 把Scipy的CSR矩阵转换成PyTorch的稀疏张量
def scipy_to_torch_sparse(scipy_mat):
    indices = torch.tensor(scipy_mat.nonzero(), dtype=torch.long)
    values = torch.tensor(scipy_mat.data, dtype=torch.float32)
    shape = torch.Size(scipy_mat.shape)
    return torch.sparse_coo_tensor(indices, values, shape).coalesce()

A_torch = scipy_to_torch_sparse(A)
# 如果B是稀疏的也转成稀疏张量，密集的话直接转成普通张量
B_torch = torch.tensor(B.todense(), dtype=torch.float32)

# 并行计算稀疏矩阵乘法
result_torch = torch.sparse.mm(A_torch, B_torch)

# 再转回Scipy格式（如果需要）
result_scipy = csr_matrix(result_torch.to_dense().numpy())

这个方法适合本身就在用深度学习框架的项目，能无缝集成。

最后再强调一次：Scipy原生的稀疏矩阵乘法确实没有并行支持，但上面这些方案都能帮你充分利用40核的算力，大幅缩短计算时间。

内容的提问来源于stack exchange，提问作者Shivam Khandelwal