寻找R语言chooseMatrix函数的NumPy高效等价实现方案

阿华AIGC实验室

2026-4-29

替代R中chooseMatrix的高效NumPy实现

嘿，我懂你想要实现的效果——用NumPy生成一个每行固定有m个1、其余为0，且所有行唯一的矩阵，就像R里的chooseMatrix函数那样。你当前用itertools.permutations配合集合去重的思路确实能得到结果，但正如你所说，这个方法效率很低，因为permutations会生成大量重复的排列，后续去完全是在做无用功。

更高效的解决方案：利用组合而非排列

其实我们的核心需求是从总列数d中选出m个位置来放置1，每个这样的位置组合对应唯一的一行，完全不需要考虑顺序。所以直接用itertools.combinations生成列索引的组合，再批量赋值1就行，全程不会产生重复项，效率提升非常明显。

代码实现

import numpy as np
from itertools import combinations

# 参数设置：总列数d，每行1的个数m
d = 4
m = 2

# 生成所有"选m个列放1"的索引组合
column_combinations = np.array(list(combinations(range(d), m)))

# 创建全0矩阵，行数等于组合数C(d,m)
result_matrix = np.zeros((column_combinations.shape[0], d), dtype=int)

# 利用numpy的高级索引批量赋值1
result_matrix[np.arange(column_combinations.shape[0])[:, None], column_combinations] = 1

print(result_matrix)

输出结果

[[1 1 0 0]
 [1 0 1 0]
 [1 0 0 1]
 [0 1 1 0]
 [0 1 0 1]
 [0 0 1 1]]

为什么这个方法更好？

无重复计算：combinations直接生成唯一的位置组合，不像permutations会产生诸如(0,1)和(1,0)这类重复的排列（对应同一行），省去了去重的开销。
效率提升显著：当d和m变大时，这个差距会被放大。比如d=10、m=5时，permutations会生成30240个排列，而combinations仅生成252个组合，计算量差了两个数量级。
代码更简洁：借助numpy的高级索引，不需要手动循环赋值，代码更简洁且性能更优。

内容的提问来源于stack exchange，提问作者Patrick Nasser