如何避免笛卡尔积，连接含重复共同索引的两个Pandas DataFrame？

阿华AIGC实验室

2026-5-20

避免重复索引下连接Pandas DataFrame产生笛卡尔积的方法

当然可以解决这个问题！你遇到的笛卡尔积问题，根源是只按timestamp索引连接时，Pandas会把同索引下的所有行两两配对——就像把df1里同时间的C、D和df2里同时间的C全部组合一遍，才会出现(D,C)这种不需要的行。要避免这个情况，我们需要让Pandas同时匹配索引和事件列，而不是只看索引。

先构造你的示例数据

首先用代码还原你的场景：

import pandas as pd

# 构造df1：同timestamp下有C、D两个事件
df1 = pd.DataFrame({
    'timestamp': ['2023-01-01', '2023-01-01'],
    'event': ['C', 'D']
})

# 构造df2：同timestamp下只有C事件
df2 = pd.DataFrame({
    'timestamp': ['2023-01-01'],
    'event': ['C']
})

错误的连接方式（会产生笛卡尔积）

如果只按索引连接，就会出现你说的问题：

# 错误：仅按timestamp索引连接
bad_merge = pd.merge(df1, df2, left_index=True, right_index=True, how='left')
print(bad_merge)
# 输出：
#    timestamp_x event_x timestamp_y event_y
# 0  2023-01-01       C  2023-01-01       C
# 1  2023-01-01       D  2023-01-01       C

这里的第二行(D,C)就是不需要的笛卡尔积结果。

正确的连接方式（避免笛卡尔积）

我们需要把timestamp和event同时作为连接键，这样只有两者完全匹配的行才会连接，不匹配的行就会保留并填充NaN：

方法1：直接用merge指定复合连接键

# 正确：同时按timestamp和event连接，左连接保留df1的所有行
good_merge = pd.merge(df1, df2, on=['timestamp', 'event'], how='left', suffixes=('_df1', '_df2'))
print(good_merge)
# 输出：
#    timestamp event_df1 event_df2
# 0  2023-01-01         C         C
# 1  2023-01-01         D       NaN

完美符合你的需求：C和C匹配，D对应的df2列是NaN，没有多余的笛卡尔积行。

方法2：设置复合索引后用join

如果你习惯用join方法，可以先把timestamp和event设为复合索引，再进行连接：

# 设置复合索引
df1_compound = df1.set_index(['timestamp', 'event'])
df2_compound = df2.set_index(['timestamp', 'event'])

# 左连接
good_join = df1_compound.join(df2_compound, how='left', rsuffix='_df2')
# 还原为普通列
good_join = good_join.reset_index()
print(good_join)
# 输出和方法1完全一致：
#    timestamp event event_df2
# 0  2023-01-01     C         C
# 1  2023-01-01     D       NaN