如何在CSV文件中筛选出所有可用作候选主键的列集合？

如何在CSV文件中筛选出所有可用作候选主键的列集合？

阿华AIGC实验室

2026-5-25

如何找出CSV文件中可用作主键的列集合？

首先得明确：主键（或候选键）的核心要求是能唯一标识每一行数据，不能有重复值，也不能包含空值（如果你的数据里存在空值的话）。针对你给出的CSV示例，我来一步步分析，再给你通用的解决方法。

你的示例数据

ID, CUST_NAME, CLIENT_NAME, PAYMENT_NUM, START_DATE, END_DATE
1, CUST1, CLIENT1, 10, 2018-04-01, 2018-04-02
2, CUST1, CLIENT1, 10, 2018-04-01, 2018-05-30
3, CUST1, CLIENT1, 101, 2018-04-02, 2018-04-03
4, CUST2, CLIENT1, 102, 2018-04-02, 2018-04-03

示例中的候选主键分析

单个列：ID
逐行看ID的值：1、2、3、4，完全没有重复，所以单独的ID列就可以作为主键，这是最简洁的候选键。
三列组合：PAYMENT_NUM + START_DATE + END_DATE
咱们核对每一行的组合取值：
- 行1：(10, 2018-04-01, 2018-04-02)
- 行2：(10, 2018-04-01, 2018-05-30)
- 行3：(101, 2018-04-02, 2018-04-03)
- 行4：(102, 2018-04-02, 2018-04-03)
  四个组合全不重复，满足主键的唯一性要求。
多列组合：CUST_NAME + CLIENT_NAME + PAYMENT_NUM + START_DATE + END_DATE
这个组合当然也能唯一标识每一行，但它属于「非最小候选键」——因为前面已经有更短的组合（比如ID、或者三列组合）能实现同样的功能，除非你有特殊业务需求，否则一般优先用列数最少的候选键。

通用验证方法（适配最多100列的场景）

如果实际文件列数很多，手动验证太麻烦，可以用工具自动化处理：

方法1：Python + Pandas快速验证

这是最灵活的方式，代码示例如下：

import pandas as pd
from itertools import combinations

# 加载CSV文件
df = pd.read_csv('your_file.csv')
total_rows = len(df)

# 先找所有单个列的候选键
single_candidates = []
for col in df.columns:
    # 检查该列是否无重复、无空值
    if df[col].nunique() == total_rows and not df[col].isnull().any():
        single_candidates.append(col)
print(f"单个列候选主键：{single_candidates}")

# 找多列组合的候选键（排除包含已有单个候选键的组合，避免冗余）
non_single_cols = [col for col in df.columns if col not in single_candidates]
# 从2列开始检查，找到最小组合后就停止
for k in range(2, len(non_single_cols)+1):
    found = False
    for comb in combinations(non_single_cols, k):
        combined = df[list(comb)].dropna()
        # 验证组合无重复、无空值
        if len(combined.drop_duplicates()) == total_rows:
            print(f"{k}列组合候选主键：{', '.join(comb)}")
            found = True
    if found:
        break

方法2：SQL工具验证

把CSV导入数据库（比如MySQL、SQLite），用GROUP BY语句检查重复：

-- 检查单个列（比如ID）是否是候选键
SELECT COUNT(*) 
FROM your_table 
GROUP BY ID 
HAVING COUNT(*) > 1;
-- 无返回结果则说明该列无重复，是候选键

-- 检查三列组合（PAYMENT_NUM, START_DATE, END_DATE）
SELECT COUNT(*) 
FROM your_table 
GROUP BY PAYMENT_NUM, START_DATE, END_DATE 
HAVING COUNT(*) > 1;
-- 无返回结果则说明该组合是候选键

注意事项

候选列不能包含空值，哪怕只有一行是空值，也不符合主键要求。
优先选择最小候选键（列数最少的），后续数据操作会更高效。

内容的提问来源于stack exchange，提问作者GML-VS

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，最新支持 DeepSeek-V4 系列与 GLM-5.1，受邀下单叠加9.5折

ArkClaw

7×24在线专属智能伙伴

Seedance 2.0 全面开放 API

创作无限可能，一键生成电影级 AI 视频

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠