从大规模散点图中自动检测聚类——替代人工筛查的技术需求

阿华AIGC实验室

2026-5-22

兄弟，你这手动刷一万多张散点图的痛苦我太懂了——完全是重复劳动还容易漏检，后续更新还要重来一遍，简直折磨人。其实根本不用一张张盯着看，直接从数据层面自动检测聚类就搞定了，甚至连图都不用画（当然要生成图做验证也能自动化筛选）。我给你整理几个落地的方案：

核心思路：跳过绘图，直接从原始数据检测聚类

生成一万多张图再识别，本质是绕了弯路——散点图的聚类本质是数据点的密度/分布特征，直接用无监督算法分析原始CSV的列数据，速度更快、准确率更高，还不受绘图参数（点大小、颜色）的影响。

1. 用无监督聚类算法自动识别有效组合

推荐两个最实用的算法，按需选择：

DBSCAN：自动识别聚类数量，适合检测不规则形状的聚类（比如环形、月牙形），还能标记噪声点
K-Means：适合凸形聚类，需要预先设定聚类数（可以用肘部法则自动确定）

下面是Python的实现示例，直接处理你的CSV数据：

import pandas as pd
from sklearn.cluster import DBSCAN
from sklearn.metrics import silhouette_score
from multiprocessing import Pool

# 读取CSV数据
df = pd.read_csv("your_dataset.csv")
# 假设要分析的150列是前150列，可根据实际调整
analysis_columns = df.columns[:150]

def check_cluster_pair(col_pair):
    x_col, y_col = col_pair
    # 提取数据并清理缺失值
    data = df[[x_col, y_col]].dropna().values
    # 数据量太少直接跳过
    if len(data) < 10:
        return None
    
    # 用DBSCAN检测聚类，eps和min_samples可根据数据分布调整
    dbscan = DBSCAN(eps=0.3, min_samples=8)
    labels = dbscan.fit_predict(data)
    # 统计有效聚类数（排除噪声点的-1标签）
    n_clusters = len(set(labels)) - (1 if -1 in labels else 0)
    
    # 用轮廓系数评估聚类质量：范围[-1,1]，越接近1说明聚类越清晰
    if n_clusters >= 2:
        silhouette_avg = silhouette_score(data, labels)
        # 筛选出聚类效果好的组合（阈值可自己调）
        if silhouette_avg > 0.5:
            return {
                "x_column": x_col,
                "y_column": y_col,
                "cluster_count": n_clusters,
                "silhouette_score": round(silhouette_avg, 2)
            }
    return None

# 生成所有两两列组合
col_pairs = [(analysis_columns[i], analysis_columns[j]) 
             for i in range(len(analysis_columns)) 
             for j in range(i+1, len(analysis_columns))]

# 多进程加速处理（一万多组组合，单进程太慢）
with Pool(processes=4) as pool:
    results = pool.map(check_cluster_pair, col_pairs)

# 过滤无效结果并保存到CSV
valid_results = [res for res in results if res is not None]
pd.DataFrame(valid_results).to_csv("cluster_detection_results.csv", index=False)
print(f"共检测到 {len(valid_results)} 组有明显聚类的列组合")