带权重标签的CDR数据无监督高维聚类及用户兴趣点检测方案咨询

阿华AIGC实验室

2026-5-14

针对CDR数据兴趣点无监督聚类的可行方案

首先，我先拆解你的核心需求：基于自定义加权混合距离（已知标签重要性排序但无具体权重），对3000条CDR记录做无监督聚类（未知簇数），核心目标是区分「位置相近但活动模式不同」的用户兴趣点（比如同商圈的健身房 vs 商场）。结合你提到的DBSCAN、层次聚类的痛点，我整理了一套落地路径：

一、先解决自定义距离的权重问题

你已知标签重要性排序（比如位置 > 时段 > 工作日/周末 > 星期几 > 连接天数），但不清楚具体权重，这里可以用「权重网格搜索+聚类质量验证」的方式确定最优权重：

基于重要性排序设定权重范围：比如位置权重a∈[0.6, 0.8]，时段权重b∈[0.15, 0.3]，工作日/周末权重c=1-a-b（满足a+b+c=1）
对每个权重组合，用聚类验证指标（如轮廓系数silhouette score、Davies-Bouldin指数）评估效果，同时结合业务逻辑（比如簇内是否符合兴趣点的时间+位置特征）筛选最优权重

二、预处理：为不同类型标签匹配合适的距离计算方式

你的标签包含多种数据类型，不能直接用单一距离公式，需要分别处理：

位置（经纬度）：用Haversine距离（专门针对地理坐标的距离计算，比欧氏距离更准确，避免地球曲率带来的误差）
分类标签（时段、工作日/周末、星期几）：用汉明距离（相同标签距离为0，不同为1；如果是有序分类比如时段，可以调整为有序距离，比如午前到午后的距离比午前到夜间小）
连接天数：先做归一化（比如除以最大天数），再用欧式距离衡量差异

三、聚类算法推荐（适配你的核心痛点）

1. HDBSCAN（优先推荐）

为什么适合：它是DBSCAN的改进版，自动确定簇数，对噪声点（比如用户偶然连接的基站）鲁棒，支持传入预计算的自定义距离矩阵，还能识别不同密度的簇（比如高密度的商场 vs 密度稍低但规律的健身房）
核心优势：不需要手动调eps参数，能完美适配你「未知簇数+自定义距离」的需求，而且天然过滤偶然的基站记录，只保留真正的兴趣点集群

2. OPTICS

为什么适合：同样是DBSCAN的改进，通过生成可达性图自动发现不同密度的簇，不需要提前设定eps，支持自定义距离矩阵。适合你的数据中存在不同密度兴趣点的场景

3. 谱聚类（基于图的聚类方案）

为什么适合：这就是你之前考虑的「以记录间差异为边权重的图聚类」的落地算法。它将数据转化为图结构（节点=记录，边权重=相似度，由自定义距离转换而来），通过切图得到簇。适合区分「位置近但活动模式不同」的点——因为活动标签的权重会降低这类点的相似度，最终被分到不同簇

四、落地步骤示例（Python）

这里以HDBSCAN为例，展示核心代码逻辑：

import hdbscan
import numpy as np
from sklearn.metrics.pairwise import pairwise_distances

# 1. 假设已预处理好各标签数据：
# locations: 经纬度数组，shape=(3000, 2)
# label2_data: 时段编码数组（比如0=夜间，1=午前...），shape=(3000,1)
# label3_data: 工作日/周末编码数组（0=工作日，1=周末），shape=(3000,1)

# 2. 定义Haversine距离函数（用于地理坐标）
def haversine_metric(loc1, loc2):
    lat1, lon1 = loc1
    lat2, lon2 = loc2
    # 转换为弧度
    lat1, lon1, lat2, lon2 = map(np.radians, [lat1, lon1, lat2, lon2])
    dlat = lat2 - lat1
    dlon = lon2 - lon1
    a = np.sin(dlat/2)**2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2)**2
    c = 2 * np.arcsin(np.sqrt(a))
    # 地球半径取6371km，可根据需求调整单位
    return c * 6371

# 3. 计算各标签的距离矩阵
haversine_dist = pairwise_distances(locations, metric=haversine_metric)
label2_dist = pairwise_distances(label2_data, metric='hamming')
label3_dist = pairwise_distances(label3_data, metric='hamming')

# 4. 设定权重（这里用示例值，实际可通过网格搜索优化）
a, b, c = 0.7, 0.2, 0.1
custom_dist = a * haversine_dist + b * label2_dist + c * label3_dist

# 5. 用HDBSCAN聚类
# min_cluster_size：至少多少条记录才算一个兴趣点，可根据业务调整（比如5）
clusterer = hdbscan.HDBSCAN(metric='precomputed', min_cluster_size=5)
cluster_labels = clusterer.fit_predict(custom_dist)

# 6. 结果分析：cluster_labels中-1表示噪声点（非兴趣点），其他数值为簇ID

五、验证与调优

聚类质量验证：用silhouette_score评估簇内紧凑性和簇间分离度，分数越高效果越好
业务逻辑验证：随机抽取不同簇的记录，检查是否符合兴趣点特征：比如同一个簇的记录位置相近、时段/工作日模式一致、连接天数多；不同簇即使位置近，活动模式差异明显（比如工作日午前 vs 周末午后）
权重调优：通过网格搜索遍历权重组合，选择聚类质量和业务逻辑都最优的权重

内容的提问来源于stack exchange，提问作者Roy Ancri