基于分类特征的协同过滤推荐系统构建问题咨询

阿华AIGC实验室

2026-5-26

针对分类行为标签的协同过滤相似度优化方案

嘿，看起来你在构建协同过滤推荐系统时，卡在了分类型用户-物品数据的相似度计算上，而且已经用XGB算出了购买可能性——这步其实已经给后续优化铺了路！我结合你的场景整理几个实用方向：

一、先把你的三类行为标签用起来，别只当二元数据

你提到的“未购买”“已购买”“加入购物车但未购买”是不同强度的用户兴趣信号，直接用杰卡德（只看有没有交互）太浪费信息了。建议先给这三类行为赋值权重：

已购买：3分（最强的兴趣证明）
加入购物车未购买：1分（有明确意图但没转化，比纯粹没交互强）
未购买：0分（注意：这里要区分「主动没买」和「根本没见过这个物品」，后者别直接算0，过滤掉更靠谱）

把分类标签转成加权行为矩阵后，后续的相似度计算能更精准地反映用户兴趣差异。

二、相似度计算不止杰卡德，这些方法更适配你的场景

1. 杰卡德的正确打开方式

如果坚持用原始分类标签，杰卡德可以调整：把“加购未买”也算作「有交互行为」，计算用户之间共同交互物品的比例。但它的缺点是完全不区分行为强度，适合只看行为重合度的场景。

2. 给余弦相似度换个“皮肤”，适配分类数据

别直接否定余弦！你可以把用户的行为向量做成加权二元向量（比如已购=1，加购=0.5，未购=0），然后用余弦相似度计算用户/物品间的相似度。这种方式比杰卡德更能体现“已购”和“加购”的兴趣差异，效果通常更好。

3. 汉明距离：看行为模式是否一致

汉明距离专门用来计算分类变量的差异——比如两个用户在同一物品上的行为标签是否完全一致，归一化后（1 - 汉明距离/总交互物品数）就能作为相似度。适合你只想看用户行为模式是否匹配的场景。

4. 结合XGB的购买概率，用皮尔逊相关系数

你已经用XGB算出了用户对物品的购买可能性，这其实是完美的「隐式评分」！皮尔逊相关系数适合处理连续型评分数据，直接用这个概率生成用户的兴趣向量，计算用户间的皮尔逊相似度，能精准捕捉用户的潜在兴趣匹配度。

举个简单的代码思路：

# 假设user_prob是用户对物品的购买概率字典，比如user_a = {"item1":0.8, "item2":0.3}
def pearson_similarity(user1, user2):
    common_items = set(user1.keys()) & set(user2.keys())
    if len(common_items) == 0:
        return 0
    # 提取共同物品的概率值
    u1_vals = [user1[item] for item in common_items]
    u2_vals = [user2[item] for item in common_items]
    # 计算皮尔逊相关系数
    mean1 = sum(u1_vals)/len(u1_vals)
    mean2 = sum(u2_vals)/len(u2_vals)
    cov = sum((x-mean1)*(y-mean2) for x,y in zip(u1_vals, u2_vals))
    std1 = sum((x-mean1)**2 for x in u1_vals)**0.5
    std2 = sum((y-mean2)**2 for y in u2_vals)**0.5
    if std1 ==0 or std2 ==0:
        return 0
    return cov/(std1*std2)

三、实操验证：多方案对比+混合策略

基线测试：先分别用杰卡德、加权余弦、皮尔逊（基于XGB概率）跑一遍协同过滤，用召回率、准确率、NDCG这些指标对比效果，选最适合你数据集的。
混合相似度：别吊死在一棵树上！可以把多种相似度加权融合，比如：
```
final_similarity = 0.4 * jaccard_sim + 0.3 * weighted_cosine_sim + 0.3 * pearson_sim
```
权重可以根据你的测试结果调整。
冷启动救星：新用户/新物品的相似度很难算，直接用XGB的预测概率给新用户推Top N物品，能快速解决冷启动问题。