深度学习分类中类间相关性的处理方法及参考文献咨询

阿华AIGC实验室

2026-5-14

嘿，这个问题在分类任务里真的挺常见的——尤其是当类别之间存在语义或概念关联时，硬用普通交叉熵损失（完全忽略类别相关性）确实不太合理。我来分享几个业界常用的解决方案，还有经典的参考方向：

常用解决方案

1. 自定义损失函数（引入类别相似度矩阵）

这是最直接的思路：预先定义一个类别相似度矩阵，你可以根据领域知识手动设定（比如狗和猫的相似度设0.8，狗和飞机设0.1），也可以用WordNet、预训练语言模型（比如BERT）自动计算语义相似度得到这个矩阵。

然后基于这个矩阵修改损失函数，核心是让模型预测到相关类别时的惩罚更轻：

进阶版标签平滑：把原来的标签平滑目标分布，从“正确标签占1-ε，其他均分ε”改成“正确标签占1-ε，相关类别分配更高的ε比例，无关类别更低”。比如狗的目标分布里，猫的概率是0.15，飞机只有0.01。
加权交叉熵：对每个预测类别的损失乘以它和真实类别的相似度，比如预测猫时的损失权重是0.8，预测飞机时是0.1，这样误判猫的总损失会远低于误判飞机。

举个PyTorch的简单示例（手动定义相似度矩阵）：

import torch
import torch.nn.functional as F

# 假设类别数是3：狗(0)、猫(1)、飞机(2)
similarity_matrix = torch.tensor([
    [1.0, 0.8, 0.1],  # 狗和其他类的相似度
    [0.8, 1.0, 0.1],  # 猫和其他类的相似度
    [0.1, 0.1, 1.0]   # 飞机和其他类的相似度
])

def custom_loss(logits, y_true):
    # 计算交叉熵的基础损失
    ce_loss = F.cross_entropy(logits, y_true, reduction='none')
    # 获取每个样本真实类别对应的相似度向量
    sim_weights = similarity_matrix[y_true]
    # 对每个预测类别的概率加权，用softmax后的概率乘以相似度求和作为权重
    pred_probs = F.softmax(logits, dim=1)
    weight = torch.sum(pred_probs * sim_weights, dim=1)
    # 最终损失：基础损失乘以（1 - 权重），让相关预测的损失更小
    return torch.mean(ce_loss * (1 - weight))

2. 基于嵌入空间的度量学习

让模型学习一个语义嵌入空间，使得相关类别的样本/类别中心距离更近，无关类更远，从数据层面自动捕捉类别相关性。常用的思路：

在分类头之前加一个嵌入层，联合优化分类损失和嵌入的相似度损失（比如三元组损失、对比损失）：比如让狗的样本嵌入和猫的样本嵌入距离，远小于和飞机样本的距离。
改进分类损失：比如用ArcFace、CosFace这类带角度约束的损失，同时手动约束相关类别的中心向量夹角更小，无关类的夹角更大。

3. 层次化分类

如果你的类别有明确的层级结构（比如「动物」→「哺乳动物」→「狗/猫」，「交通工具」→「飞机」），可以构建层次化分类器：

多任务学习：先训练一个大类分类头（区分动物/交通工具），再训练小类分类头（区分狗/猫），最终损失是大类损失加小类损失的加权和。这样模型把狗误判成猫时，大类是对的，损失会比误判成飞机小很多。
树形损失：按照类别层级构建树结构，计算每个层级的分类损失，比如狗的真实路径是「动物→哺乳动物→狗」，模型预测「动物→哺乳动物→猫」时，前两层的损失都是0，只有最后一层有损失，总损失远低于预测「交通工具→飞机」。

4. 知识蒸馏（软标签传递相关性）

如果有预训练的教师模型（或者手动构建软标签），可以让学生模型学习包含类别相关性的软标签：

不用预训练教师的话，你可以基于类别相似度矩阵生成软标签：比如狗的图片对应的软标签是「狗:0.8，猫:0.15，飞机:0.05」。
用蒸馏损失训练：联合优化硬标签的交叉熵损失和软标签的KL散度损失，让学生模型不仅学对正确标签，还能学到类别之间的相关性。

可参考的经典文献/工作

《Distilling the Knowledge in a Neural Network》：知识蒸馏的开山之作，软标签传递相关性的核心思路来自这里。
《Hierarchical Classification with Deep Neural Networks》：专门针对层次化分类的经典工作，适合有明确类别层级的场景。
《Semantic Label Smoothing for Deep Neural Networks》：把类别语义相似度融入标签平滑的进阶工作，直接解决你的需求。
《Class-Correlated Cross-Entropy Loss for Robust Classification》：专门针对类别相关性设计的损失函数，详细论证了这类损失的有效性。
《ArcFace: Additive Angular Margin Loss for Deep Face Recognition》：虽然是人脸识别，但其中的类别中心约束思路可以迁移到类别相关性的场景中。

这些方法里，自定义损失和知识蒸馏是最灵活的，不管有没有层级都能用；层次化分类适合有明确类别结构的场景；嵌入空间方法则更偏向从数据中自动学习相关性。你可以根据自己的任务场景选最适合的~

内容的提问来源于stack exchange，提问作者user10300415