媒体文件标题去重场景下LLM文本嵌入差异化优化的可行方案咨询

阿华AIGC实验室

2026-3-31

我之前整理媒体资源库的时候，刚好踩过一模一样的坑——系列作品不同卷的标题嵌入挤得密不透风，聚类直接失效，完全分不清谁是谁。分享几个我亲测有效、不用微调模型也不用搞大规模训练数据集的思路，你可以挨个试试：

强化标题预处理，把卷数差异“怼”到模型眼前
通用嵌入模型天生会优先抓核心语义，容易忽略卷数这种“次要细节”。那我们就手动把卷数变成“核心信息”：用规则把标题重构，把卷数单独拎出来做高亮标记。
举个例子，把Work of fiction vol.1改成Work of fiction | 【卷数：1】，Work of fiction II改成Work of fiction | 【卷数：2】，甚至可以先把罗马数字转成阿拉伯数字统一格式，避免模型对“II”和“2”识别成不同东西。
我当时写了个简单的预处理脚本，伪代码大概是这样：

import re
from roman import fromRoman # 可以用现成的罗马数字转换库

def enhance_title_volume(title):
    # 匹配vol.X、罗马数字卷数
    volume_matches = re.finditer(r'(vol\.(\d+)|(\b[IVXLCDM]+\b))', title, re.IGNORECASE)
    base_title = title
    vol_info = ""
    for match in volume_matches:
        vol = match.group(1)
        # 罗马数字转阿拉伯数字
        if all(c in 'IVXLCDM' for c in vol.upper()):
            vol = str(fromRoman(vol.upper()))
        elif vol.lower().startswith('vol.'):
            vol = vol.split('.')[1]
        # 从原标题中移除卷数，保留基础标题
        base_title = base_title.replace(match.group(0), '').strip()
        vol_info = f"【卷数：{vol}】"
    # 重构标题，强制模型关注卷数
    return f"{base_title} | {vol_info}" if vol_info else title

预处理后再生成嵌入，模型会明显更关注卷数差异，聚类时不同卷的标题会自然分开很多。

嵌入后加权拆分，给卷数差异加“权重buff”
不用动模型，而是在生成嵌入后做手脚：把每个标题拆成「基础内容」和「卷数字段」两部分，分别生成嵌入，然后调高卷数嵌入的权重。
比如先给“Work of fiction”生成基础嵌入，再给“1”生成卷数嵌入，最终嵌入用最终嵌入 = 0.6 * 基础嵌入 + 0.4 * 卷数嵌入，权重可以自己调——如果卷数差异是核心区分点，就把卷数嵌入的权重拉到0.5甚至更高。
这个方法相当于手动告诉模型：“卷数这个东西很重要，你得给我重点考虑”，不用微调就能快速强化差异。
换用细粒度短文本优化的嵌入模型
通用大模型的嵌入（比如GPT系列的text-embedding）是为长文本语义相似性设计的，对短文本的细节不敏感。你可以换用专门针对短文本（比如标题、商品名）优化的预训练嵌入模型，比如一些BERT-base的变体，或者专门的短文本匹配模型——这类模型天生就会更关注短文本里的小差异，比如卷数、版本号，不用微调直接用，效果会比通用模型好一大截。
聚类阶段加规则兜底
如果前面的方法还是有漏网之鱼，就在聚类之后做二次校验：
比如用DBSCAN聚类时，把eps参数调小一点，让聚类更“挑剔”；或者用层次聚类的时候，加个规则：如果两个待合并的聚类里，标题的基础内容完全一致，但卷数不同，就强制不合并。
我当时是在聚类后，对每个聚类内部的标题跑一遍规则检查，把同基础标题不同卷的标题单独拆成新聚类，这个操作成本极低，能快速救回失效的聚类结果。
多模型嵌入融合
找2-3个不同的嵌入模型，分别生成标题嵌入，然后把它们拼接成一个更长的嵌入向量，或者对每个模型生成的相似度结果取加权平均。不同模型对细节的敏感度不一样，融合之后能中和通用模型的“粗粒度”问题，让不同卷的标题嵌入差异更明显。