You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

能否先通过主题模型/聚类预处理筛选目标内容后开展二次建模?

技术问题解答

1. 两次主题建模的可行性

完全可行,这种“粗粒度筛选+细粒度建模”的思路在文本主题挖掘中属于常用方案。

  • 适用场景:当原始数据集主题跨度大,仅关注其中特定类别主题时,先用第一轮主题模型(比如基础版LDA)完成粗粒度主题划分,筛选出目标主题对应的文档子集;再针对该子集用更精细的主题模型(比如BERTopic、调参后的LDA)做二次建模,能得到更聚焦、更细分的主题结果。
  • 注意事项:第一轮主题模型的主题数不宜设置过多,避免过度切割导致目标主题被拆分;同时要保证筛选后的文档样本量充足,若样本过少,二次建模的主题稳定性会受影响。

2. 两次聚类解决词义消歧覆盖不全的可行性

可行,这是一种无监督/半监督的词义消歧思路,能有效弥补知识库、有监督方法覆盖不足的问题。

  • 具体做法:先基于多义词的上下文嵌入向量(比如用预训练语言模型生成的句子或上下文片段向量)做第一次聚类,把表达同一词义的上下文实例归为同一簇——比如多义词“bank”,第一次聚类会自动把涉及“金融机构”和“河岸”的上下文分成两个独立簇;之后针对每个簇再做二次聚类,可进一步细分该词义下的具体场景(比如“银行”簇再分成“零售银行”“投资银行”等子簇),也可以给每个簇手动标注对应的词义,完成消歧。
  • 注意事项:第一次聚类的特征选择很关键,必须用包含上下文信息的向量,不能只用孤立的词向量;可以结合少量已标注的词义数据做半监督聚类,提升聚类结果的准确性;聚类后要通过轮廓系数、人工抽样验证等方式评估簇的合理性,确保不同词义确实被区分开。

内容的提问来源于stack exchange,提问作者Filipa Mota

火山引擎 最新活动