医疗文本NLP信息提取：如何识别药物关键词的否定表述

阿华AIGC实验室

2026-5-19

嘿，刚接触NLP就涉足医疗文本信息提取，这可是个很有实际价值的方向！你遇到的“识别被否定的药物”问题，在医疗NLP场景里特别常见——毕竟病历或处方里经常会提到患者不能用、不耐受的药物，我给你梳理几个从易到难、落地性强的技术方案：

医疗文本中否定药物识别的实现方案

1. 规则匹配法（新手快速上手首选）

这是最适合你当前阶段的方案，不需要复杂模型，靠规则就能解决大部分常规场景：

第一步：先整理一套医疗否定/禁忌词库，比如：无法耐受、禁用、不宜、拒绝、避免、未使用、不推荐、停用这类高频词汇
第二步：用字符串匹配或正则，先从文本里定位出预定义药物列表中的所有药物
第三步：检查每个匹配到的药物的上下文范围（比如前后20个字符，可根据文本长度调整），看是否包含否定词库中的词汇
给你写个简单的伪代码示例：

# 预定义药物列表
drug_list = ["aspirin", "paracetamol", "ibuprofen"]
# 自定义否定词库
negation_words = ["无法耐受", "禁用", "不宜", "拒绝", "避免", "停用"]

text = "John因无法耐受paracetamol，被开具ibuprofen处方"

# 先找出所有匹配的药物
matched_drugs = [drug for drug in drug_list if drug in text]

# 逐个检查是否被否定
for drug in matched_drugs:
    # 获取药物前后的上下文片段
    drug_pos = text.find(drug)
    context = text[max(0, drug_pos-20): min(len(text), drug_pos+20)]
    # 判断是否存在否定词
    is_negated = any(neg_word in context for neg_word in negation_words)
    print(f"药物：{drug} | 是否被否定：{'是' if is_negated else '否'}")

这个方法的好处是快速落地、调试简单，完全适配你的预定义药物列表场景；缺点是对复杂句式（比如“医生说虽然之前用paracetamol有效，但现在因为肠胃问题不能再用了”这种嵌套逻辑）处理能力有限，但对付大部分常规文本足够用。

2. 预训练语言模型微调（进阶方案，应对复杂场景）

如果你的业务需要处理更复杂的医疗文本，规则就不够用了，这时候可以用医疗领域预训练模型来做实体否定判断：

核心思路：把问题转化为“识别药物实体是否处于否定语境”，优先选BioBERT、ClinicalBERT这类专门针对医疗文本训练的预训练模型，它们对医疗术语的理解比通用BERT强得多
具体步骤：
1. 标注少量样本：比如给文本中的药物打实体标签，同时标注该药物是“被否定”还是“未被否定”
2. 用标注好的数据微调预训练模型：让模型学习“药物+上下文”和“否定状态”之间的关联
3. 推理时，先提取文本中的药物实体（可以用规则或模型），再用微调后的模型判断每个实体的否定状态
给你一个极简的思路示例（用Hugging Face工具链）：

from transformers import AutoTokenizer, AutoModelForSequenceClassification

# 加载医疗预训练模型（这里用ClinicalBERT）
tokenizer = AutoTokenizer.from_pretrained("emilyalsentzer/Bio_ClinicalBERT")
# 加载你自己微调好的分类模型（输出0=未否定，1=被否定）
model = AutoModelForSequenceClassification.from_pretrained("your-fine-tuned-negation-model")

text = "John因无法耐受paracetamol，被开具ibuprofen处方"
target_drug = "paracetamol"

# 构造输入：用特殊标记突出药物实体，帮助模型聚焦
input_text = text.replace(target_drug, f"[DRUG]{target_drug}[/DRUG]")
inputs = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True)
outputs = model(**inputs)
predicted_label = outputs.logits.argmax().item()
is_negated = predicted_label == 1

这个方案的优势是泛化能力强，能处理各种复杂句式；缺点是需要标注数据，对新手来说有一点学习成本，但一旦搞定，后续扩展其他医疗NLP任务也会很顺手。