如何使用python-docx仅替换Word文档指定段落中的文本？

阿华AIGC实验室

2026-5-13

解决python-docx替换表格文本时误匹配子串的问题

问题分析

你遇到的核心问题是：当前代码只是简单检查文本中是否包含目标子串get，没有区分独立单词和单词内部的子串。所以"getting"里的"get"部分也被匹配到，替换后就变成了错误的"waketing"。

原代码的逻辑缺陷在于：通过字符串拆分判断后续是否为空格的方式太局限，既无法覆盖所有独立单词的场景（比如单词后接标点、换行），也没法区分"get"作为完整单词和作为其他单词子串的情况。

解决方案

使用正则表达式的单词边界（\b）来精确匹配独立的目标单词，确保只替换单独的get，而不会影响包含该子串的其他单词（比如getting）。

修改后的代码如下：

import docx
import re

doc = docx.Document("path/docss.docx")

def search_replace_text(target_word, replace_word):
    # 构建正则模式：匹配独立的目标单词，re.escape处理特殊字符
    pattern = re.compile(rf'\b{re.escape(target_word)}\b')
    for table in doc.tables:
        for row in table.rows:
            for cell in row.cells:
                for paragraph in cell.paragraphs:
                    for run in paragraph.runs:
                        # 用正则替换匹配到的独立单词
                        run.text = pattern.sub(replace_word, run.text)

# 传入你的替换目标和替换值（对应GUI的word.get()和replace.get()）
search_replace_text("get", "wake")
doc.save("docss.docx")

关键说明

正则单词边界\b：\b会匹配单词的起始或结束位置，确保我们替换的是完整的get单词，而不是getting中的子串部分。
re.escape()：如果目标单词包含正则特殊字符（比如.、*），这个方法会自动转义，避免出现正则语法错误。
遍历逻辑优化：去掉了原代码中不必要的else: break——这个break会导致一旦某个run不包含目标单词就终止遍历，可能漏掉后续run的匹配。