为何C#中Open XML SDK替换Docx文本仅特定方式生效？

阿华AIGC实验室

2026-5-27

问题分析与解决办法

首先得指出你代码里的几个关键问题，尤其是硬编码版本看似生效其实是巧合，而变量版本失效的根源在于你处理Open XML文档的方式不对：

1. 硬编码版本的“假生效”

你提到的“工作代码”其实有个逻辑错误：docText = regexText.Replace("hello"); 这行代码根本没在处理从文档里读取的docText，而是直接把字符串"hello"作为替换输入，然后把结果覆盖到文档里。说白了，你不是在替换文档里的"hi"，而是直接把整个文档内容改成了"hello"——这就是为什么你觉得它“生效”，但这完全不是你想要的文本替换逻辑。

2. 变量版本失效的真正原因

当你改成用变量find和replace时，代码才真正尝试匹配文档里的内容，但失效的原因有两个：

编码不匹配导致读取的文本失真

Open XML的主文档流采用的是**UTF-16 LE（带BOM）**编码，但你用StreamReader读取时用的是默认的UTF-8编码，这会导致文档里的字符被错误解析。比如原本的"hi"可能被读成乱码或者不符合预期的字符序列，正则自然匹配不到。

Open XML的文本结构不是连续纯文本

Docx的内容是XML格式，文本经常被拆分成多个<w:t>元素（比如因为格式变化、自动换行等）。举个例子，"hi"可能被存储成：

<w:t>h</w:t>
<w:t>i</w:t>

这时候你读取整个XML流得到的是带标签的字符串，正则find（"hi"）根本无法匹配这种被标签分割的内容。

正确的解决方式：用Open XML SDK API遍历文本元素

不要直接读取整个流进行粗暴的文本替换，而是通过SDK提供的API来遍历文档中的所有文本节点，这样能正确处理编码和XML结构问题：

普通文本替换

public static void SearchAndReplace(string documentPath, string findText, string replaceText)
{
    using (WordprocessingDocument wordDoc = WordprocessingDocument.Open(documentPath, true))
    {
        // 获取文档中所有的文本元素
        var textElements = wordDoc.MainDocumentPart.Document.Descendants<Text>();
        
        foreach (Text textNode in textElements)
        {
            if (textNode.Text.Contains(findText))
            {
                textNode.Text = textNode.Text.Replace(findText, replaceText);
            }
        }
        
        // 保存更改
        wordDoc.MainDocumentPart.Document.Save();
    }
}

正则替换版本

如果需要用正则表达式进行复杂替换，只需稍作修改：

public static void SearchAndReplace(string documentPath, string findPattern, string replaceText)
{
    var regex = new Regex(findPattern);
    
    using (WordprocessingDocument wordDoc = WordprocessingDocument.Open(documentPath, true))
    {
        var textElements = wordDoc.MainDocumentPart.Document.Descendants<Text>();
        
        foreach (Text textNode in textElements)
        {
            textNode.Text = regex.Replace(textNode.Text, replaceText);
        }
        
        wordDoc.MainDocumentPart.Document.Save();
    }
}

这样调用SearchAndReplace("template.docx", "hi", "hello")就能正确替换文档里的所有"hi"了。

内容的提问来源于stack exchange，提问作者JacopoDT