求助：MS Word文档出现Xml parsing error，如何修复或提取内容？

求助：MS Word文档出现Xml parsing error，如何修复或提取内容？

阿华AIGC实验室

2026-5-28

解决docx文件XML解析错误：提取内容+修复指南

别慌，遇到这种XML解析错误很常见，我帮你分两步走：先确保把文本内容救出来，再尝试修复完整文件。

一、优先提取文本内容（最稳妥，先保住核心内容）

方法1：把docx当压缩包解压提取核心文本

docx本质就是个ZIP压缩包，操作起来很简单：

把文件后缀从.docx改成.zip（如果看不到文件后缀，先在文件夹选项里开启「显示文件扩展名」）
解压这个ZIP包，找到word/document.xml——这是存储所有正文内容的核心文件
用记事本、VS Code或者任何XML编辑器打开这个文件：
- 如果能正常打开，直接复制里面的文本（也可以用正则匹配<w:t>(.*?)</w:t>批量提取所有文本内容）
- 如果打开时还是报错，定位到提示的第2行第2435列，看看是不是有乱码、不可见特殊字符或者未闭合的XML标签，删掉或替换掉异常内容，再保存就能正常读取了

方法2：用Word自带的「打开并修复」功能

打开Word软件，点击「文件」→「打开」，选中你的损坏文件，然后点击「打开」按钮旁边的下拉箭头，选择「打开并修复」——Word会自动扫描并修复文件，多数情况下能直接恢复出可编辑的文本。

二、尝试修复完整的docx文件（如果需要保留格式）

方法1：手动修正XML结构错误

如果想修复文件本身，还是从ZIP包入手：

按上面的方法解压ZIP，找到报错的XML文件（根据提示定位到对应行和列）
用VS Code打开它（自带XML语法检查，会高亮错误位置），常见问题包括：
- 非法XML字符（比如&没转成&）
- 未闭合的标签（比如只写了<w:p>没写</w:p>）
- 乱码或不可见字符
修正错误后，把解压出来的所有文件重新打包成ZIP（注意：要选中ZIP根目录下的文件，不是包含这些文件的文件夹），再把后缀改回.docx，试试能不能正常打开。

方法2：用第三方办公软件转存修复

试试用LibreOffice Writer打开损坏的docx文件——它对损坏文档的兼容性比Word更好，打开后再另存为标准的docx格式，很多时候能自动修复XML结构问题。

内容的提问来源于stack exchange，提问作者Josef Fiedler

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，最新支持 DeepSeek-V4 系列与 GLM-5.1，受邀下单叠加9.5折

ArkClaw

7×24在线专属智能伙伴

Seedance 2.0 全面开放 API

创作无限可能，一键生成电影级 AI 视频

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠