Open XML解析Word文档时单词拆分异常问题技术咨询

阿华AIGC实验室

2026-5-15

为啥Word文档里的单词会被拆成两个片段？

嘿，这个问题我之前处理Office Open XML解析时碰到过类似情况，和语言、编码基本没关系，核心原因是Word的文本运行块（<w:r>）拆分逻辑——看你贴的OuterXml片段就能找到明确线索：

对比两个<w:r>的字符属性<w:rPr>：

Word的规则是：只要文本的局部格式有差异，就会把这部分文本单独拆成一个<w:r>块。这里就是"St"被手动设置了字符紧缩，而后面的"andards"没设，所以Word把它们分成了两个独立的运行块，看起来就像单词被拆成了两半。

可以做个判断逻辑：如果相邻的<w:r>块，除了这种局部格式差异（比如这里的间距），核心属性（字体、字号、语言、加粗状态）都一致，就可以把它们的<w:t>文本内容合并起来，就能得到完整的"standards"啦。

内容的提问来源于stack exchange，提问作者Felix Cen

火山引擎最新活动

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠