如何通过编程实现Word「插入>对象>文件中的文字」功能并保留格式？

阿华AIGC实验室

2026-5-15

当然可以实现！你遇到的格式丢失问题确实是mailmerge这类库的局限——它主打邮件合并域的处理，不是为完整保留格式的内容插入设计的。下面给你几个可行的方向，从简单到底层都有，不需要完全从零编写功能：

方法1：用python-docx库保留格式插入内容

python-docx是处理Word文档的主流Python库，虽然它的高层API没有直接提供「插入文件文字」的功能，但可以通过遍历源文档的段落、表格等元素，逐个复制格式和内容到目标文档，实现接近原生的效果。

首先安装库：

pip install python-docx

示例代码（保留段落格式和表格）：

from docx import Document

def merge_word_docs(target_path, source_path):
    target_doc = Document(target_path)
    source_doc = Document(source_path)

    # 处理段落：复制每个run的格式（字体、粗细、斜体等）
    for para in source_doc.paragraphs:
        new_para = target_doc.add_paragraph()
        for run in para.runs:
            new_run = new_para.add_run(run.text)
            # 复制核心格式属性
            new_run.bold = run.bold
            new_run.italic = run.italic
            new_run.underline = run.underline
            new_run.font.size = run.font.size
            new_run.font.name = run.font.name
            new_run.font.color.rgb = run.font.color.rgb
            # 还可以添加行距、对齐方式等段落级格式
            new_para.paragraph_format = para.paragraph_format

    # 处理表格：直接复制底层OXML元素，完整保留表格格式
    for table in source_doc.tables:
        # 添加相同行列数的表格
        new_table = target_doc.add_table(rows=len(table.rows), cols=len(table.columns))
        # 直接复制表格的OXML节点，保留所有格式（边框、背景色等）
        new_table._tbl = table._tbl

    target_doc.save("merged_with_format.docx")

# 调用示例
merge_word_docs("target.docx", "source.docx")

这个方法能保留大部分常用格式，而且跨平台（Windows/macOS/Linux都能用），适合大多数场景。

方法2：直接操作OOXML（最接近Word原生功能）

Word文档本质是压缩的OOXML格式（一个zip包），里面的word/document.xml存储了核心内容。直接解析并合并XML节点，能100%保留所有格式，包括样式、图片、复杂排版等。

可以用lxml库处理XML，配合zipfile解压/打包文档：

首先安装依赖：

pip install lxml

示例代码（核心内容合并，图片需要额外处理）：

from lxml import etree
import zipfile
import os
import shutil

def merge_via_oxml(target_path, source_path):
    # 临时文件夹用于解压文档
    temp_target = "temp_target"
    temp_source = "temp_source"
    os.makedirs(temp_target, exist_ok=True)
    os.makedirs(temp_source, exist_ok=True)

    # 解压目标和源文档
    with zipfile.ZipFile(target_path, 'r') as zf:
        zf.extractall(temp_target)
    with zipfile.ZipFile(source_path, 'r') as zf:
        zf.extractall(temp_source)

    # 解析XML文档
    ns = {"w": "http://schemas.openxmlformats.org/wordprocessingml/2006/main"}
    target_tree = etree.parse(f"{temp_target}/word/document.xml")
    target_body = target_tree.find(".//w:body", namespaces=ns)

    source_tree = etree.parse(f"{temp_source}/word/document.xml")
    source_body = source_tree.find(".//w:body", namespaces=ns)

    # 将源文档的所有内容节点追加到目标文档末尾
    for child in source_body.getchildren():
        target_body.append(child)

    # 处理图片：复制源文档的media文件到目标文档
    source_media = f"{temp_source}/word/media"
    target_media = f"{temp_target}/word/media"
    if os.path.exists(source_media):
        os.makedirs(target_media, exist_ok=True)
        for img_file in os.listdir(source_media):
            shutil.copy(f"{source_media}/{img_file}", target_media)

    # 保存修改后的XML
    target_tree.write(f"{temp_target}/word/document.xml", encoding="UTF-8", xml_declaration=True)

    # 重新打包成docx
    with zipfile.ZipFile("merged_full_format.docx", 'w', zipfile.ZIP_DEFLATED) as merged_zf:
        for root, dirs, files in os.walk(temp_target):
            for file in files:
                file_path = os.path.join(root, file)
                merged_zf.write(file_path, os.path.relpath(file_path, temp_target))

    # 清理临时文件
    shutil.rmtree(temp_target)
    shutil.rmtree(temp_source)

# 调用示例
merge_via_oxml("target.docx", "source.docx")

这个方法完全还原Word原生的插入效果，但需要对OOXML结构有一定了解，适合处理复杂格式的场景。

方法3：调用Word COM接口（Windows专属，零成本还原手动操作）

如果你的运行环境是Windows，且安装了Microsoft Word，可以直接调用Word的COM接口，模拟手动执行「插入>对象>文件中的文字」的操作，格式100%保留，代码也最简单。

示例代码：

import win32com.client as win32

def insert_via_word_com(target_path, source_path):
    # 启动Word应用
    word_app = win32.Dispatch("Word.Application")
    word_app.Visible = False  # 后台运行，不显示窗口

    # 打开目标文档
    target_doc = word_app.Documents.Open(target_path)
    target_doc.Activate()

    # 将光标移动到文档末尾
    word_app.Selection.EndKey(Unit=6)  # wdStory = 6，代表整个文档的末尾

    # 执行插入文件文字的操作，和手动操作完全一致
    word_app.Selection.InsertFile(
        FileName=source_path,
        ConfirmConversions=False,
        Link=False,
        Attachment=False
    )

    # 保存并关闭文档，退出Word
    target_doc.SaveAs("merged_com.docx")
    target_doc.Close()
    word_app.Quit()

# 调用示例
insert_via_word_com("target.docx", "source.docx")

这个方法不需要关心格式处理，Word会自动搞定所有细节，但缺点是只能在Windows环境运行，且依赖Word安装。

入手方向总结

若需要跨平台，优先用python-docx的方法，它的API足够友好，能覆盖大部分需求；
若要处理复杂格式（比如带样式、图片、特殊排版的文档），可以深入研究OOXML操作，python-docx也提供了底层OXML的访问接口，不用完全从零写XML处理逻辑；
若仅在Windows环境运行，Win32COM是最省心的选择，完全模拟原生操作，零格式丢失风险。

你不需要完全自行编写核心功能，这些库已经封装了大部分必要的接口，只需要根据场景组合调用即可。

内容的提问来源于stack exchange，提问作者Zaya