如何通过PDFBox程序化修改现有PDF文档的字体或编码？

如何通过PDFBox程序化修改现有PDF文档的字体或编码？

阿华AIGC实验室

2026-5-11

嘿，这个问题确实戳中了PDF的一个痛点——毕竟PDF天生就是为了「所见即所得」设计的，修改现有内容的字体或编码可比生成新文档麻烦多了。不过别慌，还是有靠谱的程序化方案的，我给你梳理几个实用的路子：

可行的程序化方案

1. 用Python直接操作PDF（PyMuPDF）

PyMuPDF（也就是fitz）是处理PDF的神器，能直接遍历页面文本块并替换字体。虽然需要处理排版细节，但胜在灵活可控。

代码示例：替换文档中所有字体

首先安装依赖：

pip install pymupdf

然后编写替换逻辑：

import fitz  # PyMuPDF

def replace_pdf_font(input_path, output_path, new_font_path):
    # 打开PDF文档
    doc = fitz.open(input_path)
    # 加载目标字体（需要字体文件路径，比如Arial.ttf）
    new_font = fitz.Font("TrueType", new_font_path)

    # 遍历每一页
    for page in doc:
        # 获取页面所有文本块（以字典格式返回）
        text_blocks = page.get_text("dict")["blocks"]
        for block in text_blocks:
            if block["type"] == 0:  # 筛选文本类型的块
                for line in block["lines"]:
                    for span in line["spans"]:
                        # 获取原文本内容和位置边界
                        original_text = span["text"]
                        text_rect = fitz.Rect(span["bbox"])
                        # 先删除原有文本（用红标工具覆盖）
                        page.add_redact_annot(text_rect, text="")
                        page.apply_redactions()
                        # 用新字体重新写入文本，保留原字号
                        page.insert_text(
                            text_rect.tl,  # 文本左上角位置
                            original_text,
                            font=new_font,
                            fontsize=span["size"]
                        )
    
    # 保存修改后的PDF
    doc.save(output_path)
    doc.close()

# 使用示例：把input.pdf的字体替换为Arial
replace_pdf_font("input.pdf", "output.pdf", "Arial.ttf")

注意点

新字体必须包含原文档的所有字符，否则会出现方框或乱码；
字体替换后可能会有排版偏移（比如字符宽度不同导致换行变化），复杂排版可能需要微调；
如果原PDF是加密的，需要先调用doc.authenticate("密码")解密。

2. 转成中间格式（DOCX）间接修改

如果不想处理PDF的底层细节，转成DOCX修改字体再转回PDF是更省心的选择，排版保留也更好。

代码示例：PDF→DOCX→修改字体→PDF

需要安装pdf2docx和python-docx，还有依赖的转换工具（比如LibreOffice）：

pip install pdf2docx python-docx

然后编写流程：

from pdf2docx import Converter
from docx import Document
from docx.shared import Pt
import subprocess
import os

def pdf_change_font_via_docx(input_pdf, output_pdf, font_name="Arial", font_size=12):
    # 第一步：PDF转DOCX
    converter = Converter(input_pdf)
    converter.convert("temp.docx", start=0, end=None)
    converter.close()

    # 第二步：修改DOCX的字体
    doc = Document("temp.docx")
    for paragraph in doc.paragraphs:
        for run in paragraph.runs:
            run.font.name = font_name
            run.font.size = Pt(font_size)
        # 保留原段落对齐方式
        paragraph.alignment = paragraph.alignment

    doc.save("modified_temp.docx")

    # 第三步：DOCX转PDF（需要系统安装LibreOffice）
    subprocess.run([
        "libreoffice", "--headless", "--convert-to", "pdf",
        "modified_temp.docx", "--outdir", "."
    ], check=True)
    
    # 重命名生成的PDF到目标路径
    os.rename("modified_temp.pdf", output_pdf)

# 使用示例
pdf_change_font_via_docx("input.pdf", "output.pdf")

注意点

需要系统安装LibreOffice（Windows/macOS/Linux都支持）；
复杂PDF（比如带表单、图表、特殊排版）转DOCX可能会丢失部分元素，提前测试。

3. 命令行工具批量处理（Ghostscript）

如果需要批量处理简单的字体替换，Ghostscript是高效的选择，不需要写复杂代码。

示例命令：替换Helvetica为Arial

gs -o output.pdf -sDEVICE=pdfwrite -dPDFSETTINGS=/prepress \
  -c "/Helvetica findfont [/SubfontID 0 /BaseFont /Arial] definefont" \
  -f input.pdf

注意点

确保目标字体（比如Arial）在系统字体库中能被Ghostscript找到；
只适合替换标准字体，复杂的嵌入字体替换效果有限。

关键提醒

无论用哪种方法，先备份原PDF，避免操作失误损坏文件；
编码问题本质上和字体绑定，替换字体时要确保新字体的编码兼容原文本（比如原文本用UTF-16，新字体也要支持该编码）；
对于扫描版PDF（图片格式），无法直接修改字体，需要先OCR识别成可编辑文本。

内容的提问来源于stack exchange，提问作者appdevsw

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

一键部署 OpenClaw

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

Seedance2.0 体验中心上线

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠