使用C#的PDF Pig提取PDF文本时出现固定模式乱码的修复方案咨询

阿华AIGC实验室

2026-3-31

C#中使用PDF Pig提取PDF文本时的固定模式乱码修复方案咨询

我目前在做一个功能：用PDF Pig提取用户上传PDF里的文本，用来减少手动录入的工作量。大部分格式规范的PDF都能正常提取，但有一定比例的PDF提取后文本全是乱码，而且这些乱码的模式非常固定——比如本该是Veridian Homes Job Schedule的内容，提取后会变成sĞƌŝĚŝĂŶ,ŽŵĞƐ:Žď^ĐŚĞĚƵůĞ，所有这类损坏PDF的乱码规律都完全一致。

我的文本提取代码

using UglyToad.PdfPig;
using UglyToad.PdfPig.Content;
using UglyToad.PdfPig.DocumentLayoutAnalysis.TextExtractor;

string fileName = "fileName";
string fullText = "";
var filePath = "path";

using (var doc = PdfDocument.Open(filePath))
{
    foreach (Page page in doc.GetPages())
    {
        string pageText = ContentOrderTextExtractor.GetText(page);
        fullText += pageText;
    }
}
string path = @"C:\Users\mry10\Downloads\" + fileName + ".txt";
File.WriteAllText(path, fullText);
Console.WriteLine("Wrote to " + fileName);