多页TIFF文件OCR处理时PIL与NumPy转换报错及ImageMagick生成TIFF异常问题排查

阿华AIGC实验室

2026-4-30

解决多页TIFF OCR转换与ImageMagick生成TIFF的问题

一、多页TIFF OCR处理的PIL/NumPy转换报错问题

问题根源分析

从你的错误信息里看到了文件路径字符串（比如C:/Users/name/folder/test\\fff.tif），这说明你在处理时误把文件路径当成了PIL图像对象来转换数组，导致NumPy生成了字符串类型的数组（<U52表示长度52的Unicode字符串），而PIL根本无法处理这种数据类型。另外，你的目标TIFF是1位深度的Group4压缩二值图，直接转数组也需要做格式转换才能被Tesseract识别。

修正后的代码方案

先确保正确读取多页TIFF的每一页，再处理二值图格式：

import glob
import numpy as np
from PIL import Image
import pytesseract
import pandas as pd

def extract_specific_info(text):
    # 这里替换成你的正则匹配提取逻辑
    # 示例：提取邮箱
    # import re
    # emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', text)
    # return {"page_text": text, "emails": emails}
    return {"page_content": text}

# 遍历目标文件夹的TIFF文件
tiff_paths = glob.glob(r'C:/Users/name/folder/test/*.tif')
all_results = []

for path in tiff_paths:
    # 打开多页TIFF（自动处理Group4压缩）
    with Image.open(path) as tiff_img:
        # 循环处理每一页
        for page_idx in range(tiff_img.n_frames):
            tiff_img.seek(page_idx)  # 定位到指定页
            
            # 处理1位深度二值图：转成Tesseract能识别的格式
            # 方法1：用PIL转成8位灰度图（更简单）
            gray_img = tiff_img.convert('L')
            
            # 方法2：NumPy转换（适合需要手动处理像素的场景）
            # img_array = np.array(tiff_img)  # 得到布尔数组（True=白，False=黑）
            # gray_array = img_array.astype(np.uint8) * 255  # 转成0(黑)/255(白)的uint8数组
            # gray_img = Image.fromarray(gray_array)
            
            # 执行OCR
            page_text = pytesseract.image_to_string(gray_img, lang="en")
            
            # 提取特定内容并收集结果
            extracted_data = extract_specific_info(page_text)
            # 补充文件和页码信息
            extracted_data.update({"file_path": path, "page_number": page_idx + 1})
            all_results.append(extracted_data)

# 转成DataFrame
result_df = pd.DataFrame(all_results)
print(result_df.head())

关键修复点

正确遍历多页TIFF：用Image.open()打开文件后，通过seek()切换每一页，而不是直接处理文件路径字符串。
二值图格式转换：1位深度的'1'模式图像转成8位灰度的'L'模式（或者用NumPy转成uint8数组），Tesseract才能正常识别。
避免路径与图像对象混淆：确保循环变量是文件路径，打开后得到的tiff_img才是图像对象，不要把路径直接传入Tesseract。

二、ImageMagick生成TIFF的异常问题

问题原因

你用magick -density 288 text:"result.txt" ...命令时，text:参数的作用是直接创建一个显示文本内容的图像，所以它会把results.txt里的所有字符当成要渲染的文本，而不是模拟扫描件的格式或还原原文档布局。

解决方案

如果你的需求是生成类似扫描件的黑白Group4压缩TIFF（符合原TIFF的格式），可以调整命令如下：

# Windows命令行版本
magick -density 288 -font "Courier New" -pointsize 12 -encoding UTF-8 text:"C:/Users/name/results.txt" -alpha off -threshold 50% -compress Group4 filename1.tif