关于Tesseract及iText OCR非表单PDF复选框返回内容的技术问询

阿华AIGC实验室

2026-5-19

刚好我之前处理过类似的PDF解析场景，来给你详细解答这两个问题：

1. Tesseract识别非表单类复选框的返回内容

Tesseract对非表单类的图像复选框的识别结果，主要取决于复选框的状态（勾选/未勾选），同时会受图像清晰度、复选框样式影响：

未勾选的空复选框：通常会返回□（Unicode U+25A1），也有可能识别为空白字符、空格，或者像[ ]这样的字符组合——如果复选框是方括号样式的话。
已勾选的复选框：大概率返回☑（Unicode U+2611），或者[X]、[x]、✓（U+2713）这类标记；要是复选框的勾选样式比较特殊（比如是打叉或者填充块），也可能直接识别成单个X或者█字符。
要是图像质量差（比如模糊、对比度低），Tesseract可能会误识别，比如把空复选框当成空白，或者把勾选框识别成其他无关符号。

2. iText处理含图像复选框的非表单PDF的输出内容

首先得明确：iText本身没有内置OCR能力，它是用来操作PDF结构的工具。所以分两种情况来看：

如果只是用iText直接提取PDF文本：因为非表单类的图像复选框是位图格式，iText无法识别图像内容，所以这时候你得不到任何和复选框相关的字符，只会跳过这个图像区域。
如果是用iText集成Tesseract这类OCR引擎，对整份文档做OCR处理（比如把图像PDF转成可搜索的文本PDF）：那图像复选框的识别结果就和第一个问题里Tesseract的输出完全一致——也就是根据勾选状态返回对应的符号或字符。

另外给你个小建议：如果要准确判断复选框是否勾选，最好先通过iText定位出PDF里的所有图像元素，然后单独对每个图像做OCR识别；同时可以结合图像的像素分析（比如检查图像内是否有填充的像素区域）来辅助判断，这样能降低OCR误识别的概率。

内容的提问来源于stack exchange，提问作者bytor99999