Tesseract 4.0训练问题：阿拉伯语特定字体数字训练异常

Tesseract 4.0训练问题：阿拉伯语特定字体数字训练异常

阿华AIGC实验室

2026-5-26

排查Tesseract 4.0阿拉伯语数字字体训练异常的解决方案

我来帮你排查训练Tesseract 4.0阿拉伯语数字特定字体时遇到的异常问题，结合tesstrain.sh的使用逻辑，整理了几个常见的问题点和对应的解决办法：

1. 验证路径与权限配置

先确认所有环境变量（$TRAINING、$FOLDER等）都正确指向实际路径，比如手动执行echo $TRAINING查看是否是tesstrain.sh所在的目录，避免路径错误导致脚本找不到依赖文件。
检查输出目录$FOLDER/araeval的权限，确保当前用户有读写权限，执行chmod -R 755 $FOLDER/araeval可以快速修复权限问题。

2. 字体文件与参数适配

你指定的字体是"Simplified Arabic Bold"，需要确保这个字体文件确实存在于$FOLDER/simplified-arabic目录下，并且文件名和系统识别的字体名称完全匹配（注意大小写和空格）。可以用fc-list命令（Linux）确认系统能识别该字体：
```
fc-list | grep "Simplified Arabic Bold"
```
因为你只需要训练数字，建议自定义训练文本：创建一个只包含阿拉伯数字的文本文件（比如arabic-digits.txt），内容为٠١٢٣٤٥٦٧٨٩，然后在命令中添加--training_text $FOLDER/arabic-digits.txt参数，避免生成无关字符的样本，减少干扰。同时可以加上--exposures "0"控制样本曝光变化，聚焦数字特征。

3. Tesseract 4.0与langdata兼容性

Tesseract 4.0对langdata的结构有特定要求，确保$FOLDER下的langdata目录是对应Tesseract 4.0版本的（不要用更高版本的langdata，可能存在兼容性问题）。检查langdata/ara目录下是否有ara.traineddata、ara.unicharset等必要文件。
确认tessdata_dir下的ara.traineddata是Tesseract 4.0兼容的版本，避免使用Tesseract 5.x的traineddata文件，否则会导致训练失败。

4. 调整训练脚本参数

你使用了--linedata_only参数，这个参数会只生成行级别的训练数据，如果你是训练单个数字字符，可以尝试去掉这个参数，或者结合--psm 10（单字符识别模式）来优化样本生成逻辑。
考虑去掉--noextract_font_properties参数，提取字体属性能帮助Tesseract更好地识别目标字体的特征，尤其是针对特定字体训练时，这个参数可能会限制模型学习效果。

5. 查看详细日志定位异常

执行脚本时添加日志输出重定向，把详细错误信息保存下来，方便精准定位问题：
```
$TRAINING/tesstrain.sh --fonts_dir $FOLDER/simplified-arabic --lang ara --linedata_only \
--noextract_font_properties --langdata_dir $FOLDER \
--tessdata_dir $FOLDER/arabox/tessdata \
--fontlist "Simplified Arabic Bold" --output_dir $FOLDER/araeval > training.log 2>&1
```
然后查看training.log文件，里面会有具体的错误提示（比如找不到字体、文件缺失、权限不足等），根据日志信息就能快速解决问题。

内容的提问来源于stack exchange，提问作者A.Raouf

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，最新支持 DeepSeek-V4 系列与 GLM-5.1，受邀下单叠加9.5折

ArkClaw

7×24在线专属智能伙伴

Seedance 2.0 全面开放 API

创作无限可能，一键生成电影级 AI 视频

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠