PaddleOCR GPU环境下手动部署en_PP-OCRv3_rec模型仍重复下载的问题求助
PaddleOCR GPU环境下手动部署en_PP-OCRv3_rec模型仍重复下载的问题求助
大家好,我正在本地Ubuntu 22.04机器上搭建带GPU支持的PaddleOCR,用来做自定义OCR流水线提取扫描PDF里的选民数据。我的目标是用手动下载的模型实现GPU加速的OCR,因为自动下载经常失败或者速度太慢。
我的系统环境:
- OS:Ubuntu 22.04 LTS
- Python:3.8(Conda虚拟环境
ocr38) - PaddleOCR:通过
pip install paddleocr安装 - GPU:NVIDIA RTX 3050,已启用(设置
use_gpu=True)
我要实现的需求:
- 使用PP-OCRv3英文模型提取图片文本
- 手动下载并使用模型,避免反复自动下载的问题
已经尝试过的操作:
我写了个极简测试脚本test_ocr.py:
from paddleocr import PaddleOCR ocr = PaddleOCR(use_angle_cls=True, lang='en', use_gpu=True) ocr.ocr('test.jpg', cls=True)
第一次运行时,它尝试下载en_PP-OCRv3_rec_infer.tar,于是我手动下载了这个模型:
wget https://paddleocr.bj.bcebos.com/PP-OCRv3/english/en_PP-OCRv3_rec_infer.tar
然后把它解压到预期的文件夹里:
mkdir -p ~/.paddleocr/whl/rec/en/en_PP-OCRv3_rec_infer/ tar -xvf en_PP-OCRv3_rec_infer.tar -C ~/.paddleocr/whl/rec/en/en_PP-OCRv3_rec_infer/
因为压缩包解压后会多一层嵌套文件夹,我把内容移到上一级目录:
mv ~/.paddleocr/whl/rec/en/en_PP-OCRv3_rec_infer/en_PP-OCRv3_rec_infer/* ~/.paddleocr/whl/rec/en/en_PP-OCRv3_rec_infer/ rmdir ~/.paddleocr/whl/rec/en/en_PP-OCRv3_rec_infer/en_PP-OCRv3_rec_infer/
当前遇到的问题:
就算已经把所有模型文件放到正确位置了,还是会报错:
[ppocr ERROR]: Something went wrong while downloading models
而且程序会再次尝试下载同一个en_PP-OCRv3_rec_infer.tar文件——明明这个模型已经存在了。
我需要的帮助:
- 怎么让PaddleOCR识别到已经下载好的模型,不要再重复下载?
- 有没有办法在代码或者配置里手动指定模型路径?
- 如何确认所有必需的模型都已存在,并且目录结构是正确的?
注:我的最终目标是运行GPU加速的PaddleOCR,CUDA已经配置好,也确认过PaddlePaddle正在使用GPU。
非常感谢大家的帮助!提前谢谢了!
Regards,
Ravi Verma
内容来源于stack exchange




