You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

PaddleOCR GPU环境下手动部署en_PP-OCRv3_rec模型仍重复下载的问题求助

PaddleOCR GPU环境下手动部署en_PP-OCRv3_rec模型仍重复下载的问题求助

大家好,我正在本地Ubuntu 22.04机器上搭建带GPU支持的PaddleOCR,用来做自定义OCR流水线提取扫描PDF里的选民数据。我的目标是用手动下载的模型实现GPU加速的OCR,因为自动下载经常失败或者速度太慢。

我的系统环境:

  • OS:Ubuntu 22.04 LTS
  • Python:3.8(Conda虚拟环境ocr38
  • PaddleOCR:通过pip install paddleocr安装
  • GPU:NVIDIA RTX 3050,已启用(设置use_gpu=True

我要实现的需求:

  • 使用PP-OCRv3英文模型提取图片文本
  • 手动下载并使用模型,避免反复自动下载的问题

已经尝试过的操作:

我写了个极简测试脚本test_ocr.py

from paddleocr import PaddleOCR
ocr = PaddleOCR(use_angle_cls=True, lang='en', use_gpu=True)
ocr.ocr('test.jpg', cls=True)

第一次运行时,它尝试下载en_PP-OCRv3_rec_infer.tar,于是我手动下载了这个模型:

wget https://paddleocr.bj.bcebos.com/PP-OCRv3/english/en_PP-OCRv3_rec_infer.tar

然后把它解压到预期的文件夹里:

mkdir -p ~/.paddleocr/whl/rec/en/en_PP-OCRv3_rec_infer/
tar -xvf en_PP-OCRv3_rec_infer.tar -C ~/.paddleocr/whl/rec/en/en_PP-OCRv3_rec_infer/

因为压缩包解压后会多一层嵌套文件夹,我把内容移到上一级目录:

mv ~/.paddleocr/whl/rec/en/en_PP-OCRv3_rec_infer/en_PP-OCRv3_rec_infer/* ~/.paddleocr/whl/rec/en/en_PP-OCRv3_rec_infer/
rmdir ~/.paddleocr/whl/rec/en/en_PP-OCRv3_rec_infer/en_PP-OCRv3_rec_infer/

当前遇到的问题:

就算已经把所有模型文件放到正确位置了,还是会报错:

[ppocr ERROR]: Something went wrong while downloading models

而且程序会再次尝试下载同一个en_PP-OCRv3_rec_infer.tar文件——明明这个模型已经存在了。

我需要的帮助:

  1. 怎么让PaddleOCR识别到已经下载好的模型,不要再重复下载?
  2. 有没有办法在代码或者配置里手动指定模型路径?
  3. 如何确认所有必需的模型都已存在,并且目录结构是正确的?

注:我的最终目标是运行GPU加速的PaddleOCR,CUDA已经配置好,也确认过PaddlePaddle正在使用GPU。

非常感谢大家的帮助!提前谢谢了!

Regards,
Ravi Verma

内容来源于stack exchange

火山引擎 最新活动