You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

Python PyCharm中OCR处理PDF报错:Poppler未安装/未配置PATH

解决PDF转OCR时的PDFInfoNotInstalledError问题

这个错误的核心原因很明确:你用的pdf2image库依赖Poppler这个开源PDF处理工具包,但你的系统里没安装它,或者它的路径没被加入到环境变量PATH中,导致Python找不到pdfinfo这个关键工具。

下面分不同操作系统给你对应的解决步骤:

针对你的Mac系统(从路径看你用的是Mac)

  1. 用Homebrew安装Poppler
    打开终端,执行下面的命令:
    brew install poppler
    
  2. 验证安装是否生效
    安装完成后,在终端输入:
    pdfinfo /Users/user1/Desktop/pdf1.pdf
    
    如果能正常输出PDF的页数、大小等信息,说明Poppler已经在PATH里了,直接重新运行你的Python代码就行。
  3. 如果还是找不到(针对M系列芯片Mac)
    有些M系列芯片的Mac,Homebrew会把Poppler装在/opt/homebrew/bin/路径下,可能不在默认PATH里。这时候你可以在代码里手动指定Poppler的路径:
    修改convert_from_path那一行代码:
    pages = convert_from_path(PDF_file, 500, poppler_path="/opt/homebrew/bin/")
    

针对Windows系统

  1. 下载Poppler预编译包
    去Poppler的Windows预编译仓库下载最新的压缩包,解压到本地某个固定文件夹(比如C:\poppler)。
  2. 添加到系统PATH
    右键「此电脑」→「属性」→「高级系统设置」→「环境变量」,在系统变量的PATH里添加解压后文件夹里的bin路径(比如C:\poppler\bin)。
  3. 重启IDE/终端并验证
    重启你的PyCharm或者终端,然后同样用pdfinfo命令验证,或者在代码里指定路径:
    pages = convert_from_path(PDF_file, 500, poppler_path=r"C:\poppler\bin")
    

针对Linux系统(Ubuntu/Debian为例)

直接用包管理器安装:

sudo apt-get install poppler-utils

安装完成后无需额外配置,直接重新运行代码即可。

最后提醒:安装完成后一定要先通过终端的pdfinfo命令验证工具是否能正常调用,再跑Python代码,这样能快速排除路径配置的问题。

内容的提问来源于stack exchange,提问作者adrCoder

火山引擎 最新活动