Python PyCharm中OCR处理PDF报错:Poppler未安装/未配置PATH
解决PDF转OCR时的
PDFInfoNotInstalledError问题 这个错误的核心原因很明确:你用的pdf2image库依赖Poppler这个开源PDF处理工具包,但你的系统里没安装它,或者它的路径没被加入到环境变量PATH中,导致Python找不到pdfinfo这个关键工具。
下面分不同操作系统给你对应的解决步骤:
针对你的Mac系统(从路径看你用的是Mac)
- 用Homebrew安装Poppler
打开终端,执行下面的命令:brew install poppler - 验证安装是否生效
安装完成后,在终端输入:
如果能正常输出PDF的页数、大小等信息,说明Poppler已经在pdfinfo /Users/user1/Desktop/pdf1.pdfPATH里了,直接重新运行你的Python代码就行。 - 如果还是找不到(针对M系列芯片Mac)
有些M系列芯片的Mac,Homebrew会把Poppler装在/opt/homebrew/bin/路径下,可能不在默认PATH里。这时候你可以在代码里手动指定Poppler的路径:
修改convert_from_path那一行代码:pages = convert_from_path(PDF_file, 500, poppler_path="/opt/homebrew/bin/")
针对Windows系统
- 下载Poppler预编译包
去Poppler的Windows预编译仓库下载最新的压缩包,解压到本地某个固定文件夹(比如C:\poppler)。 - 添加到系统PATH
右键「此电脑」→「属性」→「高级系统设置」→「环境变量」,在系统变量的PATH里添加解压后文件夹里的bin路径(比如C:\poppler\bin)。 - 重启IDE/终端并验证
重启你的PyCharm或者终端,然后同样用pdfinfo命令验证,或者在代码里指定路径:pages = convert_from_path(PDF_file, 500, poppler_path=r"C:\poppler\bin")
针对Linux系统(Ubuntu/Debian为例)
直接用包管理器安装:
sudo apt-get install poppler-utils
安装完成后无需额外配置,直接重新运行代码即可。
最后提醒:安装完成后一定要先通过终端的pdfinfo命令验证工具是否能正常调用,再跑Python代码,这样能快速排除路径配置的问题。
内容的提问来源于stack exchange,提问作者adrCoder




