如何在Python中获取在线PDF文件响应数据并解析字节对象

阿华AIGC实验室

2026-5-6

解决Requests获取PDF返回字节对象无法解码的问题

嘿，我来帮你搞定这个问题！你现在遇到的情况很正常——因为PDF本身是二进制文件，不是纯文本格式，直接对response.content（字节对象）进行解码操作肯定会失败，里面包含大量非文本的二进制数据，没法直接转成字符串。

下面分两种常见需求给你解决方案：

需求1：把PDF保存到本地

如果只是想把这份PDF下载下来保存到电脑上，直接将字节内容写入文件即可，注意要用二进制写入模式（wb）：

import requests

url = "http://imdagrimet.gov.in/sites/default/files/daas_bulletin/District%20Advisory%20patna_17.pdf"
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:
    # 写入本地文件
    with open("Patna_District_Advisory.pdf", "wb") as pdf_file:
        pdf_file.write(response.content)
    print("PDF已成功保存！")
else:
    print(f"请求失败，状态码：{response.status_code}")

需求2：提取PDF里的文本内容

如果想直接获取PDF中的文字信息，需要用到专门的PDF解析库，比如PyPDF2或者pdfplumber（后者对复杂格式的PDF支持更好）。这里以PyPDF2为例：

先安装库：

pip install PyPDF2

编写代码提取文本：

import requests
from PyPDF2 import PdfReader
from io import BytesIO

url = "http://imdagrimet.gov.in/sites/default/files/daas_bulletin/District%20Advisory%20patna_17.pdf"
response = requests.get(url)

if response.status_code == 200:
    # 将字节内容转换为可读取的文件对象
    pdf_stream = BytesIO(response.content)
    pdf_reader = PdfReader(pdf_stream)
    
    # 遍历所有页面提取文本
    full_text = ""
    for page_num, page in enumerate(pdf_reader.pages, 1):
        page_text = page.extract_text()
        if page_text:
            full_text += f"--- 第{page_num}页内容 ---\n{page_text}\n\n"
    
    print(full_text)
else:
    print(f"请求失败，状态码：{response.status_code}")