如何用Python从URL抓取ZIP内的CSV文件并直接导入pd.read

如何用Python从URL抓取ZIP内的CSV文件并直接导入pd.read_csv（无需本地存储）

阿华AIGC实验室

2026-5-19

无需本地保存，直接从在线ZIP读取CSV到Pandas的方案

当然可行！你完全可以在不把整个ZIP文件保存到本地的情况下，直接在内存中解压并读取其中的CSV文件到pandas DataFrame里。核心思路是利用Python的io模块将网络请求返回的字节流转换为可操作的内存文件对象，再通过zipfile库解压，最后用pandas读取其中的CSV。

具体实现步骤

1. 导入所需库

首先需要安装并导入以下几个常用库：

import requests
import zipfile
import io
import pandas as pd

2. 编写核心函数处理单个ZIP链接

这个函数会完成从网络获取ZIP、内存解压、筛选并读取CSV的全流程：

def extract_csvs_from_remote_zip(zip_url):
    # 发送GET请求获取ZIP文件的字节内容
    response = requests.get(zip_url)
    # 检查请求是否成功（如果返回4xx/5xx状态码会抛出异常）
    response.raise_for_status()

    # 将字节内容转换为内存中的ZIP文件对象
    with zipfile.ZipFile(io.BytesIO(response.content)) as zip_ref:
        # 遍历ZIP内的所有文件，筛选出CSV格式的文件
        csv_data = {}
        for file_path in zip_ref.namelist():
            if file_path.lower().endswith('.csv'):
                # 直接从ZIP中读取CSV文件到DataFrame
                with zip_ref.open(file_path) as csv_file:
                    df = pd.read_csv(csv_file)
                    csv_data[file_path] = df
    
    return csv_data

3. 批量处理你的链接列表

假设你已经有了ZIP链接列表，就可以循环调用上面的函数来批量获取所有CSV数据：

# 替换成你的ZIP链接列表
zip_url_list = [
    "https://example.com/data_batch1.zip",
    "https://example.com/data_batch2.zip",
    # ... 更多链接
]

# 存储所有CSV的DataFrame，键为文件名，值为对应的DataFrame
all_csv_dfs = {}

for url in zip_url_list:
    try:
        csv_dfs = extract_csvs_from_remote_zip(url)
        all_csv_dfs.update(csv_dfs)
        print(f"成功处理链接: {url}，获取到 {len(csv_dfs)} 个CSV文件")
    except Exception as e:
        print(f"处理链接 {url} 时出错: {str(e)}")

# 示例：遍历并查看每个CSV的前几行
for file_name, df in all_csv_dfs.items():
    print(f"\n=== 文件 {file_name} 预览 ===")
    print(df.head())

注意事项

网络请求配置：如果目标网站有反爬机制，可能需要给requests.get()添加headers参数（比如模拟浏览器的User-Agent），或者配置代理。
内存占用优化：如果ZIP文件非常大，内存可能会吃紧。这种情况下可以考虑只读取ZIP中特定的CSV文件（通过判断文件名筛选），而不是全部读取。
嵌套路径处理：如果ZIP内的CSV文件存放在子文件夹中，namelist()返回的file_path会包含完整路径，比如subfolder/data.csv，筛选时无需额外处理，pd.read_csv可以正常读取。
编码问题：如果CSV文件有特殊编码（比如GBK），可以在pd.read_csv()中添加encoding参数指定编码格式。