如何使用Python 3.7从TXT文件批量下载HTML文件？

如何使用Python 3.7从TXT文件批量下载HTML文件？

阿华AIGC实验室

2026-5-14

批量从TXT文件下载HTML文件的简便实现

嗨，这个需求其实很好解决，咱们基于你已经写的代码扩展一下就行，下面是完整的实现方案，还加了一些实用的细节处理：

完整代码示例

import urllib.request
import os
from urllib.error import URLError

# 配置参数
txt_file_path = "urls.txt"  # 你的URL列表文件路径
download_dir = "/users/user/Downloads"  # 下载保存目录

# 确保下载目录存在，不存在则自动创建
os.makedirs(download_dir, exist_ok=True)

# 读取URL列表
with open(txt_file_path, "r") as f:
    # 适配你示例里的空格分隔格式；如果是每行一个URL，换成`urls = [line.strip() for line in f.readlines()]`
    urls = f.read().split()

# 批量执行下载
for url in urls:
    # 跳过可能存在的空内容
    if not url.strip():
        continue
    try:
        # 从URL中自动提取文件名（比如从http://xxx/file1.html拿到file1.html）
        filename = os.path.basename(url)
        save_path = os.path.join(download_dir, filename)
        # 执行下载操作
        urllib.request.urlretrieve(url, save_path)
        print(f"成功下载：{url} -> {save_path}")
    except URLError as e:
        print(f"下载失败：{url}，错误原因：{e}")

代码细节说明

安全读取文件：用with open()语句会自动关闭文件，比手动调用open()/close()更稳妥，避免资源泄漏。
目录兼容处理：os.makedirs(download_dir, exist_ok=True)会自动创建目标目录，就算目录已经存在也不会报错，解决了因目录不存在导致的下载失败问题。
灵活提取文件名：os.path.basename(url)可以自动从URL末尾截取文件名，不用手动拼接，适配不同格式的URL。
错误容错机制：加入try-except捕获网络类错误，这样单个URL下载失败不会导致整个程序终止，还能直观看到错误原因。

额外实用提示

如果你的URL列表里有重复文件名，后面的文件会覆盖前面的。要是想避免覆盖，可以给文件名加个时间戳或者序号，比如：

import time
# 生成带时间戳的文件名
name_part, ext_part = os.path.splitext(os.path.basename(url))
filename = f"{name_part}_{int(time.time())}{ext_part}"

要是需要更快的下载速度，后期可以尝试多线程或者异步请求，但对于初学者来说，上面的单线程实现已经足够简单好用。

内容的提问来源于stack exchange，提问作者Belmonte

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，最新支持 DeepSeek-V4 系列与 GLM-5.1，受邀下单叠加9.5折

ArkClaw

7×24在线专属智能伙伴

Seedance 2.0 全面开放 API

创作无限可能，一键生成电影级 AI 视频

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠