IMDB页面爬取异常：为何watchlist页面soup返回空列表？

阿华AIGC实验室

2026-5-7

问题分析与解决思路

你的核心问题在于第一个URL是用户专属的Watchlist页面，IMDB要求必须登录才能访问其完整内容，而你的请求没有携带有效的登录认证信息，导致服务器返回的是登录引导页面（而非实际的收藏列表），自然找不到lister-item-content类的元素，所以movie_div1返回空列表。而第二个Top1000页面是公开可访问的，无需登录，因此能正常获取内容。

下面是具体的解决步骤：

1. 验证页面访问权限

手动在浏览器打开https://www.imdb.com/user/ur34087578/watchlist，如果跳转到登录页面或者提示"Please sign in to access your watchlist"，就确认了必须登录才能爬取这个页面的内容。

2. 携带登录会话信息

你有两种方式获取有效的登录会话：

方式一：直接复制浏览器的认证Cookie（简单快速）

打开浏览器，登录IMDB账号，进入目标Watchlist页面
按F12打开开发者工具，切换到Network标签，刷新页面
找到第一个请求（就是当前页面的请求），查看其Request Headers，复制Cookie和User-Agent字段
将这些字段添加到你的headers中，示例代码如下：

import requests
from bs4 import BeautifulSoup

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36',
    'Cookie': '这里粘贴你从浏览器复制的完整Cookie字符串'
}

url1 = "https://www.imdb.com/user/ur34087578/watchlist"
results1 = requests.get(url1, headers=headers)

# 先打印页面文本，确认是否返回了正常的Watchlist内容
# print(results1.text)

soup1 = BeautifulSoup(results1.text, "html.parser")
movie_div1 = soup1.find_all('div', class_='lister-item-content')
print(movie_div1)