如何用BeautifulSoup获取网页动态加载后的更新内容？

阿华AIGC实验室

2026-5-8

关于用BeautifulSoup处理动态加载页面的问题

老哥，这个问题我太熟了！BeautifulSoup本身没办法直接处理这种动态加载的内容——它只能解析你请求页面时服务器返回的初始静态HTML，而那些缺货商品是页面加载完成后，通过JavaScript异步请求（比如AJAX）拉取数据再渲染出来的，这部分内容根本不在初始的HTML源码里，所以你的代码自然抓不到“out of stock”相关的元素，返回空值很正常。

那该怎么解决呢？给你两个靠谱的思路：

思路1：直接抓取页面的AJAX接口

这类电商网站的动态内容，大多是通过后台接口返回JSON数据来渲染的，你可以直接调用这些接口拿数据，比解析HTML效率高多了：

打开浏览器的开发者工具（按F12），切换到「Network」标签页，刷新页面。
在「XHR」或「Fetch」分类里，找那些和商品库存、列表相关的请求（通常URL里会有inventory、product这类关键词）。
找到对应的接口后，复制它的请求URL、请求头（Headers），用Python的requests库直接发送请求，就能拿到包含缺货商品的JSON数据了。

举个简单的代码示例：

import requests

headers = {
    # 这里复制你在开发者工具里看到的请求头，比如User-Agent、Cookie等
    "User-Agent": "你的浏览器User-Agent",
    "Cookie": "页面的Cookie（如果需要登录或验证）"
}
# 替换成你找到的AJAX接口URL
api_url = "https://example.com/api/inventory"
response = requests.get(api_url, headers=headers)
data = response.json()
# 然后直接处理JSON数据就行，不用BeautifulSoup解析HTML了
print(data)

思路2：用无头浏览器模拟页面渲染

如果AJAX接口不好找，或者网站有反爬机制（比如接口需要复杂的签名），可以用能模拟真实浏览器的工具，等页面完全渲染后再拿HTML，然后用BeautifulSoup解析。常用的工具是selenium或playwright，这里给你一个selenium的示例：

首先安装依赖：

pip install selenium

然后下载对应浏览器的驱动（比如Chrome的chromedriver），然后写代码：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup

# 初始化浏览器（这里用Chrome，需要配置驱动路径）
driver = webdriver.Chrome(executable_path="你的chromedriver路径")
driver.get("https://www.basspro.com/shop/en/herters-hunting-rifle-ammo/")

# 等待页面加载完成，比如等待缺货元素出现（或者等待一段时间）
try:
    # 等待带有out of stock文本的元素加载，最多等10秒
    WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.XPATH, "//*[contains(text(), 'out of stock')]"))
    )
finally:
    # 获取渲染后的完整HTML
    page_source = driver.page_source
    driver.quit()

# 现在用BeautifulSoup解析这个完整的HTML
soup = BeautifulSoup(page_source, "html.parser")
content_wrapper = soup.find('div', class_='col2 gridCell StoreAvail editable anchored', id='StoreAvail_7')
cheese = content_wrapper.find('div', class_='sublist instore_inventory_section nodisplay', id='WC_InStore_Inventory_Section_3074457345618960372')
print(cheese)