开发者工具与BeautifulSoup获取HTML不一致?Stack Overflow爬取遇页码问题
求助:Stack Overflow职位爬虫获取的页码和实际显示不一致
我最近在写一个爬虫程序,用来根据指定关键词爬取Stack Overflow上的职位信息,第一步得先拿到关键词对应的最大页码数,这样才能准确爬完所有相关页面。
但碰到个奇怪的问题:浏览器开发者工具里看到的HTML内容,和用BeautifulSoup请求回来的HTML内容居然不一样!就拿关键词'vue'来说,访问 https://stackoverflow.com/jobs?q=vue 时,浏览器里开发者工具显示最大页码是2,但我运行下面这段代码后,得到的最大页码却是43:
from bs4 import BeautifulSoup import requests url = "https://stackoverflow.com/jobs?q=vue" result = requests.get(url) soup = BeautifulSoup(result.text,"html.parser") print(soup)
结果就是我本来只想爬取和vue相关的2页内容,结果爬出来一堆不相关的东西,完全摸不着头脑,有没有大佬能帮我分析下问题出在哪呀?
内容的提问来源于stack exchange,提问作者user13242010




