当使用boilerpy3库时,遇到HTTP错误403:禁止访问,可能是因为请求的页面需要身份验证或者服务器拒绝了访问。
以下是一种可能的解决方法,可以在请求之前设置User-Agent头信息,以模拟一个浏览器请求:
import requests
from boilerpy3 import extractors
url = "http://example.com"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}
req = requests.get(url, headers=headers)
if req.status_code == 200:
# 使用boilerpy3库提取内容
extractor = extractors.ArticleExtractor()
content = extractor.get_content(req.text)
print(content)
else:
print(f"HTTP Error {req.status_code}: {req.reason}")
在上述示例中,我们使用了requests
库发送请求,并设置了User-Agent
头信息来模拟一个浏览器请求。然后我们检查请求的状态码,如果是200,我们使用boilerpy3库提取内容。否则,我们打印HTTP错误代码和原因。
请注意,这只是一种可能的解决方法,具体的解决方法可能会因网站的设置而有所不同。