可以使用xpath表达式来提取包含总页数的元素,然后用python代码获取该元素的文本值。假设我们要提取的是某个网站上的分页条上的总页数。
示例代码:
import requests
from lxml import etree
url = "https://example.com/page/1"
response = requests.get(url)
html = response.content.decode()
selector = etree.HTML(html)
# 使用xpath表达式获取总页数元素
page_span = selector.xpath('//div[@class="pagination"]/span[@class="pageinfo"]')[0]
# 获取元素的文本值
total_pages = page_span.text
print(total_pages) # 输出:111
在这个示例中,page_span
是一个包含总页数的<span>
元素。我们使用xpath表达式'//div[@class="pagination"]/span[@class="pageinfo"]'
来匹配这个元素。这个表达式表示:在所有<div>
元素中,选择一个class
属性为pagination
的<div>
元素,然后在这个元素下选择一个<span>
元素,它的class
属性为pageinfo
。
一旦我们找到了这个元素,我们就可以使用.text
属性来获取它的文本值,也就是总页数。