如何用LXML提取含嵌套标签的HTML表格数据文本

阿华AIGC实验室

2026-5-19

用lxml提取HTML表格单元格的所有文本（含嵌套标签）

我之前也踩过类似的坑，直接用td.text只能拿到单元格里的表层文本，嵌套标签里的内容根本取不到。后来发现lxml的text_content()方法才是解决这个问题的关键——它会递归提取节点下所有层级的文本内容，不管里面嵌套了多少层<a>、<span>这类标签。

下面是我整理的完整解决方案，包含代码示例和细节说明：

核心方案：使用`text_content()`方法

lxml的Element对象自带的text_content()方法，会返回当前节点及其所有子节点的文本拼接结果，完美适配嵌套标签的场景。

完整代码示例

from lxml import html
import re  # 可选：用于清理杂乱的空白格式

# 示例HTML（覆盖多种嵌套场景）
sample_html = """
<table>
  <tr>
    <td>无嵌套的纯文本单元格</td>
    <td><a href="/detail">带<a>多层嵌套</a>链接</a>的单元格</td>
    <td>
      <div>包含
        <p>换行</p>
        <span>和多余空格</span>
      </div>的单元格
    </td>
  </tr>
</table>
"""

# 解析HTML字符串（如果是本地文件，改用html.parse("your_file.html")）
tree = html.fromstring(sample_html)

# 遍历表格的所有行
for tr in tree.xpath('//tr'):
    row_data = []
    for td in tr.xpath('./td'):
        # 提取单元格内所有文本
        raw_text = td.text_content()
        # 清理格式：把多个换行/空格合并成单个空格，再去除首尾空白
        cleaned_text = re.sub(r'\s+', ' ', raw_text).strip()
        row_data.append(cleaned_text)
    print("提取到的行数据:", row_data)

关键步骤说明

HTML解析：用html.fromstring()处理字符串格式的HTML，用html.parse()处理本地文件或远程URL，生成可操作的树结构。
定位单元格：用XPath精准选择目标内容，比如//tr选中所有表格行，./td选中当前行下的所有单元格；如果要指定某张表格，可以用//table[@id='target-table']//tr来缩小范围。
文本提取：td.text_content()会自动拼接单元格内所有嵌套标签的文本，比如示例中第二个单元格会得到"带多层嵌套链接的单元格"。
格式清理：嵌套标签往往会带来多余的换行和空格，用正则re.sub(r'\s+', ' ', raw_text)把杂乱的空白合并成单个空格，再用strip()去除首尾空白，让结果更规整。