如何用Python提取.docx文档中含表格的完整文本？

如何用Python提取.docx文档中含表格的完整文本？

阿华AIGC实验室

2026-5-8

提取DOCX文档的完整内容（含表格文本）

我来帮你搞定这个问题！你现在的代码能正常提取段落，但确实会漏掉表格里的内容——咱们可以通过docx库自带的tables属性来遍历并提取表格数据，下面是具体的实现思路和完整代码：

1. 提取表格内容的核心思路

docx的Document对象自带tables属性，每个表格对应一个Table实例：

表格里的每一行是rows列表的元素
每行的单元格是row.cells列表的元素
我们只需要嵌套遍历这些结构，就能把每个单元格的文本捞出来，还可以自定义格式（比如用制表符分隔单元格内容，方便区分列）

2. 完整代码（段落+表格都能提取）

import docx

def extract_full_doc_content(file_path):
    doc = docx.Document(file_path)
    full_content = []
    
    # 先提取段落文本
    for para in doc.paragraphs:
        # 可选：跳过空段落，避免输出过多空行
        if para.text.strip():
            full_content.append(para.text)
    
    # 再提取表格内容
    for table in doc.tables:
        # 遍历表格的每一行
        for row in table.rows:
            # 把一行里的所有单元格文本用制表符拼接，模拟表格列分隔
            row_text = "\t".join(cell.text.strip() for cell in row.cells)
            # 可选：跳过空行
            if row_text.strip():
                full_content.append(row_text)
        # 可选：添加表格分割线，方便区分不同表格和段落内容
        full_content.append("---表格分割线---")
    
    # 把所有内容拼接成一个完整字符串
    return "\n".join(full_content)

# 使用示例
user_file = "你的文档路径.docx"
full_text = extract_full_doc_content(user_file)
print(full_text)

3. 关于清除标签或文档预处理

其实docx库提取的cell.text和para.text已经是纯文本了，不会携带Word里的格式标签（比如字体样式、颜色这些格式信息不会被提取），所以一般不需要额外清除标签。

如果你的文档里有超链接、脚注这类特殊内容需要提取，才需要额外处理：

超链接：可以遍历段落/单元格里的hyperlink对象，获取链接文本和地址
脚注：通过doc.footnotes属性遍历提取

如果只是提取普通的文本内容，现有代码的预处理完全足够，不需要额外操作。

内容的提问来源于stack exchange，提问作者John Brown

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

一键部署 OpenClaw

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

Seedance2.0 体验中心上线

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠