python-pptx无法提取含Office公式的幻灯片标题，求解决方案

阿华AIGC实验室

2026-5-14

解决python-pptx提取含公式的PPT标题报错问题

我之前也碰到过一模一样的情况——当PPT标题里混了Office公式工具生成的内容时，shapes.title就不再是普通的文本框形状了，自然就没有text属性，直接调用就会抛出AttributeError。

问题原因

Office公式在PPT中是以特殊形状（比如OLE对象、MathML容器或者组形状的一部分）存在的，当标题里包含这类元素时，slide.shapes.title对应的可能是组形状（把文本和公式组合在一起），而不是单一的文本框，组形状本身没有text属性，所以触发报错。

解决方案（忽略公式，只提取文本）

我们可以通过兼容逻辑处理这种情况，既能正常提取纯文本标题，也能跳过公式部分提取有效文本：

先尝试常规方式获取标题文本，失败则进入异常处理
判断标题形状是否为组形状，若是则遍历其内部子形状，提取所有带text属性的内容
对于纯公式的标题（这种情况很少见），直接返回空字符串

具体代码如下：

from pptx import Presentation

def extract_slide_title(slide):
    # 先检查幻灯片有没有标题形状
    if not slide.shapes.title:
        return ""
    
    title_shape = slide.shapes.title
    try:
        # 尝试直接获取文本（纯文本标题的情况）
        return title_shape.text
    except AttributeError:
        # 处理组形状的情况（标题包含公式时常见）
        if title_shape.shape_type == 6:  # 6是组形状的类型标识
            title_text_parts = []
            for sub_shape in title_shape.shapes:
                # 只提取有text属性的子形状内容，自动跳过公式类形状
                if hasattr(sub_shape, "text"):
                    title_text_parts.append(sub_shape.text)
            # 拼接所有文本部分
            return " ".join(title_text_parts)
        # 其他特殊形状（比如纯公式）直接返回空
        return ""

# 批量处理演示文稿的示例
prs = Presentation('My_Presentation.pptx')
for idx, slide in enumerate(prs.slides):
    title = extract_slide_title(slide)
    print(f"幻灯片{idx+1}标题: {title}")