You need to enable JavaScript to run this app.
文档中心
AI 数据湖服务

AI 数据湖服务

复制全文
文档解析
PDF 文档解析(豆包)
复制全文
PDF 文档解析(豆包)

算子介绍

描述

PDF 内容解析算子,支持对 PDF 文件进行视觉模型解析与 Markdown 结构化输出。

使用限制

  • 需要能访问 PDF 源文件(公网、火山内网或 TOS)。
  • 仅处理可渲染的页面内容;若页面为复杂动态对象或受保护内容,无法处理。
  • 对于超大分辨率或超大页数的文档,解析耗时与资源占用会显著增加。
  • 最大支持 200 页的 PDF 文档,超出 200 页建议通过 start_page 和 num_pages 参数分开多次请求解析。

核心功能

  • 支持 PDF 页面渲染与视觉模型解析,输出高保真 Markdown,完整还原原文结构(标题层级、表格、公式、图片区域)。
  • 自动识别图片区域并返回 boundingbox 信息及图片预签名 URL。
  • 支持逐页和整书 Markdown 汇总,便于后续内容处理和展示。

性能说明

  • 总耗时与页数、网络环境相关。
  • 建议在火山内网环境下访问 TOS 源与写入 TOS 结果以获得更稳定的网络性能。

在线体验

LAS 为您提供了算子在线体验能力,您可以在页面最下方快速体验算子能力。
Image

API 调用

Submit

接口说明

调用 PDF 文档解析(豆包) 进行 PDF 内容解析,支持对公网、火山内网或 TOS PDF 源文件进行视觉模型解析,得到 Markdown 或结构化输出。

请求参数

参数
类型
必填
示例值
说明
operator_id
string
las_pdf_parse_doubao
算子 ID
operator_version
string
v1
算子版本
data
PdfParseUserReqParams
PDF 解析请求参数

返回数据

参数
类型
示例值
说明
metadata
metadata
请求元信息

示例

请求示例

curl --location "https://operator.las.cn-beijing.volces.com/api/v1/submit" \
--header "Content-Type: application/json" \
--header "Authorization: Bearer $LAS_API_KEY" \
--data '{
    "operator_id": "las_pdf_parse_doubao",
    "operator_version": "v1",
    "data": {
        "url": "https://las-ai-cn-beijing-baseline.tos-cn-beijing.volces.com/operator_cards_serving/public/baseline/las_pdf_parse_doubao/v1/pdf-sample.pdf"
    }
}'

返回示例

{
    "metadata": {
        "task_id": "task-20251125163544-abc123",
        "task_status": "PENDING",
        "business_code": "200",
        "error_msg": ""
    }
}

Poll

接口说明

查询 PDF 解析任务的执行状态和结果。

请求参数

参数

类型

必填

示例值

说明

operator_id

string

las_pdf_parse_doubao

算子 ID

operator_version

string

v1

算子版本

task_id

string

task-xxx

任务 ID

返回数据

参数
类型
示例值
说明
metadata
metadata
请求元信息
data
PdfParseResponse
返回的数据

示例

请求示例

curl --location "https://operator.las.cn-beijing.volces.com/api/v1/poll" \
--header "Content-Type: application/json" \
--header "Authorization: Bearer $LAS_API_KEY" \
--data '{
    "operator_id": "las_pdf_parse_doubao",
    "operator_version": "v1",
    "task_id": "task-20251125163544-abc123"
}'

返回示例

{
    "metadata": {
        "task_id": "task-20251125163544-abc123",
        "task_status": "COMPLETED",
        "business_code": "200",
        "error_msg": ""
    },
    "data": {
        "markdown": "我的小狗 \n我家有一只可爱的小狗,它的名字叫小白。小白是一只白色的泰迪犬,它有一双圆圆的大眼睛,像两 颗黑珍珠一样闪闪发光...",
        "detail": [
            {
                "page_id": 1,
                "page_md": "我的小狗 \n我家有一只可爱的小狗,它的名字叫小白。小白是一只白色的泰迪犬,它有一双圆圆的大眼睛,像两 颗黑珍珠一样闪闪发光...",
                "page_image_hw": {
                    "h": 3508,
                    "w": 2480
                },
                "text_blocks": [
                    {
                        "text": "我的小狗 \n我家有一只可爱的小狗,它的名字叫小白。小白是一只白色的泰迪犬,它有一双圆圆的大眼睛,像两 颗黑珍珠一样闪闪发光...",
                        "label": "text",
                        "box": {
                            "x0": 100,
                            "y0": 200,
                            "x1": 400,
                            "y1": 650
                        },
                        "norm_box": [
                            0.1,
                            0.2,
                            0.4,
                            0.65
                        ]
                    }
                ]
            }
        ]
    }
}
最近更新时间:2026.02.28 15:17:09
这个页面对您有帮助吗?
有用
有用
无用
无用