You need to enable JavaScript to run this app.
导航
多模态理解
最近更新时间:2025.12.04 15:45:07首次发布时间:2025.12.04 15:45:07
复制全文
我的收藏
有用
有用
无用
无用

视觉模型支持传入图片、视频和文档,完成图像描述、视觉问答、内容审核等视觉相关任务。

支持模型

250615之后版本的视觉模型,如无特殊说明,默认支持 Responses API,具体请参见:视觉理解能力

API文档

Responses API

图片理解

模型支持理解图片的信息,并结合这些信息完成如描述其中的物体等视觉相关任务。关于图片理解支持的图片输入方式及示例,请参见图片理解
建议优先使用 Files API 上传本地文件,适用于图片文件较大,或者需要在多个请求中重复使用图片的场景。

该方式支持最大 512MB 的文件,默认存储 7 天,存储有效期取值范围为1-30天。

示例中用到的PDF文件及提示词如下:

图片文件

提示词

Image

请给出图片中的内容,并根据图片内容回答支持输入图片的模型系列是哪个?

代码示例:

  1. 上传图片文件获取File ID。

    curl https://ark.cn-beijing.volces.com/api/v3/files \
      -H "Authorization: Bearer $ARK_API_KEY" \
      -F "purpose=user_data" \
      -F "file=@/Users/doc/demo.png"
    
  2. 在Responses API中引用File ID。

    curl https://ark.cn-beijing.volces.com/api/v3/responses \
      -H "Authorization: Bearer $ARK_API_KEY" \
      -H "Content-Type: application/json" \
      -d '{
        "model": "doubao-seed-1-6-251015",
        "input": [
            {
                "role": "user",
                "content": [
                    {
                        "type": "input_image",
                        "file_id": "file-20251018****"
                    },
                    {
                        "type": "input_text",
                        "text": "请给出图片中的内容,并根据图片内容回答支持输入图片的模型系列是哪个?"
                    }
                ]
            }
        ]
      }'
    

输出示例:

### 图片内容描述  
图片展示了不同模型系列的输入输出支持情况说明。上方文字提示可结合业务的输入输出信息类型筛选模型,并标注“×:不支持;√:支持”。下方表格包含“模型系列”“输入(文本、图像、音频)”“输出(文本、图像、音频)”等列,列出三个模型系列的支持情况:  
- **Doubao-1.5-pro**:支持输入文本、输出文本,不支持图像、音频的输入输出;  
- **Doubao-1.5-lite**:支持输入文本、输出文本,不支持图像、音频的输入输出;  
- **Doubao-1.5-vision**:支持输入文本和图像,输出文本,不支持音频输入输出及图像、音频输出。  

### 支持输入图像的模型系列  
Doubao-1.5-vision

视频理解

模型可理解视频中的视觉信息,可以完成如描述其中的物体、分析动作逻辑等视觉相关任务。关于视频理解支持的文件输入方式及示例,请参见视频理解
建议优先使用 Files API 上传本地视频文件,适用于视频文件较大,或者需要在多个请求中重复使用视频的场景。

该方式支持最大 512MB 的文件,默认存储 7 天,存储有效期取值范围为1-30天。

示例中用到的视频文件及提示词如下:

视频文件

提示词

请你描述下视频中的人物的一系列动作,以JSON格式输出开始时间(start_time)、结束时间(end_time)、事件(event)、是否危险(danger),请使用HH:mm:ss表示时间戳。

示例代码:

  1. 上传视频文件获取File ID。

    curl https://ark.cn-beijing.volces.com/api/v3/files \
      -H "Authorization: Bearer $ARK_API_KEY" \
      -F "purpose=user_data" \
      -F "file=@/Users/doc/demo.mp4" \
      -F "preprocess_configs[video][fps]=0.3"
    
  2. 在Responses API中引用File ID。

    curl https://ark.cn-beijing.volces.com/api/v3/responses \
      -H "Authorization: Bearer $ARK_API_KEY" \
      -H 'Content-Type: application/json' \
      -d '{
        "model": "doubao-seed-1-6-251015",
        "input": [
            {
                "role": "user",
                "content": [
                    {
                        "type": "input_video",
                        "file_id": "file-20251018****"
                    },
                    {
                        "type": "input_text",
                        "text": "请你描述下视频中的人物的一系列动作,以JSON格式输出开始时间(start_time)、结束时间(end_time)、事件(event)、是否危险(danger),请使用HH:mm:ss表示时间戳。"
                    }
                ]
            }
        ]
      }'
    

输出示例:

{
    "text": [
        {
            "start_time": "00:00:00",
            "end_time": "00:00:03",
            "event": "将黄色积木堆叠到红黄绿相间的积木塔顶端",
            "danger": false
        },
        {
            "start_time": "00:00:05",
            "end_time": "00:00:07",
            "event": "拿起蓝色积木放入口中啃咬后取出",
            "danger": false
        },
        {
            "start_time": "00:00:08",
            "end_time": "00:00:12",
            "event": "用手推动黄色和蓝色的玩具卡车在地面移动",
            "danger": false
        },
        {
            "start_time": "00:00:12",
            "end_time": "00:00:24",
            "event": "双手扶着木质抽屉柜边缘,尝试将右脚踩在下方抽屉把手上向上攀爬",
            "danger": true
        }
    ]
}

文档理解

模型支持处理PDF格式的文档,在预处理时会分页来处理成多图,然后将每页图像输入模型进行处理,以实现对文档内容的理解和分析。 关于文档理解支持的文件输入方式及示例,请参见文档理解
建议优先选择 Files API 上传的方式,适用于文件较大,或者需要在多个请求中重复使用文件的场景。

该方式支持最大 512MB 的文件,默认存储 7 天,存储有效期取值范围为1-30天。

示例中用到的PDF文件及提示词如下:

PDF文件

提示词

Image

按段落给出文档中的文字内容,以JSON格式输出,包括段落类型(type)、文字内容(content)信息。

代码示例:

  1. 上传PDF文件获取File ID。

    curl https://ark.cn-beijing.volces.com/api/v3/files \
      -H "Authorization: Bearer $ARK_API_KEY" \
      -F "purpose=user_data" \
      -F "file=@/Users/doc/demo.pdf"
    
  2. 在Responses API中引用File ID。

    curl https://ark.cn-beijing.volces.com/api/v3/responses \
      -H "Authorization: Bearer $ARK_API_KEY" \
      -H 'Content-Type: application/json' \
      -d '{
        "model": "doubao-seed-1-6-251015",
        "input": [
            {
                "role": "user",
                "content": [
                    {
                        "type": "input_file",
                        "file_id": "file-20251018****"
                    },
                    {
                        "type": "input_text",
                        "text": "按段落给出文档中的文字内容,以JSON格式输出,包括段落类型(type)、文字内容(content)信息。"
                    }
                ]
            }
        ]
      }'
    

输出示例:

{
    "text": [
        {
            "type": "heading",
            "content": "1 Introduction"
        },
        {
            "type": "paragraph",
            "content": "Diffusion models [3–5] learn to reverse a process that incrementally corrupts data with noise, effectively decomposing a complex distribution into a hierarchy of simplified representations. This coarse-to-fine generative approach has proven remarkably successful across a wide range of applications, including image and video synthesis [6] as well as solving complex challenges in natural sciences [7]."
        },
        ...
        {
            "type": "heading",
            "content": "3 Seed Diffusion"
        },
        {
            "type": "paragraph",
            "content": "As the first experimental model in our Seed Diffusion series, Seed Diffusion Preview is specifically focused on code generation, thus adopting the data pipeline (code/code-related data only) and processing methodology of the open-sourced Seed Coder project [20]. The architecture is a standard dense Transformer, and we intentionally omit complex components such as LongCoT reasoning in this initial version to first establish a strong and efficient performance baseline. This section introduces its key components and training strategies."
        }
    ]
}