You need to enable JavaScript to run this app.
AI 数据湖服务

AI 数据湖服务

复制全文
多模态深度思考
多模态深度思考(Doubao-seed-2.0)
复制全文
多模态深度思考(Doubao-seed-2.0)

算子介绍

描述

多模态场景下提供大模型的深度思考能力
使用具备深度思考能力的模型,对图片、视频或文本进行分析理解,并返回结构化文本输出。算子会自动构建符合多模态模型规范的 message 结构,用户只需按约定提供图片 / 视频 / 文本数据即可完成推理。

核心功能

  • 深度思考机制:模型在回答问题前自动进行问题拆解和逻辑推理,生成思维链(reasoning_content)
  • 多模态场景支持:同时支持图片 / 视频 / 文本输入,自动完成多模态消息拼装
  • 输入简化机制:支持本地文件、HTTP/HTTPS URL、TOS/S3 对象存储等多种数据源,通过简单配置即可实现视觉理解能力
  • 灵活思考模式:支持通过 thinking_type 参数控制深度思考模式(enabled / disabled / auto),在回答质量与性能之间灵活权衡

输入输出规范

  • 输入格式:
    • 图片(images):支持 string 或 list 形式
      • 支持的数据来源类型:
        • url:网络资源地址,支持 http/https/tos/s3,TOS/S3 会自动生成预签名 URL
        • base64:Base64 编码数据
        • binary:二进制数据(内部会转换为 Base64 编码)
    • 视频(videos):支持 string 或 list 形式,数据来源类型与图片一致
    • 文本(texts):支持 string 或 list 形式,作为用户提示词输入

(同一个字段中不允许同时混用字符串和列表两种类型)

  • 输出格式:
    • 默认模式:返回 struct 类型,包含以下字段:
      • llm_result:模型最终回答内容
      • reasoning_content:模型的思维链 / 推理过程
    • 当设置环境变量 LAS_LLM_FINISH_REASON_CHECK=true 时,struct 中会额外包含:
      • finish_reason:模型结果结束原因,取值范围包括:
        • stop:正常终止
        • length:超出 token 限制
        • content_filter:命中内容过滤策略
    • 当设置环境变量 LAS_LLM_BOTS_REFERENCES=true 时,struct 中会额外包含:
      • references:模型引用的检索结果或外部知识信息,便于下游透传与解析

模型能力增强

  • 思维链可视化:通过 reasoning_content 字段输出模型的推理过程,便于观测与复盘
  • 结果可靠性控制:通过 finish_reason 字段识别异常终止情况,例如长度截断或内容过滤
  • 多模态理解:支持图片 / 视频 / 文本的混合输入解析,适用于复杂多模态场景

注意与前提

细分项

注意与前提

费用

调用算子前,您需先了解使用算子时的模型调用费用,详情请参见大模型调用计费

鉴权(API Key)

调用算子前,您需要先生成算子调用的API Key,并建议将API Key配置为环境变量,便于更安全地调用算子,详情请参见获取 API Key 并配置

BaseURL

调用算子前,您需要先根据您当前使用的LAS服务所在地域,了解算子调用的BaseURL,用于配置算子调用路径参数取值。
详情请参见获取 Base URL,下文中的调用示例仅作为参考,实际调用时需替换为您对应地域的路径取值。

Rest API 调用

Chat

接口说明

通过Chat接口调用 doubao-seed-2.0 模型进行多模态理解。
支持的模型和版本:

  • doubao-seed-2-0-pro-260215
  • doubao-seed-2-0-lite-260215
  • doubao-seed-2-0-mini-260215

请求参数

参数

类型

必填

示例值

说明

model

string

doubao-seed-2-0-pro-260215

模型名称和版本,模型名称-版本。支持
doubao-seed-2-0-pro-260215,
doubao-seed-2-0-lite-260215,
doubao-seed-2-0-mini-260215

messages

list of chat_message

到目前为止的对话组成的消息列表。不同模型支持不同类型的消息,如文本、图片、视频等。该字段使用方式,请参考对话(Chat)API请求体里的messages参数。

max_tokens

integer

10000

取值范围:各模型不同,详细见模型列表
模型回答最大长度(单位:token)。

  • 模型回答不包含思维链内容。模型回答 = 模型输出 - 模型思维链(如有)
  • 输出 token 的总长度还受模型的上下文长度限制。

max_completion_tokens

integer

10000

支持该字段的模型及使用说明见 文档

取值范围:[0, 64k]。
控制模型输出的最大长度(包括模型回答和模型思维链内容长度,单位 token)。配置了该参数后,可以让模型输出超长内容,max_tokens (默认值 4k)失效,模型按需输出内容(回答和思维链),直到达到 max_completion_tokens 配置的值。
不可与 max_tokens 字段同时设置,会直接报错。

stop

list of string

默认值为null。
模型遇到 stop 字段所指定的字符串时将停止继续生成,这个词语本身不会输出。最多支持 4 个字符串。

深度思考能力模型不支持该字段。

frequency_penalty

float

1.0

取值范围为 [-2.0, 2.0]。频率惩罚系数。如果值为正,会根据新 token 在文本中的出现频率对其进行惩罚,从而降低模型逐字重复的可能性。

presence_penalty

float

1.0

取值范围为 [-2.0, 2.0]。存在惩罚系数。如果值为正,会根据新 token 到目前为止是否出现在文本中对其进行惩罚,从而增加模型谈论新主题的可能性。

temperature

float

1

取值范围为 [0, 2]。采样温度。控制了生成文本时对每个候选词的概率分布进行平滑的程度。当取值为 0 时模型仅考虑对数概率最大的一个 token。较高的值(如 0.8)会使输出更加随机,而较低的值(如 0.2)会使输出更加集中确定。通常建议仅调整 temperature 或 top_p 其中之一,不建议两者都修改。

top_p

float

0.5

取值范围为 [0, 1]。核采样概率阈值。模型会考虑概率质量在 top_p 内的 token 结果。当取值为 0 时模型仅考虑对数概率最大的一个 token。0.1 意味着只考虑概率质量最高的前 10% 的 token,取值越大生成的随机性越高,取值越低生成的确定性越高。通常建议仅调整 temperature 或 top_p 其中之一,不建议两者都修改。

thinking

request_thinking

控制模型是否开启深度思考模式。默认开启深度思考模式,可以手动关闭。该字段使用方式,请参考 对话(Chat)API请求体里的thinking参数。

response_format

request_response_format

模型输出内容须遵循此处指定的格式。该字段使用方式,请参考对话(Chat)API请求体里的response_format参数。

tools

list of chat_tool

待调用工具的列表,模型返回信息中可包含。当您需要让模型返回待调用工具时,需要配置该结构体。该字段使用方式,请参考对话(Chat)API请求体里的tools参数。

tool_choice

string or object

仅 doubao-seed-1-6-*** 及之后系代模型支持此字段。

本次请求,模型返回信息中是否有待调用的工具。当没有指定工具时,none 是默认值。如果存在工具,则 auto 是默认值。
工具选择模式 string

  • none :模型返回信息中不可含有待调用的工具。
  • required :模型返回信息中必须含待调用的工具。选择此项时请确认存在适合的工具,以减少模型产生幻觉的情况。
  • auto :模型自行判断返回信息是否有待调用的工具。

工具调用 object

  • 指定待调用工具的范围。模型返回信息中,只允许包含以下模型信息。选择此项时请确认该工具适合用户需求,以减少模型产生幻觉的情况。tool_choice.name 指定待调用工具的名称,tool_choice.type指定调用的类型。

返回数据

参数名称
数据类型
示例值
参数说明
id
string
0217426318107460cfa43dc3f3683b1de1c09624ff49085a457ac
本次请求的唯一标识。
model
string
-
本次请求实际使用的模型名称和版本。
created
integer
-
本次请求创建时间的 Unix 时间戳(秒)。
object
string
chat.completion
固定为 chat.completion。
choices
list of choice
-
本次请求的模型输出内容。
usage
usage
-
本次请求的 token 用量。

示例

请求示例

curl --location "https://operator.las.cn-beijing.volces.com/api/v1/chat/completions" \
--header "Content-Type: application/json" \
--header "Authorization: Bearer $$LAS_API_KEY" \
--data '{
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "video_url",
                    "video_url": {
                        "url": "https://las-ai-cn-beijing.tos-cn-beijing.volces.com/*****/sample.mp4"
                    }
                },
                {
                    "type": "text",
                    "text": "视频里面有什么"
                }
            ]
        }
    ],
    "model": "doubao-seed-2-0-pro-260215"
}'

返回示例

{
  "model": "doubao-seed-2-0-pro-260215",
  "usage": {
    "prompt_tokens": 3877,
    "completion_tokens": 493,
    "total_tokens": 4370,
    "prompt_tokens_details": {
      "cached_tokens": 0,
      "provisioned_tokens": null
    },
    "completion_tokens_details": {
      "reasoning_tokens": 354,
      "provisioned_tokens": null
    }
  },
  "created": 1772692173,
  "id": "0217726921599114f28f9638b6effb5ab036b3eddba1d5642ea3d",
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "logprobs": null,
      "message": {
        "content": "视频展现的是海边惬意的户外场景:\n1. 核心内容:一位戴着浅米色宽檐帽、黑色墨镜的女士,穿着白色上衣+印花彩色半身裙,靠在白色建筑的墙角,坐在折叠椅上手风琴演奏,演奏时还伴随哼唱,状态十分放松。她的脚边放着一瓶饮用水,背景是蓝色的海面和远处的低矮岸线。\n2. 画面变化:过程中镜头逐渐向女士推近,能越来越清晰看到她演奏的细节和神态;后半段还有穿绿短袖、浅色长裤的路人从她旁边经过。\n整体氛围闲适,充满海滨区域的松弛感。",
        "reasoning_content": "\n用户现在需要描述视频里的内容对吧,首先先梳理场景:首先是户外,靠海的地方,有个白色建筑的墙角对吧?然后主角是个女士,戴着浅色宽檐帽,白上衣,花裙子,墨镜,坐在折叠椅上,正在拉手风琴,旁边地上放着瓶装水,背景是海和远处的岸。然后过程里她一边拉一边还在唱,镜头慢慢往她那边推近对吧?然后后面有路人经过,比如穿绿短袖浅色裤子的人从旁边走过,还有其他路人?哦对,整体氛围很悠闲,是海边的街头演奏那种感觉对吧?\n等下整理清楚:\n首先整体场景:这是在海边的户外,靠近一处白色建筑的墙角,地面是石质地,背景能看到蓝色的海面和远处的低矮陆地,天气晴朗。\n然后核心人物:一位女士坐在黑色折叠椅上,她戴着浅米色宽檐帽、黑色墨镜,穿白色上衣、印着花卉图案的彩色半身裙,脚上是黑色凉鞋,正演奏着手风琴,演奏的过程中她还在跟着哼唱,状态很放松悠闲。她脚边放着一瓶透明的饮用水,旁边还有琴盒类的黑色箱子。\n然后镜头变化:视频过程中镜头逐渐向这位演奏的女士推近,到后半段能清晰看到她演奏的细节和神态。\n最后还有小细节:视频后半段有路人从她旁边的建筑旁走过,比如一位穿薄荷绿短袖、浅卡其色长裤的女士从旁边经过。\n整个氛围很闲适,充满海边小镇的惬意感。\n对,这样说清楚就可以了。",
        "role": "assistant"
      }
    }
  ],
  "object": "chat.completion"
}

Responses

接口说明

通过Responses接口调用 doubao-seed-2.0 模型进行多模态理解。 接口定义参考 创建模型响应
支持的模型和版本:

  • doubao-seed-2-0-pro-260215
  • doubao-seed-2-0-lite-260215
  • doubao-seed-2-0-mini-260215

示例

请求示例

curl --location "https://operator.las.cn-beijing.volces.com/api/v1/responses" \
--header "Content-Type: application/json" \
--header "Authorization: Bearer $LAS_API_KEY" \
--data '{
    "input": [
        {
            "role": "user",
            "content": [
                {
                    "type": "input_video",
                    "video_url": "https://las-ai-cn-beijing.tos-cn-beijing.volces.com/*****/sample.mp4"
                },
                {
                    "type": "input_text",
                    "text": "视频里面有什么"
                }
            ]
        }
    ],
    "model": "doubao-seed-2-0-pro-260215"
}'

返回示例

{
    "model": "doubao-seed-2-0-pro-260215",
    "usage": {
        "prompt_tokens": 3877,
        "completion_tokens": 493,
        "total_tokens": 4370,
        "prompt_tokens_details": {
            "cached_tokens": 0,
            "provisioned_tokens": null
        },
        "completion_tokens_details": {
            "reasoning_tokens": 354,
            "provisioned_tokens": null
        }
    },
    "created": 1772692173,
    "id": "0217726921599114f28f9638b6effb5ab036b3eddba1d5642ea3d",
    "choices": [
        {
            "finish_reason": "stop",
            "index": 0,
            "logprobs": null,
            "message": {
                "content": "视频展现的是海边惬意的户外场景:\n1. 核心内容:一位戴着浅米色宽檐帽、黑色墨镜的女士,穿着白色上衣+印花彩色半身裙,靠在白色建筑的墙角,坐在折叠椅上手风琴演奏,演奏时还伴随哼唱,状态十分放松。她的脚边放着一瓶饮用水,背景是蓝色的海面和远处的低矮岸线。\n2. 画面变化:过程中镜头逐渐向女士推近,能越来越清晰看到她演奏的细节和神态;后半段还有穿绿短袖、浅色长裤的路人从她旁边经过。\n整体氛围闲适,充满海滨区域的松弛感。",
                "reasoning_content": "\n用户现在需要描述视频里的内容对吧,首先先梳理场景:首先是户外,靠海的地方,有个白色建筑的墙角对吧?然后主角是个女士,戴着浅色宽檐帽,白上衣,花裙子,墨镜,坐在折叠椅上,正在拉手风琴,旁边地上放着瓶装水,背景是海和远处的岸。然后过程里她一边拉一边还在唱,镜头慢慢往她那边推近对吧?然后后面有路人经过,比如穿绿短袖浅色裤子的人从旁边走过,还有其他路人?哦对,整体氛围很悠闲,是海边的街头演奏那种感觉对吧?\n等下整理清楚:\n首先整体场景:这是在海边的户外,靠近一处白色建筑的墙角,地面是石质地,背景能看到蓝色的海面和远处的低矮陆地,天气晴朗。\n然后核心人物:一位女士坐在黑色折叠椅上,她戴着浅米色宽檐帽、黑色墨镜,穿白色上衣、印着花卉图案的彩色半身裙,脚上是黑色凉鞋,正演奏着手风琴,演奏的过程中她还在跟着哼唱,状态很放松悠闲。她脚边放着一瓶透明的饮用水,旁边还有琴盒类的黑色箱子。\n然后镜头变化:视频过程中镜头逐渐向这位演奏的女士推近,到后半段能清晰看到她演奏的细节和神态。\n最后还有小细节:视频后半段有路人从她旁边的建筑旁走过,比如一位穿薄荷绿短袖、浅卡其色长裤的女士从旁边经过。\n整个氛围很闲适,充满海边小镇的惬意感。\n对,这样说清楚就可以了。",
                "role": "assistant"
            }
        }
    ],
    "object": "chat.completion"
}

错误码

HttpStatusCode

错误码

错误信息

描述

400

Model.InvalidName

The model name is invalid.

模型名称不合法

401

Authorization.Missing

Missing Authorization.

缺少鉴权

401

ApiKey.Invalid

The api key is invalid.

API不合法

最近更新时间:2026.03.10 12:08:45
这个页面对您有帮助吗?
有用
有用
无用
无用