You need to enable JavaScript to run this app.
AI 数据湖服务

AI 数据湖服务

复制全文
多模态深度思考
多模态深度思考(Doubao-seed-1.8)
复制全文
多模态深度思考(Doubao-seed-1.8)

算子介绍

描述

多模态场景下提供大模型的深度思考能力,使用具备深度思考能力的模型,对图片、视频或文本进行分析理解,并返回结构化文本输出。算子会自动构建符合多模态模型规范的 message 结构,用户只需按约定提供图片 / 视频 / 文本数据即可完成推理。

核心功能

  • 深度思考机制:模型在回答问题前自动进行问题拆解和逻辑推理,生成思维链(reasoning_content)
  • 多模态场景支持:同时支持图片 / 视频 / 文本输入,自动完成多模态消息拼装
  • 输入简化机制:支持本地文件、HTTP/HTTPS URL、TOS/S3 对象存储等多种数据源,通过简单配置即可实现视觉理解能力
  • 灵活思考模式:支持通过 thinking_type 参数控制深度思考模式(enabled / disabled / auto),在回答质量与性能之间灵活权衡

输入输出规范

  • 输入格式:
    • 图片(images):支持 string 或 list 形式
      • 支持的数据来源类型:
        • url:网络资源地址,支持 http/https/tos/s3,TOS/S3 会自动生成预签名 URL
        • base64:Base64 编码数据
        • binary:二进制数据(内部会转换为 Base64 编码)
    • 视频(videos):支持 string 或 list 形式,数据来源类型与图片一致
    • 文本(texts):支持 string 或 list 形式,作为用户提示词输入(同一个字段中不允许同时混用字符串和列表两种类型)
  • 输出格式:
    • 默认模式:返回 struct 类型,包含以下字段:
      • llm_result:模型最终回答内容
      • reasoning_content:模型的思维链 / 推理过程
    • 当设置环境变量 LAS_LLM_FINISH_REASON_CHECK=true 时,struct 中会额外包含:
      • finish_reason:模型结果结束原因,取值范围包括:
        • stop:正常终止
        • length:超出 token 限制
        • content_filter:命中内容过滤策略
    • 当设置环境变量 LAS_LLM_BOTS_REFERENCES=true 时,struct 中会额外包含:
      • references:模型引用的检索结果或外部知识信息,便于下游透传与解析

模型能力增强

  • 思维链可视化:通过 reasoning_content 字段输出模型的推理过程,便于观测与复盘
  • 结果可靠性控制:通过 finish_reason 字段识别异常终止情况,例如长度截断或内容过滤
  • 多模态理解:支持图片 / 视频 / 文本的混合输入解析,适用于复杂多模态场景

注意与前提

细分项

注意与前提

费用

调用算子前,您需先了解使用算子时的模型调用费用,详情请参见大模型调用计费

鉴权(API Key)

调用算子前,您需要先生成算子调用的API Key,并建议将API Key配置为环境变量,便于更安全地调用算子,详情请参见获取 API Key 并配置

BaseURL

调用算子前,您需要先根据您当前使用的LAS服务所在地域,了解算子调用的BaseURL,用于配置算子调用路径参数取值。
详情请参见获取 Base URL,下文中的调用示例仅作为参考,实际调用时需替换为您对应地域的路径取值。

API 调用

POST https://operator.las.cn-beijing.volces.com/api/v1/chat/completions

接口说明

调用 doubao-seed-1.8模型 进行多模态理解。

请求参数

参数

类型

必填

示例值

说明

model

string

doubao-seed-1-8-251228

模型名称和版本,模型名称-版本。支持 doubao-seed-1-8-251228

messages

list of chat_message

到目前为止的对话组成的消息列表。不同模型支持不同类型的消息,如文本、图片、视频等。该字段使用方式,请参考 对话(Chat) API请求体里的messages参数。

max_tokens

integer

10000

取值范围:各模型不同,详细见模型列表
模型回答最大长度(单位:token)。

  • 模型回答不包含思维链内容。模型回答 = 模型输出 - 模型思维链(如有)
  • 输出 token 的总长度还受模型的上下文长度限制。

max_completion_tokens

integer

10000

支持该字段的模型及使用说明见 文档

取值范围:[0, 64k]。
控制模型输出的最大长度(包括模型回答和模型思维链内容长度,单位 token)。配置了该参数后,可以让模型输出超长内容,max_tokens (默认值 4k)失效,模型按需输出内容(回答和思维链),直到达到 max_completion_tokens 配置的值。
不可与 max_tokens 字段同时设置,会直接报错。

stop

list of string

默认值为null。
模型遇到 stop 字段所指定的字符串时将停止继续生成,这个词语本身不会输出。最多支持 4 个字符串。

深度思考能力模型不支持该字段。

frequency_penalty

float

1.0

取值范围为 [-2.0, 2.0]。频率惩罚系数。如果值为正,会根据新 token 在文本中的出现频率对其进行惩罚,从而降低模型逐字重复的可能性。

presence_penalty

float

1.0

取值范围为 [-2.0, 2.0]。存在惩罚系数。如果值为正,会根据新 token 到目前为止是否出现在文本中对其进行惩罚,从而增加模型谈论新主题的可能性。

temperature

float

1

取值范围为 [0, 2]。采样温度。控制了生成文本时对每个候选词的概率分布进行平滑的程度。当取值为 0 时模型仅考虑对数概率最大的一个 token。较高的值(如 0.8)会使输出更加随机,而较低的值(如 0.2)会使输出更加集中确定。通常建议仅调整 temperature 或 top_p 其中之一,不建议两者都修改。

top_p

float

0.5

取值范围为 [0, 1]。核采样概率阈值。模型会考虑概率质量在 top_p 内的 token 结果。当取值为 0 时模型仅考虑对数概率最大的一个 token。0.1 意味着只考虑概率质量最高的前 10% 的 token,取值越大生成的随机性越高,取值越低生成的确定性越高。通常建议仅调整 temperature 或 top_p 其中之一,不建议两者都修改。

logprobs

boolean

true

带深度思考能力模型不支持该字段。

是否返回输出 tokens 的对数概率:

  • false:不返回对数概率信息。
  • true:返回消息内容中每个输出 token 的对数概率。

top_logprobs

integer

10

带深度思考能力模型不支持该字段。

取值范围为 [0, 20]。指定每个输出 token 位置最有可能返回的 token 数量,每个 token 都有关联的对数概率。仅当 logprobs为true 时可以设置 top_logprobs 参数。

logit_bias

map[str,int]

带深度思考能力模型不支持该字段。

调整指定 token 在模型输出内容中出现的概率,使模型生成的内容更加符合特定的偏好。logit_bias 字段接受一个 map 值,其中每个键为词表中的 token ID(使用 tokenization 接口获取),每个值为该 token 的偏差值,取值范围为 [-100, 100]。-1 会减少选择的可能性,1 会增加选择的可能性;-100 会完全禁止选择该 token,100 会导致仅可选择该 token。该参数的实际效果可能因模型而异。

thinking

request_thinking

控制模型是否开启深度思考模式。默认开启深度思考模式,可以手动关闭。该字段使用方式,请参考 对话(Chat) API请求体里的thinking参数。

response_format

request_response_format

模型输出内容须遵循此处指定的格式。该字段使用方式,请参考对话(Chat) API请求体里的response_format参数。

tools

list of chat_tool

待调用工具的列表,模型返回信息中可包含。当您需要让模型返回待调用工具时,需要配置该结构体。该字段使用方式,请参考对话(Chat) API请求体里的tools参数。

tool_choice

string or object

仅 doubao-seed-1-6-*** 及之后系代模型支持此字段。

本次请求,模型返回信息中是否有待调用的工具。当没有指定工具时,none 是默认值。如果存在工具,则 auto 是默认值。
工具选择模式 string

  • none :模型返回信息中不可含有待调用的工具。
  • required :模型返回信息中必须含待调用的工具。选择此项时请确认存在适合的工具,以减少模型产生幻觉的情况。
  • auto :模型自行判断返回信息是否有待调用的工具。

工具调用 object

  • 指定待调用工具的范围。模型返回信息中,只允许包含以下模型信息。选择此项时请确认该工具适合用户需求,以减少模型产生幻觉的情况。tool_choice.name 指定待调用工具的名称,tool_choice.type指定调用的类型。

返回数据

参数

类型

示例值

说明

id

string

0217426318107460cfa43dc3f3683b1de1c09624ff49085a456ac

本次请求的唯一标识。

model

string

本次请求实际使用的模型名称和版本。

created

integer

本次请求创建时间的 Unix 时间戳(秒)。

object

string

chat.completion

固定为 chat.completion

choices

list of choice

本次请求的模型输出内容。

index

integer

0

当前元素在 choices 列表的索引。

finish_reason

string

stop

模型停止生成 token 的原因。取值范围:

  • stop: 模型输出自然结束,或因命中请求参数 stop 中指定的字段而被截断。
  • length 模型输出因达到模型输出限制而被截断,有以下原因:
    • 触发max_tokens限制(回答内容的长度限制)。
    • 触发max_completion_tokens限制(思维链内容+回答内容的长度限制)
    • 触发context_window限制(输入内容+思维链内容+回答内容的长度限制)。
  • content_filter: 模型输出被内容审核拦截。
  • tool_calls: 模型调用了工具。

message

message

模型输出的内容。

role

string

assistant

内容输出的角色,此处固定为 assistant

content

string

模型生成的消息内容。

reasoning_content

string

模型处理问题的思维链内容。仅深度推理模型支持返回此字段。

tool_calls

list of tool_call

模型生成的工具调用。

id

string

assistant

内容输出的角色,此处固定为 assistant

type

string

function

工具类型,当前仅支持function

function

string

function

模型调用的函数。

logprobs

logprobs

当前内容的对数概率信息。

content

list of lpb_content

message列表中每个 content 元素中的 token 对数概率信息。

token

string

当前 token。

bytes

list of integer

当前 token 的 UTF-8 值,格式为整数列表。当一个字符由多个 token 组成(表情符号或特殊字符等)时可以用于字符的编码和解码。如果 token 没有 UTF-8 值则为空。

logprob

float

当前 token 的对数概率。

top_logprobs

list of top_logprobs

在当前 token 位置最有可能的标记及其对数概率的列表。在一些情况下,返回的数量可能比请求参数 top_logprobs 指定的数量要少。

token

string

当前 token。

bytes

list of integer

当前 token 的 UTF-8 值,格式为整数列表。当一个字符由多个 token 组成(表情符号或特殊字符等)时可以用于字符的编码和解码。如果 token 没有 UTF-8 值则为空。

logprob

float

当前 token 的对数概率。

moderation_hit_type

string

模型输出文字含有敏感信息时,会返回模型输出文字命中的风险分类标签。
返回值及含义:

  • severe_violation: 模型输出文字涉及严重违规。
  • violence: 模型输出文字涉及激进行为。

usage

usage

本次请求的 token 用量。

total_tokens

integer

10000

本次请求消耗的总 token 数量(输入 + 输出)。

prompt_tokens

integer

1000

输入给模型处理的内容 token 数量。

prompt_tokens_details

prompt_tokens_details

输入给模型处理的内容 token 数量的细节。

cached_tokens

integer

100

缓存输入内容的 token 用量,此处应为0

completion_tokens

integer

9000

模型输出内容花费的 token。

completion_tokens_details

completion_tokens_details

模型输出内容花费的 token 的细节。

reasoning_tokens

integer

200

输出思维链内容花费的 token 数 。

示例

请求示例

curl --location "https://operator.las.cn-beijing.volces.com/api/v1/chat/completions" \
--header "Content-Type: application/json" \
--header "Authorization: Bearer $LAS_API_KEY" \
--data '{
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "video_url",
                    "video_url": {
                        "url": "https://las-ai-cn-beijing.tos-cn-beijing.volces.com/qa/operator_cards/0.1.0/video_keyframes/sample.mp4"
                    }
                },
                {
                    "type": "text",
                    "text": "视频里面有什么"
                }
            ]
        }
    ],
    "model": "doubao-seed-1-8-251228"
}'

返回示例

{
    "id": "021768911071736e97fe2f517eced7c4391200710ba13b1ae8bec",
    "object": "chat.completion",
    "created": 1768911086,
    "model": "doubao-seed-1-8-32k-251228",
    "serviceTier": "default",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "视频呈现了这样的内容:\n一位戴着浅色宽边遮阳帽、墨镜,身穿白色上衣搭配花色长裙的女士,坐在白色斑驳建筑旁的黑色折叠椅上,一边演奏手风琴,一边投入地演唱。她身旁地面放着一瓶水,背景是开阔的蓝色水域,远处可见绿植覆盖的陆地,场景位于海边区域。视频中镜头有移动拉近,展现演奏的细节,后期还有穿绿色上衣、卡其色下装的行人从画面右侧路过。",
                "name": null,
                "reasoning_content": "用户现在需要总结视频里的内容。首先看视频:一位女士戴着浅色宽边帽、墨镜,白色上衣花裙子,坐在白色建筑旁的折叠椅上,演奏手风琴,同时还在唱歌。背景是海边,有蓝色水域和远处的陆地。镜头有移动,后来有行人(绿上衣卡其裤等)从旁边走过。需要把这些元素整理出来:\n\n视频中,一位戴着浅色宽边遮阳帽、墨镜,身穿白色上衣和花色长裙的女士,坐在白色建筑(墙面有斑驳痕迹)旁的黑色折叠椅上,一边演奏手风琴,一边演唱。她身旁放着一瓶水,背景是开阔的蓝色水域与远处的绿植覆盖的陆地,环境是海边区域。过程中镜头有调整,拉近展现演奏细节,还有行人(穿绿色上衣、卡其色下装的人)从画面右侧走过。",
                "function_call": null,
                "tool_calls": null,
                "tool_call_id": null
            },
            "finish_reason": "stop",
            "moderation_hit_type": null,
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 3930,
        "completion_tokens": 294,
        "total_tokens": 4224,
        "prompt_tokens_details": {
            "cached_tokens": 0,
            "provisioned_tokens": null
        },
        "completion_tokens_details": {
            "reasoning_tokens": 189,
            "provisioned_tokens": null
        }
    }
}

错误码

HttpCode

错误码

错误信息

说明

400

Model.InvalidName

The model name is invalid.

模型名称不合法

401

Authorization.Missing

Missing Authorization.

缺少鉴权

401

ApiKey.Invalid

The api key is invalid.

API不合法

最近更新时间:2026.01.29 20:16:09
这个页面对您有帮助吗?
有用
有用
无用
无用