多模态场景下提供大模型的深度思考能力
使用具备深度思考能力的模型,对图片、视频或文本进行分析理解,并返回结构化文本输出。算子会自动构建符合多模态模型规范的 message 结构,用户只需按约定提供图片 / 视频 / 文本数据即可完成推理。
(同一个字段中不允许同时混用字符串和列表两种类型)
细分项 | 注意与前提 |
|---|---|
费用 | 调用算子前,您需先了解使用算子时的模型调用费用,详情请参见大模型调用计费。 |
鉴权(API Key) | 调用算子前,您需要先生成算子调用的API Key,并建议将API Key配置为环境变量,便于更安全地调用算子,详情请参见获取 API Key 并配置。 |
BaseURL | 调用算子前,您需要先根据您当前使用的LAS服务所在地域,了解算子调用的BaseURL,用于配置算子调用路径参数取值。 |
通过Chat接口调用 doubao-seed-2.0 模型进行多模态理解。
支持的模型和版本:
参数 | 类型 | 必填 | 示例值 | 说明 |
|---|---|---|---|---|
model | string | 是 | doubao-seed-2-0-pro-260215 | 模型名称和版本, |
messages | list of chat_message | 是 | 到目前为止的对话组成的消息列表。不同模型支持不同类型的消息,如文本、图片、视频等。该字段使用方式,请参考对话(Chat)API请求体里的messages参数。 | |
max_tokens | integer | 否 | 10000 | 取值范围:各模型不同,详细见模型列表。
|
max_completion_tokens | integer | 否 | 10000 |
取值范围:[0, 64k]。 |
stop | list of string | 否 | 默认值为null。
| |
frequency_penalty | float | 否 | 1.0 | 取值范围为 [-2.0, 2.0]。频率惩罚系数。如果值为正,会根据新 token 在文本中的出现频率对其进行惩罚,从而降低模型逐字重复的可能性。 |
presence_penalty | float | 否 | 1.0 | 取值范围为 [-2.0, 2.0]。存在惩罚系数。如果值为正,会根据新 token 到目前为止是否出现在文本中对其进行惩罚,从而增加模型谈论新主题的可能性。 |
temperature | float | 否 | 1 | 取值范围为 [0, 2]。采样温度。控制了生成文本时对每个候选词的概率分布进行平滑的程度。当取值为 0 时模型仅考虑对数概率最大的一个 token。较高的值(如 0.8)会使输出更加随机,而较低的值(如 0.2)会使输出更加集中确定。通常建议仅调整 temperature 或 top_p 其中之一,不建议两者都修改。 |
top_p | float | 否 | 0.5 | 取值范围为 [0, 1]。核采样概率阈值。模型会考虑概率质量在 top_p 内的 token 结果。当取值为 0 时模型仅考虑对数概率最大的一个 token。0.1 意味着只考虑概率质量最高的前 10% 的 token,取值越大生成的随机性越高,取值越低生成的确定性越高。通常建议仅调整 temperature 或 top_p 其中之一,不建议两者都修改。 |
thinking | request_thinking | 否 | 控制模型是否开启深度思考模式。默认开启深度思考模式,可以手动关闭。该字段使用方式,请参考 对话(Chat)API请求体里的thinking参数。 | |
response_format | request_response_format | 否 | 模型输出内容须遵循此处指定的格式。该字段使用方式,请参考对话(Chat)API请求体里的response_format参数。 | |
tools | list of chat_tool | 否 | 待调用工具的列表,模型返回信息中可包含。当您需要让模型返回待调用工具时,需要配置该结构体。该字段使用方式,请参考对话(Chat)API请求体里的tools参数。 | |
tool_choice | string or object | 否 |
本次请求,模型返回信息中是否有待调用的工具。当没有指定工具时,none 是默认值。如果存在工具,则 auto 是默认值。
工具调用 object
|
参数名称 | 数据类型 | 示例值 | 参数说明 |
|---|---|---|---|
id | string | 0217426318107460cfa43dc3f3683b1de1c09624ff49085a457ac | 本次请求的唯一标识。 |
model | string | - | 本次请求实际使用的模型名称和版本。 |
created | integer | - | 本次请求创建时间的 Unix 时间戳(秒)。 |
object | string | chat.completion | 固定为 chat.completion。 |
choices | list of choice | - | 本次请求的模型输出内容。 |
usage | usage | - | 本次请求的 token 用量。 |
curl --location "https://operator.las.cn-beijing.volces.com/api/v1/chat/completions" \ --header "Content-Type: application/json" \ --header "Authorization: Bearer $$LAS_API_KEY" \ --data '{ "messages": [ { "role": "user", "content": [ { "type": "video_url", "video_url": { "url": "https://las-ai-cn-beijing.tos-cn-beijing.volces.com/*****/sample.mp4" } }, { "type": "text", "text": "视频里面有什么" } ] } ], "model": "doubao-seed-2-0-pro-260215" }'
{ "model": "doubao-seed-2-0-pro-260215", "usage": { "prompt_tokens": 3877, "completion_tokens": 493, "total_tokens": 4370, "prompt_tokens_details": { "cached_tokens": 0, "provisioned_tokens": null }, "completion_tokens_details": { "reasoning_tokens": 354, "provisioned_tokens": null } }, "created": 1772692173, "id": "0217726921599114f28f9638b6effb5ab036b3eddba1d5642ea3d", "choices": [ { "finish_reason": "stop", "index": 0, "logprobs": null, "message": { "content": "视频展现的是海边惬意的户外场景:\n1. 核心内容:一位戴着浅米色宽檐帽、黑色墨镜的女士,穿着白色上衣+印花彩色半身裙,靠在白色建筑的墙角,坐在折叠椅上手风琴演奏,演奏时还伴随哼唱,状态十分放松。她的脚边放着一瓶饮用水,背景是蓝色的海面和远处的低矮岸线。\n2. 画面变化:过程中镜头逐渐向女士推近,能越来越清晰看到她演奏的细节和神态;后半段还有穿绿短袖、浅色长裤的路人从她旁边经过。\n整体氛围闲适,充满海滨区域的松弛感。", "reasoning_content": "\n用户现在需要描述视频里的内容对吧,首先先梳理场景:首先是户外,靠海的地方,有个白色建筑的墙角对吧?然后主角是个女士,戴着浅色宽檐帽,白上衣,花裙子,墨镜,坐在折叠椅上,正在拉手风琴,旁边地上放着瓶装水,背景是海和远处的岸。然后过程里她一边拉一边还在唱,镜头慢慢往她那边推近对吧?然后后面有路人经过,比如穿绿短袖浅色裤子的人从旁边走过,还有其他路人?哦对,整体氛围很悠闲,是海边的街头演奏那种感觉对吧?\n等下整理清楚:\n首先整体场景:这是在海边的户外,靠近一处白色建筑的墙角,地面是石质地,背景能看到蓝色的海面和远处的低矮陆地,天气晴朗。\n然后核心人物:一位女士坐在黑色折叠椅上,她戴着浅米色宽檐帽、黑色墨镜,穿白色上衣、印着花卉图案的彩色半身裙,脚上是黑色凉鞋,正演奏着手风琴,演奏的过程中她还在跟着哼唱,状态很放松悠闲。她脚边放着一瓶透明的饮用水,旁边还有琴盒类的黑色箱子。\n然后镜头变化:视频过程中镜头逐渐向这位演奏的女士推近,到后半段能清晰看到她演奏的细节和神态。\n最后还有小细节:视频后半段有路人从她旁边的建筑旁走过,比如一位穿薄荷绿短袖、浅卡其色长裤的女士从旁边经过。\n整个氛围很闲适,充满海边小镇的惬意感。\n对,这样说清楚就可以了。", "role": "assistant" } } ], "object": "chat.completion" }
通过Responses接口调用 doubao-seed-2.0 模型进行多模态理解。 接口定义参考 创建模型响应。
支持的模型和版本:
curl --location "https://operator.las.cn-beijing.volces.com/api/v1/responses" \ --header "Content-Type: application/json" \ --header "Authorization: Bearer $LAS_API_KEY" \ --data '{ "input": [ { "role": "user", "content": [ { "type": "input_video", "video_url": "https://las-ai-cn-beijing.tos-cn-beijing.volces.com/*****/sample.mp4" }, { "type": "input_text", "text": "视频里面有什么" } ] } ], "model": "doubao-seed-2-0-pro-260215" }'
{ "model": "doubao-seed-2-0-pro-260215", "usage": { "prompt_tokens": 3877, "completion_tokens": 493, "total_tokens": 4370, "prompt_tokens_details": { "cached_tokens": 0, "provisioned_tokens": null }, "completion_tokens_details": { "reasoning_tokens": 354, "provisioned_tokens": null } }, "created": 1772692173, "id": "0217726921599114f28f9638b6effb5ab036b3eddba1d5642ea3d", "choices": [ { "finish_reason": "stop", "index": 0, "logprobs": null, "message": { "content": "视频展现的是海边惬意的户外场景:\n1. 核心内容:一位戴着浅米色宽檐帽、黑色墨镜的女士,穿着白色上衣+印花彩色半身裙,靠在白色建筑的墙角,坐在折叠椅上手风琴演奏,演奏时还伴随哼唱,状态十分放松。她的脚边放着一瓶饮用水,背景是蓝色的海面和远处的低矮岸线。\n2. 画面变化:过程中镜头逐渐向女士推近,能越来越清晰看到她演奏的细节和神态;后半段还有穿绿短袖、浅色长裤的路人从她旁边经过。\n整体氛围闲适,充满海滨区域的松弛感。", "reasoning_content": "\n用户现在需要描述视频里的内容对吧,首先先梳理场景:首先是户外,靠海的地方,有个白色建筑的墙角对吧?然后主角是个女士,戴着浅色宽檐帽,白上衣,花裙子,墨镜,坐在折叠椅上,正在拉手风琴,旁边地上放着瓶装水,背景是海和远处的岸。然后过程里她一边拉一边还在唱,镜头慢慢往她那边推近对吧?然后后面有路人经过,比如穿绿短袖浅色裤子的人从旁边走过,还有其他路人?哦对,整体氛围很悠闲,是海边的街头演奏那种感觉对吧?\n等下整理清楚:\n首先整体场景:这是在海边的户外,靠近一处白色建筑的墙角,地面是石质地,背景能看到蓝色的海面和远处的低矮陆地,天气晴朗。\n然后核心人物:一位女士坐在黑色折叠椅上,她戴着浅米色宽檐帽、黑色墨镜,穿白色上衣、印着花卉图案的彩色半身裙,脚上是黑色凉鞋,正演奏着手风琴,演奏的过程中她还在跟着哼唱,状态很放松悠闲。她脚边放着一瓶透明的饮用水,旁边还有琴盒类的黑色箱子。\n然后镜头变化:视频过程中镜头逐渐向这位演奏的女士推近,到后半段能清晰看到她演奏的细节和神态。\n最后还有小细节:视频后半段有路人从她旁边的建筑旁走过,比如一位穿薄荷绿短袖、浅卡其色长裤的女士从旁边经过。\n整个氛围很闲适,充满海边小镇的惬意感。\n对,这样说清楚就可以了。", "role": "assistant" } } ], "object": "chat.completion" }
HttpStatusCode | 错误码 | 错误信息 | 描述 |
|---|---|---|---|
400 | Model.InvalidName | The model name is invalid. | 模型名称不合法 |
401 | Authorization.Missing | Missing Authorization. | 缺少鉴权 |
401 | ApiKey.Invalid | The api key is invalid. | API不合法 |