智力程度
速度
价格(元/百万token)
输入
输出
有极致推理速度的多模态深度思考模型;同时支持文本和视觉理解。文本理解能力超过上一代 Lite 系列模型,视觉理解比肩友商 Pro 系列模型。
最大上下文长度:256k
最大输入长度:224k
最大思维链内容长度:32k
可配置最大输出长度:16k
默认最大输出长度:4k
条件 | 输入 | 输入命中缓存 | 输出单价 | 缓存存储 | 输入单价[批量] | 输入命中缓存单价[批量] | 输出单价[批量] |
---|---|---|---|---|---|---|---|
输入长度 [0, 32] | 0.15 | 0.03 | 1.50 | 0.017 | 0.075 | 0.03 | 0.75 |
输入长度 (32, 128] | 0.30 | 0.03 | 3.00 | 0.017 | 0.150 | 0.03 | 1.50 |
输入长度 (128, 256] | 0.60 | 0.03 | 6.00 | 0.017 | 0.300 | 0.03 | 3.00 |
下面是计费项的简单说明,具体请参阅模型服务价格。
- 输入输出价位按照输入长度来定档,举例,在线推理时,当输入长度为 16k ,则输入单价为 0.15 元/百万 token,输出单价为 1.5 元/百万 token。
- 使用在线推理的上下文缓存,产生命中缓存的输入折后费用、创建的缓存存储费用。
- 使用批量推理,产生输入[批量]费用、命中透明缓存的输入折后费用、输出[批量]费用。
doubao-seed-1.6-flash
速率限制通过对给定时间段内的请求或令牌使用量设置特定上限来确保公平可靠地访问 API。
doubao-seed-1.6-flash
支持使用 thinking 参数控制模型是否开启深度思考模式。默认为开启
状态。
开启深度思考:传入"thinking":{"type":"enabled"}
,或者保持缺省状态(即不设置 thinking 字段)。
curl --location 'https://ark.cn-beijing.volces.com/api/v3/chat/completions' \ --header 'Authorization: Bearer $ARK_API_KEY' \ --header 'Content-Type: application/json' \ --data '{ "model": "doubao-seed-1.6-flash-250615", "messages": [ { "role": "user", "content": [ { "type": "image_url", "image_url": { "url":"https://ark-project.tos-cn-beijing.volces.com/doc_image/ark_demo_img_1.png" } }, { "type":"text", "text":"图片里有什么?" } ] } ], "thinking":{ "type":"enabled" } }'