AI数据湖服务支持在计算环节调用模型服务,目前支持以下模型:
推理类型 | 地域 | 模型名称 |
|---|---|---|
在线推理 | 华北 2(北京) | doubao-seed-1.6 |
doubao-seed-1.6-thinking | ||
doubao-seed-1.6-flash | ||
doubao-1.5-pro-32k | ||
doubao-1.5-pro-256k | ||
doubao-1.5-lite-32k | ||
doubao-1.5-thinking-vision-pro | ||
doubao-embedding | ||
doubao-embedding-large | ||
doubao-embedding-vision | ||
deepseek-r1 | ||
deepseek-r1-distill-qwen-32b | ||
deepseek-r1-distill-qwen-7b | ||
deepseek-v3 | ||
华东2(上海) | doubao-seed-1.6-thinking | |
离线推理 | 华北 2(北京) | doubao-seed-1.6 |
doubao-seed-1.6-thinking | ||
doubao-seed-1.6-flash | ||
doubao-1.5-pro-32k | ||
doubao-1.5-lite-32k | ||
华东2(上海) | doubao-seed-1.6-thinking |
大模型在处理数据时,以 Token 作为基本单位。Token 是模型推理过程中文本的最小意义单元,它可以是一个单词、汉语里的词语 / 短句、标点符号或数字等。一般来说,一段常规的中文文本中,1 个 Token 大约对应 1.5~2 个汉字。这种划分方式让模型能够高效地理解和处理语言结构,无论是短句还是复杂文本,都能通过 Token 的组合来解析语义。
如语言大模型推理服务费用的一种较为常见的计算方式如下:
费用 = token 使用数量 * token 单价
按 token 使用量付费(后付费)
content字段)以及深度思考模型的思维链(reasoning_content字段)内容。模型名称 | 地域 | 条件 | 输入 | 输出 | 计费方式 |
|---|---|---|---|---|---|
doubao-seed-1.6 | 华北 2(北京) | 输入长度 [0, 32] | 0.8 | 2 | 后付费 |
输入长度 [0, 32] | 0.8 | 8 | 后付费 | ||
输入长度 (32, 128] | 1.2 | 16 | 后付费 | ||
输入长度 (128, 256] | 2.4 | 24 | 后付费 | ||
doubao-seed-1.6-thinking | 华北 2(北京) | 输入长度 [0, 32] | 0.8 | 8 | 后付费 |
输入长度 (32, 128] | 1.2 | 16 | 后付费 | ||
输入长度 (128, 256] | 2.4 | 24 | 后付费 | ||
doubao-seed-1.6-thinking | 华东 2(上海) | 输入长度 [0, 32] | 4 | 40 | 后付费 |
输入长度 (32, 128] | 6 | 80 | 后付费 | ||
输入长度 (128, 256] | 12 | 120 | 后付费 | ||
doubao-seed-1.6-flash | 华北 2(北京) | 输入长度 [0, 32] | 0.15 | 1.5 | 后付费 |
输入长度 (32, 128] | 0.3 | 3 | 后付费 | ||
输入长度 (128, 256] | 0.6 | 6 | 后付费 | ||
doubao-1.5-thinking-vision-pro | 华北 2(北京) | — | 3 | 9 | 后付费 |
deepseek-r1 | 华北 2(北京) | — | 4 | 16 | 后付费 |
deepseek-r1-distill-qwen-32b | 华北 2(北京) | — | 1.5 | 6 | 后付费 |
deepseek-r1-distill-qwen-7b | 华北 2(北京) | — | 0.6 | 2.4 | 后付费 |
按 token 使用量付费(后付费)
模型名称 | 服务类型 | 输入 | 输出 | 计费方式 |
|---|---|---|---|---|
doubao-1.5-pro-32k | 推理服务 | 0.8 | 2 | 后付费 |
精调模型推理服务 | 2 | 5 | 后付费 | |
doubao-1.5-pro-256k | 推理服务 | 5 | 9 | 后付费 |
doubao-1.5-lite-32k | 推理服务 | 0.3 | 0.6 | 后付费 |
精调模型推理服务 | 0.75 | 1.5 | 后付费 | |
deepseek-v3 | 推理服务 | 2 | 8 | 后付费 |
文本向量模型:将输入信息转化为 token ,按 token 使用量付费(后付费)。
模型 | 服务类型 | 输入 | 计费方式 |
|---|---|---|---|
doubao-embedding | 推理服务 | 0.5 | 后付费 |
doubao-embedding-large | 推理服务 | 0.7 | 后付费 |
图文向量模型:将输入信息(包括图片)转化为 token,按 token 使用量付费(后付费)。
模型 | 服务类型 | 输入 | 计费方式 |
|---|---|---|---|
doubao-embedding-vision | 推理服务(文本输入) | 0.7 | 后付费 |
推理服务(图片输入) | 1.8 | 后付费 |
与普通的在线推理有所不同,使用了 Session 缓存后,计费项会变更为下面几个计费项:
说明
LAS 不支持使用免费额度抵扣使用上下文缓存命中缓存的 token、未命中缓存的 token、输出产生的 token 以及上下文产生的存储费用。
模型名称 | 缓存存储 | 缓存命中 | 计费方式 |
|---|---|---|---|
doubao-seed-1.6 | 0.017 | 0.16 | 后付费 |
doubao-seed-1.6-thinking(华北 2) | 0.017 | 0.16 | 后付费 |
doubao-seed-1.6-thinking(华东 2) | 0.085 | 0.8 | 后付费 |
doubao-seed-1.6-flash | 0.017 | 0.16 | 后付费 |
doubao-1.5-pro-32k | 0.017 | 0.16 | 后付费 |
doubao-1.5-lite-32k | 0.017 | 0.06 | 后付费 |
deepseek-r1-distill-qwen-32b | 0.017 | 0.3 | 后付费 |
deepseek-r1 | 0.017 | 0.8 | 后付费 |
deepseek-v3 | 0.017 | 0.4 | 后付费 |
按 token 后付费,统计模型进行批量推理服务时消耗的 token 数量,按量后付费。
prompt_token。completion_token。prompt_token单价的 4 折;未被命中的 token 仍按照prompt_token计费。说明
模型类型 | 模型名称 | 免费额度抵扣 | 条件(千 Token) | 输入 | 输出 | 缓存命中 |
|---|---|---|---|---|---|---|
深度思考模型 | doubao-seed-1.6 | 不支持 | 输入长度 [0, 32] 且输出长度 [0, 0.2] | 0.4 | 1 | 0.16 |
输入长度 [0, 32] 且输出长度 (0.2,+∞) | 0.4 | 4 | 0.16 | |||
输入长度 (32, 128] | 0.6 | 8 | 0.16 | |||
输入长度 (128, 256] | 1.2 | 12 | 0.16 | |||
doubao-seed-1.6-thinking(华北 2) | 不支持 | 输入长度 [0, 32] | 0.4 | 4 | 0.16 | |
输入长度 (32, 128] | 0.6 | 8 | 0.16 | |||
输入长度 (128, 256] | 1.2 | 12 | 0.16 | |||
doubao-seed-1.6-thinking(华东 2) | 不支持 | 输入长度 [0, 32] | 2 | 20 | 0.8 | |
输入长度 (32, 128] | 3 | 40 | 0.8 | |||
输入长度 (128, 256] | 6 | 60 | 0.8 | |||
doubao-seed-1.6-flash | 不支持 | 输入长度 [0, 32] | 0.075 | 0.75 | 0.03 | |
输入长度 (32, 128] | 0.15 | 1.5 | 0.03 | |||
输入长度 (128, 256] | 0.3 | 3 | 0.03 | |||
大语言模型 | doubao-1.5-pro-32k | 不支持 | 0.4 | 1 | 0.16 | |
doubao-1.5-lite-32k | 不支持 | 0.15 | 0.3 | 0.06 |
doubao-pro-32k-*** 所有版本)汇总计算。说明
例如您主账号下使用 doubao-pro-32k 模型,有 a、b、c 三个的批量推理任务和d、e 两个在线推理任务。则您每天a、b、c 批量推理共用 10B token 配额,d 、e 共用在线推理任务 TPM、RPM 限流额度。