You need to enable JavaScript to run this app.
导航
大模型调用计费
最近更新时间:2025.09.03 14:31:20首次发布时间:2025.04.30 17:59:28
复制全文
我的收藏
有用
有用
无用
无用

AI数据湖服务提供的模型服务

AI数据湖服务支持在计算环节调用模型服务,目前支持以下模型:

推理类型

地域

模型名称

在线推理

华北 2(北京)

doubao-seed-1.6

doubao-seed-1.6-thinking

doubao-seed-1.6-flash

doubao-1.5-pro-32k

doubao-1.5-pro-256k

doubao-1.5-lite-32k

doubao-1.5-thinking-vision-pro

doubao-embedding

doubao-embedding-large

doubao-embedding-vision

deepseek-r1

deepseek-r1-distill-qwen-32b

deepseek-r1-distill-qwen-7b

deepseek-v3

华东2(上海)

doubao-seed-1.6-thinking

离线推理

华北 2(北京)

doubao-seed-1.6

doubao-seed-1.6-thinking

doubao-seed-1.6-flash

doubao-1.5-pro-32k

doubao-1.5-lite-32k

华东2(上海)

doubao-seed-1.6-thinking

产品价格

Token

大模型在处理数据时,以 Token 作为基本单位。Token 是模型推理过程中文本的最小意义单元,它可以是一个单词、汉语里的词语 / 短句、标点符号或数字等。一般来说,一段常规的中文文本中,1 个 Token 大约对应 1.5~2 个汉字。这种划分方式让模型能够高效地理解和处理语言结构,无论是短句还是复杂文本,都能通过 Token 的组合来解析语义。
如语言大模型推理服务费用的一种较为常见的计算方式如下:

费用 = token 使用数量 * token 单价
  • 由于不同模型采用的分词策略不同,同一段文本可能会被转化为不同数量的 token。
  • 您可以使用 Token 计算器或者分词 API 接口,来估算内容对应的 token 数量。

在线推理

深度思考模型

按 token 使用量付费(后付费)

  • 出账时间:每小时出账。
  • 付款类型:按量后付费。
  • 模型范围:
    • 适用于:调用 doubao 等深度思考模型。
    • 不适用于:全量精调模型。
  • 推理服务(输出):包含模型输出的内容,包括模型返回信息里输出(content字段)以及深度思考模型的思维链(reasoning_content字段)内容。
  • 模型单价(刊例价):如下表,实际购买价格以下单页面为准。

模型名称

地域

条件
千 Token

输入
元/百万 token

输出
元/百万 token

计费方式

doubao-seed-1.6

华北 2(北京)

输入长度 [0, 32]
且输出长度 [0, 0.2]

0.8

2

后付费

输入长度 [0, 32]
且输出长度 (0.2,+∞)

0.8

8

后付费

输入长度 (32, 128]

1.2

16

后付费

输入长度 (128, 256]

2.4

24

后付费

doubao-seed-1.6-thinking

华北 2(北京)

输入长度 [0, 32]

0.8

8

后付费

输入长度 (32, 128]

1.2

16

后付费

输入长度 (128, 256]

2.4

24

后付费

doubao-seed-1.6-thinking

华东 2(上海)

输入长度 [0, 32]

4

40

后付费

输入长度 (32, 128]

6

80

后付费

输入长度 (128, 256]

12

120

后付费

doubao-seed-1.6-flash

华北 2(北京)

输入长度 [0, 32]

0.15

1.5

后付费

输入长度 (32, 128]

0.3

3

后付费

输入长度 (128, 256]

0.6

6

后付费

doubao-1.5-thinking-vision-pro

华北 2(北京)

3

9

后付费

deepseek-r1

华北 2(北京)

4

16

后付费

deepseek-r1-distill-qwen-32b

华北 2(北京)

1.5

6

后付费

deepseek-r1-distill-qwen-7b

华北 2(北京)

0.6

2.4

后付费

大语言模型

按 token 使用量付费(后付费)

  • 出账时间:每小时出账。
  • 付款类型:按量后付费。
  • 模型单价(刊例价):如下表,实际购买价格以下单页面为准。

模型名称

服务类型

输入
元/百万 token

输出
元/百万 token

计费方式

doubao-1.5-pro-32k

推理服务

0.8

2

后付费

精调模型推理服务

2

5

后付费

doubao-1.5-pro-256k

推理服务

5

9

后付费

doubao-1.5-lite-32k

推理服务

0.3

0.6

后付费

精调模型推理服务

0.75

1.5

后付费

deepseek-v3

推理服务

2

8

后付费

向量模型

文本向量

文本向量模型:将输入信息转化为 token ,按 token 使用量付费(后付费)。

模型

服务类型

输入
元/百万 token

计费方式

doubao-embedding

推理服务

0.5

后付费

doubao-embedding-large

推理服务

0.7

后付费

图文向量

图文向量模型:将输入信息(包括图片)转化为 token,按 token 使用量付费(后付费)。

计费公式
  • 推理费用 = 文本输入单价 × 文本token + 图片输入单价 × 图片输入token
  • 图片tokens = (width px × height px)/784,超大图封顶 1312 token。

计费单价

模型

服务类型

输入
元/百万 token

计费方式

doubao-embedding-vision

推理服务(文本输入)

0.7

后付费

推理服务(图片输入)

1.8

后付费

上下文缓存

计费项

与普通的在线推理有所不同,使用了 Session 缓存后,计费项会变更为下面几个计费项:

  • 输入内容:使用会话缓存的有状态 API,您无需重新发送之前的对话轮次。输入token 仅代表添加到正在进行的对话中的新文本。
  • 命中缓存内容:Context API 会自动处理之前的对话历史记录,因此在请求期间访问的所有相关的先前对话 token 都将计为缓存命中。缓存命中的计费费率会低于输入,使多轮对话更具成本效益。
  • 存储:存储按小时计费,基于每个自然小时内存储的最大 token 数。即使 Context 会一直保留,直到被删除,详细工作原理见触发过期时间。极端情况下 Context 创建后没被使用,收费会持续到上下文的生存时间 (TTL) 过期。
  • 输出内容:输出代表模型生成的内容。计费方式与标准语言模型的使用保持一致。

计费逻辑

说明

LAS 不支持使用免费额度抵扣使用上下文缓存命中缓存的 token、未命中缓存的 token、输出产生的 token 以及上下文产生的存储费用。

计费单价

模型名称

缓存存储
元/百万 token/小时

缓存命中
元/百万 token

计费方式

doubao-seed-1.6

0.017

0.16

后付费

doubao-seed-1.6-thinking(华北 2)

0.017

0.16

后付费

doubao-seed-1.6-thinking(华东 2)

0.085

0.8

后付费

doubao-seed-1.6-flash

0.017

0.16

后付费

doubao-1.5-pro-32k

0.017

0.16

后付费

doubao-1.5-lite-32k

0.017

0.06

后付费

deepseek-r1-distill-qwen-32b

0.017

0.3

后付费

deepseek-r1

0.017

0.8

后付费

deepseek-v3

0.017

0.4

后付费

说明

模型对应的输入输出部分计费单价请参见深度思考模型大语言模型

离线推理(批量推理)

计费方式

按 token 后付费,统计模型进行批量推理服务时消耗的 token 数量,按量后付费。

计费项

  • 推理输入:将推理输入的内容(包括但不限于文字、图片)转化为 token 数进行计费,对应prompt_token
  • 推理输出:将推理输出的内容(包括但不限于文字、图片)转化为 token 数进行计费,对应completion_token
  • 缓存命中:若您的请求被系统判断命中了 Cache,被命中的 token 会按照 cached_token 来计费,价格是prompt_token单价的 4 折;未被命中的 token 仍按照prompt_token计费。

说明

  • 批量推理将在 2025 年 4 月 14 日 21:00 开始支持透明前缀缓存能力,您无需任何配置,即可在批量推理服务上享受前缀缓存技术应用带来的至多40%的费用降低(输入的 token 会命中缓存,命中缓存的 token 费用会是未命中缓存 token 费用的 4 折,详细计费说明见下文)。
  • 应用透明前缀缓存的批量推理的 40% 费用降低,在方舟的 beachmark 上运行得出。实际降本效果会因为用户任务 token 的缓存命中率不同,有所变动。

计费说明

模型类型

模型名称

免费额度抵扣

条件(千 Token)

输入
元 / 百万 Token

输出
元 / 百万 Token

缓存命中
元 / 百万 Token

深度思考模型

doubao-seed-1.6

不支持

输入长度 [0, 32] 且输出长度 [0, 0.2]

0.4

1

0.16

输入长度 [0, 32] 且输出长度 (0.2,+∞)

0.4

4

0.16

输入长度 (32, 128]

0.6

8

0.16

输入长度 (128, 256]

1.2

12

0.16

doubao-seed-1.6-thinking(华北 2)

不支持

输入长度 [0, 32]

0.4

4

0.16

输入长度 (32, 128]

0.6

8

0.16

输入长度 (128, 256]

1.2

12

0.16

doubao-seed-1.6-thinking(华东 2)

不支持

输入长度 [0, 32]

2

20

0.8

输入长度 (32, 128]

3

40

0.8

输入长度 (128, 256]

6

60

0.8

doubao-seed-1.6-flash

不支持

输入长度 [0, 32]

0.075

0.75

0.03

输入长度 (32, 128]

0.15

1.5

0.03

输入长度 (128, 256]

0.3

3

0.03

大语言模型

doubao-1.5-pro-32k
(基础模型)

不支持

0.4

1

0.16

doubao-1.5-lite-32k
(基础模型)

不支持

0.15

0.3

0.06

配额说明

  • 批量推理限配额 TPD 计算逻辑:
    • 同账号下按照模型名称(如 doubao-pro-32k-*** 所有版本)汇总计算。
    • 不与在线推理的限流数合并计算。

说明

例如您主账号下使用 doubao-pro-32k 模型,有 a、b、c 三个的批量推理任务和d、e 两个在线推理任务。则您每天a、b、c 批量推理共用 10B token 配额,d 、e 共用在线推理任务 TPM、RPM 限流额度。

  • 方舟对批量推理设置配额的原则是保障用户间资源分配的公平性,防止滥用或误用接口造成平台过载而服务中断。如您业务需要每天处理更多数据,可通过提工单方式申请。

  • 您可以提交超出配额的任务量,当方舟平台有空闲资源,将动态扩展您的配额量。

  • TPD的时间计算窗口为24小时滑动窗口,一次短时高并发请求影响后续24小时的配额,与固定窗口相比,您请注意请求分布的均匀性。

  • 账号配额,默认每个模型 10B Tokens / 天,可通过提工单方式申请提额。