大模型调用计费--AI 数据湖服务-火山引擎

文档中心

导航

大模型调用计费

最近更新时间：2025.09.03 14:31:20首次发布时间：2025.04.30 17:59:28

AI数据湖服务提供的模型服务

AI数据湖服务支持在计算环节调用模型服务，目前支持以下模型：

推理类型	地域	模型名称
在线推理	华北 2（北京）	doubao-seed-1.6
		doubao-seed-1.6-thinking
		doubao-seed-1.6-flash
		doubao-1.5-pro-32k
		doubao-1.5-pro-256k
		doubao-1.5-lite-32k
		doubao-1.5-thinking-vision-pro
		doubao-embedding
		doubao-embedding-large
		doubao-embedding-vision
		deepseek-r1
		deepseek-r1-distill-qwen-32b
		deepseek-r1-distill-qwen-7b
		deepseek-v3
	华东2（上海）	doubao-seed-1.6-thinking
离线推理	华北 2（北京）	doubao-seed-1.6
		doubao-seed-1.6-thinking
		doubao-seed-1.6-flash
		doubao-1.5-pro-32k
		doubao-1.5-lite-32k
	华东2（上海）	doubao-seed-1.6-thinking

产品价格

Token

大模型在处理数据时，以 Token 作为基本单位。Token 是模型推理过程中文本的最小意义单元，它可以是一个单词、汉语里的词语 / 短句、标点符号或数字等。一般来说，一段常规的中文文本中，1 个 Token 大约对应 1.5~2 个汉字。这种划分方式让模型能够高效地理解和处理语言结构，无论是短句还是复杂文本，都能通过 Token 的组合来解析语义。
如语言大模型推理服务费用的一种较为常见的计算方式如下：

费用 = token 使用数量 * token 单价

由于不同模型采用的分词策略不同，同一段文本可能会被转化为不同数量的 token。
您可以使用 Token 计算器或者分词 API 接口，来估算内容对应的 token 数量。

在线推理

深度思考模型

按 token 使用量付费（后付费）

出账时间：每小时出账。
付款类型：按量后付费。
模型范围：
- 适用于：调用 doubao 等深度思考模型。
- 不适用于：全量精调模型。
推理服务（输出）：包含模型输出的内容，包括模型返回信息里输出（content字段）以及深度思考模型的思维链（reasoning_content字段）内容。
模型单价（刊例价）：如下表，实际购买价格以下单页面为准。

模型名称	地域	条件千 Token	输入元/百万 token	输出元/百万 token	计费方式
doubao-seed-1.6	华北 2（北京）	输入长度 [0, 32] 且输出长度 [0, 0.2]	0.8	2	后付费
		输入长度 [0, 32] 且输出长度 (0.2,+∞)	0.8	8	后付费
		输入长度 (32, 128]	1.2	16	后付费
		输入长度 (128, 256]	2.4	24	后付费
doubao-seed-1.6-thinking	华北 2（北京）	输入长度 [0, 32]	0.8	8	后付费
		输入长度 (32, 128]	1.2	16	后付费
		输入长度 (128, 256]	2.4	24	后付费
doubao-seed-1.6-thinking	华东 2（上海）	输入长度 [0, 32]	4	40	后付费
		输入长度 (32, 128]	6	80	后付费
		输入长度 (128, 256]	12	120	后付费
doubao-seed-1.6-flash	华北 2（北京）	输入长度 [0, 32]	0.15	1.5	后付费
		输入长度 (32, 128]	0.3	3	后付费
		输入长度 (128, 256]	0.6	6	后付费
doubao-1.5-thinking-vision-pro	华北 2（北京）	—	3	9	后付费
deepseek-r1	华北 2（北京）	—	4	16	后付费
deepseek-r1-distill-qwen-32b	华北 2（北京）	—	1.5	6	后付费
deepseek-r1-distill-qwen-7b	华北 2（北京）	—	0.6	2.4	后付费

大语言模型

按 token 使用量付费（后付费）

出账时间：每小时出账。
付款类型：按量后付费。
模型单价（刊例价）：如下表，实际购买价格以下单页面为准。

模型名称	服务类型	输入元/百万 token	输出元/百万 token	计费方式
doubao-1.5-pro-32k	推理服务	0.8	2	后付费
doubao-1.5-pro-32k	精调模型推理服务	2	5	后付费
doubao-1.5-pro-256k	推理服务	5	9	后付费
doubao-1.5-lite-32k	推理服务	0.3	0.6	后付费
doubao-1.5-lite-32k	精调模型推理服务	0.75	1.5	后付费
deepseek-v3	推理服务	2	8	后付费

向量模型

文本向量

文本向量模型：将输入信息转化为 token ，按 token 使用量付费（后付费）。

模型	服务类型	输入元/百万 token	计费方式
doubao-embedding	推理服务	0.5	后付费
doubao-embedding-large	推理服务	0.7	后付费

图文向量

图文向量模型：将输入信息（包括图片）转化为 token，按 token 使用量付费（后付费）。

计费公式

推理费用 = 文本输入单价 × 文本token + 图片输入单价 × 图片输入token
图片tokens = (width px × height px)/784，超大图封顶 1312 token。

计费单价

模型	服务类型	输入元/百万 token	计费方式
doubao-embedding-vision	推理服务（文本输入）	0.7	后付费
doubao-embedding-vision	推理服务（图片输入）	1.8	后付费

上下文缓存

计费项

与普通的在线推理有所不同，使用了 Session 缓存后，计费项会变更为下面几个计费项：

输入内容：使用会话缓存的有状态 API，您无需重新发送之前的对话轮次。输入token 仅代表添加到正在进行的对话中的新文本。
命中缓存内容：Context API 会自动处理之前的对话历史记录，因此在请求期间访问的所有相关的先前对话 token 都将计为缓存命中。缓存命中的计费费率会低于输入，使多轮对话更具成本效益。
存储：存储按小时计费，基于每个自然小时内存储的最大 token 数。即使 Context 会一直保留，直到被删除，详细工作原理见触发过期时间。极端情况下 Context 创建后没被使用，收费会持续到上下文的生存时间 (TTL) 过期。
输出内容：输出代表模型生成的内容。计费方式与标准语言模型的使用保持一致。

计费逻辑

Session 缓存计费逻辑请参见计费说明。
前缀缓存计费逻辑请参见计费逻辑。

说明

LAS 不支持使用免费额度抵扣使用上下文缓存命中缓存的 token、未命中缓存的 token、输出产生的 token 以及上下文产生的存储费用。

计费单价

模型名称	缓存存储元/百万 token/小时	缓存命中元/百万 token	计费方式
doubao-seed-1.6	0.017	0.16	后付费
doubao-seed-1.6-thinking（华北 2）	0.017	0.16	后付费
doubao-seed-1.6-thinking（华东 2）	0.085	0.8	后付费
doubao-seed-1.6-flash	0.017	0.16	后付费
doubao-1.5-pro-32k	0.017	0.16	后付费
doubao-1.5-lite-32k	0.017	0.06	后付费
deepseek-r1-distill-qwen-32b	0.017	0.3	后付费
deepseek-r1	0.017	0.8	后付费
deepseek-v3	0.017	0.4	后付费

说明

模型对应的输入及输出部分计费单价请参见深度思考模型和大语言模型。

离线推理（批量推理）

计费方式

按 token 后付费，统计模型进行批量推理服务时消耗的 token 数量，按量后付费。

计费项

推理输入：将推理输入的内容（包括但不限于文字、图片）转化为 token 数进行计费，对应prompt_token。
推理输出：将推理输出的内容（包括但不限于文字、图片）转化为 token 数进行计费，对应completion_token。
缓存命中：若您的请求被系统判断命中了 Cache，被命中的 token 会按照 cached_token 来计费，价格是prompt_token单价的 4 折；未被命中的 token 仍按照prompt_token计费。

说明

批量推理将在 2025 年 4 月 14 日 21:00 开始支持透明前缀缓存能力，您无需任何配置，即可在批量推理服务上享受前缀缓存技术应用带来的至多40%的费用降低（输入的 token 会命中缓存，命中缓存的 token 费用会是未命中缓存 token 费用的 4 折，详细计费说明见下文）。
应用透明前缀缓存的批量推理的 40% 费用降低，在方舟的 beachmark 上运行得出。实际降本效果会因为用户任务 token 的缓存命中率不同，有所变动。

计费说明

模型类型	模型名称	免费额度抵扣	条件（千 Token）	输入元 / 百万 Token	输出元 / 百万 Token	缓存命中元 / 百万 Token
深度思考模型	doubao-seed-1.6	不支持	输入长度 [0, 32] 且输出长度 [0, 0.2]	0.4	1	0.16
			输入长度 [0, 32] 且输出长度 (0.2,+∞)	0.4	4	0.16
			输入长度 (32, 128]	0.6	8	0.16
			输入长度 (128, 256]	1.2	12	0.16
	doubao-seed-1.6-thinking（华北 2）	不支持	输入长度 [0, 32]	0.4	4	0.16
			输入长度 (32, 128]	0.6	8	0.16
			输入长度 (128, 256]	1.2	12	0.16
	doubao-seed-1.6-thinking（华东 2）	不支持	输入长度 [0, 32]	2	20	0.8
			输入长度 (32, 128]	3	40	0.8
			输入长度 (128, 256]	6	60	0.8
	doubao-seed-1.6-flash	不支持	输入长度 [0, 32]	0.075	0.75	0.03
			输入长度 (32, 128]	0.15	1.5	0.03
			输入长度 (128, 256]	0.3	3	0.03
大语言模型	doubao-1.5-pro-32k （基础模型）	不支持		0.4	1	0.16
大语言模型	doubao-1.5-lite-32k （基础模型）	不支持		0.15	0.3	0.06

配额说明

批量推理限配额 TPD 计算逻辑：
- 同账号下按照模型名称（如 doubao-pro-32k-*** 所有版本）汇总计算。
- 不与在线推理的限流数合并计算。

说明

例如您主账号下使用 doubao-pro-32k 模型，有 a、b、c 三个的批量推理任务和d、e 两个在线推理任务。则您每天a、b、c 批量推理共用 10B token 配额，d 、e 共用在线推理任务 TPM、RPM 限流额度。

方舟对批量推理设置配额的原则是保障用户间资源分配的公平性，防止滥用或误用接口造成平台过载而服务中断。如您业务需要每天处理更多数据，可通过提工单方式申请。
您可以提交超出配额的任务量，当方舟平台有空闲资源，将动态扩展您的配额量。
TPD的时间计算窗口为24小时滑动窗口，一次短时高并发请求影响后续24小时的配额，与固定窗口相比，您请注意请求分布的均匀性。
账号配额，默认每个模型 10B Tokens / 天，可通过提工单方式申请提额。