You need to enable JavaScript to run this app.
导航
模型服务计费说明
最近更新时间:2025.09.05 18:49:51首次发布时间:2025.04.28 12:03:54
复制全文
我的收藏
有用
有用
无用
无用

本文为您介绍火山方舟平台模型服务不同功能的计费方式、计费逻辑、计费项等内容。如需查询各模型的计费公式及单价请参考 模型服务价格

在线推理计费

在线推理功能支持以下 3 种计费方式,下表为您详细对比 3 种计费方式适用的场景、功能、模型、优势等内容,供您进行选型。

计费方式选择

对比项

按 token 后付费

TPM 保障包

模型单元(邀测)

简介

根据模型推理时消耗的 token 数量进行后付费。

TPM 保障包是针对某个特定模型以及版本保障请求并发达到一定 TPM( Tokens Per Minute)的计费模式。

模型单元提供专属算力,对精调后模型表现更优。

适用场景

说明

SLA(Service Level Agreement,服务等级协议)和延迟要求相对低

  • 新用户开始使用方舟。
  • 可接受偶发资源紧张报错的业务,或无法预估准确流量的业务。
  • 业务并发度低于平台提供的默认限流值。

说明

SLA 要求高,延迟低,并发大

  • 适合生产级别、流量大小可预估的在线业务。对算力资源确定性要求高,无法接受偶发的资源紧张报错。
  • 业务并发量高,超过平台提供的最大限流额度。
  • 希望获得比常规按 token 计费更低的延迟。

说明

精调后模型的高保障方案

  • 适合生产级别业务,对算力资源确定性要求非常高。
  • Lora 精调后的模型,期望在推理时获得更低延迟。
  • 使用全量精调后的模型推理。
  • 有特殊的延时、并发需求。

适用功能

基础模型在线推理
Lora精调后模型在线推理

基础模型在线推理

基础模型在线推理
全量/Lora精调后模型在线推理

主要优势

购买非常灵活,按 token 消耗量后付费。

  • 并发能力确定性强,平台预留资源,不必担心平台整体水位对自身业务的影响。
  • 可叠加按 token 计费使用,既保障可预估的流量,又对临时流量有一定缓冲能力。
  • 购买相对灵活,支持按天预付费,按小时后付费购买
  • 独占算力,算力资源确定性强
  • 灵活度高,可支持更多复杂场景,满足更多特殊延迟、并发需求。
  • 购买方式一般灵活:支持按月预付费,按小时后付费。

支持模型

  • 方舟平台所有模型
  • 基于豆包系列模型 Lora 精调后的模型
  • 豆包、Deepseek 系列模型
  • 部分豆包模型
  • 基于部分豆包模型精调后的模型

价格比较

服务承诺

不对并发能力(TPM)进行承诺

对成功购买的保障包内,保障 token 并发(TPM)

平台提供的算力,可以保障平台预置数据集在相同配置下压测得出低于一定延时的并发

计费特点

计算token使用量
按量后付费:不调用不计费

购买“TPM 额度”

  • 按天预付费
  • 按小时后付费:根据购买时长计费,不调用也会收费。

购买 “个”模型单元

  • 按月预付费
  • 按小时后付费:根据购买时长计费,不调用也会收费。

起购时长

-

预付费 1 天起购

预付费 1 个月起购

按 token 后付费

按 token 后付费,统计模型进行实时推理服务时消耗的 token 数量,按量后付费。

说明

在线推理支持多种计费方式。本篇主要介绍按 token 后付费的计费方式,其他计费方式请移步 TPM 保障包 模型单元(邀测)

计费项

不同模型服务的计费项不同,具体请参考 模型服务价格

  • 推理输入:将推理输入的内容(包括但不限于文字、图片)转化为 token 数进行计费,对应prompt_token
  • 推理输出:将推理输出的内容(包括但不限于文字、图片)转化为 token 数进行计费,对应completion_token

开启上下文缓存功能后,会增加以下计费项。更多信息请参见 上下文缓存

  • 缓存命中:若您的请求被系统判断命中了 Cache,被命中的 token 会按照 cached_token 来计费,价格低于prompt_token单价;未被命中的 token 仍按照prompt_token计费。
  • 缓存存储:缓存上下文信息产生的存储费用。存储按小时计费,基于每个自然小时内存储的最大 token 数。

计费说明

  • 免费额度:用于抵扣按 token 后付费场景下,在线推理服务消耗的 token。在免费额度内,实时调用不收费。可在 开通管理页 查看每个模型的剩余额度。
  • 计费单价查看价格
  • 如何付费:出具账单后实时结算扣款 充值入口

批量推理计费

计费方式

按 token 后付费,统计模型进行批量推理服务时消耗的 token 数量,按量后付费。

计费项

不同模型服务的计费项不同,具体请参考 模型服务价格

  • 推理输入:将推理输入的内容(包括但不限于文字、图片)转化为 token 数进行计费,对应prompt_token
  • 推理输出:将推理输出的内容(包括但不限于文字、图片)转化为 token 数进行计费,对应completion_token

部分模型在2025年4月14日21:00开始支持透明前缀缓存能力,您无需任何配置,即可享受前缀缓存技术应用带来的费用降低。

  • 缓存命中:若您的请求被系统判断命中了 Cache,被命中的 token 会按照 cached_token 来计费,价格是prompt_token单价的 4 折;未被命中的 token 仍按照prompt_token计费。

计费说明

  • 免费额度:批量推理功能不支持免费额度抵扣。
  • 计费单价查看价格
  • 如何付费:出具账单后实时结算扣款

精调计费

计费方式

模型训练一般包括以下两种计费模式,不同模型在不同训练方法下支持不同的计费模式,具体支持情况以控制台显示为准。

  • 按 token 后付费:统计模型进行训练时消耗的 token 数量,按量后付费。
  • 按算力付费:根据模型训练所使用的算力资源情况,按训练过程中实际消耗的“模型单元数*小时数”计费(每种型号的模型单元对应特定的算力资源)。

计费项

  • 按 token 后付费:统计模型进行训练时消耗的 token 数量。
  • 按算力付费:根据模型训练所占用的算力资源类型以及使用时长,按照既定的算力单价进行费用计算。平台会根据任务的训练配置推荐对应的部署模版。每个部署模版包含若干台指定型号的模型单元,展示的价格为使用该部署模版训练一小时所耗费的价格,即 模型单元数*单模型单元小时单价。

    说明

    在按算力付费的训练过程中,模型部署、产物导出同步以及模型训练阶段(强化学习包含train、rollout、reward计算等环节)将按耗时计费,而数据预处理、训练排队、训练完成、失败阶段不计费。针对手动停止和最终失败的任务,则依据停止时的实际耗时计费。

计费说明

  • 免费额度:精调功能不支持免费额度抵扣。
  • 计费单价查看价格
  • 如何付费:出具账单后实时结算扣款 充值入口

出账周期

为提升费用结算的时效性与用户体验,将对部分模型服务功能的出账周期模式进行升级,将现有的按小时计费模式,升级为准实时计费模式

说明

本次服务升级将于2025年9月11日至9月30日分批完成,逐步覆盖所有线上客户账号。
升级过程中您的服务不会受影响,账单出具时间请以系统实际出账为准。

出账周期模式比对

现有按小时计费

升级准实时计费

每小时出具上一小时费用账单。
账单出账时间通常在当前计费周期结束后的1-2小时左右,具体以系统实际出账时间为准。
例如:16:00-17:00 的账单预计在 18:00-19:00 出账。

每5分钟出具上一计费周期费用账单。
账单出账时间通常在当前计费周期结束后的5-10分钟左右,具体以系统实际出账时间为准。
例如:16:00–16:05 的账单预计在 16:10–16:15出账。

说明

火山引擎为您提供按小时计费与准实时计费两种模式,该等计费及出账方式旨在协助您更高效、及时地查看账单信息。
如因技术原因导致出账时间延迟,敬请谅解,出账时间和周期均以平台实际执行为准。如您因使用该计费模式而造成损失,火山引擎免责。

模型服务不同功能的出账周期

模型服务功能

计费方式

计费项

出账周期模式

在线推理(包括精调后推理)

按token后付费

推理输入

升级准实时计费

推理输出

升级准实时计费

缓存命中

升级准实时计费

缓存存储

按小时计费

TPM 保障包

参考TPM 保障包计费说明

参考TPM 保障包计费说明

模型单元

参考模型单元计费说明

参考模型单元计费说明

批量推理

按token后付费

推理输入

升级准实时计费

推理输出

升级准实时计费

缓存命中

升级准实时计费

精调

按 token 后付费

按 token 后付费

按小时计费

按算力付费

按算力付费

按小时计费

欠费说明

注意

火山方舟于 2025年7月16日00:00:00 启用新的模型服务欠费规则:由 出具账单后欠费2小时以上关停 变更为 欠费1分钟即关停。如需保障稳定的线上服务,可开启 延期免停权益

后付费账单按小时结算,出具账单后实时结算扣款。如果您账户中的可用额度(含账户余额和代金券)小于待结算的账单,会被认为欠费。

欠费时长

说明

欠费时长 ≤ 1 分钟

您可以正常使用火山方舟模型服务,火山方舟按照您的具体使用量出具账单。

说明

如需延长免停时长,可参考 延期免停权益说明
如果希望严格控制费用预期,避免推账、关停延迟带来的额外花销,可为模型设置推理限额。当调用量达到推理限额后,平台会为您自动关停对应的模型服务。详情可参考 推理限额设置

欠费时长 > 1 分钟

平台会给您发送相关通知,并 关停服务。账号下的所有火山方舟相关模型服务将无法正常使用。

警告

  • 对于按小时后付费的模型单元和TPM保障包,欠费关停阶段,资源会继续保留,依然会产生费用。欠费24小时后,将回收资源停止计费。如果确定不再使用服务,希望立刻停止计费,请在接入点详情页进行 退订
  • 请及时补缴所有欠费账单以避免服务中断带来的影响。请前往 火山引擎费用中心 进行充值,详细操作参见 充值操作指引

常见问题

什么是 token?如何计算 token 数量?
模型推理请求报错或者中断会计费么?
精调任务失败会计费吗?
手动停止精调任务会计费吗?
账户欠费后如何充值?
为什么我的账户欠费后仍在持续出账?
如何按 Endpoint ID 或精调任务 ID 分账?