You need to enable JavaScript to run this app.
导航
模型服务计费说明
最近更新时间:2025.05.12 11:59:08首次发布时间:2025.04.28 12:03:54
我的收藏
有用
有用
无用
无用

本文为您介绍火山方舟平台模型服务不同功能的计费方式、计费逻辑、计费项等内容。如需查询各模型的计费公式及单价请参考 模型服务价格

说明

诚邀您参与有奖问卷调查,助力优化计费文档体验,前100位参与者将获得火山方舟代金券

在线推理计费

在线推理功能支持以下 3 种计费方式,下表为您详细对比 3 种计费方式适用的场景、功能、模型、优势等内容,供您进行选型。

计费方式选择

对比项

按 token 后付费

TPM 保障包

模型单元(邀测)

简介

根据模型推理时消耗的 token 数量进行后付费。

TPM 保障包是针对某个特定模型以及版本保障请求并发达到一定 TPM( Tokens Per Minute)的计费模式。

模型单元提供专属算力,对精调后模型表现更优。

适用场景

说明

SLA(Service Level Agreement,服务等级协议)和延迟要求相对低

  • 新用户开始使用方舟。
  • 可接受偶发资源紧张报错的业务,或无法预估准确流量的业务。
  • 业务并发度低于平台提供的默认限流值。

说明

SLA 要求高,延迟低,并发大

  • 适合生产级别、流量大小可预估的在线业务。对算力资源确定性要求高,无法接受偶发的资源紧张报错。
  • 业务并发量高,超过平台提供的最大限流额度。
  • 希望获得比常规按 token 计费更低的延迟。

说明

精调后模型的高保障方案

  • 适合生产级别业务,对算力资源确定性要求非常高。
  • Lora 精调后的模型,期望在推理时获得更低延迟。
  • 使用全量精调后的模型推理。
  • 有特殊的延时、并发需求。

适用功能

基础模型在线推理
Lora精调后模型在线推理

基础模型在线推理

基础模型在线推理
全量/Lora精调后模型在线推理

主要优势

购买非常灵活,按 token 消耗量后付费。

  • 并发能力确定性强,平台预留资源,不必担心平台整体水位对自身业务的影响。
  • 可叠加按 token 计费使用,既保障可预估的流量,又对临时流量有一定缓冲能力。
  • 购买相对灵活,支持按天预付费,按小时后付费购买
  • 独占算力,算力资源确定性强
  • 灵活度高,可支持更多复杂场景,满足更多特殊延迟、并发需求。
  • 购买方式一般灵活:支持按月预付费,按小时后付费。

支持模型

  • 方舟平台所有模型
  • 基于豆包系列模型 Lora 精调后的模型
  • 豆包、Deepseek 系列模型
  • 部分豆包模型
  • 基于部分豆包模型精调后的模型

价格比较

服务承诺

不对并发能力(TPM)进行承诺

对成功购买的保障包内,保障 token 并发(TPM)

平台提供的算力,可以保障平台预置数据集在相同配置下压测得出低于一定延时的并发

计费单位

token
按量后付费

购买“TPM 额度”
按天预付费
按小时后付费

购买 “个”模型单元
按月预付费
按小时后付费

起购时长

-

预付费 1 天起购

预付费 1 个月起购

按 token 后付费

按 token 后付费,统计模型进行实时推理服务时消耗的 token 数量,按量后付费。

说明

在线推理支持多种计费方式。本篇主要介绍按 token 后付费的计费方式,其他计费方式请移步 TPM 保障包 **** 模型单元(邀测)

计费项

不同模型服务的计费项不同,具体请参考 模型服务价格

  • 推理输入:将推理输入的内容(包括但不限于文字、图片)转化为 token 数进行计费,对应prompt_token
  • 推理输出:将推理输出的内容(包括但不限于文字、图片)转化为 token 数进行计费,对应completion_token

开启上下文缓存功能后,会增加以下计费项。更多信息请参见 上下文缓存

  • 缓存命中:若您的请求被系统判断命中了 Cache,被命中的 token 会按照 cached_token 来计费,价格低于prompt_token单价;未被命中的 token 仍按照prompt_token计费。
  • 缓存存储:缓存上下文信息产生的存储费用。存储按小时计费,基于每个自然小时内存储的最大 token 数。

计费说明

  • 免费额度:用于抵扣按 token 后付费场景下,在线推理服务消耗的 token。在免费额度内,实时调用不收费。可在 开通管理页 查看每个模型的剩余额度。
  • 计费单价查看价格
  • 如何付费:出具账单后实时结算扣款 充值入口

出账周期

按小时结算,账单出账时间通常在当前计费周期结束后1-2小时左右,具体以系统实际出账时间为准。例如:16:00-17:00 的账单约在 18:00-19:00 出账。

批量推理计费

计费方式

按 token 后付费,统计模型进行批量推理服务时消耗的 token 数量,按量后付费。

计费项

不同模型服务的计费项不同,具体请参考 模型服务价格

  • 推理输入:将推理输入的内容(包括但不限于文字、图片)转化为 token 数进行计费,对应prompt_token
  • 推理输出:将推理输出的内容(包括但不限于文字、图片)转化为 token 数进行计费,对应completion_token

部分模型在2025年4月14日21:00开始支持透明前缀缓存能力,您无需任何配置,即可享受前缀缓存技术应用带来的费用降低。

  • 缓存命中:若您的请求被系统判断命中了 Cache,被命中的 token 会按照 cached_token 来计费,价格是prompt_token单价的 4 折;未被命中的 token 仍按照prompt_token计费。

计费说明

  • 免费额度:批量推理功能不支持免费额度抵扣。
  • 计费单价查看价格
  • 如何付费:出具账单后实时结算扣款

出账周期

按小时结算,账单出账时间通常在当前计费周期结束后1-2小时左右,具体以系统实际出账时间为准。例如:16:00-17:00 的账单约在 18:00-19:00 出账。

精调计费

计费方式

按 token 后付费,统计模型进行训练时消耗的 token 数量,按量后付费。

计费项

  • 精调服务:统计模型进行训练时消耗的 token 数量。

计费说明

  • 免费额度:精调功能不支持免费额度抵扣。
  • 计费单价查看价格
  • 如何付费:出具账单后实时结算扣款 充值入口

出账周期

按小时结算,账单出账时间通常在训练任务结束后的1-2小时左右,具体以系统实际出账时间为准。例如:16:00-17:00 的账单约在 18:00-19:00 出账。

欠费说明

后付费账单按小时结算,出具账单后实时结算扣款。如果您账户中的可用额度(含账户余额和代金券)小于待结算的账单,会被认为欠费。

欠费时长

说明

欠费时长 ≤ 2 小时

您可以正常使用火山方舟模型服务,火山方舟按照您的具体使用量出具账单。

说明

为保证企业客户线上服务的稳定,欠费后有2小时的关停延时时长。如需更长免停时长,可参考 延期免停权益说明
如果希望严格控制费用预期,避免推账、关停延迟带来的额外花销,可为模型设置推理限额。当调用量达到推理限额后,平台会为您自动关停对应的模型服务。详情可参考 推理限额设置

欠费时长 > 2 小时

平台会给您发送相关通知,并 关停服务。账号下的所有火山方舟相关模型服务将无法正常使用。

注意

请及时补缴所有欠费账单以避免服务中断带来的影响。请前往 火山引擎费用中心 进行充值,详细操作参见 充值操作指引

常见问题

什么是 token?如何计算 token 数量?
模型推理请求报错或者中断会计费么?
精调任务失败会计费吗?
手动停止精调任务会计费吗?
账户欠费后如何充值?
为什么我的账户欠费后仍在持续出账?
如何按 Endpoint ID 或精调任务 ID 分账?