方舟侧于2025年5月对模型单元能力进行了升级:在独占算力的基础上,新增分离式部署和弹性扩缩容能力,支持用户根据业务并发、延迟、成本要求灵活选择最适合自己的资源模式。本文为您介绍模型单元的主要优势、支持模型、购买说明等内容。
适用场景
典型的应用场景如下:
- 线上生产业务,对资源确定性要求高,希望在流量峰值必须保障资源。
- 模型经过 LoRA 精调后,在推理时获得更低延迟。
- 模型经过全量精调后,在推理时获得更低延迟。
- 实际业务并发高,TPM、RPM(Request per Minute,单位时间请求量)超过方舟平台默认的限定值。
主要优势
新版模型单元主要用于 精调后模型的大规模推理。
- 超高灵活度,允许用户按照业务并发、延迟、成本要求灵活选择最适合自己的资源模式。
新增
多种部署方式:可以选择单机部署、双机型分离式部署、三机型分离式部署等多种部署模板。新增
灵活选择方舟的机型:不同的机型具有不同的推理特征和使用场景,用户可以在方舟上选择不同的机型。- 两种计费类型:对固定业务,可以选择包月资源;对周期性波动流量的用户或临时使用用户可以选择按小时付费。同时还可以叠加两种计费项。
新增
自定义弹性系数:每种部署模版都支持了多种弹性系数,您可以按照弹性系数定义自己的弹性规则冗余度,实现个性化的延迟需求。同时支持 TTFT(Time To First Token)和TPOT(Time Per Output Token)的延迟定义。
- 极致降本,支持灵活的弹性伸缩策略,避免业务低谷期资源浪费。
新增
支持弹性伸缩规则,大幅降低了资源消耗,为用户夜间节约成本。- 支持按月和按小时两种计费模式,灵活组合,减少资源浪费。
新增
模型单元默认支持本地透明化缓存,命中缓存后增加单资源的承载力,降低总购买资源数。
支持模型
对于 doubao 1.5 及之后版本的模型,默认支持模型单元。实际支持模型情况,以控制台显示为准。
使用说明
- 模型单元预计可承载性能(Tokens Per Second,TPS)是按照输入:输出 = 10:1 的数据压测得到。资源实际承载力影响因素较多,建议购买后使用您业务的真实流量进行压测,确定模型单元的实际吞吐。
- Lora精调后的模型推理性能相较平台预置模型的推理会有一定程度的降低。
计费说明
新版模型单元按照您选择的机型和使用时长进行收费,支持按小时后付费和包月预付费,两种方式可叠加购买,单价请参见 模型单元(新版)。
后付费(按小时)
按照实际购买时长付费,精确到秒,适合短期、弹性需求,避免浪费
- 计费特点:按照实际购买时长收费,计费粒度精确到秒。购买后持续计费,如需停止计费可在接入点详情页进行退订。
举例:假设您在16:00下单成功,在18:20:31退订成功。则计费时长为 2 小时 2 分钟 31 秒,计费单价会换算成每秒钟单价进行计算。
- 计费粒度:秒。不足一秒按一秒计算。
- 出账周期:按小时结算,账单出账时间通常在当前计费周期结束后1-2小时左右,具体以系统实际出账时间为准。例如:16:00-17:00 的账单约在 18:00-19:00 出账。
- 欠费说明:欠费后,资源会继续保留,依然会产生费用。欠费24小时后,将回收资源并停止计费。请及时续费或销毁资源。
预付费(按月)
按月预留资源,享受更优惠价格,适合中长期稳定需求
- 生效时间:购买后,按照自然日立即生效。
- 到期时间:从购买日算起,到期时间为到期自然日+1 天的中午 12 点。7 天内到期的模型单元会出现到期提醒。
- 到期回收:资源到期后将被回收,您可以在资源被回收前在方舟产品控制台或订单管理页面进行续费,回收时间为到期时间+ 24 小时。即如您在4月13日上午9点购买一个月的模型单元,到期时间为 5月14日中午12点,到期回收时间为5月15日中午12点。 在 5月15日中午12 点之前都可以进行续费。在回收期结束后,模型单元无法续费,您需要重新创建一个推理接入点来满足继续使用的需求。
- 续费说明:强烈推荐您为资源配置自动续费,以避免由于未配置自动续费导致的业务中断。
购买流程
申请测试新版模型单元功能。
访问方舟控制台-在线推理,切换到 自定义推理接入点 页签,单击 创建推理接入点。
在打开的页面中填写接入点名称,选择模型类型,并选择购买方式为 按模型单元付费。
如果您无法购买,请按照控制台上的提示提交工单申请。

- 根据控制台提示预估需要购买的模型单元数量,并提交工单申请配额。配置项参数说明详见 配置参数。
- 勾选协议,并单击 确认接入,完成下单。
配置参数

配置名称 | 配置说明 |
---|
购买方式 | 必填,本场景选择 按模型单元付费。 |
计费类型 | 选择计费类型。 - 后付费(按小时):按照模型单元运行时长付费,适合模型推理服务波动较大或者无法预测的场景,使用更加灵活。
说明 购买后付费模型单元的前提是账号中的余额大于 100 元,否则无法成功下单。 - 预付费(按月):按月预留资源,提供更优惠价格,适合模型推理服务波动较小,可预测的场景。
- 组合使用:预付费模型单元和后付费模型单元支持叠加使用。创建推理接入点时只能选择 1 种计费类型,操作叠加购买多种模型单元,需要创建完成推理接入点后,在推理接入点详情页进行配置。
说明 如下图所示,日常有基础访问次数以及在某时间段有高峰期的时段,可以考虑通过预付费方式购买基础访问次数匹配的模型单元以获得优惠价格;再通过购买灵活变动的后付费模型单元,来应对高峰期的超出基础次数的模型服务请求。  |
部署方式 | 选择部署方式。方舟平台为不同的模型提供了不同的部署模板。
以 doubao-1.5-pro-32k-250115 模型为例,支持单机部署和分离式部署。 - 单机部署:使用一种机型进行部署。适合业务量起步较小的情况的效果验证。
- 分离式部署:使用两种机型进行组合部署:将大模型的图片和文字、输入和输出分别用单独的资源部署,提升每个位置每个角色的资源利用率,可以进一步的降低成本,降低延迟。性能更强,性价比更高。
|
购买单元 | 配置模型单元的机型和数量。 - 机型选择
- 单机部署时,仅支持选择一种机型。
- 分离式部署时,Decode服务和Prfill服务支持选择不同的机型。
- 购买单元数:控制台会显示您选择的机型单元支持的TPS((Tokens Per Second))和TTFT(Time to First Token)性能,以及单元数的步长规则。您可结合业务需求选择合适的单元数量。
|
弹性规则设置 | **后付费(按小时)**购买模型单元的配置项,选填。
打开弹性规则设置开关后,支持配置弹性伸缩系数和单元数区间。帮助您进一步降低资源使用成本。 - 弹性伸缩系数:不同系数代表不同的延迟和并发水平,可以按照业务需求选择系数,实现个性化的延迟需求。弹性伸缩系数会影响弹性扩缩容的频率和实际费用,弹性伸缩系数越高越容易触发弹性扩缩容。
- 单元数区间:弹性伸缩单元数的上下限。您可以根据预算和业务并发测算最大的单元数,最大和最小单元数都是步长的整数倍。不同机型支持的步长不同,具体请参见控制台提示。
|
定时销毁 | **后付费(按小时)**购买模型单元的配置项,选填。
开启定时销毁后,将在指定时间,对接入点下的模型单元全量销毁。销毁后,模型单元会停止计费。注意谨慎配置,避免影响业务。 |
购买时长 | **预付费(按月)**购买模型单元的配置项,必填。
选择模型单元购买时长,即模型单元包月的时长。 |
自动续费 | **预付费(按月)**购买模型单元的配置项,选填。
费用到期后,是否自动续费。 - 单次续费时长:当开启了自动续费,需要配置单次续费时长,单位:月。
- 自动续费次数:当开启了自动续费,需要配置自动续费执行的次数。支持永久生效和自定义次数。
说明 推荐您开通自动续费,可避免续费不及时导致业务中断。 |
调整数量/续费/退订
- 访问方舟控制台-在线推理,切换到自定义推理接入点页签。
- 单击目标接入点名称,进入接入点概览页。在算力保障区域,根据需要对模型单元进行调整数量、续费或退订。
注意
- 模型单元是按实例组购买的,点击接入点名称详情中复制的模型单元 ID 是实例组 ID,实例组存在强绑定关系,因此续费、退订须同步发起。
- 请注意,未到期的模型单元退订会产生惩罚系数,无法 100%退费。
修改弹性规则
对于按小时后付费的模型单元,支持在接入点详情页修改弹性规则。
- 访问方舟控制台-在线推理,切换到自定义推理接入点页签。
- 单击目标接入点名称,进入接入点概览页。在算力保障区域,修改后付费模型单元的弹性规则。
常见问题
原有模型单元还可以继续购买和使用吗?
模型单元下单后发货时间多久?
下单后系统调度资源,大概需要10分钟左右完成调度,调度完成之前不收取费用。
后付费按小时的模型单元如何保障购买到?
无法完全保障。后付费资源有限,可能出现不同客户业务高峰期相同互相抢占的情况,先买到先得。购买不成功会全额退款。方舟后续会规划购买失败的告警能力。