方舟侧于2025年5月对模型单元能力进行了升级:在独占算力的基础上,新增分离式部署和弹性扩缩容能力,支持用户根据业务并发、延迟、成本要求灵活选择最适合自己的资源模式。本文为您介绍模型单元的主要优势、支持模型、购买说明等内容。
主要优势
模型单元主要用于 精调后模型的大规模推理。
- 提供专属独占算力,性能更稳定可靠。
- 超高灵活度,允许用户按照业务并发、延迟、成本要求灵活选择最适合自己的资源模式。
新增多种部署模板:方舟平台提供多种机型,不同机型提供的算力和适用的模型各异。为了帮助用户快速匹配最佳方案,平台针对不同模型预置了覆盖不同场景的最优部署方案组合。例:单机部署、双机型分离式部署、三机型分离式部署等。用户无需手动配置机型,只需根据实际需求选择对应的模板即可完成部署。- 两种计费类型:对固定业务,可以选择包月资源;对周期性波动流量的用户或临时使用用户可以选择按小时付费。同时还可以叠加两种计费项。
新增自定义弹性系数:每种部署模版都支持了多种弹性系数,您可以按照弹性系数定义自己的弹性规则冗余度,实现个性化的延迟需求。同时支持 TTFT(Time To First Token)和TPOT(Time Per Output Token)的延迟定义。
- 极致降本,支持灵活的弹性伸缩策略,避免业务低谷期资源浪费。
新增支持弹性伸缩规则,大幅降低了资源消耗,为用户夜间节约成本。- 支持按月和按小时两种计费模式,灵活组合,减少资源浪费。
新增模型单元默认支持本地透明化缓存,命中缓存后增加单资源的承载力,降低总购买资源数。
适用场景
典型的应用场景如下:
- 线上生产业务,对资源确定性要求高,希望在流量峰值必须保障资源。
- 模型经过 LoRA 精调后,在推理时获得更低延迟。
- 模型经过全量精调后,在推理时获得更低延迟。
- 实际业务并发高,TPM、RPM(Request per Minute,单位时间请求量)超过方舟平台默认的限定值。
支持模型
支持基础模型、LoRA精调后模型、全量精调后模型的在线推理场景
对于 doubao 1.5 及之后版本的模型,默认支持模型单元。实际支持模型情况,以控制台显示为准。
使用说明
- 模型单元预计可承载性能(Tokens Per Second,TPS)是按照输入:输出 = 10:1 的数据压测得到。资源实际承载力影响因素较多,建议购买后使用您业务的真实流量进行压测,确定模型单元的实际吞吐。
- Lora精调后的模型推理性能相较平台预置模型的推理会有一定程度的降低。
- 模型单元不支持与结构化输出功能一起使用。
计费说明
模型单元按照您选择的机型和使用时长进行收费,支持按小时后付费和包月预付费,两种方式可叠加购买,单价请参见模型单元。
计费方式对比
计费类型 | 后付费 | 预付费 |
|---|
计费特点 | 按实际使用时长计费,精确到秒 | 按月预留资源,享受更优惠价格 |
弹性配置 | 支持 | - |
适合场景 | 适合短期或弹性需求 | 中长期稳定需求 |
后付费(按小时)
- 计费特点:按照实际购买时长收费,计费粒度精确到秒。购买后持续计费,如需停止计费可在接入点详情页进行退订。
举例:假设您在16:00下单成功,在18:20:31退订成功。则计费时长为 2 小时 20 分钟 31 秒,计费单价会换算成每秒钟单价进行计算。
- 计费粒度:秒。不足一秒按一秒计算。
- 出账周期:按小时结算,账单出账时间通常在当前计费周期结束后1-2小时左右,具体以系统实际出账时间为准。例如:16:00-17:00 的账单约在 18:00-19:00 出账。
- 欠费说明:欠费后,资源会继续保留,依然会产生费用。欠费24小时后,将回收资源并停止计费。请及时续费或销毁资源。
预付费(按月)
- 生效时间:购买后,按照自然日立即生效。
- 到期时间:从购买日算起,到期时间为到期自然日+1 天的中午 12 点。7 天内到期的模型单元会出现到期提醒。
- 到期回收:资源到期后将被回收,您可以在资源被回收前在方舟产品控制台或订单管理页面进行续费,回收时间为到期时间+ 24 小时。即如您在4月13日上午9点购买一个月的模型单元,到期时间为 5月14日中午12点,到期回收时间为5月15日中午12点。 在 5月15日中午12 点之前都可以进行续费。在回收期结束后,模型单元无法续费,您需要重新创建一个推理接入点来满足继续使用的需求。
- 续费说明:强烈推荐您为资源配置自动续费,以避免由于未配置自动续费导致的业务中断。
购买流程
申请测试模型单元功能。
访问方舟控制台-在线推理,切换到 自定义推理接入点 页签,单击 创建推理接入点。
在打开的页面中填写接入点名称,选择模型类型,并选择接入模式为 模型单元。

- 使用 单元计算器 预估需要购买的机型单元数量,并 申请配额。
- 配置付费、部署模板、弹性规则等其他配置项。
说明
建议您打开右上角 创建说明 开关,帮助您了解每个配置项的使用场景和含义,轻松完成模型单元的下单。
- 勾选协议,并单击 创建并接入,完成下单。
调整数量/续费/退订
- 访问方舟控制台-在线推理,切换到自定义推理接入点页签。
- 单击目标接入点名称,进入接入点概览页。在算力保障区域,根据需要对模型单元进行调整数量、续费或退订。

注意
- 模型单元是按实例组购买的,接入点名称详情中复制的模型单元 ID 是实例组 ID,实例组存在强绑定关系,因此续费、退订须同步发起。
- 请注意,未到期的模型单元退订会产生惩罚系数,无法 100%退费。
修改弹性规则
对于按小时后付费的模型单元,支持在接入点详情页修改弹性规则。
- 访问方舟控制台-在线推理,切换到自定义推理接入点页签。
- 单击目标接入点名称,进入接入点概览页。在算力保障区域,单击 调整,修改后付费模型单元的弹性规则。
常见问题
请参见模型单元。