部署方式概述--火山方舟大模型服务平台-火山引擎

文档中心

火山方舟大模型服务平台

部署方式

部署方式概述

部署方式概述

火山方舟按照业务场景、资源优先级支持多种模型部署方式，本文介绍各种部署方式的特点，方便用户进行选型。

说明

如果您是新用户，或者希望快速验证模型效果，直接通过 Model ID 调用方舟模型即可（方舟会自动匹配对应模型的预置推理服务，无需额外部署），详情参见快速入门。

选择建议

一般业务场景，选择常规在线推理（按Token付费）即可，不调用不计费。
对时延、并发有更高的要求，推荐使用低延迟在线推理（TPM保障包）。
希望独占算力资源，实现低成本高性能的大规模在线推理，推荐使用模型单元。
可以接受天级别的响应延迟，推荐使用批量推理，成本可降低一半。
没有明确使用的模型，希望按照成本/性能等选择最优模型，推荐使用智能模型路由。
已在 MLP 平台部署模型服务，希望通过火山方舟平台统一调用，请参见通过火山方舟使用 MLP 推理服务。
部署自定义模型，请参见使用自定义模型进行推理。

部署方式对比

部署方式	常规在线推理（按Token计费）	低延迟在线推理（TPM保障包）	模型单元	批量推理	智能模型路由
简介	部署在公共资源池，按模型调用量计费，使用受平台资源水位影响。	平台预留资源，保障模型请求并发达到一定 TPM（ Tokens Per Minute），溢出部分可叠加按 Token 计费	独占算力资源，精调后模型在线推理的高保障方案	请求无需实时响应，价格是常规在线推理的一半	动态分析用户请求，根据路由策略智能选择调用的模型，适用于在线推理场景
主要优势	按模型推理时消耗的Token数量进行后付费，不调用不计费，成本灵活可控	提供超低延迟保障以及超过默认限流额度的并发超出部分自动降级为按 Token 付费，既保障可预估的流量，又对临时流量有一定缓冲能力	独占算力，性能更稳定可靠灵活度高，可支持更多复杂场景，满足更多特殊延迟、并发需求	配额高，一次性离线处理大量数据，且成本更低	自动匹配最优模型，简化选型，上手成本低支持成本优先、效果优先等路由策略，满足多样化需求
支持模型	平台基础模型 Lora精调后模型 MLP 推理服务（方舟不计费）	平台基础模型	平台基础模型全量/Lora精调模型上传的自定义模型	平台基础模型全量/Lora精调模型	平台基础模型
适用场景	追求高性价比，对延迟和并发要求相对较低可接受偶发资源紧张报错或无法预估准确流量的业务	追求更低延迟，更高并发可预估流量大小的高流量业务无法接受偶发的资源紧张报错的业务	全量精调后模型的大规模推理业务生产级高SLA要求的场景，拥有极致的灵活性和成本效益	用户无需关注单次请求的执行情况，适合模型评测、批量回归等数据量较大的场景	希望智能选择最合适的模型希望在保证一定效果的同时，通过部分请求路由到小模型来降低成本
计费方式	计算Token使用量不调用不计费	按输入和输出分别购买TPM额度按天预付费按购买时长后付费	购买模型单元个数按月预付费按购买时长后付费	计算Token使用量不调用不计费	计算Token使用量对实际路由的模型按Token调用量计费，不调用不计费 router模型暂不收费
价格比较	低	中	高	最低，价格是在线推理按Token费用的一半	低

附：推理接入点介绍

推理接入点是用户调用模型进行推理的入口。按照类型分为：

预置推理接入点：当用户凭借 Model ID 调用火山方舟模型时，系统会自动匹配对应模型的预置推理服务；若不存在，则自动创建。适合新手使用、功能测试或轻量级使用场景。
自定义推理接入点：由用户主动创建。推理场景的所有部署方式，均通过创建推理接入点来实现。功能更强大，适合各种业务场景。

类别	功能/特性	预置接入点	自定义推理接入点
部署方式	常规在线推理（按Token计费）	直接调用无需部署	√
	低延迟在线推理（TPM保障包）	×	√
	模型单元	×	√
	智能模型路由	×	√
	批量推理	×	√
在线推理	API 调用	通过 Model ID 或 Endpoint ID 调用	通过 Endpoint ID 调用
	支持模型	火山方舟基础模型	火山方舟基础模型和精调模型
	模型版本平滑切换	×	√
	配置接入点限流	√	√
	开启/停用接入点	×	√
	查看监控	√	√
	安全审计（会话、传输加密）	√	√
	细粒度权限管理（项目、标签）	×	√
应用实验室	零代码应用	√	√
应用实验室	高代码应用	√	√
模型评测	模型评测	×	√
数据投递	数据投递	×	√

最近更新时间：2025.12.18 12:27:57

这个页面对您有帮助吗？

有用

有用

无用

无用