火山方舟按照业务场景、资源优先级支持多种模型部署方式,本文介绍各种部署方式的特点,方便用户进行选型。
说明
如果您是新用户,或者希望快速验证模型效果,直接通过 Model ID 调用方舟模型即可(方舟会自动匹配对应模型的预置推理服务,无需额外部署),详情参见 快速入门。
部署方式 | 常规在线推理 | 低延迟在线推理 | 模型单元 | 批量推理 | 智能模型路由 |
|---|---|---|---|---|---|
简介 | 部署在公共资源池,按模型调用量计费,使用受平台资源水位影响。 | 平台预留资源,保障模型请求并发达到一定 TPM( Tokens Per Minute),溢出部分可叠加按 Token 计费 | 独占算力资源,精调后模型在线推理的高保障方案 | 请求无需实时响应,价格是常规在线推理的一半 | 动态分析用户请求,根据路由策略智能选择调用的模型,适用于在线推理场景 |
主要优势 | 按模型推理时消耗的Token数量进行后付费,不调用不计费,成本灵活可控 |
|
| 配额高,一次性离线处理大量数据,且成本更低 |
|
支持模型 |
| 平台基础模型 |
|
| 平台基础模型 |
适用场景 |
|
|
| 用户无需关注单次请求的执行情况,适合模型评测、批量回归等数据量较大的场景 |
|
计费方式 | 计算Token使用量 | 按输入和输出分别购买TPM额度
| 购买模型单元个数
| 计算Token使用量 | 计算Token使用量
|
价格比较 | 低 | 中 | 高 | 最低,价格是在线推理按Token费用的一半 | 低 |
推理接入点是用户调用模型进行推理的入口。按照类型分为:
类别 | 功能/特性 | 预置接入点 | 自定义推理接入点 |
|---|---|---|---|
部署方式 | 常规在线推理(按Token计费) | 直接调用无需部署 | √ |
低延迟在线推理(TPM保障包) | × | √ | |
模型单元 | × | √ | |
智能模型路由 | × | √ | |
批量推理 | × | √ | |
在线推理 | API 调用 | 通过 Model ID 或 Endpoint ID 调用 | 通过 Endpoint ID 调用 |
支持模型 | 火山方舟基础模型 | 火山方舟基础模型和精调模型 | |
模型版本平滑切换 | × | √ | |
配置接入点限流 | √ | √ | |
开启/停用接入点 | × | √ | |
查看监控 | √ | √ | |
安全审计(会话、传输加密) | √ | √ | |
细粒度权限管理(项目、标签) | × | √ | |
应用实验室 | 零代码应用 | √ | √ |
高代码应用 | √ | √ | |
模型评测 | 模型评测 | × | √ |
数据投递 | 数据投递 | × | √ |