You need to enable JavaScript to run this app.
火山方舟大模型服务平台

火山方舟大模型服务平台

复制全文
部署方式
部署方式概述
复制全文
部署方式概述

火山方舟按照业务场景、资源优先级支持多种模型部署方式,本文介绍各种部署方式的特点,方便用户进行选型。

说明

如果您是新用户,或者希望快速验证模型效果,直接通过 Model ID 调用方舟模型即可(方舟会自动匹配对应模型的预置推理服务,无需额外部署),详情参见 快速入门

选择建议

Image

部署方式对比

部署方式

常规在线推理
(按Token计费)

低延迟在线推理
(TPM保障包)

模型单元

批量推理

智能模型路由

简介

部署在公共资源池,按模型调用量计费,使用受平台资源水位影响。

平台预留资源,保障模型请求并发达到一定 TPM( Tokens Per Minute),溢出部分可叠加按 Token 计费

独占算力资源,精调后模型在线推理的高保障方案

请求无需实时响应,价格是常规在线推理的一半

动态分析用户请求,根据路由策略智能选择调用的模型,适用于在线推理场景

主要优势

按模型推理时消耗的Token数量进行后付费,不调用不计费,成本灵活可控

  • 提供超低延迟保障以及超过默认限流额度的并发
  • 超出部分自动降级为按 Token 付费,既保障可预估的流量,又对临时流量有一定缓冲能力
  • 独占算力,性能更稳定可靠
  • 灵活度高,可支持更多复杂场景,满足更多特殊延迟、并发需求

配额高,一次性离线处理大量数据,且成本更低

  • 自动匹配最优模型,简化选型,上手成本低
  • 支持成本优先、效果优先等路由策略,满足多样化需求

支持模型

  • 平台基础模型
  • Lora精调后模型
  • MLP 推理服务(方舟不计费)

平台基础模型

  • 平台基础模型
  • 全量/Lora精调模型
  • 上传的自定义模型
  • 平台基础模型
  • 全量/Lora精调模型

平台基础模型

适用场景

  • 追求高性价比,对延迟和并发要求相对较低
  • 可接受偶发资源紧张报错或无法预估准确流量的业务
  • 追求更低延迟,更高并发
  • 可预估流量大小的高流量业务
  • 无法接受偶发的资源紧张报错的业务
  • 全量精调后模型的大规模推理业务
  • 生产级高SLA要求的场景,拥有极致的灵活性和成本效益

用户无需关注单次请求的执行情况,适合模型评测、批量回归等数据量较大的场景

  • 希望智能选择最合适的模型
  • 希望在保证一定效果的同时,通过部分请求路由到小模型来降低成本

计费方式

计算Token使用量
不调用不计费

按输入和输出分别购买TPM额度

  • 按天预付费
  • 按购买时长后付费

购买模型单元个数

  • 按月预付费
  • 按购买时长后付费

计算Token使用量
不调用不计费

计算Token使用量

  1. 对实际路由的模型按Token调用量计费,不调用不计费
  2. router模型暂不收费

价格比较

最低,价格是在线推理按Token费用的一半

附:推理接入点介绍

推理接入点是用户调用模型进行推理的入口。按照类型分为:

  • 预置推理接入点:当用户凭借 Model ID 调用火山方舟模型时,系统会自动匹配对应模型的预置推理服务;若不存在,则自动创建。适合新手使用、功能测试或轻量级使用场景。
  • 自定义推理接入点:由用户主动创建。推理场景的所有部署方式,均通过创建推理接入点来实现。功能更强大,适合各种业务场景。

类别

功能/特性

预置接入点

自定义推理接入点

部署方式

常规在线推理(按Token计费)

直接调用无需部署

低延迟在线推理(TPM保障包)

×

模型单元

×

智能模型路由

×

批量推理

×

在线推理

API 调用

通过 Model ID 或 Endpoint ID 调用

通过 Endpoint ID 调用

支持模型

火山方舟基础模型

火山方舟基础模型和精调模型

模型版本平滑切换

×

配置接入点限流

开启/停用接入点

×

查看监控

安全审计(会话、传输加密)

细粒度权限管理(项目、标签)

×

应用实验室

零代码应用

高代码应用

模型评测

模型评测

×

数据投递

数据投递

×

最近更新时间:2025.12.18 12:27:57
这个页面对您有帮助吗?
有用
有用
无用
无用