常规在线推理--火山方舟-火山引擎

文档中心

立即注册

火山方舟

部署方式

常规在线推理

常规在线推理（按Token付费）部署在公共资源池，按Token付费，成本灵活可控，是个人开发者或小型业务的首选。本文介绍常规在线推理的主要优势、支持模型、部署流程等内容。

主要特点

按模型推理时消耗的Token数量进行后付费，不调用不计费
延迟和并发一般，与账号下该模型所有接入点共享模型限流
部署在公共资源池，业务的延迟和并发性能受平台资源水位影响

适用场景

新手使用火山方舟平台
个人开发者或小型业务
追求高性价比，对延迟和并发要求相对较低
可接受偶发资源紧张报错或无法预估准确流量的业务

支持模型

方舟平台所有基础模型
Lora精调后模型

部署流程

如果业务对于延时有需求，请通过工单提需求。

1 创建推理接入点

访问方舟控制台-在线推理，切换到 自定义推理接入点 页签，单击 创建推理接入点。
在打开的页面中填写接入点名称，选择模型类型，并选择接入模式为 按Token付费。
勾选协议，并单击 创建并接入。创建完成后进入 调度中 状态，当状态变成健康后，可正常调用。

2 获取 Endpoint ID

在在线推理页面查看并复制推理接入点 Endpoint ID。

3 通过 Endpoint ID 调用模型

典型示例代码如下，更多示例代码可参见模型调用章节。

# 安装 sdK 参见 https://www.volcengine.com/docs/82379/1541595
import os
from volcenginesdkarkruntime import Ark

client = Ark(
    base_url='https://ark.cn-beijing.volces.com/api/v3',
    api_key=os.getenv('ARK_API_KEY'),
)

response = client.responses.create(
    model="doubao-seed-1-6-251015",
    input="hello"
)
print(response)

最近更新时间：2025.12.18 11:58:37

这个页面对您有帮助吗？

有用

无用

火山方舟

1 创建推理接入点 #

2 获取 Endpoint ID #

3 通过 Endpoint ID 调用模型 #

1 创建推理接入点

2 获取 Endpoint ID

3 通过 Endpoint ID 调用模型