You need to enable JavaScript to run this app.
导航
常规在线推理(按Token付费)
最近更新时间:2025.12.16 23:39:51首次发布时间:2025.12.16 23:39:51
复制全文
我的收藏
有用
有用
无用
无用

常规在线推理部署在公共资源池,按Token付费,成本灵活可控,是个人开发者或小型业务的首选。本文介绍常规在线推理的主要优势、支持模型、部署流程等内容。

主要特点
  • 按模型推理时消耗的Token数量进行后付费,不调用不计费
  • 延迟和并发一般,与账号下该模型所有接入点共享模型限流
  • 部署在公共资源池,业务的延迟和并发性能受平台资源水位影响

适用场景
  • 新手使用火山方舟平台
  • 个人开发者或小型业务
  • 追求高性价比,对延迟和并发要求相对较低
  • 可接受偶发资源紧张报错或无法预估准确流量的业务

支持模型
  • 方舟平台所有基础模型
  • Lora精调后模型

部署流程

如果业务对于延时有需求,请通过工单提需求。

1 创建推理接入点

  1. 访问方舟控制台-在线推理,切换到 自定义推理接入点 页签,单击 创建推理接入点
  2. 在打开的页面中填写接入点名称,选择模型类型,并选择接入模式为 按Token付费
  3. 勾选协议,并单击 创建并接入。创建完成后进入 调度中 状态,当状态变成 健康 后,可正常调用。

2 获取 Endpoint ID

在线推理页面 查看并复制推理接入点 Endpoint ID。

3 通过 Endpoint ID 调用模型

典型示例代码如下,更多示例代码可参见模型调用章节。

# 安装 sdK 参见 https://www.volcengine.com/docs/82379/1541595
import os
from volcenginesdkarkruntime import Ark

client = Ark(
    base_url='https://ark.cn-beijing.volces.com/api/v3',
    api_key=os.getenv('ARK_API_KEY'),
)

response = client.responses.create(
    model="doubao-seed-1-6-251015",
    input="hello"
)
print(response)