自定义推理接入点是用户自主创建的模型调用入口,支持精调模型接入、权限控制、算力保障等高级功能。本文介绍如何创建自定义推理接入点并获取 Endpoint ID。
创建自定义推理接入点
- 访问 方舟控制台-在线推理。
- 在控制台顶部切换需要创建推理接入点的项目空间。
- 在 自定义推理接入点 页签,单击 创建推理接入点。
- 在创建接入点页面,按要求填写 基本信息。
接入来源为火山方舟
火山方舟推理接入点,支持配置以下信息。

- 选择模型:
- 模型广场:模型为基础模型,需进一步选择模型版本。
- 模型仓库:模型为精调模型(当前精调模型仅支持基于豆包系列模型)。
- 选择购买方式:
- 按 Token 付费:根据模型推理时消耗的 token 数量进行后付费。不调用不计费。
- 按模型单元付费:模型单元提供专属算力,对精调后模型表现更优。详细介绍参见 模型单元。
- 开启TPM 保障包:对高流量业务提供资源保障,适合大流量、可预估流量大小,生产级高SLA要求的场景。详细介绍参见 TPM保障包。
- 根据控制台提示配置接入点限流、数据投递等其他配置项。
- 阅读并勾选相关协议,单击 确认接入,完成火山方舟推理接入点创建。
接入来源为机器学习平台
MLP 推理接入点,支持配置以下信息。

- 选择 MLP 推理服务:选择已创建的 MLP 推理服务。
注意
- 当前仅支持将 MLP 侧的 LLM 模型推理服务注册至方舟。
- MLP 侧准备工作如下:
- 已将您训练好的 LLM 模型部署为 在线服务。
- 已在 MLP 全局配置 对火山方舟完成跨服务授权,并添加对应服务。仅管理员账号支持该操作。
- 配置接入点限流信息。请注意,实际的推理服务访问能力将由机器学习平台的对应服务资源总量决定。
- 阅读并勾选相关协议,单击 确认接入,完成 MLP 推理接入点创建。
获取 Endpoint ID
创建成功后,可在 方舟控制台-在线推理 查看并复制推理接入点 Endpoint ID。

调用流程
您可以参考 模型能力的模型代码示例,通过对model
字段赋值 Endpoint ID (推理接入点ID)的方式来发起调用。
import os
from volcenginesdkarkruntime import Ark
# 从环境变量中读取您的方舟API Key
client = Ark(api_key=os.environ.get("<YOUR_API_KEY>"))
completion = client.chat.completions.create(
# 将 <Model> 替换为 Endpoint ID
model="<Model>",
messages=[
{"role": "user", "content": "你好"}
]
)
print(completion.choices[0].message)