You need to enable JavaScript to run this app.
导航
创建模型单元
最近更新时间:2025.12.17 01:32:50首次发布时间:2025.12.16 23:39:51
复制全文
我的收藏
有用
有用
无用
无用

本文介绍如何创建模型单元,帮助用户完成模型单元部署和调用。

部署流程

如果业务对于延时有需求,请通过工单提需求。

1 创建推理接入点

  1. 访问方舟控制台-在线推理,切换到 自定义推理接入点 页签,单击 创建推理接入点
  2. 在打开的页面中填写接入点名称,选择模型类型,并选择接入模式为 模型单元
  3. 根据业务流量情况选择计费类型、部署模板,使用 单元计算器 预估需要购买的机型单元数量,并 申请配额

    说明

    建议您打开右上角 创建说明 开关,帮助您了解每个配置项的使用场景和含义。

  4. 勾选协议,并单击 创建并接入
  5. 创建完成后进入 调度中 状态,大约需要等待5-10分钟,当状态变成 健康 后,可正常调用。

2 获取 Endpoint ID

在线推理页面 查看并复制推理接入点 Endpoint ID。

3 通过 Endpoint ID 调用模型

典型示例代码如下,更多示例代码可参见模型调用章节。

# 安装 sdK 参见 https://www.volcengine.com/docs/82379/1541595
# 文本生成支持 Chat API,暂不支持 Responses API
import os
from volcenginesdkarkruntime import Ark
client = Ark(
    api_key=os.environ.get("ARK_API_KEY"),
    # The base URL for model invocation
    base_url="https://ark.cn-beijing.volces.com/api/v3",
    )
completion = client.chat.completions.create(
    # Replace with your endpoint ID
    model="ep-2025****-**", 
    messages=[
        {"role": "user", "content": "Hello"}
    ]
)
print(completion.choices[0].message)

弹性伸缩

规则介绍

后付费模型单元,支持配置弹性伸缩规则,帮助您根据业务负载动态调整模型单元的数量,进一步提升资源利用率并降低成本。

  • 购买数量:根据预算和业务并发,配置最小单元数和最大单元数,实际模型单元数量会在这个范围内波动。注意最大和最小单元数都是步长的整数倍,不同机型支持的步长不同,具体请参见控制台提示。
  • 延迟和并发档位:控制模型单元根据业务负载进行弹性伸缩的触发条件。 控制台会显示每个档位对应的单个模型单元的延迟 (TTFT/TPOT) 与 吞吐(TPS) 预估,供您参考选择合适业务需求的档位。 档位越低,响应越快,但并发也越低,越容易触发弹性伸缩,相应地资源调整会更频繁。

说明

  • TTFT:Time To First Token,从请求发送到生成首个 token 的耗时
  • TPOT:Time Per Output Token,在首个 token 输出之后,生成每个后续 token 所需的平均时间
  • TPS:Tokens Per Second,每秒处理的 token 数量(包括输入和输出),反应角色吞吐

Image

配置示例

  • 最小单元数量:0
  • 最大单元数量:4(仅参考,实际需覆盖业务最大流量)
  • 延迟与并发档位:根据实际并发和延迟需求选择
  • 勾选 智能唤醒与休眠,设置 xx 时间无流量后,模型单元自动缩零,停止计费。后续有流量时,模型单元将自动恢复运行,注意从 0 扩展到 1 时,冷启动可能需要几分钟时间。最小单元数为 0 的部署在 7 天无流量后会自动删除。

说明:智能唤醒与休眠当前为邀测功能,如需使用,请提交工单

使用限制
  • 模型单元预计可承载性能(Tokens Per Second,TPS)基于平台标准化性能测试得出(输入长度约 3000 Tokens,输出长度约 300 Tokens,缓存命中率为 0)。资源实际承载力影响因素较多,建议购买后使用您业务的真实流量进行压测,确定模型单元的实际吞吐。
  • Lora精调后的模型推理性能相较平台预置模型的推理会有一定程度的降低。
  • 仅支持通过 对话(Chat) API 调用模型,暂不支持 Response API。
  • 不支持上下文缓存 Context API。
  • 不支持结构化输出功能( response_format.type 无法设置为 json_objectjson_schema )。

常见问题

请参见模型单元