You need to enable JavaScript to run this app.
导航
管理推理接入点
最近更新时间:2025.10.30 15:47:48首次发布时间:2023.12.13 22:54:10
复制全文
我的收藏
有用
有用
无用
无用

本文介绍了如何查看和管理模型在线推理接入点(后简称接入点),包括状态监控、API调用、指标告警及安全审计等功能操作。

预置推理接入点和自定义推理接入点的差异详情请查看什么是推理接入点

查看并管理接入点
  1. 登录控制台
  2. (可选)控制台左上方切换项目。
  3. 单击左侧导航栏中的 在线推理 进入列表页。
  4. 在线推理列表页,支持 编辑 / 删除 / 停用 推理接入点;查看接入点状态。

在线推理接入点 状态 说明

参数名称

参数说明

状态

调度中:后台资源正在调度中,可能处于排队状态也可能已经在资源启动中。

健康:接入点状态正常,可正常调用。

健康并不能表示接入点负载情况。调用超过限流,状态会显示健康,但是服务会返回错误。

已停止:当用户触发停止接入操作,或者模型下线时,系统将关停相应的接入点。

异常:接入的模型异常,您可提交工单后台将为您处理。

查看接入点信息

点击接入点名称进入接入点详情页,可查看模型推理接入点的概览信息、API调用、监控、关联应用、安全审计等信息。

概览信息

概览信息中可查看推理接入点的模型信息。

  • 基本信息:接入模型、限流、创建人等信息。
  • 计费信息:计费类型、输入输出价格。
  • 关联的应用。

版本切换

目前,推理服务中的部分模型已支持在同领域模型间跨卡片进行版本切换。具体支持的模型请以控制台显示为准。无需新建并变更接入点,即可更换模型。

注意,模型在价格、限流策略、推理缓存行为以及接口参数等方面可能存在差异,建议您在切换模型版本时充分了解并测试。

版本切换耗时约 1 小时,过程中支持回滚,可按需逐步切回或一步回滚。

监控

基于托管 Prometheus 服务(Volcengine Managed Service for Prometheus,简称VMP)为您提供接入点实时监控功能。

开启监控

具备 ArkStandardGlobalAccess 或 ArkFullAccess 权限的用户,点击一键开启监控按钮后,系统将自动开通监控服务并完成相关配置。
由方舟采集的监控指标不会向客户收取费用,并且会保留近15天的数据。关于VMP的其他收费项目,请参考收费详情页面获取完整信息。
Image

监控详情页面

开启监控后,在监控页面可查看当前推理接入点的监控指标,了解模型调用情况。

  • 支持过滤当前接入点调用的 API 接口、模型名称、模型版本。
  • 支持筛选查询的时间范围。
  • 支持查看 Token 用量、性能、异常统计、推理缓存、TPM保障包等维度的监控指标。(不同领域的模型提供的监控指标不同,下图以深度思考模型举例。)

Image

指标告警配置

前提条件

火山引擎授权操作指引请参考策略概述

如果子账号需要配置告警规则,需要有当前账号的 VMPFullAccess 权限。如果用户仅有 VMPReadOnlyAccess 权限,需要额外新增以下接口权限来配置告警:

  • VMP:CreateAlertingRuleGroup,通过告警模版创建告警规则组
  • VMP:UpdateAlertingRuleGroup,更新告警规则组
  • VMP:UpgradeAlertingRuleGroups,升级告警规则组到最新的告警模版
  • VMP:DeleteAlertingRuleGroup,删除告警规则组

配置监控指标告警

可于方舟控制台推理接入点的监控页面一键配置监控指标告警,推荐使用针对当前接入点预填好参数的默认配置。
Image
如果需要根据业务进行合理配置,如避免针对同一接入点重复告警等告警泛滥情况,可前往托管Prometheus平台查看告警规则
若有自定义配置需求,如自定义指标监控、配置自定义聚合策略等,可前往托管Prometheus平台创建告警规则
若需针对联系人进行精确通知,可前往托管Prometheus平台创建联系人并验证联系方式,目前支持使用邮件、电话、飞书、钉钉、企业微信等几种形式进行告警通知接收。
不选择通知策略时,仍会生成告警事件,但不会向联系人发送告警通知,请前往托管 Prometheus 平台查看告警事件

关联应用

详情请参考应用实验室文档。

安全审计

详情请参考安全审计文档。