本文介绍了如何在火山方舟平台中查看和管理模型推理接入点,包括状态监控、API调用、指标告警及安全审计等功能操作。预置推理接入点和自定义推理接入点的差异详情请查看什么是推理接入点。
参数名称 | 参数说明 |
---|---|
接入点状态 | 调度中:后台资源正在调度中,可能处于排队状态也可能已经在资源启动中。 |
健康:接入点状态正常,可以正常调用。
| |
已停止:当用户触发停止接入操作,或者模型下线时,系统将关停相应的接入点。 | |
异常:接入的模型异常,您可以提交工单后台将为您处理。 |
点击具体接入点名称进入接入点详情页,可以查看模型推理接入点的概览信息、API调用、监控、关联应用、安全审计等信息。
概览信息中可以查看推理接入点的模型信息。
目前,推理服务中的部分模型已支持在同领域模型间跨卡片进行版本切换(如 Doubao → Doubao-1.5)。具体支持的模型请以控制台显示为准。因此,模型版本的更迭无需再依赖于新建接入点,欢迎您体验该功能。请注意,切换前后模型在价格、限流策略、推理缓存行为以及接口参数等方面可能存在差异,建议您在切换模型版本时充分了解并加以关注。
API调用页面可以查看模型推理接入点的调用方法,目前支持2种授权方式。
方式1:API Key 授权。在方舟创建 API Key 后,使用API Key获得对应推理接入点的服务调用权限。
您可以在API key管理页面获取API Key,在环境变量中进行设置,参考API示例对模型推理接入点进行调用。
方式2:火山引擎IAM(访问控制)授权。在IAM为子账号配置权限后,您访问时带入子账号的API访问中的Access Key和Secret Access Key,平台为您进行资源级别的访问鉴权,是更加安全可控的方式。
您可以参考使用IAM进行访问控制对资源进行授权,获得授权后,可使用平台提供的多语言SDK,在环境变量中设置Access Key和Secret Access Key发起调用。
火山方舟基于火山引擎的托管 Prometheus 服务(Volcengine Managed Service for Prometheus,简称VMP)为您提供接入点实时监控功能。
在监控页面中,具备 ArkStandardGlobalAccess 或 ArkFullAccess 权限的用户,点击一键开启监控按钮后,系统将自动开通监控服务并完成相关配置。
由方舟采集的监控指标不会向客户收取费用,并且会保留近15天的数据。关于VMP的其他收费项目,请参考收费详情页面获取完整信息。
开启监控后,在监控页面可查看Token消耗速率、请求速率、接口延时、错误率、首Token延时、非首Token延时、Token输入长度、Token输出长度等核心数据。
火山引擎授权操作指引请参考策略概述。
如果子账号需要配置告警规则,需要有当前账号的 VMPFullAccess 权限。如果用户仅有 VMPReadOnlyAccess 权限,需要额外新增以下接口权限来配置告警:
现可于方舟控制台推理接入点的监控页面一键配置监控指标告警,推荐使用针对当前接入点预填好参数的默认配置。
如果需要根据业务进行合理配置,如避免针对同一接入点重复告警等告警泛滥情况,可前往托管Prometheus平台查看告警规则。
若有自定义配置需求,如自定义指标监控、配置自定义聚合策略等,可前往托管Prometheus平台创建告警规则。
若需针对联系人进行精确通知,可前往托管Prometheus平台创建联系人并验证联系方式,目前支持使用邮件、电话、飞书、钉钉、企业微信等几种形式进行告警通知接收。
不选择通知策略时,仍会生成告警事件,但不会向联系人发送告警通知,请前往托管 Prometheus 平台查看告警事件。
详情请参考应用实验室文档。
详情请参考安全审计文档。