AI 加速网关的数据监控功能,可帮助您实时追踪和分析通过网关实例的模型调用情况。本文介绍如何查询和理解监控数据。
使用场景
- 性能监控:通过请求数和 QPS(每秒请求数),了解应用的负载情况和模型服务压力。
- 成本与用量分析:通过查看 Tokens 消耗量(包含输入和输出),掌握模型的使用情况,以便进行成本核算和预算控制。
- 故障排查:当应用出现异常时,通过监控数据快速判断是否由请求量突增或模型调用失败引起。
监控数据说明
AI 加速网关提供以下监控指标:
指标 | 说明 | 统计维度 |
|---|
Tokens 数 | 选定时间内模型处理的总 Tokens 数量,包含输入和输出。 | 所有实例汇总 |
输入 Tokens 数 | 发送给模型的请求内容对应的 Tokens 数量。 |
输出 Tokens 数 | 模型生成并返回的响应内容对应的 Tokens 数量。 |
请求数 | 选定时间内通过网关发起的模型调用总次数。 |
QPS | 每秒请求数(Queries Per Second),反映模型调用的实时并发水平。 |
使用限制
- 数据延迟:监控数据存在 5 到 10 分钟的延迟。
- 历史数据:明细数据最长可查询近 30 天的记录。
- 数据分组:目前暂不支持按实例或模型等细粒度进行分组查询。
操作步骤
- 登录 全站加速控制台。
- 在左侧导航栏,选择 AI 加速网关 > 数据监控。
- 在 数据监控 页面,您可以查看所有实例的监控数据概览。
- 在页面顶部设置筛选条件:
- 时间范围:选择预设时间段(今天、昨天、近 7 天、近 30 天、本月、上个月)或自定义时间范围。支持查询近 30 天内的数据。
- 配置完成后,页面下方将通过趋势图,展示所选时间段内的各项监控指标。