EMR Serverless 为您提供队列监控能力,支持对队列、计算组、作业进行多个指标的监控。开通队列后,您可以在资源队列列表中,选择相应的队列,在队列详情中进入队列监控界面,查看对应指标的监控数据。
查看监控指标
进入队列监控页面后,您可查看不同维度的监控指标。

细分维度 | 核心监控指标 |
|---|
队列 | 支持监控队列维度的: - CU 资源:例如,CU/GPU/内存 分配量、CU/GPU/内存 分配率、CU/GPU/内存 使用率等。
- GPU 资源:例如,GPU 卡分配量、GPU 卡分配率等。
- 作业情况:例如,队列维度的作业数量、作业CPU分配量TOP20、作业内存分配量TOP20等。
|
计算组 | 支持监控各类计算组的使用指标: - 通用计算组:CU/GPU/内存 分配量、CU/GPU/内存 分配率、CU/GPU/内存 使用率等。
- Presto 计算组:Presto Coordinator CPU Used、Presto Coordinator Memory Used等
- Spark 计算组:Spark Driver CPU 用量、Spark Driver CPU 使用率、Spark Driver 容器内存用量等。
- Ray 计算组:Ray 集群失败任务数、Ray 集群完成任务数、Ray 集群任务数等。
|
作业 | 支持监控作业维度的队列、计算组的监控指标。 |
您可以根据监控时间需要设置监控指标的查看时间范围。计算组、作业的监控页面也支持进行计算组和作业的过滤筛选。
创建监控告警
您也可以基于云监控产品,创建监控告警规则,后续满足对应监控告警规则时,即会向您的接受人发送告警,便于您及时处理高优告警。监控告警规则的配置指导请参见创建告警策略。
