You need to enable JavaScript to run this app.
导航

队列监控

最近更新时间2023.11.08 15:16:49

首次发布时间2022.09.30 16:45:29

通过队列资源监控页,用户可以直观地了解所选队列的使用情况。

1. 队列资源监控入口

进入 LAS 控制台,通过点击 “队列管理” -> "监控" 进入队列监控页面。查看队列的资源监控情况,需要登陆账号拥有该队列的 MonitorQueue 权限。

公共队列监控目前仅包括作业数监控:

独占队列监控目前包括作业数监控和 CPU/Mem 资源用量监控:

2. 队列资源监控项

当前版本队列资源监控项主要有两项:作业数 和 CPU/Mem 资源使用率。

2.1 作业数

作业数主要对队列在过去时刻(时间段)的 提交中/运行中/失败 三个状态的作业数进行统计,同时提供下拉框选项,查看更细分的具体作业类型(SQL/SparkJar)在相应时间内的作业数统计信息,华北region还包含 FlinkSQL/FlinkJar 作业类型的统计信息。
各状态作业数代表意义如下:

  • 提交中:表示该时刻有多少任务处于“提交中”状态

  • 运行中:表示该时刻有多少任务处于“运行中”状态

  • 失败:表示该小时时间段有多少任务失败

2.2 资源使用率

资源使用率主要是对队列在过去时刻的 CU/Mem 使用率进行统计,又会根据数据处理资源(Spark & Flink)和交互式查询资源(Presto)的不同而进行分别统计和展示,其中仅华北 region支持 Flink。
资源使用率的计算方式说明:

  1. 使用率百分比为 X/Y%。

  2. 其中 Y 为队列总资源上限,固定资源队列为配置 CU 值,弹性资源队列为 MAX CU 值。

  3. 其中 X 为当前期间实际使用量:

    1. 交互式查询单元 (Presto)部分:按照 Presto 集群使用量进行计算

    2. 数据处理资源单元 (Spark & Flink) 部分:按照实际使用量,即当前期间存活 Pod 总资源使用量

3. 补充说明

目前 LAS 统一使用 CU 作为计量单位,任务资源通过las.job.driver.culas.job.executor.cu这两个参数来控制 CU 和 Mem。内部 Spark / Flink 作业 CU / Mem 计算规则如下:

// Spark 任务
spark.driver.cores = lasJobDriverCU
spark.driver.memory = lasJobDriverCU * 4g
spark.executor.cores = lasJobExecutorCU
spark.executor.memory = lasJobExecutorCU * 4g

// Flink 任务
kubernetes.jobmanager.cpu = lasJobDriverCU
jobmanager.memory.process.size = lasJobDriverCU * 4g
kubernetes.taskmanager.cpu = lasJobExecutorCU
taskmanager.memory.process.size = lasJobExecutorCU * 4g