通过队列资源监控页,用户可以直观地了解所选队列的使用情况。
进入 LAS 控制台,通过点击 “队列管理” -> "监控" 进入队列监控页面。查看队列的资源监控情况,需要登陆账号拥有该队列的 MonitorQueue
权限。
公共队列监控目前仅包括作业数监控:
独占队列监控目前包括作业数监控和 CPU/Mem 资源用量监控:
当前版本队列资源监控项主要有两项:作业数 和 CPU/Mem 资源使用率。
作业数主要对队列在过去时刻(时间段)的 提交中/运行中/失败 三个状态的作业数进行统计,同时提供下拉框选项,查看更细分的具体作业类型(SQL/SparkJar)在相应时间内的作业数统计信息,华北region还包含 FlinkSQL/FlinkJar 作业类型的统计信息。
各状态作业数代表意义如下:
提交中:表示该时刻有多少任务处于“提交中”状态
运行中:表示该时刻有多少任务处于“运行中”状态
失败:表示该小时时间段有多少任务失败
资源使用率主要是对队列在过去时刻的 CU/Mem 使用率进行统计,又会根据数据处理资源(Spark & Flink)和交互式查询资源(Presto)的不同而进行分别统计和展示,其中仅华北 region支持 Flink。
资源使用率的计算方式说明:
使用率百分比为 X/Y%。
其中 Y 为队列总资源上限,固定资源队列为配置 CU 值,弹性资源队列为 MAX CU 值。
其中 X 为当前期间实际使用量:
交互式查询单元 (Presto)部分:按照 Presto 集群使用量进行计算
数据处理资源单元 (Spark & Flink) 部分:按照实际使用量,即当前期间存活 Pod 总资源使用量
目前 LAS 统一使用 CU 作为计量单位,任务资源通过las.job.driver.cu
和 las.job.executor.cu
这两个参数来控制 CU 和 Mem。内部 Spark / Flink 作业 CU / Mem 计算规则如下:
// Spark 任务 spark.driver.cores = lasJobDriverCU spark.driver.memory = lasJobDriverCU * 4g spark.executor.cores = lasJobExecutorCU spark.executor.memory = lasJobExecutorCU * 4g // Flink 任务 kubernetes.jobmanager.cpu = lasJobDriverCU jobmanager.memory.process.size = lasJobDriverCU * 4g kubernetes.taskmanager.cpu = lasJobExecutorCU taskmanager.memory.process.size = lasJobExecutorCU * 4g