You need to enable JavaScript to run this app.
导航

YARN 队列管理

最近更新时间2023.10.16 14:52:26

首次发布时间2023.08.09 19:39:05

火山引擎 E-MapReduce(EMR)控制台支持您对 YARN 集群队列资源进行可视化管理,包括队列新增,队列更名,队列删除,层级变动,容量调整与队列启停等常用场景在内。

1 前提条件

  1. 已创建包含 YARN 服务的,EMR 版本高于 3.4.1 / 2.3.1 的集群类型。详见创建集群

    欲知 EMR 软件栈版本与具体服务的详情,请参阅文档 EMR 版本概述

  2. YARN 调度器须使用 Capacity Scheduler。

2 具体功能

2.1 进入 YARN 队列管理

  1. 登录EMR 控制台

  2. 单击右侧导航栏中集群管理 > 集群列表 > 集群名称,进入集群详情界面。

  3. 在集群详情界面,单击服务列表页签,进入 YARN 服务管理界面。

  4. 在 YARN 服务管理界面,单击队列管理页签,进入队列管理。

  5. 队列列表:
    基于队列配置现状,生成树状队列对象。以缩进与折叠的形式表达队列层级,便于您对特定层级的队列进行快速定位。
    同时,对每一个队列节点,展示了状态,队列容量,最大容量的关键信息,也提供了便捷的操作入口,可以快速基于该节点进行编辑子队列管理

2.2 添加队列

  1. 在队列管理界面,单击右侧添加队列按钮,进行新增队列操作。

  2. 在新增队列弹窗界面,进行以下配置操作:

    • 选择父级队列:您可以在此处选择任意层级的节点,然后基于该节点,进行子队列的新增与调整。

      注意

      若是针对叶子节点的子队列添加,需要您保证原叶子节点上没有正在运行的任务,在将来也不能作为提交的队列对象,否则会导致任务失败。

    • 添加队列:单击添加队列按钮,在下方出现的新空行中,您可以配置队列相关信息,同时也可以进行队列的开启、关闭或删除操作:

      • 队列名称:输入队列名称信息,只支持字母和数字定义队列名称。

      • 容量占比:输入新增队列的容量占比,YARN 要求同一层级的队列容量加和为100。

      • 最大容量占比:当队列足够空闲,最大容量占比允许 YARN 调度超过预设容量占比的资源到其上。该值需要不小于“容量占比”。

      • 状态:可以控制该子队列是否启用。

      • 操作:单击删除按钮,您可对子队列进行删除。

      注意

      删除子队列时,需保证root队列下至少保留有一个子队列;且在删除操作后,需要重启 ResourceManager,才能使删除操作生效。

  3. 队列操作完毕后,单击确定按钮,进行内容提交。您需重启 ResourceManager,使当前修改或新添加的队列生效。

2.3 编辑队列

对于非根队列,您可以在队列列表操作栏中单击编辑按钮,在弹窗中进行队列编辑。

在编辑队列弹窗中,您可对队列名称、队列最大容量占比、队列状态进行编辑修改。
但队列容量占比,由于需要考虑同层级队列的容量总和情况,您可单击右侧的去修改按钮,快捷跳转至添加队列窗口,进行整体容量编辑。

说明

队列完成编辑修改后:

  • 若改动涉及新增队列、变更队列名称、删除队列时,需重启 ResourceManager,使变更生效。

  • 若是容量变更、队列状态变更,则需要操作 Refresh Queue 来使变更生效。

2.4 子队列管理

在队列管理列表,操作列中,单击子队列管理按钮入口,可以快速定位以该节点为父级队列,进行其下的子队列添加和变更操作。

2.5 Refresh Queue

除了队列更名、新增、删除队列的需要重启 ResourceManager 场景外,若仅是队列容量、队列状态改动的情况下,您可以只操作Refresh Queue来生效。

  1. 单击 Refresh Queue 按钮。

  2. 在弹窗中勾选需执行的机器范围,默认全选。

  3. 添加操作备注后,单击确定按钮进行操作提交,具体执行结果可以在操作历史中查看。

2.6 队列监控

除了队列配置管理之外,我们还针对队列本身提供了较为全面的监控图表,方便您观测 YARN 集群队列的运行情况。

说明

若您想了解更多集群监控功能相关的产品说明,请参阅文档:概述--E-MapReduce-火山引擎

  1. 单击队列管理界面上方的服务监控图标入口。

  2. 在下拉列表展现的 YARN 指标分类中,选择 YARN-QUEUE 类别,进入到集群监控界面。


下面通过表格形式,向您列出目前支持的队列指标列表。

分组监控指标名称单位

应用计数

YARN 队列已提交 Apps 数量

YARN 队列已挂起 Apps 数量
YARN 队列运行中 Apps 数量
YARN 队列已完成 Apps 数量
YARN 队列 Killed Apps 数量
YARN 队列 Failed Apps 数量
YARN 队列 Active Apps 数量
YARN 队列中运行作业运行时间小于60分钟的作业个数
YARN 队列中运行作业运行时间介于60~300分钟的作业个数
YARN 队列中运行作业运行时间介于300~1440分钟的作业个数
YARN 队列中运行作业运行时间大于1440分钟的作业个数
内存大小YARN 队列分配的内存大小Bytes(IEC)
YARN 队列可用的内存大小Bytes(IEC)
YARN 队列挂起的内存大小Bytes(IEC)
YARN 队列 Reserved 内存大小Bytes(IEC)
VCores计数YARN 队列已分配 VCores 核数
YARN 队列已保留 VCores 核数
YARN 队列可用 VCores 核数
YARN 队列请求中挂起 VCores 核数
容器个数YARN 队列已分配容器数
YARN 队列 Pending 容器数
YARN 队列 Reserved 容器数
YARN 队列分配容器总数
YARN 队列释放容器总数
YARN 队列抢占容器总数
用户数YARN 队列活跃用户数