You need to enable JavaScript to run this app.
导航

告警管理

最近更新时间2023.03.30 17:17:46

首次发布时间2021.09.01 17:27:34

您可以在 E-MapReduce(简称“EMR”)集群详情的告警管理界面,配置不同组件产生对应事件类型时的告警规则,方便您及时感知组件的状态及事件类型的严重等级。本文将为您介绍创建告警规则的方式和组件事件类型的规则列表。

说明

本文档针对 3.2.0 / 2.1.1 及以前版本的集群,若您的集群版本较新,告警相关文档请参阅:告警中心

1 进入告警管理

  1. 登录 EMR 控制台

  2. 左侧导航栏点击集群列表 > 具体集群名称,进入集群详情。

  3. 在上方功能栏中,点击告警管理,进入告警管理界面。


展示告警规则信息。具体说明如下:

内容说明
告警规则名称展示告警规则的名称,可用户自定义
更新时间展示最近一次编辑告警规则的时间
操作用户展示最近一次编辑告警规则的用户名称
状态支持开启或关闭告警规则
操作支持编辑或删除告警规则

2 创建告警规则

  1. 点击右上角创建告警规则按钮。

  2. 在弹窗中,输入规则名称:只允许包含中文、字母、数字、-、_等符号。

  3. 告警项范围:支持指定告警项的范围,您可以指定集群或具体的节点为告警范围。

  4. 选择要订阅的事件类型以相应的严重等级,具体事件类型,详见下方:2.1 规则列表

注意

只有当对应严重等级的事件触发时,才能获取到事件通知。

  1. 通知方式:

    支持选择站内信、邮件、短信、飞书、电话等通知方式,不同的通知方式有对应的信息需要补充:

    1. 飞书:

      飞书类型的通知方式,需要您提供对应的 webhook 地址,以便发送通知到对应的飞书机器人上。获取 webhook 地址信息详见如何配置飞书群机器人文档

    2. 邮件、短信、电话:

      1. 勾选后,会弹出一个联系人的多选下拉单,这个下拉单对应到含主账号在内的所有用户列表。其中主账号始终置顶。

      2. 对于选中的用户,在进行通知时,会根据账号管理中配置好的安全邮箱与安全手机,进行对应的消息发送。

  2. 配置完毕后,点击确认按钮,即完成告警规则的创建。

2.1 规则列表

组件
等级事件备注

HDFS

严重

NameNode 进程状态

如果监听不到或者确认不了 NameNode 进程是否正常,则会触发 CRITICAL 警报。

NameNode Blocks 健康状况如果存在 NameNode Blocks 丢失的情况,则会触发 CRITICAL 警报。

NameNode 容量使用情况

如果 NameNode 已使用容量达到总容量的 80%,则会触发 CRITICAL 警报

NameNode RPC 延迟状况如果 NameNode RPC 延迟大于5000ms,则会触发 CRITICAL 警报
DataNode 健康状况如果存在不健康的 DataNode,则会触发 CRITICAL 警报。
DataNode Service RPC 队列延迟(每小时)如果 DataNode 端口上的 RPC 队列延迟偏差在一个小时内超过了200ms,则将触发 CRITICAL 警报。
NameNode Client RPC 队列延迟(每小时)如果 NameNode Client 端口上的 RPC 队列延迟的偏差在一个小时内超过200ms,则将触发 CRITICAL 警报。
DataNode Service RPC 处理延迟(每小时)如果 DataNode 端口上的 RPC 处理延迟偏差在一个小时内超过200ms,则将触发 CRITICAL 警报。
NameNode Client RPC 处理延迟(每小时)如果 NameNode Client 端口上的 RPC 处理延迟偏差在一个小时内超过200ms,则将触发 CRITICAL 警报。
NameNode 堆使用增量情况(每天)如果 NameNode 堆使用量增量在一天之内超过了50%,则将触发 CRITICAL 警报。
DataNode Service RPC 处理延迟(每天)如果 DataNode 端口上的 RPC 队列延迟的偏差在一天之内超过了200ms,则将触发 CRITICAL 警报。
NameNode Client RPC 处理延迟(每天)如果 NameNode Client 端口上 RPC 队列延迟的偏差在一天之内超过了200ms,则将触发 CRITICAL 警报。

DataNode Service RPC 队列延迟(每天)

如果 DataNode 端口上的 RPC 队列延迟的偏差在一天之内超过了200ms,则将触发 CRITICAL 警报。

NameNode Client RPC 队列延迟(每天)如果 NameNode Client 端口上 RPC 队列延迟的偏差在一天之内超过了200ms,则将触发 CRITICAL 警报。
HDFS 存储容量使用增量情况(每天)如果 NameNode 存储容量使用量增量在一天内超过了50%,则会触发 CRITICAL 警报。
NameNode 堆使用增量情况(每周)如果 NameNode 堆使用量增量在一周内超过50%,则将触发 CRITICAL 警报。
HDFS 存储容量使用增量情况(每周)如果 NameNode 存储容量使用量增量在一周内超过50%,则会触发 CRITICAL 警报。

备用 NameNode 进程状态

如果 Secondary NameNode 端口无法访问,则触发 CRITICAL 警报

DataNode 进程状态

如果 DataNode 进程端口响应时间大于5s,触发 CRITICAL 警报
如果 DataNode 进程端口响应时间大于1.5s,触发 WARNING 警报

DataNode 容量使用情况如果集群中任意一台 DataNode 上的存储容量占用超过 80%,则会触发 CRITICAL 警报
DataNode 堆使用情况如果 DataNode 当前的堆内存使用量超过 90%,则会触发 CRITICAL 警报

HDFS待删除块健康状态

如果 HDFS 中待删除的块数超过 100000,则会触发 CRITICAL 警报。

警告

NameNode 安全模式状态

如果 NameNode 当前处于安全状态,则触发 WARNING 警报。

NameNode 容量使用情况

如果 NameNode 已使用容量达到总容量的 75%,则会触发 WARNING 警报

NameNode RPC 延迟状况

如果 NameNode RPC 延迟大于3000ms,则会触发 WARNING 警报

备用 NameNode 进程状态

如果 Secondary NameNode 端口访问返回 400 以上的响应码,则触发 WARNING 警报

DataNode 容量使用情况如果集群中任意一台 DataNode 上的存储容量占用超过 75%,则会触发 WARNING 警报
DataNode 堆使用情况如果 DataNode 当前的堆内存使用量超过 80%,则会触发 WARNING 警报
Hive严重Hive Metastore 进程状态如果监听不到或者确认不了 Hive Metastore 进程是否正常,则会触发 CRITICAL 警报。

HiveServer2 进程状态

如果监听不到或者确认不了 HiveServer2 进程是否正常,则会触发 CRITICAL 警报。

Kafka

严重

Kafka Broker 进程状态

如果监听不到或者确认不了 Kafka Broker 进程是否正常,则会触发 CRITICAL 警报。

YARN

严重

ResourceManager 进程状态

如果监听不到或者确认不了 ResourceManager 进程是否正常,则会触发 CRITICAL 警报。

NodeManager 健康状况如果 NodeManager 进程访问失败,或者是带回的节点健康信息并不健康,则触发 CRITICAL 警告。
ResourceManager RPC 延迟情况如果 ResourceManager RPC 平均延迟时间超过 5000ms,则触发 CRITICAL 警报。

警告

ResourceManager RPC 延迟情况

如果 ResourceManager RPC 平均延迟时间超过 3000ms,则触发 WARNING 警报。

ZooKeeper

严重

ZooKeeper 进程状态

如果监听不到或者确认不了 ZooKeeper 进程是否正常,则会触发 CRITICAL 警报。

HBase

严重

HRegion 进程状态

如果监听不到或者确认不了 HRegion 进程是否正常,则会触发 CRITICAL 警报。

HMaster 进程状态

如果监听不到或者确认不了 HMaster 进程是否正常,则会触发 CRITICAL 警报。

MapReduce2

严重

MapReduce2 HistoryServer 进程状态

如果监听不到或者确认不了 MapReduce2 HistoryServer 进程是否正常,则会触发 CRITICAL 警报。

History Server RPC 延迟情况如果 History Server RPC 平均延迟时间超过 5000ms,则触发 CRITICAL 警报。
警告History Server RPC 延迟情况如果 History Server RPC 平均延迟时间超过 3000ms,则触发 WARNING 警报。
Impala严重Impalad 进程状态如果监听不到或者确认不了 Impalad 进程是否正常,则会触发 CRITICAL 警报。
Statestored 进程状态如果监听不到或者确认不了 Statestored 进程是否正常,则会触发 CRITICAL 警报。
Catalogd 进程状态如果监听不到或者确认不了 Catalogd 进程是否正常,则会触发 CRITICAL 警报。
Kudu严重Kudu Master 进程状态如果监听不到或者确认不了 KuduMaster 进程是否正常,则会触发 CRITICAL 警报。
Kudu TServer 进程状态如果监听不到或者确认不了 KuduTServer 进程是否正常,则会触发 CRITICAL 警报。
ClickHouse严重Clickhouse 进程状态如果监听不到或者确认不了 Clickhouse 进程是否正常,则会触发 CRITICAL 警报。
Trino严重Coordinator 进程状态如果监听不到或者确认不了 Coordinator 进程是否正常,则会触发 CRITICAL 警报。
Worker 进程状态如果监听不到或者确认不了 Worker 进程是否正常,则会触发 CRITICAL 警报。

Presto

严重

Coordinator 进程状态

如果监听不到或者确认不了 Coordinator 进程是否正常,则会触发 CRITICAL 警报。

Worker 进程状态如果监听不到或者确认不了 Worker 进程是否正常,则会触发 CRITICAL 警报。
Doris严重BE 进程状态如果监听不到或者确认不了 BE 进程是否正常,则会触发 CRITICAL 警报。
FE 进程状态如果监听不到或者确认不了 FE 进程是否正常,则会触发 CRITICAL 警报。
StarRocks严重BE 进程状态如果监听不到或者确认不了 BE 进程是否正常,则会触发 CRITICAL 警报。
FE 进程状态如果监听不到或者确认不了 FE 进程是否正常,则会触发 CRITICAL 警报。

3 查看告警规则

点击告警规则名称,即可查看当前告警规则的配置信息,包含事件类型、通知方式等配置详情。

4 编辑告警规则

选择告警规则,点击右侧操作栏中的编辑按钮,可以在弹窗中修改规则名称、事件类型、严重等级及通知方式。点击确定按钮,即可生效。

5 删除告警规则

若不需要继续订阅某些告警,可以选择对应的告警规则,点击删除并确认,即可删除告警规则,取消订阅。

6 查看告警历史

若需要查看历史告警信息,可以点击tab切换到告警历史查看历史的告警信息,包括发生时间以及告警信息详情等:

  • 您可以在时间筛选框中,指定历史时间范围,查看指定时间内的告警历史信息。

  • 您也可以在搜索框中,输入规则名称、事件类型等信息,来精确搜索告警历史。