You need to enable JavaScript to run this app.
导航

集群事件中心

最近更新时间2023.08.22 14:16:32

首次发布时间2023.08.22 14:16:32

火山引擎 E-MapReduce(EMR)对接云监控的事件中心,提供了监控 EMR 集群事件的能力。您可以基于事件中心查看 EMR 集群发生的事件详情,也可以自定义事件规则与事件通知的联系人,以便您实时捕获 EMR 发生的关键事件并及时修复。
本文介绍如何查看 EMR 集群事件以及如何自定义事件规则。

1 注意事项

  • 如果您通过事件中心未查询到云产品的事件信息,则表示云产品未发生事件或者发生的事件已经超过30天。

    说明

    已发生的事件默认保存30天。

2 步骤一:创建告警联系人

  1. 登录云监控控制台

  2. 在左侧导航栏,单击选择告警中心 > 告警联系人,进入告警联系人列表界面。

  3. 在列表界面,单击创建联系人按钮。

  4. 创建联系人弹窗页面中,填写告警联系人的姓名邮箱或者手机,然后单击确定按钮,完成联系人创建。

  5. 设置邮箱或者手机并创建联系人后,云监控会向指定的邮箱或手机号码发送验证消息。
    以邮箱为例,验证消息内容如下图所示,您需要单击链接以完成验证。

3 步骤二:创建告警联系组

当您创建告警策略时,选择相应的联系组,即可通过联系组接收告警通知。

  1. 登录云监控控制台

  2. 在左侧导航栏,选择告警中心 > 告警联系人,进入告警联系人列表界面。

  3. 在列表界面,单击联系组页签,然后单击创建联系组按钮。

  4. 创建联系组弹窗页面中,填写联系组的名称描述,并选择联系人,然后单击确定

    例如,创建成功的联系组为 TESTGroup01

4 步骤三:创建事件规则

本场景将创建一个事件规则,用于监控云服务器的创建实例:执行中事件。一旦云服务器发生了该事件,云监控会通过已设置的告警渠道将事件信息发送至指定的告警联系人或告警联系组。

  1. 登录云监控控制台

  2. 在左侧导航栏,单击选择事件中心 > 事件规则按钮,进入事件规则界面。

  3. 事件规则页面,单击创建事件规则按钮。

  4. 在创建事件规则页面,完成以下配置。

    配置项说明:
    其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

    配置项说明示例值
    基本信息
    *名称自定义名称,用于标识事件规则。不支持以数字、中划线开头,名称长度允许在1~128个字符之间。事件规则Demo
    描述输入事件规则描述信息,方便后续管理。事件规则Demo
    事件规则
    *资源类型在下拉框中选定被监控的云产品名称。E-MapReduce
    *事件名称选择资源类型后,页面会自动显示该下拉列表。您需要手动选择一个或多个事件名称。节点组扩容失败
    *生效时间以天为周期,指定事件规则的生效时间段。事件中心只在指定的生效时间内监控云产品是否触发了事件规则。00:00 - 23:59
    *严重程度用于标识事件的严重程度。支持下拉选择设置严重、警告、通知。警告
    投递方式

    *投递渠道

    系统通过指定的渠道发送告警通知。支持设置邮箱、电话、短信、告警回调、日志服务的其中一个或多个渠道。
    各个投递方式,额外配置项不同,您可根据实际情况进行配置:

    • 邮箱、电话、短信:选择一个或多个联系组作为告警通知的接收方。支持选择同一账号下至多5个联系组作为接收方。联系组创建方式详见上方步骤二:创建告警联系组

    • 告警回调:输入公网可访问的 URL,会将报警信息通过 POST 请求推送到该地址。

    • 日志服务:选择对应的日志服务主题。主题创建详见日志主题

    邮箱、电话、短信方式:
    TESTGroup01

  5. 事件规则配置信息填写完后,单击确定按钮,完成事件规则配置。

  6. 创建完成后,在事件规则页面的列表内,您可以查看已创建的事件规则信息。当被监控的云产品发生符合条件的事件时,即可通过邮箱、电话或短信接收告警通知。

    您也可以在事件规则界面,进行规则管理,如启用、停用、删除、编辑规则等操作。

5 步骤四:查看云产品事件

  1. 登录云监控控制台

  2. 在左侧导航栏,单击选择事件中心 > 云产品事件按钮,进入云产品事件界面。

  3. 云产品事件页面,查看指定时间段内的云产品事件信息。

  4. 在云产品事件界面,支持您通过设置时间段、云产品以及事件类型,来过滤事件信息:

    • 支持快捷选择或自定义选择时间段,以过滤该时间段内发生的事件。

      说明

      • 默认查询最近1小时内的事件信息。

      • 指定的时间段支持精确到分钟级别,秒数默认为00。

    • 支持选择各云产品以及事件类型过滤事件信息。

    • 您可以查看符合过滤条件的事件列表。其中事件字符串由三部分组成,格式为事件源:事件类型:事件内容。 例如,事件 emr:ClusterGroup:extend.ERROR的事件源为 EMR、事件类型为节点组、事件内容为扩容失败。

  5. 选中某一具体的事件,在右侧操作列中单击详情按钮。 在事件详情界面,您可以查看到 JSON 格式的事件详细信息。

6 事件规则列表

资源类型为 E-MapReduce 时,支持的事件规则列表如下:

维度事件名称

集群

集群创建失败

集群创建成功
集群释放失败
集群释放成功
节点组扩容失败
节点组扩容成功
节点组缩容失败
节点组缩容成功
节点组磁盘扩容失败
节点组磁盘扩缩容成功

服务

Airflow- Schedule进程状态异常

Airflow- Websever进程状态异常
Airflow- Worker进程状态异常
BookKeeper - Bookie进程状态异常
DolphinSchedule - SlertSever进程状态异常
DolphinSchedule - ApiSever进程状态异常
DolphinSchedule - MasterSever进程状态异常
DolphinSchedule - WorkerSever进程状态异常
Doris - BE 进程状态异常
Doris - FE 进程状态异常
Flume - FlumeAgent进程状态异常
GTS - Sever进程状态异常
HBase - HMaster 进程状态异常
HBase - HRegion 进程状态异常
HDFS - Datanode进程状态异常
HDFS - JournalNode进程状态异常
HDFS - Namenode进程状态异常
HDFS - Secondary NameNode 进程状态异常
HDFS - ZKFC进程状态异常
Hive - Hive Metastore 进程状态异常
Hive - Hivesever2进程状态异常
HUE - Sever进程状态异常
Impala - Catalogd 进程状态异常
Impala - Impalad 进程状态异常
Impala - Statestored 进程状态异常
Kafka - Broker 进程状态异常
Knox - Gateway进程状态异常
Kudu - Master 进程状态异常
Kudu - TServer 进程状态异常
Kyuubi - Kyuubi进程状态异常
MapReduce2 - HistoryServer 进程状态异常
OpenLDap - Nss进程状态异常
OpenLDap - Slapd进程状态异常
OpenLDap - DashBoard进程状态异常
OpenLDap - Sever进程状态异常
Ossa - Gateway进程状态异常
Ossa - Sever进程状态异常
Presto - Coordinator 进程状态异常
Presto - Worker 进程状态异常
Pulsar - Manager进程状态异常
Pulsar - Broker进程状态异常
Ranger - Admin进程状态异常
Ranger - UserSync进程状态异常
Spark - Livy进程状态异常
Spark - HistorySever进程状态异常
StarRocks - BE 进程状态异常
StarRocks - FE 进程状态异常
Trino - Coordinator 进程状态异常
Trino - Worker 进程状态异常
YARN - ResourceManager 进程状态异常
YARN - NodeManager 健康状况异常
Zookeeper 进程状态异常