You need to enable JavaScript to run this app.
导航

配置 Flink 告警策略

最近更新时间2023.10.30 15:38:57

首次发布时间2023.09.20 19:13:43

流式计算 Flink 版已经接入云监控服务,您可以在云监控平台配置告警策略,及时识别异常状态并发送告警通知。
本文以配置作业 failed 或者是 recover 的时间长度的告警策略为例,介绍告警策略配置流程。配置告警策略后,将监控任务状态,当运行失败或处于非运行态时,则触发告警。

创建告警策略

  1. 登录云监控控制台

  2. 在左侧导航栏选择告警中心 > 告警策略,然后单击创建告警策略

  3. 基本信息区域,设置告警策略名称和描述。
    图片

  4. 告警对象区域,选择资源类型为数据中台 > 流式计算 Flink 版,然后根据实际情况选择地域、维度和资源。
    图片

    配置

    说明

    资源类型

    选择数据中台 > 流式计算 Flink 版

    地域

    根据您资源对象所在地域选择。

    维度

    创建告警策略的维度,目前支持作业运行状态checkpointKafka 三个维度。
    本文为指标作业 failed 或者是 recover 的时间长度配置告警策略,因此选择作业运行状态维度。

    资源

    确定设置告警策略的资源(作业)范围。
    本文选择部分,然后通过任务名称或 ID搜索目标任务,再勾选查询到的任务结果。
    图片

  5. 告警规则区域,选择指标类型,设置告警规则触发条件,告警级别、策略生效时间、告警发送周期等。
    图片

    配置

    说明

    使用预置触发条件

    无需关注该参数,Flink 告警配置过程没有预置触发条件。

    指标类型

    支持选择单指标多指标。如果您需要监控资源的多个指标,可直接配置多指标类型。
    本文仅为指标作业 failed 或者是 recover 的时间长度配置告警策略,所以选择单指标

    触发条件

    设置告警的监控指标、持续周期、统计类型、比较关系以及阈值。当被监控的资源指标达到触发条件时,系统会推送告警通知。
    本文为指标作业 failed 或者是 recover 的时间长度配置告警策略。

    告警级别

    用于标识告警的严重程度。支持设置严重警告通知

    生效时间

    告警策略的生效时间。告警策略只在生效时间内监控资源的数据是否达到触发条件。

    告警发送周期

    触发告警策略后,如果被监控的资源仍然持续触发告警,则系统会周期性发送告警通知。

  6. 创建告警策略页面的告警方式区域,选择告警通知方式和告警通知组。
    图片

    配置

    说明

    告警渠道

    选择一个或多个渠道。支持邮箱电话短信以及告警回调

    告警联系组

    告警渠道选择邮箱电话或者短信中的一个或多个渠道时,您必须设置一个或多个联系组作为告警通知的接收方。如何设置联系组,请参见创建告警联系人和联系组
    先勾选需要接收告警通知的联系组,然后单击 **> **按钮进行确认。

  7. 告警策略配置完成后,单击页面右下角的确定
    返回告警策略页面,查看策略触发条件和状态。告警策略创建成功后,将自动启用。
    图片

查看告警消息通知

当告警策略监控到任务运行失败或处于非运行态时,将触发告警并发送告警通知。

短信通知

邮件通知

图片

图片

查看告警历史

当告警联系组内的相关人员接收到告警通知消息后,可以前往云监控查看告警历史。

  1. 登录云监控控制台
  2. 在左侧导航栏选择告警中心 > 告警历史
  3. 告警历史页面,通过设置时间段、资源类型等筛选条件,搜索告警历史。
    图片
  4. 单击告警历史后方的详情,查看告警详情,包括告警产生时间、监控指标当前值、告警通知发送结果等信息。
    图片