You need to enable JavaScript to run this app.
导航

告警优化

最近更新时间2024.02.20 15:01:09

首次发布时间2024.02.20 14:12:48

数据治理平台支持告警优化能力,可分析一定时间周期内,报警频次或报警率较高的高频报警规则,进而去治理来减少无效或冗余的报警规则。

1 使用前提

  1. 创建项目时,已开启项目默认监控规则。详见创建项目
  2. DataLeap 数据开发任务已配置相应运维监控规则,或火山引擎 E-MapReduce(EMR)Hive 表、湖仓一体分析服务 LAS 表已配置相应的数据质量监控告警。操作详见监控规则数据监控

2 使用场景

高频报警指标口径说明:一定时间周期内报警规则的报警率 = (报警次数/运行次数) * 100%
使用场景示例说明如下:
在数据开发任务实际执行的过程中,任务负责人会配置各种监控规则与告警,因告警阈值配置不合理、告警重复配置或无效的告警规则未及时没有关闭,从而导致报警量居高不下,起夜率高,报警接收人员很难从大量告警中筛选出重要告警,容易忽略漏掉重要告警,而引发相关事故。
数据治理报警治理平台提供高频报警管理功能,主要通过报警次数和报警率及相关筛选条件,在一定时间周期内,方便您快速查看对应的高频报警规则,进而引导相应负责人关闭、修改或删除对应报警规则,减少报警量。

3 高频报警操作说明

下面为您介绍高频报警界面相关操作说明。

  1. 登录 DataLeap 控制台

  2. 概览界面中,单击数据治理 > 报警归因 > 告警优化 > 高频报警界面,便可查看具体的高频报警规则信息。

  3. 高频报警界面,您可通过以下方式来筛选报警项:

    • 下拉选择高频报警日期,支持昨天、近7天、近14天、近30天等时间段筛选;
    • 您也可通过项目、数据团队、规则状态、创建人等选项进行报警筛选;
    • 您可通过输入报警规则名称、报警对象、报警率、报警次数进行模糊搜索。
      图片
  4. 在一定的筛选条件下,您可在查询的高频报警规则列表中进行以下操作:

    参数

    说明

    规则 ID/规则名称

    单击规则列表中的规则 ID/规则名称,您可进入产生报警的监控规则详情页,查看设置的监控规则信息,并在规则管理页面中优化修改报警规则阈值 、关闭或删除对应规则,从而减少无效或冗余的报警规则。

    说明

    系统创建的默认规则,不支持查看监控规则详情信息,单击规则 ID 按钮,可进入对应的数据开发任务界面,进行对任务编辑操作。

    报警对象

    单击规则列表中的报警对象,您可查看具体规则对象类型的详细信息,例如查看表详情、任务详情或基线详情等。

    排序

    您可通过列表中的创建时间、报警率、报警次数参数项,进行高频报警列表的排序操作。

    趋势

    单击列表操作列中的趋势按钮,来分析某报警规则在一定时间段范围内的报警率运行次数等情况,进而方便决策对报警规则进行优化管理。

4 后续步骤

筛选出无效或重复的自定义报警规则后,您可单击规则 ID/规则名称信息,前往运维中心监控规则或数据质量监控界面调整相应的自定义监控规则。操作详见监控规则数据监控