You need to enable JavaScript to run this app.
导航

报警明细

最近更新时间2024.02.20 15:01:09

首次发布时间2024.02.20 14:12:48

报警归因模块整合统计了 DataLeap 平台中各模块报警监控业务产出的报警数据,并提供综合、全面、有效的报警治理解决方案和报警原因的分析。

1 产品特性

  • 报警明细查看:整合统计运维中心、数据质量中产出的报警数据明细,支持快速查看每天收到的报警明细。
  • 报警根因登记:支持对 DataLeap 平台各模块中产生的报警记录进行人工标记根因,用于后续报警根因数据可视化统计分析,进而辅助更好的做相关报警治理的工作。
  • 高频报警:支持用户分析一定时间周期内,报警频次或报警率较高的高频报警规则,进而去治理来减少无效或冗余的报警规则。

2 使用前提

  1. 创建项目时,已开启项目默认监控规则。详见创建项目
  2. DataLeap 数据开发任务已配置相应运维监控规则,或火山引擎 E-MapReduce(EMR)Hive 表、湖仓一体分析服务 LAS 表已配置相应的数据质量监控告警。操作详见监控规则数据监控

3 报警归因流程

报警归因的流程图大致如下:
收到平台报警后,您可前往报警归因 > 报警明细查看报警明细,并及时登记根因,根因负责人收到通知后,确认根因及相应报警的处理方式。
图片

4 报警明细

前往明细查找报警:

  1. 登录 DataLeap 控制台

  2. 概览界面中,单击数据治理 > 报警归因 > 报警明细界面,便可查看具体的报警明细信息。

  3. 在报警明细中,你可以通过系统提供的各种维度,快速查找出您所接收到的所有报警明细记录。您可以通过以下方式进行查找:

    • 选择具体的报警日期,确认报警时间范围。
    • 支持下拉选择数据团队、项目维度,进行查找需治理的报警信息。
    • 单击高级选项按钮,您可依据规则或其他相关信息,进行高级筛选。
      图片
    • 在众多的报警明细列表中,您也可根据未登记已登记根因的报警进行快速筛选;也可勾选“只看起夜报警”,过滤只在 0~8 点发起的电话报警明细。
  4. 在筛选后的明细列表中,您可进行以下操作:

    操作项

    说明

    报警 ID

    单击明细列表中的报警ID 信息,查看对应报警详情。

    规则名称

    单击明细列表中的规则名称,您可进入产生报警的监控规则详情页,查看设置的监控规则信息。

    说明

    系统创建的默认规则,不支持查看监控规则详情信息。

    报警对象

    单击明细列表中的报警对象,您可查看具体规则对象类型的详细信息,例如查看表详情或任务详情等。

    监控详情

    单击明细操作列中的监控详情,可进入数据质量监控结果页或运维中心实例运维界面,查看具体的监控结果。

    去登记

    单击明细操作列中的去登记按钮,进入登记界面,对该次报警的原因进行登记,操作详见下方问题登记操作说明。

    • 问题登记操作说明:
      其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

      配置项

      说明

      *发生日期

      默认选择首次发生报警的时间,您可下拉选择其余的时间信息。

      *描述

      输入产生报警的问题描述信息及根因详情,方便后续接口人可根据描述定位根因和处理,也可以对该次报警的背景进行简单描述,便于后续分析以及记录本次报警影响的范围。

      *根因

      下拉选择问题根因场景,可选择离线场景实时场景下,不同的问题根因类型。支持选择多个根因。

      *解决方案

      描述该报警问题的解决方案及相应的改进措施,若已经沉淀相应的解决方案文档,您也可将文档填入此处。

      *直接影响内容

      添加该报警直接影响的内容,默认关联当前登记的报警项。
      您也可单击添加一行按钮,进行更多影响内容的添加操作:

      • 任务/数据表:直接影响内容可来源自离线任务、数据表和离线基线,您可通过输入相应的信息来进行模糊搜索。
      • 业务日期:选择影响内容的业务日期,可具体到分钟。
      • 问题类型:选择影响内容的问题类型,如离线任务存在 SLA 延迟、报警等类型,您可根据实际情况进行添加。
      • 关联报警:当问题类型选择为报警时,您需勾选相应的关联报警信息。

      影响补充说明

      补充输入影响内容的说明,可记录问题的严重性或影响范围信息。

      责任归属

      选择该问题的责任是由团队内部还是团队外部造成的,选择项包括:团队内部、团队外部。

      责任人

      下拉选择具体的报警负责人信息,支持多选。

      标签

      下拉列表中选择该问题属于哪个标签,若还没有问题标签列表,您可直接通过输入的方式,来创建新的标签。

  5. 对于归属于同一个问题的报警,您可以在勾选多个报警项后,单击下方批量登记根因按钮,将多个报警项批量登记成一条问题记录。

5 后续步骤

登记问题完成后,您可进入治理全景 > 问题大盘页面,查看具体的登记问题统计情况。详见问题大盘