You need to enable JavaScript to run this app.
导航

事故管理

最近更新时间2024.03.27 16:19:44

首次发布时间2021.11.30 13:31:46

针对事故复盘、总结等场景的使用需求,事故管理模块提供了事故的新建登记、编辑修改等功能,并支持不同筛选维度的精细化查看需求。
事故记录内容主要分为基本信息、通知范围、复盘信息、事故定级四个部分,可根据实际情况进行录入。

  • 基本信息:事故信息的基本组成部分。
  • 通知范围:事故复盘通报的用户范围。
  • 复盘信息:对事故发生过程、原因以及改进计划进行记录,便于追踪、处理问题。
  • 事故定级:对事故定级并划分责任方。

1 前提条件

已购买分布式数据自治服务。详细操作说明请参见 DataLeap 服务信息

2 事故登记管理

若SLA延迟较严重,比如是数据等级为D1的申报任务的延迟,则需要登记事故。

  1. 登录 DataLeap 控制台。

  2. 选择数据治理 > 复盘管理 > 事故管理 > 事故列表,进入事故列表页面。
    图片

  3. 新建并复盘事故通报。

    1. 单击事故通报按钮,在新建事故通报页面,填写事故信息后,单击提交按钮,即可新建一条事故记录。
    2. 可单击事故列表操作列的复盘按钮,对事故继续进行复盘登记后,单击相应按钮完成以下操作。
      • 单击保存按钮,保存配置的复盘信息。
      • 单击完成复盘按钮,完成事故复盘。此时,该事故的复盘按钮变为编辑按钮。
        新建事故通报相关参数说明如下表所示。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

    参数

    说明

    基本信息

    *事故标题

    SLA延迟事故的标题,自行设定。

    *发生时间

    事故发生的时间,下拉可选。

    结束时间

    事故结束的时间,下拉可选。

    说明

    • 事故结束时间不得早于事故发生时间。
    • 当您标识该事故复盘已完成时,需填写该参数。

    *发现渠道

    发现该事故的渠道,支持监控报警、客服、产品运营、分析师、技术人员、外部用户、内部用户和其他八个选项,下拉可选。

    创建人

    登记该事故的人员,默认为当前新建事故的用户,不可编辑。

    *跟进人

    跟进事故处理的人员,输入用户账号关键词后下拉可选。

    直接影响内容

    直接影响的任务。
    默认添加当前选中的任务,可添加其他受影响的任务。若添加,需设置以下参数:

    • 任务/数据表:支持离线任务、数据表、离线基线三个选项,下拉可选。
      • 离线任务:可输入任务名称关键词或任务ID搜索后下拉选择。
      • 数据表:支持EMR Hive 和 LAS 两种类型选项,选择类型后,输入库名或表名关键词后下拉可选。
      • 离线基线:输入基线名称关键词后下拉可选。
    • 业务日期:业务发生的日期,下拉可选。
    • 问题类型:离线任务支持 SLA延迟、报警两类选项,数据表、离线基线仅支持报警选项。
    • 关联报警:任务/数据表的关联报警信息,按需勾选。
      问题类型选择报警时,需设置该参数。

    影响团队

    事故影响到的团队,下拉可选已创建的数据团队,支持设置多个。

    影响补充说明

    影响内容的补充说明。

    通知范围

    通报范围

    事故通报的用户范围,输入用户账号关键词后下拉可选。

    说明

    设置该参数后,新建事故通报时,会给该用户发送事故通报通知;完成复盘时,会给该用户发送事故复盘通知。

    复盘信息

    事故过程

    事故发生的过程。可根据需要进行描述,示例如下:

    • 事故开始:通过什么操作开始,操作的过程是怎样的。
    • 如何发现:何时、是谁、在哪里发现的,发现后第一时间如何处理的。
    • 处理过程:采用了什么手段进行缓解或者修复,修复时遇到了哪些问题。

    事故原因

    事故发生的原因。

    改进计划

    事故整改计划,可按需添加多条。
    每条计划包含以下配置项:

    • *改进项类别:改进项所属类别,支持流程规范、产品需求、技术优化、意识培训、其他五个选项,下拉可选。
    • *改进项:要改进的事项。
    • *跟进人:改进项的责任人,输入租户账号关键词后下拉可选。
    • *跟进数据团队:跟进该改进项的数据团队,下拉可选已创建的团队。
    • *截止时间:设定的改进截止时间,下拉可选。截止时间不可早于事故发生时间
    • *状态:改进的状态,支持进行中和已完成两个选项,下拉可选。
    • 完成情况说明:改进项的改进完成情况说明。

    说明

    若填写改进计划,则名称前带 * 的参数为必填项。

    事故定级

    事故定级

    依据事故造成的影响定级,支持L0~L4、Notice、未定级等选项,严重程度由高到低,下拉可选。
    系统会根据任务自动显示推荐选项,若无推荐或有其他设置需求,可参考以下事故定级标准自行设定。
    离线数据时效性作为核心质量要求,事故定级应综合考虑受事故影响的任务重要性任务时效性承诺任务延迟比例任务最大延迟时长。目前仅对受事故影响的核心离线数据任务定级,各等级对应的问题情况如下:

    • L0:指影响特大。
      • 单机房核心申报任务延迟比例>=40%
      • 受影响核心申报任务最大延迟时长>12H
    • L1:指影响重大。
      • 单机房核心申报任务延迟比例>=20%
      • 受影响核心申报任务最大延迟时长>6H
    • L2:指影响严重。
      • 单机房核心申报任务延迟比例>=10%
      • 受影响核心申报任务最大延迟时长>3H
    • L3:指影响一般。
      • 单机房核心申报任务延迟比例>=5%
      • 受影响核心申报任务最大延迟时长>2H
    • L4:指影响轻微。
      • 单机房核心申报任务延迟比例>=1%
      • 受影响核心申报任务最大延迟时长>1H
    • Notice:指影响微小。
      • 单机房核心申报任务延迟比例<1%
      • 受影响核心申报任务最大延迟时长<=1H

    说明

    • 同一等级下的多个问题是的关系,即只要存在其中一个问题即可选择对应的等级。
    • 单机房核心申报任务延迟比例 = 单机房核心申报任务延迟数 / 单机房核心申报任务总数
      • 核心申报任务:SLA保障平台申报成功的D1级和D2级任务。
      • 单机房:目前仅支持华北机房。
      • 任务延迟定义:SLA保障平台申报时承诺的任务完成时间内未运行完成定义为延迟。
    • 受影响核心申报任务最大延迟时长 = Max(受影响核心申报任务延迟时长集合)

    责任划分

    该事故的责任划分情况,可根据实际情况添加多条。
    每条信息包含以下配置项:

    • *责任团队:负责该事故的数据团队,下拉可选已创建的团队。
    • *责任占比:当前所选团队承担责任的百分比,其输入值需要大于0。
    • 判定理由:判断该团队责任占比的理由,根据实际情况填写。

    说明

    • 若填写责任划分,则名称前带 * 的参数为必填项。
    • 完成复盘时,所有责任团队的责任占比之和要等于100%。
  4. 对已创建的事故通报,还可进行以下管理操作:

    • 设置搜索条件,查看符合条件的事故列表。当设置多个搜索条件时,会取各个条件的交集,进行查询。

    • 单击事故列表中某条信息操作列的编辑按钮,在编辑页面,可以修改该条事故通报。

    • 单击事故列表中某条信息操作列的分析按钮,在弹出的事故分析窗口中,可以分析事故原因。

      参数

      说明

      分析维度

      事故分析的维度,支持直接原因、根因分析、预防检测、监控发现和响应止损

      问题类别

      问题的归类。不同维度下有多个不同的类别选项,下拉可选。
      选择分析维度后,才可设置该参数。

      详细描述

      对该问题的详细描述。

    • 单击事故列表中某条信息操作列的删除按钮,二次确认后,可以删除该条事故通报。

      说明

      仅事故创建人可以删除自己创建的事故通报。

3 改进管理

当事故通报设置改进计划后,可在改进管理页面对事故改进项进行统一管理。

  1. 登录 DataLeap 控制台。
  2. 选择数据治理 > 复盘管理 > 事故管理 > 改进管理,进入改进管理页面。
    图片
  3. 可执行以下管理操作:
    • 设置搜索条件,查看符合条件的改进项列表。当设置多个搜索条件时,会取各个条件的交集进行查询。
    • 单击某条信息操作列的编辑按钮,在弹出的窗口中,可以修改该信息。
    • 单击某条信息操作列的删除按钮,二次确认后,可以删除该条信息。

      说明

      仅创建人可以删除自己创建的事故改进项。

    • 单击某条信息操作列的完成按钮,在弹出的窗口中,确认信息无误后,将该改进项的改进状态更改为已完成

      说明

      改进状态进行中的改进项支持该操作。

4 后续操作

登记事故后,您可进入事故大盘页面,查看具体的统计情况。相关说明请参见事故大盘