针对事故复盘、总结等场景的使用需求,事故管理模块提供了事故的新建登记、编辑修改等功能,并支持不同筛选维度的精细化查看需求。
事故记录内容主要分为基本信息、通知范围、复盘信息、事故定级四个部分,可根据实际情况进行录入。
- 基本信息:事故信息的基本组成部分。
- 通知范围:事故复盘通报的用户范围。
- 复盘信息:对事故发生过程、原因以及改进计划进行记录,便于追踪、处理问题。
- 事故定级:对事故定级并划分责任方。
1 前提条件
已购买分布式数据自治服务。详细操作说明请参见 DataLeap 服务信息。
2 事故登记管理
若SLA延迟较严重,比如是数据等级为D1的申报任务的延迟,则需要登记事故。
登录 DataLeap 控制台。
选择数据治理 > 复盘管理 > 事故管理 > 事故列表,进入事故列表页面。
新建并复盘事故通报。
- 单击事故通报按钮,在新建事故通报页面,填写事故信息后,单击提交按钮,即可新建一条事故记录。
- 可单击事故列表操作列的复盘按钮,对事故继续进行复盘登记后,单击相应按钮完成以下操作。
- 单击保存按钮,保存配置的复盘信息。
- 单击完成复盘按钮,完成事故复盘。此时,该事故的复盘按钮变为编辑按钮。
新建事故通报相关参数说明如下表所示。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
参数 | 说明 |
---|
基本信息 |
*事故标题 | SLA延迟事故的标题,自行设定。 |
*发生时间 | 事故发生的时间,下拉可选。 |
结束时间 | 事故结束的时间,下拉可选。 说明 - 事故结束时间不得早于事故发生时间。
- 当您标识该事故复盘已完成时,需填写该参数。
|
*发现渠道 | 发现该事故的渠道,支持监控报警、客服、产品运营、分析师、技术人员、外部用户、内部用户和其他八个选项,下拉可选。 |
创建人 | 登记该事故的人员,默认为当前新建事故的用户,不可编辑。 |
*跟进人 | 跟进事故处理的人员,输入用户账号关键词后下拉可选。 |
直接影响内容 | 直接影响的任务。
默认添加当前选中的任务,可添加其他受影响的任务。若添加,需设置以下参数: - 任务/数据表:支持离线任务、数据表、离线基线三个选项,下拉可选。
- 离线任务:可输入任务名称关键词或任务ID搜索后下拉选择。
- 数据表:支持EMR Hive 和 LAS 两种类型选项,选择类型后,输入库名或表名关键词后下拉可选。
- 离线基线:输入基线名称关键词后下拉可选。
- 业务日期:业务发生的日期,下拉可选。
- 问题类型:离线任务支持 SLA延迟、报警两类选项,数据表、离线基线仅支持报警选项。
- 关联报警:任务/数据表的关联报警信息,按需勾选。
当问题类型选择报警时,需设置该参数。
|
影响团队 | 事故影响到的团队,下拉可选已创建的数据团队,支持设置多个。 |
影响补充说明 | 影响内容的补充说明。 |
通知范围 |
通报范围 | 事故通报的用户范围,输入用户账号关键词后下拉可选。 说明 设置该参数后,新建事故通报时,会给该用户发送事故通报通知;完成复盘时,会给该用户发送事故复盘通知。 |
复盘信息 |
事故过程 | 事故发生的过程。可根据需要进行描述,示例如下: - 事故开始:通过什么操作开始,操作的过程是怎样的。
- 如何发现:何时、是谁、在哪里发现的,发现后第一时间如何处理的。
- 处理过程:采用了什么手段进行缓解或者修复,修复时遇到了哪些问题。
|
事故原因 | 事故发生的原因。 |
改进计划 | 事故整改计划,可按需添加多条。
每条计划包含以下配置项: - *改进项类别:改进项所属类别,支持流程规范、产品需求、技术优化、意识培训、其他五个选项,下拉可选。
- *改进项:要改进的事项。
- *跟进人:改进项的责任人,输入租户账号关键词后下拉可选。
- *跟进数据团队:跟进该改进项的数据团队,下拉可选已创建的团队。
- *截止时间:设定的改进截止时间,下拉可选。截止时间不可早于事故发生时间
- *状态:改进的状态,支持进行中和已完成两个选项,下拉可选。
- 完成情况说明:改进项的改进完成情况说明。
说明 若填写改进计划,则名称前带 * 的参数为必填项。 |
事故定级 |
事故定级 | 依据事故造成的影响定级,支持L0~L4、Notice、未定级等选项,严重程度由高到低,下拉可选。
系统会根据任务自动显示推荐选项,若无推荐或有其他设置需求,可参考以下事故定级标准自行设定。
离线数据时效性作为核心质量要求,事故定级应综合考虑受事故影响的任务重要性、任务时效性承诺、任务延迟比例和任务最大延迟时长。目前仅对受事故影响的核心离线数据任务定级,各等级对应的问题情况如下: - L0:指影响特大。
- 单机房核心申报任务延迟比例>=40%
- 受影响核心申报任务最大延迟时长>12H
- L1:指影响重大。
- 单机房核心申报任务延迟比例>=20%
- 受影响核心申报任务最大延迟时长>6H
- L2:指影响严重。
- 单机房核心申报任务延迟比例>=10%
- 受影响核心申报任务最大延迟时长>3H
- L3:指影响一般。
- 单机房核心申报任务延迟比例>=5%
- 受影响核心申报任务最大延迟时长>2H
- L4:指影响轻微。
- 单机房核心申报任务延迟比例>=1%
- 受影响核心申报任务最大延迟时长>1H
- Notice:指影响微小。
- 单机房核心申报任务延迟比例<1%
- 受影响核心申报任务最大延迟时长<=1H
说明 - 同一等级下的多个问题是或的关系,即只要存在其中一个问题即可选择对应的等级。
- 单机房核心申报任务延迟比例 = 单机房核心申报任务延迟数 / 单机房核心申报任务总数
- 核心申报任务:SLA保障平台申报成功的D1级和D2级任务。
- 单机房:目前仅支持华北机房。
- 任务延迟定义:SLA保障平台申报时承诺的任务完成时间内未运行完成定义为延迟。
- 受影响核心申报任务最大延迟时长 = Max(受影响核心申报任务延迟时长集合)
|
责任划分 | 该事故的责任划分情况,可根据实际情况添加多条。
每条信息包含以下配置项: - *责任团队:负责该事故的数据团队,下拉可选已创建的团队。
- *责任占比:当前所选团队承担责任的百分比,其输入值需要大于0。
- 判定理由:判断该团队责任占比的理由,根据实际情况填写。
说明 - 若填写责任划分,则名称前带 * 的参数为必填项。
- 完成复盘时,所有责任团队的责任占比之和要等于100%。
|
对已创建的事故通报,还可进行以下管理操作:
设置搜索条件,查看符合条件的事故列表。当设置多个搜索条件时,会取各个条件的交集,进行查询。
单击事故列表中某条信息操作列的编辑按钮,在编辑页面,可以修改该条事故通报。
单击事故列表中某条信息操作列的分析按钮,在弹出的事故分析窗口中,可以分析事故原因。
参数 | 说明 |
---|
分析维度 | 事故分析的维度,支持直接原因、根因分析、预防检测、监控发现和响应止损 |
问题类别 | 问题的归类。不同维度下有多个不同的类别选项,下拉可选。
选择分析维度后,才可设置该参数。 |
详细描述 | 对该问题的详细描述。 |
单击事故列表中某条信息操作列的删除按钮,二次确认后,可以删除该条事故通报。
3 改进管理
当事故通报设置改进计划后,可在改进管理页面对事故改进项进行统一管理。
- 登录 DataLeap 控制台。
- 选择数据治理 > 复盘管理 > 事故管理 > 改进管理,进入改进管理页面。
- 可执行以下管理操作:
- 设置搜索条件,查看符合条件的改进项列表。当设置多个搜索条件时,会取各个条件的交集进行查询。
- 单击某条信息操作列的编辑按钮,在弹出的窗口中,可以修改该信息。
- 单击某条信息操作列的删除按钮,二次确认后,可以删除该条信息。
- 单击某条信息操作列的完成按钮,在弹出的窗口中,确认信息无误后,将该改进项的改进状态更改为已完成。
4 后续操作
登记事故后,您可进入事故大盘页面,查看具体的统计情况。相关说明请参见事故大盘。