You need to enable JavaScript to run this app.
导航

概述

最近更新时间2023.07.12 20:47:48

首次发布时间2021.11.30 13:31:39

SLA 保障产品融合全链路数据治理方法论,提供了 SLA 在线化管理、统计分析及事故复盘等能力,从而提升核心数据的稳定性。产品主要具备以下特性:

  • 100%在线化的核心数据 SLA 申报、审批、签署流程,提升信息处理效率。

  • 提供具有公信力的官方认定 SLA,对每日达成情况进行公示。

  • 丰富的治理仪表盘,帮助快速分析治理效果,定位问题。

  • 通过事故复盘管理,不断迭代和提升数据的稳定性及质量。

1 用户使用场景

  • 数据消费者 SLA 使用

    团队负责的业务十分依赖某张表,但其产出时间非常不稳定,团队希望能对其进行保障,相关上游可以承诺 SLA。

  • 数据负责人 SLA 管理

    团队内部有很多表对外承诺了 SLA,希望能有一个平台对 SLA 进行集中管理,并能提供一些统计大盘、风险分析等能力,协助对数据进行更好的治理。

  • 数据治理方 SLA 自治

    作为团队治理负责人,希望能提升团队内核心数据稳定性。通过管理团队内的 SLA,识别风险,及时进行事故复盘和改进等措施,持续优化数据质量。

2 核心概念介绍

  • SLA

    服务级别协议(Service Level Agreement),是网站服务可用性的保证。SLA 治理平台提供在线化申报与签署,并通过多种治理保障措施,协同提高全链路数据质量。

  • 角色

    目前 SLA 保障平台的核心角色有三类,分别如下:

    • 申报人:即 SLA 提申报的人,一般是数据业务方,其提申报的目的是保障业务数据的 SLA。

    • 管理员:满足数据治理方的需求设置的角色,负责申报的审核、批准、管理等,其目的是不断优化所属团队的数据质量。

    • 任务负责人:即待保障 SLA 数据链路中的任务负责人,负责确定及签署所负责任务的 SLA,平台会按照其签署的 SLA 进行保障。

  • 任务

    即产出数据的任务,通过数据任务的元信息,可构建整条数据生产链路的完整 DAG(Directed Acyclic Graph,有向无环图)。在本平台中,所涉及的任务元信息一般需要包含以下内容:

    • 基本信息:该任务的基本信息。

    • 归属信息:该任务由谁负责,由哪个团队管理。

    • 运行状态:该任务的运行状态。

    • 上下游信息:该任务的上下游任务。

  • 申报单

    申报人提起的一次申报内容,就称为一个申报单。一个申报单一般包含的核心内容如下:

    元素说明
    申报任务申报的任务,即申报人希望保障的任务,也称为起点任务。
    期望 SLA申报人希望申报任务的产出时间,会直接按该时间进行签署。
    治理团队数据治理方,该申报单将由此治理团队的管理员进行审批及治理。

3 申报签署流程

SLA 保障平台以申报单签署的形式达成 SLA 协议,来实现 SLA 保障。签署过程中,先通过 “系统卡点计算” 减少待签署任务的数量,再通过 “SLA 推荐计算” 自动签署部分任务,最后为剩下的待签署任务智能提供合适的 SLA,从而实现流程优化,进一步降低签署成本。

  • 卡点计算:系统采取一定的卡点策略(即将相邻链路上归属于不同项目和任务负责人的任务作为卡点),计算出此 DAG 中的部分需要被签署的任务,此类任务称为“卡点任务”,这个过程则称之为卡点计算。

  • SLA 推荐计算:利用任务及其上下游任务的历史运行信息,再结合推荐算法,得到该任务的推荐 SLA,这个过程称之为SLA 推荐计算。

申报签署流程如下所示:

4 功能介绍

SLA 保障主要包括 SLA 申报、审批、签署、管理、实例监控等功能,主要如下:

  • SLA申报、审批和签署

    提供以申报单签署的方式达成 SLA 协议的服务,包括申报单的生命周期管理操作、申报任务的链路分析,以及达成 SLA 之后的系统保障监控,均服务于申报签署流程

  • 实例监控

    提供任务T-1日的SLA履约情况,细分展示任务的延迟情况或者一个任务不同等级的延迟情况。

  • 申报单监控

    根据申报点签署的 SLA 时间,对申报单进行 SLA 达成监督。