SLA保障融合全链路数据治理方法论,提供了SLA在线化管理、统计分析及事故复盘等能力,从而提升核心数据的稳定性。产品主要具备以下特性:
- 100%在线化的核心数据SLA申报、审批、签署流程,提升信息处理效率。
- 提供具有公信力的官方认定SLA,对每日达成情况进行公示。
- 丰富的治理仪表盘,助你快速分析治理效果,定位问题。
- 通过事故复盘管理,不断迭代和提升数据的稳定性及质量。
用户及使用场景
- 数据消费者SLA使用
团队负责的业务十分依赖某张表,但其产出时间非常不稳定,团队希望能对其进行保障,相关上游可以承诺SLA。 - 数据负责人SLA管理
团队内部有很多表对外承诺了SLA,希望能有一个平台对SLA进行集中管理,并能提供一些统计大盘、风险分析等能力,协助对数据进行更好的治理。 - 数据治理方SLA自治
作为团队治理负责人,希望能提升团队内核心数据稳定性。通过管理团队内的SLA,识别风险,及时进行事故复盘和改进等措施,持续优化数据质量。
核心概念介绍
SLA
服务级别协议(Service Level Agreement),是网站服务可用性的保证。SLA保障平台提供在线化申报与签署,并通过多种治理保障措施,协同提高全链路数据质量。
角色
目前 SLA 保障平台的核心角色有三类,分别如下:
- 申报人:即 SLA 提申报的人,一般是数据业务方,其提申报的目的是保障业务数据的 SLA。
- 管理员:即治理团队管理员,满足数据治理方的需求设置的角色,负责申报的审核、批准、管理等,其目的是不断优化所属团队的数据质量。
- 任务负责人:即待保障 SLA 数据链路中的任务负责人,负责确定及签署所负责任务的 SLA,平台会按照其签署的 SLA 进行保障。
任务
即产出数据的任务,通过数据任务的元信息,可构建整条数据生产链路的完整 DAG(Directed Acyclic Graph,有向无环图)。在本平台中,所涉及的任务元信息一般需要包含以下内容:
- 基本信息:该任务的基本信息。
- 归属信息:该任务由谁负责,由哪个团队管理。
- 运行状态:该任务的运行状态。
- 上下游信息:该任务的上下游任务。
申报单
申报人提起的一次申报内容,就称为一个申报单。一个申报单一般包含的核心内容如下:
元素 | 说明 |
|---|
申报任务 | 申报的任务,即申报人希望保障的任务,也称为起点任务。 |
期望 SLA | 申报人希望申报任务的产出时间,会直接按该时间进行签署。 |
治理团队 | 数据治理方,该申报单将由此治理团队的管理员进行审批及治理。 |
申报签署流程
SLA治理以申报单签署的形式达成SLA协议,来实现SLA保障。签署过程中,先通过“系统卡点计算”减少待签署任务的数量,再通过“SLA推荐计算”自动签署部分任务,最后为剩下的待签署任务智能提供合适的SLA,从而实现流程优化,进一步降低签署成本。
- 卡点计算:系统采取一定的卡点策略,计算出此 DAG 中的部分需要被签署的任务,此类任务称为“卡点任务”,这个过程则称之为卡点计算。
- SLA 推荐计算:利用任务及其上下游任务的历史运行信息,再结合推荐算法,得到该任务的推荐 SLA,这个过程称之为SLA 推荐计算。
申报签署流程如下所示:

功能介绍
SLA 保障包括SLA申报、审批、签署、管理、实例监控等功能,主要如下:
- SLA申报、审批和签署
提供以申报单签署的方式达成 SLA 协议的服务,包括申报单的生命周期管理操作、申报任务的链路分析,以及达成 SLA 之后的系统保障监控,均服务于申报签署流程。 - 实例监控
提供任务T-1日的SLA履约情况,细分展示任务的延迟情况或者一个任务不同等级的延迟情况。 - 申报单监控
根据申报点签署的 SLA 时间,对申报单进行 SLA 达成监督。