基线管理功能,通过设置基线监控,可对目标任务及其全部上游任务组成的数据链路,进行全方位的监控,对无法按时完成的任务进行提前预警,保障关键数据能够按时产出。为您降低监控配置成本的情况下,又能更高效的完成任务监控治理。
目前 LAS/EMR Sensor 任务类型、工作流任务、月级调度任务、周级调度任务、分钟级调度任务不支持将其添加至基线,进行基线监控。
通过基线监控,可监控保障任务及其全部上游,保证保障任务按时产出。
说明
当您修改已有基线时,对应配置无法实时生效,具体生效时间为:
参数 | 说明 |
---|---|
基线名称 | 根据需要,设置基线名称。 |
优先级 | 包括普通和紧急两种可选类型:
|
基线类型 | 包括天基线和小时基线两个选项,由加入基线的保障任务的频率决定。
|
保障任务 | 添加基线需要保障的任务,可通过任务名称/ID 来搜索添加。 |
承诺时间 | 加入基线的保障任务,最晚可接受的完成时间。
|
预警余量 | 承诺时间-预警余量即为基线预警时间。一般保障任务发生异常,需要预留多少时间进行处理,预警余量即设置多少。 |
报警类型:基线提供5种报警类型,根据实际需要,您可选择自己想要用的报警。
报警类型 | 报警触发条件 |
---|---|
基线预警 | 基线监控的链路上,首个没有在基线预警时间点开始运行的节点。 |
基线预测破线 |
|
基线破线加剧 |
说明 N% 为变慢识别算法因子,详见基线事件。 |
基线保障任务未完成预警 | 基线预警时间到达(承诺时间-预警余量),检查基线所有保障任务是否完成运行:
|
基线保障任务未完成 | 基线承诺时间到达,检查基线所有保障任务是否完成运行:
|
监控范围:由加入基线的保障任务及其全部上游任务组成。
报警形式说明:
参数 | 说明 |
---|---|
普通 | 所有基线报警类型,采用同样的发送形式进行发送。 |
高级 | 支持根据上方不同基线的报警类型,采用不同的发送形式进行发送。 |
发送方式 | 支持邮件、短信、电话、Webhook 等方式。注意事项详见:新建监控规则---报警设置。 |
报警对象 | 支持选择项目用户、值班计划配置方式,操作说明详见:新建监控规则---接收人、值班计划配置。 |
报警范围 | 由加入基线的保障任务及其全部上游任务组成。
|
发送次数 | 设置报警发送的次数。 |
间隔时间 | 设置多次发送告警时,每次发送告警的发送间隔时间。 |
免打扰时段 | 您可自定义选择是否开启免打扰时间段,在免打扰时间内,不会发送相关报警。 |
任务开发的不同阶段,可按需进行基线监控的设置,具体操作入口如下:
基线创建完成后,您可以在基线管理界面,对已创建的基线进行以下管理操作:
基线告警类型包括:基线预警
、基线预测破线
、基线破线加剧
、基线保障任务未完成预警
、基线保障任务未完成
5种,其中:
基线预警
、基线预测破线
、基线破线加剧
为基线保障任务的上游发出的告警,这些告警发出时表明保障任务产出有可能延迟,因此回调时,需要透出上游任务本身的状态,以及可能受影响的保障任务信息;基线保障任务未完成预警
和基线保障任务未完成
告警是对保障任务分别在预警时间和保障时间是否成功产出的兜底告警,因此回调时,仅需要透传保障任务的状态即可。综上所述,回调结构体格式如下:
{ "region": "cn", // 区域 "baselineId": 1, // 基线ID "alarmRuleType": 10, // 告警项ID "alarmItemTypeI18n": { // 告警项名称国际化 "zhCN": "基线预警", "enUS": "Baseline Warning" }, "causeTaskId": 1, // 导致告警的任务ID "causeTaskTime": "2021-07-18", // 导致告警的任务业务时间 "causeInstanceId": 300000, // 导致告警的任务实例ID "causeTaskInstanceStatus": 5, // 导致告警的任务实例状态CODE "causeTaskInstanceStatusStr": "failed", // 导致告警的任务实例状态ALIAS "causeProjectId": 1, // 导致告警的任务所属项目ID "affectedCommitTaskInstances": [ // 受影响的保障任务实例信息 { "id": 1, // 实例ID "taskId": 1, // 保障任务ID "taskName": "dorado_task", // 保障任务名称 "taskFrequency": "DAILY", // 保障任务频率 "taskPriority": "CORE_TASK", // 保障任务优先级 "taskTimeFormat": "2021-07-17", // 保障任务的业务时间 "status": 10, // 保障任务实例状态ID "instanceStatusCollection": "RUNNING" // 保障任务实例状态描述 } ], "alarmTimes": 1 // 告警发送次数 }
字段名 | 附属字段名 | 类型 | 说明 |
---|---|---|---|
region | String | 项目所属区域,取值:cn-beijing、cn-shanghai。 | |
baselineId | Long | 基线 ID 信息。 | |
alarmRuleType | Integer | 基线告警项类型说明:
| |
alarmItemTypeI18n | 告警项名称国际化: | ||
zhCN | String | 中文告警项名称 | |
enUS | String | 英文告警项名称 | |
causeTaskId | Long | 导致告警的任务 ID,告警项类型为基线保障任务未完成预警和基线保障任务未完成时,无该字段。 | |
causeTaskTime | String | 导致告警的任务业务时间,告警项类型为基线保障任务未完成预警和基线保障任务未完成时,无该字段。 | |
causeInstanceId | Long | 导致告警的任务实例 ID,告警项类型为基线保障任务未完成预警和基线保障任务未完成时,无该字段。 | |
causeTaskInstanceStatus | Integer | 导致告警的任务实例状态 CODE,告警项类型为基线保障任务未完成预警和基线保障任务未完成时,无该字段。详见离线监控-4.4 实例状态说明。 | |
causeTaskInstanceStatusStr | String | 导致告警的任务实例状态 ALIAS 解释,告警项类型为基线保障任务未完成预警和基线保障任务未完成时,无该字段。详见离线监控-4.4 实例状态说明。 | |
causeProjectId | Long | 导致告警的任务所属项目 ID,告警项类型为基线保障任务未完成预警和基线保障任务未完成时,无该字段。 | |
affectedCommitTaskInstances | 受影响的保障任务实例信息: | ||
id | Long | 实例 ID, 告警项类型为基线预警、基线破线、基线破线加剧时,无该字段。实例信息可以通过 taskId+taskTime 去查询。 | |
taskId | Long | 保障任务 ID。 | |
taskName | String | 保障任务名称。 | |
taskFrequency | String | 保障任务频率:every_ten_minutes、hourly、daily、weekly、monthly | |
taskPriority | String | 保障任务优先级:NORMAL、HIGH、SUPER_HIGH、CORE_TASK、SUPER_CORE_TASK | |
taskTimeFormat | String | 保障任务的业务时间。 | |
status | Integer | 保障任务实例状态 ID, 告警项类型为基线预警、基线破线、基线破线加剧时,无该字段。 | |
instanceStatusCollection | String | 保障任务实例状态描述,告警项类型为基线预警、基线破线、基线破线加剧时,无该字段。 | |
alarmTimes | Integer | 告警发送次数 |
实例状态说明详见监控规则-4.4 实例状态说明。