You need to enable JavaScript to run this app.
导航
DataSail 实时任务报警设置最佳实践
最近更新时间:2024.05.16 21:58:21首次发布时间:2023.12.13 15:22:30

您可以设置任务告警规则,用来监控 DataSail 实时同步任务和 DataSail 解决方案全增量同步中增量任务的状态,以及时发现问题,避免业务影响。

1 实时任务报警设置最佳实践

您可以在 DataLeap > 运维中心 > 报警监控中对实时同步任务设置报警规则,其中包含的报警指标包括:任务执行状态、数据源 Topic lag、Flink failover 次数等。

1.1 指标1:任务执行状态

应用场景:通过任务状态来判断实时同步任务是否异常。
配置建议:建议所有实时同步任务均配置
操作说明:详见报警监控

1.2 指标2:数据源 Topic lag

应用场景:通过获取 Kafka 等源端的消费延迟数据量来监控 Topic lag 的趋势。
配置建议:建议 Kafka 源端、RMQ 源端、BMQ 源端的重要实时同步任务配置均配置。
操作说明:Kafka 源端、RMQ 源端、BMQ 源端可在 DataLeap 运维界面上直接配置监控,仅在数据集成新版资源组生效。操作说明见报警监控

1.3 指标3:Failover 次数

应用场景:当实时集成同步进程发生异常退出时,为提升可靠性,DataSail 服务会重新自动重试,进而提升同步进程可靠性,默认自动重试 3次。
配置建议:如果关注任务 Failover 信息,您可以在报警监控中配置 Failover 指标相关告警,感知同步任务是否存在异常频繁发生 Failover。仅在数据集成新版资源组生效。
操作说明:详见报警监控

2 实时解决方案监控报警设置最佳实践

包含的报警指标包括:任务执行状态、数据源Binlog投递延时、Flink failover次数。

2.1 指标1:数据源 Binlog 投递延时

应用场景:通过对 Binlog 投递延时来提前发现延时问题。
配置建议:建议重要的实时整库同步解决方案、分库分表实时同步解决方案的实时任务都进行配置。
操作说明:请到云产品监控 > 搜索全域数据集成 > 创建告警策略,进行“Binlog投递延迟”的告警规则设置。
操作说明:详见创建告警策略

2.2 指标2:任务执行状态

同实时任务报警设置最佳实践,详见指标1:任务执行状态

2.3 指标3:Failover 次数

同实时任务报警设置最佳实践,详见指标3:Failover 次数