Flink SQL作业因共享检查点数据缺失或损坏无法从检查点恢复的问题求助
Flink SQL作业因共享检查点数据缺失或损坏无法从检查点恢复的问题求助
各位Flink大佬好,我这边碰到个头疼的问题,想请大家帮忙分析支招:
作业环境与基础情况
- 我们使用的是Flink 2.2.0版本,所有作业均基于Flink SQL开发
- 作业核心逻辑:消费多个Kafka Topic的数据做关联计算,最终输出到另一个Kafka Topic
- 检查点配置:启用了增量检查点,触发间隔设置为15分钟
- 作业状态:属于长运行作业,已经稳定运行超过1年
遇到的异常问题
作业运行过程中会不定期抛出异常,从报错栈信息能判断,问题出在增量检查点依赖的共享存储目录上,核心报错片段如下:
Caused by: (此处补充具体异常栈内容,例如文件找不到、权限校验失败、数据校验不通过等提示)
想请教的几个问题
- 已经稳定运行1年的作业,突然出现共享检查点数据相关的问题,常见诱因有哪些?
- 针对增量检查点依赖的共享存储,日常运维有什么注意事项可以提前规避这类问题?
- 碰到这种无法从检查点恢复的情况,除了重启作业从头消费Kafka数据,有没有更优雅的恢复方案?




