You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

Flink SQL作业因共享检查点数据缺失或损坏无法从检查点恢复的问题求助

各位Flink大佬好,我这边碰到个头疼的问题,想请大家帮忙分析支招:

作业环境与基础情况

  • 我们使用的是Flink 2.2.0版本,所有作业均基于Flink SQL开发
  • 作业核心逻辑:消费多个Kafka Topic的数据做关联计算,最终输出到另一个Kafka Topic
  • 检查点配置:启用了增量检查点,触发间隔设置为15分钟
  • 作业状态:属于长运行作业,已经稳定运行超过1年

遇到的异常问题

作业运行过程中会不定期抛出异常,从报错栈信息能判断,问题出在增量检查点依赖的共享存储目录上,核心报错片段如下:

Caused by: (此处补充具体异常栈内容,例如文件找不到、权限校验失败、数据校验不通过等提示)

想请教的几个问题

  • 已经稳定运行1年的作业,突然出现共享检查点数据相关的问题,常见诱因有哪些?
  • 针对增量检查点依赖的共享存储,日常运维有什么注意事项可以提前规避这类问题?
  • 碰到这种无法从检查点恢复的情况,除了重启作业从头消费Kafka数据,有没有更优雅的恢复方案?

火山引擎 最新活动