Flink 控制台提供了任务详情页,您可以查看任务基础信息、任务配置详情、监控指标数据曲线、快照、日志、告警配置等信息。
功能入口
- 登录流式计算 Flink 版控制台。
- 在顶部菜单栏选择目标地域。
- 在左侧导航栏选择项目管理,然后单击目标项目卡片,进入项目详情。
- 在项目左侧导航栏选择任务运维 > 任务管理。
- 在任务页签下,筛选目标任务,然后单击目标任务的名称。
详情概览

- 基本信息:展示任务名称、状态、类型、资源池、优先级、引擎版本等基本信息,并提供 Web UI 快捷入口。
- 网络信息:展示当前任务运行的资源池的子网、安全组信息。
- 历史实例:以列表形式展示任务的所有历史实例,并可以查看历史实例的任务配置详情、监控指标曲线和日志。
配置信息

展示任务当前的配置详情,包含以下信息:
- SQL 配置:仅当是 SQL 任务时展示任务的 SQL 语句。
- 任务配置: 当是 JAR 任务时展示 JAR URI、程序主类和 main 函数的
args[]参数。当是 Ray 任务时展示代码文件、Entrypoint 等信息。当是 Python 任务时展示 Python File URI、 Entry Point Main Arguments 等信息。 - 任务资源配置:展示任务的 Flink 参数配置。
- Checkpoint 配置:展示任务的 Checkpoint 配置。
- Task 重启策略配置:展示任务的重启策略和重启规则。
- 任务失败重试拉起配置:展示任务失败重试规则,包括最大重试拉起次数和重试拉起时间间隔。
- 自定义参数:展示任务配置的自定义参数。
- 自动调优:
- 依赖文件:展示任务选择的依赖文件。
运行事件

记录任务运行的整条链路上的关键事件,并打印出关键信息。方便运维人员排查、分析、查找错误原因。
同时可以直接查看实例的配置详情。
数据曲线

流式计算 Flink 版已经对接云监控服务,提供 Flink 任务的监控和告警能力。
Flink 任务详情中的数据曲线页签下,展示当前任务的监控指标数据曲线。您可以按需查看 Overview、Network&IO、JVM、Schedule Info、Watermark、checkpoint view、checkpoint timer、Checkpoint Operator Performance、resource、Kafka 等不同维度的核心指标情况,通过分析监控指标,能快速发现任务运行是否异常。
说明
在数据曲线页面提供了图表联动功能。
勾选该功能后,鼠标悬停在任意一个监控曲线图,都能同时查看到其他所有曲线图在相同时间的指标详情信息。
自动调优
Flink 平台已经支持为任务开启自动调优。开启后,系统将根据设置的时间规则进行自动扩缩容。
- 在项目左侧导航栏选择任务运维 > 任务管理。
- 在 Flink 任务页签下,筛选并单击目标任务的名称。
- 在自动调优页签下,单击新建规则,然后设置调优相关参数并单击确定。
如果已经启用自动调优且需要修改调优规则,请单击编辑规则。

- 规则创建后如果需要启用相关调优任务,需要点击启用按钮,确认调优规则为启用,则任务会进行调度。

- 调整优先级:通过拖拽优先级可以调整调优规则的调度顺序。如果时间出现重合,那么会优先执行优先级高的规则。

- 参数说明如下:
配置 | 说明 |
|---|
规则类型 | 规则的类型,当前支持定时规则。 |
规则名称 | 设置规则的名称。 |
调度周期 | 调优规则调度的周期,支持一次性、按天、按周、按月。 |
选择时间 | 支持设置开始时间和结束时间: - 开始时间:进入开始时间后,Flink 任务会发生重启,资源会调整成目标资源用量。
- 结束时间:当任务进入结束时间后,Flink 任务会自动还原到调优前的资源参数。
|
资源配置 | 当前支持调整以下资源参数: - 并行度
- 单个 TaskManager slot 数
- 单个 TaskManager CPU 数、内存大小
- 单个 JobManager CPU 数、内存大小
- Checkpoint 周期、超时时间
参数含义可以参考 配置 Flink 参数 |
更多关于自动调优的限制说明,请参考 启用自动调优
快照

展示 Flink 任务 5 天内手动创建和系统创建的任务快照。
快照主要用于系统出现故障时,使用快照恢复任务,不会出现数据丢失。此处不做详细介绍,如需了解快照的创建和使用,请参见作业快照。
日志
在任务详情页的日志页签下,您可以查看当前任务的日志详情。系统会保留 7 日内的日志。在日志保留期间,可以查看任务的历史日志。
任务类型 | 说明 |
|---|
Flink | 
展示当前任务的日志,可自由切换 JobManager 、TaskManager 和 Client,查看对应日志。
- ①:根据历史实例、JobManager 、TaskManager、Client、Pod,查看对应日志。
- ②:支持指定起始时间和结束时间,查看该时间段内的任务日志。
- ③:设置日志输出类型,可选值有
log、err和out,仅查看目标输出类型的任务日志。说明 log文件通常包含 Flink 系统运行过程中的一般信息,如任务启动和停业的时间、任务状态更新、警告和错误信息等。这些日志内容通常是用于诊断和调试问题的重要信息。支持在 Flink 参数中通过env.log.level参数限制 log 日志的输出等级,指定输出日志等级后,在任务日志中只会输出当前等级日志,以及更高等级的日志。如何设置,请参见自定义参数。out文件通常包含 Flink 任务执行过程中生成的输出数据。这些数据可以是 Flink 应用程序的最终结果,也可以是中间结果。如果 Flink 应用程序是流处理应用程序,那么out文件可能会不断更新,随着新数据的到来而不断增长。err文件通常包含 Flink 任务执行过程中出现的错误信息和异常。这些信息对于诊断和调试问题非常重要,可以帮助您快速定位和解决问题。
- ④:设置日志等级,仅查看该等级的任务日志。
- ⑤:设置关键字,精准定位到包含该关键字的任务日志。
- ⑥:支持全屏查看日志。
- ⑦:支持下载日志文件到本地,格式为
<实例名称>-<日志类型>-<Pod名称>-log.txt。 - ⑧:支持任务日志的一键到底、一键到顶的快捷按钮。
|
Ray | 
展示当前 Ray 任务日志,您可以自由切换需要查看的日志类型,查看对应日志。
- 支持设置时间段,查看该时间段内的日志。
- 指定日志等级和关键字,精准查看任务日志。
- 支持全屏查看日志。
- 支持持下载日志文件到本地。
- 支持任务日志的一键到底、一键到顶的快捷按钮。
|
告警

流式计算 Flink 版已经对接云监控服务,提供 Flink 任务的监控和告警能力。
在 Flink 任务详情中的告警配置页签下,您可以单击前往云监控配置告警规则,以创建针对当前任务创建告警规则和告警通知方式。当监控指标达到告警阈值,系统将触发告警事件,并向告警联系人发送告警消息,有助于及时发现并处理任务异常。
如何创建告警策略,请参见创建告警策略。
智能诊断(Beta)
注意:智能诊断功能当前属于邀测功能,如果您有需求的话,可以参考 技术支持 提交工单为您开通相关功能。
Flink 智能诊断通过实时采集作业运行指标(延迟、吞吐量、反压链路、CPU/内存使用、GC、Checkpoint 状态、算子水位、数据倾斜情况等),结合规则引擎与 AI 大模型分析,自动识别流作业中的异常、瓶颈与潜在风险,并生成可执行的修复建议或自动化处理动作。

在任务详情中 - 智能诊断 Tab,选择智能诊断后,会自动进行诊断。当前主要支持
- 重启诊断:根据任务重启的事件和相关日志,分析重启原因以及规避手段
- 数据处理分析:提供图形化 DAG、关键链路、热点指标、异常趋势,帮助业务与数据团队迅速理解问题。
- 任务配置分析:根据任务配置,分析任务的资源使用情况,并给出优化建议。
- 资源使用分析:从资源池、JobManager、TaskManager 的 CPU、内存等核心资源使用情况分析,给出优化建议。
AI 诊断功能:系统提供大模型增强分析能力,综合诊断任务全链路信息并提供:风险根因定位,诊断报告与修复方案,用户还可以通过交互式问答进行深度沟通,对复杂链路问题,隐性瓶颈和潜在风险进行更深入可追问的技术剖析。

在 AI 诊断功能中,可以点击立即诊断按钮,可以自动使用大模型进行诊断功能。AI 诊断会结合 Flink 任务运行的实时指标、日志等信息,对任务进行全面诊断。并出具诊断报告,给出优化建议。

您可以再在对话框中和大模型中进一步沟通,了解任务的更多信息,并得到更深入的诊断。