运维管理是本产品提供的一款运维工具,它可以帮助用户高效地管理和维护各项任务。用户可以通过任务看板、运维支持、智能诊断和资源治理等功能,实时监控任务的进度和状态,对任务流程进行标准化管理,从而快速识别并解决任务运维过程中遇到的问题。(本产品自 V2.64.0 版本起在私有化部署模式中支持该功能)。
请您使用火山引擎控制台(Portal)登录页面,您需要确保账号有运维或者管理权限。
(1)任务看板和任务运维
在您登录后,可以通过点击页面右上角的系统管理跳转至运维管理页面。
运维管理目前包含四大功能:任务看板、任务运维、智能诊断和资源治理。
今日任务概览页面包含以下信息:
历史任务洞察页面包含以下信息:
(1)昨日任务详情
(2)近两周任务洞察(最多可选择1个月)
(1)任务运维包含多维度查询、重跑和终止任务实例信息。
(2)异常的任务实例会高亮显示。
(3)任务运维支持自定义批量重跑任务,一般用于集群迁移或实例缺失的情况。
闲置数据集治理页面包含以下信息:
(1)支持您选择「项目名称」、输入「闲置天数」、选择「最近同步时间」,定位到目标闲置数据集。
(2)支持您批量暂停同步和批量删除。其中批量删除是删除到回收站,支持通过回收站恢复。
闲置Excel/CSV文件治理页面包含以下信息:
(1)支持您选择「项目名称」、输入「闲置天数」、选择「最近同步时间」,定位到目标闲置Excel/CSV文件。
(2)支持「结果多选」和「批量删除」用户有权限的闲置Excel/CSV文件。
说明:删除后,这些数据连接关联的下游资源将无法使用,若您需要恢复这些数据连接,需重新上传Excel/CSV文件。
(1)收到告警后查看日志
首先,您可以进入任务看板页面,点击失败卡片,系统会自动跳转到任务运维页面搜索失败实例。
然后您再选择失败实例,点击日志,即可查看失败任务的具体日志。
(2)判断是否为大任务引发的堆积告警
首先,您需要在任务看板页面点击运行中的卡片,然后查看运行中实例的所使用的资源。
如果资源用量占比整个队列较多的话,则您需要看下该实例的执行时长;若时长较长,则表示是该任务实例引起的告警,需要处理调整该任务模型。
(3)判断是否为回溯过多引发的堆积告警
如果您的任务看板里回溯个数较多,同时慢任务个数为0的话,可以确认为是回溯过多引起的告警。
则您可以在任务运维页面,触发方式选择【回溯】,实例状态选择【排队中】,即可找到具体回溯任务实例明细。
(4)查看运行中任务的详细信息
若您想了解运行中任务的详细信息,比如数据集、项目、Owner 等,可以直接点击任务看板里运行中的卡片,即可查看运行中实例的详细元信息。同时也能点击【跳转】按钮直接跳到该数据集或者可视化建模任务页面,通过点击【日志】按钮查看任务运行日志。
(1)补充实例记录并重跑任务
当实例缺失或者集群迁移时,需要您补充实例记录并重跑任务,您可以通过自定义重跑来完成该操作。
(2)按优先级恢复项目
当任务失败后需要高优恢复项目1的任务,然后再恢复项目2时,您可以按以下步骤完成该操作。
第一步: 点击自定义重跑,选择业务日期,重跑类型选择项目,Id填写1,优先级选择【高优】,然后提交。
第二步: 点击自定义重跑,选择业务日期,类型选择项目,Id选择项目2,优先级选择【普通】,然后提交。
(3)批量重跑
当您需要对特定的数据集或可视化建模任务进行批量重跑时。首先,您可以点击【自定义重跑】按钮,选好业务日期,类型选择数据集或者可视化建模任务。然后将批量的Id以英文逗号分隔填写到Id列,最后点击确定即可。
(4)终止回溯任务
当任务资源紧张时,您或许需要优先跑例行任务,统一终止回溯任务,您可以通过以下步骤完成该操作。
第一步: 任务运维触发方式选择【回溯】,实例状态选择【排队中】,全选所有实例,并点击终止。
第二步: 任务运维触发方式选择【回溯】,实例状态选择【运行中】,全选所有实例,并点击终止。
(5)查看消费堆积任务的时间
当任务堆积是正常情况时,您可以在任务看板页面中查看【排队中】的卡片,其中会显示预估时间。
(6)重跑所有失败任务
首先,请您点击任务看板页面的运行失败按钮,系统会跳转到任务运维页面并搜出今日所有失败的任务。
其次,您可以全选失败任务,然后选择批量重跑即可。
场景:磁盘有限时对一些闲置超过90天的数据集做清理
首先,请您在闲置数据集页面,闲置天数输入90,然后筛选结果。其次,全量选中,可以选择暂停同步。
最后,刷新页面,则之前一页的所有选中任务的调度类型都已经改为手动。