You need to enable JavaScript to run this app.
导航
运维管理
最近更新时间:2024.05.23 10:25:04首次发布时间:2024.05.23 10:20:01

1. 概述

运维管理是本产品提供的一款运维工具,它可以帮助用户高效地管理和维护各项任务。用户可以通过任务看板、运维支持、智能诊断和资源治理等功能,实时监控任务的进度和状态,对任务流程进行标准化管理,从而快速识别并解决任务运维过程中遇到的问题。(本产品自 V2.64.0 版本起在私有化部署模式中支持该功能)。

2.快速入门

请您使用火山引擎控制台(Portal)登录页面,您需要确保账号有运维或者管理权限

(1)任务看板和任务运维
在您登录后,可以通过点击页面右上角的系统管理跳转至运维管理页面。

3.功能介绍

运维管理目前包含四大功能:任务看板、任务运维、智能诊断和资源治理。

3.1 任务看板

3.1.1 今日任务概览

今日任务概览页面包含以下信息:

  • 今日任务各状态实例统计情况
  • 今日任务总览(按小时统计)

3.1.2 历史任务洞察

历史任务洞察页面包含以下信息:
(1)昨日任务详情

  • 最近48小时调起任务个数
  • 昨日任务耗时top20:此处会展示一些需要的元数据信息,比如数据集/可视化建模任务名称、数据集/可视化建模任务Id、Owner、项目Id、本次实例任务耗时、本次实例输出数据量以及对应的平均任务耗时。
  • 昨日任务输出数据量top20:此处会展示一些需要的元数据信息,比如数据集/可视化建模任务名称、数据集/可视化建模任务Id、Owner、项目Id、任务输出的库表名、输出底表的 TTL 以及本次实例输出数据量。

(2)近两周任务洞察(最多可选择1个月)

  • 成功任务个数统计
  • 任务实例运行耗时统计
  • 数据源同步任务运行耗时统计

3.2 任务运维

(1)任务运维包含多维度查询、重跑和终止任务实例信息。
(2)异常的任务实例会高亮显示。
(3)任务运维支持自定义批量重跑任务,一般用于集群迁移或实例缺失的情况。

4.使用场景

4.1 问题排查

(1)收到告警后一键诊断
当您收到任务告警后,可以使用一键诊断来确定任务排查方向。如图,收到提示数据源有问题,并且给出了实例Id时,您便可以在任务实例页面搜索失败实例,根据实例Id找到对应的任务。

(2)收到告警后查看日志
首先,您可以进入任务看板页面,点击失败卡片,系统会自动跳转到任务运维页面搜索失败实例。
然后您再选择失败实例,点击日志,即可查看失败任务的具体日志。

(3)判断是否为大任务引发的堆积告警
首先,您需要在任务看板页面点击运行中的卡片,然后查看运行中实例的所使用的资源。
如果资源用量占比整个队列较多的话,则您需要看下该实例的执行时长;若时长较长,则表示是该任务实例引起的告警,需要处理调整该任务模型。

(4)判断是否为回溯过多引发的堆积告警
如果您的任务看板里回溯个数较多,同时慢任务个数为0的话,可以确认为是回溯过多引起的告警。
则您可以在任务运维页面,触发方式选择【回溯】,实例状态选择【排队中】,即可找到具体回溯任务实例明细。

(5)查看运行中任务的详细信息
若您想了解运行中任务的详细信息,比如数据集、项目、Owner 等,可以直接点击任务看板里运行中的卡片,即可查看运行中实例的详细元信息。同时也能点击【跳转】按钮直接跳到该数据集或者可视化建模任务页面,通过点击【日志】按钮查看任务运行日志。

4.2 恢复任务

(1)补充实例记录并重跑任务
当实例缺失或者集群迁移时,需要您补充实例记录并重跑任务,您可以通过自定义重跑来完成该操作。

(2)按优先级恢复项目
当任务失败后需要高优恢复项目1的任务,然后再恢复项目2时,您可以按以下步骤完成该操作。
第一步: 点击自定义重跑,选择业务日期,重跑类型选择项目,Id填写1,优先级选择【高优】,然后提交。

第二步: 点击自定义重跑,选择业务日期,类型选择项目,Id选择项目2,优先级选择【普通】,然后提交。

(3)批量重跑
当您需要对特定的数据集或可视化建模任务进行批量重跑时。首先,您可以点击【自定义重跑】按钮,选好业务日期,类型选择数据集或者可视化建模任务。然后将批量的Id以英文逗号分隔填写到Id列,最后点击确定即可。

(4)终止回溯任务
当任务资源紧张时,您或许需要优先跑例行任务,统一终止回溯任务,您可以通过以下步骤完成该操作。
第一步: 任务运维触发方式选择【回溯】,实例状态选择【排队中】,全选所有实例,并点击终止。
第二步: 任务运维触发方式选择【回溯】,实例状态选择【运行中】,全选所有实例,并点击终止。

(5)查看消费堆积任务的时间
当任务堆积是正常情况时,您可以在任务看板页面中查看【排队中】的卡片,其中会显示预估时间。

(6)重跑所有失败任务
首先,请您点击任务看板页面的运行失败按钮,系统会跳转到任务运维页面并搜出今日所有失败的任务。
其次,您可以全选失败任务,然后选择批量重跑即可。

4.3 清理任务

场景:磁盘有限时对一些闲置超过90天的数据集做清理
首先,请您在闲置数据集页面,闲置天数输入90,然后筛选结果。其次,全量选中,可以选择暂停同步。
最后,刷新页面,则之前一页的所有选中任务的调度类型都已经改为手动。