You need to enable JavaScript to run this app.
导航
智能运维助手
最近更新时间:2025.08.11 11:44:25首次发布时间:2024.10.24 10:38:58
复制全文
我的收藏
有用
有用
无用
无用

DataLeap 智能运维助手旨在满足用户线上任务运维需求,针对任务运行失败、运行变慢等场景,提供运维诊断和优化建议操作,助力用户快速定位并解决问题,进而提升任务运维效率。本文将为您介绍 DataLeap 智能运维助手的相关能力。

1 功能概述

DataLeap 智能运维助手的底层能力整合了统一的日志服务、大模型以及产品知识库。其基本运行原理为获取任务实例的所有行为(包括执行日志详情分析、资源使用分配、任务变更记录等)并加以分析,持续积累、分析并整合运维的事件处理经验,来构建有效的运维知识库。当相同的运维事件再度出现时,能够快速且有效地基于知识库沉淀的经验来处置线上任务运维事件。
Image

2 注意与限制

  • DataLeap 智能运维助手为增值服务,需单独进行购买,并根据实际输入/输出 Token 数进行计费。详见智能助手计费
  • EMR HDFS-Sensor、EMR Hive-Sensor、EMR Serverless Spark LAS Catalog Sensor、EMR Serverless Spark TOS Sensor、LAS HDFS-Sensor、LAS Hive-Sensor 等 Sensor 任务,不支持任务日志的运行诊断、日志解读等操作。
  • 智能运维助手开启后,当天已经例行运行的任务实例,不会自动触发智能运维诊断服务。您可在任务实例 DAG 的运行诊断中,单击重新诊断,便可开启失败实例的诊断。
    Image

3 购买与开通智能运维助手

DataLeap 智能运维助手以项目维度开通,购买与开启流程如下。

  1. 购买智能运维助手服务,您可前往 DataLeap租户控制台 > 购买其他服务中进行购买,操作详见1.1 开通服务
    Image

  2. 任务日志的运行诊断、日志详情解读分析等操作,则需要先在控制台中启用智能运维助手:

    • 在新建 DataLeap 项目时,可在项目管控 > 智能助手设置步骤中,直接勾选启用智能运维助手
      Image
    • 针对已创建的历史项目,您可在项目控制台 > 智能助手控制窗口中,勾选启用智能运维助手,并对日志解读、运行诊断场景进行精细化控制属性设置。属性设置说明详见智能助手控制
      Image

      注意

      运维助手开启后,当天已经例行运行的任务实例,不会自动触发智能运维诊断服务。您可在任务实例 DAG 的运行诊断中,单击重新诊断,便可开启失败实例的诊断。
      Image

  3. 临时查询中的任务,其任务运行资源分配优先级默认皆为 D5。因此,这类任务在进行运行诊断、日志解读等操作前,必须在启用智能运维助手时勾选 D5 任务优先级。
    Image
    临时查询任务类型和智能运维助手需开启的任务类型映射如下:

    临时查询任务类型

    智能运维助手需开启的任务类型

    EMR Hive SQL、EMR Spark SQL、EMR Presto、EMR Trino

    EMR HSQL

    EMR Doris SQL

    EMR Doris

    EMR StarRocks SQL

    EMR StarRocks

    EMR Serverless StarRocks SQL

    EMR Serverless StarRocks

    EMR Serverless Spark SQL

    EMR Serverless Spark SQL

    LAS SQL

    LAS SQL

    ByteHouse CE SQL

    ByteHouse CE SQL

    ByteHouse CDW SQL

    ByteHouse CDW SQL

    Notebook

    Notebook

    MySQL

    MySQL

4 智能运维-数据开发调试运维

数据开发调试运维主要应用于开发调试场景。
以往在开发过程中,仅通过执行日志为您提供错误排查方向,解读日志主要依赖您的问题排查经验,因此在调试阶段任务错误排查效率往往不高。智能运维助手在数据开发调试阶段,为您提供以下能力:

  • 本次数据开发调试日志的概览中,支持基于智能运维解析的能力,对日志进行解读和总结输出,同时能总结失败任务的错误信息,为您提供更全面、详细的日志解读信息,帮助您更好地理解执行错误信息。

    说明

    日志诊断解析数据倾斜能力,目前仅支持 EMR Serverless Spark 引擎相关任务类型。

  • 并且凭借智能调试诊断插件的能力,提供调试时间轴。在时间轴中,能够清晰展示任务运行过程中的各个运行分支阶段和节点信息,分析任务运行情况,提高开发调试日志的运维效率和质量。时间轴能力详见日志时间轴

4.1 开发调试-运行诊断

开发调试运维可以对运行失败的实例进行错误诊断,为您提供清晰的运行错误总结、错误原文、原因解读以及相应的解决方案建议。这能够极大程度地为您节省排查错误日志问题的时间,帮助您快速找到解决问题的方法。
您还可以对智能运维提供的解决方案进行点赞或点踩操作,这将为您的运维知识库提供更多有效的解决方案建议,进一步丰富运维知识库。
示例如下:
Image

5 智能运维-实例运维

本部分内容主要针对任务线上调度运行后发生的错误、延迟的诊断,基于大模型的能力,对运行日志进行分析,解析出错误栈,并与运维知识库进行匹配,获取错误原因以及解决方案。
DataLeap 任务运行实例后便可执行以下操作:

5.1 操作入口

在项目控制台,开通智能运维开发助手能力后,您可以从以下路径进入智能运维界面:

  1. 在左上角全部产品中,进入数据开发 > 运维中心 > 离线任务运维 > 实例运维界面。
  2. 实例运维列表界面下,单击某个实例操作列下的查看日志按钮,进入实例日志概览界面;或单击运行状态列下的诊断按钮,进入运行诊断界面。
    Image
  3. 在日志详情界面,可以看该任务每个实例的日志概览、时间轴、运行诊断、日志详情几个部分。当前,这几个部分构成了智能运维的主要能力。
    Image

5.2 日志概览

以往在日志概览页签中,仅提供了任务日志的 tracking URL 链接信息,而没有其他更详细的日志信息。
优化后的智能运维中的日志概览,将基于智能运维解析的能力,对日志进行解读和总结输出,同时能够总结错误信息。为您提供更全面、详细的日志解读信息,帮助您更好地理解和分析任务运行情况,提高运维效率和质量。
示例如下:
Image

5.3 时间轴

在实例运维的时间轴上,可清晰呈现任务运行过程中的各个分支阶段的耗时占比与节点信息,便于分析任务运行时长状况,从而提升开发调试日志的运维效率与质量。
时间轴使用方式操作详见日志时间轴
Image

5.4 运行诊断

智能运维可以对运行成功但存在数据倾斜的实例以及运行失败的实例进行诊断,为您提供清晰的运行错误总结、错误原文、原因解读以及相应的解决方案建议。这能够极大程度地为您节省排查错误日志问题的时间,帮助您快速找到解决问题的方法。

说明

日志诊断解析数据倾斜能力,目前仅支持 EMR Serverless Spark 引擎相关任务类型。

您还可以对智能运维提供的解决方案进行点赞或点踩操作,这将为您的运维知识库提供更多有效的解决方案建议,进一步丰富运维知识库。
示例如下:
Image

5.5 日志详情:

在日志详情界面,智能运维可对调度日志详情进行每个关键步骤的详细解读与总结,示例效果如下:
Image
借助智能运维日志解读,您能够显著提升对日志详情的可读性。目前,平台会对所有日志进行解读。我们期望使用更为通俗易懂的文案来解释日志,从而增强其可读性。