You need to enable JavaScript to run this app.
文档中心
E-MapReduce

E-MapReduce

复制全文
下载 pdf
快速入门
EMR AI 助手快速入门
复制全文
下载 pdf
EMR AI 助手快速入门

火山引擎 EMR 为您提供 EMR Agent 能力—— AI 助手功能,通过 EMR 的 AI 助手功能,您可以快速实现作业、资源、集群服务等维度的异常归因诊断,并支持基于 AI 助手功能实现智能问答、代码检查修正等。本文为您介绍 EMR AI诊断功能能力说明和操作指导。

功能概述

EMR 的 AI 助手功能支持以下Agent 能力。
Image

分类

能力说明

细分场景

优化诊断

能够自动聚合分析分散在多组件的日志与指标,当发生状态异常或操作失败时,可快速定位根因,并生成一份包含问题描述、原因分析、影响范围评估的结构化诊断报告。报告将提供可执行的修复方案,帮助企业显著缩短故障平均修复时间,显著提升集群健康度,降低业务中断风险。

当前支持对作业、资源、服务维度进行异常诊断、优化/修复方案输出。

  • 作业诊断:根因分析、优化方案、修复方案;当前支持 EMR Serverless Spark/Ray/Presto/Doris/StarRocks作业诊断。
  • 资源诊断:资源瓶颈分析、资源调优方案;当前支持 EMR on ECS/VKE 部署形态。
  • 服务诊断:服务参数分析、参数调优方案;当前支持对 HDFS、YARN、Hive、Spark、Celeborn 等核心服务进行分析诊断。

代码助手

支持通过对话优化 SQL 代码,提升作业性能与资源利用率。通过自然语言描述优化目标,触发优化任务后,Agent 会智能完成语法调整、查询合并、参数与调度调优,并生成可直接落地的新 SQL 代码。这不仅能提升执行速度与响应时效,还能减少无效计算,与 EMR 的弹性扩缩容及按需付费策略协同,最终实现降本增效。

SQL 代码检查、智能修正

知识助手

支持通过智能问答,提供秒级响应的即时技术支持。精准进行意图识别,并联动知识库与产品文档,将用户的自然语言问题转化为准确、可操作的建议。无论是产品功能咨询、使用场景探讨还是复杂技术难题,都能提供高效、专业的指导,从而提升团队协同效率、发挥技术经验价值,降低沟通成本。

组件功能解答等,可提供等同于EMR大数据专家的水平做应答

注意与前提
  • 申请邀测。该功能正在邀测中,如需试用,可通过提工单形式联系技术人员申请。
  • 关注用量额度。当前每个自然月同一 UID 下支持的 AI 助手次数为:100次。
    如果您的用量超额度限制了,您可以通过提工单方式进行反馈,EMR 团队将根据您的反馈持续优化。

功能入口

Image

  • 您可以在登录 EMR 控制台后,在左侧导航栏单击 EMR AI 助手,进入 AI 助手页面后,在 AI 助手页面可进行作业诊断、集群诊断等全部功能,同时可在界面中直接进行问答交流等。
  • 同时,EMR 也在相关功能处为您添加了 AI 助手的操作入口,便于您在对应操作的当下便捷地使用AI 助手的能力,提高操作效率。

统一入口

相关功能入口

进入 AI 助手的统一入口页面后,您可发起各类诊断查询,支持灵活设置是否需要生成深度分析报告,同时可在对话框中直接进行问答咨询。
Image

在对应功能页面发起AI诊断时,无需额外输入 EMR 即会自动开始诊断。

Image

快速体验:作业诊断

EMR AI 助手能够对 Serverless Spark 作业进行深度诊断,并提供精准的根因分析和优化建议。以下以诊断一个 EMR Serverless 作业为例,为您示例如何通过EMR 的AI 助手功能快速进行作业诊断并进行异常优化/修复。

开始诊断

  1. 登录 EMR 控制台,在左侧导航栏中,选择 作业中心 > 作业实例,在作业实例列表中找到目标作业实例,点击其所在行右侧 操作 列下的 AI 助手 按钮,进入作业的 AI 助手页面。
    Image

    说明

    • 以上为常规作业诊断的操作入口,Serverless OLAP 作业不适用,Serverless OLAP 作业诊断入口为Doris/StarRocks实例的“SQL诊断”页面。
      Image
    • 当前仅支持对状态为已完成、进行中、已失败或已终止的作业进行诊断。
  2. 作业开始诊断时,AI 助手 会自动拆解诊断任务,自动采集当前作业相关的上下文信息进行诊断分析,大约等待 1 分钟后,将为您生成该作业的诊断报告。

    说明

    在诊断过程中,如果您将当前诊断任务页面关闭,当前的诊断任务不会中断,仍会继续诊断,您可以在历史诊断任务中查看到诊断任务的进度与结果,详情请参见查看历史诊断记录

查看/复制/下载诊断报告

AI 助手完成后,您可以在页面右侧查看详细的诊断报告。
Image

  • 诊断报告包含常规的作业异常的根因总结,并为您总结了优化改进建议,您可根据改进建议对作业进行优化。
  • 如果您打开了生成深度分析报告开关,则报告中还会包含深度分析总结,为您深度分析作业失败根因、阶段指标数据、瓶颈识别结果等维度的总结结果。
  • 如果您希望将报告结果保存,可单击右上角的复制或下载按钮进行保存。

追问/新建诊断

  • 您可以根据诊断报告的内容针对该作业进行优化,也可以在对话框中进行追问。
  • 如果您希望针对当前作业打开新的诊断任务,可单击页面顶部的“新建诊断”按钮,对当前作业重新进行诊断。

Image

回溯诊断流程与解析源

如果您希望回溯分析报告结论的分析依据,可在作业诊断细分步骤中打开详细的分析诊断任务详情;也可在诊断报告旁单击解析信息源,查看报告的信息源详情。
Image

查看历史诊断记录

后续如果您希望查看历史诊断记录,可在AI 助手的统一入口页面中,单击页面右上角的历史会话按钮,即可查看历史诊断记录。
Image

参考:作业诊断示例

序号

问题

问题表现

Agent诊断

1

作业超过限制阈值事件

用户上行带宽、下行带宽、上传QPS、下载QPS超过限制阈值事件等

EMR AI 助手可获取更丰富的上下文,包括:

  • TOS带宽超限事件上下文(更准确的辅助判断TOS带宽打满导致作用性能下降类问题)
  • EMR Doctor规则诊断上下文
    • 获取EMR Doctor上下文,在失败作业某些场景下辅助判断

2

OOM等

数据倾斜、分区数据过大等引起OOM等

EMR AI 助手可推荐更准确的优化参数,例如:

  • 推荐OOM类优化参数更加准确(如数据倾斜导致的OOM,分区数据过大导致的OOM等)
  • 分析并定位一些bolt引擎问题

3

读写 Iceberg 表并发冲突

作业因 Iceberg 表 ods_crawl.ods_crawl_cold_start_data_origin 的元数据并发写入冲突而失败,具体表现为基础元数据位置与当前元数据位置不一致导致的提交失败。

  • 问题定位:自动诊断出作业因 Iceberg 表元数据并发写入冲突而失败。
  • 核心价值:提供精准简洁的根因分析,帮助用户在约 1 分钟内定位问题。

4

TOS 限流导致性能下降

作业成功完成,但性能受限于 TOS 下行带宽配额,导致处理大规模 Shuffle 数据(总量超过 5 TB)时,I/O 成为瓶颈,整体运行时间较长。

  • 问题定位:识别出作业性能受限于 TOS 下行带宽配额,导致处理大规模 Shuffle 数据时 I/O 成为瓶颈。(同样可泛化识别其他云资源)
  • 核心价值:提供优化操作指南,针对问题给出多种解决方案,帮助用户快速解决。

此外,AI 助手 支持追问与反思,用户可对诊断报告中的任何内容进行追问,Agent 会进行反思并给出更详尽的解答。当前市场上的部分竞品在作业诊断层面的准确度和优化建议表现仍有改进空间。

快速体验:集群诊断
  • 一键触发:提供快捷入口,一键启动诊断。

    EMR on ECS 集群诊断入口

    Serverless OLAP 实例诊断入口

    Image

    Image

  • 智能报告:自动抓取集群日志、监控指标等上下文,输出包含异常洞察、计存分析、健康评估等主题的报告,协助运维人员全面掌握集群状态。
    Image

快速体验:服务诊断
  • 支持范围:支持对 HDFS、YARN、Hive、Spark、Celeborn 等核心服务进行分析诊断。
    Image
  • 智能分析:通过分析数十上百种复杂指标及其他上下文信息,生成智能分析报告,辅助运维决策。

快速体验:智能问答

在 AI 助手页面发起问题咨询时,AI 助手会基于内置知识库,同时支持联网搜索召回,进行问题回答。
Image

快速体验:SQL调优

当前EMR AI 助手还支持SQL语法校验、SQL生成、优化等功能,例如,您可以在 AI 助手中,直接输入待优化的 SQL 代码,由AI助手为您智能生成优化建议。
Image

诊断结果反馈

当EMR AI 助手完成诊断后,您可在页面中对诊断结果进行满意度反馈。
Image
如果您对诊断结果不满意,可进一步反馈需要有个改进的方向,EMR AI 助手会基于您的反馈尽快进行功能增强优化。

常见问题
  1. Q:我在什么场景下使用 AI 助手?

A:AI 助手 聚焦大数据作业诊断场景,核心适用两类需求:一是作业执行失败时,它可快速定位报错根源(如配置冲突、资源不足、代码逻辑问题等),并提供针对性解决步骤;二是作业已完成但性能未达预期时(如运行耗时过长、资源利用率低),它能深度分析性能瓶颈(如 SQL 语句效率、任务调度策略、硬件资源分配等),输出可落地的优化建议。

  1. Q:退出 AI 助手后,如何找回之前的诊断报告?

A:EMR 为每个作业生成独立的诊断交互窗口,只需记录或查找对应作业的唯一标识 ——作业 ID,通过作业 ID 进入该作业专属窗口,即可完整回溯历史诊断报告,同时还能查看与 Agent 的过往交互记录、操作日志等信息,无需担心报告丢失。

  1. Q:按照 AI 助手的优化方案操作后,作业性能仍无明显提升,该怎么办?

A:您可直接在原作业的诊断对话框中,向 Agent 补充说明 “优化后无提升” 的具体情况(如仍存在的问题、执行后的关键指标数据等),Agent 会基于新信息反思优化逻辑,更新诊断报告并补充调整建议。

最近更新时间:2026.03.10 19:47:54
这个页面对您有帮助吗?
有用
有用
无用
无用