火山引擎 EMR 为您提供 EMR Agent 能力—— AI 助手功能,通过 EMR 的 AI 助手功能,您可以快速实现作业、资源、集群服务等维度的异常归因诊断,并支持基于 AI 助手功能实现智能问答、代码检查修正等。本文为您介绍 EMR AI诊断功能能力说明和操作指导。
EMR 的 AI 助手功能支持以下Agent 能力。
分类 | 能力说明 | 细分场景 |
|---|---|---|
优化诊断 | 能够自动聚合分析分散在多组件的日志与指标,当发生状态异常或操作失败时,可快速定位根因,并生成一份包含问题描述、原因分析、影响范围评估的结构化诊断报告。报告将提供可执行的修复方案,帮助企业显著缩短故障平均修复时间,显著提升集群健康度,降低业务中断风险。 | 当前支持对作业、资源、服务维度进行异常诊断、优化/修复方案输出。
|
代码助手 | 支持通过对话优化 SQL 代码,提升作业性能与资源利用率。通过自然语言描述优化目标,触发优化任务后,Agent 会智能完成语法调整、查询合并、参数与调度调优,并生成可直接落地的新 SQL 代码。这不仅能提升执行速度与响应时效,还能减少无效计算,与 EMR 的弹性扩缩容及按需付费策略协同,最终实现降本增效。 | SQL 代码检查、智能修正 |
知识助手 | 支持通过智能问答,提供秒级响应的即时技术支持。精准进行意图识别,并联动知识库与产品文档,将用户的自然语言问题转化为准确、可操作的建议。无论是产品功能咨询、使用场景探讨还是复杂技术难题,都能提供高效、专业的指导,从而提升团队协同效率、发挥技术经验价值,降低沟通成本。 | 组件功能解答等,可提供等同于EMR大数据专家的水平做应答。 |
统一入口 | 相关功能入口 |
|---|---|
进入 AI 助手的统一入口页面后,您可发起各类诊断查询,支持灵活设置是否需要生成深度分析报告,同时可在对话框中直接进行问答咨询。 | 在对应功能页面发起AI诊断时,无需额外输入 EMR 即会自动开始诊断。 |
EMR AI 助手能够对 Serverless Spark 作业进行深度诊断,并提供精准的根因分析和优化建议。以下以诊断一个 EMR Serverless 作业为例,为您示例如何通过EMR 的AI 助手功能快速进行作业诊断并进行异常优化/修复。
说明
说明
在诊断过程中,如果您将当前诊断任务页面关闭,当前的诊断任务不会中断,仍会继续诊断,您可以在历史诊断任务中查看到诊断任务的进度与结果,详情请参见查看历史诊断记录。
AI 助手完成后,您可以在页面右侧查看详细的诊断报告。
如果您希望回溯分析报告结论的分析依据,可在作业诊断细分步骤中打开详细的分析诊断任务详情;也可在诊断报告旁单击解析信息源,查看报告的信息源详情。
后续如果您希望查看历史诊断记录,可在AI 助手的统一入口页面中,单击页面右上角的历史会话按钮,即可查看历史诊断记录。
序号 | 问题 | 问题表现 | Agent诊断 |
|---|---|---|---|
1 | 作业超过限制阈值事件 | 用户上行带宽、下行带宽、上传QPS、下载QPS超过限制阈值事件等 | EMR AI 助手可获取更丰富的上下文,包括:
|
2 | OOM等 | 数据倾斜、分区数据过大等引起OOM等 | EMR AI 助手可推荐更准确的优化参数,例如:
|
3 | 读写 Iceberg 表并发冲突 | 作业因 Iceberg 表 |
|
4 | TOS 限流导致性能下降 | 作业成功完成,但性能受限于 TOS 下行带宽配额,导致处理大规模 Shuffle 数据(总量超过 5 TB)时,I/O 成为瓶颈,整体运行时间较长。 |
此外,AI 助手 支持追问与反思,用户可对诊断报告中的任何内容进行追问,Agent 会进行反思并给出更详尽的解答。当前市场上的部分竞品在作业诊断层面的准确度和优化建议表现仍有改进空间。 |
一键触发:提供快捷入口,一键启动诊断。
EMR on ECS 集群诊断入口 | Serverless OLAP 实例诊断入口 |
|---|---|
智能报告:自动抓取集群日志、监控指标等上下文,输出包含异常洞察、计存分析、健康评估等主题的报告,协助运维人员全面掌握集群状态。
在 AI 助手页面发起问题咨询时,AI 助手会基于内置知识库,同时支持联网搜索召回,进行问题回答。
当前EMR AI 助手还支持SQL语法校验、SQL生成、优化等功能,例如,您可以在 AI 助手中,直接输入待优化的 SQL 代码,由AI助手为您智能生成优化建议。
当EMR AI 助手完成诊断后,您可在页面中对诊断结果进行满意度反馈。
如果您对诊断结果不满意,可进一步反馈需要有个改进的方向,EMR AI 助手会基于您的反馈尽快进行功能增强优化。
A:AI 助手 聚焦大数据作业诊断场景,核心适用两类需求:一是作业执行失败时,它可快速定位报错根源(如配置冲突、资源不足、代码逻辑问题等),并提供针对性解决步骤;二是作业已完成但性能未达预期时(如运行耗时过长、资源利用率低),它能深度分析性能瓶颈(如 SQL 语句效率、任务调度策略、硬件资源分配等),输出可落地的优化建议。
A:EMR 为每个作业生成独立的诊断交互窗口,只需记录或查找对应作业的唯一标识 ——作业 ID,通过作业 ID 进入该作业专属窗口,即可完整回溯历史诊断报告,同时还能查看与 Agent 的过往交互记录、操作日志等信息,无需担心报告丢失。
A:您可直接在原作业的诊断对话框中,向 Agent 补充说明 “优化后无提升” 的具体情况(如仍存在的问题、执行后的关键指标数据等),Agent 会基于新信息反思优化逻辑,更新诊断报告并补充调整建议。