帮助文档--E-MapReduce-火山引擎

文档中心

简体

文档备案控制台

E-MapReduce

E-MapReduce

E-MapReduce

文档指南

请输入

产品动态与公告

产品动态

EMR on ECS 动态（2026年）

EMR Serverless 动态（2026年）

EMR on VKE 功能发布记录

历史动态

EMR on ECS 功能发布记录（2026年前）

EMR Serverless 功能发布记录（2026年前）

EMR Serverless 实例内核发布记录（2026年前）

EMR 软件栈发行版本

生命周期策略

EMR 版本概述

版本说明（最新版本）

EMR-3.21.0发布说明

EMR-3.20.0发布说明

EMR-3.19.0发布说明

EMR-3.18.0发布说明

版本说明（历史版本）

EMR on ECS-3.17.0及之前版本

EMR 3.x版本

EMR-3.17.0发布说明

EMR-3.16.0发布说明

EMR-3.15.0发布说明

EMR-3.14.0发布说明

EMR-3.13.0发布说明

EMR-3.12.0发布说明

EMR-3.11.0发布说明

EMR-3.10.0发布说明

EMR-3.9.0发布说明

EMR-3.8.0 版本说明

EMR-3.7.0 版本说明

EMR-3.6.X 版本说明

EMR-3.6.2 版本说明

EMR-3.6.1 版本说明

EMR-3.6.0 版本说明

EMR-3.5.X 版本说明

EMR-3.5.4 版本说明

EMR-3.5.3 版本说明

EMR-3.5.2 版本说明

EMR-3.5.1 版本说明

EMR-3.5.0 版本说明

EMR-3.4.X 版本

EMR 3.4.11 版本说明

EMR 3.4.10 版本说明

EMR-3.4.9 版本说明

EMR-3.4.8 版本说明

EMR-3.4.7 版本说明

EMR-3.4.6 版本说明

EMR-3.4.4 版本说明

EMR-3.4.3 版本说明

ERM-3.4.2 版本说明

EMR-3.4.0 版本说明

EMR-3.3.0 版本说明

EMR-3.2.1 版本说明

EMR-3.1.1 版本说明

EMR-3.1.0版本说明

EMR-3.0.1版本说明

EMR-3.0.0版本说明

EMR 2.x版本

EMR-2.5.0 版本说明

EMR-2.4.0 版本说明

EMR-2.3.X 版本

EMR-2.3.2 版本说明

EMR-2.3.1 版本说明

EMR-2.3.0 版本说明

EMR-2.2.0 版本说明

EMR-2.1.1 版本说明

EMR-2.1.0版本说明

EMR-2.0.1版本说明

EMR-2.0.0版本说明

EMR 1.x版本

EMR 1.3.x版本

EMR 1.3.1版本说明

EMR 1.3.0版本说明

EMR 1.2.x版本

EMR 1.2.x版本中的应用程序版本

EMR 1.2.1版本说明

EMR 1.2.0版本说明

EMR 1.1.x版本

EMR 1.1.x版本中的应用程序版本

EMR 1.1.1版本说明

EMR 1.1.0版本说明

EMR 1.0.0版本说明

EMR on VKE-3.17.0及之前版本

版本说明

EMR-3.17.0发布说明

EMR-3.16.0发布说明

EMR-3.15.0发布说明

EMR-3.14.0发布说明

EMR-VKE-1.8.0发布说明

EMR-VKE-1.7.0发布说明

EMR-VKE-1.6.0发布说明

EMR-VKE-1.5.0发布说明

EMR-VKE-1.4.0发布说明

产品公告

【公告】关于停止部分集群类型创建和服务组件部署的公告

【公告】E-MapReduce Serverless 商业化公告

【公告】EMR on VKE 商业化公告

【调价】开源大数据平台 E-MapReduce 刊例价与退订规则调整

【调价】开源大数据平台E-MapReduce部分地域刊例价调整

【调价】开源大数据平台E-MapReduce部分地域刊例价调整

【调价】开源大数据平台E-MapReduce刊例价调整

产品简介

什么是 E-MapReduce

EMR 产品形态选型指南

应用场景

EMR on ECS 应用场景

EMR on VKE 应用场景

EMR Serverless 应用场景

使用限制

EMR on ECS 使用限制

EMR on VKE 使用限制

EMR Serverless 使用限制

开源组件使用限制

产品计费

EMR on ECS

计费方式

按量付费转包年包月

退订和续费说明

EMR on VKE

EMR Serverless

标准计算资源

内存增强型 CPU 计算资源

计算增强型 CPU 计算资源

GPU 加速计算资源

续费和退订说明

快速入门

EMR on ECS 快速入门

创建并运行作业

DataLeap on EMR 快速入门

EMR on VKE 快速入门

EMR Serverless 快速入门

创建资源队列

创建并提交作业

EMR AI 助手快速入门

EMR on ECS 操作指南

依赖的产品与授权

集群管理

支持ECS实例

集群配置

创建集群

创建集群概述（3.19.0及之后版本）

创建集群概述（3.18.0及之前版本）

管理安全组

查看集群列表及详情

节点组管理

权限管理

角色与权限

EMR 服务角色

集群组件端口说明

配置中心

元数据连接

运维权限管理

集群运维

常用文件路径

EMR 内置 MySQL 使用情况说明

本地盘故障一键修复

集群监控

配置指标监控告警

监控指标

节点 TopN 监控指标

HDFS 监控指标

Yarn 监控指标

Hive 监控指标

ZooKeeper 监控指标

HBase 监控指标

OpenSearch 监控指标

Doris 监控指标

StarRocks 监控指标

Impala 监控指标

Kudu 服务监控

ClickHouse 集群监控

Presto 监控指标

Trino 监控指标

Celeborn 监控指标

Kyuubi 监控指标

监控指标导出实践手册

集群事件中心

集群管理常见问题

服务管理

查看服务列表

添加/重启服务

管理服务配置参数

组件拓扑管理

EMR on VKE 操作指南

依赖的产品与授权

集群管理

创建虚拟集群

查看集群列表及详情

调度策略配置

集群监控

Ray 服务指标

Celeborn 服务指标

Spark 服务指标

VolcanoScheduler 服务指标

服务管理

RayCluster 管理

镜像管理

使用自定义 Docker 镜像运行作业

Spark 镜像列表

EMR Serverless 队列操作指南

依赖的产品与授权

配置与管理队列

创建与管理队列

查看及管理队列

创建与管理计算组

计算组概述

创建与管理计算组

权限管理

自定义策略

运维管理

资源与作业监控

配置存储网络与vePFS

存储挂载概述

提交作业

元数据管理

Serverless Spark 作业

SparkSQL 作业

SparkJar 作业

PrestoSQL 作业

mGPU 作业

EMR Serverless 使用 mGPU 资源

开发指南

构建和使用自定义镜像

Presto

JDBC 程序连接 Presto

Presto 对湖仓表使用说明

Ray

Serverless Ray参数说明

Spark

高阶使用

Spark on Native 引擎：Bolt

Spark 小文件合并

Serverless PySpark 开发指南

Spark 对湖仓表使用说明

Serverless Spark 读写 Serverless Doris 操作手册

Serverless Spark读写StarRocks(存算分离)操作手册

Bolt 操作指导

生态连接

EMR Serverless 实例操作指南（OLAP）

权限管理

EMR Serverless OLAP 权限管控概述

管控台权限管控：为 IAM 用户授权

组件权限管控：用户与角色

使用现有 TOS 桶创建存算分离 Starrocks 实例

监控告警

用户日志服务采集全托管 OLAP 集群日志

表存储格式

表存储格式介绍

行存表实现原理

行存表使用指南

StarRocks行存表常见问题

StarRocks行存表数据接入

StarRocks行存表使用实践

StarRocks行列混存表

数据导入

Insert方式导入

数据湖查询(StarRocks)

Catalog

Default Catalog

External Catalog

外部表

读取Hadoop集群中的数据

更新元数据缓存

读取LAS数据

性能调优

SQL诊断使用说明

实例管理

查看实例列表与详情

实例状态表

实例节点扩容&升配

版本升级说明

StarRocks存算分离集群配置建议

组件操作指南

Airflow

基础使用

常见问题和注意事项

Celeborn

Celeborn常见问题

ClickHouse

Delta Lake

DolphinScheduler

DolphinScheduler 对接 EMR Serverless

使用作业插件（Task Plugin）

使用 Spark submit

Dolphin Serverless 任务输出 JobID

最佳实践

DolphinScheduler 对接 TOS 最佳实践

DolphinScheduler 支持火山语音告警

DolphineScheduler shell kill应用实践

Doris

高阶使用

最佳实践

Doris连接Tableau

Flink

Flink 基础使用

Flink SQL Client 使用参考

Flink 支持 protobuf 格式

HBase

高阶使用

HBase内存调优

HDFS

Hive

基础使用

Hive 基础操作

Hive 连接方式

确定 HiveServer2 地址

Hive3 使用注意事项

高阶使用

管理 LDAP 认证

Hive 作业调优

HiveServer2 负载均衡

Hive 支持中文字段名和中文分区

开发指南

自定义函数 (UDF)

最佳实践

Hive 访问 Hudi 数据

在 EMR on ECS 集群运行TPC-DS Benchmark

Hue

最佳实践

通过hue进行数据查询

Hue 高可用访问集群内其他服务

Iceberg

基础使用

Iceberg 基础使用

Iceberg 基础使用（适用于EMR2.x版本）

Doris 实例访问 Iceberg Catalog

高阶使用

Iceberg 参数配置

Spark流式读写 Iceberg

Spark流式读写 Iceberg（适用于EMR 2.x版本）

Spark批式读写Iceberg

Iceberg与Trino/Presto集成

Iceberg与Flink集成

Hive 中操作 Iceberg 数据

TOS 中操作 Iceberg 表

TOS 中操作 Iceberg 表（适用于 EMR 2.x 版本）

Dataleap 中使用 Iceberg

Impala

基础使用

Impala 基础操作

Impala 连接方式

Impala-shell 工具

高阶使用

管理 LDAP 认证

最佳实践

使用 Impala 访问 Kudu

Kafka

Kerberos

使用 Kerberos 认证集群

配置 Kerberos 集群间跨域互信

EMR 使用外部KDC

Knox

Kudu

基础使用

Kudu 基础操作

高阶使用

Impala 集成 Kudu

使用 Flume 同步数据到 Kudu

Kyuubi

Kyuubi 快速开始

Kyuubi 高级特性

Lance

湖格式转换

湖格式转换 Ray 读取 Webdataset 写入 Lance

生态与集成

使用 Ray 操作 Lance 数据

EMR Serveless Spark 与 Lance 集成

最佳实践

使用 Lance Python SDK 访问 TOS 上的 Lance 数据

使用 Lance 数据格式训练 CLIP 多模模型

使用 Lance 数据格式做多模态向量数据检索

EMR Daft 集成 Lance 操作指南实践

使用场景

Livy

MapReduce2

OpenLDAP

最佳实践

手动配置LDAP认证

Paimon

Phoenix

Presto

Proton

发行版本

Proton 发行版本

JobCommitter版本

基础使用

身份与权限配置

Hadoop 使用 Proton

Spark 使用 Proton

Flink 使用 Proton

Hive 使用 Proton

Impala 使用 Proton

DolphinScheduler 使用 Proton

快速上手

Proton 缓存模式

Proton 缓存模式（TOS加速器）

Proton 无缓存模式

高阶使用

Proton 确定缓存大小

Proton元数据同步

Distcp拷贝数据到TOS

Proton 参数配置

Proton按需缓存使用手册

Distcp从OSS拷贝数据到TOS

使用 FUSE 挂载 Proton

最佳实践

EMR 存算分离JobCommitter最佳实践

Proton SDK调优指南

Proton加速模式快速入门

PyProton

FSSpec介绍与使用

PyProton 介绍与使用文档

PyProton 使用最佳实践

在Python环境中使用FSSpec

在Ray Data中使用TOSFS

在Pytorch训练框架中使用FSSpec

Pulsar

Ranger

组件集成

高阶功能

Hive 数据脱敏

Ranger User Sync 集成LDAP

查看Ranger审计日志信息

配置DataLeap数据开发权限

Ray

Ray 镜像列表

Ray快速入门

Ray on VKE产品介绍

使用 RayHistoryServer 查看历史作业

Ray vs Spark对比

Lance-Ray库

EMR Lance-Ray 通用操作指导

Ray读取Webdataset写入lance

如何解决 Ray 集群的压力负载及内存溢出问题

RayJob 使用

RayJob快速入门

提交RayJob使用指导

通过Ray Dashboard查看任务情况

通过EMR监控RayJob

KubeRay RayJob提交使用指导

基于Ray实现流式数据处理

RayCluster 使用

RayCluster快速入门

提交Ray作业使用指导

使用Ray Dashboard监控作业

Ray访问TOS使用示例

使用Ray进行词频统计（WordCount)

Ray中Placement Group 使用指导

Ray GCS 使用指导

RayCluster 支持多 workergroup

RayCluster 挂载 PersistentVolumeClaim

KubeRay 管理不同命名空间的 RayCluster 使用指导

RayData 使用

AutoScale：使用AdaptiveStreamingExecutor

Ray Data Checkpoint在多模态数据处理中的应用实践

最佳实践

Ray任务运行在GPU上

Ray Dashboard开启metrics能力

使用 Volcano Scheduler 替换 K8S Default Scheduler 运行 Spark 及 Ray 作业

RayCluster 开启 Autoscaler

Ray 接入日志服务TLS

将传统的 Python 程序改造为 Ray 程序的实践指南

Ray Data 在 LLM 数据预处理的最佳实践

Ray Data背压增强分析

Ray 在多模态图片处理的架构实践

基于 Ray Serve 构建模型在线推理服务

Spark

基础使用

PySpark 基础使用

Spark RDD 基础使用

最佳实践

Spark on GPU 最佳实践

MaxCompute Buildin Function Plugin

Spark 调优指南

使用 kubectl管理作业

新建 HiveMetaStore 集群并运行 SparkSQL 作业

Spark 集群手动关联 RSS 集群

Sqoop

StarRocks

规划 StarRocks 集群

运维管理

StarRocksUI使用

StarRocks参数配置

使用CLB实现负载均衡

用户和权限管理

StarRocks引擎指标观测说明

高阶使用

StarRocks 分区表使用

StarRocks 访问 TOS

StarRocks Spark Connector

StarRocks Flink Connector

数据湖分析

Catalog

Default Catalog

External Catalog

最佳实践

StarRocks高可用最佳实践

使用Serveless Flink实现MySQL到StarRocks数据集成

使用智能数据洞察对StarRocks数据进行分析

StarRocks表模型设计

使用DataSail实现MySQL到StarRocks数据集成

Starrocks跨大版本升级

TensorFlow

Tez

Trino

YARN

基础使用

Yarn Fair Scheduler配置

YARN 增强功能

YARN 队列管理

YARN 资源池管理

最佳实践

配置用户组队列映射

ZooKeeper

最佳实践

EMR on ECS 最佳实践

EMR 数据湖集群资源规划

数据集成最佳实践

基于 StarRocks 的准实时数据分析

EMR Flink 数据写入 Bytehouse

火山引擎 EMR 迁移指南

迁移指南说明

成本评估优化

元数据迁移

迁移作业至火山引擎 EMR

DataLeap Shell 结合 EMR 系列实践

Shell 执行 EMR Doris SQL 任务

Shell 触发 Airflow 工作流执行

EMR 集群客户端最佳实践

在自定义DNS的VPC下创建EMR集群

EMR本地盘实例故障运维

弹性伸缩最佳实践

在Docker中使用EMR CLI

EMR on VKE最佳实践

EMR on VKE Jupyter 使用指南

在 EMR on VKE 集群运行 TPC-DS Benchmark

Celeborn超大分区使用参数说明

使用弹性容器实例（VCI）调度作业

使用PriorityClass调度大作业避免资源碎片

云原生可观测服务识别 VKE 集群资源风险

EMR Serverless 实例最佳实践

StarRocks

大查询防御建设

大查询定位

大查询防御

容量规划

EMR Serverless StarRocks 集群资源规划

稳定性建设

Serverless StarRocks高可用最佳实践

StarRocks Multi-Warehouse（多仓）最佳实践

Serverless StarRocks使用火山引擎智能数据洞察进行分析

使用Serveless Flink实现MySQL到StarRocks数据集成

存算分离最佳实践

Serverless StarRocks TPC-H 基准测试说明

StarRocks实例备份与恢复最佳实践

Serverless StarRocks表模型设计

Doris

OLAP数据灾备最佳实践

访问数据湖

Doris 访问 LAS Catalog

表设计

EMR Serverless Doris 表模型设计最佳实践

大查询防御建设

大查询定位

大查询防御

容量规划

EMR Serverless Doris集群资源规划

稳定性建设

EMR Serverless Doris 高可用最佳实践

Promethus 配置全托 Olap 集群方案

OLAP 版本管理/配置更新

Serverless OLAP WebUI 使用最佳实践

EMR Serverless 队列最佳实践

Spark

EMR Serverless Jupyter Notebook 最佳实践

Spark开启动态伸缩功能时的最佳实践

Dataleap联合开通及使用

Serverless Spark 访问 Kerberos 集群

在 EMR Serverless Spark 运行 TPC-DS Benchmark

EMR Serverless Zeppelin 最佳实践

Serverless Spark 访问半托管或自建 Hadoop 集群

Ray

基于 EMR Serverless Ray 的音频数据预处理

Serverless Ray 支持 Flow Insight

Serverless Ray 使用指南

EMR Serverless 访问 VPC 实践指南

EMR Serverless队列容量规划

作业下载私有域名配置实践

开发参考

API 参考

EMR on ECS API参考

使用前必读

调用方法

公共错误码

集群管理

UpdateClusterAttribute - 更新集群属性

ReleaseCluster - 释放或退订集群

ListClusters - 集群列表

GetCluster - 获取集群

CreateCluster - 创建集群

操作管理

ListOperations - 操作列表

订单管理

ListOrders - 订单列表

节点组管理

ScaleOutNodeGroup - 扩容节点组

CreateNodeGroup - 创建节点组

UpdateNodeGroupChargeType - 更新节点组付费类型

ScaleInNodeGroup - 缩容节点组

UpdateNodeGroupEcsSpec - 更新节点组ECS规格

ScaleUpNodeGroupDisk - 扩容节点组磁盘

ListNodeGroups - 节点组列表

DeleteNodeGroup - 删除节点组

UpdateNodeGroupAttribute - 更新节点组属性

ListNodes - 节点列表

ListNodeGroupElasticScheduledInstances - 获取节点组ESI实例列表

用户管理

GetClusterUsers - 获取EMR管控用户详情

UpdateClusterUserPassword - 更新集群用户密码

ListClusterUsers - 获取集群用户列表

DeleteClusterUser - 删除集群用户

UpdateClusterUser - 修改已创建用户信息

CheckUserCredentials - 校验集群用户

CreateClusterUser - 创建集群用户

用户组管理

GetClusterUserGroups - 集群用户组详情

ListClusterUserGroups - 获取集群用户组列表

CreateClusterUserGroup - 创建集群用户组

DeleteClusterUserGroup - 删除集群用户组

UpdateClusterUserGroup - 更新集群用户组

应用管理

ListApplicationConfigs - 配置项列表

GetApplicationConfigFile - 获取集群配置文件信息

RunApplicationAction - 执行应用操作

ListApplicationConfigFiles - 集群配置文件列表

UpdateApplicationConfig - 更新配置项

ListApplicationConfigHistories - 配置项修改历史列表

GetApplicationPacket - 获取应用安装包信息

ListApplications - 集群列表

ListComponentInstances - 组件实例列表

ListComponents - 组件列表

API 版本说明

EMR on VKE API参考

使用前必读

集群管理

CreateVirtualCluster - 创建集群

GetVirtualCluster - 查看集群详情

DeleteVirtualCluster - 删除集群

ListVirtualClusters - 集群列表

操作管理

GetOperation - 查看操作日志信息

应用管理

UndeployApplications - 卸载应用

DeployApplications - 部署应用

RunApplicationAction - 运行应用Action

ListApplications - 应用列表

EMR Serverless API参考

调用方法

公共错误码

SDK 参考

EMR on ECS SDK 参考

EMR Serverless SDK 参考

Spark-submit 工具使用说明

Python Query SDK

常见问题

EMR on ECS常见问题

EMR Serverless Spark常见问题

EMR Serverless 实例常见问题

StarRocks 常见问题

Doris 常见问题

技术服务与支持

大数据专家服务计费说明

相关协议

数据中台产品和服务专用条款

E-MapReduce服务等级协议

EMR Serverless 服务等级协议

文档首页

E-MapReduce

复制全文

下载 pdf

E-MapReduce

复制全文

下载 pdf

文档反馈

问问助手

最近更新时间：

这个页面对您有帮助吗？

有用

有用

无用

无用