文档中心

E-MapReduce

请输入

Spark

使用说明

概述

Spark是专为大规模数据分析处理而设计的开源分布式计算框架。使用内存计算技术和有向无环图（DAG）提供比MapReduce引擎更快的分析处理能力。提供Spark SQL、Spark Streaming、MLlib和Graphx等多个计算程序包，可用于大规模数据分析处理，实时计算，机器学习，图计算等场景。

名词解释

SparkConext：SparkContext为Spark计算框架的入口。负责管理Spark分布式资源，创建RDD，调度task等功能。
SparkSession：SparkSession为SparkSQL的入口，负责解析，分析，优化SQL，生成物理计划，调度运行SQL任务。
Driver：Driver为Spark分布式处理框架的中承载SparkContext的进程，负责运行SparkContext，调度管理Executor，Driver只有一个。
Executor：Executor为执行分布式任务的执行进程，负责执行Driver分发过来的任务，Executor有多个。

组件说明

Ksana for SparkSQL：EMR 自研兼容 Hive JDBC Driver 的 SparkSQL Server，为常驻服务，负责接收客户端 SQL，使用 SparkSQL 执行并返回执行结果。Ksana 组件相关功能，您可创建 EMR-3.3.0 及之前的集群版本，来使用 Ksana 功能。
Livy for Spark Server：提供 NoteBook 应用对接Spark开发的Livy服务，用户通过jupyte/zeppeline对接Livy for Spark Server可轻松开发调试 Spark 应用。
Spark History Server：提供 Spark 应用执行历史查看，分析的服务。
Spark Client：该组件为在个节点上安装 Spark 运行环境，并无实体服务。

约束与限制

火山引擎 EMR提供Spark多版本支持，不同版本使用的Python版本对应如下：

Spark版本	Python版本
3.3.x	3.10.13
3.5.1	3.12.0

Spark on EMR

本目录下的文档为您介绍半托管的 EMR 形态的 Spark 组件使用说明，全托管的 EMR Serverless 的组件使用说明请参见：引擎介绍。

最近更新时间：2026.04.14 11:49:43

这个页面对您有帮助吗？

有用

无用

E-MapReduce

名词解释 #

组件说明 #

约束与限制 #

Spark on EMR #

名词解释

组件说明

约束与限制

Spark on EMR