You need to enable JavaScript to run this app.
导航
基础使用
最近更新时间:2025.04.01 20:13:41首次发布时间:2024.11.12 16:54:08
我的收藏
有用
有用
无用
无用

任务开发提交

交互式开发

登陆集群节点后,进入 spark 文件目录

cd /usr/lib/emr/current/spark
  • 使用 Scala 交互式编程环境

调用 bin 目录下的 spark-shell 脚本启动程序,运行命令模版如下

./bin/spark-shell
  • 使用 Python 交互式编程环境

调用 bin 目录下的 pyspark 脚本启动程序,运行命令模版如下

./bin/pyspark
  • 使用 SQL 交互式编程环境

调用 bin 目录下的 spark-sql 脚本启动程序,运行命令模版如下

./bin/spark-sql

程序提交

登陆集群节点,进入 spark 文件目录

cd /usr/lib/emr/current/spark

首先需要使用 Spark 的 API 实现一个拥有入口(main)的程序,然后通过 spark-submit 提交,如运行 spark 自带 Pi 示例程序

jar包提交:
./bin/spark-submit --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.12-3.2.1-bd1-SNAPSHOT.jar 10

python file:
./bin/spark-submit examples/src/main/python/pi.py 10

运行成功会返回日志及 application_id 链接,如果要查看具体任务运行情况,可以登 yarn 界面搜索 application_id 查看任务