最近更新时间:2023.11.02 11:21:02
首次发布时间:2022.11.11 18:00:44
Spark 控制台支持开发 Spark SQL 任务,通过简单的 SQL 语句实现业务需求。本文通过一个简单示例,介绍如何开发 Spark SQL 任务。
本文将 Spark SQL 任务的开发流程总体分为了两个阶段,分别是开发阶段和运维阶段,每个阶段对应的成员及主要工作均不相同。
在顶部菜单栏选择目标地域。
在左侧导航栏选择项目管理,在搜索框中根据项目名称进行模糊搜索,然后单击项目区块进入项目。
在项目左侧导航栏选择任务开发 > Jupyter lab,然后单击加号按钮创建任务,也可以单击 Launcher 页签下的 Spark SQL 区块。
在创建任务对话框,设置关键参数,然后单击确定。
配置 | 说明 |
---|---|
任务名称 | 自定义设置任务的名称。 |
任务类型 | 选择 Spark任务 > SQL。 |
所在文件夹 | 从下拉列表中选择目标文件夹。 |
引擎版本 | SQL 类型任务目前支持 Spark 3.0.1-volcano 引擎版本。 |
在任务编辑区编辑 SQL 任务的业务逻辑代码。
任务创建完后默认打开任务的代码编辑区,您可根据业务需求编写 SQL 代码。
SQL 任务代码编辑完成后,单击验证按钮。
系统会自动校验您的 SQL 语句正确性,如果报错,请根据提示自主完成 SQL 语句修改。检验通过后,系统提示 success
。
说明
如果您对 Driver 和 Executor 有特殊要求,或者任务需要依赖文件,请配置 Spark 启动参数。相关文档,请参见配置Spark启动参数。
代码编辑和验证通过后,单击保存按钮,保存任务代码。
当任务开发人员完成任务开发后,可以将任务上线。
在任务编辑区域上方,单击上线。
在任务上线设置对话框,选择运行资源池、设置任务优先级和调度策略,然后单击确定。
系统会提示任务上线成功,可以前往任务管理页面查看。
配置 | 说明 |
---|---|
资源池 | 从下拉列表中选择 Spark 资源池。 |
任务优先级 | 系统默认预置的优先级为 L3,您可以按需设置任务优先级,数字越小优先级越高。 |
调度策略 | 根据需求配置任务调度策略:
|
调度时长 | 设置为 GANG 调度策略时,需要设置调度时长。 |
开发与生产隔离,任务开发者将任务上线到生产环境后,由运维人员启动任务。
任务在生产环境上正常运行后,您可以在 Spark UI 上查看任务的运行情况。