文档中心

开发 Spark SQL 任务

最近更新时间：2023.11.02 11:21:02

首次发布时间：2022.11.11 18:00:44

Spark 控制台支持开发 Spark SQL 任务，通过简单的 SQL 语句实现业务需求。本文通过一个简单示例，介绍如何开发 Spark SQL 任务。

前提条件

本文将 Spark SQL 任务的开发流程总体分为了两个阶段，分别是开发阶段和运维阶段，每个阶段对应的成员及主要工作均不相同。

登录批式计算 Spark 版控制台。
在顶部菜单栏选择目标地域。
在左侧导航栏选择项目管理，在搜索框中根据项目名称进行模糊搜索，然后单击项目区块进入项目。
在项目左侧导航栏选择任务开发 > Jupyter lab，然后单击加号按钮创建任务，也可以单击 Launcher 页签下的 Spark SQL 区块。

在创建任务对话框，设置关键参数，然后单击确定。

配置	说明
任务名称	自定义设置任务的名称。名称的字符长度限制在 1~48，支持数字、大小写英文字母、下划线（_）、短横线（-）和英文句号（.），且首尾只能是数字或字母。
任务类型	选择 Spark任务 > SQL。
所在文件夹	从下拉列表中选择目标文件夹。系统默认存在一个数据开发文件夹，您也可以自由创建文件夹，方便任务管理。如何创建文件夹，请参见创建文件夹。
引擎版本	SQL 类型任务目前支持 Spark 3.0.1-volcano 引擎版本。

在任务编辑区编辑 SQL 任务的业务逻辑代码。
任务创建完后默认打开任务的代码编辑区，您可根据业务需求编写 SQL 代码。
SQL 任务代码编辑完成后，单击验证按钮。
系统会自动校验您的 SQL 语句正确性，如果报错，请根据提示自主完成 SQL 语句修改。检验通过后，系统提示 success 。
说明
如果您对 Driver 和 Executor 有特殊要求，或者任务需要依赖文件，请配置 Spark 启动参数。相关文档，请参见配置Spark启动参数。
代码编辑和验证通过后，单击保存按钮，保存任务代码。

当任务开发人员完成任务开发后，可以将任务上线。

在任务上线设置对话框，选择运行资源池、设置任务优先级和调度策略，然后单击确定。
系统会提示任务上线成功，可以前往任务管理页面查看。

配置	说明
资源池	从下拉列表中选择 Spark 资源池。
任务优先级	系统默认预置的优先级为 L3，您可以按需设置任务优先级，数字越小优先级越高。任务优先级决定了任务内部的调度顺序，优先级高的任务先被调度，即 L3 先于 L4 被调度。
调度策略	根据需求配置任务调度策略： GANG：保证任务的所有实例被一起调度，即当剩余资源满足任务正常运行所需资源时才进行分配；不满足所需资源则不分配。该策略不会出现分配资源后，任务却不能启动的现象，解决了资源死锁问题。 DRF：从多维资源考虑，更为合理地将资源公平分配给资源池内的各个任务，从而提升利用率。例如：剩余10 核 40 GB 的资源，A 任务需要10 核 20 GB 资源；B 任务需要 2 核 8 GB 的资源。如果分配给 A，剩余 0 核 20 GB 资源无法被利用；DRF 策略会选择分配给 B，剩下 8 核 32 GB 可以继续给后来任务使用。
调度时长	设置为 GANG 调度策略时，需要设置调度时长。如果超过调度时长，任务就会调度失败。如果设置为 0，则会一直重试。

开发与生产隔离，任务开发者将任务上线到生产环境后，由运维人员启动任务。

任务在生产环境上正常运行后，您可以在 Spark UI 上查看任务的运行情况。

前提条件

开发流程

步骤一：开发任务

步骤二：上线任务

步骤三：启动任务

步骤四：查看 Spark UI