文档中心

离线任务

最近更新时间：2024.03.28 11:23:41

首次发布时间：2024.03.28 11:23:41

1.功能概述

任务创建，是指可视化建模任务的创建环节，通常包含新建任务、数据连接等步骤。可视化建模任务支持抽取数据源中的数据，通过拖拽形式添加数据处理节点，将处理完成的数据输出到目标源中。

说明

任务类型：实时任务、离线任务（任务创建后不可切换任务类型）
- 实时任务，指的是任务跟随实时更新的数据源可被实时执行，输出为实时更新的数据。实时任务支持输入的数据源为：Kafk、Pulsar；
- 离线任务，指的是任务跟随离线更新的数据源可被设置为手动和周期执行，输出为定期更新的数据或模型文件。离线任务支持输入的数据源为：Hive, MySQL, ClickHouse, Kafka, HttpAPI, 飞书, CSV/Excel, Oracle, Impala, PostgreSQL, Hbase, SQLServer, MaxCompute, ADB, MongoDB, Hana, Teradata, Db2, Vertica, GreenPlum等20余种主流的数据源；

本文将结合产品实操界面介绍 离线任务 的创建步骤。

2.使用限制

用户需具备 项目编辑 权限或者 可视化建模模块的新建任务 权限，才能使用该功能。
可视化建模中部分功能为 付费能力，如有需要，请联系您的商务经理

3.操作步骤

3.1 新建任务

点击 数据管理>可视化建模 。
点击左上角 新建任务 。
选择路径，将当前任务存放在左侧某个可视化建模任务文件夹下。
选择创建 离线任务 。

3.2 应用示例模板

在可视化建模任务编辑页面，提供多样化的算子模板，点击 全部模板 可快速查看。

每个模板均支持预览或应用。

点击预览，将详细介绍当前算子模板内置的样例数据、场景说明、使用到的算子，点击 使用模板 可快速套用。

使用模板后，系统将展示使用系统样例数据处理对应应用场景的详细配置，帮助用户进一步了解当前算子的能力及使用方式。

3.3 数据连接

新建数据连接。 在新建任务页面，点击左上方的加号，添加数据连接；可以选择添加多种类型的数据连接，平台支持对大部分离线存储做自定义SQL。

注意

如果选择了数据集，在左侧画布中会加载：自定义SQL、可视化建模数据集、客户数据平台数据集：

Hive/ClickHouse自定义SQL：
- Hive：可视化建模输出并且数据存储为Hive类型数据集，可以写SQL，满足Hive语法即可
- ClickHouse：可视化建模输出并且数据存储为Clickhouse数据集，可以写SQL，满足ClickHouse语法即可
可视化建模数据集：可视化建模输出的数据集，不区分输出存储类型是Hive/ClickHouse
客户数据平台数据集：购买并部署客户数据平台，系统生产的数据集。

移除数据连接。 可视化建模任务创建页面的数据连接列表中，点击具体某个数据连接右侧的删除按钮，即可移除数据连接。

3.4 处理节点

通过点击节点右侧加号添加并配置处理节点，拖拽上一节点右侧加号和下一节点左侧原点连线，配置节点流转关系。点击“应用”后可展开处理后的数据结果预览。

如下图所示，点击输入数据算子块的输出+号，展开操作节点：输出、数据清洗、AI-特征工程、AI-机器学习、AI-自然语言，点击其中一类，则可看到可以使用的算子。

说明

常用算子如下：

输出：表示画布流程执行完数据输出到指定位置并配置任务执行逻辑
数据清洗：主要负责模型搭建（如多表连接、多表合并）、字段格式转换（如字段设置、行转列、列转行）、数据计算（如计算字段、聚合、前K值Top值）、数据过滤（如去重、采样）等
特征工程/机器学习：表示如主成分分析、特征重要度、聚类、分类、回归等AI算法能力
自然语言处理：表示NLP自然语言处理能力，其中分词、移除停用词采用词包为开源词包

3.5 画布配置

常规数据处理

添加输入算子：从左侧拖拽数据连接到画布中
添加中间算子：添加数据处理算子（数据清洗算子、AI类算子）
添加输出算子：选择「输出」算子，将数据输出到数据集

AI数据挖掘

添加输入算子：从左侧拖拽数据连接到画布中
添加中间算子：添加AI类算子（AI-特征工程、AI-机器学习、AI-自然语言、AI-预测）
添加输出算子：选择「保存模型」算子，将数据保存到模型

添加节点 方式一：点击算子卡片中的“+”，展开下拉菜单并添加节点。方式二：从左侧拖拽算子到画布中。

添加分支： 点击算子卡片中的“+”，展开下拉菜单并添加新分支。

插入节点： 点击连线中的“+”，展开下拉菜单并插入节点

添加连线： 按住前一个算子右侧的输出点，将连线拖拽到后一个算子左侧的输入点上

切换节点： 点击算子卡片中的更多按钮或右键算子卡片，展开下拉菜单并切换节点 删除节点： 点击算子卡片中的更多按钮或右键算子卡片，展开下拉菜单并删除节点

在实际使用中，可视化建模算子支持增加文字描述，帮助用户更清晰地了解当前算子的备注信息。

可视化建模任务创建页面，支持自由布局与网格布局切换，灵活调整任务各节点的布局。

可视化建模新建任务页面，支持统一展示任务异常节点，辅助排查任务问题。

可视化建模任务创建页面，也支持通过点击Back或Delete键执行算子删除操作，提高数据清洗效率。