任务创建,是指可视化建模任务的创建环节,通常包含新建任务、数据连接等步骤。可视化建模任务支持抽取数据源中的数据,通过拖拽形式添加数据处理节点,将处理完成的数据输出到目标源中。
在您点击进入「可视化建模」后,点击「任务列表」-「新建」,选择想要新建的任务类型(离线/实时),即可跳转到任务创建页面。
任务类型说明
在新建任务环节,需要选择该任务的类型,在任务创建后不可切换任务类型;目前提供离线任务与实时任务两种。离线任务跟随离线更新的数据源可被设置为手动和周期执行,输出为定期更新的数据或模型文件;实时任务跟随实时更新的数据源可被实时执行,输出为实时更新的数据。
在新建任务页面,点击左上方的加号,添加数据连接;可以选择添加多种类型的数据连接,平台支持对大部分离线存储做自定义SQL。
注意:
如果选择了数据集,在左侧画布中会加载:自定义SQL(离线任务可显示)、可视化建模数据集、智能数据洞察数据集、客户数据平台数据集(如同时购买并部署该产品)。简介如下:
通过点击节点右侧加号添加并配置处理节点,拖拽上一节点右侧加号和下一节点左侧原点连线,配置节点流转关系。点击“应用”后可展开处理后的数据结果预览。
如下图所示,点击输入数据算子块的输出+号,展开五类操作节点:输出、数据清洗、AI-特征工程、AI-机器学习、AI-自然语言,点击其中一类,则可看到可以使用的算子。算子,即数据处理的节点。
常用算子说明
- 特征工程/机器学习/自然语言处理 算子后只可以搭配 「预测」算子进行使用
V2.50.0版及之后,不仅在画布中可见算子,也支持在左侧tab栏中点击“算子”,选择可用的算子;点击“AI 模型”,选择可用的模型。具体每一个算子与模型的应用方式不同,在《数据处理》中将为您从四个类型展开具体介绍,本文仅就任务创建的主要流程为您介绍。
在实际使用中,可视化建模算子支持增加文字描述,帮助用户更清晰地了解当前算子的备注信息。
可视化建模任务创建页面,支持自由布局与网格布局切换,灵活调整任务各节点的布局。
可视化建模新建任务页面,支持统一展示任务异常节点,辅助排查任务问题。
可视化建模任务创建页面,也支持通过点击Back或Delete键执行算子删除操作,提高数据清洗效率。
第一步:在可视化建模任务的编辑页面,选择数据连接后,支持便捷的预览能力。您可预览明细数据、表结构、数据探查。
在V2.62.0版本中,针对该功能进行了优化:
第二步:点击每列数据的 “▼”按钮 ,支持快速选择算子,进行数据处理。如下图所示:
在预览中,提供数据清洗建议,用户点击后可一键完成清洗,提高数据清洗的效率。如下图所示:
在可视化建模任务的编辑页面,打开数据预览时,在预览界面左下方,可针对预览进行即时编辑或设置。用户可以配置参与预览计算的数据量(默认不超过1000000行),支持自定义行数或选择全量数据。配置后,预览将进行实时刷新。如下图所示:
配置中可以选中某节点并运行节点,进行运行检查。需注意的是,当上游节点更改后,必须重新执行上游节点后才能执行当前及下游节点。
节点执行完成后,节点旁会有绿色对号标记,表示当前节点已完成执行。
添加输出节点,选择输出到已有数据集或新建数据集。关于输出数据集的细节设置,请查看《数据输出》。
已支持输出数据集:以Hive、ClickHouse、ByteHouse存储的数据集
最后,您可以打开运行配置弹窗,编辑运行周期,或手动运行。运行频率可以选择“精确时间”或设置“间隔时长”。
模型配置完成时,可以点击右上角的保存或另存为。如果模型未完成,也可以将运行频率调整为手动运行后点保存或另存为。
保存任务配置,点击左上角返回可跳转到任务详情。
返回可视化建模页面,点击当前任务的「运行记录」,可以手动运行。更多任务管理能力,请查看《任务管理》。