最近更新时间:2023.09.14 20:50:47
首次发布时间:2021.02.23 10:42:06
任务创建,是指可视化建模任务的创建环节,通常包含新建任务、数据连接等步骤。可视化建模任务支持抽取数据源中的数据,通过拖拽形式添加数据处理节点,将处理完成的数据输出到目标源中。
任务类型:实时任务、离线任务;实时任务支持 Kafka、Pulsar,离线任务支持的输入数据源如下;实时任务默认不开启;
已支持的离线任务的输入数据源:Hive, MySQL, ClickHouse, Kafka, HttpAPI, 飞书, CSV/Excel, Oracle, Impala, PostgreSQL, Hbase, SQLServer, MaxCompute, ADB, MongoDB, Hana, Teradata, Db2, Vertica, GreenPlum等20几种主流的数据源
已支持数据清洗节点:字段设置、筛选行、添加计算列、聚合、连接、合并、行列转置等
已支持的AI建模能力:特征工程、机器学习、自然语言处理等多种算子
已支持输出内置数据源:以 Hive、ClickHouse、ByteHouse 存储的数据集
在您点击进入「可视化建模」后,点击左上角的「新建任务」。在弹窗中,设置名称、选择保存路径与任务类型后,点击确定,即可跳转到任务页面。
任务类型说明
在新建任务环节,需要选择该任务的类型,在任务创建后不可切换任务类型;目前提供离线任务与实时任务两种。离线任务跟随离线更新的数据源可被设置为手动和周期执行,输出为定期更新的数据或模型文件;实时任务跟随实时更新的数据源可被实时执行,输出为实时更新的数据。
使用前提
离线任务:默认均可使用
实时任务仅支持 Kafka,默认不开启,如需使用请联系火山引擎官方人员,并需完成以下前置操作:
SaaS 环境:购买火山引擎 Kafka,并在数据连接对接好该火山引擎Kafka数据源
私有化部署:拥有自己的开源Kafka、Pulsar,并在数据连接对接好该Kafka数据源
使用场景
离线:对接离线数据源同步数据,采用抽取方式获得数据
实时:对接kafka流式数据,实现秒级数据消费
在可视化建模任务编辑页面,提供多样化的算子模板,点击 全部模板 可快速查看。
每个模板均支持 预览 或 应用 。
点击 预览 ,将详细介绍当前算子模板内置的样例数据、场景说明、使用到的算子,点击 使用模板 可快速套用。
使用模板后,系统将展示使用系统样例数据处理对应应用场景的详细配置,帮助用户进一步了解当前算子的能力及使用方式。
在新建任务页面添加数据连接;可以选择添加多种类型的数据连接,也可以选择已经加工处理之后的数据集,平台支持对大部分离线存储做自定义SQL。
V2.50版本之前,该页面如下所示:
V2.50.0版本及之后,该界面如下所示:
Hive**/ClickHouse自定义****SQL**
Hive:可视化建模输出并且数据存储为Hive类型数据集,可以写SQL,满足Hive语法即可
ClickHouse:可视化建模输出并且数据存储为Clickhouse数据集,可以写SQL,满足ClickHouse语法即可
可视化建模数据集:可视化建模输出的数据集,不区分输出存储类型是Hive/ClickHouse
智能数据洞察数据集:通过“数据集”模块构建输出的数据集
通过点击节点右侧加号添加并配置处理节点,拖拽上一节点右侧加号和下一节点左侧原点连线,配置节点流转关系。点击“应用”后可展开处理后的数据结果预览。
如下图所示,点击输入数据算子块的输出+号,展开五类操作节点:输出、数据清洗、AI-特征工程、AI-机器学习、AI-自然语言,点击其中一类,则可看到可以使用的算子。算子,即数据处理的节点。
常用算子说明
输出:表示画布流程执行完数据输出到指定位置并配置任务执行逻辑
数据清洗:主要负责模型搭建(如多表连接、多表合并)、字段格式转换(如字段设置、行转列、列转行)、数据计算(如计算字段、聚合、前K值Top值)、数据过滤(如去重、采样)等
自然语言处理:表示NLP自然语言处理能力,其中分词、移除停用词采用词包为开源词包
- 特征工程/机器学习/自然语言处理 算子后只可以搭配 「预测」算子进行使用
V2.50.0版及之后,不仅在画布中可见算子,也支持在左侧tab栏中点击“算子”,选择可用的算子;点击“AI 模型”,选择可用的模型。具体每一个算子与模型的应用方式不同,在《数据处理》中将为您从四个类型展开具体介绍,本文仅就任务创建的主要流程为您介绍。
可视化建模任务的编辑页面,选择数据连接后,支持便捷的预览能力,可预览 明细数据、表结构、数据探查 。点击每列数据的 “▼”按钮 ,支持快速选择算子,进行数据处理。
配置中可以选中某节点并运行节点,进行运行检查。需注意的是,当上游节点更改后,必须重新执行上游节点后才能执行当前及下游节点。
执行该节点:运行当前节点,需要上游节点均执行完成
执行到此处:依次运行上游未执行的节点和当前节点
从此处开始执行:依次运行当前节点和后续节点,需要上游节点均执行完成,一般在当前节点更改后使用
节点执行完成后,节点旁会有绿色对号标记,表示当前节点已完成执行。
添加输出节点,选择输出到已有数据集或新建数据集。关于输出数据集的细节设置,请查看《数据输出》。
已支持输出数据集:以Hive、ClickHouse、ByteHouse存储的数据集
最后,您可以打开运行配置弹窗,编辑运行周期,或手动运行。运行频率可以选择“精确时间”或设置“间隔时长”。
精确时间:小时级、天级、周级、月级
间隔时长:10分钟、20分钟、30分钟
模型配置完成时,可以点击右上角的保存或另存为。如果模型未完成,也可以将运行频率调整为手动运行后点保存或另存为。
保存任务配置,点击左上角返回可跳转到任务详情。
返回可视化建模页面,点击当前任务的「运行记录」,可以手动运行。更多任务管理能力,请查看《任务管理》。