You need to enable JavaScript to run this app.
导航

可视化建模入门指南

最近更新时间2023.05.24 16:13:14

首次发布时间2021.02.23 10:42:07

可视化建模,是智能数据洞察提供的数据处理与建模功能。本文将为您介绍使用可视化建模的核心流程,帮助您快速了解其整体情况。具体每一个步骤的细节操作,您还可以查看可视化建模的多篇具体文档。

1. 创建任务
  • 在可视化建模页面中点击「新建任务」

  • 定义任务名称/描述/保存路径,保存路径即左侧边任务导航中文件夹名称,如无合适文件夹可点击任务进行创建[文件夹]

  • 任务类型:任务数据源和数据处理流程的处理的时效,常见离线任务数据源如 Hive/实时数据源如 Kafka

注:任务类型一方面决定可以使用的数据连接类型,另一方面决定画布中可以使用的算子功能

alt

2. 添加数据连接
  • 点击添加数据连接 +号

  • 选择连接:可以选择现有数据集,也可以从已有数据连接中选择已经配置好的连接,用于读取相应连接(数据源)的数据

  • 如无可用数据连接,可点击「新建配置」/在「新建数据连接」中快速创建数据连接

V2.50 版本之前,该页面如下所示:

V2.50.0 版本及之后,该界面如下所示:

3. 添加输入节点数据
  • 拖拉数据连接具体表名称至画布

  • 选择具体表名拖动到画布中即可使用

4. 配置输入节点数据字段及数据抽取方式
  • 点击输入节点算子,底部展开抽屉提供数据读取的配置页面

    页面高度可以拖拉抽屉上边界调整配置页面高度,也可滑动展示更多内容

  • 抽取设置:即读取输入节点的数据表的筛选参数,如存在分区默认展示分区字段

  • 预览设置:即参与画布执行过程的预览数据(不影响最终任务执行),理论预览数据越少画布预览执行速度越快,但是部分 AI 算子依赖更多数据,建议预览数据默认不低于 2000 行数据

  • 配置完成后点击执行:即按照配置项读取数据到画布中

  • 预览探查:即按照预览数据探查各字段的分布情况判断数据是否可用

  • 日志:即查询任务的执行日志,如存在执行失败可在此处查看失败原因

5. 添加算子及连线
  • 执行数据清洗并建立清理的有向流程

  • 点击输入数据算子块的输出+号,展开可以使用的算子;算子类型包含:数据清洗、输出、特征工程、机器学习、自然语言处理

    • 数据清洗:参考数据清洗 主要负责模型搭建(如多表连接、多表合并)、字段格式转换(如字段设置、行转列、列转行)、数据计算(如计算字段、聚合、前 K 值 Top 值)、数据过滤(如去重、采样)等

    • 输出:表示画布流程执行完数据输出到指定位置并配置任务执行逻辑

    • 特征工程/机器学习:表示如主成分分析、特征重要度、聚类、分类、回归等 AI 算法能力

    • 自然语言处理:表示 NLP 自然语言处理能力,其中分词、移除停用词采用词包为开源词包

    特征工程/机器学习/自然语言处理 算子后只可以搭配 「预测」算子进行使用

  • 添加算子间连线时,其一算子输出节点与下游算子输入节点颜色相同才可以创建连线,其次输入节点数量表示可接收的上游算子数量

  • 连线间添加算子或删除连线:Hover 连线可以操作添加,即插入新的算子,hover 连线可以操作删除,即删除连线关系建立新的关系

6. 配置输出
  • 将数据保存到数据集

  • 选择「输出」算子:决定数据输出到哪里,输出的数据的执行方式(如依赖关系、监控告警、优先级等)

  • 输出数据集:可以选择已有的数据集,将新建的流程写到已经存在的数据集中;也可新建数据集用于存储输出的数据

如选择已有数据,需要确认已有数据集的数据结构是否一致,如不一致会存在写入失败

  • 依赖配置:建立输出算子执行的前置依赖条件,如上游表是A,添加A依赖后需要待A任务执行完后再次执行当前算子任务

  • 高级配置:配置算子任务执行的优先级顺序及存储的分区概念

  • 监控配置:配置监控告警的规则及通知方式

    如需要通过办公平台推送告警信息,请先确认「系统配置-办公平台集成」是否已配置

7. 任务运行配置
  • 画布流程执行的方式

  • 手工运行:任务执行需要手动点击去执行

  • 周期执行:按照执行的频率系统自动执行任务(如天级执行、周级执行等)

8. 输出数据集应用

可视化建模任务输出到数据集之后,可以在数据集的来源中筛选所有「可视化建模」的来源,即可查看所有可视化建模输出的任务

  • 输出到 Hive 的任务会提示不可用于可视化查询,点击编辑会提示生成该可视化建模任务地址,点击可直接到该可视化建模任务详情页中

  • 输出到 ClickHouse 的任务点击后可以直接用于后续的可视化查询,点击编辑会提示生成该可视化建模任务地址,点击可直接到该可视化建模任务详情页中