You need to enable JavaScript to run this app.
导航

概述

最近更新时间2024.01.26 14:44:21

首次发布时间2021.07.14 10:09:00

1. 产品概述

系统内置轻量级数据清洗及可视化建模能力,支持通过拖拽形式添加数据处理节点,对数据进行筛选、去重、替换等清洗操作,数据清洗完成后,可以将处理完成的数据输出到目标源中,降低深度数据治理成本。

同时,可视化建模能力还可以帮助具备开发基础的人员进行数据建模工作,例如用户意向预测等,采用机器学习的方式,推算用户的购车意向。除此之外系统还提供Catboost分类、K-Means聚类、决策树回归、ARIMA模型等多样化的机器学习算子,帮助用户完成数据建模工作。

2. 使用限制

用户需具备 项目编辑 权限,才能新建可视化建模任务。

3. 名词释义
  • 数据建模: 按照某种数据处理逻辑将原始数据进行清洗、加工及生产的过程叫做数据建模

  • 数据连接: 构建与各类数据源打通的配置能力,实现数据读取的首要功能

  • 画布: 将各功能模块按照有向流程组建成一种数据加工流程的可视化效果

  • 算子:画布中数据读取、加工、算法、数据输出能力的集成能力,对应画布中每个方块

  • 连线: 算子间的有向关系,指代两个算子间数据流转的通道

  • 实时任务: 数据源数据是实时更新且数据流实时加工的可视化建模任务

  • 离线任务: 数据源数据是天级/小时级等更新(即每天/每小时更新一次)且数据流程加工过程是定时执行或手动执行的可视化建模任务

4. 使用流程

创建可视化建模任务-->选择数据连接-->添加数据算子-->配置算子连接关系-->配置算子-->执行算子-->输出算子-->设置输出算子的存储方式。

5. 操作步骤

5.1 创建任务

  1. 点击 数据融合>可视化建模
  2. 点击左上角 新建任务
  3. 选择 路径 ,将当前任务存放在左侧某个可视化建模任务文件夹下。
  4. 按需选择创建 离线任务 或者 实时任务

说明

  • 离线任务:任务跟随离线更新的数据源可被设置为手动和周期执行,输出为定期更新的数据或模型文件。
  • 实时任务:任务跟随实时更新的数据源可被实时执行,输出为实时更新的数据。
  • 任务创建后不可切换任务类型。

5.2 画布配置

常规数据处理

  1. 添加输入算子:从左侧拖拽数据连接到画布中
  2. 添加中间算子:添加数据处理算子(数据清洗算子、AI类算子)
  3. 添加输出算子:选择「输出」算子,将数据输出到数据集

AI数据挖掘

  1. 添加输入算子:从左侧拖拽数据连接到画布中
  2. 添加中间算子:添加AI类算子(AI-特征工程、AI-机器学习、AI-自然语言、AI-预测)
  3. 添加输出算子:选择「保存模型」算子,将数据保存到模型

    添加节点
    方式一:点击算子卡片中的“+”,展开下拉菜单并添加节点。
    方式二:从左侧拖拽算子到画布中。

    添加分支
    点击算子卡片中的“+”,展开下拉菜单并添加新分支。

    插入节点
    点击连线中的“+”,展开下拉菜单并插入节点

    添加连线
    按住前一个算子右侧的输出点,将连线拖拽到后一个算子左侧的输入点上

    切换节点
    点击算子卡片中的更多按钮或右键算子卡片,展开下拉菜单并切换节点

    删除节点
    点击算子卡片中的更多按钮或右键算子卡片,展开下拉菜单并删除节点

5.3 输出配置

  1. 选择 输出 算子,将数据保存到数据集。
  2. 将数据输出到 数据集 。支持选择已有的数据集,将新建的流程写到已经存在的数据集中,或者新建数据集用于存储输出的数据。

说明

  • 如选择 已有数据 ,需要确认已有数据集的数据结构是否一致,如不一致会存在写入失败。

  • 如选择 新建数据集 ,需要填写数据集基本配置(如数据集名称、描述),并进行存储配置,建议如下:

    • 如果该数据集为 最终数据集 ,用于 元数据登记 ,建议选择ClickHouse存储。
    • 如果该数据集只是用来 进行中间结果的存储 ,或者与其他数据集进行关联操作,建议选择Hive存储。
    • 分区选择时,Hive分区统一使用p_date字段,数据类型为string;ClickHouse分区统一使用p_date字段,数据类型为Date。
    • ClickHouse存储中,对于应用到 元数据登记 的数据集,排序字段、抽样字段、分片字段统一选择 base_id ,分区选择p_date,生命周期根据需要设置(无特殊需求默认即可)。


3. 进行 依赖配置 。建立输出算子执行的前置依赖条件,如上游表是A,添加A依赖后需要待A任务执行完后再次执行当前算子任务。

注意

  • 数据源来自CDP内部数据集

  • 依赖的上游任务不能是「手动」的,否则,下游任务会一直等待运行

  • 当一个数据集存在多个上游任务时,可以通过「自定义配置」删除不需要的任务

高级配置

在任务执行的过程中,任务执行缓慢或者出现数据倾斜等情况时,需要通过配置Spark参数,提高任务并发或者任务内存来加快执行速度,可以选择使用高级配置来进行调参。

监控配置

根据需要,设置监控报警,主要有失败报警或者超时报警。

  • 失败报警:任务失败时,会向设置的用户发送邮件或者飞书等

  • 超时报警:主要分为同步耗时超过、设置的同步时间超过、同步时间超过截止时间

说明

邮箱组:可以理解为“邮箱地址”,用户可直接输入对应邮箱地址,作为邮件通知用户,且支持多个邮箱地址输入。

*注:如需要通过办公平台推送告警信息,请先确认 系统配置-办公平台集成 已配置

5.4 任务运行配置

点击 运行配置 。支持选择画布流程执行的方式,包括手动运行、周期运行两种。

  • 手动运行:任务执行需要手动点击去执行

  • 周期运行:按照执行的频率系统自动执行任务(如天级执行、周级执行等)

除了在任务编辑中修改运行配置外,还可以在 运行记录 下方修改 运行配置

5.5 任务概览

在任务概览页,用户可以查看项目下所有的可视化建模任务的详情。

  • 筛选 不同状态的任务(包括全部任务、正在运行任务、运行成功任务、运行失败任务、其他状态任务)。

  • 可以针对任务名称/输入/输出/创建人做 自定义搜索

  • 在操作栏,可以针对特定任务进行 操作 ,包括:运行、运行记录、编辑和删除操作。

alt

5.6 任务详情

点击某一具体任务,即可在上方看到该任务对应创建人、创建时间、运行频率和最近运行时间信息。也可以对该任务进行权限分配和编辑操作。
alt

可以在画布中预览数据处理流程图。

可以查看输入表结构&明细数据预览,或者输出表结构和明细数据预览。

同时也可以进行数据运行记录的查看,调整运行频率。

5.7 算子模版

在可视化建模任务编辑页面,提供多样化的算子模板,点击 全部模板 可快速查看。

每个模板均支持 预览应用

点击 预览 ,将详细介绍当前算子模板内置的样例数据、场景说明、使用到的算子,点击 使用模板 可快速套用。

使用模板后,系统将展示使用系统样例数据处理对应应用场景的详细配置,帮助用户进一步了解当前算子的能力及使用方式。

5.8 回收站

点击 回收站 ,可以看到近15天内删除的可视化建模任务情况,包括任务名、所有者信息、完全删除的剩余时间、完全删除/恢复。