You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们
导航

输出

最近更新时间2023.09.13 15:18:09

首次发布时间2022.07.25 20:44:14

1. 概述

数据输出,是指您在创建可视化建模任务的过程中的数据输出与保存的环节。在完成数据输入-数据处理之后,需要对任务结果以数据集的形式保存,以便后续进行可视化查询与展现等。输出类算子共包含3类:输出、输出实时标签、分流输出。本文将为您介绍第一种常规输出算子。

2. 功能介绍

2.1 输出方式选择

在可视化建模的编辑界面,点击算子的添加按钮,在输出类型中,点击选择第一个“输出”。
alt

对于已经做好各个节点处理的建模任务,可以在任务界面下方的“输出数据集”板块,点击新建数据集或写入已有数据集内。

  • 新建数据集需填写数据集名称、数据集描述。

  • 数据数据库选择:系统支持 Hive、ClickHouse 两类存储方式,您可按需选择;

    • Hive:需要选择分区

    • ClickHouse:需要选择集群、排序键、分片字段、抽样字段、生命周期和分区。(详细功能解释点击问号即可查看)

2.2 依赖配置

通过依赖配置,可结合上游数据的就绪状态,判断并开启定时同步任务。 如果开启自依赖,则可以实现上一个周期的任务,也可正常运行下一个周期的任务。
配置方式分为系统自动配置和自定义配置两种。

  • 系统自动配置:对于 Hive 和 ClickHouse 数据源,系统可自动获取上游配置的依赖信息,进行展示。
  • 自定义配置:如需修改或自定义配置依赖关系,可选择自定义配置。

自定义配置操作概览

点击自定义配置,然后点击“新增依赖“,即可打开配置界面,如下图所示。在此界面,您可以点击变量说明,查看动态时间相关提示说明,也可以输入表名称进行搜索查看。
alt
点击“创建系统自定义依赖“,即可打开具体的配置窗口。可以选择如下内容:

  • 数据源类型
  • 数据连接
  • 库名
  • 表名
  • 表类型:分区表、非分区表
  • 依赖类型

alt
确认后,即可新建成功。

2.3 高级配置

HIVE 数据源的数据集需选择运行队列和队列中的运行优先级。选择队列,对应的 HIVE 查询将在指定队列上执行后再导入数据集。队列选择会影响数据集同步时长,但不影响可视化查询效果。
运行参数: 支持根据需求设置数据集同步的运行参数,以保障同步成功或同步性能等,详见:运行参数

2.4 监控配置

前置要求: 通知方式需要先完成项目中心-办公软件集成进行前置配置,之后才可设置。
报警条件: 支持添加监控报警,在数据集同步异常时及时通知相应用户,可配置多条报警规则。系统提供三类报警条件

  • 失败报警:数据集同步失败则会触发消息通知

  • 超时报警:支持选择三类超时定义

  • 结果异常报警:监控数据行数,当行数异常时报警。常用于以下场景:
    • 防止同步异常或上游数据异常,导致同步无数据:可设置数据行数=0时报警

    • 上游数据会多次更新,防止同步数据不全:可设置数据行数<预期行数时报警;如预期数据集每天同步 10w 行数据,若<80000 就可能数据不全,则可设置数据行数<80000 行时报警

通知方式:支持邮件、飞书、WebEx、钉钉、企业微信、邮件组、飞书群报警。