You need to enable JavaScript to run this app.
导航

输出

最近更新时间2024.04.16 11:38:50

首次发布时间2022.07.25 20:44:14

1. 概述

数据输出,是指您在创建可视化建模任务的过程中的数据输出与保存的环节。在完成数据输入-数据处理之后,需要对任务结果以数据集的形式保存,以便后续进行可视化查询与展现等。输出类算子共包含3类:输出、输出实时标签、分流输出。本文将为您介绍第一种常规输出算子。

2. 功能介绍

2.1 输出方式选择

在可视化建模的编辑界面,点击算子的添加按钮,在输出类型中,点击选择第一个“输出”。
图片
对于已经做好各个节点处理的建模任务,可以在任务界面下方的“输出数据集”板块,点击新建数据集或写入已有数据集内。
图片

  • 新建数据集需填写数据集名称、数据集描述。

图片
可视化建模的输出节点,支持字段修正,当上游节点字段格式同目标存储的字段格式存在兼容性问题,可点击一键修正,点击后会在当前节点前增加【字段设置】算子并一键修正。
图片

  • 数据数据库选择:系统支持 Hive、ClickHouse 两类存储方式,您可按需选择;
    • Hive:需要选择分区
      图片
    • ClickHouse:需要选择集群、排序键、分片字段、抽样字段、生命周期和分区。(详细功能解释点击问号即可查看)
      图片

2.2 依赖配置

本产品为用户提供灵活的任务调度依赖配置功能。调度依赖通常是指数据同步、数据开发过程中周期调度节点间的上下游依赖关系。通过节点的依赖关系有序调度任务运行上下游节点,即当上游节点运行成功后,下游节点才会启动运行,保障适时的产出有效业务数据。
本产品的依赖配置提供了自动检测上游数据有无产出和自定义配置依赖两大类方式,本章节为您详细介绍了这两类方式。支持用户建立对数据源的依赖关系,从而当数据源更新或运行时,触发当前可视化建模任务的执行。

  • 配置方式:分为系统自动配置和自定义配置两种。
  • 温馨提示:如果选择三方API配置的方式,需要您先在系统管理的任务管理模块,进行 API 配置,然后在可视化建模和数据集的依赖配置模块完成任务调度的依赖配置。

图片

2.2.1 系统自动构建数据源分区探测任务

  • 使用限制: 只支持部分带分区的数据源(Hive/MaxCompute/LAS),分区表。
  • 特别声明: 为了避免分区检测时实际数据未完全产出,从而导致依赖不严格准确,请您先完成数据产出再构建分区。

(1)系统自动配置
对于 Hive、MaxCompute 和 LAS 的数据源,系统可自动获取上游配置的依赖信息,进行展示。
说明: 系统在定时时间唤醒 Sensor 任务后,每隔5min 便会检测数据源的指定分区表是否已经生成。若生成就会立刻执行当前任务,超过50小时分区一直未产出,Sensor 任务会置为失败。

Sensor 释义:Sensor 任务主要指系统生成脚本发现分区的定时任务,非当前任务。 针对用户设置的情况,系统会自动感知探查用户的数据源中是否存在该任务所需的分区表。若存在,即代表上游数据的准备工作已完成,下游数据可以启动运行。

基于拖入的节点表数据源类型以及项目空间,如果系统匹配到依赖规则,则该界面会自动推荐出“系统自动配置”的依赖。
图片
(2)自定义配置
本产品也支持用户通过自定义配置修改依赖偏移、添加依赖,具体操作步骤如下:
步骤一:点击自定义配置,然后点击“新增依赖“,即可打开配置界面。在此界面,您可以点击变量说明,查看动态时间相关提示说明,也可以输入表名称进行搜索查看。
图片
步骤二:点击“创建系统自定义依赖“,即可打开具体的配置窗口,此时您需要填写下图所示的内容:
图片
步骤三:点击确定后,即代表自定义依赖配置成功。

2.2.2 三方API依赖

如果企业内已经存在相关的数据开发或数据处理任务的调度平台,且能够满足按照本产品的 API 规范进行配置,那么可以与本产品实现对接与联动,完成构建该调度平台的任务状态依赖关系。

  • 特别声明: 本产品支持抽取的数据源均支持构建 API 依赖。

(1)新建 API 任务依赖
在系统管理-任务管理中新建 API 任务依赖,详情参考
(2)系统自动配置
对于用户创建的 API 依赖规则所覆盖的数据源,系统可自动获取上游配置的依赖信息,进行展示。
说明: 系统在定时时间唤醒 Sensor 任务后,每隔5min便会检测数据源的指定分区表是否已经生成。若生成就会立刻执行当前任务,超过50小时分区一直未产出,Sensor 任务会置为失败。
基于拖入的节点表数据源类型以及项目空间,如果系统匹配到依赖规则,则该界面会自动推荐出“系统自动配置”的依赖。
图片
(3)自定义配置
本产品也支持用户通过自定义配置修改依赖偏移、添加依赖,具体操作步骤如下:
步骤一: 点击自定义配置,然后点击“新增依赖”,即可打开配置界面。在此界面,您可以点击变量说明,查看动态时间相关提示说明,也可以输入表名称进行搜索查看。
图片
步骤二: 点击“创建系统自定义依赖“,即可打开具体的配置窗口,此时您需要填写下图所示的内容:
图片
步骤三: 点击确定后,即代表自定义依赖配置成功。

2.2.3 其他情况

情况一
如果企业内已经存在相关的数据开发或数据处理任务的调度平台,用户也可以根据自身调度平台的相关任务状态选择手动运行任务。
特别声明: 用户需要指定具体的任务ID,且满足原始任务为手动执行任务,则用户可通过 OpenAPI 触发手工执行。

  • 首先,将任务更新方式设置为手动运行。

图片

  • 其次,查找任务ID及项目ID(Appid),任务URL中包含任务ID及项目ID。

项目指本产品的项目空间

图片

  • 最后,用户可以通过自己手工触发接口的方式,实现任务的运行。

情况二
如果用户的数据开发或数据任务管理等相关调度平台,无法通过标准的API方式,在本产品的任务管理配置中进行设置,那么则需要通过中间层进行接口的开发与相关设置,再由本产品适配构建任务依赖。针对此情况,我们推荐企业采取 ISV 开发的服务方式,具体方案可咨询火山工作人员。

2.3 高级配置

HIVE 数据源的数据集需选择运行队列和队列中的运行优先级。选择队列,对应的 HIVE 查询将在指定队列上执行后再导入数据集。队列选择会影响数据集同步时长,但不影响可视化查询效果。
运行参数: 支持根据需求设置数据集同步的运行参数,以保障同步成功或同步性能等,详见:运行参数
图片

2.4 监控配置

前置要求: 通知方式需要先完成项目中心-办公软件集成进行前置配置,之后才可设置。
报警条件: 支持添加监控报警,在数据集同步异常时及时通知相应用户,可配置多条报警规则。系统提供三类报警条件

  • 失败报警:数据集同步失败则会触发消息通知
  • 超时报警:支持选择三类超时定义

图片

  • 结果异常报警:监控数据行数,当行数异常时报警。常用于以下场景:
    • 防止同步异常或上游数据异常,导致同步无数据:可设置数据行数=0时报警
    • 上游数据会多次更新,防止同步数据不全:可设置数据行数<预期行数时报警;如预期数据集每天同步 10w 行数据,若<80000 就可能数据不全,则可设置数据行数<80000 行时报警

通知方式:支持邮件、飞书、WebEx、钉钉、企业微信、邮件组、飞书群报警。
图片