You need to enable JavaScript to run this app.
导航

数据输出

最近更新时间2023.12.12 16:49:21

首次发布时间2022.10.17 16:50:41

1. 产品概述

在完成数据输入-数据处理之后,需要对任务结果以数据集的格式保存。

2. 使用限制

用户需要完成 数据处理 才能输出数据集。

3. 操作步骤

3.1 离线任务输出

离线任务支持输出为hive 或 clickhouse 两种类型。

  • 新建数据集需填写数据集名称、数据集描述。

    alt
  • 数据数据库选择:系统支持Hive、Clickhouse两类存储方式,用户可按需选择;
    • Hive:需要选择 生命周期天数(必选)分区(可选)
      • 生命周期天数:数据的有效保存天数,如选择7天,则根据数据更新时间最多保存7天的数据,超出7天的数据将根据数据更新时间定时滑动清空。建议:如每天保存全部数据,建议保留7天以内数据以降低存储压力,如每天保存新增的数据或非分区表,建议根据常用数据范围自定义生命周期。可选1天/7天/30天/365天/永久。
    • Clickhouse:选择集群、排序键、分片字段、抽样字段、生命周期天数分区
      • 集群:选择数据集存储的集群。

      • 排序键:将最常用作过滤条件的字段设置为排序键,可以使查询会更快。可以设置多个字段为排序键,第1个字段作用最大,其余依次递减,建议不超过3个。不能使用分区字段作为排序键。

      • 分片字段:用于确保数据均分分布在各个存储节点上。若每天数据量不超过2000w行,请保留系统默认设置。只能设置一个字段为分片字段,可以选择最常用作维度的字段(该字段枚举值超过100个才需要设置),或者最常用作去重计数指标的字段(该字段枚举值超过1w个才需要设置,如user_id、device_id、item_id等)。

      • 抽样字段:在可视化查询模块中可按此字段抽样进行查询,只支持int,float,string类型的字段。

      • 生命周期天数:数据的有效保存天数,如选择7天,则根据数据更新时间最多保存7天的数据,超出7天的数据将根据数据更新时间定时滑动清空。建议:如每天保存全部数据,建议保留7天以内数据以降低存储压力,如每天保存新增的数据或非分区表,建议根据常用数据范围自定义生命周期。可选1天/7天/30天/365天。

      • 分区:可选日期或其他取值可枚举的字段作为分区,一级分区必须为date类型,若无合适字段,可以选择“系统默认分区”(对天、周、 月级别例行同步任务的取值为任务例行执行的前一天,对小时、分钟级别例行同步任务取值为任务例行执行当天, 对手动运行的任务的取值为运行时选择的业务时间)

支持CDP应用打标,在输出数据集的同时定义数据集的应用场景,基于不同场景可以自动匹配不同的存储逻辑,自动约束格式,避免重复抽取数据。

说明

由于CDP下游部分应用存在特殊查询逻辑,需要选择合适的应用场景:

  • 普通数据集:不做特殊限定,可作为数据源在可视化建模内重复参与生产加工,但是无法注册数据档案或配置IDM。

  • IDMapping图谱配置:用于配置IDMapping图谱,仅支持输出Hive数据集,且一般要求每天分区存储全量数据。

  • 数据档案-主体属性档案:用于注册主体属性的数据档案,该类数据集需必填主体基准OneID字段,且系统会自动根据OneID字段进行去重,保证属性值唯一,可提前在画布流程中添加IDM算子转换生成基准ID(OneID)字段,一般要求每天存储全量数据。

  • 数据档案-业务明细/行为事件档案:用于注册明细/行为数据档案,该类数据集需必填主体基准OneID字段,且系统会自动将OneID字段作为分片键存储且不可变更,可提前在画布流程中添加IDM算子转换生成基准ID(OneID)字段,一般要求每天分区存储增量数据。

  • 数据档案-业务维度档案:用于注册业务维度数据档案,该类数据集需必填维度主键字段,且系统会将每个分片节点(服务器)存储全量数据并对主键字段进行去重,不可直接用于CDP其他任何模块,一般要求每天分区存储全量数据。

:::

3.1.1 依赖配置

数据源依赖

通过依赖配置,可结合上游数据的就绪状态,判断并开启定时同步任务。在【依赖配置】中,对于Hive和Clickhouse数据源,系统可自动获取上游配置的依赖信息,进行展示。如需修改或自定义配置依赖关系,可选择自定义配置。

支持对常见数据源(Hive JDBC、Maxcompute)进行检测依赖。填写依赖表、分区信息及依赖类型。可以根据当前任务逻辑中数据表的情况选择合理的依赖方式,系统默认依次推荐【任务依赖 > 系统自定义依赖 > 数据源分区检测依赖】:

  • 任务依赖:根据产出数据表的可视化建模或数据集任务状态建立依赖关系

  • 数据源分区检测依赖:根据数据源的分区数据产出情况建立依赖关系

  • 系统自定义依赖:通过系统管理员创建依赖API的方式来建立依赖,通常用于同三方数据平台相关任务建立依赖,API的逻辑由系统管理员定义,详情可咨询系统管理员

*注意: 对于非分区表,系统暂时无法推荐出依赖系统自定义依赖和数据源分区探测依赖。

三方平台数据同步任务依赖

支持通过建立HTTP API的方式实现对三方平台任务执行状态的依赖关系。

1)API配置
请求方法:GET
样例URL:https://restapi.amap.com/v3/weather/weatherInfo
Params中的参数会自动拼接到自定义URL中

2)请求参数说明:
Params中的Key和Value会自动拼接到自定义URL中,其中Key的名称可以自定义,Value参数格式不变,系统根据参数内容自动传入特定任务参数,可根据需要选择使用

3)系统参数Params
${dataSourceType} 数据源类型,如hive-jdbc、maxcomputer
${dbName} 任务中数据源的库名称
${tableName} 任务中数据源的表名称
${taskTime} 业务日期,即具体任务执行的日期,通常情况业务业务日期与分区日期保持一致
${partition} 任务中数据源的分区值

4)自定义参数
如上述系统参数无法定位到具体的调度信息,可定义一个可被第三方平台识别的参数信息。新增的自定义参数信息将在任务配置里新增一个必填参数组件,请合理定义名称便于理解。

5)接口成功返回结构
API接口调用成功,请定义成功返回的结构:JSON结构返回{"status":"success"}或{'status":0}

3.1.2 高级配置

HIVE数据源的数据集需选择运行队列和队列中的运行优先级。选择队列,对应的HIVE查询将在指定队列上执行后再导入数据集。队列选择会影响数据集同步时长,但不影响可视化查询效果。

运行参数:

支持根据需求设置数据集同步的运行参数,以保障同步成功或同步性能等。

3.1.3 监控配置

报警条件:支持添加监控报警,在数据集同步异常时及时通知相应用户,可配置多条报警规则。系统提供三类报警条件

  • 失败报警:数据集同步失败则会触发消息通知
  • 超时报警:支持选择三类超时定义
    • 绝对时间:在设定时间未完成同步则报警
    • 同步过程耗时超过:数据集同步超过设定时长则报警;如设定耗时2小时报警,数据集从7点开始同步,则若9点未完成同步会报警
    • 设定的同步时间起超过:适用于定时同步,在同步频率中设定同步时间后,经过设定超时仍未开始同步或未同步完成则报警;如设定同步时间为7点,超时为"设定的同步时间起超过1小时未开始",则若8点数据集未开始同步(处于未同步/未就绪状态)会报警
  • 结果异常报警:监控数据行数,当行数异常时报警。常用于以下场景
    • 防止同步异常或上游数据异常,导致同步无数据:可设置数据行数=0时报警
    • 上游数据会多次更新,防止同步数据不全:可设置数据行数<预期行数时报警;如预期数据集每天同步10w行数据,若<80000就可能数据不全,则可设置数据行数<80000行时报警

通知方式:支持飞书、电话、飞书群报警

3.2 实时任务输出

实时任务仅支持输出为clickhouse类型。

3.2.1 高级配置

支持配置高级参数以保证实时任务的稳定输出。

目前支持的参数及说明

参数名称说明
parallelism.default默认并行度
taskmanager.memory.process.sizetaskmanager的总进程内存大小
yarn.containers.vcores每个yarn容器的虚拟核数
taskmanager.numberOfTaskSlotstaskmanager提供的插槽数
jobmanager.memory.process.sizejobmanager的总进程内存大小
yarn.appmaster.vcoresyarn中appmaster的虚拟核数

注意

仅在前置节点存在「数据清洗」算子或输出数据集配置「CDP基准ID字段」时高级参数有效。