You need to enable JavaScript to run this app.
导航
配置处理结果输出
最近更新时间:2025.10.16 17:01:49首次发布时间:2025.10.16 14:53:40
复制全文
我的收藏
有用
有用
无用
无用

数据输出是指您在创建可视化建模任务的过程中的数据输出与保存的环节。当前支持将打标结果输出为VeCDP的数据集或VeCDP的标签。 输出为数据集是指在完成数据输入-数据处理之后,需要对任务结果以数据集的形式保存,以便后续进行可视化查询与展现等;输出为标签是指将数据输出到标签体系,并允许用户自定义数据处理流程,最终将处理结果集成至标签系统中。本文为您介绍如何配置处理的结果输出。

前提条件

输出为数据集

若提取结果用于分析,可以将数据输出到数据集,支持输出到Hive/ByteHouse。

  1. 在可视化建模的编辑界面,点击算子的添加按钮,在输出类型中,点击选择输出-输出数据集

  2. 在输出数据集的配置页面配置相关参数。
    Image

    参数

    说明

    名称/描述

    自定义名称及描述。

    开放项目

    配置将数据集开放给其他项目,则数据集管理员可在其他项目的可视化建模任务中将其作为数据源使用。

    CDP应用

    支持CDP应用打标,在输出数据集的同时定义数据集的应用场景,基于不同场景可以自动匹配不同的存储逻辑,自动约束格式,避免重复抽取数据。
    注:由于CDP下游部分应用存在特殊查询逻辑,请根据需要选择合适的应用场景。
    普通数据集:
    不做特殊限定,可作为数据源在可视化建模内重复参与生产加工,但是无法注册数据档案或配置IDM。
    IDMapping图谱配置:
    用于配置IDMapping图谱,仅支持输出Hive数据集,且一般要求每天分区存储全量数据。
    数据档案-业务明细/行为事件档案:
    用于注册明细/行为数据档案,该类数据集需必填主体基准OneID字段,且系统会自动将OneID字段作为分片键存储且不可变更,可提前在画布流程中添加IDM算子转换生成基准ID(OneID)字段,一般要求每天分区存储增量数据。
    数据档案-主体属性档案:
    用于注册主体属性的数据档案,该类数据集需必填主体基准OneID字段,且系统会自动根据OneID字段进行去重,保证属性值唯一,可提前在画布流程中添加IDM算子转换生成基准ID(OneID)字段,一般要求每天存储全量数据。
    数据档案-业务维度档案:
    用于注册业务维度数据档案,该类数据集需必填维度主键字段,且系统会将每个分片节点(服务器)存储全量数据并对主键字段进行去重,不可直接用于CDP其他任何模块,一般要求每天分区存储全量数据。
    数据档案-会话档案:
    用于注册会话档案,该类数据集需必填会话id字段,一般是增量分区表。

    类型

    可选择ByteHouse或者Hive。

    数据生命周期

    抽取至系统存储中数据的有效保留天数,非分区表根据数据更新时间保留数据,日期分区则根据分区日期保留数据,生命周期外的数据每天0点会自动清除,默认值为7天。

    分区

    可选日期或其他取值可枚举的字段作为分区,一级分区必须为date类型,若无合适字段,可以选择“系统默认分区”(对天、周、 月级别例行同步任务的取值为任务例行执行的前一天,对小时、分钟级别例行同步任务取值为任务例行执行当天, 对手动运行的任务的取值为运行时选择的业务时间),二级分区可选小时或其他取值可枚举的字段作为分区(必须在高级设置打开动态分区)。

    集群

    选择数据集存储的集群。

    排序键

    将最常用作过滤条件的字段设置为排序键,可以使查询会更快。可以设置多个字段为排序键,第1个字段作用最大,其余依次递减,建议不超过3个。不能使用分区字段作为排序键。

    抽样字段

    在可视化查询模块中可按此字段抽样进行查询,只支持int,float,string类型的字段。

    表类型

    可选择普通表或者分桶表。普通表是常规的数据存储形式,结构相对简单直接。而分桶表是将数据按照特定规则分到不同的桶中,以提高查询性能等。

  3. 高级配置。
    Image
    HIVE数据源的数据集需选择运行队列和队列中的运行优先级。选择队列,对应的HIVE查询将在指定队列上执行后再导入数据集。队列选择会影响数据集同步时长,但不影响可视化查询效果。
    运行参数: 支持根据需求设置数据集同步的运行参数,以保障同步成功或同步性能等。

输出为标签

若提取结果需用于圈群,可以输出为标签。将数据输出到标签体系,并允许用户自定义数据处理流程,最终将处理结果集成至标签系统中。

  1. 在可视化建模的编辑界面,点击算子的添加按钮,在输出类型中,点击选择输出-输出标签

  2. 在输出标签的配置页面配置相关参数。
    Image

    参数

    参数说明

    主体

    选择VeCDP中配置的主体,即ID-Mapping OneID的目标对象

    源ID类型

    主体在ID-Mapping图谱中的某一类ID的ID Code

    对应字段

    选择数据源中对应ID-Mapping源ID类型的字段作为数据输入

    标签配置

    标签提交后会在标签体系自动构建相关标签,保存任务后真正生效

    标签字段

    选择需要定义为标签的字段名,暂不支持Map等特殊类型字段

    标签名称

    定义标签可被理解的名称,中文名或英文名

    标签描述

    定义标签可被理解的描述信息

    在线服务

    打开后,标签可在高速OpenAPI内查询相关数据,实现高并发查询

    高级配置

    合理的运行参数配置可辅助提高任务运行效率,仅在前置节点存在「数据清洗」算子或输出数据集配置「CDP基准ID字段」时高级参数有效。

    脏数据设置

    开启后,后续系统会自动采集脏数据,您可以设置每秒采集脏数据的数量上限。设置完毕后在任务监控中查看脏数据详情,便于进行脏数据监控与分析。

    说明

    该功能仅在私有化环境下支持。