数据输出是指您在创建可视化建模任务的过程中的数据输出与保存的环节。当前支持将打标结果输出为VeCDP的数据集或VeCDP的标签。 输出为数据集是指在完成数据输入-数据处理之后,需要对任务结果以数据集的形式保存,以便后续进行可视化查询与展现等;输出为标签是指将数据输出到标签体系,并允许用户自定义数据处理流程,最终将处理结果集成至标签系统中。本文为您介绍如何配置处理的结果输出。
若提取结果用于分析,可以将数据输出到数据集,支持输出到Hive/ByteHouse。
在可视化建模的编辑界面,点击算子的添加按钮,在输出类型中,点击选择输出-输出数据集。
在输出数据集的配置页面配置相关参数。
参数 | 说明 |
|---|---|
名称/描述 | 自定义名称及描述。 |
开放项目 | 配置将数据集开放给其他项目,则数据集管理员可在其他项目的可视化建模任务中将其作为数据源使用。 |
CDP应用 | 支持CDP应用打标,在输出数据集的同时定义数据集的应用场景,基于不同场景可以自动匹配不同的存储逻辑,自动约束格式,避免重复抽取数据。 |
类型 | 可选择ByteHouse或者Hive。 |
数据生命周期 | 抽取至系统存储中数据的有效保留天数,非分区表根据数据更新时间保留数据,日期分区则根据分区日期保留数据,生命周期外的数据每天0点会自动清除,默认值为7天。 |
分区 | 可选日期或其他取值可枚举的字段作为分区,一级分区必须为date类型,若无合适字段,可以选择“系统默认分区”(对天、周、 月级别例行同步任务的取值为任务例行执行的前一天,对小时、分钟级别例行同步任务取值为任务例行执行当天, 对手动运行的任务的取值为运行时选择的业务时间),二级分区可选小时或其他取值可枚举的字段作为分区(必须在高级设置打开动态分区)。 |
集群 | 选择数据集存储的集群。 |
排序键 | 将最常用作过滤条件的字段设置为排序键,可以使查询会更快。可以设置多个字段为排序键,第1个字段作用最大,其余依次递减,建议不超过3个。不能使用分区字段作为排序键。 |
抽样字段 | 在可视化查询模块中可按此字段抽样进行查询,只支持int,float,string类型的字段。 |
表类型 | 可选择普通表或者分桶表。普通表是常规的数据存储形式,结构相对简单直接。而分桶表是将数据按照特定规则分到不同的桶中,以提高查询性能等。 |
高级配置。
HIVE数据源的数据集需选择运行队列和队列中的运行优先级。选择队列,对应的HIVE查询将在指定队列上执行后再导入数据集。队列选择会影响数据集同步时长,但不影响可视化查询效果。
运行参数: 支持根据需求设置数据集同步的运行参数,以保障同步成功或同步性能等。
若提取结果需用于圈群,可以输出为标签。将数据输出到标签体系,并允许用户自定义数据处理流程,最终将处理结果集成至标签系统中。
在可视化建模的编辑界面,点击算子的添加按钮,在输出类型中,点击选择输出-输出标签。
在输出标签的配置页面配置相关参数。
参数 | 参数说明 |
|---|---|
主体 | 选择VeCDP中配置的主体,即ID-Mapping OneID的目标对象 |
源ID类型 | 主体在ID-Mapping图谱中的某一类ID的ID Code |
对应字段 | 选择数据源中对应ID-Mapping源ID类型的字段作为数据输入 |
标签配置 | 标签提交后会在标签体系自动构建相关标签,保存任务后真正生效 |
标签字段 | 选择需要定义为标签的字段名,暂不支持Map等特殊类型字段 |
标签名称 | 定义标签可被理解的名称,中文名或英文名 |
标签描述 | 定义标签可被理解的描述信息 |
在线服务 | 打开后,标签可在高速OpenAPI内查询相关数据,实现高并发查询 |
高级配置 | 合理的运行参数配置可辅助提高任务运行效率,仅在前置节点存在「数据清洗」算子或输出数据集配置「CDP基准ID字段」时高级参数有效。 |
脏数据设置 | 开启后,后续系统会自动采集脏数据,您可以设置每秒采集脏数据的数量上限。设置完毕后在任务监控中查看脏数据详情,便于进行脏数据监控与分析。 说明 该功能仅在私有化环境下支持,SaaS环境暂不支持。 |