数据输出,是指您在创建可视化知识处理任务的过程中的数据输出与保存的环节。在完成数据接入-数据处理之后,需要对任务结果以数据集的形式保存,以便后续进行可视化查询与展现等。
输出类算子共包含6类:输出数据集、输出标签、分流输出、外部输出、输出数据档案、导入知识引擎。
本文将为您介绍第一种常规输出算子,即将数据输出到数据集,支持输出到hive/clickhouse引擎。
用户需要完成 数据处理 才能输出数据集。

* Hive:需要选择 **生命周期天数(必选)** 与 **分区(可选)** 数据生命周期:数据的有效保存天数,如选择7天,则根据数据更新时间最多保存7天的数据,超出7天的数据将根据数据更新时间定时滑动清空。建议:如每天保存全部数据,建议保留7天以内数据以降低存储压力,如每天保存新增的数据或非分区表,建议根据常用数据范围自定义生命周期。可选1天/7天/30天/365天/永久。 * Clickhouse:**选择集群、排序键、分片字段、抽样字段、生命周期天数**和**分区**。 | | | \ |参数 |说明 | |---|---| | | | \ |**集群** |选择数据集存储的集群。 | | | | \ |**排序键** |将最常用作过滤条件的字段设置为排序键,可以使查询会更快。可以设置多个字段为排序键,第1个字段作用最大,其余依次递减,建议不超过3个。不能使用分区字段作为排序键。 | | | | \ |**分片字段** |用于确保数据均分分布在各个存储节点上。若每天数据量不超过2000w行,请保留系统默认设置。只能设置一个字段为分片字段,可以选择最常用作维度的字段(该字段枚举值超过100个才需要设置),或者最常用作去重计数指标的字段(该字段枚举值超过1w个才需要设置,如user_id、device_id、item_id等)。 | | | | \ |**抽样字段** |在可视化查询模块中可按此字段抽样进行查询,只支持int,float,string类型的字段。 | | | | \ |**数据生命周期** |数据的有效保存天数,如选择7天,则根据数据更新时间最多保存7天的数据,超出7天的数据将根据数据更新时间定时滑动清空。建议:如每天保存全部数据,建议保留7天以内数据以降低存储压力,如每天保存新增的数据或非分区表,建议根据常用数据范围自定义生命周期。可选1天/7天/30天/365天。 |\ | |数据生命周期支持**生命周期的高级配置**。允许用户自定义数据保留规则,如"保留最近XX天"和"XX天至XX天,保留每${周期}的${特定日子}"。 |\ | |***示例:40至50天内,每月最后一天的数据保留。** |\ | |*该功能由产品开关控制,默认关闭,如有需要可联系您的客户经理。* |\ | |*注意:添加条件上限为两层 | | | | \ |**分区** |可选日期或其他取值可枚举的字段作为分区,一级分区必须为date类型,若无合适字段,可以选择“系统默认分区”(对天、周、 月级别例行同步任务的取值为任务例行执行的前一天,对小时、分钟级别例行同步任务取值为任务例行执行当天, 对手动运行的任务的取值为运行时选择的业务时间) |

数据源依赖
通过依赖配置,可结合上游数据的就绪状态,判断并开启定时同步任务。在【依赖配置】中,对于Hive和Clickhouse数据源,系统可自动获取上游配置的依赖信息,进行展示。如需修改或自定义配置依赖关系,可选择自定义配置。
支持对常见数据源(Hive JDBC、Maxcompute)进行检测依赖。填写依赖表、分区信息及依赖类型。可以根据当前任务逻辑中数据表的情况选择合理的依赖方式,系统默认依次推荐【任务依赖 > 系统自定义依赖 > 数据源分区检测依赖】:
注意
对于非分区表,系统暂时无法推荐出依赖系统自定义依赖和数据源分区探测依赖。
三方平台数据同步任务依赖
支持通过建立HTTP API的方式实现对三方平台任务执行状态的依赖关系。
API配置
类型 | 说明 |
|---|---|
请求参数说明: | Params中的Key和Value会自动拼接到自定义URL中,其中Key的名称可以自定义,Value参数格式不变,系统根据参数内容自动传入特定任务参数,可根据需要选择使用 |
系统参数Params |
|
自定义参数 | 如上述系统参数无法定位到具体的调度信息,可定义一个可被第三方平台识别的参数信息。新增的自定义参数信息将在任务配置里新增一个必填参数组件,请合理定义名称便于理解。 |
接口成功返回结构 | API接口调用成功,请定义成功返回的结构:JSON结构返回 |
HIVE数据源的数据集需选择运行队列和队列中的运行优先级。选择队列,对应的HIVE查询将在指定队列上执行后再导入数据集。队列选择会影响数据集同步时长,但不影响可视化查询效果。
运行参数: 支持根据需求设置数据集同步的运行参数,以保障同步成功或同步性能等。
前置要求: 通知方式需要先完成 办公软件集成 进行前置配置,之后才可设置。
报警条件: 支持添加监控报警,在数据集同步异常时及时通知相应用户,可配置多条报警规则。系统提供三类报警条件

通知方式:支持邮件、飞书、WebEx、钉钉、企业微信、邮件组、飞书群报警。
实时任务仅支持输出为clickhouse类型。
新建数据集需填写数据集名称、数据集描述。
配置存储:
支持配置数据生命周期, 即抽取至系统存储中数据的有效保留天数,非分区表根据数据更新时间保留数据,日期分区则根据分区日期保留数据,生命周期外的数据每天0点会自动清除。
数据生命周期的高级设置: 即在保留天数的基础上,可以对历史数据选择性的保留。
注意
季度为自然季度(如1-3月为一季度)
保留周期越久占用的系统存储资源越多,请根据需要选择合理的生命周期范围
高级配置:
参数 | 说明 |
|---|---|
集群 | 选择集群 |
排序键 | 将最常用作过滤条件的字段设置为排序键,可以使查询会更快。 |
抽样字段 | 在可视化直询模块中可按此字段抽样进行查询,只支持int,float,string类型的字段。 |
支持配置高级参数以保证实时任务的稳定输出。
目前支持的参数及说明如下:
参数名称 | 说明 |
|---|---|
parallelism.default | 默认并行度 |
taskmanager.memory.process.size | taskmanager的总进程内存大小 |
yarn.containers.vcores | 每个yarn容器的虚拟核数 |
taskmanager.numberOfTaskSlots | taskmanager提供的插槽数 |
jobmanager.memory.process.size | jobmanager的总进程内存大小 |
yarn.appmaster.vcores | yarn中appmaster的虚拟核数 |
注意
仅在前置节点存在「数据清洗」算子或输出数据集配置「CDP基准ID字段」时高级参数有效。
参数 | 说明 |
|---|---|
是否开启脏数据采集 | 开启或关闭脏数据采集 |
脏数据每秒采集条数 | 不填数字则表示不抽样 |