对于抽取数据集,产品支持用户对数据的同步频率/时间、依赖配置、同步情况监控、性能设置等进行配置。本文为您介绍如何进行同步设置。
产品支持多种形式的数据连接,并且可以设置在产品中的数据与原始数据源之间是抽取/直连的关系,针对抽取的数据集可以调整数据的同步频率/时间、依赖配置、同步情况监控、性能设置等。
监控配置中,如想设置邮件、飞书等通知方式,需要先完成项目中心-办公软件集成的前置配置。
同步频率中的交易日历及多次同步功能目前仅支持私有化部署V2.83.0及以上版本产品使用,如您需要使用该功能,请联系火山引擎产团队为您开通。
功能项 | 是否必选 | 功能简述 |
---|---|---|
配置同步频率 | 必选 | 按照数据源更新频率和需求的数据精度设置数据集的更新同步时间,用户可根据业务需求更改同步类型、同步频率与时间、写入分区、数据生命周期、同步历史数据等。
|
依赖配置 | 可选 | 依赖配置,是指用户可以设置某个数据集与其他数据源存在关联关系,实现当A数据集有更新时,才触发B数据集更新的效果。
|
监控配置 | 可选 | 数据集同步异常时,需即时通知到相关人员避免造成数据结果问题;产品支持失败报警、超时报警、结果异常报警,通知方式需要先完成项目中心-办公软件集成进行前置配置,之后才可设置。 |
性能设置 | 可选 | 性能设置可能影响数据集的同步和查询性能,性能设置在数据集保存后无法再次修改。 |
高级设置 | 可选 | 支持设置任务同步优先级,更高优先级的任务在系统同步高峰时,会被优先同步;运行参数可辅助提高同步成功率,更多说明参考数据集-运行参数。 |
在数据集保存预览的状态下,点击数据集-同步状态,下方即可看到该数据集历史同步状态,以及历史的数据同步清单、运行时视图、日志和同步操作按钮
支持对同步类型、同步频率、写入分区时间、数据生命周期等内容进行设置。
相关参数配置说明如下:
参数 | 配置说明 |
---|---|
同步类型 | 同步类型分为定时同步和手动同步。
|
同步频率 | 支持指定定时同步分钟级、小时级、天级、天级(按交易日历)、天级(按交易日历后一天)、周级、月级频次的精确时间。 说明 对于小时级、天级、天级(按交易日历)和天级(按交易日历后一天),支持设置多个时间点。
说明
注意 同步频率中的交易日历及多次同步功能目前仅支持私有化部署V2.83.0及以上版本产品使用,如您需要使用该功能,请联系火山引擎产团队为您开通。
说明
注意 同步频率中的交易日历及多次同步功能目前仅支持私有化部署V2.83.0及以上版本产品使用,如您需要使用该功能,请联系火山引擎产团队为您开通。
|
写入分区 |
注意 写入分区创建后不可修改 场景1: |
数据生命周期 | 用户可自定义数据生命周期,设置保留最近 x 天的数据,也可以进行高级设置,超出时保留什么时候的数据。若设置生命周期为 1 天,则只保留昨日数据。
|
同步历史数据 | 仅定时同步有此项设置,默认开启,开启后可选择在创建数据集后同步所选时间段内的历史数据。该时间段的同步仅在首次同步时候进行,在后续数据同步时将不再生效。同时,支持选择回溯队列,回溯队列仅对同步历史数据生效,定时同步任务的队列在高级设置里配置。 |
本产品为用户提供灵活的任务调度依赖配置功能。调度依赖通常是指数据同步、数据开发过程中周期调度节点间的上下游依赖关系。通过节点的依赖关系有序调度任务运行上下游节点,即当上游节点运行成功后,下游节点才会启动运行,保障适时的产出有效业务数据。
本产品的依赖配置提供了自动检测上游数据有无产出和三方API依赖两大类,每一类的配置方式可选系统自动配置或自定义配置。支持用户通过建立对数据源的依赖关系,从而在数据源更新或运行后,触发数据集的同步。
注意
如果选择三方API配置的方式,需要您先在系统管理的任务管理模块,进行 API 配置,然后在可视化建模和数据集的依赖配置模块完成任务调度的依赖配置。
方式一:系统自动配置
对于 Hive、MaxCompute 和 LAS 的数据源,系统可自动获取上游配置的依赖信息,进行展示。
说明: 系统在定时时间唤醒 Sensor 任务后,每隔5min 便会检测数据源的指定分区表是否已经生成。若生成就会立刻执行当前任务,超过50小时分区一直未产出,Sensor 任务会置为失败。
Sensor 释义:Sensor 任务主要指系统生成脚本发现分区的定时任务,非当前任务。 针对用户设置的情况,系统会自动感知、探查用户的数据源中是否存在该任务所需的分区表。若存在,即代表上游数据的准备工作已完成,下游数据可以启动运行。
系统会自动发现当前表已创建过的依赖任务 Sensor ,然后进行推荐选择;若无推荐则列表为空,此时用户可以选择自定义配置。
方式二:自定义配置
本产品也支持用户通过自定义配置修改依赖偏移、添加依赖,具体操作步骤如下:
如果企业内已经存在相关的数据开发或数据处理任务的调度平台,且能够满足按照本产品的 API 规范进行配置,那么可以与本产品实现对接与联动,完成构建该调度平台的任务状态依赖关系。
新建 API 任务依赖
在系统管理-任务管理中新建 API 任务依赖,具体请参考系统管理概述-SaaS版。
依赖配置
方式一:系统自动配置
对于用户创建的 API 依赖规则所覆盖的数据源,系统可自动获取上游配置的依赖信息,进行展示。
说明: 系统在定时时间唤醒 Sensor 任务后,每隔5min 便会检测数据源的指定分区表是否已经生成。若生成就会立刻执行当前任务,超过50小时分区一直未产出,Sensor 任务会置为失败。
说明
Sensor 释义: 在用户设置的时间下,系统自动感知用户的数据源中是否存在该任务所需的分区表。若存在,即代表上游数据的准备工作已完成,下游数据可以启动运行。
Sensor 任务指系统生成脚本发现分区的定时任务,非当前任务。
系统会自动发现当前表已创建过的依赖任务 Sensor ,然后进行推荐选择;若无推荐则列表为空,此时用户可以选择自定义配置。
方式二:自定义配置
本产品也支持用户通过自定义配置修改依赖偏移、添加依赖,具体操作步骤如下:
首先,点击自定义配置,然后点击“新增依赖“,即可打开配置界面。在此界面,您可以点击变量说明,查看动态时间相关提示说明,也可以输入表名称进行搜索查看。
其次,点击“创建系统自定义依赖“,即可打开具体的配置窗口,此时您需要填写下图所示的内容:
如上图,对数据表进行了自定义依赖配置,相关名词解释:
名词 | 说明 | 示例 |
---|---|---|
数据源类型 | 依赖表的数据源类型,包括 Hive、MaxCompute、LAS 三种 | Hive,表示依据数据需求选择了 Hive 数据类型的数据源 |
库名 | 依赖表对应数据库的名字 | database_1,表示选择了 Hive 数据源中名字为 database_1 的数据库 |
表名 | 依赖表对应数据表的名字 | dim.user_basic_info_1d_a--用户信息表,表示选择了该数据库下面的表dim.user_basic_info_1d_a(此处示例使用--用户信息表) |
表类型 | 分为分区和非分区两种类型 | 以增量表为例,若选择非分区,代表选择该数据表的所有历史数据。若选择分区,代表选择确定分区范围内的所有数据 |
分区设置 | 分区设置是一种将数据按照特定规则划分成不同子集的一种方法。分区设置的下拉字段为你所选择的依赖表里的所有字段,您可以根据自己表的字段类型定义,选择数据表的【分区字段】后,选定相应分区 | 以上图为例,该示例依赖表的分区为p_date(代表一个时间分区),我们根据业务需求,设定p_date='20250317'(2025 年 3 月 17 日这个分区),表示查看该分区内的所有数据 |
依赖类型 | 数据源分区探测依赖、API依赖 | 默认选择数据源分区探测依赖,如果系统配置了 API 依赖,可根据需要选择数据源分区探测依赖或者 API 依赖 |
最后,点击确定后,即代表自定义依赖配置成功。
情况一
如果企业内已经存在相关的数据开发或数据处理任务的调度平台,用户也可以根据自身调度平台的相关任务状态选择手动运行任务。
特别声明: 用户需要指定具体的任务ID,且满足原始任务为手动执行任务,则用户可通过 OpenAPI 触发手工执行。
情况二
如果用户的数据开发或数据任务管理等相关调度平台,无法通过标准的API方式,在本产品的任务管理配置中进行设置,那么则需要通过中间层进行接口的开发与相关设置,再由本产品适配构建任务依赖。针对此情况,我们推荐企业采取 ISV 开发的服务方式,具体方案可咨询火山工作人员。
注意
通知方式需要先完成项目中心-办公软件集成进行前置配置,之后才可设置。
报警条件**:** 支持添加监控报警,在数据集同步异常时及时通知相应用户,可配置多条报警规则。
系统提供三类报警条件
通知方式:支持邮件、飞书、钉钉、企业微信、邮件组、飞书群、Wehook、通用IM
性能设置可能影响数据集的同步和查询性能,性能设置在数据集保存后无法再次修改。
排序键:
将最常用作过滤条件的字段设置为排序键,可以使查询更快。 可以设置多个字段为排序键,第 1 个字段作用最大,其余依次递减,建议不超过 3 个。
分片字段:
用于确保数据均分分布在各个存储节点上。若每天数据量不超过 2000w 行,请保留系统默认设置。 只能设置一个字段为分片字段,可以选择最常用作维度的字段(该字段枚举值超过 100 个才需要设置),或者最常用作去重计数指标的字段(该字段枚举值超过 1w 个才需要设置,如user_id、device_id、item_id等)。
排序键与分区字段使用场景说明,可以点击上方按钮查看
抽样字段:
查询时可根据抽样字段随机抽样,提升查询速度。需要在建表时指定,只支持 int,float,string 类型的字段。
系统默认第一个主键字段,非必填。
抽样占比:
默认依照抽样字段抽取 100% 的数据量,占比越小,数据量越小,可视化查询速度越快。
系统默认 100%,实际可视化查询时可以调整。
分区:
指定数据集的分区,默认为 p_date
查询一致性保障:
开启该功能时,可保证数据集多次查询的结果一致,能避免主备数据误差等极端情况,但相应的查询性能将下降
队列和优先级:
该功能仅支持抽取数据集,影响抽取速度,不影响查询速度
默认设置无需更改
失败重跑次数与重跑时间间隔:
当数据集同步失败后,系统会默认发起一次重试。可以自定义设置数据集同步失败重试次数和重跑时间间隔,提升同步成功率。
对于已存在数据集的设置步骤:
在数据集「同步状态」页面,点击同步配置。
编辑高级设置。
在弹出侧边栏调整重跑次数与重跑间隔时间。
同步多天:
如果每天同步的数据需要多次刷新,则可设置同步多天。支持刷新指定 N 天前(可多选)或最近 N 天的数据,该功能需要与自定义 SQL搭配使用。
运行参数:
支持根据需求设置数据集同步的运行参数,以保障同步成功或同步性能等。详见运行参数
注意
在数据集保存预览的状态下,点击数据集--同步状态,下方即可查看该数据集的历史同步详情。