产品支持多种形式的数据连接,并且可以设置在产品中的数据与原始数据源之间是抽取/直连的关系,针对抽取的数据集可以调整数据的同步频率/时间、依赖配置、同步情况监控、性能设置等。
在数据集保存预览的状态下,点击数据集--同步状态,即可看到「同步配置」与「数据同步」按钮
点击「同步配置」按钮,出现同步配置信息,点击每个功能右侧的笔样编辑 icon,即可进入到该功能项的设置中
功能项 | 是否必选 | 功能简述 |
---|---|---|
配置同步频率 | 必选 | 按照数据源更新频率和需求的数据精度设置数据集的更新同步时间,用户可根据业务需求更改同步类型、同步频率与时间、写入分区、数据生命周期等。
|
依赖配置 | 可选 | 依赖配置,是指用户可以设置某个数据集与其他数据源存在关联关系,实现当A数据集有更新时,才触发B数据集更新的效果。通过依赖配置,可结合上游数据的就绪状态,判断并开启定时同步任务。当达到用户设置的同步时间时,系统会检测依赖任务状态,只有当对应的依赖任务都就绪(也就是说上游数据集的数据更新)后,才会开始本数据集的同步任务。 如果因为存在依赖而导致本数据集的同步任务不执行的话,通常情况是当前业务所配置的被依赖上游任务的业务日期范围内,上游数据集或建模任务并没有数据更新。 |
监控配置 | 可选 | 数据集同步异常时,需即时通知到相关人员避免造成数据结果问题;产品支持失败报警、超时报警、结果异常报警,通知方式需要先完成项目中心-办公软件集成进行前置配置,之后才可设置 |
性能设置 | 可选 | 性能设置可能影响数据集的同步和查询性能,性能设置在数据集保存后无法再次修改 |
高级设置 | 可选 | 支持设置任务同步优先级,更高优先级的任务在系统同步高峰时,会被优先同步; |
在数据集保存预览的状态下,点击数据集--同步状态,下方即可看到该数据集历史同步状态,以及历史的数据同步清单、日志和数据同步/回溯操作按钮
同步频率中的同步类型会分为两个:定时同步和手动同步
因此以下关于同步类型的介绍会介绍同步类型、同步频率、同步历史数据与历史数据的时间范围选择。
定时同步 :支持月、周、天、小时以及分钟级别的数据同步,可以自行设置起始时间
手动同步:仅首次同步,后续不再自动更新;如需同步则需要点击该数据集,在同步状态中点击某一个业务日期对应操作栏,点击【同步】按钮进行同步
写入分区创建后不可修改
场景1:
MySQL 增量同步,同步类型选择定时同步,同步频率选择小时级同步,写入分区选择天,
同步:每小时任务同步会同步全天数据
查询:在可视化查询选择按天查询数据
场景2:
MySQL 增量同步,同步类型选择定时同步,同步频率选择分钟级同步,写入分区选择小时,
同步:分钟级任务同步会同步对应小时数据
查询:在可视化查询可选择按小时、天查询数据
用户可设置保留最近x天的数据,若设置生命周期为 1 天,则只保留昨日数据。
假设 7月1日 创建数据集,设置生命周期 7 天,每日例行同步数据:
(1)同步历史数据/回溯数据,只能同步以往 7 天内数据。举例:今天是 2月8日,则只同步历史 2月2日 至 2月7日 数据。
(2)数据同步后,只能保存 7 天。举例:2月7日(业务日期)数据于 2月8日 同步完成,1月31日 数据会被删除;同步完成之后,仅 2月1日-2月7日 这 7 天内的数据可用。
本产品为用户提供灵活的任务调度依赖配置功能。调度依赖通常是指数据同步、数据开发过程中周期调度节点间的上下游依赖关系。通过节点的依赖关系有序调度任务运行上下游节点,即当上游节点运行成功后,下游节点才会启动运行,保障适时的产出有效业务数据。
本产品的依赖配置提供了自动检测上游数据有无产出和自定义配置依赖两大类方式,本章节为您详细介绍了这两类方式。支持用户通过建立对数据源的依赖关系,从而当数据源更新或运行后,触发数据集的同步。
( 1)系统自动构建数据源分区探测任务
方式一:系统自动配置
对于 Hive、MaxCompute 和 LAS 的数据源,系统可自动获取上游配置的依赖信息,进行展示。
说明: 系统在定时时间唤醒 Sensor 任务后,每隔5min 便会检测数据源的指定分区表是否已经生成。若生成就会立刻执行当前任务,超过50小时分区一直未产出,Sensor 任务会置为失败。
Sensor 释义:Sensor 任务主要指系统生成脚本发现分区的定时任务,非当前任务。 针对用户设置的情况,系统会自动感知、探查用户的数据源中是否存在该任务所需的分区表。若存在,即代表上游数据的准备工作已完成,下游数据可以启动运行。
系统会自动发现当前表已创建过的依赖任务 Sensor ,然后进行推荐选择;若无推荐则列表为空,此时用户可以选择自定义配置。
方式二:自定义配置
本产品也支持用户通过自定义配置修改依赖偏移、添加依赖,具体操作步骤如下:
步骤一:点击自定义配置,然后点击“新增依赖“,即可打开配置界面。在此界面,您可以点击变量说明,查看动态时间相关提示说明,也可以输入表名称进行搜索查看。
步骤二:点击“创建系统自定义依赖“,即可打开具体的配置窗口,此时您需要填写下图所示的内容:
步骤三:点击确定后,即代表自定义依赖配置成功。
(2)三方API依赖
如果企业内已经存在相关的数据开发或数据处理任务的调度平台,且能够满足按照本产品的 API 规范进行配置,那么可以与本产品实现对接与联动,完成构建该调度平台的任务状态依赖关系。
第一步:新建 API 任务依赖
在系统管理-任务管理中新建 API 任务依赖,详情参考。
第二步:依赖配置
方式一:系统自动配置
对于用户创建的 API 依赖规则所覆盖的数据源,系统可自动获取上游配置的依赖信息,进行展示。
说明: 系统在定时时间唤醒 Sensor 任务后,每隔5min 便会检测数据源的指定分区表是否已经生成。若生成就会立刻执行当前任务,超过50小时分区一直未产出,Sensor 任务会置为失败。
Sensor 释义: 在用户设置的时间下,系统自动感知用户的数据源中是否存在该任务所需的分区表。若存在,即代表上游数据的准备工作已完成,下游数据可以启动运行。
Sensor 任务指系统生成脚本发现分区的定时任务,非当前任务。
系统会自动发现当前表已创建过的依赖任务 Sensor ,然后进行推荐选择;若无推荐则列表为空,此时用户可以选择自定义配置。
方式二:自定义配置
本产品也支持用户通过自定义配置修改依赖偏移、添加依赖,具体操作步骤如下:
首先,点击自定义配置,然后点击“新增依赖“,即可打开配置界面。在此界面,您可以点击变量说明,查看动态时间相关提示说明,也可以输入表名称进行搜索查看。
其次,点击“创建系统自定义依赖“,即可打开具体的配置窗口,此时您需要填写下图所示的内容:
最后,点击确定后,即代表自定义依赖配置成功。
(3)其他情况
情况一
如果企业内已经存在相关的数据开发或数据处理任务的调度平台,用户也可以根据自身调度平台的相关任务状态选择手动运行任务。
特别声明: 用户需要指定具体的任务ID,且满足原始任务为手动执行任务,则用户可通过 OpenAPI 触发手工执行。
情况二
如果用户的数据开发或数据任务管理等相关调度平台,无法通过标准的API方式,在本产品的任务管理配置中进行设置,那么则需要通过中间层进行接口的开发与相关设置,再由本产品适配构建任务依赖。针对此情况,我们推荐企业采取 ISV 开发的服务方式,具体方案可咨询火山工作人员。
前置要求: 通知方式需要先完成项目中心-办公软件集成进行前置配置,之后才可设置
报警条件: 支持添加监控报警,在数据集同步异常时及时通知相应用户,可配置多条报警规则。系统提供三类报警条件
通知方式:支持飞书、钉钉、飞书群、Webhook报警
性能设置可能影响数据集的同步和查询性能,性能设置在数据集保存后无法再次修改。
排序键:
将最常用作过滤条件的字段设置为排序键,可以使查询更快。 可以设置多个字段为排序键,第 1 个字段作用最大,其余依次递减,建议不超过 3 个。
分片字段:
用于确保数据均分分布在各个存储节点上。若每天数据量不超过 2000w 行,请保留系统默认设置。 只能设置一个字段为分片字段,可以选择最常用作维度的字段(该字段枚举值超过 100 个才需要设置),或者最常用作去重计数指标的字段(该字段枚举值超过 1w 个才需要设置,如user_id、device_id、item_id等)。
排序键与分区字段使用场景说明,可以点击上方按钮查看
抽样字段:
查询时可根据抽样字段随机抽样,提升查询速度。需要在建表时指定,只支持 int,float,string 类型的字段。
系统默认第一个主键字段,非必填。
抽样占比:
默认依照抽样字段抽取 100% 的数据量,占比越小,数据量越小,可视化查询速度越快。
系统默认 100%,实际可视化查询时可以调整。
分区:
指定数据集的分区,默认为 p_date
查询一致性保障:
开启该功能时,可保证数据集多次查询的结果一致,能避免主备数据误差等极端情况,但相应的查询性能将下降
队列和优先级:
该功能仅支持抽取数据集,影响抽取速度,不影响查询速度
默认设置无需更改
失败重跑次数与重跑时间间隔:
当数据集同步失败后,系统会默认发起一次重试。可以自定义设置数据集同步失败重试次数和重跑时间间隔,提升同步成功率。
对于已存在数据集的设置步骤:
在数据集「同步状态」页面,点击同步配置。
编辑高级设置。
在弹出侧边栏调整重跑次数与重跑间隔时间。
同步多天:
如果每天同步的数据需要多次刷新,则可设置同步多天。支持刷新指定 N 天前(可多选)或最近 N 天的数据,该功能需要与自定义 SQL搭配使用。
运行参数:
支持根据需求设置数据集同步的运行参数,以保障同步成功或同步性能等。详见运行参数
在数据集保存预览的状态下,点击数据集--同步状态,下方即可查看该数据集的历史同步详情。