最近更新时间:2023.05.26 11:26:18
首次发布时间:2021.02.23 10:42:08
产品支持多种形式的数据连接,并且可以设置在产品中的数据与原始数据源之间是抽取/直连的关系,针对抽取的数据集可以调整数据的同步频率/时间、依赖配置、同步情况监控、性能设置等。
数据集编辑状态
数据集保存预览状态
在数据集保存预览的状态下,点击数据集--同步状态,即可看到「同步配置」与「数据同步」按钮
点击「同步配置」按钮,出现同步配置信息,点击每个功能右侧的笔样编辑 icon,即可进入到该功能项的设置中
功能项 | 是否必选 | 功能简述 |
---|---|---|
配置同步频率 | 必选 | 按照数据源更新频率和需求的数据精度设置数据集的更新同步时间,用户可根据业务需求更改同步类型、同步频率与时间、写入分区、数据生命周期等。
|
依赖配置 | 可选 | 依赖配置,是指用户可以设置某个数据集与其他数据源存在关联关系,实现当A数据集有更新时,才触发B数据集更新的效果。通过依赖配置,可结合上游数据的就绪状态,判断并开启定时同步任务。当达到用户设置的同步时间时,系统会检测依赖任务状态,只有当对应的依赖任务都就绪(也就是说上游数据集的数据更新)后,才会开始本数据集的同步任务。 如果因为存在依赖而导致本数据集的同步任务不执行的话,通常情况是当前业务所配置的被依赖上游任务的业务日期范围内,上游数据集或建模任务并没有数据更新。 |
监控配置 | 可选 | 数据集同步异常时,需即时通知到相关人员避免造成数据结果问题;产品支持失败报警、超时报警、结果异常报警,通知方式需要先完成项目中心-办公软件集成进行前置配置,之后才可设置 |
性能设置 | 可选 | 性能设置可能影响数据集的同步和查询性能,性能设置在数据集保存后无法再次修改 |
高级设置 | 可选 | 支持设置任务同步优先级,更高优先级的任务在系统同步高峰时,会被优先同步; |
在数据集保存预览的状态下,点击数据集--同步状态,下方即可看到该数据集历史同步状态,以及历史的数据同步清单、日志和数据同步/回溯操作按钮
同步频率中的同步类型会分为两个:定时同步和手动同步
因此以下关于同步类型的介绍会介绍同步类型、同步频率、同步历史数据与历史数据的时间范围选择。
定时同步 :支持月、周、天、小时以及分钟级别的数据同步,可以自行设置起始时间
手动同步:仅首次同步,后续不再自动更新;如需同步则需要点击该数据集,在同步状态中点击某一个业务日期对应操作栏,点击【同步】按钮进行同步
小时级、分钟级频次的定时同步支持小时、天两种写入分区的方式;
天级、周级、月级频次的定时同步仅支持天 这一种写入分区方式;
写入分区创建后不可修改
场景1:
MySQL 增量同步,同步类型选择定时同步,同步频率选择小时级同步,写入分区选择天,
同步:每小时任务同步会同步全天数据
查询:在可视化查询选择按天查询数据
场景2:
MySQL 增量同步,同步类型选择定时同步,同步频率选择分钟级同步,写入分区选择小时,
同步:分钟级任务同步会同步对应小时数据
查询:在可视化查询可选择按小时、天查询数据
用户可设置保留最近x天的数据,若设置生命周期为 1 天,则只保留昨日数据。
假设 7月1日 创建数据集,设置生命周期 7 天,每日例行同步数据:
(1)同步历史数据/回溯数据,只能同步以往 7 天内数据。举例:今天是 2月8日,则只同步历史 2月2日 至 2月7日 数据。
(2)数据同步后,只能保存 7 天。举例:2月7日(业务日期)数据于 2月8日 同步完成,1月31日 数据会被删除;同步完成之后,仅 2月1日-2月7日 这 7 天内的数据可用。
通过依赖配置,可结合上游数据的就绪状态,判断并开启定时同步任务。达到同步时间时,会检测依赖任务状态,只有当对应的依赖任务都就绪后,才会开始数据集同步。
备注:大部分情况无需配置数据依赖
系统自动配置: 系统会自动发现当前表已创建过的依赖任务 sensor ,然后进行推荐选择;选择不到则列表为空,需配置可以选择自定义配置
自定义配置: 系统会自动搜索该数据表相关的所有数据任务,然后列出来选择
如果为空就可以点击「创建自定义依赖」来选择/创建新的依赖
该功能除了在界面中设置,也可以调用 API 进行开发创建,详见:外部触发同步任务
前置要求: 通知方式需要先完成项目中心-办公软件集成进行前置配置,之后才可设置
报警条件: 支持添加监控报警,在数据集同步异常时及时通知相应用户,可配置多条报警规则。系统提供三类报警条件
失败报警:数据集同步失败则会触发消息通知
超时报警:支持选择三类超时定义
绝对时间(截止北京时间):在设定时间未完成同步则报警
同步过程耗时超过:数据集同步超过设定时长则报警;如设定耗时 2 小时报警,数据集从 7 点开始同步,则若 9 点未完成同步会报警
设定的同步时间起超过:适用于定时同步,在同步频率中设定同步时间后,经过设定超时仍未开始同步或未同步完成则报警;如设定同步时间为 7 点,超时为"设定的同步时间起超过 1 小时未开始",则若8点数据集未开始同步(处于未同步/未就绪状态)会报警
结果异常报警:监控数据行数,当行数异常时报警。常用于以下场景
防止同步异常或上游数据异常,导致同步无数据:可设置数据行数=0 时报警
上游数据会多次更新,防止同步数据不全:可设置数据行数<预期行数时报警;如预期数据集每天同步 10w 行数据,若<80000 就可能数据不全,则可设置数据行数<80000 行时报警
通知方式:支持邮件、飞书、WebEx、钉钉、企业微信、邮件组、飞书群报警
性能设置可能影响数据集的同步和查询性能,性能设置在数据集保存后无法再次修改。
排序键:
将最常用作过滤条件的字段设置为排序键,可以使查询更快。 可以设置多个字段为排序键,第 1 个字段作用最大,其余依次递减,建议不超过 3 个。
分片字段:
用于确保数据均分分布在各个存储节点上。若每天数据量不超过 2000w 行,请保留系统默认设置。 只能设置一个字段为分片字段,可以选择最常用作维度的字段(该字段枚举值超过 100 个才需要设置),或者最常用作去重计数指标的字段(该字段枚举值超过 1w 个才需要设置,如user_id、device_id、item_id等)。
排序键与分区字段使用场景说明,可以点击上方按钮查看
抽样字段:
查询时可根据抽样字段随机抽样,提升查询速度。需要在建表时指定,只支持 int,float,string 类型的字段。
系统默认第一个主键字段,非必填。
抽样占比:
默认依照抽样字段抽取 100% 的数据量,占比越小,数据量越小,可视化查询速度越快。
系统默认 100%,实际可视化查询时可以调整。
分区:
指定数据集的分区,默认为 p_date
查询一致性保障:
开启该功能时,可保证数据集多次查询的结果一致,能避免主备数据误差等极端情况,但相应的查询性能将下降
队列和优先级:
该功能仅支持抽取数据集,影响抽取速度,不影响查询速度
默认设置无需更改
失败重跑次数与重跑时间间隔:
当数据集同步失败后,系统会默认发起一次重试。可以自定义设置数据集同步失败重试次数和重跑时间间隔,提升同步成功率。
对于已存在数据集的设置步骤:
在数据集「同步状态」页面,点击同步配置。
编辑高级设置。
在弹出侧边栏调整重跑次数与重跑间隔时间。
同步多天:
如果每天同步的数据需要多次刷新,则可设置同步多天。支持刷新指定 N 天前(可多选)或最近 N 天的数据,该功能需要与自定义 SQL搭配使用。
运行参数:
支持根据需求设置数据集同步的运行参数,以保障同步成功或同步性能等。详见运行参数
在数据集保存预览的状态下,点击数据集--同步状态,下方即可查看该数据集的历史同步详情。
右上有「同步配置」和「数据同步」按钮
点击「数据同步」按钮,会弹出同步设置弹框。在选择范围中选择需要同步的业务日期开始与结束时间,则会立即批量同步该段业务日期范围内的数据。
选择「开启同步后,同步状态列表展示此时间范围」,在该列表清单会显示出来这段时间的执行信息。如下所示选择 2-1 到 2-3 的时间段,勾选了开启按钮,在同步状态中会显示如下同步信息。
在数据回溯设置中,可以选择按依赖设置执行,或者忽略依赖直接执行回溯
最下方列表中会按照数据同步的业务日期、同步状态、定时时间、同步开始时间、同步结束时间、执行耗时、数据行数、操作(运行试图、日志、同步)列出来所有同步更新的数据