You need to enable JavaScript to run this app.
导航

同步设置

最近更新时间2024.02.02 12:09:34

首次发布时间2021.02.23 10:42:08

1. 概述

产品支持多种形式的数据连接,并且可以设置在产品中的数据与原始数据源之间是抽取/直连的关系,针对抽取的数据集可以调整数据的同步频率/时间、依赖配置、同步情况监控、性能设置等。

2. 快速入门

2.1 同步状态设置

  • 数据集编辑状态

    • 新建数据集的情况下,直接在新建数据集的界面上方导航栏点击「同步设置」按钮
      alt

    • 现有数据集点击编辑也可进入到上述环境中
      alt

  • 数据集保存预览状态

在数据集保存预览的状态下,点击数据集--同步状态,即可看到「同步配置」与「数据同步」按钮
alt
点击「同步配置」按钮,出现同步配置信息,点击每个功能右侧的笔样编辑 icon,即可进入到该功能项的设置中

2.2 同步状态设置操作指引

功能项是否必选功能简述

配置同步频率

必选

按照数据源更新频率和需求的数据精度设置数据集的更新同步时间,用户可根据业务需求更改同步类型、同步频率与时间、写入分区、数据生命周期等。

  • 首次配置

  • 后续更改

依赖配置

可选

依赖配置,是指用户可以设置某个数据集与其他数据源存在关联关系,实现当A数据集有更新时,才触发B数据集更新的效果。通过依赖配置,可结合上游数据的就绪状态,判断并开启定时同步任务。当达到用户设置的同步时间时,系统会检测依赖任务状态,只有当对应的依赖任务都就绪(也就是说上游数据集的数据更新)后,才会开始本数据集的同步任务。 如果因为存在依赖而导致本数据集的同步任务不执行的话,通常情况是当前业务所配置的被依赖上游任务的业务日期范围内,上游数据集或建模任务并没有数据更新。
alt

监控配置

可选

数据集同步异常时,需即时通知到相关人员避免造成数据结果问题;产品支持失败报警、超时报警、结果异常报警,通知方式需要先完成项目中心-办公软件集成进行前置配置,之后才可设置
alt

性能设置

可选

性能设置可能影响数据集的同步和查询性能,性能设置在数据集保存后无法再次修改

高级设置

可选

支持设置任务同步优先级,更高优先级的任务在系统同步高峰时,会被优先同步;
运行参数可辅助提高同步成功率,更多说明参考数据集-运行参数

2.3 同步状态预览

在数据集保存预览的状态下,点击数据集--同步状态,下方即可看到该数据集历史同步状态,以及历史的数据同步清单、日志和数据同步/回溯操作按钮

3. 功能介绍

3.1 同步状态设置

3.1.1 同步频率-同步类型

(1)概览

同步频率中的同步类型会分为两个:定时同步和手动同步

  • 首次做同步设置会显示信息如下:

  • 后续更改配置会显示如下:


因此以下关于同步类型的介绍会介绍同步类型、同步频率、同步历史数据与历史数据的时间范围选择。

(2)功能详细介绍

定时同步 :支持月、周、天、小时以及分钟级别的数据同步,可以自行设置起始时间

  • 同步时间(精确时间):支持指定分钟级、小时级、天级、周级、月级频次的精确时间。例如每日 09:00,每周一二三的 09:00,每月 1 日,15 日,30 日的 09:00等


  • 同步历史数据:默认开启,开启后可选择在创建数据集后同步所选时间段内的历史数据。该时间段的同步仅在首次同步时候进行,在后续数据同步时将不再生效。


手动同步:仅首次同步,后续不再自动更新;如需同步则需要点击该数据集,在同步状态中点击某一个业务日期对应操作栏,点击【同步】按钮进行同步

3.1.2 同步频率-写入分区

  • 小时级、分钟级频次的定时同步支持小时、天两种写入分区的方式;

  • 天级、周级、月级频次的定时同步仅支持天 这一种写入分区方式;

写入分区创建后不可修改

场景1:
MySQL 增量同步,同步类型选择定时同步,同步频率选择小时级同步,写入分区选择天,
同步:每小时任务同步会同步全天数据
查询:在可视化查询选择按天查询数据
场景2:
MySQL 增量同步,同步类型选择定时同步,同步频率选择分钟级同步,写入分区选择小时,
同步:分钟级任务同步会同步对应小时数据
查询:在可视化查询可选择按小时、天查询数据

3.1.3 同步频率-数据生命周期

用户可设置保留最近x天的数据,若设置生命周期为 1 天,则只保留昨日数据。
假设 7月1日 创建数据集,设置生命周期 7 天,每日例行同步数据:
(1)同步历史数据/回溯数据,只能同步以往 7 天内数据。举例:今天是 2月8日,则只同步历史 2月2日 至 2月7日 数据。

(2)数据同步后,只能保存 7 天。举例:2月7日(业务日期)数据于 2月8日 同步完成,1月31日 数据会被删除;同步完成之后,仅 2月1日-2月7日 这 7 天内的数据可用。

3.1.4 依赖配置

本产品为用户提供灵活的任务调度依赖配置功能。调度依赖通常是指数据同步、数据开发过程中周期调度节点间的上下游依赖关系。通过节点的依赖关系有序调度任务运行上下游节点,即当上游节点运行成功后,下游节点才会启动运行,保障适时的产出有效业务数据。

本产品的依赖配置提供了自动检测上游数据有无产出和自定义配置依赖两大类方式,本章节为您详细介绍了这两类方式。支持用户通过建立对数据源的依赖关系,从而当数据源更新或运行后,触发数据集的同步。

  • 配置方式:依赖配置的配置方式分为系统自动配置和自定义配置两种。

  • 温馨提示:如果选择三方API配置的方式,需要您先在系统管理的任务管理模块,进行 API 配置,然后在可视化建模和数据集的依赖配置模块完成任务调度的依赖配置。

( 1)系统自动构建数据源分区探测任务

  • 使用限制:只支持部分带分区的数据源(Hive/MaxCompute/LAS),分区表。

  • 特别声明:为了避免分区检测时实际数据未完全产出,从而导致依赖不严格准确,请您先完成数据产出再构建分区。

方式一:系统自动配置

对于 Hive、MaxCompute 和 LAS 的数据源,系统可自动获取上游配置的依赖信息,进行展示。
说明: 系统在定时时间唤醒 Sensor 任务后,每隔5min 便会检测数据源的指定分区表是否已经生成。若生成就会立刻执行当前任务,超过50小时分区一直未产出,Sensor 任务会置为失败。

Sensor 释义:Sensor 任务主要指系统生成脚本发现分区的定时任务,非当前任务。 针对用户设置的情况,系统会自动感知、探查用户的数据源中是否存在该任务所需的分区表。若存在,即代表上游数据的准备工作已完成,下游数据可以启动运行。

系统会自动发现当前表已创建过的依赖任务 Sensor ,然后进行推荐选择;若无推荐则列表为空,此时用户可以选择自定义配置。

方式二:自定义配置

本产品也支持用户通过自定义配置修改依赖偏移、添加依赖,具体操作步骤如下:
步骤一:点击自定义配置,然后点击“新增依赖“,即可打开配置界面。在此界面,您可以点击变量说明,查看动态时间相关提示说明,也可以输入表名称进行搜索查看。

步骤二:点击“创建系统自定义依赖“,即可打开具体的配置窗口,此时您需要填写下图所示的内容:

步骤三:点击确定后,即代表自定义依赖配置成功。

(2)三方API依赖

如果企业内已经存在相关的数据开发或数据处理任务的调度平台,且能够满足按照本产品的 API 规范进行配置,那么可以与本产品实现对接与联动,完成构建该调度平台的任务状态依赖关系。

  • 特别声明: 本产品支持抽取的数据源均支持构建 API 依赖

第一步新建 API 任务依赖

在系统管理-任务管理中新建 API 任务依赖,详情参考

第二步依赖配置

方式一:系统自动配置
对于用户创建的 API 依赖规则所覆盖的数据源,系统可自动获取上游配置的依赖信息,进行展示。
说明: 系统在定时时间唤醒 Sensor 任务后,每隔5min 便会检测数据源的指定分区表是否已经生成。若生成就会立刻执行当前任务,超过50小时分区一直未产出,Sensor 任务会置为失败。

Sensor 释义: 在用户设置的时间下,系统自动感知用户的数据源中是否存在该任务所需的分区表。若存在,即代表上游数据的准备工作已完成,下游数据可以启动运行。
Sensor 任务指系统生成脚本发现分区的定时任务,非当前任务。

系统会自动发现当前表已创建过的依赖任务 Sensor ,然后进行推荐选择;若无推荐则列表为空,此时用户可以选择自定义配置。

方式二:自定义配置
本产品也支持用户通过自定义配置修改依赖偏移、添加依赖,具体操作步骤如下:
首先,点击自定义配置,然后点击“新增依赖“,即可打开配置界面。在此界面,您可以点击变量说明,查看动态时间相关提示说明,也可以输入表名称进行搜索查看。

其次,点击“创建系统自定义依赖“,即可打开具体的配置窗口,此时您需要填写下图所示的内容:

最后,点击确定后,即代表自定义依赖配置成功。

(3)其他情况

情况一

如果企业内已经存在相关的数据开发或数据处理任务的调度平台,用户也可以根据自身调度平台的相关任务状态选择手动运行任务。
特别声明: 用户需要指定具体的任务ID,且满足原始任务为手动执行任务,则用户可通过 OpenAPI 触发手工执行。

  • 首先,请将任务同步类型设置为手动同步。

  • 其次,查找任务ID及项目ID(Appid),任务URL中包含任务ID及项目ID(项目指本产品的项目空间)。

  • 最后,用户可以通过自己手工触发接口的方式,实现任务的运行。

情况二

如果用户的数据开发或数据任务管理等相关调度平台,无法通过标准的API方式,在本产品的任务管理配置中进行设置,那么则需要通过中间层进行接口的开发与相关设置,再由本产品适配构建任务依赖。针对此情况,我们推荐企业采取 ISV 开发的服务方式,具体方案可咨询火山工作人员。

3.1.5 监控配置

前置要求: 通知方式需要先完成项目中心-办公软件集成进行前置配置,之后才可设置
报警条件: 支持添加监控报警,在数据集同步异常时及时通知相应用户,可配置多条报警规则。系统提供三类报警条件

  • 失败报警:数据集同步失败则会触发消息通知

  • 超时报警:支持选择三类超时定义

    • 绝对时间(截止北京时间):在设定时间未完成同步则报警

    • 同步过程耗时超过:数据集同步超过设定时长则报警;如设定耗时 2 小时报警,数据集从 7 点开始同步,则若 9 点未完成同步会报警

    • 设定的同步时间起超过:适用于定时同步,在同步频率中设定同步时间后,经过设定超时仍未开始同步或未同步完成则报警;如设定同步时间为 7 点,超时为"设定的同步时间起超过 1 小时未开始",则若8点数据集未开始同步(处于未同步/未就绪状态)会报警

  • 结果异常报警:监控数据行数,当行数异常时报警。常用于以下场景

    • 防止同步异常或上游数据异常,导致同步无数据:可设置数据行数=0 时报警

    • 上游数据会多次更新,防止同步数据不全:可设置数据行数<预期行数时报警;如预期数据集每天同步 10w 行数据,若<80000 就可能数据不全,则可设置数据行数<80000 行时报警

通知方式:支持邮件、飞书、WebEx、钉钉、企业微信、邮件组、飞书群报警

3.1.6 性能设置

性能设置可能影响数据集的同步和查询性能,性能设置在数据集保存后无法再次修改。

排序键:
将最常用作过滤条件的字段设置为排序键,可以使查询更快。 可以设置多个字段为排序键,第 1 个字段作用最大,其余依次递减,建议不超过 3 个。
分片字段:
用于确保数据均分分布在各个存储节点上。若每天数据量不超过 2000w 行,请保留系统默认设置。 只能设置一个字段为分片字段,可以选择最常用作维度的字段(该字段枚举值超过 100 个才需要设置),或者最常用作去重计数指标的字段(该字段枚举值超过 1w 个才需要设置,如user_id、device_id、item_id等)。

排序键与分区字段使用场景说明,可以点击上方按钮查看


抽样字段:
查询时可根据抽样字段随机抽样,提升查询速度。需要在建表时指定,只支持 int,float,string 类型的字段。
系统默认第一个主键字段,非必填。
抽样占比:
默认依照抽样字段抽取 100% 的数据量,占比越小,数据量越小,可视化查询速度越快。
系统默认 100%,实际可视化查询时可以调整。
分区:
指定数据集的分区,默认为 p_date
查询一致性保障:
开启该功能时,可保证数据集多次查询的结果一致,能避免主备数据误差等极端情况,但相应的查询性能将下降

3.1.7 高级设置


队列和优先级:
该功能仅支持抽取数据集,影响抽取速度,不影响查询速度
默认设置无需更改
失败重跑次数与重跑时间间隔:
当数据集同步失败后,系统会默认发起一次重试。可以自定义设置数据集同步失败重试次数和重跑时间间隔,提升同步成功率。

对于已存在数据集的设置步骤
在数据集「同步状态」页面,点击同步配置。

编辑高级设置。

在弹出侧边栏调整重跑次数与重跑间隔时间。

同步多天:
如果每天同步的数据需要多次刷新,则可设置同步多天。支持刷新指定 N 天前(可多选)或最近 N 天的数据,该功能需要与自定义 SQL搭配使用。
运行参数:

支持根据需求设置数据集同步的运行参数,以保障同步成功或同步性能等。详见运行参数

3.2 同步状态预览

在数据集保存预览的状态下,点击数据集--同步状态,下方即可查看该数据集的历史同步详情。

  • 左上区域可以根据业务日期、同步状态、结果行数为 0 来快速筛选历史数据同步结果

  • 右上有「同步配置」和「数据同步」按钮

    • 点击「同步配置」按钮,出现同步配置信息,点击每个功能右侧的笔样编辑 icon,即可进入到该功能项的设置中

    • 点击「数据同步」按钮,会弹出同步设置弹框。在选择范围中选择需要同步的业务日期开始与结束时间,则会立即批量同步该段业务日期范围内的数据。


          选择「开启同步后,同步状态列表展示此时间范围」,在该列表清单会显示出来这段时间的执行信息。如下所示选择 2-1 到 2-3 的时间段,勾选了开启按钮,在同步状态中会显示如下同步信息。

    • 在数据回溯设置中,可以选择按依赖设置执行,或者忽略依赖直接执行回溯

  • 最下方列表中会按照数据同步的业务日期、同步状态、定时时间、同步开始时间、同步结束时间、执行耗时、数据行数、操作(运行试图、日志、同步)列出来所有同步更新的数据

    • 运行视图:点击之后会在右下弹框,以视图方式呈现出该数据集的运行记录

    • 日志:点击之后会新打开一个页面,列出有该数据集的运行日志记录

    • 同步:点击同步,则会弹出回溯的设置,点击确认即可立即执行同步该段业务日期的数据。