同步设置--智能数据洞察-火山引擎

文档中心

立即注册

导航

同步设置

最近更新时间：2025.06.16 10:27:13首次发布时间：2021.02.23 10:42:08

对于抽取数据集，产品支持用户对数据的同步频率/时间、依赖配置、同步情况监控、性能设置等进行配置。本文为您介绍如何进行同步设置。

功能概述

产品支持多种形式的数据连接，并且可以设置在产品中的数据与原始数据源之间是抽取/直连的关系，针对抽取的数据集可以调整数据的同步频率/时间、依赖配置、同步情况监控、性能设置等。

前提条件

监控配置中，如想设置邮件、飞书等通知方式，需要先完成项目中心-办公软件集成的前置配置。

使用限制

同步频率中的交易日历及多次同步功能目前仅支持私有化部署V2.83.0及以上版本产品使用，如您需要使用该功能，请联系火山引擎产团队为您开通。

注意事项

部分配置仅支持在数据集创建时进行配置，数据集创建完成后将无法修改，如依赖配置。
只有抽取数据集存在同步设置，直连数据集没有同步的概念，抽取与直连区别请查看支持的连接方式。

快速入门

同步状态设置

数据集编辑状态
- 新建数据集的情况下，直接在新建数据集的界面上方导航栏点击「同步设置」按钮。
- 现有数据集点击编辑也可进入到上述环境中。
数据集保存预览状态
在数据集保存预览的状态下，点击数据集-同步状态，即可看到「同步配置」与「数据同步」按钮。点击「同步配置」按钮，出现同步配置信息，点击每个功能右侧的笔样编辑 icon，即可进入到该功能项的设置中。

同步状态设置操作指引

功能项	是否必选	功能简述
配置同步频率	必选	按照数据源更新频率和需求的数据精度设置数据集的更新同步时间，用户可根据业务需求更改同步类型、同步频率与时间、写入分区、数据生命周期、同步历史数据等。首次配置后续更改
依赖配置	可选	依赖配置，是指用户可以设置某个数据集与其他数据源存在关联关系，实现当A数据集有更新时，才触发B数据集更新的效果。通过依赖配置，可结合上游数据的就绪状态，判断并开启定时同步任务。当达到用户设置的同步时间时，系统会检测依赖任务状态，只有当对应的依赖任务都就绪（也就是说上游数据集的数据更新）后，才会开始本数据集的同步任务。如果因为存在依赖而导致本数据集的同步任务不执行的话，通常情况是当前业务所配置的被依赖上游任务的业务日期范围内，上游数据集或建模任务并没有数据更新。
监控配置	可选	数据集同步异常时，需即时通知到相关人员避免造成数据结果问题；产品支持失败报警、超时报警、结果异常报警，通知方式需要先完成项目中心-办公软件集成进行前置配置，之后才可设置。
性能设置	可选	性能设置可能影响数据集的同步和查询性能，性能设置在数据集保存后无法再次修改。
高级设置	可选	支持设置任务同步优先级，更高优先级的任务在系统同步高峰时，会被优先同步；运行参数可辅助提高同步成功率，更多说明参考数据集-运行参数。

同步状态预览

在数据集保存预览的状态下，点击数据集-同步状态，下方即可看到该数据集历史同步状态，以及历史的数据同步清单、运行时视图、日志和同步操作按钮

同步状态设置

同步频率

支持对同步类型、同步频率、写入分区时间、数据生命周期等内容进行设置。

相关参数配置说明如下：

参数	配置说明
同步类型	同步类型分为定时同步和手动同步。定时同步：可以自行设置起始时间定时对数据进行同步，支持同步历史数据。手动同步：仅首次同步，后续不再自动更新；如需同步则需要点击该数据集，在同步状态中点击某一个业务日期对应操作栏，点击【同步】按钮进行同步。
同步频率	支持指定定时同步分钟级、小时级、天级、天级（按交易日历）、天级（按交易日历后一天）、周级、月级频次的精确时间。说明对于小时级、天级、天级（按交易日历）和天级（按交易日历后一天），支持设置多个时间点。当选择了单个时间时，调度时仅执行一次当选择了多个时间时，调度时执行多次，执行时间按照所选择的时间分钟级小时级天级天级（按交易日）说明交易日历默认按照离线天级更新逻辑，但仅在交易日历日期执行任务，非交易日历日期不执行。例如：周一～周五为交易日历日期，则仅在周一~周五正常执行，周六周日不执行。交易日历设置见火山引擎「系统配置」-「企业日历」-「标签管理」。注意同步频率中的交易日历及多次同步功能目前仅支持私有化部署V2.83.0及以上版本产品使用，如您需要使用该功能，请联系火山引擎产团队为您开通。天级（按交易日历后一天）说明交易日历默认按照离线天级更新逻辑，但仅在交易日历日期后一天执行任务，其他日期不执行。例如：周一_{周五为交易日历日期，则仅在周二}周六正常执行，周日周一不执行。交易日历设置见火山引擎「系统配置」-「企业日历」-「标签管理」。注意同步频率中的交易日历及多次同步功能目前仅支持私有化部署V2.83.0及以上版本产品使用，如您需要使用该功能，请联系火山引擎产团队为您开通。周级月级
写入分区	小时级、分钟级频次的定时同步支持小时、天两种写入分区的方式天级、周级、月级频次的定时同步仅支持天这一种写入分区方式注意写入分区创建后不可修改场景1： MySQL 增量同步，同步类型选择定时同步，同步频率选择小时级同步，写入分区选择天。同步：每小时任务同步会同步全天数据查询：在可视化查询选择按天查询数据场景2： MySQL 增量同步，同步类型选择定时同步，同步频率选择分钟级同步，写入分区选择小时。同步：分钟级任务同步会同步对应小时数据查询：在可视化查询可选择按小时、天查询数据
数据生命周期	用户可自定义数据生命周期，设置保留最近 x 天的数据，也可以进行高级设置，超出时保留什么时候的数据。若设置生命周期为 1 天，则只保留昨日数据。假设 7月1日创建数据集，设置生命周期 7 天，每日例行同步数据：同步历史数据/回溯数据，只能同步以往 7 天内数据。举例：今天是 2月8日，则只同步历史 2月2日至 2月7日数据。数据同步后，只能保存 7 天。举例：2月7日（业务日期）数据于 2月8日同步完成，1月31日数据会被删除；同步完成之后，仅 2月1日-2月7日这 7 天内的数据可用。
同步历史数据	仅定时同步有此项设置，默认开启，开启后可选择在创建数据集后同步所选时间段内的历史数据。该时间段的同步仅在首次同步时候进行，在后续数据同步时将不再生效。同时，支持选择回溯队列，回溯队列仅对同步历史数据生效，定时同步任务的队列在高级设置里配置。

依赖配置

本产品为用户提供灵活的任务调度依赖配置功能。调度依赖通常是指数据同步、数据开发过程中周期调度节点间的上下游依赖关系。通过节点的依赖关系有序调度任务运行上下游节点，即当上游节点运行成功后，下游节点才会启动运行，保障适时的产出有效业务数据。
本产品的依赖配置提供了自动检测上游数据有无产出和三方API依赖两大类，每一类的配置方式可选系统自动配置或自定义配置。支持用户通过建立对数据源的依赖关系，从而在数据源更新或运行后，触发数据集的同步。

注意

如果选择三方API配置的方式，需要您先在系统管理的任务管理模块，进行 API 配置，然后在可视化建模和数据集的依赖配置模块完成任务调度的依赖配置。

系统自动构建数据源分区探测任务

使用限制：只支持部分带分区的数据源（Hive/MaxCompute/LAS），分区表。
特别声明：为了避免分区检测时实际数据未完全产出，从而导致依赖不严格准确，请您先完成数据产出再构建分区。

方式一：系统自动配置
对于 Hive、MaxCompute 和 LAS 的数据源，系统可自动获取上游配置的依赖信息，进行展示。
说明： 系统在定时时间唤醒 Sensor 任务后，每隔5min 便会检测数据源的指定分区表是否已经生成。若生成就会立刻执行当前任务，超过50小时分区一直未产出，Sensor 任务会置为失败。

Sensor 释义：Sensor 任务主要指系统生成脚本发现分区的定时任务，非当前任务。针对用户设置的情况，系统会自动感知、探查用户的数据源中是否存在该任务所需的分区表。若存在，即代表上游数据的准备工作已完成，下游数据可以启动运行。

系统会自动发现当前表已创建过的依赖任务 Sensor ，然后进行推荐选择；若无推荐则列表为空，此时用户可以选择自定义配置。

方式二：自定义配置
本产品也支持用户通过自定义配置修改依赖偏移、添加依赖，具体操作步骤如下：

点击自定义配置，然后点击“新增依赖“，即可打开配置界面。在此界面，您可以点击变量说明，查看动态时间相关提示说明，也可以输入表名称进行搜索查看。
点击“创建系统自定义依赖“，即可打开具体的配置窗口，此时您需要填写下图所示的内容：
点击确定后，即代表自定义依赖配置成功。

三方API依赖

如果企业内已经存在相关的数据开发或数据处理任务的调度平台，且能够满足按照本产品的 API 规范进行配置，那么可以与本产品实现对接与联动，完成构建该调度平台的任务状态依赖关系。

特别声明：本产品支持抽取的数据源均支持构建 API 依赖

新建 API 任务依赖
在系统管理-任务管理中新建 API 任务依赖，具体请参考系统管理概述-SaaS版。

依赖配置
方式一：系统自动配置
对于用户创建的 API 依赖规则所覆盖的数据源，系统可自动获取上游配置的依赖信息，进行展示。
说明： 系统在定时时间唤醒 Sensor 任务后，每隔5min 便会检测数据源的指定分区表是否已经生成。若生成就会立刻执行当前任务，超过50小时分区一直未产出，Sensor 任务会置为失败。

说明

Sensor 释义：在用户设置的时间下，系统自动感知用户的数据源中是否存在该任务所需的分区表。若存在，即代表上游数据的准备工作已完成，下游数据可以启动运行。
Sensor 任务指系统生成脚本发现分区的定时任务，非当前任务。

系统会自动发现当前表已创建过的依赖任务 Sensor ，然后进行推荐选择；若无推荐则列表为空，此时用户可以选择自定义配置。

方式二：自定义配置
本产品也支持用户通过自定义配置修改依赖偏移、添加依赖，具体操作步骤如下：
首先，点击自定义配置，然后点击“新增依赖“，即可打开配置界面。在此界面，您可以点击变量说明，查看动态时间相关提示说明，也可以输入表名称进行搜索查看。

其次，点击“创建系统自定义依赖“，即可打开具体的配置窗口，此时您需要填写下图所示的内容：

如上图，对数据表进行了自定义依赖配置，相关名词解释：

名词	说明	示例
数据源类型	依赖表的数据源类型，包括 Hive、MaxCompute、LAS 三种	Hive，表示依据数据需求选择了 Hive 数据类型的数据源
库名	依赖表对应数据库的名字	database_1，表示选择了 Hive 数据源中名字为 database_1 的数据库
表名	依赖表对应数据表的名字	dim.user_basic_info_1d_a--用户信息表，表示选择了该数据库下面的表dim.user_basic_info_1d_a（此处示例使用--用户信息表）
表类型	分为分区和非分区两种类型	以增量表为例，若选择非分区，代表选择该数据表的所有历史数据。若选择分区，代表选择确定分区范围内的所有数据
分区设置	分区设置是一种将数据按照特定规则划分成不同子集的一种方法。分区设置的下拉字段为你所选择的依赖表里的所有字段，您可以根据自己表的字段类型定义，选择数据表的【分区字段】后，选定相应分区	以上图为例，该示例依赖表的分区为p_date（代表一个时间分区），我们根据业务需求，设定p_date='20250317'（2025 年 3 月 17 日这个分区），表示查看该分区内的所有数据
依赖类型	数据源分区探测依赖、API依赖	默认选择数据源分区探测依赖，如果系统配置了 API 依赖，可根据需要选择数据源分区探测依赖或者 API 依赖

最后，点击确定后，即代表自定义依赖配置成功。

其他情况

情况一
如果企业内已经存在相关的数据开发或数据处理任务的调度平台，用户也可以根据自身调度平台的相关任务状态选择手动运行任务。
特别声明： 用户需要指定具体的任务ID，且满足原始任务为手动执行任务，则用户可通过 OpenAPI 触发手工执行。

首先，请将任务同步类型设置为手动同步。
其次，查找任务ID及项目ID(Appid)，任务URL中包含任务ID及项目ID（项目指本产品的项目空间）。
最后，用户可以通过自己手工触发接口的方式，实现任务的运行。

情况二
如果用户的数据开发或数据任务管理等相关调度平台，无法通过标准的API方式，在本产品的任务管理配置中进行设置，那么则需要通过中间层进行接口的开发与相关设置，再由本产品适配构建任务依赖。针对此情况，我们推荐企业采取 ISV 开发的服务方式，具体方案可咨询火山工作人员。

监控配置

注意

通知方式需要先完成项目中心-办公软件集成进行前置配置，之后才可设置。

报警条件**：** 支持添加监控报警，在数据集同步异常时及时通知相应用户，可配置多条报警规则。
系统提供三类报警条件

失败报警：数据集同步失败则会触发消息通知
超时报警：支持选择四类超时定义
- 绝对时间（截止北京时间）：在设定时间未完成同步则报警
- 同步过程耗时超过：数据集同步超过设定时长则报警；如设定耗时 2 小时报警，数据集从 7 点开始同步，则若 9 点未完成同步会报警
- 设定的同步时间起超过：适用于定时同步，在同步频率中设定同步时间后，经过设定超时仍未开始同步或未同步完成则报警；如设定同步时间为 7 点，超时为"设定的同步时间起超过 1 小时未开始"，则若8点数据集未开始同步（处于未同步/未就绪状态）会报警
- 同步过程耗时波动：数据集同步过程耗时超过设定时长则报警
结果异常报警：监控数据行数，当行数异常时报警。
- 防止同步异常或上游数据异常，导致同步无数据：可设置数据行数=0 时报警
- 上游数据会多次更新，防止同步数据不全：可设置数据行数<预期行数时报警；如预期数据集每天同步 10w 行数据，若<80000 就可能数据不全，则可设置数据行数<80000 行时报警
- 波动率异常报警：可设置波动率，当数据行数与前一天/7天内波动率超过设定值时报警

通知方式：支持邮件、飞书、钉钉、企业微信、邮件组、飞书群、Wehook、通用IM

性能设置

性能设置可能影响数据集的同步和查询性能，性能设置在数据集保存后无法再次修改。

排序键：
将最常用作过滤条件的字段设置为排序键，可以使查询更快。可以设置多个字段为排序键，第 1 个字段作用最大，其余依次递减，建议不超过 3 个。
分片字段:
用于确保数据均分分布在各个存储节点上。若每天数据量不超过 2000w 行，请保留系统默认设置。只能设置一个字段为分片字段，可以选择最常用作维度的字段（该字段枚举值超过 100 个才需要设置），或者最常用作去重计数指标的字段（该字段枚举值超过 1w 个才需要设置，如user_id、device_id、item_id等）。

排序键与分区字段使用场景说明，可以点击上方按钮查看

抽样字段：
查询时可根据抽样字段随机抽样，提升查询速度。需要在建表时指定，只支持 int，float，string 类型的字段。
系统默认第一个主键字段，非必填。
抽样占比：
默认依照抽样字段抽取 100% 的数据量，占比越小，数据量越小，可视化查询速度越快。
系统默认 100%，实际可视化查询时可以调整。
分区：
指定数据集的分区，默认为 p_date
查询一致性保障：
开启该功能时，可保证数据集多次查询的结果一致，能避免主备数据误差等极端情况，但相应的查询性能将下降

高级设置

队列和优先级：
该功能仅支持抽取数据集，影响抽取速度，不影响查询速度
默认设置无需更改
失败重跑次数与重跑时间间隔：
当数据集同步失败后，系统会默认发起一次重试。可以自定义设置数据集同步失败重试次数和重跑时间间隔，提升同步成功率。

对于已存在数据集的设置步骤：
在数据集「同步状态」页面，点击同步配置。

编辑高级设置。

在弹出侧边栏调整重跑次数与重跑间隔时间。

同步多天：
如果每天同步的数据需要多次刷新，则可设置同步多天。支持刷新指定 N 天前(可多选)或最近 N 天的数据，该功能需要与自定义 SQL搭配使用。
运行参数：

支持根据需求设置数据集同步的运行参数，以保障同步成功或同步性能等。详见运行参数

注意

同步频率选交易日相关频率，不显示同步多天
开启同步多天后，同步频率仅可选天级，交易日不显示

同步状态预览

在数据集保存预览的状态下，点击数据集--同步状态，下方即可查看该数据集的历史同步详情。

左上区域可以根据业务日期、同步状态、结果行数为 0 来快速筛选历史数据同步结果
右上有「同步配置」和「数据同步」按钮
- 点击「同步配置」按钮，出现同步配置信息，点击每个功能右侧的笔样编辑 icon，即可进入到该功能项的设置中
- 点击「数据同步」按钮，会弹出同步设置弹框。在选择范围中选择需要同步的业务日期开始与结束时间，则会立即批量同步该段业务日期范围内的数据。
  
  选择「开启同步后，同步状态列表展示此时间范围」，在该列表清单会显示出来这段时间的执行信息。如下所示选择 2-1 到 2-3 的时间段，勾选了开启按钮，在同步状态中会显示如下同步信息。
- 在数据回溯设置中，可以选择按依赖设置执行，或者忽略依赖直接执行回溯
最下方列表中会按照数据同步的业务日期、同步状态、定时时间、同步开始时间、同步结束时间、执行耗时、数据行数、操作（运行试图、日志、同步）列出来所有同步更新的数据
- 运行视图：点击之后会在右下弹框，以视图方式呈现出该数据集的运行记录
- 日志：点击之后会新打开一个页面，列出有该数据集的运行日志记录
- 同步：点击同步，则会弹出回溯的设置，点击确认即可立即执行同步该段业务日期的数据。