数据运维包含任务管理、数据连接、队列配置、存储管理与同步配置五个模块,本文为您介绍数据运维配置具体功能模块操作。
您可以单击右上角“系统管理”按钮进入系统管理页面,在系统管理页面中提供了数据运维配置模块。管理员可对任务管理、数据连接、队列配置、存储管理、同步配置等多个环节进行系统化操作管理:
本产品为用户提供灵活的任务调度依赖配置功能。调度依赖通常是指数据同步、数据开发过程中周期调度节点间的上下游依赖关系。通过节点的依赖关系有序调度任务运行上下游节点,即当上游节点运行成功后,下游节点才会启动运行,保障适时的产出有效业务数据。本产品的依赖配置提供了自动检测上游数据有无产出和自定义配置依赖两大类方式。
如果企业内已经存在相关的数据开发或数据处理任务的调度平台,且能够满足按照本产品的 API 规范进行配置,那么可以与本产品实现对接与联动,完成构建该调度平台的任务状态依赖关系。如果企业选择采用三方 API 配置依赖关系,那么用户需要先在系统管理的任务管理模块, 进行 API 配置(即本章节为您介绍的内容),然后在可视化建模和数据集的依赖配置模块完成任务调度的依赖配置。
具体操作流程如下:
请求参数说明:
Params 中的 Key 和 Value 会自动拼接到自定义 URL 中,其中 Key 的名称可以自定义,Value 参数格式不变。系统可以根据参数内容自动传入特定任务参数,您可根据需求选择使用。
系统参数Params:
参数 | 备注 |
|---|---|
${dataSourceType} | 数据源类型,如Hive-jdbc、Maxcompute |
${dbName} | 任务中数据源的库名称 |
${tableName} | 任务中数据源的表名称 |
${taskTime} | 业务日期,即具体任务执行的日期,通常情况业务日期与分区日期保持一致。 |
${partition} | 任务中数据源的分区值 |
${batchNum} | 任务批次号,根据业务日期tasktime及执行频率共同定义,天粒度更新批次号绝对等于1,如小时粒度执行,则根据执行顺序依次产生1-24个批次号。 |
自定义参数
注:如新增自定义参数,请您配置依赖时输入该参数。
如果用户的数据调度平台无法根据本产品提供的系统字段定位到具体实例,可以选择新增自定义参数字段,如定义任务ID。请您配置依赖时填写具体的任务ID 或名称,以便依赖接口可定位到目标参数字段。
为了提升企业数据安全保障,实现严谨灵活的数据管理,产品支持对数据连接的类型做差异化的配置。比如:支持项目管理员使用全部数据连接类型,其他用户都不开放部分数据连接类型。
操作步骤:
Meego 数据连接需要统一配置插件凭证,验证通过后当前环境才支持Meego数据连接类型。在进行Meego数据源连接前,请先在系统设置中进行配置。
操作步骤:
打开数据连接-系统配置,点击编辑,输入插件ID与插件密码,点击测试连接。测试成功后,点击保存,即可连接Meego数据源。
如何获取插件ID与密码:
用户需要在 DataAgent 中开启飞书办公平台后,在Meego中创建插件并发布,在插件信息页获取ID与密码。
进入 系统配置 页面,开启飞书办公平台。
配置相关参数:
操作用户需要绑定飞书账号。
添加发件渠道
配置相关参数:
进入 Meego,点击空间配置 -> 插件管理 -> 添加插件,进入页面后再点击右上角 创建插件。
点击页面中的 添加插件,输入插件名称,点击确定。
创建完成后进入插件配置页面,先填写基础配置信息。
进入权限管理,获取如下列表的权限。
插件使用范围选择企业内使用,可安装空间范围选择全部空间。
回到「空间配置」-「 插件管理」,添加刚刚创建的插件。
发布成功后,回到插件基本信息页,复制 Plugin ID 和 Plugin Secret,即可获得插件 ID 与密码。
三方数据连接需要统一通过开关开启,启用后当前环境支持微信公众号、巨量千川、日历等三方数据连接类型。若系统设置中未开启三方数据连接开关,用户在任何项目的新建数据连接页面都无法感知到系统支持三方数据连接。
操作步骤:打开数据连接-系统配置-三方数据连接,点击「启用」并保存。
在系统管理中,点击系统配置按钮,在左侧边栏中选择队列配置模块,可进行队列管理。完整介绍请您查看队列配置。
系统管理员在新建项目时,可以按照设定给每个项目分配指定的存储资源。在存储管理界面,可以查看资源概览信息,配置存储策略,包含开启资源管控的开关,项目资源限制配置,资源超出限制配置。此外还可以查看并搜索使用明细等。存储资源总量在部署或升级时产生或变化,如需调整请联系系统运维。
管理员可设置项目资源默认上限。管理员可在储存策略-开启资源管控中对所有项目进行统一项目资源限制,也可以在使用明细中对某一项目进行设置。当项目资源超出限制后,将禁止新建抽取任务。
系统管理员可在同步配置中设置数据生命周期和回溯时间的上限,提前约束用户行为,减少人为导致的资源浪费,避免运行资源的阻塞和不必要的开销。