You need to enable JavaScript to run this app.
导航
数据集管理概述
最近更新时间:2024.09.05 16:50:37首次发布时间:2023.10.19 16:09:43

1. 数据集管理概述

数据集整个界面可以分为三个模块:1数据集创建、2数据集管理、3数据集列表。如下图所示,绿色的区域2为数据集管理。在这个数据集的详情管理区域,用户可以对该数据集进行较多操作,包括数据预览、同步状态、模型信息、血缘视图、行列权限等。本文将对这些功能做出详细解释。
*直连数据集数据就绪配置请见2.10节
图片

2. 数据集管理说明

2.1 数据集信息

数据集基本信息:所有者、最近同步时间、数据集大小、访问热度。
图片
顶部支持以下操作:

  • 权限分配:为数据集分配权限;
  • 可视化查询:一键跳转至可视化查询页面,针对当前数据集进行查询;
  • 编辑:编辑修改数据集配置;
  • 更多:
    • 跨项目配置:配置镜像数据集,更多介绍详见数据集-镜像数据集
    • 归因分析配置:配置数据集的归因分析维度,更多介绍详见AI 洞察-智能归因
    • 转移所有者:支持对数据集的所有者进行转移。
    • 转移告警人:支持对数据集的告警人进行转移。

图片

2.2 数据预览

支持明细数据、表结构两种预览结构

  • 明细数据(同步失败时无数据预览)
    说明:预览只是抽样结果,为用户提供数据的大致格式,不代表精确结果;如需查看精确的明细结果请前往可视化查询

图片

  • 表结构

图片
支持修改字段信息,点击[修改字段]即可进入字段信息编辑态,更多操作指南参见数据集-字段配置
图片
支持输入关键词搜索字段名
图片
支持指定筛选条件预览目标数据
图片

2.3 同步状态

可查看当前状态运行视图以及同步日志,实时了解具体进展。
支持筛选特定业务日期、同步状态、数据结果为 0 的任务。
图片
支持单实例重新同步与批量同步数据。

  • 单实例重新同步

图片

  • 批量同步数据

图片
支持查看及修改详细的同步配置,更多操作指南参见数据集-同步配置
图片

2.4 模型信息

查看模型设置信息:模型构成、筛选条件、性能设置。 点击胶囊可查看具体字段信息,更多操作指南参见数据集-模型配置
图片

2.5 血缘信息

查看当前数据集的使用情况,包含在哪些仪表盘中被使用,在哪些图表中被应用,以及相关资源的统计信息。
图片
支持下载血缘信息为文件。
图片

2.6 Excel 批量修改

支持一键下载当前表结构信息为文件,并支持用户批量修改维度/指标,字段名称,字段表达式,备注等。支持批量添加新增字段。
图片
(1)点击进入下载页面
图片
(2)下载最新字段列表
图片
(3)在 Excel 内进行字段修改,如需新增请在文件最下方补充
图片
(4)上传修改后的字段列表,并确认修改是否成功,点击确认即可。
图片
(5)确认自动填充后的字段信息是否正确,点击保存即可生效。
图片

2.7 跨项目配置

选择之后,将跳出弹框,将该数据集开放给其他项目使用。详见:镜像数据集
图片

2.8 归因分析配置

配置数据集的归因分析维度,详细见:归因分析配置
图片

2.9 转移所有者与转移告警人

支持对数据集的所有者与告警人进行转移。注意当数据集所有者转移时,基于该数据集创建的告警所有者,也会进行同步转移。
图片
图片

2.10 直连数据集数据就绪配置

默认情况下,仅抽取数据集支持配置「数据完成同步时触发」订阅监控推送。私有化版本中,直连数据集支持通过数据就绪配置实现「数据完成同步时触发」订阅监控推送。
对于一个直连数据集A,由于其没有同步信息,所以无法使用“数据完成同步时触发”监控订阅配置。用户可以自己维护一个存放「上游数据源就绪配置信息」的数据集B,通过将上游库表字段名称+日期对应的数据集字段配置到系统中,将数据集A和数据集B进行关联,随后等同于在监控订阅场景下系统查询数据集B来判断数据集A里用到上游表是否都就绪了。
操作步骤:
第一步:创建「直连场景数据就绪信息表」和「数据就绪信息数据集」
(1)新建一张「直连场景数据就绪信息表」。需要包含以下字段:

  • dbName:库名
  • tableName:表名
  • partDate:就绪时间

含义:记录库表的名称和就绪的日期。系统查询就绪信息表,发现某库某表的就绪时间到了,就会判断其已完成同步,触发监控

字段名称

类型

描述

dbName

string

必填

tableName

string

必填

partDate

string (2024-01-01)

必填,数据就绪日期分区值

(2)使用「直连场景数据就绪信息表」创建一个「数据就绪信息数据集」,并将「数据就绪信息数据集」的“查看”及以上权限授予后续需要使用该数据集的用户。

「直连场景数据就绪信息表」和「数据就绪信息数据集」只是为了方便本文描述,实际系统不限制这类数据表/数据集的名称。

第二步:对直连数据集进行就绪信息配置
在直连数据集「...」-「更多」-「数据就绪配置」中,确认当前数据集的上游库表信息,并将「数据就绪信息数据集」中的数据库名称、数据表名称、数据就绪日期分区一一配置。
图片
图片
第三步:支持直连数据集“数据完成同步时触发”监控订阅
有直连数据集使用权限的用户,使用直连数据集配置的图表和仪表盘在监控订阅场景下,系统若识别到该直连数据集配置了“数据就绪信息”,那么将支持“数据完成同步时触发”通知,这样就避免了直连数据集数据未就绪,下游用户便收到了监控订阅通知的场景。
图片
图片