数据集整个界面可以分为三个模块:1数据集创建、2数据集管理、3数据集列表。如下图所示,绿色的区域2为数据集管理。在这个数据集的详情管理区域,用户可以对该数据集进行较多操作,包括数据预览、同步状态、模型信息、血缘视图、行列权限等。本文将对这些功能做出详细解释。
*直连数据集数据就绪配置请见2.10节
数据集基本信息:所有者、最近同步时间、数据集大小、访问热度。
顶部支持以下操作:
支持明细数据、表结构两种预览结构
支持修改字段信息,点击[修改字段]即可进入字段信息编辑态,更多操作指南参见数据集-字段配置
支持输入关键词搜索字段名
支持指定筛选条件预览目标数据
可查看当前状态运行视图以及同步日志,实时了解具体进展。
支持筛选特定业务日期、同步状态、数据结果为 0 的任务。
支持单实例重新同步与批量同步数据。
支持查看及修改详细的同步配置,更多操作指南参见数据集-同步配置
查看模型设置信息:模型构成、筛选条件、性能设置。 点击胶囊可查看具体字段信息,更多操作指南参见数据集-模型配置
查看当前数据集的使用情况,包含在哪些仪表盘中被使用,在哪些图表中被应用,以及相关资源的统计信息。
支持下载血缘信息为文件。
支持一键下载当前表结构信息为文件,并支持用户批量修改维度/指标,字段名称,字段表达式,备注等。支持批量添加新增字段。
(1)点击进入下载页面
(2)下载最新字段列表
(3)在 Excel 内进行字段修改,如需新增请在文件最下方补充
(4)上传修改后的字段列表,并确认修改是否成功,点击确认即可。
(5)确认自动填充后的字段信息是否正确,点击保存即可生效。
选择之后,将跳出弹框,将该数据集开放给其他项目使用。详见:镜像数据集
配置数据集的归因分析维度,详细见:归因分析配置
支持对数据集的所有者与告警人进行转移。注意当数据集所有者转移时,基于该数据集创建的告警所有者,也会进行同步转移。
默认情况下,仅抽取数据集支持配置「数据完成同步时触发」订阅监控推送。私有化版本中,直连数据集支持通过数据就绪配置实现「数据完成同步时触发」订阅监控推送。
对于一个直连数据集A,由于其没有同步信息,所以无法使用“数据完成同步时触发”监控订阅配置。用户可以自己维护一个存放「上游数据源就绪配置信息」的数据集B,通过将上游库表字段名称+日期对应的数据集字段配置到系统中,将数据集A和数据集B进行关联,随后等同于在监控订阅场景下系统查询数据集B来判断数据集A里用到上游表是否都就绪了。
操作步骤:
第一步:创建「直连场景数据就绪信息表」和「数据就绪信息数据集」
(1)新建一张「直连场景数据就绪信息表」。需要包含以下字段:
含义:记录库表的名称和就绪的日期。系统查询就绪信息表,发现某库某表的就绪时间到了,就会判断其已完成同步,触发监控
字段名称 | 类型 | 描述 |
---|---|---|
dbName | string | 必填 |
tableName | string | 必填 |
partDate | string (2024-01-01) | 必填,数据就绪日期分区值 |
(2)使用「直连场景数据就绪信息表」创建一个「数据就绪信息数据集」,并将「数据就绪信息数据集」的“查看”及以上权限授予后续需要使用该数据集的用户。
「直连场景数据就绪信息表」和「数据就绪信息数据集」只是为了方便本文描述,实际系统不限制这类数据表/数据集的名称。
第二步:对直连数据集进行就绪信息配置
在直连数据集「...」-「更多」-「数据就绪配置」中,确认当前数据集的上游库表信息,并将「数据就绪信息数据集」中的数据库名称、数据表名称、数据就绪日期分区一一配置。
第三步:支持直连数据集“数据完成同步时触发”监控订阅
有直连数据集使用权限的用户,使用直连数据集配置的图表和仪表盘在监控订阅场景下,系统若识别到该直连数据集配置了“数据就绪信息”,那么将支持“数据完成同步时触发”通知,这样就避免了直连数据集数据未就绪,下游用户便收到了监控订阅通知的场景。