You need to enable JavaScript to run this app.
导航

元数据发现

最近更新时间2023.03.03 15:40:43

首次发布时间2022.08.12 10:50:19

1. 概述
  • 元数据发现(MetaData Discovery)作为 数据湖Data Lake)体系的重要能力,可以自动发现、推断数据结构,从而自动化元数据定义,极大缩减数据从产生到应用的整体链路。
  • 通过元数据发现,数据湖体系可以真正实现 Schema on Read 在存储数据之后再统一定义数据结构,使用较少的初始工作,提供更大的灵活性和更快的洞察速度。
  • 被元数据发现所定义的元数据,也可以直接在 LAS 中进行查询,形成生态闭环。
2. 前置条件

2.1 目前支持数据源:对象存储 TOS

2.2 目前支持的数据格式为 CSV、Parquet

2.3 用户具有 TOS 桶的访问权限

2.4 TOS 路径格式要求

元数据发现对 TOS 路径格式有强制要求,需要数据源路径格式具有一定的规范性。

  • TOS 路径格式要求为库/表/文件或者库/表/分区/文件

  • 目前只支持无分区表或一级分区表

  • 其存储格式需要统一,如选择用 CSV 格式解析,则对应逻辑如下图所示:

3. 创建元数据发现任务

有下面两种方式可以创建一个元数据发现任务,您可以在 LAS 控制台菜单通过下面的入口进入:

  • 数据管理 -> Schema 管理/表管理 -> 自动创建

  • 生态连接 -> 元数据发现

任务配置

  1. 存储桶名称请填写具体的桶名称,如 bucket_test,该存储桶下的路径格式需要为库/表/分区/文件或者库/表/文件。

  2. 填写一个独立 Schema 名称,该任务产生的元数据会存储于该 Schema 下。

  3. 若格式解析器选择自动解析则会自动选择一种格式进行解析,并过滤其他格式的数据。

  4. 字段变更规则为直接更新元数据时每次执行任务的结果会采用覆盖的形式更新上次的结果,若选择只支持新增,忽略字段删除更新则只会新增字段,该处建议选择直接更新元数据。

  5. 表删除规则为直接更新元数据时,若删除该表的 TOS 路径后执行元数据发现任务则该表也会一同删除,若选择忽略表删除,则删除该表的 TOS 路径时不会删除该表。

4. 管理元数据发现任务

此处是元数据发现功能的主入口,展示所有元数据发现任务,包含任务名称、最近运行状态、目标 Schema 等信息。

可以点击执行历史,展示具体元数据发现 每一次执行 的详情。