2.1 目前支持数据源:对象存储 TOS
2.2 目前支持的数据格式为 CSV、Parquet
2.3 用户具有 TOS 桶的访问权限
2.4 TOS 路径格式要求
元数据发现对 TOS 路径格式有强制要求,需要数据源路径格式具有一定的规范性。
TOS 路径格式要求为库/表/文件或者库/表/分区/文件
目前只支持无分区表或一级分区表
其存储格式需要统一,如选择用 CSV 格式解析,则对应逻辑如下图所示:
有下面两种方式可以创建一个元数据发现任务,您可以在 LAS 控制台菜单通过下面的入口进入:
数据管理 -> Schema 管理/表管理 -> 自动创建
生态连接 -> 元数据发现
任务配置
存储桶名称请填写具体的桶名称,如 bucket_test,该存储桶下的路径格式需要为库/表/分区/文件或者库/表/文件。
填写一个独立 Schema 名称,该任务产生的元数据会存储于该 Schema 下。
若格式解析器选择自动解析则会自动选择一种格式进行解析,并过滤其他格式的数据。
字段变更规则为直接更新元数据时每次执行任务的结果会采用覆盖的形式更新上次的结果,若选择只支持新增,忽略字段删除更新则只会新增字段,该处建议选择直接更新元数据。
表删除规则为直接更新元数据时,若删除该表的 TOS 路径后执行元数据发现任务则该表也会一同删除,若选择忽略表删除,则删除该表的 TOS 路径时不会删除该表。
此处是元数据发现功能的主入口,展示所有元数据发现任务,包含任务名称、最近运行状态、目标 Schema 等信息。
可以点击执行历史,展示具体元数据发现 每一次执行 的详情。