数据目录(Catalog)功能基于 Apache Flink Catalog 能力构建,旨在统一管理元数据,并简化与外部元数据系统的集成。该功能允许用户在不重复定义表结构的情况下,跨会话管理和访问异构数据源,显著提升开发效率。
Flink Catalog 作为 Apache Flink 的元数据管理中心,主要提供以下核心能力:
通过数据目录,用户可以在 Flink 作业中统一管理 Hive、LAS、MySQL 等异构数据源的元数据,简化作业配置,并实现跨会话的元数据持久化,适合长期运行的作业或需要共享元数据的场景。
火山引擎流式计算 Flink 版当前支持多种类型的 Catalog,以满足不同场景的需求:
Catalog 类型 | SQL 类型 | 存储方式 | 适用场景 |
|---|---|---|---|
HiveCatalog | hive | Hive Metastore | 生产环境,集成 Hive 生态,适用于传统大数据场景。 |
LASCatalog | hive | LAS 统一元数据服务 | 配合 LAS Catalog 统一管理数据湖元数据,适用于数据湖场景。 |
数据目录功能通过标准化的配置引导,提供了开箱即用的外部数据目录对接能力。用户无需深度了解底层细节,即可通过简单配置完成与 EMR-Hive 或 LAS-Hive 的集成。
通过 Catalog,用户可以清晰查看外部数据系统的层级关系(Catalog → Database → Table),并直观展示表的结构信息(如字段、数据类型、分区等)。
Flink 的数据管理体系由 Catalog、Database 和 Table 三个核心概念构成2:
注意:当前暂时仅 LAS-Hive 支持可视化展示外部数据目录库、表的层级和结构。EMR-Hive 暂不支持。
用户无需在 Flink SQL 中重复编写 CREATE TABLE DDL 语句,可直接通过 catalog.database.table 的格式引用外部表。Flink 会自动从注册的 Catalog 中获取元数据(如 Schema、连接信息、分区等),简化查询和作业开发
流式计算 Flink 版的数据目录功能通过 Flink Catalog 标准化接口,实现了与外部元数据系统(特别是 EMR-Hive 和 LAS-Hive)的无缝对接。其主要价值在于:
通过这些功能,用户能够更专注于业务逻辑开发,而非底层元数据管理细节,从而高效构建实时数据处理平台。