You need to enable JavaScript to run this app.
导航
概览
最近更新时间:2025.09.04 11:30:15首次发布时间:2025.09.04 11:30:15
复制全文
我的收藏
有用
有用
无用
无用

数据目录(Catalog)功能基于 Apache Flink Catalog 能力构建,旨在统一管理元数据,并简化与外部元数据系统的集成。该功能允许用户在不重复定义表结构的情况下,跨会话管理和访问异构数据源,显著提升开发效率。

数据目录的核心价值

Flink Catalog 作为 Apache Flink 的元数据管理中心,主要提供以下核心能力:

  • 元数据持久化:将表结构(Schema)、数据源位置、分区信息等元数据持久化存储,避免每次作业启动时重复声明。
  • 统一元数据接口:提供一致的 API 和 SQL 接口访问元数据,支持跨会话(Session)共享元数据。
  • 多 Catalog 支持:允许同时管理多个 Catalog(如 Hive Catalog、JDBC Catalog),实现不同数据源的统一管理。
  • 与外部系统集成:支持与 Hive Metastore、关系型数据库(如 MySQL)等外部元数据存储集成。

通过数据目录,用户可以在 Flink 作业中统一管理 Hive、LAS、MySQL 等异构数据源的元数据,简化作业配置,并实现跨会话的元数据持久化,适合长期运行的作业或需要共享元数据的场景。

支持的数据目录类型

火山引擎流式计算 Flink 版当前支持多种类型的 Catalog,以满足不同场景的需求:

Catalog 类型

SQL 类型

存储方式

适用场景

HiveCatalog

hive

Hive Metastore

生产环境,集成 Hive 生态,适用于传统大数据场景。

LASCatalog

hive

LAS 统一元数据服务

配合 LAS Catalog 统一管理数据湖元数据,适用于数据湖场景。

1. 产品化对接外部数据目录的能力

数据目录功能通过标准化的配置引导,提供了开箱即用的外部数据目录对接能力。用户无需深度了解底层细节,即可通过简单配置完成与 EMR-Hive 或 LAS-Hive 的集成。
Image

2. 支持展示外部数据目录库、表的层级和结构

通过 Catalog,用户可以清晰查看外部数据系统的层级关系(Catalog → Database → Table),并直观展示表的结构信息(如字段、数据类型、分区等)。
Flink 的数据管理体系由 Catalog、Database 和 Table 三个核心概念构成2:

  • Catalog:提供元数据服务,管理多个 Database。
  • Database:作为逻辑容器,对相关联的 Tables 和 Views 进行分组。
  • Table:表示结构化的数据集合。

Image

注意:当前暂时仅 LAS-Hive 支持可视化展示外部数据目录库、表的层级和结构。EMR-Hive 暂不支持。

用户无需在 Flink SQL 中重复编写 CREATE TABLE DDL 语句,可直接通过 catalog.database.table 的格式引用外部表。Flink 会自动从注册的 Catalog 中获取元数据(如 Schema、连接信息、分区等),简化查询和作业开发
Image

总结

流式计算 Flink 版的数据目录功能通过 Flink Catalog 标准化接口,实现了与外部元数据系统(特别是 EMR-Hive 和 LAS-Hive)的无缝对接。其主要价值在于:

  • 简化集成:提供产品化配置能力,降低用户对接外部元数据系统的复杂度。
  • 统一视图:可视化展示外部数据的层级和结构,便于管理和探索。
  • 提升开发效率:支持在 Flink SQL 中直接引用外部表,避免重复定义元数据,支持跨 Catalog 的数据访问和计算,为流批一体作业提供坚实基础。

通过这些功能,用户能够更专注于业务逻辑开发,而非底层元数据管理细节,从而高效构建实时数据处理平台。