概览--流式计算 Flink版-火山引擎

文档中心

流式计算 Flink版

数据目录（Beta）

概览

数据目录（Catalog）功能基于 Apache Flink Catalog 能力构建，旨在统一管理元数据，并简化与外部元数据系统的集成。该功能允许用户在不重复定义表结构的情况下，跨会话管理和访问异构数据源，显著提升开发效率。

数据目录的核心价值

Flink Catalog 作为 Apache Flink 的元数据管理中心，主要提供以下核心能力：

通过数据目录，用户可以在 Flink 作业中统一管理 Hive、LAS、MySQL 等异构数据源的元数据，简化作业配置，并实现跨会话的元数据持久化，适合长期运行的作业或需要共享元数据的场景。

火山引擎流式计算 Flink 版当前支持多种类型的 Catalog，以满足不同场景的需求：

Catalog 类型	适用场景
HiveCatalog	生产环境，集成 Hive 生态，适用于传统大数据场景。
LASCatalog	配合 LAS Catalog 统一管理数据湖元数据，适用于数据湖场景。
PaimonCatalog	支持基于文件系统和 LAS 统一元数据的实时数据湖场景。
IcebergCatalog	支持基于 LAS 统一元数据的 Iceberg 开放数据湖。

数据目录功能通过标准化的配置引导，提供了开箱即用的外部数据目录对接能力。用户无需深度了解底层细节，即可通过简单配置完成与 EMR-Hive 或 LAS-Hive 的集成。

通过 Catalog，用户可以清晰查看外部数据系统的层级关系（Catalog → Database → Table），并直观展示表的结构信息（如字段、数据类型、分区等）。
Flink 的数据管理体系由 Catalog、Database 和 Table 三个核心概念构成2：

注意：当前暂时仅 LAS-Hive 支持可视化展示外部数据目录库、表的层级和结构。EMR-Hive 暂不支持。

用户无需在 Flink SQL 中重复编写 CREATE TABLE DDL 语句，可直接通过 catalog.database.table 的格式引用外部表。Flink 会自动从注册的 Catalog 中获取元数据（如 Schema、连接信息、分区等），简化查询和作业开发

流式计算 Flink 版的数据目录功能通过 Flink Catalog 标准化接口，实现了与外部元数据系统（特别是 EMR-Hive 和 LAS-Hive）的无缝对接。其主要价值在于：

通过这些功能，用户能够更专注于业务逻辑开发，而非底层元数据管理细节，从而高效构建实时数据处理平台。

最近更新时间：2025.12.29 11:42:32

这个页面对您有帮助吗？

有用

无用