You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件

大数据研发治理套件

复制全文
下载 pdf
DataLeap 入门指南
元数据采集
复制全文
下载 pdf
元数据采集

成功创建 DataLeap 项目后,在进行数据开发和数据集成之前,您需要进行相应计算集群引擎的元数据采集操作。DataLeap 支持接入的元数据类型包括 LAS、EMRHive、ByteHouseCDW、EMR Doris、LAS Catalog 等。
元数据采集支持使用统一的模板接入各种数据源,通过采集和同步操作,完成各类集群元数据的接入工作。下面将为您介绍如何采集和同步元数据。

1 约束限制

  • 租户主账号具备所有采集器的全部操作权限。
  • 租户子账号仅对自己创建的采集器具备全部操作权限,对他人创建的采集器仅具备查看、执行同步的操作权限。

2 新建采集器

  1. 登录 DataLeap 控制台

  2. 选择概览 > 数据地图 > 元数据采集,进入元数据采集页面。

  3. 单击左侧导航栏中需要采集的元数据类型,进入相应的数据类型采集页面。
    Image

  4. 单击右上角新建采集器按钮,弹出新建采集器窗口。
    Image

  5. 根据页面提示操作,依次设置采集信息:
    其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

    参数

    说明

    *采集类型

    支持 BMQ、RocketMQ、EMR Hive、ByteHouse CDW、ByteHouse CE、EMR Doris、Elasticsearch、EMR StarRocks、EMR Serverless StarRocks、LAS Catalog 等多种类型选项。

    采集对象

    *采集器名称

    数据采集器的名称,自行设定。
    仅可由中文、英文字母、数字或下划线组成,长度不超过100个字符。

    采集器描述

    对采集器的描述信息,长度不超过500个字符。

    采集类型

    显示当前选择的类型,不可编辑。

    *采集方式

    仅支持直接连接

    *资源池ID

    连接数据源的资源池信息,下拉可选已在相应平台创建的资源池ID。相关创建说明请参见 BMQ 的创建资源池和 RocketMQ 的创建实例
    采集类型选择 BMQRocketMQ 时,需设置该参数。

    *集群

    连接数据源的集群信息。

    • 采集类型选择 EMR HiveEMR DorisEMR StarRocksEMR Serverless StarRocksByteHouse CE 时,下拉可选运行中的当前租户下各项目已绑定的相应集群。一个集群只可创建一个采集器。

      说明

      • 已创建过采集器或未正常运行的集群将灰显展示在下拉列表中,不可选择。
      • EMR Hive、EMR StarRocks 支持快捷模式和安全模式两类集群选项,集群访问模式的相关配置说明请参见绑定 EMR 集群
        • 快捷模式:使用超级账号实现EMR资源鉴权和使用。
        • 安全模式:使用IAM账号绑定的EMR LDAP账号实现EMR资源鉴权和使用。
    • 采集类型选择 ByteHouse CDWLAS Catalog 时,为默认集群,不可编辑。

    *实例ID

    连接数据源的实例信息,下拉可选已在火山引擎云搜索服务中创建的 ES 实例名称。
    ES 实例创建方式说明可参见创建 ESCloud 实例
    采集类型选择Elasticsearch,且采集方式选中直接连接后,该参数才显示。

    *用户名

    有权限访问 ES 实例中索引数据库的用户名信息,手动输入。
    采集类型选择Elasticsearch,且采集方式选中直接连接后,该参数才显示。

    *密码

    用户名对应的密码信息,手动输入。
    采集类型选择Elasticsearch,且采集方式选中直接连接后,该参数才显示。

    授权管理

    授权检查

    勾选授权信息,授权数据地图使用所选集群的元数据。
    授权信息为“我同意Dataleap数据地图产品获取所选集群的元数据,并供当前租户下的账号查询使用”。
    采集类型选择 EMR Hive 时,还需做以下检查工作:

    1. 单击 EMR 集群链接处显示的集群名称,跳转到该集群的 EMR 管理页面,开启元数据采集并重启。
    2. 返回新建采集器窗口,单击授权检查按钮,确认元数据采集工作正常。

    采集配置

    Topic 过滤规则

    通过输入正则表达式,设置Topic过滤规则。
    采集类型选择 BMQRocketMQ 时,可设置该参数。

    表过滤规则

    通过输入正则表达式,设置数据表过滤规则。
    设置规则后,采集元数据时将不会采集符合过滤规则的目标数据。

    库过滤规则

    通过输入正则表达式,设置数据库过滤规则。设置规则后,采集元数据时将不会采集符合过滤规则的目标数据。
    采集类型选择 ByteHouse CDW 时,可设置该参数。

    调度配置

    *执行方式

    同步元数据的方式。

    • EMR Doris、Elasticsearch、EMR StarRocks、EMR Serverless StarRocks、LAS Catalog 支持调度执行和手动执行两个选项。
      • 调度执行:根据设置的执行频率和时间,自动执行同步操作。
      • 手动执行:人工手动执行同步操作。
    • EMR Hive、ByteHouse CDW 仅支持实时更新,即采集器会自动实时更新增量元数据。

      说明

      采集器创建后,需先手动执行一次全量同步历史元数据,相关操作说明请参见下面的手工同步元数据

    *调度频率

    调度执行元数据同步的频率,支持每天执行和每小时执行两个选项。
    执行方式选择调度执行时,需配置该参数。

    *执行时间

    调度执行元数据同步的时间。
    执行方式选择调度执行时,需配置该参数。

    说明

    ByteHouse CDW 仅可添加一个采集器。

  6. 并依次单击下一步按钮,设置完成后,单击完成按钮,完成采集器创建。

3 手工同步元数据

采集器创建完成后,您可以手动执行一次元数据采集操作,将历史数据采集到数据地图中。

  1. 在元数据采集列表界面,单击元数据类型,进入相应的数据类型采集页面。
    Image
  2. 单击列表中要同步信息操作列的执行按钮,弹出执行窗口。
    Image
  3. 设置执行范围后,单击确定按钮,可以将元数据手工同步至 DataLeap。
    • 全量:把目标源中的所有元信息同步更新一次。
    • 指定库表:同步指定库表的元数据。选择该选项后,需输入要同步的数据表名称。

说明

  • EMR Hive、ByteHouse CDW 采集器创建后,需手动执行一次全量采集同步历史元数据。首次获取成功后,采集器会自动实时更新元数据。
  • 若当前已有任务在执行中,则该操作按钮灰显不可用。
  • 若出现同步失败的情况,可通过执行功能,将获取失败的元数据信息手工同步到数据地图。

采集器更多操作,如查看执行历史、编辑、删除、停用/启用采集器,详见元数据采集

4 后续操作

元数据采集完成后,您便可进行后续的数据采集与加工操作。详见数据采集

最近更新时间:2025.01.17 19:37:58
这个页面对您有帮助吗?
有用
有用
无用
无用