You need to enable JavaScript to run this app.
导航

元数据采集

最近更新时间2024.03.27 15:19:21

首次发布时间2021.10.13 19:43:33

在使用数据地图的任何功能前,都需要接入元数据。DataLeap 支持接入的元数据类型包括 LAS、EMR Hive、ByteHouse CDW、EMR Doris 等。
本功能采用统一的模板接入各数据源,通过采集与同步操作,完成各类型集群元数据的接入工作。下面将为您介绍如何采集与同步元数据。

1 约束限制

租户主账号具备所有采集器的全部操作权限。租户子账号仅对自己创建的采集器具备全部操作权限,对他人创建的采集器仅具备查看、执行同步的操作权限。

2 新建采集器

  1. 登录 DataLeap 控制台。

  2. 选择概览 > 数据地图 > 元数据采集,进入元数据采集页面。

  3. 单击左侧导航栏的元数据类型,进入相应的数据类型采集页面。

  4. 单击新建采集器按钮,弹出新建采集器窗口。
    图片

  5. 根据页面提示操作,设置采集信息并依次单击下一步按钮,设置完成后,单击完成按钮,完成采集器创建。
    新建采集器相关参数说明如下表所示。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

    参数

    说明

    *采集类型

    支持 BMQ、RocketMQ、EMR Hive、ByteHouse CDW、ByteHouse CE、EMR Doris、Elasticsearch、EMR StarRocks、EMR Serverless StarRocks 等多种类型选项。

    说明

    开通 DataLeap 服务后,数据地图会自动创建 LAS 采集器,无需手动创建。

    采集对象

    *采集器名称

    数据采集器的名称,自行设定。
    仅可由中文、英文字母、数字或下划线组成,长度不超过100个字符。

    采集器描述

    对采集器的描述信息,长度不超过500个字符。

    采集类型

    显示当前选择的类型,不可编辑。

    *采集方式

    仅支持直接连接

    *资源池ID

    连接数据源的资源池信息,下拉可选已在相应平台创建的资源池ID。相关创建说明请参见 BMQ 的创建资源池和 RocketMQ 的创建实例
    采集类型选择 BMQRocketMQ 时,需设置该参数。

    *集群

    连接数据源的集群信息。

    • 采集类型选择 EMR HiveEMR DorisEMR StarRocksEMR Serverless StarRocksByteHouse CE 时,下拉可选运行中的当前租户下各项目已绑定的相应集群。一个集群只可创建一个采集器。

      说明

      • 已创建过采集器或未正常运行的集群将灰显展示在下拉列表中,不可选择。
      • EMR Hive、EMR StarRocks 支持快捷模式和安全模式两类集群选项,集群访问模式的相关配置说明请参见绑定 EMR 集群
        • 快捷模式:使用超级账号实现EMR资源鉴权和使用。
        • 安全模式:使用IAM账号绑定的EMR LDAP账号实现EMR资源鉴权和使用。
    • 采集类型选择 ByteHouse CDW 时,为默认集群,不可编辑。

    *实例ID

    连接数据源的实例信息,下拉可选已在火山引擎云搜索服务中创建的 ES 实例名称。
    ES 实例创建方式说明可参见创建 ESCloud 实例
    采集类型选择Elasticsearch,且采集方式选中直接连接后,该参数才显示。

    *用户名

    有权限访问 ES 实例中索引数据库的用户名信息,手动输入。
    采集类型选择Elasticsearch,且采集方式选中直接连接后,该参数才显示。

    *密码

    用户名对应的密码信息,手动输入。
    采集类型选择Elasticsearch,且采集方式选中直接连接后,该参数才显示。

    授权管理

    授权检查

    勾选授权信息,授权数据地图使用所选集群的元数据。
    授权信息为“我同意Dataleap数据地图产品获取所选集群的元数据,并供当前租户下的账号查询使用”。
    采集类型选择 EMR Hive 时,还需做以下检查工作:

    1. 单击 EMR集群链接处显示的集群名称,跳转到该集群的 EMR 管理页面,开启元数据采集并重启。
    2. 返回新建采集器窗口,单击授权检查按钮,确认元数据采集工作正常。

    采集配置

    Topic过滤规则

    通过输入正则表达式,设置Topic过滤规则。
    采集类型选择 BMQRocketMQ 时,可设置该参数。

    表过滤规则

    通过输入正则表达式,设置数据表过滤规则。
    设置规则后,采集元数据时将不会采集符合过滤规则的目标数据。

    库过滤规则

    通过输入正则表达式,设置数据库过滤规则。设置规则后,采集元数据时将不会采集符合过滤规则的目标数据。
    采集类型选择 ByteHouse CDW 时,可设置该参数。

    调度配置

    *执行方式

    同步元数据的方式。

    • EMR Doris、Elasticsearch、EMR StarRocks、EMR Serverless StarRocks 支持调度执行和手动执行两个选项。
      • 调度执行:根据设置的执行频率和时间,自动执行同步操作。
      • 手动执行:人工手动执行同步操作。
    • EMR Hive、ByteHouse CDW 仅支持实时更新,即采集器会自动实时更新增量元数据。

      说明

      采集器创建后,需先手动执行一次全量同步历史元数据,相关操作说明请参见下面的手工同步元数据

    *调度频率

    调度执行元数据同步的频率,支持每天执行和每小时执行两个选项。
    执行方式选择调度执行时,需配置该参数。

    *执行时间

    调度执行元数据同步的时间。
    执行方式选择调度执行时,需配置该参数。

说明

ByteHouse CDW 仅可添加一个采集器。

3 手工同步元数据

  1. 登录 DataLeap 控制台。
  2. 选择概览 > 数据地图 > 元数据采集,进入元数据采集页面。
  3. 单击元数据类型,进入相应的数据类型采集页面。
    图片
  4. 单击列表中要同步信息操作列的执行按钮,弹出执行窗口。
    图片
  5. 设置执行范围后,单击确定按钮,可以将元数据手工同步至 DataLeap。
    • 全量:把目标源中的所有元信息同步更新一次。
    • 指定库表:同步指定库表的元数据。选择该选项后,需输入要同步的数据表名称。

说明

  • EMR Hive、LAS 或 ByteHouse CDW 采集器创建后,需手动执行一次全量采集同步历史元数据。首次获取成功后,采集器会自动实时更新元数据。
  • 若当前已有任务在执行中,则该操作按钮灰显不可用。
  • 若出现同步失败的情况,可通过执行功能,将获取失败的元数据信息手工同步到数据地图。

4 查看执行历史

  1. 登录DataLeap控制台。
  2. 选择概览 > 数据地图 > 元数据采集,进入元数据采集页面。
  3. 单击元数据类型,进入相应的数据类型采集页面。
  4. 单击列表中要查看信息操作列的执行历史按钮,在弹出的侧拉窗口中,可以查看同步元数据的所有执行历史记录,并可执行以下操作:
    • 设置搜索信息,查看不同时间段内不同执行状态下符合条件的记录。
    • 单击某条记录操作列的执行日志按钮,可以查看该信息的执行日志。

5 搜索采集器

  1. 登录DataLeap控制台。
  2. 选择概览 > 数据地图 > 元数据采集,进入元数据采集页面。
  3. 单击元数据类型,进入相应的数据类型采集页面。
  4. 设置搜索信息,可查看符合条件的采集器列表。

6 编辑采集器

  1. 登录DataLeap控制台。
  2. 选择概览 > 数据地图 > 元数据采集,进入元数据采集页面。
  3. 单击元数据类型,进入相应的数据类型采集页面。
  4. 单击列表中要编辑信息操作列的编辑按钮,在弹出的采集器详情侧拉窗口中,可以修改该采集器的信息。

说明

若您没有操作权限或当前已有任务在执行中,则该操作按钮灰显不可用。

7 删除采集器

  1. 登录DataLeap控制台。
  2. 选择概览 > 数据地图 > 元数据采集,进入元数据采集页面。
  3. 单击元数据类型,进入相应的数据类型采集页面。
  4. 单击列表中要删除信息操作列的删除按钮,在弹出的确认删除窗口中,可执行以下删除操作:
    • 单击确定按钮,可以删除采集器并清空已采集元数据。删除后,对应历史元数据将会被同时清空,不可恢复。
    • 勾选仅删除采集器,单击确定按钮,则保留已采集元数据,仅删除采集器。

说明

  • 若您没有操作权限或当前已有任务在执行中,则该操作按钮灰显不可用。
  • LAS 采集器不可删除。

8 停用/启用采集器

  1. 登录DataLeap控制台。
  2. 选择概览 > 数据地图 > 元数据采集,进入元数据采集页面。
  3. 单击元数据类型,进入相应的数据类型采集页面。
  4. 单击列表中要停用/启用信息操作列的停用/启用复合按钮,可以停用/启用该采集器。

说明

创建采集器后,默认处于启用状态。启用后,将按原定调度频率执行采集;停用后,将不可再执行采集操作。