You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件(私有化)

大数据研发治理套件(私有化)

复制全文
数据地图
元数据采集
复制全文
元数据采集

数据地图为您提供元数据采集功能。通过该功能,您可以将不同系统中的元数据进行统一汇总管理,并可以在数据地图查看从各数据源汇集而来的元数据信息。目前 DataLeap 已支持接入 LAS、MySQL、ByteHouse CE、TOS、LasFS 等多种类型的元数据。
开通TOS或LasFS服务后,数据地图会自动创建采集器,采集并同步相应的元数据,无需手动操作,其他类型的数据则需要手动采集。本功能采用统一的模板接入各数据源,通过采集操作,完成各类型集群元数据的接入工作。下面将为您介绍如何采集与同步元数据。

约束限制

  • 平台管理员具备所有采集器的全部操作权限。普通用户仅对自己创建的采集器具备全部操作权限,对他人创建的采集器仅具备查看、执行同步的操作权限。
  • 一个集群只可创建一个采集器。

前提条件

  1. 已开通相应引擎。
  2. 已在控制台注册对应类型的集群。注册集群的相关说明请参见集群管理

新建采集器

  1. 登录DataLeap控制台。

  2. 选择概览 > 数据地图 > 元数据采集,进入元数据采集页面。

  3. 单击左侧导航栏的元数据类型,进入相应的数据类型采集页面。

  4. 单击新建采集器按钮,弹出新建采集器窗口。
    Image

  5. 根据页面提示操作,设置采集信息并依次单击下一步按钮,设置完成后,单击完成按钮,完成采集器创建。
    新建采集器相关参数说明如下表所示。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

    参数

    说明

    *采集类型

    支持 MiniBase Hive、Doris、LAS、MySQL、ByteHouse CE、EMR StarRocks、Azure Blob、GaussDB、GBase、OceanBase(Mysql)、OceanBase(Oracle)、Oracle、逻辑数据实体、Greenplum、Apache Hive、Databricks 等多种类型选项。

    采集对象

    *采集器名称

    数据采集器的名称,自行设定,仅支持由中文、英文字母、数字或下划线组成。

    采集器描述

    对采集器的描述信息。

    采集类型

    显示当前选择的类型,不可编辑。

    *采集方式

    采集元数据的方式。

    • 采集类型选择MySQLGBaseOracleOceanBase(Mysql)OceanBase(Oracle) 时**,仅支持自定义模板**,即根据自动生成的采集模板填写。
    • 采集类型选择MiniBase HiveDorisLASGreenplumGaussDBApache HiveByteHouse CE、EMR StarRocksDatabricksAzure BlobSqlServerGBase8a 时,仅支持直接连接
    • 采集类型选择逻辑数据实体时,仅支持上传文件

    *集群

    连接数据源的集群信息。
    采集类型选择MiniBase HiveDorisLASGreenplumGaussDBApache Hive、EMR StarRocksDatabricksByteHouse CESqlServerGBase8a 时,下拉可选已注册的相应集群。

    说明

    • 一个集群只可创建一个采集器。已创建过采集器的集群将灰显展示在下拉列表中,不可选择。
    • 支持快捷模式和安全模式两类集群选项。
      • 快捷模式:使用集群服务账号访问集群。
      • 安全模式:使用任务责任人账号映射的集群账号访问集群。
    • GaussDB采集器支持“JDBC连接串追加参数信息”,相关配置说明可参见DWS集群管理。

    源连接信息

    连接数据源的信息,自动填充示例信息,根据实际情况修改相应的参数值。示例如下:

    host=127.0.0.1
    port=3306
    database=database
    schema=schema1
    user=root
    password=1234
    

    说明

    • 采集类型选择MySQLGBaseOceanBase(Mysql)OceanBase(Oracle)Oracle 时,需设置该参数。
    • 采集器与源连接信息是一对一的关系。
    • Oracle 采集器支持“Oracle SID方式”采集,即配置时可多配置一个字段 connectionType,如 connectionType=SERVICE_NAME。

    *账户

    存储账户(storage)的名称,用户从Azure平台获取后填写(示例:dataleapdatalakegen3test),不可与已有的采集器对应的账户重复。

    说明

    采集类型选择Azure Blob时,需设置该参数。

    *SAS TOKEN

    即指访问密钥。共享访问签名 (SAS) 提供对存储账户中资源的安全委托访问。通过SAS Token对账户SAS授权并获取对应账户下的Blob元信息访问权限。
    SAS TOKEN由用户从Azure平台获取后填写,示例如下:
    sv=2021-10-04&ss=btqf&srt=sco&st=2023-03-28T05%3A57%3A14Z&se=2023-04-29T05%3A57%3A00Z&sp=rl&sig=xxxxx

    说明

    采集类型选择Azure Blob时,需设置该参数。

    *文件

    系统将从上传文件中采集对应数据,生成自定义数据。
    请下载逻辑数据实体模版,并按照模板中的示例进行内容填写。您也可在维护资产中通过登记逻辑实体资产完成采集。

    说明

    • 采集类型选择逻辑数据实体时,需设置该参数。
    • 支持的文件类型:.xlsx。
    • 默认第一行为表头,系统将从第二行开始,进行内容解析。
    • 若上传文件中,字段列内容为空,系统将认为该列不存在,继续进行内容解析。

    授权管理

    *授权检查

    勾选授权信息,授权数据地图使用所填存储账户中的元数据。
    授权信息为“我同意Dataleap数据地图产品获取所选集群的元数据,并供当前租户下的账号查询使用”。

    采集配置

    表过滤规则

    通过输入正则表达式,设置数据表过滤规则。
    设置规则后,采集元数据时将只采集符合过滤规则的目标数据。

    说明

    采集类型选择MySQLGaussDBGBaseOceanBase(Mysql)OceanBase(Oracle)EMR StarRocksOracleSqlServer时,可设置该参数。

    Schema过滤规则

    通过输入正则表达式,设置 Schema 过滤规则。
    设置规则后,采集元数据时将只采集符合过滤规则的目标数据。

    注意

    • 采集类型选择 GaussDBOracleSqlServer 时,可设置该参数。
    • 若您只想保留某几个 schema 的元数据,则应先删除相应的采集器并清空已采集的元数据,再新建配置过滤规则绑定所需 schema 的采集器。

    库过滤规则

    通过输入正则表达式,设置数据库过滤规则。
    设置规则后,采集元数据时将只采集符合过滤规则的目标数据。

    说明

    采集类型选择 MySQL 时,可设置该参数。

    容器过滤规则

    通过输入正则表达式,设置存储账户中容器的过滤规则。
    设置规则后,采集元数据时将只采集符合过滤规则的目标数据。

    说明

    采集类型选择Azure Blob时,可设置该参数。

    调度配置

    *执行方式

    同步元数据的方式。

    • 除MiniBase Hive、LAS、Apache Hive外的其他类型支持调度执行手动执行两个选项。
      • 调度执行:根据设置的执行频率和时间,自动执行同步操作。
      • 手动执行:人工手动执行同步操作。
    • MiniBase Hive、LAS、Apache Hive仅支持实时更新,即采集器会自动实时更新增量元数据。

    说明

    • 采集类型选择逻辑数据实体时,仅支持手动执行调度。
    • 执行方式实时更新时,采集器创建后,需先手动执行一次全量同步历史元数据,相关操作说明请参见手动采集元数据

    *调度频率

    调度执行元数据同步的频率,支持每天执行和每小时执行两个选项。

    说明

    • 执行方式选择调度执行时,需配置该参数。
    • 当采集数据量过大时,建议选择按天执行。

    *执行时间

    调度执行元数据同步的时间。

    说明

    执行方式选择调度执行时,需配置该参数。

手动采集元数据

  1. 登录DataLeap控制台。
  2. 选择概览 > 数据地图 > 元数据采集,进入元数据采集页面。
  3. 单击左侧导航栏的元数据类型,进入相应的数据类型采集页面。
  4. 单击列表中要同步信息操作列的执行按钮,弹出执行窗口。
    Image
  5. 设置执行范围后,单击确定按钮,可以将元数据手动采集同步至DataLeap。
    • 全量:把目标源中的所有元信息同步更新一次。
    • 指定库表:同步指定库表的元数据。选择该选项后,需输入要同步的数据表名称。

说明

  • MiniBase Hive、LAS或Apache Hive采集器创建后,需手动执行一次全量采集同步历史元数据。首次获取成功后,采集器会自动实时更新元数据。
  • 若当前已有任务在执行中,则该操作按钮不可用。
  • 若出现自动同步失败的情况,,可进行以下处理:
    • 查看执行日志,查找并解决问题。
    • 通过执行功能,将获取失败的元数据信息手动同步到数据地图。
  • 逻辑数据实体仅支持全量同步。同步后,可以在资产管理 > 上下架管理资产圈选资产维护页面查看批量导入的数据。

查看执行历史

  1. 登录DataLeap控制台。
  2. 选择概览 > 数据地图 > 元数据采集,进入元数据采集页面。
  3. 单击左侧导航栏的元数据类型,进入相应的数据类型采集页面。
  4. 单击列表中要查看信息操作列的执行历史按钮,在弹出的侧拉窗口中,可以查看同步元数据的所有执行历史记录,并可执行以下操作:
    • 设置搜索信息,查看不同时间段内不同执行状态下符合条件的记录。
    • 单击某条记录操作列的执行日志按钮,可以查看该信息的执行日志。

管理采集器

  1. 登录DataLeap控制台。
  2. 选择概览 > 数据地图 > 元数据采集,进入元数据采集页面。
  3. 单击元数据类型,进入相应的数据类型采集页面。
  4. 可以对已创建的采集器执行以下管理操作:
    • 搜索采集器
      设置搜索信息,可查看符合条件的采集器列表。
    • 查看采集器详情
      单击列表中要查看信息的采集器名称,可以查看该采集器的详情信息。
    • 编辑采集器
      单击列表中要编辑信息操作列的编辑按钮,在弹出的采集器详情侧拉窗口中,可以修改该采集器的信息。
    • 删除采集器
      单击列表中要删除信息操作列的删除按钮,在弹出的确认删除窗口中,可执行以下删除操作:
      • 单击确定按钮,可以删除采集器并清空已采集元数据。删除后,对应历史元数据将会被同时清空,不可恢复。
      • 勾选仅删除采集器,单击确定按钮,则保留已采集元数据,仅删除采集器。
    • 停用/启用采集器
      单击列表中要停用/启用信息操作列的停用/启用复合按钮,可以停用/启用该采集器。

说明

  • 若您没有操作权限或当前已有任务在执行中,则编辑、删除按钮灰显不可用。
  • 创建采集器后,默认处于启用状态。启用后,将按原定调度频率执行采集;停用后,将不可再执行采集操作。

后续操作

元数据采集成功后,您可以在数据地图中进行数据检索、查看数据血缘关系、库表管理等其他操作;也可前往其他模块进行与采集数据相关的操作,例如在数据安全中进行相应数据的权限管理、数据保护等操作。

最近更新时间:2025.10.11 15:28:48
这个页面对您有帮助吗?
有用
有用
无用
无用