某业务团队希望对组内产出的所有数据资产进行结构化的整理,围绕具体支撑的业务、解决的问题、实现的功能等分门别类的进行组织,即可使用资产目录和资产专辑形成本业务的资产门户。
资产门户的建立,一方面可以有效将散落在各处的数据,统一组织管理起来;另一方面,也方便数据消费用户体系化的进行数据查阅,提升数据检索效率。
资产目录的整体使用流程如下:
在使用数据地图的数据资产目录前,您需要接入对应数据库元数据。DataLeap 支持接入的元数据类型包括LAS、MySQL、ByteHouse CE、TOS、LasFS等。采用统一的模板接入各数据源,通过采集与同步操作,完成元数据的接入工作。
开通LAS、ByteHouse CE、TOS或LasFS服务后,数据地图会自动创建采集器,采集并同步相应的元数据,无需手动操作。其他类型的数据则需要手动采集,下面将为您介绍如何采集与同步元数据。
登录DataLeap控制台。
选择概览 > 数据地图 > 元数据采集,进入元数据采集页面。
单击左侧导航栏的元数据类型,进入相应的数据类型采集页面。
单击新建采集器按钮,弹出新建采集器窗口。
根据页面提示操作,设置采集信息并依次单击下一步按钮。
新建采集器相关参数说明如下表所示。
参数 | 说明 |
|---|---|
*采集类型 | 支持MiniBase Hive、Doris、LAS、MySQL、ByteHouse CE、EMR StarRocks、Azure Blob、GaussDB、GBase、OceanBase(Mysql)、OceanBase(Oracle)、Oracle、逻辑数据实体、Greenplum、Apache Hive、Databricks等多种类型选项。 |
采集对象 | |
*采集器名称 | 数据采集器的名称,自行设定,仅支持由中文、英文字母、数字或下划线组成。 |
采集器描述 | 对采集器的描述信息。 |
采集类型 | 显示当前选择的类型,不可编辑。 |
*采集方式 | 采集元数据的方式。
|
*集群 | 连接数据源的集群信息。 说明
|
源连接信息 | 连接数据源的信息,自动填充示例信息,根据实际情况修改相应的参数值。示例如下:
说明
|
*账户 | 存储账户(storage)的名称,用户从Azure平台获取后填写(示例:dataleapdatalakegen3test),不可与已有的采集器对应的账户重复。 说明 当采集类型选择Azure Blob时,需设置该参数。 |
*SAS TOKEN | 即指访问密钥。共享访问签名 (SAS) 提供对存储账户中资源的安全委托访问。通过SAS Token对账户SAS授权并获取对应账户下的Blob元信息访问权限。 说明 当采集类型选择Azure Blob时,需设置该参数。 |
*文件 | 系统将从上传文件中采集对应数据,生成自定义数据。 说明
|
授权管理 | |
*授权检查 | 勾选授权信息,授权数据地图使用所填存储账户中的元数据。 |
采集配置 | |
表过滤规则 | 通过输入正则表达式,设置数据表过滤规则。 说明 当采集类型选择MySQL、GaussDB、GBase、OceanBase(Mysql)、OceanBase(Oracle)、EMR StarRocks、Oracle或SqlServer时,可设置该参数。 |
Schema过滤规则 | 通过输入正则表达式,设置 Schema 过滤规则。 注意
|
库过滤规则 | 通过输入正则表达式,设置数据库过滤规则。 说明 当采集类型选择 MySQL 时,可设置该参数。 |
容器过滤规则 | 通过输入正则表达式,设置存储账户中容器的过滤规则。 说明 当采集类型选择Azure Blob时,可设置该参数。 |
调度配置 | |
*执行方式 | 同步元数据的方式。
说明
|
*调度频率 | 调度执行元数据同步的频率,支持每天执行和每小时执行两个选项。 说明
|
*执行时间 | 调度执行元数据同步的时间。 说明 当执行方式选择调度执行时,需配置该参数。 |
设置完成后,单击完成按钮,完成采集器创建。
首次创建完元数据采集器后,您可通过手动采集元数据方式,对数据进行第一次采集动作,将数据信息全量或指定库表的形式采集到数据地图中。
说明
全量元数据采集执行完成后,您便可在数据检索界面,单击具体数据资产类型,您便可进入看到元数据采集成功的库表信息。
元数据采集完成,数据检索信息校验无误后,便可进行后续的业务线相关配置操作。您可以创建业务线,并在业务线下进行分类管理、资产管理等配置操作。
说明
业务线是有同一属性的业务集合,通常对应于公司中的职能部门。在资产门户的构建场景中,即资产目录、资产专辑下的相关数据资产和文档的生产、管理单位。
选择数据地图 > 管理中心 > 业务线管理,进入业务线管理页面。
单击新建业务线按钮,在弹出的窗口中,设置业务线信息后,单击确定按钮完成新建。
参数 | 说明 |
|---|---|
*业务线名称 | 业务线的名称,自行设定,一旦设定不可更改。 |
*描述 | 业务线描述信息。 |
*管理员 | 业务线管理员,默认为当前用户,支持设置多个。 |
强制建模规范 | 可选择该业务线下建表时是否强制建模规范。 |
业务线数据层级 | 业务线包含的数据层级,下拉可选以下选项,支持多选。支持通过搜索层级名称关键词快速选择。
|
资产目录默认排序 | 资产目录的默认排序规则。 |
已发布资产管理策略 | 可选择是否允许编辑或分类。 |
资产目录展示资产及顺序 | 用户可按需选择,在资产目录页面是否展示对应资产类型及其展示顺序。若为空,则默认跟随系统设置。 |
业务线创建完成后,您需在当前业务线下进行数据分类操作,用于展示数据资产的文件目录。
说明
选择资产管理 > 基础管理 > 类目管理 > 数据分类,进入数据分类页面。
在页面右上角的业务线下拉框中,选择要管理的业务线。
单击新增分类按钮,在弹出的窗口中,设置分类信息后,单击确定按钮完成新增。
参数 | 说明 |
|---|---|
*类目类型 | 该分类的类型,支持综合类目、自定义类目和模型规范类目三个选项,下拉可选。 |
上级分类 | 该分类的上一级分类,下拉可选。 |
| 该分类下指定的资产类型,支持当前已支持的多种类型选项,下拉可选,可多选。 说明 仅当类目类型为自定义类目时,需设置该参数。 |
*分类名 | 分类的名称,同级分类下不可重名。 |
英文名 | 分类的英文名称。 |
*英文缩写 | 分类名称的英文缩写,在同一层级下不可重名。 |
描述 | 分类的描述信息,按需填写。 |
*分类管理员 | 分类的管理员,可输入账号关键词下拉选择,可设置多个。 |
业务Owner | 业务负责人。待后续跟审批流打通后,该参数才起作用。 |
类目审批人 | 该分类上架资产目录的审批人。待后续跟审批流打通后,该参数才起作用。 |
*是否强制表命名 | 可选择是否强制表命名。 说明 仅当类目类型为模型规范类目时,需设置该参数。 |
关联数据层级 | 业务线数据分类关联的表数据层级,支持以下选项,下拉可选,可选择多个。
说明 仅当类目类型为模型规范类目时,需设置该参数。 |
*是否启用 | 可选择是否启用该分类。 |
通过资产圈选功能,可按需新建当前业务线的资产圈选策略,系统将按照圈选中设置的条件,将匹配的资产自动归属到当前业务线。
仅业务线管理员可进行资产圈选。
选择资产管理 > 上下架管理 > 资产圈选,进入资产圈选页面。
单击新建圈选按钮,进入新建圈选页面,设置相关信息后,单击确定按钮完成新建。
参数 | 说明 |
|---|---|
基本信息 | |
*圈选名称 | 资产圈选的名称,自行设定。 |
*执行类型 | 圈选的执行类型,支持定时和手动两个选项,下拉可选。
|
创建人 | 圈选的创建人,默认为当前用户,不可修改。 |
描述 | 圈选的描述信息。 |
圈选条件 | |
*数据类型 | 圈选的数据类型,支持选项 MySQL、MiniBase Hive、ByteHouse CE、Doris、TOS、LAS、Greenplum、StarRocks 等,下拉可选。 |
是否开启库表名圈选 | 可选择是否开启库表名圈选。
说明
|
筛选条件 | 资产圈选的筛选条件,支持负责人、生命状态、是否核心等多个筛选方向,根据数据类型的不同有所区别。 |
单击某条开启状态信息操作列的**... > 运行**按钮,执行一次圈选。运行后,系统将按照圈选中配置的条件,将匹配的资产归属于当前业务线。
说明
仅执行类型为手动的圈选支持该操作。
资产圈选运行完成后,您可在资产维护页面查看已圈选的数据资产信息,并可将圈选到该业务线下的资产进行分类管理后,发布到资产目录。
选择资产管理 > 上下架管理 > 资产维护 > 维护资产,进入维护资产页面。
单击某条信息操作列的分类按钮,在弹出的窗口中,可将该资产分类至指定的数据分类下,并直接发布。支持批量操作。
参数 | 说明 |
|---|---|
*修改类型 | 修改该资产的类型,支持更改数据分类、增加数据分类和删除数据分类三种方式。
|
数据分类 | 该资产的所属分类,下拉可选已创建的数据分类,可设置多个。 说明 不同角色可选择的分类不同:
|
创建业务线配置相关资产,并将资产发布后,通过资产目录功能,可以将组内产出的数据资产系统整理后,进行类目化的展示。