You need to enable JavaScript to run this app.
导航

管理 EMR Hive 表

最近更新时间2024.03.18 20:17:57

首次发布时间2022.11.30 15:25:29

库表管理提供对元数据的创建、编辑、鉴权归属的统一管理。本文为您介绍如何管理 EMR Hive 表。

1 前提条件

已创建EMR Hive 数据库。相关操作说明可参见管理 EMR Hive 库

2 操作步骤

  1. 登录 DataLeap 控制台。
  2. 选择概览 > 数据地图 > 我的库表 > Table管理,进入 Table管理页面。
  3. 单击 EMR Hive 页签,进入 EMR Hive 管理页面。
    图片
  4. 可执行以下操作:
    • 新建 EMR Hive 表
      支持可视化建表和 DDL 建表。

      • 单击新建 EMR Hive 表按钮,进入可视化建表页面,填写表信息并单击建表检查按钮检查是否符合建表规范,待确认无误后,单击提交按钮完成 EMR Hive 表创建。关于建表规范的相关操作说明请参见数仓建表规范
      • 单击新建 EMR Hive 表 > DDL建表按钮,进入DDL建表页面,撰写DDL语句后单击解析按钮显示字段信息,填写表单其他信息并单击建表检查按钮检查是否符合建表规范,待确认无误后,单击提交按钮完成 EMR Hive 表创建。
        新建 EMR Hive 表相关参数说明如下表所示。

      参数

      说明

      DDL 信息

      *DDL语句

      撰写DDL语句并解析后,配置字段。仅支持hive语法建表。
      仅选择 DDL建表时,需设置该参数。

      说明

      默认存储格式为text,特殊符号可能导致错行,建议手动指定存储格式为parquet。

      基础信息

      *集群

      已创建的 EMR Hive 集群名称,下拉可选。

      *EMR Hive库名

      EMR Hive 数据库名称,下拉可选已创建的数据库。

      业务线

      数据表所属的业务线,下拉可选已创建的业务线。

      数据分类

      “资产目录”中,指定业务线下的文件目录名称,用于资产门户构建。可编辑,下拉可选已创建的数据分类。
      选择业务线后,才可设置该参数。

      *EMR Hive表名

      创建在所选数据库下的数据表名称,一旦设定不可更改。
      仅支持数字、小写英文字母、下划线。

      中文名

      数据表的中文名称。

      *存储格式

      数据表的存储格式,支持parquet、text和orc三个选项。

      *分区类型

      数据表是否设置分区,支持分区表和非分区表两个选项。
      当选择分区表时,需设置分区字段

      描述信息

      对数据表的描述说明,以便后续管理。

      字段信息(可视化建表)

      填写方式

      可选择按表单或Excel方式填写。

      主键

      即主关键字,是表中的一个或多个字段,它的值用于唯一的标识表中的某一条记录。
      若为复合主键,需选择多个字段。

      *英文名称

      字段的英文名称,仅支持小写英文字母、数字、下划线。

      *字段类型

      根据实际情况填写,支持多种类型,下拉可选。

      *字段描述

      字段的说明信息,以便后续管理,必填项。

      安全标签

      数据安全平台推荐的标签,下拉可选已创建的安全标签,支持选择多个。
      管理安全标签的相关操作说明,请参见分类分级管理

      说明

      仅选择安全模式集群时,才可设置该参数。

      自定义标签

      为字段设定的标签,支持以下两种设置方式:

      • 下拉可选已有标签,支持通过搜索标签关键词快速选择。
      • 自行设置标签:手动输入标签后,在下拉列表中选择该标签。

      成本信息

      *生命周期类型

      表数据的生命周期类型,支持按分区名称、按分区更新时间和按分区创建时间三个选项,下拉可选。

      • 按分区名称:按分区名称,自动删除N天前的分区。
      • 按分区更新时间:按分区更新的最后时间,自动删除经过N天后没有更新的分区。
      • 按分区创建时间:按分区创建的时间,自动删除创建时间为N天前的分区。

      *生命周期天数

      数据的保留天数,下拉可选。当选择自定义时,可输入数值大于等于0的任意整数,其中0表示永久。

      说明

      每天下午2点定时清理数据,清理时间5小时以上,超过保留期的数据将自动删除。

      *生命周期分区字段

      表数据的生命周期分区字段,下拉可选在字段信息处填写的分区字段。
      生命周期类型选择按分区名称时,需设置该参数。

      *生命周期日期格式

      表数据的生命周期日期格式,支持yyyyMMdd、yyyy-MM-dd、yyyy.MM.dd三个选项,下拉可选。
      生命周期类型选择按分区名称时,需设置该参数。

      安全信息

      *保密级别

      表的安全等级,级别由低到高依次有L1、L2、L3和L4四个选项可选。

      说明

      表的密级不能高于所在库的密级。

      *表权限负责人

      表的数据安全权限负责人,自动填充当前用户,可编辑,支持多个。

      开发信息

      数据研发项目

      已加入的项目,下拉可选。

      元数据标签

      专题

      数据表所属专题,下拉可选已创建的自定义目录固定目录专题。
      可快速添加至自己管理的专题中。

      生命状态

      表当前的生命状态,支持以下选项,下拉可选。

      • 测试:测试调试的表,不用于实际生产开发。
      • 临时:测试或开发临时保存一些数据时使用,会定期清理。
      • 在线:用户生产开发的有效表。
      • 废弃:已废弃不再用于生产或测试的表。
      • 待下线:即将下线的表,不再用于生产开发。

      说明

      目前生命状态的选项内容仅做标签使用,不会产生相应的作用。

      是否核心

      可选择是否将表设置为核心。

      自定义标签

      为表设定的标签,支持以下两种设置方式:

      • 下拉可选已有标签,支持通过搜索标签关键词快速选择。
      • 自行设置标签:手动输入标签后,在下拉列表中选择该标签。

      业务线-标签

      为表设定的业务线标签,下拉可选已创建的标签,可设置多个。

      说明

      选择业务线后,才可选择对应业务线下已创建的标签。

      业务术语

      表所关联的业务术语,下拉可选已创建的业务术语。
      支持通过搜索业务术语名称关键词快速选择。

      业务域

      表所属的业务域,下拉可选已创建的业务域。支持通过搜索业务域名称关键词快速选择。

      说明

      该元数据标签即将下线,推荐使用自定义标签或业务线标签进行替代。

      产品线

      表所属的产品线,下拉可选已创建的产品线。支持通过搜索产品线名称关键词快速选择。

      说明

      该元数据标签即将下线,推荐使用自定义标签或业务线标签进行替代。

      主题

      表所属的主题,下拉可选已创建的主题。支持通过搜索主题名称关键词快速选择。

      说明

      该元数据标签即将下线,推荐使用自定义标签或业务线标签进行替代。

    • 设置搜索信息,搜索符合条件的信息列表。
      当设置多个搜索条件时,会取各个条件的交集,进行查询。

      • 搜索库名、表名或负责人关键词。
      • 按照是否核心、是否隐藏等信息进行筛选。
      • 单击列表参数名称的升/降序图标按钮,可以按照对应参数的设置结果查看列表。
    • 单击列表中某条数据表信息操作列的管理按钮,可以修改该表的信息。

    • 单击列表中某条数据表信息操作列的 ... > 移交按钮,可以变更表的负责人,并同时移交权限负责人。

    • 单击列表中某条数据表信息操作列的 ... > 复制建表按钮,可以复制该表信息后打开建表页面,按需创建新的数据表。

    • 单击列表中某条数据表信息操作列的 ... > 生命周期按钮,可以编辑该表的生命周期配置信息。

    • 单击列表中某条数据表信息操作列的 ... > 权限设置按钮,可以前往权限管理 > 权限设置进行审批流程设置。

    • 单击列表中某条数据表信息操作列的删除按钮,在弹出的确认删除对话框中,单击确定按钮,可以删除该表。

    • 勾选一条或多条数据表信息后,进行批量删除、批量管理操作。

    说明

    仅安全模式下的数据表支持表权限负责人等安全信息设置,以及移交、权限设置功能操作。