You need to enable JavaScript to run this app.
导航

数据存储

最近更新时间2023.09.28 17:56:37

首次发布时间2023.07.07 19:35:10

数据存储支持查看火山引擎 E-MapReduce(EMR)Hive 表存储资产明细情况,并提供公共规则及治理建议,可快速定位治理的主要侧重点,并提供治理操作/批量处理能力,协助治理负责人或治理实施者进行存储治理。

1 使用前提

  1. 已创建 EMR-3.1.0 以上版本的 Hadoop 集群类型,详见创建集群

  2. 数据地图中已完成 EMR Hive 元数据采集。详见元数据采集

  3. 已购买 DataLeap 分布式数据自治服务。详细操作说明请参见 DataLeap 服务信息

2 进入数据存储

  1. 登录 DataLeap 控制台

  2. 在概览界面中,单击数据治理 > 资源优化 > 数据存储,进入数据存储界面,便可查看 EMR Hive 数据源的数据存储界面。

3 操作指南

3.1 多维度筛选

在数据存储界面,您可以通过多个维度进行筛选 EMR Hive 数据库表情况:
当设置多个筛选条件时,会取各个条件的交集,进行过滤查询。

  • 查看视角:支持从数据团队视角查看团队下相关的 Hive 表资源。

    • 数据团队:单击下拉框,选择对应的数据团队,支持多选。

    • 团队详情:单击团队详情,展现已选择的数据团队详情,并可对该数据团队进行编辑、删除等操作。

      说明

      • 团队详情中最多只展示 5 个数据团队详情,您可根据实际情况进行筛选查看。

      • 当前成员需要是数据团队负责人,方可对数据团队进行修改与配置。

    • 添加治理方案:单击添加治理方案,您可前往规划诊断界面,进行治理方案的创建。详见规划方案

  • 资产类型:支持展现 EMR Hive 的数据库表资源。

  • 资产范围:可通过选择 EMR 集群、库名、表名和项目名称,来筛选 Hive 表信息。

    说明

    1. EMR 集群可选择当前主账号下,正常 Running 状态的 EMR Hadoop 集群类型,其版本需在 3.1.0 以上,且在数据地图-元数据采集中已创建相关采集器并执行了全量同步的操作;若未执行全量同步时,需治理的表数量可能会存在缺失的情况。创建采集器详见元数据采集

    2. 若 EMR 集群已被删除,但因元数据采集器仍然保留时,资产范围筛选的表会在 T+1 后更新。

    3. 其中表名称:支持模糊搜索,并支持批量录入搜索,您可单击右侧的批量搜索按钮进行操作,支持批量输入完整的库名.表名信息,进行搜索,中间以空格换行符进行分隔。

  • 可优化项:直接单击 TTL 设置不合理、文件大小异常、存储合适不合理、近30天无查询等优化项进行筛选。

3.2 推荐优化项说明及建议

平台提供公共规则识别待治理资产,并给出对应的优化建议及相应口径说明。
下面为您介绍详细推荐优化项口径说明:

优化项口径说明优化建议
TTL 设置不合理生命周期为未配置或永久保存,建议删除或者缩短 TTL。根据近 90 天访问分区情况,建议删除或者缩短 TTL 为 7 天。
文件大小异常Hive 表平均文件大小过小或者分区文件数过多。修改任务代码或参数,将存量小文件进行合并,降低小文件数量。
存储格式不合理表存储格式为 Text 类型。重新建表,采用 Parquet 或者 ORC 存储格式,并回溯数据。
近 30 天无查询最近 30 天内没有相关查询。确认相关业务是否已暂停,若业务已停止,建议删除该表。
层级信息缺失当前表缺失层级信息。在数据地图中,补齐相关表的层级信息。
描述或中文名缺失创建表时,未添加表的描述或中文名信息。数据地图表管理中,补齐相关表的描述或中文名信息。
空表当前表的物理存储为0。考虑业务是否已暂停,如果业务已经停止,建议删除该表。
无更新表当前分区表最近 65 天没有新增分区。考虑业务是否已暂停,如果业务已经停止,建议删除该表。

3.3 列表字段明细

筛选后的数据存储列表中,为您展现了 EMR Hive 库表的详细信息,其中列表中部分字段说明如下:

  • 存储健康分:展现当前表的存储健康分信息,具体计算规则及权重详见存储健康分

  • 物理存储:基于hms分区元数据物理大小的累加计算,支持排序。

  • 近一周/两周/两月/一年增长情况:表近一周/两周/两月/一年物理存储差值,支持排序。

  • 查询次数(30/60/90天):近30/60/90天,表通过 tqs 被查询的次数,支持排序。

  • 生命周期:生命周期设置后,T+1 生效规则,表的分区动态保留天数,支持三种口径:按分区名称、按分区更新时间、按分区创建时间。

  • 最大/最小分区日期:一级分区为时间分区的表中,最大/最小分区日期,协助配置 TTL。

您也可单击操作列右侧的小齿轮,对列表中展现的字段进行自定义展示设置。
alt

3.4 治理操作

单击列表中的操作列,您可进行以下操作:

说明

若 EMR 集群为安全模式接入时,以下所有治理操作,操作人需拥有相应治理表的权限,您可前往数据安全模块,申请相应的治理表权限。详见权限申请

操作项说明

生命周期( TTL )

设置表分区数据的保留天数,支持按分区名称、分区创建或分区更新时间等配置生命周期:

  • 按分区名称:目前支持分区为天级别分区的表,且日期格式为 yyyyMMdd、yyyy-MM-dd、yyyy.MM.dd。

    • 分区字段:根据表结构,下拉选择表中分区字段信息。

    • 日期格式:支持下拉选择 yyyyMMdd、yyyy-MM-dd、yyyy.MM.dd 三类日期格式。

    • 保留分区范围:按分区名称,设置分区数据保留的时间范围,支持自动删除 N 天前的分区,可自定义 N 的范围,或对重要表分区数据进行永久保留。

    • 永久保留分区:您可以将表的部分关键分区,例如每月第一天、每月最后一天或自定义每月某一天的分区数据进行永久保留,支持多选,最高可永久保留 4 天的分区。

    • TTL 推荐规则:详见 4.2 推荐生命周期的计算逻辑

    • 表分区查询热度图:近 90 天内,通过 tqs 对表有查询,分区的查询热度分布情况。

      • 横坐标为:查询的分区与查询时日期的时间间隔。

      • 纵坐标:查询次数。

      举例:假如您在2023年3月4日查询了20230301分区20次,20230302分区查询了10次,则3天前的分区查询了20次,2天前的分区查询了10次。

  • 按分区更新时间:按分区更新的最后时间,自动删除经过 N 天后没有更新的分区。

  • 按分区创建时间:按分区创建的时间,自动删除创建时间为 N 天前的分区。

表管理对表的基础信息进行设置,支持配置表层级、中文名和描述。

删除

删除当前数据表,删除为高危操作,当前表和下游表的任务、用户将会受到影响,请谨慎操作。

说明

  1. 如果误删除,7天内可以通过提工单方式,联系 Hive 同学恢复数据。

  2. 如果表中数据量过多,删除可能会超时报错。如果超时报错,建议先修改生命周期为 1 天,等第二天早上清理掉历史分区后,再删除表。

批量操作勾选需操作的表,支持批量删除、批量配置生命周期、批量修改层级和下载当前列表等操作。

4 常见问题

4.1 设置完生命周期,什么时候可以生效执行

A:生命周期配置完成后,立即开始执行。

4.2 推荐生命周期的计算逻辑

以下为您介绍生命周期,按分区名称配置时,平台推荐保留的分区范围逻辑:

  1. 配置口径:按分区名称

  2. 分区字段:日期类型--date、 p_date、pt、dt

  3. 日期格式:yyyymmdd、yyyy-mm-dd、yyyy.mm.dd

  4. 保留分区推荐逻辑:

    • 优先级判断:按照表格展示优先级,依次做推荐逻辑判断。

    • 层级:表的层级,取自 Hive 的层级字段 + 表名判断+对应任务类型判断(主要是 ods)。

    • 表类型:表的类型,通过(表行数+表名等)判断,表名:hf、df、wf、mf 则快照。

    • 近90天(访问当天 - 访问分区)最大值:表近90天的访问情况。

    • 推荐值:通过层级、类型及访问情况,推荐配置的 TTL 天数。

    • 页面建议值(与当前 TTL 比较):根据算法推荐值及原配置情况,在页面展示推荐的ttl值。

    优先级判断层级表类型近90天(访问当天 - 访问分区)最大值推荐值页面建议值(与当前 TTL 比较)
    1ods**400min(400,当前 TTL)

    2

    *

    全量

    *

    每个月最后一天

    • 当前 TTL <=32:则建议当前 TTL;

    • 当前 TTL > 32:永久保留每个月最后一天,TTL = 7。

    3

    dwd/dim

    *

    value

    2 x value

    • 建议值 <= 当前 TTL:

      • 推荐值<=7,页面建议配置 7;

      • 7<推荐值<=31,页面建议配置 31;

      • 31<推荐值<=62,页面建议配置 62;

      • 62<推荐值<=93,页面建议配置 93;

      • 93<推荐值<=183,页面建议配置 183;

      • 183<推荐值<=366. 页面建议配含 366;

      • 366<推荐值<=732,页面建议配置 732;

      • 732<推荐值,页面建议配置真实推荐值。

    • 建议值 > 当前 TTL:页面显示当前 TTL。

    dwm/dwa/dwi/dm*value1.5 x value
    rpt/app/空*valuevalue
    4**不推荐

4.3 生命周期未生效

Q: 配置了生命周期 180 天,却存在 180 天前的分区?
A: 可能是没选择【按分区名称】配置,默认会按分区最后修改日期来清理,导致有一些回溯过的数据,最后修改日期和分区的业务日期不一致,会看起来像是没有清理。