You need to enable JavaScript to run this app.
导航

数据存储

最近更新时间2024.02.20 14:12:48

首次发布时间2023.07.07 19:35:10

数据存储支持查看火山引擎 E-MapReduce(EMR)Hive、湖仓一体分析服务 LAS 表存储资产明细情况,并提供公共规则及治理建议,可快速定位治理的主要侧重点,并提供治理操作/批量处理能力,协助治理负责人或治理实施者进行存储治理。

1 使用前提

  1. 已创建 EMR-3.1.0 以上版本的 Hadoop 集群类型,详见创建集群
  2. 数据地图中已完成 EMR Hive 元数据采集。详见元数据采集
  3. 已购买 DataLeap 分布式数据自治服务。详细操作说明请参见 DataLeap 服务信息

2 进入数据存储

  1. 登录 DataLeap 控制台
  2. 在概览界面中,单击数据治理 > 资源优化 > 数据存储,进入数据存储界面,便可查看各资产的数据存储界面。

3 操作指南

3.1 多维度筛选

在数据存储界面,您可以通过多个维度进行筛选 EMR Hive、LAS 数据库表情况:
当设置多个筛选条件时,会取各个条件的交集,进行过滤查询。

  • 查看视角:支持从团队个人视角查看对应视角下相关的 Hive、LAS 表资源。
    • 团队、个人:单击下拉框,选择对应的数据团队或个人信息,支持多选。
    • 团队详情:单击团队详情,展现已选择的数据团队详情,并可对该数据团队进行编辑、删除等操作。

      说明

      • 团队详情中最多只展示 5 个数据团队详情,您可根据实际情况进行筛选查看。
      • 当前成员需要是数据团队负责人,方可对数据团队进行修改与配置。
    • 添加治理方案:单击添加治理方案,您可前往规划诊断界面,进行治理方案的创建。详见规划方案
  • 资产类型:可选择 EMR Hive、LAS 的数据库表资源类型。
  • 资产范围:可通过选择 EMR/LAS 集群、库名、表名和项目名称等信息,来筛选 Hive/LAS 表信息。

    说明

    1. EMR 集群可选择当前主账号下,正常 Running 状态的 EMR Hadoop 集群类型,其版本需在 3.1.0 以上,且在数据地图-元数据采集中已创建相关采集器并执行了全量同步的操作;若未执行全量同步时,需治理的表数量可能会存在缺失的情况。创建采集器详见元数据采集
    2. 若 EMR 集群已被删除,但因元数据采集器仍然保留时,资产范围筛选的表会在 T+1 后更新。
    3. 其中表名称:支持模糊搜索,并支持批量录入搜索,您可单击右侧的批量搜索按钮进行操作,支持批量输入完整的库名.表名信息,进行搜索,中间以空格换行符进行分隔。
  • 可优化项:直接单击 TTL 设置不合理、文件大小异常、存储合适不合理、近30天无查询、层级信息缺失、空表等优化项进行筛选。

3.2 推荐优化项说明及建议

平台提供公共规则识别待治理资产,并给出对应的优化建议及相应口径说明。
下面为您介绍详细推荐优化项口径说明:

优化项

口径说明

优化建议

TTL 设置不合理

生命周期为未配置或永久保存,建议删除或者缩短 TTL。

根据近 90 天访问分区情况,建议删除或者缩短 TTL 为 7 天。

文件大小异常

表平均文件大小过小或者分区文件数过多。

修改任务代码或参数,将存量小文件进行合并,降低小文件数量。

存储格式不合理

表存储格式为 Text 类型。

重新建表,采用 Parquet 或者 ORC 存储格式,并回溯数据。

近 30 天无查询

最近 30 天内没有相关查询。

确认相关业务是否已暂停,若业务已停止,建议删除该表。

层级信息缺失

当前表缺失层级信息。

在数据地图中,补齐相关表的层级信息。

描述或中文名缺失

创建表时,未添加表的描述或中文名信息。

数据地图表管理中,补齐相关表的描述或中文名信息。

空表

当前表的物理存储为0。

考虑业务是否已暂停,如果业务已经停止,建议删除该表。

无更新表

当前分区表最近 65 天没有新增分区。

考虑业务是否已暂停,如果业务已经停止,建议删除该表。

未设 TTL-保留期

LAS 表生命周期中没有设置 TTL-保留期。

参考实际业务访问 LAS 表情况,设置相应的 TTL-保留期。

未设 TTL-热存期

LAS 表生命周期中没有设置 TTL-热存期。

参考实际业务访问 LAS 表情况,设置相应的 TTL-热存期。

3.3 列表字段明细

筛选后的数据存储列表中,为您展现了 EMR Hive、LAS 库表的详细信息,其中列表中部分字段说明如下:

  • 存储健康分:展现当前表的存储健康分信息,具体计算规则及权重详见存储健康分
  • 逻辑/物理存储:基于hms分区元数据逻辑/物理大小的累加计算,支持排序。
  • 近一周/两周/两月/一年增长情况:表近一周/两周/两月/一年物理存储差值,支持排序。
  • 查询次数(30/60/90天):近30/60/90天,表通过 tqs 被查询的次数,支持排序。
  • 生命周期:生命周期设置后,T+1 生效规则,表的分区动态保留天数,支持三种口径:按分区名称、按分区更新时间、按分区创建时间。
  • 最大/最小分区日期:一级分区为时间分区的表中,最大/最小分区日期,协助配置 TTL。

您也可单击操作列右侧的小齿轮,对列表中展现的字段进行自定义展示设置。
图片

3.4 治理操作

单击列表中的操作列,您可进行以下操作:

说明

若 EMR 集群为安全模式接入时,以下所有治理操作,操作人需拥有相应治理表的权限,您可前往数据安全模块,申请相应的治理表权限。详见权限申请

操作项

说明

EMR Hive 生命周期( TTL )

Hive 设置表分区数据的保留天数,支持按分区名称、分区创建或分区更新时间等配置生命周期:

  • 按分区名称:目前支持分区为天级别分区的表,且日期格式为 yyyyMMdd、yyyy-MM-dd、yyyy.MM.dd。
    • 分区字段:根据表结构,下拉选择表中分区字段信息。
    • 日期格式:支持下拉选择 yyyyMMdd、yyyy-MM-dd、yyyy.MM.dd 三类日期格式。
    • 保留分区范围:按分区名称,设置分区数据保留的时间范围,支持自动删除 N 天前的分区,可自定义 N 的范围,或对重要表分区数据进行永久保留。
    • 永久保留分区:您可以将表的部分关键分区,例如每月第一天、每月最后一天或自定义每月某一天的分区数据进行永久保留,支持多选,最高可永久保留 4 天的分区。
    • TTL 推荐规则:详见 4.2 推荐生命周期的计算逻辑
    • 表分区查询热度图:近 90 天内,通过 tqs 对表有查询,分区的查询热度分布情况。
      • 横坐标为:查询的分区与查询时日期的时间间隔。
      • 纵坐标:查询次数。
        举例:假如您在2023年3月4日查询了20230301分区20次,20230302分区查询了10次,则3天前的分区查询了20次,2天前的分区查询了10次。
        图片
  • 按分区更新时间:按分区更新的最后时间,自动删除经过 N 天后没有更新的分区。
  • 按分区创建时间:按分区创建的时间,自动删除创建时间为 N 天前的分区。

LAS 生命周期( TTL )

LAS 表设置生命周期,可选择以下两种数据分层依赖:

  • 按照分区创建时间:
    • 设置 TTL-热存期:超过热存期(创建时间 > x 天)的数据进行自动转换为冷数据;
    • 设置 TTL-保留期:超过保留期(创建时间 > y 天)的冷数据进行自动删除
  • 按照表访问时间:
    • 超过热存期(表访问时间 > x 天)的数据进行自动转换为冷数据;
    • 对于 Managed Hive 表:到达保留期后(表访问时间 > y 天),会删除表数据,表本身保留;
    • 对于 LAS 内部表:到达保留期后(表访问时间 > y 天),会删除表数据以及表。

表管理

对表的基础信息进行设置,支持配置表层级、中文名和描述。

删除

删除当前数据表,删除为高危操作,当前表和下游表的任务、用户将会受到影响,请谨慎操作。

说明

  1. 如果误删除,7天内可以通过提工单方式,联系 Hive 同学恢复数据。
  2. 如果表中数据量过多,删除可能会超时报错。如果超时报错,建议先修改生命周期为 1 天,等第二天早上清理掉历史分区后,再删除表。

批量操作

勾选需操作的表,支持批量删除、批量配置生命周期、批量修改层级和下载当前列表等操作。

4 常见问题

4.1 设置完生命周期,什么时候可以生效执行

A:生命周期配置完成后,立即开始执行。

4.2 推荐生命周期的计算逻辑

以下为您介绍生命周期,按分区名称配置时,平台推荐保留的分区范围逻辑:

  1. 配置口径:按分区名称

  2. 分区字段:日期类型--date、 p_date、pt、dt

  3. 日期格式:yyyymmdd、yyyy-mm-dd、yyyy.mm.dd

  4. 保留分区推荐逻辑:

    • 优先级判断:按照表格展示优先级,依次做推荐逻辑判断。
    • 层级:表的层级,取自 Hive 的层级字段 + 表名判断+对应任务类型判断(主要是 ods)。
    • 表类型:表的类型,通过(表行数+表名等)判断,表名:hf、df、wf、mf 则快照。
    • 近90天(访问当天 - 访问分区)最大值:表近90天的访问情况。
    • 推荐值:通过层级、类型及访问情况,推荐配置的 TTL 天数。
    • 页面建议值(与当前 TTL 比较):根据算法推荐值及原配置情况,在页面展示推荐的ttl值。

    优先级判断

    层级

    表类型

    近90天(访问当天 - 访问分区)最大值

    推荐值

    页面建议值(与当前 TTL 比较)

    1

    ods

    400

    min(400,当前 TTL)

    2

    全量

    每个月最后一天

    • 当前 TTL <=32:则建议当前 TTL;
    • 当前 TTL > 32:永久保留每个月最后一天,TTL = 7。

    3

    dwd/dim

    value

    2 x value

    • 建议值 <= 当前 TTL:
      • 推荐值<=7,页面建议配置 7;
      • 7<推荐值<=31,页面建议配置 31;
      • 31<推荐值<=62,页面建议配置 62;
      • 62<推荐值<=93,页面建议配置 93;
      • 93<推荐值<=183,页面建议配置 183;
      • 183<推荐值<=366. 页面建议配含 366;
      • 366<推荐值<=732,页面建议配置 732;
      • 732<推荐值,页面建议配置真实推荐值。
    • 建议值 > 当前 TTL:页面显示当前 TTL。

    dwm/dwa/dwi/dm

    value

    1.5 x value

    rpt/app/空

    value

    value

    4

    不推荐

4.3 生命周期未生效

Q: 配置了生命周期 180 天,却存在 180 天前的分区?
A: 可能是没选择【按分区名称】配置,默认会按分区最后修改日期来清理,导致有一些回溯过的数据,最后修改日期和分区的业务日期不一致,会看起来像是没有清理。