最近更新时间:2023.09.28 17:56:37
首次发布时间:2023.07.07 19:35:10
数据存储支持查看火山引擎 E-MapReduce(EMR)Hive 表存储资产明细情况,并提供公共规则及治理建议,可快速定位治理的主要侧重点,并提供治理操作/批量处理能力,协助治理负责人或治理实施者进行存储治理。
已创建 EMR-3.1.0 以上版本的 Hadoop 集群类型,详见创建集群。
数据地图中已完成 EMR Hive 元数据采集。详见元数据采集。
已购买 DataLeap 分布式数据自治服务。详细操作说明请参见 DataLeap 服务信息。
登录 DataLeap 控制台 。
在概览界面中,单击数据治理 > 资源优化 > 数据存储,进入数据存储界面,便可查看 EMR Hive 数据源的数据存储界面。
在数据存储界面,您可以通过多个维度进行筛选 EMR Hive 数据库表情况:
当设置多个筛选条件时,会取各个条件的交集,进行过滤查询。
查看视角:支持从数据团队视角查看团队下相关的 Hive 表资源。
数据团队:单击下拉框,选择对应的数据团队,支持多选。
团队详情:单击团队详情,展现已选择的数据团队详情,并可对该数据团队进行编辑、删除等操作。
说明
团队详情中最多只展示 5 个数据团队详情,您可根据实际情况进行筛选查看。
当前成员需要是数据团队负责人,方可对数据团队进行修改与配置。
添加治理方案:单击添加治理方案,您可前往规划诊断界面,进行治理方案的创建。详见规划方案。
资产类型:支持展现 EMR Hive 的数据库表资源。
资产范围:可通过选择 EMR 集群、库名、表名和项目名称,来筛选 Hive 表信息。
说明
EMR 集群可选择当前主账号下,正常 Running 状态的 EMR Hadoop 集群类型,其版本需在 3.1.0 以上,且在数据地图-元数据采集中已创建相关采集器并执行了全量同步的操作;若未执行全量同步时,需治理的表数量可能会存在缺失的情况。创建采集器详见元数据采集。
若 EMR 集群已被删除,但因元数据采集器仍然保留时,资产范围筛选的表会在 T+1 后更新。
其中表名称:支持模糊搜索,并支持批量录入搜索,您可单击右侧的批量搜索按钮进行操作,支持批量输入完整的库名.表名信息,进行搜索,中间以空格或换行符进行分隔。
可优化项:直接单击 TTL 设置不合理、文件大小异常、存储合适不合理、近30天无查询等优化项进行筛选。
平台提供公共规则识别待治理资产,并给出对应的优化建议及相应口径说明。
下面为您介绍详细推荐优化项口径说明:
优化项 | 口径说明 | 优化建议 |
---|---|---|
TTL 设置不合理 | 生命周期为未配置或永久保存,建议删除或者缩短 TTL。 | 根据近 90 天访问分区情况,建议删除或者缩短 TTL 为 7 天。 |
文件大小异常 | Hive 表平均文件大小过小或者分区文件数过多。 | 修改任务代码或参数,将存量小文件进行合并,降低小文件数量。 |
存储格式不合理 | 表存储格式为 Text 类型。 | 重新建表,采用 Parquet 或者 ORC 存储格式,并回溯数据。 |
近 30 天无查询 | 最近 30 天内没有相关查询。 | 确认相关业务是否已暂停,若业务已停止,建议删除该表。 |
层级信息缺失 | 当前表缺失层级信息。 | 在数据地图中,补齐相关表的层级信息。 |
描述或中文名缺失 | 创建表时,未添加表的描述或中文名信息。 | 数据地图表管理中,补齐相关表的描述或中文名信息。 |
空表 | 当前表的物理存储为0。 | 考虑业务是否已暂停,如果业务已经停止,建议删除该表。 |
无更新表 | 当前分区表最近 65 天没有新增分区。 | 考虑业务是否已暂停,如果业务已经停止,建议删除该表。 |
筛选后的数据存储列表中,为您展现了 EMR Hive 库表的详细信息,其中列表中部分字段说明如下:
存储健康分:展现当前表的存储健康分信息,具体计算规则及权重详见存储健康分。
物理存储:基于hms分区元数据物理大小的累加计算,支持排序。
近一周/两周/两月/一年增长情况:表近一周/两周/两月/一年物理存储差值,支持排序。
查询次数(30/60/90天):近30/60/90天,表通过 tqs 被查询的次数,支持排序。
生命周期:生命周期设置后,T+1 生效规则,表的分区动态保留天数,支持三种口径:按分区名称、按分区更新时间、按分区创建时间。
最大/最小分区日期:一级分区为时间分区的表中,最大/最小分区日期,协助配置 TTL。
您也可单击操作列右侧的小齿轮,对列表中展现的字段进行自定义展示设置。
单击列表中的操作列,您可进行以下操作:
操作项 | 说明 |
---|---|
生命周期( TTL ) | 设置表分区数据的保留天数,支持按分区名称、分区创建或分区更新时间等配置生命周期:
|
表管理 | 对表的基础信息进行设置,支持配置表层级、中文名和描述。 |
删除 | 删除当前数据表,删除为高危操作,当前表和下游表的任务、用户将会受到影响,请谨慎操作。 说明
|
批量操作 | 勾选需操作的表,支持批量删除、批量配置生命周期、批量修改层级和下载当前列表等操作。 |
A:生命周期配置完成后,立即开始执行。
以下为您介绍生命周期,按分区名称配置时,平台推荐保留的分区范围逻辑:
配置口径:按分区名称
分区字段:日期类型--date、 p_date、pt、dt
日期格式:yyyymmdd、yyyy-mm-dd、yyyy.mm.dd
保留分区推荐逻辑:
优先级判断:按照表格展示优先级,依次做推荐逻辑判断。
层级:表的层级,取自 Hive 的层级字段 + 表名判断+对应任务类型判断(主要是 ods)。
表类型:表的类型,通过(表行数+表名等)判断,表名:hf、df、wf、mf 则快照。
近90天(访问当天 - 访问分区)最大值:表近90天的访问情况。
推荐值:通过层级、类型及访问情况,推荐配置的 TTL 天数。
页面建议值(与当前 TTL 比较):根据算法推荐值及原配置情况,在页面展示推荐的ttl值。
优先级判断 | 层级 | 表类型 | 近90天(访问当天 - 访问分区)最大值 | 推荐值 | 页面建议值(与当前 TTL 比较) |
---|---|---|---|---|---|
1 | ods | * | * | 400 | min(400,当前 TTL) |
2 | * | 全量 | * | 每个月最后一天 |
|
3 | dwd/dim | * | value | 2 x value |
|
dwm/dwa/dwi/dm | * | value | 1.5 x value | ||
rpt/app/空 | * | value | value | ||
4 | * | * | 空 | 无 | 不推荐 |
Q: 配置了生命周期 180 天,却存在 180 天前的分区?
A: 可能是没选择【按分区名称】配置,默认会按分区最后修改日期来清理,导致有一些回溯过的数据,最后修改日期和分区的业务日期不一致,会看起来像是没有清理。