You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

HBase中截断表并没有释放HDFS空间

这是因为HBase是在HDFS之上运行的,当HBase截断表的时候,它只是删除了元数据和数据目录指针,但实际上并没有删除HDFS上的数据,因此不会释放HDFS空间。为了解决这个问题,需要手动清除已删除HBase表的HDFS数据。

以下是使用Java API手动清理已删除HBase表的HDFS数据的示例代码:

public class HBaseHDFSDataCleaner {

    public static void main(String[] args) throws Exception {
        Configuration conf = HBaseConfiguration.create();
        Job job = Job.getInstance(conf, "HDFSDataCleaner");
        job.setJarByClass(HBaseHDFSDataCleaner.class);
        job.setMapperClass(HBaseHDFSDataCleanerMapper.class);
        job.setOutputKeyClass(NullWritable.class);
        job.setOutputValueClass(NullWritable.class);
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }

    public static class HBaseHDFSDataCleanerMapper extends Mapper<LongWritable, Text, NullWritable, NullWritable> {

        private Connection conn = null;

        @Override
        protected void setup(Context context) throws IOException {
            conn = ConnectionFactory.createConnection();
        }

        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

            String tableName = value.toString();
            HBaseAdmin admin = (HBaseAdmin) conn.getAdmin();

            if (admin.tableExists(TableName.valueOf(tableName))) {
                context.getCounter("HBaseCleanerMapper", "Skip Table").increment(1);
                return;
            }

            context.getCounter("HBaseCleanerMapper", "Removing Data from HDFS").increment(1);

            Configuration conf = HBaseConfiguration.create();
            HdfsHelper.delete(conf, "/" + tableName);

            context.getCounter("HBaseCleanerMapper", "Table Data Removed from HDFS").increment(1);
        }

        @Override
        protected void cleanup(Context context) throws IOException {
            if (conn != null) {
                conn
本文内容通过AI工具匹配关键字智能整合而成,仅供参考,火山引擎不对内容的真实、准确或完整作任何形式的承诺。如有任何问题或意见,您可以通过联系service@volcengine.com进行反馈,火山引擎收到您的反馈后将及时答复和处理。
展开更多
面向开发者的云福利中心,ECS 60元/年,域名1元起,助力开发者快速在云上构建可靠应用

社区干货

9年演进史:字节跳动 10EB 级大数据存储实战

HDFS 平台在公司内部已经成长为总数十万台级别服务器的大平台,支持了 10 EB 级别的数据量。**当前在字节跳动,** **HDFS** **承载的主要业务如下:**- Hive,HBase,日志服务,Kafka 数据存储 - Yarn,Flink 的计... 联邦又带来统一命名空间问题,因此,需要统一视图空间帮助业务构建统一接入。这里我们引入了 Name Node Proxy 组件实现统一视图和多租户管理等功能。为了解决这个问题,我们引入了 Name Node Proxy 组件实现统一视图和...

「火山引擎」数据中台产品双月刊 VOL.04

HBase 的必选组件;Impala、Kudu、ClickHouse、Doris、StarRocks 等服务的核心指标接入监控和告警管理;HBase 支持 Snappy 压缩;Hive,组件行为与开源保持一致,不再支持中文的表字段名;Doris,版本升级至1.1.5;Hudi,修复开源社区版本存在潜在数据丢失等问题。 - **新增** **EMR** **软件** **栈** **2.1.1:** Impala、Kudu、ClickHouse、Doris 等服务的核心组件接入告警管理;为 Oozie 系统用户赋予 HDFS 全路径、Hive ...

「火山引擎」数智平台 VeDI 数据中台产品双月刊 VOL.04

HBase 的必选组件;Impala、Kudu、ClickHouse、Doris、StarRocks 等服务的核心指标接入监控和告警管理;HBase 支持 Snappy 压缩;Hive,组件行为与开源保持一致,不再支持中文的表字段名;Doris,版本升级至1.1.5;Hudi,修复开源社区版本存在潜在数据丢失等问题。 - **新增** **EMR** **软件** **栈** **2.1.1:** Impala、Kudu、ClickHouse、Doris 等服务的核心组件接入告警管理;为 Oozie 系统用户赋予 HDFS 全路径、Hive 库...

「火山引擎」数智平台 VeDI 数据中台产品双月刊 VOL.04

HBase 的必选组件;Impala、Kudu、ClickHouse、Doris、StarRocks 等服务的核心指标接入监控和告警管理;HBase 支持 Snappy 压缩;Hive,组件行为与开源保持一致,不再支持中文的表字段名;Doris,版本升级至1.1.5;Hudi,修复开源社区版本存在潜在数据丢失等问题。 - **新增** **EMR** **软件** **栈** **2.1.1:** Impala、Kudu、ClickHouse、Doris 等服务的核心组件接入告警管理;为 Oozie 系统用户赋予 HDFS 全路径、Hive 库...

特惠活动

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

HBase中截断表并没有释放HDFS空间 -优选内容

什么是格数据库 HBase
火山引擎格数据库 HBase 版是基于 Apache HBase 提供的全托管 NoSQL 服务,兼容标准 HBase 访问协议,具备低成本存储、高扩展吞吐等优势。 产品架构 如上图所示,表格数据库 HBase 版主要由 Master、RegionServer、ZooKeeper、HDFS 四部分组成: Master:Master 负责管理和协调 RegionServer,以及管理表的增删改查操作。每个 HBase 实例默认只能创建 2 个 Master 节点(主备)。 RegionServer:RegionServer 负责存放和管理 HRegion,以...
使用说明
运行在 HDFS 文件系统之上,为 Hadoop 提供类 BigTable 的服务。HBase关键名词说明: 名词 说明 Namespace 命名空间的逻辑分组,类似于关系数据库系统中的数据库。这种抽象为即将到来的多租户相关功能奠定了基础... 2.4 DeleteDelete 从表中删除一行。删除是通过 Table.delete 执行的。HBase 不会就地修改数据,因此删除操作通过创建称为墓碑的新标记来处理。这些删除标记会在compaction时候清理。 3 HBase snapshot 迁移3.1 生成...
CreateDBInstance
RSSpec String 是 hbase.x1.large RegionServer 节点的规格码。 说明 关于 RegionServer 节点所支持的规格信息,请参见实例规格。 StorageType String 是 HdfsHdd 实例的存储类型,取值: HdfsHdd:HDD 文件存储(默认)。 HdfsSsd:SSD 文件存储。 StorageCapacity Integer 是 1000 存储空间,取值范围:100~20,000,单位:GiB。步长为 10GiB。 EnableCloudStorage Bool 否 true 是否开通存储型容量,取值: true:开通容量型...
配置 HBase 数据源
连接串形式 参数 说明 基本配置 数据源类型 HBase 接入方式 连接串 数据源名称 数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。 参数配置 ZK访问端口 客户端连接 server 的端口,即 ZK 对外服务端口。 是否为分布式部署 根据实际情况选择 HBase 是否为分布式部署。 ZK集群地址列 ZK 服务器集群的地址列表。 ZK中HBase根路径 ZK 集群中 HBasehdfs 上的存储位置,自动填充,可编辑。 ...

HBase中截断表并没有释放HDFS空间 -相关内容

权限管理

1 Ranger 默认启用情况权限管理在 EMR 3.1.0 软件栈版本中引入,目前支持的集群类型和服务如下所示: 分析场景 集群类型 服务 默认启用 Ranger 鉴权 数据湖 Hadoop HDFS ✅ YARN ✅ Hive ✅ Spark ✅ Presto Trino 实时计算 Kafka Kafka ✅ 交互式分析 Presto HDFS Hive Presto ✅ Trino HDFS Hive Trino ✅ NoSQL 数据库 HBase HDFS HBase ✅ 2 使用限制为保证权限管理模块功能的正常使用,您需要在集群的安全组中为 1...

EMR-3.6.1 版本说明

Python2 2.7.16 Python3 3.10.13 Java ByteOpenJDK 1.8.0_352 应用程序版本 Hadoop集群 Flink集群 Kafka集群 HBase集群 StarRocks集群 ClickHouse集群 OpenSearch集群类型 Flume 1.9.0 1.9.0 1.9.0 - - - - OpenLDAP 2.5.13 2.5.13 2.5.13 2.5.13 - - 2.5.13 Ranger 2.1.0 2.1.0 2.1.0 2.1.0 - - - ZooKeeper 3.7.0 3.7.0 3.7.0 3.7.0 - 3.7.0 - Flink 1.16.1 1.16.1 - - - - - HDFS 3.3.4 3.3.4 - 3.3.4 - - - MapReduce2 3.3....

EMR-3.6.2 版本说明

Python2 2.7.16 Python3 3.10.13 Java ByteOpenJDK 1.8.0_352 应用程序版本 Hadoop集群 Flink集群 Kafka集群 HBase集群 StarRocks集群 ClickHouse集群 OpenSearch集群类型 Flume 1.9.0 1.9.0 1.9.0 - - - - OpenLDAP 2.5.13 2.5.13 2.5.13 2.5.13 - - 2.5.13 Ranger 2.1.0 2.1.0 2.1.0 2.1.0 - - - ZooKeeper 3.7.0 3.7.0 3.7.0 3.7.0 - 3.7.0 - Flink 1.16.1 1.16.1 - - - - - HDFS 3.3.4 3.3.4 - 3.3.4 - - - MapReduce2 3.3....

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

EMR-3.6.0 版本说明

Python2 2.7.16 Python3 3.10.13 Java ByteOpenJDK 1.8.0_352 应用程序版本 Hadoop集群 Flink集群 Kafka集群 HBase集群 StarRocks集群 ClickHouse集群 OpenSearch集群类型 Flume 1.9.0 1.9.0 1.9.0 - - - - OpenLDAP 2.5.13 2.5.13 2.5.13 2.5.13 - - 2.5.13 Ranger 2.1.0 2.1.0 2.1.0 2.1.0 - - - ZooKeeper 3.7.0 3.7.0 3.7.0 3.7.0 - 3.7.0 - Flink 1.16.1 1.16.1 - - - - - HDFS 3.3.4 3.3.4 - 3.3.4 - - - MapReduce2 3.3....

「火山引擎」数据中台产品双月刊 VOL.04

HBase 的必选组件;Impala、Kudu、ClickHouse、Doris、StarRocks 等服务的核心指标接入监控和告警管理;HBase 支持 Snappy 压缩;Hive,组件行为与开源保持一致,不再支持中文的表字段名;Doris,版本升级至1.1.5;Hudi,修复开源社区版本存在潜在数据丢失等问题。 - **新增** **EMR** **软件** **栈** **2.1.1:** Impala、Kudu、ClickHouse、Doris 等服务的核心组件接入告警管理;为 Oozie 系统用户赋予 HDFS 全路径、Hive ...

DescribeDBInstances

调用 DescribeDBInstances 接口查询 HBase 实例列信息。 请求类型同步请求。 请求参数名称 类型 是否必选 示例值 描述 RegionId String 是 cn-beijing 地域 ID。 说明 您可以调用 DescribeRegions 接口查询 ... "StorageType": "HdfsHdd", "UsedStorage":0, "SubnetId":"subnet-1g15j13jtzgu88ibuxwqp****", "Tags":[ { ...

数据结构

本文汇总格数据库 HBase 版的 API 接口中使用的数据结构定义详情。 AllowListObject白名单信息。被 DescribeAllowLists 接口引用。 名称 类型 示例值 描述 AllowListDesc String test 白名单的备注。 AllowListI... StorageType String HdfsHdd 实例的存储类型,取值: HdfsHdd:HDD 文件存储。 HdfsSsd:SSD 文件存储。 StorageCapacity Integer 500 实例总存储容量,单位:GiB。 UsedStorage Float 0 实例已使用的存储容量,单位...

「火山引擎」数智平台 VeDI 数据中台产品双月刊 VOL.04

HBase 的必选组件;Impala、Kudu、ClickHouse、Doris、StarRocks 等服务的核心指标接入监控和告警管理;HBase 支持 Snappy 压缩;Hive,组件行为与开源保持一致,不再支持中文的表字段名;Doris,版本升级至1.1.5;Hudi,修复开源社区版本存在潜在数据丢失等问题。 - **新增** **EMR** **软件** **栈** **2.1.1:** Impala、Kudu、ClickHouse、Doris 等服务的核心组件接入告警管理;为 Oozie 系统用户赋予 HDFS 全路径、Hive 库...

EMR 1.3.1版本说明

HBase集群 OpenSearch集群 TensorFlow集群 Doris集群 Pulsar集群 Flume 1.9.0 1.9.0 1.9.0 - - - - - - - OpenLDAP 2.4.58 2.4.58 2.4.58 2.4.58 2.4.58 2.4.58 2.4.58 2.4.58 - - Ranger 2.1.0 2.1.0 2.1.0 2.1.0 2.1.0 2.1.0 - 2.1.0 - - ZooKeeper 3.7.0 3.7.0 3.7.0 - - 3.7.0 - 3.7.0 - 3.7.0 Flink 1.11 1.11 - - - - - - - - HDFS 3.3.1 3.3.1 - 3.3.1 3.3.1 3.3.1 - 3.3.1 - - MapReduce2 3.3.1 3.3.1 - - - - - 3.3.1 -...

特惠活动

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

产品体验

体验中心

云服务器特惠

云服务器
云服务器ECS新人特惠
立即抢购

白皮书

一图详解大模型
浓缩大模型架构,厘清生产和应用链路关系
立即获取

最新活动

爆款1核2G共享型服务器

首年60元,每月仅需5元,限量秒杀
立即抢购

火山引擎增长体验专区

丰富能力激励企业快速增长
查看详情

数据智能VeDI

易用的高性能大数据产品家族
了解详情

一键开启云上增长新空间

立即咨询