# 背景## **HDFS** **简介**HDFS 全名 Hadoop Distributed File System,是业界使用最广泛的开源分布式文件系统。原理和架构与 Google 的 GFS 基本一致。它的特点主要有以下几项:- 和本地文件系统一样的目录... HBase,日志服务,Kafka 数据存储 - Yarn,Flink 的计算框架平台数据 - Spark,MapReduce 的计算相关数据存储![]()# **字节跳动特色的** **HDFS** **架构**在深入相关的技术细节之前,我们先看看字节跳动的 H...
> 本文结构采用宏观着眼,微观入手,从整体到细节的方式剖析 Hive SQL 底层原理。第一节先介绍 Hive 底层的整体执行流程,然后第二节介绍执行流程中的 SQL 编译成 MapReduce 的过程,第三节剖析 SQL 编译成 MapReduce 的具体实现原理。### 一、HiveHive是什么?Hive 是数据仓库工具,再具体点就是一个 SQL 解析引擎,因为它即不负责存储数据,也不负责计算数据,只负责解析 SQL,记录元数据。Hive直接访问存储在 HDFS 中或者 HBase ...
SeaQuest将底层的数据存储和访问引擎移植到HBase/Hadoop上,并创新地开发出HBase分布式事务处理等新技术,从而推出了Trafodion,并将全部代码开源,贡献给社区。应客户的要求,为了能够让业务系统在国产化环境下性能达... 物理线路等多个方面都密切相关,任何一个环节出现问题,都会影响整个系统的性能。因此当应用出现问题时,应当从应用程序、操作系统、服务器硬件、网络环境等方面综合排查,定位问题出现在哪个部分,然后集中解决。在服...
作者:王佳毅|火山引擎存储&数据库解决方案负责人> 本文整理自火山引擎开发者社区技术大讲堂第三期演讲,主要为大家介绍了 NoSQL 的前世今生和发展脉搏,以及字节跳动 NoSQL 的实践。## NoSQL 应用的现状什么是... 列存:以 HBase 为代表; - 图、时序等新兴的数据库也都属于 NoSQL 范畴。如今 NoSQL 在字节跳动有非常广泛的应用:数万 NoSQL 应用实例,10W+ 台物理服务器资源,字节跳动超过 90% 的在线服务都是 NoSQL 系统提...
本文介绍如何修改 HBase 实例的存储空间大小。 注意事项每个实例默认支持的存储空间上限为 20000GiB,步长为 10GiB。您可以提交工单联系技术支持提高上限。 缩容时,目标存储空间不能小于当前已用存储空间的 140%,请根据实际业务情况合理选择。您可以在实例信息页的配置信息区域查看实例当前已用存储空间大小。 费用说明按量计费实例为后付费,扩缩容后,系统将根据新存储容量按小时进行计费。 包年包年实例为预付费,扩缩容后,系统...
# 背景## **HDFS** **简介**HDFS 全名 Hadoop Distributed File System,是业界使用最广泛的开源分布式文件系统。原理和架构与 Google 的 GFS 基本一致。它的特点主要有以下几项:- 和本地文件系统一样的目录... HBase,日志服务,Kafka 数据存储 - Yarn,Flink 的计算框架平台数据 - Spark,MapReduce 的计算相关数据存储![]()# **字节跳动特色的** **HDFS** **架构**在深入相关的技术细节之前,我们先看看字节跳动的 H...
> 本文结构采用宏观着眼,微观入手,从整体到细节的方式剖析 Hive SQL 底层原理。第一节先介绍 Hive 底层的整体执行流程,然后第二节介绍执行流程中的 SQL 编译成 MapReduce 的过程,第三节剖析 SQL 编译成 MapReduce 的具体实现原理。### 一、HiveHive是什么?Hive 是数据仓库工具,再具体点就是一个 SQL 解析引擎,因为它即不负责存储数据,也不负责计算数据,只负责解析 SQL,记录元数据。Hive直接访问存储在 HDFS 中或者 HBase ...
容量型存储可作为冷数据存储介质,用于存储低频使用的数据,价格比普通存储介质更优惠。本文介绍如何开通容量型存储。 前提条件为已有实例开通容量型存储时,实例的状态必须为运行中。 操作步骤您可以选择以下任意一种方式开通容量型存储。 方式一:在创建实例时开通容量型存储 在创建实例时,选择开通容量型存储空间,详情请参见创建实例。 方式二:为已有实例开通容量型存储 登录 HBase 控制台。 在顶部菜单栏的左上角,选择实例所属...
SeaQuest将底层的数据存储和访问引擎移植到HBase/Hadoop上,并创新地开发出HBase分布式事务处理等新技术,从而推出了Trafodion,并将全部代码开源,贡献给社区。应客户的要求,为了能够让业务系统在国产化环境下性能达... 物理线路等多个方面都密切相关,任何一个环节出现问题,都会影响整个系统的性能。因此当应用出现问题时,应当从应用程序、操作系统、服务器硬件、网络环境等方面综合排查,定位问题出现在哪个部分,然后集中解决。在服...
作者:王佳毅|火山引擎存储&数据库解决方案负责人> 本文整理自火山引擎开发者社区技术大讲堂第三期演讲,主要为大家介绍了 NoSQL 的前世今生和发展脉搏,以及字节跳动 NoSQL 的实践。## NoSQL 应用的现状什么是... 列存:以 HBase 为代表; - 图、时序等新兴的数据库也都属于 NoSQL 范畴。如今 NoSQL 在字节跳动有非常广泛的应用:数万 NoSQL 应用实例,10W+ 台物理服务器资源,字节跳动超过 90% 的在线服务都是 NoSQL 系统提...
> 本文整理自火山引擎开发者社区技术大讲堂第三期演讲,主要介绍了 NoSQL 的前世今生和发展脉搏,以及字节跳动 NoSQL 的实践。**作者:王佳毅|火山引擎存储&数据库解决方案负责人**## NoSQL 应用的现状什么是 ... 列存:以 HBase 为代表;- 图、时序等新兴的数据库也都属于 NoSQL 范畴。如今 NoSQL 在字节跳动有非常广泛的应用:数万 NoSQL 应用实例,10W+ 台物理服务器资源,字节跳动超过 90% 的在线服务都是 NoSQL 系统提供...
其中消耗了巨大的计算和存储资源,伴随样本量的增大,这样的方案将消耗数个 EB 的存储,使得迭代变得不可能。我们基于 Hudi 实现了 ColumnFamily 的能力。这个方案受到了经典 BigTable 存储 Apache HBase 的启发,将 IO pattern 不同的数据使用不同的文件进行存储,以减少不必要的读写放大。原理是将同一个 FileGroup 的不同列数据存储在不同的文件中,在读时进行合并。这种方法会将新增列的数据单独进行文件存储,发生修改或者新增成...
数据会直接进入到 HBase/ES 提供高并发低时延的在线查询服务,另一方面数据会流入到 ClickHouse/Druid 提供在线的查询聚合服务。这带来的问题就像引言中所说,数据被冗余存储了多份,导致了很多一致性问题,也造成了大... Krypton 的数据存放在了 Cloud Store 上,例如:HDFS、标准对象存储接口 S3 等;元数据也放在了外部的存储系统中,例如:ZK 及分布式 KV 等系统。1. **读写分离** - Ingestion Server 负责数据的导入,Co...