# 背景## **HDFS** **简介**HDFS 全名 Hadoop Distributed File System,是业界使用最广泛的开源分布式文件系统。原理和架构与 Google 的 GFS 基本一致。它的特点主要有以下几项:- 和本地文件系统一样的目录... 从集群规模和数据量来说,HDFS 平台在公司内部已经成长为总数十万台级别服务器的大平台,支持了 10 EB 级别的数据量。**当前在字节跳动,** **HDFS** **承载的主要业务如下:**- Hive,HBase,日志服务,Kafka 数据...
数据通过 Kafka 流入不同的系统。对于离线链路,数据通常流入到 Spark/Hive 中进行计算,结果通过 ETL 导入到 HBase/ES/ClickHouse 等系统提供在线的查询服务。对于实时链路, 数据会直接进入到 HBase/ES 提供高并发低时延的在线查询服务,另一方面数据会流入到 ClickHouse/Druid 提供在线的查询聚合服务。这带来的问题就像引言中所说,数据被冗余存储了多份,导致了很多一致性问题,也造成了大量的资源浪费。为了解决这个问题,我们设计...
保证数据强一致性**。业界常见的关系型数据库又分商业数据库与开源数据库,其中主流的商业关系型数据库代表有 Oracle、SQL Server、DB2 等;主流的开源关系型数据库代表有 MySQL、PostgreSQL、MariaDB 等。**NoSQL**,Not Only SQL,"不仅仅是 SQL",广泛应用于以互联网业务为代表的场景。NoSQL 数据库又可以**细分为 KV 型 NoSQL 数据库(以 Redis 为代表)、文档型 NoSQL 数据库(以 MongoDB 为代表)、宽列型 NoSQL 数据库(以 HBase ...
数据库采用国产分布式数据库,QianBase;QianBase是基于Trafodion架构。Trafodion是HP公司资助的一个开源项目。它提供了一个成熟的企业级SQL on HBase解决方案。Trafodion的主要设计思想是处理operational类型的工... 任何一个环节出现问题,都会影响整个系统的性能。因此当应用出现问题时,应当从应用程序、操作系统、服务器硬件、网络环境等方面综合排查,定位问题出现在哪个部分,然后集中解决。在服务器硬件、操作系统、应用程序...
表格数据库 HBase 版默认提供了 ZK 连接地址,同时也支持 Thrift 多语言访问,Thrift 是 HBase 标准版实例中的一种服务组件,基于 Apache Thrift(多语言支持的通信框架)开发。本文介绍基于 Java 程序通过 Thrift2 地址... 操作步骤获取 HBase 实例的 Thrift2 连接地址。连接地址查看方法,请参见查看连接地址。 说明 表格数据库 HBase 版默认未开通 Thrift2 地址,您需要先申请 Thrift2 连接地址,申请方法,请参见申请 Thrift2 连接地址...
1 HBase基本概念HBase 是一个开源的非关系型分布式数据库,它参考了 Google 的 BigTable 模型,实现语言为 Java。它是 Apache 软件基金会的 Hadoop 项目的一部分,运行在 HDFS 文件系统之上,为 Hadoop 提供类 BigTabl... HBase 不会就地修改数据,因此删除操作通过创建称为墓碑的新标记来处理。这些删除标记会在compaction时候清理。 3 HBase snapshot 迁移3.1 生成快照使用 HBase Shell 命令进入交互式查询,执行下面命令,对表名为 t1 ...
调用 DescribeZones 接口查询表格数据库 HBase 版指定地域下的可用区资源信息。 请求类型同步请求。 请求参数名称 类型 是否必选 示例值 描述 RegionId String 是 cn-beijing 地域 ID。 说明 您可以调用 DescribeRegions 接口查询 HBase 实例所有可用的地域资源信息,包括地域 ID。 返回数据名称 类型 示例值 描述 Zones Array of ZoneInfo 请参见返回示例。 可用区列表。关于 ZoneInfo 的详细说明,请参见数据结构。 请求示...
调用 DescribeDBAccounts 接口查询 HBase 实例的数据库账号信息。 请求类型同步请求。 请求参数名称 类型 是否必选 示例值 描述 InstanceId String 是 hb-cncq0cf70709**** 实例 ID。 说明 您可以调用 DescribeDBInstance 接口查询目标地域下所有实例的基本信息,包括实例 ID。 PageSize Integer 是 10 每页记录数。取值范围 1~1000,默认值为 10。 PageNumber Integer 是 1 页码。取值大于等于 1,且不超过 Integer 的最大值...
调用 CreateDBAccount 接口为 HBase 实例创建数据库账号。 请求类型同步请求。 请求参数名称 类型 是否必选 示例值 描述 InstanceId String 是 hb-cncq0cf70709**** 实例 ID。 说明 您可以调用 DescribeDBInstance 接口查询目标地域下所有实例的基本信息,包括实例 ID。 AccountName String 是 test1 数据库账号名称。账号名称需满足以下要求: 账号名称在当前实例下唯一。 长度需要在 2~32 个字符内。 由字母、数字、中...
调用 DescribeRegions 接口查询表格数据库 HBase 版可用的地域资源信息。 请求类型同步请求。 请求参数名称 类型 是否必选 示例值 描述 RegionId String 否 cn-beijing 地域 ID。 说明 若该参数留空,会返回当前账号下所有可用的地域资源信息。 返回数据名称 类型 示例值 描述 Regions Array of RegionInfo 请参见返回示例。 地域信息列表。关于 RegionInfo 的详细说明,请参见数据结构。 请求示例json POST https://hbase.v...
Phoenix简介 Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表,插入数据和对HBase数据进行查询。Phoenix完全使用Java编写,作为HBase内嵌的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase扫描,并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器,对于简单查询来说,其性能量级是毫秒,对于百万级别的行数来说,其性能量级是秒。 Phoenix执行方...
调用 ResetDBAccount 接口修改 HBase 实例的数据库账号密码。 请求类型同步请求。 注意事项重置密码可能会导致使用该账号的连接中断,请谨慎操作。 请求参数名称 类型 是否必选 示例值 描述 InstanceId String 是 hbase-cn0212gzmh2xs**** 实例 ID。 说明 您可以调用 DescribeDBInstance 接口查询目标地域下所有实例的基本信息,包括实例 ID。 AccountName String 是 test1 账号名称。 说明 您可以调用 DescribeDBAccoun...
本文为您介绍 2023 年大数据研发治理套件 DataLeap 产品功能和对应的文档动态。 2023/12/21序号 功能 功能描述 使用文档 1 数据集成 ByteHouse CDW 离线写入时,支持写入动态分区; HBase 数据源支持火山引擎 ... 用于验证任意两种数据源之间的数据是否一致。 配置双数据源校验规则 2023/11/27序号 功能 功能描述 使用文档 1 数据开发 临时查询支持“通用 - MySQL 数据库”查询通道; Serverless Flink SQL 任务支持创...