然后第二节介绍执行流程中的 SQL 编译成 MapReduce 的过程,第三节剖析 SQL 编译成 MapReduce 的具体实现原理。### 一、HiveHive是什么?Hive 是数据仓库工具,再具体点就是一个 SQL 解析引擎,因为它即不负责存储数据,也不负责计算数据,只负责解析 SQL,记录元数据。Hive直接访问存储在 HDFS 中或者 HBase 中的文件,通过 MapReduce、Spark 或 Tez 执行查询。我们今天来聊的就是 Hive 底层是怎样将我们写的 SQL 转化为 MapRe...
数据通常流入到 Spark/Hive 中进行计算,结果通过 ETL 导入到 HBase/ES/ClickHouse 等系统提供在线的查询服务。对于实时链路, 数据会直接进入到 HBase/ES 提供高并发低时延的在线查询服务,另一方面数据会流入到 Cli... Fragment 1 负责执行两表的 Scan 并进行 Colocate Join,生成的结果 Shuffle 给 Fragment 0 所在的 Data Server,Fragment 0 负责将数据聚合在一起后被 Coordinator 定期的取走。其中 Fragment 1 内部还会被切分成多...
数据通常流入到 Spark/Hive 中进行计算,结果通过 ETL 导入到 HBase/ES/ClickHouse 等系统提供在线的查询服务。对于实时链路, 数据会直接进入到 HBase/ES 提供高并发低时延的在线查询服务,另一方面数据会流入到 Cli... Fragment 1 负责执行两表的 Scan 并进行 Colocate Join,生成的结果 Shuffle 给 Fragment 0 所在的 Data Server,Fragment 0 负责将数据聚合在一起后被 Coordinator 定期的取走。其中 Fragment 1 内部还会被切分成多...
使用SQL查询分析的框架应运而生,常用的有 Hive 、Spark SQL 、Flink SQL、Phoenix 等。这些框架都能够使用标准的 SQL 或者 类 SQL 语法灵活地进行数据的查询分析。这些 SQL 经过解析优化后转换为对应的作业程序来运行,如 Hive 本质上就是将 SQL 转换为 MapReduce 或 Spark 作业,Phoenix 将 SQL 查询转换为一个或多个 HBase Scan。### 六、数据应用处理好的数据就可以输出应用了,如可视化展示;推动业务决策分析;用于推荐算...
DataSail 中的 HBase 数据源为您提供读取和写入 HBase 的双向通道数据集成能力,实现不同数据源与 HBase 之间进行数据传输。下文为您介绍 HBase 数据同步的能力支持情况。 1 支持的版本HBase 使用的驱动版本是 HBas... 主键类型 选择数据表中的主键类型,支持选择主键为字符类型、二进制类型。 Start RowKey 输入读取的起始 RowKey。 Stop RowKey 输入读取的终止 RowKey。 Scan Cache Size 设置单次读取的缓存大小。 Scan ...
未开启登录认证获取 HBase 实例的 ZK 连接地址。具体操作步骤,请参见查看连接地址。 配置 ZK 地址连接 HBase 实例。 在本地业务环境的 Maven 中添加如下配置:java org.apache.hbase hbase-client 2.2.5 在本地业... import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.client.Result;import org.apache.hadoop.hbase.client.ResultScanner;import org.apache.hadoop.hbase.client.Scan;import org.apach...
未开启登录认证获取 HBase 实例的 ZK 连接地址。具体操作步骤,请参见查看连接地址。 配置 ZK 地址连接 HBase 实例。 在本地业务环境的 Maven 中添加如下配置:java org.apache.hbase hbase-client 2.2.5 在本地业... import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.client.Result;import org.apache.hadoop.hbase.client.ResultScanner;import org.apache.hadoop.hbase.client.Scan;import org.apach...
调用 CreateDBInstance 接口创建 HBase 实例。 请求类型异步请求。 请求参数名称 类型 是否必选 示例值 描述 RegionId String 是 cn-beijing 地域 ID。 说明 您可以调用 DescribeRegions 接口查询 HBase 实例所有可用的地域资源信息,包括地域 ID。 ZoneId String 是 cn-beijing-a 可用区 ID。 说明 您可以调用 DescribeZones 接口查询 HBase 实例指定地域下所有可用区的资源信息,包括可用区 ID。 MasterSpec String...
调用 ResetDBAccount 接口修改 HBase 实例的数据库账号密码。 请求类型同步请求。 注意事项重置密码可能会导致使用该账号的连接中断,请谨慎操作。 请求参数名称 类型 是否必选 示例值 描述 InstanceId String 是 hbase-cn0212gzmh2xs**** 实例 ID。 说明 您可以调用 DescribeDBInstance 接口查询目标地域下所有实例的基本信息,包括实例 ID。 AccountName String 是 test1 账号名称。 说明 您可以调用 DescribeDBAccoun...
如需通过公网地址访问 HBase 实例,需确保运行 Java 工具的设备 IP 地址已加入 HBase 实例的白名单中。白名单设置方法,请参见编辑白名单。 已在 ECS 实例或本地设备上安装 Java 环境,建议使用 JDK 8 版本。更多详情,请参见 Java Downloads。 操作步骤获取 HBase 实例的 Thrift2 连接地址。连接地址查看方法,请参见查看连接地址。 说明 表格数据库 HBase 版默认未开通 Thrift2 地址,您需要先申请 Thrift2 连接地址,申请方法,请...
HBase 实例创建数据库账号。 请求类型同步请求。 请求参数名称 类型 是否必选 示例值 描述 InstanceId String 是 hb-cncq0cf70709**** 实例 ID。 说明 您可以调用 DescribeDBInstance 接口查询目标地域下所有实例的基本信息,包括实例 ID。 AccountName String 是 test1 数据库账号名称。账号名称需满足以下要求: 账号名称在当前实例下唯一。 长度需要在 2~32 个字符内。 由字母、数字、中划线(-)、下划线(_)组成,且大小...
HBase 实例的白名单中。白名单设置方法,请参见编辑白名单。 已在 ECS 实例或本地设备上安装 Python 程序,建议使用 Python 3.x.x 版本。您可以通过 python version 命令检查当前 Python 的版本。 已在 ECS 实例或本... 操作步骤获取 HBase 实例的 Thrift2 连接地址。连接地址查看方法,请参见查看连接地址。说明 表格数据库 HBase 版默认未开通 Thrift2 地址,您需要先申请 Thrift2 连接地址,申请方法,请参见申请 Thrift2 连接地址。...
本文介绍表格数据库 HBase 版实例中监控告警支持的指标项及相关说明。 注意事项云监控默认每 30 秒 获取一次数据,但会根据查看监控数据时选择的查询时间范围,将获取的数据根据不同的周期和方式进行聚合展示,具体规... RPC 请求平均响应时间 μs Region Server 中 RPC 请求平均响应时间,包括请求等待时间、处理时间等。 RPC 请求最大响应时间 μs Region Server 中 RPC 请求最大响应时间,包括请求等待时间、处理时间等。 Scan 请求...