初步实现对 Hive 外表及数据湖格式的接入。# 支持 Hive 外表随着企业数据决策的要求越来越高,Hive 数据仓库已成为了许多组织的首选工具之一。通过在查询场景中结合 Hive, ByConity 可以提供更全面的企业决策支... 根据不同的数据库的命名模式来实现对应的处理。此类设计可以透明的兼容之前已经创建的库表元数据,仅就新增的外部数据目录进行更新。比如,创建 Hive 的 catalog 后,如果 query 的表名中带了 hive 的 catalog 名字...
METASTORE:元数据库。存储 Hive 中各种表和分区的所有结构信息。5. EXECUTION ENGINE:执行引擎。负责提交 COMPILER 阶段编译好的执行计划到不同的平台上。上图的基本流程是:**步骤1**:UI 调用 DRIVER 的接口;**步骤2**:DRIVER 为查询创建会话句柄,并将查询发送到 COMPILER(编译器)生成执行计划;**步骤3和4**:编译器从元数据存储中获取本次查询所需要的元数据,该元数据用于对查询树中的表达式进行类型检查,以及基于查询...
> 企业级数仓架构设计与选型的时候需要从开发的便利性、生态、解耦程度、性能、 安全这几个纬度思考。本文作者:惊帆 来自于数据平台 EMR 团队# 前言Apache Hive 经过多年的发展,目前基本已经成了业界构建超大规... 大数据架构下的企业数仓构建抛弃了基于关系型数据库下的 Cube 设计,直接采用基于分布式任务进行处理来构建多层数据模型。因此对于构建企业数仓的服务来说,有着如下要求:- 支持长时任务,通常是小时以上,天级别居...
## 前言我们不管是基于 Hadoop 的数据仓库(如 Hive ),还是基于传统 MPP 架构的数据仓库(如Teradata ),抑或是基于传统 Oracle 、MySQL 、MS SQL Server 关系型数据库的数据仓库,其实都面临如下问题:- 怎么组织数据仓库中的数据?- 怎么组织才能使得数据的使用最为方便和便捷?- 怎么组织才能使得数据仓库具有良好的可扩展性和可维护性?> **Ralph Kimball 维度建模理论很好地回答和解决了上述问题。**维度建模理论和技术也是...
1. 产品概述 支持Hive数据连接。 说明 在连接数据之前,请收集以下信息: 数据库所在服务器的IP地址和端口号; 数据库的用户名和密码。 2. 使用限制 用户需具备 项目编辑 或 权限-按内容管理-模块-数据连接-新建连接 权限,才能新建数据连接。 3. 操作步骤 1.点击 数据融合 > 数据连接 。2.在数据连接左上角,点击 新建数据连接 按钮,选择 Hive 。 填写所需的基本信息,并进行 测试连接 。 1)共有两种鉴权方式:用户名和密码,kerberos若...
访问 Hive 数据有三种方式分别是 HiveServer2、Hive Client、HDFS。对于 HDFS 的访问权限控制可以参考 HDFS 配置章节,下面介绍 Ranger 对 Hive 数据的访问控制配置。 1 使用前提已创建 E-MapReduce(EMR)包含 Ranger 服务的集群,操作详见:创建集群。 Ranger UI 的登录界面操作,详见:Ranger 概述---Ranger Admin UI 访问。 2 启用 Ranger Hive Plugin集群详情 -> 服务列表 -> Ranger 服务详情 -> 服务概述页面,点击启用 Hive Plu...
Hive表的列一致,具体请参考文末的 类型映射; 列的顺序可以与原表不同; 可以只选择hive表中的部分列,但分区列必须要全部包含; “Partition by expression”应与原Hive表保持一致,“Partition by expression”中的列应在表结构中; ENGINE指定为Hive或者HiveCluster。 引擎参数: cluster name:集群名称(仅 HiveCluster 需要此字段)。 psm:hivemetastore psm地址,常见格式为thrift://host:port。 hive_database_name:远程Hive数据库名...
库表管理提供对元数据的创建、编辑、鉴权归属的统一管理。本文为您介绍如何管理 EMR Hive 库。 1 约束限制用户仅可以查看和管理自己作为库负责人的数据库。 2 前提条件已创建采集器,并将 EMR Hive 集群的元数据采集到数据地图。相关操作说明可参见元数据采集。 3 操作步骤登录 DataLeap 控制台。 选择概览 > 数据地图 > 我的库表 > DB管理,进入 DB管理页面。 单击 EMR Hive 页签,进入 EMR Hive 页面。 可执行以下操作:单击新建EM...
单击 +Hive监控对象按钮,在弹出的窗口中,设置监控对象信息。 单击确定按钮,对象添加成功并显示在监控对象列表中。 创建监控规则。单击某个监控对象的新建规则按钮,进入该对象的新建监控规则页面。 设置规则信息后... 按库录入:在库名下拉列表中选择数据库后,在表名下拉列表中选择需要监控的数据表,单击添加按钮,添加一张表。选择库表时,支持模糊搜索,并可分次添加多个库表。 说明 仅可添加有权限的分区表作为监控对象。 新建监...
本文为您介绍在 E-MapReduce 集群提交 Hive SQL 的三种方式。 1 前提条件使用 SSH 方式登录到集群主节点,详情请参见使用 SSH连接主节点。 2 连接方式2.1 方式一:通过 hive 客户端执行以下命令,切换为 hive 用户。 ... 使用 hive jdbc 连接数据库 java package com.example;import java.sql.*;/** * Hello world! * */public class App{ private static String driverName = "org.apache.hive.jdbc.HiveDriver"; public stati...
输入符合 Hive 语法规范的 SQL 语句。 单击解析SQL 按钮,自动填充字段监控逻辑。 可根据需要修改或增加 SQL 字段监控设置。 可根据需要,设置高级参数。 设置报警设置信息。 单击创建规则按钮,完成规则创建。 说明... 运行设置 *引擎 要创建规则的数据库存储引擎,支持 EMR、LAS 两个选项,下拉可选。 LAS:直接选择,实例默认为 default。 EMR:需从下拉列表中选择一个已创建的实例。 说明 EMR支持快捷模式和安全模式两类集群,集群...
库表管理提供对元数据的创建、编辑、鉴权归属的统一管理。本文为您介绍如何管理 EMR Hive 表。 1 前提条件已创建EMR Hive 数据库。相关操作说明可参见管理 EMR Hive 库。 2 操作步骤登录 DataLeap 控制台。 选择概览 > 数据地图 > 我的库表 > Table管理,进入 Table管理页面。 单击 EMR Hive 页签,进入 EMR Hive 管理页面。 可执行以下操作:新建 EMR Hive 表支持可视化建表和 DDL 建表。 单击新建 EMR Hive 表按钮,进入可视化建表...
云产品构建实时数仓。其中针对用户日志,本实践使用日志服务进行日志采集。当日志服务采集到日志后,日志会通过 DataLeap 的数据集成功能被实时同步到 EMR Hive。日志字段样例如下所示,您可以根据如下数据类型,创建 ... 接入方式 选择 EMR Hive。 数据源名称 数据源名称。 参数配置 认证方式 选择无。 EMR 集群 ID 选择目标 EMR 集群名称。 数据库名 选择目标 Hive 数据库。 Hive 版本号 依据已选择的 EMR 集群,自动展...