## 前言我们不管是基于 Hadoop 的数据仓库(如 Hive ),还是基于传统 MPP 架构的数据仓库(如Teradata ),抑或是基于传统 Oracle 、MySQL 、MS SQL Server 关系型数据库的数据仓库,其实都面临如下问题:- 怎么组织数据仓库中的数据?- 怎么组织才能使得数据的使用最为方便和便捷?- 怎么组织才能使得数据仓库具有良好的可扩展性和可维护性?> **Ralph Kimball 维度建模理论很好地回答和解决了上述问题。**维度建模理论和技术也是...
# 背景## **HDFS** **简介**HDFS 全名 Hadoop Distributed File System,是业界使用最广泛的开源分布式文件系统。原理和架构与 Google 的 GFS 基本一致。它的特点主要有以下几项:- 和本地文件系统一样的目录... Hive,HBase,日志服务,Kafka 数据存储 - Yarn,Flink 的计算框架平台数据 - Spark,MapReduce 的计算相关数据存储![]()# **字节跳动特色的** **HDFS** **架构**在深入相关的技术细节之前,我们先看看字节...
其本身是 Apache Hadoop 项目的一个模块,作为大数据存储的基石提供高吞吐的海量数据存储能力。自从 2006 年 4 月份发布以来,HDFS 目前依然有着非常广泛的应用,以字节跳动为例,随着公司业务的高速发展,目前 HDFS 服务的规模已经到达“双 10”的级别:- 单集群节点 10 万台级别 - 单集群数据量达到 10EB 级别**主要使用场景包括**- 离线 - OLAP 查询引擎存储底座,包括 Hive/ClickHouse/Presto 等场景 - 机...
其本身是 Apache Hadoop 项目的一个模块,作为大数据存储的基石提供高吞吐的海量数据存储能力。自从 2006 年 4 月份发布以来,HDFS 目前依然有着非常广泛的应用,以字节跳动为例,随着公司业务的高速发展,目前 HDFS 服务的规模已经到达“双 10”的级别:* 单集群节点 10 万台级别* 单集群数据量达到 10 EB 级别 **主要使用场景包括*** 离线+ OLAP 查询引擎存储底座,包括 Hive/ClickHouse/Presto 等场景+ 机器...
引擎绑定用于 DataLeap 与 EMR 账号对接,以实现由 DataLeap 进行相应的账号权限管理。通过 Hadoop 集群绑定功能,DataLeap 可以接入 EMR Hive 集群安全访问模式,从而实现对该模式下的 EMR Hive 数据源的库表权限管理。 1 前提条件已创建相应的 EMR 集群。创建 EMR 集群的详细说明可参见创建集群。 Hadoop 类型集群已部署 Ranger 服务并开启 Hive Plugin 和 SparkSQL Plugin。部署 Ranger 服务并开启 Hive Plugin 和 SparkSQL Plu...
本文为您介绍E-MapReduce中常用文件的路径。您可以登录Master节点查看常用文件的安装路径。 1 大数据组件目录软件安装目录在/usr/lib/emr/current/xxx下,例如: Hadoop:/usr/lib/emr/current/hadoop Spark :/usr/lib/emr/current/spark Hive:/usr/lib/emr/current/hive Flink:/usr/lib/emr/current/flink Flume:/usr/lib/emr/current/flume 您也可以通过登录Master节点,执行env grep xxx命令查看软件的安装目录。 例如,执行以...
# 背景## **HDFS** **简介**HDFS 全名 Hadoop Distributed File System,是业界使用最广泛的开源分布式文件系统。原理和架构与 Google 的 GFS 基本一致。它的特点主要有以下几项:- 和本地文件系统一样的目录... Hive,HBase,日志服务,Kafka 数据存储 - Yarn,Flink 的计算框架平台数据 - Spark,MapReduce 的计算相关数据存储![]()# **字节跳动特色的** **HDFS** **架构**在深入相关的技术细节之前,我们先看看字节...
火山引擎 E-MapReduce(EMR)是开源 Hadoop 生态的企业级大数据分析系统,完全兼容开源,为您提供 Hadoop、Spark、Hive、Flink、Hudi、Iceberg 等生态组件集成和管理。详见服务开发指南。本文将为您介绍在 EMR 控制台创建集群的操作步骤和相关配置。 1 前提条件已完成IAM跨服务授权: 首次登录 EMR 详情页会提示完成针对(ECS、VPC、EIP等)跨服务授权。 通过右上角用户 > 访问控制 > 角色管理右上角搜索栏搜索 "EMR"关键字,确认 “ Se...
1 概述说明火山引擎 E-MapReduce(EMR)自 EMR-3.1.1(对应 Hadoop 3.x 和 Hive 3.x)、EMR-2.2.0(对应 Hadoop 2.x 和 Hive 2.x)开始支持 Proton SDK。本文描述了如何在火山 EMR 的 Hive,或在自建 Hadoop 集群的 Hive 中使用 Proton SDK 读写 TOS 数据。 2 火山 EMR2.1 认证配置火山引擎 EMR 认证配置详见:Hadoop 使用 Proton - 认证配置。 3 自建 Hadoop 集群3.1 配置 Hadoop 环境根据不同 Proton 版本,下载对应的 Proton 包,详见:H...
其本身是 Apache Hadoop 项目的一个模块,作为大数据存储的基石提供高吞吐的海量数据存储能力。自从 2006 年 4 月份发布以来,HDFS 目前依然有着非常广泛的应用,以字节跳动为例,随着公司业务的高速发展,目前 HDFS 服务的规模已经到达“双 10”的级别:- 单集群节点 10 万台级别 - 单集群数据量达到 10EB 级别**主要使用场景包括**- 离线 - OLAP 查询引擎存储底座,包括 Hive/ClickHouse/Presto 等场景 - 机...
越来越多的企业发现了大数据处理和分析框架的力量,如 Apache Hadoop 和 Apache Spark,但他们也发现了这些技术的一些挑战。尤其重要的是,随着大数据行业的快速变化,许多客户需要一个安全且长期的平台来支持业务快速发展。火山引擎 E-MapReduce(简称“EMR”)是开源 Hadoop 生态的企业级大数据分析系统,完全兼容开源,提供 Hadoop、Spark、Hive、Flink、Hudi、Iceberg 等生态组件集成和管理,支持海量数据的存储、查询和分析,可弹性伸...
1 Hive Catalog1.1 HDFS存储拷贝hadoop集群中的core-site.xml, hdfs-site.xml的内容到StarRocks集群中配置管理中,重启组件后生效 创建Hive Catalog sql CREATE EXTERNAL CATALOG hive_catalog PROPERTIES ("hive.metastore.uris"="thrift://{hms_ip:hms_port}", "type" = "hive");查询hive表记录 sql select * from hive_catalog.db_1.table1 limit 1;1.2 TOS存储创建Hive Catalog sql CREATE EXTERNAL CATALOG hive_tos_catal...
其本身是 Apache Hadoop 项目的一个模块,作为大数据存储的基石提供高吞吐的海量数据存储能力。自从 2006 年 4 月份发布以来,HDFS 目前依然有着非常广泛的应用,以字节跳动为例,随着公司业务的高速发展,目前 HDFS 服务的规模已经到达“双 10”的级别:* 单集群节点 10 万台级别* 单集群数据量达到 10 EB 级别 **主要使用场景包括*** 离线+ OLAP 查询引擎存储底座,包括 Hive/ClickHouse/Presto 等场景+ 机器...