You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

数据仓库书籍hadoop

从数据接入、查询分析到可视化展现,提供一站式洞察平台,让数据发挥价值

社区干货

浅谈大数据建模的主要技术:维度建模 | 社区征文

## 前言我们不管是基于 Hadoop数据仓库(如 Hive ),还是基于传统 MPP 架构的数据仓库(如Teradata ),抑或是基于传统 Oracle 、MySQL 、MS SQL Server 关系型数据库的数据仓库,其实都面临如下问题:- 怎么组织数据仓库中的数据?- 怎么组织才能使得数据的使用最为方便和便捷?- 怎么组织才能使得数据仓库具有良好的可扩展性和可维护性?> **Ralph Kimball 维度建模理论很好地回答和解决了上述问题。**维度建模理论和技术也是...

火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0(上)

> 更多技术交流、求职机会,欢迎关注**字节跳动数据平台微信公众号,回复【1】进入官方交流群** **近日,《火山引擎云原生数据仓库 ByteHouse 技术白皮书》正式发布。** 白皮书简述了 ByteHouse 基于 ClickHous... ByteHouse 需要支持海量数据的实时接入、无限扩展存储、实时合并计算和关联聚合查询。 **随着大数据应用的深入发展,最核心的业务需求如下:****1)提高分析的实时性**最近 10 年,以 hadoop 技术体系为代表...

干货|揭秘字节跳动对Apache Doris 数据湖联邦分析的升级和优化

>火山引擎 EMR 作为一款云原生开源大数据平台产品,集成了包括 Hadoop、Spark、Flink 等引擎,并做到100%开源兼容。Doris 作为 OLAP 领域中一款极具代表性的开源组件,也被集成到了火山引擎 EMR 产品生态中。 > 本文... 其次介绍 Apache Doris 数据湖联邦分析的整体设计和相关特性,最后介绍 Apache Doris 在数据湖联邦分析上的未来规划。# 1. 湖仓一体架构演进回顾湖仓一体的发展史,主要经历了三个阶段。第一个阶段是数据仓库,第...

观点 | 数仓领域的未来趋势解读

字节跳动数据平台> > > 数据仓库发展历程很久,随着云计算等技术发展以及海量数据应用场景等出现,对数据仓库提出全新要求,高性能、实时性、云原生等成为数据仓库发展关键词,也因此演变出不同的数仓发... 往往是数据量最大的数据源,包括用户访问日志、用户操作记录等,数据量通常是业务数据的数百倍。 **随着大数据应用的深入发展,最核心的业务需求如下:****1)提高分析的实时性**最近10年,以hadoop技术...

特惠活动

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

数据仓库书籍hadoop-优选内容

浅谈大数据建模的主要技术:维度建模 | 社区征文
## 前言我们不管是基于 Hadoop数据仓库(如 Hive ),还是基于传统 MPP 架构的数据仓库(如Teradata ),抑或是基于传统 Oracle 、MySQL 、MS SQL Server 关系型数据库的数据仓库,其实都面临如下问题:- 怎么组织数据仓库中的数据?- 怎么组织才能使得数据的使用最为方便和便捷?- 怎么组织才能使得数据仓库具有良好的可扩展性和可维护性?> **Ralph Kimball 维度建模理论很好地回答和解决了上述问题。**维度建模理论和技术也是...
使用 Hive 访问 CloudFS 中的数据
Hive 是基于 Hadoop 的一个数据仓库工具,用来进行数据提取、转化、加载。本文介绍如何配置 Hive 服务来访问 CloudFS 中的数据。 前提条件在使用 Hive 服务访问大数据文件存储服务 CloudFS 前,确保您已经完成以下准备工作: 开通大数据文件存储服务 CloudFS 并创建文件存储,获取挂载信息。详细操作请参考创建文件存储系统。 开通 E-MapReduce 服务并创建集群。详细操作请参考E-MapReduce 集群创建。 在配置 Hive 服务之前,请确认/u...
数据迁移
1 迁移和部署 Apache Hive 到火山引擎 EMRApache Hive 是一个开源的数据仓库和分析包,它运行在 Apache Hadoop 集群之上。Hive 元存储库包含对表的描述和构成其基础的基础数据,包括分区名称和数据类型。Hive 是可以在火山引擎 E-MapReduce(简称“EMR”)上运行的服务组件之一。火山引擎 EMR 集群的 Hive 元数据可以选择内置数据库、外置数据库和 Metastore 服务三种: 内置数据库作为 Hive 元数据建议只应用于开发和测试环境。 使用...
火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0(上)
> 更多技术交流、求职机会,欢迎关注**字节跳动数据平台微信公众号,回复【1】进入官方交流群** **近日,《火山引擎云原生数据仓库 ByteHouse 技术白皮书》正式发布。** 白皮书简述了 ByteHouse 基于 ClickHous... ByteHouse 需要支持海量数据的实时接入、无限扩展存储、实时合并计算和关联聚合查询。 **随着大数据应用的深入发展,最核心的业务需求如下:****1)提高分析的实时性**最近 10 年,以 hadoop 技术体系为代表...

数据仓库书籍hadoop-相关内容

观点 | 数仓领域的未来趋势解读

字节跳动数据平台> > > 数据仓库发展历程很久,随着云计算等技术发展以及海量数据应用场景等出现,对数据仓库提出全新要求,高性能、实时性、云原生等成为数据仓库发展关键词,也因此演变出不同的数仓发... 往往是数据量最大的数据源,包括用户访问日志、用户操作记录等,数据量通常是业务数据的数百倍。 **随着大数据应用的深入发展,最核心的业务需求如下:****1)提高分析的实时性**最近10年,以hadoop技术...

「火山引擎」数据中台产品双月刊 VOL.03

面向湖仓一体架构的 Serverless 数据处理分析服务,提供源自字节跳动最佳实践的一站式 EB 级海量数据存储计算和交互分析能力,兼容 Spark、Presto、Flink 生态,帮助企业轻松构建智能实时湖仓。### **火山引擎云原生开源大数据E-MapReduce**Stateless 云原生开源大数据平台,提供企业级的 Hadoop、Spark、Flink、Hive、Presto、Kafka、ClickHouse、Hudi、Iceberg 等大数据生态组件,100%开源兼容,支持构建实时数据湖、数据仓库、湖...

「火山引擎数据中台产品双月刊」 VOL.06

提供源自字节跳动最佳实践的一站式 EB 级海量数据存储计算和交互分析能力,兼容 Spark、Presto、Flink 生态,帮助企业轻松构建智能实时湖仓。**火山引擎** **云原生** **开源** **大数据** **E-MapReduce**Stateless 云原生开源大数据平台,提供企业级的 Hadoop、Spark、Flink、Hive、Presto、Kafka、ClickHouse、Hudi、Iceberg 等大数据生态组件,100%开源兼容,支持构建实时数据湖、数据仓库、湖仓一体等数据平台架构,帮助用户轻...

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

创建集群

火山引擎 E-MapReduce(EMR)是开源 Hadoop 生态的企业级大数据分析系统,完全兼容开源,为您提供 Hadoop、Spark、Hive、Flink、Hudi、Iceberg 等生态组件集成和管理。详见服务开发指南。本文将为您介绍在 EMR 控制台创... ClickHouse:是一款用于联机分析的列式数据库管理系统,具有极致压缩率和极速查询性能。被广泛的应用于互联网广告、金融、工业互联网等众多领域。 StarRocks:是一款高性能分析型数据仓库,使用向量化、MPP 架构、可...

「火山引擎」数智平台 VeDI 数据中台产品双月刊 VOL.03

面向湖仓一体架构的 Serverless 数据处理分析服务,提供源自字节跳动最佳实践的一站式 EB 级海量数据存储计算和交互分析能力,兼容 Spark、Presto、Flink 生态,帮助企业轻松构建智能实时湖仓。**火山引擎云原生开源大数据E-MapReduce**Stateless 云原生开源大数据平台,提供企业级的 Hadoop、Spark、Flink、Hive、Presto、Kafka、ClickHouse、Hudi、Iceberg 等大数据生态组件,100%开源兼容,支持构建实时数据湖、数据仓库、湖仓一...

LAS Spark 在 TPC-DS 的优化揭秘

文章主要介绍了火山引擎湖仓一体分析服务 LAS Spark(下文以 LAS Spark 指代)在 TPC-DS 上的性能突破与优化策略。TPC-DS 是一个模拟复杂数据仓库环境的测试基准,LAS Spark 通过采用规则优化、缓存优化和运行时优化三... 测试用的数据和值有倾斜,与真实数据一致。可以说 TPC-DS 是一个与真实场景非常接近的测试集,难度较大,覆盖场景广,能有效反应不同业务的需求。TPC-DS 的这个特点与大数据的分析挖掘应用非常类似。Hadoop 等大数据...

我的大数据学习总结 |社区征文

Python以及Scala这几种在大数据开发中常用的编程语言。然后着重学习Hadoop核心技术如HDFS和MapReduce;接触数据库Hive后,学习数据流技术Kafka和分布式协调服务Zookeeper。深入研究Yarn和求执行引擎Spark。此外还了解其他技术如HBase、Sqoop等。同时学习计算机网络知识和操作系统原理。后面再系统学习关系数据库MySQL和数据仓库理论。学习分布式原理和架构也很重要。这个学习顺序参考了我之前的工作和学习经历情况后订定。需要注意...

数仓进阶篇@记一次BigData-OLAP分析引擎演进思考过程 | 社区征文

拥有和Hadoop一样的可扩展性、它提供了类SQL-类Hsql语法,在多用户场景下亦能拥有较高的响应速度和吞吐量,兼顾数据仓库,具有实时,批处理,多并发等优点。![image.png](https://p1-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/54d03572d84c4a95a31bf3979818d997~tplv-k3u1fbpfcp-5.jpeg?)**Java接入:** ![image.png](https://p9-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/89fa67e29f5048288a9b4949d9d0cd24~tplv-k3u1fbpfcp-5....

【送书福利】5 本大数据热门好书!

火山引擎开发者社区 Meetup 第四期数据技术专场本周六即将和大家见面。本次活动邀请到了火山引擎的 5 位工程师,为大家从 A/B 测试、数据分析技术、埋点治理、流批数据处理等角度为大家揭秘字节跳动高速增长的数据技... 面向数据科学家。本书基于近些年实验领域的研究成果和实践经验,对实验的方法和应用做了很好的全景式描述,是一本 **兼顾系统性的方法论和基于实战的经验法则** 的书籍。根据微软、亚马逊、谷歌和领英每年运行的...

特惠活动

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

产品体验

体验中心

云服务器特惠

云服务器
云服务器ECS新人特惠
立即抢购

白皮书

数据智能知识图谱
火山引擎数智化平台基于字节跳动数据平台,历时9年,基于多元、丰富场景下的数智实战经验打造而成
立即获取

最新活动

爆款1核2G共享型服务器

首年60元,每月仅需5元,限量秒杀
立即抢购

火山引擎增长体验专区

丰富能力激励企业快速增长
查看详情

数据智能VeDI

易用的高性能大数据产品家族
了解详情

一键开启云上增长新空间

立即咨询