hadoop简介

大数据研发治理套件

从数据接入、查询分析到可视化展现，提供一站式洞察平台，让数据发挥价值

社区干货

字节跳动基础架构工程师**林友权**和**邵凯阳**将在大会上分享**字节跳动提出的** **Hadoop** **大数据** **生态云原生化演进实践方案——** **Yodel** **(** **YARN** **on Gödel)。****演讲主题**:《字节跳动 Hadoop 云原生化演进实践》**演讲时间**:2022年9月24日 14:00-14:30**议题简介**:Yodel(YARN on Gödel)是字节跳动提出的 Hadoop 大数据生态云原生化演进实践方案,其中 Gödel 是公司内增强版 Kubernetes ,目...

演讲预告|字节跳动 Hadoop 云原生化演进实践

Hadoop 是 Apache 基金会旗下知名基础架构开源项目。作为国内少见的 Hadoop 开源生态技术峰会,第四届 China Apache Hadoop Meetup 将于 2022年9月24日在上海举办。本届峰会以 **“云数智聚砥柱笃行”**为主题,汇... 《字节跳动 Hadoop 云原生化演进实践》 **演讲时间**:2022年9月24日(周六) 14:00-14:30 **议题简介**:Yodel(YARN on Gödel)是字节跳动提出的 Hadoop 大数据生态云原生化演进实践方案,其中 Gö...

字节跳动10万节点 HDFS 集群多机房架构演进之路

# **背景**## **现状**HDFS 全称是 Hadoop Distributed File System,其本身是 Apache Hadoop 项目的一个模块,作为大数据存储的基石提供高吞吐的海量数据存储能力。自从 2006 年 4 月份发布以来,HDFS 目前依然有... 本文会介绍这部分的工作。![]()## **动机**业务的迅猛发展和业务场景的多样性给 HDFS 带来了很大的挑战,这里列几个**比较有代表性的问题:**- 如何在容量上满足业务的发展需求 - 如何满足近线场景对低延...

9年演进史:字节跳动 10EB 级大数据存储实战

# 背景## **HDFS** **简介**HDFS 全名 Hadoop Distributed File System,是业界使用最广泛的开源分布式文件系统。原理和架构与 Google 的 GFS 基本一致。它的特点主要有以下几项:- 和本地文件系统一样的目录树视图 - Append Only 的写入(不支持随机写) - 顺序和随机读 - 超大数据规模 - 易扩展,容错率高## HDFS 在字节跳动的发展字节跳动已经应用 HDFS 非常长的时间了。经历了 9 年的发展,目前已直接支持了十...

特惠活动

域名注册服务

cn/top/com等热门域名，首年低至1元，邮箱建站必选

￥1.00/首年起32.00/首年起

立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗，加速分发更实惠

￥2.00/年20.00/年

立即购买

hadoop简介-优选内容

演讲预告|字节跳动 Hadoop 云原生化演进实践

9年演进史:字节跳动 10EB 级大数据存储实战

字节跳动10万节点 HDFS 集群多机房架构演进之路

hadoop简介-相关内容

访问文件存储实例

文件存储场景(即HDFS模式)的文件存储实例支持 HDFS 语义、高效元数据操作、高带宽 IO 吞吐,主要用于传统的大数据离线分析场景。本文为您介绍如何创建、挂载文件存储场景实例,并使用 Hadoop Client 访问文件存储实例。前提条件已完成火山引擎企业实名认证,并授权大数据文件存储产品访问其他服务的权限。更多信息,请参见跨服务授权。已购买 ECS 实例并为 ECS 实例安装 Hadoop 客户端。更多信息,请参见购买云服务器。建议您使用的...

集群类型

本文介绍火山引擎 E-MapReduce(EMR) 支持的集群类型以及各集群相关的操作。集群描述重要操作 Hadoop Hadoop生态圈的基础服务组件,HDFS,YARN,MapReduce组件。提供离线数据分析,Hive、Spark、Tez。提供实时数据分析,Flink、SparkStreaming。提供交互式分析查询,Presto、Trino。创建集群登录集群扩容集群释放集群 Flink Flink 是一个面向有限流和无限流有状态计算的分布式计算框架,Flink集群提供开源消息引擎...

配置 MapReduce 的 HDFS 服务使用 CloudFS

火山引擎 E-MapReduce 是开源 Hadoop 生态的企业级大数据分析系统,提供 Hadoop、Spark、Hive、Flink 等生态组件集成和管理。本文介绍如何配置 MapReduce 上的 HDFS 服务来使用文件存储 CloudFS。前提条件在配置 MapReduce 使用 CloudFS,确保您已经完成以下准备工作: 开通大数据文件存储服务 CloudFS 并创建文件存储,获取挂载信息。详细操作请参考创建文件存储系统。开通 E-MapReduce 服务并创建集群。详细操作请参考E-MapReduc...

域名注册服务

cn/top/com等热门域名，首年低至1元，邮箱建站必选

￥1.00/首年起32.00/首年起

立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗，加速分发更实惠

￥2.00/年20.00/年

立即购买

Hadoop 使用 Proton

下文首先介绍在火山引擎EMR 和自建Hadoop集群两种场景下,如何使用Proton实现存算分离架构。接着介绍存算分离模式下回收站的配置方式,最后介绍如何在开发环境中引入 proton 依赖。 1 火山引擎EMR1.1 认证配置1.1.1 使用 Assume Role 认证 TOS Assume Role 不需要您显性的将自己账号 AK/SK 配置进集群,集群在运行过程中会自动通过 IAM 获取临时身份凭据。前置条件开通火山引擎 E-MapReduce(EMR)服务,且创建EMR集群。详见创建集...

基于Spark的词频统计

实验介绍本次实验练习介绍了如何在虚拟机内进行批示计算Spark的词频统计类型的数据处理。在开始实验前需要先进行如下的准备工作: 下载并配置完成虚拟机。在虚拟机内已完成Hadoop环境的搭建。关于实验预计部署时间:90分钟级别:初级相关产品:批式计算Spark受众:通用操作步骤步骤一:安装并配置批示计算Spark1.执行以下命令完成Spark的下载及安装bash wget https://dlcdn.apache.org/spark/spark-3.2.0/spark-3.2.0-bin-hadoop...

迁移 Hadoop 文件系统数据至 CloudFS

本文介绍如何将 IDC 或自建 Hadoop 文件系统数据迁移至 CloudFS。迁移后,您可以在 CloudFS 中管理和访问数据。前提条件在迁移 Hadoop 文件系统数据至 CloudFS 前,确保您已经完成以下准备工作: 开通大数据文件存储 CloudFS 版服务并创建文件系统实例和挂载点。详细操作请参考创建大数据文件存储。本文选择基于火山引擎 ECS 搭建 Hadoop 集群(以下称"迁移集群"),用于访问大数据文件存储 CloudFS 和迁移数据,并满足以下条件:迁移集...

读取Hadoop集群中的数据

本文为您介绍如何配置EMR Serverless StarRocks实例,以查询Hadoop高可用集群中的数据。 1 前提条件已创建包含了HDFS服务,并且开启了服务高可用的集群,详情请参见创建集群。已创建EMR Serverless StarRocks实例,详情请参加创建实例。 2 操作步骤进入EMR Serverless StarRocks实例配置页面。a. 登录EMR Serverless控制台。 b. 在顶部菜单栏处,根据实际情况选择地域。 c. 在实例列表页,单击待查看的实例名称。 d. 单击实例配置页...

快速开始

本文向您介绍如何通过火山引擎 E-MapReduce(EMR)控制台,快速使用 Airflow 组件进行工作流调度。步骤一: 服务引入注意在 EMR 集群创建中,Airflow 服务能力存在于以下三种类型的集群中:Hadoop、Presto、Trino。若您未创建集群,请在创建 EMR 的 Hadoop、Presto 或 Trino 集群类型时,勾选上 Airflow 服务。集群创建操作详见:创建集群。对于已创建的集群,若服务列表中没有 Airflow 组件,可以通过添加服务功能添加 Airflow。操作...

数据迁移

本文将为您介绍火山引擎 E-MapReduce(简称“EMR”)和源端 Hadoop 集群之间的数据迁移操作。 1 专线连接正式做迁移前,需要在源端 VPC 和火山引擎 VPC 之间建立 1Gb 或 10Gb 的专线连接,保障迁移的速度、安全和稳定性。说明迁移速度评估: 专线带宽为 :10Gb = 1.25GB 数据量为:100T = 100*1024 = 102400 GB 迁移时间为:102400/1.25/3600 = 22.75 小时专线拉通后,可以开始不间断的大规模数据迁移。 2 迁移 HDFS 数据EMR 集群...

特惠活动

域名注册服务

cn/top/com等热门域名，首年低至1元，邮箱建站必选

￥1.00/首年起32.00/首年起

立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗，加速分发更实惠

￥2.00/年20.00/年

立即购买

产品体验

体验中心

云服务器特惠

云服务器

云服务器ECS新人特惠

立即抢购

白皮书

数据智能知识图谱

火山引擎数智化平台基于字节跳动数据平台，历时9年，基于多元、丰富场景下的数智实战经验打造而成

立即获取

hadoop简介

大数据研发治理套件

社区干货

演讲预告|字节跳动 Hadoop 云原生化演进实践

演讲预告|字节跳动 Hadoop 云原生化演进实践

字节跳动10万节点 HDFS 集群多机房架构演进之路

9年演进史:字节跳动 10EB 级大数据存储实战

特惠活动

域名注册服务

热门爆款云服务器

DCDN国内流量包100G

hadoop简介-优选内容

hadoop简介-相关内容

访问文件存储实例

集群类型

配置 MapReduce 的 HDFS 服务使用 CloudFS

域名注册服务

热门爆款云服务器

DCDN国内流量包100G

Hadoop 使用 Proton

基于Spark的词频统计

迁移 Hadoop 文件系统数据至 CloudFS

读取Hadoop集群中的数据

快速开始

数据迁移

特惠活动

域名注册服务

热门爆款云服务器

DCDN国内流量包100G

产品体验

体验中心

云服务器特惠

白皮书

相关主题

最新活动

爆款1核2G共享型服务器

火山引擎增长体验专区

数据智能VeDI

热门访问

一键开启云上增长新空间