You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

开源对象存储当道

基于先进分布式技术,帮助用户灵活高效、稳定可靠的存储并管理海量非结构化数据

社区干货

大象在云端起舞:后 Hadoop 时代的字节跳动云原生计算平台

各种不同体型的企业都喜欢选择开源大数据软件来搭建自己的系统,无论是先前十分繁荣的 Hadoop,还是后来涌现出来的 Kafka、Flink 等,都被广泛地使用着。十多年来,这些系统经历了多轮技术洗礼,我们也随之需要根据新的技术潮流不断地进行调整甚至做技术转型。以 Hadoop 三大组件来说,计算引擎 MapReduce 基本被 Spark 取代。在数据上云的时代,对象存储也取代了一部分 HDFS 文件系统。近几年,云原生又火了起来,行业里再次开始了对大...

后 Hadoop 时代,字节跳动如何打造云原生计算平台

各种不同体型的企业都喜欢选择开源大数据软件来搭建自己的系统,无论是先前十分繁荣的 Hadoop,还是后来涌现出来的 Kafka、Flink 等,都被广泛地使用着。十多年来,这些系统经历了多轮技术洗礼,我们也随之需要根据新的技术潮流不断地调整甚至做技术转型。以 Hadoop 三大组件来说,计算引擎 MapReduce 基本被 Spark 取代。在数据上云的时代,对象存储也取代了一部分 HDFS 文件系统。近几年,云原生又火了起来,行业里再次开始了对大数据...

基于火山引擎 EMR 构建企业级数据湖仓

开放存储:数据不局限于某种存储底层,支持包括从本地、HDFS 到云对象存储等多种底层。 - Table 格式:本质上是基于存储的、 Table 的数据+元数据定义。具体来说,这种数据格式有三个具体的实现:Delta Lake、Iceberg 和 Hudi。三种格式提出的出发点略有不同,但是它们的场景需求里都不约而同地包含了事务支持和流式支持。而它们在具体的实现中也采用了比较相似的做法,即在数据湖的存储之上定义一个元数据,并跟数据一样保存在...

Bio-OS 开源开放大赛—论文复现示例

在Bio-OS中数据可以上传到Workspace所对应的对象存储中(创建Workspace时会创建一一对应的对象存储桶),并通过配置密钥实现Notebook对对象存储的直接访问。1. 进入Workspace,点击【数据】-【文件列表】1. 选择文件进行上传![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/66d8c1479def489bb27388741ead5478~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1716049277&x-signat...

特惠活动

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

2核4G共享型云服务器

Intel CPU 性能可靠,不限流量,学习测试、小型网站、小程序开发推荐,性价比首选
86.00/1908.00/年
立即购买

视频云ImageX媒资存储50G

分布式存储,可靠性高,全链路图像服务
1.00/6月24.07/6月
立即购买

开源对象存储当道-优选内容

Flink 使用 Proton
开源版本 Flink 不支持以 EXACTLY_ONCE 语义流式写入对象存储服务(TOS)存储,当有类似需求时,需要结合 Proton SDK 进行数据写入。从火山引擎 E-MapReduce(EMR)3.2.1 版本开始,火山 EMR Flink 已经默认在运行环境中集成了 Proton SDK,您可以开箱使用 Flink 读写 TOS 的功能,针对已有的历史集群,需要下载 Proton SDK,并且做一些额外配置,才能正常使用,可参考 Proton 发行版本,手动下载 Proton SDK。 1 火山 EMR1.1 集群配置火山EMR集...
产品架构
产品架构EMR产品架构如下: 基础设施: 基于火山引擎云服务器(ECS)、公网IP(EIP)、弹性块存储(EBS)、对象存储(TOS)、私有网络(VPC)为EMR提供弹性扩展、高可靠、高性能、安全隔离的部署环境。 数据存储: HDFS分布式文... 实现高可用低成本数据存储。支持Hudi、Iceberg、Delta Lake等多种数据湖存储格式,助力企业构建数据湖解决方案。 资源调度: 基于hadoop资源管理组件Yarn和Kubernetes,为上层应用提供统一的资源管理和调度。 开源引擎...
基于火山引擎 EMR 构建企业级数据湖仓
开放存储:数据不局限于某种存储底层,支持包括从本地、HDFS 到云对象存储等多种底层。 - Table 格式:本质上是基于存储的、 Table 的数据+元数据定义。具体来说,这种数据格式有三个具体的实现:Delta Lake、Iceberg 和 Hudi。三种格式提出的出发点略有不同,但是它们的场景需求里都不约而同地包含了事务支持和流式支持。而它们在具体的实现中也采用了比较相似的做法,即在数据湖的存储之上定义一个元数据,并跟数据一样保存在...
Bio-OS 开源开放大赛—论文复现示例
在Bio-OS中数据可以上传到Workspace所对应的对象存储中(创建Workspace时会创建一一对应的对象存储桶),并通过配置密钥实现Notebook对对象存储的直接访问。1. 进入Workspace,点击【数据】-【文件列表】1. 选择文件进行上传![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/66d8c1479def489bb27388741ead5478~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1716049277&x-signat...

开源对象存储当道-相关内容

读取云原生消息引擎 BMQ 数据写入对象存储 TOS

您需要在对象存储控制台创建存储桶和文件夹。 开发 Flink SQL 任务。当您准备好数据源和数据目的后,便可以在流式计算 Flink 控制台开发 SQL 任务,通过简单的代码实现从 BMQ Topic 中读取数据写入到 TOS Bucket。 ... 公共读写:任何人均可对公共读写权限的存储桶进行读写操作,同时产生流量费用。 在存储桶的文件列表页面,单击创建文件夹,然后设置文件夹名称并单击确定。对象存储 TOS 以扁平化结构存放文件,为方便分类管理,您可以...

计算引擎在K8S上的实践|社区征文

我们做了一些尝试:首先是存储,使用OSS等对象存储替代了HDFS。其次就是计算,也是本篇文章将要介绍的,将Spark计算任务从Yarn迁移至K8S上运行。# 最初的尝试spark-thrift-server考虑到我们服务的客户数据量都不是很... 它是Google开源的一个组件。是基于CRD和自定义Controller来实现的。在提交任务后,可以在K8S上以惯用方式指定、运行和监视Spark应用程序。下图是其官方的设计图:![image.png](https://p6-juejin.byteimg.com/tos-...

干货 | 这样做,能快速构建企业级数据湖仓

主要介绍了数据湖仓开源趋势、火山引擎 EMR 的架构及特点,以及如何基于火山引擎 EMR 构建企业级数据湖仓。> > > > ![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddh... HDFS 到云对象存储等多种底层。* **Table 格式** :本质上是基于存储的、 Table 的数据+元数据定义。具体来说,这种数据格式有三个实现: **Delta Lake** 、 **Iceberg** 和 **Hudi** 。三种格式的出发点略有...

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

2核4G共享型云服务器

Intel CPU 性能可靠,不限流量,学习测试、小型网站、小程序开发推荐,性价比首选
86.00/1908.00/年
立即购买

视频云ImageX媒资存储50G

分布式存储,可靠性高,全链路图像服务
1.00/6月24.07/6月
立即购买

新功能发布记录

新增 修改 Kibana/Dashboards 参数 冷数据节点 冷数据节点可以配置对象存储作为存储介质,主要用途是存储和处理不经常访问的冷数据,比如不经常被查询访问的日志、历史记录等数据。冷数据节点可用于存储可搜索快... 新增 创建数据处理任务 管理数据处理任务 查看数据处理结果 2024年2月功能名称 功能描述 功能类型 相关文档 可视化工具 Cerebro Cerebro 是开源的 Elasticsearch 可视化管理工具,通过 Cerebro 能够实时监...

云服务器部署Ceph

关于 CephCeph 是一种开源分布式文件系统,具有高可靠、自动重均衡、灵活扩展等特点,支持对象存储、块存储以及文件存储。Ceph 充分利用节点的计算能力,通过 Crush 算法计算文件位置,使数据均衡分布,避免单点故障问题... 在设置密钥保存位置时回车即可。 ssh-keygen -t rsa -P ''ssh-copy-id ceph-node1ssh-copy-id ceph-node2ssh-copy-id ceph-node3ssh-copy-id ceph-client 安装 Ansible。 执行以下命令,安装 Ansible。 yum instal...

云原生环境下的日志采集、存储、分析实践

多种开发语言以及开源生态标准协议。采集到的日志首先会存入高速缓冲集群,削峰填谷,随后日志会匀速流入存储集群,根据用户配置再流转到数据加工集群进行日志加工,或者到索引集群建立索引。 建立索引后用户可以进行实时查询和分析。TLS 提供标准的 Lucene 查询语法、SQL 92 分析语法、可视化仪表盘以及丰富的监控告警能力。当日志存储达到一定周期,不再需要实时分析之后,用户可以把日志投递到成本更低的火山引擎对象存储服务...

活动预告|聊聊字节跳动的云原生实践与开源

**字节跳动云原生实践与开源**」专场,将从字节跳动云原生技术历程说起,讲透包括轻量级 K8s 多租户方案、高性能 K8s 元信息存储方案以及大规模集群下的请求治理等关键问题。![picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/5eadd07c782d47b7ad547edea1bffd22~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1716049262&x-signature=Ba4BX%2Fxx0P0dCgQcWFBW0aG1JgU%3D) ...

日新增两万次变更背后的奥秘,聊聊字节跳动的云原生实践与开源

**《字节跳动云原生实践与开源》专场**,将从字节跳动云原生技术历程说起,讲透包括轻量级 K8s 多租户方案、高性能 K8s 元信息存储方案以及大规模集群下的请求治理等关键问题。大会除了《字节跳动云原生实践与开源》专场,还设置了包括大前端、低代码、数据库、开源与商业化、业务架构等十数个干货专场,免费报名进行中!大家可 **点击文末阅读原文**或**扫描下图二维码**,为字节跳动云原生实践打 Call~![picture.ima...

EMR 存算分离JobCommitter最佳实践

1 前言EMR存算分离是一种逐渐被人们广泛接受的弹性低成本的产品形态。更多关于火山EMR存算分离的信息,请参考 Proton 概述。由于TOS对象存储自身语义与HDFS语义存在部分差异。这些差异主要体现在: TOS 对象存储的 R... 可以实现TOS写入性能比开源方案快1倍。 3 Hive TPC-DS测试关于Hive 2.x 及 Hive3.x 开启使用TOS JobCommitter的内容,请参考 Hive 使用 Proton。 开启 TOS JobCommitter 关闭TOS Job Committer Hive On MR (Load 1...

特惠活动

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

2核4G共享型云服务器

Intel CPU 性能可靠,不限流量,学习测试、小型网站、小程序开发推荐,性价比首选
86.00/1908.00/年
立即购买

视频云ImageX媒资存储50G

分布式存储,可靠性高,全链路图像服务
1.00/6月24.07/6月
立即购买

产品体验

体验中心

云服务器特惠

云服务器
云服务器ECS新人特惠
立即抢购

白皮书

从ClickHouse到ByteHouse
关于金融、工业互联网,都有对应的场景特性、解决策略、实践效果具体呈现,相信一定能解决你的诸多疑惑
立即获取

最新活动

爆款1核2G共享型服务器

首年60元,每月仅需5元,限量秒杀
立即抢购

火山引擎增长体验专区

丰富能力激励企业快速增长
查看详情

数据智能VeDI

易用的高性能大数据产品家族
了解详情

一键开启云上增长新空间

立即咨询