对象存储也取代了一部分 HDFS 文件系统。近几年,云原生又火了起来,行业里再次开始了对大数据体系的云原生改造,同时 Kubernetes(K8s) 的流行,也让同为资源管理的 YARN 地位越来越尴尬。然而,过去的技术体系在很多企业系统里仍发挥着很重要的作用,在技术更新迭代的时候,业务不能随意变动,那么我们在新旧技术共存的条件下,如何发挥新技术的最大潜力?字节跳动成立于 2012 年,也是大数据崛起之时,跟众多中小企业一样, **字节跳...
对象存储也取代了一部分 HDFS 文件系统。近几年,云原生又火了起来,行业里再次开始了对大数据体系的云原生改造,同时 K8s 的流行,也让同为资源管理的 YARN 地位越来越尴尬。然而,过去的技术体系在很多企业系统里仍发挥着很重要的作用,在技术更新迭代的时候,业务不能随意变动,那么我们在新旧技术共存的条件下,如何发挥新技术的最大潜力?字节跳动成立于2012年,也是大数据崛起之时,跟众多中小企业一样,字节跳动也是 Hadoop 生态组...
字节跳动研发工程师整理|张德通来源|DataFun Abase 简介 Abase 是什么?Abase 最初用作字节跳动在线推荐的底层存储。![picture.image](https://p6-volc-communit... 字节跳动研发工程师**,多年存储领域的开发经验,从 0 到 1 完成了多个存储系统从设计开发、到大规模使用取得收益的经历。曾在百度参与 KV 和对象存储系统的开发。2020 年加入字节跳动,主导字节跳动高可用 KV 存储系...
对象存储也取代了一部分 HDFS 文件系统。近几年,云原生又火了起来,行业里再次开始了对大数据体系的云原生改造,同时 K8s 的流行,也让同为资源管理的 YARN 地位越来越尴尬。然而,过去的技术体系在很多企业系统里仍发挥着很重要的作用,在技术更新迭代的时候,业务不能随意变动,那么我们在新旧技术共存的条件下,如何发挥新技术的最大潜力?字节跳动成立于2012年,也是大数据崛起之时,跟众多中小企业一样,字节跳动也是 Hadoop 生态...
易扩展,容错率高## HDFS 在字节跳动的发展字节跳动已经应用 HDFS 非常长的时间了。经历了 9 年的发展,目前已直接支持了十多种数据平台,间接支持了上百种业务发展。从集群规模和数据量来说,HDFS 平台在公司... Name Node 负责存储整个 HDFS 集群的元数据信息,是整个系统的大脑。一旦故障,整个集群都会陷入不可用状态。因此 Name Node 有一套基于 ZKFC 的主从热备的高可用方案。Name Node 还面临着扩展性的问题,单机承载能...
字节跳动云原生工程师薛英才分享了 基于分布式 KV 存储引擎的高性能 K8s 元数据存储项目 KubeBrain。KubeBrain 是字节跳动针对 Kubernetes 元信息存储的使用需求,基于分布式 KV 存储引擎设计并实现的、可以... 且每个对象数据都是有唯一的索引记录最新的版本号,通过索引实现锁操作;* 可以很容易地构造出某行、某条索引所对应的 Key,或者是某一块相邻的行、相邻的索引值所对应的 Key 范围;* 由于 Key 的格式非单调递增...
[picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/30acb2cfeb2c402a966fd113ce83600b~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1714062043&x-signature=CoyIxVNHr3DOKVt%2BGlazKv%2BkiFE%3D) 背景 **字节跳动特征存储痛点**当前行业内的特征存储整体流程主要分为以下四步:![picture.image](https://p3-volc-community-sign.b...
**—— 文末参与限时抽奖,获取赠书福利 ——** 在数字化时代,企业内部越来越展现出对海量数据存储、治理、运维、评估、决策需求。数据中台的出现可以更大程度发挥数据价值,打破企业内部数据孤岛,更好、更快服务于企业内部决策与业务增长。 字节跳动数据平台,承担了字节内部数据驱动的重要工作,服务了抖音、西瓜视频等多条业务线。同时,字节跳动数据平台也将多年的技术实践所得到的经验与能力通过...
字节跳动启用 Kubernetes 技术栈,开始对业务进行大规模容器化改造,2017、2018 年进入阶段性上量阶段,到 2018 年这一年部署的容器单集群已经达到了上万个节点。截至 2021 年 12 月,字节跳动已经实现每天新增 1500 个... **《字节跳动云原生实践与开源》专场**,将从字节跳动云原生技术历程说起,讲透包括轻量级 K8s 多租户方案、高性能 K8s 元信息存储方案以及大规模集群下的请求治理等关键问题。大会除了《字节跳动云原生实践与...
而在字节跳动内部,数据库建设主要面临三大挑战:**业务种类繁多**。以抖音为例,为了管理用户之间复杂的社交关系,同时根据用户点赞、关注等行为进行智能推荐,我们需要用图进行管理。再如抖音电商商城设计订单、库存等数据,这些信息适合用关系型结构化的结构表达。除此之外抖音还存在大量结构化和非结构化数据,如用户上传的图片、视频,这些信息适合用云存储、对象存储这样的系统来管理。**业务增速快,诉求不断变化**。如上图...
而在字节跳动内部,数据库建设主要面临三大挑战:**业务种类繁多。** 以抖音为例,为了管理用户之间复杂的社交关系,同时根据用户点赞、关注等行为进行智能推荐,我们需要用图进行管理。再如抖音电商商城设计订单、库存等数据,这些信息适合用关系型结构化的结构表达。除此之外抖音还存在大量结构化和非结构化数据,如用户上传的图片、视频,这些信息适合用云存储、对象存储这样的系统来管理。**业务增速快,诉求不断变化。** 如上图所...
字节跳动在一年内部署的容器单集群已经达到了上万个节点… 作者|稀土掘金 7 月底,由稀土掘金技术社区主办、字节跳动基础架构 KubeWharf 社区协办的第二届稀土开发者大会将正式召开。 在 7 月 23 日(周六)下午,由火山引擎云原生产品负责人邓德源出品的「**字节跳动云原生实践与开源**」专场,将从字节跳动云原生技术历程说起,讲透包括轻量级 K8s 多租户方案、高性能 K8s 元信息存储方案以及大...
字节跳动特征存储已到达 EB 级别,日均增量 PB 级别,每天训练资源量级为百万 Core。随之而来的是内部业务方对原始数据存储、特征回填需求、降低成本、提升速度等需求的期待。本次分享将围绕问题背景、选型& Iceberg... 对象存储层。图中可以看出,Iceberg 所处的层级和 Hudi,DeltaLake 等工具一样,都是表格式层:* 向上提供统一的操作 API* Iceberg 定义表元数据信息以及 API 接口,包括表字段信息、表文件组织形式、表索引信息、表...