伴随大模型从探索走向落地,AI应用如何高效落地成为企业关注的重点。高效的云上数据存储与加速方案,可以实现读写性能的提升与成本的降低,助力 AI 业务的高效落地,驱动业务的创新和增长。
面向 AI 时代,针对企业对存储高性能、低成本及数据安全等核心诉求,火山引擎全面升级优化了存储系列产品,重点发布了对象存储分层桶功能、高性能文件存储 NAS,以及优化了大数据文件存储 CloudFS 架构,极大地提升了产品性能,全面满足企业对存储性能的多样化需求。
01
构建数据湖解决方案:对象存储如何面向大模型数据全生命周期管理
大模型应用落地的生命周期历经数据采集、数据清洗、模型训练、模型推理、以及内容处理的过程,才能最终在用户侧产生业务价值。AI 时代下,大模型的发展离不开海量数据的支持,如何更高效地存储、计算大规模数据、治理大数据、更好地服务AI应用,成为企业面临的关键挑战。
传统数据湖演进到基于对象为底座的存算分离方案,解决存算耦合的弹性与灵活问题,并利用了对象存储的访问便利性和生态优势。但在服务AI场景时,仍遇到一些问题,如元数据性能受制于对象扁平组织,在Rename、Listdir 有明显性能问题,如仍难支持AI场景多区域计算访问等问题。 火山引擎对象存储TOS, 创新推出了分层命名空间存储桶, 兼具对象与文件目录语义,一份数据多种访问。同时,率先推出多区域计算统一访问点,并引入 SSD 作为缓存层,定向支持极致时延和吞吐的场景,结合自动的沉降和预热策略,在各存储产品间实现透明的数据流动,在极致性能和极致成本之间提供组合解决方案。
火山引擎同时提出了多模态数据湖解决方案,基于对象存储 TOS 统一管理非结构化、半结构化、结构化数据,实现海量数据融合。DMS+CRR+传输加速,支持数据集在线采集、跨域回传,多区域访问点支持数据集、模型文件跨域同步与实时访问。TOS 对接自研存储加速 CFS 缓存、高性能文件数据流动等,形成多层次多协议的性能加速方案。同时,通过提供 Fuse、EMR Proton 及对接 Pytorch 等各类Connector,无缝对接多种分布式计算引擎。
火山引擎基于 TOS 的多模态数据湖方案,支持客户进行高效的数据加工,将数据处理与模型训练、微调、知识库高效协同,实现一站式全链路,打造一个高性能、低成本、开放、统一性的大数据平台,全面覆盖 AI 应用的数据消费场景,最大化激发数据价值。
02
文件存储 NAS:显著降低存储成本,助力 AI 数据加速
大模型的快速迭代对存储性能产生了多样化的需求,多模态加载需要百万 QPS 及亚毫秒延迟,模型加载保存需要百 GB/s 的聚合带宽,指数增长的数据量需要高性价比的存储解决方案。
火山引擎文件存储 NAS 提供了面向 AI 设计的高性能元数据服务,支持极致弹性与性能容量解耦,提供 100MB/s/TiB 的基准性能密度,并支持在基准性能之上单独预配置更高的性能并单独计费,实现性能按需供给并确保成本透明可控。文件存储 NAS 还支持智能数据流动,实现数据的按需加载、自动预热、淘汰及沉降,满足冷数据的降本需求。
文件存储 NAS 已经助力某大模型客户加速代码助手训练业务,通过高效的存储管理和智能的数据流动,客户整体存储成本降低 40%;自动化数据流动管理大幅提高数据管理的效率,使用户能够更专注于核心业务,数据管理的人工参与度从每天至少需要 2 人时降低到接近于 0。
03
专为大模型训练加速设计:Checkpoint 读写性能提升 10 倍
为了更好地应对大模型训练对高元数据 IOPS 和高吞吐能力的挑战,火山引擎推出了 CloudFS大数据文件存储产品。CloudFS 是专为大模型训练加速设计的,支持标准的 HDFS 协议访问和数据湖透明访问模式, 具有高性能、简单易用等特点。
CloudFS 提供近计算半托管的部署形态,充分利用 GPU 机器的空闲 DRAM/闪存,提供对对象存储 TOS 的元数据/数据的加速。CloudFS 针对大模型训练的 IO 特征,在 IO 链路做了全面的升级。实现了基于条带化的并行 I/O 技术,充分压榨 DRAM/全闪存的吞吐性能。CheckPoint 场景,相比基础版本有 10 倍的性能提升,为大模型训练效率提升起到关键支撑。
除了 Checkpoint 读写性能升级外,CloudFS 针对训练样本普遍存在的小文件问题做了专项优化。支持全分布式化的元数据管理能力和小文件引擎加速。此外,在接入方式上支持 Posix 接口,兼容主流的开源训练框架的访问接口。并且针对 Posix 的关键实现技术 Fuse 做了全方位的优化,通过自研的内核态 VirtIO 和用户态 One Fuse 框架,性能相比社区版本有了数倍的提升。
火山引擎推出了多款存储产品并已全面售卖,以技术驱动的更优性价比普惠客户,持续为各行各业的海量云上应用场景提供高效低成本的存储解决方案。