火山引擎发布全新高速训练引擎--技术解析-火山引擎

文档中心

火山引擎发布全新高速训练引擎

最近更新时间：2023.05.10 16:44:19首次发布时间：2023.05.10 16:44:19

4月18日，2023春季火山引擎FORCE原动力大会召开。会上，火山引擎正式发布自研DPU等系列云产品，并正式推出智能推荐-高速训练引擎，支持100GB至10TB以上超大模型的高效训练，采取软硬一体优化设计等，让面向推荐场景的高速训练更快，成本更低。

大规模推荐模型，企业面临的新挑战

随着深度学习模型越做越大、越做越深，企业在搭建智能推荐模型时遇到了自己无法独立解决的难题。

这些难题主要体现在以下几个方面：

首先是训练成本。智能推荐效果的一个核心诉求是能快速捕捉和反映用户不断变化的兴趣和当前热点，模型如何在短时间内，以可控的成本完成海量数据的训练，是企业面临的比较大的挑战。
其次，个性化推荐系统的场景特征和模型复杂，导致模型愈发庞大，加之推荐引擎同时需要满足时效性，实时掌握用户兴趣，传统的CPU训练算力由于无法实现大规模并行向量计算等原因，无法满足企业推荐大模型高速训练的需求。
最后，在企业优化推荐算法和模型、提高推荐的准确性和效果的过程中造成系统的抖动和不稳定，也极易因为体验不佳，造成用户的流失。
总而言之，对于各行各业的企业而言，智能推荐大模型训练普遍存在贵、慢、不稳定的痛点。

高速训练引擎，抖音同款模型能力

此前，火山引擎通过抖音等业务大规模个性化模型的探索与沉淀，为众多企业客户提供了智能推荐引擎，助力企业实现个性化用户体验，并在用户留存、停留时间、GMV等维度获得了极大提升。

alt
智能推荐-高速训练引擎

火山引擎「智能推荐-高速训练引擎」则是为了进一步实现大模型落地而诞生的，它集成了抖音、头条等业务的最佳技术实践，尝试解决各行各业的企业训练大规模个性化模型存在的痛点和问题。

01、软硬一体优化

针对关键场景的超大模型，火山引擎智能推荐-高速训练引擎提供了全GPU方案，可以支持100GB-10TB的超大模型的高速训练，综合ROI是CPU的5倍；覆盖更多场景的模型，提供了GPU+CPU混训方案，综合ROI是CPU的2倍。

02、细粒度算子优化

针对搜索、推荐和营销场景，优化细粒度算子，使得在模型推理过程中有更好的性能表现。在训练时，通过算子融合并精细调优，性能提升20%。在推理时，通过算子优化，性能提升40%。

03、分布式训练和推理

智能推荐-高速训练引擎为了保障系统的稳定性，支持训练和推理的全方位容错，当某一个节点故障时，可以快速恢复；支持分布式推理，包括多分片、多副本，从而保证线上服务的高可用。

做完上述以及其他一系列优化后，抖音、今日头条等基于火山引擎高速训练引擎的业务，模型训练时间的速度相较以往快10倍-25倍，综合成本降低25%-67%。

目前，火山引擎高速训练引擎的价值已获得越来越多企业的认可。

例如，在与中国某社交平台的合作中，火山引擎成功帮助客户解决了训练速度慢、无法快速验证模型效果的问题，并将训练速度提升了12倍——原本客户侧耗时1800分钟的模型训练，在火山引擎侧仅耗时150分钟。在模型优化上，火山引擎百G模型与客户2T级别模型相比，效率无明显下降，且离线效果指标全部正向，帮助客户实现了大幅的降本增效。

更普惠的AI基础设施，助力企业智能化发展

在本次发布会，火山引擎除了发布智能推荐-高速训练引擎外，还推出了新版机器学习平台：支持万卡级大模型训练、微秒级延迟网络，让大模型训练更稳更快。火山引擎机器学习平台支持GPU弹性计算实例灵活调度资源，随用随取，最高可以为客户节省70%的算力成本。

此外，火山引擎与字节跳动国内业务并池，基于内外统一的云原生基础架构，抖音等业务的空闲计算资源可极速调度给火山引擎客户使用，弹性计算抢占式实例的价格最高可优惠80%以上。

不论是技术上的升级，还是生态的稳定增长，要想实现行业智能化升级，国内各行各业都需要普惠的AI基础设施。未来，火山引擎将提供更普惠的AI基础设施，助力企业智能化发展。