2021年“智能增长”六问，火山引擎一一解答--技术解析-火山引擎

文档中心

2021年“智能增长”六问，火山引擎一一解答

最近更新时间：2021.06.24 17:15:47首次发布时间：2021.05.10 10:42:36

在全面数字化、智能化的科技主张时代，各行各业一直在追求通过科技技术，实现更准确的决策结果，更高效的业务流程，而这些的最终目标，实则都以“智能增长”为中心。因此，当下核心需求在于如何通过“智能技术”实现“智能增长”。

对于如何将各项前沿智能技术运用于业务实处，实现“智能增长”核心目标的种种问题，近日，字节跳动与火山引擎数位数据、AI、研发平台架构等领域技术大牛，进行了一一解答，为企业快速增长、持续增长、智能增长提供了可靠且先进的参考建议。

Q1：在科技主张时代，如何通过智能技术去打造更好的产品体验，赋能业务增长？

在字节跳动过去8年的技术不断演化和探索过程中，我们越来越深刻地感受到今天的企业要成功，必须要面向所谓的“AI原生”时代进行业务和技术系统的构建。

—— 张鑫 | 火山引擎副总经理

什么叫“AI原生”？很多人听说过“互联网+”、“AI+”。“互联网+”指非互联网行业通过引入互联网技术，从而实现行业的数字化转型。“AI+”类似，是把原本没有使用数据与智能的场景、产品，注入AI元素，获得产品体验的提升。

那么“AI原生”呢？通俗来讲，如果要构建一个互联网业务系统，我们一开始就要考虑到如何通过智能、AI技术，打造这个新业务系统，并将智能、AI渗透进产品和业务设计的方方面面，这就是“AI原生”。

要如何在当前的AI原生时代取得成功？我们认为需要三件套：

丨第一件：最佳实践

近些年，机器学习、神经网络等技术在算法上已经有很多突破，但当我们真正面向AI原生进行业务系统构建时，会发现将优秀的理论、先进的算法和实际的业务场景相结合，需要大量的最佳实践，才能做到技术在落地实践中的极致发挥。

丨第二件：方法论

最佳实践可以面对多种多样的场景，但我们还需要从最佳实践中提炼一系列的方法论。方法论能够帮助我们从更加系统的维度出发，学会如何使用数据，如何使用先进算法模型，如何把各项技术与各种具体场景相结合，进而构造出面向行业化、场景化的产品。方法论能够举一反三，帮助我们应用于其他场景和领域。

丨第三件：软件产品

最佳实践和方法论更多地停留在理念之中，而软件产品可以对最佳实践、方法论进行固化与落地，所以我们最终要通过最佳实践和方法论，踩在过去的坑和经验之上，不再重复造轮子，从而进行更快的产品创新。

Q2：智能中台可以实现高可靠高性能调度，字节跳动和火山引擎的智能中台是如何构建的？

自2017年诞生以来，字节跳动机器学习平台从一开始的几十台物理GPU开发机，到现在支持着万级GPU调度，持续降低机器学习的算力和开发门槛，帮助我们内部平台和外部客户深入发展自己的AI的能力。

——易百忍 | 字节跳动AI Lab机器学习平台软件工程师

火山引擎智能中台整个基础设施支撑着所有上层业务的发展，一方面是弹性轻量化，支撑1-10000节点的轻量化平台，另一方面是云原生层面，支持云原生 PaaS 设计的 IaaS 系统和云原生存储。

——邓德源 | 火山引擎云原生产品技术负责人

2017 年人工智能实验室成立后，致力于更完善的资源管理，字节跳动建立了机器学习平台。一开始平台仅有几十台物理GPU开发机，随着GPU资源逐渐增长，团队规模不断发展，目前已支持万级GPU调度，单一集群就有几百台GPU机器。

在机器学习平台的成长过程中，由于资源池的增长、团队的发展，带来了几个核心痛点：

机器环境配置不一，管理运维成本高。
代码、依赖库版本管理复杂，训练结果难复现。
部分训练任务时间长，需要分布式训练加速。

为解决上述痛点，机器学习平台开始了长期的技术优化。在架构上，平台完成了“高性能+云原生”的建设目标：

高性能：物理资源池中一个集群就是一个高性能集群。
云原生：兼顾多个团队的需求，包括资源调配与调度。

对此，机器学习平台的模型训练平台资源池选择了NVLink V100+100G RDMA 网络，以加速分布式训练任务；模型推断平台可对模型服务进行灰度发布，发布后能根据调用情况，进行相应水平伸缩。

在最核心的资源调度上，字节跳动机器学习平台也进行了特别的优化：

通过容器云进行调度任务，镜像打包模型代码，分布式存储数据集。
多卡、分布式的训练任务将优先满足机内总线和集群网络拓扑。
推断服务可支持小服务共享一块GPU以节省成本。
推断资源池能在闲时拆借资源，用于训练任务，有效实现潮汐资源调度。

基于字节跳动内部平台长期技术优化，火山引擎建设的智能中台解决方案融合了基础设施平台、研发中台以及机器学习平台，突出“高可靠、高性能调度”特点：

丨基础设施平台

基础设施平台支撑着所有上层业务发展。基础设施平台经过数EB级数据、千万级QPS的长期大规模验证，能支持数十亿月活App。

为支持更多企业轻松上云，基础设施平台的建设历经了持续的思考和探索：

第一是弹性轻量化，我们考虑到很多企业用户不是一开始就有大规模节点需求，因此将其建设成能支撑1-10000个节点的弹性轻量化平台；
第二是云原生，为了让用户能通过同样的路径轻松上云，基础设施平台能够支持云原生 PaaS 设计的 IaaS 系统和云原生存储；
最后在易维护性上，我们提供了监控告警、硬件状态、远程控制、余量管理等各种方案，以帮助用户高效地管理平台。

丨机器学习平台

基础设施平台与研发中台共同支撑着机器学习平台。机器学习平台的核心目标是降低算法开发门槛，实现规模化应用。

火山引擎机器学习平台打通“数据-建模-部署-管理-监控”AI闭环，实现了AI开发流程的闭环化、标准化、自动化、规模化，其具有四个主要应用场景：

资源管理：通过GPU、CPU调度、模型分布式训练、资源动态分配等，提供AI所需算力；
流程管理：建立DevOps流水线，实现从数据处理、模型训练、评估到发布的持续集成，提升端对端AI产品和业务的上线效率；
模型管理：通过超参数自动搜索、多模型自动对比与评估、线上模型运维等，降低模型开发、维护门槛；
数据管理：通过结构化、非结构化数据湖，数据协调标注与版本化管理等，切实保护数据资产。

丨研发中台

研发中台介于机器学习平台和基础设施平台之间，起承上启下的作用，主要提供服务治理能力，例如集群管理、存储管理、微服务、多租户管理等。当然，研发中台本身也为上层提供应用场景，比如大流量的自动化管理、高业务连续性，新功能的敏捷上线、迅速迭代等。

Q3：推荐算法有哪些落地应用？火山引擎推荐算法技术架构有哪些独特优势？

推荐算法具有非常多的应用场景和商业价值，能帮助企业持续提升核心业务指标。存量竞争是未来产品无法避免的问题，通过智能推荐算法能力可以帮助产品精细化运营，创造更多价值。

——马天武 | 火山引擎零售行业解决方案资深总监

火山引擎智能推荐服务依托字节跳动⼤规模机器学习技术和个性化推荐技术，结合了新闻资讯、视频直播、社交、电商等多领域的能⼒积累，能提供定制化的推荐算法服务，进而持续提升核⼼业务指标，创造价值。

火山引擎智能推荐技术架构，整体上可分为三个部分：

丨客户数据准备

要实现千人千面的个性化推荐，通常需要三个维度的数据：

用户数据：用户年龄、性别、职业、兴趣爱好等。
物品数据：推荐商品的颜色、分类、尺寸、大小、价格等。
行为数据：用户哪些商品有过浏览、加购、交易、退货、评论等行为。

丨智能推荐服务

结合三个维度的数据，给到推荐引擎，我们基于结构化数据，进行离线和在线的模型训练，并将预估的结果通过API返回到客户端，最后根据A/B测试的效果进行持续迭代。

丨客户业务端

最后系统会把每一个客户可能感兴趣、可能点击的商品，按照概率排序，提供到客户端，最终实现千人千面的个性化推荐。

目前为止火山引擎推荐算法主要有两大应用场景：

一是在线广告，我们提供展示广告、相关广告、搜索广告等定制化解决方案。国内某大型手机厂商同样在引入了推荐算法后，2019年客户的单一用户贡献的广告收入，即ARPU值，增长达到180%。

二是电商，目前针对电商用户已有个性化推荐、搜索、推送的系列解决方案。国内某垂直电商，在接入推荐算法服务后，3个月即实现首页场景归因订单提升56.92%，首页场景归因GMV提升42.90%。

Q4：常说联邦学习能解决“数据孤岛”问题，那什么是“数据孤岛”，联邦学习又是如何解决的？

数据是人工智能时代的石油，但是由于监管法规和商业机密等因素限制，“数据孤岛”现象越来越明显。联邦学习（Federated Learning）是一种新的机器学习范式，它让多个参与者可以在不泄露明文数据的前提下，用多方的数据共同训练模型，实现数据可用不可见。

——解浚源 | 字节跳动联邦学习系统架构师

数据是人工智能的石油，但由于用户隐私、商业机密、法律法规监管等各方面因素，数据和数据之间不能进行连接互动，形成了隔离，就像一座座“孤岛”，缺乏关联性，这就是“数据孤岛”问题。联邦学习就是一种为了解决数据孤岛所提出的机器学习算法。

假设有三个参与方，每一个参与方都有一个私有集群和私有数据，现在参与方们希望共同训练一个模型。首先中央服务器会将参数发送给每一个参与方，然后每一个参与方通过自有的私有数据更新模型，模型更新后，再梯度汇总发送至中央服务器，最后中央服务器更新模型，并继续下一个循环。

通过这样的方式，各个参与方可以在不互相透露原始数据的情况下，共同训练一个共享参数的模型，这就是联邦学习。

常见的联邦学习范式可以分为纵向联邦学习和横向联邦学习：

纵向联邦学习有两个参与方，各自拥有同一条样本、同一个用户的不同特征。比如一个参与方拥有用户的点击行为，另一个参与方拥有用户的年龄、性别等特征。这种情况下，我们把两个集群各自d的一部分模型通过跨集群，交换中间结果，来进行模型训练。

举个纵向联邦学习在金融信用领域的例子，假设有一家银行与一家信贷机构，分别拥有同一个用户的不同特征。银行拥有该用户的存款信息，信贷机构拥有该用户的贷款信息，通过纵向联邦学习就可以综合训练该用户的信用评估。

横向联邦学习指两个参与方拥有不同样本的相同特征，比如两个参与方都有用户的年龄、性别特征，但是一个参与方拥有用户甲、用户乙的，另一个拥有用户丙、用户丁的。在这种情况下，每一个参与方都拥有整个模型，我们分别用不同的数据更新模型，最终汇总模型梯度来训练模型。

同样以金融信用为例，假设多家银行分别向不同的用户发放信用卡贷款，并拥有了不同用户的相同特征，那么就可以将各自拥有的不同用户特征，采用横向联邦方式建立一个更准确的用户信用评估模型。

Q5：信息内容是智能增长不可或缺的部分，如何做到高效优质的信息内容创作？

人工智能正在改变人们创造、获取、分享及消费信息的模式，然而高效高质有用的内容创作仍然困难重重，保证大众能公正的获取到准确信息也充满挑战。

——李磊 | 字节跳动AI Lab总监

随着新媒体平台的兴起，人工智能技术大大提高了信息内容的创作性，个性化推荐算法也为信息内容的分发提供了极大便利，而这其中，文本生成技术对于信息内容创作尤为重要，它在很多场景中有着广泛的应用，比如机器翻译、机器写作、对话机器人以及自动问答等。

关于机器翻译，在去年《管理科学》杂志上，有一项MIT研究人员的最新研究表明，机器翻译技术已经将国际化贸易量提高10%，这相当于将地球上各个国家之间的距离缩短了25%。

为助力高效优质的信息内容创作，字节跳动基于团队多年机器学习和自然语言处理领域的深耕，百亿多种语言语料的积累，自主研发了火山翻译平台，目前已支持超过50个语种、2500个语对之间的互译。近日，火山翻译平台还在国际机器翻译大赛（WMT20）中一举拿下包括中文到英文、德语到英文、德语到法语等5项翻译冠军！

至于机器写作，从2015年走入国内公众的视野后，已经历了5年发展。在当下科技主张的时代，信息内容的生产方式也逐渐由PGC（媒体生产内容）到UGC（用户生产内容）再往AGC（算法生产内容）一步步转变。

对此，字节跳动2016年自研机器写作平台“xiaomingbot”，至今已支持6种语言，覆盖17项体育赛事，累计写作文章60万篇。

“xiaomingbot”是如何实现信息内容自动创作的？以足球比赛为例，xiaomingbot首先从数据源获取球员比赛布阵、球员进球等比赛信息，接着利用计算机视觉算法，对比赛视频进行分析，进一步识别其中球员、球衣号码，球员运动轨迹，球员动作、球员位置等关键场景信息，最后通过收集与分析的信息，使用文本生成算法输出文章内容。

机器写作依托于数据与算法，能自动生成信息内容稿件，可以全天候检测信息热点，信息内容的全面度与时效性得到极大提高。另外，机器写作还能有效避免主观因素导致的信息内容偏差，同时减少重复性的信息内容创作。

Q6：现在愈发感受到技术迭代之快，我们怎么样才能跟上数字化建设的节奏，做好业务增长？

使用的技术一直在变化，但技术作为数据和业务间的桥梁没有变；业务的协作模式、跨界竞争层出不穷，但业务的内涵没有变化。企业要做的始终是追求价值，变化的是追求的途径。途径变得更加多样也更具挑战性，因此我们需要更加积极地去拥抱变化。

——熊云 | 火山引擎大数据架构师

当下增长业务的快速变化与应对方式的探索速度之间，还存在非常大的一个落差，在数字化转型上，就体现在数据信息汇聚、知识提取和价值探索方面。我们的跟进速度尤其显得不足。

在急剧快速的变化节奏中，传统的应对方式显然已经无法满足当下所需的诉求。互联网作为一个真正受数据驱动的行业，强就强在对数据支持的探索速度，牛也牛在对数据价值的兑现速度。

简单来说，应用数据价值的极致，可以认为是一个推荐系统，一个完全靠机器自动化、端到端来完成物和人之间匹配的推荐系统。

上面反复提及数据价值探索速度、数据价值兑现速度，那么我们的速度到底为什么跟不上，是被什么拖慢了？先看看现实中的几个常见场景：

业务总是在变，需求永远不少：技术同学还没完成需求，产品经理又改变了想法。
技术变化太快，刚用已经淘汰：业界技术一直在变化，好不容易熟悉了一个工具，新工具又出现了。
结果分析太慢，想法难以兑现：跑数据跑了好几天还没出结果，根本无法及时得到分析结果。
数据越来越多，口径越来越乱：不同口径的数据指标无法匹配，事情越做越慢。

要怎么解决这些常见问题？我们把视角分为工具和数据，把问题分为具体和抽象，这四个常见场景核心就一一对应了四个象限的问题。

下面两个象限问题可以用工具来解决，可以是大数据治理套件、大数据开发套件等等。上面两个象限需要通过探索数据解决问题，即对具体的领域知识的探索，对不确定主题数据的探索。

数据知识洞察四象限是支撑起数字化转型的底层命题，其实也是构成数据平台的四大核心命题。建设数据洞察四象限目的是为了帮助用户快速地洞察自己的数据，简而言之，是为了在系统一开始上线，我们就能快速获取结果。

2021年将更加贴近智能原生时代，火山引擎“智能增长”六问六答总结了字节跳动和火山引擎内部对于“智能增长”的技术最佳实践、方法论，希望能借此助力企业通过数据和智能的技术，打造更好的产品体验，实现业务更加快速、持续、智能的增长。

Q1：在科技主张时代，如何通过智能技术去打造更好的产品体验，赋能业务增长？ #

丨第一件：最佳实践 #

丨第二件：方法论 #

丨第三件：软件产品 #

Q2：智能中台可以实现高可靠高性能调度，字节跳动和火山引擎的智能中台是如何构建的？ #

丨 基础设施平台 #

丨机器学习平台 #

丨研发中台 #

Q3：推荐算法有哪些落地应用？火山引擎推荐算法技术架构有哪些独特优势？ #

丨客户数据准备 #

丨智能推荐服务 #

丨客户业务端 #

Q4：常说联邦学习能解决“数据孤岛”问题，那什么是“数据孤岛”，联邦学习又是如何解决的？ #

Q5：信息内容是智能增长不可或缺的部分，如何做到高效优质的信息内容创作？ #

Q6：现在愈发感受到技术迭代之快，我们怎么样才能跟上数字化建设的节奏，做好业务增长？ #