You need to enable JavaScript to run this app.

火山引擎谭待:数据飞轮——“数据驱动”的新范式

最近更新时间2023.09.21 13:10:31

首次发布时间2023.09.21 13:10:31

“新的技术变革赋予数据飞轮新的能力,大模型的加持让数据飞轮的运作更平滑、高效、快速。”


9月19日,在2023火山引擎V-Tech数据驱动科技峰会上,火山引擎提出了数据驱动的新范式——数据飞轮。针对以往企业“有数据,但不驱动”的问题,数据飞轮以数据消费为核心,使企业数据流充分融入业务流,增强业务发展动力。同时,火山引擎结合大模型等前沿技术,升级发布了一系列数据产品,助力企业各个角色、各个层级的人都能及时、方便、快捷地取数、看数和归因分析,降低数据消费门槛,驱动业务价值持续增长。火山引擎总裁谭待也在会上做了题为《数据飞轮:“数据驱动”的新范式》的演讲,对数据驱动进行了深入洞察。
谭待认为,真正的问题,不再是数据驱动是否重要,而是如何才能做好数据驱动。要实现数据驱动,就必须以终为始,以数据消费作为数据驱动的核心进行建设。随着企业中数据消费者数量越来越多、密度越来越高,企业所积蓄的数据驱动的势能也就越来越大。这就构成了企业的数据飞轮。
他表示:“以数据消费为核心,数据飞轮将成为企业实现数据驱动的新范式。”

以下为谭待演讲全文:

为什么“有数据,但是不驱动”?

一直以来,火山引擎致力于通过云和智能技术,帮助企业实现更好的数字化增长,为企业构建“云上增长新动力”。我们将云上增长的动力总结成了3个核心要素,即“体验创新”“数据驱动”和“敏捷迭代”。
在这三要素中,数据驱动起到了承上启下的关键作用,为体验创新验证效果,为敏捷迭代指明方向。越来越多的企业,也早已意识到数据驱动的重要性,并为此投入了大量的资源。所以,真正的问题,不再是数据驱动是否重要,而是如何才能做好数据驱动,很多企业陷入了 “有数据,但是不驱动”的泥潭。事实上,企业内部不同人员,对数据驱动的需求和痛点是完全不同的:

  • 决策层,希望对于企业拥有足够的掌控力,需要能随时随地地了解业务的最新情况与整体动态;但大部分企业决策者,只能通过定期召开的会议来了解情况, 既不及时,也可能不真实。

  • 中层管理者,不仅仅要及时了解业务运营情况,也需要在发现问题之后,能够通过数据分析,找到问题的症结所在,制定解决方案;但他们很难既懂业务又懂数据,不少指标和业务对不上,用不起来,而且很多关键数据缺少甚至数据错误,因此业务推动中很容易出现误判。

  • 基层执行,关注的是自己所负责项目的实际表现,希望能够在数据的帮助下,更好地制定策略、验证效果;但他们提出的基本要求往往得不到技术团队支持,不能及时拿到数据,所以总是凭经验、拍脑袋,导致企业项目结果存在很高的不确定性。

那么,为什么花费了大量的资源、用了很长的时间在建设数据中台,但是却迟迟没有见到效果?原因就在于,错误的把手段当成了目标。
数据驱动,最终是要落在企业不同人员对数据的消费上的。 建设数据中台,有助于更好地管理和治理数据,但它只是实现数据驱动中的一个步骤。如果不把数据消费的最终场景解决,再好的基建最终也是无用功。这也是大部分企业有数据,但不驱动的实际原因。

数据消费是驱动业务的核心

我们来回顾一下字节跳动构建内部数据平台的历史。
2012年,字节跳动公司创业初期,最重要的需求是能够衡量推荐算法的优化效果,而A/B测试是唯一有效的方式。所以字节内部首先做的就是A/B测试平台。随着A/B测试越做越多,产品和研发都需要依靠数据分析提供策略依据,所以开发了敏捷BI,当时叫做风神。同时也开发了数据集成、数据开发、数据治理等这些工具。
在2015、2016年,这些工具逐步成型。在字节内部有句话:“A/B是一种信仰,风神是一种习惯。”据统计,那时字节跳动每个员工平均每天要看30张左右风神图表。
到了2017、2018年,随着业务的多元化,我们开发了客户数据平台、管理驾驶舱等产品,满足不同角色对数据分析的需求。当数据规模越来越大后,数据分析的速度变成了瓶颈,我们则推出了极速OLAP引擎ByteHouse,去支持内部数万员工每天的日常工作。并通过DataLeap平台,实现数据开发治理的规范化。而为了解决业务与数据互相理解的问题,又设立了数据BP机制。这样一套完整的体系就慢慢形成了。
从这里能看出,字节内部的数据平台建设,是完全从数据如何消费的维度出发来完成的。这些平台的建设和使用,也很好地支持了当时头条、抖音、电商等业务的快速发展。事实上,很多业内数据驱动做得好的公司,也基本都遵循了这一逻辑。

火山引擎认为:要实现数据驱动,就必须以终为始,以数据消费作为数据驱动的核心进行建设。
只有通过更频繁的数据消费,让数据真的“活”起来、用起来,才能够更好地驱动业务的增长,同时针对性地指导数据建设。
企业的每一个角色、每一个工种、每一个不同的岗位,都可以也都应该进行数据消费,让每一个人都能“心中有数”。随着企业中数据消费者越来越多、密度越来越高,企业所继续的数据驱动的势能也就越来越大。这就构成了企业的数据飞轮。

数据飞轮,企业实现数据驱动的新范式

我们认为,以数据消费为核心,数据飞轮将成为企业实现数据驱动的新范式。数据飞轮由业务应用层和数据资产层两部分共同组成:

  • 上面的业务应用层,侧重于通过工具和BP机制,解决业务消费数据的问题。通过更频繁的数据消费,能够让业务决策更加科学,让策略落地更加敏捷。而更科学的决策、更敏捷的动作,最终会有效提升业务价值。

  • 下面的数据资产层,与过去的数据中台核心区别是,通过上层应用有针对性的需求,能够让系统建设更加目标明确。同时,通过上游更频繁的数据消费,会进一步沉淀数据,丰富数据资产;并进一步倒逼数据质量优化,促进了数据研发效率的提升。

这两个环节,都需要对应的平台和产品来支持,但更关键的是以数据消费为目标,端到端地进行数据建设和应用落地,让企业既有数据,也能驱动。企业要想真正让“数据飞轮”良性运转起来,仅仅对理念有认知是不够的。我来分享三个重要的最佳实践。
第一点,是要让一切都可度量。
现实中,很多企业自身的大数据部门,工作价值反而无法被量化评估。一个承担公司数据建设的部门,自身的工作却无法通过数据被度量,这个有点讽刺的事情恰恰反映了很多企业在数据驱动上的困境。
在这件事情上,字节跳动的经验是0987,通过这四个数字来评估数据部门的工作:

  • 0是做到零数据事故,它对技术的能力、对运维、对治理都提出了很高的要求。
  • 9指的是90%的需求满足。一个数据团队,如果想要更好地满足业务需求,提升转化效率,就需要更熟悉业务,能够和产品、和业务的人员有深入的互动,能够一起讨论需求,帮助业务修改甚至提出需求,这样才能真正实现90%的需求满足。
  • 8指的是80%的分析,要能够通过主题表、中间表的方式来覆盖。这对中间数据的建设提出了一个很高的要求,也是实现数据快速分析的必要条件。这个数字太大或太小都会有问题,从大量业务实践来看,80%的分析覆盖是一个相对合理的目标。
  • 7指的是70%的NPS,即业务团队对数据团队的好评度。70%在行业里是一个很高的标准,我们要能够通过这个指标,去发现数据服务环节中的各个问题,来提高业务的满意度。

数据消费是数据驱动的核心,那么,如何来衡量企业数据消费的水平是否健康呢?在这件事情上,我们的经验是,2个80%

  • 企业中80%的人每天在通过各种各样的数据工具使用数据,进行数据消费。这里既包括大家传统认知中的数据工程师、数据分析师这些需要直接和数据打交道的人,也包含产品、运营、市场,甚至行政、HR、UED这些传统意义上离数据比较远的人。
  • 统一建设的分析指标能够覆盖80%的日常分析和业务场景。这样既能够保证在大多数情况下,对于数据的分析和使用是高效的,又为特殊场景的数据分析和应用预留了足够的灵活性。
    这两个80%能很好地度量企业的数据飞轮是否运转良好。

第二点,“老板看不看数很重要”。
数据驱动,是一件自上而下的事情,也是一种文化。如果一个部门的领导有看数的习惯,这个部门就大概率能做到数据驱动;如果一个公司的老板能养成看数的习惯,那么这个公司就大概率能做好数据驱动。
第三点,工具一定要建好。
如果企业文化形成了,目标和过程的量化做好了,但是没有好的工具,能够帮助员工低门槛地消费和建设数据,在实际工作中大家也很难有意愿去实践数据驱动的理念,企业的“数据飞轮”仍然转不起来。
所以拥有好的工具不是充分条件,但是一定是一个必要条件。这也是火山推出数智平台VeDI的初衷,希望能把字节数据驱动最佳实践的工具平台提供给更多企业,帮助他们构建自己的数据飞轮。
数据驱动是一种文化,这个文化体现在企业的目标设定上,也体现在整个团队的行为习惯上,而文化的贯彻和落地则需要好的工具。这些机制一起协同,才能保证企业数据飞轮能够持续、顺畅地运转下去。

当然,新的技术变革,同样也会为数据飞轮赋予新的能力。今年,大模型技术的兴起,让企业的业务创新有了更多的可能性,大模型技术也将进一步给数据飞轮的能力带来重大升级。通过大模型技术,企业能够对非结构化数据进行更好地处理,也能够帮助企业收集和处理更多的数据源。大模型的加持,不但降低了企业员工消费数据、应用数据的门槛;也同样能够帮助研发人员提升在数据开发、数据治理和数据分析过程中的效率和精度。
火山方舟是火山引擎最新推出的大模型MaaS平台,汇聚了行业顶尖的大模型厂商成果,其中包括字节的云雀大模型。通过大模型技术,火山数据产品得到了全面升级。

人类大脑有两种工作模式。第一种工作模式下,就像我们看到一张花的照片,能够快速理解照片中的信息,比如花的数量、颜色、品种等。第二种工作模式下,就像我们看到算式比如17×24,可能就没办法那么快得出答案,需要用精力和心思来算一算。两种模式中,前者是一种快思考,是无意识的,也不需要耗费脑力和精力。后者是一种慢思考,需要有意识地去调用之前的知识储备、能力和组件,相应也需要耗费一定的精力和脑力。
人在大多数情况下,都会习惯于按照第一种工作模式来处理问题;甚至在很多时候,以为自己在用第二种工作模式的时候,其实还是处第一种里面。数据驱动,更像是第二种工作模式。这可能也是很多人相比数据驱动,更愿意拍脑袋的原因。所以,数据驱动是一件难而正确的事。 火山引擎希望在未来持续和大家一起,把这件难而正确的事做好。