最近更新时间:2022.06.13 16:56:55
首次发布时间:2022.06.13 16:56:55
对企业来说,数据治理是一个组织进行数据资产沉淀的基础,也是所有数据应用的基础和根基,治理的好坏直接影响数据应用过程中的价值体现。
近年来,“知识服务平台”得到的业务发展迅速,激发出了数据治理的迫切需求。在经历了一番探索后,其数据治理实践取得了明显的效果:
据Gartner的一项调查显示,超过90%的数据治理项目都以失败告终,得到为何能够成功?其数据治理实践中,有哪些经验可以分享?得到大数据负责人高元胜讲述了得到的数据治理历程。
在开始进行数据治理的初期阶段,得到的总体思路是**“以开源技术为根基,自研数据平台”**。
得到的数据底层基建包含Cloudera CDH、核心架构、自助分析和BI三个模块。
Cloudera CDH模块,得到在物理服务器上统筹Apache大数据开源组件来搭建数据集群。
核心架构模块,得到也引入相应的开源组件。采用Ali-Datax完成数据集成工作,通过LinkedIn-Azkaban支持计算任务调度编排,使用Presto支撑即席查询需求,以Flink支撑实时计算。
自主分析和BI平台模块,得到采用了开源架构和商业软件共存的模式,满足各类场景下需求繁多的数据展示需求。
在上层的数据平台,得到自研了数据治理的核心模块:数据字典、数据授权、质量中心、指标大厅、指标服务、埋点采集等。
经过这一系列的搭建,得到建立起了基本的数据研发和治理基础设施。
随着得到各个业务线的高速发展,2021年,其数据需求也更加复杂,这给得到的技术基建能力带来了新的挑战:
对于这家处于高速成长期的企业来说,自研技术体系意味着耗时耗力,并不是投入产出比最优、速度最快的选择。基于此,得到开始探索市场上成熟的、体系化的数据治理解决方案。得到了解到,字节跳动数据治理的实践已经被沉淀为产品和工具,通过火山引擎对外开放。
2021年5月,得到与火山引擎正式达成合作。
基于自己所遇到的挑战,得到梳理出两个具体的诉求:补齐基建能力、建立体系化的数据治理方法。针对这两个诉求,2021年5-8月,得到引入了火山引擎的大数据研发治理套件DataLeap,补足了其基建能力;2021年8-11月,火山引擎专家团队入场进行具体问题具体治理,得到建立了体系化的治理方法。
火山引擎DataLeap为企业提供全场景数据整合、全链路数据研发、全周期数据治理、全方位数据安全等能力,核心价值是帮助客户提效数据开发,沉淀数据资产,落地数据治理体系。
数据研发方面,DataLeap提供数据集成、数据开发、智慧运维等功能,替代了得到之前的Datax、Azkaban等开源架构,彻底释放了得到投入在该部分基建的资源。
数据治理方面,DataLeap具备完善的数据治理功能,包括数据地图、数据质量、SLA保障等。这些功能将字节数据平台经过验证的治理方法抽象成工具,解放了得到在治理系统自研上的资源投入。
Dataleap平台的引入,帮助得到将欠缺的基建能力一次性补足。
有了工具之后,下一步是如何把工具用好,建立体系化的治理方法。这方面火山引擎为得到提供了两方面的服务:
一是火山引擎的专家团队驻场,近距离地参与到得到的数据治理工作中。
在得到2019-2020年的跨年演讲上,罗振宇老师曾分享过一种方法:“帮别人解决问题时身份转换,从一个旁观者变成置身其中的人,一个看似无解的事就有了答案。”火山引擎正是让自己“置身其中”。
得到大数据负责人高元胜表示,这也是火山引擎能够成为得到外脑的关键原因。“在得到与火山引擎早期的接触中,火山引擎就体现出在企业服务上的特质,把我们的困难当成了他们的问题,在各种复杂情况下帮助我们探索合适的破局之路。”
火山引擎的专家团队入场之后,对得到的实际情况进行了具体问题具体分析,在数据指标治理、业务数据治理、埋点数据治理、数据底座管理体系四大方向上,协助得到进行了体系化的建设。这使得得到具有跨职能性质的数据治理有了长期稳定的抓手,更具持久性。
二是火山引擎将字节数据平台成熟的数据BP模式引入得到,这对得到建立体系化的数据治理方法起到至关重要的作用。
数据BP,即“数据业务伙伴”,本质是将具备数据专业能力的人才上升至业务线。 其职责是在一线配合数据分析师充分满足数据需求,同时保障数据治理工作的有序落地,愿景是在数据治理成果推进到一定程度之后,探索数据赋能业务发展的方法。
数据BP机制的建立,给得到的大数据团队带来了架构职能上的变化。
总体而言,经过评估,高元胜认为火山引擎DataLeap平台的引入,以及专家团队的驻场给得到带来了如下收益:
如果将马斯洛需求层次理论引入到企业数据治理上,得到的数据治理到了哪一层呢?——以DataLeap赋能的数据底座治理为主线,得到的数据治理正在从第一层可用阶段,向第二层高质量稳步推进中。
但全公司、各个业务线汇集的数据底座治理是一个体系化的大工程,不可能一蹴而就,要坚持长期主义。另一方面,得到对于用户洞察、用户精细化运营的需求非常强烈,等不了全局规划。
在急迫的诉求下,得到特事特办,引入火山引擎的客户数据平台CDP系统,围绕用户标签的数据治理,将专项的用户数据域从第一层温饱阶段,直接推进到第三层的易用阶段。
火山引擎客户数据平台CDP,希望能够通过火山引擎生态圈的标签画像,以合规、合法的方式赋能给企业。同时联合联邦学习、隐私计算等方法,让企业的数据资产真正发光发亮。
得到的GMP系统运营任务包含3个方面:物料+策略+触达通道。
触达通道是指连接用户的基本能力,包含站外通道如Push,站内通道如Banner;物料指运营应用具体触达通道时使用的填充物,比如应用Push时需要准备文案,应用Banner时需要准备文案+图片;策略是精细化运营体系的核心,也是最困扰得到的模块。
基于以上这些诉求,得到在以下4个方面的能力需要加强:
前3个诉求:标签管理体系、标签生产提效、规模化群体洞察均属于基建能力缺失。最后一个诉求属于方法论。所以与接入DataLeap的出发点相同,得到首先需要补足基建能力。
火山引擎客户数据平台CDP具有四大核心功能:标签体系、用户分群、消费画像、群体洞察。这四大核心功能非常精准地满足了得到的诉求。
标签体系模块提供了完整易用的标签体系建设工具。在基础标签的底座上,运营和数据分析师可自助搞定组合标签、逻辑标签、用户分层等二次开发工作。
用户分群模块在标签逻辑计算出人群包后,提供人群导出和API服务,无缝对接得到已有的GMP平台基建。
消费画像、群体洞察模块向运营提供了从微观到宏观的用户探索能力,无论是活动前更精准的圈定目标用户,还是活动后知识库沉淀,都为持续且有效的智能运营方法论提供了基石。
经过与火山引擎专家团队的多轮碰撞,以及多次运营活动的实践打磨,得到逐步建立起闭环的智能运营方法论。
如上图所示,在业务目标确定后,通过构建标签体系和用户分层等方式,完成消费人群的预判和深入洞察,并运用到运营活动中。活动结束后沉淀经验、复盘总结和优化,最终形成经验不断优化迭代,形成正向闭环。
以上方法论,在得到多次大促活动的预热环节广泛使用,逐渐成为核心的精准运营思路。其中,火山引擎客户数据平台CDP支撑了标签体系、用户分层、用户圈选、群体洞察等关键环节。
在经过一系列的探索之后,得到具备了数据赋能业务的基础条件。高元胜认为,“经过与火山引擎的合作,我们更真实的感受是,借助成熟的数据平台和工具,能够更有力地支撑业务发展。数据治理进程的加速推进,是数据赋能业务的基础条件,这样用技术帮助业务目标达成,才是技术真正的价值。”