最近更新时间:2023.08.22 14:36:54
首次发布时间:2021.12.10 17:59:39
可视化建模,是智能数据洞察提供的数据处理与建模功能,通常这一能力被称为 ETL(Extract-Transform-Load),也可称之为数据建模。可视化建模,作为数据源和可视化展示的中间环节,能够让用户在可视化查询与仪表盘制作前,对初始数据集进行拖拉拽式、低门槛、智能化的高效数据处理,使数据经过清洗、转换、装载后输出更有利于业务分析的数据集。同时,该模块还可以实现模型训练、算法预测场景能力。
创建可视化建模任务-->选择数据连接-->添加数据算子-->配置算子连接关系-->配置算子-->执行算子-->输出算子-->设置输出算子的存储方式。
快速使用视频可见:
本视频仅供预览,完整的学习课程请见文档学习课程。
如想获取按照日期、城市粒度的订单数及订单金额,并获取每日 Top10 消耗金额数据的城市数据。
常规数据处理流程 | 可视化建模处理流程 |
---|---|
|
|
在数据处理过程中,有多个数据源需要进行组合使用,比如有两份数据量比较大的订单数据和一份客户属性信息表,需要根据账单金额和成本金额计算利润金额,然后按照利润贡献高低取 Top100 的用户订单信息。
常规数据处理流程 | 可视化建模处理流程 |
---|---|
|
|
可视化建模封装了超过30类+常见的AI算子能力,仅需了解算法的作用并通过配置化的方式配置算法算子的输入和训练目标即可完成模型训练,根据配置的其他数据内容快速得到预测结果。
比如需要基于存量高意向客户样本做客户意向度挖掘:
(1)拖入样本数据和全部数据作为数据输入
(2)拖入分类算法,如XGB算法用于模型训练
(3)拖入预测算子,搭建模型与全部数据的关系进行预测
(4)实际数据和预测结果结合输出数据集,从而分析全部用户数据的意向分布
电商场景中,需要根据现有数据做用户回购模型,在模型搭建中需要经过数据清洗、格式转换之后采用梯度提升树构建预测模型,此时可以根据可视化建模构建回购模型流程:
(1)合并行:将 n 个算子(图中的长方形)输出数据表根据一致的表头合并成一张总的数据表,用户销售数据没有增删新属性时此处不用改动。
(2)缺失值替换:属性列存在空值(null)时,会影响后续模型计算,使用替换缺失值算子可以将空值替换为指定默认值,用户销售数据没有增删新属性时此处不用改动。
(3)one-hot 编码: 文本类型的属性无法直接被模型训练使用,需要 one_hot 编码成数字向量例如:
暂时无法在飞书文档外展示此内容
(4)梯度提升树:负责拟合训练数据,输出一个可以用于预测的模型(图中没有标注的参数不需要维护人员修改):
(5)聚合_1:去除预测数据中的重复项,取最大概率。
(6)提取字段:提取必要的 label 和概率值输出。