You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们
导航

可视化建模概述

最近更新时间2023.08.22 14:36:54

首次发布时间2021.12.10 17:59:39

1. 产品概述

可视化建模,是智能数据洞察提供的数据处理与建模功能,通常这一能力被称为 ETL(Extract-Transform-Load),也可称之为数据建模。可视化建模,作为数据源和可视化展示的中间环节,能够让用户在可视化查询与仪表盘制作前,对初始数据集进行拖拉拽式、低门槛、智能化的高效数据处理,使数据经过清洗、转换、装载后输出更有利于业务分析的数据集。同时,该模块还可以实现模型训练、算法预测场景能力。

2. 使用流程


创建可视化建模任务-->选择数据连接-->添加数据算子-->配置算子连接关系-->配置算子-->执行算子-->输出算子-->设置输出算子的存储方式。

快速使用视频可见:

本视频仅供预览,完整的学习课程请见文档学习课程

3. 应用场景

3.1 所想即所得,可视化完成数据处理过程

如想获取按照日期、城市粒度的订单数及订单金额,并获取每日 Top10 消耗金额数据的城市数据。

常规数据处理流程可视化建模处理流程
  1. 寻找数仓或BP拉取订单的明细数据,包含订单id/订单金额/用户id/订单日期城市等

  2. 将数据通过透视图的操作设置行为订单日期、城市,指标为订单金额求和、订单id求和

  3. 将透视结果按照金额排序,然后编写序号

  4. 用筛选器过滤Top10的数据

  1. 选择数据源,选择库表或上传CSV文件或连接LarkSheet

  2. 筛选需要使用的字段信息,配置自己定义的字段名称及格式

  3. 选择聚合算子,按照日期和城市聚合计算订单量和订单金额

  4. 选择Top值算子,取Top10金额数量

  5. 输出数据集,数据集可应用到风神中绘制图表

3.2 多表快速结合,轻松解决多数据关联计算

在数据处理过程中,有多个数据源需要进行组合使用,比如有两份数据量比较大的订单数据和一份客户属性信息表,需要根据账单金额和成本金额计算利润金额,然后按照利润贡献高低取 Top100 的用户订单信息。

常规数据处理流程可视化建模处理流程
  1. 需要将两个订单数据打开后,Copy数据合并到一个文件中

  2. 采用VloopUp查找订单里用户和客户里用户数据,然后将两者数据组合生成新的数据

  3. 采用透视表计算用户账单金额和成本金额,然后计算利润金额

  4. 按照利润金额排序获取TopN客户信息

  1. 可以上传CSV文件/LaskSheet构建数据输入

  2. 然后可以合并3月/4月订单数据为一份数据

  3. 连接客户信息属性表,绑定客户属性信息

  4. 选择聚合,按照客户具体计算账单金额和成本金额

  5. 选择计算列,根据账单金额和成本金额计算利润金额

  6. 根据利润金额排序获取TopN客户信息



3.3 AI 数据挖掘能力无代码即可配置

可视化建模封装了超过30类+常见的AI算子能力,仅需了解算法的作用并通过配置化的方式配置算法算子的输入和训练目标即可完成模型训练,根据配置的其他数据内容快速得到预测结果。

  • 特征工程算子(13)

  • 机器学习算子(22)

  • 自然语言处理****算子 (3)

  • AI算子参数配置

  • AI模型训练效果

3.4 客户意向度挖掘预测

比如需要基于存量高意向客户样本做客户意向度挖掘:

(1)拖入样本数据和全部数据作为数据输入

(2)拖入分类算法,如XGB算法用于模型训练

(3)拖入预测算子,搭建模型与全部数据的关系进行预测

(4)实际数据和预测结果结合输出数据集,从而分析全部用户数据的意向分布

3.5 回购预测模型搭建

电商场景中,需要根据现有数据做用户回购模型,在模型搭建中需要经过数据清洗、格式转换之后采用梯度提升树构建预测模型,此时可以根据可视化建模构建回购模型流程:

(1)合并行:将 n 个算子(图中的长方形)输出数据表根据一致的表头合并成一张总的数据表,用户销售数据没有增删新属性时此处不用改动。

(2)缺失值替换:属性列存在空值(null)时,会影响后续模型计算,使用替换缺失值算子可以将空值替换为指定默认值,用户销售数据没有增删新属性时此处不用改动。

(3)one-hot 编码: 文本类型的属性无法直接被模型训练使用,需要 one_hot 编码成数字向量例如:

暂时无法在飞书文档外展示此内容

(4)梯度提升树:负责拟合训练数据,输出一个可以用于预测的模型(图中没有标注的参数不需要维护人员修改):

(5)聚合_1:去除预测数据中的重复项,取最大概率。

(6)提取字段:提取必要的 label 和概率值输出。