You need to enable JavaScript to run this app.
导航

常用名词

最近更新时间2023.12.07 20:30:47

首次发布时间2021.10.13 18:19:17

在客户数据平台产品的使用中,涉及各类专用名词,为帮助用户更好地理解与使用产品,整理产品相关名词解释如下:

1. 产品定位相关概念

CDP产品与其他营销工具的区别:

概念解释说明

CDP(客户数据平台)

数据来源:汇聚企业全渠道数据,包括一方/二方/三方数据,打破系统之间的数据孤岛,建立统一的人、物、关系标签体系和画像系统。
应用场景:主要应用于企业的后链路营销和运营

DMP(数据管理平台)

数据来源:DMP的数据主要来自媒体自身的数据与第三方机构的数据,其触点主要是媒体提供的触点,涵盖大量广告投放端的监播数据和广告交互行为数据。
应用场景:DMP定位于为广告提供服务

CRM(客户关系管理系统)

数据来源:存储的主要是客户相对静态的数据,数据触点来源主要是转化和售后类触点,专注于客户和潜在客户,获取其购买商品和服务过程中与企业接触和互动的数据。
应用场景:围绕交易的相关业务数据管理

SCRM(社交化客户关系管理)

数据来源:SCRM触点主要在线上,集中在社交自有媒体,属于营销自动化类工具。CDP与SCRM是上下游承接的关系,CDP输出人群包给SCRM系统进行应用。
应用场景:主要用于以社交平台为主阵地的用户运营

2. 产品功能相关概念

2.1 数据融合

功能模块概念解释说明
ID MappingBaseIDBaseID即基准ID,是系统识别用户身份的OneID
主体CDP中的主体,即ID-Mapping OneID的目标对象,如人、车等
可视化建模数据建模按照某种数据处理逻辑将元数据数据清洗、加工及生产的过程叫做数据建模
数据连接构建与各类数据源打通的配置能力,实现数据读取的首要功能
画布将各功能模块按照有向流程组建成一种数据加工流程的可视化效果
算子画布中数据读取、加工、算法、数据输出能力的集成能力,对应画布中每个处理节点
算子间的连线算子间的有向关系,指代两个算子间数据流转的通道

任务

从输入数据源加载数据,经过数据处理与清洗,最终加载并输出目标数据源的过程。

实时任务

输入的数据源的数据变化能实时反应到输出数据,即数据源数据是实时更新且数据流实时加工的可视化建模任务,适用于对时效性要求极高的场景。比如:直播的实时报表、根据用户行为立即给出推荐。

离线任务数据源数据是天级/小时级等更新(即每天/每小时更新一次)且数据流程加工过程是定时执行或手动执行的可视化建模任务
数据集数据集是由一张或多张表组成的数据模型,是标签、分群等应用的基础。

运行记录

任务每运行一次生成一条运行记录,可以是用户手动触发的,也可以是系统根据周期性配置自动调起的。

处理流程

展示当前模型的数据处理节点与逻辑的流程。

全量抽取

从数据源表中抽取全量的数据,需通过字段取值设置抽取范围

增量筛选

依据分区字段从数据源表中抽取增量数据,仅非分区表支持,需指定用于判断增量的字段

字段设置

支持选择保留字段、设置字段类型、设置字段名称、设置字段排序。

连接

数据Join,支持左右内部连接/外连接,支持跨源连接

聚合

选择聚合字段及方式,可更改聚合方式、设置聚合后的字段名称

计算列

使用Spark函数处理上游字段,用以添加新字段。也可为无业务日期的表添加业务日期字段。

筛选行

选择字段,确认筛选条件,支持两层且/或逻辑关系。

数据拆分

拆分算子会将算子按照这个比例拆分成两份数据,这个值代表第一份数据占输入数据的比例。

字符串索引

一种类型转换算子,它将指定的属性的值映射成数值型索引,使得只能对数值型数据做处理的算子也可以对属性进行处理。该算子一般用于数据预处理,另外,不适合对于包含连续型数据的列执行该算子,如ID列

替换缺失值

用于缺失值替换,替换策略包括中位数替换、均值替换等,该算法要求被指定的列的数据为数值型数据

去重

去除选定列中,重复的选项,重复是指所有选中列的值都一样

二值化

将数值特征转换为二值特征0或1,对定量的特征进行“是与否”的划分,以剔除冗余信息

列归一化

对一个表的某一列或多列进行归一化处理,将原始数据缩放到需要的范围。原始数据经过数据归一化处理后,各指标处于同一数量级,适合进行综合对比评价。

主成分分析

主成分分析(PCA)是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是 全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。只能对数据型并 且角色为regular的属性做运算,输出通常为中间结果,需要作为其他算子的输入。(详见配置释义)

笛卡尔积

笛卡尔乘积是指两个集合X和Y的笛卡尓积(Cartesian product),又称直积,表示为X × Y,第一个对 象是X的成员而第二个对象是Y的所有可能有序对的其中一个成员。

离散余弦变换

离散余弦变换(DCT)将一个长度为N的时间域实值序列转换为一个长度为N的频率域实值序列。

行归一化

数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数 量级,适合进行综合对比评价。

奇异值分解

一种数据降维方式,可以对数值型数据进行简化处理,通过选取较高的奇异值将数据投影到低维空间。

特征哈希

一种简单的降维方法,目标是把原始的高维特征向量压缩成较低维特征向量,且尽量不损失原始特征的表达能力。

one-hot编码

类型转换算子,将一列映射为一个0/1向量,这个向量最多有一个1值

计算权重

计算属性的权重

分类

逻辑回归、决策树

聚类

K-Means聚类

评估

二分类评估、多分类评估、聚类评估、回归评估

2.2 标签体系

概念解释说明
标签基于行为/属性等数据,基于业务逻辑或模型能力创建的有业务指导意义,标签值可枚举的形式
标签体系由标签构成,以结构性的方式对标签内容,包括标签的数量、分类、层级关系等进行呈现和管理
全量标签(Mautag)该集团下全量用户总数,每日更新
文本型标签值用于标签值为文本类型的标签,常见使用该类型的标签例如姓名、用户名、城市等
整数型标签值用于标签值为整数类型的标签,常见使用该类型的标签例如年龄、点击次数、来店次数等
小数型标签值用于标签值为小数类型的标签,常见使用该类型的标签例如费用、占比等
多值型标签值当标签值存在多个值时使用,常见使用该类型的标签例如兴趣爱好、喜爱话题等
日期型标签值用于标签值为日期类型的标签,具体到日期,常见使用该类型的标签例如出生日期等
日期时间型标签值用于标签值为日期时间类型的标签,具体到时分秒,常见使用该类型的标签例如更新日期等
AIPL模型一种将品牌人群资产定量化、链路化运营的手段,A(Awareness)代表品牌认知人群;I(Interest)代表品牌兴趣人群;P(Purchase)代表品牌购买人群;L(Loyalty)代表品牌忠诚人群
5A模型菲利普科特勒在《营销革命4.0》里提出的营销模型,A1 了解(Aware)指顾客被动接受信息;A2 吸引(appeal)指品牌印象增加的顾客;A3 问询(Ask)指被好奇驱使主动搜索信息的顾客;A4 行动(Act)指采取行动的顾客;A5 拥护(Advocate)指对品牌有忠诚度并进行宣扬的客户

RFM模型

模型通过对每个用户R值、F值、M值高低的评估,将其对应到不同的区间中去,从而将用户划分为8种用户价值类型,分别为:重要价值客户、重要换回客户、重要深耕客户、重要挽留客户、潜力客户、新客户、一般维持客户、流失客户。
R:最近一次消费(Recency),反映的是一个客户的活跃程度
F:消费频率(Frequency),反映的是一个客户的忠诚度
M:消费金额(Monetary),反映的是一个客户的贡献度

圈选条件“且”满足所有规则或组合规则条件则视为符合标签规则
圈选条件“或”满足任意规则或组合规则条件则视为符合标签规则
不包含当前数据集的数据范围内不符合条件的用户
包含当前数据集的数据范围内符合条件的用户
全局不包含在全量用户(含未被打上该标签的用户)排除该标签值的用户(举例:如果全量用户100人,其中10人被打上“是否老年”标签:其中“是”4人、“否”5人、“其他”为1人。 那么选择该标签全局不包含 “是”,即选中96人。)
按离散数值划分标签值直接使用指标计算结果值作为标签值
按数值区间划分标签值基于指标计算结果值的阈值区间范围设置用户分层标签

2.3 用户分群

概念解释说明
人群ID类型以什么ID类型进行分群文件输出
分群名称人群包名称,分群内ID对象可能是人,也可能是物
输出主体在【分群主体转换中】,录入主体1的分群文件,转换输出另外一个主体的分群
加密方式SHA256/MD5加密

拆包

-随机拆包:
1. 从目标人群中随机拉取规定数量的人群;
2. 可随机拆分多个包;
3. 最后结果为:母包+N个随机子包,各个子包人群id唯一;
-等比例拆包:
1. 平均拆为N个包;
2. 最后结果为母包+N个子包,各子包人群id唯一且数量一致;

分群数量圈选产生分群文件时,对应的个体数量
静态分群分群更新频次为:一次性
动态分群分群更新频次为:按天/按需
人群扩样(Lookalike)将种子分群包进行同质扩样,按需扩大目标群体

2.4 用户洞察

功能模块概念解释说明

群体洞察

大盘TGI

展示分群包中某标签值在该项目下的显著性特征结果。>100则表示分群包具有相对倾向或者偏好,数值越大倾向和偏好越强;<100则表示相关倾向较弱(和平均相比);=100则表示平均水平。
计算公式:(分群包中可识别标签值用户量/分群包用户总量)/(项目下可识别标签值用户/项目下用户总量)*100

标签占比

分群包中,标签值在当前分群包下的占比。
占比越高,表示在分群包中该标签的绝对人数越多。
计算公式:分群包中标签值用户数量/分群包用户数量*100%

标签TGI

分群包中某标签值在该标签下显著性特征结果。>100则表示分群包中标签值在该标签下更具有相对倾向或偏好,数值越大则倾向和偏好越强;<100则表示相关倾向较弱(和平均相比);=100则表示平均水平。
计算公式:(分群包中可识别标签值用户量/分群包中该标签用户总量)/(项目下可识别标签值用户量/项目下该标签用户总量)*100

标签有效占比

分群包中,标签值在当前分群包下标签总人数下的占比。
占比越高,表示在分群包中该标签的绝对人数越多。
计算公式:分群包中标签值用户数量/分群包中标签的用户总量*100%

下钻分析在当前维度往下展开下一层数据
交叉分析洞察单个人群在两个画像维度上的关系
生命周期分析总用户量当天的总人数
日环比(当天总人数/前一天总人数-1)x100%
当日新增昨天不在总资产里,当天在的用户数
当日流失昨天在总资产里,当天不在的用户数
多维特征分析特征组合综合评分最能体现标签组合效果的指数,指数结果在0~1之间,数字越大,效果越好。评分计算逻辑为精确率*0.8+召回率*0.2,两者加权计算得出。
召回率正样本中满足该筛选条件的特征组合人群,在总体正样本中的占比。比如,正样本中满足该特征的人群为100人,全体正样本为1000人,则召回率为(100/1000)*100%=10%
精确率正样本中满足该筛选条件的特征组合人群,在正负总样本中的占比。比如:正样本中满足该特征的人群为400人,负样本中满足该特征的人群为100人,则精确率为400/(400+100)*100%=80%
正样本中的人数正样本中符合该特征的人群
扩量后的人数基于正样本扩量后的人群

2.5 权限

概念解释说明
项目是使用产品的一个独立“空间”,项目之间除共享服务器硬件资源外其余资源均独立隔离,如用户权限、数据资源在项目A与项目B都不同。
用户产品的使用者,需要在Portal控制台创建,具备项目、账号、邮箱、电话等信息。
用户组具备特殊业务含义的一组用户,只属于某个项目的用户群组,需要在CDP项目中心-授权管理中独立创建。
模块即CDP产品的功能模块,对应各自的菜单。支持在项目中心进行模块使用权限授权
资源用户在CDP中生产的资源,如标签、数据集、人群包、洞察报告、可视化建模任务。支持在项目中心进行资源权限授权(用户分群及用户洞察的授权在详情页操作)