You need to enable JavaScript to run this app.
数据智能体 DataAgent(私有化)

数据智能体 DataAgent(私有化)

复制全文
最佳实践
电销外呼数据解读
复制全文
电销外呼数据解读

电销团队日常作业产生海量数据(含通话录音、工单文本、聊天记录等),难以有效融合行为事件、交易订单等多维度的数据,客户洞察不足。本文为您介绍如何使用非结构化数据打标功能,对电销中的海量数据提取结构化的标签。

背景介绍

痛点

  • 数据利用率低:企业内海量数据碎片化,利用不足(现存数据量>10万条/月),无公域数据增补,无法实时关注客户侧业务变化。
  • 客户识别准确率低:客户量庞大,但电销坐席人数有限,难以高效识别高质量客户。
  • 客户服务体验差:仅使用标签标记客户,无法针对客户当下业务情况匹配方案及话术。
  • 营销依赖经验:客户意图洞察和产品组合推荐依赖经验,新人学习培训成本高。

目标

通过AI技术(NLP、语音识别等)自动分析电销与客户在通话录录音、微信聊天记录、工单文本等非结构化沟通数据,提取关键业务标签(如客户意向、需求场景、行业痛点、合作障碍、行业情报、偏好等)沉淀到标签库用于优化客户画像自动化构建、跟进策略优化等。
以下为提取的标签诉求整合后的完整表格,涵盖客户维度、信息获取偏好、产品维度、情报维度、补充维度等内容:

维度分类

中文标签名称

英文标签名称

标签定义

标签格式要求

客户维度

是否为企业

if_Company

是否为企业客户

枚举值:是,明确表示“是”;否,明确表示“否”;<无法获取,客户表示不方便告知,或者拒绝告知

职位层级

decision_maker_level

客户在企业中的决策权等级

枚举值(需NLP识别): 决策人:明确表示最终决定权<影响者:可建议但无决定权- 执行者:仅负责对接

需求场景

core_demand_scene

客户核心业务场景描述

文本数组:["线上获客","支付对账"]

需求痛点

pain_point

客户明确表达的痛点

文本数组:["人工成本高","数据分散"]

意向程度

intention_level

客户合作意愿强度

数值:0 - 100(概率值,需情感分析 + 关键词匹配)

急迫程度

urgency_level

需求解决紧急程度

枚举值(需时间关键词识别):- 紧急:含“立刻/马上/本月必须/尽快”等词- 中等:含“季度内/下个月”等词- 观望:含“再看看/不急/明年”等词

预算范围

budget_range

客户提及的预算区间

文本:"10 - 20万"(需金额实体识别)

项目阶段

project_stage

客户目前的项目阶段

枚举值:了解阶段;测试选型阶段;招投标阶段;

是否决策人

is_decision_maker

直接确认客户是否具备采购决策权

布尔值:true/false(需职位 + 权力声明识别)

沟通风格

communication_style

客户沟通风格

强势,随和等

触达偏好

contact_preference

触达偏好

文本数组:[微信、飞书、电话、短信](需媒介关键词识别)

沟通时间偏好

contact_preference

希望联络的时间段(如工作日/周末/午休)

希望联络的时间段(如工作日/周末/午休)

决策风格

decision_style

采购决策依据(数据驱动/关系导向/品牌信任)

采购决策依据(数据驱动/关系导向/品牌信任)

风险偏好

risk_appetite

对新技术/合作的风险态度

对新技术/合作的风险态度

核心关注点

key_concern

客户反复提及的关键因素

文本数组:["价格","实施周期"](需关键词频次统计)

试用意愿

trial_willingness

对试用XX产品的兴趣程度

枚举值(需意图识别):
- 强烈:主动要求试用/询问细节
- 一般:表示"可以考虑"
- 拒绝:明确拒绝或转移话题

研发团队情况

dev_team_status

客户技术团队规模与能力

文本:"20人团队/熟悉API开发"(需实体识别)

调用方式

integration_method

客户倾向的系统集成方式(如API/SDK/本地部署)

文本数组:["API","SDK"](需技术术语识别)

产品维度

关注产品

interested_product

客户主动咨询的XX产品名称

文本数组:["智能客服","数据分析"](需产品名称归一)

推荐产品

recommended_product

销售向客户推荐的产品名称

文本数组:["企业版XXX","BI工具"]

产品顾虑

product_concern

客户对产品的质疑点

文本数组:["价格高","定制化弱"](需负面情感识别)

产品抱怨

complaint_focus

客户对现有服务/产品的负面反馈

文本:"响应慢于竞品"(需比较级识别)

友商对比

competitor_comparison

客户对比竞品时的关注维度

文本:"价格高于XXX"(需竞品实体 + 比较词识别)

使用的竞品公司

used_competitor

客户当前使用的竞品名称

文本数组:["XXX - 智能客服"],取竞品名称。如果使用竞品,未告知具体名字

情报维度

竞品体验评价

competitor_eval

客户对竞品的满意度评价

枚举值(需情感分析):
- 满意:明确称赞/表示续费
- 一般:中性评价/未抱怨
- 不满:直接批评/提及替换

竞品关注点

competitor_focus

客户选择竞品的关键原因

文本数组:["价格低","服务好"]

流失风险

churn_risk

客户中断合作的可能性

数值:0 - 100(需结合投诉频次 + 合同到期日)

增购潜力

upsell_potential

客户追加购买其他产品的可能性

枚举值:高/中/低(需需求关联度分析)

转介绍意愿

referral_willingness

客户推荐他人购买的意向

枚举值:主动提及/可尝试/无意向(需社交意图识别)

补充维度

商机类型

opportunity_type

需求场景对应的商机分类

文本:"新增采购"(需业务规则映射)

决策时间线

decision_timeline

客户计划做出采购决策的时间节点

日期:"2025 - Q3"(需时间实体提取)

技术适配复杂度

tech_complexity

客户IT环境对产品集成的难度评估

枚举值:高/中/低(需技术栈分析)

操作步骤

数据连接

将通话记录创建为VeCDP的数据集,在VeCDP接入数据,具体操作步骤请参见常见数据源接入数据输入

  1. 登录VeCDP控制台,选择数据管理>数据连接
  2. 在数据连接目录左上角,点击新建数据连接,选择本地文件 - Excel或CSV
    Image
  3. 点击之后在本地文件中找到目标Excel/CSV文件,并点击打开。最多支持上传5个文件,且文件总大小不超过500M。建议选择不超过10个sheet,否则可能导致上传失败。
  4. 当加载完成到100%时,就可以选择该文件中的sheet内容。点击下一步之后预览数据,并设置数据连接名称。预览完成即可点击确定,就完成了Excel/CSV的数据连接。
    Image

创建可视化建模任务

  1. VeCDP控制台顶部选择数据管理>可视化建模
  2. 在可视化建模页面左侧导航栏单击任务列表,进入可视化任务列表页面后单击新建>新建离线任务,开始创建一个离线类型的可视化建模任务。
    Image
  3. 在新建任务页面左上方单击➕添加数据连接。选择刚才创建的数据连接。
    Image
  4. 选择待打标的非结构数据的数据集,将其从左侧列表里拉入右侧面板。
    Image

配置数据清洗算子

  1. 点击数据集的+号,选择计算列
    计算列算子,支持自定义表达式,使用Spark函数处理上游字段并添加新字段。计算列的配置流程可以表格形式清晰展示新增的字段。
    Image

  2. 点击添加,配置计算列名称和表达式,在常用函数中搜索并双击replace函数,补充表达式。然后点击确定
    Image

  3. 点击数据预览,查看数据预览结果,确认数据清洗结果。
    Image

  4. 点击计算列的+号,选择字段设置
    支持选择保留字段、设置字段类型、设置字段名称、设置字段排序。
    Image

  5. 填写字段设置算子的目标字段名称和字段类型。
    Image

    目标字段名

    目标字段类型

    huihuaid

    string

    conten

    string

    content

    string

配置火山方舟大模型算子

  1. 点击字段设置的+号,选择特色专区算子>火山方舟大模型算子。
    Image

  2. 分别添加4个火山方舟大模型算子,从不同的维度提取内容。
    Image

  3. 填写对应的提示词和用户输入。用户输入为${content}
    Image

    • 客户维度提示词示例如下:
    提示词优化
    # 角色
    你是一个专业的数据标签提取专家,你将根据客户提供的对话数据,严格按照特定规则,准确、迅速地提取各类信息标签,并以json格式输出。
    
    # 任务描述与要求
    一、基础信息类
    1、提取是否为企业(if_Company)的标签。规则:检查对话里有无客户身份相关表述,若明确是企业客户,输出 “是”;明确不是,输出 “否”;没提及或不方便告知、拒绝告知,输出 “无法获取,客户表示不方便告知,或者拒绝告知” 。示例:对话提到 “我们是 XX 企业,想了解下产品”,则提取 if_Company: 是 。
    2、提取职位层级(decision_maker_level)的标签。规则:通过对话识别客户在企业的决策等级,按 “决策者、影响者、执行者” 三类枚举值输出 。如果是对话中,明确表示自己有最终决定权,则判定为决策者。如果说要下来商量下,可判定为执行者。示例:客户说 “我负责最终拍板”,提取 decision_maker_level: 决策者 。
    3、提取需求场景(core_demand_scene)的标签。规则:梳理客户核心业务场景描述,整理成文本数组,如对话提 “做线上获客,需要产品支持”,提取 core_demand_scene: ["线上获客"] 。
    4、提取需求痛点(pain_point)的标签。规则:抓取客户明确表达的痛点,整理成文本数组,像对话说 “人工成本高,数据分散难处理”,提取 pain_point: ["人工成本高", "数据分散"] 。
    5、提取意向程度(intention_level)的标签,规则:用情感分析 + 关键词匹配,计算 0 - 100 的概率值;或识别关键词(如 “立刻 / 马上 / 本必须 / 尽快” 对应 “紧急” 、“季度 / 下个月” 对应 “中等” 、“再看 / 不急 / 明年” 对应 “观望” ),按枚举值输出 。示例 1:客户说 “必须尽快合作”,提取 intention_level: 紧急 ;示例 2:通过情感分析算出概率 0.8,提取 intention_level: 80 。示例3:客户如果愿意留联系方式,并询问产品细节代表意向程度较高,提取 intention_level: 90 .
    6、提取急迫程度(urgency_level)的标签。规则:识别时间关键词,“立刻 / 马上 / 本必须 / 尽快” 对应 “紧急” 、“季度 / 下个月” 对应 “中等” 、“再看 / 不急 / 明年” 对应 “观望” ,按枚举值输出 。示例:客户说 “下个月得用上”,提取 urgency_level: 中等 。
    7、提取预算范围(budget_range)标签规则:识别对话里金额实体,整理成 “10 - 20 万” 这类文本输出 。示例:客户说 “预算大概 10 到 20 万”,提取 budget_range: "10 - 20万" 。
    8、提取项目阶段( project_stage)规则:按 “了解阶段;测试选型阶段;招投标阶段;” 枚举值,从对话判断后输出 。示例:客户说 “还在初步了解你们产品”,提取 项目阶段: 了解阶段 。
    9、提取是否决策人(is_decision_maker)标签,规则:结合职位 + 权力声明识别,是决策人输出 “true”,不是输出 “false” 。示例:客户说 “我就是负责决定买不买的”,提取 is_decision_maker: true 。
    10、沟通风格(communication_style)的标签。规则:用语气分析,“频繁打断 / 命令式语气” 对应 “强势” 、“反复确认 / 要求证明” 对应 “谨慎” 、“友好附和 / 少质疑” 对应 “随和” 、“数据驱动 / 逻辑提问” 对应 “理性” ,按枚举值输出 。如果没什么情绪波动,对应 “随和” 。示例:对话中客户频繁打断且用命令式表达,提取 communication_style: 强势 。
    二、信息获取偏好类
    11、触达偏好(contact_preference),规则:识别对话里提及的触达渠道关键词(微信、飞书、电话、邮件等 ),整理成文本数组输出 。示例:客户说 “你发邮件跟我沟通吧,或者微信也可以”,提取 contact_preference: ["邮件", "微信"] 。
    12、沟通时间偏好(contact_time_preference )规则:提取客户希望联络的时间段,如 “下午”“工作日” 等,按文本输出 。示例:客户说 “下午联系我,周末别打扰”,提取 沟通时间偏好: "工作日下午" 。
    13、决策风格(decision_style),规则:按 “数据驱动、关系导向、品牌信任” 枚举值,从对话判断输出 。示例:客户说 “把你们 ROI 报告发我,看数据再决定”,提取 decision_style: 数据驱动 。
    14、风险偏好(risk_appetite),规则:抓取客户对新技术合作风险态度的描述,整理成文本数组输出 。
    示例:客户说 “我们愿意尝试新技术,不怕风险”,提取 risk_appetite: ["愿意尝试新技术,不怕风险"] (按实际提炼关键词 )。
    三、其他类
    15、核心关注点(key_concern),规则:统计对话里客户反复提及的关键因素,整理成文本数组输出 。
    示例:客户多次说 “价格得优惠,功能要全”,提取 key_concern: ["价格优惠", "功能全面"] 。
    16、试用意愿(trial_willingness)规则:按 “强烈、一般、拒绝” 枚举值输出 。如果主动要求试用 / 询问细节 则判定为强烈,如果提到可以考虑,则判定为一般,如果明确拒绝或者转移话题,再说,则判定为拒绝。示例:客户说 “能给我们试用下吗,想看看细节”,提取 trial_willingness: 强烈 。
    17、研发团队情况(dev_team_status)。规则:识别对话里客户技术团队规模与能力的实体描述,整理成文本输出 。示例:客户说 “我们团队 20 人,熟悉 API 开发”,提取 dev_team_status: "20人团队/熟悉API开发" 。
    18、调用方式(integration_method),规则:识别客户倾向的系统集成方式(API/SDK/ 本地部署等 ),整理成文本数组输出 。示例:客户说 “想用 API 方式集成,或者 SDK 也可”,提取 integration_method: ["API", "SDK"] 。
    
    
    # 相关限制
    1. 必须严格依据给定规则进行标签提取,不得擅自更改规则。
    2. 对于未提及的信息,按照“无相关信息”进行输出,确保格式规范。
    3. 输出内容需准确、清晰,符合各标签规定的格式和类型,不得出现数据类型错误或格式混乱。 
    4. 输出必须迅速且准确地以json格式呈现,json结构要完整、正确,输出的标签值加引号。 返回的格式为
    {
    "if_Company": "是", // 是否为企业
    "decision_maker_level": "决策者", // 职位层级
    "core_demand_scene": "线下获客", // 需求场景
    "pain_point": "人工成本高", // 提取需求痛点
    "intention_level": "80", // 意向程度
    "urgency_level": "紧急", // 急迫程度
    "budget_range": "10-20万", // 预算范围
    " project_stage": "了解阶段", // 项目阶段
    "is_decision_maker": "true", // 是否决策人
    "communication_style": "强势", // 沟通风格
    "contact_preference": "微信", // 触达偏好
    "contact_time_preference": "工作日下午", // 沟通时间偏好
    "decision_style": "数据驱动", // 决策风格
    "risk_appetite": "我们愿意尝试新技术,不怕风险", // 风险偏好
    "key_concern": "价格得优惠", // 核心关注点
    "trial_willingness": "强烈", // 试用意愿
    "dev_team_status": "20人团队/熟悉API开发", // 研发团队情况
    "integration_method": "想用 API 方式集成,或者 SDK 也可", // 调用方式
    }
    
    • 产品维度提示词示例如下:
    提示词优化
    # 角色
    你是一个专业的数据标签提取专家,你将根据客户提供的对话数据,严格按照特定规则,准确、迅速地提取各类信息标签,并以json格式输出。
    
    # 任务描述与要求
    针对产品维度的标签维度进行相关提取。
    1、提取关注产品(interested_product)的标签:梳理通话中客户主动咨询的XX产品,将名称进行归一化处理(统一标准命名 ),整理成["产品名1", "产品名2"]格式的文本数组,比如["智能客服", "数据分析"] 。
    2、提取推荐产品(recommended_product)的标签:从对话中找出销售向客户推荐的产品名称,整理成["产品名1", "产品名2"]格式的文本数组,像["企业版XXXX", "BI工具"] 。
    3、提取产品顾虑(product_concern)的标签:借助负面情感识别,挖掘客户对产品的质疑内容,提炼成简洁关键词,整理成["质疑点1", "质疑点2"]格式的文本数组,例如["价格高", "定制化弱"] 。
    4、提取产品抱怨(complaint_focus)的标签:通过识别比较级表述,提取客户对现有服务 / 产品的负面反馈,整理成文本形式,比如 “响应慢于竞品” 。
    5、提取友商对比(competitor_comparison)的标签:识别竞品实体(如其他公司名称 )和比较词(高于、低于等 ),提取客户对比竞品时的关注维度,整理成文本形式,例如 “价格高于XXXX” 。
    
    
    # 相关限制
    1. 必须严格依据给定规则进行标签提取,不得擅自更改规则。
    2. 对于未提及的信息,按照“无相关信息”进行输出,确保格式规范。
    3. 输出内容需准确、清晰,符合各标签规定的格式和类型,不得出现数据类型错误或格式混乱。 
    4. 输出必须迅速且准确地以json格式呈现,json结构要完整、正确,输出的标签值加引号。 返回的格式为
    {
    "interested_product": "XX产品 A", // 关注产品
    "recommended_product": "XX产品 B", // 推荐产品
    "product_concern": "价格", // 产品顾虑
    "complaint_focus": "无", // 产品抱怨
    "competitor_comparison": "竞品 C 公司产品,功能不错", // 竞品对比
    }
    
    • 情报维度提示词示例如下:
    提示词优化
    # 角色
    你是一个专业的数据标签提取专家,你将根据客户提供的对话数据,严格按照特定规则,准确、迅速地提取各类信息标签,并以json格式输出。
    
    # 任务描述与要求:
     针对情报维度进行标签提取
     1、提取使用的竞品公司(used_competitor)的标签。仔细梳理通话文本,查找客户当前使用竞品的名称表述。若能明确获取,整理成["竞品名称 - 具体产品"]格式的文本数组,例如["XXXX - 智能客服"] 。若通话提及客户在用竞品,但没说具体名字,就记录为 “使用竞品,未告知具体名字” 。
    2、提取竞品体验评价(competitor_eval)的标签。基于情感分析逻辑,逐句分析通话里客户对竞品的评价内容:若有明确称赞(如 “这竞品用着太好,肯定续费” )、表示续费意向(如 “打算继续用这个竞品” ),判定为 “满意” 。若评价中性(如 “竞品用着还行,没特别感觉” )、没抱怨内容,判定为 “一般” 。若直接批评(如 “这竞品功能太烂” )、提及替换想法(如 “想换个竞品试试” ),判定为 “不满” 。最终输出 “满意”“一般”“不满” 对应的枚举值 。
    3、提取竞品关注点(competitor_focus)的标签:从通话中挖掘客户选择竞品的关键原因描述,提炼成简洁关键词。比如客户说 “选这竞品就是因为价格低、服务好” ,就整理成["价格低", "服务好"]格式的文本数组 ,把所有关键原因都梳理进去 。
    
    
    
    # 相关限制
    1. 必须严格依据给定规则进行标签提取,不得擅自更改规则。
    2. 对于未提及的信息,按照“无相关信息”进行输出,确保格式规范。
    3. 输出内容需准确、清晰,符合各标签规定的格式和类型,不得出现数据类型错误或格式混乱。 
    4. 输出必须迅速且准确地以json格式呈现,json结构要完整、正确,输出的标签值加引号。 返回的格式为
    {
    "used_competitor": "XXXX-智能客服", // 竞品公司
    "competitor_eval": "满意", // 竞品体验评价
    "competitor_focus": "价格低服务好", // 竞品关注点
    }
    
    • 情报维度提示词示例如下:
    提示词优化
    # 角色
    你是一个专业的数据标签提取专家,你将根据客户提供的对话数据,严格按照特定规则,准确、迅速地提取各类信息标签,并以json格式输出。
    
    # 任务描述与要求
    1、通过对话信息提取流失风险(churn_risk)。结合通话中投诉频次、合同到期日相关内容,计算或判定客户中断合作可能性数值(0 - 100),如果表达较大不满,则可给一个流失风险比较高的分数。如果比较平和,则给一个中间区间的分数,如果表达积极反馈,则给一个比较低的分数。尽可能给出评分。
    2、通过对话信息提取增购潜力(upsell_potential)。依据需求关联度分析,从通话挖掘客户追加购买其他产品可能性,输出高 / 中 / 低枚举值 。如果提到其他产品的兴趣,可为高。如果未提到其他产品,则为低。
    3、通过对话信息提取转介绍意愿(referral_willingness):通过社交意图识别,从对话里提取客户推荐他人购买意向,输出主动提及 / 可尝试 / 无意向枚举值 。如果未提及向他人推荐,或者询问是否愿意推荐不表态则为无意向。
    4、提取客户计划做出采购决策或者试用的时间节点,作为决策时间线(decision_timeline)标签,输出日期格式,例如2025年Q3。
    5、 通过技术要件梳理,评估客户IT环境对产品集成的难度,以枚举型“高/中/低”作为技术适配复杂度(tech_complexity)标签。如果对话中提到一些IT集成相关的难点,判定为高。
    
    
    # 相关限制
    1. 必须严格依据给定规则进行标签提取,不得擅自更改规则。
    2. 对于未提及的信息,按照“无相关信息”进行输出,确保格式规范。
    3. 输出内容需准确、清晰,符合各标签规定的格式和类型,不得出现数据类型错误或格式混乱。 
    4. 输出必须迅速且准确地以json格式呈现,json结构要完整、正确,输出的标签值加引号。 返回的格式为
    {
    "churn_risk": "50", // 流失风险
    "upsell_potential": "高", // 增购潜力
    "referral_willingness": "主动提及", // 转介绍意愿
    "decision_timeline": "下个月" // 决策时间线
    "tech_complexity": "中" // 技术适配复杂度
    }
    
  4. 点击火山方舟大模型算子的+号,选择数据清洗>多表连接算子。
    Image

  5. 点击两个算子之间连线,将4个火山方舟大模型算子都与多表连接算子相连。
    Image

配置输出数据集

  1. 点击多表连接的+号,选择输出>输出数据集算子。
    Image
  2. 点击新建数据集,配置相关参数,具体参数可参见输出到数据集。其他选项可保持默认
    Image

执行任务

  1. 可视化建模任务配置完成后,点击测试执行,​测试执行结果栏中查看输出结果并进行调优。
    Image
  2. 任务调试完成后,保存任务配置,点击左上角返回可跳转到任务详情。返回可视化建模页面,点击当前任务的运行,可以手动运行。
    Image

后续步骤

将上述可视化建模输出的任务进行数据集导出或者标签输出,用于BI看板分析。对于解析的标签和数据集结果进行业务逻辑验证,保证符合目标预期,如果有问题,可返回大模型应用设计步骤进行提示词优化等操作。

项目成果

指标类型

目标值

计算逻辑

效率提升

打标速度提升20倍

人工50条/天 → AI 1000条/天/模型

覆盖率

从10% → 95%+

打标客户数/总沟通客户数

策略支持

分层策略迭代周期缩短50%

从2月→1月(依赖实时标签)

成本节约

年人工成本降低200万+

减少10名专职标注人员

项目亮点
  • 数据覆盖:支持微信/通话/工单三大数据源接入。
  • 准确率:通用标签准确率≥85%(基于抽样测试集);核心商机标签召回率≥90%。
  • 性能:单条数据处理平均耗时≤3秒;系统可用性≥99.5%
  • 业务验证:上线3个月内,客户分层模型AUC提升≥0.15
最近更新时间:2025.11.24 16:27:12
这个页面对您有帮助吗?
有用
有用
无用
无用