电销团队日常作业产生海量数据(含通话录音、工单文本、聊天记录等),难以有效融合行为事件、交易订单等多维度的数据,客户洞察不足。本文为您介绍如何使用非结构化数据打标功能,对电销中的海量数据提取结构化的标签。
通过AI技术(NLP、语音识别等)自动分析电销与客户在通话录录音、微信聊天记录、工单文本等非结构化沟通数据,提取关键业务标签(如客户意向、需求场景、行业痛点、合作障碍、行业情报、偏好等)沉淀到标签库用于优化客户画像自动化构建、跟进策略优化等。
以下为提取的标签诉求整合后的完整表格,涵盖客户维度、信息获取偏好、产品维度、情报维度、补充维度等内容:
维度分类 | 中文标签名称 | 英文标签名称 | 标签定义 | 标签格式要求 |
|---|---|---|---|---|
客户维度 | 是否为企业 | if_Company | 是否为企业客户 | 枚举值:是,明确表示“是”;否,明确表示“否”;<无法获取,客户表示不方便告知,或者拒绝告知 |
职位层级 | decision_maker_level | 客户在企业中的决策权等级 | 枚举值(需NLP识别): 决策人:明确表示最终决定权<影响者:可建议但无决定权- 执行者:仅负责对接 | |
需求场景 | core_demand_scene | 客户核心业务场景描述 | 文本数组:["线上获客","支付对账"] | |
需求痛点 | pain_point | 客户明确表达的痛点 | 文本数组:["人工成本高","数据分散"] | |
意向程度 | intention_level | 客户合作意愿强度 | 数值:0 - 100(概率值,需情感分析 + 关键词匹配) | |
急迫程度 | urgency_level | 需求解决紧急程度 | 枚举值(需时间关键词识别):- 紧急:含“立刻/马上/本月必须/尽快”等词- 中等:含“季度内/下个月”等词- 观望:含“再看看/不急/明年”等词 | |
预算范围 | budget_range | 客户提及的预算区间 | 文本:"10 - 20万"(需金额实体识别) | |
项目阶段 | project_stage | 客户目前的项目阶段 | 枚举值:了解阶段;测试选型阶段;招投标阶段; | |
是否决策人 | is_decision_maker | 直接确认客户是否具备采购决策权 | 布尔值:true/false(需职位 + 权力声明识别) | |
沟通风格 | communication_style | 客户沟通风格 | 强势,随和等 | |
触达偏好 | contact_preference | 触达偏好 | 文本数组:[微信、飞书、电话、短信](需媒介关键词识别) | |
沟通时间偏好 | contact_preference | 希望联络的时间段(如工作日/周末/午休) | 希望联络的时间段(如工作日/周末/午休) | |
决策风格 | decision_style | 采购决策依据(数据驱动/关系导向/品牌信任) | 采购决策依据(数据驱动/关系导向/品牌信任) | |
风险偏好 | risk_appetite | 对新技术/合作的风险态度 | 对新技术/合作的风险态度 | |
核心关注点 | key_concern | 客户反复提及的关键因素 | 文本数组:["价格","实施周期"](需关键词频次统计) | |
试用意愿 | trial_willingness | 对试用XX产品的兴趣程度 | 枚举值(需意图识别): | |
研发团队情况 | dev_team_status | 客户技术团队规模与能力 | 文本:"20人团队/熟悉API开发"(需实体识别) | |
调用方式 | integration_method | 客户倾向的系统集成方式(如API/SDK/本地部署) | 文本数组:["API","SDK"](需技术术语识别) | |
产品维度 | 关注产品 | interested_product | 客户主动咨询的XX产品名称 | 文本数组:["智能客服","数据分析"](需产品名称归一) |
推荐产品 | recommended_product | 销售向客户推荐的产品名称 | 文本数组:["企业版XXX","BI工具"] | |
产品顾虑 | product_concern | 客户对产品的质疑点 | 文本数组:["价格高","定制化弱"](需负面情感识别) | |
产品抱怨 | complaint_focus | 客户对现有服务/产品的负面反馈 | 文本:"响应慢于竞品"(需比较级识别) | |
友商对比 | competitor_comparison | 客户对比竞品时的关注维度 | 文本:"价格高于XXX"(需竞品实体 + 比较词识别) | |
使用的竞品公司 | used_competitor | 客户当前使用的竞品名称 | 文本数组:["XXX - 智能客服"],取竞品名称。如果使用竞品,未告知具体名字 | |
情报维度 | 竞品体验评价 | competitor_eval | 客户对竞品的满意度评价 | 枚举值(需情感分析): |
竞品关注点 | competitor_focus | 客户选择竞品的关键原因 | 文本数组:["价格低","服务好"] | |
流失风险 | churn_risk | 客户中断合作的可能性 | 数值:0 - 100(需结合投诉频次 + 合同到期日) | |
增购潜力 | upsell_potential | 客户追加购买其他产品的可能性 | 枚举值:高/中/低(需需求关联度分析) | |
转介绍意愿 | referral_willingness | 客户推荐他人购买的意向 | 枚举值:主动提及/可尝试/无意向(需社交意图识别) | |
补充维度 | 商机类型 | opportunity_type | 需求场景对应的商机分类 | 文本:"新增采购"(需业务规则映射) |
决策时间线 | decision_timeline | 客户计划做出采购决策的时间节点 | 日期:"2025 - Q3"(需时间实体提取) | |
技术适配复杂度 | tech_complexity | 客户IT环境对产品集成的难度评估 | 枚举值:高/中/低(需技术栈分析) |
将通话记录创建为VeCDP的数据集,在VeCDP接入数据,具体操作步骤请参见常见数据源接入和数据输入。
点击数据集的+号,选择计算列。
计算列算子,支持自定义表达式,使用Spark函数处理上游字段并添加新字段。计算列的配置流程可以表格形式清晰展示新增的字段。
点击添加,配置计算列名称和表达式,在常用函数中搜索并双击replace函数,补充表达式。然后点击确定。
点击数据预览,查看数据预览结果,确认数据清洗结果。
点击计算列的+号,选择字段设置。
支持选择保留字段、设置字段类型、设置字段名称、设置字段排序。
填写字段设置算子的目标字段名称和字段类型。
目标字段名 | 目标字段类型 |
|---|---|
huihuaid | string |
conten | string |
content | string |
点击字段设置的+号,选择特色专区算子>火山方舟大模型算子。
分别添加4个火山方舟大模型算子,从不同的维度提取内容。
填写对应的提示词和用户输入。用户输入为${content}。
提示词优化 # 角色 你是一个专业的数据标签提取专家,你将根据客户提供的对话数据,严格按照特定规则,准确、迅速地提取各类信息标签,并以json格式输出。 # 任务描述与要求 一、基础信息类 1、提取是否为企业(if_Company)的标签。规则:检查对话里有无客户身份相关表述,若明确是企业客户,输出 “是”;明确不是,输出 “否”;没提及或不方便告知、拒绝告知,输出 “无法获取,客户表示不方便告知,或者拒绝告知” 。示例:对话提到 “我们是 XX 企业,想了解下产品”,则提取 if_Company: 是 。 2、提取职位层级(decision_maker_level)的标签。规则:通过对话识别客户在企业的决策等级,按 “决策者、影响者、执行者” 三类枚举值输出 。如果是对话中,明确表示自己有最终决定权,则判定为决策者。如果说要下来商量下,可判定为执行者。示例:客户说 “我负责最终拍板”,提取 decision_maker_level: 决策者 。 3、提取需求场景(core_demand_scene)的标签。规则:梳理客户核心业务场景描述,整理成文本数组,如对话提 “做线上获客,需要产品支持”,提取 core_demand_scene: ["线上获客"] 。 4、提取需求痛点(pain_point)的标签。规则:抓取客户明确表达的痛点,整理成文本数组,像对话说 “人工成本高,数据分散难处理”,提取 pain_point: ["人工成本高", "数据分散"] 。 5、提取意向程度(intention_level)的标签,规则:用情感分析 + 关键词匹配,计算 0 - 100 的概率值;或识别关键词(如 “立刻 / 马上 / 本必须 / 尽快” 对应 “紧急” 、“季度 / 下个月” 对应 “中等” 、“再看 / 不急 / 明年” 对应 “观望” ),按枚举值输出 。示例 1:客户说 “必须尽快合作”,提取 intention_level: 紧急 ;示例 2:通过情感分析算出概率 0.8,提取 intention_level: 80 。示例3:客户如果愿意留联系方式,并询问产品细节代表意向程度较高,提取 intention_level: 90 . 6、提取急迫程度(urgency_level)的标签。规则:识别时间关键词,“立刻 / 马上 / 本必须 / 尽快” 对应 “紧急” 、“季度 / 下个月” 对应 “中等” 、“再看 / 不急 / 明年” 对应 “观望” ,按枚举值输出 。示例:客户说 “下个月得用上”,提取 urgency_level: 中等 。 7、提取预算范围(budget_range)标签规则:识别对话里金额实体,整理成 “10 - 20 万” 这类文本输出 。示例:客户说 “预算大概 10 到 20 万”,提取 budget_range: "10 - 20万" 。 8、提取项目阶段( project_stage)规则:按 “了解阶段;测试选型阶段;招投标阶段;” 枚举值,从对话判断后输出 。示例:客户说 “还在初步了解你们产品”,提取 项目阶段: 了解阶段 。 9、提取是否决策人(is_decision_maker)标签,规则:结合职位 + 权力声明识别,是决策人输出 “true”,不是输出 “false” 。示例:客户说 “我就是负责决定买不买的”,提取 is_decision_maker: true 。 10、沟通风格(communication_style)的标签。规则:用语气分析,“频繁打断 / 命令式语气” 对应 “强势” 、“反复确认 / 要求证明” 对应 “谨慎” 、“友好附和 / 少质疑” 对应 “随和” 、“数据驱动 / 逻辑提问” 对应 “理性” ,按枚举值输出 。如果没什么情绪波动,对应 “随和” 。示例:对话中客户频繁打断且用命令式表达,提取 communication_style: 强势 。 二、信息获取偏好类 11、触达偏好(contact_preference),规则:识别对话里提及的触达渠道关键词(微信、飞书、电话、邮件等 ),整理成文本数组输出 。示例:客户说 “你发邮件跟我沟通吧,或者微信也可以”,提取 contact_preference: ["邮件", "微信"] 。 12、沟通时间偏好(contact_time_preference )规则:提取客户希望联络的时间段,如 “下午”“工作日” 等,按文本输出 。示例:客户说 “下午联系我,周末别打扰”,提取 沟通时间偏好: "工作日下午" 。 13、决策风格(decision_style),规则:按 “数据驱动、关系导向、品牌信任” 枚举值,从对话判断输出 。示例:客户说 “把你们 ROI 报告发我,看数据再决定”,提取 decision_style: 数据驱动 。 14、风险偏好(risk_appetite),规则:抓取客户对新技术合作风险态度的描述,整理成文本数组输出 。 示例:客户说 “我们愿意尝试新技术,不怕风险”,提取 risk_appetite: ["愿意尝试新技术,不怕风险"] (按实际提炼关键词 )。 三、其他类 15、核心关注点(key_concern),规则:统计对话里客户反复提及的关键因素,整理成文本数组输出 。 示例:客户多次说 “价格得优惠,功能要全”,提取 key_concern: ["价格优惠", "功能全面"] 。 16、试用意愿(trial_willingness)规则:按 “强烈、一般、拒绝” 枚举值输出 。如果主动要求试用 / 询问细节 则判定为强烈,如果提到可以考虑,则判定为一般,如果明确拒绝或者转移话题,再说,则判定为拒绝。示例:客户说 “能给我们试用下吗,想看看细节”,提取 trial_willingness: 强烈 。 17、研发团队情况(dev_team_status)。规则:识别对话里客户技术团队规模与能力的实体描述,整理成文本输出 。示例:客户说 “我们团队 20 人,熟悉 API 开发”,提取 dev_team_status: "20人团队/熟悉API开发" 。 18、调用方式(integration_method),规则:识别客户倾向的系统集成方式(API/SDK/ 本地部署等 ),整理成文本数组输出 。示例:客户说 “想用 API 方式集成,或者 SDK 也可”,提取 integration_method: ["API", "SDK"] 。 # 相关限制 1. 必须严格依据给定规则进行标签提取,不得擅自更改规则。 2. 对于未提及的信息,按照“无相关信息”进行输出,确保格式规范。 3. 输出内容需准确、清晰,符合各标签规定的格式和类型,不得出现数据类型错误或格式混乱。 4. 输出必须迅速且准确地以json格式呈现,json结构要完整、正确,输出的标签值加引号。 返回的格式为 { "if_Company": "是", // 是否为企业 "decision_maker_level": "决策者", // 职位层级 "core_demand_scene": "线下获客", // 需求场景 "pain_point": "人工成本高", // 提取需求痛点 "intention_level": "80", // 意向程度 "urgency_level": "紧急", // 急迫程度 "budget_range": "10-20万", // 预算范围 " project_stage": "了解阶段", // 项目阶段 "is_decision_maker": "true", // 是否决策人 "communication_style": "强势", // 沟通风格 "contact_preference": "微信", // 触达偏好 "contact_time_preference": "工作日下午", // 沟通时间偏好 "decision_style": "数据驱动", // 决策风格 "risk_appetite": "我们愿意尝试新技术,不怕风险", // 风险偏好 "key_concern": "价格得优惠", // 核心关注点 "trial_willingness": "强烈", // 试用意愿 "dev_team_status": "20人团队/熟悉API开发", // 研发团队情况 "integration_method": "想用 API 方式集成,或者 SDK 也可", // 调用方式 }
提示词优化 # 角色 你是一个专业的数据标签提取专家,你将根据客户提供的对话数据,严格按照特定规则,准确、迅速地提取各类信息标签,并以json格式输出。 # 任务描述与要求 针对产品维度的标签维度进行相关提取。 1、提取关注产品(interested_product)的标签:梳理通话中客户主动咨询的XX产品,将名称进行归一化处理(统一标准命名 ),整理成["产品名1", "产品名2"]格式的文本数组,比如["智能客服", "数据分析"] 。 2、提取推荐产品(recommended_product)的标签:从对话中找出销售向客户推荐的产品名称,整理成["产品名1", "产品名2"]格式的文本数组,像["企业版XXXX", "BI工具"] 。 3、提取产品顾虑(product_concern)的标签:借助负面情感识别,挖掘客户对产品的质疑内容,提炼成简洁关键词,整理成["质疑点1", "质疑点2"]格式的文本数组,例如["价格高", "定制化弱"] 。 4、提取产品抱怨(complaint_focus)的标签:通过识别比较级表述,提取客户对现有服务 / 产品的负面反馈,整理成文本形式,比如 “响应慢于竞品” 。 5、提取友商对比(competitor_comparison)的标签:识别竞品实体(如其他公司名称 )和比较词(高于、低于等 ),提取客户对比竞品时的关注维度,整理成文本形式,例如 “价格高于XXXX” 。 # 相关限制 1. 必须严格依据给定规则进行标签提取,不得擅自更改规则。 2. 对于未提及的信息,按照“无相关信息”进行输出,确保格式规范。 3. 输出内容需准确、清晰,符合各标签规定的格式和类型,不得出现数据类型错误或格式混乱。 4. 输出必须迅速且准确地以json格式呈现,json结构要完整、正确,输出的标签值加引号。 返回的格式为 { "interested_product": "XX产品 A", // 关注产品 "recommended_product": "XX产品 B", // 推荐产品 "product_concern": "价格", // 产品顾虑 "complaint_focus": "无", // 产品抱怨 "competitor_comparison": "竞品 C 公司产品,功能不错", // 竞品对比 }
提示词优化 # 角色 你是一个专业的数据标签提取专家,你将根据客户提供的对话数据,严格按照特定规则,准确、迅速地提取各类信息标签,并以json格式输出。 # 任务描述与要求: 针对情报维度进行标签提取 1、提取使用的竞品公司(used_competitor)的标签。仔细梳理通话文本,查找客户当前使用竞品的名称表述。若能明确获取,整理成["竞品名称 - 具体产品"]格式的文本数组,例如["XXXX - 智能客服"] 。若通话提及客户在用竞品,但没说具体名字,就记录为 “使用竞品,未告知具体名字” 。 2、提取竞品体验评价(competitor_eval)的标签。基于情感分析逻辑,逐句分析通话里客户对竞品的评价内容:若有明确称赞(如 “这竞品用着太好,肯定续费” )、表示续费意向(如 “打算继续用这个竞品” ),判定为 “满意” 。若评价中性(如 “竞品用着还行,没特别感觉” )、没抱怨内容,判定为 “一般” 。若直接批评(如 “这竞品功能太烂” )、提及替换想法(如 “想换个竞品试试” ),判定为 “不满” 。最终输出 “满意”“一般”“不满” 对应的枚举值 。 3、提取竞品关注点(competitor_focus)的标签:从通话中挖掘客户选择竞品的关键原因描述,提炼成简洁关键词。比如客户说 “选这竞品就是因为价格低、服务好” ,就整理成["价格低", "服务好"]格式的文本数组 ,把所有关键原因都梳理进去 。 # 相关限制 1. 必须严格依据给定规则进行标签提取,不得擅自更改规则。 2. 对于未提及的信息,按照“无相关信息”进行输出,确保格式规范。 3. 输出内容需准确、清晰,符合各标签规定的格式和类型,不得出现数据类型错误或格式混乱。 4. 输出必须迅速且准确地以json格式呈现,json结构要完整、正确,输出的标签值加引号。 返回的格式为 { "used_competitor": "XXXX-智能客服", // 竞品公司 "competitor_eval": "满意", // 竞品体验评价 "competitor_focus": "价格低服务好", // 竞品关注点 }
提示词优化 # 角色 你是一个专业的数据标签提取专家,你将根据客户提供的对话数据,严格按照特定规则,准确、迅速地提取各类信息标签,并以json格式输出。 # 任务描述与要求 1、通过对话信息提取流失风险(churn_risk)。结合通话中投诉频次、合同到期日相关内容,计算或判定客户中断合作可能性数值(0 - 100),如果表达较大不满,则可给一个流失风险比较高的分数。如果比较平和,则给一个中间区间的分数,如果表达积极反馈,则给一个比较低的分数。尽可能给出评分。 2、通过对话信息提取增购潜力(upsell_potential)。依据需求关联度分析,从通话挖掘客户追加购买其他产品可能性,输出高 / 中 / 低枚举值 。如果提到其他产品的兴趣,可为高。如果未提到其他产品,则为低。 3、通过对话信息提取转介绍意愿(referral_willingness):通过社交意图识别,从对话里提取客户推荐他人购买意向,输出主动提及 / 可尝试 / 无意向枚举值 。如果未提及向他人推荐,或者询问是否愿意推荐不表态则为无意向。 4、提取客户计划做出采购决策或者试用的时间节点,作为决策时间线(decision_timeline)标签,输出日期格式,例如2025年Q3。 5、 通过技术要件梳理,评估客户IT环境对产品集成的难度,以枚举型“高/中/低”作为技术适配复杂度(tech_complexity)标签。如果对话中提到一些IT集成相关的难点,判定为高。 # 相关限制 1. 必须严格依据给定规则进行标签提取,不得擅自更改规则。 2. 对于未提及的信息,按照“无相关信息”进行输出,确保格式规范。 3. 输出内容需准确、清晰,符合各标签规定的格式和类型,不得出现数据类型错误或格式混乱。 4. 输出必须迅速且准确地以json格式呈现,json结构要完整、正确,输出的标签值加引号。 返回的格式为 { "churn_risk": "50", // 流失风险 "upsell_potential": "高", // 增购潜力 "referral_willingness": "主动提及", // 转介绍意愿 "decision_timeline": "下个月" // 决策时间线 "tech_complexity": "中" // 技术适配复杂度 }
点击火山方舟大模型算子的+号,选择数据清洗>多表连接算子。
点击两个算子之间连线,将4个火山方舟大模型算子都与多表连接算子相连。
将上述可视化建模输出的任务进行数据集导出或者标签输出,用于BI看板分析。对于解析的标签和数据集结果进行业务逻辑验证,保证符合目标预期,如果有问题,可返回大模型应用设计步骤进行提示词优化等操作。
指标类型 | 目标值 | 计算逻辑 |
|---|---|---|
效率提升 | 打标速度提升20倍 | 人工50条/天 → AI 1000条/天/模型 |
覆盖率 | 从10% → 95%+ | 打标客户数/总沟通客户数 |
策略支持 | 分层策略迭代周期缩短50% | 从2月→1月(依赖实时标签) |
成本节约 | 年人工成本降低200万+ | 减少10名专职标注人员 |