电销外呼数据解读--数据智能体 DataAgent（私有化）-火山引擎

文档中心

数据智能体 DataAgent（私有化）

最佳实践

电销外呼数据解读

电销团队日常作业产生海量数据（含通话录音、工单文本、聊天记录等），难以有效融合行为事件、交易订单等多维度的数据，客户洞察不足。本文为您介绍如何使用非结构化数据打标功能，对电销中的海量数据提取结构化的标签。

背景介绍

痛点

数据利用率低：企业内海量数据碎片化，利用不足（现存数据量>10万条/月），无公域数据增补，无法实时关注客户侧业务变化。
客户识别准确率低：客户量庞大，但电销坐席人数有限，难以高效识别高质量客户。
客户服务体验差：仅使用标签标记客户，无法针对客户当下业务情况匹配方案及话术。
营销依赖经验：客户意图洞察和产品组合推荐依赖经验，新人学习培训成本高。

目标

通过AI技术（NLP、语音识别等）自动分析电销与客户在通话录录音、微信聊天记录、工单文本等非结构化沟通数据，提取关键业务标签（如客户意向、需求场景、行业痛点、合作障碍、行业情报、偏好等）沉淀到标签库用于优化客户画像自动化构建、跟进策略优化等。
以下为提取的标签诉求整合后的完整表格，涵盖客户维度、信息获取偏好、产品维度、情报维度、补充维度等内容：

维度分类	中文标签名称	英文标签名称	标签定义	标签格式要求
客户维度	是否为企业	if_Company	是否为企业客户	枚举值：是，明确表示“是”；否，明确表示“否”；<无法获取，客户表示不方便告知，或者拒绝告知
	职位层级	decision_maker_level	客户在企业中的决策权等级	枚举值（需NLP识别）：决策人：明确表示最终决定权<影响者：可建议但无决定权- 执行者：仅负责对接
	需求场景	core_demand_scene	客户核心业务场景描述	文本数组：["线上获客","支付对账"]
	需求痛点	pain_point	客户明确表达的痛点	文本数组：["人工成本高","数据分散"]
	意向程度	intention_level	客户合作意愿强度	数值：0 - 100（概率值，需情感分析 + 关键词匹配）
	急迫程度	urgency_level	需求解决紧急程度	枚举值（需时间关键词识别）：- 紧急：含“立刻/马上/本月必须/尽快”等词- 中等：含“季度内/下个月”等词- 观望：含“再看看/不急/明年”等词
	预算范围	budget_range	客户提及的预算区间	文本："10 - 20万"（需金额实体识别）
	项目阶段	project_stage	客户目前的项目阶段	枚举值：了解阶段；测试选型阶段；招投标阶段；
	是否决策人	is_decision_maker	直接确认客户是否具备采购决策权	布尔值：true/false（需职位 + 权力声明识别）
	沟通风格	communication_style	客户沟通风格	强势，随和等
	触达偏好	contact_preference	触达偏好	文本数组：[微信、飞书、电话、短信]（需媒介关键词识别）
	沟通时间偏好	contact_preference	希望联络的时间段（如工作日/周末/午休）	希望联络的时间段（如工作日/周末/午休）
	决策风格	decision_style	采购决策依据（数据驱动/关系导向/品牌信任）	采购决策依据（数据驱动/关系导向/品牌信任）
	风险偏好	risk_appetite	对新技术/合作的风险态度	对新技术/合作的风险态度
	核心关注点	key_concern	客户反复提及的关键因素	文本数组：["价格","实施周期"]（需关键词频次统计）
	试用意愿	trial_willingness	对试用XX产品的兴趣程度	枚举值（需意图识别）： - 强烈：主动要求试用/询问细节 - 一般：表示"可以考虑" - 拒绝：明确拒绝或转移话题
	研发团队情况	dev_team_status	客户技术团队规模与能力	文本："20人团队/熟悉API开发"（需实体识别）
	调用方式	integration_method	客户倾向的系统集成方式（如API/SDK/本地部署）	文本数组：["API","SDK"]（需技术术语识别）
产品维度	关注产品	interested_product	客户主动咨询的XX产品名称	文本数组：["智能客服","数据分析"]（需产品名称归一）
	推荐产品	recommended_product	销售向客户推荐的产品名称	文本数组：["企业版XXX","BI工具"]
	产品顾虑	product_concern	客户对产品的质疑点	文本数组：["价格高","定制化弱"]（需负面情感识别）
	产品抱怨	complaint_focus	客户对现有服务/产品的负面反馈	文本："响应慢于竞品"（需比较级识别）
	友商对比	competitor_comparison	客户对比竞品时的关注维度	文本："价格高于XXX"（需竞品实体 + 比较词识别）
	使用的竞品公司	used_competitor	客户当前使用的竞品名称	文本数组：["XXX - 智能客服"]，取竞品名称。如果使用竞品，未告知具体名字
情报维度	竞品体验评价	competitor_eval	客户对竞品的满意度评价	枚举值（需情感分析）： - 满意：明确称赞/表示续费 - 一般：中性评价/未抱怨 - 不满：直接批评/提及替换
	竞品关注点	competitor_focus	客户选择竞品的关键原因	文本数组：["价格低","服务好"]
	流失风险	churn_risk	客户中断合作的可能性	数值：0 - 100（需结合投诉频次 + 合同到期日）
	增购潜力	upsell_potential	客户追加购买其他产品的可能性	枚举值：高/中/低（需需求关联度分析）
	转介绍意愿	referral_willingness	客户推荐他人购买的意向	枚举值：主动提及/可尝试/无意向（需社交意图识别）
补充维度	商机类型	opportunity_type	需求场景对应的商机分类	文本："新增采购"（需业务规则映射）
	决策时间线	decision_timeline	客户计划做出采购决策的时间节点	日期："2025 - Q3"（需时间实体提取）
	技术适配复杂度	tech_complexity	客户IT环境对产品集成的难度评估	枚举值：高/中/低（需技术栈分析）

操作步骤

数据连接

将通话记录创建为VeCDP的数据集，在VeCDP接入数据，具体操作步骤请参见常见数据源接入和数据输入。

登录VeCDP控制台，选择数据管理>数据连接。
在数据连接目录左上角，点击新建数据连接，选择本地文件 - Excel或CSV。
点击之后在本地文件中找到目标Excel/CSV文件，并点击打开。最多支持上传5个文件，且文件总大小不超过500M。建议选择不超过10个sheet，否则可能导致上传失败。
当加载完成到100%时，就可以选择该文件中的sheet内容。点击下一步之后预览数据，并设置数据连接名称。预览完成即可点击确定，就完成了Excel/CSV的数据连接。

创建可视化建模任务

在VeCDP控制台顶部选择数据管理>可视化建模。
在可视化建模页面左侧导航栏单击任务列表，进入可视化任务列表页面后单击新建>新建离线任务，开始创建一个离线类型的可视化建模任务。
在新建任务页面左上方单击➕添加数据连接。选择刚才创建的数据连接。
选择待打标的非结构数据的数据集，将其从左侧列表里拉入右侧面板。

配置数据清洗算子

点击数据集的+号，选择计算列。
计算列算子，支持自定义表达式，使用Spark函数处理上游字段并添加新字段。计算列的配置流程可以表格形式清晰展示新增的字段。
点击添加，配置计算列名称和表达式，在常用函数中搜索并双击replace函数，补充表达式。然后点击确定。
点击数据预览，查看数据预览结果，确认数据清洗结果。
点击计算列的+号，选择字段设置。
支持选择保留字段、设置字段类型、设置字段名称、设置字段排序。
填写字段设置算子的目标字段名称和字段类型。
目标字段名
目标字段类型
huihuaid
string
conten
string
content
string

目标字段名	目标字段类型
huihuaid	string
conten	string
content	string

配置火山方舟大模型算子

点击字段设置的+号，选择特色专区算子>火山方舟大模型算子。
分别添加4个火山方舟大模型算子，从不同的维度提取内容。

填写对应的提示词和用户输入。用户输入为${content}。

客户维度提示词示例如下：

提示词优化
# 角色
你是一个专业的数据标签提取专家，你将根据客户提供的对话数据，严格按照特定规则，准确、迅速地提取各类信息标签，并以json格式输出。

# 任务描述与要求
一、基础信息类
1、提取是否为企业（if_Company）的标签。规则：检查对话里有无客户身份相关表述，若明确是企业客户，输出 “是”；明确不是，输出 “否”；没提及或不方便告知、拒绝告知，输出 “无法获取，客户表示不方便告知，或者拒绝告知” 。示例：对话提到 “我们是 XX 企业，想了解下产品”，则提取 if_Company: 是 。
2、提取职位层级（decision_maker_level）的标签。规则：通过对话识别客户在企业的决策等级，按 “决策者、影响者、执行者” 三类枚举值输出 。如果是对话中，明确表示自己有最终决定权，则判定为决策者。如果说要下来商量下，可判定为执行者。示例：客户说 “我负责最终拍板”，提取 decision_maker_level: 决策者 。
3、提取需求场景（core_demand_scene）的标签。规则：梳理客户核心业务场景描述，整理成文本数组，如对话提 “做线上获客，需要产品支持”，提取 core_demand_scene: ["线上获客"] 。
4、提取需求痛点（pain_point）的标签。规则：抓取客户明确表达的痛点，整理成文本数组，像对话说 “人工成本高，数据分散难处理”，提取 pain_point: ["人工成本高", "数据分散"] 。
5、提取意向程度（intention_level）的标签，规则：用情感分析 + 关键词匹配，计算 0 - 100 的概率值；或识别关键词（如 “立刻 / 马上 / 本必须 / 尽快” 对应 “紧急” 、“季度 / 下个月” 对应 “中等” 、“再看 / 不急 / 明年” 对应 “观望” ），按枚举值输出 。示例 1：客户说 “必须尽快合作”，提取 intention_level: 紧急 ；示例 2：通过情感分析算出概率 0.8，提取 intention_level: 80 。示例3：客户如果愿意留联系方式，并询问产品细节代表意向程度较高，提取 intention_level: 90 .
6、提取急迫程度（urgency_level）的标签。规则：识别时间关键词，“立刻 / 马上 / 本必须 / 尽快” 对应 “紧急” 、“季度 / 下个月” 对应 “中等” 、“再看 / 不急 / 明年” 对应 “观望” ，按枚举值输出 。示例：客户说 “下个月得用上”，提取 urgency_level: 中等 。
7、提取预算范围（budget_range）标签规则：识别对话里金额实体，整理成 “10 - 20 万” 这类文本输出 。示例：客户说 “预算大概 10 到 20 万”，提取 budget_range: "10 - 20万" 。
8、提取项目阶段（ project_stage）规则：按 “了解阶段；测试选型阶段；招投标阶段；” 枚举值，从对话判断后输出 。示例：客户说 “还在初步了解你们产品”，提取 项目阶段: 了解阶段 。
9、提取是否决策人（is_decision_maker）标签，规则：结合职位 + 权力声明识别，是决策人输出 “true”，不是输出 “false” 。示例：客户说 “我就是负责决定买不买的”，提取 is_decision_maker: true 。
10、沟通风格（communication_style）的标签。规则：用语气分析，“频繁打断 / 命令式语气” 对应 “强势” 、“反复确认 / 要求证明” 对应 “谨慎” 、“友好附和 / 少质疑” 对应 “随和” 、“数据驱动 / 逻辑提问” 对应 “理性” ，按枚举值输出 。如果没什么情绪波动，对应 “随和” 。示例：对话中客户频繁打断且用命令式表达，提取 communication_style: 强势 。
二、信息获取偏好类
11、触达偏好（contact_preference），规则：识别对话里提及的触达渠道关键词（微信、飞书、电话、邮件等 ），整理成文本数组输出 。示例：客户说 “你发邮件跟我沟通吧，或者微信也可以”，提取 contact_preference: ["邮件", "微信"] 。
12、沟通时间偏好（contact_time_preference ）规则：提取客户希望联络的时间段，如 “下午”“工作日” 等，按文本输出 。示例：客户说 “下午联系我，周末别打扰”，提取 沟通时间偏好: "工作日下午" 。
13、决策风格（decision_style），规则：按 “数据驱动、关系导向、品牌信任” 枚举值，从对话判断输出 。示例：客户说 “把你们 ROI 报告发我，看数据再决定”，提取 decision_style: 数据驱动 。
14、风险偏好（risk_appetite），规则：抓取客户对新技术合作风险态度的描述，整理成文本数组输出 。
示例：客户说 “我们愿意尝试新技术，不怕风险”，提取 risk_appetite: ["愿意尝试新技术，不怕风险"] （按实际提炼关键词 ）。
三、其他类
15、核心关注点（key_concern），规则：统计对话里客户反复提及的关键因素，整理成文本数组输出 。
示例：客户多次说 “价格得优惠，功能要全”，提取 key_concern: ["价格优惠", "功能全面"] 。
16、试用意愿（trial_willingness）规则：按 “强烈、一般、拒绝” 枚举值输出 。如果主动要求试用 / 询问细节 则判定为强烈，如果提到可以考虑，则判定为一般，如果明确拒绝或者转移话题，再说，则判定为拒绝。示例：客户说 “能给我们试用下吗，想看看细节”，提取 trial_willingness: 强烈 。
17、研发团队情况（dev_team_status）。规则：识别对话里客户技术团队规模与能力的实体描述，整理成文本输出 。示例：客户说 “我们团队 20 人，熟悉 API 开发”，提取 dev_team_status: "20人团队/熟悉API开发" 。
18、调用方式（integration_method），规则：识别客户倾向的系统集成方式（API/SDK/ 本地部署等 ），整理成文本数组输出 。示例：客户说 “想用 API 方式集成，或者 SDK 也可”，提取 integration_method: ["API", "SDK"] 。


# 相关限制
1. 必须严格依据给定规则进行标签提取，不得擅自更改规则。
2. 对于未提及的信息，按照“无相关信息”进行输出，确保格式规范。
3. 输出内容需准确、清晰，符合各标签规定的格式和类型，不得出现数据类型错误或格式混乱。 
4. 输出必须迅速且准确地以json格式呈现，json结构要完整、正确，输出的标签值加引号。 返回的格式为
{
"if_Company": "是", // 是否为企业
"decision_maker_level": "决策者", // 职位层级
"core_demand_scene": "线下获客", // 需求场景
"pain_point": "人工成本高", // 提取需求痛点
"intention_level": "80", // 意向程度
"urgency_level": "紧急", // 急迫程度
"budget_range": "10-20万", // 预算范围
" project_stage": "了解阶段", // 项目阶段
"is_decision_maker": "true", // 是否决策人
"communication_style": "强势", // 沟通风格
"contact_preference": "微信", // 触达偏好
"contact_time_preference": "工作日下午", // 沟通时间偏好
"decision_style": "数据驱动", // 决策风格
"risk_appetite": "我们愿意尝试新技术，不怕风险", // 风险偏好
"key_concern": "价格得优惠", // 核心关注点
"trial_willingness": "强烈", // 试用意愿
"dev_team_status": "20人团队/熟悉API开发", // 研发团队情况
"integration_method": "想用 API 方式集成，或者 SDK 也可", // 调用方式
}

产品维度提示词示例如下：

提示词优化
# 角色
你是一个专业的数据标签提取专家，你将根据客户提供的对话数据，严格按照特定规则，准确、迅速地提取各类信息标签，并以json格式输出。

# 任务描述与要求
针对产品维度的标签维度进行相关提取。
1、提取关注产品（interested_product）的标签：梳理通话中客户主动咨询的XX产品，将名称进行归一化处理（统一标准命名 ），整理成["产品名1", "产品名2"]格式的文本数组，比如["智能客服", "数据分析"] 。
2、提取推荐产品（recommended_product）的标签：从对话中找出销售向客户推荐的产品名称，整理成["产品名1", "产品名2"]格式的文本数组，像["企业版XXXX", "BI工具"] 。
3、提取产品顾虑（product_concern）的标签：借助负面情感识别，挖掘客户对产品的质疑内容，提炼成简洁关键词，整理成["质疑点1", "质疑点2"]格式的文本数组，例如["价格高", "定制化弱"] 。
4、提取产品抱怨（complaint_focus）的标签：通过识别比较级表述，提取客户对现有服务 / 产品的负面反馈，整理成文本形式，比如 “响应慢于竞品” 。
5、提取友商对比（competitor_comparison）的标签：识别竞品实体（如其他公司名称 ）和比较词（高于、低于等 ），提取客户对比竞品时的关注维度，整理成文本形式，例如 “价格高于XXXX” 。


# 相关限制
1. 必须严格依据给定规则进行标签提取，不得擅自更改规则。
2. 对于未提及的信息，按照“无相关信息”进行输出，确保格式规范。
3. 输出内容需准确、清晰，符合各标签规定的格式和类型，不得出现数据类型错误或格式混乱。 
4. 输出必须迅速且准确地以json格式呈现，json结构要完整、正确，输出的标签值加引号。 返回的格式为
{
"interested_product": "XX产品 A", // 关注产品
"recommended_product": "XX产品 B", // 推荐产品
"product_concern": "价格", // 产品顾虑
"complaint_focus": "无", // 产品抱怨
"competitor_comparison": "竞品 C 公司产品，功能不错", // 竞品对比
}

情报维度提示词示例如下：

提示词优化
# 角色
你是一个专业的数据标签提取专家，你将根据客户提供的对话数据，严格按照特定规则，准确、迅速地提取各类信息标签，并以json格式输出。

# 任务描述与要求：
 针对情报维度进行标签提取
 1、提取使用的竞品公司（used_competitor）的标签。仔细梳理通话文本，查找客户当前使用竞品的名称表述。若能明确获取，整理成["竞品名称 - 具体产品"]格式的文本数组，例如["XXXX - 智能客服"] 。若通话提及客户在用竞品，但没说具体名字，就记录为 “使用竞品，未告知具体名字” 。
2、提取竞品体验评价（competitor_eval）的标签。基于情感分析逻辑，逐句分析通话里客户对竞品的评价内容：若有明确称赞（如 “这竞品用着太好，肯定续费” ）、表示续费意向（如 “打算继续用这个竞品” ），判定为 “满意” 。若评价中性（如 “竞品用着还行，没特别感觉” ）、没抱怨内容，判定为 “一般” 。若直接批评（如 “这竞品功能太烂” ）、提及替换想法（如 “想换个竞品试试” ），判定为 “不满” 。最终输出 “满意”“一般”“不满” 对应的枚举值 。
3、提取竞品关注点（competitor_focus）的标签：从通话中挖掘客户选择竞品的关键原因描述，提炼成简洁关键词。比如客户说 “选这竞品就是因为价格低、服务好” ，就整理成["价格低", "服务好"]格式的文本数组 ，把所有关键原因都梳理进去 。



# 相关限制
1. 必须严格依据给定规则进行标签提取，不得擅自更改规则。
2. 对于未提及的信息，按照“无相关信息”进行输出，确保格式规范。
3. 输出内容需准确、清晰，符合各标签规定的格式和类型，不得出现数据类型错误或格式混乱。 
4. 输出必须迅速且准确地以json格式呈现，json结构要完整、正确，输出的标签值加引号。 返回的格式为
{
"used_competitor": "XXXX-智能客服", // 竞品公司
"competitor_eval": "满意", // 竞品体验评价
"competitor_focus": "价格低服务好", // 竞品关注点
}

情报维度提示词示例如下：

提示词优化
# 角色
你是一个专业的数据标签提取专家，你将根据客户提供的对话数据，严格按照特定规则，准确、迅速地提取各类信息标签，并以json格式输出。

# 任务描述与要求
1、通过对话信息提取流失风险（churn_risk）。结合通话中投诉频次、合同到期日相关内容，计算或判定客户中断合作可能性数值（0 - 100），如果表达较大不满，则可给一个流失风险比较高的分数。如果比较平和，则给一个中间区间的分数，如果表达积极反馈，则给一个比较低的分数。尽可能给出评分。
2、通过对话信息提取增购潜力（upsell_potential）。依据需求关联度分析，从通话挖掘客户追加购买其他产品可能性，输出高 / 中 / 低枚举值 。如果提到其他产品的兴趣，可为高。如果未提到其他产品，则为低。
3、通过对话信息提取转介绍意愿（referral_willingness）：通过社交意图识别，从对话里提取客户推荐他人购买意向，输出主动提及 / 可尝试 / 无意向枚举值 。如果未提及向他人推荐，或者询问是否愿意推荐不表态则为无意向。
4、提取客户计划做出采购决策或者试用的时间节点，作为决策时间线（decision_timeline）标签，输出日期格式，例如2025年Q3。
5、 通过技术要件梳理，评估客户IT环境对产品集成的难度，以枚举型“高/中/低”作为技术适配复杂度（tech_complexity）标签。如果对话中提到一些IT集成相关的难点，判定为高。


# 相关限制
1. 必须严格依据给定规则进行标签提取，不得擅自更改规则。
2. 对于未提及的信息，按照“无相关信息”进行输出，确保格式规范。
3. 输出内容需准确、清晰，符合各标签规定的格式和类型，不得出现数据类型错误或格式混乱。 
4. 输出必须迅速且准确地以json格式呈现，json结构要完整、正确，输出的标签值加引号。 返回的格式为
{
"churn_risk": "50", // 流失风险
"upsell_potential": "高", // 增购潜力
"referral_willingness": "主动提及", // 转介绍意愿
"decision_timeline": "下个月" // 决策时间线
"tech_complexity": "中" // 技术适配复杂度
}

点击火山方舟大模型算子的+号，选择数据清洗>多表连接算子。
点击两个算子之间连线，将4个火山方舟大模型算子都与多表连接算子相连。

配置输出数据集

点击多表连接的+号，选择输出>输出数据集算子。
点击新建数据集，配置相关参数，具体参数可参见输出到数据集。其他选项可保持默认

执行任务

可视化建模任务配置完成后，点击测试执行，在测试执行结果栏中查看输出结果并进行调优。
任务调试完成后，保存任务配置，点击左上角返回可跳转到任务详情。返回可视化建模页面，点击当前任务的运行，可以手动运行。

后续步骤

将上述可视化建模输出的任务进行数据集导出或者标签输出，用于BI看板分析。对于解析的标签和数据集结果进行业务逻辑验证，保证符合目标预期，如果有问题，可返回大模型应用设计步骤进行提示词优化等操作。

项目成果

指标类型	目标值	计算逻辑
效率提升	打标速度提升20倍	人工50条/天 → AI 1000条/天/模型
覆盖率	从10% → 95%+	打标客户数/总沟通客户数
策略支持	分层策略迭代周期缩短50%	从2月→1月（依赖实时标签）
成本节约	年人工成本降低200万+	减少10名专职标注人员

项目亮点

数据覆盖：支持微信/通话/工单三大数据源接入。
准确率：通用标签准确率≥85%（基于抽样测试集）；核心商机标签召回率≥90%。
性能：单条数据处理平均耗时≤3秒；系统可用性≥99.5%
业务验证：上线3个月内，客户分层模型AUC提升≥0.15

最近更新时间：2025.11.24 16:27:12

这个页面对您有帮助吗？

有用

无用

数据智能体 DataAgent（私有化）

痛点 #

目标 #

数据连接 #

创建可视化建模任务 #

配置数据清洗算子 #

配置火山方舟大模型算子 #

配置输出数据集 #

执行任务 #