配置非结构化数据处理算子--数据智能体 DataAgent（私有化）-火山引擎

文档中心

数据智能体 DataAgent（私有化）

创建并配置非结构化数据打标任务

配置非结构化数据处理算子

非结构化数据处理算子是用于处理非结构化数据（如文本、图像、音频等）的功能模块，例如REST API算子可将音频数据转换为文本，火山方舟大模型算子会调用平台上OpenAPI协议的大模型进行智能打标。本文为您介绍配置非结构化数据处理常用算子的配置方式。

说明

添加数据连接后，需要再添加非结构化数据处理算子，对数据进行处理。VeCDP支持以下非结构化数据处理算子：

REST API 2.0调用：调用外部插件（ASR/OCR等），将上游节点的输出数据作为API的入参，查询数据进行数据补全。
火山方舟大模型：对接火山引擎大模型服务，通过自定义模型配置、生成策略及角色人设，实现非结构化数据解析。
DeepSeek大模型（仅私有化支持）：调用云上或私部的DeepSeek模型。
通义千问大模型算子（仅私有化支持）：调用云上或私部的通义千问模型。

前提条件

REST API算子

若您的非结构化数据集中包含未转为文本的音频数据，需通过REST API算子调用ASR能力将其转换为文本。当前REST API算子功能默认关闭，因此如果需要使用的话，您需要联系火山引擎客户经理手动开启REST API算子。该算子的详细使用方法请参见REST API 2.0。

说明

在准备数据时，当前建议您将音视频文件先转为文本后接入VeCDP的数据集，不建议您直接将音视频文件直接接入VeCDP然后使用数据处理算子的方式进行操作，具体操作可参见数据准备。

点击左侧算子，下拉选择特色专区算子>REST API 2.0调用，并将其拉入右侧面板。
配置ASR任务参数。参数配置的详细说明参见REST API 2.0。
点击数据预览，预览处理结果。

火山方舟大模型算子

引入数据集后，您可引入大模型算子到数据集下游，对已接入的数据进行智能打标。该算子的详细使用方法请参见火山方舟大模型。

说明

当前仅支持火山方舟大模型算子，通过算子对接您的方舟大模型平台，调用平台上支持OpenAPI协议的大模型进行智能打标。

点击左侧算子，下拉选择特色专区算子＞火山方舟大模型，并将其拉入右侧面板。

点击已拖入任务中的方舟大模型算子，在任务窗口下方单击“自定义火山方舟模型”按钮，配置方舟的接入点以及API秘钥，详细参数配置说明见火山方舟大模型。

参数	说明
推理接入点	配置为您的方舟大模型平台的推理接入点，一般格式为ep-xxxxxxxxxx-yyyy，获取推理接入点的操作请参考火山方舟文档。
API Key	配置为您的方舟大模型OpenAPI调用的API Key，一般格式为xxxxxxxx-yyyy-xxxx-yyyy-xxxxxxxxxxxx，获取方式参考火山方舟官网文档。
生成随机性	temperature: 调高温度会使得模型的输出更多样性和创新性，反之，降低温度会使输出内容更加遵循指令要求但减少多样性。建议不要与“Top p”同时调整。
Top P	Top p 为累计概率: 模型在生成输出时会从概率最高的词汇开始选择，直到这些词汇的总概率累积达到Top p 值。这样可以限制模型只选择这些高概率的词汇，从而控制输出内容的多样性。建议不要与“生成随机性”同时调整。

配置人设与回复逻辑相关的提示词。

需包括以下四部分：

角色定义：如标签提取专家。
技能说明：如提取什么标签。
输出格式：如JSON格式要求。
其他限制：如专注提取任务不做发散。
以下为示例，仅供参考：

# 角色
你是一个精准高效的银行消费贷客服聊天内容分析机器人，能从客服聊天记录中快速、准确地提取出对应的标签，助力银行深入了解客户需求，进而提供更个性化的服务。

## 技能
### 技能 1：分析聊天内容提取标签
1. 仔细研读客服聊天记录，精准理解客户的表达意图。
2. 依据客户的表述，判定其贷款需求（demand）所属标签：
    - 立即办理：客户明确表示当下立刻就要办理消费贷。
    - 近期考虑：客户透露在近段时间内有办理消费贷的打算。
    - 暂无需求：客户明确表达目前没有办理消费贷的需求。
3. 依据客户的表述，判定其客户类型（customerType）所属标签：
    - 个人：个人用户。
    - 企业：企业用户。
    - 未知：无法明确判断客户类型。
4. 依据客户的表述，判定其关注重点（focus）所属标签：
    - 利率：客户主要围绕贷款利率进行询问或讨论。
    - 额度：客户着重提及贷款额度相关情况。
    - 还款方式：客户对还款方式表现出兴趣。
    - 审批流程：客户关心贷款审批流程等相关问题。
    - 其他：客户关注的内容不属于上述明确分类。
5. 依据客户的表述，判定其贷款用途（loanUsage）所属标签：
    - 日常消费：客户表示贷款主要用于日常消费。
    - 教育支出：客户强调贷款用于教育相关支出。
    - 医疗支出：客户提及贷款用于医疗方面。
    - 其他用途：客户提到的贷款用途不属于上述类别。
    - 未提及：客户未提及贷款用途相关内容。
6. 自由提取聊天记录中有价值的其他标签，例如客户对贷款期限的偏好、特殊要求等（若没有则输出 null）。

以 JSON 格式输出内容，示例如下：

{
    "demand": "近期考虑",
    "customerType": "个人",
    "focus": "额度",
    "loanUsage": "日常消费",
    "otherValuableTags": null
}

若无匹配标签，可输出 null。

## 限制
- 仅针对客服聊天内容进行分析，提取确切标签，不进行其他无关操作。
- 严格按照既定标签分类进行判断，不得自行创设新的标签类别。
- 务必确保分析结果的准确性与客观性。
- 自由提取的标签需确实有价值且与客户需求或银行消费贷相关 。

配置模板变量与用户输入。在“模板变量”的“上游字段”中选择非结构化数据的字段列后，在“用户输入”中配置变量的规则。
- 上游字段：选择需要作为大模型输出标签的输入字段。使用${字段名}引用上游字段的数据，使用<标识>标识输入内容类型。例如${context}<text>用来引用上游content列的数据，且是文本类型数据。目前支持以下标识：
  类型
  标识
  文本
  <text>
  图片
  <image>
  音频
  <audio>
  视频
  <video>
  不填标识
  系统默认是<text>
  说明
  该功能仅营销Agent私有化V6.9.0以上版本支持。
  选择上游字段后，会使用${字段名}引用上游字段的数据，例如使用${对话内容}用来引用上游字段“对话内容”列的数据，例如：
  - 上游数据集为文本类的外呼对话数据、企微会话数据时：可选择上游加载的文本数据，即对话内容列。
  - 上游数据集为音频类的外呼对话数据，使用ASR进行处理时：可选择处理后的文本数据，即处理后的对话内容列。
  说明
  若上游字段名和系统变量重名，则上游字段的取值会被覆盖。因此您需要避免使用与系统变量同名的字段。
  - 用户输入：选择上游字段后，会自动将选择的上游字段作为用户输入的变量，您可增加用户输入的示例，用于调试不同输入时，大模型提取的效果。输入格式：${对话内容|example:xxxx}。
点击页面下方的「测试执行」，系统将根据用户输入的字段名称，进行标签提取并给出示例结果。

您可根据示例，设置所需标签的字段设置。

类型	标识
文本	`<text>`
图片	`<image>`
音频	`<audio>`
视频	`<video>`
不填标识	系统默认是`<text>`

自定义大模型

支持Deepseek大模型和通义千问大模型算子。
引入数据集后，您可引入大模型算子到数据集下游，对已接入的数据进行智能打标。

点击左侧算子，下拉选择特色专区算子＞自定义大模型，并将其拉入右侧面板。

点击已拖入任务中的自定义大模型算子，配置模型参数，配置相关信息。

配置项	说明
模型	选择您需要使用的模型。 DeepSeek：系统预置的DeepSeek模型通义千问：系统预置的通义千问模型自定义模型。
模型调用地址	若选择DeepSeek或通义千问，系统会自动填充调用地址（可修改）若选择自定义模型，系统默认调用地址，无法修改`https://ark.cn-beijing.volces.com/api/v3/chat/completions`
模型	输入模型Endpoint。例如：ep-xxxxxxxxxx-yyyy，获取方式可参考获取 Endpoint ID。
API Key	输入调用模型所需的 API Key。例如：xxxxxxxx-yyyy-xxxx-yyyy-xxxxxxxxxxxx，获取方式可参考获取API Key并配置。
生成多样性	选择预设的模式来控制生成内容的多样性。不同的模式会对应不同的生成随机性和 Top P参数值（可修改）。支持以下模式：精确模式：生成结果更稳定、确定。平衡模式：在稳定性和创造性之间取得平衡。创意模式：生成结果更具想象力和多样性。自定义：手动调整下方的生成随机性和Top P参数。
生成随机性	temperature：调高会使得模型的输出更多样性和创新性，反之，降低会使输出内容更加遵循指令要求但减少多样性。建议不要与“Top p”同时调整。控制生成文本的随机程度。值越高，生成的内容越随机和多样化；值越低，内容越确定和保守。取值范围：0~1。
Top P	Top p 为累计概率：模型在生成输出时会从概率最高的词汇开始选择，直到这些词汇的总概率累积达到Top p 值。这样可以限制模型只选择这些高概率的词汇，从而控制输出内容的多样性。建议不要与“生成随机性”同时调整。一种控制生成文本多样性的方法，也称为核采样（Nucleus Sampling）。模型会从累积概率超过 P 值的词汇中进行采样。较高的值会增加多样性。取值范围：0~1。
模型参数	点击‘添加参数’，添加参数名和参数值。

配置人设与回复逻辑相关的提示词。

需包括以下四部分：

角色定义：如标签提取专家。
技能说明：如提取什么标签。
输出格式：如JSON格式要求。
其他限制：如专注提取任务不做发散。
以下为示例，仅供参考：

# 角色
你是一个精准高效的银行消费贷客服聊天内容分析机器人，能从客服聊天记录中快速、准确地提取出对应的标签，助力银行深入了解客户需求，进而提供更个性化的服务。

## 技能
### 技能 1：分析聊天内容提取标签
1. 仔细研读客服聊天记录，精准理解客户的表达意图。
2. 依据客户的表述，判定其贷款需求（demand）所属标签：
    - 立即办理：客户明确表示当下立刻就要办理消费贷。
    - 近期考虑：客户透露在近段时间内有办理消费贷的打算。
    - 暂无需求：客户明确表达目前没有办理消费贷的需求。
3. 依据客户的表述，判定其客户类型（customerType）所属标签：
    - 个人：个人用户。
    - 企业：企业用户。
    - 未知：无法明确判断客户类型。
4. 依据客户的表述，判定其关注重点（focus）所属标签：
    - 利率：客户主要围绕贷款利率进行询问或讨论。
    - 额度：客户着重提及贷款额度相关情况。
    - 还款方式：客户对还款方式表现出兴趣。
    - 审批流程：客户关心贷款审批流程等相关问题。
    - 其他：客户关注的内容不属于上述明确分类。
5. 依据客户的表述，判定其贷款用途（loanUsage）所属标签：
    - 日常消费：客户表示贷款主要用于日常消费。
    - 教育支出：客户强调贷款用于教育相关支出。
    - 医疗支出：客户提及贷款用于医疗方面。
    - 其他用途：客户提到的贷款用途不属于上述类别。
    - 未提及：客户未提及贷款用途相关内容。
6. 自由提取聊天记录中有价值的其他标签，例如客户对贷款期限的偏好、特殊要求等（若没有则输出 null）。

以 JSON 格式输出内容，示例如下：

{
    "demand": "近期考虑",
    "customerType": "个人",
    "focus": "额度",
    "loanUsage": "日常消费",
    "otherValuableTags": null
}

若无匹配标签，可输出 null。

## 限制
- 仅针对客服聊天内容进行分析，提取确切标签，不进行其他无关操作。
- 严格按照既定标签分类进行判断，不得自行创设新的标签类别。
- 务必确保分析结果的准确性与客观性。
- 自由提取的标签需确实有价值且与客户需求或银行消费贷相关 。

配置模板变量与用户输入。在“模板变量”的“上游字段”中选择非结构化数据的字段列后，在“用户输入”中配置变量的规则.
点击数据预览，查看数据结果。

下一步

配置处理结果输出

最近更新时间：2026.02.06 10:42:32

这个页面对您有帮助吗？

有用

无用