非结构化数据处理算子是用于处理非结构化数据(如文本、图像、音频等)的功能模块,例如REST API算子可将音频数据转换为文本,火山方舟大模型算子会调用平台上OpenAPI协议的大模型进行智能打标。本文为您介绍配置非结构化数据处理常用算子的配置方式。
添加数据连接后,需要再添加非结构化数据处理算子,对数据进行处理。VeCDP支持以下非结构化数据处理算子:
若您的非结构化数据集中包含未转为文本的音频数据,需通过REST API算子调用ASR能力将其转换为文本。当前REST API算子功能默认关闭,因此如果需要使用的话,您需要联系火山引擎客户经理手动开启REST API算子。 该算子的详细使用方法请参见REST API 2.0。
说明
在准备数据时,当前建议您将音视频文件先转为文本后接入VeCDP的数据集,不建议您直接将音视频文件直接接入VeCDP然后使用数据处理算子的方式进行操作,具体操作可参见数据准备。
引入数据集后,您可引入大模型算子到数据集下游,对已接入的数据进行智能打标。 该算子的详细使用方法请参见火山方舟大模型。
说明
当前仅支持火山方舟大模型算子,通过算子对接您的方舟大模型平台,调用平台上支持OpenAPI协议的大模型进行智能打标。
点击左侧算子,下拉选择特色专区算子>火山方舟大模型,并将其拉入右侧面板。
点击已拖入任务中的方舟大模型算子,在任务窗口下方单击“自定义火山方舟模型”按钮,配置方舟的接入点以及API秘钥,详细参数配置说明见火山方舟大模型。
参数 | 说明 |
|---|---|
推理接入点 | 配置为您的方舟大模型平台的推理接入点,一般格式为ep-xxxxxxxxxx-yyyy,获取推理接入点的操作请参考火山方舟文档。 |
API Key | 配置为您的方舟大模型OpenAPI调用的API Key,一般格式为xxxxxxxx-yyyy-xxxx-yyyy-xxxxxxxxxxxx,获取方式参考火山方舟官网文档。 |
生成随机性 | temperature: 调高温度会使得模型的输出更多样性和创新性,反之,降低温度会使输出内容更加遵循指令要求但减少多样性。建议不要与“Top p”同时调整。 |
Top P | Top p 为累计概率: 模型在生成输出时会从概率最高的词汇开始选择,直到这些词汇的总概率累积达到Top p 值。这样可以限制模型只选择这些高概率的词汇,从而控制输出内容的多样性。建议不要与“生成随机性”同时调整。 |
配置人设与回复逻辑相关的提示词。
需包括以下四部分:
# 角色 你是一个精准高效的银行消费贷客服聊天内容分析机器人,能从客服聊天记录中快速、准确地提取出对应的标签,助力银行深入了解客户需求,进而提供更个性化的服务。 ## 技能 ### 技能 1:分析聊天内容提取标签 1. 仔细研读客服聊天记录,精准理解客户的表达意图。 2. 依据客户的表述,判定其贷款需求(demand)所属标签: - 立即办理:客户明确表示当下立刻就要办理消费贷。 - 近期考虑:客户透露在近段时间内有办理消费贷的打算。 - 暂无需求:客户明确表达目前没有办理消费贷的需求。 3. 依据客户的表述,判定其客户类型(customerType)所属标签: - 个人:个人用户。 - 企业:企业用户。 - 未知:无法明确判断客户类型。 4. 依据客户的表述,判定其关注重点(focus)所属标签: - 利率:客户主要围绕贷款利率进行询问或讨论。 - 额度:客户着重提及贷款额度相关情况。 - 还款方式:客户对还款方式表现出兴趣。 - 审批流程:客户关心贷款审批流程等相关问题。 - 其他:客户关注的内容不属于上述明确分类。 5. 依据客户的表述,判定其贷款用途(loanUsage)所属标签: - 日常消费:客户表示贷款主要用于日常消费。 - 教育支出:客户强调贷款用于教育相关支出。 - 医疗支出:客户提及贷款用于医疗方面。 - 其他用途:客户提到的贷款用途不属于上述类别。 - 未提及:客户未提及贷款用途相关内容。 6. 自由提取聊天记录中有价值的其他标签,例如客户对贷款期限的偏好、特殊要求等(若没有则输出 null)。 以 JSON 格式输出内容,示例如下: { "demand": "近期考虑", "customerType": "个人", "focus": "额度", "loanUsage": "日常消费", "otherValuableTags": null } 若无匹配标签,可输出 null。 ## 限制 - 仅针对客服聊天内容进行分析,提取确切标签,不进行其他无关操作。 - 严格按照既定标签分类进行判断,不得自行创设新的标签类别。 - 务必确保分析结果的准确性与客观性。 - 自由提取的标签需确实有价值且与客户需求或银行消费贷相关 。
配置模板变量与用户输入。在“模板变量”的“上游字段”中选择非结构化数据的字段列后,在“用户输入”中配置变量的规则。
上游字段:选择需要作为大模型输出标签的输入字段。使用${字段名}引用上游字段的数据,使用<标识>标识输入内容类型。例如${context}<text>用来引用上游content列的数据,且是文本类型数据。目前支持以下标识:
类型 | 标识 |
|---|---|
文本 |
|
图片 |
|
音频 |
|
视频 |
|
不填标识 | 系统默认是 |
说明
该功能仅营销Agent私有化V6.9.0以上版本支持。
选择上游字段后,会使用${字段名}引用上游字段的数据,例如使用${对话内容}用来引用上游字段“对话内容”列的数据,例如:
说明
若上游字段名和系统变量重名,则上游字段的取值会被覆盖。因此您需要避免使用与系统变量同名的字段。
点击页面下方的「测试执行」,系统将根据用户输入的字段名称,进行标签提取并给出示例结果。
您可根据示例,设置所需标签的字段设置。
该功能用于对文本、图片、音频、视频等非结构化数据进行自动化打标处理,例如内部运营培训手册、话术库、商品介绍、活动介绍等。提取关键信息并生成标签,以便后续数据分析和应用。提升数据处理效率,支持多类型数据,无缝集成至现有工具,并支持抽样测试以确保结果准确性。
点击左侧算子,下拉选择特色专区算子>非结构打标,并将其拉入右侧面板。
点击已拖入任务中的非结构化打标算子,配置相关信息。
参数 | 参数说明 |
|---|---|
模型选择 | 可选目前所支持对接的各类模型 |
文件地址 | 直接从对象存储/其他地址中批量拉取非结构化数据,您可以在下拉框中进行选择 |
文件类型 | 直接从对象存储/其他地址中批量拉取非结构化数据,您可以在下拉框中进行选择 |
操作类型 | tag:图片标注 |
标签定义 | 点击添加,填写标签名称、标签纸和描述。 |
Tos信息 | |
视频点播空间 | TOS与视频点播服务相结合,用于存储、管理和处理视频文件的空间。例如shopping-video-space。 |
AccessKey | 请求火山引擎API的安全凭证,您可以通过右上角头像的系统配置-访问控制-API凭证获取,具体请参见Access Key(密钥)管理。 |
SecretKey | 请求火山引擎API的安全凭证,您可以通过右上角头像的系统配置-访问控制-API凭证获取,具体请参见Access Key(密钥)管理。 |
桶名(Bucket Name) | 桶名,例如test-bucket-123 |
输出字段 | llm_tag_result |
点击数据预览,查看数据结果。
支持Deepseek大模型和通义千问大模型算子。
引入数据集后,您可引入大模型算子到数据集下游,对已接入的数据进行智能打标。
点击左侧算子,下拉选择特色专区算子>自定义大模型,并将其拉入右侧面板。
点击已拖入任务中的自定义大模型算子,配置模型参数,配置相关信息。
配置项 | 说明 |
|---|---|
模型 | 选择您需要使用的模型。
|
模型调用地址 |
|
模型 | 输入模型Endpoint。例如:ep-xxxxxxxxxx-yyyy,获取方式可参考获取 Endpoint ID。 |
API Key | 输入调用模型所需的 API Key。例如:xxxxxxxx-yyyy-xxxx-yyyy-xxxxxxxxxxxx,获取方式可参考获取API Key并配置。 |
生成多样性 | 选择预设的模式来控制生成内容的多样性。不同的模式会对应不同的生成随机性和 Top P参数值(可修改)。
|
生成随机性 | temperature:调高会使得模型的输出更多样性和创新性,反之,降低会使输出内容更加遵循指令要求但减少多样性。建议不要与“Top p”同时调整。控制生成文本的随机程度。值越高,生成的内容越随机和多样化;值越低,内容越确定和保守。 |
Top P | Top p 为累计概率:模型在生成输出时会从概率最高的词汇开始选择,直到这些词汇的总概率累积达到Top p 值。这样可以限制模型只选择这些高概率的词汇,从而控制输出内容的多样性。建议不要与“生成随机性”同时调整。一种控制生成文本多样性的方法,也称为核采样(Nucleus Sampling)。模型会从累积概率超过 P 值的词汇中进行采样。较高的值会增加多样性。 |
模型参数 | 点击‘添加参数’,添加参数名和参数值。 |
配置人设与回复逻辑相关的提示词。
需包括以下四部分:
# 角色 你是一个精准高效的银行消费贷客服聊天内容分析机器人,能从客服聊天记录中快速、准确地提取出对应的标签,助力银行深入了解客户需求,进而提供更个性化的服务。 ## 技能 ### 技能 1:分析聊天内容提取标签 1. 仔细研读客服聊天记录,精准理解客户的表达意图。 2. 依据客户的表述,判定其贷款需求(demand)所属标签: - 立即办理:客户明确表示当下立刻就要办理消费贷。 - 近期考虑:客户透露在近段时间内有办理消费贷的打算。 - 暂无需求:客户明确表达目前没有办理消费贷的需求。 3. 依据客户的表述,判定其客户类型(customerType)所属标签: - 个人:个人用户。 - 企业:企业用户。 - 未知:无法明确判断客户类型。 4. 依据客户的表述,判定其关注重点(focus)所属标签: - 利率:客户主要围绕贷款利率进行询问或讨论。 - 额度:客户着重提及贷款额度相关情况。 - 还款方式:客户对还款方式表现出兴趣。 - 审批流程:客户关心贷款审批流程等相关问题。 - 其他:客户关注的内容不属于上述明确分类。 5. 依据客户的表述,判定其贷款用途(loanUsage)所属标签: - 日常消费:客户表示贷款主要用于日常消费。 - 教育支出:客户强调贷款用于教育相关支出。 - 医疗支出:客户提及贷款用于医疗方面。 - 其他用途:客户提到的贷款用途不属于上述类别。 - 未提及:客户未提及贷款用途相关内容。 6. 自由提取聊天记录中有价值的其他标签,例如客户对贷款期限的偏好、特殊要求等(若没有则输出 null)。 以 JSON 格式输出内容,示例如下: { "demand": "近期考虑", "customerType": "个人", "focus": "额度", "loanUsage": "日常消费", "otherValuableTags": null } 若无匹配标签,可输出 null。 ## 限制 - 仅针对客服聊天内容进行分析,提取确切标签,不进行其他无关操作。 - 严格按照既定标签分类进行判断,不得自行创设新的标签类别。 - 务必确保分析结果的准确性与客观性。 - 自由提取的标签需确实有价值且与客户需求或银行消费贷相关 。
配置模板变量与用户输入。在“模板变量”的“上游字段”中选择非结构化数据的字段列后,在“用户输入”中配置变量的规则.
点击数据预览,查看数据结果。