非结构化数据处理算子是用于处理非结构化数据(如文本、图像、音频等)的功能模块,REST API算子可将音频数据转换为文本,火山方舟大模型算子会调用平台上OpenAPI协议的大模型进行智能打标。本文为您介绍这两种算子的配置方式。
若您的非结构化数据集中包含未转为文本的音频数据,需通过REST API算子调用ASR能力将其转换为文本。当前REST API算子功能默认关闭,因此如果需要使用的话,您需要联系火山引擎客户经理手动开启REST API算子。 该算子的详细使用方法请参见REST API 2.0。
说明
在准备数据时,当前建议您将音视频文件先转为文本后接入VeCDP的数据集,不建议您直接将音视频文件直接接入VeCDP然后使用数据处理算子的方式进行操作,具体操作可参见数据准备。
引入数据集后,您可引入大模型算子到数据集下游,对已接入的数据进行智能打标。 该算子的详细使用方法请参见火山方舟大模型。
说明
当前仅支持火山方舟大模型算子,通过算子对接您的方舟大模型平台,调用平台上支持OpenAPI协议的大模型进行智能打标。
点击左侧「算子」,下拉选择「特色专区算子」,选择「火山方舟大模型」,并将其拉入右侧面板。
点击已拖入任务中的方舟大模型算子,在任务窗口下方单击“自定义火山方舟模型”按钮,配置方舟的接入点以及API秘钥,详细参数配置说明见火山方舟大模型。
参数 | 说明 |
|---|---|
推理接入点 | 配置为您的方舟大模型平台的推理接入点,一般格式为ep-xxxxxxxxxx-yyyy,获取推理接入点的操作请参考火山方舟文档。 |
API Key | 配置为您的方舟大模型OpenAPI调用的API Key,一般格式为xxxxxxxx-yyyy-xxxx-yyyy-xxxxxxxxxxxx,获取方式参考火山方舟官网文档。 |
生成随机性 | temperature: 调高温度会使得模型的输出更多样性和创新性,反之,降低温度会使输出内容更加遵循指令要求但减少多样性。建议不要与“Top p”同时调整。 |
Top P | Top p 为累计概率: 模型在生成输出时会从概率最高的词汇开始选择,直到这些词汇的总概率累积达到Top p 值。这样可以限制模型只选择这些高概率的词汇,从而控制输出内容的多样性。建议不要与“生成随机性”同时调整。 |
配置人设与回复逻辑相关的提示词。
需包括以下四部分:
# 角色 你是一个精准高效的银行消费贷客服聊天内容分析机器人,能从客服聊天记录中快速、准确地提取出对应的标签,助力银行深入了解客户需求,进而提供更个性化的服务。 ## 技能 ### 技能 1:分析聊天内容提取标签 1. 仔细研读客服聊天记录,精准理解客户的表达意图。 2. 依据客户的表述,判定其贷款需求(demand)所属标签: - 立即办理:客户明确表示当下立刻就要办理消费贷。 - 近期考虑:客户透露在近段时间内有办理消费贷的打算。 - 暂无需求:客户明确表达目前没有办理消费贷的需求。 3. 依据客户的表述,判定其客户类型(customerType)所属标签: - 个人:个人用户。 - 企业:企业用户。 - 未知:无法明确判断客户类型。 4. 依据客户的表述,判定其关注重点(focus)所属标签: - 利率:客户主要围绕贷款利率进行询问或讨论。 - 额度:客户着重提及贷款额度相关情况。 - 还款方式:客户对还款方式表现出兴趣。 - 审批流程:客户关心贷款审批流程等相关问题。 - 其他:客户关注的内容不属于上述明确分类。 5. 依据客户的表述,判定其贷款用途(loanUsage)所属标签: - 日常消费:客户表示贷款主要用于日常消费。 - 教育支出:客户强调贷款用于教育相关支出。 - 医疗支出:客户提及贷款用于医疗方面。 - 其他用途:客户提到的贷款用途不属于上述类别。 - 未提及:客户未提及贷款用途相关内容。 6. 自由提取聊天记录中有价值的其他标签,例如客户对贷款期限的偏好、特殊要求等(若没有则输出 null)。 以 JSON 格式输出内容,示例如下: { "demand": "近期考虑", "customerType": "个人", "focus": "额度", "loanUsage": "日常消费", "otherValuableTags": null } 若无匹配标签,可输出 null。 ## 限制 - 仅针对客服聊天内容进行分析,提取确切标签,不进行其他无关操作。 - 严格按照既定标签分类进行判断,不得自行创设新的标签类别。 - 务必确保分析结果的准确性与客观性。 - 自由提取的标签需确实有价值且与客户需求或银行消费贷相关 。
配置模板变量与用户输入。在“模板变量”的“上游字段”中选择非结构化数据的字段列后,在“用户输入”中配置变量的规则。
上游字段:选择需要作为大模型输出标签的输入字段。使用${字段名}引用上游字段的数据,使用<标识>标识输入内容类型。例如${context}<text>用来引用上游content列的数据,且是文本类型数据。目前支持以下标识:
类型 | 标识 |
|---|---|
文本 |
|
图片 |
|
音频 |
|
视频 |
|
不填标识 | 系统默认是 |
选择上游字段后,会使用${字段名}引用上游字段的数据,例如使用${对话内容}用来引用上游字段“对话内容”列的数据,例如:
说明
若上游字段名和系统变量重名,则上游字段的取值会被覆盖。因此您需要避免使用与系统变量同名的字段。
点击页面下方的「测试执行」,系统将根据用户输入的字段名称,进行标签提取并给出示例结果。
您可根据示例,设置所需标签的字段设置。