You need to enable JavaScript to run this app.
导航
配置非结构化数据处理算子
最近更新时间:2025.10.24 11:04:06首次发布时间:2025.09.30 13:57:33
复制全文
我的收藏
有用
有用
无用
无用

非结构化数据处理算子是用于处理非结构化数据(如文本、图像、音频等)的功能模块,REST API算子可将音频数据转换为文本,火山方舟大模型算子会调用平台上OpenAPI协议的大模型进行智能打标。本文为您介绍这两种算子的配置方式。

前提条件

REST API算子

若您的非结构化数据集中包含未转为文本的音频数据,需通过REST API算子调用ASR能力将其转换为文本。当前REST API算子功能默认关闭,因此如果需要使用的话,您需要联系火山引擎客户经理手动开启REST API算子。 该算子的详细使用方法请参见REST API 2.0

说明

在准备数据时,当前建议您将音视频文件先转为文本后接入VeCDP的数据集,不建议您直接将音视频文件直接接入VeCDP然后使用数据处理算子的方式进行操作,具体操作可参见数据准备

  1. 联系火山引擎客户经理开启REST API算子功能开关。
  2. 点击左侧「算子」,下拉选择「特色专区算子」,选择「REST API 2.0调用」,并将其拉入右侧面板。
    Image
  3. 配置ASR任务参数。 参数配置的详细说明参见REST API 2.0
    Image
  4. 预览ASR处理结果。
    Image

火山方舟大模型算子

引入数据集后,您可引入大模型算子到数据集下游,对已接入的数据进行智能打标。 该算子的详细使用方法请参见火山方舟大模型

说明

当前仅支持火山方舟大模型算子,通过算子对接您的方舟大模型平台,调用平台上支持OpenAPI协议的大模型进行智能打标。

  1. 点击左侧「算子」,下拉选择「特色专区算子」,选择「火山方舟大模型」,并将其拉入右侧面板。
    Image

  2. 点击已拖入任务中的方舟大模型算子,在任务窗口下方单击“自定义火山方舟模型”按钮,配置方舟的接入点以及API秘钥,详细参数配置说明见火山方舟大模型
    Image

    参数

    说明

    推理接入点

    配置为您的方舟大模型平台的推理接入点,一般格式为ep-xxxxxxxxxx-yyyy,获取推理接入点的操作请参考火山方舟文档

    API Key

    配置为您的方舟大模型OpenAPI调用的API Key,一般格式为xxxxxxxx-yyyy-xxxx-yyyy-xxxxxxxxxxxx,获取方式参考火山方舟官网文档

    生成随机性

    temperature: 调高温度会使得模型的输出更多样性和创新性,反之,降低温度会使输出内容更加遵循指令要求但减少多样性。建议不要与“Top p”同时调整。

    Top P

    Top p 为累计概率: 模型在生成输出时会从概率最高的词汇开始选择,直到这些词汇的总概率累积达到Top p 值。这样可以限制模型只选择这些高概率的词汇,从而控制输出内容的多样性。建议不要与“生成随机性”同时调整。

  3. 配置人设与回复逻辑相关的提示词。
    Image
    需包括以下四部分:

    • 角色定义:如标签提取专家。
    • 技能说明:如提取什么标签。
    • 输出格式:如JSON格式要求。
    • 其他限制:如专注提取任务不做发散。
      以下为示例,仅供参考:
    # 角色
    你是一个精准高效的银行消费贷客服聊天内容分析机器人,能从客服聊天记录中快速、准确地提取出对应的标签,助力银行深入了解客户需求,进而提供更个性化的服务。
    
    ## 技能
    ### 技能 1:分析聊天内容提取标签
    1. 仔细研读客服聊天记录,精准理解客户的表达意图。
    2. 依据客户的表述,判定其贷款需求(demand)所属标签:
        - 立即办理:客户明确表示当下立刻就要办理消费贷。
        - 近期考虑:客户透露在近段时间内有办理消费贷的打算。
        - 暂无需求:客户明确表达目前没有办理消费贷的需求。
    3. 依据客户的表述,判定其客户类型(customerType)所属标签:
        - 个人:个人用户。
        - 企业:企业用户。
        - 未知:无法明确判断客户类型。
    4. 依据客户的表述,判定其关注重点(focus)所属标签:
        - 利率:客户主要围绕贷款利率进行询问或讨论。
        - 额度:客户着重提及贷款额度相关情况。
        - 还款方式:客户对还款方式表现出兴趣。
        - 审批流程:客户关心贷款审批流程等相关问题。
        - 其他:客户关注的内容不属于上述明确分类。
    5. 依据客户的表述,判定其贷款用途(loanUsage)所属标签:
        - 日常消费:客户表示贷款主要用于日常消费。
        - 教育支出:客户强调贷款用于教育相关支出。
        - 医疗支出:客户提及贷款用于医疗方面。
        - 其他用途:客户提到的贷款用途不属于上述类别。
        - 未提及:客户未提及贷款用途相关内容。
    6. 自由提取聊天记录中有价值的其他标签,例如客户对贷款期限的偏好、特殊要求等(若没有则输出 null)。
    
    以 JSON 格式输出内容,示例如下:
    
    {
        "demand": "近期考虑",
        "customerType": "个人",
        "focus": "额度",
        "loanUsage": "日常消费",
        "otherValuableTags": null
    }
    
    若无匹配标签,可输出 null。
    
    ## 限制
    - 仅针对客服聊天内容进行分析,提取确切标签,不进行其他无关操作。
    - 严格按照既定标签分类进行判断,不得自行创设新的标签类别。
    - 务必确保分析结果的准确性与客观性。
    - 自由提取的标签需确实有价值且与客户需求或银行消费贷相关 。 
    
  4. 配置模板变量与用户输入。在“模板变量”的“上游字段”中选择非结构化数据的字段列后,在“用户输入”中配置变量的规则。
    Image

    • 上游字段:选择需要作为大模型输出标签的输入字段。使用${字段名}引用上游字段的数据,使用<标识>标识输入内容类型。例如${context}<text>用来引用上游content列的数据,且是文本类型数据。目前支持以下标识:

      类型

      标识

      文本

      <text>

      图片

      <image>

      音频

      <audio>

      视频

      <video>

      不填标识

      系统默认是<text>

      选择上游字段后,会使用${字段名}引用上游字段的数据,例如使用${对话内容}用来引用上游字段“对话内容”列的数据,例如:

      • 上游数据集为文本类的外呼对话数据、企微会话数据时:可选择上游加载的文本数据,即对话内容列。
      • 上游数据集为音频类的外呼对话数据,使用ASR进行处理时:可选择处理后的文本数据,即处理后的对话内容列。

      说明

      若上游字段名和系统变量重名,则上游字段的取值会被覆盖。因此您需要避免使用与系统变量同名的字段。

      • 用户输入:选择上游字段后,会自动将选择的上游字段作为用户输入的变量,您可增加用户输入的示例,用于调试不同输入时,大模型提取的效果。输入格式:${对话内容|example:xxxx}。
  5. 点击页面下方的「测试执行」,系统将根据用户输入的字段名称,进行标签提取并给出示例结果。
    Image
    您可根据示例,设置所需标签的字段设置。

下一步

配置处理结果输出