You need to enable JavaScript to run this app.
数据智能体 DataAgent(私有化)

数据智能体 DataAgent(私有化)

复制全文
创建并配置非结构化数据打标任务
配置非结构化数据处理算子
复制全文
配置非结构化数据处理算子

非结构化数据处理算子是用于处理非结构化数据(如文本、图像、音频等)的功能模块,例如REST API算子可将音频数据转换为文本,火山方舟大模型算子会调用平台上OpenAPI协议的大模型进行智能打标。本文为您介绍配置非结构化数据处理常用算子的配置方式。

说明

添加数据连接后,需要再添加非结构化数据处理算子,对数据进行处理。VeCDP支持以下非结构化数据处理算子:

  • REST API 2.0调用:调用外部插件(ASR/OCR等),将上游节点的输出数据作为API的入参,查询数据进行数据补全。
  • 火山方舟大模型:对接火山引擎大模型服务,通过自定义模型配置、生成策略及角色人设,实现非结构化数据解析。
  • 非结构化打标:对传入的对象存储文件调用大模型进行非结构化打标操作。
  • DeepSeek大模型(仅私有化支持):调用云上或私部的DeepSeek模型。
  • 通义千问大模型算子(仅私有化支持):调用云上或私部的通义千问模型。

前提条件

REST API算子

若您的非结构化数据集中包含未转为文本的音频数据,需通过REST API算子调用ASR能力将其转换为文本。当前REST API算子功能默认关闭,因此如果需要使用的话,您需要联系火山引擎客户经理手动开启REST API算子。 该算子的详细使用方法请参见REST API 2.0

说明

在准备数据时,当前建议您将音视频文件先转为文本后接入VeCDP的数据集,不建议您直接将音视频文件直接接入VeCDP然后使用数据处理算子的方式进行操作,具体操作可参见数据准备

  1. 点击左侧算子,下拉选择特色专区算子>REST API 2.0调用,并将其拉入右侧面板。
    Image
  2. 配置ASR任务参数。 参数配置的详细说明参见REST API 2.0
    Image
  3. 点击数据预览,预览处理结果。
    Image

火山方舟大模型算子

引入数据集后,您可引入大模型算子到数据集下游,对已接入的数据进行智能打标。 该算子的详细使用方法请参见火山方舟大模型

说明

当前仅支持火山方舟大模型算子,通过算子对接您的方舟大模型平台,调用平台上支持OpenAPI协议的大模型进行智能打标。

  1. 点击左侧算子,下拉选择特色专区算子>火山方舟大模型,并将其拉入右侧面板。
    Image

  2. 点击已拖入任务中的方舟大模型算子,在任务窗口下方单击“自定义火山方舟模型”按钮,配置方舟的接入点以及API秘钥,详细参数配置说明见火山方舟大模型
    Image

    参数

    说明

    推理接入点

    配置为您的方舟大模型平台的推理接入点,一般格式为ep-xxxxxxxxxx-yyyy,获取推理接入点的操作请参考火山方舟文档

    API Key

    配置为您的方舟大模型OpenAPI调用的API Key,一般格式为xxxxxxxx-yyyy-xxxx-yyyy-xxxxxxxxxxxx,获取方式参考火山方舟官网文档

    生成随机性

    temperature: 调高温度会使得模型的输出更多样性和创新性,反之,降低温度会使输出内容更加遵循指令要求但减少多样性。建议不要与“Top p”同时调整。

    Top P

    Top p 为累计概率: 模型在生成输出时会从概率最高的词汇开始选择,直到这些词汇的总概率累积达到Top p 值。这样可以限制模型只选择这些高概率的词汇,从而控制输出内容的多样性。建议不要与“生成随机性”同时调整。

  3. 配置人设与回复逻辑相关的提示词。
    Image
    需包括以下四部分:

    • 角色定义:如标签提取专家。
    • 技能说明:如提取什么标签。
    • 输出格式:如JSON格式要求。
    • 其他限制:如专注提取任务不做发散。
      以下为示例,仅供参考:
    # 角色
    你是一个精准高效的银行消费贷客服聊天内容分析机器人,能从客服聊天记录中快速、准确地提取出对应的标签,助力银行深入了解客户需求,进而提供更个性化的服务。
    
    ## 技能
    ### 技能 1:分析聊天内容提取标签
    1. 仔细研读客服聊天记录,精准理解客户的表达意图。
    2. 依据客户的表述,判定其贷款需求(demand)所属标签:
        - 立即办理:客户明确表示当下立刻就要办理消费贷。
        - 近期考虑:客户透露在近段时间内有办理消费贷的打算。
        - 暂无需求:客户明确表达目前没有办理消费贷的需求。
    3. 依据客户的表述,判定其客户类型(customerType)所属标签:
        - 个人:个人用户。
        - 企业:企业用户。
        - 未知:无法明确判断客户类型。
    4. 依据客户的表述,判定其关注重点(focus)所属标签:
        - 利率:客户主要围绕贷款利率进行询问或讨论。
        - 额度:客户着重提及贷款额度相关情况。
        - 还款方式:客户对还款方式表现出兴趣。
        - 审批流程:客户关心贷款审批流程等相关问题。
        - 其他:客户关注的内容不属于上述明确分类。
    5. 依据客户的表述,判定其贷款用途(loanUsage)所属标签:
        - 日常消费:客户表示贷款主要用于日常消费。
        - 教育支出:客户强调贷款用于教育相关支出。
        - 医疗支出:客户提及贷款用于医疗方面。
        - 其他用途:客户提到的贷款用途不属于上述类别。
        - 未提及:客户未提及贷款用途相关内容。
    6. 自由提取聊天记录中有价值的其他标签,例如客户对贷款期限的偏好、特殊要求等(若没有则输出 null)。
    
    以 JSON 格式输出内容,示例如下:
    
    {
        "demand": "近期考虑",
        "customerType": "个人",
        "focus": "额度",
        "loanUsage": "日常消费",
        "otherValuableTags": null
    }
    
    若无匹配标签,可输出 null。
    
    ## 限制
    - 仅针对客服聊天内容进行分析,提取确切标签,不进行其他无关操作。
    - 严格按照既定标签分类进行判断,不得自行创设新的标签类别。
    - 务必确保分析结果的准确性与客观性。
    - 自由提取的标签需确实有价值且与客户需求或银行消费贷相关 。 
    
  4. 配置模板变量与用户输入。在“模板变量”的“上游字段”中选择非结构化数据的字段列后,在“用户输入”中配置变量的规则。
    Image

    • 上游字段:选择需要作为大模型输出标签的输入字段。使用${字段名}引用上游字段的数据,使用<标识>标识输入内容类型。例如${context}<text>用来引用上游content列的数据,且是文本类型数据。目前支持以下标识:

      类型

      标识

      文本

      <text>

      图片

      <image>

      音频

      <audio>

      视频

      <video>

      不填标识

      系统默认是<text>

      说明

      该功能仅营销Agent私有化V6.9.0以上版本支持。

      选择上游字段后,会使用${字段名}引用上游字段的数据,例如使用${对话内容}用来引用上游字段“对话内容”列的数据,例如:

      • 上游数据集为文本类的外呼对话数据、企微会话数据时:可选择上游加载的文本数据,即对话内容列。
      • 上游数据集为音频类的外呼对话数据,使用ASR进行处理时:可选择处理后的文本数据,即处理后的对话内容列。

      说明

      若上游字段名和系统变量重名,则上游字段的取值会被覆盖。因此您需要避免使用与系统变量同名的字段。

      • 用户输入:选择上游字段后,会自动将选择的上游字段作为用户输入的变量,您可增加用户输入的示例,用于调试不同输入时,大模型提取的效果。输入格式:${对话内容|example:xxxx}。
  5. 点击页面下方的「测试执行」,系统将根据用户输入的字段名称,进行标签提取并给出示例结果。
    Image
    您可根据示例,设置所需标签的字段设置。

非结构打标

该功能用于对文本、图片、音频、视频等非结构化数据进行自动化打标处理,例如内部运营培训手册、话术库、商品介绍、活动介绍等。提取关键信息并生成标签,以便后续数据分析和应用。提升数据处理效率,支持多类型数据,无缝集成至现有工具,并支持抽样测试以确保结果准确性。

  1. 点击左侧算子,下拉选择特色专区算子>非结构打标,并将其拉入右侧面板。
    Image

  2. 点击已拖入任务中的非结构化打标算子,配置相关信息。
    Image

    参数

    参数说明

    模型选择

    可选目前所支持对接的各类模型

    文件地址

    直接从对象存储/其他地址中批量拉取非结构化数据,您可以在下拉框中进行选择

    文件类型

    直接从对象存储/其他地址中批量拉取非结构化数据,您可以在下拉框中进行选择

    操作类型

    tag:图片标注
    asr:音频,通过ASR转为文本

    标签定义

    点击添加,填写标签名称、标签纸和描述。

    Tos信息

    视频点播空间

    TOS与视频点播服务相结合,用于存储、管理和处理视频文件的空间。例如shopping-video-space。

    AccessKey

    请求火山引擎API的安全凭证,您可以通过右上角头像的系统配置-访问控制-API凭证获取,具体请参见Access Key(密钥)管理

    SecretKey

    请求火山引擎API的安全凭证,您可以通过右上角头像的系统配置-访问控制-API凭证获取,具体请参见Access Key(密钥)管理

    桶名(Bucket Name)

    桶名,例如test-bucket-123

    输出字段

    llm_tag_result

  3. 点击数据预览,查看数据结果。

自定义大模型

支持Deepseek大模型和通义千问大模型算子。
引入数据集后,您可引入大模型算子到数据集下游,对已接入的数据进行智能打标。

  1. 点击左侧算子,下拉选择特色专区算子>自定义大模型,并将其拉入右侧面板。
    Image

  2. 点击已拖入任务中的自定义大模型算子,配置模型参数,配置相关信息。
    Image
    Image

    配置项

    说明

    模型

    选择您需要使用的模型。

    • DeepSeek:系统预置的DeepSeek模型
    • 通义千问:系统预置的通义千问模型
    • 自定义模型。

    模型调用地址

    • 若选择DeepSeek或通义千问,系统会自动填充调用地址(可修改)
    • 若选择自定义模型,系统默认调用地址,无法修改https://ark.cn-beijing.volces.com/api/v3/chat/completions

    模型

    输入模型Endpoint。例如:ep-xxxxxxxxxx-yyyy,获取方式可参考获取 Endpoint ID

    API Key

    输入调用模型所需的 API Key。例如:xxxxxxxx-yyyy-xxxx-yyyy-xxxxxxxxxxxx,获取方式可参考获取API Key并配置

    生成多样性

    选择预设的模式来控制生成内容的多样性。不同的模式会对应不同的生成随机性和 Top P参数值(可修改)。
    支持以下模式:

    • 精确模式:生成结果更稳定、确定。
    • 平衡模式:在稳定性和创造性之间取得平衡。
    • 创意模式:生成结果更具想象力和多样性。
    • 自定义:手动调整下方的生成随机性和Top P参数。

    生成随机性

    temperature:调高会使得模型的输出更多样性和创新性,反之,降低会使输出内容更加遵循指令要求但减少多样性。建议不要与“Top p”同时调整。控制生成文本的随机程度。值越高,生成的内容越随机和多样化;值越低,内容越确定和保守。
    取值范围:0~1。

    Top P

    Top p 为累计概率:模型在生成输出时会从概率最高的词汇开始选择,直到这些词汇的总概率累积达到Top p 值。这样可以限制模型只选择这些高概率的词汇,从而控制输出内容的多样性。建议不要与“生成随机性”同时调整。一种控制生成文本多样性的方法,也称为核采样(Nucleus Sampling)。模型会从累积概率超过 P 值的词汇中进行采样。较高的值会增加多样性。
    取值范围:0~1。

    模型参数

    点击‘添加参数’,添加参数名和参数值。

  3. 配置人设与回复逻辑相关的提示词。
    Image
    需包括以下四部分:

    • 角色定义:如标签提取专家。
    • 技能说明:如提取什么标签。
    • 输出格式:如JSON格式要求。
    • 其他限制:如专注提取任务不做发散。
      以下为示例,仅供参考:
    # 角色
    你是一个精准高效的银行消费贷客服聊天内容分析机器人,能从客服聊天记录中快速、准确地提取出对应的标签,助力银行深入了解客户需求,进而提供更个性化的服务。
    
    ## 技能
    ### 技能 1:分析聊天内容提取标签
    1. 仔细研读客服聊天记录,精准理解客户的表达意图。
    2. 依据客户的表述,判定其贷款需求(demand)所属标签:
        - 立即办理:客户明确表示当下立刻就要办理消费贷。
        - 近期考虑:客户透露在近段时间内有办理消费贷的打算。
        - 暂无需求:客户明确表达目前没有办理消费贷的需求。
    3. 依据客户的表述,判定其客户类型(customerType)所属标签:
        - 个人:个人用户。
        - 企业:企业用户。
        - 未知:无法明确判断客户类型。
    4. 依据客户的表述,判定其关注重点(focus)所属标签:
        - 利率:客户主要围绕贷款利率进行询问或讨论。
        - 额度:客户着重提及贷款额度相关情况。
        - 还款方式:客户对还款方式表现出兴趣。
        - 审批流程:客户关心贷款审批流程等相关问题。
        - 其他:客户关注的内容不属于上述明确分类。
    5. 依据客户的表述,判定其贷款用途(loanUsage)所属标签:
        - 日常消费:客户表示贷款主要用于日常消费。
        - 教育支出:客户强调贷款用于教育相关支出。
        - 医疗支出:客户提及贷款用于医疗方面。
        - 其他用途:客户提到的贷款用途不属于上述类别。
        - 未提及:客户未提及贷款用途相关内容。
    6. 自由提取聊天记录中有价值的其他标签,例如客户对贷款期限的偏好、特殊要求等(若没有则输出 null)。
    
    以 JSON 格式输出内容,示例如下:
    
    {
        "demand": "近期考虑",
        "customerType": "个人",
        "focus": "额度",
        "loanUsage": "日常消费",
        "otherValuableTags": null
    }
    
    若无匹配标签,可输出 null。
    
    ## 限制
    - 仅针对客服聊天内容进行分析,提取确切标签,不进行其他无关操作。
    - 严格按照既定标签分类进行判断,不得自行创设新的标签类别。
    - 务必确保分析结果的准确性与客观性。
    - 自由提取的标签需确实有价值且与客户需求或银行消费贷相关 。 
    
  4. 配置模板变量与用户输入。在“模板变量”的“上游字段”中选择非结构化数据的字段列后,在“用户输入”中配置变量的规则.
    Image

  5. 点击数据预览,查看数据结果。

下一步

配置处理结果输出

最近更新时间:2025.12.01 14:22:06
这个页面对您有帮助吗?
有用
有用
无用
无用