You need to enable JavaScript to run this app.
导航
火山方舟大模型
最近更新时间:2025.09.17 11:50:26首次发布时间:2025.09.17 11:19:00
复制全文
我的收藏
有用
有用
无用
无用

火山方舟大模型是特色专区算子中的智能化数据处理工具,支持对接火山引擎大模型服务,通过自定义模型配置、生成策略及角色人设,实现非结构化数据解析、多语言翻译等功能,适用于企业数据智能化处理场景。本文为您介绍如何使用火山方舟大模型。

功能概述

火山方舟大模型算子对接火山引擎大模型服务,可对存储在 TOS 存储桶中的数据进行智能化处理,如非结构化数据解析、外文翻译等,用户可通过配置模型参数、生成模式及角色人设,实现数据的自动化智能处理。

注意

此功能为增值功能,如果您希望使用该功能,可联系火山引擎技术支持人员咨询,购买开通此功能后可使用。

前提条件

操作步骤

进入方舟模型算子

  1. 点击「数据管理」,选择「可视化建模」,点击「新建」,选择「新建离线任务」。
    Image
  2. 按照离线任务中的步骤完成离线任务创建,在处理节点时,选择为数据连接添加「特色专区算子」中的火山方舟大模型算子。
    Image

设置模型对接参数

点击「自定义火山方舟大模型」,在「模型设置」弹窗中,设置相关参数。
Image
相关参数说明如下:

参数

配置说明

模型

固定为“自定义火山方舟大模型”

模型调用地址

应用的调用地址

推理接入点

一般格式为ep-xxxxxxxxxx-yyyy,创建方式参考创建自定义推理接入点

API Key

一般格式为xxxxxxxx-yyyy-xxxx-yyyy-xxxxxxxxxxxx,获取方式参考获取 API Key 并配置

开启批量推理

大模型算子在周期执行时,可选择走批量推理,让任务运行更稳定,且资源也更便宜
Image

生成多样性

支持四种模式调整生成随机性和Top P值,以控制大模型算子作用效果。

  • 精确模式:
    • 严格遵循指令生成内容
    • 适用于需准确无误的场合,如正式文档、代码等
  • 平衡模式:
    • 在创新和精确之间寻求平衡
    • 适用于大多数日常应用场景,生成有趣但不失严谨的内容
  • 创意模式:
    • 激发创意,提供新颖独特的想法
    • 适合需要灵感和独特观点的场景,如头脑风暴、创意写作等
  • 自定义模式:
    • 通过高级设置,自定义生成方式
    • 根据需求,进行精细调整,实现个性化优化

说明

  • 生成随机性:调高会使得模型的输出更多样性和创新性,反之,降低会使输出内容更加遵循指令要求但减少多样性。建议不要与“Top p”同时调整。
  • Top p :累计概率。模型在生成输出时会从概率最高的词汇开始选择,直到这些词汇的总概率累积达到Top p 值。这样可以限制模型只选择这些高概率的词汇,从而控制输出内容的多样性。建议不要与“生成随机性”同时调整。

配置模型人设与回复逻辑

支持用户自定义大模型的人物设定、功能和工作流程。
Image
使用自然语言填写大模型的人物设定、功能和工作流程,可参考如下内容进行自定义配置:

# 角色
你是一个精准高效的快递地址智能解析辅助机器人,能够准确无误地将输入的地址信息解析为结构化的内容。对于任何输入的地址,都必须迅速且准确地以 json 格式返回解析结果。{
  /** 省 */
  "province": "string",
  /** 市 */
  "city": "string",
  /** 区 */
  "region": "string",
  /** 详细地址 */
  "address": "string",
  /** 收件人 */
  "people": "string",
  /** 电话 */
  "tel": "string"
}

## 技能
### 技能 1: 地址解析
1. 仔细分析输入的地址文本,提取出省、市、区、详细地址、收件人及电话等关键信息。
2. 对于模糊或不完整的地址信息,尝试通过合理推测和常见地址模式进行补充完善。
 
## 限制:
- 仅处理与快递地址解析相关的任务,拒绝处理其他无关内容。
- 严格按照给定的 json 格式输出结果,不得有任何偏差。
- 对于无法解析或不明确的地址信息,可以输出null  

配置模板变量

支持用户选择上游字段或系统变量作为模版变量,嵌入到用户输入内容中,例如利用上游的content字段,在用户输入中输入“${content}“,大模型会对content字段内容进行处理。
Image
包括上游字段和系统变量。

  • 上游字段:使用${字段名}引用上游字段的数据,使用<标识>标识输入内容类型。例如${context}用来引用上游content列的数据,且是文本类型数据。目前支持以下标识:

    类型

    标识

    文本

    <text>

    图片

    <image>

    音频

    <audio>

    视频

    <video>

    不填标识

    系统默认是<text>

  • 系统变量:使用${系统变量名}引用系统变量,例如${date},变量支持日期加减,例如${date - 1},代表前一天。

    注意

    • 若上游字段名和系统变量重名,会被系统变量覆盖。
    • 需保障图片、音频、视频和URL可被访问。

配置用户输入

配置用户输入,作为数据后置操作以及字段配置测试执行的样例内容。
Image

高级设置

点击「高级设置」,设置相关参数。
Image
相关参数说明如下:

参数

配置说明

并行度

请求的并行数,实际执行时的并行数和集群可用的资源也有关。建议用户根据调用的接口性能(QPS、QPM 等限制),合理计算并行度进行填充。

超时时间

大模型计算超时时间,单位为毫秒ms

重试次数

请求失败时的自动重试次数,单位为次

请求间隔

大模型接入点一般都有RPM(每分钟请求次数)限制,根据RPM的值按需设置请求间隔,单位为毫秒ms

说明

设置请求间隔是为了避免出现大模型出现接口限流报错,一般错误信息如下
Image

补全异常处理

  • 终止任务:如果推理失败会导致任务失败,并清除中间结果
  • 忽略异常:宽容模式,忽略推理失败的数据,使用null填充,保留推理成功的结果

测试执行

点击「测试执行」,在「测试执行结果」栏中查看输出结果。
Image

数据后置配置

数据后置配置

勾选「数据后置操作」,在大模型(API)输出结果的基础上对数据进行一些处理,点击「测试执行」可以测试数据后置操作的结果,在「测试执行结果」栏可查看。
Image
例如:通过人设与回复逻辑功能可以让大模型输出JSON格式的数据,则编写一下代码将JSON字符串处理为JSON对象,从而便于在字段设置中使用。

def jsonSlurper = new JsonSlurper()
return jsonSlurper.parseText(response.data.choices[0].message.content)

Image
例如:通过人设与回复逻辑功能可以让大模型输出JSON格式的数据,则编写一下代码将JSON字符串处理为JSON对象,从而便于在字段设置中使用

def jsonSlurper = new JsonSlurper()
return jsonSlurper.parseText(response.data.choices[0].message.content)

注意

开启【批量推理】后,会自动开启【数据后置操作】,但不能自定义代码。

字段设置

在测试执行结果的基础上配置字段、解析路径、字段类型,从而结构化输出数据。
Image

参考:使用场景示例

外文翻译机器人

将所有非中文文本翻译为中文

  • 人设与回复逻辑
# 角色
你是一个专业外文翻译机器人,负责将各种外文内容准确翻译成中文。

## 目标
将输入的外文文本内容翻译成中文。

## 技能
1. 熟练掌握多种外语的语法、词汇和语言习惯。
2. 能够准确理解外文文本的含义,并将其翻译成符合中文语言习惯的内容。
3. 对于专业术语和特定领域的词汇,能够进行准确翻译。

## 限制
1. 只进行外文到中文的翻译工作,不进行其他任何操作。
2. 确保翻译内容准确、流畅,符合中文表达习惯。
3. 对于无法确定准确含义的词汇或句子,应尽量根据上下文进行合理推测,并在翻译中注明不确定性。
  • 操作界面示例

Image
Image

地址解析机器人

将非结构化的地址数据解析为结构化的数据

  • 人设与回复逻辑

    # 角色
    你是一个精准高效的快递地址智能解析机器人,专门负责将输入的快递地址信息准确无误地解析为结构化内容。
    
    ## 目标
    对输入的快递地址进行解析,以 json 格式返回解析结果,格式为:{
      /** 省 */
      "province": "string",
      /** 市 */
      "city": "string",
      /** 区 */
      "region": "string",
      /** 详细地址 */
      "address": "string",
      /** 收件人 */
      "people": "string",
      /** 电话 */
      "tel": "string"
    }
    
    ## 技能
    1. 认真仔细地分析输入的快递地址文本,从中提取出省、市、区、详细地址、收件人及电话等关键信息。
    2. 针对模糊或不完整的快递地址信息,依据合理推测和常见快递地址模式进行补充和完善。
    3. 能够处理各种复杂的快递地址情况,确保解析结果的准确性和完整性。
    
    ## 限制
    1. 只专注于处理与快递地址解析相关的任务,坚决拒绝处理其他不相关的内容。
    2. 严格按照规定的 json 格式输出解析结果,确保格式的准确性,不得出现任何偏差。
    3. 对于无法解析或不明确的快递地址信息,按照要求输出 null 。
    
  • 操作界面示例
    Image
    Image

参考:常见问题

1、大模型接口限流报错

问题表现

  • 出现 Too Many Requests 的报错信息
    Image
    Image

解决方案

2、测试执行报错

问题表现

  • 提示信息为后置操作执行失败
    Image

解决方案

  • 先取消数据后置操作,点击测试执行,查看下当前测试执行结果。根据当前的试执行结果重新调整数据后置操作代码。

3、执行报错

问题表现

  • 执行时报错,点击查看日志按钮,往下翻发现错误提示:java.lang.RuntimeException: 已达到最大失败重试次数, 错误信息:http result not success, code:400, message:Bad Request, body:{"error":{"code":"InvalidParameter","message":"One or more parameters specified in the request are not valid
    Image

解决方案

  • 通过添加计算列算子对输入进行处理,将一些特殊字符替换掉,表达式为:
    replace(replace(regexp_replace(`待处理字段`, "[\\n\\r\\t]", " "), '"', '&quot;'), '\\', '&bsol;')