You need to enable JavaScript to run this app.
文档中心
数据智能体

数据智能体

复制全文
下载 pdf
数据处理
音频处理
复制全文
下载 pdf
音频处理

音频处理算子用于实现音频转文字的功能。通过本文您可以了解音频处理模块下所包含的各类算子的能力和使用方式。

前提条件

企业管理员已为算子配置大模型,详情请参见设置大模型调用

音频处理算子介绍
  1. 语音转文字(ASR)-Qwen-Qmni

支持将音频文件转写成文本数据,内置自动标点、语义顺滑、数字规整、智能分句等功能,可根据需要任意搭配。适用于非实时的语音识别场景。

  1. 语音转文字(ASR)-Doubao标准版

支持将音频文件(<5小时)转写成文本数据,内置自动标点、语义顺滑、数字规整、智能分句等功能,可根据需要任意搭配。适用于非实时的语音识别场景,如会议记录总结、智能外呼质检、课后教辅和学情分析等。

操作说明

语音转文字(ASR)-Qwen-Qmni

第一步:新建音频处理算子

  1. 在企业知识引擎左侧导航栏,选择数据接入 > 可视化知识处理
  2. 任务列表页面的左上角,单击新建,并选择新建离线任务
    Image
  3. 按照离线任务中的步骤完成离线任务创建,在处理节点时,选择为数据连接添加「音频处理」中的语音转文字(ASR) -Qwen-Omin算子。
    Image

第二步:配置算子

点击「语言转文字(ASR) -Qwen-Omin」,在基本信息页面,配置相关参数。
Image

  1. 模型信息
    相关参数说明如下:

    参数

    配置说明

    模型选择

    如果企业管理员已经为算子配置大模型(详情参见上文前提条件),则支持选择大模型。您也可以选择自定义模型,并完成模型相关配置。

    模型调用地址

    应用的调用地址

    推理接入点

    一般格式为ep-xxxxxxxxxx-yyyy,创建方式参考创建自定义推理接入点

    API Key

    一般格式为xxxxxxxx-yyyy-xxxx-yyyy-xxxxxxxxxxxx,获取方式参考获取 API Key 并配置

  2. 处理配置
    输入模式:选择输入数据的来源模式。支持以下两种模式:

    • url:输入在线文件的 URL。
    • file:上传本地文件。
      输入字段:根据上游算子实际输出字段,选择需要抽取输入的字段。

    注意

    输入模式选择 file 时,输入字段必须选择 file_ref。

  3. 语言识别配置
    下拉单选,支持搜索,根据技术选型选择可选的语言。目前支持中文和英文。

  4. 高级设置
    相关参数说明如下:

    参数

    说明

    并发大小

    设置并发处理的任务数量。
    默认值:10
    取值范围:[批注:请补充取值范围]

    超时时间

    设置任务处理的超时时间,单位为毫秒(ms)。
    默认值:180000 ms

    重试间隔

    设置任务失败后的自动重试次数。
    默认值:3 次

    异常处理

    配置当任务发生异常时的处理策略。
    支持以下两种策略:
    终止任务:当发生异常时,立即终止当前任务的执行。这是默认选项。
    忽略异常:当发生异常时,忽略错误并继续执行任务的后续步骤。

  5. 输出配置
    **输出字段:**指定用于存储识别结果的输出字段名称。

第三步:测试执行

点击「测试执行」,在「测试执行结果」栏中查看输出结果。
Image

语音转文字(ASR)-Doubao标准版

第一步:新建音频处理算子

  1. 在企业知识引擎左侧导航栏,选择数据接入 > 可视化知识处理
  2. 任务列表页面的左上角,单击新建,并选择新建离线任务
    Image
  3. 按照离线任务中的步骤完成离线任务创建,在处理节点时,选择为数据连接添加「音频处理」中的语音转文字(ASR) -Doubao标准版算子。
    Image

第二步:配置算子

在流程画布中单击语音转文字(ASR) -Doubao标准版算子,并完成以下配置。
Image

模块

参数

说明

模型信息

模型选择

如果企业管理员已经为算子配置大模型(详情参见上文前提条件),则支持选择大模型。您也可以选择自定义模型,并完成模型相关配置。

AppID

豆包语音服务下的 App ID,获取方式请参见如何获取参数 App、Token 等
豆包语音服务详情请参见豆包语音快速入门

Access Token

豆包语音服务下的 Access Token,获取方式请参见如何获取参数 App、Token 等

资源信息 ID

  • 豆包录音文件识别模型1.0:volc.bigasr.auc
  • 豆包录音文件识别模型2.0:volc.seedasr.auc

处理配置

输入模式

选择视频输入来源模式。

  • url:输入在线文件的 URL。
  • file:上传本地文件。

输入字段

根据上游算子实际输出字段,选择需要抽取输入的字段。

注意

输入模式选择 file 时,输入字段必须选择 file_ref。

语言

支持中文、英语、日语和西班牙语等多语种选择。默认不设置,系统将自动识别语言。

格式

支持选择 raw、wav、mp3、ogg、视频格式。默认不设置,系统将自动推断格式。

语义顺滑

开启后,通过删除或修改 ASR 结果中的不流畅部分,如停顿词、语气词、语义重复词等,提高自动语音识别(ASR)结果的文本可读性和流畅性。

自定义参数

支持通过自定义参数设置更多内容。支持的参数请参见提交任务 API,例如,设置自定义参数 enable_emotion_detection = happy 表示开启情绪识别,识别开心情绪。

高级设置

并发大小

设置并发处理的任务数量。
默认值:10

超时时间

设置任务处理的超时时间,单位为毫秒(ms)。
默认值:180000 ms

重试次数

设置任务失败后的自动重试次数。
默认值:3 次

重试间隔

设置任务失败后每次重试之间的时间间隔。
默认值:100 ms

异常处理

配置当任务发生异常时的处理策略。
支持以下两种策略:
终止任务:当发生异常时,立即终止当前任务的执行,并清除中间结果。这是默认选项。
忽略异常:当发生异常时,忽略错误(使用 null 填充数据)并继续执行任务的后续步骤。

输出配置

输出内容

支持选择整段结果整段结果+分句详细信息。默认为整段结果

输出字段

自定义输出字段。

第三步:测试执行

点击「测试执行」,在「测试执行结果」栏中查看输出结果。
Image

最近更新时间:2026.05.15 15:12:03
这个页面对您有帮助吗?
有用
有用
无用
无用