音频处理算子用于实现音频转文字的功能。通过本文您可以了解音频处理模块下所包含的各类算子的能力和使用方式。
企业管理员已为算子配置大模型,详情请参见设置大模型调用。
支持将音频文件转写成文本数据,内置自动标点、语义顺滑、数字规整、智能分句等功能,可根据需要任意搭配。适用于非实时的语音识别场景。
支持将音频文件(<5小时)转写成文本数据,内置自动标点、语义顺滑、数字规整、智能分句等功能,可根据需要任意搭配。适用于非实时的语音识别场景,如会议记录总结、智能外呼质检、课后教辅和学情分析等。
点击「语言转文字(ASR) -Qwen-Omin」,在基本信息页面,配置相关参数。
模型信息
相关参数说明如下:
参数 | 配置说明 |
|---|---|
模型选择 | 如果企业管理员已经为算子配置大模型(详情参见上文前提条件),则支持选择大模型。您也可以选择自定义模型,并完成模型相关配置。 |
模型调用地址 | 应用的调用地址 |
推理接入点 | 一般格式为 |
API Key | 一般格式为 |
处理配置
输入模式:选择输入数据的来源模式。支持以下两种模式:
注意
输入模式选择 file 时,输入字段必须选择 file_ref。
语言识别配置
下拉单选,支持搜索,根据技术选型选择可选的语言。目前支持中文和英文。
高级设置
相关参数说明如下:
参数 | 说明 |
|---|---|
并发大小 | 设置并发处理的任务数量。 |
超时时间 | 设置任务处理的超时时间,单位为毫秒(ms)。 |
重试间隔 | 设置任务失败后的自动重试次数。 |
异常处理 | 配置当任务发生异常时的处理策略。 |
输出配置
**输出字段:**指定用于存储识别结果的输出字段名称。
点击「测试执行」,在「测试执行结果」栏中查看输出结果。
在流程画布中单击语音转文字(ASR) -Doubao标准版算子,并完成以下配置。
模块 | 参数 | 说明 |
|---|---|---|
模型信息 | 模型选择 | 如果企业管理员已经为算子配置大模型(详情参见上文前提条件),则支持选择大模型。您也可以选择自定义模型,并完成模型相关配置。 |
AppID | 豆包语音服务下的 App ID,获取方式请参见如何获取参数 App、Token 等。 | |
Access Token | 豆包语音服务下的 Access Token,获取方式请参见如何获取参数 App、Token 等。 | |
资源信息 ID |
| |
处理配置 | 输入模式 | 选择视频输入来源模式。
|
输入字段 | 根据上游算子实际输出字段,选择需要抽取输入的字段。 注意 输入模式选择 file 时,输入字段必须选择 file_ref。 | |
语言 | 支持中文、英语、日语和西班牙语等多语种选择。默认不设置,系统将自动识别语言。 | |
格式 | 支持选择 raw、wav、mp3、ogg、视频格式。默认不设置,系统将自动推断格式。 | |
语义顺滑 | 开启后,通过删除或修改 ASR 结果中的不流畅部分,如停顿词、语气词、语义重复词等,提高自动语音识别(ASR)结果的文本可读性和流畅性。 | |
自定义参数 | 支持通过自定义参数设置更多内容。支持的参数请参见提交任务 API,例如,设置自定义参数 | |
高级设置 | 并发大小 | 设置并发处理的任务数量。 |
超时时间 | 设置任务处理的超时时间,单位为毫秒(ms)。 | |
重试次数 | 设置任务失败后的自动重试次数。 | |
重试间隔 | 设置任务失败后每次重试之间的时间间隔。 | |
异常处理 | 配置当任务发生异常时的处理策略。 | |
输出配置 | 输出内容 | 支持选择整段结果或整段结果+分句详细信息。默认为整段结果。 |
输出字段 | 自定义输出字段。 |
点击「测试执行」,在「测试执行结果」栏中查看输出结果。