You need to enable JavaScript to run this app.
文档中心
AI 数据湖服务

AI 数据湖服务

复制全文
下载 pdf
音频识别
语音转文字(Doubao-录音文件识别)增强版-byteplus
复制全文
下载 pdf
语音转文字(Doubao-录音文件识别)增强版-byteplus

算子介绍

描述

LAS语音转文字(Doubao-录音文件识别)增强版算子基于豆包录音文件识别大模型,能够将输入音频/视频文件中的语音,转写为文本输出。支持多种音/视频格式、多语种、音频降噪及大文件处理,适用于内容质检审核、音视频字幕生成、语音搜索、课堂内容分析等场景。

使用限制

  • 暂只支持单个语音文件传入
  • 扩展支持的其他语种(豆包语音支持的13个语种之外),仅支持录音转写能力,暂不支持自动标点、语义顺滑、说话人识别、数字规整ITN、热词纠错、多模态视觉识别等功能。
  • 目前支持的音频格式为 raw, wav, mp3, ogg。
  • 当前系统仅对以下目标语种开放完整能力支持:
    • 英语(en)、日语(ja)、印尼语(id)、西班牙语(es)、葡萄牙语(pt)、德语(de)、法语(fr)、韩语(ko)、菲律宾语(fil)、马来语(ms)、泰语(th)、阿拉伯语(ar)。
    • 若目标语种不在上述列表中,则仅支持基础转录功能,暂未开放说话人分离、情感识别等高级能力。

核心功能

  • 多格式音频/视频输入识别:
    • 除音频外,新增支持视频文件输入,las算子可自动提取视频音轨进行识别。
    • 除raw/wav/mp3/ogg外,扩展支持mp4/mov/mkv/flac等容器格式。
    • las算子对于输入的音视频文件无文件大小/时长限制。
    • 除公网https url访问外,也支持tos内网路径访问(tos://bucket-name/路径名/文件名)。
  • 音频前处理增强,提升模型效果:
    • 内置音频降噪模块,可有效降低背景噪声对识别的影响,提升录音文件转写的准确率。
  • 多语种支持:
    • 可自动识别语种或按用户指定语言进行识别。
    • 扩充识别语种至 99 种,满足多语种、多区域的音频数据处理需求。

应用场景

  • 内容审核质检:将录音识别为文字,通过质检规则对文本进行分析,及时发现违规内容并干预处理;或对内容进行监控分析,发掘潜在商机。
  • 音视频字幕:支持自动将音/视频中的语音、歌词识别转换为文本,一键生成与音视频对应的字幕内容。适用于视频剪辑、视频观看、视频会议等多个场景。
  • 课堂内容分析:将课堂录音文件进行识别,通过文字还原课堂场景,分析教学内容,提升教学质量。
  • 会议访谈转写:将会议、访谈音频异步识别为文字,自动切分有语音部分识别,降本增效;同时自动分段,有效提升会议内容记录效率。

Rest API 调用

使用说明

  • 语音转文字(Doubao-录音文件识别)增强版算子调用为异步接口,处理流程分为 提交任务和查询结果 两个阶段。您需要先创建语音识别任务,再通过语音识别任务的 ID 去查询语音识别结果。

Submit(提交任务)

接口说明

提交音频链接,并获取服务端分配的任务 ID。

请求参数

参数
类型
是否必填
示例值
描述
operator_id
string
las_asr_pro
算子Id
operator_version
string
v1
算子版本
data
SpeechRecognition
请求数据

返回参数

参数
类型
示例值
描述
metadata
Metadata
请求元信息

示例

请求示例

curl --location "https://operator.las.cn-beijing.volces.com/api/v1/submit" \
--header "Content-Type: application/json" \
--header "Authorization: $LAS_API_KEY" \
--data '
{
    "operator_id": "las_asr_pro",
    "operator_version": "v1",
    "data": {
        "resource": "bigasr",
        "audio": {
            "url": "https://las-ai-cn-beijing-online.tos-cn-beijing.volces.com/operator_cards_serving/public/online/las_asr/badaling.wav",
            "format": "wav"
        },
        "request": {
            "model_name": "bigmodel"
        }
    }
}'

返回示例

{
    "metadata": {
        "task_id": "xxxxx123ef24ea40546c",
        "task_status": "PENDING",
        "business_code": "0",
        "error_msg": "",
        "request_id": "494022a8a0fc3eadb758cf8b0e8b20ef"
    }
}

Poll(查询结果)

接口说明

通过任务 ID 查询录音转写结果。

请求参数

参数

类型

必填

示例值

说明

operator_id

string

las_asr_pro

算子Id

operator_version

string

v1

算子版本

task_id

string

异步任务Id

返回参数

参数
类型
示例值
描述
metadata
Metadata
请求的元信息,异步任务的id在其中的task_id字段下。
data
AudioResponse
返回的音频识别结果。

示例

请求示例

curl --location "https://operator.las.cn-beijing.volces.com/api/v1/poll" \
--header "Content-Type: application/json" \
--header "Authorization: $LAS_API_KEY" \
--data '
{
    "operator_id": "las_asr_pro",
    "operator_version": "v1",
    "task_id": "xxxxx123ef24ea40546c"
}'

返回示例

{
    "metadata": {
        "task_id": "xxxxx123ef24ea40546c",
        "task_status": "COMPLETED",
        "business_code": "0",
        "error_msg": "",
        "request_id": "d204c21f5c7c8f8cfeb85d211b9c20ac"
    },
    "data": {
        "audio_info": {
            "duration": 3575
        },
        "result": {
            "additions": {
                "duration": "3575"
            },
            "text": "参观达*长城。",
            "utterances": [
                {
                    "additions": {
                        "channel_id": "1"
                    },
                    "end_time": 2320,
                    "start_time": 640,
                    "text": "参观达*长城。",
                    "words": [
                        {
                            "confidence": 0,
                            "end_time": 920,
                            "start_time": 640,
                            "text": "参"
                        },
                        {
                            "confidence": 0,
                            "end_time": 1120,
                            "start_time": 920,
                            "text": "观"
                        },
                        {
                            "confidence": 0,
                            "end_time": 1480,
                            "start_time": 1440,
                            "text": "达"
                        },
                        {
                            "confidence": 0,
                            "end_time": 1720,
                            "start_time": 1680,
                            "text": "*"
                        },
                        {
                            "confidence": 0,
                            "end_time": 2080,
                            "start_time": 1880,
                            "text": "长"
                        },
                        {
                            "confidence": 0,
                            "end_time": 2320,
                            "start_time": 2080,
                            "text": "城"
                        }
                    ]
                }
            ]
        }
    }
}
最近更新时间:2026.03.30 14:23:37
这个页面对您有帮助吗?
有用
有用
无用
无用