You need to enable JavaScript to run this app.
AI 数据湖服务

AI 数据湖服务

复制全文
音频识别
语音转文字(豆包系列)
复制全文
语音转文字(豆包系列)

算子介绍

描述

语音识别模块 - 基于 LAS ASR 服务的录音转写解决方案

使用限制

  • 暂只支持单个语音文件传入
  • 语音识别为异步接口,您需要先创建语音识别任务,再通过语音识别任务的 ID 去查询语音识别结果

核心功能

  • 接入火山引擎LAS ASR接口
  • 支持自动断句、数字规整、说话人或通道分离(可选)
  • 并发处理多个音频文件,提供结构化 JSON 与可读文本两种输出
  • 适合转写最长2小时的录音文件,支持标点补全、智能断句、说话人分离等高级功能。

API 调用

Submit

接口说明

提交 ASR 识别任务。

请求参数

参数

类型

必填

示例值

说明

operator_id

string

las_asr

算子Id

operator_version

string

v2

算子版本

data

SpeechRecognition

请求数据

user

UserConfig

用户相关配置

uid

string

用户标识

audio

Audio

音频相关配置

url

string

音频链接

language

string

en-US

当该键为空时,该模型支持中英文、上海话、闽南语,四川、陕西、粤语识别。当将其设置为下方特定键时,它可以识别指定语言。 英语:en-US 日语:ja-JP 印尼语:id-ID 西班牙语:es-MX 葡萄牙语:pt-BR 德语:de-DE 法语:fr-FR 韩语:ko-KR 菲律宾语:fil-PH 马来语:ms-MY 泰语:th-TH 阿拉伯语:ar-SA

format

string

mp3

音频容器格式

codec

string

音频编码格式

rate

integer

音频采样率

bits

integer

音频采样点位数

channel

integer

音频声道数

resource

string

bigasr

可选值为 "bigasr" 与 "seedasr",其中默认值为"bigasr"。

request

RequestConfig

请求相关配置

model_name

string

bigmodel

模型名称,目前只有bigmodel

enable_itn

boolean

true

默认为true。
文本规范化 (ITN) 是自动语音识别 (ASR) 后处理管道的一部分。 ITN 的任务是将 ASR 模型的原始语音输出转换为书面形式,以提高文本的可读性。
例如,“一九七零年”->“1970年”和“一百二十三美元”->“$123”。

enable_punc

boolean

false

默认为false。

enable_ddc

boolean

false

默认为false。
语义顺滑是一种技术,旨在提高自动语音识别(ASR)结果的文本可读性和流畅性。这项技术通过删除或修改ASR结果中的不流畅部分,如停顿词、语气词、语义重复词等,使得文本更加易于阅读和理解。

enable_channel_split

boolean

false

默认为false。
如果设为"True",则会在返回结果中使用channel_id标记,1为左声道,2为右声道。默认 "False"。

show_utterances

boolean

false

输出语音停顿、分句、分词信息

vad_segment

boolean

false

默认为false,默认是语义分句。
打开双声道识别时,通常需要使用vad分句,可同时打开此参数

end_window_size

integer

800

范围300 - 5000ms,建议设置800ms或者1000ms,比较敏感的场景可以配置500ms或者更小。(如果配置的过小,则会导致分句过碎,配置过大会导致不容易将说话内容分开。建议依照自身场景按需配置)
配置该值,不使用语义分句,根据静音时长来分句。

sensitive_words_filter

string

敏感词过滤功能,支持开启或关闭,支持自定义敏感词。该参数可实现:不处理(默认,即展示原文)、过滤、替换为*。 示例: system_reserved_filter //是否使用系统敏感词,会替换成*(默认系统敏感词主要包含一些限制级词汇) filter_with_empty // 想要替换成空的敏感词 filter_with_signed // 想要替换成 * 的敏感词

"sensitive_words_filter":{\"system_reserved_filter\":true,\"filter_with_empty\":[\"敏感词\"],\"filter_with_signed\":[\"敏感词\"]}",

corpus

Corpus

语料/干预词等

context

string

热词直传,支持5000个热词 "context":"{"hotwords":[{"word":"热词1号"}, {"word":"热词2号"}]}" 上下文,限制800 tokens及20轮(含)内,超出会按照时间顺序从新到旧截断,优先保留更新的对话 context_data字段按照从新到旧的顺序排列,以下是反序列化后的例子,传入需要序列化为jsonstring(转义引号)

上下文:可以加入对话历史、聊天所在bot信息、个性化信息、业务场景信息等,如:
a.对话历史:把最近几轮的对话历史传进来
b.聊天所在bot信息:如"我在和林黛玉聊天","我在使用A助手和手机对话"
c.个性化信息:"我当前在北京市海淀区","我有四川口音","我喜欢音乐"
d.业务场景信息:"当前是中国平安的营销人员针对外部客户采访的录音,可能涉及..."
{
\"context_type\": \"dialog_ctx\",
\"context_data\":[
{\"text\": \"text1\"},
{\"text\": \"text2\"},
{\"text\": \"text3\"},
{\"text\": \"text4\"},
...
]
}

返回数据

参数

类型

示例值

说明

metadata

Metadata

请求元信息

task_id

string

异步模式下的任务id。

task_status

string

异步模式下的任务状态。

business_code

string

业务码

error_msg

string

如有异常,会返回详细的异常信息。

request_id

string

请求requestid

示例

请求示例

curl --location "https://sd2a6d3q80c6ft26s2tv0.apigateway-cn-beijing.volceapi.com/api/v1/submit" \
--header "Content-Type: application/json" \
--header "Authorization: $LAS_API_KEY" \
--data '
{
    "operator_id": "las_asr",
    "operator_version": "v2",
    "data": {
        "audio": {
            "url": "https://las-ai-cn-beijing-baseline.tos-cn-beijing.volces.com/operator_cards_serving/public/baseline/las_asr/badaling.wav",
            "format": "mp3"
        },
        "request": {
            "model_name": "bigmodel"
        }
    }
}'

返回示例

{
    "metadata": {
        "task_id": "xxxxx123ef24ea40546c-las-asr",
        "task_status": "ACCEPTED",
        "business_code": "0",
        "error_msg": "",
        "request_id": "494022a8a0fc3eadb758cf8b0e8b20ef"
    }
}

Poll

接口说明

查询 ASR 识别任务状态。

请求参数

参数

类型

必填

示例值

说明

operator_id

string

las_asr

算子Id

operator_version

string

v2

算子版本

task_id

string

异步任务Id

返回数据

参数

类型

示例值

说明

metadata

Metadata

请求的元信息,异步任务的id在其中的task_id字段下。

task_id

string

异步模式下的任务id。

task_status

string

异步模式下的任务状态。

business_code

string

业务码

error_msg

string

如有异常,会返回详细的异常信息。

request_id

string

请求requestid

data

AudioResponse

返回的音频识别结果。

audio_info

AudioInfo

音频信息

duration

integer

音频时长,单位秒

result

AudioResult

音频识别结果

text

string

识别出的文本内容

utterances

list of Utterance

语音停顿、分句、分词信息

additions

Additions

额外信息,如说话人等

emotion_degree

string

情感强度

emotion_degree_score

string

情感强度得分

emotion

string

情感类型

emotion_score

string

情感类型得分

gender

string

性别

gender_score

string

性别得分

speech_rate

string

说话频率

volume

string

音量

speaker

string

说话人

channel_id

string

声道编号

confidence

integer

置信度

end_time

integer

结束时间

start_time

integer

起始时间

text

string

该部分文本内容

words

list of Word

单词相关信息

confidence

integer

置信度

blank_duration

integer

空白时长

end_time

integer

单词结束时间

start_time

integer

单词起始时间

text

string

单词文本

additions

RequestAdditions

额外信息

duration

string

音频时长

lid_lang

string

语种

示例

请求示例

curl --location "https://sd2a6d3q80c6ft26s2tv0.apigateway-cn-beijing.volceapi.com/api/v1/poll" \
--header "Content-Type: application/json" \
--header "Authorization: $LAS_API_KEY" \
--data '
{
    "operator_id": "las_asr",
    "operator_version": "v2",
    "data": {
      "task_id": "xxxxx123ef24ea40546c-las-asr"
    }
}'

返回示例

{
    "metadata": {
        "task_id": "xxxxx123ef24ea40546c-las-asr",
        "task_status": "COMPLETED",
        "business_code": "0",
        "error_msg": "",
        "request_id": "d204c21f5c7c8f8cfeb85d211b9c20ac"
    },
    "data": {
        "audio_info": {
            "duration": 3575
        },
        "result": {
            "additions": {
                "duration": "3575"
            },
            "text": "参观达*长城。",
            "utterances": [
                {
                    "additions": {
                        "channel_id": "1"
                    },
                    "end_time": 2320,
                    "start_time": 640,
                    "text": "参观达*长城。",
                    "words": [
                        {
                            "confidence": 0,
                            "end_time": 920,
                            "start_time": 640,
                            "text": "参"
                        },
                        {
                            "confidence": 0,
                            "end_time": 1120,
                            "start_time": 920,
                            "text": "观"
                        },
                        {
                            "confidence": 0,
                            "end_time": 1480,
                            "start_time": 1440,
                            "text": "达"
                        },
                        {
                            "confidence": 0,
                            "end_time": 1720,
                            "start_time": 1680,
                            "text": "*"
                        },
                        {
                            "confidence": 0,
                            "end_time": 2080,
                            "start_time": 1880,
                            "text": "长"
                        },
                        {
                            "confidence": 0,
                            "end_time": 2320,
                            "start_time": 2080,
                            "text": "城"
                        }
                    ]
                }
            ]
        }
    }
}

错误码

HttpCode

错误码

错误信息

说明

400

Parameter.Invalid

The parameter is invalid.

参数不合法

401

Authorization.Missing

Missing Authorization.

缺少鉴权

401

ApiKey.Invalid

The api key is invalid.

API不合法

429

Server.Busy

Server is Busy, please try again later.

服务端繁忙限流

500

Server.InternalError

根据具体异常而定

业务异常

最近更新时间:2026.01.15 18:06:19
这个页面对您有帮助吗?
有用
有用
无用
无用