语音识别服务(ASR) 用于将用户的语音实时转换为文本。
注意
对于旧版接口StartVoiceChat(2024-12-01),若通过 S2SConfig 参数启用了端到端语音模型,本文档描述的 ASRConfig 配置将无效,语音识别将由端到端模型内部处理。关于端到端模型的配置,请参见接入端到端语音模型。
ASR 服务 | 特性 |
|---|---|
火山流式语音识别大模型 | 识别准确率更高,适用于对识别准确率要求较高的场景(如会议记录、智能客服等)。 |
火山流式语音识别 | 识别速度更快,适用于响应速度要求高的语音控制场景。 |
自定义语音识别服务 | 将自定义 ASR 服务接入边缘大模型网关后,即可在实时对话式 AI 方案中使用该服务进行语音识别。 |
完整参数参见对应接口文档:音视频互动智能体- StartVoiceChat(2025-06-01)、实时对话式 AI-StartVoiceChat(2024-12-01)。
参数透传VolcanoASRParameters 字段说明,可参见VolcanoASRParameters 说明。
{ "ASRConfig": { "Provider": "volcano", // 必填:固定值 "ProviderParams": { "Mode": "bigmodel", // 必填:固定值 "Credential": { "ApiResourceId": "volc.seedasr.sauc.duration" // 必填::固定值 }, "StreamMode": 2, // 必填:仅支持取值 1 或 2,推荐 2 "VolcanoASRParameters": "{}" // 查看具体的字段说明 } } }
参数直传
{ "ASRConfig": { "Provider": "volcano", // 必填:固定值 "ProviderParams": { "Mode": "bigmodel", // 必填:固定值,表示大模型 "AppId": "93****21", // 必填:豆包语音控制台获取的 AppID "AccessToken": "MOaOaa...", // 必填:对应的 AccessToken "ApiResourceId": "volc.seedasr.sauc.duration" // 必填:选择 2.0版本,例如小时版本 "StreamMode": 2 // 必填:仅支持取值 1 或 2,推荐 2 } } }
完整参数参见对应接口文档:音视频互动智能体- StartVoiceChat(2025-06-01)、实时对话式 AI-StartVoiceChat(2024-12-01)。
参数透传VolcanoASRParameters 字段说明,可参见VolcanoASRParameters 说明。
{ "ASRConfig": { "Provider": "volcano", // 必填:固定值 "ProviderParams": { "Mode": "bigmodel", // 必填:固定值 "VolcanoASRParameters": "{}" // 查看具体的字段说明 } } }
参数直传
{ "ASRConfig": { "Provider": "volcano", // 必填:固定值 "ProviderParams": { "Mode": "bigmodel", // 必填:固定值,表示大模型 } } }
VolcanoASRParameters 是一个经过压缩并转义后的 JSON 字符串,用于透传火山引擎语音识别大模型 ASR 服务的 原生 API 参数。
{}。即 VolcanoASRParameters: "{}"。发送 full client request 表格下的参数),下方列出的无需透传的字段除外。在使用火山引擎语音识别大模型时,可通过调整音量增益、添加热词、替换词等方式提升识别准确率。详细说明参见如何提升语音识别准确性?。
在使用火山引擎语音识别服务时:
InterruptSpeechDuration 设为 0,避免自动阈值覆盖关键词触发逻辑。如果用户输入的音频过长,可能会出现识别结果未完整返回便被截断,可通过以下方式优化:
VADConfig.AIVAD 设置为 true、适当延长 SilenceTime(例如 1000ms 以上),并将 LLMConfig.Prefill 设置为 true,让系统更智能地判断长句中的自然停顿。完整参数参见对应接口文档:音视频互动智能体- StartVoiceChat(2025-06-01)、实时对话式 AI-StartVoiceChat(2024-12-01)。
Cluster:支持的取值参见 Cluster ID(火山引擎流式语音识别)。
{ "ASRConfig": { "Provider": "volcano", // 必填:固定值 "ProviderParams": { "Mode": "smallmodel", // 必填:固定值 "Cluster": "volcengine_streaming_common" // 必填:服务集群标识 (Cluster ID) } } }
将自定义语音识别服务接入边缘大模型网关后,即可在实时对话式 AI 方案中使用该服务进行语音识别。具体接入方式,参见接入自定义 ASR。