You need to enable JavaScript to run this app.
实时音视频

实时音视频

复制全文
配置 ASR/LLM/TTS
配置语音识别 ASR
复制全文
配置语音识别 ASR

语音识别服务(ASR) 用于将用户的语音实时转换为文本。

注意

对于旧版接口StartVoiceChat(2024-12-01),若通过 S2SConfig 参数启用了端到端语音模型,本文档描述的 ASRConfig 配置将无效,语音识别将由端到端模型内部处理。关于端到端模型的配置,请参见接入端到端语音模型

支持的 ASR 服务

ASR 服务

特性

火山流式语音识别大模型

识别准确率更高,适用于对识别准确率要求较高的场景(如会议记录、智能客服等)。

火山流式语音识别

识别速度更快,适用于响应速度要求高的语音控制场景。

自定义语音识别服务

将自定义 ASR 服务接入边缘大模型网关后,即可在实时对话式 AI 方案中使用该服务进行语音识别。

火山语音识别大模型(推荐)

接入大模型 2.0 (透传&直传)

完整参数参见对应接口文档:音视频互动智能体- StartVoiceChat(2025-06-01)实时对话式 AI-StartVoiceChat(2024-12-01)

  • 参数透传
    VolcanoASRParameters 字段说明,可参见VolcanoASRParameters 说明

    {
        "ASRConfig": {
            "Provider": "volcano",            // 必填:固定值
            "ProviderParams": {
                "Mode": "bigmodel",           // 必填:固定值
                "Credential": {
                    "ApiResourceId": "volc.seedasr.sauc.duration" // 必填::固定值
                },
                "StreamMode": 2,            // 必填:仅支持取值 1 或 2,推荐 2
                "VolcanoASRParameters": "{}"   // 查看具体的字段说明    
            }
        }
    }
    
  • 参数直传

    {
        "ASRConfig": {
            "Provider": "volcano",              // 必填:固定值
            "ProviderParams": {
                "Mode": "bigmodel",             // 必填:固定值,表示大模型
                "AppId": "93****21",            // 必填:豆包语音控制台获取的 AppID
                "AccessToken": "MOaOaa...",     // 必填:对应的 AccessToken
                "ApiResourceId": "volc.seedasr.sauc.duration"  // 必填:选择 2.0版本,例如小时版本
                "StreamMode": 2                 // 必填:仅支持取值 1 或 2,推荐 2
    
            }
        }
    }
    

接入大模型 1.0 (透传&直传)

完整参数参见对应接口文档:音视频互动智能体- StartVoiceChat(2025-06-01)实时对话式 AI-StartVoiceChat(2024-12-01)

  • 参数透传
    VolcanoASRParameters 字段说明,可参见VolcanoASRParameters 说明

    {
        "ASRConfig": {
            "Provider": "volcano",                    // 必填:固定值
            "ProviderParams": {
                "Mode": "bigmodel",                   // 必填:固定值
                "VolcanoASRParameters": "{}"   // 查看具体的字段说明    
            }
        }
    }
    
  • 参数直传

    {
        "ASRConfig": {
            "Provider": "volcano",             // 必填:固定值
            "ProviderParams": {
                "Mode": "bigmodel",             // 必填:固定值,表示大模型
            }
        }
    }
    

VolcanoASRParameters 说明

VolcanoASRParameters 是一个经过压缩并转义后的 JSON 字符串,用于透传火山引擎语音识别大模型 ASR 服务的 原生 API 参数

  • 若无需传自定义参数:填为 {}。即 VolcanoASRParameters: "{}"
  • 若需要传自定义参数
    • 如何传:参考文档 大模型流式语音识别API 选取您需要的参数构建一个 JSON 对象,然后将该对象压缩并转义为 JSON 字符串。
    • 支持透传的参数大模型流式语音识别API 中的请求参数(即 发送 full client request 表格下的参数),下方列出的无需透传的字段除外
  • 无需透传的字段
    以下参数由平台统一管理,您的字符串中不可包含这些字段:
    • user
    • request.show_speech_rate
    • request.show_volume
    • request.enable_lid
    • request.enable_emotion_detection
    • request.enable_gender_detection
    • request.show_utterances
    • request.result_type
    • request.model_name
    • request.force_to_speech_time
    • audio.format
    • audio.codec
    • audio.rate
    • audio.bits

进阶配置

提升语音识别准确性

在使用火山引擎语音识别大模型时,可通过调整音量增益、添加热词、替换词等方式提升识别准确率。详细说明参见如何提升语音识别准确性?

打断配置优化

在使用火山引擎语音识别服务时:

  • 若需通过关键词触发打断(如“停止”):建议将 InterruptSpeechDuration 设为 0,避免自动阈值覆盖关键词触发逻辑。
  • 若背景噪音较多:可通过调整音量增益、开启 AI 降噪或声纹降噪,在嘈杂环境下提升语音交互体验。具体配置,请参见语音降噪

长难句断句优化

如果用户输入的音频过长,可能会出现识别结果未完整返回便被截断,可通过以下方式优化:

  • 开启 AI 智能断句:将 VADConfig.AIVAD 设置为 true、适当延长 SilenceTime(例如 1000ms 以上),并将 LLMConfig.Prefill 设置为 true,让系统更智能地判断长句中的自然停顿。
  • 手动触发断句:参考判停与对话触发,手动控制智能体输出的时机。

火山流式语音识别

完整参数参见对应接口文档:音视频互动智能体- StartVoiceChat(2025-06-01)实时对话式 AI-StartVoiceChat(2024-12-01)

Cluster:支持的取值参见 Cluster ID(火山引擎流式语音识别)

{
    "ASRConfig": {
        "Provider": "volcano",             // 必填:固定值
        "ProviderParams": {
            "Mode": "smallmodel",         // 必填:固定值
            "Cluster": "volcengine_streaming_common" // 必填:服务集群标识 (Cluster ID)
        }
    }
}

自定义 ASR

将自定义语音识别服务接入边缘大模型网关后,即可在实时对话式 AI 方案中使用该服务进行语音识别。具体接入方式,参见接入自定义 ASR

最近更新时间:2025.12.26 00:14:42
这个页面对您有帮助吗?
有用
有用
无用
无用