You need to enable JavaScript to run this app.
实时音视频

实时音视频

复制全文
配置 ASR/LLM/TTS
接入自定义 ASR 或 TTS
复制全文
接入自定义 ASR 或 TTS

在实时对话式 AI 场景中,支持接入自定义 ASR 和 TTS 服务,以满足特定业务需求。本文主要介绍如何接入自定义 ASR 和 TTS 服务。

接入火山引擎 ASR 或 TTS 服务:可参考 语音识别配置语音合成配置

接入自定义 ASR

将自定义 ASR 服务接入边缘智能大模型网关后,即可在实时对话式 AI 方案中使用该服务进行语音识别。

如何接入

  1. 准备自定义 ASR 服务接口,接口需满足自定义 ASR 模型接口协议
  2. 将自定义 ASR 接入边缘智能大模型网关。具体操作,请参见 调用自定义模型
  3. 调用 StartVoiceChat 接口,按照规定参数结构配置 ASRConfig。以下是最小化配置示例:

    完整参数参见对应接口文档:音视频互动智能体- StartVoiceChat(2025-06-01)实时对话式 AI-StartVoiceChat(2024-12-01)

{
    "ASRConfig": {
        "Provider": "ai_gateway",  // 必填,固定为 ai_gateway
        "ProviderParams": {
            "URL": "wss://ai-gateway.vei.volces.com/v1/realtime?model=customasr", // 必填,在网关获取的服务接入点 URL
            "APIKey": "sk-xxxxxx"  // 必填,网关访问密钥
        }
    }
}

进阶使用:透传自定义数据

在启动任务时通过字段 ExtraHeader 传递固定的自定义数据(如语言设置、标点开关),这些参数在整个任务期间保持不变。

"ProviderParams": {
    "URL": "wss://...",
    "APIKey": "...",
    // 示例:透传业务参数
    "ExtraData": {
        "language": "zh-cn",
        "enable_punctuation": true,
        "domain": "medical"
    }
}

接入自定义 TTS

将自定义语音合成服务接入边缘智能大模型网关后,即可在实时对话式 AI 方案中使用该服务进行语音合成。

如何接入

  1. 准备自定义 TTS 服务接口,接口需满足自定义语音合成(TTS)模型接口协议
  2. 将自定义 TTS 接入边缘智能大模型网关。具体操作,请参见 调用自定义模型
  3. 调用 StartVoiceChat 接口,按照规定参数结构配置 TTSConfig。以下是最小化配置示例:

完整参数参见对应接口文档:音视频互动智能体- StartVoiceChat(2025-06-01)实时对话式 AI-StartVoiceChat(2024-12-01)

{
    "TTSConfig": {
        "Provider": "ai_gateway",  // 必填,固定值
        "ProviderParams": {
            "URL": "wss://ai-gateway.vei.volces.com/v1/realtime?model=customtts", // 必填,从网关获取的服务接入点 URL
            "APIKey": "sk-xxxxxx",  // 必填,网关访问密钥
            "Voice": "my_custom_voice"  // 必填,音色名称
        }
    }
}

进阶使用

调整音量/语速/音调

  • OutputAudioSpeedRate:语速。
  • OutputAudioVolume:音量。
  • OutputAudioPitchRate:音调。

透传自定义数据(全局配置)

在任务启动时传递固定的自定义数据(如模型版本、业务来源),这些数据在整个通话期间保持不变。

  • ExtraData:自定义 JSON 参数(透传至请求体)。
  • ExtraHeader:自定义 HTTP Header(透传至请求头)。

透传自定义数据(单轮对话)

在对话过程中,你可以根据业务需求将端侧的业务数据、算法检测结果等(如用户情绪、场景变化)透传给自定义 TTS,比如用于动态调整语音合成效果(如让 AI 这一句话用“开心”的语气说)。这些数据不会被 TTS 直接朗读。
详细配置说明,请参见方式二:单轮对话中动态透传

最近更新时间:2025.12.26 00:14:42
这个页面对您有帮助吗?
有用
有用
无用
无用