在实时对话式 AI 场景中,支持接入自定义 ASR 和 TTS 服务,以满足特定业务需求。本文主要介绍如何接入自定义 ASR 和 TTS 服务。
将自定义 ASR 服务接入边缘智能大模型网关后,即可在实时对话式 AI 方案中使用该服务进行语音识别。
StartVoiceChat 接口,按照规定参数结构配置 ASRConfig。以下是最小化配置示例:
完整参数参见对应接口文档:音视频互动智能体- StartVoiceChat(2025-06-01)、实时对话式 AI-StartVoiceChat(2024-12-01)。
{ "ASRConfig": { "Provider": "ai_gateway", // 必填,固定为 ai_gateway "ProviderParams": { "URL": "wss://ai-gateway.vei.volces.com/v1/realtime?model=customasr", // 必填,在网关获取的服务接入点 URL "APIKey": "sk-xxxxxx" // 必填,网关访问密钥 } } }
在启动任务时通过字段 ExtraHeader 传递固定的自定义数据(如语言设置、标点开关),这些参数在整个任务期间保持不变。
"ProviderParams": { "URL": "wss://...", "APIKey": "...", // 示例:透传业务参数 "ExtraData": { "language": "zh-cn", "enable_punctuation": true, "domain": "medical" } }
将自定义语音合成服务接入边缘智能大模型网关后,即可在实时对话式 AI 方案中使用该服务进行语音合成。
StartVoiceChat 接口,按照规定参数结构配置 TTSConfig。以下是最小化配置示例:完整参数参见对应接口文档:音视频互动智能体- StartVoiceChat(2025-06-01)、实时对话式 AI-StartVoiceChat(2024-12-01)。
{ "TTSConfig": { "Provider": "ai_gateway", // 必填,固定值 "ProviderParams": { "URL": "wss://ai-gateway.vei.volces.com/v1/realtime?model=customtts", // 必填,从网关获取的服务接入点 URL "APIKey": "sk-xxxxxx", // 必填,网关访问密钥 "Voice": "my_custom_voice" // 必填,音色名称 } } }
OutputAudioSpeedRate:语速。OutputAudioVolume:音量。OutputAudioPitchRate:音调。在任务启动时传递固定的自定义数据(如模型版本、业务来源),这些数据在整个通话期间保持不变。
ExtraData:自定义 JSON 参数(透传至请求体)。ExtraHeader:自定义 HTTP Header(透传至请求头)。在对话过程中,你可以根据业务需求将端侧的业务数据、算法检测结果等(如用户情绪、场景变化)透传给自定义 TTS,比如用于动态调整语音合成效果(如让 AI 这一句话用“开心”的语气说)。这些数据不会被 TTS 直接朗读。
详细配置说明,请参见方式二:单轮对话中动态透传。