在实时对话式 AI 场景中,支持接入自定义 ASR 和 TTS 服务,以满足特定业务需求。本文主要介绍如何接入自定义 ASR 和 TTS 服务。
将自定义 ASR 服务接入边缘大模型网关后,即可在实时对话式 AI 方案中使用该服务进行语音识别。
准备自定义 ASR 接口,并满足自定义 ASR 模型接口协议。
将自定义 ASR 接入边缘智能大模型网关。具体操作,请参见 调用自定义模型。
调用 StartVoiceChat 接口,按照规定参数结构配置 ASRConfig。参数详细说明,参见 StartVoiceChat。
Provider:必须设置为 ai_gateway。ProviderParams.URL:填入您在网关获取的服务接入点 URL。ProviderParams.APIKey:填入您的网关访问密钥。ProviderParams.ExtraData:可通过此 JSON 对象,向您的自定义 ASR 服务的请求体中透传额外的业务参数。你可参看以下示例,使用自定义 ASR 服务进行语音识别:
{ "ASRConfig": { "Provider": "ai_gateway", "ProviderParams": { "URL": "wss://ai-gateway.vei.volces.com/v1/realtime?model=customasr", "APIKey": "sk-xxxxxx", "ExtraData": { "language": "zh-cn", "enable_punctuation": true } } } }
将自定义语音合成服务接入边缘大模型网关后,即可在实时对话式 AI 方案中使用该服务进行语音合成。
StartVoiceChat 接口,按照规定参数结构配置 TTSConfig。参数详细说明,参见 StartVoiceChat。
核心接入配置(必填):
Provider:必须设置为 ai_gateway。ProviderParams.URL:填入您在网关获取的服务接入点URL。ProviderParams.APIKey:填入您的网关访问密钥。ProviderParams.Voice:提供您的服务所支持的音色名称。语速、音量和音调:
ProviderParams.OutputAudioSpeedRate:语速。ProviderParams.OutputAudioVolume:音量。ProviderParams.OutputAudioPitchRate:音调。自定义数据透传:
ProviderParams.ExtraData:通过 JSON 对象向请求体中透传自定义数据。ProviderParams.ExtraHeader:通过 JSON 对象向请求中添加自定义 HTTP Header。你可参看以下示例,使用自定义 TTS 服务进行语音合成:
{ "TTSConfig": { "IgnoreBracketText":[ 1, 2 ], "Provider": "ai_gateway", "ProviderParams": { "URL": "wss://ai-gateway.vei.volces.com/v1/realtime?model=customtts", "APIKey": "sk-xxxxxx", "Voice": "xxxx", "ExtraData": { "emotion": "cheerful" }, "ExtraHeader": { "X-Biz-Trace-Id": "trace-id-for-custom-tts" } } } }