语音对话智能体(自定义版本)支持用户自行选择所需的语音识别(ASR)、语音合成(TTS)和大语言模型(LLM),并串联实现端到端语音对话功能。
说明
要体验和使用语音对话智能体(自定义版本),请提交工单。
相较于原版语音对话智能体,其交互接口的事件定义完全一致,但在使用方式上存在以下差异:
要使用语音对话智能体(自定义版本),必须将 语音对话智能体(自定义版本) 和 所需使用的 ASR、TTS、LLM 模型 绑定到同一个网关访问密钥。
说明
ASR、TTS 和 LLM 模型允许来自平台预置渠道和自有三方渠道。
wss://ai-gateway.vei.volces.com/v1/realtime
?model=AG-voice-chat-agent-custom&ag-asr-model=bigmodel&ag-llm-model=doubao-pro-32k&ag-tts-model=doubao-tts
各参数含义如下:
model
:取值固定为AG-voice-chat-agent-custom
,指定当前调用的智能体为语音对话智能体(自定义版本)。ag-asr-model
:取值为 ASR 模型的调用名称,例如:bigmodel
。ag-llm-model
:取值为 LLM 模型的调用名称,例如:doubao-pro-32k
。ag-tts-model
:取值为 TTS 模型的调用名称,例如:doubao-tts
。请求头 | 说明 | |
---|---|---|
|
| |
| 符合以下情形时需要携带:
| |
| 符合以下情形时需要携带:
| |
| 符合以下情形时需要携带:
说明 若使用默认音色,无需携带该请求头。 | |
| 符合以下情形时需要携带:
说明 若使用默认音色,无需携带该请求头。 |
若需在语音合成中使用复刻的自定义音色,需要将 session.update
中的 voice
设置成您在 声音复刻大模型 中复刻的 声音ID。更多信息,请参见获取声音ID。