除了标准的 ASR+LLM+TTS 模块化方案,还支持接入“豆包端到端实时语音大模型”。该模型将“听(ASR)、想(LLM)、说(TTS)”三大环节集成于一体,实现从语音输入到语音输出的全链路处理,能够显著降低模块间的处理与传输延迟,为用户带来更流畅、更接近真人的实时对话体验。
更多端到端实时语音大模型介绍,请参见 产品简介。
豆包端到端实时语音大模型后,会对以下配置产生影响:
ASRConfig、TTSConfig 和 LLMConfig,系统会忽略这些配置。ASRConfig 和 TTSConfig,系统会忽略这些配置。SubtitleConfig.SubtitleMode 设置为 1(不对齐时间戳)。ExternalPromptsForLLM 和 ExternalTextToLLM 指令不生效。豆包端到端实时语音大模型 服务,并获取 APP ID 和 Access Token。声音复刻模型2.0 页面完成训练并获取 speaker_id。API Key。具体操作,可参见开启联网搜索。端到端实时语音大模型支持两种工作模式,分别适用于不同场景,计费方式也不同:
模式 | 描述 | 适用场景 | ASR+TTS+LLM 计费 |
|---|---|---|---|
纯端到端 | 所有对话都由豆包端到端实时语音大模型直接处理并输出文本和音频,完全不经过 | 追求极致低延迟的纯闲聊场景,如 AI 陪伴、虚拟人互动。 | 统一按 token 计费,由豆包语音收取,具体请参见计费概述 |
混合编排 | 每一次语音对话都会同时发送给由 | 需要兼顾闲聊的低延迟和复杂业务处理能力的场景,如智能客服、AI 游戏 NPC。 | 两部分费用:
|
详细参数说明,请参见 StartVoiceChat;也可参见以下配置示例完成配置。
核心配置
S2SConfig.OutputMode:设置为 0。S2SConfig.ProviderParams.app:填入你在准备工作中获取的 APP ID 和 Access Token。SubtitleConfig.SubtitleMode:若需接收字幕,该字段需设置为 1。请求示例
{ "Config": { "S2SConfig": { "Provider": "volcano", "OutputMode": 0, "ProviderParams": { "app": { "appid": "你的_s2s_appid", "token": "你的_s2s_token" }, "dialog": { "extra": { "model": "1.2.1.0" // 可根据需求选择模型版本 } } } }, "SubtitleConfig": { "SubtitleMode": 1 // 启用字幕时,必须设为 1(不对齐时间戳) } } }
在实现基础功能后,你可以通过配置 S2SConfig.ProviderParams 对象,来深度定制 AI 的行为和声音。
详细参数说明,请参见 StartVoiceChat。
端到端模型分为 O 系列(精品音质)和 SC 系列(侧重角色扮演与克隆),通过 dialog.extra.model 来指定。默认为 O 版本(model 为 O)。
模型版本 | model 取值 | 特点 |
|---|---|---|
O2.0 版本 |
| 推荐。 支持精品音色,相较于 O 版本,整体能力升级,唱歌能力增强,支持音频级热修复。 |
O 版本 |
| 基础版本。 |
SC2.0 版本 |
| 推荐。 支持声音复刻。相较于 SC 版本,在角色演绎、角色控制、音色克隆能力都做了升级,支持音频级热修复。 |
SC 版本 |
| 基础版本,支持声音复刻。 |
让 AI 扮演特定人设(如历史人物、动漫角色)或使用特定口吻(如专业、幽默)交流。O 版本和 SC 版本,配置字段略有不同:
O 系列:通过字段 bot_name(名字)、system_role(身份背景)、speaking_style(说话口吻)。
"dialog": { "extra": { "model": "1.2.1.0" // O2.0版本,也可使用 O 版本 }, "bot_name": "豆包", "system_role": "你是一个专业的科技博主,说话幽默且犀利。", "speaking_style": "请使用轻松、富有感染力的口吻。" }
SC 系列(仅在使用自定义复刻音色时):通过字段 character_manifest(角色详述)。
使用官方预设的克隆音色时,无需设置
character_manifest。
"dialog": { "extra": { "model": "2.2.0.0" // SC2.0 版本,也可使用 SC 版本 }, "character_manifest": "这里传入你的角色描述" }, "tts": { "speaker": "S_12****", // 复刻后的音色 ID }
在 tts.speaker 中指定。
模型版本 | 音色 |
|---|---|
O 系列 | 精品音色。支持的音色:
|
SC 系列 | 克隆音色。
支持的官方克隆音色,请参见端到端实时语音大模型API文档-产品约束的第 6 点。 |
通过 asr.extra.end_smooth_window_ms 调整用户说话停顿后,系统判定为一句话结束的时长(单位:毫秒)。
"asr": { "extra": { "enable_custom_vad": true, "end_smooth_window_ms": 1200 // 停顿 1.2 秒即认为说话结束,越小响应越快 } }
若需让 AI 能够查询实时信息(如天气、新闻、股价),可启用火山融合信息搜索。什么是融合信息搜索?。
前置操作
配置示例
"dialog": { "extra": { "enable_volc_websearch": true, // 启用联网搜索 "volc_websearch_api_key": "your_websearch_agent_api_key", // 填入获取的融合信息搜索 API Key "volc_websearch_type": "web_summary", // web_summary-web 信息搜索总结版;web-web搜索版本 "volc_websearch_no_result_message": "哎呀,网络上好像没有找到相关信息呢。" // 无结果时的安抚语 } }