You need to enable JavaScript to run this app.
实时音视频

实时音视频

复制全文
进阶功能
接入端到端实时语音大模型
复制全文
接入端到端实时语音大模型

除了标准的 ASR+LLM+TTS 模块化方案,还支持接入“豆包端到端实时语音大模型”。该模型将“听(ASR)、想(LLM)、说(TTS)”三大环节集成于一体,实现从语音输入到语音输出的全链路处理,能够显著降低模块间的处理与传输延迟,为用户带来更流畅、更接近真人的实时对话体验。

更多端到端实时语音大模型介绍,请参见 产品简介

使用限制
  • 仅实时对话式 AI(即旧版接口 StartVoiceChat)支持该功能,新版 AI 音视频互动方案不支持。
  • 启用豆包端到端实时语音大模型后,会对以下配置产生影响:
    • 对于 ASR、TTS、LLM 配置
      • 纯端到端模式下:无需配置 ASRConfigTTSConfigLLMConfig,系统会忽略这些配置。
      • 混合编排模式下:无需配置 ASRConfigTTSConfig,系统会忽略这些配置。
    • 对于字幕:不支持对齐时间戳,字幕不包含精确到词的时间戳。在使用字幕功能时,必须将 SubtitleConfig.SubtitleMode 设置为 1(不对齐时间戳)。
    • 对于控制指令:通过 UpdateVoiceChat 接口发送的 ExternalPromptsForLLMExternalTextToLLM 指令不生效。

接入步骤

准备工作

获取开发凭证

  1. 开通服务:前往豆包语音控制台,开通 豆包端到端实时语音大模型 服务,并获取 APP IDAccess Token
  2. 可选(音色复刻):若需使用自定义音色,需在 声音复刻模型2.0 页面完成训练并获取 speaker_id
  3. 可选(联网搜索):若需 AI 具备实时查新闻/天气能力,需开通融合信息搜索并获取 API Key。具体操作,可参见开启联网搜索

确定工作模式

端到端实时语音大模型支持两种工作模式,分别适用于不同场景,计费方式也不同:

模式

描述

适用场景

ASR+TTS+LLM 计费

纯端到端

所有对话都由豆包端到端实时语音大模型直接处理并输出文本和音频,完全不经过 LLMConfig 中配置的大模型。

追求极致低延迟的纯闲聊场景,如 AI 陪伴、虚拟人互动。

统一按 token 计费,由豆包语音收取,具体请参见计费概述

混合编排

每一次语音对话都会同时发送给 LLMConfig 配置的大模型和端到端实时语音大模型。如果 LLMConfig 中的模型决策需要调用工具(Tool Calling),则系统采用该模型的输出;否则,采用端到端模型的输出。
LLMConfig 仅支持使用火山方舟大模型

需要兼顾闲聊的低延迟和复杂业务处理能力的场景,如智能客服、AI 游戏 NPC。

两部分费用:

  • 豆包端到端实时语音大模型产生的费用,具体请参见计费概述
  • LLM 费用:以实际使用的模型为准。

配置 StartVoiceChat

详细参数说明,请参见 StartVoiceChat;也可参见以下配置示例完成配置。

核心配置

  • S2SConfig.OutputMode:设置为 0
  • S2SConfig.ProviderParams.app:填入你在准备工作中获取的 APP IDAccess Token
  • SubtitleConfig.SubtitleMode:若需接收字幕,该字段需设置为 1

请求示例

{
    "Config": {
        "S2SConfig": {
            "Provider": "volcano",
            "OutputMode": 0,
            "ProviderParams": {
                "app": {
                    "appid": "你的_s2s_appid",
                    "token": "你的_s2s_token"
                },
                "dialog": {
                    "extra": {
                        "model": "1.2.1.0" // 可根据需求选择模型版本
                    }
                }
            }
        },
        "SubtitleConfig": {
            "SubtitleMode": 1 // 启用字幕时,必须设为 1(不对齐时间戳)
        }
    }
}

进阶配置

在实现基础功能后,你可以通过配置 S2SConfig.ProviderParams 对象,来深度定制 AI 的行为和声音。

详细参数说明,请参见 StartVoiceChat

选择模型版本

端到端模型分为 O 系列(精品音质)和 SC 系列(侧重角色扮演与克隆),通过 dialog.extra.model 来指定。默认为 O 版本(model 为 O)。

模型版本

model 取值

特点

O2.0 版本

1.2.1.0

推荐。 支持精品音色,相较于 O 版本,整体能力升级,唱歌能力增强,支持音频级热修复。

O 版本

O (默认值)

基础版本。

SC2.0 版本

2.2.0.0

推荐。 支持声音复刻。相较于 SC 版本,在角色演绎、角色控制、音色克隆能力都做了升级,支持音频级热修复。

SC 版本

SC

基础版本,支持声音复刻。

人设与对话风格定制

让 AI 扮演特定人设(如历史人物、动漫角色)或使用特定口吻(如专业、幽默)交流。O 版本和 SC 版本,配置字段略有不同:

  • O 系列:通过字段 bot_name(名字)、system_role(身份背景)、speaking_style(说话口吻)。

    "dialog": {
        "extra": {
          "model": "1.2.1.0" // O2.0版本,也可使用 O 版本
        },
        "bot_name": "豆包",
        "system_role": "你是一个专业的科技博主,说话幽默且犀利。",
        "speaking_style": "请使用轻松、富有感染力的口吻。"
    }
    
  • SC 系列(仅在使用自定义复刻音色时):通过字段 character_manifest(角色详述)。

    使用官方预设的克隆音色时,无需设置 character_manifest

    "dialog": {
        "extra": {
          "model": "2.2.0.0" // SC2.0 版本,也可使用 SC 版本
        },
        "character_manifest": "这里传入你的角色描述"
    },
    "tts": {
            "speaker": "S_12****", // 复刻后的音色 ID
            }  
    

设置 TTS 音色

tts.speaker 中指定。

模型版本

音色

O 系列

精品音色。支持的音色:

  • zh_female_vv_jupiter_bigtts:vv音色,活泼灵动的女声,有很强的分享欲
  • zh_female_xiaohe_jupiter_bigtts:xiaohe音色,甜美活泼的女声,有明显的台湾口音
  • zh_male_yunzhou_jupiter_bigtts:yunzhou音色,清爽沉稳的男声
  • zh_male_xiaotian_jupiter_bigtts:xiaotian音色,清爽磁性的男声

SC 系列

克隆音色。

  • SC 版本:使用 ICL_ 开头的官方音色或你复刻后的 S_ 开头 ID。
  • SC 2.0 版本:使用 saturn_ 开头的官方音色或你复刻后的 S_ 开头 ID。

支持的官方克隆音色,请参见端到端实时语音大模型API文档-产品约束的第 6 点。

调整 ASR 判停时间

通过 asr.extra.end_smooth_window_ms 调整用户说话停顿后,系统判定为一句话结束的时长(单位:毫秒)。

"asr": {
    "extra": {
        "enable_custom_vad": true,
        "end_smooth_window_ms": 1200 // 停顿 1.2 秒即认为说话结束,越小响应越快
    }
}

开启联网搜索

若需让 AI 能够查询实时信息(如天气、新闻、股价),可启用火山融合信息搜索。什么是融合信息搜索?
前置操作

  1. 前往融合信息搜索控制台,开通融合信息搜索服务。支持以下版本:
    • web搜索:满足多样的常规搜索需求,用户可获取所需的高质量内容。
    • web搜索总结版:在此基础上提供大模型内容总结,以获得提炼总结后的一段式内容,提升信息获取效率。
  2. 在左侧导航,选择系统管理 > API Key 管理,单击融合信息搜索页签,创建并获取对应 API Key。

配置示例

"dialog": {
    "extra": {
        "enable_volc_websearch": true, // 启用联网搜索
        "volc_websearch_api_key": "your_websearch_agent_api_key", // 填入获取的融合信息搜索 API Key
        "volc_websearch_type": "web_summary", // web_summary-web 信息搜索总结版;web-web搜索版本
        "volc_websearch_no_result_message": "哎呀,网络上好像没有找到相关信息呢。" // 无结果时的安抚语
    }
}
最近更新时间:2026.01.23 14:05:56
这个页面对您有帮助吗?
有用
有用
无用
无用