You need to enable JavaScript to run this app.
导航
产品简介
最近更新时间:2025.06.12 18:58:38首次发布时间:2025.06.11 14:25:20
我的收藏
有用
有用
无用
无用

模型介绍及优势

产品定位:超拟人、低时延的实时语音交互模型
豆包端到端实时语音大模可提供更加拟人,更低时延的语音对话效果,主要实现语音对话交互功能。

  1. 超拟人感:语气、用语、思考方式等拟人感大幅提升,根据用户情绪和语境,给到最恰当的高情商回复,类真人的时延回复,能随时打断与主动搭话。
  2. 指令遵循:能通过自然语言进行高级指令控制,包括情绪、方言、语速、风格、声线模仿等多种能力。
  3. 能唱会演:不仅能唱不同风格的歌曲,还能模仿各类角色,生动演绎多种故事风格,氛围感和沉浸感拉满。

豆包实时语音模型 VS.传统级联对话链路:

豆包实时语音模型

传统级联对话链路

领先的模型架构

采用端到端Speech 2 Speech框架:
依托于全新的 Speech2Speech 端到端框架,使用原生方法深度融合语音与文本模态,模型拥有丰富表现力和极大拓展潜力,呈现出接近真人的语音表达水准,在语音指令控制的泛化理解和演绎生成方面,显著突破原有边界

系统采用级联模式实现(ASR→LLM→TTS):
即通过ASR将用户输入的语音问题转写成文本,再将转写的文本送入LLM生成对话文本回复,最后将LLM回复文本通过TTS转成语音回复发送出来

超自然对话效果

  1. 更接近真人在语音聊天中的对话口语习惯和语音表现力
  2. 情感空间更大,对情感的适时表达有模型自己的理解
  3. 模型会根据对语义的理解进行声音的氛围渲染和声线切换
  4. 对话节奏丝滑,支持更自然的打断
  1. 对用户的情绪以及语音中副语言信息的理解有限
  2. 模型生成的语音表现力和情绪上限未达到真人水平

复杂指令遵循

通过自然语言要求模型进行音量、情绪、声线等等调整,可以响应非常多的指令,且具有涌现能力

较难实现用户的深度声音控制和演绎指令

超低时延

超低时延,类真人交互节奏

难以实现超低延迟,对话时延感受明显

更丰富能力

比如英语口语识别、唱歌、方言/口音理解及表达等

——

适用场景

  • 情感陪聊(APP/硬件):智商情商双在线,在超自然、超低时延的交互基础上,可提供对用户深度共情与情感承接,对用户的各种情感诉求,表达鼓励、关心、遗憾等共情能力,成为您的聊天密友;
  • 儿童/老人陪伴(APP/硬件):具有较强的方言识别能力,可应对全国主流方言对话,让老人/儿童轻松对话;支持悄悄话、唱歌、风格模仿、讲故事等多种表达风格,成为儿童的好玩伴,老人的好伙伴;
  • 语音助手:高智商,有感情,确保多模态语音对话数据兼具语义正确性与表现力的自然性。可以像电影《钢铁侠》中贾维斯、《Her》中 Samantha 那样的伙伴,作为手机、座舱、智能穿戴设备等语音助手,成为用户贴心高效的好帮手;
  • 智能语音客服:用于智能客服或智能外呼场景,可以有更类真人客服的表现,实现产品售卖推销、用户关怀回访、客户问题解答、用户情绪安抚等多种场景,让AI处理更加复杂的场景,为人工坐席提供更有利的辅助;