模型介绍及优势
产品定位:超拟人、低时延的实时语音交互模型
豆包端到端实时语音大模可提供更加拟人,更低时延的语音对话效果,主要实现语音对话交互功能。
- 超拟人感:语气、用语、思考方式等拟人感大幅提升,根据用户情绪和语境,给到最恰当的高情商回复,类真人的时延回复,能随时打断与主动搭话。
- 指令遵循:能通过自然语言进行高级指令控制,包括情绪、方言、语速、风格、声线模仿等多种能力。
- 能唱会演:不仅能唱不同风格的歌曲,还能模仿各类角色,生动演绎多种故事风格,氛围感和沉浸感拉满。
豆包实时语音模型 VS.传统级联对话链路:
| 豆包实时语音模型 | 传统级联对话链路 |
---|
领先的模型架构 | 采用端到端Speech 2 Speech框架:
依托于全新的 Speech2Speech 端到端框架,使用原生方法深度融合语音与文本模态,模型拥有丰富表现力和极大拓展潜力,呈现出接近真人的语音表达水准,在语音指令控制的泛化理解和演绎生成方面,显著突破原有边界 | 系统采用级联模式实现(ASR→LLM→TTS):
即通过ASR将用户输入的语音问题转写成文本,再将转写的文本送入LLM生成对话文本回复,最后将LLM回复文本通过TTS转成语音回复发送出来 |
超自然对话效果 | - 更接近真人在语音聊天中的对话口语习惯和语音表现力
- 情感空间更大,对情感的适时表达有模型自己的理解
- 模型会根据对语义的理解进行声音的氛围渲染和声线切换
- 对话节奏丝滑,支持更自然的打断
| - 对用户的情绪以及语音中副语言信息的理解有限
- 模型生成的语音表现力和情绪上限未达到真人水平
|
复杂指令遵循 | 通过自然语言要求模型进行音量、情绪、声线等等调整,可以响应非常多的指令,且具有涌现能力 | 较难实现用户的深度声音控制和演绎指令 |
超低时延 | 超低时延,类真人交互节奏 | 难以实现超低延迟,对话时延感受明显 |
更丰富能力 | 比如英语口语识别、唱歌、方言/口音理解及表达等 | —— |
适用场景
- 情感陪聊(APP/硬件):智商情商双在线,在超自然、超低时延的交互基础上,可提供对用户深度共情与情感承接,对用户的各种情感诉求,表达鼓励、关心、遗憾等共情能力,成为您的聊天密友;
- 儿童/老人陪伴(APP/硬件):具有较强的方言识别能力,可应对全国主流方言对话,让老人/儿童轻松对话;支持悄悄话、唱歌、风格模仿、讲故事等多种表达风格,成为儿童的好玩伴,老人的好伙伴;
- 语音助手:高智商,有感情,确保多模态语音对话数据兼具语义正确性与表现力的自然性。可以像电影《钢铁侠》中贾维斯、《Her》中 Samantha 那样的伙伴,作为手机、座舱、智能穿戴设备等语音助手,成为用户贴心高效的好帮手;
- 智能语音客服:用于智能客服或智能外呼场景,可以有更类真人客服的表现,实现产品售卖推销、用户关怀回访、客户问题解答、用户情绪安抚等多种场景,让AI处理更加复杂的场景,为人工坐席提供更有利的辅助;