You need to enable JavaScript to run this app.

全新自研语音合成模型PortaSpeech 2,正式发布!

最近更新时间2023.10.16 15:27:38

首次发布时间2023.10.16 15:27:38

VTTS2.0 版本采用火山引擎全自研语音合成模型 PortaSpeech 2 (下文简称:PS2),由当下流行的基础模型架构 PortaSpeech原班人马打造。PS2 在第一代模型的基础上,着重对音质韵律多情感端云能力以及克隆等进行了大规模升级。经评测,PS2合成效果与真人录音相似度高达99.8%,其中离线合成不仅支持多情感多风格,品质也与在线合成呈现出高度一致性。
社区开源版 PortaSpeech

离线效果媲美在线品质

离线合成是指用户在无网状态下通过本地设备实时进行语音合成,具备实时性和隐私保护的优势。然而这种离线方式的品质往往很难与在线合成相媲美。

PS2 打破传统离线效果,具备与在线合成品质一样的多情感、多风格能力, 让用户在无网、弱网状态下也能够享受到极致的语音合成体验。作为业界首个支持多情感多风格的端云一体模型,PS2的端云兼具“三高”,即高品质、高一致和高性能。 PS2端侧能支持的情感、风格范围非常广泛,包括但不限于开心、愉悦、抱歉、撒娇等。

此外,基于端云一体的架构设计和生成式蒸馏训推策略,PS2的端云侧可同时兼具高质量和音质一致性,实现用户在端侧和云侧之间切换时几乎无感知;并且从各维度充分考虑了用户在不同场景下的需求,确保了端到云的效果在各个环节都能够保持高度一致。

为了最大程度提升PS2在资源利用率和性能方面的成绩,为用户带来更为稳定和高效的使用体验,火山引擎在训练阶段,针对不同模型特点采用 Int8 和 fp16 量化训练,有效降低模型占用空间并为将来在多种硬件设备上提供高速推理能力奠定基础;在推理阶段,支持流式推理以降低处理首批数据时的延迟,提升系统响应速度和实时性,为用户带来更流畅的体验。

性能评测如下表:

硬件

A76(骁龙8155 )
[CPU/GPU]

A73 (骁龙660)
[CPU/GPU]

A53(rk3562 )
[NPU]

适用设备车机系统手机、VR眼镜等点读笔等携带式设备
首包100ms/100ms100ms/100ms300ms
整体链路 rtf0.12/0.100.38/0.250.25

与真人相似度高达99.8%

除了多重技术方向的创新升级之外,新晋的PS2模型在云端应用中也展现出了高品质的语音合成能力以及效果。无论是与真人录音相比较,还是与其他语音合成模型进行对比,PS2在各类场景中均有惊艳表现。

保留声音细节的训推范式升级

「模型结构升级」模型结构方面,PS2引入了全新的中间声学表征、声学模型和声码器。 相较于从前,PS2根据语音数据本身的特点,使用了更加精细的声学特征HiFiSpec。可以极大保留训练数据的音高、音频等细节信息,提高模型在音质和韵律的生成上限,使生成的语音音质更加清亮、饱满和稳定。

具体来说,PS2的声学模型根据HiFiSpec数据本身的特点,设计了兼具长短时依赖的编解码器,引入了基于隐韵律表征预测的对抗生成式神经网络;同时使用蒙特卡洛采样对隐韵律表征分布进行高精度和高效近似,允许其最大程度还原HiFiSpec的真实分布和多样性,使合成的语音更接近自然状态下的人类声音。声码器方面,PS2优化了音频波形分布拟合目标,同时借助HiFiSpec的高表达性,重现极致音色和音质效果。



火山语音新一代 PortaSpeech 2 模型框架

训推范式方面,PS2推翻了以往语音合成模型预训练和微调的传统范式,转而采用新型自研教师-学生模型训练范式。 为了更好地拟合真实的语音分布,PS2的教师模型会自动根据不同业务场景特性,动态结合类似GPT的上下文学习(In-context learning)和微调学习(finetuning)方法,快速完成新音色、场景和情感的训练。

为了实现极致的模型性能和尺寸,PS2还进一步提出了一种名为“生成式蒸馏”的方案。 即完成训练的教师模型会将它学到的语音数据分布通过分布形状规整和长尾裁剪等方式,将最适用具体业务场景的语音分布传授给学生模型,从而允许学生模型在极小的模型参数下,生成的语音质量和韵律几乎与教师模型无异。此外,学生模型还可以完美继承教师模型的诸多能力,包括多语言和多情感等,可以胜任各种端上和端云混合场景。训练数据方面,除了内部录制的大量精品数据以外,PS2还使用万小时以上私有版权语音数据,借助高效先进的模型架构和训推范式,可以在仅有少量数据下实现表现力、情感和音色的迁移,满足绝大多数场景需求。
生成式“教师-学生”模型蒸馏

END

火山引擎成熟领先的语音技术已覆盖汽车、金融、有声阅读、视频配音等众多应用场景,助力多家行业头部企业实现AI语音能力的应用与拓展。未来,火山引擎还将不断探索前沿科技与业务场景的高效结合,持续为用户体验和业务增长注入创新势能,以实现更大的价值。