You need to enable JavaScript to run this app.

“国检”结果来啦!火山引擎语音合成如何做到眼前一亮?

最近更新时间2022.12.06 17:35:23

首次发布时间2022.12.06 17:35:23

日前,火山引擎语音合成产品获得国家语音及图像识别产品质量检验检测中心(以下简称“AI国检中心”)颁发的语音合成增强级检验检测证书,在语音合成的基本要求以及扩展要求上已达AI国检中心的最高等级标准。本次评测从中文普通话、多方言、多语种、混合语种、多音色、个性化等维度进行评测,火山引擎提供了丰富的音库,经评测其音色MOS评分最高可达4.64分,处行业领先水平。官方证书展示

作为我国质检系统在人工智能领域的首家、也是唯一的国家级语音及图像产品质量检验检测机构,AI 国检中心一直致力于推动智能语音产业的健康发展。本次获得AI国检中心的权威认证,也充分表明了火山引擎语音合成技术能力已达到行业领先水平。

火山引擎语音能力源自字节跳动 AI Lab Speech & Audio 智能语音与音频团队。团队将长期服务字节跳动各业务线的前沿语音技术通过火山引擎开放,提供行业领先的AI语音技术能力以及卓越的全栈语音产品解决方案。目前火山引擎的语音识别和语音合成覆盖了多种语言和方言,涵盖音视频、有声阅读、语音交互、游戏、广告等多种应用场景,为抖音、剪映、飞书、番茄小说、Pico等业务提供了领先的语音能力。

本次参评的火山引擎语音合成产品使用了业内领先的生成式神经网络技术,主要由前端文本分析、声学模型、声码器三大模块构成,具体介绍如下:

  • 前端文本分析:主要负责可懂度,比如文本正则化(例如将数字转成年份读、号码读等)、字音转换(例如中文注音,尤其是解决多音字问题)以及分词和韵律预测等。目前主要依托多任务模型及神经网络正则化,可做到同时支持12种主流小语种,效果显著。
  • 声学模型:主要负责语言学特征到声学特征的建模。数据显示,火山引擎TTS的后端准确率可达到99.90%。与此同时,模型还能支持多情感多风格的精细化控制、不同音色之间的风格互相迁移,仅用单一语种的训练数据就能实现多语种合成效果。
  • 声码器模块:主要负责声学特征到音频信号的建模。如今火山引擎自研了基于对抗神经网络建模的声码器,其准确率可达99.95%,依托于轻量化的模型设计及工程优化,云端实时率可达百倍以上。

火山引擎语音合成产品听感真实自然、演绎生动、风格多样,同时细粒度还原了真人韵律,实现了笑声等多种副语言现象,给人带来沉浸式的听感体验。近期火山引擎发布了超自然对话语音合成技术即是如此,相较传统TTS将语气词、吸气声、犹豫时的停顿以及字音拖长等细节统统完美复现,而且只需常规音库1/4数据。 此外之前风靡网络的“音色复刻技术”,也出自于火山引擎。不同于传统语音合成技术对于数据的高门槛要求,火山引擎音色复刻技术对数据量的需求仅为传统方法的0.3%,普通人在相对安静的开放环境录制2分钟以上即可达到音色空间建模的标准,生成专属音色的AI模型,便捷又高效。

目前,火山引擎智能语音技术已经开放给诸多外部企业,覆盖汽车、金融、有声阅读、视频配音等众多应用场景,并助力如合众汽车、追书神器等多家行业头部企业实现AI 语音能力的应用与拓展。未来,火山引擎将不断探索前沿科技与业务场景的高效结合,持续为用户体验和业务增长注入创新势能,以实现更大价值。