You need to enable JavaScript to run this app.

两分钟录音就可定制“神奇语音” ,火山引擎让你秒变语言通!

最近更新时间2022.12.06 17:35:22

首次发布时间2022.12.06 17:35:22

话说两分钟时长的音频究竟可以包含多少内容?经过语音方向的专业人士估算,基本等同于人们正常语速说出的20句话的内容量,而这样既能保留本尊音色,又能实现多风格多语种无缝切换的“神奇语音”,还要归功于火山引擎“声音黑科技”,即音色复刻技术。

长期以来火山引擎面向字节跳动内部各业务线、ToB行业以及创新场景,提供全球优质的语音AI技术能力以及卓越的全栈语音产品解决方案。这次推出的“音色复刻技术”,可以简单理解为“音色克隆”,是一种全自动、高效且轻量级的音色定制方案。

数据少成本低 便捷高效

不同于传统语音合成技术在模型训练环节对于数据的高门槛要求,火山引擎音色复刻技术对数据量的需求仅为传统方法的0.3%,且对音色获取的要求也更简单,无需专业播音员在录音棚长时间录制,普通人在相对安静的开放环境录制2分钟以上,即可达到音色空间建模的标准,生成专属音色的AI模型,便捷又高效。

多风格多语种 稳定质优

此外,火山引擎自研的Imitator模型结构还可以做到从音频中提取与说话人无关的隐层语音表征(SI Context Feature),例如更多的韵律以及口音信息等,并以此作为文本与音频的中间特征来进行辅助模型训练,让音色还原更加准确。

Imitator模型结构

据了解在预训练阶段,团队还采用了多风格、多语种、 多说话人的语音库进行平均模型训练,可以理解为在极少量的录音数据支持下,利用迁移学习自适应地创建音色还原度较高的语音合成模型,让合成音色在发音韵律和相似度上表现突出,该过程无需任何音频或者文本标注,不但节约人力成本,也降低了实操环节的系统复杂度。此外,流式合成的技术可以使音色复刻的首包延时小于500ms,适用于大部分个性化语音场景。整体来讲,不仅实现音色、风格以及语种的解耦,在发音稳定性以及音质上也达到业界领先水平。

全链路自动化 接入即用

该技术方案将通过火山引擎对外提供企业级服务,依托于优质的音色复刻SDK支持,其便捷的文本领读与录音功能,还有自带的环境检测以及字准检测,都能最大限度保障音频输入的质量。同时后端经过自动化的模型加载功能,在不重启服务的基础上,做到将对应的音色进行热加载,实现音频录制到音色体验的全链路闭环,仅使用一套SDK就可完成全部资源的使用。目前线上SDK已支持将中文录音训练为中文普通话和英文两个语种的模型。

“我们十分重视用户个人信息权益的保护,对于声音采集与训练,都会提前获取用户的充分授权,保证音色复刻过程的合法性以及声音使用的合规性,再应用到企业服务场景中。”火山语音团队表示。值得提及的是,目前该项技术已有核心专利加持。

总之想要制作个性化音频,只需单次录制2-10分钟并训练10-20分钟,输入文本后选择期望的风格和语种,就能快速合成并应用在新闻播报、智能客服等多个企业级服务场景中。如今火山引擎沉淀的语音识别和语音合成技术能力已成功应用到抖音、剪映、番茄小说等多款产品上,开放给外部企业,或许未来还将有更多场景通过其提供的音色复刻技术带来全新创造!