You need to enable JavaScript to run this app.

火山引擎RTC获得ICASSP 2023回声消除挑战赛冠军

最近更新时间2023.02.22 11:42:32

首次发布时间2023.02.22 11:42:32

在刚刚过去的ICASSP 2023声学回声消除(AEC)挑战赛中,火山引擎 RTC 团队联合西北工业大学音频语音与语言处理研究实验室,在通用回声消除(Non-personalized AEC)与特定说话人回声消除(Personalized AEC)两个赛道荣获冠军,并在双讲回声抑制、双讲近端语音保护、近端单讲背景噪声抑制、综合主观音频质量打分及最终语音识别准确率等多项指标上显著优于其他参赛队伍,达到国际领先水平。
其中“N”代表通用AEC,“Y”代表特定说话人AEC,绿色越深代表指标表现越好

ICASSP AEC挑战赛由国际音频顶级会议ICASSP和微软联合发起,旨在激发声学回声消除领域的研究热情,自第一届举办以来就吸引了亚马逊、腾讯、阿里巴巴、百度、快手、中科院、西工大等全球诸多知名企业和科研院所的参与。今年的ICASSP AEC也不例外,参赛队伍之多之强,使AEC成为ICASSP 2023各项赛事中竞争最为激烈的赛道之一。

ICASSP AEC挑战赛要求各参赛队伍对10,000多个来自于真实音频设备和真实环境下的录音数据进行AEC模型训练,并根据单讲/双讲等场景中获得的主观平均意见分以及语音识别率综合评判名次。火山引擎RTC通过对时延补偿模块、线性AEC模块、残留回声抑制处理模块进行优化,有效降低AEC模型的复杂度,提升了回声的抑制效果。同时,通过对训练数据进行增广,使AEC处理框架可以覆盖更多场景的回声处理问题。最终,团队在远端单讲回声抑制、近端单讲信号保护、近端单讲背景噪声抑制、双讲回声抑制、双讲近端语音保护等各子场景中均发挥出色,取得总分第一的成绩。
AEC处理框架

除此之外,今年ICASSP AEC挑战赛首次增加了特定说话人回声消除(Personalized AEC)赛道。相比于通用回声消除技术(Non-personalized AEC)在线上使用,特定说话人回声消除技术则更多出现在学术研究领域。随着回声消除应用的场景越来越广泛、越来越复杂,特定说话人回声消除也越来越受到人们的关注。延续在通用AEC领域的技术优势,火山引擎RTC在特定说话人回声消除赛道也荣获冠军。

传统AEC+深度学习双管齐下,解决复杂双讲场景中的回声消除难题

回声消除是音视频通话中最难的技术之一,而“双讲”则是回声消除应用中最复杂的场景。例如在视频会议、线上小班课等多人音视频通话场景中,如果近端和远端同时说话,远端的声音信号通过扬声器播放出来,又和近端的声音混合在一起被麦克风收录进去,远端就会听到回声,且听不清近端的语音内容。双讲场景回声消除比普通场景回声消除难度要大,因为既需要把远端的回声尽量消除干净,又不能矫枉过正,并保护近端的语音信号尽量不被损伤。

以下是火山引擎RTC在双讲场景的回声消除效果:

音频效果点击:火山引擎RTC获得ICASSP 2023回声消除挑战赛冠军

在双讲场景中,当回声的能量远远高于目标说话人的能量(比如扬声器离麦克风太近或其他原因)时,就会形成超低信回比场景(比如-20db以下)。下面这段样本中,女声为目标说话人语音,男生为非目标说话人语音(回声),目标语音几乎被非目标语音完全覆盖,回声消除挑战极大。

音频效果点击:火山引擎RTC获得ICASSP 2023回声消除挑战赛冠军

火山引擎RTC对AEC处理框架中的线性AEC模块和残留回声抑制处理模块进行了创新优化,在线性AEC模块中,保护近端语音不受损伤的同时,最大程度抑制回声中的线性成分,减轻后续残留回声抑制模型的负担;在残留回声抑制模块中,基于低延时深度学习网络来抑制回声中非线性残留成分,同时在特定说话人回声消除Track上额外引入说话人声纹信息,在去除回声的同时也抑制非目标说话人的语音。通过以上处理,火山引擎RTC在超低信回比双讲场景中也取得了优秀的回声消除效果。

持续为线上各类线上互动场景提供更清晰、更动听的音质体验

视频会议、在线教育、语聊房、游戏开黑、在线KTV、“一起看”、“一起玩”……随着线上互动场景变得越来越丰富,对RTC的技术挑战也越来越高,比如更饱满的音质、更清晰的画质、更流畅稳定的使用体验等。火山引擎RTC基于自研语音编码器NICO,结合深度学习的3A算法、AI降噪算法、语音检测算法等技术,不断提升音频的编码质量、抗丢包能力和处理性能,已成功为抖音世界杯“边看边聊”直播间、飞书视频会议、《Mobile Legends:Bang Bang(无尽对决)》等提供高质量的音频服务。

未来,火山引擎RTC还将不断探索前沿音频技术,并与业务场景高效结合,打造更具针对性的场景适配策略,持续为各类线上互动场景提供更清晰、更动听的音质体验。