来实现空间声音指哪打哪的效果。提取出来视频画面中的各个声源之后,还要做更多的后处理,包括声音和画面的增益同步以及多音源的音量均衡,来保证音频相比原始的视频来说质量不降低。通过这三个部分的深度优化... 我们还可以提 **取出视频画面中的各个音源** (比如非人声的音源)。传统多模态技术很难提取出非人声的音源,因此在这种场景下,我们需要一种额外的阵列信息的辅助。下面的视频可以看到我们用基于阵列的硬件录制的视频...