You need to enable JavaScript to run this app.
导航
音频技术
最近更新时间:2023.09.14 10:28:57首次发布时间:2021.08.23 16:15:12

音频技术(Speech, Audio & Music Intelligence,简称SAMI),主要致力于语音合成、音频理解与处理、音乐理解与编辑、音乐生成等技术的研究和应用。我们的优势是基于音乐和音频的多模态技术融合与创新,自研算法追求更优性能。我们的愿景是用AI赋能创作者,激发创作灵感,为用户提供全新的交互体验,发掘声音的无限可能。

目前已经上线的产品:

  • 文本朗读(TTS)
  • 节拍检测(BeatTracking)
  • 音乐转谱(MIDI)
  • 音乐标签(MusicTagging)
  • 音源分离(MusicSourceSeparate)
  • 音频降噪与增强(AudioNoiseReductionAndEnhancement)
  • 音效处理与变声 (SoundEffectProcessingAndVoiceChange)

文本朗读(TTS)

我们使用业界领先的语音合成(TTS)技术,将文本转化为自然流畅、情感丰富、高度拟人化的语音,支持多语种、多方言,现已具备几十种音色并支持个性化定制,满足各类场景对文本朗读的需求。

应用场景


应用场景

场景描述

客户案例

有声朗读

用于小说、新闻、广告等多种语音播报场景,风格多样,情感丰富

游戏场景

定制npc发音人,个性化语音包

虚拟人物

适配不同虚拟形象的特色声音,可输出时间戳匹配口型,效果更真实

智能创作

为音视频编辑的配音、转场提供多样化的精品音色,让创作更精彩

节拍检测(BeatTracking)

节拍检测能够自动分析获取音乐的节拍点,发现音乐的更多信息,辅助音乐资源利用。
目前支持在线OpenAPI调用以及离线SDK调用。

音乐转谱(MIDI)

音乐转谱将输入的音频进行分析,提取导出MIDI格式内容,包含音乐的音符、力度、时长等信息。

音乐标签(MusicTagging)

音乐标签通过人声、曲风、情绪、场景、语言、二级曲风等多个维度分析音乐,自动生成各维度下的标签。

音源分离(MusicSourceSeparate)

音源分离能够自动分析歌曲中的人声和伴奏,进行提取分离用于K歌、二次创作等多种玩法。

音频降噪与增强(AudioNoiseReductionAndEnhancement)

自研基于dsp算法和深度学习的回声消除、噪声抑制、声音增强,兼顾强降噪与高保真。针对不同场景,采取精准优化措施,尤其在音乐场景下,可以在保证人声和背景音乐无损伤的前提下,更好地抑制噪声。
目前可以通过接入音频技术SDK使用该功能。

音效处理与变声 (SoundEffectProcessingAndVoiceChange)

提供多种音频剪辑能力,包含
预置变声特效 (花栗鼠、小哥哥、麦霸、扩音器、机器人、没电了、小黄人、巨人)
混响美化音效模板 (KTV、大自然、回音、演唱会、录音棚、音乐厅、空灵),
支持音频检测 (音高检测、语音活性检测、音量检测、响度检测、延迟检测),
单点音效器(动态压缩器、合唱音效、失真音效、回声音效、滤波器、调整声像、限制器、混响、颤音、升降调、增益),以及变速不变调等
目前可以通过接入音频技术SDK使用该功能。