依托新一代大模型能力,火山语音模型能够根据上下文,智能预测文本的情绪、语调等信息,并生成超自然、高保真、个性化的语音,以满足不同用户的个性化需求。相较于传统语音合成技术,大语音模型在口语自然度、连贯性、拟人度、音质、韵律、气口、情感、语气词表达等各方面为客户带来更生动、更具情感表现力的听觉体验。
功能 | 大模型语音合成 | 传统语音合成 |
|---|---|---|
音色数量 | 325。音色列表--豆包语音-火山引擎 | 84。 音色列表--豆包语音-火山引擎 |
算法效果 | 自然度、音质、韵律、气口、情感、 | 合成效果流畅自然、发音清晰。 |
支持语种 |
|
|
SSML |
| |
接入方案 |
|
|
部署方案 | 公共云 | 公共云、离线sdk |
数据需求低 |
| 无跨语种迁移能力 |
延迟 |
|
|
合成音频采样率 |
| 支持24K、16k、8k,不支持48K |
语音输出音频格式 |
| 支持pcm/wav/mp3/opus格式 |
其他功能 |
| 支持音素级别时间戳、语速调整、音调调整、音高调整 |
应用场景 | 场景描述 |
|---|---|
聊天陪伴 | 用于豆包等同等类型聊天陪伴场景,通过文本预测控制音色的重音、停顿,赋予音色多样的语气,提供超自然拟真人的交互体验 |
有声书合成 | 在自然播报的基础上,实现笑声、哭腔等副语言现象建模能力,让AI演绎更加真实生动 |
音视频配音 | 打造多维场景音色矩阵,覆盖视频趣味剪辑、专业创作、广告营销、新闻播报、电商带货等,为各类场景提供适配性强、国民认知度高的音色 |
数字人播报 | 高拟人度表现,与数字人虚拟形象做好口型驱动配合 |
语音客服 | 用于智能客服场景,自然的TTS播报可以有类真人客服的表现 |