声音复刻功能借助业界领先的在途学习(In-Context Learning, ICL)技术,仅需一段 10-30 秒的参考音频,即可快速、精准地克隆出目标音色,并将其应用于语音合成(TTS)任务。该功能能够让您的智能硬件发出特定人物的声音,打造个性化、高拟真度的语音交互体验。
目前支持复刻的语种包括:中文、英语、日语、西班牙语、印尼语、葡萄牙语。
我们提供以下两种声音复刻版本,价格相同,您可以根据业务需求选择合适的版本。
功能版本 | 特性 | 推荐场景 |
|---|---|---|
声音复刻 1.0 | 秒级极速复刻,延迟低 | 对合成速度要求高,追求快速响应的场景。 |
声音复刻 2.0 | 复刻音色在合成时可灵活调控情感、语速等风格属性 | 对音色表现力要求高,希望生成更具个性化和情感化语音的场景。 |
说明
我们推荐您使用声音复刻 2.0 版本,以获得更自然、更富表现力的合成效果。
声音复刻为付费功能,您需要根据希望复刻的音色数量购买声音复刻资源。每个购买的声音复刻资源支持最多 10 次训练,以帮助您达到满意的复刻效果。更多信息,请参考 硬件对话智能体计费。
在开始使用声音复刻功能前,我们建议您提前准备好一段用于复刻的参考音频。您也可以在操作时直接使用系统提供的录音功能。
一段高质量的参考音频是获得理想复刻效果的关键。请参考 参考音频要求 准备音频,并注意以下主要要求:
您可以通过以下三个步骤,完成声音复刻并在智能体中应用复刻的音色:
完成购买后,您可以在 我的声音 > 复刻音色 页面查看已购买的声音复刻资源。
说明
每个声音复刻资源均有 1 年的有效期。在 复刻音色 页面,系统会提示您即将到期(有效期不足一个月)的资源数量,您可以通过续期或批量续期操作,按月延长资源的有效期。
在左侧导航栏,选择 我的声音 > 复刻音色。
在 复刻音色 页面上方,选择音色版本:1.0 音色、2.0 音色。
在 声音列表,将光标悬停在一个声音上,单击浮现的 编辑 按钮。
为当前声音设置一个名称(例如 my_voice),然后按回车键保存。
将光标悬停在当前声音上,单击浮现的 复刻音色 按钮。
在弹出的对话框中,通过上传或录制的方式提供一段音频。系统将基于该音频复刻出目标音色。
收到音频文件后,系统会自动分析音频中的语音特征,并生成一个与所提供音色一致的新音色。训练完成后,您可以单击声音卡片上的声音图标,试听复刻音色的效果。
完成音色训练后,您可以将复刻音色应用到智能体配置中,以实现自定义音色的语音合成。
进入智能体配置页面。您可以新建一个智能体,也可以编辑一个已有的智能体。
定位到 语音合成(TTS) 配置部分,完成以下设置:
单击 保存配置。
完成以上配置后,当用户与关联了当前智能体的设备进行语音交互时,设备将使用您所选择的复刻音色进行应答。
参考音频的质量直接决定了最终复刻音色的效果。为了获得最佳效果,我们建议您在准备参考音频时遵循以下准则:
wav 格式,以保证音频质量。