You need to enable JavaScript to run this app.
导航
使用声音复刻
最近更新时间:2025.12.16 11:59:58首次发布时间:2025.12.16 11:59:58
复制全文
我的收藏
有用
有用
无用
无用

声音复刻功能借助业界领先的在途学习(In-Context Learning, ICL)技术,仅需一段 10-30 秒的参考音频,即可快速、精准地克隆出目标音色,并将其应用于语音合成(TTS)任务。该功能能够让您的智能硬件发出特定人物的声音,打造个性化、高拟真度的语音交互体验。

背景信息

目前支持复刻的语种包括:中文、英语、日语、西班牙语、印尼语、葡萄牙语。
我们提供以下两种声音复刻版本,价格相同,您可以根据业务需求选择合适的版本。

功能版本

特性

推荐场景

声音复刻 1.0

秒级极速复刻,延迟低

对合成速度要求高,追求快速响应的场景。

声音复刻 2.0

复刻音色在合成时可灵活调控情感、语速等风格属性

对音色表现力要求高,希望生成更具个性化和情感化语音的场景。

说明

我们推荐您使用声音复刻 2.0 版本,以获得更自然、更富表现力的合成效果。

计费说明

声音复刻为付费功能,您需要根据希望复刻的音色数量购买声音复刻资源。每个购买的声音复刻资源支持最多 10 次训练,以帮助您达到满意的复刻效果。更多信息,请参考 硬件对话智能体计费

准备工作

在开始使用声音复刻功能前,我们建议您提前准备好一段用于复刻的参考音频。您也可以在操作时直接使用系统提供的录音功能。
一段高质量的参考音频是获得理想复刻效果的关键。请参考 参考音频要求 准备音频,并注意以下主要要求:

  • 音频格式:支持小于 3MB 的 WAV、MP3、M4A 格式文件,推荐使用 WAV 格式。
  • 音频时长:建议控制在 10-30 秒。
  • 音频质量:避免多人对话、明显杂音、噪音、混响等情况。

使用流程

您可以通过以下三个步骤,完成声音复刻并在智能体中应用复刻的音色:

步骤一:购买声音复刻资源

  1. 登录硬件对话智能体控制台
  2. 在左侧导航栏,选择 AI 服务购买与管理 > 购买
  3. License 和扩展资源购买 页面,选中 声音复刻 1.0声音复刻 2.0,然后在购物车中设置要购买的数量。
  4. 阅读并同意服务条款,单击 确认订单
    Image
  5. 按照页面提示完成支付。

完成购买后,您可以在 我的声音 > 复刻音色 页面查看已购买的声音复刻资源。

说明

每个声音复刻资源均有 1 年的有效期。在 复刻音色 页面,系统会提示您即将到期(有效期不足一个月)的资源数量,您可以通过续期或批量续期操作,按月延长资源的有效期。

Image

步骤二:训练并生成音色

  1. 在左侧导航栏,选择 我的声音 > 复刻音色

  2. 在 复刻音色 页面上方,选择音色版本:1.0 音色2.0 音色

  3. 声音列表,将光标悬停在一个声音上,单击浮现的 编辑 按钮。

  4. 为当前声音设置一个名称(例如 my_voice),然后按回车键保存。

  5. 将光标悬停在当前声音上,单击浮现的 复刻音色 按钮。
    Image

  6. 在弹出的对话框中,通过上传或录制的方式提供一段音频。系统将基于该音频复刻出目标音色。

    • 选择音频语种:默认选择 中文。如果您的参考音频是其他语种,请在下拉列表中选择相应的语种。
    • 提供音频文件:
      • 上传音频:从本地上传音频文件。
      • 开始录音:通过麦克风进行录音。

    Image

收到音频文件后,系统会自动分析音频中的语音特征,并生成一个与所提供音色一致的新音色。训练完成后,您可以单击声音卡片上的声音图标,试听复刻音色的效果。

步骤三:在智能体中应用复刻音色

完成音色训练后,您可以将复刻音色应用到智能体配置中,以实现自定义音色的语音合成。

  1. 进入智能体配置页面。您可以新建一个智能体,也可以编辑一个已有的智能体。

  2. 定位到 语音合成(TTS) 配置部分,完成以下设置:

    1. 选择 火山引擎声音复刻
    2. 选择合成声音 下拉列表中,选择一个已训练完成的音色。

    Image

  3. 单击 保存配置

完成以上配置后,当用户与关联了当前智能体的设备进行语音交互时,设备将使用您所选择的复刻音色进行应答。

更多信息

参考音频要求

参考音频的质量直接决定了最终复刻音色的效果。为了获得最佳效果,我们建议您在准备参考音频时遵循以下准则:

  • 时长与格式:
    • 音频时长建议控制在 10-30 秒。过长的音频会被系统自动截断,可能会无意中保留瑕疵部分,从而影响最终效果。
    • 推荐使用 wav 格式,以保证音频质量。
  • 录音环境与设备:
    • 请在安静的环境中录音,避免出现噪声、混响或背景音。
    • 建议使用单声道进行录制,以匹配模型训练所用的音频格式。
  • 发音与内容:
    • 请使用自然、平稳的语气进行朗读,避免过大的情绪波动。
    • 确保发音清晰,吐字标准。
    • 如果您的应用场景涉及中英文混合,建议参考音频中也包含中英文内容。
  • 音频后期处理:
    • 在上传前,请检查并剔除音频中的毛刺、吞音或口误等瑕疵。
    • 如有条件,可进行专业的降噪处理,以进一步提升人声的清晰度。