You need to enable JavaScript to run this app.
导航

SDK概览

最近更新时间2023.10.27 17:41:39

首次发布时间2022.09.26 17:46:17

本文档对声音复刻SDK支持的能力进行说明。

  • SDK名称:声音复刻SDK
  • SDK开发者:北京火山引擎科技有限公司
  • 主要功能:声音复刻SDK支持将用户录制的少量录音数据,复刻为定制化音色。适用于有声阅读、视频配音、车载助手、人机交互、在线教育、新闻播报等领域。

SDK接入

平台/语言集成指南调用流程
Android集成指南调用流程
iOS集成指南调用流程

其他相关信息

复刻术语说明
  • 用户子ID 在复刻场景下,每个用户子ID下至多只能有一个复刻音色。如果需要一个用户持有多个音色,需要业务方自行组织用户子ID格式,例如通过“用户ID + 序号/时间戳”来生成用户子ID,从而确保音色的唯一性。

  • 复刻任务ID 用于标识一组声音复刻任务。复刻音色需要用户完成对应的任务文本录制,可以提供多种类型任务给用户选择。例如:20句任务、50句任务、100句任务等。

复刻流程

声音复刻主要包含6个流程,对应声音复刻 SDK 6条指令:

  1. 获取声音复刻任务信息:获取声音复刻任务信息,例如20句任务对应的具体每句文本的内容,当前用户录音进度等。

  2. 录音环境检测:检测环境噪声,是否满足复刻要求。

  3. 录音上传:上传复刻任务中的一句录音。需按顺序进行,比如当前正在录制第三句文本,不允许回头重新录制第二句文本,第三句录制成功前也不允许提前录制第四句文本,但可以在第三句成功录制后第四句开始录制前,重复录制第三句从而覆盖之前成功的录音。

  4. 提交训练任务:在用户所有文本均完成录音后,触发用户音色训练。

  5. 查询用户训练任务状态:查询用户音色是否训练完成。训练完成后可以使用TTS SDK合成用户音色的音频。

  6. 删除用户训练数据:删除用户音色数据。删除后将不保证用户音色的可用性。

参考流程图如下:
alt

复刻音色合成

声音复刻的音色模型训练完成后,会在查询训练状态时得到对应用户子ID的音色值。该音色值可以在语音合成SDK中进行使用,从而合成相应的音频。
相较于预制音色的语音合成,使用复刻的音色进行合成时SDK的配置会稍有不同,具体请参考语音合成SDK Android接入流程 / iOS接入流程 中对使用复刻音色的说明。