SDK概览--语音技术-火山引擎

文档中心

导航

SDK概览

最近更新时间：2023.10.27 17:41:39首次发布时间：2022.09.26 17:46:17

本文档对声音复刻SDK支持的能力进行说明。

SDK名称：声音复刻SDK
SDK开发者：北京火山引擎科技有限公司
主要功能：声音复刻SDK支持将用户录制的少量录音数据，复刻为定制化音色。适用于有声阅读、视频配音、车载助手、人机交互、在线教育、新闻播报等领域。

SDK接入

平台/语言	集成指南	调用流程
Android	集成指南	调用流程
iOS	集成指南	调用流程

其他相关信息：

复刻术语说明

用户子ID： 在复刻场景下，每个用户子ID下至多只能有一个复刻音色。如果需要一个用户持有多个音色，需要业务方自行组织用户子ID格式，例如通过“用户ID + 序号/时间戳”来生成用户子ID，从而确保音色的唯一性。
复刻任务ID： 用于标识一组声音复刻任务。复刻音色需要用户完成对应的任务文本录制，可以提供多种类型任务给用户选择。例如：20句任务、50句任务、100句任务等。

复刻流程

声音复刻主要包含6个流程，对应声音复刻 SDK 6条指令：

获取声音复刻任务信息：获取声音复刻任务信息，例如20句任务对应的具体每句文本的内容，当前用户录音进度等。
录音环境检测：检测环境噪声，是否满足复刻要求。
录音上传：上传复刻任务中的一句录音。需按顺序进行，比如当前正在录制第三句文本，不允许回头重新录制第二句文本，第三句录制成功前也不允许提前录制第四句文本，但可以在第三句成功录制后第四句开始录制前，重复录制第三句从而覆盖之前成功的录音。
提交训练任务：在用户所有文本均完成录音后，触发用户音色训练。
查询用户训练任务状态：查询用户音色是否训练完成。训练完成后可以使用TTS SDK合成用户音色的音频。
删除用户训练数据：删除用户音色数据。删除后将不保证用户音色的可用性。

参考流程图如下：
alt

复刻音色合成

声音复刻的音色模型训练完成后，会在查询训练状态时得到对应用户子ID的音色值。该音色值可以在语音合成SDK中进行使用，从而合成相应的音频。
相较于预制音色的语音合成，使用复刻的音色进行合成时SDK的配置会稍有不同，具体请参考语音合成SDK Android接入流程 / iOS接入流程中对使用复刻音色的说明。