本文档对声音复刻SDK支持的能力进行说明。
平台/语言 | 集成指南 | 调用流程 |
---|---|---|
Android | 集成指南 | 调用流程 |
iOS | 集成指南 | 调用流程 |
其他相关信息:
用户子ID: 在复刻场景下,每个用户子ID下至多只能有一个复刻音色。如果需要一个用户持有多个音色,需要业务方自行组织用户子ID格式,例如通过“用户ID + 序号/时间戳”来生成用户子ID,从而确保音色的唯一性。
复刻任务ID: 用于标识一组声音复刻任务。复刻音色需要用户完成对应的任务文本录制,可以提供多种类型任务给用户选择。例如:20句任务、50句任务、100句任务等。
声音复刻主要包含6个流程,对应声音复刻 SDK 6条指令:
获取声音复刻任务信息:获取声音复刻任务信息,例如20句任务对应的具体每句文本的内容,当前用户录音进度等。
录音环境检测:检测环境噪声,是否满足复刻要求。
录音上传:上传复刻任务中的一句录音。需按顺序进行,比如当前正在录制第三句文本,不允许回头重新录制第二句文本,第三句录制成功前也不允许提前录制第四句文本,但可以在第三句成功录制后第四句开始录制前,重复录制第三句从而覆盖之前成功的录音。
提交训练任务:在用户所有文本均完成录音后,触发用户音色训练。
查询用户训练任务状态:查询用户音色是否训练完成。训练完成后可以使用TTS SDK合成用户音色的音频。
删除用户训练数据:删除用户音色数据。删除后将不保证用户音色的可用性。
参考流程图如下:
声音复刻的音色模型训练完成后,会在查询训练状态时得到对应用户子ID的音色值。该音色值可以在语音合成SDK中进行使用,从而合成相应的音频。
相较于预制音色的语音合成,使用复刻的音色进行合成时SDK的配置会稍有不同,具体请参考语音合成SDK Android接入流程 / iOS接入流程 中对使用复刻音色的说明。