人声背景音分离(也称为音频分离或音伴分离)是指将音视频中的人声与背景音(如环境噪音、BGM 音乐、其他杂音等)精准高效地分离开。本文将指导您如何通过调用视频点播 OpenAPI,实现异步为音频或视频文件分离人声和背景音的功能,帮助您轻松提取人声干声或获取纯净伴奏。
人声背景音分离功能基于先进的音频处理算法(如深度学习、频谱分析等)技术,通过对音频信号进行多维度分析,识别并捕捉人声与背景音在频谱、时域、音色等方面的差异,利用智能算法模型对两者进行分离。分离过程中,能够最大程度地保留人声和背景音各自的完整性和音质,确保分离后的人声干声清晰可辨,背景音自然流畅,为后续的音视频处理和应用提供高质量的音频素材。
人声背景音分离按输入片源时长计费,价格为 0.07 元/分钟。
调用 StartExecution 接口提交一个人声背景音分离任务。关注以下参数:
Input.Type 参数为 Vid 或 DirectUrl,指定输入文件的类型。Input.Vid 或 Input.DirectUrl 参数,提供需要处理的视频或音频文件。Operation.Type 参数为 Task,表示提交单任务。Operation.Task.Type 参数为 AudioExtract,表示执行人声背景音分离任务。Operation.Task.AudioExtract.Voice 参数为 true,表示提取人声。详细参数说明请见 API 文档。以下为提交人声背景音分离任务的示例:
POST https://vod.volcengineapi.com?Action=StartExecution&Version=2025-01-01 { "Input": { "Type": "Vid", "Vid": "v0d25cg10001***jcvqljht8dj05mde0" }, "Operation": { "Type": "Task", "Task": { "Type": "AudioExtract", "AudioExtract": { "Voice": true } } } }
成功提交后,系统将返回任务的唯一标识 RunId。请务必保存好此 ID,以便后续查询结果。
任务提交后,系统会在后台进行异步处理。您可以间隔一段时间后,调用 GetExecution 接口,并传入步骤 1 中获取的 RunId 来获取任务结果。
GET https://vod.volcengineapi.com?Action=GetExecution&Version=2025-01-01&RunId=hb:ebd05bee1f3873***f7316c742b5f
当返回结果中的 Status 字段值为 Success 时,表示任务已成功完成。人声背景音分离结果具体说明如下:
Output.Task.AudioExtract.Duration: 视频时长,单位为秒。Output.Task.AudioExtract.Voice: 人声文件信息,包含以下字段:
Size: 文件大小,单位为字节。FileName: 文件路径。Vid: 文件 Vid。Output.Task.AudioExtract.Background: 背景音文件信息,包含与人声文件相同的字段结构。以下是获取成功的人声背景音分离结果的示例:
{ "ResponseMetadata": { "RequestId": "202307121530000102781EFD13EF****", "Action": "GetExecution", "Version": "2025-01-01", "Service": "vod", "Region": "cn-north-1" }, "Result": { "RunId": "hb:ebd05bee1f3873***f7316c742b5f", "Status": "Success", "Meta": { "SpaceName": "example-space", "Trigger": "API", "CreateTime": "2025-01-23T10:05:54Z", "StartTime": "2025-01-23T10:05:55Z", "EndTime": "2025-01-23T10:08:17Z" }, "Input": { "Type": "Vid", "Vid": "v0d25cg10001***jcvqljht8dj05mde0" }, "Operation": { "Type": "Task", "Task": { "Type": "AudioExtract", "AudioExtract": { "Voice": true } } }, "Output": { "Type": "Task", "Task": { "Type": "AudioExtract", "AudioExtract": { "Duration": 152.085, "Voice": { "Size": "2519064", "FileName": "9c78b9bbb841***586252231dadc9422_speech.mp3", "Vid": "v0299fg***4d103gsqljht10tatbreg" }, "Background": { "Size": "2845721", "FileName": "9c78b9bbb841***586252231dadc9422_background.mp3", "Vid": "v0299fg***4d103gsqljht10tatbref" } } } } } }
通过以上步骤,您已成功完成了视频的人声背景音分离处理,并获取了分离后的人声和背景音文件信息。您可以使用返回的 Vid 或 FileName 进行后续的文件访问和处理操作。