You need to enable JavaScript to run this app.
导航
人声背景音分离
最近更新时间:2025.11.06 14:39:24首次发布时间:2025.09.18 11:15:28
复制全文
我的收藏
有用
有用
无用
无用

人声背景音分离(也称为音频分离或音伴分离)是指将音视频中的人声与背景音(如环境噪音、BGM 音乐、其他杂音等)精准高效地分离开。本文将指导您如何通过调用视频点播 OpenAPI,实现异步为音频或视频文件分离人声和背景音的功能,帮助您轻松提取人声干声或获取纯净伴奏。

功能介绍

人声背景音分离功能基于先进的音频处理算法(如深度学习、频谱分析等)技术,通过对音频信号进行多维度分析,识别并捕捉人声与背景音在频谱、时域、音色等方面的差异,利用智能算法模型对两者进行分离。分离过程中,能够最大程度地保留人声和背景音各自的完整性和音质,确保分离后的人声干声清晰可辨,背景音自然流畅,为后续的音视频处理和应用提供高质量的音频素材。

适用场景

  • 人声凸显优化:对于来源复杂的视频,如手机拍摄的生活记录、现场录制的讲座、非专业播客录音等,通过人声背景音分离功能将人声单独分离后,可以定向对人声部分进行处理,如提升音量、优化音质、降低噪音等,显著提高音频中人声的清晰度。
  • 视频翻译领域的声音复刻:在视频翻译时,借助人声背景音分离功能,可将视频中的人声单独提取出来,进行语音复刻,使其在音色、语调等方面与原人声保持高度一致,再结合 TTS 技术将翻译后的文本转换为对应语言的语音。
  • 语音识别 ASR 优化:对音频进行人声提取后,将纯净的人声部分用于自动语音识别,能有效减少背景噪音等干扰因素对识别过程的影响,让 ASR 的整体准确率得到显著提升。
  • 视频剪辑与二次创作:在视频剪辑和二次创作中,分离后的人声和背景音可分别进行处理,例如调整视频中某段对话的音量,或更换视频的背景音乐,使二次创作更加灵活高效。

能力边界

  • 支持的输入格式:
    • 视频格式:MP4、FLV、RM、RMVB、MPEG、MOV、AVI、MPEGTS、WMV、3GP、TS、MPG、WEBM、MKV、WM、MP4V、M4V、F4V、MXF
    • 音频格式:MP3、M4A、WAV、ACC、WMA、AMR、OGG、FLAC
  • 支持的视频分辨率:240p~4k
  • 支持的输出格式
    • 人声音频 MP3 文件
    • 背景音音频 MP3 文件

计费说明

人声背景音分离按输入片源时长计费,价格为 0.07 元/分钟

前提条件

实现流程

步骤 1:提交人声背景音分离任务

调用 StartExecution 接口提交一个人声背景音分离任务。关注以下参数:

  • 设置 Input.Type 参数为 VidDirectUrl,指定输入文件的类型。
  • 设置 Input.VidInput.DirectUrl 参数,提供需要处理的视频或音频文件。
  • 设置 Operation.Type 参数为 Task,表示提交单任务。
  • 设置 Operation.Task.Type 参数为 AudioExtract,表示执行人声背景音分离任务。
  • 设置 Operation.Task.AudioExtract.Voice 参数为 true,表示提取人声。

详细参数说明请见 API 文档。以下为提交人声背景音分离任务的示例:

POST https://vod.volcengineapi.com?Action=StartExecution&Version=2025-01-01
{
  "Input": {
    "Type": "Vid",
    "Vid": "v0d25cg10001***jcvqljht8dj05mde0"
  },
  "Operation": {
    "Type": "Task",
    "Task": {
      "Type": "AudioExtract",
      "AudioExtract": {
        "Voice": true
      }
    }
  }
}

成功提交后,系统将返回任务的唯一标识 RunId。请务必保存好此 ID,以便后续查询结果。

步骤 2:获取人声背景音分离结果

任务提交后,系统会在后台进行异步处理。您可以间隔一段时间后,调用 GetExecution 接口,并传入步骤 1 中获取的 RunId 来获取任务结果。

GET https://vod.volcengineapi.com?Action=GetExecution&Version=2025-01-01&RunId=hb:ebd05bee1f3873***f7316c742b5f

当返回结果中的 Status 字段值为 Success 时,表示任务已成功完成。人声背景音分离结果具体说明如下:

  • Output.Task.AudioExtract.Duration: 视频时长,单位为秒。
  • Output.Task.AudioExtract.Voice: 人声文件信息,包含以下字段:
    • Size: 文件大小,单位为字节。
    • FileName: 文件路径。
    • Vid: 文件 Vid。
  • Output.Task.AudioExtract.Background: 背景音文件信息,包含与人声文件相同的字段结构。

以下是获取成功的人声背景音分离结果的示例:

{
  "ResponseMetadata": {
    "RequestId": "202307121530000102781EFD13EF****",
    "Action": "GetExecution",
    "Version": "2025-01-01",
    "Service": "vod",
    "Region": "cn-north-1"
  },
  "Result": {
    "RunId": "hb:ebd05bee1f3873***f7316c742b5f",
    "Status": "Success",
    "Meta": {
      "SpaceName": "example-space",
      "Trigger": "API",
      "CreateTime": "2025-01-23T10:05:54Z",
      "StartTime": "2025-01-23T10:05:55Z",
      "EndTime": "2025-01-23T10:08:17Z"
    },
    "Input": {
      "Type": "Vid",
      "Vid": "v0d25cg10001***jcvqljht8dj05mde0"
    },
    "Operation": {
      "Type": "Task",
      "Task": {
        "Type": "AudioExtract",
        "AudioExtract": {
          "Voice": true
        }
      }
    },
    "Output": {
      "Type": "Task",
      "Task": {
        "Type": "AudioExtract",
        "AudioExtract": {
          "Duration": 152.085,
          "Voice": {
            "Size": "2519064",
            "FileName": "9c78b9bbb841***586252231dadc9422_speech.mp3",
            "Vid": "v0299fg***4d103gsqljht10tatbreg"
          },
          "Background": {
            "Size": "2845721",
            "FileName": "9c78b9bbb841***586252231dadc9422_background.mp3",
            "Vid": "v0299fg***4d103gsqljht10tatbref"
          }
        }
      }
    }
  }
}

通过以上步骤,您已成功完成了视频的人声背景音分离处理,并获取了分离后的人声和背景音文件信息。您可以使用返回的 VidFileName 进行后续的文件访问和处理操作。