You need to enable JavaScript to run this app.
视频点播

视频点播

复制全文
视频 AI 应用
人声背景音分离
复制全文
人声背景音分离

视频点播人声背景音分离(也称为“音频分离”或“音伴分离”)功能采用深度学习算法,能够精准地处理您输入的音视频文件,然后输出两个独立的音频文件:纯净的人声干声和完整的背景伴奏。该功能适用于卡拉 OK 伴奏制作、嘈杂环境下的人声增强、以及视频二次创作中音乐替换等场景。

本文将指导您如何通过调用视频点播 OpenAPI,实现人声和背景音的分离。

功能介绍

人声背景音分离功能基于先进的音频处理算法(如深度学习、频谱分析等)技术,通过对音频信号进行多维度分析,识别并捕捉人声与背景音在频谱、时域、音色等方面的差异,利用智能算法模型对两者进行分离。分离过程中,能够最大程度地保留人声和背景音各自的完整性和音质,确保分离后的人声干声清晰可辨,背景音自然流畅,为后续的音视频处理和应用提供高质量的音频素材。

适用场景

  • 人声凸显优化:对于来源复杂的视频,如手机拍摄的生活记录、现场录制的讲座、非专业播客录音等,通过人声背景音分离功能将人声单独分离后,可以定向对人声部分进行处理,如提升音量、优化音质、降低噪音等,显著提高音频中人声的清晰度。
  • 视频翻译领域的声音复刻:在视频翻译时,借助人声背景音分离功能,可将视频中的人声单独提取出来,进行语音复刻,使其在音色、语调等方面与原人声保持高度一致,再结合 TTS 技术将翻译后的文本转换为对应语言的语音。
  • 语音识别 ASR 优化:对音频进行人声提取后,将纯净的人声部分用于自动语音识别,能有效减少背景噪音等干扰因素对识别过程的影响,让 ASR 的整体准确率得到显著提升。
  • 视频剪辑与二次创作:在视频剪辑和二次创作中,分离后的人声和背景音可分别进行处理,例如调整视频中某段对话的音量,或更换视频的背景音乐,使二次创作更加灵活高效。

能力与限制

项目

说明

输入文件格式

  • 视频格式:MP4、FLV、RM、RMVB、MPEG、MOV、AVI、MPEGTS、WMV、3GP、TS、MPG、WEBM、MKV、WM、MP4V、M4V、F4V、MXF 等主流视频格式
  • 音频格式:MP3、M4A、WAV、ACC、WMA、AMR、OGG、FLAC 等主流音频格式

输出产物

  • 人声音频文件(AAC 格式)
  • 背景音频文件(AAC 格式)

计费说明

使用人声背景音分离会产生以下费用:

  • 人声分离费用:按输入片源时长计费,价格为 0.07 元/分钟
  • 媒资存储费用:您上传用于处理的原始音视频文件,以及分离后生成的音频文件,都需要存储在视频点播空间中。这将根据存储量和存储时长产生费用,详见媒资存储计费
  • 视频分发费用:如果您通过视频点播的 CDN 分发加速功能来播放或下载生成的音频,将产生分发加速费用,详见分发加速计费

前提条件

实现流程

步骤 1:提交人声背景音分离任务

调用 StartExecution 接口提交人声背景音分离任务。以下为任务的核心参数配置。关于完整的请求参数列表和详细说明,请参见 StartExecution API 参考。关键请求参数:

  • Input: 指定输入文件。
    • Type: 设置为 VidDirectUrl
    • Vid / DirectUrl: 提供待处理文件的 Vid 或 FileName 信息。
  • Operation.Task: 定义要执行的任务。
    • Type: 必须设置为 AudioExtract,表示执行人声背景音分离任务。
    • AudioExtract.Voice: 必须设置为 true,表示提取人声。

请求示例:

POST https://vod.volcengineapi.com?Action=StartExecution&Version=2025-01-01
{
  "Input": {
    "Type": "Vid",
    "Vid": "v0d25cg10001***jcvqljht8dj05mde0"
  },
  "Operation": {
    "Type": "Task",
    "Task": {
      "Type": "AudioExtract",
      "AudioExtract": {
        "Voice": true
      }
    }
  }
}

成功提交后,系统将返回任务的唯一标识 RunId。请务必保存好此 ID,以便后续查询结果。

步骤 2:获取任务结果

任务提交后,系统将在后台进行异步处理。您可以通过以下任一方式获取结果:

  • 主动查询:调用 GetExecution 接口,并传入步骤 1 中获取的 RunId 来获取任务结果。

    GET https://vod.volcengineapi.com?Action=GetExecution&Version=2025-01-01&RunId=hb:ebd05bee1f3873***f7316c742b5f
    
  • 事件通知

    1. 参考事件通知概述文档,配置一个用于接收回调的服务地址。在订阅事件时,勾选媒体处理任务执行完成事件
    2. 当任务完成时,您的服务将收到一个 EventTypeExecutionComplete 的 HTTP POST 请求。

当返回结果中的 Status 字段值为 Success 时,表示任务已成功完成。您可以在 Output.Task.AudioExtract 字段中找到分离后的产物信息。以下为产物相关的核心返回字段。

字段

类型

描述

Duration

Float

输入文件的时长,单位为秒。

Voice

Object

人声音频文件的信息。

Voice.FileName

String

人声音频文件的存储路径。

Voice.Size

String

人声音频文件的大小,单位为字节。

Background

Object

背景音频文件的信息。

Background.FileName

String

背景音频文件的存储路径。

Background.Size

String

背景音频文件的大小,单位为字节。

以下是获取成功的人声背景音分离结果的示例:

{
  "ResponseMetadata": {
    // ... 省略通用元数据
  },
  "Result": {
    "RunId": "hb:ebd05bee1f3873***f7316c742b5f",
    "Status": "Success",
    // ... 省略任务元数据、输入、操作等信息
    "Output": {
      "Type": "Task",
      "Task": {
        "Type": "AudioExtract",
        "AudioExtract": {
          "Duration": 152.085,
          "Voice": {
            "Size": "2519064",
            "FileName": "speech.aac"
          },
          "Background": {
            "Size": "2845721",
            "FileName": "background.aac"
          }
        }
      }
    }
  }
}

步骤 3:基于 FileName 获取音频 URL

步骤 2:获取任务结果中,您已经获取到了输出音频文件的 FileName。接下来,您需要将其转换为公网可访问的 URL,以便于播放或下载。

说明

前提条件:在获取文件的公网 URL 之前,您必须为产物所在的点播空间添加并配置一个加速域名。所有 URL 都将基于此域名生成。

一个基础的访问 URL 由以下部分组成:[Protocol]://[PlaybackDomain]/[FileName]

  • [Protocol]:通常为 httpshttp。取决于您是否配置 SSL 证书
  • [PlaybackDomain]:您在点播控制台配置的加速域名。
  • [FileName]:您从 GetExecution 结果中获取的产物 FileName

拼接示例:假设您的加速域名为 play.example.com,获取到的人声文件 FileNamespeech.aac,那么拼接后的 URL 为:https://play.example.com/speech.aac

说明

为了防止资源被盗链,视频点播支持 URL 鉴权功能。如果您在视频点播控制台开启了 URL 鉴权,仅拼接基础 URL 还无法直接访问,您必须为其附加一个动态计算的鉴权参数(如 auth_key)。

  • 如何生成鉴权参数:URL 鉴权需要遵循一套严格的签名算法。详细的计算方法和不同语言的实现示例,请参见 URL 鉴权概述
  • 附带鉴权的完整 URL 示例https://play.example.com/speech.aac?auth_key=1732529334-0-0-a1b2c3d4e5f6...
最近更新时间:2026.01.20 12:06:19
这个页面对您有帮助吗?
有用
有用
无用
无用