如何用FFmpeg高效切割多段视频并解决音频同步问题

如何用FFmpeg高效切割多段视频并解决音频同步问题

阿华AIGC实验室

2026-5-29

解决FFmpeg多段切割合并时的音视频同步与缺失问题

我完全理解你处理大视频多段切割合并时的头疼——单独切割再合并效率太低，用filter_complex又要么丢音频要么音视频混乱，确实踩了不少坑。咱们一步步拆解问题，给出靠谱的解决方案：

先分析你之前命令的问题

无音频的命令：你只对视频流做了trim和concat操作，完全没处理音频流，输出自然没有音频，这是最直接的原因。
音视频混乱的命令：视频用的是start_frame/end_frame（帧数参数），但音频用的是start/end（秒数参数），两者的时间轴完全不对齐。比如如果视频帧率是30fps，10帧仅约0.33秒，但你给音频的start=10是10秒，音视频时间差巨大，必然同步混乱。

方案1：用时间戳统一处理（推荐，直观不易错）

不管视频还是音频，都用时间参数对齐，保证音视频时间轴完全匹配，同时切割后必须重置时间戳，避免concat时出现时间轴断裂。

ffmpeg -y -i video.mp4 \
-filter_complex "\
[0:v]trim=start=00:00:03.500:end=00:00:08.500,setpts=PTS-STARTPTS[v0];\
[0:a]atrim=start=00:00:03.500:end=00:00:08.500,asetpts=PTS-STARTPTS[a0];\
[0:v]trim=start=00:00:10.000:end=00:00:15.000,setpts=PTS-STARTPTS[v1];\
[0:a]atrim=start=00:00:10.000:end=00:00:15.000,asetpts=PTS-STARTPTS[a1];\
[v0][a0][v1][a1]concat=n=2:v=1:a=1[v][a]" \
-map "[v]" -map "[a]" output.mp4

关键注意点：

setpts=PTS-STARTPTS（视频）和asetpts=PTS-STARTPTS（音频）必须加，用来重置每个片段的时间戳为0开始，否则concat后会出现播放跳帧、卡顿问题。
视频和音频的start/end时间必须完全一致，确保音视频同步。

方案2：用帧数处理（需先确认视频帧率）

如果一定要用帧数切割，得先把帧数转换成对应的音频时间（时间=帧数÷帧率）。你可以先用ffprobe获取视频帧率：

ffprobe -v error -select_streams v:0 -show_entries stream=r_frame_rate -of default=noprint_wrappers=1:nokey=1 video.mp4

假设帧率是30fps，对应命令如下：

ffmpeg -y -i video.mp4 \
-filter_complex "\
[0:v]trim=start_frame=10:end_frame=20,setpts=PTS-STARTPTS[v0];\
[0:a]atrim=start=0.333:end=0.666,asetpts=PTS-STARTPTS[a0];\
[0:v]trim=start_frame=30:end_frame=40,setpts=PTS-STARTPTS[v1];\
[0:a]atrim=start=1.0:end=1.333,asetpts=PTS-STARTPTS[a1];\
[v0][a0][v1][a1]concat=n=2:v=1:a=1[v][a]" \
-map "[v]" -map "[a]" output.mp4

ffmpeg-python的正确实现

针对你提到的ffmpeg-python音频问题，核心是同时处理音视频流并重置时间戳，代码示例如下：

import ffmpeg

# 读取输入视频
input_stream = ffmpeg.input('video.mp4')

# 第一段切割：3.5秒到8.5秒
video_segment1 = input_stream.video.trim(start='00:00:03.500', end='00:00:08.500').setpts('PTS-STARTPTS')
audio_segment1 = input_stream.audio.atrim(start='00:00:03.500', end='00:00:08.500').asetpts('PTS-STARTPTS')

# 第二段切割：10秒到15秒
video_segment2 = input_stream.video.trim(start='00:00:10.000', end='00:00:15.000').setpts('PTS-STARTPTS')
audio_segment2 = input_stream.audio.atrim(start='00:00:10.000', end='00:00:15.000').asetpts('PTS-STARTPTS')

# 合并音视频片段，指定视频流和音频流数量
output_stream = ffmpeg.concat(video_segment1, audio_segment1, video_segment2, audio_segment2, v=1, a=1)

# 输出并覆盖已有文件
output_stream = output_stream.output('output.mp4').overwrite_output()

# 执行命令
ffmpeg.run(output_stream)

内容的提问来源于stack exchange，提问作者Mike Baum

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，最新支持 DeepSeek-V4 系列与 GLM-5.1，受邀下单叠加9.5折

ArkClaw

7×24在线专属智能伙伴

Seedance 2.0 全面开放 API

创作无限可能，一键生成电影级 AI 视频

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠