使用FFmpeg在视频指定时间添加3秒音频的技术求助

阿华AIGC实验室

2026-4-21

嗨，我来帮你搞定这个FFmpeg音频插入的问题！你的需求很清晰：给1分10秒的视频在第20秒位置叠加3秒音频，同时完全保留原视频的时长和画质，这事儿肯定能解决，咱们先理清楚问题，再给你靠谱的命令。

先说说你之前尝试的命令为啥可能出问题

你提到的两个命令都卡在了「音频参数不匹配」（编码、采样率、声道数不一致）这个点上，另外还有一些逻辑小问题：

第一个命令用了adelay+amix，但没统一两个音频的参数，FFmpeg对混合音频的参数一致性要求很高，大概率会报错；而且如果插入音频只有3秒，amix会默认取最长音频的时长，可能导致最终音频比原视频长，不符合你的需求。
第二个命令的concat思路没问题，但atrim的时间计算错了——原视频只有70秒，你写的atrim=10:100明显超出了原音频的时长，而且同样没处理参数匹配的问题，concat要求所有输入音频的参数完全一致，否则直接失败。

给你适配需求的正确命令

这个命令会自动统一音频参数，精准在第20秒叠加3秒音频，同时保证原视频丝毫不改：

ffmpeg -i input_video.mp4 -i input_audio.mp3 -filter_complex \
"[1:a]aformat=sample_rates=44100:channel_layouts=stereo,volume=1,adelay=20000|20000,apad=pad_dur=70000[a_ins]; \
 [0:a]aformat=sample_rates=44100:channel_layouts=stereo,volume=1[a_orig]; \
 [a_orig][a_ins]amix=inputs=2:duration=first[a]" \
-map 0:v -map "[a]" -c:v copy -c:a aac -b:a 192k output_video.mp4

命令细节解释，方便你调整

aformat=sample_rates=44100:channel_layouts=stereo：强制把两个音频的采样率（这里用44100，是通用值）和声道数（立体声）统一，彻底解决编码、频率差异的问题。如果你想匹配原视频的参数，可以先跑ffmpeg -i input_video.mp4查看原音频的采样率和声道数，替换这里的数值就行。
adelay=20000|20000：把插入的音频延迟20000毫秒（也就是20秒），如果插入的是单声道音频，只需要写一个值：adelay=20000。
apad=pad_dur=70000：把3秒的插入音频补全到70000毫秒（70秒，原视频的总时长），这样和原音频长度一致，混合后不会截断原音频。
amix=inputs=2:duration=first：混合两个音频时，强制用原视频音频的时长作为最终时长，保证和原视频完全同步。
-c:v copy：直接复制原视频流，完全不改变画质和时长，这是你需求的核心保障。
-c:a aac -b:a 192k：指定输出音频用AAC编码（兼容性最好），比特率192k是音质和体积的平衡值，你可以根据需要调整。

额外小提示

如果你觉得插入的音频太响/太轻，把volume=1改成volume=0.5（变小）或者volume=1.5（变大）就行，原音频和插入音频的音量可以分别调整。
要是你需要在多个时间点插入音频，只需要复制[1:a]...[a_ins]这一段，修改adelay的数值，然后在amix里增加输入数量就行（比如amix=inputs=3）。

备注：内容来源于stack exchange，提问作者Serdar Karacay