如何通过FFMPEG实时检测音视频不同步（延迟）情况

阿华AIGC实验室

2026-4-23

哥们，我完全懂你的需求——你要的不是事后用滤镜修复同步的方案，而是实时检测出音视频不同步的时间点，这样才能针对Google Meet/Zoom里个别参会者的异常情况动态调整同步，对吧？毕竟统一的静态滤镜没法解决这种因人而异的问题。

下面给你几个FFmpeg实操的思路，都是能实时跑的：

核心思路：对比音视频的PTS（显示时间戳）
正常情况下，音视频帧的PTS应该基本对齐（差值在几十毫秒内）。你可以用FFmpeg的滤镜实时输出两者的PTS，再用脚本监控差值：
用这条命令实时打印音视频的时间戳信息：
```
ffmpeg -i 你的流媒体输入地址 -filter_complex "[0:a]astats=metadata=1:reset=1,ametadata=print:key=lavfi.astats.pts:file=-[aout];[0:v]showinfo[vout]" -map "[aout]" -map "[vout]" -f null -
```
这条命令会把每帧音频的PTS和视频帧的PTS、DTS都输出到控制台。你可以写个简单的脚本（比如Python或者Bash），实时读取这些输出，计算音频PTS和对应视频PTS的差值——如果连续几帧的差值都超过你设定的阈值（比如200ms），就标记这个时间点为不同步。
进阶补充：结合音频能量检测（针对会议场景）
会议场景里，大部分不同步都出现在有人说话的时候。你可以给上面的命令加个ebur128滤镜检测音频能量，当检测到明显的说话音频时，再重点对比对应的视频PTS：
```
ffmpeg -i 你的流媒体输入地址 -filter_complex "[0:a]ebur128=metadata=1,ametadata=print:key=lavfi.ebur128.M:file=-;astats=metadata=1:reset=1,ametadata=print:key=lavfi.astats.pts:file=-[aout];[0:v]showinfo[vout]" -map "[aout]" -map "[vout]" -f null -
```
这样脚本可以只在音频能量超过阈值（有人说话）时做PTS对比，减少无效检测，更精准。
关于你提到的「为什么FFmpeg不自动同步」
你猜的没错，单纯靠PTS确实不是万能的——流媒体场景里，网络抖动、编码端的时间戳错误、丢包重传都可能导致PTS本身不准，没法靠FFmpeg内置的简单逻辑自动判断修复。所以必须结合自定义的检测逻辑，根据你的场景（比如会议）设定合理的阈值和触发条件，才能做到动态同步。