如何基于rtmplite服务器从RTMP直播流中逐帧提取画面？

如何基于rtmplite服务器从RTMP直播流中逐帧提取画面？

阿华AIGC实验室

2026-5-26

实现RTMP流逐帧画面提取的思路与代码示例

我来帮你梳理下基于rtmplite实现逐帧画面提取的方案，结合你提到的已有FLV写入函数的逻辑，我们可以复用RTMP消息解析的部分，把帧数据转换成可处理的图像格式。

核心思路

rtmplite的write函数处理的是RTMP消息，其中视频帧消息（通常是VideoMessage类型）包含了原始的H.264或AVC帧数据。我们需要：

识别视频帧类型（关键帧/非关键帧）
提取原始帧数据并解码成图像（比如OpenCV的Mat格式或PIL Image）
把解码后的帧暴露出来供后续业务处理

具体实现步骤

1. 先理解现有write函数的逻辑

先参考你提到的673-686行的FLV写入函数，它的核心是识别消息类型，按FLV tag格式写入文件。大致逻辑如下：

def write(self, message):
    if isinstance(message, VideoMessage):
        # 处理视频消息，封装成FLV Tag写入文件
        tag = FLVTag(FLVTagType.VIDEO, message.timestamp, message.body)
        self.file.write(tag.encode())
    elif isinstance(message, AudioMessage):
        # 处理音频消息逻辑
        ...

我们可以复用这个消息类型判断的逻辑，针对视频消息做帧提取处理。

2. 编写帧提取函数

建议单独拆分一个帧提取类（保持职责单一，不污染原有FLV写入逻辑），代码示例如下：

import cv2
import numpy as np
from rtmplite.messages import VideoMessage

class FrameExtractor:
    def __init__(self):
        self.decoder = None
        self.has_sequence_header = False
        self.frame_width = 0
        self.frame_height = 0

    def extract_frame(self, message):
        """从RTMP消息中提取并解码视频帧，返回OpenCV Mat对象（可按需转PIL Image）"""
        # 只处理视频消息
        if not isinstance(message, VideoMessage):
            return None
        
        body = message.body
        # 解析视频帧头部信息：帧类型、编码格式
        frame_type = (body[0] >> 4) & 0x0F
        codec_id = body[0] & 0x0F

        # 仅支持H.264/AVC编码（codec_id=7），其他编码可自行扩展
        if codec_id != 7:
            print("暂不处理非H.264编码的视频帧")
            return None
        
        avc_packet_type = body[1]
        # 处理序列头（包含SPS/PPS，关键帧必备）
        if avc_packet_type == 0:
            sps_pps_data = body[5:]
            self._init_decoder(sps_pps_data)
            self.has_sequence_header = True
            return None
        # 处理普通视频帧
        elif avc_packet_type == 1 and self.has_sequence_header:
            frame_raw_data = body[5:]
            # 将字节数据转为numpy数组，供OpenCV解码
            frame_np = np.frombuffer(frame_raw_data, dtype=np.uint8)
            # 喂入解码器并读取解码后的帧
            self.decoder.write(frame_np)
            ret, frame = self.decoder.read()
            if ret:
                # 如需转PIL Image，可添加以下代码
                # from PIL import Image
                # frame_pil = Image.fromarray(cv2.cvtColor(frame, cv2.COLOR_BGR2RGB))
                # return frame_pil
                return frame
            else:
                print("当前帧解码失败")
                return None

    def _init_decoder(self, sps_pps_data):
        # 利用GStreamer管道初始化H.264解码器，支持硬件加速
        pipeline = (
            "appsrc ! h264parse ! avdec_h264 ! videoconvert ! appsink"
        )
        self.decoder = cv2.VideoCapture(pipeline, cv2.CAP_GSTREAMER)
        # 先写入SPS/PPS初始化解码器上下文
        self.decoder.write(np.frombuffer(sps_pps_data, dtype=np.uint8))
        # 获取视频宽高
        self.frame_width = int(self.decoder.get(cv2.CAP_PROP_FRAME_WIDTH))
        self.frame_height = int(self.decoder.get(cv2.CAP_PROP_FRAME_HEIGHT))

3. 集成到rtmplite的流处理流程

你可以在rtmplite的消息接收回调中，调用帧提取函数并处理帧：

from rtmplite import RTMPServer

class CustomRTMPServer(RTMPServer):
    def __init__(self):
        super().__init__()
        self.frame_extractor = FrameExtractor()

    def on_message_received(self, client, message):
        # 保留原有FLV写入逻辑（如果需要）
        # self.write(message)
        # 提取并处理帧
        frame = self.frame_extractor.extract_frame(message)
        if frame is not None:
            # 在这里添加你的帧处理逻辑，比如人脸识别、图像分析等
            self._process_frame(frame)

    def _process_frame(self, frame):
        # 示例：实时显示提取的帧
        cv2.imshow("Extracted RTMP Frame", frame)
        cv2.waitKey(1)

注意事项

编码兼容性：示例仅针对H.264编码，若你的流是VP6等其他格式，需要调整解码器和解析逻辑
性能优化：实时流处理建议启用硬件解码（比如OpenCV配合GPU加速的GStreamer插件）
线程安全：多客户端场景下，要为每个客户端分配独立的FrameExtractor实例，避免解码冲突
资源释放：服务器关闭时记得销毁解码器、释放窗口等资源

内容的提问来源于stack exchange，提问作者Xuan Thuong Tran

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，最新支持 DeepSeek-V4 系列与 GLM-5.1，受邀下单叠加9.5折

ArkClaw

7×24在线专属智能伙伴

Seedance 2.0 全面开放 API

创作无限可能，一键生成电影级 AI 视频

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠