如何将无空间关联的不同尺寸图像输入深度神经网络？

阿华AIGC实验室

2026-5-26

针对无空间关联异尺寸输入的双分支CNN及替代架构方案

我来给你梳理几个可行的方案，针对你这种无空间关联、尺寸差异极大的双输入图像生成任务，不管是改造two-stream CNN还是用其他架构都有办法落地。

一、改造Two-Stream CNN适配你的场景

传统two-stream CNN原本是针对空间对齐的输入（比如视频帧+对应光流图）设计的，但你的两张输入完全独立，所以核心思路是让两个分支各自提取全局/关键特征，再在高层特征向量层面融合，而非早期做空间对齐：

分支1（大尺寸图像5184x3456）：轻量化特征提取+全局信息压缩
大尺寸图像像素量极大，直接喂进CNN会瞬间爆显存，必须先做降维和特征浓缩：
- 先通过resize或者滑动窗口采样+特征聚合把图像降到合理尺寸（比如2048x1366），再用轻量化骨干网络（比如MobileNetV3、EfficientNet-Lite）提取特征，最后通过全局平均池化（GAP）或者Transformer的CLS token把特征压缩成固定维度的向量（比如512维），重点抓取全局语义信息（比如场景内容、整体风格）。
- 如果需要保留大图像的局部细节，可以采用金字塔特征提取，提取多尺度特征后再做全局融合，避免丢失关键细节。
分支2（小尺寸图像640x240）：精细特征提取+关键信息编码
小尺寸图像像素少，核心是抓住它独有的关键信息（比如特定参数、局部标识）：
- 用稍深一点的骨干网络（比如ResNet18）提取特征，同样通过GAP或者全连接层压缩成和分支1同维度的向量，确保后续融合时维度匹配。
- 如果小图像是结构化信息（比如仪表盘、文字），可以加入专门的注意力模块强化关键区域的特征提取。
特征融合与生成头
因为输入无空间关联，绝对不要做早期的空间拼接或通道拼接，而是在特征向量层面做融合：
- 可以用简单的元素相加、拼接后过全连接层，或者用注意力融合模块（比如把分支1的特征作为查询，分支2作为键值，动态加权融合）。
- 融合后的特征向量喂进生成头，比如用反卷积、转置卷积或者U-Net结构生成目标图像；如果是生成特定风格/内容的图像，也可以结合GAN的生成器结构。

二、更适合的替代架构：双输入编码器-解码器（Encoder-Decoder）+ 跨模态融合

如果觉得改造two-stream CNN不够灵活，试试这种更针对性的架构，完全适配无空间关联的异尺寸输入：

双编码器结构
给每个输入配备独立的编码器，最大化各自的特征提取效率：
- 大图像编码器：主打高效降维+全局语义提取，可以用带注意力的轻量化CNN（比如ConvNeXt Tiny），或者直接用Vision Transformer（ViT）的小尺寸变种，把大图像切成大尺寸patch（比如32x32）后编码，输出全局特征向量。
- 小图像编码器：主打精细特征编码，用传统CNN或者小尺寸ViT，输出和大图像编码器同维度的特征向量。
跨特征融合模块
因为两个输入无空间关联，用向量级融合是最合理的选择：
- 比如用门控融合单元：让一个分支的特征控制另一个分支特征的权重，公式可以参考：fused = gate(feat_large) * feat_small + (1 - gate(feat_large)) * feat_large，其中门控函数可以用一个小型全连接网络实现。
- 或者用Transformer融合层：把两个特征向量作为输入序列，通过自注意力机制捕捉它们之间的语义关联（即使无空间关联，语义上可能存在联系），输出融合后的特征序列。
解码器生成图像
融合后的特征可以先映射到生成器的潜在空间，再用渐进式生成器（比如Progressive GAN）或者U-Net风格的解码器逐步上采样到目标图像尺寸；如果生成任务是特定领域（比如图像修复、风格迁移），可以针对性调整解码器结构。

三、关键注意事项

显存优化：大尺寸图像一定要先降维，或者采用混合精度训练、梯度累积策略；如果用ViT，尽量用大patch size的变种减少token数量，避免显存过载。
任务导向的特征权重：如果其中一张输入对生成结果影响更大（比如大图像是内容主体，小图像是风格参考），可以在融合时加入可学习的权重参数，动态调整两个分支的贡献占比。
数据增强：针对大图像，可以用随机裁剪、缩放增强；小图像可以用随机翻转、颜色抖动，确保模型的泛化性。

内容的提问来源于stack exchange，提问作者firefly