火山引擎-你的AI云

加载预训练RTDetrV2模型时参数尺寸不匹配的RuntimeError问题及训练状态确认求助

阿华AIGC实验室

2026-4-14

加载预训练RTDetrV2模型时参数尺寸不匹配的RuntimeError问题及训练状态确认求助

嗨，我来帮你梳理下遇到的问题，以及对应的解决办法和训练状态验证技巧：

一、参数尺寸不匹配RuntimeError的原因及解决办法

你遇到的这个错误核心原因很明确：
你使用的预训练CHECKPOINT是针对COCO数据集训练的（包含80个目标类别+1个背景类，所以分类头参数维度是80/81），而你的水表数字检测数据集只有11个类别，导致模型初始化时，分类相关的层参数维度和预训练权重不匹配。即使加了ignore_mismatched_sizes=True，也没覆盖到RTDetrV2的这些分类头层。

这里给你一个可靠的解决思路：只加载预训练模型中与你的模型匹配的参数，分类相关的层重新初始化，具体代码如下：

from transformers import AutoModelForObjectDetection, AutoConfig

# 1. 先加载自定义配置，指定你的类别映射
config = AutoConfig.from_pretrained(
    CHECKPOINT,
    id2label=id2label,
    label2id=label2id,
    anchor_image_size=None,
)

# 2. 用配置初始化模型（此时分类头是你的类别维度，无预训练权重）
model = AutoModelForObjectDetection.from_config(config)

# 3. 加载预训练模型的权重字典
pretrained_state_dict = AutoModelForObjectDetection.from_pretrained(CHECKPOINT).state_dict()

# 4. 过滤掉不匹配的分类相关参数
filtered_state_dict = {k: v for k, v in pretrained_state_dict.items() if not any([
    k.startswith("model.denoising_class_embed"),
    k.startswith("model.enc_score_head"),
    k.startswith("model.decoder.class_embed")
])}

# 5. 加载过滤后的权重，strict=False允许部分参数不加载
model.load_state_dict(filtered_state_dict, strict=False)

这个方法会跳过所有和分类预测相关的不匹配参数，只保留预训练的主干特征提取部分，既避免了报错，又能利用预训练的特征能力。

二、如何确认训练是否正常进行

你提到去掉id2label和label2id后没有报错，但不确定训练是否有效——其实这种情况训练大概率是无效的，因为模型还是用了预训练的80类分类头，和你的11类数据集不匹配。你可以通过以下几点来验证：

观察损失变化：训练启动后，查看训练损失（比如Trainer日志里的train_loss），正常情况下损失应该从较高值逐渐下降，而不是一直不变、飙升或者出现NaN。
检查模型输出维度：训练几个step后，取一个小批量的验证数据输入模型，执行outputs = model(**val_inputs)，然后查看outputs.logits.shape，正常应该是[batch_size, num_queries, 11]（11是你的类别数），如果是[..., 80]，说明模型还是用了默认的COCO类别数，训练是无效的。
可视化预测结果：训练1-2个epoch后，拿一张测试图片输入模型，用model.predict()得到预测结果，看是否能正确识别出水表数字的类别，这是最直观的验证方式。

备注：内容来源于stack exchange，提问作者user29558826