卷积层权重初始化异常：参数莫名被修改的问题求助

阿华AIGC实验室

2026-5-15

问题排查：卷积层参数在reset_parameters()后被意外修改

首先，我得帮你理清当前的核心矛盾：你自定义修改了Conv类的reset_parameters()，让它给权重和bias做带非零值的均匀初始化，但之后调用手动实现的weights_init()时，却发现bias变成了0、权重范数也发生了变化。这说明在reset_parameters()执行完毕后，到weights_init()调用前的某个环节，你的卷积层参数被修改了。

下面结合PyTorch源码和常见开发场景，给你分析可能的原因和排查步骤：

一、先明确PyTorch官方源码的默认逻辑

可以先打消对PyTorch源码的疑虑：官方的nn.Conv2d（或其他Conv子类）源码里，除了reset_parameters()之外，没有其他默认会修改初始化参数的逻辑。Conv类的__init__方法最后只会调用一次self.reset_parameters()，之后不会有隐式的参数重置操作。问题肯定出在你的代码逻辑或使用的第三方工具上。

二、可能的原因及排查步骤

1. 模型`init`中存在手动修改参数的代码

检查你自定义模型的构造函数，有没有在定义卷积层之后，不小心加了把bias置零的操作？比如类似这样的代码：

class YourModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(3, 64, kernel_size=3)
        # 这行代码会直接覆盖reset_parameters的初始化结果
        self.conv1.bias.data.zero_()

2. 模型初始化到`weights_init()`之间有参数修改操作

在模型实例化后、调用weights_init()之前，插入一段代码打印卷积层的参数状态，定位参数被修改的时间点：

model = YourModel()
# 打印初始化后的参数状态
for m in model.modules():
    if isinstance(m, nn.Conv2d):
        print(f"刚初始化完，conv层bias范数：{m.bias.data.norm()}")
        print(f"刚初始化完，conv层权重范数：{m.weight.data.norm()}")
# 再调用你的weights_init
model.apply(weights_init)

如果这里打印的bias范数已经是0，说明问题出在模型实例化到weights_init之间的代码里；如果还是非零，那就要检查是否有其他隐性操作（比如设备迁移不会改参数值，可排除）影响了参数。

3. 第三方框架/库的默认初始化钩子

如果你使用了PyTorch Lightning、Hugging Face Transformers这类框架，它们可能会在模型初始化后自动执行自带的参数初始化逻辑，覆盖你自定义的reset_parameters()。比如PyTorch Lightning的某些默认配置会调用nn.init下的函数重置参数。

这种情况下，你需要查看框架文档，关闭默认的初始化逻辑，或者在框架完成初始化后再手动调用你的weights_init()。

4. 误调用了其他初始化函数

检查代码中是否调用了torch.nn.init下的其他函数，比如nn.init.constant_(m.bias, 0)、nn.init.zeros_(m.bias)之类的，这些会直接把bias置零，覆盖之前的初始化结果。

三、额外验证小技巧

你可以在reset_parameters()中加入调用栈打印，确认这个函数的调用时机和上下文，排查是否被多次调用或被第三方代码触发二次重置：

import traceback

def reset_parameters(self):
    n = self.in_channels
    for k in self.kernel_size:
        n *= k
    stdv = 1. / math.sqrt(n)
    print('reset w, stdv=',stdv)
    self.weight.data.uniform_(-stdv, stdv)
    if self.bias is not None:
        print('reset b, stdv=',stdv)
        self.bias.data.uniform_(-stdv, stdv)
    print('w:',self.weight.data.norm(), 'b:',self.bias.data.norm())
    # 打印调用栈，确认函数被调用的上下文
    print("调用reset_parameters的调用栈：")
    traceback.print_stack()

内容的提问来源于stack exchange，提问作者不爱吃猫的鱼