TensorFlow get_variable转PyTorch：逻辑理解与梯度更新疑问

阿华AIGC实验室

2026-5-7

TensorFlow转PyTorch字符嵌入层的问题解答

场景回顾

我目前正在尝试把一段TensorFlow字符嵌入的代码转换成PyTorch版本，以下是具体的代码对比：

TensorFlow原代码

tf.get_variable("char_embeddings", [len(data.char_dict), data.char_embedding_size]), char_index) 
# 输出形状: [num_sentences, max_sentence_length, max_word_length, emb]

转换后的PyTorch代码

class CharEmbeddings(nn.Module):
    def __init__(self, config, data):
        # 省略其他初始化代码
        self.embeddings = nn.init.xavier_uniform_(torch.empty(len(data.char_dict), data.char_embedding_size))
    def forward(self, char_index):
        # 输出形状: [num_sentences, max_sentence_length, max_word_length, emb]
        char_emb = self.embeddings[char_index]

我的初步理解

我对这段TensorFlow代码的逻辑有个初步判断：它应该是先初始化char_embeddings变量，然后通过类似gather的操作根据char_index获取对应的嵌入向量，之后会通过反向传播更新char_embeddings的值，这样下一次迭代就能使用更新后的嵌入了？

基于这个理解，我查到未指定初始化器时tf.get_variable默认使用glorot_uniform_initializer，这和PyTorch的xavier_uniform_是等价的。现在有几个疑问需要解答：

疑问1：我对TensorFlow代码的理解是否正确？

是的，你的理解完全正确。tf.get_variable会创建一个默认可训练的变量（trainable=True），初始化时用glorot_uniform_initializer（也就是Xavier均匀初始化）；通过索引操作（本质和tf.gather逻辑一致）获取对应字符的嵌入后，反向传播过程中这个变量会被自动计算梯度并更新，后续迭代就能使用更新后的嵌入值。

疑问2：上述PyTorch转换是否有效？

你的转换思路方向是对的，但存在关键问题：直接用nn.init.xavier_uniform_初始化的普通张量，即使手动设置requires_grad=True，也不会被PyTorch的模型视为可训练参数，导致无法参与梯度更新。另外，PyTorch中推荐用nn.Embedding层来处理嵌入逻辑，它更规范且能自动管理参数。

疑问3：原TF版本中char_embeddings是否会通过反向传播更新？PyTorch中self.embeddings能否实现同样的梯度更新？我已为embeddings张量添加requires_grad，但未观察到更新，该如何实现？

原TensorFlow版本中，tf.get_variable创建的变量默认trainable=True，所以一定会通过反向传播更新。
你在PyTorch中看不到更新的核心原因：手动创建的张量没有被注册为模型的可训练参数。即使设置了requires_grad=True，如果它不是nn.Parameter类型，优化器不会跟踪它的梯度。

两种正确的PyTorch实现方式

方式1：使用官方推荐的nn.Embedding层

这是最规范的实现，nn.Embedding会自动将嵌入矩阵注册为可训练参数：

class CharEmbeddings(nn.Module):
    def __init__(self, config, data):
        super().__init__()
        vocab_size = len(data.char_dict)
        embed_dim = data.char_embedding_size
        # 初始化Embedding层，手动替换默认初始化为Xavier均匀分布
        self.embedding_layer = nn.Embedding(vocab_size, embed_dim)
        nn.init.xavier_uniform_(self.embedding_layer.weight)
    
    def forward(self, char_index):
        # 索引操作自动完成gather逻辑，输出形状符合要求
        char_emb = self.embedding_layer(char_index)
        return char_emb

方式2：手动创建张量并包装为nn.Parameter

如果坚持手动创建张量，需要用nn.Parameter包装，让模型识别为可训练参数：

class CharEmbeddings(nn.Module):
    def __init__(self, config, data):
        super().__init__()
        vocab_size = len(data.char_dict)
        embed_dim = data.char_embedding_size
        emb_tensor = torch.empty(vocab_size, embed_dim)
        nn.init.xavier_uniform_(emb_tensor)
        # 用nn.Parameter包装，自动设置requires_grad=True并注册为可训练参数
        self.embeddings = nn.Parameter(emb_tensor)
    
    def forward(self, char_index):
        char_emb = self.embeddings[char_index]
        return char_emb

采用以上任意一种方式后，优化器在更新模型参数时就会包含嵌入矩阵，你就能观察到它的梯度更新了。

内容的提问来源于stack exchange，提问作者Assem