Keras双向GRU解码器传递initial_state时模型结构缺失问题排查

Keras双向GRU解码器传递initial_state时模型结构缺失问题排查

阿华AIGC实验室

2026-5-15

问题分析与解决方法

这个问题的核心在于双向RNN的初始状态传递规则，以及模型构建时对输入层的正确关联，我来一步步拆解：

为什么修改解码器后编码器层消失了？

当你把解码器改成Bidirectional(GRU(...))并传递initial_state=encoder[1:]时，有两个关键问题：

双向GRU的initial_state需要明确对应前向和后向两个方向的状态，而你直接传encoder[1:]虽然包含了这两个状态，但模型构建时没有把src_input纳入最终的输入列表，导致Keras认为编码器部分不属于模型的计算图（因为没有被输出路径关联到）。
编码器是Bidirectional(GRU(...))，return_state=True时返回的是(output_sequence, forward_state, backward_state)，你需要把这两个状态分别传给解码器双向结构的两个GRU单元。

修复代码示例

下面是修正后的完整代码，能让model.summary()显示所有层：

from tensorflow.keras.layers import Input, Embedding, Bidirectional, GRU
from tensorflow.keras.models import Model

# 假设你已经定义了vocab_size
vocab_size = 1000

# 定义输入层，建议加上name方便查看
src_input = Input(shape=(5,), name="source_input")
ref_input = Input(shape=(5,), name="reference_input")

# 嵌入层
src_embedding = Embedding(output_dim=300, input_dim=vocab_size)(src_input)
ref_embedding = Embedding(output_dim=300, input_dim=vocab_size)(ref_input)

# 编码器：双向GRU，明确接收三个返回值
encoder_out, encoder_forward_state, encoder_backward_state = Bidirectional(
    GRU(2, return_sequences=True, return_state=True)
)(src_embedding)

# 解码器：双向GRU，传入对应方向的初始状态
decoder_out = Bidirectional(
    GRU(2, return_sequences=True)
)(ref_embedding, initial_state=[encoder_forward_state, encoder_backward_state])

# 关键：构建模型时必须包含两个输入，让Keras跟踪完整计算图
model = Model(inputs=[src_input, ref_input], outputs=decoder_out)
model.summary()

其他实现方式

如果你的任务对双向解码器的初始状态有特殊需求，还有两种可选方案：

手动拆分双向结构：不使用Bidirectional包装器，手动创建前向和后向GRU，分别传入编码器的对应状态，再拼接输出。这种方式灵活性更高，适合需要自定义双向逻辑的场景：

# 手动实现双向解码器
forward_decoder = GRU(2, return_sequences=True)(ref_embedding, initial_state=encoder_forward_state)
backward_decoder = GRU(2, return_sequences=True, go_backwards=True)(ref_embedding, initial_state=encoder_backward_state)
# 拼接两个方向的输出
decoder_out = concatenate([forward_decoder, backward_decoder], axis=-1)

状态融合：如果不需要严格对应双向状态，可以把编码器的前向和后向状态拼接或平均后，作为解码器双向结构的初始状态（但这种方式可能损失双向信息，需根据任务评估）：

from tensorflow.keras.layers import Concatenate

merged_state = Concatenate(axis=-1)([encoder_forward_state, encoder_backward_state])
# 注意：此时解码器的GRU单元数需要调整为4（因为拼接后维度是2+2）
decoder_out = Bidirectional(GRU(4, return_sequences=True))(ref_embedding, initial_state=[merged_state, merged_state])

内容的提问来源于stack exchange，提问作者nisargjhaveri

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

一键部署 OpenClaw

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

Seedance2.0 体验中心上线

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠