AWS SageMaker部署LSTM模型后调用端点报“Could not find variable lstm

AWS SageMaker部署LSTM模型后调用端点报“Could not find variable lstm_model/dense/bias”错误求助

阿华AIGC实验室

2026-4-2

AWS SageMaker部署LSTM模型后调用端点报“Could not find variable lstm_model/dense/bias”错误求助

你遇到的这个错误本质是部署时加载的模型不完整或模型结构/变量与训练时不匹配，结合你的训练代码来看，主要有两个核心问题，咱们一步步拆解解决：

一、核心问题分析

1. 训练代码未将模型正确保存到SageMaker指定路径

你的代码里定义了args.model_dir = '/opt/ml/model'（SageMaker训练容器默认的模型输出路径），但没有任何代码将训练好的LSTM模型保存到这个目录。SageMaker部署时会从这个路径拉取模型文件，如果路径里没有完整的模型，就会出现变量找不到的错误。

2. 训练逻辑是为每个分组训练独立模型，与SageMaker单端点的默认部署逻辑冲突

你的代码通过groupby(id_cols)循环为每个(ExComm Leader, Sector, Cloud Vendor)分组训练单独的LSTM模型，但SageMaker单端点默认只能加载单个模型。这种多模型的训练逻辑直接部署会导致模型混乱，要么加载不到正确的模型，要么变量名称不匹配。

二、针对性解决步骤

方案1：调整为单模型训练逻辑（推荐，适合通用场景）

如果你的需求是训练一个能处理所有分组的通用LSTM模型，需要修改模型结构，将分组信息作为特征输入，同时修正模型保存逻辑：

1. 修改模型结构，加入分组特征编码

把ExComm Leader、Sector、Cloud Vendor这些分类特征做独热编码/嵌入，和时间序列特征一起输入模型（示例代码片段）：

# 对分类特征做独热编码
from sklearn.preprocessing import OneHotEncoder

# 合并所有训练数据的分组信息
all_groups = train_df[id_cols]
encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore')
encoder.fit(all_groups)

# 时间序列特征准备（保留你原有的序列生成逻辑）
# ... 生成X（时间序列序列） ...

# 合并时间序列特征和分组特征
group_features = encoder.transform(all_groups)
X_combined = [X, group_features[:len(X)]]

# 构建多输入LSTM模型
from tensorflow.keras.layers import Input, Concatenate
from tensorflow.keras.models import Model

# 时间序列输入分支
ts_input = Input(shape=(X.shape[1], X.shape[2]))
lstm_out = LSTM(50, activation='relu')(ts_input)

# 分组特征输入分支
group_input = Input(shape=(group_features.shape[1],))
group_out = Dense(16, activation='relu')(group_input)

# 合并两个分支的输出
combined = Concatenate()([lstm_out, group_out])
output = Dense(1)(combined)

model = Model(inputs=[ts_input, group_input], outputs=output)
model.compile(optimizer='adam', loss='mse')
model.fit(X_combined, y, epochs=100, verbose=0)

2. 保存模型与预处理工具到指定路径

在训练代码的main函数结尾，添加保存逻辑：

# 保存完整的SavedModel格式模型（SageMaker TensorFlow容器原生支持）
model.save(args.model_dir)

# 保存用到的Scaler和Encoder，预测时需要复用
joblib.dump(scaler, os.path.join(args.model_dir, 'scaler.joblib'))
joblib.dump(encoder, os.path.join(args.model_dir, 'encoder.joblib'))

方案2：保留多模型训练，使用SageMaker多模型端点

如果你确实需要为每个分组训练独立模型，可以用SageMaker的多模型端点功能，每个分组的模型保存为单独的SavedModel包，部署时加载所有模型：

1. 修改训练代码，将每个分组模型保存到S3的独立路径

# 在groupby循环内，训练完单个分组的模型后
group_key = f"{leader}_{sector}_{vendor}".replace(" ", "_")
# 本地临时保存模型
local_model_path = f"/tmp/{group_key}"
os.makedirs(local_model_path, exist_ok=True)
model.save(local_model_path)
joblib.dump(scaler, os.path.join(local_model_path, 'scaler.joblib'))

# 上传到S3的指定路径
s3 = boto3.client('s3')
s3.upload_file(
    Filename=f"{local_model_path}/saved_model.pb",
    Bucket=train_bucket,
    Key=f"models/{group_key}/saved_model.pb"
)
# 同时上传variables目录下的文件（简化写法，也可以用tar打包后上传）
for root, dirs, files in os.walk(f"{local_model_path}/variables"):
    for file in files:
        s3.upload_file(
            Filename=os.path.join(root, file),
            Bucket=train_bucket,
            Key=f"models/{group_key}/variables/{file}"
        )

2. 部署多模型端点

使用SageMaker SDK部署多模型端点，指定模型所在的S3前缀，预测时通过TargetModel参数指定要调用的模型：

from sagemaker.tensorflow import TensorFlowModel

model = TensorFlowModel(
    model_data='s3://your-bucket/models/',  # 所有分组模型的父前缀
    role='your-sagemaker-role',
    framework_version='2.15'  # 必须匹配训练时的TensorFlow版本
)

predictor = model.deploy(
    initial_instance_count=1,
    instance_type='ml.t2.medium',
    endpoint_name='multi-model-lstm-endpoint',
    multi_model=True  # 开启多模型端点
)

# 预测时指定目标模型
response = predictor.predict(
    data=your_input_time_series,
    target_model=f"{group_key}/"  # 对应分组的模型路径
)

三、部署后的推理脚本（必填）

不管用哪个方案，都需要编写自定义推理脚本（inference.py）来处理预处理/后处理逻辑，示例如下：

import tensorflow as tf
import joblib
import numpy as np
import os

def model_fn(model_dir):
    # 加载模型和预处理工具
    model = tf.keras.models.load_model(model_dir)
    scaler = joblib.load(os.path.join(model_dir, 'scaler.joblib'))
    # 尝试加载编码器（单模型方案需要）
    try:
        encoder = joblib.load(os.path.join(model_dir, 'encoder.joblib'))
        return (model, scaler, encoder)
    except FileNotFoundError:
        return (model, scaler)

def predict_fn(input_data, model_artifacts):
    # 解析输入数据（示例：输入为包含时间序列和分组信息的字典）
    ts_data = np.array(input_data['time_series'])
    model, scaler, *encoder = model_artifacts
    
    # 预处理时间序列
    scaled_ts = scaler.transform(ts_data.reshape(-1,1))
    # 单模型方案需要处理分组特征
    if encoder:
        group_info = input_data['group']
        encoded_group = encoder[0].transform([group_info])
        pred = model.predict([scaled_ts.reshape(1,3,1), encoded_group], verbose=0)
    else:
        pred = model.predict(scaled_ts.reshape(1,3,1), verbose=0)
    
    # 逆变换得到真实值
    y_pred = scaler.inverse_transform(pred)
    return {"prediction": y_pred.tolist()[0][0]}

部署时指定这个推理脚本：

model = TensorFlowModel(
    model_data='s3://your-bucket/model-path/',
    role='your-role',
    framework_version='2.15',
    entry_point='inference.py'  # 指定推理脚本
)