基于Keras的LSTM时间序列预测：输入数据格式是否最优？

阿华AIGC实验室

2026-5-14

你的LSTM时间序列数据格式：正确性与优化建议

首先，先给你吃个定心丸：你的数据格式整体是正确的，因为它完全符合LSTM模型对输入的要求——(样本数, 时间步长, 特征数)，而且模型能正常运行、输出结果尚可，说明核心逻辑没问题。不过确实有几个可以优化的点，以及需要确认的细节，帮你把数据处理做得更规范高效：

一、当前代码的正确性验证

输入形状符合标准：你最后通过np.reshape(inputs,(inputs.shape[0],inputs.shape[1],1))把输入转换成了LSTM需要的三维张量，这一步完全正确——单特征时间序列的场景下，最后一维特征数设为1是标准做法。
滑动窗口逻辑自洽：你通过循环滑动窗口截取历史数据作为输入，对应未来某一时刻的目标值，这个时间序列预测的核心逻辑是成立的。

不过有两个细节和你描述的需求有出入，需要确认：

你提到用「前一周半小时间隔的观测值」，一周半是1.5*7*24=216小时，但代码里窗口长度是336（Python切片左闭右开，train[i-336:(i+1),0]实际是336个数据点），336小时是14天（两周），是不是描述或者代码里的数字写错了？
你说要「预测24小时后的数据值」，但代码里取的是train[(i+48),0]，48小时是两天，这里是不是也有笔误？如果是预测24小时后的数据，应该是i+24才对。

二、可以优化的方向

1. 替换低效的循环实现

你用Python循环构建输入和目标数组，当数据集规模较大时，效率会很低。推荐用更高效的numpy或TensorFlow内置工具来实现滑动窗口：

方法1：用numpy的`sliding_window_view`（Python 3.10+支持）

import numpy as np

# 假设train是形状为(n_samples, 1)的数组
window_size = 336  # 按你的实际窗口长度调整
pred_step = 48     # 按你的实际预测步长调整

# 生成输入窗口：形状为(有效样本数, window_size)
inputs = np.lib.stride_tricks.sliding_window_view(train[:,0], window_shape=window_size)[:-pred_step]
# 生成目标值：对应每个窗口之后pred_step步的数值
target = train[window_size + pred_step -1 : -1, 0]

# 转换成LSTM需要的三维形状
inputs = inputs[..., np.newaxis]

方法2：用TensorFlow的`timeseries_dataset_from_array`（更适配Keras）

这个工具直接生成可喂给模型的数据集对象，不用手动处理数组，还能自动批量：

import tensorflow as tf

window_size = 336
pred_step = 48

# 生成数据集
dataset = tf.keras.utils.timeseries_dataset_from_array(
    data=train[:,0],
    targets=train[window_size + pred_step :, 0],  # 目标是窗口结束后pred_step步的数值
    sequence_length=window_size,
    batch_size=32,  # 按需调整批量大小
    shuffle=False   # 时间序列绝对不能打乱！
)

用这个方法的话，后续训练模型直接用model.fit(dataset)即可，无需手动调整输入输出形状。

2. 规范时间序列划分逻辑

如果你的数据包含训练集和测试集，一定要按时间顺序划分，绝对不能随机打乱（这是时间序列的核心原则，避免数据泄露）。比如用前80%的数据做训练，后20%做测试，而不是用train_test_split的随机划分方式。

3. 归一化的风险排查

你提到数据已归一化为train数组，要确保归一化的统计量（均值、标准差）仅基于训练集计算，再用该统计量去归一化测试集。如果用整个数据集的统计量做归一化，会导致测试集的数据泄露，严重影响模型的泛化能力。

4. 模型结构的小建议

你的当前模型用了LSTM(50, return_sequences=True)，如果后面没有堆叠更多LSTM层，其实可以把return_sequences设为False，这样输出的是最后一个时间步的隐藏状态，更适配单步预测的场景；如果要堆叠多层LSTM，那第一层的return_sequences=True是正确的。