使用自动编码器预处理后神经网络损失上升，寻求优化方案（仅限神经网络实现）

阿华AIGC实验室

2026-4-21

自动编码器预处理后神经网络损失上升，寻求优化方案（仅限神经网络实现）

看起来你遇到了个挺闹心的状况——本来想用自动编码器做预处理来拉低模型损失，结果反而让损失涨上去了，目标还是要把损失压到1以下，还只能用神经网络实现。咱们来一步步拆解可能的问题，再给你些具体的改进方向：

先排查几个核心的潜在问题

1. 空值（-100）的处理完全被忽略了

你提到-100是设备取不到数据的默认值，相当于空值，但你直接把带-100的原始数据喂给了自动编码器。这会让模型把这些无效的-100当成正常特征学习，反而引入大量噪声，学到的特征自然对下游任务没用。

2. 自动编码器的训练逻辑可能有问题

数据泄露风险：你说用了所有原始数据训练自动编码器，如果这里包含了测试集数据，那下游模型的“好结果”其实是假的，泛化时损失必然暴涨；
任务不匹配：你用的是无监督重构的自动编码器，它只学会了怎么还原原始特征，但没考虑下游的Target预测任务，学到的特征可能和预测目标完全不相关；
结构/训练细节不足：对称的小结构可能不足以捕捉有效特征，而且没加正则化（比如Dropout、L2）的话，很容易过拟合原始数据里的噪声。

3. 下游预测模型的任务类型搞错了？

看你的Target是1、2、3、4这种离散值，明显是多分类任务，但你的下游模型最后一层是Dense(1, activation="relu")，还用了MSE损失——这是回归任务的配置啊！用回归的方式做分类，损失计算本身就不合理，这大概率是损失降不下来的核心原因之一。

针对这些问题的具体优化方案（全是神经网络实现）

1. 先处理空值：用神经网络填充无效值

你可以先训练一个小型的MLP来填充-100的位置：

把每条数据里非-100的特征作为输入，对应的-100特征作为输出；
比如某条数据是[-70, -100, -76, -80]，就用[-70, -76, -80]作为输入，预测-100的位置应该是什么值；
用MSE损失训练这个填充模型，把所有带-100的数据都补全后，再喂给自动编码器。

或者更高效一点，用掩码自动编码器：在TensorFlow里给自动编码器加个Masking(mask_value=-100)层，让模型直接忽略这些无效值，只学习有效特征的重构。

2. 改造自动编码器，让它贴合下游任务

别再用纯无监督的重构了，改成有监督的联合训练：

自动编码器的结构改成：输入层 → 编码层 → 分支1（重构输入）+ 分支2（预测Target）；
训练时同时计算重构损失（MSE）和分类损失（交叉熵），加权求和作为总损失；
这样自动编码器学到的编码特征会直接服务于Target预测，比纯重构的特征有用得多。

如果不想改结构，至少要保证：只在训练集上训练自动编码器，用训练好的编码器去转换训练集和测试集，绝对不能碰测试集的训练数据。另外给自动编码器加些正则化：比如在Dense层加kernel_regularizer=keras.regularizers.l2(0.01)，或者加Dropout(0.2)层，防止过拟合噪声。

3. 修正下游模型的分类任务配置

把下游模型改成标准的多分类配置：

最后一层改成Dense(4, activation="softmax")（因为Target是1-4，对应4个类别）；
损失函数换成loss="sparse_categorical_crossentropy"（如果Target是整数标签的话）；
调参的时候，可以把激活函数的选项加上sigmoid或者tanh，优化器试试Adam（SGD在分类任务里有时不如Adam稳定）；
你的调参代码里num_layers是1-5层，units是2-10，这个范围有点小，可以把units的max_value调到20或者30，给模型更多学习能力。