如何在TensorFlow中高效掩码处理含NaN的输入数据以训练分类模型（避免均值等不合理填充方式）

阿华AIGC实验室

2026-4-21

嗨，你遇到的这个问题我太能共情了——样本量本来就少，删NaN直接砍到只剩3个，用均值填充又怕引入不合理的偏差，完全懂你想最大化利用所有有效数据的需求！另外先提个小细节：你给出的模型代码里有个小错误，x = tf.keras.layers.Dense(10, activation = 'relu')(input)这里的input应该是inputs，不然运行的时候会报错哦。

下面给你两种完全符合你需求的解决方案，既不用删样本，也不用填充均值这类不合理的值：

方法一：用Masking层自动忽略NaN特征

TensorFlow的Masking层可以帮我们标记无效的输入值，让模型在计算时自动跳过这些位置，相当于只利用每个样本里的有效特征进行训练。具体步骤如下：

先把NaN替换成一个不在你数据分布范围内的特殊值（比如1e9，因为你的数据里没有这么大的数，不会和真实数据混淆）：

import pandas as pd
import numpy as np
import tensorflow as tf

# 你的原始数据
X = pd.DataFrame({
'v1': [1, 2, 3, 4, np.nan, 6],
'v2': [0.3119080, 0.9352281, 0.2509079, 0.8880956, -1.1892642, np.nan],
'v3': [-1.36932765, np.nan, 0.02033295, 0.35838342, -1.11678819, 1.86502911],
})
y = np.array([0, 1, 0, 1, 0, 1])

# 替换NaN为特殊标记值
X_processed = X.fillna(1e9)

构建模型时加入Masking层，指定我们用的特殊标记值，后续的Dense层会自动识别掩码并跳过无效特征：

inputs = tf.keras.Input(shape=(3,))
# 掩码层：标记为1e9的位置会被模型视为无效特征
x = tf.keras.layers.Masking(mask_value=1e9)(inputs)
x = tf.keras.layers.Dense(10, activation='relu')(x)
outputs = tf.keras.layers.Dense(1, activation='sigmoid')(x)

model = tf.keras.Model(inputs=inputs, outputs=outputs)
model.compile(optimizer="Adam", loss="binary_crossentropy", metrics=["accuracy"])
model.fit(X_processed, y)

这个方法的核心是让模型明确知道哪些特征是缺失的，不会把填充的特殊值当成真实数据处理，完美保留了每个样本的有效信息。

方法二：添加掩码特征，让模型自主学习缺失值逻辑

如果你想更灵活一点，可以给每个特征额外加一个“是否有效”的标记特征，让模型自己学习当某个特征缺失时，如何依赖其他有效特征进行预测：

生成掩码矩阵（1表示特征有效，0表示NaN），并把NaN替换成0（这里的0只是占位，配合掩码特征不会被当成真实数据）：

# 生成掩码特征：1=有效，0=NaN
mask = ~X.isna().astype(int)
# 把NaN替换为0占位
X_filled = X.fillna(0)
# 合并原始特征和掩码特征，输入维度变为6（3个原始+3个掩码）
X_combined = np.concatenate([X_filled, mask], axis=1)

构建模型时使用合并后的输入：

inputs = tf.keras.Input(shape=(6,))
x = tf.keras.layers.Dense(10, activation='relu')(inputs)
outputs = tf.keras.layers.Dense(1, activation='sigmoid')(x)

model = tf.keras.Model(inputs=inputs, outputs=outputs)
model.compile(optimizer="Adam", loss="binary_crossentropy", metrics=["accuracy"])
model.fit(X_combined, y)

这种方法相当于给模型提供了“特征是否可用”的额外信息，模型会自主学习如何利用有效特征进行预测，适合数据分布比较复杂的场景。