COVID X射线严重程度分类模型验证精度无提升问题排查与优化建议咨询

阿华AIGC实验室

2026-4-28

问题分析与优化方案

从你的训练输出能一眼看出，这是严重的过拟合问题——训练集准确率很快就冲到100%，但验证集准确率一直在随机猜测的水平（4分类任务的随机准确率约25%，你的结果刚好在这个区间波动），同时验证损失还持续上升，说明你的模型根本没学到能泛化到新样本的特征，只是死记硬背了训练数据。另外你的代码里还有个小语法问题，先给你指出来，再详细说优化方向：

一、先修正代码里的小错误

第二个Conv2D层不需要指定input_shape，这个参数只需要在模型的第一个可训练层设置，后面的层会自动根据前一层的输出形状推断输入。修改后的代码片段：

model.add(Conv2D(filters=128,kernel_size=(6,6),activation="relu"))  # 移除多余的input_shape参数

二、核心优化方案（针对过拟合与数据不足）

1. 解决样本量不足的核心问题

426张图片做4分类任务，数据量实在太少，这是过拟合的根源，你可以从这几点入手：

针对性数据增强：给X光图像做合理的增强，比如随机小角度旋转（±10度内，避免影响医学特征）、轻微平移/缩放、亮度对比度微调、水平翻转（X光左右翻转不影响诊断）。用Keras的ImageDataGenerator就能实现：

from tensorflow.keras.preprocessing.image import ImageDataGenerator

datagen = ImageDataGenerator(
    rotation_range=10,
    width_shift_range=0.1,
    height_shift_range=0.1,
    zoom_range=0.1,
    brightness_range=[0.9, 1.1],
    horizontal_flip=True,
    fill_mode='nearest'
)
# 训练时启用数据增强
model.fit(datagen.flow(X_train, y_train, batch_size=batch_size),
          validation_data=(X_test, y_test),
          epochs=epochs)

检查类别分布：统计4个类别的样本数量，如果某类样本特别少（比如仅几十张），会导致模型偏向样本多的类别。可以在model.fit中传入class_weight参数做类别加权，或者对少样本类别过采样、多样本类别欠采样。

2. 简化模型结构，降低复杂度

你的模型对于426张样本来说还是太复杂，容易过拟合：

减少卷积滤波器数量：比如把第一个Conv2D的64改成32，第二个128改成64，减少模型参数总量。
提高Dropout比例：当前Dropout是0.2，可以提升到0.3或0.4，还可以在全连接层后添加Dropout（比如Dense(64)后加Dropout(0.3)）。
添加正则化：你已经导入了regularizers，可以给卷积层和全连接层加L2正则化，示例：

model.add(Conv2D(filters=32,kernel_size=(4,4),input_shape=image_shape,activation="relu", kernel_regularizer=regularizers.l2(0.001)))

简化全连接层：比如去掉Dense(16)这一层，或者把Dense(64)改成32，减少全连接层的参数。

3. 完善数据预处理步骤

像素归一化：X光图像像素值一般是0-255，你有没有把像素值缩放到0-1区间？如果没有一定要做：

X_train = X_train / 255.0
X_test = X_test / 255.0

这对模型的收敛速度和性能影响极大。

合理划分数据集：检查训练集和测试集是否是分层随机划分的（比如用sklearn.model_selection.train_test_split的stratify=y参数），避免测试集的类别分布和整体数据集差异过大。

4. 优化训练流程

启用早停机制：你已经导入了EarlyStopping但没用到，早停可以在验证损失不再下降时自动停止训练，避免过拟合：

early_stop = EarlyStopping(monitor='val_loss', patience=3, restore_best_weights=True)
model.fit(..., callbacks=[early_stop])

调整学习率：Adam默认学习率0.001可能偏大，可以尝试调到0.0001，或者用ReduceLROnPlateau回调实现学习率衰减。
增大Batch Size：当前Batch Size是8，对于256×256的图像来说太小，容易导致训练不稳定，如果显存允许，可以尝试调到16或32。

5. 尝试迁移学习

因为样本量太少，从头训练卷积神经网络很难得到好结果，迁移学习是更高效的选择：用在ImageNet上预训练的模型（比如VGG16、ResNet50、MobileNet）作为特征提取器，只训练顶层的全连接层，甚至可以微调部分卷积层。示例框架：

from tensorflow.keras.applications import VGG16
from tensorflow.keras.models import Model

base_model = VGG16(weights='imagenet', include_top=False, input_shape=image_shape)
# 冻结预训练层
for layer in base_model.layers:
    layer.trainable = False

# 添加自定义顶层分类器
x = base_model.output
x = Flatten()(x)
x = Dense(64, activation='relu', kernel_regularizer=regularizers.l2(0.001))(x)
x = Dropout(0.3)(x)
predictions = Dense(4, activation='softmax')(x)

model = Model(inputs=base_model.input, outputs=predictions)
model.compile(loss="categorical_crossentropy",optimizer="adam",metrics=["accuracy"])

迁移学习能利用预训练模型学到的通用图像特征，大幅提升小数据集上的泛化能力。

内容的提问来源于stack exchange，提问作者Kunal Dutta