蓝色笔手写数字摄像头采集图像预处理失真问题技术求助

阿华AIGC实验室

2026-5-7

针对摄像头采集蓝色手写数字的预处理优化方案

嘿，我完全懂你现在卡在哪了——静态图片的预处理逻辑放到摄像头实时采集场景里直接失效，全黑图根本没法让模型识别。核心问题在于摄像头拍的图和你本地的静态图在光照均匀度、背景复杂度、蓝色笔的像素分布上差异极大，你之前用的固定阈值x<100太死板，完全适配不了动态场景。结合你已经生成了直方图，咱们可以从这几个方向优化预处理流程：

1. 先从颜色空间精准提取蓝色手写区域

既然是蓝色钢笔，直接转灰度会浪费颜色信息，不如先在HSV或BGR空间把蓝色区域单独抠出来，最大程度分离数字和背景：

import cv2
import numpy as np

# 读取摄像头采集的图像（如果是实时帧，替换为video_capture.read()获取的frame）
frame = cv2.imread("camera_captured.jpg")

# 转HSV空间，更容易筛选蓝色
hsv = cv2.cvtColor(frame, cv2.COLOR_BGR2HSV)

# 定义蓝色的HSV范围（可以结合你的直方图调整上下限，确保覆盖钢笔的蓝色）
lower_blue = np.array([90, 50, 50])
upper_blue = np.array([130, 255, 255])

# 生成蓝色区域掩码，提取目标区域
mask = cv2.inRange(hsv, lower_blue, upper_blue)
blue_region = cv2.bitwise_and(frame, frame, mask=mask)

# 转灰度图准备后续处理
gray = cv2.cvtColor(blue_region, cv2.COLOR_BGR2GRAY)

2. 用自适应阈值替换固定阈值

摄像头采集的图像常存在光照不均的问题，固定阈值会导致部分区域过曝或过暗。自适应阈值能根据局部区域的光照动态调整阈值，稳稳保留数字结构：

# 自适应高斯阈值处理，blockSize是局部计算的区域大小，C是微调常数
adaptive_thresh = cv2.adaptiveThreshold(
    gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY_INV, 11, 2
)

这里用THRESH_BINARY_INV是为了让数字呈白色、背景呈黑色，和MNIST数据集的格式对齐，方便模型识别。

3. 形态学操作修复数字断裂与噪声

摄像头拍的图可能带小噪声点，或者笔画因光照断裂，用形态学操作来修复：

# 定义3x3的矩形结构元素
kernel = np.ones((3,3), np.uint8)
# 先腐蚀去掉小噪声，再膨胀补全笔画断裂处
processed_img = cv2.erode(adaptive_thresh, kernel, iterations=1)
processed_img = cv2.dilate(processed_img, kernel, iterations=1)

4. 统一尺寸并适配模型输入

完成上面的步骤后，再把图像resize到28x28匹配模型输入：

img_size = 28
new_array = cv2.resize(processed_img, (img_size, img_size))
# 最后做一次二值化确保像素严格为0/255
_, final_img = cv2.threshold(new_array, 127, 255, cv2.THRESH_BINARY)

# 查看处理后的效果
import matplotlib.pyplot as plt
plt.imshow(final_img, cmap=plt.cm.binary)
plt.show()