如何用OpenCV检测X光图像文本并提取定向边界框？

阿华AIGC实验室

2026-5-6

解决X光图像文本检测的误检问题

首先直接给你明确答案：用OCR验证绝对是过滤无文本误检框的核心方法——X光图像里有很多和文本轮廓相似的纹理噪点，仅靠OpenCV的轮廓检测根本没法区分，OCR能帮你确认框里到底是不是目标文本。

下面结合你的代码和新手友好的思路，给你几个具体的改进方向，你可以一步步试：

1. 先加OCR过滤（最立竿见影）

推荐用pytesseract（Tesseract OCR的Python绑定），步骤很简单：

先装Tesseract引擎（官网下载对应系统的安装包），再装Python包：pip install pytesseract
对每个检测到的旋转框，提取对应的图像区域（ROI），做简单预处理后用OCR识别，只有识别到你要的"test word"、"a"、"b"才保留这个框。

给你一段可以直接插到你代码里的片段：

import pytesseract

# 如果是Windows，需要指定Tesseract的路径，比如：
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# 目标文本集合，方便判断
target_texts = {"test word", "a", "b"}
# 用来存储最终检测框的矩阵
detection_matrix = []

for i, c in enumerate(contours):
    # 先跳过太小的轮廓（提前过滤一部分噪点）
    if cv2.contourArea(c) < 50:
        continue
    
    minRect_i = cv2.minAreaRect(c)
    box = cv2.boxPoints(minRect_i)
    box = np.intp(box)
    
    # 提取文本区域的ROI
    x, y, w, h = cv2.boundingRect(c)
    roi = img2gray[y:y+h, x:x+w]
    # 对ROI做二值化，让OCR更容易识别
    _, roi_thresh = cv2.threshold(roi, 180, 255, cv2.THRESH_BINARY_INV)
    
    # 用OCR识别，--psm 8表示假设是单个词/字符，适合你的场景
    recognized_text = pytesseract.image_to_string(roi_thresh, config='--psm 8').strip().lower()
    
    # 只有识别到目标文本，才保留这个框
    if recognized_text in target_texts:
        color = (255, 0, 255)
        cv2.drawContours(img, [box], 0, color)
        # 转换成你要的[x1, x2, y1, y2]格式
        x1 = min(box[:, 0])
        x2 = max(box[:, 0])
        y1 = min(box[:, 1])
        y2 = max(box[:, 1])
        detection_matrix.append([x1, x2, y1, y2])

2. 优化轮廓过滤规则（减少候选框数量）

你现在的代码把所有轮廓都转成了旋转框，很多噪点轮廓可以提前过滤：

按面积过滤：设置最小面积阈值（比如上面代码里的cv2.contourArea(c) < 50），太小的轮廓直接跳过，文本不会小到这种程度。
按宽高比过滤：文本的宽高比有规律，比如单个字符"a"/"b"的宽高比接近1，"test word"是长条形（宽高比3-5左右）。计算旋转框的宽高比，跳过极端值：
```
width, height = minRect_i[1]
aspect_ratio = max(width, height) / min(width, height)
# 调整阈值适配你的样本
if aspect_ratio < 0.5 or aspect_ratio > 6:
    continue
```
按轮廓层级过滤：你用了cv2.RETR_TREE获取轮廓层级，很多嵌套的小轮廓（比如文本内部的空隙）可以通过hierarchy[i][3] != -1判断（表示不是最外层轮廓），直接跳过。

3. 改进预处理步骤（从源头减少噪点）

X光图像的对比度和噪点比较特殊，你当前的预处理可以调整：

把固定阈值换成自适应阈值：cv2.adaptiveThreshold(img2gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 11, 2)，自适应阈值能更好处理X光里的光照不均问题。
调整膨胀的迭代次数：你现在用了6次迭代，可能膨胀过度，把噪点放大成大轮廓，试试改成2-3次，或者用更小的核（比如(2,2)）。
增加形态学开运算：先腐蚀再膨胀，去掉小噪点：opening = cv2.morphologyEx(new_img, cv2.MORPH_OPEN, kernel)，再做后续的膨胀操作。