如何借助ARKit或Apple Vision测量桌面小型3D物体的尺寸？

阿华AIGC实验室

2026-5-28

实现iPhone摄像头结合ARKit/Vision/CoreML测量桌面小物体尺寸方案

核心思路概述

你要的其实是把2D物体检测（CoreML/Vision）和3D空间感知（ARKit）结合起来，跳过参考物直接从真实空间中计算物体尺寸。核心是把Vision检测到的2D物体框，映射到ARKit建立的3D桌面坐标系里，再通过多视角或3D重建获取完整的长宽高，最后生成ARAnchor锚定物体位置。

分步实现方案

1. 用ARKit锚定桌面平面（空间坐标系基础）

首先得让ARKit识别出桌面这个水平平面，所有测量都基于这个真实的空间基准：

初始化ARWorldTrackingConfiguration，开启planeDetection = .horizontal，如果设备有LiDAR（iPhone 12 Pro及以上），建议同时开启sceneReconstruction = .meshWithClassification，能更快更准地获取平面和物体网格。
在ARSessionDelegate的session(_:didAdd:)方法中，处理检测到的ARPlaneAnchor，把桌面平面的信息保存下来（比如平面的中心坐标、法线方向）。
可以在界面上渲染出检测到的桌面平面，让用户确认已经正确识别桌面。

2. CoreML+Vision完成2D物体检测

你已经有能画框的mlmodel，这一步重点是把检测结果和ARKit关联：

用VNImageRequestHandler处理摄像头的每一帧图像，通过CoreML模型检测物体，得到VNBoundingBoxObservation（物体的2D边界框）。
把Vision输出的边界框坐标（归一化的0-1范围）转换成ARKit的屏幕坐标（基于当前屏幕尺寸）。

3. 2D框→3D空间点的映射（获取长宽）

把2D边界框的四个顶点映射到3D桌面平面上，就能计算物体的长和宽：

对边界框的四个顶点（左上、右上、右下、左下），分别用ARKit的hitTest(_:types:)方法，发射一条从摄像头出发穿过该点的射线，检测与桌面平面的交点，得到四个3D坐标点。
计算相邻两点之间的距离（用simd_distance函数），比如右上到右下的距离是物体的长度，右上到左上的距离是宽度（根据实际物体方向调整）。
为了减少误差，可以连续取多帧的检测结果，对3D点坐标做平均处理。

4. 获取物体高度（关键难点）

高度是垂直于桌面的维度，单视角很难准确获取，建议两种方案：

方案A：多视角射线检测（无LiDAR也能用）

提示用户缓慢围绕物体移动，让摄像头捕捉到物体的顶部边缘。
用Vision检测物体的顶部边缘（可以训练专门的边缘检测模型，或者用Vision自带的VNContourDetectionRequest提取物体轮廓），同样把顶部边缘的点映射到3D空间，得到顶部的3D点。
计算顶部点和桌面对应点的垂直距离（ARKit坐标系中y轴的差值，因为y轴是垂直向上的），就是物体的高度。

方案B：LiDAR网格重建（精度更高）

如果设备有LiDAR，开启ARKit的场景重建后，会得到ARMeshAnchor，包含物体的3D网格数据。
从网格中筛选出属于目标物体的顶点（可以结合Vision的检测结果，只保留2D框对应的3D区域内的顶点）。
计算这些顶点的y轴最大值和最小值的差值，就是物体的高度；同时也能从x/z轴的范围得到长宽，这种方式精度更高，不需要用户手动移动摄像头。

5. 创建物体的ARAnchor

当你得到物体的3D边界框（中心坐标、长宽高）后，就可以创建自定义的ARAnchor：

初始化ARAnchor，设置其transform为物体中心的变换矩阵。
在anchor的userInfo中存入长宽高数据（比如["width": width, "height": height, "depth": depth]）。
把这个anchor添加到ARSession中，后续就能持续跟踪物体的位置，即使摄像头移动也能准确显示尺寸。