在AMD Instinct MI300X VF GPU上进行3D-LSM图像分割自监督模型预训练时遭遇GPU内存访问故障的求助

阿华AIGC实验室

2026-3-31

看起来你在MI300X上跑自监督预训练时碰到了挺棘手的GPU内存访问错误，这种“写只读页”的问题通常和ROCm环境兼容性、模型代码的内存操作逻辑有关，我结合AMD GPU的实际使用经验给你几个排查方向：

1. 优先核对ROCm与PyTorch的版本适配性

你当前用的是PyTorch 2.8.0+rocm6.4，MI300系列是比较新的旗舰卡，新版本框架和ROCm的适配偶尔会存在内存映射逻辑的小bug：

可以尝试降级到ROCm 6.3 + PyTorch 2.7.1+rocm6.3，或者升级到最新的ROCm 6.5 + 对应PyTorch版本，这两个组合对MI300X的适配经过更多用户验证，大概率能规避这类只读页访问的问题。
同时用uname -r核对下系统内核版本，确保是ROCm推荐的5.15及以上版本（DigitalOcean的droplet一般已经配置好，但还是确认下更稳妥）。

“写只读页”的核心原因是代码尝试修改了被标记为只读的内存区域，你可以重点检查这几个点：

有没有误用torch.no_grad()或torch.set_grad_enabled(False)，把需要更新梯度的模型参数或中间张量标记成了只读，后续反向传播时尝试写入就会触发错误。
有没有对用torch.Tensor.requires_grad_(False)冻结的张量进行in-place修改（比如用+=、*=这类操作）？
3D-LSM图像加载时，是否因为用了只读的文件模式，导致内存映射的输入张量被设为只读？可以在数据加载后加一行print(data_tensor.is_leaf, data_tensor.requires_grad)，确认张量的属性是否符合预期。
建议先简化模型：用随机生成的3D张量代替真实LSM图像，跑最基础的自监督预训练逻辑，如果简化后不报错，就可以定位到是数据加载或模型某个复杂模块的问题。

AMD GPU的内存分配策略可以通过环境变量调整，试试以下几个设置：

强制细粒度PCIe内存访问：export HSA_FORCE_FINE_GRAIN_PCIE=1，这个变量能修正某些内存映射的权限问题。
明确指定GPU架构：export PYTORCH_ROCM_ARCH=gfx908，避免PyTorch自动检测架构时出现偏差，导致内存布局错误。
关闭PyTorch内存缓存：export PYTORCH_NO_CUDA_MEMORY_CACHING=1，有时候缓存的内存区域权限配置异常，关闭后重新分配可能解决问题。
设置完环境变量后，重新启动训练脚本即可。

你已经调小了batch size、patch size和workers，还可以试试这两个细节：

把DataLoader中的pin_memory=True改成pin_memory=False，AMD GPU的pin_memory逻辑和ROCm的内存管理偶尔会存在兼容性问题，关闭后能避免一些内存权限冲突。
检查3D patch的切片逻辑：有没有可能因为图像维度不足，导致生成的patch张量形状异常？比如某个维度为0或者负数，后续操作时触发越界访问进而引发只读页错误。可以在数据加载的地方打印每个batch的张量形状，确认没有异常。