ComfyUI训练Flux LoRA时遭遇张量设备不匹配与显存不足矛盾问题求助
ComfyUI训练Flux LoRA时遭遇张量设备不匹配与显存不足矛盾问题求助
我最近在ComfyUI里用ComfyUI-FluxTrainer的修改版工作流训练Flux LoRA,这是我试了好几个版本后第一个没直接把我的8GB显存榨干的配置,但现在又碰到了新的棘手问题:
Expected all tensors to be on the same device, but found at least two devices, cpu and cuda:0!
我在网上搜了一堆关于这个错误的帖子,但大多和LoRA训练不沾边,给出的解决方法也五花八门,完全找不到适配我这个场景的方案,有没有大佬能帮我分析下问题出在哪?
我自己倒是定位到了问题的触发点:这个错误是由Init Flux LoRA Training节点的blocks_to_swap参数导致的——把它设为0的时候,设备不匹配的错误就消失了,但马上又会回到torch.OutOfMemoryError: Allocation on device的显存不足错误,等于绕了一圈又回到原点,根本不是解决办法。
(我有完整的错误日志,这里就不额外贴出外链了)
内容来源于stack exchange




