如何解决Windows 11上llama-cpp-python GPU支持无法启用的问题

阿华AIGC实验室

2026-6-12

问题描述

在Windows 11上尝试安装带GPU支持的llama-cpp-python，已安装Visual Studio工具包、CMake、Ninja、CUDA工具包，参考过相关教程，但启动LLM服务器时始终不调用GPU。使用RTX 3090显卡，Llama 3 13B Instruct Q8模型可完全装入显存，启动代码如下：

import subprocess
import sys
import os


MODEL_PATH = os.path.join(
    os.path.dirname(__file__),
    "LLM",
    "Llama-3-13B-Instruct-v0.1.Q8_0.gguf"
)

HOST = "0.0.0.0"
PORT = "8000"

cmd = [
    sys.executable, "-m", "llama_cpp.server",
    "--model", MODEL_PATH,
    "--host", HOST,
    "--port", PORT
]

subprocess.run(cmd)

启动日志未检测到CUDA设备支持，未启用GPU加速。

解决方案

1. 重新编译安装带CUDA支持的llama-cpp-python

先彻底卸载现有版本，再通过环境变量强制编译CUDA支持：

命令提示符（CMD）操作：

pip uninstall -y llama-cpp-python
set CMAKE_ARGS=-DLLAMA_CUDA=ON
set FORCE_CMAKE=1
pip install llama-cpp-python --force-reinstall --no-cache-dir

PowerShell操作：

pip uninstall -y llama-cpp-python
$env:CMAKE_ARGS="-DLLAMA_CUDA=ON"
$env:FORCE_CMAKE=1
pip install llama-cpp-python --force-reinstall --no-cache-dir

建议使用Visual Studio开发者命令提示符或CUDA命令提示符执行，确保编译环境依赖完整。

2. 修改启动代码，强制启用GPU层

在启动命令中添加--n-gpu-layers参数，指定将尽可能多的模型层加载到GPU（99表示全部可用层）：

import subprocess
import sys
import os


MODEL_PATH = os.path.join(
    os.path.dirname(__file__),
    "LLM",
    "Llama-3-13B-Instruct-v0.1.Q8_0.gguf"
)

HOST = "0.0.0.0"
PORT = "8000"

cmd = [
    sys.executable, "-m", "llama_cpp.server",
    "--model", MODEL_PATH,
    "--host", HOST,
    "--port", PORT,
    "--n-gpu-layers", "99"  # 新增参数，强制加载模型到GPU
]

subprocess.run(cmd)