基于LD_PRELOAD技术劫持CUDA Driver API调用的实现问询

基于LD_PRELOAD技术劫持CUDA Driver API调用的实现问询

阿华AIGC实验室

2026-5-25

用LD_PRELOAD劫持CUDA Driver API的cuLaunchKernel函数

嘿，你这用LD_PRELOAD劫持CUDA Driver API的思路挺棒的！我看你已经写了cuLaunchKernel的桩函数开头，刚好帮你补全并梳理下关键细节，确保能顺利跑起来：

完整的桩函数实现

#define _GNU_SOURCE
#include <cuda.h>
#include <dlfcn.h>
#include <stdio.h>

// 严格匹配官方CUDA Driver API的函数签名，定义原函数类型
typedef CUresult (*cuLaunchKernel_t)(CUfunction f,
                                    unsigned int gridDimX, unsigned int gridDimY, unsigned int gridDimZ,
                                    unsigned int blockDimX, unsigned int blockDimY, unsigned int blockDimZ,
                                    unsigned int sharedMemBytes, CUstream hStream,
                                    void** kernelParams, void** extra);

// 存储原cuLaunchKernel的函数指针，全局静态变量保证只初始化一次
static cuLaunchKernel_t original_cuLaunchKernel = NULL;

// 我们的劫持桩函数，完全替代原cuLaunchKernel
CUresult cuLaunchKernel(CUfunction f,
                        unsigned int gridDimX, unsigned int gridDimY, unsigned int gridDimZ,
                        unsigned int blockDimX, unsigned int blockDimY, unsigned int blockDimZ,
                        unsigned int sharedMemBytes, CUstream hStream,
                        void** kernelParams, void** extra) {
    // 第一次调用时初始化原函数指针，避免全局初始化阶段的链接问题
    if (!original_cuLaunchKernel) {
        original_cuLaunchKernel = (cuLaunchKernel_t)dlsym(RTLD_NEXT, "cuLaunchKernel");
        if (!original_cuLaunchKernel) {
            fprintf(stderr, "Failed to load original cuLaunchKernel: %s\n", dlerror());
            return CUDA_ERROR_NOT_INITIALIZED;
        }
    }

    // 这里可以加你想要的自定义逻辑——比如打印启动参数、修改参数、统计调用次数等等
    printf("[HOOKED] cuLaunchKernel triggered:\n");
    printf("  Grid size: (%u, %u, %u)\n", gridDimX, gridDimY, gridDimZ);
    printf("  Block size: (%u, %u, %u)\n", blockDimX, blockDimY, blockDimZ);
    printf("  Shared memory allocated: %u bytes\n", sharedMemBytes);

    // 调用真正的原函数，保证程序原有功能正常运行
    CUresult ret = original_cuLaunchKernel(f, gridDimX, gridDimY, gridDimZ,
                                          blockDimX, blockDimY, blockDimZ,
                                          sharedMemBytes, hStream,
                                          kernelParams, extra);

    // 也可以在这里处理返回值，比如捕获错误并打印
    if (ret != CUDA_SUCCESS) {
        fprintf(stderr, "[HOOKED] cuLaunchKernel returned error code: %d\n", ret);
    }

    return ret;
}

// 你提到的辅助函数，可以根据需求扩展功能，比如做流的额外处理
void cuLaunchKernelHelper(CUstream hStream) {
    printf("[HELPER] Processing stream at address: %p\n", hStream);
}

关键细节说明

函数签名必须严格匹配：CUDA Driver API的cuLaunchKernel参数很多，类型和顺序绝对不能错，否则会导致程序崩溃或者调用异常。我这里直接用了官方的完整签名，你可以对照CUDA文档确认。
原函数指针的获取：用dlsym(RTLD_NEXT, "cuLaunchKernel")是核心——RTLD_NEXT告诉动态链接器跳过当前的共享库，去后面加载的库（也就是真正的CUDA驱动库）里找原函数，避免递归调用我们的桩函数。
初始化时机：不能在全局变量阶段初始化原函数指针，因为此时CUDA驱动库可能还没被加载，会导致dlsym失败。放在第一次调用桩函数时初始化是最稳妥的方式。

编译与使用方法

编译成共享库：
要确保你的系统安装了CUDA Toolkit开发包，编译时指定CUDA的头文件路径（如果不在默认路径的话）：
```
gcc -shared -fPIC -o libcudahook.so cudahook.c -ldl -I/usr/local/cuda/include
```
这里-ldl是链接动态链接器库，必须加上，否则dlsym这些函数会找不到。
劫持目标CUDA程序：
通过LD_PRELOAD环境变量加载我们的共享库，这样目标程序调用cuLaunchKernel时会先执行我们的桩函数：
```
LD_PRELOAD=./libcudahook.so ./your_cuda_application
```

额外注意事项

不管目标程序用的是CUDA Runtime API（比如cudaLaunchKernel）还是直接用Driver API，这个劫持都会生效——因为Runtime API最终会调用底层的Driver API。
桩函数里尽量别做太耗时的操作，不然会拖慢CUDA程序的性能。如果要做复杂逻辑，最好异步处理。
如果遇到找不到cuda.h的问题，检查CUDA Toolkit的安装路径，或者用nvcc辅助编译（不过gcc足够了）。

内容的提问来源于stack exchange，提问作者saman

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

一键部署 OpenClaw

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

Seedance2.0 体验中心上线

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠