CUDA 补充教程 - 进阶与深入-尧图网络科技

第九课：CUDA 错误处理

知识点

为什么需要错误处理？

CUDA API 调用可能失败，常见原因：

内存不足
设备不存在
内核启动失败
驱动程序错误

不检查错误会导致：

程序崩溃
结果错误
难以调试

CUDA 错误类型

typedef enum cudaError {

cudaSuccess = 0, // 成功

cudaErrorInvalidValue = 1, // 无效参数

cudaErrorMemoryAllocation = 2, // 内存分配失败

cudaErrorInvalidDevice = 10, // 无效设备

cudaErrorInvalidMemcpyDirection = 21, // 无效拷贝方向

// ... 更多错误码

} cudaError;

错误检查函数

// 基本错误检查

cudaError_t err = cudaMalloc(&d_data, size);

if (err != cudaSuccess) {

printf("CUDA 错误: %s\n", cudaGetErrorString(err));

exit(1);

}

封装错误检查宏

// 定义错误检查宏

#define CUDA_CHECK(call) \

do { \

cudaError_t err = call; \

if (err != cudaSuccess) { \

fprintf(stderr, "CUDA 错误 at %s:%d: %s\n", \

__FILE__, __LINE__, cudaGetErrorString(err)); \

exit(1); \

} \

} while(0)

// 使用宏

CUDA_CHECK(cudaMalloc(&d_data, size));

CUDA_CHECK(cudaMemcpy(d_data, h_data, size, cudaMemcpyHostToDevice));

内核启动错误检查

__global__ void myKernel(int *data, int n) {

int idx = blockIdx.x * blockDim.x + threadIdx.x;

if (idx < n) {

data[idx] = idx * 2;

}

int main() {

// 启动内核

myKernel<<<grid, block>>>(d_data, n);

// 检查内核启动错误

cudaError_t err = cudaGetLastError();

if (err != cudaSuccess) {

printf("内核启动失败: %s\n", cudaGetErrorString(err));

return -1;

}

// 等待内核完成并检查执行错误

err = cudaDeviceSynchronize();

if (err != cudaSuccess) {

printf("内核执行失败: %s\n", cudaGetErrorString(err));

return -1;

}

return 0;

}

完整的错误处理模板

#include <stdio.h>

#include <stdlib.h>

#define CUDA_CHECK(call) \

do { \

cudaError_t err = call; \

if (err != cudaSuccess) { \

fprintf(stderr, "CUDA 错误 at %s:%d: %s\n", \

__FILE__, __LINE__, cudaGetErrorString(err)); \

exit(1); \

} \

} while(0)

#define CUDA_KERNEL_CHECK() \

do { \

cudaError_t err = cudaGetLastError(); \

if (err != cudaSuccess) { \

fprintf(stderr, "内核启动错误 at %s:%d: %s\n", \

__FILE__, __LINE__, cudaGetErrorString(err)); \

exit(1); \

} \

err = cudaDeviceSynchronize(); \

if (err != cudaSuccess) { \

fprintf(stderr, "内核执行错误 at %s:%d: %s\n", \

__FILE__, __LINE__, cudaGetErrorString(err)); \

exit(1); \

} \

} while(0)

int main() {

int n = 1000;

size_t size = n * sizeof(float);

float *d_data;

CUDA_CHECK(cudaMalloc(&d_data, size));

myKernel<<<grid, block>>>(d_data, n);

CUDA_KERNEL_CHECK();

CUDA_CHECK(cudaFree(d_data));

return 0;

}

练习题 9

CUDA 错误码cudaSuccess的值是什么？
cudaGetLastError()和cudaDeviceSynchronize()分别检查什么错误？
为什么内核启动后需要调用cudaDeviceSynchronize()才能检测到执行错误？

第十课：原子操作

知识点

什么是原子操作？

原子操作是不可分割的操作，在多线程环境下保证数据一致性。

问题场景：

// 非原子操作（危险！）

int count = 0;

__global__ void increment(int *count) {

(*count)++; // 多个线程同时执行，结果不确定

}

解决方案：使用原子操作

CUDA 原子函数

函数	操作	说明
`atomicAdd()`	加法	`*addr += val`
`atomicSub()`	减法	`*addr -= val`
`atomicExch()`	交换	`*addr = val`
`atomicMin()`	最小值	`addr = min(addr, val)`
`atomicMax()`	最大值	`addr = max(addr, val)`
`atomicInc()`	递增	`addr = (addr >= val) ? 0 : *addr + 1`
`atomicDec()`	递减	`addr = (addr == 0)
`atomicCAS()`	比较并交换	条件交换
`atomicAnd()`	与运算	`*addr &= val`
`atomicOr()`	或运算	`*addr \|= val`
`atomicXor()`	异或运算	`*addr ^= val`