例如,我分配以下指针:
float *data_1, *data_2, *data_3, *data_4; //Use malloc to allocate memory and fill out some data to these pointers ...... //Filling complete float *data_d1,*data_d2,*data_d3,*data_d4; cudaMalloc((void **)&data_d1,size1); cudaMalloc((void **)&data_d2,size2); cudaMalloc((void **)&data_d3,size3); cudaMalloc((void **)&data_d4,size4); cudaMemcpy(data_d1,data_1,size1,cudaMemcpyHostToDevice); cudaMemcpy(data_d2,data_2,size2,cudaMemcpyHostToDevice); cudaMemcpy(data_d3,data_3,size3,cudaMemcpyHostToDevice); cudaMemcpy(data_d4,data_4,size4,cudaMemcpyHostToDevice);
在此之后,我应该已经获得了4个设备指针,其中包含与主机指针相同的确切数据.现在我想将这些指针存储到一个指针数组中,如下所示,
float *ptrs[4]; ptrs[0] = data_d1; ptrs[1] = data_d2; ptrs[2] = data_d3; ptrs[3] = data_d4;
现在我想将这个指针数组传递给CUDA内核.但是,我知道由于ptrs [4]实际上是在主机内存上,我需要在设备上分配一个新指针.所以我这样做了,
float **ptrs_d; size_t size = 4 * sizeof(float*); cudaMalloc((void ***)&ptrs_d,size); cudaMemcpy(ptrs_d,ptrs,size,cudaMemcpyHostToDevice);
然后调用内核:
kernel_test<<>>(ptrs_d, ...); //Declaration should be //__global__ void kernel_test(float **ptrs_d, ...);
在kernel_test中,使用以下语法加载数据:
if (threadIdx.x < length_of_data_1d) { float element0 = (ptrs[0])[threadIdx.x]; }
编译是可以的,但在调试时,它会出现访问冲突错误.
也许我的代码中存在很多错误.但我只是想弄清楚为什么我不能以这种方式传递设备指针,如果在CUDA中允许将设备指针数组传递给内核函数,那么访问它的正确方法是什么.
那么我应该如何解决这个问题呢?任何建议表示赞赏.提前致谢.