我试图在C中使用带有CUDA 6和统一内存的流.我之前的流实现看起来像这样:
for(x=0; xsize*sizeof(int), cudaMemcpyHostToDevice, stream0)); gpuErrchk(cudaMemcpyAsync(data_d1, data_h, wrap->size*sizeof(int), cudaMemcpyHostToDevice, stream1)); searchGPUModified<< >>(data_d0, array_d0, out_d0 ); searchGPUModified<< >>(data_d1, array_d1, out_d1); gpuErrchk(cudaMemcpyAsync(out_h+x, out_d0 , N * sizeof(int), cudaMemcpyDeviceToHost, stream0)); gpuErrchk(cudaMemcpyAsync(out_h+x+N, out_d1 ,N * sizeof(int), cudaMemcpyDeviceToHost, stream1)); }
但我找不到流和统一内存的例子,使用相同的技术,将数据块发送到GPU.我想知道是否有办法做到这一点?