CUDA编程（一）第一个CUDA程序

作者：北斗七星 | 来源：互联网 | 2023-10-12 13:55

CUDA编程（一）第一个CUDA程序Kernel.cuCUDA是什么？CUDA(ComputeUnifiedDeviceArchit

CUDA编程&＃xff08;一&＃xff09;

第一个CUDA程序 Kernel.cu

CUDA是什么&＃xff1f;

CUDA(Compute Unified Device Architecture)&＃xff0c;是显卡厂商NVIDIA推出的运算平台。是一种通用并行计算架构&＃xff0c;该架构使GPU能够解决复杂的计算问题。说白了就是我们可以使用GPU来并行完成像神经网络、图像处理算法这些在CPU上跑起来比较吃力的程序。通过GPU和高并行&＃xff0c;我们可以大大提高这些算法的运行速度。

有的同学可能知道&＃xff0c;在CPU和GPU上跑同一个神经网络&＃xff0c;由于其大量的浮点数权重计算以及可高并行化&＃xff0c;其速度的差距往往在10倍左右&＃xff0c;原本需要睡一觉才能看到的训练结果也许看两集动漫就OK了。

GPU并行在图像处理方面更是应用广泛&＃xff0c;大家知道图像处理实际上是对图像的二维矩阵进行处理&＃xff0c;图像的尺寸都是几百乘几百的&＃xff0c;很容易就是上万个像素的操作&＃xff0c;随便搞个什么平滑算法&＃xff0c;匹配算法等等的图像算法在CPU上跑个几十秒都是很正常的&＃xff0c;对于图像处理&＃xff0c;神经网络这种大矩阵计算&＃xff0c;往往是可以并行化的&＃xff0c;通过GPU并行化处理往往能够成倍的加速。

综上所述&＃xff0c;去学习一下怎么在GPU上开个几千个线程过把优化瘾还是一件很惬意的事情&＃xff0c;更何况CUDA为我们提供了这么优秀的计算平台&＃xff0c;可以直接使用C/C&＃43;&＃43;写出在显示芯片上执行的程序&＃xff0c;还是一件很赞的事情。

不过CUDA编程需要注意的点是很多的&＃xff0c;有很多因素如果忽略了会大大降低速度&＃xff0c;写的不好的CUDA程序可能会比CPU程序还慢。所以优化和并行是一门很大的学问&＃xff0c;需要我们去不断学习与了解。

CUDA安装

CUDA发展到现在说实话已经比较成熟了&＃xff0c;当然在使用的时候偶尔会出现各种各样的问题(充满血与泪)&＃xff0c;但就谈安装来说已经很简单了&＃xff0c;这里以VS2013和CUDA 7.0为例&＃xff08;现在已经到CUDA7.5了&＃xff0c;我需要使用ZED摄像头&＃xff0c;而它只支持7.0&＃xff0c;所以电脑上装的7.0&＃xff09;。

首先我们随便用搜索引擎搜索CUDA就会找到CUDA Toolkit的下载首页&＃xff1a;

https://developer.nvidia.com/cuda-downloads

之后选择系统下载就好&＃xff1a;

这里写图片描述

下载结束之后一路安装就好&＃xff0c;注意:安装选项那里要选择自定义然后把所有都勾选上&＃xff1a;

这里写图片描述

现在的CUDA安装还是很简单的&＃xff0c;等安装结束之后就会发现CUDA for Visual Studio已经安装成功了&＃xff0c;我们也不需要去添加什么环境变量&＃xff0c;这些工作安装程序都帮我们做好了~之后我们打开VS&＃xff0c;也不需要繁琐的各种引库的过程了&＃xff0c;我们只需要新建一个CUDA工程就可以了~

这里写图片描述

创建好工程之后&＃xff0c;会发现已经自带了一个矩阵相乘的示例代码Kernel.cu,二话不说直接ctrl&＃43;f5编译运行&＃xff0c;如果没报什么编译错误运行成功那就恭喜同学你跑了你的第一个我CUDA程序~Kernel.cu

这里写图片描述

注意&＃xff1a;这里我再多说几句&＃xff0c;我关于各种错误的解决经验。CUDA还是会经常出现各式各样的问题的&＃xff0c;我自己就遇到过好几个。

&＃xff08;1&＃xff09;首先最简单的一个&＃xff0c;你的工程路径不能有中文。。。好多个版本了都没解决这个问题。

&＃xff08;2&＃xff09;然后&＃xff0c;还有一个很傻X的问题&＃xff0c;如果你的C:\Users\****\AppData这个路径&＃xff0c;****部分因为你的Microsoft账户是中文的&＃xff0c;有时候你装完系统登录完账号&＃xff0c;这个文件夹会是中文的。。比如王尼玛会有一个尼玛文件夹。出现这种情况会出现一个什么什么Unicode的错误&＃xff0c;然后基本上是没救了&＃xff0c;反正我最终没能改掉那个文件夹的名字。。。。有知道怎么改的同学一定要告诉我一下。。

&＃xff08;3&＃xff09;有时候还会出现下面这个错误&＃xff0c;这个也很奇葩&＃xff0c;我隔了一周没写CUDA程序&＃xff0c;然后再写的时候原来没问题的程序都编译不过了&＃xff0c;周天就给我来了这么个开门黑&＃xff0c;重装了各种版本的CUDA仍然不行&＃xff0c;弄了两天才莫名其妙的弄好&＃xff0c;这个貌似是因为.net的问题&＃xff0c;我在控制面板-卸载程序-启用或关闭Windows功能里把.net4.5关了,打开了.Net3.5 , 重启&＃xff0c;然后&＃xff0c;还是不行&＃xff0c;我已经准备要重装电脑了&＃xff0c;去吃了个晚饭回来&＃xff0c;莫名其妙行了。

&＃xff08;4&＃xff09;我还遇到过核函数进不去的情况&＃xff0c;也是莫名其妙出现的&＃xff0c;就是下面会讲到的__global__函数&＃xff0c;最后被迫重装了遍CUDA&＃xff0c;然后还是不行&＃xff0c;重启&＃xff0c;结果行了。

总之大家看到我遇到的奇葩问题就知道了&＃xff0c;这玩意有时候还是很脆弱的&＃xff0c;什么杀毒软件&＃xff0c;系统更新啥的都可能随时干掉你的CUDA&＃xff0c;所以防患于未然还是把这些玩意都关了吧。

我知道CUDA安装的还是比较慢的&＃xff0c;安装的时候还是来看一下关于GPU和CUDA架构的一些基础知识吧~

CPU&GPU

上图是CPU与GPU的对比图&＃xff0c;对于浮点数操作能力&＃xff0c;CPU与GPU的能力相差在GPU更适用于计算强度高&＃xff0c;多并行的计算中。因此&＃xff0c;GPU拥有更多晶体管&＃xff0c;而不是像CPU一样的数据Cache和流程控制器。这样的设计是因为多并行计算的时候每个数据单元执行相同程序&＃xff0c;不需要那么繁琐的流程控制&＃xff0c;而更需要高计算能力&＃xff0c;这也不需要大cache。但也因此&＃xff0c;每个GPU的计算单元的结构是十分简单的&＃xff0c;因此对程序的可并行性的要求也是十分苛刻的。

这里我们再介绍一下使用GPU计算的优缺点&＃xff08;摘自《深入浅出谈CUDA》&＃xff0c;所以举的例子稍微老了一点&＃xff0c;但不影响意思哈&＃xff09;&＃xff1a;

使用显示芯片来进行运算工作&＃xff0c;和使用 CPU 相比&＃xff0c;主要有几个好处&＃xff1a;

显示芯片通常具有更大的内存带宽。例如&＃xff0c;NVIDIA 的 GeForce 8800GTX 具有超过50GB/s 的内存带宽&＃xff0c;而目前高阶 CPU 的内存带宽则在 10GB/s 左右。
显示芯片具有更大量的执行单元。例如 GeForce 8800GTX 具有 128 个 “stream processors”&＃xff0c;频率为 1.35GHz。CPU 频率通常较高&＃xff0c;但是执行单元的数目则要少得多。
和高阶 CPU 相比&＃xff0c;显卡的价格较为低廉。例如一张 GeForce 8800GT 包括512MB 内存的价格&＃xff0c;和一颗 2.4GHz 四核心 CPU 的价格相若。

当然&＃xff0c;使用显示芯片也有它的一些缺点&＃xff1a;

显示芯片的运算单元数量很多&＃xff0c;因此对于不能高度并行化的工作&＃xff0c;所能带来的帮助就不大。
显示芯片目前通常只支持 32 bits 浮点数&＃xff0c;且多半不能完全支持 IEEE 754 规格&＃xff0c; 有些运算的精确度可能较低。目前许多显示芯片并没有分开的整数运算单元&＃xff0c;因此整数运算的效率较差。
显示芯片通常不具有分支预测等复杂的流程控制单元&＃xff0c;因此对于具有高度分支的程序&＃xff0c;效率会比较差。
目前 GPGPU 的程序模型仍不成熟&＃xff0c;也还没有公认的标准。例如 NVIDIA 和AMD/ATI 就有各自不同的程序模型。

CUDA架构

host 和 kernel&＃xff1a;

在 CUDA 的架构下&＃xff0c;一个程序分为两个部份&＃xff1a;host 端和 device 端。Host 端是指在 CPU 上执行的部份&＃xff0c;而 device 端则是在显示芯片上执行的部份。Device 端的程序又称为 “kernel”。通常 host 端程序会将数据准备好后&＃xff0c;复制到显卡的内存中&＃xff0c;再由显示芯片执行 device 端程序&＃xff0c;完成后再由 host 端程序将结果从显卡的内存中取回。

由于 CPU 存取显卡内存时只能透过 PCI Express 接口&＃xff0c;因此速度较慢&＃xff08;PCI Express x16 的理论带宽是双向各 4GB/s&＃xff09;&＃xff0c;因此不能太常进行这类动作&＃xff0c;以免降低效率。

thread-block-grid 结构&＃xff1a;

在 CUDA 架构下&＃xff0c;显示芯片执行时的最小单位是thread。数个 thread 可以组成一个block。一个 block 中的 thread 能存取同一块共享的内存&＃xff0c;而且可以快速进行同步的动作。

每一个 block 所能包含的 thread 数目是有限的。不过&＃xff0c;执行相同程序的 block&＃xff0c;可以组成grid。不同 block 中的 thread 无法存取同一个共享的内存&＃xff0c;因此无法直接互通或进行同步。因此&＃xff0c;不同 block 中的 thread 能合作的程度是比较低的。不过&＃xff0c;利用这个模式&＃xff0c;可以让程序不用担心显示芯片实际上能同时执行的 thread 数目限制。例如&＃xff0c;一个具有很少量执行单元的显示芯片&＃xff0c;可能会把各个 block 中的 thread 顺序执行&＃xff0c;而非同时执行。不同的 grid 则可以执行不同的程序&＃xff08;即 kernel&＃xff09;。

每个 thread 都有自己的一份 register 和 local memory 的空间。同一个 block 中的每个thread 则有共享的一份 share memory。此外&＃xff0c;所有的 thread&＃xff08;包括不同 block 的 thread&＃xff09;都共享一份 global memory、constant memory、和 texture memory。不同的 grid 则有各自的 global memory、constant memory 和 texture memory。

执行模式&＃xff1a;

由于显示芯片大量并行计算的特性&＃xff0c;它处理一些问题的方式&＃xff0c;和一般 CPU 是不同的。主要的特点包括&＃xff1a;

内存存取 latency 的问题&＃xff1a;CPU 通常使用 cache 来减少存取主内存的次数&＃xff0c;以避免内存 latency 影响到执行效率。显示芯片则多半没有 cache&＃xff08;或很小&＃xff09;&＃xff0c;而利用并行化执行的方式来隐藏内存的 latency&＃xff08;即&＃xff0c;当第一个 thread 需要等待内存读取结果时&＃xff0c;则开始执行第二个 thread&＃xff0c;依此类推&＃xff09;。
分支指令的问题&＃xff1a;CPU 通常利用分支预测等方式来减少分支指令造成的 pipeline bubble。显示芯片则多半使用类似处理内存 latency 的方式。不过&＃xff0c;通常显示芯片处理分支的效率会比较差。

因此&＃xff0c;最适合利用 CUDA 处理的问题&＃xff0c;是可以大量并行化的问题&＃xff0c;才能有效隐藏内存的latency&＃xff0c;并有效利用显示芯片上的大量执行单元。使用 CUDA 时&＃xff0c;同时有上千个 thread 在执行是很正常的。因此&＃xff0c;如果不能大量并行化的问题&＃xff0c;使用 CUDA 就没办法达到最好的效率了。

总结&＃xff1a;

再写下去篇幅就太长了&＃xff0c;本篇博客主要还是介绍了CUDA的安装以及一些基本的CUDA的架构&＃xff0c;大家趁着CUDA安装的空可以仔细看一下CUDA的结构&＃xff0c;这对后面的编程还是很重要的&＃xff0c;下面我会从一个很小的程序写起&＃xff0c;不断地把上面介绍到的东西都加进去&＃xff0c;希望能帮助到大家的学习。

推荐阅读

include
C++字符字符串处理及字符集编码方案

本文介绍了C++中字符字符串处理的问题，并详细解释了字符集编码方案，包括UNICODE、Windows apps采用的UTF-16编码、ASCII、SBCS和DBCS编码方案。同时说明了ANSI C标准和Windows中的字符/字符串数据类型实现。文章还提到了在编译时需要定义UNICODE宏以支持unicode编码，否则将使用windows code page编译。最后，给出了相关的头文件和数据类型定义。 ... [详细]

蜡笔小新 2023-12-13 04:59:58
python
2018年人工智能大数据的爆发，学Java还是Python？

本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代，Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言，容易上手。其特色之一是强制使用空白符作为语句缩进，使得新手可以快速上手。目前，Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣，欢迎加入qq群458345782。 ... [详细]

蜡笔小新 2023-12-14 20:08:28
express
Windows操作系统的版本介绍及特点

本文介绍了Windows操作系统的版本及其特点，包括Windows 7系统的6个版本：Starter、Home Basic、Home Premium、Professional、Enterprise、Ultimate。Windows操作系统是微软公司研发的一套操作系统，具有人机操作性优异、支持的应用软件较多、对硬件支持良好等优点。Windows 7 Starter是功能最少的版本，缺乏Aero特效功能，没有64位支持，最初设计不能同时运行三个以上应用程序。 ... [详细]

蜡笔小新 2023-12-12 17:41:13
express
关于CMS收集器的知识介绍和优缺点分析

本文介绍了CMS收集器的概念、运行过程和优缺点，并解释了垃圾回收器的作用和实践。CMS收集器是一种基于标记-清除算法的垃圾回收器，适用于互联网站和B/S系统等对响应速度和停顿时间有较高要求的应用。同时，还提供了其他垃圾回收器的参考资料。 ... [详细]

蜡笔小新 2023-12-12 11:16:50
express
嵌入式处理器的架构与内核发展历程

本文主要介绍了嵌入式处理器的架构与内核发展历程，包括不同架构的指令集的变化，以及内核的流水线和结构。通过对ARM架构的分析，可以更好地理解嵌入式处理器的架构与内核的关系。 ... [详细]

蜡笔小新 2023-12-11 15:38:57
express
eBPF和WebAssembly：云原生VM的比较及应用领域

本文比较了eBPF和WebAssembly作为云原生VM的特点和应用领域。eBPF作为运行在Linux内核中的轻量级代码执行沙箱，适用于网络或安全相关的任务；而WebAssembly作为图灵完备的语言，在商业应用中具有优势。同时，介绍了WebAssembly在Linux内核中运行的尝试以及基于LLVM的云原生WebAssembly编译器WasmEdge Runtime的案例，展示了WebAssembly作为原生应用程序的潜力。 ... [详细]

蜡笔小新 2023-12-14 21:27:37
python
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
io
Windows下配置PHP5.6的方法及注意事项

本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项，包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法，如下载缺失的msvcr110.dll文件等。通过本文的指导，读者可以轻松地在Windows系统下配置PHP5.6，并解决一些常见的配置问题。 ... [详细]

蜡笔小新 2023-12-14 12:37:25
io
Android Studio Bumblebee | 2021.1.1（大黄蜂版本使用介绍）

本文介绍了Android Studio Bumblebee | 2021.1.1（大黄蜂版本）的使用方法和相关知识，包括Gradle的介绍、设备管理器的配置、无线调试、新版本问题等内容。同时还提供了更新版本的下载地址和启动页面截图。 ... [详细]

蜡笔小新 2023-12-14 10:34:15
io
基于事件驱动的并发编程及其消息通信机制的同步与异步、阻塞与非阻塞、IO模型的分类

本文介绍了基于事件驱动的并发编程中的消息通信机制，包括同步和异步的概念及其区别，阻塞和非阻塞的状态，以及IO模型的分类。同步阻塞IO、同步非阻塞IO、异步阻塞IO和异步非阻塞IO等不同的IO模型被详细解释。这些概念和模型对于理解并发编程中的消息通信和IO操作具有重要意义。 ... [详细]

蜡笔小新 2023-12-13 19:32:09
io
CentOS 7部署KVM虚拟化环境之一架构介绍

本文介绍了CentOS 7部署KVM虚拟化环境的架构，详细解释了虚拟化技术的概念和原理，包括全虚拟化和半虚拟化。同时介绍了虚拟机的概念和虚拟化软件的作用。 ... [详细]

蜡笔小新 2023-12-12 21:38:57
io
2020年计算机二级MSOffice选择习题及答案详解

本文介绍了2020年计算机二级MSOffice的选择习题及答案，详细解析了操作系统的五大功能模块，包括处理器管理、作业管理、存储器管理、设备管理和文件管理。同时，还解答了算法的有穷性的含义。 ... [详细]

蜡笔小新 2023-12-12 17:11:34
express
java boolean 大小_java boolean 大小

先看官方文档TheJavaTutorialshavebeenwrittenforJDK8.Examplesandpracticesdescribedinthispagedontta ... [详细]

蜡笔小新 2023-12-12 13:36:56
express
Oracle优化新常态的五大禁止及其性能隐患

本文介绍了Oracle优化新常态中的五大禁止措施，包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB，并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况，并提出了解决方案。 ... [详细]

蜡笔小新 2023-12-12 12:55:55
io
操作系统的定义和功能

本文介绍了操作系统的定义和功能，包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别，包括进程和线程的定义和作用。 ... [详细]

蜡笔小新 2023-12-11 14:17:13

北斗七星

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章