热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

基于openvino2019R3的推理性能优化的学习与分析(四)基于GPU的推理(inference)性能分析

再看看纯集成显卡GPU的mobilenet-ssd的推理性能, 测试平台是i57440HQ,4核4线程,GPU是Gen9的GT2,24EU,属于纯大白菜集成显卡 首先是FP32模型

再看看纯集成显卡GPU的mobilenet-ssd 的推理性能,  测试平台是i5 7440HQ, 4核4线程, GPU是Gen9 的GT2, 24EU, 属于纯大白菜集成显卡

 

首先是FP32模型

当Batch size =1时

  • inference request(nireq) = 1时,即同时只有一个推理请求

基于openvino 2019R3的推理性能优化的学习与分析 (四) 基于GPU的推理(inference)性能分析

Latency = 13.6ms, Throughtput = 73FPS, 性能还不错,是CPU的2倍多

  • inference request(nireq) = 4时,即设置GPU_THROUGHPUT_STREAMS = GPU_THROUGHPUT_AUTO时,openvino建议number of stream数为2, 对应的number of ireq并发数为4 , 同时并发4个推理请求

基于openvino 2019R3的推理性能优化的学习与分析 (四) 基于GPU的推理(inference)性能分析

这个就有点尴尬了,Throughtput = 78FPS, 提升不大, 对应的CPU推理是96FPS。这时候的性能表现不如CPU。这时候每路推理的一致性还不错,每路的工作量基本一致

 

接下来看看batch size = 3,inference request(nireq) = 4时。即每次推理处理三张图片, 4路推理并发的情况

基于openvino 2019R3的推理性能优化的学习与分析 (四) 基于GPU的推理(inference)性能分析

63FPS, 看来集成显卡资源有限,数据量一旦超出硬件的能力范围性能就会大打折扣

 

 

接下来是FP16模型

当Batch size =1时

  • inference request(nireq) = 1时,即同时只有一个推理请求

基于openvino 2019R3的推理性能优化的学习与分析 (四) 基于GPU的推理(inference)性能分析

Latency: 9ms, Throughtput: 113FPS, 这个数字大大高于CPU FP32的最好表现

 

  • inference request(nireq) = 4时,即设置GPU_THROUGHPUT_STREAMS = GPU_THROUGHPUT_AUTO时,openvino建议number of stream数为2, 对应的number of ireq并发数为4 , 同时并发4个推理请求

基于openvino 2019R3的推理性能优化的学习与分析 (四) 基于GPU的推理(inference)性能分析

133FPS,看来GPU相对于CPU确实更适合做推理。同时相对于FP32的模型,因为FP16模型对内存带宽的需求减半,所以性能也是大大的提升。

 

还是看batch size = 3,inference request(nireq) = 4时。即每次推理处理三张图片, 4路推理并发的情况

基于openvino 2019R3的推理性能优化的学习与分析 (四) 基于GPU的推理(inference)性能分析

看来还是硬件资源有限,数据一多以后处理能力就会大幅度下降。

 

前面都是用GPU_THROUGHPUT_STREAMS = GPU_THROUGHPUT_AUTO来测试,最后看一下手工设置GPU_THROUGHPUT_STREAMS = 1,即nstream = 1, nireq =2的情况,看看性能会不会减半

基于openvino 2019R3的推理性能优化的学习与分析 (四) 基于GPU的推理(inference)性能分析

这个FPS几乎和GPU_THROUGHPUT_AUTO一样了,只有不到2%的下降,看来前2路的推理就占了GPU绝大多数的资源,GPU_THROUGHPUT_AUTO多出来的2路nireq就是为了再从蚊子腿里再找一些肉。

 

简单总结一下,OpenVINO的GPU推理

  1. 对GPU推理来说,FP16的性能大大好于FP32, 基本可以翻倍
  2. batch size一定要设为1,因为GPU的资源限制比CPU还多,所以一定要精打细算,少食多餐
  3. 推理并发数不一定非要按照GPU_THROUGHPUT_AUTO的建议值来设,并发数稍微少一些也能获得很好的性能,同时也能给其他系统应用保留更多的资源调度
  4. GPU推理不容易造成CPU过热降频而引起性能下降,同时也不怎么受Windows后台程序的影响。只要有足够的CPU资源给GPU喂数据,处理速度都会比较稳定
  5. GPU推理性能会受其他图形程序使用GPU而引起性能下降,比如推理同时调用OpenCV的imshow()显示会导致推理速度下降

推荐阅读
  • 本文介绍了操作系统的定义和功能,包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别,包括进程和线程的定义和作用。 ... [详细]
  • 本文介绍了Windows操作系统的版本及其特点,包括Windows 7系统的6个版本:Starter、Home Basic、Home Premium、Professional、Enterprise、Ultimate。Windows操作系统是微软公司研发的一套操作系统,具有人机操作性优异、支持的应用软件较多、对硬件支持良好等优点。Windows 7 Starter是功能最少的版本,缺乏Aero特效功能,没有64位支持,最初设计不能同时运行三个以上应用程序。 ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • 本文介绍了C#中生成随机数的三种方法,并分析了其中存在的问题。首先介绍了使用Random类生成随机数的默认方法,但在高并发情况下可能会出现重复的情况。接着通过循环生成了一系列随机数,进一步突显了这个问题。文章指出,随机数生成在任何编程语言中都是必备的功能,但Random类生成的随机数并不可靠。最后,提出了需要寻找其他可靠的随机数生成方法的建议。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • 基于事件驱动的并发编程及其消息通信机制的同步与异步、阻塞与非阻塞、IO模型的分类
    本文介绍了基于事件驱动的并发编程中的消息通信机制,包括同步和异步的概念及其区别,阻塞和非阻塞的状态,以及IO模型的分类。同步阻塞IO、同步非阻塞IO、异步阻塞IO和异步非阻塞IO等不同的IO模型被详细解释。这些概念和模型对于理解并发编程中的消息通信和IO操作具有重要意义。 ... [详细]
  • Python瓦片图下载、合并、绘图、标记的代码示例
    本文提供了Python瓦片图下载、合并、绘图、标记的代码示例,包括下载代码、多线程下载、图像处理等功能。通过参考geoserver,使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法,供读者参考使用。 ... [详细]
  • 在springmvc框架中,前台ajax调用方法,对图片批量下载,如何弹出提示保存位置选框?Controller方法 ... [详细]
  • 关于CMS收集器的知识介绍和优缺点分析
    本文介绍了CMS收集器的概念、运行过程和优缺点,并解释了垃圾回收器的作用和实践。CMS收集器是一种基于标记-清除算法的垃圾回收器,适用于互联网站和B/S系统等对响应速度和停顿时间有较高要求的应用。同时,还提供了其他垃圾回收器的参考资料。 ... [详细]
  • 篇首语:本文由编程笔记#小编为大家整理,主要介绍了软件测试知识点之数据库压力测试方法小结相关的知识,希望对你有一定的参考价值。 ... [详细]
  • MySQL数据库锁机制及其应用(数据库锁的概念)
    本文介绍了MySQL数据库锁机制及其应用。数据库锁是计算机协调多个进程或线程并发访问某一资源的机制,在数据库中,数据是一种供许多用户共享的资源,如何保证数据并发访问的一致性和有效性是数据库必须解决的问题。MySQL的锁机制相对简单,不同的存储引擎支持不同的锁机制,主要包括表级锁、行级锁和页面锁。本文详细介绍了MySQL表级锁的锁模式和特点,以及行级锁和页面锁的特点和应用场景。同时还讨论了锁冲突对数据库并发访问性能的影响。 ... [详细]
  • AFNetwork框架(零)使用NSURLSession进行网络请求
    本文介绍了AFNetwork框架中使用NSURLSession进行网络请求的方法,包括NSURLSession的配置、请求的创建和执行等步骤。同时还介绍了NSURLSessionDelegate和NSURLSessionConfiguration的相关内容。通过本文可以了解到AFNetwork框架中使用NSURLSession进行网络请求的基本流程和注意事项。 ... [详细]
  • 深入理解Java虚拟机的并发编程与性能优化
    本文主要介绍了Java内存模型与线程的相关概念,探讨了并发编程在服务端应用中的重要性。同时,介绍了Java语言和虚拟机提供的工具,帮助开发人员处理并发方面的问题,提高程序的并发能力和性能优化。文章指出,充分利用计算机处理器的能力和协调线程之间的并发操作是提高服务端程序性能的关键。 ... [详细]
  • 计算机存储系统的层次结构及其优势
    本文介绍了计算机存储系统的层次结构,包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体,形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低,使得整体存储系统的平均价格降低。同时,高速缓存的存取速度可以和CPU的工作速度相匹配,进一步提高程序执行效率。 ... [详细]
  • 本文介绍了django中视图函数的使用方法,包括如何接收Web请求并返回Web响应,以及如何处理GET请求和POST请求。同时还介绍了urls.py和views.py文件的配置方式。 ... [详细]
author-avatar
白色的睡
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有