热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

存储缓冲区-[y][x]使用的int数组比[x][y]快3倍?

如何解决《存储缓冲区-[y][x]使用的int数组比[x][y]快3倍?》经验,为你挑选了1个好方法。

作为一个测试项目,我使用计算着色器(Vulkan)编写了Consway基本的生活游戏。基本上:

“板”存储在存储缓冲区内部的int数组中。

#define WIDTH 800
#define HEIGHT 600
#define WORKGROUP_SIZE 32

layout (local_size_x = WORKGROUP_SIZE, local_size_y = WORKGROUP_SIZE, local_size_z = 1) in;

layout(binding = 0) readonly buffer buf1 {
   int data[WIDTH][HEIGHT];
} previousBoard;

layout(binding = 1) buffer buf2 {
   int data[WIDTH][HEIGHT];
} nextBoard;

然后,计算着色器每帧更新一次(每个像素调用一次)。

我随机进行了一些更改,并且我注意到,如果使用data[y][x](from gl_GlobalInvocationID.xy)访问阵列,我的程序比使用(至少在我的计算机(intel UHD 620)上)进行的普通访问要快3倍。data[x][y] [x] [y]为500 fps,而[y] [x]为1700 fps)。

我花了几个小时来隔离这种行为,以确保这不是副作用。我什至反汇编了Spir-v代码,但发现没有什么有趣的东西可以帮助我理解。这里是着色器的差异(带有[x] [y]和[y] [x]):https : //www.diffchecker.com/vFlkEsQp。

我远远不了解这里会发生什么。是否有任何原因可以解释这种性能差异?

我对使用[y] [x]不太满意(或者应该?),那么我还有另一种方法可以使[x] [y]达到类似的效果吗?



1> Nicol Bolas..:

几乎可以肯定,这是缓存一致性的问题。在GLSL中,an int[WIDTH][HEIGHT]是的HEIGHT1D数组的数组WIDTH int。那是主要的。因此,如果你取previousBoard.data[0][0],你获取包括第一也许行的接下来的7层的元件,并且高速缓存行(假定32个字节)第二行的。

您的着色器本身是在2D模型中执行的,在工作组内具有32x32的调用。如果GPU同时执行第一行的调用(0,0到31,0),则仅需要执行4次实际的内存提取。现在,当然,要对所有这些条目执行算法,您将同样需要上一行和下一行,并在右边添加一条用于存储地址的缓存行。

因此,总共需要15次内存提取。听起来可能很多。

但是,让我们检查一下GPU执行第一调用的情况:0,0到0.31。那么,您需要多少次提取?您需要33(底部下方的行为+1),是数字的两倍。请记住:高速缓存行主要是行,而不是列。

当然,您将需要进行同样多的缓存行写操作。

就是说,列第一调用的顺序应该能够提高性能,因为第二列的调用应该获得与第一列相同的缓存行。但这假设实现将在同一时间执行第二列的调用。如果它决定用更多工作组填充其执行单元(即,它执行列0,列32,列64,列96等),那么您可能还没有缓存。

相比之下,行优先顺序保持合理的缓存一致性,而与执行顺序无关。

您无法更改GPU处理调用的顺序。因此,相反,您应该努力使算法尽可能少地关心该顺序。

首先,由于工作组之间的调用之间没有依赖关系,因此不应将其设为local_size二维。您可以使用确切的数字来找到正确的硬件值,但是16x1或32x1可能会起作用。无法保证调用顺序,但是工作组中适合波前的项目往往会一起执行。因此,这将鼓励它以行为主的方式工作,执行0,0; 1,0; 等在同一时间。

其次,减少您使用的空间量。生命游戏的一个细胞恰好具有两种状态。但是您正在使用32位来存储这两个状态。即使您希望避免进行严重的位操作的麻烦,也可以至少将uintbe的每个字节都作为一个单独的单元。从a中提取第N个字节uint是一个非常简单的过程。

棘手的部分将是编写此类数据,因为您有不同的调用来编写单独的数据。但是,如果我们假设您在启动之前已将内存清除为零,则可以使用它atomicOr来写入值。

第三,对数据进行细化处理。也就是说,与其将其存储为行和列,不如将其存储在块中。您遇到的主要问题是因为缓存偏向第一个坐标,但是GPU执行时偏向第二个坐标。

不混乱的数据将(0,0)放在字节0,将(1,0)放在字节4,将(0,1)放在字节(4 * WIDTH)。使用swizzling时,您要做的是将四个字节0​​,0放进去;1,0; 0,1和1,1都在同一高速缓存行上。也就是说,(0,1)位于字节8,而(1,1)位于字节12。这样,如果获取(1,1),则可以确保在同一缓存行中获得所有4个值。 。

您可以使用旋转模式的大小来获得最佳性能。

除此之外,您甚至还可以使自己陷入困境gl_InvocationID。不必依赖调度的2D性质来获取调用的源位置,而是可以使调度成为一维的,并xy通过复杂矩阵来计算调用的位置。因此,调用0将是(0,0),调用1将是(1,0),调用2将是(0,1),调用3将是(1,1),依此类推。

如果您进行工作以尽可能地获得最佳的数据存储,并进行细化处理,则每个缓存行可以代表一个8x8的数据块。这意味着任何连续执行的调用组最多只需要4条缓存行值的数据(在4个块的角落)。此外,这还有助于解决编写问题,因为您可以通过原子操作将数据构建为shared变量,并在最后简单地写出值。您可以安排事情,以使来自不同工作组的两次调用都无需写入相同的值。

那将使一切几乎都独立于GPU执行。


推荐阅读
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • [转载]从零开始学习OpenGL ES之四 – 光效
    继续我们的iPhoneOpenGLES之旅,我们将讨论光效。目前,我们没有加入任何光效。幸运的是,OpenGL在没有设置光效的情况下仍然可 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 本文介绍了九度OnlineJudge中的1002题目“Grading”的解决方法。该题目要求设计一个公平的评分过程,将每个考题分配给3个独立的专家,如果他们的评分不一致,则需要请一位裁判做出最终决定。文章详细描述了评分规则,并给出了解决该问题的程序。 ... [详细]
  • 本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法,并给出了问题的解析和解决方法。详细介绍了问题的背景和规则,并给出了相应的算法解析和实现步骤。通过本文的解析,读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • JVM 学习总结(三)——对象存活判定算法的两种实现
    本文介绍了垃圾收集器在回收堆内存前确定对象存活的两种算法:引用计数算法和可达性分析算法。引用计数算法通过计数器判定对象是否存活,虽然简单高效,但无法解决循环引用的问题;可达性分析算法通过判断对象是否可达来确定存活对象,是主流的Java虚拟机内存管理算法。 ... [详细]
  • 上图是InnoDB存储引擎的结构。1、缓冲池InnoDB存储引擎是基于磁盘存储的,并将其中的记录按照页的方式进行管理。因此可以看作是基于磁盘的数据库系统。在数据库系统中,由于CPU速度 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • 本文介绍了如何使用MATLAB调用摄像头进行人脸检测和识别。首先需要安装扩展工具,并下载安装OS Generic Video Interface。然后使用MATLAB的机器视觉工具箱中的VJ算法进行人脸检测,可以直接调用CascadeObjectDetector函数进行检测。同时还介绍了如何调用摄像头进行人脸识别,并对每一帧图像进行识别。最后,给出了一些相关的参考资料和实例。 ... [详细]
  • Thisworkcameoutofthediscussioninhttps://github.com/typesafehub/config/issues/272 ... [详细]
  • 基于词向量计算文本相似度1.测试数据:链接:https:pan.baidu.coms1fXJjcujAmAwTfsuTg2CbWA提取码:f4vx2.实验代码:imp ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 用户视图(查看运行状态或其他参数)系统视图(配置设备的系统参数)system-viewEntersystemview,returnuservi ... [详细]
  • 数学和统计方法sum对数组中全部或某轴向的元素求和。零长度的数组的sum为0。mean算术平均数。零长度的数组的mean为NaN。importnumpyas ... [详细]
author-avatar
sds家的
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有