向量加载/存储和收集/分散的每元素原子性？

作者：暗淡的天2004_976 | 来源：互联网 | 2023-01-20 12:26

如何解决《向量加载/存储和收集/分散的每元素原子性？》经验，谁能帮忙解答一下？

考虑像一个数组atomic shared_array[].如果你想SIMD矢量化for(...) sum += shared_array[i].load(memory_order_relaxed)怎么办？或者在数组中搜索第一个非零元素,或者将其范围归零？这可能很少见,但考虑一下不允许在元素内撕裂的任何用例,但在元素之间重新排序很好. (也许是寻找CAS候选人的搜索).

我认为 x86对齐的向量加载/存储在实践中可以安全地用于带有mo_relaxed操作的SIMD ,因为任何撕裂只会发生在当前硬件上最坏的8B边界(因为这是自然对齐的8B访问原子^1的原因).不幸的是,英特尔的手册只说:

"可以使用多个存储器访问来实现访问大于四字的数据的x87指令或SSE指令."

无法保证这些组件访问是自然对齐,不重叠或其他任何内容.(有趣的事实:根据Agner Fog,大概是qword + word,fld m80在Haswell上用2个加载uops和2个ALU uops完成x87 10字节加载.)

如果你想在面向未来的方式,当前的x86手册上说,未来所有的x86 CPU将努力向量化,你可以在8B块与加载/存储movq/ movhps.

或者你可以使用vpmaskmovd带有全真掩码的256b,因为手册的操作部分用多个独立的32位负载来定义它,比如Load_32(mem + 4).这是否意味着每个元素都作为一个单独的32位访问,保证该元素内的原子性？

(在实际硬件上,它是Haswell上的1个负载和2个端口5 uops,或者Ryzen上只有1或2个负载+ ALU uops(128/256).我认为这是针对不需要从元素中抑制异常的情况进入一个未映射的页面,因为它可能会更慢(但IDK如果它需要微代码辅助).无论如何,这告诉我们它至少与vmovdqaHaswell上的正常负载一样原子,但这告诉我们没有关于x86 Deathstation 9000 16B的信息/ 32B向量访问被分解为单字节访问,因此每个元素内可能会有撕裂.

我认为实际上可以安全地假设你不会在16,32或64位元素中撕裂任何真正的x86 CPU上的对齐矢量加载/存储,因为这对于已经有效的实现是没有意义的必须保持自然对齐的64位标量存储原子,但知道手册中的保证到底有多远是有趣的.)

收集(AVX2,AVX512)/ Scatter(AVX512)

类似vpgatherdd的指令显然由多个独立的32b或64b访问组成.AVX2表格被记录为多次执行,FETCH_32BITS(DATA_ADDR);因此可能会被通常的原子性保证所覆盖,并且如果它不跨越边界,则每个元素将以原子方式收集.

AVX512褶裥都记录在英特尔公司的PDF的insn参考手册作为
DEST[i+31:i] <- MEM[BASE_ADDR + SignExtend(VINDEX[i+31:i]) * SCALE + DISP]), 1) 用于单独地每个元素.(订购:元素可以按任何顺序收集,但故障必须按从右到左的顺序进行.内存订购与其他指令遵循Intel-64内存订购模式.)

AVX512 散射以相同的方式记录(prev链接的第1802页).没有提到原子性,但它们确实涵盖了一些有趣的极端情况:

如果两个或更多目的地索引完全重叠,则可以跳过"更早"的写入.

元素可以按任何顺序分散,但故障必须以从右到左的顺序传递

如果该指令覆盖自身然后发生故障,则在故障传递之前只能完成一部分元素(如上所述).如果故障处理程序完成并尝试重新执行此指令,则将执行新指令,并且分散将不会完成.

仅保证对重叠矢量索引的写入相对于彼此(从源寄存器的LSB到MSB)进行排序.请注意,这还包括部分重叠的矢量索引.不重叠的写入可以按任何顺序发生.使用其他指令进行内存排序遵循Intel-64内存订购模式.请注意,这不会考虑映射到相同物理地址位置的非重叠索引.

(即因为相同的物理页面被映射到两个不同虚拟地址的虚拟内存中.因此,重叠检测允许在地址转换之前(或与其并行)发生,而不需要在之后重新检查.)

我把最后两个包括在内,因为它们是有趣的角落案例,我甚至都没想过要这么做.自我修改的案例很有趣,虽然我认为rep stosd会有同样的问题(它也可以中断,rcx用于跟踪进度).

我认为原子性是Intel-64内存排序模型的一部分,所以他们提到它并且没有说别的事实似乎暗示每元素访问是原子的.(几乎可以肯定,收集两个相邻的4B元素并不算作单个8B访问.)

x86手册保证哪些向量加载/存储指令在每个元素的基础上是原子的？

在真实硬件上进行的实验测试几乎肯定会告诉我,我的Skylake CPU上的所有内容都是原子的,而这不是这个问题的内容. 我问我对手册的解释是否正确vmaskmov/ vpmaskmov加载,以及收集/分散.

(如果有任何理由怀疑真正的硬件将继续成为简单movdqa负载的元素原子,那么这也是一个有用的答案.)

脚注:x86原子性基础知识:

根据英特尔和AMD的手册,在x86中,8B或更窄的自然对齐的加载和存储保证是原子的.事实上,对于缓存访问,任何不跨越8B边界的访问也是原子的.(在英特尔P6及更高版本上提供比AMD更强的保证:在高速缓存行(例如64B)内未对齐是缓存访问的原子).

16B或更宽的矢量加载/存储不保证是原子的.它们位于某些CPU上(至少对于观察者是其他CPU时的缓存访问),但即使对L1D缓存进行16B范围的原子访问也不会使其成为原子.例如,针对AMD K10 Opterons的套接字之间的HyperTransport一致性协议引入了对齐的16B向量的一半之间的撕裂,即使在相同套接字(物理CPU)中的线程上的测试显示没有撕裂.

(如果你需要一个完整的16B原子加载或存储,你可以lock cmpxchg16b像gcc一样攻击一个std::atomic,但这对性能来说很糟糕.另见x86_64上的原子双浮点或SSE/AVX向量加载/存储.)

推荐阅读

go
关于Perl中split的用法的更多说明 - More clarification about the usage of split in Perl

Ihavethisfollowinginputfile:我有以下输入文件:test.csvdone_cfg,,,,port<0>,clk_in,subcktA,ins ... [详细]

蜡笔小新 2023-10-16 17:45:16
go
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
go
Support Paged.JS for automatic hugo resume> PDF conversion.

FeatureRequestIsyourfeaturerequestrelatedtoaproblem?Please ... [详细]

蜡笔小新 2023-12-13 11:52:05
get
Android自定义控件绘图篇之Paint函数大汇总

本文介绍了Android自定义控件绘图篇中的Paint函数大汇总，包括重置画笔、设置颜色、设置透明度、设置样式、设置宽度、设置抗锯齿等功能。通过学习这些函数，可以更好地掌握Paint的用法。 ... [详细]

蜡笔小新 2023-12-10 23:11:57
go
Grails找到了排序、顺序、最大值和偏移量? - Grails findAll with sort, order, max and offset?

Iwanttointegratesort,order,maxandoffsetinafindAllquery.Thefollowingworksfine:我想在fin ... [详细]

蜡笔小新 2023-10-17 17:56:58
jsp
FreeRTOS学习笔记4：时间管理

绝对时间：absTime相对时间：百分比%timeIDLE是空闲任务。RUN_Time_State：port。。。（）初始化一个外设提供时基单元具体初始化要自己操作这个定时器的分辨 ... [详细]

蜡笔小新 2023-10-17 12:42:13
jsp
大厂首发！思源笔记docker

JVMRedisJVM面试内存模型以及分区，需要详细到每个区放什么？GC的两种判定方法GC的三种收集方法：标记清除、标记整理、复制算法的 ... [详细]

蜡笔小新 2023-10-16 16:43:34
fetch
kafka 0.9+消费者配置参数说明

ConsumerConfiguration在kafka0.9使用JavaConsumer替代了老版本的scalaConsumer。新版的配置如下：bootstrap. ... [详细]

蜡笔小新 2023-10-16 10:44:59
go
生成对抗式网络GAN及其衍生CGAN、DCGAN、WGAN、LSGAN、BEGAN介绍

一、GAN原理介绍学习GAN的第一篇论文当然由是IanGoodfellow于2014年发表的GenerativeAdversarialNetworks（论文下载链接arxiv：[h ... [详细]

蜡笔小新 2023-12-14 11:39:45
go
t-io 2.0.0发布-法网天眼第一版的回顾和更新说明

本文回顾了t-io 1.x版本的工程结构和性能数据，并介绍了t-io在码云上的成绩和用户反馈。同时，还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后，详细介绍了t-io 2.0.0版本的更新内容，包括更简洁的使用方式和内置的httpsession功能。 ... [详细]

蜡笔小新 2023-12-14 10:17:48
get
STM32 IO口模拟串口通讯

转自：http:ziye334.blog.163.comblogstatic224306191201452833850647前阵子，调项目时需要用到低波 ... [详细]

蜡笔小新 2023-10-17 19:54:28
js
php连接mysql显示数据,php连接mysql数据库的算法思想

本文目录一览：1、怎么用php显示mysql数据表数据 ... [详细]

蜡笔小新 2023-10-16 13:24:54
js
电信网为不能访问联通服务器的网站_老板说网站慢，我们总结了三大阶段提升性能...

作者：李平来源：https:www.cnblogs.comleefreemanp3998757.html前言在前一篇随笔《大型网站系统架构的演化》中&# ... [详细]

蜡笔小新 2023-10-16 11:59:07
fetch
c怎么将得到的数据存入到数组里

数据库|mysql教程cmysqlc++数组数据库-mysql教程cmysqlc++数组c管理系统框架源码下载,鼠标ubuntu不显示,爬虫读取照片信息,sqllitephp,淘宝 ... [详细]

蜡笔小新 2023-10-16 10:15:57
fetch
阿里面试官：“说一下从 url 输入到返回请求的过程”！网友：直接收藏本文a...

点击上方[全栈开发者社区]→右上角[]→[设为星标⭐]前言年前准备换工作，总结了一波面试最频繁的面试问题跟大家交流。此文章是关于浏览器的常见问题， ... [详细]

蜡笔小新 2023-10-15 19:57:03

暗淡的天2004_976

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章