作者:手机用户2502903815 | 来源:互联网 | 2023-02-11 19:14
在x86或amd64上使用汇编指令时,程序员可以使用"Intel"(即nasm
编译器)或"AT&T"(即gas
编译器)汇编语法."Intel"语法在Windows上更受欢迎,但"AT&T"在UNIX(类似)系统上更受欢迎.
但是英特尔和AMD手册,以及芯片创建者创建的手册都使用"英特尔"语法.
我想知道,"AT&T"语法设计背后的原始想法是什么?浮动处理器创建者使用的符号有什么好处?
1> fuz..:
UNIX很长一段时间是在PDP-11上开发的,这是一台来自DEC的16位计算机,它具有相当简单的指令集.几乎每条指令都有两个操作数,每个操作数可以有以下八种寻址模式之一,这里用MACRO 16汇编语言显示:
0n Rn register
1n (Rn) deferred
2n (Rn)+ autoincrement
3n @(Rn)+ autoincrement deferred
4n -(Rn) autodecrement
5n @-(Rn) autodecrement deferred
6n X(Rn) index
7n @X(Rn) index deferred
可以通过巧妙地重用R7(程序计数器)上的一些寻址模式来编码中间地址和直接地址:
27 #imm immediate
37 @#imm absolute
67 addr relative
77 @addr relative deferred
作为使用UNIX tty驱动@
和#
控制字符,$
代替#
和*
对@
.
PDP11指令字中的第一个操作数是指源操作数,而第二个操作数是指目的地.这反映在汇编语言的操作数顺序中,即源,然后是目标.例如,操作码
011273
指的是指令
mov (R2),R3
它将指向的单词移动R2
到R3
.
此语法适用于8086 CPU及其寻址模式:
mr0 X(bx,si) bx + si indexed
mr1 X(bx,di) bx + di indexed
mr2 X(bp,si) bp + si indexed
mr3 X(bp,di) bp + di indexed
mr4 X(si) si indexed
mr5 X(di) di indexed
mr6 X(bp) bp indexed
mr7 X(bx) bx indexed
3rR R register
0r6 addr direct
其中m
是0,如果没有索引,m
是1,如果有一个字节的索引,m
是2,如果有一个两字节索引和m
为3,如果代替存储器操作数,使用一个寄存器.如果存在两个操作数,则另一个操作数始终是寄存器并以r
数字编码.否则,r
编码操作码的另外三位.
在该寻址方案中不可能使用中间体,所有采用立即数的指令都在其操作码中编码该事实.Immediates拼写$imm
就像在PDP-11语法中一样.
虽然英特尔总是使用dst, src
其汇编程序的操作数排序,但没有特别令人信服的理由来适应这种约定,并且编写UNIX汇编程序以使用src, dst
PDP11中已知的操作数排序.
他们在实现8087浮点指令时与这种排序有一些不一致,可能是因为英特尔给出了非交换浮点指令的两个可能方向,这些指令与AT&T语法使用的操作数排序不匹配.
PDP11指令jmp
(跳转)和jsr
(跳转到子程序)跳转到其操作数的地址.因此,jmp foo
将跳转到foo
并jmp *foo
会跳转到存储在变量的地址foo
,类似于如何lea
在8086的作品.
x86 jmp
和call
指令的语法被设计为好像这些指令在PDP11上工作一样,这就是jmp foo
跳转到foo
并jmp *foo
跳转到地址值的原因foo
,即使8086实际上没有延迟寻址.这具有在语法上区分直接跳转与间接跳转的优点和便利,而不需要$
每个直接跳转目标的前缀,但逻辑上没有很多意义.
扩展语法以使用冒号指定段前缀:
seg:addr
当引入80386时,该方案使用四部分通用寻址模式适应其新的SIB寻址模式:
disp(base,index,scale)
其中disp
是位移,base是基址寄存器,index
索引寄存器scale
是1,2,4或8,用于按索引寄存器中的一个来缩放索引寄存器.这等于Intel语法:
[disp+base+index*scale]
PDP-11的另一个显着特点是大多数指令都有字节和字变体.您使用哪一个由操作码的后缀b
或w
后缀表示,它直接切换操作码的第一位:
010001 movw r0,r1
110001 movb r0,r1
这也适用于AT&T语法,因为大多数8086指令确实也可用于字节模式和字模式.后来80386和AMD K6引入了32位指令(后缀l
为long
)和64位指令(后缀q
为quad).
最后但并非最不重要的是,最初的惯例是使用下划线为C语言符号添加前缀(在Windows上仍然如此),因此您可以区分ax
从寄存器命名的C函数ax
.当Unix系统实验室开发出ELF二进制格式时,他们决定摆脱这种装饰.由于无法区分直接地址和寄存器,否则会%
在每个寄存器中添加前缀:
mov direct,%eax # move memory at direct to %eax
这就是我们今天获得AT&T语法的方式.
@BeeOnRope:哦,原来NASM让你写`$ eax`来引用符号`eax`.罗斯回答了我的问题:)
我想NASM至少在这方面是无辜的"可怕的设计".现在,如果他们只修复他们的DWARF信息生成.