viki/misc/at-and-t-asm.viki

   1 AT&T汇编语言与GCC内嵌汇编简介
   2 1 AT&T 与INTEL的汇编语言语法的区别
   3 1.1大小写
   4 1.2操作数赋值方向
   5 1.3前缀
   6 1.4间接寻址语法
   7 1.5后缀
   8 1.6指令
   9
  10 2 GCC内嵌汇编
  11 2.1简介
  12 2.2内嵌汇编举例
  13 2.3语法
  14 2.3.1汇编语句模板
  15 2.3.2输出部分
  16 2.3.3输入部分
  17 2.3.4限制字符
  18 2.3.5破坏描述部分
  19 2.4GCC如何编译内嵌汇编代码
  20
  21 3后记
  22
  23 本节先介绍
  24 AT&T汇编语言语法与INTEL汇编语法的差别，然后介绍GCC内嵌汇编语法。阅读本节需要读者具有INTEL
  25 汇编语言基础。
  26
  27
  28
  29 1 AT&T 与INTEL的汇编语言语法的区别
  30
  31
  32 1.1
  33 指令大小写
  34 INTEL格式的指令使用大写字母，而AT&T
  35 格式的使用小写字母。
  36 例：
  37 INTEL AT&T
  38 MOV EAX,EBX movl %ebx,%eax
  39 1.2
  40 指令操作数赋值方向
  41
  42 在INTEL语法中，第一个表示目的操作数，第二个表示源操作数，赋值方向从右向左。
  43 AT&T语法第一个为源操作数，第二个为目的操作数，方向从左到右，合乎自然。
  44
  45
  46 例：
  47 INTEL AT&T
  48 MOV EAX,EBX movl %ebx,%eax
  49 1.3
  50 指令前缀
  51 在INTEL语法中寄存器和立即数不需要前缀；
  52 AT&T中寄存器需要加前缀“%”；立即数需要加前缀“$”。
  53
  54
  55 例：
  56 INTEL AT&T
  57 MOV EAX,1 movl $1,%eax
  58
  59 符号常数直接引用，不需要加前缀，如：
  60 movl value , %ebx
  61 value为一常数；
  62 在符号前加前缀 $, 表示引用符号地址,
  63 如
  64 movl $value, %ebx
  65 是将value的地址放到ebx中。
  66
  67 总线锁定前缀“lock”：
  68 总线锁定操作。“lock”前缀在Linux
  69 核心代码中使用很多，特别是SMP
  70 代码中。当总线锁定后其它CPU
  71 不能存取锁定地址处的内存单元。
  72
  73 远程跳转指令和子过程调用指令的操作码使用前缀“l“，分别为ljmp，lcall，
  74 与之相应的返回指令伪lret。
  75 例：
  76
  77 INTEL AT&T
  78
  79 lcall $secion:$offset
  80 JMP FAR SECTION:OFFSET ljmp $secion:$offset
  81 RET FAR SATCK_ADJUST lret $stack_adjust
  82
  83 1.4 间接寻址语法
  84
  85 INTEL中基地址使用“[”、“]”，而在AT&T“(”、“)”；
  86 另外处理复杂操作数的语法也不同，
  87 INTEL为Segreg:[base+index*scale+disp]
  88 ，而在AT&T中为%segreg:disp(base,index,sale)，其中segreg
  89 ，index,scale，disp都是可选的，在指定index而没有显式指定Scale
  90 的情况下使用默认值1。Scale,disp不需要加前缀“&”。
  91
  92 INTEL AT&T
  93 Instr foo,segreg:[base+index*scale+disp] instr %segreg:disp(base,index,scale),foo
  94
  95 1.5
  96 指令后缀
  97
  98 AT&T
  99 语法中大部分指令操作码的最后一个字母表示操作数大小，“b”表示byte
 100 （一个字节）；“w”表示word（2，个字节）；“l”表示long（4，个字节）。
 101 INTEL中处理内存操作数时也有类似的语法如：
 102 BYTE PTR、WORD PTR、DWORD PTR。
 103
 104 例：
 105 INTEL AT&T
 106 mov al, bl movb %bl,%al
 107 mov ax,bx movw %bx,%ax
 108 mov eax, dword ptr [ebx] movl (%ebx), %eax
 109
 110
 111 AT&T汇编指令中，操作数扩展指令有两个后缀，一个指定源操作数的字长，另一个指定目标操作数的字长。AT&T的符号扩展指令的为“movs”，零扩展指令为“movz
 112 ”（相应的Intel指令为“movsx”和“movzx”）。因此，“movsbl %al,%edx”表示对寄存器al
 113 中的字节数据进行字节到长字的符号扩展，计算结果存放在寄存器edx
 114 中。下面是一些允许的操作数扩展后缀：
 115
 116 l
 117 bl: ，字节>->长字 l
 118 bw: ，字节>->字 l
 119 wl: ，字->长字
 120
 121 跳转指令标号后的后缀表示跳转方向，“f”表示向前（forward），
 122 “b，”表示向后（back）。
 123 例：
 124
 125 jmp 1f
 126 jmp 1f
 127
 128 1.6 指令
 129 INTEL汇编与AT&T汇编指令基本相同，差别仅在语法上。关于每条指令的语法可以参考I386Manual。
 130
 131
 132
 133 2 GCC内嵌汇编
 134
 135 2.1 简介
 136
 137 内核代码绝大部分使用C
 138 语言编写，只有一小部分使用汇编语言编写，例如与特定体系结构相关的代码和对性能影响很大的代码。GCC提供了内嵌汇编的功能，可以在C代码中直接内嵌汇编语言语句，大大方便了程序设计。
 139
 140 简单的内嵌汇编很容易理解
 141
 142
 143 例：
 144
 145 __asm__
 146 __volatile__("hlt");
 147
 148 “__asm__”表示后面的代码为内嵌汇编，“asm”是“__asm__”的别名。
 149 “__volatile__”表示编译器不要优化代码，后面的指令保留原样，
 150 “volatile”是它的别名。括号里面是汇编指令。
 151
 152 2.2 内嵌汇编举例在内嵌汇编中，可以将C
 153 语言表达式指定为汇编指令的操作数，而且不用去管如何将C
 154 语言表达式的值读入哪个寄存器，以及如何将计算结果写回C
 155 变量，你只要告诉程序中C语言表达式与汇编指令操作数之间的对应关系即可， GCC
 156 会自动插入代码完成必要的操作。
 157
 158
 159
 160
 161 使用内嵌汇编，要先编写汇编指令模板，然后将C语言表达式与指令的操作数相关联，并告诉
 162 GCC对这些操作有哪些限制条件。例如在下面的汇编语句：
 163
 164 __asm__ __violate__
 165 ("movl %1,%0" : "=r" (result) : "m" (input));
 166
 167
 168
 169
 170
 171
 172
 173 “movl %1,%0”是指令模板；“%0”和“%1”代表指令的操作数，称为占位符，内嵌汇编靠它们将C
 174 语言表达式与指令操作数相对应。指令模板后面用小括号括起来的是C
 175 语言表达式，本例中只有两个：“result”和“input”，他们按照出现的顺序分别与指令操作
 176 数“%0”，“%1，”对应；注意对应顺序：第一个C表达式对应“%0”；第二个表达式对应“%1
 177 ”，依次类推，操作数至多有10个，分别用“%0”，“%1”….“%9，”表示。在每个操作数前
 178 面有一个用引号括起来的字符串，字符串的内容是对该操作数的限制或者说要求。“result”前面
 179 的限制字符串是“=r”，其中“=”表示“result”是输出操作数，“r
 180 ”表示需要将“result”与某个通用寄存器相关联，先将操作数的值读入寄存器，然后
 181 在指令中使用相应寄存器，而不是“result”本身，当然指令执行完后需要将寄存器中的值
 182 存入变量“result”，从表面上看好像是指令直接对“result”进行操作，实际上GCC
 183 做了隐式处理，这样我们可以少写一些指令。“input”前面的“r”表示该表达式需要先放入
 184 某个寄存器，然后在指令中使用该寄存器参加运算。
 185
 186
 187
 188
 189 我们将上面的内嵌代码放到一个C源文件中，然后使用gcc –c–S得到该C
 190 文件源代码相对应的汇编代码，然后查看一下汇编代码，看看GCC是如何处理的。
 191
 192
 193
 194 C源文件如下内容如下，注意该代码没有实际意义，仅仅作为例子。
 195
 196
 197 extern int
 198 input,result;
 199
 200 void test(void)
 201 {
 202 input
 203 = 1;
 204 __asm__ __volatile__ ("movl %1,%0" :
 205 "=r" (result) : "r" (input));
 206 return
 207 ;
 208 }
 209
 210
 211
 212
 213
 214
 215
 216 对应的汇编代码如下;
 217
 218 行号 代码 解释
 219
 220 1
 221 7
 222 8 movl $1, input 对应C语言语句input = 1;
 223 9 input, %eax
 224 10 #APP GCC插入的注释，表示内嵌汇编开始
 225 11 movl %eax,%eax 我们的内嵌汇编语句
 226 12 #NO_APP GCC 插入的注释，表示内嵌汇编结束
 227 13 movl %eax, result 将结果存入result变量
 228 14
 229 －
 230 18
 231 。。。。。。
 232
 233 从汇编代码可以看出，第9行和第13行是GCC，自动增加的代码，GCC
 234 根据限定字符串决定如何处理C表达式，本例两个表达式都被指定为“r”型，所以先使用指令：
 235 movl input, %eax
 236
 237 将input读入寄存器%eax；GCC，也指定一个寄存器与输出变量result
 238 相关，本例也是%eax，等得到操作结果后再使用指令：
 239
 240 movl %eax, result
 241
 242
 243 将寄存器的值写回C变量result中。从上面的汇编代码我们可以看出与result
 244 和input，相关连的寄存器都是%eax，GCC使用%eax，替换内嵌汇编指令模板中的
 245 %0，%1
 246
 247 movl %eax,%eax
 248 显然这一句可以不要。但是没有优化，所以这一句没有被去掉。
 249
 250 由此可见，C表达式或者变量与寄存器的关系由GCC自动处理，我们只需使用限制字符串指导GCC
 251 如何处理即可。限制字符必须与指令对操作数的要求相匹配，否则产生的汇编代码
 252 将会有错，读者可以将上例中的两个“r”，都改为“m”(m，表示操作数放在内存，而不是寄
 253 存器中)，编译后得到的结果是：
 254
 255 movl input, result
 256
 257 很明显这是一条非法指令，因此限制字符串必须与指令对操作数的要求匹配。例如指令movl
 258 允许寄存器到寄存器，立即数到寄存器等，但是不允许内存到内存的操作，因此两个操作数
 259 不能同时使用“m”作为限定字符。
 260
 261 2.3 语法
 262
 263
 264 内嵌汇编语法如下：
 265
 266 __asm__(
 267 汇编语句模板:
 268 输出部分:
 269 输入部分:
 270 破坏描述部分)
 271
 272
 273 共四个部分：汇编语句模板，输出部分，输入部分，破坏描述部分，各部分使用“:”格
 274 开，汇编语句模板必不可少，其他三部分可选，如果使用了后面的部分，而前面部分为空，
 275 也需要用“:”格开，相应部分内容为空。例如：
 276
 277 __asm__ __volatile__(
 278 "cli":
 279 :
 280 :"memory")
 281
 282 2.3.1 汇编语句模板
 283
 284
 285 汇编语句模板由汇编语句序列组成，语句之间使用“;”、“\n”或“\n\t”分开。
 286 指令中的操作数可以使用占位符引用C语言变量，操作数占位符最多10个，名称如下：%0，%1…，%9。
 287 指令中使用占位符表示的操作数，总被视为long型（4，个字节），但对其施加的操作
 288 根据指令可以是字或者字节，当把操作数当作字或者字节使用时，默认为低字或者低字节。
 289 对字节操作可以显式的指明是低字节还是次字节。方法是在%和序号之间插入一个字母，
 290 “b”代表低字节，“h”代表高字节，例如：%h1。
 291
 292 2.3.2 输出部分
 293
 294 输出部分描述输出操作数，不同的操作数描述符之间用逗号格开，每个操作数描述符由限定字符串和
 295 C语言变量组成。每个输出操作数的限定字符串必须包含“=”表示他是一个输出操作数。
 296
 297
 298 例：
 299 __asm__ __volatile__("pushfl ; popl %0 ; cli":"=g" (x) )
 300
 301 描述符字符串表示对该变量的限制条件，这样GCC就可以根据这些条件决定如何
 302 分配寄存器，如何产生必要的代码处理指令操作数与C表达式或C变量之间的联系。
 303
 304 2.3.3 输入部分
 305
 306 输入部分描述输入操作数，不同的操作数描述符之间使用逗号格开，每个操作数描述符由
 307 限定字符串和C语言表达式或者C语言变量组成。
 308
 309
 310 例1：
 311 __asm__ __volatile__ ("lidt %0" : : "m" (real_mode_idt));
 312
 313
 314 例二（bitops.h）：
 315
 316 Static __inline__ void __set_bit(int nr,
 317 volatile void * addr)
 318 {
 319 __asm__(
 320 "btsl%1,%0" :
 321 "=m"(ADDR) :
 322 "Ir"(nr));
 323 }
 324
 325 后例功能是将(*addr)的第nr位设为1。第一个占位符%0与C，语言变量ADDR
 326 对应，第二个占位符%1与C，语言变量nr对应。因此上面的汇编语句代码与下面的伪代码等价：
 327 btsl nr, ADDR，该指令的两个操作数不能全是内存变量，因此将nr的限定字符串指定为“Ir”，
 328 将nr，与立即数或者寄存器相关联，这样两个操作数中只有ADDR为内存变量。
 329
 330 2.3.4 限制字符
 331 2.3.4.1 限制字符列表
 332 限制字符有很多种，有些是与特定体系结构相关，此处仅列出常用的限定字符和i386
 333 中可能用到的一些常用的限定符。它们的作用是指示编译器如何处理其后的C
 334 语言变量与指令操作数之间的关系，例如是将变量放在寄存器中还是放在内存中等，
 335 下表列出了常用的限定字母。
 336
 337 分类
 338 限定符 描述 通用寄存器
 339
 340
 341 “a”将输入变量放入eax
 342
 343 这里有一个问题：假设eax已经被使用，那怎么办？
 344
 345 其实很简单：因为GCC知道eax已经被使用，它在这段汇编代码的起始处插入一条
 346 语句pushl %eax，将eax内容保存到堆栈，然后在这段代码结束处再增加一条
 347 语句popl %eax，恢复eax的内容
 348
 349 “b”将输入变量放入ebx
 350 “c”将输入变量放入ecx
 351 “d”将输入变量放入edx
 352 “s”将输入变量放入esi
 353 “d”将输入变量放入edi
 354 “q”将输入变量放入eax，ebx ,ecx ，edx中的一个
 355 “r”将输入变量放入通用寄存器，也就是eax ，ebx，ecx,edx，esi，edi中的一个
 356 “A”把eax和edx，合成一个64位的寄存器(uselong longs)
 357 “m”内存变量
 358 “o”操作数为内存变量，但是其寻址方式是偏移量类型，也即是基址寻址，或者是基址加变址寻址
 359 “V”操作数为内存变量，但寻址方式不是偏移量类型
 360 “,” 操作数为内存变量，但寻址方式为自动增量
 361 “p”操作数是一个合法的内存地址（指针）
 362
 363
 364 寄存器或内存
 365
 366 “g” 将输入变量放入eax，ebx，ecx ，edx中的一个或者作为内存变量
 367 “X”操作数可以是任何类型
 368
 369
 370 立即数
 371 “I” 0-31 之间的立即数（用于32位移位指令）
 372 “J” 0-63 之间的立即数（用于64 位移位指令）
 373 “N” 0-255 ，之间的立即数（用于out 指令）
 374 “i” 立即数
 375 “n” 立即数，有些系统不支持除字以外的立即数，这些系统应该使用“n”而不是“i”
 376
 377
 378 匹配
 379
 380 “0”，“1 ，”... “9 ”
 381
 382 表示用它限制的操作数与某个指定的操作数匹配，也即该操作数就是指定的那个操作数，
 383 例如用“0 ”去描述“％1”操作数，那么“%1”引用的其实就是“%0”操作数，注意作为
 384 限定符字母的0－9 ，与指令中的“％0”－“％9”的区别，前者描述操作数，后者代表操作数。
 385
 386
 387 后面有详细描述 & 该输出操作数不能使用过和输入操作数相同的寄存器
 388
 389
 390 后面有详细描述
 391
 392
 393 操作数类型
 394 “=” 操作数在指令中是只写的（输出操作数）
 395 “+” 操作数在指令中是读写类型的（输入输出操作数）
 396
 397 浮点数
 398 “f”
 399
 400 浮点寄存器
 401 “t”第一个浮点寄存器
 402 “u”第二个浮点寄存器
 403 “G”标准的80387
 404
 405 浮点常数
 406 % 该操作数可以和下一个操作数交换位置
 407
 408
 409 例如addl的两个操作数可以交换顺序（当然两个操作数都不能是立即数）
 410
 411
 412 # 部分注释，从该字符到其后的逗号之间所有字母被忽略
 413
 414 * 表示如果选用寄存器，则其后的字母被忽略
 415
 416
 417 现在继续看上面的例子，
 418 "=m" (ADDR)表示ADDR为内存变量（“m”），而且是输出变量（“=”）；"Ir" (nr)表示nr，为
 419 0－31之间的立即数（“I”）或者一个寄存器操作数（“r”）。
 420
 421
 422
 423 2.3.4.2
 424 匹配限制符
 425
 426 I386
 427 指令集中许多指令的操作数是读写型的（读写型操作数指先读取原来的值然后参加运算，最后
 428 将结果写回操作数），例如addl %1,%0，它的作用是将操作数%0与操作数%1的和存入操作数%0，
 429 因此操作数%0是读写型操作数。老版本的GCC对这种类型操作数的支持不是很好，它将操作数严格
 430 分为输入和输出两种，分别放在输入部分和输出部分，而没有一个单独部分描述读写型操作数，
 431 因此在GCC中读写型的操作数需要在输入和输出部分分别描述，靠匹配限制符将两者关联到一起
 432 注意仅在输入和输出部分使用相同的C变量，但是不用匹配限制符，产生的代码很可能不对，后
 433 面会分析原因。
 434
 435
 436
 437
 438 匹配限制符是一位数字：“0”、“1”……“9，”，分别表示它限制的C表达式分别与
 439 占位符%0，%1，……%9对应的C变量匹配。例如使用“0”作为%1，的限制字符，那么
 440 %0和％1表示同一个C，变量。
 441
 442
 443 看一下下面的代码就知道为什么要将读写型操作数，分别在输入和输出部分加以描述。
 444
 445
 446 该例功能是求input+result的和，然后存入result：
 447
 448
 449 extern int input,result;
 450
 451 void test_at_t()
 452 {
 453 result= 0;
 454 input = 1;
 455 __asm__
 456 __volatile__ ("addl %1,%0":"=r"(result): "r"(input));
 457
 458 }
 459
 460 对应的汇编代码为：
 461
 462 movl $0,_result
 463 movl $1,_input
 464 movl _input,%edx /APP
 465 addl %edx,%eax /NO_APP
 466 movl %eax,%edx
 467 movl %edx,_result
 468
 469 input 为输入型变量，而且需要放在寄存器中，GCC给它分配的寄存器是%edx，在执行addl之前%edx，
 470 的内容已经是input的值。可见对于使用“r”限制的输入型变量或者表达式，在使用之前GCC会插入
 471 必要的代码将他们的值读到寄存器；“m”型变量则不需要这一步。读入input后执行addl，显然%eax
 472 的值不对，需要先读入result的值才行。再往后看：movl %eax,%edx和movl %edx,_result
 473 的作用是将结果存回result，分配给result的寄存器与分配给input的一样，都是%edx。
 474
 475 综上可以总结出如下几点：
 476
 477 1. 使用“r”限制的输入变量，GCC先分配一个寄存器，然后将值读入寄存器，最后
 478 用该寄存器替换占位符；
 479
 480
 481 2. 使用“r”限制的输出变量，GCC会分配一个寄存器，然后用该寄存器替换占位符，
 482 但是在使用该寄存器之前并不将变量值先读入寄存器，GCC认为所有输出变量以前的
 483 值都没有用处，不读入寄存器（可能是因为AT&T汇编源于CISC架构处理器的汇编语言
 484 ，在CISC处理器中大部分指令的输入输出明显分开，而不像RISC那样一个操作数既
 485 做输入又做输出，例如add r0,r1,r2，r0，和r1是输入，r2是输出，输入和输出分开，
 486 没有使用输入输出型操作数，这样我们就可以认为r2对应的操作数原来的值没有用处，
 487 也就没有必要先将操作数的值读入r2，因为这是浪费处理器的CPU周期），最后GCC插入代码，
 488 将寄存器的值写回变量；
 489
 490
 491 3. 输入变量使用的寄存器在最后一处使用它的指令之后，就可以挪做其他用处，因为
 492 已经不再使用。例如上例中的%edx。在执行完addl之后就作为与result对应的寄存器。
 493
 494
 495 因为第二条，上面的内嵌汇编指令不能奏效，因此需要在执行addl之前把result的值读入
 496 寄存器，也许再将result放入输入部分就可以了（因为第一条会保证将result
 497 先读入寄存器）。修改后的指令如下（为了更容易说明问题将input限制符由“r，”改为“m”）：
 498
 499
 500 extern int input,result;
 501
 502 void test_at_t()
 503 {
 504
 505 result = 0;
 506 input = 1;
 507 __asm__
 508 __volatile__ ("addl %2,%0":"=r"(result):"r"(result),"m"(input));
 509
 510 }
 511
 512
 513 看上去上面的代码可以正常工作，因为我们知道%0和%1都和result相关，应该使用同一个
 514 寄存器，但是GCC并不去判断%0和%1，是否和同一个C表达式或变量相关联（这样易于产生与
 515 内嵌汇编相应的汇编代码），因此%0和%1使用的寄存器可能不同。我们看一下汇编代码就知道了。
 516
 517 movl $0,_result
 518 movl $1,_input
 519 movl _result,%edx /APP
 520 addl _input,%eax /NO_APP
 521 movl %eax,%edx
 522 movl %edx,_result
 523
 524 现在在执行addl之前将result的值被读入了寄存器%edx，但是addl指令的操作数%0
 525 却成了%eax，而不是%edx，与预料的不同，这是因为GCC给输出和输入部分的变量分配了不同
 526 的寄存器，GCC没有去判断两者是否都与result相关，后面会讲GCC如何翻译内嵌汇编，看完之后
 527 就不会惊奇啦。
 528
 529
 530 使用匹配限制符后，GCC知道应将对应的操作数放在同一个位置（同一个寄存器或者同一个
 531 内存变量）。使用匹配限制字符的代码如下：
 532
 533
 534 extern int input,result;
 535
 536 void test_at_t()
 537 {
 538 result = 0;
 539 input = 1;
 540 __asm__
 541 __volatile__ ("addl %2,%0":"=r"(result):"0"(result),"m"(input));
 542
 543 }
 544
 545 输入部分中的result用匹配限制符“0”限制，表示%1与％0，代表同一个变量，
 546 输入部分说明该变量的输入功能，输出部分说明该变量的输出功能，两者结合表示result
 547 是读写型。因为%0和%1，表示同一个C变量，所以放在相同的位置，无论是寄存器还是内存。
 548
 549 相应的汇编代码为：
 550
 551
 552 movl $0,_result
 553 movl $1,_input
 554 movl _result,%edx
 555 movl %edx,%eax /APP
 556 addl _input,%eax /NO_APP
 557 movl %eax,%edx
 558 movl %edx,_result
 559
 560
 561 可以看到与result相关的寄存器是%edx，在执行指令addl之前先从%edx将result读入%eax，
 562 执行之后需要将结果从%eax读入%edx，最后存入result中。这里我们可以看出GCC
 563 处理内嵌汇编中输出操作数的一点点信息：addl并没有使用%edx，可见它不是简单的用result
 564 对应的寄存器%edx去替换%0，而是先分配一个寄存器，执行运算，最后才将运算结果存入
 565 对应的变量，因此GCC是先看该占位符对应的变量的限制符，发现是一个输出型寄存器变量，
 566 就为它分配一个寄存器，此时没有去管对应的C变量，最后GCC，知道还要将寄存器的值写回变量，
 567 与此同时，它发现该变量与%edx关联，因此先存入%edx，再存入变量。
 568
 569
 570 至此读者应该明白了匹配限制符的意义和用法。在新版本的GCC中增加了一个限制字符“+”，
 571 它表示操作数是读写型的，GCC知道应将变量值先读入寄存器，然后计算，最后写回变量，而
 572 无需在输入部分再去描述该变量。
 573
 574
 575 例;
 576 extern int input,result;
 577
 578 void test_at_t()
 579 {
 580
 581 result = 0;
 582 input = 1;
 583 __asm__
 584 __volatile__ ("addl %1,%0":"+r"(result):"m"(input));
 585
 586 }
 587
 588
 589 此处用“+”替换了“=”，而且去掉了输入部分关于result的描述，产生的汇编代码如下：
 590 movl $0,_result
 591 movl $1,_input
 592 movl _result,%eax /APP
 593 addl _input,%eax /NO_APP
 594 movl %eax,_result
 595 L2:
 596 movl %ebp,%esp
 597
 598 处理的比使用匹配限制符的情况还要好，省去了好几条汇编代码。
 599
 600
 601 2.3.4.3 “&”限制符
 602
 603 限制符“&”在内核中使用的比较多，它表示输入和输出操作数不能使用相同的寄存器，
 604 这样可以避免很多错误。
 605
 606 举一个例子，下面代码的作用是将函数foo的返回值存入变量ret中：
 607
 608
 609 __asm__ ( “call foo;movl %%edx,%1”, :”=a”(ret) : ”r”(bar) );
 610
 611
 612 我们知道函数的int型返回值存放在%eax中，但是gcc编译的结果是输入和输出同时使用了
 613 寄存器%eax，如下：
 614
 615 movl bar, %eax
 616 #APP
 617 call foo
 618 movl %ebx,%eax
 619
 620 #NO_APP
 621 movl %eax, ret
 622
 623 结果显然不对，原因是GCC并不知道%eax中的值是我们所要的。避免这种情况的方法是使用“&”
 624 限定符，这样bar就不会再使用%eax寄存器，因为已被ret指定使用。
 625
 626 _asm__ ( “call foo;movl %%edx,%1”,:”=&a”(ret) : ”r”(bar) );
 627
 628
 629 2.3.5 破坏描述部分
 630
 631 2.3.5.1 寄存器破坏描述符
 632
 633
 634 通常编写程序只使用一种语言：高级语言或者汇编语言。高级语言编译的步骤大致如下：
 635 l
 636 预处理；
 637 l
 638 编译
 639 l
 640 汇编
 641 l
 642 链接
 643
 644
 645 我们这里只关心第二步编译（将C代码转换成汇编代码）：因为所有的代码都是用高级语言编写，
 646 编译器可以识别各种语句的作用，在转换的过程中所有的寄存器都由编译器决定如何分配使用，
 647 它有能力保证寄存器的使用不会冲突；也可以利用寄存器作为变量的缓冲区，因为寄存器的访问
 648 速度比内存快很多倍。如果全部使用汇编语言则由程序员去控制寄存器的使用，只能靠程序员去
 649 保证寄存器使用的正确性。但是如果两种语言混用情况就变复杂了，因为内嵌的汇编代码可以直接
 650 使用寄存器，而编译器在转换的时候并不去检查内嵌的汇编代码使用了哪些寄存器（因为很难检测
 651 汇编指令使用了哪些寄存器，例如有些指令隐式修改寄存器，有时内嵌的汇编代码会调用其他子过程，
 652 而子过程也会修改寄存器），因此需要一种机制通知编译器我们使用了哪些寄存器（程序员自己知道
 653 内嵌汇编代码中使用了哪些寄存器），否则对这些寄存器的使用就有可能导致错误，修改描述部分
 654 可以起到这种作用。当然内嵌汇编的输入输出部分指明的寄存器或者指定为“r”，“g”型由编译器
 655 去分配的寄存器就不需要在破坏描述部分去描述，因为编译器已经知道了。
 656
 657
 658 破坏描述符由逗号格开的字符串组成，每个字符串描述一种情况，一般是寄存器名；除寄存器外
 659 还有“memory”。例如：“%eax”，“%ebx”，“memory”等。
 660
 661
 662 下面看个例子就很清楚为什么需要通知GCC内嵌汇编代码中隐式（称它为隐式是因为GCC并不知道）
 663 使用的寄存器。
 664
 665 在内嵌的汇编指令中可能会直接引用某些寄存器，我们已经知道AT&T格式的汇编语言中，寄存器
 666 名以“%”作为前缀，为了在生成的汇编程序中保留这个“%”号，在asm语句中对寄存器的
 667 引用必须用“%%”作为寄存器名称的前缀。原因是“%”在asm，内嵌汇编语句中的作用与“\”在C
 668 语言中的作用相同，因此“%%”转换后代表“%”。
 669
 670 例（没有使用修改描述符）：
 671
 672 int main(void)
 673 {
 674 int input, output,temp;
 675 input = 1;
 676
 677 __asm__ __volatile__ ("movl $0, %%eax;\n\t
 678 movl %%eax, %1;\n\t
 679 movl %2, %%eax;\n\t
 680 movl %%eax, %0;\n\t"
 681 :"=m"(output),"=m"(temp) /* output */
 682 :"r"(input) /* input */
 683 );
 684 return 0;
 685 }
 686
 687
 688 这段代码使用%eax作为临时寄存器，功能相当于C代码：“temp = 0;output=input”，
 689 对应的汇编代码如下：
 690
 691 movl $1,-4(%ebp)
 692 movl -4(%ebp),%eax /APP
 693 movl $0, %eax;
 694 movl %eax, -12(%ebp);
 695 movl %eax, %eax;
 696 movl %eax, -8(%ebp); /NO_APP
 697
 698 显然GCC给input分配的寄存器也是%eax，发生了冲突，output的值始终为0，而不是input。
 699
 700 使用破坏描述后的代码：
 701
 702
 703 int main(void)
 704 {
 705 int input, output,temp;
 706
 707 input = 1;
 708
 709 __asm__ __volatile__
 710 ( "movl $0, %%eax;\n\t
 711 movl %%eax, %1;\n\t
 712 movl %2, %%eax;\n\t
 713 movl %%eax, %0;\n\t"
 714 :"=m"(output),"=m"(temp) /* output */
 715 :"r"(input) /* input */
 716 :"eax"); /* 描述符 */
 717
 718 return 0;
 719 }
 720
 721 对应的汇编代码：
 722
 723
 724 movl $1,-4(%ebp)
 725 movl -4(%ebp),%edx /APP
 726 movl $0, %eax;
 727 movl %eax, -12(%ebp);
 728 movl %edx, %eax;
 729 movl %eax, -8(%ebp); /NO_APP
 730
 731
 732 通过破坏描述部分，GCC得知%eax已被使用，因此给input分配了%edx。在使用内嵌汇编时请记
 733 住一点：尽量告诉GCC尽可能多的信息，以防出错。
 734
 735
 736 如果你使用的指令会改变CPU的条件寄存器cc，需要在修改描述部分增加“cc”。
 737
 738 2.3.5.2 memory破坏描述符
 739
 740 “memory”比较特殊，可能是内嵌汇编中最难懂部分。为解释清楚它，先介绍一下编译器的
 741 优化知识，再看C关键字volatile。最后去看该描述符。
 742
 743 2.3.5.2.1 编译器优化介绍
 744
 745 内存访问速度远不及CPU处理速度，为提高机器整体性能，在硬件上引入硬件高速缓存Cache，
 746 加速对内存的访问。另外在现代CPU中指令的执行并不一定严格按照顺序执行，没有相关性
 747 的指令可以乱序执行，以充分利用CPU的指令流水线，提高执行速度。以上是硬件级别的优化。
 748 再看软件一级的优化：一种是在编写代码时由程序员优化，另一种是由编译器进行优化。编译器
 749 优化常用的方法有：将内存变量缓存到寄存器；调整指令顺序充分利用CPU指令流水线，常见的
 750 是重新排序读写指令。
 751
 752
 753 对常规内存进行优化的时候，这些优化是透明的，而且效率很好。由编译器优化或者硬件重新排序引起的问题的解决办法是在从硬件（或者其他处理器）的角度看必须以特定顺序执行的操作之间设置内存屏障（memory barrier），linux提供了一个宏解决编译器的执行顺序问题。
 754
 755 void Barrier(void)
 756
 757 这个函数通知编译器插入一个内存屏障，但对硬件无效，编译后的代码会把当前CPU
 758 寄存器中的所有修改过的数值存入内存，需要这些数据的时候再重新从内存中读出。
 759
 760 2.3.5.2.2 C 语言关键字volatile
 761
 762 C 语言关键字volatile（注意它是用来修饰变量而不是上面介绍的__volatile__）表明某个变量
 763 的值可能在外部被改变，因此对这些变量的存取不能缓存到寄存器，每次使用时需要重新存取。
 764 该关键字在多线程环境下经常使用，因为在编写多线程的程序时，同一个变量可能被多个线程修
 765 改，而程序通过该变量同步各个线程。
 766
 767  原文地址 http://blog.csdn.net/dai_weitao/archive/2007/09/03/1770860.aspx