gcc/config/aarch64/arm_neon.h

   1 /* ARM NEON intrinsics include file.
   2
   3    Copyright (C) 2011-2015 Free Software Foundation, Inc.
   4    Contributed by ARM Ltd.
   5
   6    This file is part of GCC.
   7
   8    GCC is free software; you can redistribute it and/or modify it
   9    under the terms of the GNU General Public License as published
  10    by the Free Software Foundation; either version 3, or (at your
  11    option) any later version.
  12
  13    GCC is distributed in the hope that it will be useful, but WITHOUT
  14    ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
  15    or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public
  16    License for more details.
  17
  18    Under Section 7 of GPL version 3, you are granted additional
  19    permissions described in the GCC Runtime Library Exception, version
  20    3.1, as published by the Free Software Foundation.
  21
  22    You should have received a copy of the GNU General Public License and
  23    a copy of the GCC Runtime Library Exception along with this program;
  24    see the files COPYING3 and COPYING.RUNTIME respectively.  If not, see
  25    <http://www.gnu.org/licenses/>.  */
  26
  27 #ifndef _AARCH64_NEON_H_
  28 #define _AARCH64_NEON_H_
  29
  30 #ifndef __ARM_NEON
  31 #error You must enable AdvancedSIMD instructions to use arm_neon.h
  32 #else
  33
  34 #include <stdint.h>
  35
  36 #define __AARCH64_UINT64_C(__C) ((uint64_t) __C)
  37 #define __AARCH64_INT64_C(__C) ((int64_t) __C)
  38
  39 typedef __Int8x8_t int8x8_t;
  40 typedef __Int16x4_t int16x4_t;
  41 typedef __Int32x2_t int32x2_t;
  42 typedef __Int64x1_t int64x1_t;
  43 typedef __Float32x2_t float32x2_t;
  44 typedef __Poly8x8_t poly8x8_t;
  45 typedef __Poly16x4_t poly16x4_t;
  46 typedef __Uint8x8_t uint8x8_t;
  47 typedef __Uint16x4_t uint16x4_t;
  48 typedef __Uint32x2_t uint32x2_t;
  49 typedef __Float64x1_t float64x1_t;
  50 typedef __Uint64x1_t uint64x1_t;
  51 typedef __Int8x16_t int8x16_t;
  52 typedef __Int16x8_t int16x8_t;
  53 typedef __Int32x4_t int32x4_t;
  54 typedef __Int64x2_t int64x2_t;
  55 typedef __Float32x4_t float32x4_t;
  56 typedef __Float64x2_t float64x2_t;
  57 typedef __Poly8x16_t poly8x16_t;
  58 typedef __Poly16x8_t poly16x8_t;
  59 typedef __Poly64x2_t poly64x2_t;
  60 typedef __Uint8x16_t uint8x16_t;
  61 typedef __Uint16x8_t uint16x8_t;
  62 typedef __Uint32x4_t uint32x4_t;
  63 typedef __Uint64x2_t uint64x2_t;
  64
  65 typedef __Poly8_t poly8_t;
  66 typedef __Poly16_t poly16_t;
  67 typedef __Poly64_t poly64_t;
  68 typedef __Poly128_t poly128_t;
  69
  70 typedef float float32_t;
  71 typedef double float64_t;
  72
  73 typedef struct int8x8x2_t
  74 {
  75   int8x8_t val[2];
  76 } int8x8x2_t;
  77
  78 typedef struct int8x16x2_t
  79 {
  80   int8x16_t val[2];
  81 } int8x16x2_t;
  82
  83 typedef struct int16x4x2_t
  84 {
  85   int16x4_t val[2];
  86 } int16x4x2_t;
  87
  88 typedef struct int16x8x2_t
  89 {
  90   int16x8_t val[2];
  91 } int16x8x2_t;
  92
  93 typedef struct int32x2x2_t
  94 {
  95   int32x2_t val[2];
  96 } int32x2x2_t;
  97
  98 typedef struct int32x4x2_t
  99 {
 100   int32x4_t val[2];
 101 } int32x4x2_t;
 102
 103 typedef struct int64x1x2_t
 104 {
 105   int64x1_t val[2];
 106 } int64x1x2_t;
 107
 108 typedef struct int64x2x2_t
 109 {
 110   int64x2_t val[2];
 111 } int64x2x2_t;
 112
 113 typedef struct uint8x8x2_t
 114 {
 115   uint8x8_t val[2];
 116 } uint8x8x2_t;
 117
 118 typedef struct uint8x16x2_t
 119 {
 120   uint8x16_t val[2];
 121 } uint8x16x2_t;
 122
 123 typedef struct uint16x4x2_t
 124 {
 125   uint16x4_t val[2];
 126 } uint16x4x2_t;
 127
 128 typedef struct uint16x8x2_t
 129 {
 130   uint16x8_t val[2];
 131 } uint16x8x2_t;
 132
 133 typedef struct uint32x2x2_t
 134 {
 135   uint32x2_t val[2];
 136 } uint32x2x2_t;
 137
 138 typedef struct uint32x4x2_t
 139 {
 140   uint32x4_t val[2];
 141 } uint32x4x2_t;
 142
 143 typedef struct uint64x1x2_t
 144 {
 145   uint64x1_t val[2];
 146 } uint64x1x2_t;
 147
 148 typedef struct uint64x2x2_t
 149 {
 150   uint64x2_t val[2];
 151 } uint64x2x2_t;
 152
 153 typedef struct float32x2x2_t
 154 {
 155   float32x2_t val[2];
 156 } float32x2x2_t;
 157
 158 typedef struct float32x4x2_t
 159 {
 160   float32x4_t val[2];
 161 } float32x4x2_t;
 162
 163 typedef struct float64x2x2_t
 164 {
 165   float64x2_t val[2];
 166 } float64x2x2_t;
 167
 168 typedef struct float64x1x2_t
 169 {
 170   float64x1_t val[2];
 171 } float64x1x2_t;
 172
 173 typedef struct poly8x8x2_t
 174 {
 175   poly8x8_t val[2];
 176 } poly8x8x2_t;
 177
 178 typedef struct poly8x16x2_t
 179 {
 180   poly8x16_t val[2];
 181 } poly8x16x2_t;
 182
 183 typedef struct poly16x4x2_t
 184 {
 185   poly16x4_t val[2];
 186 } poly16x4x2_t;
 187
 188 typedef struct poly16x8x2_t
 189 {
 190   poly16x8_t val[2];
 191 } poly16x8x2_t;
 192
 193 typedef struct int8x8x3_t
 194 {
 195   int8x8_t val[3];
 196 } int8x8x3_t;
 197
 198 typedef struct int8x16x3_t
 199 {
 200   int8x16_t val[3];
 201 } int8x16x3_t;
 202
 203 typedef struct int16x4x3_t
 204 {
 205   int16x4_t val[3];
 206 } int16x4x3_t;
 207
 208 typedef struct int16x8x3_t
 209 {
 210   int16x8_t val[3];
 211 } int16x8x3_t;
 212
 213 typedef struct int32x2x3_t
 214 {
 215   int32x2_t val[3];
 216 } int32x2x3_t;
 217
 218 typedef struct int32x4x3_t
 219 {
 220   int32x4_t val[3];
 221 } int32x4x3_t;
 222
 223 typedef struct int64x1x3_t
 224 {
 225   int64x1_t val[3];
 226 } int64x1x3_t;
 227
 228 typedef struct int64x2x3_t
 229 {
 230   int64x2_t val[3];
 231 } int64x2x3_t;
 232
 233 typedef struct uint8x8x3_t
 234 {
 235   uint8x8_t val[3];
 236 } uint8x8x3_t;
 237
 238 typedef struct uint8x16x3_t
 239 {
 240   uint8x16_t val[3];
 241 } uint8x16x3_t;
 242
 243 typedef struct uint16x4x3_t
 244 {
 245   uint16x4_t val[3];
 246 } uint16x4x3_t;
 247
 248 typedef struct uint16x8x3_t
 249 {
 250   uint16x8_t val[3];
 251 } uint16x8x3_t;
 252
 253 typedef struct uint32x2x3_t
 254 {
 255   uint32x2_t val[3];
 256 } uint32x2x3_t;
 257
 258 typedef struct uint32x4x3_t
 259 {
 260   uint32x4_t val[3];
 261 } uint32x4x3_t;
 262
 263 typedef struct uint64x1x3_t
 264 {
 265   uint64x1_t val[3];
 266 } uint64x1x3_t;
 267
 268 typedef struct uint64x2x3_t
 269 {
 270   uint64x2_t val[3];
 271 } uint64x2x3_t;
 272
 273 typedef struct float32x2x3_t
 274 {
 275   float32x2_t val[3];
 276 } float32x2x3_t;
 277
 278 typedef struct float32x4x3_t
 279 {
 280   float32x4_t val[3];
 281 } float32x4x3_t;
 282
 283 typedef struct float64x2x3_t
 284 {
 285   float64x2_t val[3];
 286 } float64x2x3_t;
 287
 288 typedef struct float64x1x3_t
 289 {
 290   float64x1_t val[3];
 291 } float64x1x3_t;
 292
 293 typedef struct poly8x8x3_t
 294 {
 295   poly8x8_t val[3];
 296 } poly8x8x3_t;
 297
 298 typedef struct poly8x16x3_t
 299 {
 300   poly8x16_t val[3];
 301 } poly8x16x3_t;
 302
 303 typedef struct poly16x4x3_t
 304 {
 305   poly16x4_t val[3];
 306 } poly16x4x3_t;
 307
 308 typedef struct poly16x8x3_t
 309 {
 310   poly16x8_t val[3];
 311 } poly16x8x3_t;
 312
 313 typedef struct int8x8x4_t
 314 {
 315   int8x8_t val[4];
 316 } int8x8x4_t;
 317
 318 typedef struct int8x16x4_t
 319 {
 320   int8x16_t val[4];
 321 } int8x16x4_t;
 322
 323 typedef struct int16x4x4_t
 324 {
 325   int16x4_t val[4];
 326 } int16x4x4_t;
 327
 328 typedef struct int16x8x4_t
 329 {
 330   int16x8_t val[4];
 331 } int16x8x4_t;
 332
 333 typedef struct int32x2x4_t
 334 {
 335   int32x2_t val[4];
 336 } int32x2x4_t;
 337
 338 typedef struct int32x4x4_t
 339 {
 340   int32x4_t val[4];
 341 } int32x4x4_t;
 342
 343 typedef struct int64x1x4_t
 344 {
 345   int64x1_t val[4];
 346 } int64x1x4_t;
 347
 348 typedef struct int64x2x4_t
 349 {
 350   int64x2_t val[4];
 351 } int64x2x4_t;
 352
 353 typedef struct uint8x8x4_t
 354 {
 355   uint8x8_t val[4];
 356 } uint8x8x4_t;
 357
 358 typedef struct uint8x16x4_t
 359 {
 360   uint8x16_t val[4];
 361 } uint8x16x4_t;
 362
 363 typedef struct uint16x4x4_t
 364 {
 365   uint16x4_t val[4];
 366 } uint16x4x4_t;
 367
 368 typedef struct uint16x8x4_t
 369 {
 370   uint16x8_t val[4];
 371 } uint16x8x4_t;
 372
 373 typedef struct uint32x2x4_t
 374 {
 375   uint32x2_t val[4];
 376 } uint32x2x4_t;
 377
 378 typedef struct uint32x4x4_t
 379 {
 380   uint32x4_t val[4];
 381 } uint32x4x4_t;
 382
 383 typedef struct uint64x1x4_t
 384 {
 385   uint64x1_t val[4];
 386 } uint64x1x4_t;
 387
 388 typedef struct uint64x2x4_t
 389 {
 390   uint64x2_t val[4];
 391 } uint64x2x4_t;
 392
 393 typedef struct float32x2x4_t
 394 {
 395   float32x2_t val[4];
 396 } float32x2x4_t;
 397
 398 typedef struct float32x4x4_t
 399 {
 400   float32x4_t val[4];
 401 } float32x4x4_t;
 402
 403 typedef struct float64x2x4_t
 404 {
 405   float64x2_t val[4];
 406 } float64x2x4_t;
 407
 408 typedef struct float64x1x4_t
 409 {
 410   float64x1_t val[4];
 411 } float64x1x4_t;
 412
 413 typedef struct poly8x8x4_t
 414 {
 415   poly8x8_t val[4];
 416 } poly8x8x4_t;
 417
 418 typedef struct poly8x16x4_t
 419 {
 420   poly8x16_t val[4];
 421 } poly8x16x4_t;
 422
 423 typedef struct poly16x4x4_t
 424 {
 425   poly16x4_t val[4];
 426 } poly16x4x4_t;
 427
 428 typedef struct poly16x8x4_t
 429 {
 430   poly16x8_t val[4];
 431 } poly16x8x4_t;
 432
 433 /* __aarch64_vdup_lane internal macros.  */
 434 #define __aarch64_vdup_lane_any(__size, __q, __a, __b) \
 435   vdup##__q##_n_##__size (__aarch64_vget_lane_any (__a, __b))
 436
 437 #define __aarch64_vdup_lane_f32(__a, __b) \
 438    __aarch64_vdup_lane_any (f32, , __a, __b)
 439 #define __aarch64_vdup_lane_f64(__a, __b) \
 440    __aarch64_vdup_lane_any (f64, , __a, __b)
 441 #define __aarch64_vdup_lane_p8(__a, __b) \
 442    __aarch64_vdup_lane_any (p8, , __a, __b)
 443 #define __aarch64_vdup_lane_p16(__a, __b) \
 444    __aarch64_vdup_lane_any (p16, , __a, __b)
 445 #define __aarch64_vdup_lane_s8(__a, __b) \
 446    __aarch64_vdup_lane_any (s8, , __a, __b)
 447 #define __aarch64_vdup_lane_s16(__a, __b) \
 448    __aarch64_vdup_lane_any (s16, , __a, __b)
 449 #define __aarch64_vdup_lane_s32(__a, __b) \
 450    __aarch64_vdup_lane_any (s32, , __a, __b)
 451 #define __aarch64_vdup_lane_s64(__a, __b) \
 452   __aarch64_vdup_lane_any (s64, , __a, __b)
 453 #define __aarch64_vdup_lane_u8(__a, __b) \
 454    __aarch64_vdup_lane_any (u8, , __a, __b)
 455 #define __aarch64_vdup_lane_u16(__a, __b) \
 456    __aarch64_vdup_lane_any (u16, , __a, __b)
 457 #define __aarch64_vdup_lane_u32(__a, __b) \
 458    __aarch64_vdup_lane_any (u32, , __a, __b)
 459 #define __aarch64_vdup_lane_u64(__a, __b) \
 460    __aarch64_vdup_lane_any (u64, , __a, __b)
 461
 462 /* __aarch64_vdup_laneq internal macros.  */
 463 #define __aarch64_vdup_laneq_f32(__a, __b) \
 464    __aarch64_vdup_lane_any (f32, , __a, __b)
 465 #define __aarch64_vdup_laneq_f64(__a, __b) \
 466    __aarch64_vdup_lane_any (f64, , __a, __b)
 467 #define __aarch64_vdup_laneq_p8(__a, __b) \
 468    __aarch64_vdup_lane_any (p8, , __a, __b)
 469 #define __aarch64_vdup_laneq_p16(__a, __b) \
 470    __aarch64_vdup_lane_any (p16, , __a, __b)
 471 #define __aarch64_vdup_laneq_s8(__a, __b) \
 472    __aarch64_vdup_lane_any (s8, , __a, __b)
 473 #define __aarch64_vdup_laneq_s16(__a, __b) \
 474    __aarch64_vdup_lane_any (s16, , __a, __b)
 475 #define __aarch64_vdup_laneq_s32(__a, __b) \
 476    __aarch64_vdup_lane_any (s32, , __a, __b)
 477 #define __aarch64_vdup_laneq_s64(__a, __b) \
 478    __aarch64_vdup_lane_any (s64, , __a, __b)
 479 #define __aarch64_vdup_laneq_u8(__a, __b) \
 480    __aarch64_vdup_lane_any (u8, , __a, __b)
 481 #define __aarch64_vdup_laneq_u16(__a, __b) \
 482    __aarch64_vdup_lane_any (u16, , __a, __b)
 483 #define __aarch64_vdup_laneq_u32(__a, __b) \
 484    __aarch64_vdup_lane_any (u32, , __a, __b)
 485 #define __aarch64_vdup_laneq_u64(__a, __b) \
 486    __aarch64_vdup_lane_any (u64, , __a, __b)
 487
 488 /* __aarch64_vdupq_lane internal macros.  */
 489 #define __aarch64_vdupq_lane_f32(__a, __b) \
 490    __aarch64_vdup_lane_any (f32, q, __a, __b)
 491 #define __aarch64_vdupq_lane_f64(__a, __b) \
 492    __aarch64_vdup_lane_any (f64, q, __a, __b)
 493 #define __aarch64_vdupq_lane_p8(__a, __b) \
 494    __aarch64_vdup_lane_any (p8, q, __a, __b)
 495 #define __aarch64_vdupq_lane_p16(__a, __b) \
 496    __aarch64_vdup_lane_any (p16, q, __a, __b)
 497 #define __aarch64_vdupq_lane_s8(__a, __b) \
 498    __aarch64_vdup_lane_any (s8, q, __a, __b)
 499 #define __aarch64_vdupq_lane_s16(__a, __b) \
 500    __aarch64_vdup_lane_any (s16, q, __a, __b)
 501 #define __aarch64_vdupq_lane_s32(__a, __b) \
 502    __aarch64_vdup_lane_any (s32, q, __a, __b)
 503 #define __aarch64_vdupq_lane_s64(__a, __b) \
 504    __aarch64_vdup_lane_any (s64, q, __a, __b)
 505 #define __aarch64_vdupq_lane_u8(__a, __b) \
 506    __aarch64_vdup_lane_any (u8, q, __a, __b)
 507 #define __aarch64_vdupq_lane_u16(__a, __b) \
 508    __aarch64_vdup_lane_any (u16, q, __a, __b)
 509 #define __aarch64_vdupq_lane_u32(__a, __b) \
 510    __aarch64_vdup_lane_any (u32, q, __a, __b)
 511 #define __aarch64_vdupq_lane_u64(__a, __b) \
 512    __aarch64_vdup_lane_any (u64, q, __a, __b)
 513
 514 /* __aarch64_vdupq_laneq internal macros.  */
 515 #define __aarch64_vdupq_laneq_f32(__a, __b) \
 516    __aarch64_vdup_lane_any (f32, q, __a, __b)
 517 #define __aarch64_vdupq_laneq_f64(__a, __b) \
 518    __aarch64_vdup_lane_any (f64, q, __a, __b)
 519 #define __aarch64_vdupq_laneq_p8(__a, __b) \
 520    __aarch64_vdup_lane_any (p8, q, __a, __b)
 521 #define __aarch64_vdupq_laneq_p16(__a, __b) \
 522    __aarch64_vdup_lane_any (p16, q, __a, __b)
 523 #define __aarch64_vdupq_laneq_s8(__a, __b) \
 524    __aarch64_vdup_lane_any (s8, q, __a, __b)
 525 #define __aarch64_vdupq_laneq_s16(__a, __b) \
 526    __aarch64_vdup_lane_any (s16, q, __a, __b)
 527 #define __aarch64_vdupq_laneq_s32(__a, __b) \
 528    __aarch64_vdup_lane_any (s32, q, __a, __b)
 529 #define __aarch64_vdupq_laneq_s64(__a, __b) \
 530    __aarch64_vdup_lane_any (s64, q, __a, __b)
 531 #define __aarch64_vdupq_laneq_u8(__a, __b) \
 532    __aarch64_vdup_lane_any (u8, q, __a, __b)
 533 #define __aarch64_vdupq_laneq_u16(__a, __b) \
 534    __aarch64_vdup_lane_any (u16, q, __a, __b)
 535 #define __aarch64_vdupq_laneq_u32(__a, __b) \
 536    __aarch64_vdup_lane_any (u32, q, __a, __b)
 537 #define __aarch64_vdupq_laneq_u64(__a, __b) \
 538    __aarch64_vdup_lane_any (u64, q, __a, __b)
 539
 540 /* Internal macro for lane indices.  */
 541
 542 #define __AARCH64_NUM_LANES(__v) (sizeof (__v) / sizeof (__v[0]))
 543 #define __AARCH64_LANE_CHECK(__vec, __idx)      \
 544         __builtin_aarch64_im_lane_boundsi (__AARCH64_NUM_LANES (__vec), __idx)
 545
 546 /* For big-endian, GCC's vector indices are the opposite way around
 547    to the architectural lane indices used by Neon intrinsics.  */
 548 #ifdef __AARCH64EB__
 549 #define __aarch64_lane(__vec, __idx) (__AARCH64_NUM_LANES (__vec) - 1 - __idx)
 550 #else
 551 #define __aarch64_lane(__vec, __idx) __idx
 552 #endif
 553
 554 /* vget_lane internal macro.  */
 555 #define __aarch64_vget_lane_any(__vec, __index)                         \
 556   __extension__                                                         \
 557   ({                                                                    \
 558     __AARCH64_LANE_CHECK (__vec, __index);                              \
 559     __vec[__aarch64_lane (__vec, __index)];                             \
 560   })
 561
 562 /* vset_lane and vld1_lane internal macro.  */
 563 #define __aarch64_vset_lane_any(__elem, __vec, __index)                 \
 564   __extension__                                                         \
 565   ({                                                                    \
 566     __AARCH64_LANE_CHECK (__vec, __index);                              \
 567     __vec[__aarch64_lane (__vec, __index)] = __elem;                    \
 568     __vec;                                                              \
 569   })
 570
 571 /* vadd  */
 572 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
 573 vadd_s8 (int8x8_t __a, int8x8_t __b)
 574 {
 575   return __a + __b;
 576 }
 577
 578 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
 579 vadd_s16 (int16x4_t __a, int16x4_t __b)
 580 {
 581   return __a + __b;
 582 }
 583
 584 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
 585 vadd_s32 (int32x2_t __a, int32x2_t __b)
 586 {
 587   return __a + __b;
 588 }
 589
 590 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
 591 vadd_f32 (float32x2_t __a, float32x2_t __b)
 592 {
 593   return __a + __b;
 594 }
 595
 596 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
 597 vadd_f64 (float64x1_t __a, float64x1_t __b)
 598 {
 599   return __a + __b;
 600 }
 601
 602 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
 603 vadd_u8 (uint8x8_t __a, uint8x8_t __b)
 604 {
 605   return __a + __b;
 606 }
 607
 608 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
 609 vadd_u16 (uint16x4_t __a, uint16x4_t __b)
 610 {
 611   return __a + __b;
 612 }
 613
 614 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
 615 vadd_u32 (uint32x2_t __a, uint32x2_t __b)
 616 {
 617   return __a + __b;
 618 }
 619
 620 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
 621 vadd_s64 (int64x1_t __a, int64x1_t __b)
 622 {
 623   return __a + __b;
 624 }
 625
 626 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
 627 vadd_u64 (uint64x1_t __a, uint64x1_t __b)
 628 {
 629   return __a + __b;
 630 }
 631
 632 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
 633 vaddq_s8 (int8x16_t __a, int8x16_t __b)
 634 {
 635   return __a + __b;
 636 }
 637
 638 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
 639 vaddq_s16 (int16x8_t __a, int16x8_t __b)
 640 {
 641   return __a + __b;
 642 }
 643
 644 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
 645 vaddq_s32 (int32x4_t __a, int32x4_t __b)
 646 {
 647   return __a + __b;
 648 }
 649
 650 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
 651 vaddq_s64 (int64x2_t __a, int64x2_t __b)
 652 {
 653   return __a + __b;
 654 }
 655
 656 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
 657 vaddq_f32 (float32x4_t __a, float32x4_t __b)
 658 {
 659   return __a + __b;
 660 }
 661
 662 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
 663 vaddq_f64 (float64x2_t __a, float64x2_t __b)
 664 {
 665   return __a + __b;
 666 }
 667
 668 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
 669 vaddq_u8 (uint8x16_t __a, uint8x16_t __b)
 670 {
 671   return __a + __b;
 672 }
 673
 674 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
 675 vaddq_u16 (uint16x8_t __a, uint16x8_t __b)
 676 {
 677   return __a + __b;
 678 }
 679
 680 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
 681 vaddq_u32 (uint32x4_t __a, uint32x4_t __b)
 682 {
 683   return __a + __b;
 684 }
 685
 686 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
 687 vaddq_u64 (uint64x2_t __a, uint64x2_t __b)
 688 {
 689   return __a + __b;
 690 }
 691
 692 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
 693 vaddl_s8 (int8x8_t __a, int8x8_t __b)
 694 {
 695   return (int16x8_t) __builtin_aarch64_saddlv8qi (__a, __b);
 696 }
 697
 698 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
 699 vaddl_s16 (int16x4_t __a, int16x4_t __b)
 700 {
 701   return (int32x4_t) __builtin_aarch64_saddlv4hi (__a, __b);
 702 }
 703
 704 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
 705 vaddl_s32 (int32x2_t __a, int32x2_t __b)
 706 {
 707   return (int64x2_t) __builtin_aarch64_saddlv2si (__a, __b);
 708 }
 709
 710 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
 711 vaddl_u8 (uint8x8_t __a, uint8x8_t __b)
 712 {
 713   return (uint16x8_t) __builtin_aarch64_uaddlv8qi ((int8x8_t) __a,
 714                                                    (int8x8_t) __b);
 715 }
 716
 717 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
 718 vaddl_u16 (uint16x4_t __a, uint16x4_t __b)
 719 {
 720   return (uint32x4_t) __builtin_aarch64_uaddlv4hi ((int16x4_t) __a,
 721                                                    (int16x4_t) __b);
 722 }
 723
 724 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
 725 vaddl_u32 (uint32x2_t __a, uint32x2_t __b)
 726 {
 727   return (uint64x2_t) __builtin_aarch64_uaddlv2si ((int32x2_t) __a,
 728                                                    (int32x2_t) __b);
 729 }
 730
 731 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
 732 vaddl_high_s8 (int8x16_t __a, int8x16_t __b)
 733 {
 734   return (int16x8_t) __builtin_aarch64_saddl2v16qi (__a, __b);
 735 }
 736
 737 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
 738 vaddl_high_s16 (int16x8_t __a, int16x8_t __b)
 739 {
 740   return (int32x4_t) __builtin_aarch64_saddl2v8hi (__a, __b);
 741 }
 742
 743 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
 744 vaddl_high_s32 (int32x4_t __a, int32x4_t __b)
 745 {
 746   return (int64x2_t) __builtin_aarch64_saddl2v4si (__a, __b);
 747 }
 748
 749 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
 750 vaddl_high_u8 (uint8x16_t __a, uint8x16_t __b)
 751 {
 752   return (uint16x8_t) __builtin_aarch64_uaddl2v16qi ((int8x16_t) __a,
 753                                                      (int8x16_t) __b);
 754 }
 755
 756 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
 757 vaddl_high_u16 (uint16x8_t __a, uint16x8_t __b)
 758 {
 759   return (uint32x4_t) __builtin_aarch64_uaddl2v8hi ((int16x8_t) __a,
 760                                                     (int16x8_t) __b);
 761 }
 762
 763 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
 764 vaddl_high_u32 (uint32x4_t __a, uint32x4_t __b)
 765 {
 766   return (uint64x2_t) __builtin_aarch64_uaddl2v4si ((int32x4_t) __a,
 767                                                     (int32x4_t) __b);
 768 }
 769
 770 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
 771 vaddw_s8 (int16x8_t __a, int8x8_t __b)
 772 {
 773   return (int16x8_t) __builtin_aarch64_saddwv8qi (__a, __b);
 774 }
 775
 776 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
 777 vaddw_s16 (int32x4_t __a, int16x4_t __b)
 778 {
 779   return (int32x4_t) __builtin_aarch64_saddwv4hi (__a, __b);
 780 }
 781
 782 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
 783 vaddw_s32 (int64x2_t __a, int32x2_t __b)
 784 {
 785   return (int64x2_t) __builtin_aarch64_saddwv2si (__a, __b);
 786 }
 787
 788 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
 789 vaddw_u8 (uint16x8_t __a, uint8x8_t __b)
 790 {
 791   return (uint16x8_t) __builtin_aarch64_uaddwv8qi ((int16x8_t) __a,
 792                                                    (int8x8_t) __b);
 793 }
 794
 795 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
 796 vaddw_u16 (uint32x4_t __a, uint16x4_t __b)
 797 {
 798   return (uint32x4_t) __builtin_aarch64_uaddwv4hi ((int32x4_t) __a,
 799                                                    (int16x4_t) __b);
 800 }
 801
 802 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
 803 vaddw_u32 (uint64x2_t __a, uint32x2_t __b)
 804 {
 805   return (uint64x2_t) __builtin_aarch64_uaddwv2si ((int64x2_t) __a,
 806                                                    (int32x2_t) __b);
 807 }
 808
 809 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
 810 vaddw_high_s8 (int16x8_t __a, int8x16_t __b)
 811 {
 812   return (int16x8_t) __builtin_aarch64_saddw2v16qi (__a, __b);
 813 }
 814
 815 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
 816 vaddw_high_s16 (int32x4_t __a, int16x8_t __b)
 817 {
 818   return (int32x4_t) __builtin_aarch64_saddw2v8hi (__a, __b);
 819 }
 820
 821 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
 822 vaddw_high_s32 (int64x2_t __a, int32x4_t __b)
 823 {
 824   return (int64x2_t) __builtin_aarch64_saddw2v4si (__a, __b);
 825 }
 826
 827 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
 828 vaddw_high_u8 (uint16x8_t __a, uint8x16_t __b)
 829 {
 830   return (uint16x8_t) __builtin_aarch64_uaddw2v16qi ((int16x8_t) __a,
 831                                                      (int8x16_t) __b);
 832 }
 833
 834 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
 835 vaddw_high_u16 (uint32x4_t __a, uint16x8_t __b)
 836 {
 837   return (uint32x4_t) __builtin_aarch64_uaddw2v8hi ((int32x4_t) __a,
 838                                                     (int16x8_t) __b);
 839 }
 840
 841 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
 842 vaddw_high_u32 (uint64x2_t __a, uint32x4_t __b)
 843 {
 844   return (uint64x2_t) __builtin_aarch64_uaddw2v4si ((int64x2_t) __a,
 845                                                     (int32x4_t) __b);
 846 }
 847
 848 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
 849 vhadd_s8 (int8x8_t __a, int8x8_t __b)
 850 {
 851   return (int8x8_t) __builtin_aarch64_shaddv8qi (__a, __b);
 852 }
 853
 854 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
 855 vhadd_s16 (int16x4_t __a, int16x4_t __b)
 856 {
 857   return (int16x4_t) __builtin_aarch64_shaddv4hi (__a, __b);
 858 }
 859
 860 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
 861 vhadd_s32 (int32x2_t __a, int32x2_t __b)
 862 {
 863   return (int32x2_t) __builtin_aarch64_shaddv2si (__a, __b);
 864 }
 865
 866 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
 867 vhadd_u8 (uint8x8_t __a, uint8x8_t __b)
 868 {
 869   return (uint8x8_t) __builtin_aarch64_uhaddv8qi ((int8x8_t) __a,
 870                                                   (int8x8_t) __b);
 871 }
 872
 873 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
 874 vhadd_u16 (uint16x4_t __a, uint16x4_t __b)
 875 {
 876   return (uint16x4_t) __builtin_aarch64_uhaddv4hi ((int16x4_t) __a,
 877                                                    (int16x4_t) __b);
 878 }
 879
 880 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
 881 vhadd_u32 (uint32x2_t __a, uint32x2_t __b)
 882 {
 883   return (uint32x2_t) __builtin_aarch64_uhaddv2si ((int32x2_t) __a,
 884                                                    (int32x2_t) __b);
 885 }
 886
 887 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
 888 vhaddq_s8 (int8x16_t __a, int8x16_t __b)
 889 {
 890   return (int8x16_t) __builtin_aarch64_shaddv16qi (__a, __b);
 891 }
 892
 893 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
 894 vhaddq_s16 (int16x8_t __a, int16x8_t __b)
 895 {
 896   return (int16x8_t) __builtin_aarch64_shaddv8hi (__a, __b);
 897 }
 898
 899 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
 900 vhaddq_s32 (int32x4_t __a, int32x4_t __b)
 901 {
 902   return (int32x4_t) __builtin_aarch64_shaddv4si (__a, __b);
 903 }
 904
 905 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
 906 vhaddq_u8 (uint8x16_t __a, uint8x16_t __b)
 907 {
 908   return (uint8x16_t) __builtin_aarch64_uhaddv16qi ((int8x16_t) __a,
 909                                                     (int8x16_t) __b);
 910 }
 911
 912 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
 913 vhaddq_u16 (uint16x8_t __a, uint16x8_t __b)
 914 {
 915   return (uint16x8_t) __builtin_aarch64_uhaddv8hi ((int16x8_t) __a,
 916                                                    (int16x8_t) __b);
 917 }
 918
 919 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
 920 vhaddq_u32 (uint32x4_t __a, uint32x4_t __b)
 921 {
 922   return (uint32x4_t) __builtin_aarch64_uhaddv4si ((int32x4_t) __a,
 923                                                    (int32x4_t) __b);
 924 }
 925
 926 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
 927 vrhadd_s8 (int8x8_t __a, int8x8_t __b)
 928 {
 929   return (int8x8_t) __builtin_aarch64_srhaddv8qi (__a, __b);
 930 }
 931
 932 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
 933 vrhadd_s16 (int16x4_t __a, int16x4_t __b)
 934 {
 935   return (int16x4_t) __builtin_aarch64_srhaddv4hi (__a, __b);
 936 }
 937
 938 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
 939 vrhadd_s32 (int32x2_t __a, int32x2_t __b)
 940 {
 941   return (int32x2_t) __builtin_aarch64_srhaddv2si (__a, __b);
 942 }
 943
 944 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
 945 vrhadd_u8 (uint8x8_t __a, uint8x8_t __b)
 946 {
 947   return (uint8x8_t) __builtin_aarch64_urhaddv8qi ((int8x8_t) __a,
 948                                                    (int8x8_t) __b);
 949 }
 950
 951 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
 952 vrhadd_u16 (uint16x4_t __a, uint16x4_t __b)
 953 {
 954   return (uint16x4_t) __builtin_aarch64_urhaddv4hi ((int16x4_t) __a,
 955                                                     (int16x4_t) __b);
 956 }
 957
 958 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
 959 vrhadd_u32 (uint32x2_t __a, uint32x2_t __b)
 960 {
 961   return (uint32x2_t) __builtin_aarch64_urhaddv2si ((int32x2_t) __a,
 962                                                     (int32x2_t) __b);
 963 }
 964
 965 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
 966 vrhaddq_s8 (int8x16_t __a, int8x16_t __b)
 967 {
 968   return (int8x16_t) __builtin_aarch64_srhaddv16qi (__a, __b);
 969 }
 970
 971 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
 972 vrhaddq_s16 (int16x8_t __a, int16x8_t __b)
 973 {
 974   return (int16x8_t) __builtin_aarch64_srhaddv8hi (__a, __b);
 975 }
 976
 977 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
 978 vrhaddq_s32 (int32x4_t __a, int32x4_t __b)
 979 {
 980   return (int32x4_t) __builtin_aarch64_srhaddv4si (__a, __b);
 981 }
 982
 983 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
 984 vrhaddq_u8 (uint8x16_t __a, uint8x16_t __b)
 985 {
 986   return (uint8x16_t) __builtin_aarch64_urhaddv16qi ((int8x16_t) __a,
 987                                                      (int8x16_t) __b);
 988 }
 989
 990 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
 991 vrhaddq_u16 (uint16x8_t __a, uint16x8_t __b)
 992 {
 993   return (uint16x8_t) __builtin_aarch64_urhaddv8hi ((int16x8_t) __a,
 994                                                     (int16x8_t) __b);
 995 }
 996
 997 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
 998 vrhaddq_u32 (uint32x4_t __a, uint32x4_t __b)
 999 {
1000   return (uint32x4_t) __builtin_aarch64_urhaddv4si ((int32x4_t) __a,
1001                                                     (int32x4_t) __b);
1002 }
1003
1004 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1005 vaddhn_s16 (int16x8_t __a, int16x8_t __b)
1006 {
1007   return (int8x8_t) __builtin_aarch64_addhnv8hi (__a, __b);
1008 }
1009
1010 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1011 vaddhn_s32 (int32x4_t __a, int32x4_t __b)
1012 {
1013   return (int16x4_t) __builtin_aarch64_addhnv4si (__a, __b);
1014 }
1015
1016 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1017 vaddhn_s64 (int64x2_t __a, int64x2_t __b)
1018 {
1019   return (int32x2_t) __builtin_aarch64_addhnv2di (__a, __b);
1020 }
1021
1022 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1023 vaddhn_u16 (uint16x8_t __a, uint16x8_t __b)
1024 {
1025   return (uint8x8_t) __builtin_aarch64_addhnv8hi ((int16x8_t) __a,
1026                                                   (int16x8_t) __b);
1027 }
1028
1029 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1030 vaddhn_u32 (uint32x4_t __a, uint32x4_t __b)
1031 {
1032   return (uint16x4_t) __builtin_aarch64_addhnv4si ((int32x4_t) __a,
1033                                                    (int32x4_t) __b);
1034 }
1035
1036 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1037 vaddhn_u64 (uint64x2_t __a, uint64x2_t __b)
1038 {
1039   return (uint32x2_t) __builtin_aarch64_addhnv2di ((int64x2_t) __a,
1040                                                    (int64x2_t) __b);
1041 }
1042
1043 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1044 vraddhn_s16 (int16x8_t __a, int16x8_t __b)
1045 {
1046   return (int8x8_t) __builtin_aarch64_raddhnv8hi (__a, __b);
1047 }
1048
1049 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1050 vraddhn_s32 (int32x4_t __a, int32x4_t __b)
1051 {
1052   return (int16x4_t) __builtin_aarch64_raddhnv4si (__a, __b);
1053 }
1054
1055 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1056 vraddhn_s64 (int64x2_t __a, int64x2_t __b)
1057 {
1058   return (int32x2_t) __builtin_aarch64_raddhnv2di (__a, __b);
1059 }
1060
1061 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1062 vraddhn_u16 (uint16x8_t __a, uint16x8_t __b)
1063 {
1064   return (uint8x8_t) __builtin_aarch64_raddhnv8hi ((int16x8_t) __a,
1065                                                    (int16x8_t) __b);
1066 }
1067
1068 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1069 vraddhn_u32 (uint32x4_t __a, uint32x4_t __b)
1070 {
1071   return (uint16x4_t) __builtin_aarch64_raddhnv4si ((int32x4_t) __a,
1072                                                     (int32x4_t) __b);
1073 }
1074
1075 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1076 vraddhn_u64 (uint64x2_t __a, uint64x2_t __b)
1077 {
1078   return (uint32x2_t) __builtin_aarch64_raddhnv2di ((int64x2_t) __a,
1079                                                     (int64x2_t) __b);
1080 }
1081
1082 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1083 vaddhn_high_s16 (int8x8_t __a, int16x8_t __b, int16x8_t __c)
1084 {
1085   return (int8x16_t) __builtin_aarch64_addhn2v8hi (__a, __b, __c);
1086 }
1087
1088 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1089 vaddhn_high_s32 (int16x4_t __a, int32x4_t __b, int32x4_t __c)
1090 {
1091   return (int16x8_t) __builtin_aarch64_addhn2v4si (__a, __b, __c);
1092 }
1093
1094 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1095 vaddhn_high_s64 (int32x2_t __a, int64x2_t __b, int64x2_t __c)
1096 {
1097   return (int32x4_t) __builtin_aarch64_addhn2v2di (__a, __b, __c);
1098 }
1099
1100 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1101 vaddhn_high_u16 (uint8x8_t __a, uint16x8_t __b, uint16x8_t __c)
1102 {
1103   return (uint8x16_t) __builtin_aarch64_addhn2v8hi ((int8x8_t) __a,
1104                                                     (int16x8_t) __b,
1105                                                     (int16x8_t) __c);
1106 }
1107
1108 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1109 vaddhn_high_u32 (uint16x4_t __a, uint32x4_t __b, uint32x4_t __c)
1110 {
1111   return (uint16x8_t) __builtin_aarch64_addhn2v4si ((int16x4_t) __a,
1112                                                     (int32x4_t) __b,
1113                                                     (int32x4_t) __c);
1114 }
1115
1116 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1117 vaddhn_high_u64 (uint32x2_t __a, uint64x2_t __b, uint64x2_t __c)
1118 {
1119   return (uint32x4_t) __builtin_aarch64_addhn2v2di ((int32x2_t) __a,
1120                                                     (int64x2_t) __b,
1121                                                     (int64x2_t) __c);
1122 }
1123
1124 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1125 vraddhn_high_s16 (int8x8_t __a, int16x8_t __b, int16x8_t __c)
1126 {
1127   return (int8x16_t) __builtin_aarch64_raddhn2v8hi (__a, __b, __c);
1128 }
1129
1130 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1131 vraddhn_high_s32 (int16x4_t __a, int32x4_t __b, int32x4_t __c)
1132 {
1133   return (int16x8_t) __builtin_aarch64_raddhn2v4si (__a, __b, __c);
1134 }
1135
1136 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1137 vraddhn_high_s64 (int32x2_t __a, int64x2_t __b, int64x2_t __c)
1138 {
1139   return (int32x4_t) __builtin_aarch64_raddhn2v2di (__a, __b, __c);
1140 }
1141
1142 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1143 vraddhn_high_u16 (uint8x8_t __a, uint16x8_t __b, uint16x8_t __c)
1144 {
1145   return (uint8x16_t) __builtin_aarch64_raddhn2v8hi ((int8x8_t) __a,
1146                                                      (int16x8_t) __b,
1147                                                      (int16x8_t) __c);
1148 }
1149
1150 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1151 vraddhn_high_u32 (uint16x4_t __a, uint32x4_t __b, uint32x4_t __c)
1152 {
1153   return (uint16x8_t) __builtin_aarch64_raddhn2v4si ((int16x4_t) __a,
1154                                                      (int32x4_t) __b,
1155                                                      (int32x4_t) __c);
1156 }
1157
1158 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1159 vraddhn_high_u64 (uint32x2_t __a, uint64x2_t __b, uint64x2_t __c)
1160 {
1161   return (uint32x4_t) __builtin_aarch64_raddhn2v2di ((int32x2_t) __a,
1162                                                      (int64x2_t) __b,
1163                                                      (int64x2_t) __c);
1164 }
1165
1166 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
1167 vdiv_f32 (float32x2_t __a, float32x2_t __b)
1168 {
1169   return __a / __b;
1170 }
1171
1172 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
1173 vdiv_f64 (float64x1_t __a, float64x1_t __b)
1174 {
1175   return __a / __b;
1176 }
1177
1178 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
1179 vdivq_f32 (float32x4_t __a, float32x4_t __b)
1180 {
1181   return __a / __b;
1182 }
1183
1184 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
1185 vdivq_f64 (float64x2_t __a, float64x2_t __b)
1186 {
1187   return __a / __b;
1188 }
1189
1190 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1191 vmul_s8 (int8x8_t __a, int8x8_t __b)
1192 {
1193   return __a * __b;
1194 }
1195
1196 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1197 vmul_s16 (int16x4_t __a, int16x4_t __b)
1198 {
1199   return __a * __b;
1200 }
1201
1202 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1203 vmul_s32 (int32x2_t __a, int32x2_t __b)
1204 {
1205   return __a * __b;
1206 }
1207
1208 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
1209 vmul_f32 (float32x2_t __a, float32x2_t __b)
1210 {
1211   return __a * __b;
1212 }
1213
1214 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
1215 vmul_f64 (float64x1_t __a, float64x1_t __b)
1216 {
1217   return __a * __b;
1218 }
1219
1220 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1221 vmul_u8 (uint8x8_t __a, uint8x8_t __b)
1222 {
1223   return __a * __b;
1224 }
1225
1226 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1227 vmul_u16 (uint16x4_t __a, uint16x4_t __b)
1228 {
1229   return __a * __b;
1230 }
1231
1232 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1233 vmul_u32 (uint32x2_t __a, uint32x2_t __b)
1234 {
1235   return __a * __b;
1236 }
1237
1238 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
1239 vmul_p8 (poly8x8_t __a, poly8x8_t __b)
1240 {
1241   return (poly8x8_t) __builtin_aarch64_pmulv8qi ((int8x8_t) __a,
1242                                                  (int8x8_t) __b);
1243 }
1244
1245 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1246 vmulq_s8 (int8x16_t __a, int8x16_t __b)
1247 {
1248   return __a * __b;
1249 }
1250
1251 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1252 vmulq_s16 (int16x8_t __a, int16x8_t __b)
1253 {
1254   return __a * __b;
1255 }
1256
1257 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1258 vmulq_s32 (int32x4_t __a, int32x4_t __b)
1259 {
1260   return __a * __b;
1261 }
1262
1263 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
1264 vmulq_f32 (float32x4_t __a, float32x4_t __b)
1265 {
1266   return __a * __b;
1267 }
1268
1269 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
1270 vmulq_f64 (float64x2_t __a, float64x2_t __b)
1271 {
1272   return __a * __b;
1273 }
1274
1275 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1276 vmulq_u8 (uint8x16_t __a, uint8x16_t __b)
1277 {
1278   return __a * __b;
1279 }
1280
1281 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1282 vmulq_u16 (uint16x8_t __a, uint16x8_t __b)
1283 {
1284   return __a * __b;
1285 }
1286
1287 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1288 vmulq_u32 (uint32x4_t __a, uint32x4_t __b)
1289 {
1290   return __a * __b;
1291 }
1292
1293 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
1294 vmulq_p8 (poly8x16_t __a, poly8x16_t __b)
1295 {
1296   return (poly8x16_t) __builtin_aarch64_pmulv16qi ((int8x16_t) __a,
1297                                                    (int8x16_t) __b);
1298 }
1299
1300 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1301 vand_s8 (int8x8_t __a, int8x8_t __b)
1302 {
1303   return __a & __b;
1304 }
1305
1306 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1307 vand_s16 (int16x4_t __a, int16x4_t __b)
1308 {
1309   return __a & __b;
1310 }
1311
1312 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1313 vand_s32 (int32x2_t __a, int32x2_t __b)
1314 {
1315   return __a & __b;
1316 }
1317
1318 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1319 vand_u8 (uint8x8_t __a, uint8x8_t __b)
1320 {
1321   return __a & __b;
1322 }
1323
1324 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1325 vand_u16 (uint16x4_t __a, uint16x4_t __b)
1326 {
1327   return __a & __b;
1328 }
1329
1330 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1331 vand_u32 (uint32x2_t __a, uint32x2_t __b)
1332 {
1333   return __a & __b;
1334 }
1335
1336 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
1337 vand_s64 (int64x1_t __a, int64x1_t __b)
1338 {
1339   return __a & __b;
1340 }
1341
1342 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
1343 vand_u64 (uint64x1_t __a, uint64x1_t __b)
1344 {
1345   return __a & __b;
1346 }
1347
1348 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1349 vandq_s8 (int8x16_t __a, int8x16_t __b)
1350 {
1351   return __a & __b;
1352 }
1353
1354 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1355 vandq_s16 (int16x8_t __a, int16x8_t __b)
1356 {
1357   return __a & __b;
1358 }
1359
1360 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1361 vandq_s32 (int32x4_t __a, int32x4_t __b)
1362 {
1363   return __a & __b;
1364 }
1365
1366 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1367 vandq_s64 (int64x2_t __a, int64x2_t __b)
1368 {
1369   return __a & __b;
1370 }
1371
1372 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1373 vandq_u8 (uint8x16_t __a, uint8x16_t __b)
1374 {
1375   return __a & __b;
1376 }
1377
1378 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1379 vandq_u16 (uint16x8_t __a, uint16x8_t __b)
1380 {
1381   return __a & __b;
1382 }
1383
1384 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1385 vandq_u32 (uint32x4_t __a, uint32x4_t __b)
1386 {
1387   return __a & __b;
1388 }
1389
1390 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1391 vandq_u64 (uint64x2_t __a, uint64x2_t __b)
1392 {
1393   return __a & __b;
1394 }
1395
1396 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1397 vorr_s8 (int8x8_t __a, int8x8_t __b)
1398 {
1399   return __a | __b;
1400 }
1401
1402 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1403 vorr_s16 (int16x4_t __a, int16x4_t __b)
1404 {
1405   return __a | __b;
1406 }
1407
1408 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1409 vorr_s32 (int32x2_t __a, int32x2_t __b)
1410 {
1411   return __a | __b;
1412 }
1413
1414 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1415 vorr_u8 (uint8x8_t __a, uint8x8_t __b)
1416 {
1417   return __a | __b;
1418 }
1419
1420 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1421 vorr_u16 (uint16x4_t __a, uint16x4_t __b)
1422 {
1423   return __a | __b;
1424 }
1425
1426 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1427 vorr_u32 (uint32x2_t __a, uint32x2_t __b)
1428 {
1429   return __a | __b;
1430 }
1431
1432 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
1433 vorr_s64 (int64x1_t __a, int64x1_t __b)
1434 {
1435   return __a | __b;
1436 }
1437
1438 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
1439 vorr_u64 (uint64x1_t __a, uint64x1_t __b)
1440 {
1441   return __a | __b;
1442 }
1443
1444 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1445 vorrq_s8 (int8x16_t __a, int8x16_t __b)
1446 {
1447   return __a | __b;
1448 }
1449
1450 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1451 vorrq_s16 (int16x8_t __a, int16x8_t __b)
1452 {
1453   return __a | __b;
1454 }
1455
1456 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1457 vorrq_s32 (int32x4_t __a, int32x4_t __b)
1458 {
1459   return __a | __b;
1460 }
1461
1462 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1463 vorrq_s64 (int64x2_t __a, int64x2_t __b)
1464 {
1465   return __a | __b;
1466 }
1467
1468 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1469 vorrq_u8 (uint8x16_t __a, uint8x16_t __b)
1470 {
1471   return __a | __b;
1472 }
1473
1474 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1475 vorrq_u16 (uint16x8_t __a, uint16x8_t __b)
1476 {
1477   return __a | __b;
1478 }
1479
1480 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1481 vorrq_u32 (uint32x4_t __a, uint32x4_t __b)
1482 {
1483   return __a | __b;
1484 }
1485
1486 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1487 vorrq_u64 (uint64x2_t __a, uint64x2_t __b)
1488 {
1489   return __a | __b;
1490 }
1491
1492 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1493 veor_s8 (int8x8_t __a, int8x8_t __b)
1494 {
1495   return __a ^ __b;
1496 }
1497
1498 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1499 veor_s16 (int16x4_t __a, int16x4_t __b)
1500 {
1501   return __a ^ __b;
1502 }
1503
1504 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1505 veor_s32 (int32x2_t __a, int32x2_t __b)
1506 {
1507   return __a ^ __b;
1508 }
1509
1510 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1511 veor_u8 (uint8x8_t __a, uint8x8_t __b)
1512 {
1513   return __a ^ __b;
1514 }
1515
1516 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1517 veor_u16 (uint16x4_t __a, uint16x4_t __b)
1518 {
1519   return __a ^ __b;
1520 }
1521
1522 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1523 veor_u32 (uint32x2_t __a, uint32x2_t __b)
1524 {
1525   return __a ^ __b;
1526 }
1527
1528 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
1529 veor_s64 (int64x1_t __a, int64x1_t __b)
1530 {
1531   return __a ^ __b;
1532 }
1533
1534 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
1535 veor_u64 (uint64x1_t __a, uint64x1_t __b)
1536 {
1537   return __a ^ __b;
1538 }
1539
1540 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1541 veorq_s8 (int8x16_t __a, int8x16_t __b)
1542 {
1543   return __a ^ __b;
1544 }
1545
1546 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1547 veorq_s16 (int16x8_t __a, int16x8_t __b)
1548 {
1549   return __a ^ __b;
1550 }
1551
1552 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1553 veorq_s32 (int32x4_t __a, int32x4_t __b)
1554 {
1555   return __a ^ __b;
1556 }
1557
1558 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1559 veorq_s64 (int64x2_t __a, int64x2_t __b)
1560 {
1561   return __a ^ __b;
1562 }
1563
1564 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1565 veorq_u8 (uint8x16_t __a, uint8x16_t __b)
1566 {
1567   return __a ^ __b;
1568 }
1569
1570 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1571 veorq_u16 (uint16x8_t __a, uint16x8_t __b)
1572 {
1573   return __a ^ __b;
1574 }
1575
1576 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1577 veorq_u32 (uint32x4_t __a, uint32x4_t __b)
1578 {
1579   return __a ^ __b;
1580 }
1581
1582 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1583 veorq_u64 (uint64x2_t __a, uint64x2_t __b)
1584 {
1585   return __a ^ __b;
1586 }
1587
1588 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1589 vbic_s8 (int8x8_t __a, int8x8_t __b)
1590 {
1591   return __a & ~__b;
1592 }
1593
1594 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1595 vbic_s16 (int16x4_t __a, int16x4_t __b)
1596 {
1597   return __a & ~__b;
1598 }
1599
1600 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1601 vbic_s32 (int32x2_t __a, int32x2_t __b)
1602 {
1603   return __a & ~__b;
1604 }
1605
1606 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1607 vbic_u8 (uint8x8_t __a, uint8x8_t __b)
1608 {
1609   return __a & ~__b;
1610 }
1611
1612 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1613 vbic_u16 (uint16x4_t __a, uint16x4_t __b)
1614 {
1615   return __a & ~__b;
1616 }
1617
1618 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1619 vbic_u32 (uint32x2_t __a, uint32x2_t __b)
1620 {
1621   return __a & ~__b;
1622 }
1623
1624 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
1625 vbic_s64 (int64x1_t __a, int64x1_t __b)
1626 {
1627   return __a & ~__b;
1628 }
1629
1630 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
1631 vbic_u64 (uint64x1_t __a, uint64x1_t __b)
1632 {
1633   return __a & ~__b;
1634 }
1635
1636 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1637 vbicq_s8 (int8x16_t __a, int8x16_t __b)
1638 {
1639   return __a & ~__b;
1640 }
1641
1642 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1643 vbicq_s16 (int16x8_t __a, int16x8_t __b)
1644 {
1645   return __a & ~__b;
1646 }
1647
1648 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1649 vbicq_s32 (int32x4_t __a, int32x4_t __b)
1650 {
1651   return __a & ~__b;
1652 }
1653
1654 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1655 vbicq_s64 (int64x2_t __a, int64x2_t __b)
1656 {
1657   return __a & ~__b;
1658 }
1659
1660 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1661 vbicq_u8 (uint8x16_t __a, uint8x16_t __b)
1662 {
1663   return __a & ~__b;
1664 }
1665
1666 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1667 vbicq_u16 (uint16x8_t __a, uint16x8_t __b)
1668 {
1669   return __a & ~__b;
1670 }
1671
1672 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1673 vbicq_u32 (uint32x4_t __a, uint32x4_t __b)
1674 {
1675   return __a & ~__b;
1676 }
1677
1678 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1679 vbicq_u64 (uint64x2_t __a, uint64x2_t __b)
1680 {
1681   return __a & ~__b;
1682 }
1683
1684 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1685 vorn_s8 (int8x8_t __a, int8x8_t __b)
1686 {
1687   return __a | ~__b;
1688 }
1689
1690 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1691 vorn_s16 (int16x4_t __a, int16x4_t __b)
1692 {
1693   return __a | ~__b;
1694 }
1695
1696 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1697 vorn_s32 (int32x2_t __a, int32x2_t __b)
1698 {
1699   return __a | ~__b;
1700 }
1701
1702 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1703 vorn_u8 (uint8x8_t __a, uint8x8_t __b)
1704 {
1705   return __a | ~__b;
1706 }
1707
1708 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1709 vorn_u16 (uint16x4_t __a, uint16x4_t __b)
1710 {
1711   return __a | ~__b;
1712 }
1713
1714 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1715 vorn_u32 (uint32x2_t __a, uint32x2_t __b)
1716 {
1717   return __a | ~__b;
1718 }
1719
1720 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
1721 vorn_s64 (int64x1_t __a, int64x1_t __b)
1722 {
1723   return __a | ~__b;
1724 }
1725
1726 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
1727 vorn_u64 (uint64x1_t __a, uint64x1_t __b)
1728 {
1729   return __a | ~__b;
1730 }
1731
1732 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1733 vornq_s8 (int8x16_t __a, int8x16_t __b)
1734 {
1735   return __a | ~__b;
1736 }
1737
1738 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1739 vornq_s16 (int16x8_t __a, int16x8_t __b)
1740 {
1741   return __a | ~__b;
1742 }
1743
1744 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1745 vornq_s32 (int32x4_t __a, int32x4_t __b)
1746 {
1747   return __a | ~__b;
1748 }
1749
1750 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1751 vornq_s64 (int64x2_t __a, int64x2_t __b)
1752 {
1753   return __a | ~__b;
1754 }
1755
1756 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1757 vornq_u8 (uint8x16_t __a, uint8x16_t __b)
1758 {
1759   return __a | ~__b;
1760 }
1761
1762 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1763 vornq_u16 (uint16x8_t __a, uint16x8_t __b)
1764 {
1765   return __a | ~__b;
1766 }
1767
1768 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1769 vornq_u32 (uint32x4_t __a, uint32x4_t __b)
1770 {
1771   return __a | ~__b;
1772 }
1773
1774 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1775 vornq_u64 (uint64x2_t __a, uint64x2_t __b)
1776 {
1777   return __a | ~__b;
1778 }
1779
1780 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1781 vsub_s8 (int8x8_t __a, int8x8_t __b)
1782 {
1783   return __a - __b;
1784 }
1785
1786 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1787 vsub_s16 (int16x4_t __a, int16x4_t __b)
1788 {
1789   return __a - __b;
1790 }
1791
1792 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1793 vsub_s32 (int32x2_t __a, int32x2_t __b)
1794 {
1795   return __a - __b;
1796 }
1797
1798 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
1799 vsub_f32 (float32x2_t __a, float32x2_t __b)
1800 {
1801   return __a - __b;
1802 }
1803
1804 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
1805 vsub_f64 (float64x1_t __a, float64x1_t __b)
1806 {
1807   return __a - __b;
1808 }
1809
1810 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1811 vsub_u8 (uint8x8_t __a, uint8x8_t __b)
1812 {
1813   return __a - __b;
1814 }
1815
1816 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1817 vsub_u16 (uint16x4_t __a, uint16x4_t __b)
1818 {
1819   return __a - __b;
1820 }
1821
1822 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1823 vsub_u32 (uint32x2_t __a, uint32x2_t __b)
1824 {
1825   return __a - __b;
1826 }
1827
1828 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
1829 vsub_s64 (int64x1_t __a, int64x1_t __b)
1830 {
1831   return __a - __b;
1832 }
1833
1834 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
1835 vsub_u64 (uint64x1_t __a, uint64x1_t __b)
1836 {
1837   return __a - __b;
1838 }
1839
1840 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1841 vsubq_s8 (int8x16_t __a, int8x16_t __b)
1842 {
1843   return __a - __b;
1844 }
1845
1846 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1847 vsubq_s16 (int16x8_t __a, int16x8_t __b)
1848 {
1849   return __a - __b;
1850 }
1851
1852 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1853 vsubq_s32 (int32x4_t __a, int32x4_t __b)
1854 {
1855   return __a - __b;
1856 }
1857
1858 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1859 vsubq_s64 (int64x2_t __a, int64x2_t __b)
1860 {
1861   return __a - __b;
1862 }
1863
1864 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
1865 vsubq_f32 (float32x4_t __a, float32x4_t __b)
1866 {
1867   return __a - __b;
1868 }
1869
1870 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
1871 vsubq_f64 (float64x2_t __a, float64x2_t __b)
1872 {
1873   return __a - __b;
1874 }
1875
1876 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1877 vsubq_u8 (uint8x16_t __a, uint8x16_t __b)
1878 {
1879   return __a - __b;
1880 }
1881
1882 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1883 vsubq_u16 (uint16x8_t __a, uint16x8_t __b)
1884 {
1885   return __a - __b;
1886 }
1887
1888 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1889 vsubq_u32 (uint32x4_t __a, uint32x4_t __b)
1890 {
1891   return __a - __b;
1892 }
1893
1894 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1895 vsubq_u64 (uint64x2_t __a, uint64x2_t __b)
1896 {
1897   return __a - __b;
1898 }
1899
1900 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1901 vsubl_s8 (int8x8_t __a, int8x8_t __b)
1902 {
1903   return (int16x8_t) __builtin_aarch64_ssublv8qi (__a, __b);
1904 }
1905
1906 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1907 vsubl_s16 (int16x4_t __a, int16x4_t __b)
1908 {
1909   return (int32x4_t) __builtin_aarch64_ssublv4hi (__a, __b);
1910 }
1911
1912 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1913 vsubl_s32 (int32x2_t __a, int32x2_t __b)
1914 {
1915   return (int64x2_t) __builtin_aarch64_ssublv2si (__a, __b);
1916 }
1917
1918 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1919 vsubl_u8 (uint8x8_t __a, uint8x8_t __b)
1920 {
1921   return (uint16x8_t) __builtin_aarch64_usublv8qi ((int8x8_t) __a,
1922                                                    (int8x8_t) __b);
1923 }
1924
1925 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1926 vsubl_u16 (uint16x4_t __a, uint16x4_t __b)
1927 {
1928   return (uint32x4_t) __builtin_aarch64_usublv4hi ((int16x4_t) __a,
1929                                                    (int16x4_t) __b);
1930 }
1931
1932 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1933 vsubl_u32 (uint32x2_t __a, uint32x2_t __b)
1934 {
1935   return (uint64x2_t) __builtin_aarch64_usublv2si ((int32x2_t) __a,
1936                                                    (int32x2_t) __b);
1937 }
1938
1939 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1940 vsubl_high_s8 (int8x16_t __a, int8x16_t __b)
1941 {
1942   return (int16x8_t) __builtin_aarch64_ssubl2v16qi (__a, __b);
1943 }
1944
1945 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1946 vsubl_high_s16 (int16x8_t __a, int16x8_t __b)
1947 {
1948   return (int32x4_t) __builtin_aarch64_ssubl2v8hi (__a, __b);
1949 }
1950
1951 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1952 vsubl_high_s32 (int32x4_t __a, int32x4_t __b)
1953 {
1954   return (int64x2_t) __builtin_aarch64_ssubl2v4si (__a, __b);
1955 }
1956
1957 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1958 vsubl_high_u8 (uint8x16_t __a, uint8x16_t __b)
1959 {
1960   return (uint16x8_t) __builtin_aarch64_usubl2v16qi ((int8x16_t) __a,
1961                                                      (int8x16_t) __b);
1962 }
1963
1964 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1965 vsubl_high_u16 (uint16x8_t __a, uint16x8_t __b)
1966 {
1967   return (uint32x4_t) __builtin_aarch64_usubl2v8hi ((int16x8_t) __a,
1968                                                     (int16x8_t) __b);
1969 }
1970
1971 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1972 vsubl_high_u32 (uint32x4_t __a, uint32x4_t __b)
1973 {
1974   return (uint64x2_t) __builtin_aarch64_usubl2v4si ((int32x4_t) __a,
1975                                                     (int32x4_t) __b);
1976 }
1977
1978 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1979 vsubw_s8 (int16x8_t __a, int8x8_t __b)
1980 {
1981   return (int16x8_t) __builtin_aarch64_ssubwv8qi (__a, __b);
1982 }
1983
1984 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1985 vsubw_s16 (int32x4_t __a, int16x4_t __b)
1986 {
1987   return (int32x4_t) __builtin_aarch64_ssubwv4hi (__a, __b);
1988 }
1989
1990 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1991 vsubw_s32 (int64x2_t __a, int32x2_t __b)
1992 {
1993   return (int64x2_t) __builtin_aarch64_ssubwv2si (__a, __b);
1994 }
1995
1996 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1997 vsubw_u8 (uint16x8_t __a, uint8x8_t __b)
1998 {
1999   return (uint16x8_t) __builtin_aarch64_usubwv8qi ((int16x8_t) __a,
2000                                                    (int8x8_t) __b);
2001 }
2002
2003 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
2004 vsubw_u16 (uint32x4_t __a, uint16x4_t __b)
2005 {
2006   return (uint32x4_t) __builtin_aarch64_usubwv4hi ((int32x4_t) __a,
2007                                                    (int16x4_t) __b);
2008 }
2009
2010 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
2011 vsubw_u32 (uint64x2_t __a, uint32x2_t __b)
2012 {
2013   return (uint64x2_t) __builtin_aarch64_usubwv2si ((int64x2_t) __a,
2014                                                    (int32x2_t) __b);
2015 }
2016
2017 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2018 vsubw_high_s8 (int16x8_t __a, int8x16_t __b)
2019 {
2020   return (int16x8_t) __builtin_aarch64_ssubw2v16qi (__a, __b);
2021 }
2022
2023 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2024 vsubw_high_s16 (int32x4_t __a, int16x8_t __b)
2025 {
2026   return (int32x4_t) __builtin_aarch64_ssubw2v8hi (__a, __b);
2027 }
2028
2029 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
2030 vsubw_high_s32 (int64x2_t __a, int32x4_t __b)
2031 {
2032   return (int64x2_t) __builtin_aarch64_ssubw2v4si (__a, __b);
2033 }
2034
2035 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
2036 vsubw_high_u8 (uint16x8_t __a, uint8x16_t __b)
2037 {
2038   return (uint16x8_t) __builtin_aarch64_usubw2v16qi ((int16x8_t) __a,
2039                                                      (int8x16_t) __b);
2040 }
2041
2042 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
2043 vsubw_high_u16 (uint32x4_t __a, uint16x8_t __b)
2044 {
2045   return (uint32x4_t) __builtin_aarch64_usubw2v8hi ((int32x4_t) __a,
2046                                                     (int16x8_t) __b);
2047 }
2048
2049 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
2050 vsubw_high_u32 (uint64x2_t __a, uint32x4_t __b)
2051 {
2052   return (uint64x2_t) __builtin_aarch64_usubw2v4si ((int64x2_t) __a,
2053                                                     (int32x4_t) __b);
2054 }
2055
2056 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
2057 vqadd_s8 (int8x8_t __a, int8x8_t __b)
2058 {
2059   return (int8x8_t) __builtin_aarch64_sqaddv8qi (__a, __b);
2060 }
2061
2062 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2063 vqadd_s16 (int16x4_t __a, int16x4_t __b)
2064 {
2065   return (int16x4_t) __builtin_aarch64_sqaddv4hi (__a, __b);
2066 }
2067
2068 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2069 vqadd_s32 (int32x2_t __a, int32x2_t __b)
2070 {
2071   return (int32x2_t) __builtin_aarch64_sqaddv2si (__a, __b);
2072 }
2073
2074 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
2075 vqadd_s64 (int64x1_t __a, int64x1_t __b)
2076 {
2077   return (int64x1_t) {__builtin_aarch64_sqadddi (__a[0], __b[0])};
2078 }
2079
2080 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
2081 vqadd_u8 (uint8x8_t __a, uint8x8_t __b)
2082 {
2083   return __builtin_aarch64_uqaddv8qi_uuu (__a, __b);
2084 }
2085
2086 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
2087 vhsub_s8 (int8x8_t __a, int8x8_t __b)
2088 {
2089   return (int8x8_t)__builtin_aarch64_shsubv8qi (__a, __b);
2090 }
2091
2092 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2093 vhsub_s16 (int16x4_t __a, int16x4_t __b)
2094 {
2095   return (int16x4_t) __builtin_aarch64_shsubv4hi (__a, __b);
2096 }
2097
2098 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2099 vhsub_s32 (int32x2_t __a, int32x2_t __b)
2100 {
2101   return (int32x2_t) __builtin_aarch64_shsubv2si (__a, __b);
2102 }
2103
2104 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
2105 vhsub_u8 (uint8x8_t __a, uint8x8_t __b)
2106 {
2107   return (uint8x8_t) __builtin_aarch64_uhsubv8qi ((int8x8_t) __a,
2108                                                   (int8x8_t) __b);
2109 }
2110
2111 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
2112 vhsub_u16 (uint16x4_t __a, uint16x4_t __b)
2113 {
2114   return (uint16x4_t) __builtin_aarch64_uhsubv4hi ((int16x4_t) __a,
2115                                                    (int16x4_t) __b);
2116 }
2117
2118 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
2119 vhsub_u32 (uint32x2_t __a, uint32x2_t __b)
2120 {
2121   return (uint32x2_t) __builtin_aarch64_uhsubv2si ((int32x2_t) __a,
2122                                                    (int32x2_t) __b);
2123 }
2124
2125 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
2126 vhsubq_s8 (int8x16_t __a, int8x16_t __b)
2127 {
2128   return (int8x16_t) __builtin_aarch64_shsubv16qi (__a, __b);
2129 }
2130
2131 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2132 vhsubq_s16 (int16x8_t __a, int16x8_t __b)
2133 {
2134   return (int16x8_t) __builtin_aarch64_shsubv8hi (__a, __b);
2135 }
2136
2137 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2138 vhsubq_s32 (int32x4_t __a, int32x4_t __b)
2139 {
2140   return (int32x4_t) __builtin_aarch64_shsubv4si (__a, __b);
2141 }
2142
2143 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
2144 vhsubq_u8 (uint8x16_t __a, uint8x16_t __b)
2145 {
2146   return (uint8x16_t) __builtin_aarch64_uhsubv16qi ((int8x16_t) __a,
2147                                                     (int8x16_t) __b);
2148 }
2149
2150 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
2151 vhsubq_u16 (uint16x8_t __a, uint16x8_t __b)
2152 {
2153   return (uint16x8_t) __builtin_aarch64_uhsubv8hi ((int16x8_t) __a,
2154                                                    (int16x8_t) __b);
2155 }
2156
2157 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
2158 vhsubq_u32 (uint32x4_t __a, uint32x4_t __b)
2159 {
2160   return (uint32x4_t) __builtin_aarch64_uhsubv4si ((int32x4_t) __a,
2161                                                    (int32x4_t) __b);
2162 }
2163
2164 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
2165 vsubhn_s16 (int16x8_t __a, int16x8_t __b)
2166 {
2167   return (int8x8_t) __builtin_aarch64_subhnv8hi (__a, __b);
2168 }
2169
2170 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2171 vsubhn_s32 (int32x4_t __a, int32x4_t __b)
2172 {
2173   return (int16x4_t) __builtin_aarch64_subhnv4si (__a, __b);
2174 }
2175
2176 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2177 vsubhn_s64 (int64x2_t __a, int64x2_t __b)
2178 {
2179   return (int32x2_t) __builtin_aarch64_subhnv2di (__a, __b);
2180 }
2181
2182 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
2183 vsubhn_u16 (uint16x8_t __a, uint16x8_t __b)
2184 {
2185   return (uint8x8_t) __builtin_aarch64_subhnv8hi ((int16x8_t) __a,
2186                                                   (int16x8_t) __b);
2187 }
2188
2189 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
2190 vsubhn_u32 (uint32x4_t __a, uint32x4_t __b)
2191 {
2192   return (uint16x4_t) __builtin_aarch64_subhnv4si ((int32x4_t) __a,
2193                                                    (int32x4_t) __b);
2194 }
2195
2196 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
2197 vsubhn_u64 (uint64x2_t __a, uint64x2_t __b)
2198 {
2199   return (uint32x2_t) __builtin_aarch64_subhnv2di ((int64x2_t) __a,
2200                                                    (int64x2_t) __b);
2201 }
2202
2203 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
2204 vrsubhn_s16 (int16x8_t __a, int16x8_t __b)
2205 {
2206   return (int8x8_t) __builtin_aarch64_rsubhnv8hi (__a, __b);
2207 }
2208
2209 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2210 vrsubhn_s32 (int32x4_t __a, int32x4_t __b)
2211 {
2212   return (int16x4_t) __builtin_aarch64_rsubhnv4si (__a, __b);
2213 }
2214
2215 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2216 vrsubhn_s64 (int64x2_t __a, int64x2_t __b)
2217 {
2218   return (int32x2_t) __builtin_aarch64_rsubhnv2di (__a, __b);
2219 }
2220
2221 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
2222 vrsubhn_u16 (uint16x8_t __a, uint16x8_t __b)
2223 {
2224   return (uint8x8_t) __builtin_aarch64_rsubhnv8hi ((int16x8_t) __a,
2225                                                    (int16x8_t) __b);
2226 }
2227
2228 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
2229 vrsubhn_u32 (uint32x4_t __a, uint32x4_t __b)
2230 {
2231   return (uint16x4_t) __builtin_aarch64_rsubhnv4si ((int32x4_t) __a,
2232                                                     (int32x4_t) __b);
2233 }
2234
2235 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
2236 vrsubhn_u64 (uint64x2_t __a, uint64x2_t __b)
2237 {
2238   return (uint32x2_t) __builtin_aarch64_rsubhnv2di ((int64x2_t) __a,
2239                                                     (int64x2_t) __b);
2240 }
2241
2242 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
2243 vrsubhn_high_s16 (int8x8_t __a, int16x8_t __b, int16x8_t __c)
2244 {
2245   return (int8x16_t) __builtin_aarch64_rsubhn2v8hi (__a, __b, __c);
2246 }
2247
2248 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2249 vrsubhn_high_s32 (int16x4_t __a, int32x4_t __b, int32x4_t __c)
2250 {
2251   return (int16x8_t) __builtin_aarch64_rsubhn2v4si (__a, __b, __c);
2252 }
2253
2254 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2255 vrsubhn_high_s64 (int32x2_t __a, int64x2_t __b, int64x2_t __c)
2256 {
2257   return (int32x4_t) __builtin_aarch64_rsubhn2v2di (__a, __b, __c);
2258 }
2259
2260 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
2261 vrsubhn_high_u16 (uint8x8_t __a, uint16x8_t __b, uint16x8_t __c)
2262 {
2263   return (uint8x16_t) __builtin_aarch64_rsubhn2v8hi ((int8x8_t) __a,
2264                                                      (int16x8_t) __b,
2265                                                      (int16x8_t) __c);
2266 }
2267
2268 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
2269 vrsubhn_high_u32 (uint16x4_t __a, uint32x4_t __b, uint32x4_t __c)
2270 {
2271   return (uint16x8_t) __builtin_aarch64_rsubhn2v4si ((int16x4_t) __a,
2272                                                      (int32x4_t) __b,
2273                                                      (int32x4_t) __c);
2274 }
2275
2276 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
2277 vrsubhn_high_u64 (uint32x2_t __a, uint64x2_t __b, uint64x2_t __c)
2278 {
2279   return (uint32x4_t) __builtin_aarch64_rsubhn2v2di ((int32x2_t) __a,
2280                                                      (int64x2_t) __b,
2281                                                      (int64x2_t) __c);
2282 }
2283
2284 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
2285 vsubhn_high_s16 (int8x8_t __a, int16x8_t __b, int16x8_t __c)
2286 {
2287   return (int8x16_t) __builtin_aarch64_subhn2v8hi (__a, __b, __c);
2288 }
2289
2290 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2291 vsubhn_high_s32 (int16x4_t __a, int32x4_t __b, int32x4_t __c)
2292 {
2293   return (int16x8_t) __builtin_aarch64_subhn2v4si (__a, __b, __c);;
2294 }
2295
2296 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2297 vsubhn_high_s64 (int32x2_t __a, int64x2_t __b, int64x2_t __c)
2298 {
2299   return (int32x4_t) __builtin_aarch64_subhn2v2di (__a, __b, __c);
2300 }
2301
2302 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
2303 vsubhn_high_u16 (uint8x8_t __a, uint16x8_t __b, uint16x8_t __c)
2304 {
2305   return (uint8x16_t) __builtin_aarch64_subhn2v8hi ((int8x8_t) __a,
2306                                                     (int16x8_t) __b,
2307                                                     (int16x8_t) __c);
2308 }
2309
2310 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
2311 vsubhn_high_u32 (uint16x4_t __a, uint32x4_t __b, uint32x4_t __c)
2312 {
2313   return (uint16x8_t) __builtin_aarch64_subhn2v4si ((int16x4_t) __a,
2314                                                     (int32x4_t) __b,
2315                                                     (int32x4_t) __c);
2316 }
2317
2318 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
2319 vsubhn_high_u64 (uint32x2_t __a, uint64x2_t __b, uint64x2_t __c)
2320 {
2321   return (uint32x4_t) __builtin_aarch64_subhn2v2di ((int32x2_t) __a,
2322                                                     (int64x2_t) __b,
2323                                                     (int64x2_t) __c);
2324 }
2325
2326 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
2327 vqadd_u16 (uint16x4_t __a, uint16x4_t __b)
2328 {
2329   return __builtin_aarch64_uqaddv4hi_uuu (__a, __b);
2330 }
2331
2332 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
2333 vqadd_u32 (uint32x2_t __a, uint32x2_t __b)
2334 {
2335   return __builtin_aarch64_uqaddv2si_uuu (__a, __b);
2336 }
2337
2338 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
2339 vqadd_u64 (uint64x1_t __a, uint64x1_t __b)
2340 {
2341   return (uint64x1_t) {__builtin_aarch64_uqadddi_uuu (__a[0], __b[0])};
2342 }
2343
2344 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
2345 vqaddq_s8 (int8x16_t __a, int8x16_t __b)
2346 {
2347   return (int8x16_t) __builtin_aarch64_sqaddv16qi (__a, __b);
2348 }
2349
2350 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2351 vqaddq_s16 (int16x8_t __a, int16x8_t __b)
2352 {
2353   return (int16x8_t) __builtin_aarch64_sqaddv8hi (__a, __b);
2354 }
2355
2356 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2357 vqaddq_s32 (int32x4_t __a, int32x4_t __b)
2358 {
2359   return (int32x4_t) __builtin_aarch64_sqaddv4si (__a, __b);
2360 }
2361
2362 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
2363 vqaddq_s64 (int64x2_t __a, int64x2_t __b)
2364 {
2365   return (int64x2_t) __builtin_aarch64_sqaddv2di (__a, __b);
2366 }
2367
2368 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
2369 vqaddq_u8 (uint8x16_t __a, uint8x16_t __b)
2370 {
2371   return __builtin_aarch64_uqaddv16qi_uuu (__a, __b);
2372 }
2373
2374 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
2375 vqaddq_u16 (uint16x8_t __a, uint16x8_t __b)
2376 {
2377   return __builtin_aarch64_uqaddv8hi_uuu (__a, __b);
2378 }
2379
2380 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
2381 vqaddq_u32 (uint32x4_t __a, uint32x4_t __b)
2382 {
2383   return __builtin_aarch64_uqaddv4si_uuu (__a, __b);
2384 }
2385
2386 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
2387 vqaddq_u64 (uint64x2_t __a, uint64x2_t __b)
2388 {
2389   return __builtin_aarch64_uqaddv2di_uuu (__a, __b);
2390 }
2391
2392 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
2393 vqsub_s8 (int8x8_t __a, int8x8_t __b)
2394 {
2395   return (int8x8_t) __builtin_aarch64_sqsubv8qi (__a, __b);
2396 }
2397
2398 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2399 vqsub_s16 (int16x4_t __a, int16x4_t __b)
2400 {
2401   return (int16x4_t) __builtin_aarch64_sqsubv4hi (__a, __b);
2402 }
2403
2404 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2405 vqsub_s32 (int32x2_t __a, int32x2_t __b)
2406 {
2407   return (int32x2_t) __builtin_aarch64_sqsubv2si (__a, __b);
2408 }
2409
2410 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
2411 vqsub_s64 (int64x1_t __a, int64x1_t __b)
2412 {
2413   return (int64x1_t) {__builtin_aarch64_sqsubdi (__a[0], __b[0])};
2414 }
2415
2416 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
2417 vqsub_u8 (uint8x8_t __a, uint8x8_t __b)
2418 {
2419   return __builtin_aarch64_uqsubv8qi_uuu (__a, __b);
2420 }
2421
2422 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
2423 vqsub_u16 (uint16x4_t __a, uint16x4_t __b)
2424 {
2425   return __builtin_aarch64_uqsubv4hi_uuu (__a, __b);
2426 }
2427
2428 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
2429 vqsub_u32 (uint32x2_t __a, uint32x2_t __b)
2430 {
2431   return __builtin_aarch64_uqsubv2si_uuu (__a, __b);
2432 }
2433
2434 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
2435 vqsub_u64 (uint64x1_t __a, uint64x1_t __b)
2436 {
2437   return (uint64x1_t) {__builtin_aarch64_uqsubdi_uuu (__a[0], __b[0])};
2438 }
2439
2440 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
2441 vqsubq_s8 (int8x16_t __a, int8x16_t __b)
2442 {
2443   return (int8x16_t) __builtin_aarch64_sqsubv16qi (__a, __b);
2444 }
2445
2446 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2447 vqsubq_s16 (int16x8_t __a, int16x8_t __b)
2448 {
2449   return (int16x8_t) __builtin_aarch64_sqsubv8hi (__a, __b);
2450 }
2451
2452 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2453 vqsubq_s32 (int32x4_t __a, int32x4_t __b)
2454 {
2455   return (int32x4_t) __builtin_aarch64_sqsubv4si (__a, __b);
2456 }
2457
2458 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
2459 vqsubq_s64 (int64x2_t __a, int64x2_t __b)
2460 {
2461   return (int64x2_t) __builtin_aarch64_sqsubv2di (__a, __b);
2462 }
2463
2464 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
2465 vqsubq_u8 (uint8x16_t __a, uint8x16_t __b)
2466 {
2467   return __builtin_aarch64_uqsubv16qi_uuu (__a, __b);
2468 }
2469
2470 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
2471 vqsubq_u16 (uint16x8_t __a, uint16x8_t __b)
2472 {
2473   return __builtin_aarch64_uqsubv8hi_uuu (__a, __b);
2474 }
2475
2476 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
2477 vqsubq_u32 (uint32x4_t __a, uint32x4_t __b)
2478 {
2479   return __builtin_aarch64_uqsubv4si_uuu (__a, __b);
2480 }
2481
2482 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
2483 vqsubq_u64 (uint64x2_t __a, uint64x2_t __b)
2484 {
2485   return __builtin_aarch64_uqsubv2di_uuu (__a, __b);
2486 }
2487
2488 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
2489 vqneg_s8 (int8x8_t __a)
2490 {
2491   return (int8x8_t) __builtin_aarch64_sqnegv8qi (__a);
2492 }
2493
2494 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2495 vqneg_s16 (int16x4_t __a)
2496 {
2497   return (int16x4_t) __builtin_aarch64_sqnegv4hi (__a);
2498 }
2499
2500 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2501 vqneg_s32 (int32x2_t __a)
2502 {
2503   return (int32x2_t) __builtin_aarch64_sqnegv2si (__a);
2504 }
2505
2506 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
2507 vqneg_s64 (int64x1_t __a)
2508 {
2509   return (int64x1_t) {__builtin_aarch64_sqnegdi (__a[0])};
2510 }
2511
2512 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
2513 vqnegq_s8 (int8x16_t __a)
2514 {
2515   return (int8x16_t) __builtin_aarch64_sqnegv16qi (__a);
2516 }
2517
2518 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2519 vqnegq_s16 (int16x8_t __a)
2520 {
2521   return (int16x8_t) __builtin_aarch64_sqnegv8hi (__a);
2522 }
2523
2524 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2525 vqnegq_s32 (int32x4_t __a)
2526 {
2527   return (int32x4_t) __builtin_aarch64_sqnegv4si (__a);
2528 }
2529
2530 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
2531 vqabs_s8 (int8x8_t __a)
2532 {
2533   return (int8x8_t) __builtin_aarch64_sqabsv8qi (__a);
2534 }
2535
2536 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2537 vqabs_s16 (int16x4_t __a)
2538 {
2539   return (int16x4_t) __builtin_aarch64_sqabsv4hi (__a);
2540 }
2541
2542 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2543 vqabs_s32 (int32x2_t __a)
2544 {
2545   return (int32x2_t) __builtin_aarch64_sqabsv2si (__a);
2546 }
2547
2548 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
2549 vqabs_s64 (int64x1_t __a)
2550 {
2551   return (int64x1_t) {__builtin_aarch64_sqabsdi (__a[0])};
2552 }
2553
2554 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
2555 vqabsq_s8 (int8x16_t __a)
2556 {
2557   return (int8x16_t) __builtin_aarch64_sqabsv16qi (__a);
2558 }
2559
2560 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2561 vqabsq_s16 (int16x8_t __a)
2562 {
2563   return (int16x8_t) __builtin_aarch64_sqabsv8hi (__a);
2564 }
2565
2566 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2567 vqabsq_s32 (int32x4_t __a)
2568 {
2569   return (int32x4_t) __builtin_aarch64_sqabsv4si (__a);
2570 }
2571
2572 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2573 vqdmulh_s16 (int16x4_t __a, int16x4_t __b)
2574 {
2575   return (int16x4_t) __builtin_aarch64_sqdmulhv4hi (__a, __b);
2576 }
2577
2578 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2579 vqdmulh_s32 (int32x2_t __a, int32x2_t __b)
2580 {
2581   return (int32x2_t) __builtin_aarch64_sqdmulhv2si (__a, __b);
2582 }
2583
2584 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2585 vqdmulhq_s16 (int16x8_t __a, int16x8_t __b)
2586 {
2587   return (int16x8_t) __builtin_aarch64_sqdmulhv8hi (__a, __b);
2588 }
2589
2590 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2591 vqdmulhq_s32 (int32x4_t __a, int32x4_t __b)
2592 {
2593   return (int32x4_t) __builtin_aarch64_sqdmulhv4si (__a, __b);
2594 }
2595
2596 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2597 vqrdmulh_s16 (int16x4_t __a, int16x4_t __b)
2598 {
2599   return (int16x4_t) __builtin_aarch64_sqrdmulhv4hi (__a, __b);
2600 }
2601
2602 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2603 vqrdmulh_s32 (int32x2_t __a, int32x2_t __b)
2604 {
2605   return (int32x2_t) __builtin_aarch64_sqrdmulhv2si (__a, __b);
2606 }
2607
2608 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2609 vqrdmulhq_s16 (int16x8_t __a, int16x8_t __b)
2610 {
2611   return (int16x8_t) __builtin_aarch64_sqrdmulhv8hi (__a, __b);
2612 }
2613
2614 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2615 vqrdmulhq_s32 (int32x4_t __a, int32x4_t __b)
2616 {
2617   return (int32x4_t) __builtin_aarch64_sqrdmulhv4si (__a, __b);
2618 }
2619
2620 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
2621 vcreate_s8 (uint64_t __a)
2622 {
2623   return (int8x8_t) __a;
2624 }
2625
2626 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2627 vcreate_s16 (uint64_t __a)
2628 {
2629   return (int16x4_t) __a;
2630 }
2631
2632 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2633 vcreate_s32 (uint64_t __a)
2634 {
2635   return (int32x2_t) __a;
2636 }
2637
2638 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
2639 vcreate_s64 (uint64_t __a)
2640 {
2641   return (int64x1_t) {__a};
2642 }
2643
2644 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
2645 vcreate_f32 (uint64_t __a)
2646 {
2647   return (float32x2_t) __a;
2648 }
2649
2650 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
2651 vcreate_u8 (uint64_t __a)
2652 {
2653   return (uint8x8_t) __a;
2654 }
2655
2656 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
2657 vcreate_u16 (uint64_t __a)
2658 {
2659   return (uint16x4_t) __a;
2660 }
2661
2662 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
2663 vcreate_u32 (uint64_t __a)
2664 {
2665   return (uint32x2_t) __a;
2666 }
2667
2668 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
2669 vcreate_u64 (uint64_t __a)
2670 {
2671   return (uint64x1_t) {__a};
2672 }
2673
2674 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
2675 vcreate_f64 (uint64_t __a)
2676 {
2677   return (float64x1_t) __a;
2678 }
2679
2680 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2681 vcreate_p8 (uint64_t __a)
2682 {
2683   return (poly8x8_t) __a;
2684 }
2685
2686 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2687 vcreate_p16 (uint64_t __a)
2688 {
2689   return (poly16x4_t) __a;
2690 }
2691
2692 /* vget_lane  */
2693
2694 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
2695 vget_lane_f32 (float32x2_t __a, const int __b)
2696 {
2697   return __aarch64_vget_lane_any (__a, __b);
2698 }
2699
2700 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
2701 vget_lane_f64 (float64x1_t __a, const int __b)
2702 {
2703   return __aarch64_vget_lane_any (__a, __b);
2704 }
2705
2706 __extension__ static __inline poly8_t __attribute__ ((__always_inline__))
2707 vget_lane_p8 (poly8x8_t __a, const int __b)
2708 {
2709   return __aarch64_vget_lane_any (__a, __b);
2710 }
2711
2712 __extension__ static __inline poly16_t __attribute__ ((__always_inline__))
2713 vget_lane_p16 (poly16x4_t __a, const int __b)
2714 {
2715   return __aarch64_vget_lane_any (__a, __b);
2716 }
2717
2718 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
2719 vget_lane_s8 (int8x8_t __a, const int __b)
2720 {
2721   return __aarch64_vget_lane_any (__a, __b);
2722 }
2723
2724 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
2725 vget_lane_s16 (int16x4_t __a, const int __b)
2726 {
2727   return __aarch64_vget_lane_any (__a, __b);
2728 }
2729
2730 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
2731 vget_lane_s32 (int32x2_t __a, const int __b)
2732 {
2733   return __aarch64_vget_lane_any (__a, __b);
2734 }
2735
2736 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
2737 vget_lane_s64 (int64x1_t __a, const int __b)
2738 {
2739   return __aarch64_vget_lane_any (__a, __b);
2740 }
2741
2742 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
2743 vget_lane_u8 (uint8x8_t __a, const int __b)
2744 {
2745   return __aarch64_vget_lane_any (__a, __b);
2746 }
2747
2748 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
2749 vget_lane_u16 (uint16x4_t __a, const int __b)
2750 {
2751   return __aarch64_vget_lane_any (__a, __b);
2752 }
2753
2754 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
2755 vget_lane_u32 (uint32x2_t __a, const int __b)
2756 {
2757   return __aarch64_vget_lane_any (__a, __b);
2758 }
2759
2760 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
2761 vget_lane_u64 (uint64x1_t __a, const int __b)
2762 {
2763   return __aarch64_vget_lane_any (__a, __b);
2764 }
2765
2766 /* vgetq_lane  */
2767
2768 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
2769 vgetq_lane_f32 (float32x4_t __a, const int __b)
2770 {
2771   return __aarch64_vget_lane_any (__a, __b);
2772 }
2773
2774 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
2775 vgetq_lane_f64 (float64x2_t __a, const int __b)
2776 {
2777   return __aarch64_vget_lane_any (__a, __b);
2778 }
2779
2780 __extension__ static __inline poly8_t __attribute__ ((__always_inline__))
2781 vgetq_lane_p8 (poly8x16_t __a, const int __b)
2782 {
2783   return __aarch64_vget_lane_any (__a, __b);
2784 }
2785
2786 __extension__ static __inline poly16_t __attribute__ ((__always_inline__))
2787 vgetq_lane_p16 (poly16x8_t __a, const int __b)
2788 {
2789   return __aarch64_vget_lane_any (__a, __b);
2790 }
2791
2792 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
2793 vgetq_lane_s8 (int8x16_t __a, const int __b)
2794 {
2795   return __aarch64_vget_lane_any (__a, __b);
2796 }
2797
2798 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
2799 vgetq_lane_s16 (int16x8_t __a, const int __b)
2800 {
2801   return __aarch64_vget_lane_any (__a, __b);
2802 }
2803
2804 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
2805 vgetq_lane_s32 (int32x4_t __a, const int __b)
2806 {
2807   return __aarch64_vget_lane_any (__a, __b);
2808 }
2809
2810 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
2811 vgetq_lane_s64 (int64x2_t __a, const int __b)
2812 {
2813   return __aarch64_vget_lane_any (__a, __b);
2814 }
2815
2816 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
2817 vgetq_lane_u8 (uint8x16_t __a, const int __b)
2818 {
2819   return __aarch64_vget_lane_any (__a, __b);
2820 }
2821
2822 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
2823 vgetq_lane_u16 (uint16x8_t __a, const int __b)
2824 {
2825   return __aarch64_vget_lane_any (__a, __b);
2826 }
2827
2828 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
2829 vgetq_lane_u32 (uint32x4_t __a, const int __b)
2830 {
2831   return __aarch64_vget_lane_any (__a, __b);
2832 }
2833
2834 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
2835 vgetq_lane_u64 (uint64x2_t __a, const int __b)
2836 {
2837   return __aarch64_vget_lane_any (__a, __b);
2838 }
2839
2840 /* vreinterpret  */
2841
2842 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2843 vreinterpret_p8_f64 (float64x1_t __a)
2844 {
2845   return (poly8x8_t) __a;
2846 }
2847
2848 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2849 vreinterpret_p8_s8 (int8x8_t __a)
2850 {
2851   return (poly8x8_t) __a;
2852 }
2853
2854 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2855 vreinterpret_p8_s16 (int16x4_t __a)
2856 {
2857   return (poly8x8_t) __a;
2858 }
2859
2860 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2861 vreinterpret_p8_s32 (int32x2_t __a)
2862 {
2863   return (poly8x8_t) __a;
2864 }
2865
2866 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2867 vreinterpret_p8_s64 (int64x1_t __a)
2868 {
2869   return (poly8x8_t) __a;
2870 }
2871
2872 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2873 vreinterpret_p8_f32 (float32x2_t __a)
2874 {
2875   return (poly8x8_t) __a;
2876 }
2877
2878 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2879 vreinterpret_p8_u8 (uint8x8_t __a)
2880 {
2881   return (poly8x8_t) __a;
2882 }
2883
2884 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2885 vreinterpret_p8_u16 (uint16x4_t __a)
2886 {
2887   return (poly8x8_t) __a;
2888 }
2889
2890 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2891 vreinterpret_p8_u32 (uint32x2_t __a)
2892 {
2893   return (poly8x8_t) __a;
2894 }
2895
2896 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2897 vreinterpret_p8_u64 (uint64x1_t __a)
2898 {
2899   return (poly8x8_t) __a;
2900 }
2901
2902 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2903 vreinterpret_p8_p16 (poly16x4_t __a)
2904 {
2905   return (poly8x8_t) __a;
2906 }
2907
2908 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2909 vreinterpretq_p8_f64 (float64x2_t __a)
2910 {
2911   return (poly8x16_t) __a;
2912 }
2913
2914 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2915 vreinterpretq_p8_s8 (int8x16_t __a)
2916 {
2917   return (poly8x16_t) __a;
2918 }
2919
2920 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2921 vreinterpretq_p8_s16 (int16x8_t __a)
2922 {
2923   return (poly8x16_t) __a;
2924 }
2925
2926 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2927 vreinterpretq_p8_s32 (int32x4_t __a)
2928 {
2929   return (poly8x16_t) __a;
2930 }
2931
2932 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2933 vreinterpretq_p8_s64 (int64x2_t __a)
2934 {
2935   return (poly8x16_t) __a;
2936 }
2937
2938 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2939 vreinterpretq_p8_f32 (float32x4_t __a)
2940 {
2941   return (poly8x16_t) __a;
2942 }
2943
2944 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2945 vreinterpretq_p8_u8 (uint8x16_t __a)
2946 {
2947   return (poly8x16_t) __a;
2948 }
2949
2950 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2951 vreinterpretq_p8_u16 (uint16x8_t __a)
2952 {
2953   return (poly8x16_t) __a;
2954 }
2955
2956 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2957 vreinterpretq_p8_u32 (uint32x4_t __a)
2958 {
2959   return (poly8x16_t) __a;
2960 }
2961
2962 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2963 vreinterpretq_p8_u64 (uint64x2_t __a)
2964 {
2965   return (poly8x16_t) __a;
2966 }
2967
2968 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2969 vreinterpretq_p8_p16 (poly16x8_t __a)
2970 {
2971   return (poly8x16_t) __a;
2972 }
2973
2974 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2975 vreinterpret_p16_f64 (float64x1_t __a)
2976 {
2977   return (poly16x4_t) __a;
2978 }
2979
2980 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2981 vreinterpret_p16_s8 (int8x8_t __a)
2982 {
2983   return (poly16x4_t) __a;
2984 }
2985
2986 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2987 vreinterpret_p16_s16 (int16x4_t __a)
2988 {
2989   return (poly16x4_t) __a;
2990 }
2991
2992 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2993 vreinterpret_p16_s32 (int32x2_t __a)
2994 {
2995   return (poly16x4_t) __a;
2996 }
2997
2998 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2999 vreinterpret_p16_s64 (int64x1_t __a)
3000 {
3001   return (poly16x4_t) __a;
3002 }
3003
3004 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
3005 vreinterpret_p16_f32 (float32x2_t __a)
3006 {
3007   return (poly16x4_t) __a;
3008 }
3009
3010 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
3011 vreinterpret_p16_u8 (uint8x8_t __a)
3012 {
3013   return (poly16x4_t) __a;
3014 }
3015
3016 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
3017 vreinterpret_p16_u16 (uint16x4_t __a)
3018 {
3019   return (poly16x4_t) __a;
3020 }
3021
3022 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
3023 vreinterpret_p16_u32 (uint32x2_t __a)
3024 {
3025   return (poly16x4_t) __a;
3026 }
3027
3028 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
3029 vreinterpret_p16_u64 (uint64x1_t __a)
3030 {
3031   return (poly16x4_t) __a;
3032 }
3033
3034 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
3035 vreinterpret_p16_p8 (poly8x8_t __a)
3036 {
3037   return (poly16x4_t) __a;
3038 }
3039
3040 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
3041 vreinterpretq_p16_f64 (float64x2_t __a)
3042 {
3043   return (poly16x8_t) __a;
3044 }
3045
3046 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
3047 vreinterpretq_p16_s8 (int8x16_t __a)
3048 {
3049   return (poly16x8_t) __a;
3050 }
3051
3052 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
3053 vreinterpretq_p16_s16 (int16x8_t __a)
3054 {
3055   return (poly16x8_t) __a;
3056 }
3057
3058 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
3059 vreinterpretq_p16_s32 (int32x4_t __a)
3060 {
3061   return (poly16x8_t) __a;
3062 }
3063
3064 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
3065 vreinterpretq_p16_s64 (int64x2_t __a)
3066 {
3067   return (poly16x8_t) __a;
3068 }
3069
3070 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
3071 vreinterpretq_p16_f32 (float32x4_t __a)
3072 {
3073   return (poly16x8_t) __a;
3074 }
3075
3076 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
3077 vreinterpretq_p16_u8 (uint8x16_t __a)
3078 {
3079   return (poly16x8_t) __a;
3080 }
3081
3082 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
3083 vreinterpretq_p16_u16 (uint16x8_t __a)
3084 {
3085   return (poly16x8_t) __a;
3086 }
3087
3088 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
3089 vreinterpretq_p16_u32 (uint32x4_t __a)
3090 {
3091   return (poly16x8_t) __a;
3092 }
3093
3094 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
3095 vreinterpretq_p16_u64 (uint64x2_t __a)
3096 {
3097   return (poly16x8_t) __a;
3098 }
3099
3100 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
3101 vreinterpretq_p16_p8 (poly8x16_t __a)
3102 {
3103   return (poly16x8_t) __a;
3104 }
3105
3106 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3107 vreinterpret_f32_f64 (float64x1_t __a)
3108 {
3109   return (float32x2_t) __a;
3110 }
3111
3112 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3113 vreinterpret_f32_s8 (int8x8_t __a)
3114 {
3115   return (float32x2_t) __a;
3116 }
3117
3118 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3119 vreinterpret_f32_s16 (int16x4_t __a)
3120 {
3121   return (float32x2_t) __a;
3122 }
3123
3124 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3125 vreinterpret_f32_s32 (int32x2_t __a)
3126 {
3127   return (float32x2_t) __a;
3128 }
3129
3130 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3131 vreinterpret_f32_s64 (int64x1_t __a)
3132 {
3133   return (float32x2_t) __a;
3134 }
3135
3136 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3137 vreinterpret_f32_u8 (uint8x8_t __a)
3138 {
3139   return (float32x2_t) __a;
3140 }
3141
3142 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3143 vreinterpret_f32_u16 (uint16x4_t __a)
3144 {
3145   return (float32x2_t) __a;
3146 }
3147
3148 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3149 vreinterpret_f32_u32 (uint32x2_t __a)
3150 {
3151   return (float32x2_t) __a;
3152 }
3153
3154 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3155 vreinterpret_f32_u64 (uint64x1_t __a)
3156 {
3157   return (float32x2_t) __a;
3158 }
3159
3160 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3161 vreinterpret_f32_p8 (poly8x8_t __a)
3162 {
3163   return (float32x2_t) __a;
3164 }
3165
3166 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3167 vreinterpret_f32_p16 (poly16x4_t __a)
3168 {
3169   return (float32x2_t) __a;
3170 }
3171
3172 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
3173 vreinterpretq_f32_f64 (float64x2_t __a)
3174 {
3175   return (float32x4_t) __a;
3176 }
3177
3178 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
3179 vreinterpretq_f32_s8 (int8x16_t __a)
3180 {
3181   return (float32x4_t) __a;
3182 }
3183
3184 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
3185 vreinterpretq_f32_s16 (int16x8_t __a)
3186 {
3187   return (float32x4_t) __a;
3188 }
3189
3190 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
3191 vreinterpretq_f32_s32 (int32x4_t __a)
3192 {
3193   return (float32x4_t) __a;
3194 }
3195
3196 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
3197 vreinterpretq_f32_s64 (int64x2_t __a)
3198 {
3199   return (float32x4_t) __a;
3200 }
3201
3202 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
3203 vreinterpretq_f32_u8 (uint8x16_t __a)
3204 {
3205   return (float32x4_t) __a;
3206 }
3207
3208 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
3209 vreinterpretq_f32_u16 (uint16x8_t __a)
3210 {
3211   return (float32x4_t) __a;
3212 }
3213
3214 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
3215 vreinterpretq_f32_u32 (uint32x4_t __a)
3216 {
3217   return (float32x4_t) __a;
3218 }
3219
3220 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
3221 vreinterpretq_f32_u64 (uint64x2_t __a)
3222 {
3223   return (float32x4_t) __a;
3224 }
3225
3226 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
3227 vreinterpretq_f32_p8 (poly8x16_t __a)
3228 {
3229   return (float32x4_t) __a;
3230 }
3231
3232 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
3233 vreinterpretq_f32_p16 (poly16x8_t __a)
3234 {
3235   return (float32x4_t) __a;
3236 }
3237
3238 __extension__ static __inline float64x1_t __attribute__((__always_inline__))
3239 vreinterpret_f64_f32 (float32x2_t __a)
3240 {
3241   return (float64x1_t) __a;
3242 }
3243
3244 __extension__ static __inline float64x1_t __attribute__((__always_inline__))
3245 vreinterpret_f64_p8 (poly8x8_t __a)
3246 {
3247   return (float64x1_t) __a;
3248 }
3249
3250 __extension__ static __inline float64x1_t __attribute__((__always_inline__))
3251 vreinterpret_f64_p16 (poly16x4_t __a)
3252 {
3253   return (float64x1_t) __a;
3254 }
3255
3256 __extension__ static __inline float64x1_t __attribute__((__always_inline__))
3257 vreinterpret_f64_s8 (int8x8_t __a)
3258 {
3259   return (float64x1_t) __a;
3260 }
3261
3262 __extension__ static __inline float64x1_t __attribute__((__always_inline__))
3263 vreinterpret_f64_s16 (int16x4_t __a)
3264 {
3265   return (float64x1_t) __a;
3266 }
3267
3268 __extension__ static __inline float64x1_t __attribute__((__always_inline__))
3269 vreinterpret_f64_s32 (int32x2_t __a)
3270 {
3271   return (float64x1_t) __a;
3272 }
3273
3274 __extension__ static __inline float64x1_t __attribute__((__always_inline__))
3275 vreinterpret_f64_s64 (int64x1_t __a)
3276 {
3277   return (float64x1_t) __a;
3278 }
3279
3280 __extension__ static __inline float64x1_t __attribute__((__always_inline__))
3281 vreinterpret_f64_u8 (uint8x8_t __a)
3282 {
3283   return (float64x1_t) __a;
3284 }
3285
3286 __extension__ static __inline float64x1_t __attribute__((__always_inline__))
3287 vreinterpret_f64_u16 (uint16x4_t __a)
3288 {
3289   return (float64x1_t) __a;
3290 }
3291
3292 __extension__ static __inline float64x1_t __attribute__((__always_inline__))
3293 vreinterpret_f64_u32 (uint32x2_t __a)
3294 {
3295   return (float64x1_t) __a;
3296 }
3297
3298 __extension__ static __inline float64x1_t __attribute__((__always_inline__))
3299 vreinterpret_f64_u64 (uint64x1_t __a)
3300 {
3301   return (float64x1_t) __a;
3302 }
3303
3304 __extension__ static __inline float64x2_t __attribute__((__always_inline__))
3305 vreinterpretq_f64_f32 (float32x4_t __a)
3306 {
3307   return (float64x2_t) __a;
3308 }
3309
3310 __extension__ static __inline float64x2_t __attribute__((__always_inline__))
3311 vreinterpretq_f64_p8 (poly8x16_t __a)
3312 {
3313   return (float64x2_t) __a;
3314 }
3315
3316 __extension__ static __inline float64x2_t __attribute__((__always_inline__))
3317 vreinterpretq_f64_p16 (poly16x8_t __a)
3318 {
3319   return (float64x2_t) __a;
3320 }
3321
3322 __extension__ static __inline float64x2_t __attribute__((__always_inline__))
3323 vreinterpretq_f64_s8 (int8x16_t __a)
3324 {
3325   return (float64x2_t) __a;
3326 }
3327
3328 __extension__ static __inline float64x2_t __attribute__((__always_inline__))
3329 vreinterpretq_f64_s16 (int16x8_t __a)
3330 {
3331   return (float64x2_t) __a;
3332 }
3333
3334 __extension__ static __inline float64x2_t __attribute__((__always_inline__))
3335 vreinterpretq_f64_s32 (int32x4_t __a)
3336 {
3337   return (float64x2_t) __a;
3338 }
3339
3340 __extension__ static __inline float64x2_t __attribute__((__always_inline__))
3341 vreinterpretq_f64_s64 (int64x2_t __a)
3342 {
3343   return (float64x2_t) __a;
3344 }
3345
3346 __extension__ static __inline float64x2_t __attribute__((__always_inline__))
3347 vreinterpretq_f64_u8 (uint8x16_t __a)
3348 {
3349   return (float64x2_t) __a;
3350 }
3351
3352 __extension__ static __inline float64x2_t __attribute__((__always_inline__))
3353 vreinterpretq_f64_u16 (uint16x8_t __a)
3354 {
3355   return (float64x2_t) __a;
3356 }
3357
3358 __extension__ static __inline float64x2_t __attribute__((__always_inline__))
3359 vreinterpretq_f64_u32 (uint32x4_t __a)
3360 {
3361   return (float64x2_t) __a;
3362 }
3363
3364 __extension__ static __inline float64x2_t __attribute__((__always_inline__))
3365 vreinterpretq_f64_u64 (uint64x2_t __a)
3366 {
3367   return (float64x2_t) __a;
3368 }
3369
3370 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3371 vreinterpret_s64_f64 (float64x1_t __a)
3372 {
3373   return (int64x1_t) __a;
3374 }
3375
3376 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3377 vreinterpret_s64_s8 (int8x8_t __a)
3378 {
3379   return (int64x1_t) __a;
3380 }
3381
3382 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3383 vreinterpret_s64_s16 (int16x4_t __a)
3384 {
3385   return (int64x1_t) __a;
3386 }
3387
3388 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3389 vreinterpret_s64_s32 (int32x2_t __a)
3390 {
3391   return (int64x1_t) __a;
3392 }
3393
3394 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3395 vreinterpret_s64_f32 (float32x2_t __a)
3396 {
3397   return (int64x1_t) __a;
3398 }
3399
3400 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3401 vreinterpret_s64_u8 (uint8x8_t __a)
3402 {
3403   return (int64x1_t) __a;
3404 }
3405
3406 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3407 vreinterpret_s64_u16 (uint16x4_t __a)
3408 {
3409   return (int64x1_t) __a;
3410 }
3411
3412 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3413 vreinterpret_s64_u32 (uint32x2_t __a)
3414 {
3415   return (int64x1_t) __a;
3416 }
3417
3418 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3419 vreinterpret_s64_u64 (uint64x1_t __a)
3420 {
3421   return (int64x1_t) __a;
3422 }
3423
3424 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3425 vreinterpret_s64_p8 (poly8x8_t __a)
3426 {
3427   return (int64x1_t) __a;
3428 }
3429
3430 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3431 vreinterpret_s64_p16 (poly16x4_t __a)
3432 {
3433   return (int64x1_t) __a;
3434 }
3435
3436 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3437 vreinterpretq_s64_f64 (float64x2_t __a)
3438 {
3439   return (int64x2_t) __a;
3440 }
3441
3442 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3443 vreinterpretq_s64_s8 (int8x16_t __a)
3444 {
3445   return (int64x2_t) __a;
3446 }
3447
3448 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3449 vreinterpretq_s64_s16 (int16x8_t __a)
3450 {
3451   return (int64x2_t) __a;
3452 }
3453
3454 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3455 vreinterpretq_s64_s32 (int32x4_t __a)
3456 {
3457   return (int64x2_t) __a;
3458 }
3459
3460 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3461 vreinterpretq_s64_f32 (float32x4_t __a)
3462 {
3463   return (int64x2_t) __a;
3464 }
3465
3466 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3467 vreinterpretq_s64_u8 (uint8x16_t __a)
3468 {
3469   return (int64x2_t) __a;
3470 }
3471
3472 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3473 vreinterpretq_s64_u16 (uint16x8_t __a)
3474 {
3475   return (int64x2_t) __a;
3476 }
3477
3478 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3479 vreinterpretq_s64_u32 (uint32x4_t __a)
3480 {
3481   return (int64x2_t) __a;
3482 }
3483
3484 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3485 vreinterpretq_s64_u64 (uint64x2_t __a)
3486 {
3487   return (int64x2_t) __a;
3488 }
3489
3490 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3491 vreinterpretq_s64_p8 (poly8x16_t __a)
3492 {
3493   return (int64x2_t) __a;
3494 }
3495
3496 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3497 vreinterpretq_s64_p16 (poly16x8_t __a)
3498 {
3499   return (int64x2_t) __a;
3500 }
3501
3502 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3503 vreinterpret_u64_f64 (float64x1_t __a)
3504 {
3505   return (uint64x1_t) __a;
3506 }
3507
3508 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3509 vreinterpret_u64_s8 (int8x8_t __a)
3510 {
3511   return (uint64x1_t) __a;
3512 }
3513
3514 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3515 vreinterpret_u64_s16 (int16x4_t __a)
3516 {
3517   return (uint64x1_t) __a;
3518 }
3519
3520 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3521 vreinterpret_u64_s32 (int32x2_t __a)
3522 {
3523   return (uint64x1_t) __a;
3524 }
3525
3526 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3527 vreinterpret_u64_s64 (int64x1_t __a)
3528 {
3529   return (uint64x1_t) __a;
3530 }
3531
3532 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3533 vreinterpret_u64_f32 (float32x2_t __a)
3534 {
3535   return (uint64x1_t) __a;
3536 }
3537
3538 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3539 vreinterpret_u64_u8 (uint8x8_t __a)
3540 {
3541   return (uint64x1_t) __a;
3542 }
3543
3544 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3545 vreinterpret_u64_u16 (uint16x4_t __a)
3546 {
3547   return (uint64x1_t) __a;
3548 }
3549
3550 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3551 vreinterpret_u64_u32 (uint32x2_t __a)
3552 {
3553   return (uint64x1_t) __a;
3554 }
3555
3556 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3557 vreinterpret_u64_p8 (poly8x8_t __a)
3558 {
3559   return (uint64x1_t) __a;
3560 }
3561
3562 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3563 vreinterpret_u64_p16 (poly16x4_t __a)
3564 {
3565   return (uint64x1_t) __a;
3566 }
3567
3568 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3569 vreinterpretq_u64_f64 (float64x2_t __a)
3570 {
3571   return (uint64x2_t) __a;
3572 }
3573
3574 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3575 vreinterpretq_u64_s8 (int8x16_t __a)
3576 {
3577   return (uint64x2_t) __a;
3578 }
3579
3580 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3581 vreinterpretq_u64_s16 (int16x8_t __a)
3582 {
3583   return (uint64x2_t) __a;
3584 }
3585
3586 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3587 vreinterpretq_u64_s32 (int32x4_t __a)
3588 {
3589   return (uint64x2_t) __a;
3590 }
3591
3592 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3593 vreinterpretq_u64_s64 (int64x2_t __a)
3594 {
3595   return (uint64x2_t) __a;
3596 }
3597
3598 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3599 vreinterpretq_u64_f32 (float32x4_t __a)
3600 {
3601   return (uint64x2_t) __a;
3602 }
3603
3604 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3605 vreinterpretq_u64_u8 (uint8x16_t __a)
3606 {
3607   return (uint64x2_t) __a;
3608 }
3609
3610 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3611 vreinterpretq_u64_u16 (uint16x8_t __a)
3612 {
3613   return (uint64x2_t) __a;
3614 }
3615
3616 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3617 vreinterpretq_u64_u32 (uint32x4_t __a)
3618 {
3619   return (uint64x2_t) __a;
3620 }
3621
3622 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3623 vreinterpretq_u64_p8 (poly8x16_t __a)
3624 {
3625   return (uint64x2_t) __a;
3626 }
3627
3628 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3629 vreinterpretq_u64_p16 (poly16x8_t __a)
3630 {
3631   return (uint64x2_t) __a;
3632 }
3633
3634 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3635 vreinterpret_s8_f64 (float64x1_t __a)
3636 {
3637   return (int8x8_t) __a;
3638 }
3639
3640 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3641 vreinterpret_s8_s16 (int16x4_t __a)
3642 {
3643   return (int8x8_t) __a;
3644 }
3645
3646 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3647 vreinterpret_s8_s32 (int32x2_t __a)
3648 {
3649   return (int8x8_t) __a;
3650 }
3651
3652 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3653 vreinterpret_s8_s64 (int64x1_t __a)
3654 {
3655   return (int8x8_t) __a;
3656 }
3657
3658 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3659 vreinterpret_s8_f32 (float32x2_t __a)
3660 {
3661   return (int8x8_t) __a;
3662 }
3663
3664 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3665 vreinterpret_s8_u8 (uint8x8_t __a)
3666 {
3667   return (int8x8_t) __a;
3668 }
3669
3670 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3671 vreinterpret_s8_u16 (uint16x4_t __a)
3672 {
3673   return (int8x8_t) __a;
3674 }
3675
3676 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3677 vreinterpret_s8_u32 (uint32x2_t __a)
3678 {
3679   return (int8x8_t) __a;
3680 }
3681
3682 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3683 vreinterpret_s8_u64 (uint64x1_t __a)
3684 {
3685   return (int8x8_t) __a;
3686 }
3687
3688 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3689 vreinterpret_s8_p8 (poly8x8_t __a)
3690 {
3691   return (int8x8_t) __a;
3692 }
3693
3694 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3695 vreinterpret_s8_p16 (poly16x4_t __a)
3696 {
3697   return (int8x8_t) __a;
3698 }
3699
3700 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3701 vreinterpretq_s8_f64 (float64x2_t __a)
3702 {
3703   return (int8x16_t) __a;
3704 }
3705
3706 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3707 vreinterpretq_s8_s16 (int16x8_t __a)
3708 {
3709   return (int8x16_t) __a;
3710 }
3711
3712 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3713 vreinterpretq_s8_s32 (int32x4_t __a)
3714 {
3715   return (int8x16_t) __a;
3716 }
3717
3718 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3719 vreinterpretq_s8_s64 (int64x2_t __a)
3720 {
3721   return (int8x16_t) __a;
3722 }
3723
3724 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3725 vreinterpretq_s8_f32 (float32x4_t __a)
3726 {
3727   return (int8x16_t) __a;
3728 }
3729
3730 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3731 vreinterpretq_s8_u8 (uint8x16_t __a)
3732 {
3733   return (int8x16_t) __a;
3734 }
3735
3736 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3737 vreinterpretq_s8_u16 (uint16x8_t __a)
3738 {
3739   return (int8x16_t) __a;
3740 }
3741
3742 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3743 vreinterpretq_s8_u32 (uint32x4_t __a)
3744 {
3745   return (int8x16_t) __a;
3746 }
3747
3748 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3749 vreinterpretq_s8_u64 (uint64x2_t __a)
3750 {
3751   return (int8x16_t) __a;
3752 }
3753
3754 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3755 vreinterpretq_s8_p8 (poly8x16_t __a)
3756 {
3757   return (int8x16_t) __a;
3758 }
3759
3760 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3761 vreinterpretq_s8_p16 (poly16x8_t __a)
3762 {
3763   return (int8x16_t) __a;
3764 }
3765
3766 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3767 vreinterpret_s16_f64 (float64x1_t __a)
3768 {
3769   return (int16x4_t) __a;
3770 }
3771
3772 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3773 vreinterpret_s16_s8 (int8x8_t __a)
3774 {
3775   return (int16x4_t) __a;
3776 }
3777
3778 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3779 vreinterpret_s16_s32 (int32x2_t __a)
3780 {
3781   return (int16x4_t) __a;
3782 }
3783
3784 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3785 vreinterpret_s16_s64 (int64x1_t __a)
3786 {
3787   return (int16x4_t) __a;
3788 }
3789
3790 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3791 vreinterpret_s16_f32 (float32x2_t __a)
3792 {
3793   return (int16x4_t) __a;
3794 }
3795
3796 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3797 vreinterpret_s16_u8 (uint8x8_t __a)
3798 {
3799   return (int16x4_t) __a;
3800 }
3801
3802 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3803 vreinterpret_s16_u16 (uint16x4_t __a)
3804 {
3805   return (int16x4_t) __a;
3806 }
3807
3808 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3809 vreinterpret_s16_u32 (uint32x2_t __a)
3810 {
3811   return (int16x4_t) __a;
3812 }
3813
3814 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3815 vreinterpret_s16_u64 (uint64x1_t __a)
3816 {
3817   return (int16x4_t) __a;
3818 }
3819
3820 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3821 vreinterpret_s16_p8 (poly8x8_t __a)
3822 {
3823   return (int16x4_t) __a;
3824 }
3825
3826 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3827 vreinterpret_s16_p16 (poly16x4_t __a)
3828 {
3829   return (int16x4_t) __a;
3830 }
3831
3832 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3833 vreinterpretq_s16_f64 (float64x2_t __a)
3834 {
3835   return (int16x8_t) __a;
3836 }
3837
3838 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3839 vreinterpretq_s16_s8 (int8x16_t __a)
3840 {
3841   return (int16x8_t) __a;
3842 }
3843
3844 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3845 vreinterpretq_s16_s32 (int32x4_t __a)
3846 {
3847   return (int16x8_t) __a;
3848 }
3849
3850 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3851 vreinterpretq_s16_s64 (int64x2_t __a)
3852 {
3853   return (int16x8_t) __a;
3854 }
3855
3856 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3857 vreinterpretq_s16_f32 (float32x4_t __a)
3858 {
3859   return (int16x8_t) __a;
3860 }
3861
3862 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3863 vreinterpretq_s16_u8 (uint8x16_t __a)
3864 {
3865   return (int16x8_t) __a;
3866 }
3867
3868 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3869 vreinterpretq_s16_u16 (uint16x8_t __a)
3870 {
3871   return (int16x8_t) __a;
3872 }
3873
3874 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3875 vreinterpretq_s16_u32 (uint32x4_t __a)
3876 {
3877   return (int16x8_t) __a;
3878 }
3879
3880 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3881 vreinterpretq_s16_u64 (uint64x2_t __a)
3882 {
3883   return (int16x8_t) __a;
3884 }
3885
3886 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3887 vreinterpretq_s16_p8 (poly8x16_t __a)
3888 {
3889   return (int16x8_t) __a;
3890 }
3891
3892 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3893 vreinterpretq_s16_p16 (poly16x8_t __a)
3894 {
3895   return (int16x8_t) __a;
3896 }
3897
3898 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3899 vreinterpret_s32_f64 (float64x1_t __a)
3900 {
3901   return (int32x2_t) __a;
3902 }
3903
3904 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3905 vreinterpret_s32_s8 (int8x8_t __a)
3906 {
3907   return (int32x2_t) __a;
3908 }
3909
3910 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3911 vreinterpret_s32_s16 (int16x4_t __a)
3912 {
3913   return (int32x2_t) __a;
3914 }
3915
3916 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3917 vreinterpret_s32_s64 (int64x1_t __a)
3918 {
3919   return (int32x2_t) __a;
3920 }
3921
3922 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3923 vreinterpret_s32_f32 (float32x2_t __a)
3924 {
3925   return (int32x2_t) __a;
3926 }
3927
3928 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3929 vreinterpret_s32_u8 (uint8x8_t __a)
3930 {
3931   return (int32x2_t) __a;
3932 }
3933
3934 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3935 vreinterpret_s32_u16 (uint16x4_t __a)
3936 {
3937   return (int32x2_t) __a;
3938 }
3939
3940 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3941 vreinterpret_s32_u32 (uint32x2_t __a)
3942 {
3943   return (int32x2_t) __a;
3944 }
3945
3946 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3947 vreinterpret_s32_u64 (uint64x1_t __a)
3948 {
3949   return (int32x2_t) __a;
3950 }
3951
3952 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3953 vreinterpret_s32_p8 (poly8x8_t __a)
3954 {
3955   return (int32x2_t) __a;
3956 }
3957
3958 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3959 vreinterpret_s32_p16 (poly16x4_t __a)
3960 {
3961   return (int32x2_t) __a;
3962 }
3963
3964 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3965 vreinterpretq_s32_f64 (float64x2_t __a)
3966 {
3967   return (int32x4_t) __a;
3968 }
3969
3970 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3971 vreinterpretq_s32_s8 (int8x16_t __a)
3972 {
3973   return (int32x4_t) __a;
3974 }
3975
3976 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3977 vreinterpretq_s32_s16 (int16x8_t __a)
3978 {
3979   return (int32x4_t) __a;
3980 }
3981
3982 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3983 vreinterpretq_s32_s64 (int64x2_t __a)
3984 {
3985   return (int32x4_t) __a;
3986 }
3987
3988 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3989 vreinterpretq_s32_f32 (float32x4_t __a)
3990 {
3991   return (int32x4_t) __a;
3992 }
3993
3994 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3995 vreinterpretq_s32_u8 (uint8x16_t __a)
3996 {
3997   return (int32x4_t) __a;
3998 }
3999
4000 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4001 vreinterpretq_s32_u16 (uint16x8_t __a)
4002 {
4003   return (int32x4_t) __a;
4004 }
4005
4006 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4007 vreinterpretq_s32_u32 (uint32x4_t __a)
4008 {
4009   return (int32x4_t) __a;
4010 }
4011
4012 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4013 vreinterpretq_s32_u64 (uint64x2_t __a)
4014 {
4015   return (int32x4_t) __a;
4016 }
4017
4018 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4019 vreinterpretq_s32_p8 (poly8x16_t __a)
4020 {
4021   return (int32x4_t) __a;
4022 }
4023
4024 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4025 vreinterpretq_s32_p16 (poly16x8_t __a)
4026 {
4027   return (int32x4_t) __a;
4028 }
4029
4030 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4031 vreinterpret_u8_f64 (float64x1_t __a)
4032 {
4033   return (uint8x8_t) __a;
4034 }
4035
4036 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4037 vreinterpret_u8_s8 (int8x8_t __a)
4038 {
4039   return (uint8x8_t) __a;
4040 }
4041
4042 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4043 vreinterpret_u8_s16 (int16x4_t __a)
4044 {
4045   return (uint8x8_t) __a;
4046 }
4047
4048 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4049 vreinterpret_u8_s32 (int32x2_t __a)
4050 {
4051   return (uint8x8_t) __a;
4052 }
4053
4054 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4055 vreinterpret_u8_s64 (int64x1_t __a)
4056 {
4057   return (uint8x8_t) __a;
4058 }
4059
4060 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4061 vreinterpret_u8_f32 (float32x2_t __a)
4062 {
4063   return (uint8x8_t) __a;
4064 }
4065
4066 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4067 vreinterpret_u8_u16 (uint16x4_t __a)
4068 {
4069   return (uint8x8_t) __a;
4070 }
4071
4072 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4073 vreinterpret_u8_u32 (uint32x2_t __a)
4074 {
4075   return (uint8x8_t) __a;
4076 }
4077
4078 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4079 vreinterpret_u8_u64 (uint64x1_t __a)
4080 {
4081   return (uint8x8_t) __a;
4082 }
4083
4084 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4085 vreinterpret_u8_p8 (poly8x8_t __a)
4086 {
4087   return (uint8x8_t) __a;
4088 }
4089
4090 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4091 vreinterpret_u8_p16 (poly16x4_t __a)
4092 {
4093   return (uint8x8_t) __a;
4094 }
4095
4096 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4097 vreinterpretq_u8_f64 (float64x2_t __a)
4098 {
4099   return (uint8x16_t) __a;
4100 }
4101
4102 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4103 vreinterpretq_u8_s8 (int8x16_t __a)
4104 {
4105   return (uint8x16_t) __a;
4106 }
4107
4108 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4109 vreinterpretq_u8_s16 (int16x8_t __a)
4110 {
4111   return (uint8x16_t) __a;
4112 }
4113
4114 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4115 vreinterpretq_u8_s32 (int32x4_t __a)
4116 {
4117   return (uint8x16_t) __a;
4118 }
4119
4120 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4121 vreinterpretq_u8_s64 (int64x2_t __a)
4122 {
4123   return (uint8x16_t) __a;
4124 }
4125
4126 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4127 vreinterpretq_u8_f32 (float32x4_t __a)
4128 {
4129   return (uint8x16_t) __a;
4130 }
4131
4132 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4133 vreinterpretq_u8_u16 (uint16x8_t __a)
4134 {
4135   return (uint8x16_t) __a;
4136 }
4137
4138 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4139 vreinterpretq_u8_u32 (uint32x4_t __a)
4140 {
4141   return (uint8x16_t) __a;
4142 }
4143
4144 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4145 vreinterpretq_u8_u64 (uint64x2_t __a)
4146 {
4147   return (uint8x16_t) __a;
4148 }
4149
4150 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4151 vreinterpretq_u8_p8 (poly8x16_t __a)
4152 {
4153   return (uint8x16_t) __a;
4154 }
4155
4156 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4157 vreinterpretq_u8_p16 (poly16x8_t __a)
4158 {
4159   return (uint8x16_t) __a;
4160 }
4161
4162 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4163 vreinterpret_u16_f64 (float64x1_t __a)
4164 {
4165   return (uint16x4_t) __a;
4166 }
4167
4168 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4169 vreinterpret_u16_s8 (int8x8_t __a)
4170 {
4171   return (uint16x4_t) __a;
4172 }
4173
4174 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4175 vreinterpret_u16_s16 (int16x4_t __a)
4176 {
4177   return (uint16x4_t) __a;
4178 }
4179
4180 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4181 vreinterpret_u16_s32 (int32x2_t __a)
4182 {
4183   return (uint16x4_t) __a;
4184 }
4185
4186 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4187 vreinterpret_u16_s64 (int64x1_t __a)
4188 {
4189   return (uint16x4_t) __a;
4190 }
4191
4192 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4193 vreinterpret_u16_f32 (float32x2_t __a)
4194 {
4195   return (uint16x4_t) __a;
4196 }
4197
4198 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4199 vreinterpret_u16_u8 (uint8x8_t __a)
4200 {
4201   return (uint16x4_t) __a;
4202 }
4203
4204 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4205 vreinterpret_u16_u32 (uint32x2_t __a)
4206 {
4207   return (uint16x4_t) __a;
4208 }
4209
4210 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4211 vreinterpret_u16_u64 (uint64x1_t __a)
4212 {
4213   return (uint16x4_t) __a;
4214 }
4215
4216 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4217 vreinterpret_u16_p8 (poly8x8_t __a)
4218 {
4219   return (uint16x4_t) __a;
4220 }
4221
4222 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4223 vreinterpret_u16_p16 (poly16x4_t __a)
4224 {
4225   return (uint16x4_t) __a;
4226 }
4227
4228 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4229 vreinterpretq_u16_f64 (float64x2_t __a)
4230 {
4231   return (uint16x8_t) __a;
4232 }
4233
4234 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4235 vreinterpretq_u16_s8 (int8x16_t __a)
4236 {
4237   return (uint16x8_t) __a;
4238 }
4239
4240 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4241 vreinterpretq_u16_s16 (int16x8_t __a)
4242 {
4243   return (uint16x8_t) __a;
4244 }
4245
4246 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4247 vreinterpretq_u16_s32 (int32x4_t __a)
4248 {
4249   return (uint16x8_t) __a;
4250 }
4251
4252 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4253 vreinterpretq_u16_s64 (int64x2_t __a)
4254 {
4255   return (uint16x8_t) __a;
4256 }
4257
4258 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4259 vreinterpretq_u16_f32 (float32x4_t __a)
4260 {
4261   return (uint16x8_t) __a;
4262 }
4263
4264 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4265 vreinterpretq_u16_u8 (uint8x16_t __a)
4266 {
4267   return (uint16x8_t) __a;
4268 }
4269
4270 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4271 vreinterpretq_u16_u32 (uint32x4_t __a)
4272 {
4273   return (uint16x8_t) __a;
4274 }
4275
4276 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4277 vreinterpretq_u16_u64 (uint64x2_t __a)
4278 {
4279   return (uint16x8_t) __a;
4280 }
4281
4282 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4283 vreinterpretq_u16_p8 (poly8x16_t __a)
4284 {
4285   return (uint16x8_t) __a;
4286 }
4287
4288 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4289 vreinterpretq_u16_p16 (poly16x8_t __a)
4290 {
4291   return (uint16x8_t) __a;
4292 }
4293
4294 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4295 vreinterpret_u32_f64 (float64x1_t __a)
4296 {
4297   return (uint32x2_t) __a;
4298 }
4299
4300 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4301 vreinterpret_u32_s8 (int8x8_t __a)
4302 {
4303   return (uint32x2_t) __a;
4304 }
4305
4306 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4307 vreinterpret_u32_s16 (int16x4_t __a)
4308 {
4309   return (uint32x2_t) __a;
4310 }
4311
4312 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4313 vreinterpret_u32_s32 (int32x2_t __a)
4314 {
4315   return (uint32x2_t) __a;
4316 }
4317
4318 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4319 vreinterpret_u32_s64 (int64x1_t __a)
4320 {
4321   return (uint32x2_t) __a;
4322 }
4323
4324 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4325 vreinterpret_u32_f32 (float32x2_t __a)
4326 {
4327   return (uint32x2_t) __a;
4328 }
4329
4330 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4331 vreinterpret_u32_u8 (uint8x8_t __a)
4332 {
4333   return (uint32x2_t) __a;
4334 }
4335
4336 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4337 vreinterpret_u32_u16 (uint16x4_t __a)
4338 {
4339   return (uint32x2_t) __a;
4340 }
4341
4342 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4343 vreinterpret_u32_u64 (uint64x1_t __a)
4344 {
4345   return (uint32x2_t) __a;
4346 }
4347
4348 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4349 vreinterpret_u32_p8 (poly8x8_t __a)
4350 {
4351   return (uint32x2_t) __a;
4352 }
4353
4354 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4355 vreinterpret_u32_p16 (poly16x4_t __a)
4356 {
4357   return (uint32x2_t) __a;
4358 }
4359
4360 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4361 vreinterpretq_u32_f64 (float64x2_t __a)
4362 {
4363   return (uint32x4_t) __a;
4364 }
4365
4366 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4367 vreinterpretq_u32_s8 (int8x16_t __a)
4368 {
4369   return (uint32x4_t) __a;
4370 }
4371
4372 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4373 vreinterpretq_u32_s16 (int16x8_t __a)
4374 {
4375   return (uint32x4_t) __a;
4376 }
4377
4378 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4379 vreinterpretq_u32_s32 (int32x4_t __a)
4380 {
4381   return (uint32x4_t) __a;
4382 }
4383
4384 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4385 vreinterpretq_u32_s64 (int64x2_t __a)
4386 {
4387   return (uint32x4_t) __a;
4388 }
4389
4390 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4391 vreinterpretq_u32_f32 (float32x4_t __a)
4392 {
4393   return (uint32x4_t) __a;
4394 }
4395
4396 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4397 vreinterpretq_u32_u8 (uint8x16_t __a)
4398 {
4399   return (uint32x4_t) __a;
4400 }
4401
4402 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4403 vreinterpretq_u32_u16 (uint16x8_t __a)
4404 {
4405   return (uint32x4_t) __a;
4406 }
4407
4408 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4409 vreinterpretq_u32_u64 (uint64x2_t __a)
4410 {
4411   return (uint32x4_t) __a;
4412 }
4413
4414 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4415 vreinterpretq_u32_p8 (poly8x16_t __a)
4416 {
4417   return (uint32x4_t) __a;
4418 }
4419
4420 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4421 vreinterpretq_u32_p16 (poly16x8_t __a)
4422 {
4423   return (uint32x4_t) __a;
4424 }
4425
4426 /* vset_lane  */
4427
4428 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
4429 vset_lane_f32 (float32_t __elem, float32x2_t __vec, const int __index)
4430 {
4431   return __aarch64_vset_lane_any (__elem, __vec, __index);
4432 }
4433
4434 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
4435 vset_lane_f64 (float64_t __elem, float64x1_t __vec, const int __index)
4436 {
4437   return __aarch64_vset_lane_any (__elem, __vec, __index);
4438 }
4439
4440 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
4441 vset_lane_p8 (poly8_t __elem, poly8x8_t __vec, const int __index)
4442 {
4443   return __aarch64_vset_lane_any (__elem, __vec, __index);
4444 }
4445
4446 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
4447 vset_lane_p16 (poly16_t __elem, poly16x4_t __vec, const int __index)
4448 {
4449   return __aarch64_vset_lane_any (__elem, __vec, __index);
4450 }
4451
4452 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
4453 vset_lane_s8 (int8_t __elem, int8x8_t __vec, const int __index)
4454 {
4455   return __aarch64_vset_lane_any (__elem, __vec, __index);
4456 }
4457
4458 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
4459 vset_lane_s16 (int16_t __elem, int16x4_t __vec, const int __index)
4460 {
4461   return __aarch64_vset_lane_any (__elem, __vec, __index);
4462 }
4463
4464 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
4465 vset_lane_s32 (int32_t __elem, int32x2_t __vec, const int __index)
4466 {
4467   return __aarch64_vset_lane_any (__elem, __vec, __index);
4468 }
4469
4470 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
4471 vset_lane_s64 (int64_t __elem, int64x1_t __vec, const int __index)
4472 {
4473   return __aarch64_vset_lane_any (__elem, __vec, __index);
4474 }
4475
4476 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4477 vset_lane_u8 (uint8_t __elem, uint8x8_t __vec, const int __index)
4478 {
4479   return __aarch64_vset_lane_any (__elem, __vec, __index);
4480 }
4481
4482 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4483 vset_lane_u16 (uint16_t __elem, uint16x4_t __vec, const int __index)
4484 {
4485   return __aarch64_vset_lane_any (__elem, __vec, __index);
4486 }
4487
4488 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4489 vset_lane_u32 (uint32_t __elem, uint32x2_t __vec, const int __index)
4490 {
4491   return __aarch64_vset_lane_any (__elem, __vec, __index);
4492 }
4493
4494 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
4495 vset_lane_u64 (uint64_t __elem, uint64x1_t __vec, const int __index)
4496 {
4497   return __aarch64_vset_lane_any (__elem, __vec, __index);
4498 }
4499
4500 /* vsetq_lane  */
4501
4502 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
4503 vsetq_lane_f32 (float32_t __elem, float32x4_t __vec, const int __index)
4504 {
4505   return __aarch64_vset_lane_any (__elem, __vec, __index);
4506 }
4507
4508 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
4509 vsetq_lane_f64 (float64_t __elem, float64x2_t __vec, const int __index)
4510 {
4511   return __aarch64_vset_lane_any (__elem, __vec, __index);
4512 }
4513
4514 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
4515 vsetq_lane_p8 (poly8_t __elem, poly8x16_t __vec, const int __index)
4516 {
4517   return __aarch64_vset_lane_any (__elem, __vec, __index);
4518 }
4519
4520 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
4521 vsetq_lane_p16 (poly16_t __elem, poly16x8_t __vec, const int __index)
4522 {
4523   return __aarch64_vset_lane_any (__elem, __vec, __index);
4524 }
4525
4526 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
4527 vsetq_lane_s8 (int8_t __elem, int8x16_t __vec, const int __index)
4528 {
4529   return __aarch64_vset_lane_any (__elem, __vec, __index);
4530 }
4531
4532 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
4533 vsetq_lane_s16 (int16_t __elem, int16x8_t __vec, const int __index)
4534 {
4535   return __aarch64_vset_lane_any (__elem, __vec, __index);
4536 }
4537
4538 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4539 vsetq_lane_s32 (int32_t __elem, int32x4_t __vec, const int __index)
4540 {
4541   return __aarch64_vset_lane_any (__elem, __vec, __index);
4542 }
4543
4544 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
4545 vsetq_lane_s64 (int64_t __elem, int64x2_t __vec, const int __index)
4546 {
4547   return __aarch64_vset_lane_any (__elem, __vec, __index);
4548 }
4549
4550 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4551 vsetq_lane_u8 (uint8_t __elem, uint8x16_t __vec, const int __index)
4552 {
4553   return __aarch64_vset_lane_any (__elem, __vec, __index);
4554 }
4555
4556 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4557 vsetq_lane_u16 (uint16_t __elem, uint16x8_t __vec, const int __index)
4558 {
4559   return __aarch64_vset_lane_any (__elem, __vec, __index);
4560 }
4561
4562 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4563 vsetq_lane_u32 (uint32_t __elem, uint32x4_t __vec, const int __index)
4564 {
4565   return __aarch64_vset_lane_any (__elem, __vec, __index);
4566 }
4567
4568 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
4569 vsetq_lane_u64 (uint64_t __elem, uint64x2_t __vec, const int __index)
4570 {
4571   return __aarch64_vset_lane_any (__elem, __vec, __index);
4572 }
4573
4574 #define __GET_LOW(__TYPE) \
4575   uint64x2_t tmp = vreinterpretq_u64_##__TYPE (__a);  \
4576   uint64x1_t lo = vcreate_u64 (vgetq_lane_u64 (tmp, 0));  \
4577   return vreinterpret_##__TYPE##_u64 (lo);
4578
4579 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
4580 vget_low_f32 (float32x4_t __a)
4581 {
4582   __GET_LOW (f32);
4583 }
4584
4585 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
4586 vget_low_f64 (float64x2_t __a)
4587 {
4588   return (float64x1_t) {vgetq_lane_f64 (__a, 0)};
4589 }
4590
4591 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
4592 vget_low_p8 (poly8x16_t __a)
4593 {
4594   __GET_LOW (p8);
4595 }
4596
4597 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
4598 vget_low_p16 (poly16x8_t __a)
4599 {
4600   __GET_LOW (p16);
4601 }
4602
4603 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
4604 vget_low_s8 (int8x16_t __a)
4605 {
4606   __GET_LOW (s8);
4607 }
4608
4609 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
4610 vget_low_s16 (int16x8_t __a)
4611 {
4612   __GET_LOW (s16);
4613 }
4614
4615 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
4616 vget_low_s32 (int32x4_t __a)
4617 {
4618   __GET_LOW (s32);
4619 }
4620
4621 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
4622 vget_low_s64 (int64x2_t __a)
4623 {
4624   __GET_LOW (s64);
4625 }
4626
4627 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4628 vget_low_u8 (uint8x16_t __a)
4629 {
4630   __GET_LOW (u8);
4631 }
4632
4633 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4634 vget_low_u16 (uint16x8_t __a)
4635 {
4636   __GET_LOW (u16);
4637 }
4638
4639 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4640 vget_low_u32 (uint32x4_t __a)
4641 {
4642   __GET_LOW (u32);
4643 }
4644
4645 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
4646 vget_low_u64 (uint64x2_t __a)
4647 {
4648   return vcreate_u64 (vgetq_lane_u64 (__a, 0));
4649 }
4650
4651 #undef __GET_LOW
4652
4653 #define __GET_HIGH(__TYPE)                                      \
4654   uint64x2_t tmp = vreinterpretq_u64_##__TYPE (__a);            \
4655   uint64x1_t hi = vcreate_u64 (vgetq_lane_u64 (tmp, 1));        \
4656   return vreinterpret_##__TYPE##_u64 (hi);
4657
4658 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
4659 vget_high_f32 (float32x4_t __a)
4660 {
4661   __GET_HIGH (f32);
4662 }
4663
4664 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
4665 vget_high_f64 (float64x2_t __a)
4666 {
4667   __GET_HIGH (f64);
4668 }
4669
4670 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
4671 vget_high_p8 (poly8x16_t __a)
4672 {
4673   __GET_HIGH (p8);
4674 }
4675
4676 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
4677 vget_high_p16 (poly16x8_t __a)
4678 {
4679   __GET_HIGH (p16);
4680 }
4681
4682 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
4683 vget_high_s8 (int8x16_t __a)
4684 {
4685   __GET_HIGH (s8);
4686 }
4687
4688 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
4689 vget_high_s16 (int16x8_t __a)
4690 {
4691   __GET_HIGH (s16);
4692 }
4693
4694 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
4695 vget_high_s32 (int32x4_t __a)
4696 {
4697   __GET_HIGH (s32);
4698 }
4699
4700 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
4701 vget_high_s64 (int64x2_t __a)
4702 {
4703   __GET_HIGH (s64);
4704 }
4705
4706 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4707 vget_high_u8 (uint8x16_t __a)
4708 {
4709   __GET_HIGH (u8);
4710 }
4711
4712 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4713 vget_high_u16 (uint16x8_t __a)
4714 {
4715   __GET_HIGH (u16);
4716 }
4717
4718 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4719 vget_high_u32 (uint32x4_t __a)
4720 {
4721   __GET_HIGH (u32);
4722 }
4723
4724 #undef __GET_HIGH
4725
4726 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
4727 vget_high_u64 (uint64x2_t __a)
4728 {
4729   return vcreate_u64 (vgetq_lane_u64 (__a, 1));
4730 }
4731
4732 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
4733 vcombine_s8 (int8x8_t __a, int8x8_t __b)
4734 {
4735   return (int8x16_t) __builtin_aarch64_combinev8qi (__a, __b);
4736 }
4737
4738 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
4739 vcombine_s16 (int16x4_t __a, int16x4_t __b)
4740 {
4741   return (int16x8_t) __builtin_aarch64_combinev4hi (__a, __b);
4742 }
4743
4744 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4745 vcombine_s32 (int32x2_t __a, int32x2_t __b)
4746 {
4747   return (int32x4_t) __builtin_aarch64_combinev2si (__a, __b);
4748 }
4749
4750 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
4751 vcombine_s64 (int64x1_t __a, int64x1_t __b)
4752 {
4753   return __builtin_aarch64_combinedi (__a[0], __b[0]);
4754 }
4755
4756 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
4757 vcombine_f32 (float32x2_t __a, float32x2_t __b)
4758 {
4759   return (float32x4_t) __builtin_aarch64_combinev2sf (__a, __b);
4760 }
4761
4762 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4763 vcombine_u8 (uint8x8_t __a, uint8x8_t __b)
4764 {
4765   return (uint8x16_t) __builtin_aarch64_combinev8qi ((int8x8_t) __a,
4766                                                      (int8x8_t) __b);
4767 }
4768
4769 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4770 vcombine_u16 (uint16x4_t __a, uint16x4_t __b)
4771 {
4772   return (uint16x8_t) __builtin_aarch64_combinev4hi ((int16x4_t) __a,
4773                                                      (int16x4_t) __b);
4774 }
4775
4776 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4777 vcombine_u32 (uint32x2_t __a, uint32x2_t __b)
4778 {
4779   return (uint32x4_t) __builtin_aarch64_combinev2si ((int32x2_t) __a,
4780                                                      (int32x2_t) __b);
4781 }
4782
4783 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
4784 vcombine_u64 (uint64x1_t __a, uint64x1_t __b)
4785 {
4786   return (uint64x2_t) __builtin_aarch64_combinedi (__a[0], __b[0]);
4787 }
4788
4789 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
4790 vcombine_f64 (float64x1_t __a, float64x1_t __b)
4791 {
4792   return __builtin_aarch64_combinedf (__a[0], __b[0]);
4793 }
4794
4795 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
4796 vcombine_p8 (poly8x8_t __a, poly8x8_t __b)
4797 {
4798   return (poly8x16_t) __builtin_aarch64_combinev8qi ((int8x8_t) __a,
4799                                                      (int8x8_t) __b);
4800 }
4801
4802 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
4803 vcombine_p16 (poly16x4_t __a, poly16x4_t __b)
4804 {
4805   return (poly16x8_t) __builtin_aarch64_combinev4hi ((int16x4_t) __a,
4806                                                      (int16x4_t) __b);
4807 }
4808
4809 /* Start of temporary inline asm implementations.  */
4810
4811 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
4812 vaba_s8 (int8x8_t a, int8x8_t b, int8x8_t c)
4813 {
4814   int8x8_t result;
4815   __asm__ ("saba %0.8b,%2.8b,%3.8b"
4816            : "=w"(result)
4817            : "0"(a), "w"(b), "w"(c)
4818            : /* No clobbers */);
4819   return result;
4820 }
4821
4822 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
4823 vaba_s16 (int16x4_t a, int16x4_t b, int16x4_t c)
4824 {
4825   int16x4_t result;
4826   __asm__ ("saba %0.4h,%2.4h,%3.4h"
4827            : "=w"(result)
4828            : "0"(a), "w"(b), "w"(c)
4829            : /* No clobbers */);
4830   return result;
4831 }
4832
4833 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
4834 vaba_s32 (int32x2_t a, int32x2_t b, int32x2_t c)
4835 {
4836   int32x2_t result;
4837   __asm__ ("saba %0.2s,%2.2s,%3.2s"
4838            : "=w"(result)
4839            : "0"(a), "w"(b), "w"(c)
4840            : /* No clobbers */);
4841   return result;
4842 }
4843
4844 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4845 vaba_u8 (uint8x8_t a, uint8x8_t b, uint8x8_t c)
4846 {
4847   uint8x8_t result;
4848   __asm__ ("uaba %0.8b,%2.8b,%3.8b"
4849            : "=w"(result)
4850            : "0"(a), "w"(b), "w"(c)
4851            : /* No clobbers */);
4852   return result;
4853 }
4854
4855 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4856 vaba_u16 (uint16x4_t a, uint16x4_t b, uint16x4_t c)
4857 {
4858   uint16x4_t result;
4859   __asm__ ("uaba %0.4h,%2.4h,%3.4h"
4860            : "=w"(result)
4861            : "0"(a), "w"(b), "w"(c)
4862            : /* No clobbers */);
4863   return result;
4864 }
4865
4866 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4867 vaba_u32 (uint32x2_t a, uint32x2_t b, uint32x2_t c)
4868 {
4869   uint32x2_t result;
4870   __asm__ ("uaba %0.2s,%2.2s,%3.2s"
4871            : "=w"(result)
4872            : "0"(a), "w"(b), "w"(c)
4873            : /* No clobbers */);
4874   return result;
4875 }
4876
4877 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
4878 vabal_high_s8 (int16x8_t a, int8x16_t b, int8x16_t c)
4879 {
4880   int16x8_t result;
4881   __asm__ ("sabal2 %0.8h,%2.16b,%3.16b"
4882            : "=w"(result)
4883            : "0"(a), "w"(b), "w"(c)
4884            : /* No clobbers */);
4885   return result;
4886 }
4887
4888 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4889 vabal_high_s16 (int32x4_t a, int16x8_t b, int16x8_t c)
4890 {
4891   int32x4_t result;
4892   __asm__ ("sabal2 %0.4s,%2.8h,%3.8h"
4893            : "=w"(result)
4894            : "0"(a), "w"(b), "w"(c)
4895            : /* No clobbers */);
4896   return result;
4897 }
4898
4899 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
4900 vabal_high_s32 (int64x2_t a, int32x4_t b, int32x4_t c)
4901 {
4902   int64x2_t result;
4903   __asm__ ("sabal2 %0.2d,%2.4s,%3.4s"
4904            : "=w"(result)
4905            : "0"(a), "w"(b), "w"(c)
4906            : /* No clobbers */);
4907   return result;
4908 }
4909
4910 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4911 vabal_high_u8 (uint16x8_t a, uint8x16_t b, uint8x16_t c)
4912 {
4913   uint16x8_t result;
4914   __asm__ ("uabal2 %0.8h,%2.16b,%3.16b"
4915            : "=w"(result)
4916            : "0"(a), "w"(b), "w"(c)
4917            : /* No clobbers */);
4918   return result;
4919 }
4920
4921 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4922 vabal_high_u16 (uint32x4_t a, uint16x8_t b, uint16x8_t c)
4923 {
4924   uint32x4_t result;
4925   __asm__ ("uabal2 %0.4s,%2.8h,%3.8h"
4926            : "=w"(result)
4927            : "0"(a), "w"(b), "w"(c)
4928            : /* No clobbers */);
4929   return result;
4930 }
4931
4932 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
4933 vabal_high_u32 (uint64x2_t a, uint32x4_t b, uint32x4_t c)
4934 {
4935   uint64x2_t result;
4936   __asm__ ("uabal2 %0.2d,%2.4s,%3.4s"
4937            : "=w"(result)
4938            : "0"(a), "w"(b), "w"(c)
4939            : /* No clobbers */);
4940   return result;
4941 }
4942
4943 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
4944 vabal_s8 (int16x8_t a, int8x8_t b, int8x8_t c)
4945 {
4946   int16x8_t result;
4947   __asm__ ("sabal %0.8h,%2.8b,%3.8b"
4948            : "=w"(result)
4949            : "0"(a), "w"(b), "w"(c)
4950            : /* No clobbers */);
4951   return result;
4952 }
4953
4954 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4955 vabal_s16 (int32x4_t a, int16x4_t b, int16x4_t c)
4956 {
4957   int32x4_t result;
4958   __asm__ ("sabal %0.4s,%2.4h,%3.4h"
4959            : "=w"(result)
4960            : "0"(a), "w"(b), "w"(c)
4961            : /* No clobbers */);
4962   return result;
4963 }
4964
4965 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
4966 vabal_s32 (int64x2_t a, int32x2_t b, int32x2_t c)
4967 {
4968   int64x2_t result;
4969   __asm__ ("sabal %0.2d,%2.2s,%3.2s"
4970            : "=w"(result)
4971            : "0"(a), "w"(b), "w"(c)
4972            : /* No clobbers */);
4973   return result;
4974 }
4975
4976 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4977 vabal_u8 (uint16x8_t a, uint8x8_t b, uint8x8_t c)
4978 {
4979   uint16x8_t result;
4980   __asm__ ("uabal %0.8h,%2.8b,%3.8b"
4981            : "=w"(result)
4982            : "0"(a), "w"(b), "w"(c)
4983            : /* No clobbers */);
4984   return result;
4985 }
4986
4987 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4988 vabal_u16 (uint32x4_t a, uint16x4_t b, uint16x4_t c)
4989 {
4990   uint32x4_t result;
4991   __asm__ ("uabal %0.4s,%2.4h,%3.4h"
4992            : "=w"(result)
4993            : "0"(a), "w"(b), "w"(c)
4994            : /* No clobbers */);
4995   return result;
4996 }
4997
4998 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
4999 vabal_u32 (uint64x2_t a, uint32x2_t b, uint32x2_t c)
5000 {
5001   uint64x2_t result;
5002   __asm__ ("uabal %0.2d,%2.2s,%3.2s"
5003            : "=w"(result)
5004            : "0"(a), "w"(b), "w"(c)
5005            : /* No clobbers */);
5006   return result;
5007 }
5008
5009 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
5010 vabaq_s8 (int8x16_t a, int8x16_t b, int8x16_t c)
5011 {
5012   int8x16_t result;
5013   __asm__ ("saba %0.16b,%2.16b,%3.16b"
5014            : "=w"(result)
5015            : "0"(a), "w"(b), "w"(c)
5016            : /* No clobbers */);
5017   return result;
5018 }
5019
5020 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
5021 vabaq_s16 (int16x8_t a, int16x8_t b, int16x8_t c)
5022 {
5023   int16x8_t result;
5024   __asm__ ("saba %0.8h,%2.8h,%3.8h"
5025            : "=w"(result)
5026            : "0"(a), "w"(b), "w"(c)
5027            : /* No clobbers */);
5028   return result;
5029 }
5030
5031 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
5032 vabaq_s32 (int32x4_t a, int32x4_t b, int32x4_t c)
5033 {
5034   int32x4_t result;
5035   __asm__ ("saba %0.4s,%2.4s,%3.4s"
5036            : "=w"(result)
5037            : "0"(a), "w"(b), "w"(c)
5038            : /* No clobbers */);
5039   return result;
5040 }
5041
5042 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
5043 vabaq_u8 (uint8x16_t a, uint8x16_t b, uint8x16_t c)
5044 {
5045   uint8x16_t result;
5046   __asm__ ("uaba %0.16b,%2.16b,%3.16b"
5047            : "=w"(result)
5048            : "0"(a), "w"(b), "w"(c)
5049            : /* No clobbers */);
5050   return result;
5051 }
5052
5053 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
5054 vabaq_u16 (uint16x8_t a, uint16x8_t b, uint16x8_t c)
5055 {
5056   uint16x8_t result;
5057   __asm__ ("uaba %0.8h,%2.8h,%3.8h"
5058            : "=w"(result)
5059            : "0"(a), "w"(b), "w"(c)
5060            : /* No clobbers */);
5061   return result;
5062 }
5063
5064 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
5065 vabaq_u32 (uint32x4_t a, uint32x4_t b, uint32x4_t c)
5066 {
5067   uint32x4_t result;
5068   __asm__ ("uaba %0.4s,%2.4s,%3.4s"
5069            : "=w"(result)
5070            : "0"(a), "w"(b), "w"(c)
5071            : /* No clobbers */);
5072   return result;
5073 }
5074
5075 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
5076 vabd_f32 (float32x2_t a, float32x2_t b)
5077 {
5078   float32x2_t result;
5079   __asm__ ("fabd %0.2s, %1.2s, %2.2s"
5080            : "=w"(result)
5081            : "w"(a), "w"(b)
5082            : /* No clobbers */);
5083   return result;
5084 }
5085
5086 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
5087 vabd_s8 (int8x8_t a, int8x8_t b)
5088 {
5089   int8x8_t result;
5090   __asm__ ("sabd %0.8b, %1.8b, %2.8b"
5091            : "=w"(result)
5092            : "w"(a), "w"(b)
5093            : /* No clobbers */);
5094   return result;
5095 }
5096
5097 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
5098 vabd_s16 (int16x4_t a, int16x4_t b)
5099 {
5100   int16x4_t result;
5101   __asm__ ("sabd %0.4h, %1.4h, %2.4h"
5102            : "=w"(result)
5103            : "w"(a), "w"(b)
5104            : /* No clobbers */);
5105   return result;
5106 }
5107
5108 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
5109 vabd_s32 (int32x2_t a, int32x2_t b)
5110 {
5111   int32x2_t result;
5112   __asm__ ("sabd %0.2s, %1.2s, %2.2s"
5113            : "=w"(result)
5114            : "w"(a), "w"(b)
5115            : /* No clobbers */);
5116   return result;
5117 }
5118
5119 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
5120 vabd_u8 (uint8x8_t a, uint8x8_t b)
5121 {
5122   uint8x8_t result;
5123   __asm__ ("uabd %0.8b, %1.8b, %2.8b"
5124            : "=w"(result)
5125            : "w"(a), "w"(b)
5126            : /* No clobbers */);
5127   return result;
5128 }
5129
5130 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
5131 vabd_u16 (uint16x4_t a, uint16x4_t b)
5132 {
5133   uint16x4_t result;
5134   __asm__ ("uabd %0.4h, %1.4h, %2.4h"
5135            : "=w"(result)
5136            : "w"(a), "w"(b)
5137            : /* No clobbers */);
5138   return result;
5139 }
5140
5141 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
5142 vabd_u32 (uint32x2_t a, uint32x2_t b)
5143 {
5144   uint32x2_t result;
5145   __asm__ ("uabd %0.2s, %1.2s, %2.2s"
5146            : "=w"(result)
5147            : "w"(a), "w"(b)
5148            : /* No clobbers */);
5149   return result;
5150 }
5151
5152 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
5153 vabdd_f64 (float64_t a, float64_t b)
5154 {
5155   float64_t result;
5156   __asm__ ("fabd %d0, %d1, %d2"
5157            : "=w"(result)
5158            : "w"(a), "w"(b)
5159            : /* No clobbers */);
5160   return result;
5161 }
5162
5163 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
5164 vabdl_high_s8 (int8x16_t a, int8x16_t b)
5165 {
5166   int16x8_t result;
5167   __asm__ ("sabdl2 %0.8h,%1.16b,%2.16b"
5168            : "=w"(result)
5169            : "w"(a), "w"(b)
5170            : /* No clobbers */);
5171   return result;
5172 }
5173
5174 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
5175 vabdl_high_s16 (int16x8_t a, int16x8_t b)
5176 {
5177   int32x4_t result;
5178   __asm__ ("sabdl2 %0.4s,%1.8h,%2.8h"
5179            : "=w"(result)
5180            : "w"(a), "w"(b)
5181            : /* No clobbers */);
5182   return result;
5183 }
5184
5185 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
5186 vabdl_high_s32 (int32x4_t a, int32x4_t b)
5187 {
5188   int64x2_t result;
5189   __asm__ ("sabdl2 %0.2d,%1.4s,%2.4s"
5190            : "=w"(result)
5191            : "w"(a), "w"(b)
5192            : /* No clobbers */);
5193   return result;
5194 }
5195
5196 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
5197 vabdl_high_u8 (uint8x16_t a, uint8x16_t b)
5198 {
5199   uint16x8_t result;
5200   __asm__ ("uabdl2 %0.8h,%1.16b,%2.16b"
5201            : "=w"(result)
5202            : "w"(a), "w"(b)
5203            : /* No clobbers */);
5204   return result;
5205 }
5206
5207 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
5208 vabdl_high_u16 (uint16x8_t a, uint16x8_t b)
5209 {
5210   uint32x4_t result;
5211   __asm__ ("uabdl2 %0.4s,%1.8h,%2.8h"
5212            : "=w"(result)
5213            : "w"(a), "w"(b)
5214            : /* No clobbers */);
5215   return result;
5216 }
5217
5218 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
5219 vabdl_high_u32 (uint32x4_t a, uint32x4_t b)
5220 {
5221   uint64x2_t result;
5222   __asm__ ("uabdl2 %0.2d,%1.4s,%2.4s"
5223            : "=w"(result)
5224            : "w"(a), "w"(b)
5225            : /* No clobbers */);
5226   return result;
5227 }
5228
5229 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
5230 vabdl_s8 (int8x8_t a, int8x8_t b)
5231 {
5232   int16x8_t result;
5233   __asm__ ("sabdl %0.8h, %1.8b, %2.8b"
5234            : "=w"(result)
5235            : "w"(a), "w"(b)
5236            : /* No clobbers */);
5237   return result;
5238 }
5239
5240 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
5241 vabdl_s16 (int16x4_t a, int16x4_t b)
5242 {
5243   int32x4_t result;
5244   __asm__ ("sabdl %0.4s, %1.4h, %2.4h"
5245            : "=w"(result)
5246            : "w"(a), "w"(b)
5247            : /* No clobbers */);
5248   return result;
5249 }
5250
5251 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
5252 vabdl_s32 (int32x2_t a, int32x2_t b)
5253 {
5254   int64x2_t result;
5255   __asm__ ("sabdl %0.2d, %1.2s, %2.2s"
5256            : "=w"(result)
5257            : "w"(a), "w"(b)
5258            : /* No clobbers */);
5259   return result;
5260 }
5261
5262 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
5263 vabdl_u8 (uint8x8_t a, uint8x8_t b)
5264 {
5265   uint16x8_t result;
5266   __asm__ ("uabdl %0.8h, %1.8b, %2.8b"
5267            : "=w"(result)
5268            : "w"(a), "w"(b)
5269            : /* No clobbers */);
5270   return result;
5271 }
5272
5273 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
5274 vabdl_u16 (uint16x4_t a, uint16x4_t b)
5275 {
5276   uint32x4_t result;
5277   __asm__ ("uabdl %0.4s, %1.4h, %2.4h"
5278            : "=w"(result)
5279            : "w"(a), "w"(b)
5280            : /* No clobbers */);
5281   return result;
5282 }
5283
5284 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
5285 vabdl_u32 (uint32x2_t a, uint32x2_t b)
5286 {
5287   uint64x2_t result;
5288   __asm__ ("uabdl %0.2d, %1.2s, %2.2s"
5289            : "=w"(result)
5290            : "w"(a), "w"(b)
5291            : /* No clobbers */);
5292   return result;
5293 }
5294
5295 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
5296 vabdq_f32 (float32x4_t a, float32x4_t b)
5297 {
5298   float32x4_t result;
5299   __asm__ ("fabd %0.4s, %1.4s, %2.4s"
5300            : "=w"(result)
5301            : "w"(a), "w"(b)
5302            : /* No clobbers */);
5303   return result;
5304 }
5305
5306 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
5307 vabdq_f64 (float64x2_t a, float64x2_t b)
5308 {
5309   float64x2_t result;
5310   __asm__ ("fabd %0.2d, %1.2d, %2.2d"
5311            : "=w"(result)
5312            : "w"(a), "w"(b)
5313            : /* No clobbers */);
5314   return result;
5315 }
5316
5317 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
5318 vabdq_s8 (int8x16_t a, int8x16_t b)
5319 {
5320   int8x16_t result;
5321   __asm__ ("sabd %0.16b, %1.16b, %2.16b"
5322            : "=w"(result)
5323            : "w"(a), "w"(b)
5324            : /* No clobbers */);
5325   return result;
5326 }
5327
5328 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
5329 vabdq_s16 (int16x8_t a, int16x8_t b)
5330 {
5331   int16x8_t result;
5332   __asm__ ("sabd %0.8h, %1.8h, %2.8h"
5333            : "=w"(result)
5334            : "w"(a), "w"(b)
5335            : /* No clobbers */);
5336   return result;
5337 }
5338
5339 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
5340 vabdq_s32 (int32x4_t a, int32x4_t b)
5341 {
5342   int32x4_t result;
5343   __asm__ ("sabd %0.4s, %1.4s, %2.4s"
5344            : "=w"(result)
5345            : "w"(a), "w"(b)
5346            : /* No clobbers */);
5347   return result;
5348 }
5349
5350 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
5351 vabdq_u8 (uint8x16_t a, uint8x16_t b)
5352 {
5353   uint8x16_t result;
5354   __asm__ ("uabd %0.16b, %1.16b, %2.16b"
5355            : "=w"(result)
5356            : "w"(a), "w"(b)
5357            : /* No clobbers */);
5358   return result;
5359 }
5360
5361 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
5362 vabdq_u16 (uint16x8_t a, uint16x8_t b)
5363 {
5364   uint16x8_t result;
5365   __asm__ ("uabd %0.8h, %1.8h, %2.8h"
5366            : "=w"(result)
5367            : "w"(a), "w"(b)
5368            : /* No clobbers */);
5369   return result;
5370 }
5371
5372 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
5373 vabdq_u32 (uint32x4_t a, uint32x4_t b)
5374 {
5375   uint32x4_t result;
5376   __asm__ ("uabd %0.4s, %1.4s, %2.4s"
5377            : "=w"(result)
5378            : "w"(a), "w"(b)
5379            : /* No clobbers */);
5380   return result;
5381 }
5382
5383 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
5384 vabds_f32 (float32_t a, float32_t b)
5385 {
5386   float32_t result;
5387   __asm__ ("fabd %s0, %s1, %s2"
5388            : "=w"(result)
5389            : "w"(a), "w"(b)
5390            : /* No clobbers */);
5391   return result;
5392 }
5393
5394 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
5395 vaddlv_s8 (int8x8_t a)
5396 {
5397   int16_t result;
5398   __asm__ ("saddlv %h0,%1.8b"
5399            : "=w"(result)
5400            : "w"(a)
5401            : /* No clobbers */);
5402   return result;
5403 }
5404
5405 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
5406 vaddlv_s16 (int16x4_t a)
5407 {
5408   int32_t result;
5409   __asm__ ("saddlv %s0,%1.4h"
5410            : "=w"(result)
5411            : "w"(a)
5412            : /* No clobbers */);
5413   return result;
5414 }
5415
5416 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
5417 vaddlv_u8 (uint8x8_t a)
5418 {
5419   uint16_t result;
5420   __asm__ ("uaddlv %h0,%1.8b"
5421            : "=w"(result)
5422            : "w"(a)
5423            : /* No clobbers */);
5424   return result;
5425 }
5426
5427 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
5428 vaddlv_u16 (uint16x4_t a)
5429 {
5430   uint32_t result;
5431   __asm__ ("uaddlv %s0,%1.4h"
5432            : "=w"(result)
5433            : "w"(a)
5434            : /* No clobbers */);
5435   return result;
5436 }
5437
5438 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
5439 vaddlvq_s8 (int8x16_t a)
5440 {
5441   int16_t result;
5442   __asm__ ("saddlv %h0,%1.16b"
5443            : "=w"(result)
5444            : "w"(a)
5445            : /* No clobbers */);
5446   return result;
5447 }
5448
5449 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
5450 vaddlvq_s16 (int16x8_t a)
5451 {
5452   int32_t result;
5453   __asm__ ("saddlv %s0,%1.8h"
5454            : "=w"(result)
5455            : "w"(a)
5456            : /* No clobbers */);
5457   return result;
5458 }
5459
5460 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
5461 vaddlvq_s32 (int32x4_t a)
5462 {
5463   int64_t result;
5464   __asm__ ("saddlv %d0,%1.4s"
5465            : "=w"(result)
5466            : "w"(a)
5467            : /* No clobbers */);
5468   return result;
5469 }
5470
5471 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
5472 vaddlvq_u8 (uint8x16_t a)
5473 {
5474   uint16_t result;
5475   __asm__ ("uaddlv %h0,%1.16b"
5476            : "=w"(result)
5477            : "w"(a)
5478            : /* No clobbers */);
5479   return result;
5480 }
5481
5482 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
5483 vaddlvq_u16 (uint16x8_t a)
5484 {
5485   uint32_t result;
5486   __asm__ ("uaddlv %s0,%1.8h"
5487            : "=w"(result)
5488            : "w"(a)
5489            : /* No clobbers */);
5490   return result;
5491 }
5492
5493 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
5494 vaddlvq_u32 (uint32x4_t a)
5495 {
5496   uint64_t result;
5497   __asm__ ("uaddlv %d0,%1.4s"
5498            : "=w"(result)
5499            : "w"(a)
5500            : /* No clobbers */);
5501   return result;
5502 }
5503
5504 #define vcopyq_lane_f32(a, b, c, d)                                     \
5505   __extension__                                                         \
5506     ({                                                                  \
5507        float32x4_t c_ = (c);                                            \
5508        float32x4_t a_ = (a);                                            \
5509        float32x4_t result;                                              \
5510        __asm__ ("ins %0.s[%2], %3.s[%4]"                                \
5511                 : "=w"(result)                                          \
5512                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5513                 : /* No clobbers */);                                   \
5514        result;                                                          \
5515      })
5516
5517 #define vcopyq_lane_f64(a, b, c, d)                                     \
5518   __extension__                                                         \
5519     ({                                                                  \
5520        float64x2_t c_ = (c);                                            \
5521        float64x2_t a_ = (a);                                            \
5522        float64x2_t result;                                              \
5523        __asm__ ("ins %0.d[%2], %3.d[%4]"                                \
5524                 : "=w"(result)                                          \
5525                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5526                 : /* No clobbers */);                                   \
5527        result;                                                          \
5528      })
5529
5530 #define vcopyq_lane_p8(a, b, c, d)                                      \
5531   __extension__                                                         \
5532     ({                                                                  \
5533        poly8x16_t c_ = (c);                                             \
5534        poly8x16_t a_ = (a);                                             \
5535        poly8x16_t result;                                               \
5536        __asm__ ("ins %0.b[%2], %3.b[%4]"                                \
5537                 : "=w"(result)                                          \
5538                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5539                 : /* No clobbers */);                                   \
5540        result;                                                          \
5541      })
5542
5543 #define vcopyq_lane_p16(a, b, c, d)                                     \
5544   __extension__                                                         \
5545     ({                                                                  \
5546        poly16x8_t c_ = (c);                                             \
5547        poly16x8_t a_ = (a);                                             \
5548        poly16x8_t result;                                               \
5549        __asm__ ("ins %0.h[%2], %3.h[%4]"                                \
5550                 : "=w"(result)                                          \
5551                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5552                 : /* No clobbers */);                                   \
5553        result;                                                          \
5554      })
5555
5556 #define vcopyq_lane_s8(a, b, c, d)                                      \
5557   __extension__                                                         \
5558     ({                                                                  \
5559        int8x16_t c_ = (c);                                              \
5560        int8x16_t a_ = (a);                                              \
5561        int8x16_t result;                                                \
5562        __asm__ ("ins %0.b[%2], %3.b[%4]"                                \
5563                 : "=w"(result)                                          \
5564                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5565                 : /* No clobbers */);                                   \
5566        result;                                                          \
5567      })
5568
5569 #define vcopyq_lane_s16(a, b, c, d)                                     \
5570   __extension__                                                         \
5571     ({                                                                  \
5572        int16x8_t c_ = (c);                                              \
5573        int16x8_t a_ = (a);                                              \
5574        int16x8_t result;                                                \
5575        __asm__ ("ins %0.h[%2], %3.h[%4]"                                \
5576                 : "=w"(result)                                          \
5577                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5578                 : /* No clobbers */);                                   \
5579        result;                                                          \
5580      })
5581
5582 #define vcopyq_lane_s32(a, b, c, d)                                     \
5583   __extension__                                                         \
5584     ({                                                                  \
5585        int32x4_t c_ = (c);                                              \
5586        int32x4_t a_ = (a);                                              \
5587        int32x4_t result;                                                \
5588        __asm__ ("ins %0.s[%2], %3.s[%4]"                                \
5589                 : "=w"(result)                                          \
5590                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5591                 : /* No clobbers */);                                   \
5592        result;                                                          \
5593      })
5594
5595 #define vcopyq_lane_s64(a, b, c, d)                                     \
5596   __extension__                                                         \
5597     ({                                                                  \
5598        int64x2_t c_ = (c);                                              \
5599        int64x2_t a_ = (a);                                              \
5600        int64x2_t result;                                                \
5601        __asm__ ("ins %0.d[%2], %3.d[%4]"                                \
5602                 : "=w"(result)                                          \
5603                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5604                 : /* No clobbers */);                                   \
5605        result;                                                          \
5606      })
5607
5608 #define vcopyq_lane_u8(a, b, c, d)                                      \
5609   __extension__                                                         \
5610     ({                                                                  \
5611        uint8x16_t c_ = (c);                                             \
5612        uint8x16_t a_ = (a);                                             \
5613        uint8x16_t result;                                               \
5614        __asm__ ("ins %0.b[%2], %3.b[%4]"                                \
5615                 : "=w"(result)                                          \
5616                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5617                 : /* No clobbers */);                                   \
5618        result;                                                          \
5619      })
5620
5621 #define vcopyq_lane_u16(a, b, c, d)                                     \
5622   __extension__                                                         \
5623     ({                                                                  \
5624        uint16x8_t c_ = (c);                                             \
5625        uint16x8_t a_ = (a);                                             \
5626        uint16x8_t result;                                               \
5627        __asm__ ("ins %0.h[%2], %3.h[%4]"                                \
5628                 : "=w"(result)                                          \
5629                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5630                 : /* No clobbers */);                                   \
5631        result;                                                          \
5632      })
5633
5634 #define vcopyq_lane_u32(a, b, c, d)                                     \
5635   __extension__                                                         \
5636     ({                                                                  \
5637        uint32x4_t c_ = (c);                                             \
5638        uint32x4_t a_ = (a);                                             \
5639        uint32x4_t result;                                               \
5640        __asm__ ("ins %0.s[%2], %3.s[%4]"                                \
5641                 : "=w"(result)                                          \
5642                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5643                 : /* No clobbers */);                                   \
5644        result;                                                          \
5645      })
5646
5647 #define vcopyq_lane_u64(a, b, c, d)                                     \
5648   __extension__                                                         \
5649     ({                                                                  \
5650        uint64x2_t c_ = (c);                                             \
5651        uint64x2_t a_ = (a);                                             \
5652        uint64x2_t result;                                               \
5653        __asm__ ("ins %0.d[%2], %3.d[%4]"                                \
5654                 : "=w"(result)                                          \
5655                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5656                 : /* No clobbers */);                                   \
5657        result;                                                          \
5658      })
5659
5660 /* vcvt_f16_f32 not supported */
5661
5662 /* vcvt_f32_f16 not supported */
5663
5664 /* vcvt_high_f16_f32 not supported */
5665
5666 /* vcvt_high_f32_f16 not supported */
5667
5668 static float32x2_t vdup_n_f32 (float32_t);
5669
5670 #define vcvt_n_f32_s32(a, b)                                            \
5671   __extension__                                                         \
5672     ({                                                                  \
5673        int32x2_t a_ = (a);                                              \
5674        float32x2_t result;                                              \
5675        __asm__ ("scvtf %0.2s, %1.2s, #%2"                               \
5676                 : "=w"(result)                                          \
5677                 : "w"(a_), "i"(b)                                       \
5678                 : /* No clobbers */);                                   \
5679        result;                                                          \
5680      })
5681
5682 #define vcvt_n_f32_u32(a, b)                                            \
5683   __extension__                                                         \
5684     ({                                                                  \
5685        uint32x2_t a_ = (a);                                             \
5686        float32x2_t result;                                              \
5687        __asm__ ("ucvtf %0.2s, %1.2s, #%2"                               \
5688                 : "=w"(result)                                          \
5689                 : "w"(a_), "i"(b)                                       \
5690                 : /* No clobbers */);                                   \
5691        result;                                                          \
5692      })
5693
5694 #define vcvt_n_s32_f32(a, b)                                            \
5695   __extension__                                                         \
5696     ({                                                                  \
5697        float32x2_t a_ = (a);                                            \
5698        int32x2_t result;                                                \
5699        __asm__ ("fcvtzs %0.2s, %1.2s, #%2"                              \
5700                 : "=w"(result)                                          \
5701                 : "w"(a_), "i"(b)                                       \
5702                 : /* No clobbers */);                                   \
5703        result;                                                          \
5704      })
5705
5706 #define vcvt_n_u32_f32(a, b)                                            \
5707   __extension__                                                         \
5708     ({                                                                  \
5709        float32x2_t a_ = (a);                                            \
5710        uint32x2_t result;                                               \
5711        __asm__ ("fcvtzu %0.2s, %1.2s, #%2"                              \
5712                 : "=w"(result)                                          \
5713                 : "w"(a_), "i"(b)                                       \
5714                 : /* No clobbers */);                                   \
5715        result;                                                          \
5716      })
5717
5718 #define vcvtd_n_f64_s64(a, b)                                           \
5719   __extension__                                                         \
5720     ({                                                                  \
5721        int64_t a_ = (a);                                                \
5722        float64_t result;                                                \
5723        __asm__ ("scvtf %d0,%d1,%2"                                      \
5724                 : "=w"(result)                                          \
5725                 : "w"(a_), "i"(b)                                       \
5726                 : /* No clobbers */);                                   \
5727        result;                                                          \
5728      })
5729
5730 #define vcvtd_n_f64_u64(a, b)                                           \
5731   __extension__                                                         \
5732     ({                                                                  \
5733        uint64_t a_ = (a);                                               \
5734        float64_t result;                                                \
5735        __asm__ ("ucvtf %d0,%d1,%2"                                      \
5736                 : "=w"(result)                                          \
5737                 : "w"(a_), "i"(b)                                       \
5738                 : /* No clobbers */);                                   \
5739        result;                                                          \
5740      })
5741
5742 #define vcvtd_n_s64_f64(a, b)                                           \
5743   __extension__                                                         \
5744     ({                                                                  \
5745        float64_t a_ = (a);                                              \
5746        int64_t result;                                                  \
5747        __asm__ ("fcvtzs %d0,%d1,%2"                                     \
5748                 : "=w"(result)                                          \
5749                 : "w"(a_), "i"(b)                                       \
5750                 : /* No clobbers */);                                   \
5751        result;                                                          \
5752      })
5753
5754 #define vcvtd_n_u64_f64(a, b)                                           \
5755   __extension__                                                         \
5756     ({                                                                  \
5757        float64_t a_ = (a);                                              \
5758        uint64_t result;                                                 \
5759        __asm__ ("fcvtzu %d0,%d1,%2"                                     \
5760                 : "=w"(result)                                          \
5761                 : "w"(a_), "i"(b)                                       \
5762                 : /* No clobbers */);                                   \
5763        result;                                                          \
5764      })
5765
5766 #define vcvtq_n_f32_s32(a, b)                                           \
5767   __extension__                                                         \
5768     ({                                                                  \
5769        int32x4_t a_ = (a);                                              \
5770        float32x4_t result;                                              \
5771        __asm__ ("scvtf %0.4s, %1.4s, #%2"                               \
5772                 : "=w"(result)                                          \
5773                 : "w"(a_), "i"(b)                                       \
5774                 : /* No clobbers */);                                   \
5775        result;                                                          \
5776      })
5777
5778 #define vcvtq_n_f32_u32(a, b)                                           \
5779   __extension__                                                         \
5780     ({                                                                  \
5781        uint32x4_t a_ = (a);                                             \
5782        float32x4_t result;                                              \
5783        __asm__ ("ucvtf %0.4s, %1.4s, #%2"                               \
5784                 : "=w"(result)                                          \
5785                 : "w"(a_), "i"(b)                                       \
5786                 : /* No clobbers */);                                   \
5787        result;                                                          \
5788      })
5789
5790 #define vcvtq_n_f64_s64(a, b)                                           \
5791   __extension__                                                         \
5792     ({                                                                  \
5793        int64x2_t a_ = (a);                                              \
5794        float64x2_t result;                                              \
5795        __asm__ ("scvtf %0.2d, %1.2d, #%2"                               \
5796                 : "=w"(result)                                          \
5797                 : "w"(a_), "i"(b)                                       \
5798                 : /* No clobbers */);                                   \
5799        result;                                                          \
5800      })
5801
5802 #define vcvtq_n_f64_u64(a, b)                                           \
5803   __extension__                                                         \
5804     ({                                                                  \
5805        uint64x2_t a_ = (a);                                             \
5806        float64x2_t result;                                              \
5807        __asm__ ("ucvtf %0.2d, %1.2d, #%2"                               \
5808                 : "=w"(result)                                          \
5809                 : "w"(a_), "i"(b)                                       \
5810                 : /* No clobbers */);                                   \
5811        result;                                                          \
5812      })
5813
5814 #define vcvtq_n_s32_f32(a, b)                                           \
5815   __extension__                                                         \
5816     ({                                                                  \
5817        float32x4_t a_ = (a);                                            \
5818        int32x4_t result;                                                \
5819        __asm__ ("fcvtzs %0.4s, %1.4s, #%2"                              \
5820                 : "=w"(result)                                          \
5821                 : "w"(a_), "i"(b)                                       \
5822                 : /* No clobbers */);                                   \
5823        result;                                                          \
5824      })
5825
5826 #define vcvtq_n_s64_f64(a, b)                                           \
5827   __extension__                                                         \
5828     ({                                                                  \
5829        float64x2_t a_ = (a);                                            \
5830        int64x2_t result;                                                \
5831        __asm__ ("fcvtzs %0.2d, %1.2d, #%2"                              \
5832                 : "=w"(result)                                          \
5833                 : "w"(a_), "i"(b)                                       \
5834                 : /* No clobbers */);                                   \
5835        result;                                                          \
5836      })
5837
5838 #define vcvtq_n_u32_f32(a, b)                                           \
5839   __extension__                                                         \
5840     ({                                                                  \
5841        float32x4_t a_ = (a);                                            \
5842        uint32x4_t result;                                               \
5843        __asm__ ("fcvtzu %0.4s, %1.4s, #%2"                              \
5844                 : "=w"(result)                                          \
5845                 : "w"(a_), "i"(b)                                       \
5846                 : /* No clobbers */);                                   \
5847        result;                                                          \
5848      })
5849
5850 #define vcvtq_n_u64_f64(a, b)                                           \
5851   __extension__                                                         \
5852     ({                                                                  \
5853        float64x2_t a_ = (a);                                            \
5854        uint64x2_t result;                                               \
5855        __asm__ ("fcvtzu %0.2d, %1.2d, #%2"                              \
5856                 : "=w"(result)                                          \
5857                 : "w"(a_), "i"(b)                                       \
5858                 : /* No clobbers */);                                   \
5859        result;                                                          \
5860      })
5861
5862 #define vcvts_n_f32_s32(a, b)                                           \
5863   __extension__                                                         \
5864     ({                                                                  \
5865        int32_t a_ = (a);                                                \
5866        float32_t result;                                                \
5867        __asm__ ("scvtf %s0,%s1,%2"                                      \
5868                 : "=w"(result)                                          \
5869                 : "w"(a_), "i"(b)                                       \
5870                 : /* No clobbers */);                                   \
5871        result;                                                          \
5872      })
5873
5874 #define vcvts_n_f32_u32(a, b)                                           \
5875   __extension__                                                         \
5876     ({                                                                  \
5877        uint32_t a_ = (a);                                               \
5878        float32_t result;                                                \
5879        __asm__ ("ucvtf %s0,%s1,%2"                                      \
5880                 : "=w"(result)                                          \
5881                 : "w"(a_), "i"(b)                                       \
5882                 : /* No clobbers */);                                   \
5883        result;                                                          \
5884      })
5885
5886 #define vcvts_n_s32_f32(a, b)                                           \
5887   __extension__                                                         \
5888     ({                                                                  \
5889        float32_t a_ = (a);                                              \
5890        int32_t result;                                                  \
5891        __asm__ ("fcvtzs %s0,%s1,%2"                                     \
5892                 : "=w"(result)                                          \
5893                 : "w"(a_), "i"(b)                                       \
5894                 : /* No clobbers */);                                   \
5895        result;                                                          \
5896      })
5897
5898 #define vcvts_n_u32_f32(a, b)                                           \
5899   __extension__                                                         \
5900     ({                                                                  \
5901        float32_t a_ = (a);                                              \
5902        uint32_t result;                                                 \
5903        __asm__ ("fcvtzu %s0,%s1,%2"                                     \
5904                 : "=w"(result)                                          \
5905                 : "w"(a_), "i"(b)                                       \
5906                 : /* No clobbers */);                                   \
5907        result;                                                          \
5908      })
5909
5910 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
5911 vcvtx_f32_f64 (float64x2_t a)
5912 {
5913   float32x2_t result;
5914   __asm__ ("fcvtxn %0.2s,%1.2d"
5915            : "=w"(result)
5916            : "w"(a)
5917            : /* No clobbers */);
5918   return result;
5919 }
5920
5921 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
5922 vcvtx_high_f32_f64 (float32x2_t a, float64x2_t b)
5923 {
5924   float32x4_t result;
5925   __asm__ ("fcvtxn2 %0.4s,%1.2d"
5926            : "=w"(result)
5927            : "w" (b), "0"(a)
5928            : /* No clobbers */);
5929   return result;
5930 }
5931
5932 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
5933 vcvtxd_f32_f64 (float64_t a)
5934 {
5935   float32_t result;
5936   __asm__ ("fcvtxn %s0,%d1"
5937            : "=w"(result)
5938            : "w"(a)
5939            : /* No clobbers */);
5940   return result;
5941 }
5942
5943 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
5944 vmla_n_f32 (float32x2_t a, float32x2_t b, float32_t c)
5945 {
5946   float32x2_t result;
5947   float32x2_t t1;
5948   __asm__ ("fmul %1.2s, %3.2s, %4.s[0]; fadd %0.2s, %0.2s, %1.2s"
5949            : "=w"(result), "=w"(t1)
5950            : "0"(a), "w"(b), "w"(c)
5951            : /* No clobbers */);
5952   return result;
5953 }
5954
5955 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
5956 vmla_n_s16 (int16x4_t a, int16x4_t b, int16_t c)
5957 {
5958   int16x4_t result;
5959   __asm__ ("mla %0.4h,%2.4h,%3.h[0]"
5960            : "=w"(result)
5961            : "0"(a), "w"(b), "x"(c)
5962            : /* No clobbers */);
5963   return result;
5964 }
5965
5966 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
5967 vmla_n_s32 (int32x2_t a, int32x2_t b, int32_t c)
5968 {
5969   int32x2_t result;
5970   __asm__ ("mla %0.2s,%2.2s,%3.s[0]"
5971            : "=w"(result)
5972            : "0"(a), "w"(b), "w"(c)
5973            : /* No clobbers */);
5974   return result;
5975 }
5976
5977 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
5978 vmla_n_u16 (uint16x4_t a, uint16x4_t b, uint16_t c)
5979 {
5980   uint16x4_t result;
5981   __asm__ ("mla %0.4h,%2.4h,%3.h[0]"
5982            : "=w"(result)
5983            : "0"(a), "w"(b), "x"(c)
5984            : /* No clobbers */);
5985   return result;
5986 }
5987
5988 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
5989 vmla_n_u32 (uint32x2_t a, uint32x2_t b, uint32_t c)
5990 {
5991   uint32x2_t result;
5992   __asm__ ("mla %0.2s,%2.2s,%3.s[0]"
5993            : "=w"(result)
5994            : "0"(a), "w"(b), "w"(c)
5995            : /* No clobbers */);
5996   return result;
5997 }
5998
5999 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
6000 vmla_s8 (int8x8_t a, int8x8_t b, int8x8_t c)
6001 {
6002   int8x8_t result;
6003   __asm__ ("mla %0.8b, %2.8b, %3.8b"
6004            : "=w"(result)
6005            : "0"(a), "w"(b), "w"(c)
6006            : /* No clobbers */);
6007   return result;
6008 }
6009
6010 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
6011 vmla_s16 (int16x4_t a, int16x4_t b, int16x4_t c)
6012 {
6013   int16x4_t result;
6014   __asm__ ("mla %0.4h, %2.4h, %3.4h"
6015            : "=w"(result)
6016            : "0"(a), "w"(b), "w"(c)
6017            : /* No clobbers */);
6018   return result;
6019 }
6020
6021 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
6022 vmla_s32 (int32x2_t a, int32x2_t b, int32x2_t c)
6023 {
6024   int32x2_t result;
6025   __asm__ ("mla %0.2s, %2.2s, %3.2s"
6026            : "=w"(result)
6027            : "0"(a), "w"(b), "w"(c)
6028            : /* No clobbers */);
6029   return result;
6030 }
6031
6032 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
6033 vmla_u8 (uint8x8_t a, uint8x8_t b, uint8x8_t c)
6034 {
6035   uint8x8_t result;
6036   __asm__ ("mla %0.8b, %2.8b, %3.8b"
6037            : "=w"(result)
6038            : "0"(a), "w"(b), "w"(c)
6039            : /* No clobbers */);
6040   return result;
6041 }
6042
6043 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
6044 vmla_u16 (uint16x4_t a, uint16x4_t b, uint16x4_t c)
6045 {
6046   uint16x4_t result;
6047   __asm__ ("mla %0.4h, %2.4h, %3.4h"
6048            : "=w"(result)
6049            : "0"(a), "w"(b), "w"(c)
6050            : /* No clobbers */);
6051   return result;
6052 }
6053
6054 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
6055 vmla_u32 (uint32x2_t a, uint32x2_t b, uint32x2_t c)
6056 {
6057   uint32x2_t result;
6058   __asm__ ("mla %0.2s, %2.2s, %3.2s"
6059            : "=w"(result)
6060            : "0"(a), "w"(b), "w"(c)
6061            : /* No clobbers */);
6062   return result;
6063 }
6064
6065 #define vmlal_high_lane_s16(a, b, c, d)                                 \
6066   __extension__                                                         \
6067     ({                                                                  \
6068        int16x4_t c_ = (c);                                              \
6069        int16x8_t b_ = (b);                                              \
6070        int32x4_t a_ = (a);                                              \
6071        int32x4_t result;                                                \
6072        __asm__ ("smlal2 %0.4s, %2.8h, %3.h[%4]"                         \
6073                 : "=w"(result)                                          \
6074                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6075                 : /* No clobbers */);                                   \
6076        result;                                                          \
6077      })
6078
6079 #define vmlal_high_lane_s32(a, b, c, d)                                 \
6080   __extension__                                                         \
6081     ({                                                                  \
6082        int32x2_t c_ = (c);                                              \
6083        int32x4_t b_ = (b);                                              \
6084        int64x2_t a_ = (a);                                              \
6085        int64x2_t result;                                                \
6086        __asm__ ("smlal2 %0.2d, %2.4s, %3.s[%4]"                         \
6087                 : "=w"(result)                                          \
6088                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6089                 : /* No clobbers */);                                   \
6090        result;                                                          \
6091      })
6092
6093 #define vmlal_high_lane_u16(a, b, c, d)                                 \
6094   __extension__                                                         \
6095     ({                                                                  \
6096        uint16x4_t c_ = (c);                                             \
6097        uint16x8_t b_ = (b);                                             \
6098        uint32x4_t a_ = (a);                                             \
6099        uint32x4_t result;                                               \
6100        __asm__ ("umlal2 %0.4s, %2.8h, %3.h[%4]"                         \
6101                 : "=w"(result)                                          \
6102                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6103                 : /* No clobbers */);                                   \
6104        result;                                                          \
6105      })
6106
6107 #define vmlal_high_lane_u32(a, b, c, d)                                 \
6108   __extension__                                                         \
6109     ({                                                                  \
6110        uint32x2_t c_ = (c);                                             \
6111        uint32x4_t b_ = (b);                                             \
6112        uint64x2_t a_ = (a);                                             \
6113        uint64x2_t result;                                               \
6114        __asm__ ("umlal2 %0.2d, %2.4s, %3.s[%4]"                         \
6115                 : "=w"(result)                                          \
6116                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6117                 : /* No clobbers */);                                   \
6118        result;                                                          \
6119      })
6120
6121 #define vmlal_high_laneq_s16(a, b, c, d)                                \
6122   __extension__                                                         \
6123     ({                                                                  \
6124        int16x8_t c_ = (c);                                              \
6125        int16x8_t b_ = (b);                                              \
6126        int32x4_t a_ = (a);                                              \
6127        int32x4_t result;                                                \
6128        __asm__ ("smlal2 %0.4s, %2.8h, %3.h[%4]"                         \
6129                 : "=w"(result)                                          \
6130                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6131                 : /* No clobbers */);                                   \
6132        result;                                                          \
6133      })
6134
6135 #define vmlal_high_laneq_s32(a, b, c, d)                                \
6136   __extension__                                                         \
6137     ({                                                                  \
6138        int32x4_t c_ = (c);                                              \
6139        int32x4_t b_ = (b);                                              \
6140        int64x2_t a_ = (a);                                              \
6141        int64x2_t result;                                                \
6142        __asm__ ("smlal2 %0.2d, %2.4s, %3.s[%4]"                         \
6143                 : "=w"(result)                                          \
6144                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6145                 : /* No clobbers */);                                   \
6146        result;                                                          \
6147      })
6148
6149 #define vmlal_high_laneq_u16(a, b, c, d)                                \
6150   __extension__                                                         \
6151     ({                                                                  \
6152        uint16x8_t c_ = (c);                                             \
6153        uint16x8_t b_ = (b);                                             \
6154        uint32x4_t a_ = (a);                                             \
6155        uint32x4_t result;                                               \
6156        __asm__ ("umlal2 %0.4s, %2.8h, %3.h[%4]"                         \
6157                 : "=w"(result)                                          \
6158                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6159                 : /* No clobbers */);                                   \
6160        result;                                                          \
6161      })
6162
6163 #define vmlal_high_laneq_u32(a, b, c, d)                                \
6164   __extension__                                                         \
6165     ({                                                                  \
6166        uint32x4_t c_ = (c);                                             \
6167        uint32x4_t b_ = (b);                                             \
6168        uint64x2_t a_ = (a);                                             \
6169        uint64x2_t result;                                               \
6170        __asm__ ("umlal2 %0.2d, %2.4s, %3.s[%4]"                         \
6171                 : "=w"(result)                                          \
6172                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6173                 : /* No clobbers */);                                   \
6174        result;                                                          \
6175      })
6176
6177 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
6178 vmlal_high_n_s16 (int32x4_t a, int16x8_t b, int16_t c)
6179 {
6180   int32x4_t result;
6181   __asm__ ("smlal2 %0.4s,%2.8h,%3.h[0]"
6182            : "=w"(result)
6183            : "0"(a), "w"(b), "x"(c)
6184            : /* No clobbers */);
6185   return result;
6186 }
6187
6188 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
6189 vmlal_high_n_s32 (int64x2_t a, int32x4_t b, int32_t c)
6190 {
6191   int64x2_t result;
6192   __asm__ ("smlal2 %0.2d,%2.4s,%3.s[0]"
6193            : "=w"(result)
6194            : "0"(a), "w"(b), "w"(c)
6195            : /* No clobbers */);
6196   return result;
6197 }
6198
6199 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
6200 vmlal_high_n_u16 (uint32x4_t a, uint16x8_t b, uint16_t c)
6201 {
6202   uint32x4_t result;
6203   __asm__ ("umlal2 %0.4s,%2.8h,%3.h[0]"
6204            : "=w"(result)
6205            : "0"(a), "w"(b), "x"(c)
6206            : /* No clobbers */);
6207   return result;
6208 }
6209
6210 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
6211 vmlal_high_n_u32 (uint64x2_t a, uint32x4_t b, uint32_t c)
6212 {
6213   uint64x2_t result;
6214   __asm__ ("umlal2 %0.2d,%2.4s,%3.s[0]"
6215            : "=w"(result)
6216            : "0"(a), "w"(b), "w"(c)
6217            : /* No clobbers */);
6218   return result;
6219 }
6220
6221 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
6222 vmlal_high_s8 (int16x8_t a, int8x16_t b, int8x16_t c)
6223 {
6224   int16x8_t result;
6225   __asm__ ("smlal2 %0.8h,%2.16b,%3.16b"
6226            : "=w"(result)
6227            : "0"(a), "w"(b), "w"(c)
6228            : /* No clobbers */);
6229   return result;
6230 }
6231
6232 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
6233 vmlal_high_s16 (int32x4_t a, int16x8_t b, int16x8_t c)
6234 {
6235   int32x4_t result;
6236   __asm__ ("smlal2 %0.4s,%2.8h,%3.8h"
6237            : "=w"(result)
6238            : "0"(a), "w"(b), "w"(c)
6239            : /* No clobbers */);
6240   return result;
6241 }
6242
6243 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
6244 vmlal_high_s32 (int64x2_t a, int32x4_t b, int32x4_t c)
6245 {
6246   int64x2_t result;
6247   __asm__ ("smlal2 %0.2d,%2.4s,%3.4s"
6248            : "=w"(result)
6249            : "0"(a), "w"(b), "w"(c)
6250            : /* No clobbers */);
6251   return result;
6252 }
6253
6254 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
6255 vmlal_high_u8 (uint16x8_t a, uint8x16_t b, uint8x16_t c)
6256 {
6257   uint16x8_t result;
6258   __asm__ ("umlal2 %0.8h,%2.16b,%3.16b"
6259            : "=w"(result)
6260            : "0"(a), "w"(b), "w"(c)
6261            : /* No clobbers */);
6262   return result;
6263 }
6264
6265 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
6266 vmlal_high_u16 (uint32x4_t a, uint16x8_t b, uint16x8_t c)
6267 {
6268   uint32x4_t result;
6269   __asm__ ("umlal2 %0.4s,%2.8h,%3.8h"
6270            : "=w"(result)
6271            : "0"(a), "w"(b), "w"(c)
6272            : /* No clobbers */);
6273   return result;
6274 }
6275
6276 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
6277 vmlal_high_u32 (uint64x2_t a, uint32x4_t b, uint32x4_t c)
6278 {
6279   uint64x2_t result;
6280   __asm__ ("umlal2 %0.2d,%2.4s,%3.4s"
6281            : "=w"(result)
6282            : "0"(a), "w"(b), "w"(c)
6283            : /* No clobbers */);
6284   return result;
6285 }
6286
6287 #define vmlal_lane_s16(a, b, c, d)                                      \
6288   __extension__                                                         \
6289     ({                                                                  \
6290        int16x4_t c_ = (c);                                              \
6291        int16x4_t b_ = (b);                                              \
6292        int32x4_t a_ = (a);                                              \
6293        int32x4_t result;                                                \
6294        __asm__ ("smlal %0.4s,%2.4h,%3.h[%4]"                            \
6295                 : "=w"(result)                                          \
6296                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6297                 : /* No clobbers */);                                   \
6298        result;                                                          \
6299      })
6300
6301 #define vmlal_lane_s32(a, b, c, d)                                      \
6302   __extension__                                                         \
6303     ({                                                                  \
6304        int32x2_t c_ = (c);                                              \
6305        int32x2_t b_ = (b);                                              \
6306        int64x2_t a_ = (a);                                              \
6307        int64x2_t result;                                                \
6308        __asm__ ("smlal %0.2d,%2.2s,%3.s[%4]"                            \
6309                 : "=w"(result)                                          \
6310                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6311                 : /* No clobbers */);                                   \
6312        result;                                                          \
6313      })
6314
6315 #define vmlal_lane_u16(a, b, c, d)                                      \
6316   __extension__                                                         \
6317     ({                                                                  \
6318        uint16x4_t c_ = (c);                                             \
6319        uint16x4_t b_ = (b);                                             \
6320        uint32x4_t a_ = (a);                                             \
6321        uint32x4_t result;                                               \
6322        __asm__ ("umlal %0.4s,%2.4h,%3.h[%4]"                            \
6323                 : "=w"(result)                                          \
6324                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6325                 : /* No clobbers */);                                   \
6326        result;                                                          \
6327      })
6328
6329 #define vmlal_lane_u32(a, b, c, d)                                      \
6330   __extension__                                                         \
6331     ({                                                                  \
6332        uint32x2_t c_ = (c);                                             \
6333        uint32x2_t b_ = (b);                                             \
6334        uint64x2_t a_ = (a);                                             \
6335        uint64x2_t result;                                               \
6336        __asm__ ("umlal %0.2d, %2.2s, %3.s[%4]"                          \
6337                 : "=w"(result)                                          \
6338                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6339                 : /* No clobbers */);                                   \
6340        result;                                                          \
6341      })
6342
6343 #define vmlal_laneq_s16(a, b, c, d)                                     \
6344   __extension__                                                         \
6345     ({                                                                  \
6346        int16x8_t c_ = (c);                                              \
6347        int16x4_t b_ = (b);                                              \
6348        int32x4_t a_ = (a);                                              \
6349        int32x4_t result;                                                \
6350        __asm__ ("smlal %0.4s, %2.4h, %3.h[%4]"                          \
6351                 : "=w"(result)                                          \
6352                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6353                 : /* No clobbers */);                                   \
6354        result;                                                          \
6355      })
6356
6357 #define vmlal_laneq_s32(a, b, c, d)                                     \
6358   __extension__                                                         \
6359     ({                                                                  \
6360        int32x4_t c_ = (c);                                              \
6361        int32x2_t b_ = (b);                                              \
6362        int64x2_t a_ = (a);                                              \
6363        int64x2_t result;                                                \
6364        __asm__ ("smlal %0.2d, %2.2s, %3.s[%4]"                          \
6365                 : "=w"(result)                                          \
6366                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6367                 : /* No clobbers */);                                   \
6368        result;                                                          \
6369      })
6370
6371 #define vmlal_laneq_u16(a, b, c, d)                                     \
6372   __extension__                                                         \
6373     ({                                                                  \
6374        uint16x8_t c_ = (c);                                             \
6375        uint16x4_t b_ = (b);                                             \
6376        uint32x4_t a_ = (a);                                             \
6377        uint32x4_t result;                                               \
6378        __asm__ ("umlal %0.4s, %2.4h, %3.h[%4]"                          \
6379                 : "=w"(result)                                          \
6380                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6381                 : /* No clobbers */);                                   \
6382        result;                                                          \
6383      })
6384
6385 #define vmlal_laneq_u32(a, b, c, d)                                     \
6386   __extension__                                                         \
6387     ({                                                                  \
6388        uint32x4_t c_ = (c);                                             \
6389        uint32x2_t b_ = (b);                                             \
6390        uint64x2_t a_ = (a);                                             \
6391        uint64x2_t result;                                               \
6392        __asm__ ("umlal %0.2d, %2.2s, %3.s[%4]"                          \
6393                 : "=w"(result)                                          \
6394                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6395                 : /* No clobbers */);                                   \
6396        result;                                                          \
6397      })
6398
6399 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
6400 vmlal_n_s16 (int32x4_t a, int16x4_t b, int16_t c)
6401 {
6402   int32x4_t result;
6403   __asm__ ("smlal %0.4s,%2.4h,%3.h[0]"
6404            : "=w"(result)
6405            : "0"(a), "w"(b), "x"(c)
6406            : /* No clobbers */);
6407   return result;
6408 }
6409
6410 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
6411 vmlal_n_s32 (int64x2_t a, int32x2_t b, int32_t c)
6412 {
6413   int64x2_t result;
6414   __asm__ ("smlal %0.2d,%2.2s,%3.s[0]"
6415            : "=w"(result)
6416            : "0"(a), "w"(b), "w"(c)
6417            : /* No clobbers */);
6418   return result;
6419 }
6420
6421 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
6422 vmlal_n_u16 (uint32x4_t a, uint16x4_t b, uint16_t c)
6423 {
6424   uint32x4_t result;
6425   __asm__ ("umlal %0.4s,%2.4h,%3.h[0]"
6426            : "=w"(result)
6427            : "0"(a), "w"(b), "x"(c)
6428            : /* No clobbers */);
6429   return result;
6430 }
6431
6432 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
6433 vmlal_n_u32 (uint64x2_t a, uint32x2_t b, uint32_t c)
6434 {
6435   uint64x2_t result;
6436   __asm__ ("umlal %0.2d,%2.2s,%3.s[0]"
6437            : "=w"(result)
6438            : "0"(a), "w"(b), "w"(c)
6439            : /* No clobbers */);
6440   return result;
6441 }
6442
6443 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
6444 vmlal_s8 (int16x8_t a, int8x8_t b, int8x8_t c)
6445 {
6446   int16x8_t result;
6447   __asm__ ("smlal %0.8h,%2.8b,%3.8b"
6448            : "=w"(result)
6449            : "0"(a), "w"(b), "w"(c)
6450            : /* No clobbers */);
6451   return result;
6452 }
6453
6454 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
6455 vmlal_s16 (int32x4_t a, int16x4_t b, int16x4_t c)
6456 {
6457   int32x4_t result;
6458   __asm__ ("smlal %0.4s,%2.4h,%3.4h"
6459            : "=w"(result)
6460            : "0"(a), "w"(b), "w"(c)
6461            : /* No clobbers */);
6462   return result;
6463 }
6464
6465 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
6466 vmlal_s32 (int64x2_t a, int32x2_t b, int32x2_t c)
6467 {
6468   int64x2_t result;
6469   __asm__ ("smlal %0.2d,%2.2s,%3.2s"
6470            : "=w"(result)
6471            : "0"(a), "w"(b), "w"(c)
6472            : /* No clobbers */);
6473   return result;
6474 }
6475
6476 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
6477 vmlal_u8 (uint16x8_t a, uint8x8_t b, uint8x8_t c)
6478 {
6479   uint16x8_t result;
6480   __asm__ ("umlal %0.8h,%2.8b,%3.8b"
6481            : "=w"(result)
6482            : "0"(a), "w"(b), "w"(c)
6483            : /* No clobbers */);
6484   return result;
6485 }
6486
6487 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
6488 vmlal_u16 (uint32x4_t a, uint16x4_t b, uint16x4_t c)
6489 {
6490   uint32x4_t result;
6491   __asm__ ("umlal %0.4s,%2.4h,%3.4h"
6492            : "=w"(result)
6493            : "0"(a), "w"(b), "w"(c)
6494            : /* No clobbers */);
6495   return result;
6496 }
6497
6498 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
6499 vmlal_u32 (uint64x2_t a, uint32x2_t b, uint32x2_t c)
6500 {
6501   uint64x2_t result;
6502   __asm__ ("umlal %0.2d,%2.2s,%3.2s"
6503            : "=w"(result)
6504            : "0"(a), "w"(b), "w"(c)
6505            : /* No clobbers */);
6506   return result;
6507 }
6508
6509 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
6510 vmlaq_n_f32 (float32x4_t a, float32x4_t b, float32_t c)
6511 {
6512   float32x4_t result;
6513   float32x4_t t1;
6514   __asm__ ("fmul %1.4s, %3.4s, %4.s[0]; fadd %0.4s, %0.4s, %1.4s"
6515            : "=w"(result), "=w"(t1)
6516            : "0"(a), "w"(b), "w"(c)
6517            : /* No clobbers */);
6518   return result;
6519 }
6520
6521 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
6522 vmlaq_n_s16 (int16x8_t a, int16x8_t b, int16_t c)
6523 {
6524   int16x8_t result;
6525   __asm__ ("mla %0.8h,%2.8h,%3.h[0]"
6526            : "=w"(result)
6527            : "0"(a), "w"(b), "x"(c)
6528            : /* No clobbers */);
6529   return result;
6530 }
6531
6532 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
6533 vmlaq_n_s32 (int32x4_t a, int32x4_t b, int32_t c)
6534 {
6535   int32x4_t result;
6536   __asm__ ("mla %0.4s,%2.4s,%3.s[0]"
6537            : "=w"(result)
6538            : "0"(a), "w"(b), "w"(c)
6539            : /* No clobbers */);
6540   return result;
6541 }
6542
6543 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
6544 vmlaq_n_u16 (uint16x8_t a, uint16x8_t b, uint16_t c)
6545 {
6546   uint16x8_t result;
6547   __asm__ ("mla %0.8h,%2.8h,%3.h[0]"
6548            : "=w"(result)
6549            : "0"(a), "w"(b), "x"(c)
6550            : /* No clobbers */);
6551   return result;
6552 }
6553
6554 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
6555 vmlaq_n_u32 (uint32x4_t a, uint32x4_t b, uint32_t c)
6556 {
6557   uint32x4_t result;
6558   __asm__ ("mla %0.4s,%2.4s,%3.s[0]"
6559            : "=w"(result)
6560            : "0"(a), "w"(b), "w"(c)
6561            : /* No clobbers */);
6562   return result;
6563 }
6564
6565 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
6566 vmlaq_s8 (int8x16_t a, int8x16_t b, int8x16_t c)
6567 {
6568   int8x16_t result;
6569   __asm__ ("mla %0.16b, %2.16b, %3.16b"
6570            : "=w"(result)
6571            : "0"(a), "w"(b), "w"(c)
6572            : /* No clobbers */);
6573   return result;
6574 }
6575
6576 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
6577 vmlaq_s16 (int16x8_t a, int16x8_t b, int16x8_t c)
6578 {
6579   int16x8_t result;
6580   __asm__ ("mla %0.8h, %2.8h, %3.8h"
6581            : "=w"(result)
6582            : "0"(a), "w"(b), "w"(c)
6583            : /* No clobbers */);
6584   return result;
6585 }
6586
6587 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
6588 vmlaq_s32 (int32x4_t a, int32x4_t b, int32x4_t c)
6589 {
6590   int32x4_t result;
6591   __asm__ ("mla %0.4s, %2.4s, %3.4s"
6592            : "=w"(result)
6593            : "0"(a), "w"(b), "w"(c)
6594            : /* No clobbers */);
6595   return result;
6596 }
6597
6598 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
6599 vmlaq_u8 (uint8x16_t a, uint8x16_t b, uint8x16_t c)
6600 {
6601   uint8x16_t result;
6602   __asm__ ("mla %0.16b, %2.16b, %3.16b"
6603            : "=w"(result)
6604            : "0"(a), "w"(b), "w"(c)
6605            : /* No clobbers */);
6606   return result;
6607 }
6608
6609 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
6610 vmlaq_u16 (uint16x8_t a, uint16x8_t b, uint16x8_t c)
6611 {
6612   uint16x8_t result;
6613   __asm__ ("mla %0.8h, %2.8h, %3.8h"
6614            : "=w"(result)
6615            : "0"(a), "w"(b), "w"(c)
6616            : /* No clobbers */);
6617   return result;
6618 }
6619
6620 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
6621 vmlaq_u32 (uint32x4_t a, uint32x4_t b, uint32x4_t c)
6622 {
6623   uint32x4_t result;
6624   __asm__ ("mla %0.4s, %2.4s, %3.4s"
6625            : "=w"(result)
6626            : "0"(a), "w"(b), "w"(c)
6627            : /* No clobbers */);
6628   return result;
6629 }
6630
6631 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
6632 vmls_n_f32 (float32x2_t a, float32x2_t b, float32_t c)
6633 {
6634   float32x2_t result;
6635   float32x2_t t1;
6636   __asm__ ("fmul %1.2s, %3.2s, %4.s[0]; fsub %0.2s, %0.2s, %1.2s"
6637            : "=w"(result), "=w"(t1)
6638            : "0"(a), "w"(b), "w"(c)
6639            : /* No clobbers */);
6640   return result;
6641 }
6642
6643 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
6644 vmls_n_s16 (int16x4_t a, int16x4_t b, int16_t c)
6645 {
6646   int16x4_t result;
6647   __asm__ ("mls %0.4h, %2.4h, %3.h[0]"
6648            : "=w"(result)
6649            : "0"(a), "w"(b), "x"(c)
6650            : /* No clobbers */);
6651   return result;
6652 }
6653
6654 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
6655 vmls_n_s32 (int32x2_t a, int32x2_t b, int32_t c)
6656 {
6657   int32x2_t result;
6658   __asm__ ("mls %0.2s, %2.2s, %3.s[0]"
6659            : "=w"(result)
6660            : "0"(a), "w"(b), "w"(c)
6661            : /* No clobbers */);
6662   return result;
6663 }
6664
6665 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
6666 vmls_n_u16 (uint16x4_t a, uint16x4_t b, uint16_t c)
6667 {
6668   uint16x4_t result;
6669   __asm__ ("mls %0.4h, %2.4h, %3.h[0]"
6670            : "=w"(result)
6671            : "0"(a), "w"(b), "x"(c)
6672            : /* No clobbers */);
6673   return result;
6674 }
6675
6676 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
6677 vmls_n_u32 (uint32x2_t a, uint32x2_t b, uint32_t c)
6678 {
6679   uint32x2_t result;
6680   __asm__ ("mls %0.2s, %2.2s, %3.s[0]"
6681            : "=w"(result)
6682            : "0"(a), "w"(b), "w"(c)
6683            : /* No clobbers */);
6684   return result;
6685 }
6686
6687 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
6688 vmls_s8 (int8x8_t a, int8x8_t b, int8x8_t c)
6689 {
6690   int8x8_t result;
6691   __asm__ ("mls %0.8b,%2.8b,%3.8b"
6692            : "=w"(result)
6693            : "0"(a), "w"(b), "w"(c)
6694            : /* No clobbers */);
6695   return result;
6696 }
6697
6698 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
6699 vmls_s16 (int16x4_t a, int16x4_t b, int16x4_t c)
6700 {
6701   int16x4_t result;
6702   __asm__ ("mls %0.4h,%2.4h,%3.4h"
6703            : "=w"(result)
6704            : "0"(a), "w"(b), "w"(c)
6705            : /* No clobbers */);
6706   return result;
6707 }
6708
6709 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
6710 vmls_s32 (int32x2_t a, int32x2_t b, int32x2_t c)
6711 {
6712   int32x2_t result;
6713   __asm__ ("mls %0.2s,%2.2s,%3.2s"
6714            : "=w"(result)
6715            : "0"(a), "w"(b), "w"(c)
6716            : /* No clobbers */);
6717   return result;
6718 }
6719
6720 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
6721 vmls_u8 (uint8x8_t a, uint8x8_t b, uint8x8_t c)
6722 {
6723   uint8x8_t result;
6724   __asm__ ("mls %0.8b,%2.8b,%3.8b"
6725            : "=w"(result)
6726            : "0"(a), "w"(b), "w"(c)
6727            : /* No clobbers */);
6728   return result;
6729 }
6730
6731 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
6732 vmls_u16 (uint16x4_t a, uint16x4_t b, uint16x4_t c)
6733 {
6734   uint16x4_t result;
6735   __asm__ ("mls %0.4h,%2.4h,%3.4h"
6736            : "=w"(result)
6737            : "0"(a), "w"(b), "w"(c)
6738            : /* No clobbers */);
6739   return result;
6740 }
6741
6742 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
6743 vmls_u32 (uint32x2_t a, uint32x2_t b, uint32x2_t c)
6744 {
6745   uint32x2_t result;
6746   __asm__ ("mls %0.2s,%2.2s,%3.2s"
6747            : "=w"(result)
6748            : "0"(a), "w"(b), "w"(c)
6749            : /* No clobbers */);
6750   return result;
6751 }
6752
6753 #define vmlsl_high_lane_s16(a, b, c, d)                                 \
6754   __extension__                                                         \
6755     ({                                                                  \
6756        int16x4_t c_ = (c);                                              \
6757        int16x8_t b_ = (b);                                              \
6758        int32x4_t a_ = (a);                                              \
6759        int32x4_t result;                                                \
6760        __asm__ ("smlsl2 %0.4s, %2.8h, %3.h[%4]"                         \
6761                 : "=w"(result)                                          \
6762                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6763                 : /* No clobbers */);                                   \
6764        result;                                                          \
6765      })
6766
6767 #define vmlsl_high_lane_s32(a, b, c, d)                                 \
6768   __extension__                                                         \
6769     ({                                                                  \
6770        int32x2_t c_ = (c);                                              \
6771        int32x4_t b_ = (b);                                              \
6772        int64x2_t a_ = (a);                                              \
6773        int64x2_t result;                                                \
6774        __asm__ ("smlsl2 %0.2d, %2.4s, %3.s[%4]"                         \
6775                 : "=w"(result)                                          \
6776                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6777                 : /* No clobbers */);                                   \
6778        result;                                                          \
6779      })
6780
6781 #define vmlsl_high_lane_u16(a, b, c, d)                                 \
6782   __extension__                                                         \
6783     ({                                                                  \
6784        uint16x4_t c_ = (c);                                             \
6785        uint16x8_t b_ = (b);                                             \
6786        uint32x4_t a_ = (a);                                             \
6787        uint32x4_t result;                                               \
6788        __asm__ ("umlsl2 %0.4s, %2.8h, %3.h[%4]"                         \
6789                 : "=w"(result)                                          \
6790                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6791                 : /* No clobbers */);                                   \
6792        result;                                                          \
6793      })
6794
6795 #define vmlsl_high_lane_u32(a, b, c, d)                                 \
6796   __extension__                                                         \
6797     ({                                                                  \
6798        uint32x2_t c_ = (c);                                             \
6799        uint32x4_t b_ = (b);                                             \
6800        uint64x2_t a_ = (a);                                             \
6801        uint64x2_t result;                                               \
6802        __asm__ ("umlsl2 %0.2d, %2.4s, %3.s[%4]"                         \
6803                 : "=w"(result)                                          \
6804                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6805                 : /* No clobbers */);                                   \
6806        result;                                                          \
6807      })
6808
6809 #define vmlsl_high_laneq_s16(a, b, c, d)                                \
6810   __extension__                                                         \
6811     ({                                                                  \
6812        int16x8_t c_ = (c);                                              \
6813        int16x8_t b_ = (b);                                              \
6814        int32x4_t a_ = (a);                                              \
6815        int32x4_t result;                                                \
6816        __asm__ ("smlsl2 %0.4s, %2.8h, %3.h[%4]"                         \
6817                 : "=w"(result)                                          \
6818                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6819                 : /* No clobbers */);                                   \
6820        result;                                                          \
6821      })
6822
6823 #define vmlsl_high_laneq_s32(a, b, c, d)                                \
6824   __extension__                                                         \
6825     ({                                                                  \
6826        int32x4_t c_ = (c);                                              \
6827        int32x4_t b_ = (b);                                              \
6828        int64x2_t a_ = (a);                                              \
6829        int64x2_t result;                                                \
6830        __asm__ ("smlsl2 %0.2d, %2.4s, %3.s[%4]"                         \
6831                 : "=w"(result)                                          \
6832                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6833                 : /* No clobbers */);                                   \
6834        result;                                                          \
6835      })
6836
6837 #define vmlsl_high_laneq_u16(a, b, c, d)                                \
6838   __extension__                                                         \
6839     ({                                                                  \
6840        uint16x8_t c_ = (c);                                             \
6841        uint16x8_t b_ = (b);                                             \
6842        uint32x4_t a_ = (a);                                             \
6843        uint32x4_t result;                                               \
6844        __asm__ ("umlsl2 %0.4s, %2.8h, %3.h[%4]"                         \
6845                 : "=w"(result)                                          \
6846                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6847                 : /* No clobbers */);                                   \
6848        result;                                                          \
6849      })
6850
6851 #define vmlsl_high_laneq_u32(a, b, c, d)                                \
6852   __extension__                                                         \
6853     ({                                                                  \
6854        uint32x4_t c_ = (c);                                             \
6855        uint32x4_t b_ = (b);                                             \
6856        uint64x2_t a_ = (a);                                             \
6857        uint64x2_t result;                                               \
6858        __asm__ ("umlsl2 %0.2d, %2.4s, %3.s[%4]"                         \
6859                 : "=w"(result)                                          \
6860                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6861                 : /* No clobbers */);                                   \
6862        result;                                                          \
6863      })
6864
6865 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
6866 vmlsl_high_n_s16 (int32x4_t a, int16x8_t b, int16_t c)
6867 {
6868   int32x4_t result;
6869   __asm__ ("smlsl2 %0.4s, %2.8h, %3.h[0]"
6870            : "=w"(result)
6871            : "0"(a), "w"(b), "x"(c)
6872            : /* No clobbers */);
6873   return result;
6874 }
6875
6876 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
6877 vmlsl_high_n_s32 (int64x2_t a, int32x4_t b, int32_t c)
6878 {
6879   int64x2_t result;
6880   __asm__ ("smlsl2 %0.2d, %2.4s, %3.s[0]"
6881            : "=w"(result)
6882            : "0"(a), "w"(b), "w"(c)
6883            : /* No clobbers */);
6884   return result;
6885 }
6886
6887 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
6888 vmlsl_high_n_u16 (uint32x4_t a, uint16x8_t b, uint16_t c)
6889 {
6890   uint32x4_t result;
6891   __asm__ ("umlsl2 %0.4s, %2.8h, %3.h[0]"
6892            : "=w"(result)
6893            : "0"(a), "w"(b), "x"(c)
6894            : /* No clobbers */);
6895   return result;
6896 }
6897
6898 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
6899 vmlsl_high_n_u32 (uint64x2_t a, uint32x4_t b, uint32_t c)
6900 {
6901   uint64x2_t result;
6902   __asm__ ("umlsl2 %0.2d, %2.4s, %3.s[0]"
6903            : "=w"(result)
6904            : "0"(a), "w"(b), "w"(c)
6905            : /* No clobbers */);
6906   return result;
6907 }
6908
6909 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
6910 vmlsl_high_s8 (int16x8_t a, int8x16_t b, int8x16_t c)
6911 {
6912   int16x8_t result;
6913   __asm__ ("smlsl2 %0.8h,%2.16b,%3.16b"
6914            : "=w"(result)
6915            : "0"(a), "w"(b), "w"(c)
6916            : /* No clobbers */);
6917   return result;
6918 }
6919
6920 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
6921 vmlsl_high_s16 (int32x4_t a, int16x8_t b, int16x8_t c)
6922 {
6923   int32x4_t result;
6924   __asm__ ("smlsl2 %0.4s,%2.8h,%3.8h"
6925            : "=w"(result)
6926            : "0"(a), "w"(b), "w"(c)
6927            : /* No clobbers */);
6928   return result;
6929 }
6930
6931 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
6932 vmlsl_high_s32 (int64x2_t a, int32x4_t b, int32x4_t c)
6933 {
6934   int64x2_t result;
6935   __asm__ ("smlsl2 %0.2d,%2.4s,%3.4s"
6936            : "=w"(result)
6937            : "0"(a), "w"(b), "w"(c)
6938            : /* No clobbers */);
6939   return result;
6940 }
6941
6942 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
6943 vmlsl_high_u8 (uint16x8_t a, uint8x16_t b, uint8x16_t c)
6944 {
6945   uint16x8_t result;
6946   __asm__ ("umlsl2 %0.8h,%2.16b,%3.16b"
6947            : "=w"(result)
6948            : "0"(a), "w"(b), "w"(c)
6949            : /* No clobbers */);
6950   return result;
6951 }
6952
6953 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
6954 vmlsl_high_u16 (uint32x4_t a, uint16x8_t b, uint16x8_t c)
6955 {
6956   uint32x4_t result;
6957   __asm__ ("umlsl2 %0.4s,%2.8h,%3.8h"
6958            : "=w"(result)
6959            : "0"(a), "w"(b), "w"(c)
6960            : /* No clobbers */);
6961   return result;
6962 }
6963
6964 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
6965 vmlsl_high_u32 (uint64x2_t a, uint32x4_t b, uint32x4_t c)
6966 {
6967   uint64x2_t result;
6968   __asm__ ("umlsl2 %0.2d,%2.4s,%3.4s"
6969            : "=w"(result)
6970            : "0"(a), "w"(b), "w"(c)
6971            : /* No clobbers */);
6972   return result;
6973 }
6974
6975 #define vmlsl_lane_s16(a, b, c, d)                                      \
6976   __extension__                                                         \
6977     ({                                                                  \
6978        int16x4_t c_ = (c);                                              \
6979        int16x4_t b_ = (b);                                              \
6980        int32x4_t a_ = (a);                                              \
6981        int32x4_t result;                                                \
6982        __asm__ ("smlsl %0.4s, %2.4h, %3.h[%4]"                          \
6983                 : "=w"(result)                                          \
6984                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6985                 : /* No clobbers */);                                   \
6986        result;                                                          \
6987      })
6988
6989 #define vmlsl_lane_s32(a, b, c, d)                                      \
6990   __extension__                                                         \
6991     ({                                                                  \
6992        int32x2_t c_ = (c);                                              \
6993        int32x2_t b_ = (b);                                              \
6994        int64x2_t a_ = (a);                                              \
6995        int64x2_t result;                                                \
6996        __asm__ ("smlsl %0.2d, %2.2s, %3.s[%4]"                          \
6997                 : "=w"(result)                                          \
6998                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6999                 : /* No clobbers */);                                   \
7000        result;                                                          \
7001      })
7002
7003 #define vmlsl_lane_u16(a, b, c, d)                                      \
7004   __extension__                                                         \
7005     ({                                                                  \
7006        uint16x4_t c_ = (c);                                             \
7007        uint16x4_t b_ = (b);                                             \
7008        uint32x4_t a_ = (a);                                             \
7009        uint32x4_t result;                                               \
7010        __asm__ ("umlsl %0.4s, %2.4h, %3.h[%4]"                          \
7011                 : "=w"(result)                                          \
7012                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
7013                 : /* No clobbers */);                                   \
7014        result;                                                          \
7015      })
7016
7017 #define vmlsl_lane_u32(a, b, c, d)                                      \
7018   __extension__                                                         \
7019     ({                                                                  \
7020        uint32x2_t c_ = (c);                                             \
7021        uint32x2_t b_ = (b);                                             \
7022        uint64x2_t a_ = (a);                                             \
7023        uint64x2_t result;                                               \
7024        __asm__ ("umlsl %0.2d, %2.2s, %3.s[%4]"                          \
7025                 : "=w"(result)                                          \
7026                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7027                 : /* No clobbers */);                                   \
7028        result;                                                          \
7029      })
7030
7031 #define vmlsl_laneq_s16(a, b, c, d)                                     \
7032   __extension__                                                         \
7033     ({                                                                  \
7034        int16x8_t c_ = (c);                                              \
7035        int16x4_t b_ = (b);                                              \
7036        int32x4_t a_ = (a);                                              \
7037        int32x4_t result;                                                \
7038        __asm__ ("smlsl %0.4s, %2.4h, %3.h[%4]"                          \
7039                 : "=w"(result)                                          \
7040                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
7041                 : /* No clobbers */);                                   \
7042        result;                                                          \
7043      })
7044
7045 #define vmlsl_laneq_s32(a, b, c, d)                                     \
7046   __extension__                                                         \
7047     ({                                                                  \
7048        int32x4_t c_ = (c);                                              \
7049        int32x2_t b_ = (b);                                              \
7050        int64x2_t a_ = (a);                                              \
7051        int64x2_t result;                                                \
7052        __asm__ ("smlsl %0.2d, %2.2s, %3.s[%4]"                          \
7053                 : "=w"(result)                                          \
7054                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7055                 : /* No clobbers */);                                   \
7056        result;                                                          \
7057      })
7058
7059 #define vmlsl_laneq_u16(a, b, c, d)                                     \
7060   __extension__                                                         \
7061     ({                                                                  \
7062        uint16x8_t c_ = (c);                                             \
7063        uint16x4_t b_ = (b);                                             \
7064        uint32x4_t a_ = (a);                                             \
7065        uint32x4_t result;                                               \
7066        __asm__ ("umlsl %0.4s, %2.4h, %3.h[%4]"                          \
7067                 : "=w"(result)                                          \
7068                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
7069                 : /* No clobbers */);                                   \
7070        result;                                                          \
7071      })
7072
7073 #define vmlsl_laneq_u32(a, b, c, d)                                     \
7074   __extension__                                                         \
7075     ({                                                                  \
7076        uint32x4_t c_ = (c);                                             \
7077        uint32x2_t b_ = (b);                                             \
7078        uint64x2_t a_ = (a);                                             \
7079        uint64x2_t result;                                               \
7080        __asm__ ("umlsl %0.2d, %2.2s, %3.s[%4]"                          \
7081                 : "=w"(result)                                          \
7082                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7083                 : /* No clobbers */);                                   \
7084        result;                                                          \
7085      })
7086
7087 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7088 vmlsl_n_s16 (int32x4_t a, int16x4_t b, int16_t c)
7089 {
7090   int32x4_t result;
7091   __asm__ ("smlsl %0.4s, %2.4h, %3.h[0]"
7092            : "=w"(result)
7093            : "0"(a), "w"(b), "x"(c)
7094            : /* No clobbers */);
7095   return result;
7096 }
7097
7098 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
7099 vmlsl_n_s32 (int64x2_t a, int32x2_t b, int32_t c)
7100 {
7101   int64x2_t result;
7102   __asm__ ("smlsl %0.2d, %2.2s, %3.s[0]"
7103            : "=w"(result)
7104            : "0"(a), "w"(b), "w"(c)
7105            : /* No clobbers */);
7106   return result;
7107 }
7108
7109 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7110 vmlsl_n_u16 (uint32x4_t a, uint16x4_t b, uint16_t c)
7111 {
7112   uint32x4_t result;
7113   __asm__ ("umlsl %0.4s, %2.4h, %3.h[0]"
7114            : "=w"(result)
7115            : "0"(a), "w"(b), "x"(c)
7116            : /* No clobbers */);
7117   return result;
7118 }
7119
7120 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
7121 vmlsl_n_u32 (uint64x2_t a, uint32x2_t b, uint32_t c)
7122 {
7123   uint64x2_t result;
7124   __asm__ ("umlsl %0.2d, %2.2s, %3.s[0]"
7125            : "=w"(result)
7126            : "0"(a), "w"(b), "w"(c)
7127            : /* No clobbers */);
7128   return result;
7129 }
7130
7131 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
7132 vmlsl_s8 (int16x8_t a, int8x8_t b, int8x8_t c)
7133 {
7134   int16x8_t result;
7135   __asm__ ("smlsl %0.8h, %2.8b, %3.8b"
7136            : "=w"(result)
7137            : "0"(a), "w"(b), "w"(c)
7138            : /* No clobbers */);
7139   return result;
7140 }
7141
7142 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7143 vmlsl_s16 (int32x4_t a, int16x4_t b, int16x4_t c)
7144 {
7145   int32x4_t result;
7146   __asm__ ("smlsl %0.4s, %2.4h, %3.4h"
7147            : "=w"(result)
7148            : "0"(a), "w"(b), "w"(c)
7149            : /* No clobbers */);
7150   return result;
7151 }
7152
7153 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
7154 vmlsl_s32 (int64x2_t a, int32x2_t b, int32x2_t c)
7155 {
7156   int64x2_t result;
7157   __asm__ ("smlsl %0.2d, %2.2s, %3.2s"
7158            : "=w"(result)
7159            : "0"(a), "w"(b), "w"(c)
7160            : /* No clobbers */);
7161   return result;
7162 }
7163
7164 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
7165 vmlsl_u8 (uint16x8_t a, uint8x8_t b, uint8x8_t c)
7166 {
7167   uint16x8_t result;
7168   __asm__ ("umlsl %0.8h, %2.8b, %3.8b"
7169            : "=w"(result)
7170            : "0"(a), "w"(b), "w"(c)
7171            : /* No clobbers */);
7172   return result;
7173 }
7174
7175 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7176 vmlsl_u16 (uint32x4_t a, uint16x4_t b, uint16x4_t c)
7177 {
7178   uint32x4_t result;
7179   __asm__ ("umlsl %0.4s, %2.4h, %3.4h"
7180            : "=w"(result)
7181            : "0"(a), "w"(b), "w"(c)
7182            : /* No clobbers */);
7183   return result;
7184 }
7185
7186 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
7187 vmlsl_u32 (uint64x2_t a, uint32x2_t b, uint32x2_t c)
7188 {
7189   uint64x2_t result;
7190   __asm__ ("umlsl %0.2d, %2.2s, %3.2s"
7191            : "=w"(result)
7192            : "0"(a), "w"(b), "w"(c)
7193            : /* No clobbers */);
7194   return result;
7195 }
7196
7197 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
7198 vmlsq_n_f32 (float32x4_t a, float32x4_t b, float32_t c)
7199 {
7200   float32x4_t result;
7201   float32x4_t t1;
7202   __asm__ ("fmul %1.4s, %3.4s, %4.s[0]; fsub %0.4s, %0.4s, %1.4s"
7203            : "=w"(result), "=w"(t1)
7204            : "0"(a), "w"(b), "w"(c)
7205            : /* No clobbers */);
7206   return result;
7207 }
7208
7209 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
7210 vmlsq_n_s16 (int16x8_t a, int16x8_t b, int16_t c)
7211 {
7212   int16x8_t result;
7213   __asm__ ("mls %0.8h, %2.8h, %3.h[0]"
7214            : "=w"(result)
7215            : "0"(a), "w"(b), "x"(c)
7216            : /* No clobbers */);
7217   return result;
7218 }
7219
7220 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7221 vmlsq_n_s32 (int32x4_t a, int32x4_t b, int32_t c)
7222 {
7223   int32x4_t result;
7224   __asm__ ("mls %0.4s, %2.4s, %3.s[0]"
7225            : "=w"(result)
7226            : "0"(a), "w"(b), "w"(c)
7227            : /* No clobbers */);
7228   return result;
7229 }
7230
7231 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
7232 vmlsq_n_u16 (uint16x8_t a, uint16x8_t b, uint16_t c)
7233 {
7234   uint16x8_t result;
7235   __asm__ ("mls %0.8h, %2.8h, %3.h[0]"
7236            : "=w"(result)
7237            : "0"(a), "w"(b), "x"(c)
7238            : /* No clobbers */);
7239   return result;
7240 }
7241
7242 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7243 vmlsq_n_u32 (uint32x4_t a, uint32x4_t b, uint32_t c)
7244 {
7245   uint32x4_t result;
7246   __asm__ ("mls %0.4s, %2.4s, %3.s[0]"
7247            : "=w"(result)
7248            : "0"(a), "w"(b), "w"(c)
7249            : /* No clobbers */);
7250   return result;
7251 }
7252
7253 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
7254 vmlsq_s8 (int8x16_t a, int8x16_t b, int8x16_t c)
7255 {
7256   int8x16_t result;
7257   __asm__ ("mls %0.16b,%2.16b,%3.16b"
7258            : "=w"(result)
7259            : "0"(a), "w"(b), "w"(c)
7260            : /* No clobbers */);
7261   return result;
7262 }
7263
7264 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
7265 vmlsq_s16 (int16x8_t a, int16x8_t b, int16x8_t c)
7266 {
7267   int16x8_t result;
7268   __asm__ ("mls %0.8h,%2.8h,%3.8h"
7269            : "=w"(result)
7270            : "0"(a), "w"(b), "w"(c)
7271            : /* No clobbers */);
7272   return result;
7273 }
7274
7275 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7276 vmlsq_s32 (int32x4_t a, int32x4_t b, int32x4_t c)
7277 {
7278   int32x4_t result;
7279   __asm__ ("mls %0.4s,%2.4s,%3.4s"
7280            : "=w"(result)
7281            : "0"(a), "w"(b), "w"(c)
7282            : /* No clobbers */);
7283   return result;
7284 }
7285
7286 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
7287 vmlsq_u8 (uint8x16_t a, uint8x16_t b, uint8x16_t c)
7288 {
7289   uint8x16_t result;
7290   __asm__ ("mls %0.16b,%2.16b,%3.16b"
7291            : "=w"(result)
7292            : "0"(a), "w"(b), "w"(c)
7293            : /* No clobbers */);
7294   return result;
7295 }
7296
7297 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
7298 vmlsq_u16 (uint16x8_t a, uint16x8_t b, uint16x8_t c)
7299 {
7300   uint16x8_t result;
7301   __asm__ ("mls %0.8h,%2.8h,%3.8h"
7302            : "=w"(result)
7303            : "0"(a), "w"(b), "w"(c)
7304            : /* No clobbers */);
7305   return result;
7306 }
7307
7308 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7309 vmlsq_u32 (uint32x4_t a, uint32x4_t b, uint32x4_t c)
7310 {
7311   uint32x4_t result;
7312   __asm__ ("mls %0.4s,%2.4s,%3.4s"
7313            : "=w"(result)
7314            : "0"(a), "w"(b), "w"(c)
7315            : /* No clobbers */);
7316   return result;
7317 }
7318
7319 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
7320 vmovl_high_s8 (int8x16_t a)
7321 {
7322   int16x8_t result;
7323   __asm__ ("sshll2 %0.8h,%1.16b,#0"
7324            : "=w"(result)
7325            : "w"(a)
7326            : /* No clobbers */);
7327   return result;
7328 }
7329
7330 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7331 vmovl_high_s16 (int16x8_t a)
7332 {
7333   int32x4_t result;
7334   __asm__ ("sshll2 %0.4s,%1.8h,#0"
7335            : "=w"(result)
7336            : "w"(a)
7337            : /* No clobbers */);
7338   return result;
7339 }
7340
7341 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
7342 vmovl_high_s32 (int32x4_t a)
7343 {
7344   int64x2_t result;
7345   __asm__ ("sshll2 %0.2d,%1.4s,#0"
7346            : "=w"(result)
7347            : "w"(a)
7348            : /* No clobbers */);
7349   return result;
7350 }
7351
7352 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
7353 vmovl_high_u8 (uint8x16_t a)
7354 {
7355   uint16x8_t result;
7356   __asm__ ("ushll2 %0.8h,%1.16b,#0"
7357            : "=w"(result)
7358            : "w"(a)
7359            : /* No clobbers */);
7360   return result;
7361 }
7362
7363 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7364 vmovl_high_u16 (uint16x8_t a)
7365 {
7366   uint32x4_t result;
7367   __asm__ ("ushll2 %0.4s,%1.8h,#0"
7368            : "=w"(result)
7369            : "w"(a)
7370            : /* No clobbers */);
7371   return result;
7372 }
7373
7374 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
7375 vmovl_high_u32 (uint32x4_t a)
7376 {
7377   uint64x2_t result;
7378   __asm__ ("ushll2 %0.2d,%1.4s,#0"
7379            : "=w"(result)
7380            : "w"(a)
7381            : /* No clobbers */);
7382   return result;
7383 }
7384
7385 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
7386 vmovl_s8 (int8x8_t a)
7387 {
7388   int16x8_t result;
7389   __asm__ ("sshll %0.8h,%1.8b,#0"
7390            : "=w"(result)
7391            : "w"(a)
7392            : /* No clobbers */);
7393   return result;
7394 }
7395
7396 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7397 vmovl_s16 (int16x4_t a)
7398 {
7399   int32x4_t result;
7400   __asm__ ("sshll %0.4s,%1.4h,#0"
7401            : "=w"(result)
7402            : "w"(a)
7403            : /* No clobbers */);
7404   return result;
7405 }
7406
7407 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
7408 vmovl_s32 (int32x2_t a)
7409 {
7410   int64x2_t result;
7411   __asm__ ("sshll %0.2d,%1.2s,#0"
7412            : "=w"(result)
7413            : "w"(a)
7414            : /* No clobbers */);
7415   return result;
7416 }
7417
7418 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
7419 vmovl_u8 (uint8x8_t a)
7420 {
7421   uint16x8_t result;
7422   __asm__ ("ushll %0.8h,%1.8b,#0"
7423            : "=w"(result)
7424            : "w"(a)
7425            : /* No clobbers */);
7426   return result;
7427 }
7428
7429 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7430 vmovl_u16 (uint16x4_t a)
7431 {
7432   uint32x4_t result;
7433   __asm__ ("ushll %0.4s,%1.4h,#0"
7434            : "=w"(result)
7435            : "w"(a)
7436            : /* No clobbers */);
7437   return result;
7438 }
7439
7440 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
7441 vmovl_u32 (uint32x2_t a)
7442 {
7443   uint64x2_t result;
7444   __asm__ ("ushll %0.2d,%1.2s,#0"
7445            : "=w"(result)
7446            : "w"(a)
7447            : /* No clobbers */);
7448   return result;
7449 }
7450
7451 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
7452 vmovn_high_s16 (int8x8_t a, int16x8_t b)
7453 {
7454   int8x16_t result = vcombine_s8 (a, vcreate_s8 (__AARCH64_UINT64_C (0x0)));
7455   __asm__ ("xtn2 %0.16b,%1.8h"
7456            : "+w"(result)
7457            : "w"(b)
7458            : /* No clobbers */);
7459   return result;
7460 }
7461
7462 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
7463 vmovn_high_s32 (int16x4_t a, int32x4_t b)
7464 {
7465   int16x8_t result = vcombine_s16 (a, vcreate_s16 (__AARCH64_UINT64_C (0x0)));
7466   __asm__ ("xtn2 %0.8h,%1.4s"
7467            : "+w"(result)
7468            : "w"(b)
7469            : /* No clobbers */);
7470   return result;
7471 }
7472
7473 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7474 vmovn_high_s64 (int32x2_t a, int64x2_t b)
7475 {
7476   int32x4_t result = vcombine_s32 (a, vcreate_s32 (__AARCH64_UINT64_C (0x0)));
7477   __asm__ ("xtn2 %0.4s,%1.2d"
7478            : "+w"(result)
7479            : "w"(b)
7480            : /* No clobbers */);
7481   return result;
7482 }
7483
7484 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
7485 vmovn_high_u16 (uint8x8_t a, uint16x8_t b)
7486 {
7487   uint8x16_t result = vcombine_u8 (a, vcreate_u8 (__AARCH64_UINT64_C (0x0)));
7488   __asm__ ("xtn2 %0.16b,%1.8h"
7489            : "+w"(result)
7490            : "w"(b)
7491            : /* No clobbers */);
7492   return result;
7493 }
7494
7495 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
7496 vmovn_high_u32 (uint16x4_t a, uint32x4_t b)
7497 {
7498   uint16x8_t result = vcombine_u16 (a, vcreate_u16 (__AARCH64_UINT64_C (0x0)));
7499   __asm__ ("xtn2 %0.8h,%1.4s"
7500            : "+w"(result)
7501            : "w"(b)
7502            : /* No clobbers */);
7503   return result;
7504 }
7505
7506 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7507 vmovn_high_u64 (uint32x2_t a, uint64x2_t b)
7508 {
7509   uint32x4_t result = vcombine_u32 (a, vcreate_u32 (__AARCH64_UINT64_C (0x0)));
7510   __asm__ ("xtn2 %0.4s,%1.2d"
7511            : "+w"(result)
7512            : "w"(b)
7513            : /* No clobbers */);
7514   return result;
7515 }
7516
7517 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
7518 vmovn_s16 (int16x8_t a)
7519 {
7520   int8x8_t result;
7521   __asm__ ("xtn %0.8b,%1.8h"
7522            : "=w"(result)
7523            : "w"(a)
7524            : /* No clobbers */);
7525   return result;
7526 }
7527
7528 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
7529 vmovn_s32 (int32x4_t a)
7530 {
7531   int16x4_t result;
7532   __asm__ ("xtn %0.4h,%1.4s"
7533            : "=w"(result)
7534            : "w"(a)
7535            : /* No clobbers */);
7536   return result;
7537 }
7538
7539 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
7540 vmovn_s64 (int64x2_t a)
7541 {
7542   int32x2_t result;
7543   __asm__ ("xtn %0.2s,%1.2d"
7544            : "=w"(result)
7545            : "w"(a)
7546            : /* No clobbers */);
7547   return result;
7548 }
7549
7550 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
7551 vmovn_u16 (uint16x8_t a)
7552 {
7553   uint8x8_t result;
7554   __asm__ ("xtn %0.8b,%1.8h"
7555            : "=w"(result)
7556            : "w"(a)
7557            : /* No clobbers */);
7558   return result;
7559 }
7560
7561 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
7562 vmovn_u32 (uint32x4_t a)
7563 {
7564   uint16x4_t result;
7565   __asm__ ("xtn %0.4h,%1.4s"
7566            : "=w"(result)
7567            : "w"(a)
7568            : /* No clobbers */);
7569   return result;
7570 }
7571
7572 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
7573 vmovn_u64 (uint64x2_t a)
7574 {
7575   uint32x2_t result;
7576   __asm__ ("xtn %0.2s,%1.2d"
7577            : "=w"(result)
7578            : "w"(a)
7579            : /* No clobbers */);
7580   return result;
7581 }
7582
7583 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
7584 vmul_n_f32 (float32x2_t a, float32_t b)
7585 {
7586   float32x2_t result;
7587   __asm__ ("fmul %0.2s,%1.2s,%2.s[0]"
7588            : "=w"(result)
7589            : "w"(a), "w"(b)
7590            : /* No clobbers */);
7591   return result;
7592 }
7593
7594 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
7595 vmul_n_s16 (int16x4_t a, int16_t b)
7596 {
7597   int16x4_t result;
7598   __asm__ ("mul %0.4h,%1.4h,%2.h[0]"
7599            : "=w"(result)
7600            : "w"(a), "x"(b)
7601            : /* No clobbers */);
7602   return result;
7603 }
7604
7605 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
7606 vmul_n_s32 (int32x2_t a, int32_t b)
7607 {
7608   int32x2_t result;
7609   __asm__ ("mul %0.2s,%1.2s,%2.s[0]"
7610            : "=w"(result)
7611            : "w"(a), "w"(b)
7612            : /* No clobbers */);
7613   return result;
7614 }
7615
7616 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
7617 vmul_n_u16 (uint16x4_t a, uint16_t b)
7618 {
7619   uint16x4_t result;
7620   __asm__ ("mul %0.4h,%1.4h,%2.h[0]"
7621            : "=w"(result)
7622            : "w"(a), "x"(b)
7623            : /* No clobbers */);
7624   return result;
7625 }
7626
7627 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
7628 vmul_n_u32 (uint32x2_t a, uint32_t b)
7629 {
7630   uint32x2_t result;
7631   __asm__ ("mul %0.2s,%1.2s,%2.s[0]"
7632            : "=w"(result)
7633            : "w"(a), "w"(b)
7634            : /* No clobbers */);
7635   return result;
7636 }
7637
7638 #define vmull_high_lane_s16(a, b, c)                                    \
7639   __extension__                                                         \
7640     ({                                                                  \
7641        int16x4_t b_ = (b);                                              \
7642        int16x8_t a_ = (a);                                              \
7643        int32x4_t result;                                                \
7644        __asm__ ("smull2 %0.4s, %1.8h, %2.h[%3]"                         \
7645                 : "=w"(result)                                          \
7646                 : "w"(a_), "x"(b_), "i"(c)                              \
7647                 : /* No clobbers */);                                   \
7648        result;                                                          \
7649      })
7650
7651 #define vmull_high_lane_s32(a, b, c)                                    \
7652   __extension__                                                         \
7653     ({                                                                  \
7654        int32x2_t b_ = (b);                                              \
7655        int32x4_t a_ = (a);                                              \
7656        int64x2_t result;                                                \
7657        __asm__ ("smull2 %0.2d, %1.4s, %2.s[%3]"                         \
7658                 : "=w"(result)                                          \
7659                 : "w"(a_), "w"(b_), "i"(c)                              \
7660                 : /* No clobbers */);                                   \
7661        result;                                                          \
7662      })
7663
7664 #define vmull_high_lane_u16(a, b, c)                                    \
7665   __extension__                                                         \
7666     ({                                                                  \
7667        uint16x4_t b_ = (b);                                             \
7668        uint16x8_t a_ = (a);                                             \
7669        uint32x4_t result;                                               \
7670        __asm__ ("umull2 %0.4s, %1.8h, %2.h[%3]"                         \
7671                 : "=w"(result)                                          \
7672                 : "w"(a_), "x"(b_), "i"(c)                              \
7673                 : /* No clobbers */);                                   \
7674        result;                                                          \
7675      })
7676
7677 #define vmull_high_lane_u32(a, b, c)                                    \
7678   __extension__                                                         \
7679     ({                                                                  \
7680        uint32x2_t b_ = (b);                                             \
7681        uint32x4_t a_ = (a);                                             \
7682        uint64x2_t result;                                               \
7683        __asm__ ("umull2 %0.2d, %1.4s, %2.s[%3]"                         \
7684                 : "=w"(result)                                          \
7685                 : "w"(a_), "w"(b_), "i"(c)                              \
7686                 : /* No clobbers */);                                   \
7687        result;                                                          \
7688      })
7689
7690 #define vmull_high_laneq_s16(a, b, c)                                   \
7691   __extension__                                                         \
7692     ({                                                                  \
7693        int16x8_t b_ = (b);                                              \
7694        int16x8_t a_ = (a);                                              \
7695        int32x4_t result;                                                \
7696        __asm__ ("smull2 %0.4s, %1.8h, %2.h[%3]"                         \
7697                 : "=w"(result)                                          \
7698                 : "w"(a_), "x"(b_), "i"(c)                              \
7699                 : /* No clobbers */);                                   \
7700        result;                                                          \
7701      })
7702
7703 #define vmull_high_laneq_s32(a, b, c)                                   \
7704   __extension__                                                         \
7705     ({                                                                  \
7706        int32x4_t b_ = (b);                                              \
7707        int32x4_t a_ = (a);                                              \
7708        int64x2_t result;                                                \
7709        __asm__ ("smull2 %0.2d, %1.4s, %2.s[%3]"                         \
7710                 : "=w"(result)                                          \
7711                 : "w"(a_), "w"(b_), "i"(c)                              \
7712                 : /* No clobbers */);                                   \
7713        result;                                                          \
7714      })
7715
7716 #define vmull_high_laneq_u16(a, b, c)                                   \
7717   __extension__                                                         \
7718     ({                                                                  \
7719        uint16x8_t b_ = (b);                                             \
7720        uint16x8_t a_ = (a);                                             \
7721        uint32x4_t result;                                               \
7722        __asm__ ("umull2 %0.4s, %1.8h, %2.h[%3]"                         \
7723                 : "=w"(result)                                          \
7724                 : "w"(a_), "x"(b_), "i"(c)                              \
7725                 : /* No clobbers */);                                   \
7726        result;                                                          \
7727      })
7728
7729 #define vmull_high_laneq_u32(a, b, c)                                   \
7730   __extension__                                                         \
7731     ({                                                                  \
7732        uint32x4_t b_ = (b);                                             \
7733        uint32x4_t a_ = (a);                                             \
7734        uint64x2_t result;                                               \
7735        __asm__ ("umull2 %0.2d, %1.4s, %2.s[%3]"                         \
7736                 : "=w"(result)                                          \
7737                 : "w"(a_), "w"(b_), "i"(c)                              \
7738                 : /* No clobbers */);                                   \
7739        result;                                                          \
7740      })
7741
7742 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7743 vmull_high_n_s16 (int16x8_t a, int16_t b)
7744 {
7745   int32x4_t result;
7746   __asm__ ("smull2 %0.4s,%1.8h,%2.h[0]"
7747            : "=w"(result)
7748            : "w"(a), "x"(b)
7749            : /* No clobbers */);
7750   return result;
7751 }
7752
7753 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
7754 vmull_high_n_s32 (int32x4_t a, int32_t b)
7755 {
7756   int64x2_t result;
7757   __asm__ ("smull2 %0.2d,%1.4s,%2.s[0]"
7758            : "=w"(result)
7759            : "w"(a), "w"(b)
7760            : /* No clobbers */);
7761   return result;
7762 }
7763
7764 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7765 vmull_high_n_u16 (uint16x8_t a, uint16_t b)
7766 {
7767   uint32x4_t result;
7768   __asm__ ("umull2 %0.4s,%1.8h,%2.h[0]"
7769            : "=w"(result)
7770            : "w"(a), "x"(b)
7771            : /* No clobbers */);
7772   return result;
7773 }
7774
7775 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
7776 vmull_high_n_u32 (uint32x4_t a, uint32_t b)
7777 {
7778   uint64x2_t result;
7779   __asm__ ("umull2 %0.2d,%1.4s,%2.s[0]"
7780            : "=w"(result)
7781            : "w"(a), "w"(b)
7782            : /* No clobbers */);
7783   return result;
7784 }
7785
7786 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
7787 vmull_high_p8 (poly8x16_t a, poly8x16_t b)
7788 {
7789   poly16x8_t result;
7790   __asm__ ("pmull2 %0.8h,%1.16b,%2.16b"
7791            : "=w"(result)
7792            : "w"(a), "w"(b)
7793            : /* No clobbers */);
7794   return result;
7795 }
7796
7797 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
7798 vmull_high_s8 (int8x16_t a, int8x16_t b)
7799 {
7800   int16x8_t result;
7801   __asm__ ("smull2 %0.8h,%1.16b,%2.16b"
7802            : "=w"(result)
7803            : "w"(a), "w"(b)
7804            : /* No clobbers */);
7805   return result;
7806 }
7807
7808 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7809 vmull_high_s16 (int16x8_t a, int16x8_t b)
7810 {
7811   int32x4_t result;
7812   __asm__ ("smull2 %0.4s,%1.8h,%2.8h"
7813            : "=w"(result)
7814            : "w"(a), "w"(b)
7815            : /* No clobbers */);
7816   return result;
7817 }
7818
7819 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
7820 vmull_high_s32 (int32x4_t a, int32x4_t b)
7821 {
7822   int64x2_t result;
7823   __asm__ ("smull2 %0.2d,%1.4s,%2.4s"
7824            : "=w"(result)
7825            : "w"(a), "w"(b)
7826            : /* No clobbers */);
7827   return result;
7828 }
7829
7830 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
7831 vmull_high_u8 (uint8x16_t a, uint8x16_t b)
7832 {
7833   uint16x8_t result;
7834   __asm__ ("umull2 %0.8h,%1.16b,%2.16b"
7835            : "=w"(result)
7836            : "w"(a), "w"(b)
7837            : /* No clobbers */);
7838   return result;
7839 }
7840
7841 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7842 vmull_high_u16 (uint16x8_t a, uint16x8_t b)
7843 {
7844   uint32x4_t result;
7845   __asm__ ("umull2 %0.4s,%1.8h,%2.8h"
7846            : "=w"(result)
7847            : "w"(a), "w"(b)
7848            : /* No clobbers */);
7849   return result;
7850 }
7851
7852 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
7853 vmull_high_u32 (uint32x4_t a, uint32x4_t b)
7854 {
7855   uint64x2_t result;
7856   __asm__ ("umull2 %0.2d,%1.4s,%2.4s"
7857            : "=w"(result)
7858            : "w"(a), "w"(b)
7859            : /* No clobbers */);
7860   return result;
7861 }
7862
7863 #define vmull_lane_s16(a, b, c)                                         \
7864   __extension__                                                         \
7865     ({                                                                  \
7866        int16x4_t b_ = (b);                                              \
7867        int16x4_t a_ = (a);                                              \
7868        int32x4_t result;                                                \
7869        __asm__ ("smull %0.4s,%1.4h,%2.h[%3]"                            \
7870                 : "=w"(result)                                          \
7871                 : "w"(a_), "x"(b_), "i"(c)                              \
7872                 : /* No clobbers */);                                   \
7873        result;                                                          \
7874      })
7875
7876 #define vmull_lane_s32(a, b, c)                                         \
7877   __extension__                                                         \
7878     ({                                                                  \
7879        int32x2_t b_ = (b);                                              \
7880        int32x2_t a_ = (a);                                              \
7881        int64x2_t result;                                                \
7882        __asm__ ("smull %0.2d,%1.2s,%2.s[%3]"                            \
7883                 : "=w"(result)                                          \
7884                 : "w"(a_), "w"(b_), "i"(c)                              \
7885                 : /* No clobbers */);                                   \
7886        result;                                                          \
7887      })
7888
7889 #define vmull_lane_u16(a, b, c)                                         \
7890   __extension__                                                         \
7891     ({                                                                  \
7892        uint16x4_t b_ = (b);                                             \
7893        uint16x4_t a_ = (a);                                             \
7894        uint32x4_t result;                                               \
7895        __asm__ ("umull %0.4s,%1.4h,%2.h[%3]"                            \
7896                 : "=w"(result)                                          \
7897                 : "w"(a_), "x"(b_), "i"(c)                              \
7898                 : /* No clobbers */);                                   \
7899        result;                                                          \
7900      })
7901
7902 #define vmull_lane_u32(a, b, c)                                         \
7903   __extension__                                                         \
7904     ({                                                                  \
7905        uint32x2_t b_ = (b);                                             \
7906        uint32x2_t a_ = (a);                                             \
7907        uint64x2_t result;                                               \
7908        __asm__ ("umull %0.2d, %1.2s, %2.s[%3]"                          \
7909                 : "=w"(result)                                          \
7910                 : "w"(a_), "w"(b_), "i"(c)                              \
7911                 : /* No clobbers */);                                   \
7912        result;                                                          \
7913      })
7914
7915 #define vmull_laneq_s16(a, b, c)                                        \
7916   __extension__                                                         \
7917     ({                                                                  \
7918        int16x8_t b_ = (b);                                              \
7919        int16x4_t a_ = (a);                                              \
7920        int32x4_t result;                                                \
7921        __asm__ ("smull %0.4s, %1.4h, %2.h[%3]"                          \
7922                 : "=w"(result)                                          \
7923                 : "w"(a_), "x"(b_), "i"(c)                              \
7924                 : /* No clobbers */);                                   \
7925        result;                                                          \
7926      })
7927
7928 #define vmull_laneq_s32(a, b, c)                                        \
7929   __extension__                                                         \
7930     ({                                                                  \
7931        int32x4_t b_ = (b);                                              \
7932        int32x2_t a_ = (a);                                              \
7933        int64x2_t result;                                                \
7934        __asm__ ("smull %0.2d, %1.2s, %2.s[%3]"                          \
7935                 : "=w"(result)                                          \
7936                 : "w"(a_), "w"(b_), "i"(c)                              \
7937                 : /* No clobbers */);                                   \
7938        result;                                                          \
7939      })
7940
7941 #define vmull_laneq_u16(a, b, c)                                        \
7942   __extension__                                                         \
7943     ({                                                                  \
7944        uint16x8_t b_ = (b);                                             \
7945        uint16x4_t a_ = (a);                                             \
7946        uint32x4_t result;                                               \
7947        __asm__ ("umull %0.4s, %1.4h, %2.h[%3]"                          \
7948                 : "=w"(result)                                          \
7949                 : "w"(a_), "x"(b_), "i"(c)                              \
7950                 : /* No clobbers */);                                   \
7951        result;                                                          \
7952      })
7953
7954 #define vmull_laneq_u32(a, b, c)                                        \
7955   __extension__                                                         \
7956     ({                                                                  \
7957        uint32x4_t b_ = (b);                                             \
7958        uint32x2_t a_ = (a);                                             \
7959        uint64x2_t result;                                               \
7960        __asm__ ("umull %0.2d, %1.2s, %2.s[%3]"                          \
7961                 : "=w"(result)                                          \
7962                 : "w"(a_), "w"(b_), "i"(c)                              \
7963                 : /* No clobbers */);                                   \
7964        result;                                                          \
7965      })
7966
7967 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7968 vmull_n_s16 (int16x4_t a, int16_t b)
7969 {
7970   int32x4_t result;
7971   __asm__ ("smull %0.4s,%1.4h,%2.h[0]"
7972            : "=w"(result)
7973            : "w"(a), "x"(b)
7974            : /* No clobbers */);
7975   return result;
7976 }
7977
7978 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
7979 vmull_n_s32 (int32x2_t a, int32_t b)
7980 {
7981   int64x2_t result;
7982   __asm__ ("smull %0.2d,%1.2s,%2.s[0]"
7983            : "=w"(result)
7984            : "w"(a), "w"(b)
7985            : /* No clobbers */);
7986   return result;
7987 }
7988
7989 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7990 vmull_n_u16 (uint16x4_t a, uint16_t b)
7991 {
7992   uint32x4_t result;
7993   __asm__ ("umull %0.4s,%1.4h,%2.h[0]"
7994            : "=w"(result)
7995            : "w"(a), "x"(b)
7996            : /* No clobbers */);
7997   return result;
7998 }
7999
8000 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
8001 vmull_n_u32 (uint32x2_t a, uint32_t b)
8002 {
8003   uint64x2_t result;
8004   __asm__ ("umull %0.2d,%1.2s,%2.s[0]"
8005            : "=w"(result)
8006            : "w"(a), "w"(b)
8007            : /* No clobbers */);
8008   return result;
8009 }
8010
8011 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
8012 vmull_p8 (poly8x8_t a, poly8x8_t b)
8013 {
8014   poly16x8_t result;
8015   __asm__ ("pmull %0.8h, %1.8b, %2.8b"
8016            : "=w"(result)
8017            : "w"(a), "w"(b)
8018            : /* No clobbers */);
8019   return result;
8020 }
8021
8022 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
8023 vmull_s8 (int8x8_t a, int8x8_t b)
8024 {
8025   int16x8_t result;
8026   __asm__ ("smull %0.8h, %1.8b, %2.8b"
8027            : "=w"(result)
8028            : "w"(a), "w"(b)
8029            : /* No clobbers */);
8030   return result;
8031 }
8032
8033 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
8034 vmull_s16 (int16x4_t a, int16x4_t b)
8035 {
8036   int32x4_t result;
8037   __asm__ ("smull %0.4s, %1.4h, %2.4h"
8038            : "=w"(result)
8039            : "w"(a), "w"(b)
8040            : /* No clobbers */);
8041   return result;
8042 }
8043
8044 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
8045 vmull_s32 (int32x2_t a, int32x2_t b)
8046 {
8047   int64x2_t result;
8048   __asm__ ("smull %0.2d, %1.2s, %2.2s"
8049            : "=w"(result)
8050            : "w"(a), "w"(b)
8051            : /* No clobbers */);
8052   return result;
8053 }
8054
8055 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
8056 vmull_u8 (uint8x8_t a, uint8x8_t b)
8057 {
8058   uint16x8_t result;
8059   __asm__ ("umull %0.8h, %1.8b, %2.8b"
8060            : "=w"(result)
8061            : "w"(a), "w"(b)
8062            : /* No clobbers */);
8063   return result;
8064 }
8065
8066 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
8067 vmull_u16 (uint16x4_t a, uint16x4_t b)
8068 {
8069   uint32x4_t result;
8070   __asm__ ("umull %0.4s, %1.4h, %2.4h"
8071            : "=w"(result)
8072            : "w"(a), "w"(b)
8073            : /* No clobbers */);
8074   return result;
8075 }
8076
8077 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
8078 vmull_u32 (uint32x2_t a, uint32x2_t b)
8079 {
8080   uint64x2_t result;
8081   __asm__ ("umull %0.2d, %1.2s, %2.2s"
8082            : "=w"(result)
8083            : "w"(a), "w"(b)
8084            : /* No clobbers */);
8085   return result;
8086 }
8087
8088 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
8089 vmulq_n_f32 (float32x4_t a, float32_t b)
8090 {
8091   float32x4_t result;
8092   __asm__ ("fmul %0.4s,%1.4s,%2.s[0]"
8093            : "=w"(result)
8094            : "w"(a), "w"(b)
8095            : /* No clobbers */);
8096   return result;
8097 }
8098
8099 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
8100 vmulq_n_f64 (float64x2_t a, float64_t b)
8101 {
8102   float64x2_t result;
8103   __asm__ ("fmul %0.2d,%1.2d,%2.d[0]"
8104            : "=w"(result)
8105            : "w"(a), "w"(b)
8106            : /* No clobbers */);
8107   return result;
8108 }
8109
8110 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
8111 vmulq_n_s16 (int16x8_t a, int16_t b)
8112 {
8113   int16x8_t result;
8114   __asm__ ("mul %0.8h,%1.8h,%2.h[0]"
8115            : "=w"(result)
8116            : "w"(a), "x"(b)
8117            : /* No clobbers */);
8118   return result;
8119 }
8120
8121 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
8122 vmulq_n_s32 (int32x4_t a, int32_t b)
8123 {
8124   int32x4_t result;
8125   __asm__ ("mul %0.4s,%1.4s,%2.s[0]"
8126            : "=w"(result)
8127            : "w"(a), "w"(b)
8128            : /* No clobbers */);
8129   return result;
8130 }
8131
8132 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
8133 vmulq_n_u16 (uint16x8_t a, uint16_t b)
8134 {
8135   uint16x8_t result;
8136   __asm__ ("mul %0.8h,%1.8h,%2.h[0]"
8137            : "=w"(result)
8138            : "w"(a), "x"(b)
8139            : /* No clobbers */);
8140   return result;
8141 }
8142
8143 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
8144 vmulq_n_u32 (uint32x4_t a, uint32_t b)
8145 {
8146   uint32x4_t result;
8147   __asm__ ("mul %0.4s,%1.4s,%2.s[0]"
8148            : "=w"(result)
8149            : "w"(a), "w"(b)
8150            : /* No clobbers */);
8151   return result;
8152 }
8153
8154 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
8155 vmulx_f32 (float32x2_t a, float32x2_t b)
8156 {
8157   float32x2_t result;
8158   __asm__ ("fmulx %0.2s,%1.2s,%2.2s"
8159            : "=w"(result)
8160            : "w"(a), "w"(b)
8161            : /* No clobbers */);
8162   return result;
8163 }
8164
8165 #define vmulx_lane_f32(a, b, c)                                         \
8166   __extension__                                                         \
8167     ({                                                                  \
8168        float32x4_t b_ = (b);                                            \
8169        float32x2_t a_ = (a);                                            \
8170        float32x2_t result;                                              \
8171        __asm__ ("fmulx %0.2s,%1.2s,%2.s[%3]"                            \
8172                 : "=w"(result)                                          \
8173                 : "w"(a_), "w"(b_), "i"(c)                              \
8174                 : /* No clobbers */);                                   \
8175        result;                                                          \
8176      })
8177
8178 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
8179 vmulxd_f64 (float64_t a, float64_t b)
8180 {
8181   float64_t result;
8182   __asm__ ("fmulx %d0, %d1, %d2"
8183            : "=w"(result)
8184            : "w"(a), "w"(b)
8185            : /* No clobbers */);
8186   return result;
8187 }
8188
8189 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
8190 vmulxq_f32 (float32x4_t a, float32x4_t b)
8191 {
8192   float32x4_t result;
8193   __asm__ ("fmulx %0.4s,%1.4s,%2.4s"
8194            : "=w"(result)
8195            : "w"(a), "w"(b)
8196            : /* No clobbers */);
8197   return result;
8198 }
8199
8200 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
8201 vmulxq_f64 (float64x2_t a, float64x2_t b)
8202 {
8203   float64x2_t result;
8204   __asm__ ("fmulx %0.2d,%1.2d,%2.2d"
8205            : "=w"(result)
8206            : "w"(a), "w"(b)
8207            : /* No clobbers */);
8208   return result;
8209 }
8210
8211 #define vmulxq_lane_f32(a, b, c)                                        \
8212   __extension__                                                         \
8213     ({                                                                  \
8214        float32x4_t b_ = (b);                                            \
8215        float32x4_t a_ = (a);                                            \
8216        float32x4_t result;                                              \
8217        __asm__ ("fmulx %0.4s,%1.4s,%2.s[%3]"                            \
8218                 : "=w"(result)                                          \
8219                 : "w"(a_), "w"(b_), "i"(c)                              \
8220                 : /* No clobbers */);                                   \
8221        result;                                                          \
8222      })
8223
8224 #define vmulxq_lane_f64(a, b, c)                                        \
8225   __extension__                                                         \
8226     ({                                                                  \
8227        float64x2_t b_ = (b);                                            \
8228        float64x2_t a_ = (a);                                            \
8229        float64x2_t result;                                              \
8230        __asm__ ("fmulx %0.2d,%1.2d,%2.d[%3]"                            \
8231                 : "=w"(result)                                          \
8232                 : "w"(a_), "w"(b_), "i"(c)                              \
8233                 : /* No clobbers */);                                   \
8234        result;                                                          \
8235      })
8236
8237 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
8238 vmulxs_f32 (float32_t a, float32_t b)
8239 {
8240   float32_t result;
8241   __asm__ ("fmulx %s0, %s1, %s2"
8242            : "=w"(result)
8243            : "w"(a), "w"(b)
8244            : /* No clobbers */);
8245   return result;
8246 }
8247
8248 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
8249 vmvn_p8 (poly8x8_t a)
8250 {
8251   poly8x8_t result;
8252   __asm__ ("mvn %0.8b,%1.8b"
8253            : "=w"(result)
8254            : "w"(a)
8255            : /* No clobbers */);
8256   return result;
8257 }
8258
8259 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
8260 vmvn_s8 (int8x8_t a)
8261 {
8262   int8x8_t result;
8263   __asm__ ("mvn %0.8b,%1.8b"
8264            : "=w"(result)
8265            : "w"(a)
8266            : /* No clobbers */);
8267   return result;
8268 }
8269
8270 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
8271 vmvn_s16 (int16x4_t a)
8272 {
8273   int16x4_t result;
8274   __asm__ ("mvn %0.8b,%1.8b"
8275            : "=w"(result)
8276            : "w"(a)
8277            : /* No clobbers */);
8278   return result;
8279 }
8280
8281 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
8282 vmvn_s32 (int32x2_t a)
8283 {
8284   int32x2_t result;
8285   __asm__ ("mvn %0.8b,%1.8b"
8286            : "=w"(result)
8287            : "w"(a)
8288            : /* No clobbers */);
8289   return result;
8290 }
8291
8292 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
8293 vmvn_u8 (uint8x8_t a)
8294 {
8295   uint8x8_t result;
8296   __asm__ ("mvn %0.8b,%1.8b"
8297            : "=w"(result)
8298            : "w"(a)
8299            : /* No clobbers */);
8300   return result;
8301 }
8302
8303 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
8304 vmvn_u16 (uint16x4_t a)
8305 {
8306   uint16x4_t result;
8307   __asm__ ("mvn %0.8b,%1.8b"
8308            : "=w"(result)
8309            : "w"(a)
8310            : /* No clobbers */);
8311   return result;
8312 }
8313
8314 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
8315 vmvn_u32 (uint32x2_t a)
8316 {
8317   uint32x2_t result;
8318   __asm__ ("mvn %0.8b,%1.8b"
8319            : "=w"(result)
8320            : "w"(a)
8321            : /* No clobbers */);
8322   return result;
8323 }
8324
8325 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
8326 vmvnq_p8 (poly8x16_t a)
8327 {
8328   poly8x16_t result;
8329   __asm__ ("mvn %0.16b,%1.16b"
8330            : "=w"(result)
8331            : "w"(a)
8332            : /* No clobbers */);
8333   return result;
8334 }
8335
8336 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
8337 vmvnq_s8 (int8x16_t a)
8338 {
8339   int8x16_t result;
8340   __asm__ ("mvn %0.16b,%1.16b"
8341            : "=w"(result)
8342            : "w"(a)
8343            : /* No clobbers */);
8344   return result;
8345 }
8346
8347 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
8348 vmvnq_s16 (int16x8_t a)
8349 {
8350   int16x8_t result;
8351   __asm__ ("mvn %0.16b,%1.16b"
8352            : "=w"(result)
8353            : "w"(a)
8354            : /* No clobbers */);
8355   return result;
8356 }
8357
8358 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
8359 vmvnq_s32 (int32x4_t a)
8360 {
8361   int32x4_t result;
8362   __asm__ ("mvn %0.16b,%1.16b"
8363            : "=w"(result)
8364            : "w"(a)
8365            : /* No clobbers */);
8366   return result;
8367 }
8368
8369 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
8370 vmvnq_u8 (uint8x16_t a)
8371 {
8372   uint8x16_t result;
8373   __asm__ ("mvn %0.16b,%1.16b"
8374            : "=w"(result)
8375            : "w"(a)
8376            : /* No clobbers */);
8377   return result;
8378 }
8379
8380 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
8381 vmvnq_u16 (uint16x8_t a)
8382 {
8383   uint16x8_t result;
8384   __asm__ ("mvn %0.16b,%1.16b"
8385            : "=w"(result)
8386            : "w"(a)
8387            : /* No clobbers */);
8388   return result;
8389 }
8390
8391 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
8392 vmvnq_u32 (uint32x4_t a)
8393 {
8394   uint32x4_t result;
8395   __asm__ ("mvn %0.16b,%1.16b"
8396            : "=w"(result)
8397            : "w"(a)
8398            : /* No clobbers */);
8399   return result;
8400 }
8401
8402
8403 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
8404 vpadal_s8 (int16x4_t a, int8x8_t b)
8405 {
8406   int16x4_t result;
8407   __asm__ ("sadalp %0.4h,%2.8b"
8408            : "=w"(result)
8409            : "0"(a), "w"(b)
8410            : /* No clobbers */);
8411   return result;
8412 }
8413
8414 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
8415 vpadal_s16 (int32x2_t a, int16x4_t b)
8416 {
8417   int32x2_t result;
8418   __asm__ ("sadalp %0.2s,%2.4h"
8419            : "=w"(result)
8420            : "0"(a), "w"(b)
8421            : /* No clobbers */);
8422   return result;
8423 }
8424
8425 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
8426 vpadal_s32 (int64x1_t a, int32x2_t b)
8427 {
8428   int64x1_t result;
8429   __asm__ ("sadalp %0.1d,%2.2s"
8430            : "=w"(result)
8431            : "0"(a), "w"(b)
8432            : /* No clobbers */);
8433   return result;
8434 }
8435
8436 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
8437 vpadal_u8 (uint16x4_t a, uint8x8_t b)
8438 {
8439   uint16x4_t result;
8440   __asm__ ("uadalp %0.4h,%2.8b"
8441            : "=w"(result)
8442            : "0"(a), "w"(b)
8443            : /* No clobbers */);
8444   return result;
8445 }
8446
8447 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
8448 vpadal_u16 (uint32x2_t a, uint16x4_t b)
8449 {
8450   uint32x2_t result;
8451   __asm__ ("uadalp %0.2s,%2.4h"
8452            : "=w"(result)
8453            : "0"(a), "w"(b)
8454            : /* No clobbers */);
8455   return result;
8456 }
8457
8458 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
8459 vpadal_u32 (uint64x1_t a, uint32x2_t b)
8460 {
8461   uint64x1_t result;
8462   __asm__ ("uadalp %0.1d,%2.2s"
8463            : "=w"(result)
8464            : "0"(a), "w"(b)
8465            : /* No clobbers */);
8466   return result;
8467 }
8468
8469 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
8470 vpadalq_s8 (int16x8_t a, int8x16_t b)
8471 {
8472   int16x8_t result;
8473   __asm__ ("sadalp %0.8h,%2.16b"
8474            : "=w"(result)
8475            : "0"(a), "w"(b)
8476            : /* No clobbers */);
8477   return result;
8478 }
8479
8480 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
8481 vpadalq_s16 (int32x4_t a, int16x8_t b)
8482 {
8483   int32x4_t result;
8484   __asm__ ("sadalp %0.4s,%2.8h"
8485            : "=w"(result)
8486            : "0"(a), "w"(b)
8487            : /* No clobbers */);
8488   return result;
8489 }
8490
8491 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
8492 vpadalq_s32 (int64x2_t a, int32x4_t b)
8493 {
8494   int64x2_t result;
8495   __asm__ ("sadalp %0.2d,%2.4s"
8496            : "=w"(result)
8497            : "0"(a), "w"(b)
8498            : /* No clobbers */);
8499   return result;
8500 }
8501
8502 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
8503 vpadalq_u8 (uint16x8_t a, uint8x16_t b)
8504 {
8505   uint16x8_t result;
8506   __asm__ ("uadalp %0.8h,%2.16b"
8507            : "=w"(result)
8508            : "0"(a), "w"(b)
8509            : /* No clobbers */);
8510   return result;
8511 }
8512
8513 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
8514 vpadalq_u16 (uint32x4_t a, uint16x8_t b)
8515 {
8516   uint32x4_t result;
8517   __asm__ ("uadalp %0.4s,%2.8h"
8518            : "=w"(result)
8519            : "0"(a), "w"(b)
8520            : /* No clobbers */);
8521   return result;
8522 }
8523
8524 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
8525 vpadalq_u32 (uint64x2_t a, uint32x4_t b)
8526 {
8527   uint64x2_t result;
8528   __asm__ ("uadalp %0.2d,%2.4s"
8529            : "=w"(result)
8530            : "0"(a), "w"(b)
8531            : /* No clobbers */);
8532   return result;
8533 }
8534
8535 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
8536 vpadd_f32 (float32x2_t a, float32x2_t b)
8537 {
8538   float32x2_t result;
8539   __asm__ ("faddp %0.2s,%1.2s,%2.2s"
8540            : "=w"(result)
8541            : "w"(a), "w"(b)
8542            : /* No clobbers */);
8543   return result;
8544 }
8545
8546 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
8547 vpaddl_s8 (int8x8_t a)
8548 {
8549   int16x4_t result;
8550   __asm__ ("saddlp %0.4h,%1.8b"
8551            : "=w"(result)
8552            : "w"(a)
8553            : /* No clobbers */);
8554   return result;
8555 }
8556
8557 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
8558 vpaddl_s16 (int16x4_t a)
8559 {
8560   int32x2_t result;
8561   __asm__ ("saddlp %0.2s,%1.4h"
8562            : "=w"(result)
8563            : "w"(a)
8564            : /* No clobbers */);
8565   return result;
8566 }
8567
8568 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
8569 vpaddl_s32 (int32x2_t a)
8570 {
8571   int64x1_t result;
8572   __asm__ ("saddlp %0.1d,%1.2s"
8573            : "=w"(result)
8574            : "w"(a)
8575            : /* No clobbers */);
8576   return result;
8577 }
8578
8579 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
8580 vpaddl_u8 (uint8x8_t a)
8581 {
8582   uint16x4_t result;
8583   __asm__ ("uaddlp %0.4h,%1.8b"
8584            : "=w"(result)
8585            : "w"(a)
8586            : /* No clobbers */);
8587   return result;
8588 }
8589
8590 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
8591 vpaddl_u16 (uint16x4_t a)
8592 {
8593   uint32x2_t result;
8594   __asm__ ("uaddlp %0.2s,%1.4h"
8595            : "=w"(result)
8596            : "w"(a)
8597            : /* No clobbers */);
8598   return result;
8599 }
8600
8601 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
8602 vpaddl_u32 (uint32x2_t a)
8603 {
8604   uint64x1_t result;
8605   __asm__ ("uaddlp %0.1d,%1.2s"
8606            : "=w"(result)
8607            : "w"(a)
8608            : /* No clobbers */);
8609   return result;
8610 }
8611
8612 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
8613 vpaddlq_s8 (int8x16_t a)
8614 {
8615   int16x8_t result;
8616   __asm__ ("saddlp %0.8h,%1.16b"
8617            : "=w"(result)
8618            : "w"(a)
8619            : /* No clobbers */);
8620   return result;
8621 }
8622
8623 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
8624 vpaddlq_s16 (int16x8_t a)
8625 {
8626   int32x4_t result;
8627   __asm__ ("saddlp %0.4s,%1.8h"
8628            : "=w"(result)
8629            : "w"(a)
8630            : /* No clobbers */);
8631   return result;
8632 }
8633
8634 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
8635 vpaddlq_s32 (int32x4_t a)
8636 {
8637   int64x2_t result;
8638   __asm__ ("saddlp %0.2d,%1.4s"
8639            : "=w"(result)
8640            : "w"(a)
8641            : /* No clobbers */);
8642   return result;
8643 }
8644
8645 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
8646 vpaddlq_u8 (uint8x16_t a)
8647 {
8648   uint16x8_t result;
8649   __asm__ ("uaddlp %0.8h,%1.16b"
8650            : "=w"(result)
8651            : "w"(a)
8652            : /* No clobbers */);
8653   return result;
8654 }
8655
8656 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
8657 vpaddlq_u16 (uint16x8_t a)
8658 {
8659   uint32x4_t result;
8660   __asm__ ("uaddlp %0.4s,%1.8h"
8661            : "=w"(result)
8662            : "w"(a)
8663            : /* No clobbers */);
8664   return result;
8665 }
8666
8667 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
8668 vpaddlq_u32 (uint32x4_t a)
8669 {
8670   uint64x2_t result;
8671   __asm__ ("uaddlp %0.2d,%1.4s"
8672            : "=w"(result)
8673            : "w"(a)
8674            : /* No clobbers */);
8675   return result;
8676 }
8677
8678 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
8679 vpaddq_f32 (float32x4_t a, float32x4_t b)
8680 {
8681   float32x4_t result;
8682   __asm__ ("faddp %0.4s,%1.4s,%2.4s"
8683            : "=w"(result)
8684            : "w"(a), "w"(b)
8685            : /* No clobbers */);
8686   return result;
8687 }
8688
8689 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
8690 vpaddq_f64 (float64x2_t a, float64x2_t b)
8691 {
8692   float64x2_t result;
8693   __asm__ ("faddp %0.2d,%1.2d,%2.2d"
8694            : "=w"(result)
8695            : "w"(a), "w"(b)
8696            : /* No clobbers */);
8697   return result;
8698 }
8699
8700 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
8701 vpaddq_s8 (int8x16_t a, int8x16_t b)
8702 {
8703   int8x16_t result;
8704   __asm__ ("addp %0.16b,%1.16b,%2.16b"
8705            : "=w"(result)
8706            : "w"(a), "w"(b)
8707            : /* No clobbers */);
8708   return result;
8709 }
8710
8711 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
8712 vpaddq_s16 (int16x8_t a, int16x8_t b)
8713 {
8714   int16x8_t result;
8715   __asm__ ("addp %0.8h,%1.8h,%2.8h"
8716            : "=w"(result)
8717            : "w"(a), "w"(b)
8718            : /* No clobbers */);
8719   return result;
8720 }
8721
8722 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
8723 vpaddq_s32 (int32x4_t a, int32x4_t b)
8724 {
8725   int32x4_t result;
8726   __asm__ ("addp %0.4s,%1.4s,%2.4s"
8727            : "=w"(result)
8728            : "w"(a), "w"(b)
8729            : /* No clobbers */);
8730   return result;
8731 }
8732
8733 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
8734 vpaddq_s64 (int64x2_t a, int64x2_t b)
8735 {
8736   int64x2_t result;
8737   __asm__ ("addp %0.2d,%1.2d,%2.2d"
8738            : "=w"(result)
8739            : "w"(a), "w"(b)
8740            : /* No clobbers */);
8741   return result;
8742 }
8743
8744 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
8745 vpaddq_u8 (uint8x16_t a, uint8x16_t b)
8746 {
8747   uint8x16_t result;
8748   __asm__ ("addp %0.16b,%1.16b,%2.16b"
8749            : "=w"(result)
8750            : "w"(a), "w"(b)
8751            : /* No clobbers */);
8752   return result;
8753 }
8754
8755 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
8756 vpaddq_u16 (uint16x8_t a, uint16x8_t b)
8757 {
8758   uint16x8_t result;
8759   __asm__ ("addp %0.8h,%1.8h,%2.8h"
8760            : "=w"(result)
8761            : "w"(a), "w"(b)
8762            : /* No clobbers */);
8763   return result;
8764 }
8765
8766 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
8767 vpaddq_u32 (uint32x4_t a, uint32x4_t b)
8768 {
8769   uint32x4_t result;
8770   __asm__ ("addp %0.4s,%1.4s,%2.4s"
8771            : "=w"(result)
8772            : "w"(a), "w"(b)
8773            : /* No clobbers */);
8774   return result;
8775 }
8776
8777 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
8778 vpaddq_u64 (uint64x2_t a, uint64x2_t b)
8779 {
8780   uint64x2_t result;
8781   __asm__ ("addp %0.2d,%1.2d,%2.2d"
8782            : "=w"(result)
8783            : "w"(a), "w"(b)
8784            : /* No clobbers */);
8785   return result;
8786 }
8787
8788 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
8789 vpadds_f32 (float32x2_t a)
8790 {
8791   float32_t result;
8792   __asm__ ("faddp %s0,%1.2s"
8793            : "=w"(result)
8794            : "w"(a)
8795            : /* No clobbers */);
8796   return result;
8797 }
8798
8799 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
8800 vpmax_f32 (float32x2_t a, float32x2_t b)
8801 {
8802   float32x2_t result;
8803   __asm__ ("fmaxp %0.2s, %1.2s, %2.2s"
8804            : "=w"(result)
8805            : "w"(a), "w"(b)
8806            : /* No clobbers */);
8807   return result;
8808 }
8809
8810 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
8811 vpmax_s8 (int8x8_t a, int8x8_t b)
8812 {
8813   int8x8_t result;
8814   __asm__ ("smaxp %0.8b, %1.8b, %2.8b"
8815            : "=w"(result)
8816            : "w"(a), "w"(b)
8817            : /* No clobbers */);
8818   return result;
8819 }
8820
8821 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
8822 vpmax_s16 (int16x4_t a, int16x4_t b)
8823 {
8824   int16x4_t result;
8825   __asm__ ("smaxp %0.4h, %1.4h, %2.4h"
8826            : "=w"(result)
8827            : "w"(a), "w"(b)
8828            : /* No clobbers */);
8829   return result;
8830 }
8831
8832 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
8833 vpmax_s32 (int32x2_t a, int32x2_t b)
8834 {
8835   int32x2_t result;
8836   __asm__ ("smaxp %0.2s, %1.2s, %2.2s"
8837            : "=w"(result)
8838            : "w"(a), "w"(b)
8839            : /* No clobbers */);
8840   return result;
8841 }
8842
8843 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
8844 vpmax_u8 (uint8x8_t a, uint8x8_t b)
8845 {
8846   uint8x8_t result;
8847   __asm__ ("umaxp %0.8b, %1.8b, %2.8b"
8848            : "=w"(result)
8849            : "w"(a), "w"(b)
8850            : /* No clobbers */);
8851   return result;
8852 }
8853
8854 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
8855 vpmax_u16 (uint16x4_t a, uint16x4_t b)
8856 {
8857   uint16x4_t result;
8858   __asm__ ("umaxp %0.4h, %1.4h, %2.4h"
8859            : "=w"(result)
8860            : "w"(a), "w"(b)
8861            : /* No clobbers */);
8862   return result;
8863 }
8864
8865 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
8866 vpmax_u32 (uint32x2_t a, uint32x2_t b)
8867 {
8868   uint32x2_t result;
8869   __asm__ ("umaxp %0.2s, %1.2s, %2.2s"
8870            : "=w"(result)
8871            : "w"(a), "w"(b)
8872            : /* No clobbers */);
8873   return result;
8874 }
8875
8876 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
8877 vpmaxnm_f32 (float32x2_t a, float32x2_t b)
8878 {
8879   float32x2_t result;
8880   __asm__ ("fmaxnmp %0.2s,%1.2s,%2.2s"
8881            : "=w"(result)
8882            : "w"(a), "w"(b)
8883            : /* No clobbers */);
8884   return result;
8885 }
8886
8887 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
8888 vpmaxnmq_f32 (float32x4_t a, float32x4_t b)
8889 {
8890   float32x4_t result;
8891   __asm__ ("fmaxnmp %0.4s,%1.4s,%2.4s"
8892            : "=w"(result)
8893            : "w"(a), "w"(b)
8894            : /* No clobbers */);
8895   return result;
8896 }
8897
8898 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
8899 vpmaxnmq_f64 (float64x2_t a, float64x2_t b)
8900 {
8901   float64x2_t result;
8902   __asm__ ("fmaxnmp %0.2d,%1.2d,%2.2d"
8903            : "=w"(result)
8904            : "w"(a), "w"(b)
8905            : /* No clobbers */);
8906   return result;
8907 }
8908
8909 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
8910 vpmaxnmqd_f64 (float64x2_t a)
8911 {
8912   float64_t result;
8913   __asm__ ("fmaxnmp %d0,%1.2d"
8914            : "=w"(result)
8915            : "w"(a)
8916            : /* No clobbers */);
8917   return result;
8918 }
8919
8920 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
8921 vpmaxnms_f32 (float32x2_t a)
8922 {
8923   float32_t result;
8924   __asm__ ("fmaxnmp %s0,%1.2s"
8925            : "=w"(result)
8926            : "w"(a)
8927            : /* No clobbers */);
8928   return result;
8929 }
8930
8931 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
8932 vpmaxq_f32 (float32x4_t a, float32x4_t b)
8933 {
8934   float32x4_t result;
8935   __asm__ ("fmaxp %0.4s, %1.4s, %2.4s"
8936            : "=w"(result)
8937            : "w"(a), "w"(b)
8938            : /* No clobbers */);
8939   return result;
8940 }
8941
8942 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
8943 vpmaxq_f64 (float64x2_t a, float64x2_t b)
8944 {
8945   float64x2_t result;
8946   __asm__ ("fmaxp %0.2d, %1.2d, %2.2d"
8947            : "=w"(result)
8948            : "w"(a), "w"(b)
8949            : /* No clobbers */);
8950   return result;
8951 }
8952
8953 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
8954 vpmaxq_s8 (int8x16_t a, int8x16_t b)
8955 {
8956   int8x16_t result;
8957   __asm__ ("smaxp %0.16b, %1.16b, %2.16b"
8958            : "=w"(result)
8959            : "w"(a), "w"(b)
8960            : /* No clobbers */);
8961   return result;
8962 }
8963
8964 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
8965 vpmaxq_s16 (int16x8_t a, int16x8_t b)
8966 {
8967   int16x8_t result;
8968   __asm__ ("smaxp %0.8h, %1.8h, %2.8h"
8969            : "=w"(result)
8970            : "w"(a), "w"(b)
8971            : /* No clobbers */);
8972   return result;
8973 }
8974
8975 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
8976 vpmaxq_s32 (int32x4_t a, int32x4_t b)
8977 {
8978   int32x4_t result;
8979   __asm__ ("smaxp %0.4s, %1.4s, %2.4s"
8980            : "=w"(result)
8981            : "w"(a), "w"(b)
8982            : /* No clobbers */);
8983   return result;
8984 }
8985
8986 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
8987 vpmaxq_u8 (uint8x16_t a, uint8x16_t b)
8988 {
8989   uint8x16_t result;
8990   __asm__ ("umaxp %0.16b, %1.16b, %2.16b"
8991            : "=w"(result)
8992            : "w"(a), "w"(b)
8993            : /* No clobbers */);
8994   return result;
8995 }
8996
8997 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
8998 vpmaxq_u16 (uint16x8_t a, uint16x8_t b)
8999 {
9000   uint16x8_t result;
9001   __asm__ ("umaxp %0.8h, %1.8h, %2.8h"
9002            : "=w"(result)
9003            : "w"(a), "w"(b)
9004            : /* No clobbers */);
9005   return result;
9006 }
9007
9008 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
9009 vpmaxq_u32 (uint32x4_t a, uint32x4_t b)
9010 {
9011   uint32x4_t result;
9012   __asm__ ("umaxp %0.4s, %1.4s, %2.4s"
9013            : "=w"(result)
9014            : "w"(a), "w"(b)
9015            : /* No clobbers */);
9016   return result;
9017 }
9018
9019 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
9020 vpmaxqd_f64 (float64x2_t a)
9021 {
9022   float64_t result;
9023   __asm__ ("fmaxp %d0,%1.2d"
9024            : "=w"(result)
9025            : "w"(a)
9026            : /* No clobbers */);
9027   return result;
9028 }
9029
9030 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
9031 vpmaxs_f32 (float32x2_t a)
9032 {
9033   float32_t result;
9034   __asm__ ("fmaxp %s0,%1.2s"
9035            : "=w"(result)
9036            : "w"(a)
9037            : /* No clobbers */);
9038   return result;
9039 }
9040
9041 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
9042 vpmin_f32 (float32x2_t a, float32x2_t b)
9043 {
9044   float32x2_t result;
9045   __asm__ ("fminp %0.2s, %1.2s, %2.2s"
9046            : "=w"(result)
9047            : "w"(a), "w"(b)
9048            : /* No clobbers */);
9049   return result;
9050 }
9051
9052 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
9053 vpmin_s8 (int8x8_t a, int8x8_t b)
9054 {
9055   int8x8_t result;
9056   __asm__ ("sminp %0.8b, %1.8b, %2.8b"
9057            : "=w"(result)
9058            : "w"(a), "w"(b)
9059            : /* No clobbers */);
9060   return result;
9061 }
9062
9063 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
9064 vpmin_s16 (int16x4_t a, int16x4_t b)
9065 {
9066   int16x4_t result;
9067   __asm__ ("sminp %0.4h, %1.4h, %2.4h"
9068            : "=w"(result)
9069            : "w"(a), "w"(b)
9070            : /* No clobbers */);
9071   return result;
9072 }
9073
9074 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
9075 vpmin_s32 (int32x2_t a, int32x2_t b)
9076 {
9077   int32x2_t result;
9078   __asm__ ("sminp %0.2s, %1.2s, %2.2s"
9079            : "=w"(result)
9080            : "w"(a), "w"(b)
9081            : /* No clobbers */);
9082   return result;
9083 }
9084
9085 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
9086 vpmin_u8 (uint8x8_t a, uint8x8_t b)
9087 {
9088   uint8x8_t result;
9089   __asm__ ("uminp %0.8b, %1.8b, %2.8b"
9090            : "=w"(result)
9091            : "w"(a), "w"(b)
9092            : /* No clobbers */);
9093   return result;
9094 }
9095
9096 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
9097 vpmin_u16 (uint16x4_t a, uint16x4_t b)
9098 {
9099   uint16x4_t result;
9100   __asm__ ("uminp %0.4h, %1.4h, %2.4h"
9101            : "=w"(result)
9102            : "w"(a), "w"(b)
9103            : /* No clobbers */);
9104   return result;
9105 }
9106
9107 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
9108 vpmin_u32 (uint32x2_t a, uint32x2_t b)
9109 {
9110   uint32x2_t result;
9111   __asm__ ("uminp %0.2s, %1.2s, %2.2s"
9112            : "=w"(result)
9113            : "w"(a), "w"(b)
9114            : /* No clobbers */);
9115   return result;
9116 }
9117
9118 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
9119 vpminnm_f32 (float32x2_t a, float32x2_t b)
9120 {
9121   float32x2_t result;
9122   __asm__ ("fminnmp %0.2s,%1.2s,%2.2s"
9123            : "=w"(result)
9124            : "w"(a), "w"(b)
9125            : /* No clobbers */);
9126   return result;
9127 }
9128
9129 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
9130 vpminnmq_f32 (float32x4_t a, float32x4_t b)
9131 {
9132   float32x4_t result;
9133   __asm__ ("fminnmp %0.4s,%1.4s,%2.4s"
9134            : "=w"(result)
9135            : "w"(a), "w"(b)
9136            : /* No clobbers */);
9137   return result;
9138 }
9139
9140 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
9141 vpminnmq_f64 (float64x2_t a, float64x2_t b)
9142 {
9143   float64x2_t result;
9144   __asm__ ("fminnmp %0.2d,%1.2d,%2.2d"
9145            : "=w"(result)
9146            : "w"(a), "w"(b)
9147            : /* No clobbers */);
9148   return result;
9149 }
9150
9151 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
9152 vpminnmqd_f64 (float64x2_t a)
9153 {
9154   float64_t result;
9155   __asm__ ("fminnmp %d0,%1.2d"
9156            : "=w"(result)
9157            : "w"(a)
9158            : /* No clobbers */);
9159   return result;
9160 }
9161
9162 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
9163 vpminnms_f32 (float32x2_t a)
9164 {
9165   float32_t result;
9166   __asm__ ("fminnmp %s0,%1.2s"
9167            : "=w"(result)
9168            : "w"(a)
9169            : /* No clobbers */);
9170   return result;
9171 }
9172
9173 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
9174 vpminq_f32 (float32x4_t a, float32x4_t b)
9175 {
9176   float32x4_t result;
9177   __asm__ ("fminp %0.4s, %1.4s, %2.4s"
9178            : "=w"(result)
9179            : "w"(a), "w"(b)
9180            : /* No clobbers */);
9181   return result;
9182 }
9183
9184 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
9185 vpminq_f64 (float64x2_t a, float64x2_t b)
9186 {
9187   float64x2_t result;
9188   __asm__ ("fminp %0.2d, %1.2d, %2.2d"
9189            : "=w"(result)
9190            : "w"(a), "w"(b)
9191            : /* No clobbers */);
9192   return result;
9193 }
9194
9195 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
9196 vpminq_s8 (int8x16_t a, int8x16_t b)
9197 {
9198   int8x16_t result;
9199   __asm__ ("sminp %0.16b, %1.16b, %2.16b"
9200            : "=w"(result)
9201            : "w"(a), "w"(b)
9202            : /* No clobbers */);
9203   return result;
9204 }
9205
9206 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
9207 vpminq_s16 (int16x8_t a, int16x8_t b)
9208 {
9209   int16x8_t result;
9210   __asm__ ("sminp %0.8h, %1.8h, %2.8h"
9211            : "=w"(result)
9212            : "w"(a), "w"(b)
9213            : /* No clobbers */);
9214   return result;
9215 }
9216
9217 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
9218 vpminq_s32 (int32x4_t a, int32x4_t b)
9219 {
9220   int32x4_t result;
9221   __asm__ ("sminp %0.4s, %1.4s, %2.4s"
9222            : "=w"(result)
9223            : "w"(a), "w"(b)
9224            : /* No clobbers */);
9225   return result;
9226 }
9227
9228 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
9229 vpminq_u8 (uint8x16_t a, uint8x16_t b)
9230 {
9231   uint8x16_t result;
9232   __asm__ ("uminp %0.16b, %1.16b, %2.16b"
9233            : "=w"(result)
9234            : "w"(a), "w"(b)
9235            : /* No clobbers */);
9236   return result;
9237 }
9238
9239 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
9240 vpminq_u16 (uint16x8_t a, uint16x8_t b)
9241 {
9242   uint16x8_t result;
9243   __asm__ ("uminp %0.8h, %1.8h, %2.8h"
9244            : "=w"(result)
9245            : "w"(a), "w"(b)
9246            : /* No clobbers */);
9247   return result;
9248 }
9249
9250 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
9251 vpminq_u32 (uint32x4_t a, uint32x4_t b)
9252 {
9253   uint32x4_t result;
9254   __asm__ ("uminp %0.4s, %1.4s, %2.4s"
9255            : "=w"(result)
9256            : "w"(a), "w"(b)
9257            : /* No clobbers */);
9258   return result;
9259 }
9260
9261 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
9262 vpminqd_f64 (float64x2_t a)
9263 {
9264   float64_t result;
9265   __asm__ ("fminp %d0,%1.2d"
9266            : "=w"(result)
9267            : "w"(a)
9268            : /* No clobbers */);
9269   return result;
9270 }
9271
9272 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
9273 vpmins_f32 (float32x2_t a)
9274 {
9275   float32_t result;
9276   __asm__ ("fminp %s0,%1.2s"
9277            : "=w"(result)
9278            : "w"(a)
9279            : /* No clobbers */);
9280   return result;
9281 }
9282
9283 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
9284 vqdmulh_n_s16 (int16x4_t a, int16_t b)
9285 {
9286   int16x4_t result;
9287   __asm__ ("sqdmulh %0.4h,%1.4h,%2.h[0]"
9288            : "=w"(result)
9289            : "w"(a), "x"(b)
9290            : /* No clobbers */);
9291   return result;
9292 }
9293
9294 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
9295 vqdmulh_n_s32 (int32x2_t a, int32_t b)
9296 {
9297   int32x2_t result;
9298   __asm__ ("sqdmulh %0.2s,%1.2s,%2.s[0]"
9299            : "=w"(result)
9300            : "w"(a), "w"(b)
9301            : /* No clobbers */);
9302   return result;
9303 }
9304
9305 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
9306 vqdmulhq_n_s16 (int16x8_t a, int16_t b)
9307 {
9308   int16x8_t result;
9309   __asm__ ("sqdmulh %0.8h,%1.8h,%2.h[0]"
9310            : "=w"(result)
9311            : "w"(a), "x"(b)
9312            : /* No clobbers */);
9313   return result;
9314 }
9315
9316 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
9317 vqdmulhq_n_s32 (int32x4_t a, int32_t b)
9318 {
9319   int32x4_t result;
9320   __asm__ ("sqdmulh %0.4s,%1.4s,%2.s[0]"
9321            : "=w"(result)
9322            : "w"(a), "w"(b)
9323            : /* No clobbers */);
9324   return result;
9325 }
9326
9327 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
9328 vqmovn_high_s16 (int8x8_t a, int16x8_t b)
9329 {
9330   int8x16_t result = vcombine_s8 (a, vcreate_s8 (__AARCH64_UINT64_C (0x0)));
9331   __asm__ ("sqxtn2 %0.16b, %1.8h"
9332            : "+w"(result)
9333            : "w"(b)
9334            : /* No clobbers */);
9335   return result;
9336 }
9337
9338 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
9339 vqmovn_high_s32 (int16x4_t a, int32x4_t b)
9340 {
9341   int16x8_t result = vcombine_s16 (a, vcreate_s16 (__AARCH64_UINT64_C (0x0)));
9342   __asm__ ("sqxtn2 %0.8h, %1.4s"
9343            : "+w"(result)
9344            : "w"(b)
9345            : /* No clobbers */);
9346   return result;
9347 }
9348
9349 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
9350 vqmovn_high_s64 (int32x2_t a, int64x2_t b)
9351 {
9352   int32x4_t result = vcombine_s32 (a, vcreate_s32 (__AARCH64_UINT64_C (0x0)));
9353   __asm__ ("sqxtn2 %0.4s, %1.2d"
9354            : "+w"(result)
9355            : "w"(b)
9356            : /* No clobbers */);
9357   return result;
9358 }
9359
9360 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
9361 vqmovn_high_u16 (uint8x8_t a, uint16x8_t b)
9362 {
9363   uint8x16_t result = vcombine_u8 (a, vcreate_u8 (__AARCH64_UINT64_C (0x0)));
9364   __asm__ ("uqxtn2 %0.16b, %1.8h"
9365            : "+w"(result)
9366            : "w"(b)
9367            : /* No clobbers */);
9368   return result;
9369 }
9370
9371 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
9372 vqmovn_high_u32 (uint16x4_t a, uint32x4_t b)
9373 {
9374   uint16x8_t result = vcombine_u16 (a, vcreate_u16 (__AARCH64_UINT64_C (0x0)));
9375   __asm__ ("uqxtn2 %0.8h, %1.4s"
9376            : "+w"(result)
9377            : "w"(b)
9378            : /* No clobbers */);
9379   return result;
9380 }
9381
9382 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
9383 vqmovn_high_u64 (uint32x2_t a, uint64x2_t b)
9384 {
9385   uint32x4_t result = vcombine_u32 (a, vcreate_u32 (__AARCH64_UINT64_C (0x0)));
9386   __asm__ ("uqxtn2 %0.4s, %1.2d"
9387            : "+w"(result)
9388            : "w"(b)
9389            : /* No clobbers */);
9390   return result;
9391 }
9392
9393 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
9394 vqmovun_high_s16 (uint8x8_t a, int16x8_t b)
9395 {
9396   uint8x16_t result = vcombine_u8 (a, vcreate_u8 (__AARCH64_UINT64_C (0x0)));
9397   __asm__ ("sqxtun2 %0.16b, %1.8h"
9398            : "+w"(result)
9399            : "w"(b)
9400            : /* No clobbers */);
9401   return result;
9402 }
9403
9404 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
9405 vqmovun_high_s32 (uint16x4_t a, int32x4_t b)
9406 {
9407   uint16x8_t result = vcombine_u16 (a, vcreate_u16 (__AARCH64_UINT64_C (0x0)));
9408   __asm__ ("sqxtun2 %0.8h, %1.4s"
9409            : "+w"(result)
9410            : "w"(b)
9411            : /* No clobbers */);
9412   return result;
9413 }
9414
9415 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
9416 vqmovun_high_s64 (uint32x2_t a, int64x2_t b)
9417 {
9418   uint32x4_t result = vcombine_u32 (a, vcreate_u32 (__AARCH64_UINT64_C (0x0)));
9419   __asm__ ("sqxtun2 %0.4s, %1.2d"
9420            : "+w"(result)
9421            : "w"(b)
9422            : /* No clobbers */);
9423   return result;
9424 }
9425
9426 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
9427 vqrdmulh_n_s16 (int16x4_t a, int16_t b)
9428 {
9429   int16x4_t result;
9430   __asm__ ("sqrdmulh %0.4h,%1.4h,%2.h[0]"
9431            : "=w"(result)
9432            : "w"(a), "x"(b)
9433            : /* No clobbers */);
9434   return result;
9435 }
9436
9437 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
9438 vqrdmulh_n_s32 (int32x2_t a, int32_t b)
9439 {
9440   int32x2_t result;
9441   __asm__ ("sqrdmulh %0.2s,%1.2s,%2.s[0]"
9442            : "=w"(result)
9443            : "w"(a), "w"(b)
9444            : /* No clobbers */);
9445   return result;
9446 }
9447
9448 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
9449 vqrdmulhq_n_s16 (int16x8_t a, int16_t b)
9450 {
9451   int16x8_t result;
9452   __asm__ ("sqrdmulh %0.8h,%1.8h,%2.h[0]"
9453            : "=w"(result)
9454            : "w"(a), "x"(b)
9455            : /* No clobbers */);
9456   return result;
9457 }
9458
9459 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
9460 vqrdmulhq_n_s32 (int32x4_t a, int32_t b)
9461 {
9462   int32x4_t result;
9463   __asm__ ("sqrdmulh %0.4s,%1.4s,%2.s[0]"
9464            : "=w"(result)
9465            : "w"(a), "w"(b)
9466            : /* No clobbers */);
9467   return result;
9468 }
9469
9470 #define vqrshrn_high_n_s16(a, b, c)                                     \
9471   __extension__                                                         \
9472     ({                                                                  \
9473        int16x8_t b_ = (b);                                              \
9474        int8x8_t a_ = (a);                                               \
9475        int8x16_t result = vcombine_s8                                   \
9476                             (a_, vcreate_s8                             \
9477                                    (__AARCH64_UINT64_C (0x0)));         \
9478        __asm__ ("sqrshrn2 %0.16b, %1.8h, #%2"                           \
9479                 : "+w"(result)                                          \
9480                 : "w"(b_), "i"(c)                                       \
9481                 : /* No clobbers */);                                   \
9482        result;                                                          \
9483      })
9484
9485 #define vqrshrn_high_n_s32(a, b, c)                                     \
9486   __extension__                                                         \
9487     ({                                                                  \
9488        int32x4_t b_ = (b);                                              \
9489        int16x4_t a_ = (a);                                              \
9490        int16x8_t result = vcombine_s16                                  \
9491                             (a_, vcreate_s16                            \
9492                                    (__AARCH64_UINT64_C (0x0)));         \
9493        __asm__ ("sqrshrn2 %0.8h, %1.4s, #%2"                            \
9494                 : "+w"(result)                                          \
9495                 : "w"(b_), "i"(c)                                       \
9496                 : /* No clobbers */);                                   \
9497        result;                                                          \
9498      })
9499
9500 #define vqrshrn_high_n_s64(a, b, c)                                     \
9501   __extension__                                                         \
9502     ({                                                                  \
9503        int64x2_t b_ = (b);                                              \
9504        int32x2_t a_ = (a);                                              \
9505        int32x4_t result = vcombine_s32                                  \
9506                             (a_, vcreate_s32                            \
9507                                    (__AARCH64_UINT64_C (0x0)));         \
9508        __asm__ ("sqrshrn2 %0.4s, %1.2d, #%2"                            \
9509                 : "+w"(result)                                          \
9510                 : "w"(b_), "i"(c)                                       \
9511                 : /* No clobbers */);                                   \
9512        result;                                                          \
9513      })
9514
9515 #define vqrshrn_high_n_u16(a, b, c)                                     \
9516   __extension__                                                         \
9517     ({                                                                  \
9518        uint16x8_t b_ = (b);                                             \
9519        uint8x8_t a_ = (a);                                              \
9520        uint8x16_t result = vcombine_u8                                  \
9521                              (a_, vcreate_u8                            \
9522                                     (__AARCH64_UINT64_C (0x0)));        \
9523        __asm__ ("uqrshrn2 %0.16b, %1.8h, #%2"                           \
9524                 : "+w"(result)                                          \
9525                 : "w"(b_), "i"(c)                                       \
9526                 : /* No clobbers */);                                   \
9527        result;                                                          \
9528      })
9529
9530 #define vqrshrn_high_n_u32(a, b, c)                                     \
9531   __extension__                                                         \
9532     ({                                                                  \
9533        uint32x4_t b_ = (b);                                             \
9534        uint16x4_t a_ = (a);                                             \
9535        uint16x8_t result = vcombine_u16                                 \
9536                              (a_, vcreate_u16                           \
9537                                     (__AARCH64_UINT64_C (0x0)));        \
9538        __asm__ ("uqrshrn2 %0.8h, %1.4s, #%2"                            \
9539                 : "+w"(result)                                          \
9540                 : "w"(b_), "i"(c)                                       \
9541                 : /* No clobbers */);                                   \
9542        result;                                                          \
9543      })
9544
9545 #define vqrshrn_high_n_u64(a, b, c)                                     \
9546   __extension__                                                         \
9547     ({                                                                  \
9548        uint64x2_t b_ = (b);                                             \
9549        uint32x2_t a_ = (a);                                             \
9550        uint32x4_t result = vcombine_u32                                 \
9551                              (a_, vcreate_u32                           \
9552                                     (__AARCH64_UINT64_C (0x0)));        \
9553        __asm__ ("uqrshrn2 %0.4s, %1.2d, #%2"                            \
9554                 : "+w"(result)                                          \
9555                 : "w"(b_), "i"(c)                                       \
9556                 : /* No clobbers */);                                   \
9557        result;                                                          \
9558      })
9559
9560 #define vqrshrun_high_n_s16(a, b, c)                                    \
9561   __extension__                                                         \
9562     ({                                                                  \
9563        int16x8_t b_ = (b);                                              \
9564        uint8x8_t a_ = (a);                                              \
9565        uint8x16_t result = vcombine_u8                                  \
9566                              (a_, vcreate_u8                            \
9567                                     (__AARCH64_UINT64_C (0x0)));        \
9568        __asm__ ("sqrshrun2 %0.16b, %1.8h, #%2"                          \
9569                 : "+w"(result)                                          \
9570                 : "w"(b_), "i"(c)                                       \
9571                 : /* No clobbers */);                                   \
9572        result;                                                          \
9573      })
9574
9575 #define vqrshrun_high_n_s32(a, b, c)                                    \
9576   __extension__                                                         \
9577     ({                                                                  \
9578        int32x4_t b_ = (b);                                              \
9579        uint16x4_t a_ = (a);                                             \
9580        uint16x8_t result = vcombine_u16                                 \
9581                              (a_, vcreate_u16                           \
9582                                     (__AARCH64_UINT64_C (0x0)));        \
9583        __asm__ ("sqrshrun2 %0.8h, %1.4s, #%2"                           \
9584                 : "+w"(result)                                          \
9585                 : "w"(b_), "i"(c)                                       \
9586                 : /* No clobbers */);                                   \
9587        result;                                                          \
9588      })
9589
9590 #define vqrshrun_high_n_s64(a, b, c)                                    \
9591   __extension__                                                         \
9592     ({                                                                  \
9593        int64x2_t b_ = (b);                                              \
9594        uint32x2_t a_ = (a);                                             \
9595        uint32x4_t result = vcombine_u32                                 \
9596                              (a_, vcreate_u32                           \
9597                                     (__AARCH64_UINT64_C (0x0)));        \
9598        __asm__ ("sqrshrun2 %0.4s, %1.2d, #%2"                           \
9599                 : "+w"(result)                                          \
9600                 : "w"(b_), "i"(c)                                       \
9601                 : /* No clobbers */);                                   \
9602        result;                                                          \
9603      })
9604
9605 #define vqshrn_high_n_s16(a, b, c)                                      \
9606   __extension__                                                         \
9607     ({                                                                  \
9608        int16x8_t b_ = (b);                                              \
9609        int8x8_t a_ = (a);                                               \
9610        int8x16_t result = vcombine_s8                                   \
9611                             (a_, vcreate_s8                             \
9612                                    (__AARCH64_UINT64_C (0x0)));         \
9613        __asm__ ("sqshrn2 %0.16b, %1.8h, #%2"                            \
9614                 : "+w"(result)                                          \
9615                 : "w"(b_), "i"(c)                                       \
9616                 : /* No clobbers */);                                   \
9617        result;                                                          \
9618      })
9619
9620 #define vqshrn_high_n_s32(a, b, c)                                      \
9621   __extension__                                                         \
9622     ({                                                                  \
9623        int32x4_t b_ = (b);                                              \
9624        int16x4_t a_ = (a);                                              \
9625        int16x8_t result = vcombine_s16                                  \
9626                             (a_, vcreate_s16                            \
9627                                    (__AARCH64_UINT64_C (0x0)));         \
9628        __asm__ ("sqshrn2 %0.8h, %1.4s, #%2"                             \
9629                 : "+w"(result)                                          \
9630                 : "w"(b_), "i"(c)                                       \
9631                 : /* No clobbers */);                                   \
9632        result;                                                          \
9633      })
9634
9635 #define vqshrn_high_n_s64(a, b, c)                                      \
9636   __extension__                                                         \
9637     ({                                                                  \
9638        int64x2_t b_ = (b);                                              \
9639        int32x2_t a_ = (a);                                              \
9640        int32x4_t result = vcombine_s32                                  \
9641                             (a_, vcreate_s32                            \
9642                                    (__AARCH64_UINT64_C (0x0)));         \
9643        __asm__ ("sqshrn2 %0.4s, %1.2d, #%2"                             \
9644                 : "+w"(result)                                          \
9645                 : "w"(b_), "i"(c)                                       \
9646                 : /* No clobbers */);                                   \
9647        result;                                                          \
9648      })
9649
9650 #define vqshrn_high_n_u16(a, b, c)                                      \
9651   __extension__                                                         \
9652     ({                                                                  \
9653        uint16x8_t b_ = (b);                                             \
9654        uint8x8_t a_ = (a);                                              \
9655        uint8x16_t result = vcombine_u8                                  \
9656                              (a_, vcreate_u8                            \
9657                                     (__AARCH64_UINT64_C (0x0)));        \
9658        __asm__ ("uqshrn2 %0.16b, %1.8h, #%2"                            \
9659                 : "+w"(result)                                          \
9660                 : "w"(b_), "i"(c)                                       \
9661                 : /* No clobbers */);                                   \
9662        result;                                                          \
9663      })
9664
9665 #define vqshrn_high_n_u32(a, b, c)                                      \
9666   __extension__                                                         \
9667     ({                                                                  \
9668        uint32x4_t b_ = (b);                                             \
9669        uint16x4_t a_ = (a);                                             \
9670        uint16x8_t result = vcombine_u16                                 \
9671                              (a_, vcreate_u16                           \
9672                                     (__AARCH64_UINT64_C (0x0)));        \
9673        __asm__ ("uqshrn2 %0.8h, %1.4s, #%2"                             \
9674                 : "+w"(result)                                          \
9675                 : "w"(b_), "i"(c)                                       \
9676                 : /* No clobbers */);                                   \
9677        result;                                                          \
9678      })
9679
9680 #define vqshrn_high_n_u64(a, b, c)                                      \
9681   __extension__                                                         \
9682     ({                                                                  \
9683        uint64x2_t b_ = (b);                                             \
9684        uint32x2_t a_ = (a);                                             \
9685        uint32x4_t result = vcombine_u32                                 \
9686                              (a_, vcreate_u32                           \
9687                                     (__AARCH64_UINT64_C (0x0)));        \
9688        __asm__ ("uqshrn2 %0.4s, %1.2d, #%2"                             \
9689                 : "+w"(result)                                          \
9690                 : "w"(b_), "i"(c)                                       \
9691                 : /* No clobbers */);                                   \
9692        result;                                                          \
9693      })
9694
9695 #define vqshrun_high_n_s16(a, b, c)                                     \
9696   __extension__                                                         \
9697     ({                                                                  \
9698        int16x8_t b_ = (b);                                              \
9699        uint8x8_t a_ = (a);                                              \
9700        uint8x16_t result = vcombine_u8                                  \
9701                              (a_, vcreate_u8                            \
9702                                     (__AARCH64_UINT64_C (0x0)));        \
9703        __asm__ ("sqshrun2 %0.16b, %1.8h, #%2"                           \
9704                 : "+w"(result)                                          \
9705                 : "w"(b_), "i"(c)                                       \
9706                 : /* No clobbers */);                                   \
9707        result;                                                          \
9708      })
9709
9710 #define vqshrun_high_n_s32(a, b, c)                                     \
9711   __extension__                                                         \
9712     ({                                                                  \
9713        int32x4_t b_ = (b);                                              \
9714        uint16x4_t a_ = (a);                                             \
9715        uint16x8_t result = vcombine_u16                                 \
9716                              (a_, vcreate_u16                           \
9717                                     (__AARCH64_UINT64_C (0x0)));        \
9718        __asm__ ("sqshrun2 %0.8h, %1.4s, #%2"                            \
9719                 : "+w"(result)                                          \
9720                 : "w"(b_), "i"(c)                                       \
9721                 : /* No clobbers */);                                   \
9722        result;                                                          \
9723      })
9724
9725 #define vqshrun_high_n_s64(a, b, c)                                     \
9726   __extension__                                                         \
9727     ({                                                                  \
9728        int64x2_t b_ = (b);                                              \
9729        uint32x2_t a_ = (a);                                             \
9730        uint32x4_t result = vcombine_u32                                 \
9731                              (a_, vcreate_u32                           \
9732                                     (__AARCH64_UINT64_C (0x0)));        \
9733        __asm__ ("sqshrun2 %0.4s, %1.2d, #%2"                            \
9734                 : "+w"(result)                                          \
9735                 : "w"(b_), "i"(c)                                       \
9736                 : /* No clobbers */);                                   \
9737        result;                                                          \
9738      })
9739
9740 #define vrshrn_high_n_s16(a, b, c)                                      \
9741   __extension__                                                         \
9742     ({                                                                  \
9743        int16x8_t b_ = (b);                                              \
9744        int8x8_t a_ = (a);                                               \
9745        int8x16_t result = vcombine_s8                                   \
9746                             (a_, vcreate_s8                             \
9747                                    (__AARCH64_UINT64_C (0x0)));         \
9748        __asm__ ("rshrn2 %0.16b,%1.8h,#%2"                               \
9749                 : "+w"(result)                                          \
9750                 : "w"(b_), "i"(c)                                       \
9751                 : /* No clobbers */);                                   \
9752        result;                                                          \
9753      })
9754
9755 #define vrshrn_high_n_s32(a, b, c)                                      \
9756   __extension__                                                         \
9757     ({                                                                  \
9758        int32x4_t b_ = (b);                                              \
9759        int16x4_t a_ = (a);                                              \
9760        int16x8_t result = vcombine_s16                                  \
9761                             (a_, vcreate_s16                            \
9762                                    (__AARCH64_UINT64_C (0x0)));         \
9763        __asm__ ("rshrn2 %0.8h,%1.4s,#%2"                                \
9764                 : "+w"(result)                                          \
9765                 : "w"(b_), "i"(c)                                       \
9766                 : /* No clobbers */);                                   \
9767        result;                                                          \
9768      })
9769
9770 #define vrshrn_high_n_s64(a, b, c)                                      \
9771   __extension__                                                         \
9772     ({                                                                  \
9773        int64x2_t b_ = (b);                                              \
9774        int32x2_t a_ = (a);                                              \
9775        int32x4_t result = vcombine_s32                                  \
9776                             (a_, vcreate_s32                            \
9777                                    (__AARCH64_UINT64_C (0x0)));         \
9778        __asm__ ("rshrn2 %0.4s,%1.2d,#%2"                                \
9779                 : "+w"(result)                                          \
9780                 : "w"(b_), "i"(c)                                       \
9781                 : /* No clobbers */);                                   \
9782        result;                                                          \
9783      })
9784
9785 #define vrshrn_high_n_u16(a, b, c)                                      \
9786   __extension__                                                         \
9787     ({                                                                  \
9788        uint16x8_t b_ = (b);                                             \
9789        uint8x8_t a_ = (a);                                              \
9790        uint8x16_t result = vcombine_u8                                  \
9791                             (a_, vcreate_u8                             \
9792                                    (__AARCH64_UINT64_C (0x0)));         \
9793        __asm__ ("rshrn2 %0.16b,%1.8h,#%2"                               \
9794                 : "+w"(result)                                          \
9795                 : "w"(b_), "i"(c)                                       \
9796                 : /* No clobbers */);                                   \
9797        result;                                                          \
9798      })
9799
9800 #define vrshrn_high_n_u32(a, b, c)                                      \
9801   __extension__                                                         \
9802     ({                                                                  \
9803        uint32x4_t b_ = (b);                                             \
9804        uint16x4_t a_ = (a);                                             \
9805        uint16x8_t result = vcombine_u16                                 \
9806                             (a_, vcreate_u16                            \
9807                                    (__AARCH64_UINT64_C (0x0)));         \
9808        __asm__ ("rshrn2 %0.8h,%1.4s,#%2"                                \
9809                 : "+w"(result)                                          \
9810                 : "w"(b_), "i"(c)                                       \
9811                 : /* No clobbers */);                                   \
9812        result;                                                          \
9813      })
9814
9815 #define vrshrn_high_n_u64(a, b, c)                                      \
9816   __extension__                                                         \
9817     ({                                                                  \
9818        uint64x2_t b_ = (b);                                             \
9819        uint32x2_t a_ = (a);                                             \
9820        uint32x4_t result = vcombine_u32                                 \
9821                             (a_, vcreate_u32                            \
9822                                    (__AARCH64_UINT64_C (0x0)));         \
9823        __asm__ ("rshrn2 %0.4s,%1.2d,#%2"                                \
9824                 : "+w"(result)                                          \
9825                 : "w"(b_), "i"(c)                                       \
9826                 : /* No clobbers */);                                   \
9827        result;                                                          \
9828      })
9829
9830 #define vrshrn_n_s16(a, b)                                              \
9831   __extension__                                                         \
9832     ({                                                                  \
9833        int16x8_t a_ = (a);                                              \
9834        int8x8_t result;                                                 \
9835        __asm__ ("rshrn %0.8b,%1.8h,%2"                                  \
9836                 : "=w"(result)                                          \
9837                 : "w"(a_), "i"(b)                                       \
9838                 : /* No clobbers */);                                   \
9839        result;                                                          \
9840      })
9841
9842 #define vrshrn_n_s32(a, b)                                              \
9843   __extension__                                                         \
9844     ({                                                                  \
9845        int32x4_t a_ = (a);                                              \
9846        int16x4_t result;                                                \
9847        __asm__ ("rshrn %0.4h,%1.4s,%2"                                  \
9848                 : "=w"(result)                                          \
9849                 : "w"(a_), "i"(b)                                       \
9850                 : /* No clobbers */);                                   \
9851        result;                                                          \
9852      })
9853
9854 #define vrshrn_n_s64(a, b)                                              \
9855   __extension__                                                         \
9856     ({                                                                  \
9857        int64x2_t a_ = (a);                                              \
9858        int32x2_t result;                                                \
9859        __asm__ ("rshrn %0.2s,%1.2d,%2"                                  \
9860                 : "=w"(result)                                          \
9861                 : "w"(a_), "i"(b)                                       \
9862                 : /* No clobbers */);                                   \
9863        result;                                                          \
9864      })
9865
9866 #define vrshrn_n_u16(a, b)                                              \
9867   __extension__                                                         \
9868     ({                                                                  \
9869        uint16x8_t a_ = (a);                                             \
9870        uint8x8_t result;                                                \
9871        __asm__ ("rshrn %0.8b,%1.8h,%2"                                  \
9872                 : "=w"(result)                                          \
9873                 : "w"(a_), "i"(b)                                       \
9874                 : /* No clobbers */);                                   \
9875        result;                                                          \
9876      })
9877
9878 #define vrshrn_n_u32(a, b)                                              \
9879   __extension__                                                         \
9880     ({                                                                  \
9881        uint32x4_t a_ = (a);                                             \
9882        uint16x4_t result;                                               \
9883        __asm__ ("rshrn %0.4h,%1.4s,%2"                                  \
9884                 : "=w"(result)                                          \
9885                 : "w"(a_), "i"(b)                                       \
9886                 : /* No clobbers */);                                   \
9887        result;                                                          \
9888      })
9889
9890 #define vrshrn_n_u64(a, b)                                              \
9891   __extension__                                                         \
9892     ({                                                                  \
9893        uint64x2_t a_ = (a);                                             \
9894        uint32x2_t result;                                               \
9895        __asm__ ("rshrn %0.2s,%1.2d,%2"                                  \
9896                 : "=w"(result)                                          \
9897                 : "w"(a_), "i"(b)                                       \
9898                 : /* No clobbers */);                                   \
9899        result;                                                          \
9900      })
9901
9902 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
9903 vrsqrte_f32 (float32x2_t a)
9904 {
9905   float32x2_t result;
9906   __asm__ ("frsqrte %0.2s,%1.2s"
9907            : "=w"(result)
9908            : "w"(a)
9909            : /* No clobbers */);
9910   return result;
9911 }
9912
9913 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
9914 vrsqrte_f64 (float64x1_t a)
9915 {
9916   float64x1_t result;
9917   __asm__ ("frsqrte %d0,%d1"
9918            : "=w"(result)
9919            : "w"(a)
9920            : /* No clobbers */);
9921   return result;
9922 }
9923
9924 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
9925 vrsqrte_u32 (uint32x2_t a)
9926 {
9927   uint32x2_t result;
9928   __asm__ ("ursqrte %0.2s,%1.2s"
9929            : "=w"(result)
9930            : "w"(a)
9931            : /* No clobbers */);
9932   return result;
9933 }
9934
9935 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
9936 vrsqrted_f64 (float64_t a)
9937 {
9938   float64_t result;
9939   __asm__ ("frsqrte %d0,%d1"
9940            : "=w"(result)
9941            : "w"(a)
9942            : /* No clobbers */);
9943   return result;
9944 }
9945
9946 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
9947 vrsqrteq_f32 (float32x4_t a)
9948 {
9949   float32x4_t result;
9950   __asm__ ("frsqrte %0.4s,%1.4s"
9951            : "=w"(result)
9952            : "w"(a)
9953            : /* No clobbers */);
9954   return result;
9955 }
9956
9957 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
9958 vrsqrteq_f64 (float64x2_t a)
9959 {
9960   float64x2_t result;
9961   __asm__ ("frsqrte %0.2d,%1.2d"
9962            : "=w"(result)
9963            : "w"(a)
9964            : /* No clobbers */);
9965   return result;
9966 }
9967
9968 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
9969 vrsqrteq_u32 (uint32x4_t a)
9970 {
9971   uint32x4_t result;
9972   __asm__ ("ursqrte %0.4s,%1.4s"
9973            : "=w"(result)
9974            : "w"(a)
9975            : /* No clobbers */);
9976   return result;
9977 }
9978
9979 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
9980 vrsqrtes_f32 (float32_t a)
9981 {
9982   float32_t result;
9983   __asm__ ("frsqrte %s0,%s1"
9984            : "=w"(result)
9985            : "w"(a)
9986            : /* No clobbers */);
9987   return result;
9988 }
9989
9990 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
9991 vrsqrts_f32 (float32x2_t a, float32x2_t b)
9992 {
9993   float32x2_t result;
9994   __asm__ ("frsqrts %0.2s,%1.2s,%2.2s"
9995            : "=w"(result)
9996            : "w"(a), "w"(b)
9997            : /* No clobbers */);
9998   return result;
9999 }
10000
10001 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
10002 vrsqrtsd_f64 (float64_t a, float64_t b)
10003 {
10004   float64_t result;
10005   __asm__ ("frsqrts %d0,%d1,%d2"
10006            : "=w"(result)
10007            : "w"(a), "w"(b)
10008            : /* No clobbers */);
10009   return result;
10010 }
10011
10012 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
10013 vrsqrtsq_f32 (float32x4_t a, float32x4_t b)
10014 {
10015   float32x4_t result;
10016   __asm__ ("frsqrts %0.4s,%1.4s,%2.4s"
10017            : "=w"(result)
10018            : "w"(a), "w"(b)
10019            : /* No clobbers */);
10020   return result;
10021 }
10022
10023 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
10024 vrsqrtsq_f64 (float64x2_t a, float64x2_t b)
10025 {
10026   float64x2_t result;
10027   __asm__ ("frsqrts %0.2d,%1.2d,%2.2d"
10028            : "=w"(result)
10029            : "w"(a), "w"(b)
10030            : /* No clobbers */);
10031   return result;
10032 }
10033
10034 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
10035 vrsqrtss_f32 (float32_t a, float32_t b)
10036 {
10037   float32_t result;
10038   __asm__ ("frsqrts %s0,%s1,%s2"
10039            : "=w"(result)
10040            : "w"(a), "w"(b)
10041            : /* No clobbers */);
10042   return result;
10043 }
10044
10045 #define vshrn_high_n_s16(a, b, c)                                       \
10046   __extension__                                                         \
10047     ({                                                                  \
10048        int16x8_t b_ = (b);                                              \
10049        int8x8_t a_ = (a);                                               \
10050        int8x16_t result = vcombine_s8                                   \
10051                             (a_, vcreate_s8                             \
10052                                    (__AARCH64_UINT64_C (0x0)));         \
10053        __asm__ ("shrn2 %0.16b,%1.8h,#%2"                                \
10054                 : "+w"(result)                                          \
10055                 : "w"(b_), "i"(c)                                       \
10056                 : /* No clobbers */);                                   \
10057        result;                                                          \
10058      })
10059
10060 #define vshrn_high_n_s32(a, b, c)                                       \
10061   __extension__                                                         \
10062     ({                                                                  \
10063        int32x4_t b_ = (b);                                              \
10064        int16x4_t a_ = (a);                                              \
10065        int16x8_t result = vcombine_s16                                  \
10066                             (a_, vcreate_s16                            \
10067                                    (__AARCH64_UINT64_C (0x0)));         \
10068        __asm__ ("shrn2 %0.8h,%1.4s,#%2"                                 \
10069                 : "+w"(result)                                          \
10070                 : "w"(b_), "i"(c)                                       \
10071                 : /* No clobbers */);                                   \
10072        result;                                                          \
10073      })
10074
10075 #define vshrn_high_n_s64(a, b, c)                                       \
10076   __extension__                                                         \
10077     ({                                                                  \
10078        int64x2_t b_ = (b);                                              \
10079        int32x2_t a_ = (a);                                              \
10080        int32x4_t result = vcombine_s32                                  \
10081                             (a_, vcreate_s32                            \
10082                                    (__AARCH64_UINT64_C (0x0)));         \
10083        __asm__ ("shrn2 %0.4s,%1.2d,#%2"                                 \
10084                 : "+w"(result)                                          \
10085                 : "w"(b_), "i"(c)                                       \
10086                 : /* No clobbers */);                                   \
10087        result;                                                          \
10088      })
10089
10090 #define vshrn_high_n_u16(a, b, c)                                       \
10091   __extension__                                                         \
10092     ({                                                                  \
10093        uint16x8_t b_ = (b);                                             \
10094        uint8x8_t a_ = (a);                                              \
10095        uint8x16_t result = vcombine_u8                                  \
10096                             (a_, vcreate_u8                             \
10097                                    (__AARCH64_UINT64_C (0x0)));         \
10098        __asm__ ("shrn2 %0.16b,%1.8h,#%2"                                \
10099                 : "+w"(result)                                          \
10100                 : "w"(b_), "i"(c)                                       \
10101                 : /* No clobbers */);                                   \
10102        result;                                                          \
10103      })
10104
10105 #define vshrn_high_n_u32(a, b, c)                                       \
10106   __extension__                                                         \
10107     ({                                                                  \
10108        uint32x4_t b_ = (b);                                             \
10109        uint16x4_t a_ = (a);                                             \
10110        uint16x8_t result = vcombine_u16                                 \
10111                             (a_, vcreate_u16                            \
10112                                    (__AARCH64_UINT64_C (0x0)));         \
10113        __asm__ ("shrn2 %0.8h,%1.4s,#%2"                                 \
10114                 : "+w"(result)                                          \
10115                 : "w"(b_), "i"(c)                                       \
10116                 : /* No clobbers */);                                   \
10117        result;                                                          \
10118      })
10119
10120 #define vshrn_high_n_u64(a, b, c)                                       \
10121   __extension__                                                         \
10122     ({                                                                  \
10123        uint64x2_t b_ = (b);                                             \
10124        uint32x2_t a_ = (a);                                             \
10125        uint32x4_t result = vcombine_u32                                 \
10126                             (a_, vcreate_u32                            \
10127                                    (__AARCH64_UINT64_C (0x0)));         \
10128        __asm__ ("shrn2 %0.4s,%1.2d,#%2"                                 \
10129                 : "+w"(result)                                          \
10130                 : "w"(b_), "i"(c)                                       \
10131                 : /* No clobbers */);                                   \
10132        result;                                                          \
10133      })
10134
10135 #define vshrn_n_s16(a, b)                                               \
10136   __extension__                                                         \
10137     ({                                                                  \
10138        int16x8_t a_ = (a);                                              \
10139        int8x8_t result;                                                 \
10140        __asm__ ("shrn %0.8b,%1.8h,%2"                                   \
10141                 : "=w"(result)                                          \
10142                 : "w"(a_), "i"(b)                                       \
10143                 : /* No clobbers */);                                   \
10144        result;                                                          \
10145      })
10146
10147 #define vshrn_n_s32(a, b)                                               \
10148   __extension__                                                         \
10149     ({                                                                  \
10150        int32x4_t a_ = (a);                                              \
10151        int16x4_t result;                                                \
10152        __asm__ ("shrn %0.4h,%1.4s,%2"                                   \
10153                 : "=w"(result)                                          \
10154                 : "w"(a_), "i"(b)                                       \
10155                 : /* No clobbers */);                                   \
10156        result;                                                          \
10157      })
10158
10159 #define vshrn_n_s64(a, b)                                               \
10160   __extension__                                                         \
10161     ({                                                                  \
10162        int64x2_t a_ = (a);                                              \
10163        int32x2_t result;                                                \
10164        __asm__ ("shrn %0.2s,%1.2d,%2"                                   \
10165                 : "=w"(result)                                          \
10166                 : "w"(a_), "i"(b)                                       \
10167                 : /* No clobbers */);                                   \
10168        result;                                                          \
10169      })
10170
10171 #define vshrn_n_u16(a, b)                                               \
10172   __extension__                                                         \
10173     ({                                                                  \
10174        uint16x8_t a_ = (a);                                             \
10175        uint8x8_t result;                                                \
10176        __asm__ ("shrn %0.8b,%1.8h,%2"                                   \
10177                 : "=w"(result)                                          \
10178                 : "w"(a_), "i"(b)                                       \
10179                 : /* No clobbers */);                                   \
10180        result;                                                          \
10181      })
10182
10183 #define vshrn_n_u32(a, b)                                               \
10184   __extension__                                                         \
10185     ({                                                                  \
10186        uint32x4_t a_ = (a);                                             \
10187        uint16x4_t result;                                               \
10188        __asm__ ("shrn %0.4h,%1.4s,%2"                                   \
10189                 : "=w"(result)                                          \
10190                 : "w"(a_), "i"(b)                                       \
10191                 : /* No clobbers */);                                   \
10192        result;                                                          \
10193      })
10194
10195 #define vshrn_n_u64(a, b)                                               \
10196   __extension__                                                         \
10197     ({                                                                  \
10198        uint64x2_t a_ = (a);                                             \
10199        uint32x2_t result;                                               \
10200        __asm__ ("shrn %0.2s,%1.2d,%2"                                   \
10201                 : "=w"(result)                                          \
10202                 : "w"(a_), "i"(b)                                       \
10203                 : /* No clobbers */);                                   \
10204        result;                                                          \
10205      })
10206
10207 #define vsli_n_p8(a, b, c)                                              \
10208   __extension__                                                         \
10209     ({                                                                  \
10210        poly8x8_t b_ = (b);                                              \
10211        poly8x8_t a_ = (a);                                              \
10212        poly8x8_t result;                                                \
10213        __asm__ ("sli %0.8b,%2.8b,%3"                                    \
10214                 : "=w"(result)                                          \
10215                 : "0"(a_), "w"(b_), "i"(c)                              \
10216                 : /* No clobbers */);                                   \
10217        result;                                                          \
10218      })
10219
10220 #define vsli_n_p16(a, b, c)                                             \
10221   __extension__                                                         \
10222     ({                                                                  \
10223        poly16x4_t b_ = (b);                                             \
10224        poly16x4_t a_ = (a);                                             \
10225        poly16x4_t result;                                               \
10226        __asm__ ("sli %0.4h,%2.4h,%3"                                    \
10227                 : "=w"(result)                                          \
10228                 : "0"(a_), "w"(b_), "i"(c)                              \
10229                 : /* No clobbers */);                                   \
10230        result;                                                          \
10231      })
10232
10233 #define vsliq_n_p8(a, b, c)                                             \
10234   __extension__                                                         \
10235     ({                                                                  \
10236        poly8x16_t b_ = (b);                                             \
10237        poly8x16_t a_ = (a);                                             \
10238        poly8x16_t result;                                               \
10239        __asm__ ("sli %0.16b,%2.16b,%3"                                  \
10240                 : "=w"(result)                                          \
10241                 : "0"(a_), "w"(b_), "i"(c)                              \
10242                 : /* No clobbers */);                                   \
10243        result;                                                          \
10244      })
10245
10246 #define vsliq_n_p16(a, b, c)                                            \
10247   __extension__                                                         \
10248     ({                                                                  \
10249        poly16x8_t b_ = (b);                                             \
10250        poly16x8_t a_ = (a);                                             \
10251        poly16x8_t result;                                               \
10252        __asm__ ("sli %0.8h,%2.8h,%3"                                    \
10253                 : "=w"(result)                                          \
10254                 : "0"(a_), "w"(b_), "i"(c)                              \
10255                 : /* No clobbers */);                                   \
10256        result;                                                          \
10257      })
10258
10259 #define vsri_n_p8(a, b, c)                                              \
10260   __extension__                                                         \
10261     ({                                                                  \
10262        poly8x8_t b_ = (b);                                              \
10263        poly8x8_t a_ = (a);                                              \
10264        poly8x8_t result;                                                \
10265        __asm__ ("sri %0.8b,%2.8b,%3"                                    \
10266                 : "=w"(result)                                          \
10267                 : "0"(a_), "w"(b_), "i"(c)                              \
10268                 : /* No clobbers */);                                   \
10269        result;                                                          \
10270      })
10271
10272 #define vsri_n_p16(a, b, c)                                             \
10273   __extension__                                                         \
10274     ({                                                                  \
10275        poly16x4_t b_ = (b);                                             \
10276        poly16x4_t a_ = (a);                                             \
10277        poly16x4_t result;                                               \
10278        __asm__ ("sri %0.4h,%2.4h,%3"                                    \
10279                 : "=w"(result)                                          \
10280                 : "0"(a_), "w"(b_), "i"(c)                              \
10281                 : /* No clobbers */);                                   \
10282        result;                                                          \
10283      })
10284
10285 #define vsriq_n_p8(a, b, c)                                             \
10286   __extension__                                                         \
10287     ({                                                                  \
10288        poly8x16_t b_ = (b);                                             \
10289        poly8x16_t a_ = (a);                                             \
10290        poly8x16_t result;                                               \
10291        __asm__ ("sri %0.16b,%2.16b,%3"                                  \
10292                 : "=w"(result)                                          \
10293                 : "0"(a_), "w"(b_), "i"(c)                              \
10294                 : /* No clobbers */);                                   \
10295        result;                                                          \
10296      })
10297
10298 #define vsriq_n_p16(a, b, c)                                            \
10299   __extension__                                                         \
10300     ({                                                                  \
10301        poly16x8_t b_ = (b);                                             \
10302        poly16x8_t a_ = (a);                                             \
10303        poly16x8_t result;                                               \
10304        __asm__ ("sri %0.8h,%2.8h,%3"                                    \
10305                 : "=w"(result)                                          \
10306                 : "0"(a_), "w"(b_), "i"(c)                              \
10307                 : /* No clobbers */);                                   \
10308        result;                                                          \
10309      })
10310
10311 #define vst1_lane_f32(a, b, c)                                          \
10312   __extension__                                                         \
10313     ({                                                                  \
10314        float32x2_t b_ = (b);                                            \
10315        float32_t * a_ = (a);                                            \
10316        __asm__ ("st1 {%1.s}[%2],[%0]"                                   \
10317                 :                                                       \
10318                 : "r"(a_), "w"(b_), "i"(c)                              \
10319                 : "memory");                                            \
10320      })
10321
10322 #define vst1_lane_f64(a, b, c)                                          \
10323   __extension__                                                         \
10324     ({                                                                  \
10325        float64x1_t b_ = (b);                                            \
10326        float64_t * a_ = (a);                                            \
10327        __asm__ ("st1 {%1.d}[%2],[%0]"                                   \
10328                 :                                                       \
10329                 : "r"(a_), "w"(b_), "i"(c)                              \
10330                 : "memory");                                            \
10331      })
10332
10333 #define vst1_lane_p8(a, b, c)                                           \
10334   __extension__                                                         \
10335     ({                                                                  \
10336        poly8x8_t b_ = (b);                                              \
10337        poly8_t * a_ = (a);                                              \
10338        __asm__ ("st1 {%1.b}[%2],[%0]"                                   \
10339                 :                                                       \
10340                 : "r"(a_), "w"(b_), "i"(c)                              \
10341                 : "memory");                                            \
10342      })
10343
10344 #define vst1_lane_p16(a, b, c)                                          \
10345   __extension__                                                         \
10346     ({                                                                  \
10347        poly16x4_t b_ = (b);                                             \
10348        poly16_t * a_ = (a);                                             \
10349        __asm__ ("st1 {%1.h}[%2],[%0]"                                   \
10350                 :                                                       \
10351                 : "r"(a_), "w"(b_), "i"(c)                              \
10352                 : "memory");                                            \
10353      })
10354
10355 #define vst1_lane_s8(a, b, c)                                           \
10356   __extension__                                                         \
10357     ({                                                                  \
10358        int8x8_t b_ = (b);                                               \
10359        int8_t * a_ = (a);                                               \
10360        __asm__ ("st1 {%1.b}[%2],[%0]"                                   \
10361                 :                                                       \
10362                 : "r"(a_), "w"(b_), "i"(c)                              \
10363                 : "memory");                                            \
10364      })
10365
10366 #define vst1_lane_s16(a, b, c)                                          \
10367   __extension__                                                         \
10368     ({                                                                  \
10369        int16x4_t b_ = (b);                                              \
10370        int16_t * a_ = (a);                                              \
10371        __asm__ ("st1 {%1.h}[%2],[%0]"                                   \
10372                 :                                                       \
10373                 : "r"(a_), "w"(b_), "i"(c)                              \
10374                 : "memory");                                            \
10375      })
10376
10377 #define vst1_lane_s32(a, b, c)                                          \
10378   __extension__                                                         \
10379     ({                                                                  \
10380        int32x2_t b_ = (b);                                              \
10381        int32_t * a_ = (a);                                              \
10382        __asm__ ("st1 {%1.s}[%2],[%0]"                                   \
10383                 :                                                       \
10384                 : "r"(a_), "w"(b_), "i"(c)                              \
10385                 : "memory");                                            \
10386      })
10387
10388 #define vst1_lane_s64(a, b, c)                                          \
10389   __extension__                                                         \
10390     ({                                                                  \
10391        int64x1_t b_ = (b);                                              \
10392        int64_t * a_ = (a);                                              \
10393        __asm__ ("st1 {%1.d}[%2],[%0]"                                   \
10394                 :                                                       \
10395                 : "r"(a_), "w"(b_), "i"(c)                              \
10396                 : "memory");                                            \
10397      })
10398
10399 #define vst1_lane_u8(a, b, c)                                           \
10400   __extension__                                                         \
10401     ({                                                                  \
10402        uint8x8_t b_ = (b);                                              \
10403        uint8_t * a_ = (a);                                              \
10404        __asm__ ("st1 {%1.b}[%2],[%0]"                                   \
10405                 :                                                       \
10406                 : "r"(a_), "w"(b_), "i"(c)                              \
10407                 : "memory");                                            \
10408      })
10409
10410 #define vst1_lane_u16(a, b, c)                                          \
10411   __extension__                                                         \
10412     ({                                                                  \
10413        uint16x4_t b_ = (b);                                             \
10414        uint16_t * a_ = (a);                                             \
10415        __asm__ ("st1 {%1.h}[%2],[%0]"                                   \
10416                 :                                                       \
10417                 : "r"(a_), "w"(b_), "i"(c)                              \
10418                 : "memory");                                            \
10419      })
10420
10421 #define vst1_lane_u32(a, b, c)                                          \
10422   __extension__                                                         \
10423     ({                                                                  \
10424        uint32x2_t b_ = (b);                                             \
10425        uint32_t * a_ = (a);                                             \
10426        __asm__ ("st1 {%1.s}[%2],[%0]"                                   \
10427                 :                                                       \
10428                 : "r"(a_), "w"(b_), "i"(c)                              \
10429                 : "memory");                                            \
10430      })
10431
10432 #define vst1_lane_u64(a, b, c)                                          \
10433   __extension__                                                         \
10434     ({                                                                  \
10435        uint64x1_t b_ = (b);                                             \
10436        uint64_t * a_ = (a);                                             \
10437        __asm__ ("st1 {%1.d}[%2],[%0]"                                   \
10438                 :                                                       \
10439                 : "r"(a_), "w"(b_), "i"(c)                              \
10440                 : "memory");                                            \
10441      })
10442
10443
10444 #define vst1q_lane_f32(a, b, c)                                         \
10445   __extension__                                                         \
10446     ({                                                                  \
10447        float32x4_t b_ = (b);                                            \
10448        float32_t * a_ = (a);                                            \
10449        __asm__ ("st1 {%1.s}[%2],[%0]"                                   \
10450                 :                                                       \
10451                 : "r"(a_), "w"(b_), "i"(c)                              \
10452                 : "memory");                                            \
10453      })
10454
10455 #define vst1q_lane_f64(a, b, c)                                         \
10456   __extension__                                                         \
10457     ({                                                                  \
10458        float64x2_t b_ = (b);                                            \
10459        float64_t * a_ = (a);                                            \
10460        __asm__ ("st1 {%1.d}[%2],[%0]"                                   \
10461                 :                                                       \
10462                 : "r"(a_), "w"(b_), "i"(c)                              \
10463                 : "memory");                                            \
10464      })
10465
10466 #define vst1q_lane_p8(a, b, c)                                          \
10467   __extension__                                                         \
10468     ({                                                                  \
10469        poly8x16_t b_ = (b);                                             \
10470        poly8_t * a_ = (a);                                              \
10471        __asm__ ("st1 {%1.b}[%2],[%0]"                                   \
10472                 :                                                       \
10473                 : "r"(a_), "w"(b_), "i"(c)                              \
10474                 : "memory");                                            \
10475      })
10476
10477 #define vst1q_lane_p16(a, b, c)                                         \
10478   __extension__                                                         \
10479     ({                                                                  \
10480        poly16x8_t b_ = (b);                                             \
10481        poly16_t * a_ = (a);                                             \
10482        __asm__ ("st1 {%1.h}[%2],[%0]"                                   \
10483                 :                                                       \
10484                 : "r"(a_), "w"(b_), "i"(c)                              \
10485                 : "memory");                                            \
10486      })
10487
10488 #define vst1q_lane_s8(a, b, c)                                          \
10489   __extension__                                                         \
10490     ({                                                                  \
10491        int8x16_t b_ = (b);                                              \
10492        int8_t * a_ = (a);                                               \
10493        __asm__ ("st1 {%1.b}[%2],[%0]"                                   \
10494                 :                                                       \
10495                 : "r"(a_), "w"(b_), "i"(c)                              \
10496                 : "memory");                                            \
10497      })
10498
10499 #define vst1q_lane_s16(a, b, c)                                         \
10500   __extension__                                                         \
10501     ({                                                                  \
10502        int16x8_t b_ = (b);                                              \
10503        int16_t * a_ = (a);                                              \
10504        __asm__ ("st1 {%1.h}[%2],[%0]"                                   \
10505                 :                                                       \
10506                 : "r"(a_), "w"(b_), "i"(c)                              \
10507                 : "memory");                                            \
10508      })
10509
10510 #define vst1q_lane_s32(a, b, c)                                         \
10511   __extension__                                                         \
10512     ({                                                                  \
10513        int32x4_t b_ = (b);                                              \
10514        int32_t * a_ = (a);                                              \
10515        __asm__ ("st1 {%1.s}[%2],[%0]"                                   \
10516                 :                                                       \
10517                 : "r"(a_), "w"(b_), "i"(c)                              \
10518                 : "memory");                                            \
10519      })
10520
10521 #define vst1q_lane_s64(a, b, c)                                         \
10522   __extension__                                                         \
10523     ({                                                                  \
10524        int64x2_t b_ = (b);                                              \
10525        int64_t * a_ = (a);                                              \
10526        __asm__ ("st1 {%1.d}[%2],[%0]"                                   \
10527                 :                                                       \
10528                 : "r"(a_), "w"(b_), "i"(c)                              \
10529                 : "memory");                                            \
10530      })
10531
10532 #define vst1q_lane_u8(a, b, c)                                          \
10533   __extension__                                                         \
10534     ({                                                                  \
10535        uint8x16_t b_ = (b);                                             \
10536        uint8_t * a_ = (a);                                              \
10537        __asm__ ("st1 {%1.b}[%2],[%0]"                                   \
10538                 :                                                       \
10539                 : "r"(a_), "w"(b_), "i"(c)                              \
10540                 : "memory");                                            \
10541      })
10542
10543 #define vst1q_lane_u16(a, b, c)                                         \
10544   __extension__                                                         \
10545     ({                                                                  \
10546        uint16x8_t b_ = (b);                                             \
10547        uint16_t * a_ = (a);                                             \
10548        __asm__ ("st1 {%1.h}[%2],[%0]"                                   \
10549                 :                                                       \
10550                 : "r"(a_), "w"(b_), "i"(c)                              \
10551                 : "memory");                                            \
10552      })
10553
10554 #define vst1q_lane_u32(a, b, c)                                         \
10555   __extension__                                                         \
10556     ({                                                                  \
10557        uint32x4_t b_ = (b);                                             \
10558        uint32_t * a_ = (a);                                             \
10559        __asm__ ("st1 {%1.s}[%2],[%0]"                                   \
10560                 :                                                       \
10561                 : "r"(a_), "w"(b_), "i"(c)                              \
10562                 : "memory");                                            \
10563      })
10564
10565 #define vst1q_lane_u64(a, b, c)                                         \
10566   __extension__                                                         \
10567     ({                                                                  \
10568        uint64x2_t b_ = (b);                                             \
10569        uint64_t * a_ = (a);                                             \
10570        __asm__ ("st1 {%1.d}[%2],[%0]"                                   \
10571                 :                                                       \
10572                 : "r"(a_), "w"(b_), "i"(c)                              \
10573                 : "memory");                                            \
10574      })
10575
10576
10577 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
10578 vtst_p8 (poly8x8_t a, poly8x8_t b)
10579 {
10580   uint8x8_t result;
10581   __asm__ ("cmtst %0.8b, %1.8b, %2.8b"
10582            : "=w"(result)
10583            : "w"(a), "w"(b)
10584            : /* No clobbers */);
10585   return result;
10586 }
10587
10588 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
10589 vtst_p16 (poly16x4_t a, poly16x4_t b)
10590 {
10591   uint16x4_t result;
10592   __asm__ ("cmtst %0.4h, %1.4h, %2.4h"
10593            : "=w"(result)
10594            : "w"(a), "w"(b)
10595            : /* No clobbers */);
10596   return result;
10597 }
10598
10599 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
10600 vtstq_p8 (poly8x16_t a, poly8x16_t b)
10601 {
10602   uint8x16_t result;
10603   __asm__ ("cmtst %0.16b, %1.16b, %2.16b"
10604            : "=w"(result)
10605            : "w"(a), "w"(b)
10606            : /* No clobbers */);
10607   return result;
10608 }
10609
10610 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
10611 vtstq_p16 (poly16x8_t a, poly16x8_t b)
10612 {
10613   uint16x8_t result;
10614   __asm__ ("cmtst %0.8h, %1.8h, %2.8h"
10615            : "=w"(result)
10616            : "w"(a), "w"(b)
10617            : /* No clobbers */);
10618   return result;
10619 }
10620
10621 /* End of temporary inline asm implementations.  */
10622
10623 /* Start of temporary inline asm for vldn, vstn and friends.  */
10624
10625 /* Create struct element types for duplicating loads.
10626
10627    Create 2 element structures of:
10628
10629    +------+----+----+----+----+
10630    |      | 8  | 16 | 32 | 64 |
10631    +------+----+----+----+----+
10632    |int   | Y  | Y  | N  | N  |
10633    +------+----+----+----+----+
10634    |uint  | Y  | Y  | N  | N  |
10635    +------+----+----+----+----+
10636    |float | -  | -  | N  | N  |
10637    +------+----+----+----+----+
10638    |poly  | Y  | Y  | -  | -  |
10639    +------+----+----+----+----+
10640
10641    Create 3 element structures of:
10642
10643    +------+----+----+----+----+
10644    |      | 8  | 16 | 32 | 64 |
10645    +------+----+----+----+----+
10646    |int   | Y  | Y  | Y  | Y  |
10647    +------+----+----+----+----+
10648    |uint  | Y  | Y  | Y  | Y  |
10649    +------+----+----+----+----+
10650    |float | -  | -  | Y  | Y  |
10651    +------+----+----+----+----+
10652    |poly  | Y  | Y  | -  | -  |
10653    +------+----+----+----+----+
10654
10655    Create 4 element structures of:
10656
10657    +------+----+----+----+----+
10658    |      | 8  | 16 | 32 | 64 |
10659    +------+----+----+----+----+
10660    |int   | Y  | N  | N  | Y  |
10661    +------+----+----+----+----+
10662    |uint  | Y  | N  | N  | Y  |
10663    +------+----+----+----+----+
10664    |float | -  | -  | N  | Y  |
10665    +------+----+----+----+----+
10666    |poly  | Y  | N  | -  | -  |
10667    +------+----+----+----+----+
10668
10669   This is required for casting memory reference.  */
10670 #define __STRUCTN(t, sz, nelem)                 \
10671   typedef struct t ## sz ## x ## nelem ## _t {  \
10672     t ## sz ## _t val[nelem];                   \
10673   }  t ## sz ## x ## nelem ## _t;
10674
10675 /* 2-element structs.  */
10676 __STRUCTN (int, 8, 2)
10677 __STRUCTN (int, 16, 2)
10678 __STRUCTN (uint, 8, 2)
10679 __STRUCTN (uint, 16, 2)
10680 __STRUCTN (poly, 8, 2)
10681 __STRUCTN (poly, 16, 2)
10682 /* 3-element structs.  */
10683 __STRUCTN (int, 8, 3)
10684 __STRUCTN (int, 16, 3)
10685 __STRUCTN (int, 32, 3)
10686 __STRUCTN (int, 64, 3)
10687 __STRUCTN (uint, 8, 3)
10688 __STRUCTN (uint, 16, 3)
10689 __STRUCTN (uint, 32, 3)
10690 __STRUCTN (uint, 64, 3)
10691 __STRUCTN (float, 32, 3)
10692 __STRUCTN (float, 64, 3)
10693 __STRUCTN (poly, 8, 3)
10694 __STRUCTN (poly, 16, 3)
10695 /* 4-element structs.  */
10696 __STRUCTN (int, 8, 4)
10697 __STRUCTN (int, 64, 4)
10698 __STRUCTN (uint, 8, 4)
10699 __STRUCTN (uint, 64, 4)
10700 __STRUCTN (poly, 8, 4)
10701 __STRUCTN (float, 64, 4)
10702 #undef __STRUCTN
10703
10704
10705 #define __ST2_LANE_FUNC(intype, largetype, ptrtype,                          \
10706                         mode, ptr_mode, funcsuffix, signedtype)              \
10707 __extension__ static __inline void                                           \
10708 __attribute__ ((__always_inline__))                                          \
10709 vst2_lane_ ## funcsuffix (ptrtype *__ptr,                                    \
10710                           intype __b, const int __c)                         \
10711 {                                                                            \
10712   __builtin_aarch64_simd_oi __o;                                             \
10713   largetype __temp;                                                          \
10714   __temp.val[0]                                                              \
10715     = vcombine_##funcsuffix (__b.val[0],                                     \
10716                              vcreate_##funcsuffix (__AARCH64_UINT64_C (0))); \
10717   __temp.val[1]                                                              \
10718     = vcombine_##funcsuffix (__b.val[1],                                     \
10719                              vcreate_##funcsuffix (__AARCH64_UINT64_C (0))); \
10720   __o = __builtin_aarch64_set_qregoi##mode (__o,                             \
10721                                             (signedtype) __temp.val[0], 0);  \
10722   __o = __builtin_aarch64_set_qregoi##mode (__o,                             \
10723                                             (signedtype) __temp.val[1], 1);  \
10724   __builtin_aarch64_st2_lane##mode ((__builtin_aarch64_simd_ ## ptr_mode *)  \
10725                                      __ptr, __o, __c);                       \
10726 }
10727
10728 __ST2_LANE_FUNC (float32x2x2_t, float32x4x2_t, float32_t, v4sf, sf, f32,
10729                  float32x4_t)
10730 __ST2_LANE_FUNC (float64x1x2_t, float64x2x2_t, float64_t, v2df, df, f64,
10731                  float64x2_t)
10732 __ST2_LANE_FUNC (poly8x8x2_t, poly8x16x2_t, poly8_t, v16qi, qi, p8, int8x16_t)
10733 __ST2_LANE_FUNC (poly16x4x2_t, poly16x8x2_t, poly16_t, v8hi, hi, p16,
10734                  int16x8_t)
10735 __ST2_LANE_FUNC (int8x8x2_t, int8x16x2_t, int8_t, v16qi, qi, s8, int8x16_t)
10736 __ST2_LANE_FUNC (int16x4x2_t, int16x8x2_t, int16_t, v8hi, hi, s16, int16x8_t)
10737 __ST2_LANE_FUNC (int32x2x2_t, int32x4x2_t, int32_t, v4si, si, s32, int32x4_t)
10738 __ST2_LANE_FUNC (int64x1x2_t, int64x2x2_t, int64_t, v2di, di, s64, int64x2_t)
10739 __ST2_LANE_FUNC (uint8x8x2_t, uint8x16x2_t, uint8_t, v16qi, qi, u8, int8x16_t)
10740 __ST2_LANE_FUNC (uint16x4x2_t, uint16x8x2_t, uint16_t, v8hi, hi, u16,
10741                  int16x8_t)
10742 __ST2_LANE_FUNC (uint32x2x2_t, uint32x4x2_t, uint32_t, v4si, si, u32,
10743                  int32x4_t)
10744 __ST2_LANE_FUNC (uint64x1x2_t, uint64x2x2_t, uint64_t, v2di, di, u64,
10745                  int64x2_t)
10746
10747 #undef __ST2_LANE_FUNC
10748 #define __ST2_LANE_FUNC(intype, ptrtype, mode, ptr_mode, funcsuffix)        \
10749 __extension__ static __inline void                                          \
10750 __attribute__ ((__always_inline__))                                         \
10751 vst2q_lane_ ## funcsuffix (ptrtype *__ptr,                                  \
10752                            intype __b, const int __c)                       \
10753 {                                                                           \
10754   union { intype __i;                                                       \
10755           __builtin_aarch64_simd_oi __o; } __temp = { __b };                \
10756   __builtin_aarch64_st2_lane##mode ((__builtin_aarch64_simd_ ## ptr_mode *) \
10757                                     __ptr, __temp.__o, __c);                \
10758 }
10759
10760 __ST2_LANE_FUNC (float32x4x2_t, float32_t, v4sf, sf, f32)
10761 __ST2_LANE_FUNC (float64x2x2_t, float64_t, v2df, df, f64)
10762 __ST2_LANE_FUNC (poly8x16x2_t, poly8_t, v16qi, qi, p8)
10763 __ST2_LANE_FUNC (poly16x8x2_t, poly16_t, v8hi, hi, p16)
10764 __ST2_LANE_FUNC (int8x16x2_t, int8_t, v16qi, qi, s8)
10765 __ST2_LANE_FUNC (int16x8x2_t, int16_t, v8hi, hi, s16)
10766 __ST2_LANE_FUNC (int32x4x2_t, int32_t, v4si, si, s32)
10767 __ST2_LANE_FUNC (int64x2x2_t, int64_t, v2di, di, s64)
10768 __ST2_LANE_FUNC (uint8x16x2_t, uint8_t, v16qi, qi, u8)
10769 __ST2_LANE_FUNC (uint16x8x2_t, uint16_t, v8hi, hi, u16)
10770 __ST2_LANE_FUNC (uint32x4x2_t, uint32_t, v4si, si, u32)
10771 __ST2_LANE_FUNC (uint64x2x2_t, uint64_t, v2di, di, u64)
10772
10773 #define __ST3_LANE_FUNC(intype, largetype, ptrtype,                          \
10774                         mode, ptr_mode, funcsuffix, signedtype)              \
10775 __extension__ static __inline void                                           \
10776 __attribute__ ((__always_inline__))                                          \
10777 vst3_lane_ ## funcsuffix (ptrtype *__ptr,                                    \
10778                           intype __b, const int __c)                         \
10779 {                                                                            \
10780   __builtin_aarch64_simd_ci __o;                                             \
10781   largetype __temp;                                                          \
10782   __temp.val[0]                                                              \
10783     = vcombine_##funcsuffix (__b.val[0],                                     \
10784                              vcreate_##funcsuffix (__AARCH64_UINT64_C (0))); \
10785   __temp.val[1]                                                              \
10786     = vcombine_##funcsuffix (__b.val[1],                                     \
10787                              vcreate_##funcsuffix (__AARCH64_UINT64_C (0))); \
10788   __temp.val[2]                                                              \
10789     = vcombine_##funcsuffix (__b.val[2],                                     \
10790                              vcreate_##funcsuffix (__AARCH64_UINT64_C (0))); \
10791   __o = __builtin_aarch64_set_qregci##mode (__o,                             \
10792                                             (signedtype) __temp.val[0], 0);  \
10793   __o = __builtin_aarch64_set_qregci##mode (__o,                             \
10794                                             (signedtype) __temp.val[1], 1);  \
10795   __o = __builtin_aarch64_set_qregci##mode (__o,                             \
10796                                             (signedtype) __temp.val[2], 2);  \
10797   __builtin_aarch64_st3_lane##mode ((__builtin_aarch64_simd_ ## ptr_mode *)  \
10798                                      __ptr, __o, __c);                       \
10799 }
10800
10801 __ST3_LANE_FUNC (float32x2x3_t, float32x4x3_t, float32_t, v4sf, sf, f32,
10802                  float32x4_t)
10803 __ST3_LANE_FUNC (float64x1x3_t, float64x2x3_t, float64_t, v2df, df, f64,
10804                  float64x2_t)
10805 __ST3_LANE_FUNC (poly8x8x3_t, poly8x16x3_t, poly8_t, v16qi, qi, p8, int8x16_t)
10806 __ST3_LANE_FUNC (poly16x4x3_t, poly16x8x3_t, poly16_t, v8hi, hi, p16,
10807                  int16x8_t)
10808 __ST3_LANE_FUNC (int8x8x3_t, int8x16x3_t, int8_t, v16qi, qi, s8, int8x16_t)
10809 __ST3_LANE_FUNC (int16x4x3_t, int16x8x3_t, int16_t, v8hi, hi, s16, int16x8_t)
10810 __ST3_LANE_FUNC (int32x2x3_t, int32x4x3_t, int32_t, v4si, si, s32, int32x4_t)
10811 __ST3_LANE_FUNC (int64x1x3_t, int64x2x3_t, int64_t, v2di, di, s64, int64x2_t)
10812 __ST3_LANE_FUNC (uint8x8x3_t, uint8x16x3_t, uint8_t, v16qi, qi, u8, int8x16_t)
10813 __ST3_LANE_FUNC (uint16x4x3_t, uint16x8x3_t, uint16_t, v8hi, hi, u16,
10814                  int16x8_t)
10815 __ST3_LANE_FUNC (uint32x2x3_t, uint32x4x3_t, uint32_t, v4si, si, u32,
10816                  int32x4_t)
10817 __ST3_LANE_FUNC (uint64x1x3_t, uint64x2x3_t, uint64_t, v2di, di, u64,
10818                  int64x2_t)
10819
10820 #undef __ST3_LANE_FUNC
10821 #define __ST3_LANE_FUNC(intype, ptrtype, mode, ptr_mode, funcsuffix)        \
10822 __extension__ static __inline void                                          \
10823 __attribute__ ((__always_inline__))                                         \
10824 vst3q_lane_ ## funcsuffix (ptrtype *__ptr,                                  \
10825                            intype __b, const int __c)                       \
10826 {                                                                           \
10827   union { intype __i;                                                       \
10828           __builtin_aarch64_simd_ci __o; } __temp = { __b };                \
10829   __builtin_aarch64_st3_lane##mode ((__builtin_aarch64_simd_ ## ptr_mode *) \
10830                                     __ptr, __temp.__o, __c);                \
10831 }
10832
10833 __ST3_LANE_FUNC (float32x4x3_t, float32_t, v4sf, sf, f32)
10834 __ST3_LANE_FUNC (float64x2x3_t, float64_t, v2df, df, f64)
10835 __ST3_LANE_FUNC (poly8x16x3_t, poly8_t, v16qi, qi, p8)
10836 __ST3_LANE_FUNC (poly16x8x3_t, poly16_t, v8hi, hi, p16)
10837 __ST3_LANE_FUNC (int8x16x3_t, int8_t, v16qi, qi, s8)
10838 __ST3_LANE_FUNC (int16x8x3_t, int16_t, v8hi, hi, s16)
10839 __ST3_LANE_FUNC (int32x4x3_t, int32_t, v4si, si, s32)
10840 __ST3_LANE_FUNC (int64x2x3_t, int64_t, v2di, di, s64)
10841 __ST3_LANE_FUNC (uint8x16x3_t, uint8_t, v16qi, qi, u8)
10842 __ST3_LANE_FUNC (uint16x8x3_t, uint16_t, v8hi, hi, u16)
10843 __ST3_LANE_FUNC (uint32x4x3_t, uint32_t, v4si, si, u32)
10844 __ST3_LANE_FUNC (uint64x2x3_t, uint64_t, v2di, di, u64)
10845
10846 #define __ST4_LANE_FUNC(intype, largetype, ptrtype,                          \
10847                         mode, ptr_mode, funcsuffix, signedtype)              \
10848 __extension__ static __inline void                                           \
10849 __attribute__ ((__always_inline__))                                          \
10850 vst4_lane_ ## funcsuffix (ptrtype *__ptr,                                    \
10851                           intype __b, const int __c)                         \
10852 {                                                                            \
10853   __builtin_aarch64_simd_xi __o;                                             \
10854   largetype __temp;                                                          \
10855   __temp.val[0]                                                              \
10856     = vcombine_##funcsuffix (__b.val[0],                                     \
10857                              vcreate_##funcsuffix (__AARCH64_UINT64_C (0))); \
10858   __temp.val[1]                                                              \
10859     = vcombine_##funcsuffix (__b.val[1],                                     \
10860                              vcreate_##funcsuffix (__AARCH64_UINT64_C (0))); \
10861   __temp.val[2]                                                              \
10862     = vcombine_##funcsuffix (__b.val[2],                                     \
10863                              vcreate_##funcsuffix (__AARCH64_UINT64_C (0))); \
10864   __temp.val[3]                                                              \
10865     = vcombine_##funcsuffix (__b.val[3],                                     \
10866                              vcreate_##funcsuffix (__AARCH64_UINT64_C (0))); \
10867   __o = __builtin_aarch64_set_qregxi##mode (__o,                             \
10868                                             (signedtype) __temp.val[0], 0);  \
10869   __o = __builtin_aarch64_set_qregxi##mode (__o,                             \
10870                                             (signedtype) __temp.val[1], 1);  \
10871   __o = __builtin_aarch64_set_qregxi##mode (__o,                             \
10872                                             (signedtype) __temp.val[2], 2);  \
10873   __o = __builtin_aarch64_set_qregxi##mode (__o,                             \
10874                                             (signedtype) __temp.val[3], 3);  \
10875   __builtin_aarch64_st4_lane##mode ((__builtin_aarch64_simd_ ## ptr_mode *)  \
10876                                      __ptr, __o, __c);                       \
10877 }
10878
10879 __ST4_LANE_FUNC (float32x2x4_t, float32x4x4_t, float32_t, v4sf, sf, f32,
10880                  float32x4_t)
10881 __ST4_LANE_FUNC (float64x1x4_t, float64x2x4_t, float64_t, v2df, df, f64,
10882                  float64x2_t)
10883 __ST4_LANE_FUNC (poly8x8x4_t, poly8x16x4_t, poly8_t, v16qi, qi, p8, int8x16_t)
10884 __ST4_LANE_FUNC (poly16x4x4_t, poly16x8x4_t, poly16_t, v8hi, hi, p16,
10885                  int16x8_t)
10886 __ST4_LANE_FUNC (int8x8x4_t, int8x16x4_t, int8_t, v16qi, qi, s8, int8x16_t)
10887 __ST4_LANE_FUNC (int16x4x4_t, int16x8x4_t, int16_t, v8hi, hi, s16, int16x8_t)
10888 __ST4_LANE_FUNC (int32x2x4_t, int32x4x4_t, int32_t, v4si, si, s32, int32x4_t)
10889 __ST4_LANE_FUNC (int64x1x4_t, int64x2x4_t, int64_t, v2di, di, s64, int64x2_t)
10890 __ST4_LANE_FUNC (uint8x8x4_t, uint8x16x4_t, uint8_t, v16qi, qi, u8, int8x16_t)
10891 __ST4_LANE_FUNC (uint16x4x4_t, uint16x8x4_t, uint16_t, v8hi, hi, u16,
10892                  int16x8_t)
10893 __ST4_LANE_FUNC (uint32x2x4_t, uint32x4x4_t, uint32_t, v4si, si, u32,
10894                  int32x4_t)
10895 __ST4_LANE_FUNC (uint64x1x4_t, uint64x2x4_t, uint64_t, v2di, di, u64,
10896                  int64x2_t)
10897
10898 #undef __ST4_LANE_FUNC
10899 #define __ST4_LANE_FUNC(intype, ptrtype, mode, ptr_mode, funcsuffix)        \
10900 __extension__ static __inline void                                          \
10901 __attribute__ ((__always_inline__))                                         \
10902 vst4q_lane_ ## funcsuffix (ptrtype *__ptr,                                  \
10903                            intype __b, const int __c)                       \
10904 {                                                                           \
10905   union { intype __i;                                                       \
10906           __builtin_aarch64_simd_xi __o; } __temp = { __b };                \
10907   __builtin_aarch64_st4_lane##mode ((__builtin_aarch64_simd_ ## ptr_mode *) \
10908                                     __ptr, __temp.__o, __c);                \
10909 }
10910
10911 __ST4_LANE_FUNC (float32x4x4_t, float32_t, v4sf, sf, f32)
10912 __ST4_LANE_FUNC (float64x2x4_t, float64_t, v2df, df, f64)
10913 __ST4_LANE_FUNC (poly8x16x4_t, poly8_t, v16qi, qi, p8)
10914 __ST4_LANE_FUNC (poly16x8x4_t, poly16_t, v8hi, hi, p16)
10915 __ST4_LANE_FUNC (int8x16x4_t, int8_t, v16qi, qi, s8)
10916 __ST4_LANE_FUNC (int16x8x4_t, int16_t, v8hi, hi, s16)
10917 __ST4_LANE_FUNC (int32x4x4_t, int32_t, v4si, si, s32)
10918 __ST4_LANE_FUNC (int64x2x4_t, int64_t, v2di, di, s64)
10919 __ST4_LANE_FUNC (uint8x16x4_t, uint8_t, v16qi, qi, u8)
10920 __ST4_LANE_FUNC (uint16x8x4_t, uint16_t, v8hi, hi, u16)
10921 __ST4_LANE_FUNC (uint32x4x4_t, uint32_t, v4si, si, u32)
10922 __ST4_LANE_FUNC (uint64x2x4_t, uint64_t, v2di, di, u64)
10923
10924 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
10925 vaddlv_s32 (int32x2_t a)
10926 {
10927   int64_t result;
10928   __asm__ ("saddlp %0.1d, %1.2s" : "=w"(result) : "w"(a) : );
10929   return result;
10930 }
10931
10932 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
10933 vaddlv_u32 (uint32x2_t a)
10934 {
10935   uint64_t result;
10936   __asm__ ("uaddlp %0.1d, %1.2s" : "=w"(result) : "w"(a) : );
10937   return result;
10938 }
10939
10940 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
10941 vqdmulh_laneq_s16 (int16x4_t __a, int16x8_t __b, const int __c)
10942 {
10943   return __builtin_aarch64_sqdmulh_laneqv4hi (__a, __b, __c);
10944 }
10945
10946 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
10947 vqdmulh_laneq_s32 (int32x2_t __a, int32x4_t __b, const int __c)
10948 {
10949   return __builtin_aarch64_sqdmulh_laneqv2si (__a, __b, __c);
10950 }
10951
10952 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
10953 vqdmulhq_laneq_s16 (int16x8_t __a, int16x8_t __b, const int __c)
10954 {
10955   return __builtin_aarch64_sqdmulh_laneqv8hi (__a, __b, __c);
10956 }
10957
10958 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
10959 vqdmulhq_laneq_s32 (int32x4_t __a, int32x4_t __b, const int __c)
10960 {
10961   return __builtin_aarch64_sqdmulh_laneqv4si (__a, __b, __c);
10962 }
10963
10964 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
10965 vqrdmulh_laneq_s16 (int16x4_t __a, int16x8_t __b, const int __c)
10966 {
10967   return  __builtin_aarch64_sqrdmulh_laneqv4hi (__a, __b, __c);
10968 }
10969
10970 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
10971 vqrdmulh_laneq_s32 (int32x2_t __a, int32x4_t __b, const int __c)
10972 {
10973   return __builtin_aarch64_sqrdmulh_laneqv2si (__a, __b, __c);
10974 }
10975
10976 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
10977 vqrdmulhq_laneq_s16 (int16x8_t __a, int16x8_t __b, const int __c)
10978 {
10979   return __builtin_aarch64_sqrdmulh_laneqv8hi (__a, __b, __c);
10980 }
10981
10982 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
10983 vqrdmulhq_laneq_s32 (int32x4_t __a, int32x4_t __b, const int __c)
10984 {
10985   return __builtin_aarch64_sqrdmulh_laneqv4si (__a, __b, __c);
10986 }
10987
10988 /* Table intrinsics.  */
10989
10990 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
10991 vqtbl1_p8 (poly8x16_t a, uint8x8_t b)
10992 {
10993   poly8x8_t result;
10994   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
10995            : "=w"(result)
10996            : "w"(a), "w"(b)
10997            : /* No clobbers */);
10998   return result;
10999 }
11000
11001 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11002 vqtbl1_s8 (int8x16_t a, uint8x8_t b)
11003 {
11004   int8x8_t result;
11005   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
11006            : "=w"(result)
11007            : "w"(a), "w"(b)
11008            : /* No clobbers */);
11009   return result;
11010 }
11011
11012 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11013 vqtbl1_u8 (uint8x16_t a, uint8x8_t b)
11014 {
11015   uint8x8_t result;
11016   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
11017            : "=w"(result)
11018            : "w"(a), "w"(b)
11019            : /* No clobbers */);
11020   return result;
11021 }
11022
11023 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
11024 vqtbl1q_p8 (poly8x16_t a, uint8x16_t b)
11025 {
11026   poly8x16_t result;
11027   __asm__ ("tbl %0.16b, {%1.16b}, %2.16b"
11028            : "=w"(result)
11029            : "w"(a), "w"(b)
11030            : /* No clobbers */);
11031   return result;
11032 }
11033
11034 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11035 vqtbl1q_s8 (int8x16_t a, uint8x16_t b)
11036 {
11037   int8x16_t result;
11038   __asm__ ("tbl %0.16b, {%1.16b}, %2.16b"
11039            : "=w"(result)
11040            : "w"(a), "w"(b)
11041            : /* No clobbers */);
11042   return result;
11043 }
11044
11045 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
11046 vqtbl1q_u8 (uint8x16_t a, uint8x16_t b)
11047 {
11048   uint8x16_t result;
11049   __asm__ ("tbl %0.16b, {%1.16b}, %2.16b"
11050            : "=w"(result)
11051            : "w"(a), "w"(b)
11052            : /* No clobbers */);
11053   return result;
11054 }
11055
11056 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11057 vqtbl2_s8 (int8x16x2_t tab, uint8x8_t idx)
11058 {
11059   int8x8_t result;
11060   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11061            "tbl %0.8b, {v16.16b, v17.16b}, %2.8b\n\t"
11062            :"=w"(result)
11063            :"Q"(tab),"w"(idx)
11064            :"memory", "v16", "v17");
11065   return result;
11066 }
11067
11068 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11069 vqtbl2_u8 (uint8x16x2_t tab, uint8x8_t idx)
11070 {
11071   uint8x8_t result;
11072   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11073            "tbl %0.8b, {v16.16b, v17.16b}, %2.8b\n\t"
11074            :"=w"(result)
11075            :"Q"(tab),"w"(idx)
11076            :"memory", "v16", "v17");
11077   return result;
11078 }
11079
11080 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11081 vqtbl2_p8 (poly8x16x2_t tab, uint8x8_t idx)
11082 {
11083   poly8x8_t result;
11084   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11085            "tbl %0.8b, {v16.16b, v17.16b}, %2.8b\n\t"
11086            :"=w"(result)
11087            :"Q"(tab),"w"(idx)
11088            :"memory", "v16", "v17");
11089   return result;
11090 }
11091
11092 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11093 vqtbl2q_s8 (int8x16x2_t tab, uint8x16_t idx)
11094 {
11095   int8x16_t result;
11096   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11097            "tbl %0.16b, {v16.16b, v17.16b}, %2.16b\n\t"
11098            :"=w"(result)
11099            :"Q"(tab),"w"(idx)
11100            :"memory", "v16", "v17");
11101   return result;
11102 }
11103
11104 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
11105 vqtbl2q_u8 (uint8x16x2_t tab, uint8x16_t idx)
11106 {
11107   uint8x16_t result;
11108   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11109            "tbl %0.16b, {v16.16b, v17.16b}, %2.16b\n\t"
11110            :"=w"(result)
11111            :"Q"(tab),"w"(idx)
11112            :"memory", "v16", "v17");
11113   return result;
11114 }
11115
11116 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
11117 vqtbl2q_p8 (poly8x16x2_t tab, uint8x16_t idx)
11118 {
11119   poly8x16_t result;
11120   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11121            "tbl %0.16b, {v16.16b, v17.16b}, %2.16b\n\t"
11122            :"=w"(result)
11123            :"Q"(tab),"w"(idx)
11124            :"memory", "v16", "v17");
11125   return result;
11126 }
11127
11128 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11129 vqtbl3_s8 (int8x16x3_t tab, uint8x8_t idx)
11130 {
11131   int8x8_t result;
11132   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11133            "tbl %0.8b, {v16.16b - v18.16b}, %2.8b\n\t"
11134            :"=w"(result)
11135            :"Q"(tab),"w"(idx)
11136            :"memory", "v16", "v17", "v18");
11137   return result;
11138 }
11139
11140 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11141 vqtbl3_u8 (uint8x16x3_t tab, uint8x8_t idx)
11142 {
11143   uint8x8_t result;
11144   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11145            "tbl %0.8b, {v16.16b - v18.16b}, %2.8b\n\t"
11146            :"=w"(result)
11147            :"Q"(tab),"w"(idx)
11148            :"memory", "v16", "v17", "v18");
11149   return result;
11150 }
11151
11152 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11153 vqtbl3_p8 (poly8x16x3_t tab, uint8x8_t idx)
11154 {
11155   poly8x8_t result;
11156   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11157            "tbl %0.8b, {v16.16b - v18.16b}, %2.8b\n\t"
11158            :"=w"(result)
11159            :"Q"(tab),"w"(idx)
11160            :"memory", "v16", "v17", "v18");
11161   return result;
11162 }
11163
11164 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11165 vqtbl3q_s8 (int8x16x3_t tab, uint8x16_t idx)
11166 {
11167   int8x16_t result;
11168   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11169            "tbl %0.16b, {v16.16b - v18.16b}, %2.16b\n\t"
11170            :"=w"(result)
11171            :"Q"(tab),"w"(idx)
11172            :"memory", "v16", "v17", "v18");
11173   return result;
11174 }
11175
11176 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
11177 vqtbl3q_u8 (uint8x16x3_t tab, uint8x16_t idx)
11178 {
11179   uint8x16_t result;
11180   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11181            "tbl %0.16b, {v16.16b - v18.16b}, %2.16b\n\t"
11182            :"=w"(result)
11183            :"Q"(tab),"w"(idx)
11184            :"memory", "v16", "v17", "v18");
11185   return result;
11186 }
11187
11188 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
11189 vqtbl3q_p8 (poly8x16x3_t tab, uint8x16_t idx)
11190 {
11191   poly8x16_t result;
11192   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11193            "tbl %0.16b, {v16.16b - v18.16b}, %2.16b\n\t"
11194            :"=w"(result)
11195            :"Q"(tab),"w"(idx)
11196            :"memory", "v16", "v17", "v18");
11197   return result;
11198 }
11199
11200 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11201 vqtbl4_s8 (int8x16x4_t tab, uint8x8_t idx)
11202 {
11203   int8x8_t result;
11204   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11205            "tbl %0.8b, {v16.16b - v19.16b}, %2.8b\n\t"
11206            :"=w"(result)
11207            :"Q"(tab),"w"(idx)
11208            :"memory", "v16", "v17", "v18", "v19");
11209   return result;
11210 }
11211
11212 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11213 vqtbl4_u8 (uint8x16x4_t tab, uint8x8_t idx)
11214 {
11215   uint8x8_t result;
11216   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11217            "tbl %0.8b, {v16.16b - v19.16b}, %2.8b\n\t"
11218            :"=w"(result)
11219            :"Q"(tab),"w"(idx)
11220            :"memory", "v16", "v17", "v18", "v19");
11221   return result;
11222 }
11223
11224 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11225 vqtbl4_p8 (poly8x16x4_t tab, uint8x8_t idx)
11226 {
11227   poly8x8_t result;
11228   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11229            "tbl %0.8b, {v16.16b - v19.16b}, %2.8b\n\t"
11230            :"=w"(result)
11231            :"Q"(tab),"w"(idx)
11232            :"memory", "v16", "v17", "v18", "v19");
11233   return result;
11234 }
11235
11236
11237 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11238 vqtbl4q_s8 (int8x16x4_t tab, uint8x16_t idx)
11239 {
11240   int8x16_t result;
11241   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11242            "tbl %0.16b, {v16.16b - v19.16b}, %2.16b\n\t"
11243            :"=w"(result)
11244            :"Q"(tab),"w"(idx)
11245            :"memory", "v16", "v17", "v18", "v19");
11246   return result;
11247 }
11248
11249 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
11250 vqtbl4q_u8 (uint8x16x4_t tab, uint8x16_t idx)
11251 {
11252   uint8x16_t result;
11253   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11254            "tbl %0.16b, {v16.16b - v19.16b}, %2.16b\n\t"
11255            :"=w"(result)
11256            :"Q"(tab),"w"(idx)
11257            :"memory", "v16", "v17", "v18", "v19");
11258   return result;
11259 }
11260
11261 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
11262 vqtbl4q_p8 (poly8x16x4_t tab, uint8x16_t idx)
11263 {
11264   poly8x16_t result;
11265   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11266            "tbl %0.16b, {v16.16b - v19.16b}, %2.16b\n\t"
11267            :"=w"(result)
11268            :"Q"(tab),"w"(idx)
11269            :"memory", "v16", "v17", "v18", "v19");
11270   return result;
11271 }
11272
11273
11274 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11275 vqtbx1_s8 (int8x8_t r, int8x16_t tab, uint8x8_t idx)
11276 {
11277   int8x8_t result = r;
11278   __asm__ ("tbx %0.8b,{%1.16b},%2.8b"
11279            : "+w"(result)
11280            : "w"(tab), "w"(idx)
11281            : /* No clobbers */);
11282   return result;
11283 }
11284
11285 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11286 vqtbx1_u8 (uint8x8_t r, uint8x16_t tab, uint8x8_t idx)
11287 {
11288   uint8x8_t result = r;
11289   __asm__ ("tbx %0.8b,{%1.16b},%2.8b"
11290            : "+w"(result)
11291            : "w"(tab), "w"(idx)
11292            : /* No clobbers */);
11293   return result;
11294 }
11295
11296 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11297 vqtbx1_p8 (poly8x8_t r, poly8x16_t tab, uint8x8_t idx)
11298 {
11299   poly8x8_t result = r;
11300   __asm__ ("tbx %0.8b,{%1.16b},%2.8b"
11301            : "+w"(result)
11302            : "w"(tab), "w"(idx)
11303            : /* No clobbers */);
11304   return result;
11305 }
11306
11307 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11308 vqtbx1q_s8 (int8x16_t r, int8x16_t tab, uint8x16_t idx)
11309 {
11310   int8x16_t result = r;
11311   __asm__ ("tbx %0.16b,{%1.16b},%2.16b"
11312            : "+w"(result)
11313            : "w"(tab), "w"(idx)
11314            : /* No clobbers */);
11315   return result;
11316 }
11317
11318 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
11319 vqtbx1q_u8 (uint8x16_t r, uint8x16_t tab, uint8x16_t idx)
11320 {
11321   uint8x16_t result = r;
11322   __asm__ ("tbx %0.16b,{%1.16b},%2.16b"
11323            : "+w"(result)
11324            : "w"(tab), "w"(idx)
11325            : /* No clobbers */);
11326   return result;
11327 }
11328
11329 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
11330 vqtbx1q_p8 (poly8x16_t r, poly8x16_t tab, uint8x16_t idx)
11331 {
11332   poly8x16_t result = r;
11333   __asm__ ("tbx %0.16b,{%1.16b},%2.16b"
11334            : "+w"(result)
11335            : "w"(tab), "w"(idx)
11336            : /* No clobbers */);
11337   return result;
11338 }
11339
11340 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11341 vqtbx2_s8 (int8x8_t r, int8x16x2_t tab, uint8x8_t idx)
11342 {
11343   int8x8_t result = r;
11344   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11345            "tbx %0.8b, {v16.16b, v17.16b}, %2.8b\n\t"
11346            :"+w"(result)
11347            :"Q"(tab),"w"(idx)
11348            :"memory", "v16", "v17");
11349   return result;
11350 }
11351
11352 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11353 vqtbx2_u8 (uint8x8_t r, uint8x16x2_t tab, uint8x8_t idx)
11354 {
11355   uint8x8_t result = r;
11356   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11357            "tbx %0.8b, {v16.16b, v17.16b}, %2.8b\n\t"
11358            :"+w"(result)
11359            :"Q"(tab),"w"(idx)
11360            :"memory", "v16", "v17");
11361   return result;
11362 }
11363
11364 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11365 vqtbx2_p8 (poly8x8_t r, poly8x16x2_t tab, uint8x8_t idx)
11366 {
11367   poly8x8_t result = r;
11368   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11369            "tbx %0.8b, {v16.16b, v17.16b}, %2.8b\n\t"
11370            :"+w"(result)
11371            :"Q"(tab),"w"(idx)
11372            :"memory", "v16", "v17");
11373   return result;
11374 }
11375
11376
11377 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11378 vqtbx2q_s8 (int8x16_t r, int8x16x2_t tab, uint8x16_t idx)
11379 {
11380   int8x16_t result = r;
11381   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11382            "tbx %0.16b, {v16.16b, v17.16b}, %2.16b\n\t"
11383            :"+w"(result)
11384            :"Q"(tab),"w"(idx)
11385            :"memory", "v16", "v17");
11386   return result;
11387 }
11388
11389 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
11390 vqtbx2q_u8 (uint8x16_t r, uint8x16x2_t tab, uint8x16_t idx)
11391 {
11392   uint8x16_t result = r;
11393   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11394            "tbx %0.16b, {v16.16b, v17.16b}, %2.16b\n\t"
11395            :"+w"(result)
11396            :"Q"(tab),"w"(idx)
11397            :"memory", "v16", "v17");
11398   return result;
11399 }
11400
11401 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
11402 vqtbx2q_p8 (poly8x16_t r, poly8x16x2_t tab, uint8x16_t idx)
11403 {
11404   poly8x16_t result = r;
11405   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11406            "tbx %0.16b, {v16.16b, v17.16b}, %2.16b\n\t"
11407            :"+w"(result)
11408            :"Q"(tab),"w"(idx)
11409            :"memory", "v16", "v17");
11410   return result;
11411 }
11412
11413
11414 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11415 vqtbx3_s8 (int8x8_t r, int8x16x3_t tab, uint8x8_t idx)
11416 {
11417   int8x8_t result = r;
11418   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11419            "tbx %0.8b, {v16.16b - v18.16b}, %2.8b\n\t"
11420            :"+w"(result)
11421            :"Q"(tab),"w"(idx)
11422            :"memory", "v16", "v17", "v18");
11423   return result;
11424 }
11425
11426 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11427 vqtbx3_u8 (uint8x8_t r, uint8x16x3_t tab, uint8x8_t idx)
11428 {
11429   uint8x8_t result = r;
11430   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11431            "tbx %0.8b, {v16.16b - v18.16b}, %2.8b\n\t"
11432            :"+w"(result)
11433            :"Q"(tab),"w"(idx)
11434            :"memory", "v16", "v17", "v18");
11435   return result;
11436 }
11437
11438 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11439 vqtbx3_p8 (poly8x8_t r, poly8x16x3_t tab, uint8x8_t idx)
11440 {
11441   poly8x8_t result = r;
11442   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11443            "tbx %0.8b, {v16.16b - v18.16b}, %2.8b\n\t"
11444            :"+w"(result)
11445            :"Q"(tab),"w"(idx)
11446            :"memory", "v16", "v17", "v18");
11447   return result;
11448 }
11449
11450
11451 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11452 vqtbx3q_s8 (int8x16_t r, int8x16x3_t tab, uint8x16_t idx)
11453 {
11454   int8x16_t result = r;
11455   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11456            "tbx %0.16b, {v16.16b - v18.16b}, %2.16b\n\t"
11457            :"+w"(result)
11458            :"Q"(tab),"w"(idx)
11459            :"memory", "v16", "v17", "v18");
11460   return result;
11461 }
11462
11463 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
11464 vqtbx3q_u8 (uint8x16_t r, uint8x16x3_t tab, uint8x16_t idx)
11465 {
11466   uint8x16_t result = r;
11467   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11468            "tbx %0.16b, {v16.16b - v18.16b}, %2.16b\n\t"
11469            :"+w"(result)
11470            :"Q"(tab),"w"(idx)
11471            :"memory", "v16", "v17", "v18");
11472   return result;
11473 }
11474
11475 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
11476 vqtbx3q_p8 (poly8x16_t r, poly8x16x3_t tab, uint8x16_t idx)
11477 {
11478   poly8x16_t result = r;
11479   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11480            "tbx %0.16b, {v16.16b - v18.16b}, %2.16b\n\t"
11481            :"+w"(result)
11482            :"Q"(tab),"w"(idx)
11483            :"memory", "v16", "v17", "v18");
11484   return result;
11485 }
11486
11487
11488 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11489 vqtbx4_s8 (int8x8_t r, int8x16x4_t tab, uint8x8_t idx)
11490 {
11491   int8x8_t result = r;
11492   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11493            "tbx %0.8b, {v16.16b - v19.16b}, %2.8b\n\t"
11494            :"+w"(result)
11495            :"Q"(tab),"w"(idx)
11496            :"memory", "v16", "v17", "v18", "v19");
11497   return result;
11498 }
11499
11500 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11501 vqtbx4_u8 (uint8x8_t r, uint8x16x4_t tab, uint8x8_t idx)
11502 {
11503   uint8x8_t result = r;
11504   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11505            "tbx %0.8b, {v16.16b - v19.16b}, %2.8b\n\t"
11506            :"+w"(result)
11507            :"Q"(tab),"w"(idx)
11508            :"memory", "v16", "v17", "v18", "v19");
11509   return result;
11510 }
11511
11512 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11513 vqtbx4_p8 (poly8x8_t r, poly8x16x4_t tab, uint8x8_t idx)
11514 {
11515   poly8x8_t result = r;
11516   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11517            "tbx %0.8b, {v16.16b - v19.16b}, %2.8b\n\t"
11518            :"+w"(result)
11519            :"Q"(tab),"w"(idx)
11520            :"memory", "v16", "v17", "v18", "v19");
11521   return result;
11522 }
11523
11524
11525 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11526 vqtbx4q_s8 (int8x16_t r, int8x16x4_t tab, uint8x16_t idx)
11527 {
11528   int8x16_t result = r;
11529   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11530            "tbx %0.16b, {v16.16b - v19.16b}, %2.16b\n\t"
11531            :"+w"(result)
11532            :"Q"(tab),"w"(idx)
11533            :"memory", "v16", "v17", "v18", "v19");
11534   return result;
11535 }
11536
11537 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
11538 vqtbx4q_u8 (uint8x16_t r, uint8x16x4_t tab, uint8x16_t idx)
11539 {
11540   uint8x16_t result = r;
11541   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11542            "tbx %0.16b, {v16.16b - v19.16b}, %2.16b\n\t"
11543            :"+w"(result)
11544            :"Q"(tab),"w"(idx)
11545            :"memory", "v16", "v17", "v18", "v19");
11546   return result;
11547 }
11548
11549 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
11550 vqtbx4q_p8 (poly8x16_t r, poly8x16x4_t tab, uint8x16_t idx)
11551 {
11552   poly8x16_t result = r;
11553   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11554            "tbx %0.16b, {v16.16b - v19.16b}, %2.16b\n\t"
11555            :"+w"(result)
11556            :"Q"(tab),"w"(idx)
11557            :"memory", "v16", "v17", "v18", "v19");
11558   return result;
11559 }
11560
11561 /* V7 legacy table intrinsics.  */
11562
11563 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11564 vtbl1_s8 (int8x8_t tab, int8x8_t idx)
11565 {
11566   int8x8_t result;
11567   int8x16_t temp = vcombine_s8 (tab, vcreate_s8 (__AARCH64_UINT64_C (0x0)));
11568   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
11569            : "=w"(result)
11570            : "w"(temp), "w"(idx)
11571            : /* No clobbers */);
11572   return result;
11573 }
11574
11575 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11576 vtbl1_u8 (uint8x8_t tab, uint8x8_t idx)
11577 {
11578   uint8x8_t result;
11579   uint8x16_t temp = vcombine_u8 (tab, vcreate_u8 (__AARCH64_UINT64_C (0x0)));
11580   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
11581            : "=w"(result)
11582            : "w"(temp), "w"(idx)
11583            : /* No clobbers */);
11584   return result;
11585 }
11586
11587 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11588 vtbl1_p8 (poly8x8_t tab, uint8x8_t idx)
11589 {
11590   poly8x8_t result;
11591   poly8x16_t temp = vcombine_p8 (tab, vcreate_p8 (__AARCH64_UINT64_C (0x0)));
11592   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
11593            : "=w"(result)
11594            : "w"(temp), "w"(idx)
11595            : /* No clobbers */);
11596   return result;
11597 }
11598
11599 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11600 vtbl2_s8 (int8x8x2_t tab, int8x8_t idx)
11601 {
11602   int8x8_t result;
11603   int8x16_t temp = vcombine_s8 (tab.val[0], tab.val[1]);
11604   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
11605            : "=w"(result)
11606            : "w"(temp), "w"(idx)
11607            : /* No clobbers */);
11608   return result;
11609 }
11610
11611 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11612 vtbl2_u8 (uint8x8x2_t tab, uint8x8_t idx)
11613 {
11614   uint8x8_t result;
11615   uint8x16_t temp = vcombine_u8 (tab.val[0], tab.val[1]);
11616   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
11617            : "=w"(result)
11618            : "w"(temp), "w"(idx)
11619            : /* No clobbers */);
11620   return result;
11621 }
11622
11623 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11624 vtbl2_p8 (poly8x8x2_t tab, uint8x8_t idx)
11625 {
11626   poly8x8_t result;
11627   poly8x16_t temp = vcombine_p8 (tab.val[0], tab.val[1]);
11628   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
11629            : "=w"(result)
11630            : "w"(temp), "w"(idx)
11631            : /* No clobbers */);
11632   return result;
11633 }
11634
11635 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11636 vtbl3_s8 (int8x8x3_t tab, int8x8_t idx)
11637 {
11638   int8x8_t result;
11639   int8x16x2_t temp;
11640   temp.val[0] = vcombine_s8 (tab.val[0], tab.val[1]);
11641   temp.val[1] = vcombine_s8 (tab.val[2], vcreate_s8 (__AARCH64_UINT64_C (0x0)));
11642   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
11643            "tbl %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
11644            : "=w"(result)
11645            : "Q"(temp), "w"(idx)
11646            : "v16", "v17", "memory");
11647   return result;
11648 }
11649
11650 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11651 vtbl3_u8 (uint8x8x3_t tab, uint8x8_t idx)
11652 {
11653   uint8x8_t result;
11654   uint8x16x2_t temp;
11655   temp.val[0] = vcombine_u8 (tab.val[0], tab.val[1]);
11656   temp.val[1] = vcombine_u8 (tab.val[2], vcreate_u8 (__AARCH64_UINT64_C (0x0)));
11657   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
11658            "tbl %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
11659            : "=w"(result)
11660            : "Q"(temp), "w"(idx)
11661            : "v16", "v17", "memory");
11662   return result;
11663 }
11664
11665 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11666 vtbl3_p8 (poly8x8x3_t tab, uint8x8_t idx)
11667 {
11668   poly8x8_t result;
11669   poly8x16x2_t temp;
11670   temp.val[0] = vcombine_p8 (tab.val[0], tab.val[1]);
11671   temp.val[1] = vcombine_p8 (tab.val[2], vcreate_p8 (__AARCH64_UINT64_C (0x0)));
11672   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
11673            "tbl %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
11674            : "=w"(result)
11675            : "Q"(temp), "w"(idx)
11676            : "v16", "v17", "memory");
11677   return result;
11678 }
11679
11680 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11681 vtbl4_s8 (int8x8x4_t tab, int8x8_t idx)
11682 {
11683   int8x8_t result;
11684   int8x16x2_t temp;
11685   temp.val[0] = vcombine_s8 (tab.val[0], tab.val[1]);
11686   temp.val[1] = vcombine_s8 (tab.val[2], tab.val[3]);
11687   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
11688            "tbl %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
11689            : "=w"(result)
11690            : "Q"(temp), "w"(idx)
11691            : "v16", "v17", "memory");
11692   return result;
11693 }
11694
11695 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11696 vtbl4_u8 (uint8x8x4_t tab, uint8x8_t idx)
11697 {
11698   uint8x8_t result;
11699   uint8x16x2_t temp;
11700   temp.val[0] = vcombine_u8 (tab.val[0], tab.val[1]);
11701   temp.val[1] = vcombine_u8 (tab.val[2], tab.val[3]);
11702   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
11703            "tbl %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
11704            : "=w"(result)
11705            : "Q"(temp), "w"(idx)
11706            : "v16", "v17", "memory");
11707   return result;
11708 }
11709
11710 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11711 vtbl4_p8 (poly8x8x4_t tab, uint8x8_t idx)
11712 {
11713   poly8x8_t result;
11714   poly8x16x2_t temp;
11715   temp.val[0] = vcombine_p8 (tab.val[0], tab.val[1]);
11716   temp.val[1] = vcombine_p8 (tab.val[2], tab.val[3]);
11717   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
11718            "tbl %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
11719            : "=w"(result)
11720            : "Q"(temp), "w"(idx)
11721            : "v16", "v17", "memory");
11722   return result;
11723 }
11724
11725 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11726 vtbx2_s8 (int8x8_t r, int8x8x2_t tab, int8x8_t idx)
11727 {
11728   int8x8_t result = r;
11729   int8x16_t temp = vcombine_s8 (tab.val[0], tab.val[1]);
11730   __asm__ ("tbx %0.8b, {%1.16b}, %2.8b"
11731            : "+w"(result)
11732            : "w"(temp), "w"(idx)
11733            : /* No clobbers */);
11734   return result;
11735 }
11736
11737 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11738 vtbx2_u8 (uint8x8_t r, uint8x8x2_t tab, uint8x8_t idx)
11739 {
11740   uint8x8_t result = r;
11741   uint8x16_t temp = vcombine_u8 (tab.val[0], tab.val[1]);
11742   __asm__ ("tbx %0.8b, {%1.16b}, %2.8b"
11743            : "+w"(result)
11744            : "w"(temp), "w"(idx)
11745            : /* No clobbers */);
11746   return result;
11747 }
11748
11749 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11750 vtbx2_p8 (poly8x8_t r, poly8x8x2_t tab, uint8x8_t idx)
11751 {
11752   poly8x8_t result = r;
11753   poly8x16_t temp = vcombine_p8 (tab.val[0], tab.val[1]);
11754   __asm__ ("tbx %0.8b, {%1.16b}, %2.8b"
11755            : "+w"(result)
11756            : "w"(temp), "w"(idx)
11757            : /* No clobbers */);
11758   return result;
11759 }
11760
11761 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11762 vtbx4_s8 (int8x8_t r, int8x8x4_t tab, int8x8_t idx)
11763 {
11764   int8x8_t result = r;
11765   int8x16x2_t temp;
11766   temp.val[0] = vcombine_s8 (tab.val[0], tab.val[1]);
11767   temp.val[1] = vcombine_s8 (tab.val[2], tab.val[3]);
11768   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
11769            "tbx %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
11770            : "+w"(result)
11771            : "Q"(temp), "w"(idx)
11772            : "v16", "v17", "memory");
11773   return result;
11774 }
11775
11776 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11777 vtbx4_u8 (uint8x8_t r, uint8x8x4_t tab, uint8x8_t idx)
11778 {
11779   uint8x8_t result = r;
11780   uint8x16x2_t temp;
11781   temp.val[0] = vcombine_u8 (tab.val[0], tab.val[1]);
11782   temp.val[1] = vcombine_u8 (tab.val[2], tab.val[3]);
11783   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
11784            "tbx %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
11785            : "+w"(result)
11786            : "Q"(temp), "w"(idx)
11787            : "v16", "v17", "memory");
11788   return result;
11789 }
11790
11791 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11792 vtbx4_p8 (poly8x8_t r, poly8x8x4_t tab, uint8x8_t idx)
11793 {
11794   poly8x8_t result = r;
11795   poly8x16x2_t temp;
11796   temp.val[0] = vcombine_p8 (tab.val[0], tab.val[1]);
11797   temp.val[1] = vcombine_p8 (tab.val[2], tab.val[3]);
11798   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
11799            "tbx %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
11800            : "+w"(result)
11801            : "Q"(temp), "w"(idx)
11802            : "v16", "v17", "memory");
11803   return result;
11804 }
11805
11806 /* End of temporary inline asm.  */
11807
11808 /* Start of optimal implementations in approved order.  */
11809
11810 /* vabs  */
11811
11812 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
11813 vabs_f32 (float32x2_t __a)
11814 {
11815   return __builtin_aarch64_absv2sf (__a);
11816 }
11817
11818 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
11819 vabs_f64 (float64x1_t __a)
11820 {
11821   return (float64x1_t) {__builtin_fabs (__a[0])};
11822 }
11823
11824 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11825 vabs_s8 (int8x8_t __a)
11826 {
11827   return __builtin_aarch64_absv8qi (__a);
11828 }
11829
11830 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
11831 vabs_s16 (int16x4_t __a)
11832 {
11833   return __builtin_aarch64_absv4hi (__a);
11834 }
11835
11836 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
11837 vabs_s32 (int32x2_t __a)
11838 {
11839   return __builtin_aarch64_absv2si (__a);
11840 }
11841
11842 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
11843 vabs_s64 (int64x1_t __a)
11844 {
11845   return (int64x1_t) {__builtin_aarch64_absdi (__a[0])};
11846 }
11847
11848 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
11849 vabsq_f32 (float32x4_t __a)
11850 {
11851   return __builtin_aarch64_absv4sf (__a);
11852 }
11853
11854 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
11855 vabsq_f64 (float64x2_t __a)
11856 {
11857   return __builtin_aarch64_absv2df (__a);
11858 }
11859
11860 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11861 vabsq_s8 (int8x16_t __a)
11862 {
11863   return __builtin_aarch64_absv16qi (__a);
11864 }
11865
11866 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
11867 vabsq_s16 (int16x8_t __a)
11868 {
11869   return __builtin_aarch64_absv8hi (__a);
11870 }
11871
11872 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
11873 vabsq_s32 (int32x4_t __a)
11874 {
11875   return __builtin_aarch64_absv4si (__a);
11876 }
11877
11878 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
11879 vabsq_s64 (int64x2_t __a)
11880 {
11881   return __builtin_aarch64_absv2di (__a);
11882 }
11883
11884 /* vadd */
11885
11886 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
11887 vaddd_s64 (int64_t __a, int64_t __b)
11888 {
11889   return __a + __b;
11890 }
11891
11892 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
11893 vaddd_u64 (uint64_t __a, uint64_t __b)
11894 {
11895   return __a + __b;
11896 }
11897
11898 /* vaddv */
11899
11900 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
11901 vaddv_s8 (int8x8_t __a)
11902 {
11903   return __builtin_aarch64_reduc_plus_scal_v8qi (__a);
11904 }
11905
11906 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
11907 vaddv_s16 (int16x4_t __a)
11908 {
11909   return __builtin_aarch64_reduc_plus_scal_v4hi (__a);
11910 }
11911
11912 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
11913 vaddv_s32 (int32x2_t __a)
11914 {
11915   return __builtin_aarch64_reduc_plus_scal_v2si (__a);
11916 }
11917
11918 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
11919 vaddv_u8 (uint8x8_t __a)
11920 {
11921   return (uint8_t) __builtin_aarch64_reduc_plus_scal_v8qi ((int8x8_t) __a);
11922 }
11923
11924 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
11925 vaddv_u16 (uint16x4_t __a)
11926 {
11927   return (uint16_t) __builtin_aarch64_reduc_plus_scal_v4hi ((int16x4_t) __a);
11928 }
11929
11930 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
11931 vaddv_u32 (uint32x2_t __a)
11932 {
11933   return (int32_t) __builtin_aarch64_reduc_plus_scal_v2si ((int32x2_t) __a);
11934 }
11935
11936 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
11937 vaddvq_s8 (int8x16_t __a)
11938 {
11939   return __builtin_aarch64_reduc_plus_scal_v16qi (__a);
11940 }
11941
11942 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
11943 vaddvq_s16 (int16x8_t __a)
11944 {
11945   return __builtin_aarch64_reduc_plus_scal_v8hi (__a);
11946 }
11947
11948 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
11949 vaddvq_s32 (int32x4_t __a)
11950 {
11951   return __builtin_aarch64_reduc_plus_scal_v4si (__a);
11952 }
11953
11954 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
11955 vaddvq_s64 (int64x2_t __a)
11956 {
11957   return __builtin_aarch64_reduc_plus_scal_v2di (__a);
11958 }
11959
11960 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
11961 vaddvq_u8 (uint8x16_t __a)
11962 {
11963   return (uint8_t) __builtin_aarch64_reduc_plus_scal_v16qi ((int8x16_t) __a);
11964 }
11965
11966 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
11967 vaddvq_u16 (uint16x8_t __a)
11968 {
11969   return (uint16_t) __builtin_aarch64_reduc_plus_scal_v8hi ((int16x8_t) __a);
11970 }
11971
11972 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
11973 vaddvq_u32 (uint32x4_t __a)
11974 {
11975   return (uint32_t) __builtin_aarch64_reduc_plus_scal_v4si ((int32x4_t) __a);
11976 }
11977
11978 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
11979 vaddvq_u64 (uint64x2_t __a)
11980 {
11981   return (uint64_t) __builtin_aarch64_reduc_plus_scal_v2di ((int64x2_t) __a);
11982 }
11983
11984 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
11985 vaddv_f32 (float32x2_t __a)
11986 {
11987   return __builtin_aarch64_reduc_plus_scal_v2sf (__a);
11988 }
11989
11990 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
11991 vaddvq_f32 (float32x4_t __a)
11992 {
11993   return __builtin_aarch64_reduc_plus_scal_v4sf (__a);
11994 }
11995
11996 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
11997 vaddvq_f64 (float64x2_t __a)
11998 {
11999   return __builtin_aarch64_reduc_plus_scal_v2df (__a);
12000 }
12001
12002 /* vbsl  */
12003
12004 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
12005 vbsl_f32 (uint32x2_t __a, float32x2_t __b, float32x2_t __c)
12006 {
12007   return __builtin_aarch64_simd_bslv2sf_suss (__a, __b, __c);
12008 }
12009
12010 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
12011 vbsl_f64 (uint64x1_t __a, float64x1_t __b, float64x1_t __c)
12012 {
12013   return (float64x1_t)
12014     { __builtin_aarch64_simd_bsldf_suss (__a[0], __b[0], __c[0]) };
12015 }
12016
12017 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
12018 vbsl_p8 (uint8x8_t __a, poly8x8_t __b, poly8x8_t __c)
12019 {
12020   return __builtin_aarch64_simd_bslv8qi_pupp (__a, __b, __c);
12021 }
12022
12023 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
12024 vbsl_p16 (uint16x4_t __a, poly16x4_t __b, poly16x4_t __c)
12025 {
12026   return __builtin_aarch64_simd_bslv4hi_pupp (__a, __b, __c);
12027 }
12028
12029 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
12030 vbsl_s8 (uint8x8_t __a, int8x8_t __b, int8x8_t __c)
12031 {
12032   return __builtin_aarch64_simd_bslv8qi_suss (__a, __b, __c);
12033 }
12034
12035 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
12036 vbsl_s16 (uint16x4_t __a, int16x4_t __b, int16x4_t __c)
12037 {
12038   return __builtin_aarch64_simd_bslv4hi_suss (__a, __b, __c);
12039 }
12040
12041 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
12042 vbsl_s32 (uint32x2_t __a, int32x2_t __b, int32x2_t __c)
12043 {
12044   return __builtin_aarch64_simd_bslv2si_suss (__a, __b, __c);
12045 }
12046
12047 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
12048 vbsl_s64 (uint64x1_t __a, int64x1_t __b, int64x1_t __c)
12049 {
12050   return (int64x1_t)
12051       {__builtin_aarch64_simd_bsldi_suss (__a[0], __b[0], __c[0])};
12052 }
12053
12054 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12055 vbsl_u8 (uint8x8_t __a, uint8x8_t __b, uint8x8_t __c)
12056 {
12057   return __builtin_aarch64_simd_bslv8qi_uuuu (__a, __b, __c);
12058 }
12059
12060 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12061 vbsl_u16 (uint16x4_t __a, uint16x4_t __b, uint16x4_t __c)
12062 {
12063   return __builtin_aarch64_simd_bslv4hi_uuuu (__a, __b, __c);
12064 }
12065
12066 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12067 vbsl_u32 (uint32x2_t __a, uint32x2_t __b, uint32x2_t __c)
12068 {
12069   return __builtin_aarch64_simd_bslv2si_uuuu (__a, __b, __c);
12070 }
12071
12072 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12073 vbsl_u64 (uint64x1_t __a, uint64x1_t __b, uint64x1_t __c)
12074 {
12075   return (uint64x1_t)
12076       {__builtin_aarch64_simd_bsldi_uuuu (__a[0], __b[0], __c[0])};
12077 }
12078
12079 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
12080 vbslq_f32 (uint32x4_t __a, float32x4_t __b, float32x4_t __c)
12081 {
12082   return __builtin_aarch64_simd_bslv4sf_suss (__a, __b, __c);
12083 }
12084
12085 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
12086 vbslq_f64 (uint64x2_t __a, float64x2_t __b, float64x2_t __c)
12087 {
12088   return __builtin_aarch64_simd_bslv2df_suss (__a, __b, __c);
12089 }
12090
12091 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
12092 vbslq_p8 (uint8x16_t __a, poly8x16_t __b, poly8x16_t __c)
12093 {
12094   return __builtin_aarch64_simd_bslv16qi_pupp (__a, __b, __c);
12095 }
12096
12097 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
12098 vbslq_p16 (uint16x8_t __a, poly16x8_t __b, poly16x8_t __c)
12099 {
12100   return __builtin_aarch64_simd_bslv8hi_pupp (__a, __b, __c);
12101 }
12102
12103 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
12104 vbslq_s8 (uint8x16_t __a, int8x16_t __b, int8x16_t __c)
12105 {
12106   return __builtin_aarch64_simd_bslv16qi_suss (__a, __b, __c);
12107 }
12108
12109 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
12110 vbslq_s16 (uint16x8_t __a, int16x8_t __b, int16x8_t __c)
12111 {
12112   return __builtin_aarch64_simd_bslv8hi_suss (__a, __b, __c);
12113 }
12114
12115 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
12116 vbslq_s32 (uint32x4_t __a, int32x4_t __b, int32x4_t __c)
12117 {
12118   return __builtin_aarch64_simd_bslv4si_suss (__a, __b, __c);
12119 }
12120
12121 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
12122 vbslq_s64 (uint64x2_t __a, int64x2_t __b, int64x2_t __c)
12123 {
12124   return __builtin_aarch64_simd_bslv2di_suss (__a, __b, __c);
12125 }
12126
12127 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12128 vbslq_u8 (uint8x16_t __a, uint8x16_t __b, uint8x16_t __c)
12129 {
12130   return __builtin_aarch64_simd_bslv16qi_uuuu (__a, __b, __c);
12131 }
12132
12133 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
12134 vbslq_u16 (uint16x8_t __a, uint16x8_t __b, uint16x8_t __c)
12135 {
12136   return __builtin_aarch64_simd_bslv8hi_uuuu (__a, __b, __c);
12137 }
12138
12139 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12140 vbslq_u32 (uint32x4_t __a, uint32x4_t __b, uint32x4_t __c)
12141 {
12142   return __builtin_aarch64_simd_bslv4si_uuuu (__a, __b, __c);
12143 }
12144
12145 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12146 vbslq_u64 (uint64x2_t __a, uint64x2_t __b, uint64x2_t __c)
12147 {
12148   return __builtin_aarch64_simd_bslv2di_uuuu (__a, __b, __c);
12149 }
12150
12151 #ifdef __ARM_FEATURE_CRYPTO
12152
12153 /* vaes  */
12154
12155 static __inline uint8x16_t
12156 vaeseq_u8 (uint8x16_t data, uint8x16_t key)
12157 {
12158   return __builtin_aarch64_crypto_aesev16qi_uuu (data, key);
12159 }
12160
12161 static __inline uint8x16_t
12162 vaesdq_u8 (uint8x16_t data, uint8x16_t key)
12163 {
12164   return __builtin_aarch64_crypto_aesdv16qi_uuu (data, key);
12165 }
12166
12167 static __inline uint8x16_t
12168 vaesmcq_u8 (uint8x16_t data)
12169 {
12170   return __builtin_aarch64_crypto_aesmcv16qi_uu (data);
12171 }
12172
12173 static __inline uint8x16_t
12174 vaesimcq_u8 (uint8x16_t data)
12175 {
12176   return __builtin_aarch64_crypto_aesimcv16qi_uu (data);
12177 }
12178
12179 #endif
12180
12181 /* vcage  */
12182
12183 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12184 vcage_f64 (float64x1_t __a, float64x1_t __b)
12185 {
12186   return vabs_f64 (__a) >= vabs_f64 (__b);
12187 }
12188
12189 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
12190 vcages_f32 (float32_t __a, float32_t __b)
12191 {
12192   return __builtin_fabsf (__a) >= __builtin_fabsf (__b) ? -1 : 0;
12193 }
12194
12195 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12196 vcage_f32 (float32x2_t __a, float32x2_t __b)
12197 {
12198   return vabs_f32 (__a) >= vabs_f32 (__b);
12199 }
12200
12201 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12202 vcageq_f32 (float32x4_t __a, float32x4_t __b)
12203 {
12204   return vabsq_f32 (__a) >= vabsq_f32 (__b);
12205 }
12206
12207 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12208 vcaged_f64 (float64_t __a, float64_t __b)
12209 {
12210   return __builtin_fabs (__a) >= __builtin_fabs (__b) ? -1 : 0;
12211 }
12212
12213 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12214 vcageq_f64 (float64x2_t __a, float64x2_t __b)
12215 {
12216   return vabsq_f64 (__a) >= vabsq_f64 (__b);
12217 }
12218
12219 /* vcagt  */
12220
12221 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
12222 vcagts_f32 (float32_t __a, float32_t __b)
12223 {
12224   return __builtin_fabsf (__a) > __builtin_fabsf (__b) ? -1 : 0;
12225 }
12226
12227 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12228 vcagt_f32 (float32x2_t __a, float32x2_t __b)
12229 {
12230   return vabs_f32 (__a) > vabs_f32 (__b);
12231 }
12232
12233 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12234 vcagt_f64 (float64x1_t __a, float64x1_t __b)
12235 {
12236   return vabs_f64 (__a) > vabs_f64 (__b);
12237 }
12238
12239 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12240 vcagtq_f32 (float32x4_t __a, float32x4_t __b)
12241 {
12242   return vabsq_f32 (__a) > vabsq_f32 (__b);
12243 }
12244
12245 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12246 vcagtd_f64 (float64_t __a, float64_t __b)
12247 {
12248   return __builtin_fabs (__a) > __builtin_fabs (__b) ? -1 : 0;
12249 }
12250
12251 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12252 vcagtq_f64 (float64x2_t __a, float64x2_t __b)
12253 {
12254   return vabsq_f64 (__a) > vabsq_f64 (__b);
12255 }
12256
12257 /* vcale  */
12258
12259 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12260 vcale_f32 (float32x2_t __a, float32x2_t __b)
12261 {
12262   return vabs_f32 (__a) <= vabs_f32 (__b);
12263 }
12264
12265 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12266 vcale_f64 (float64x1_t __a, float64x1_t __b)
12267 {
12268   return vabs_f64 (__a) <= vabs_f64 (__b);
12269 }
12270
12271 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12272 vcaled_f64 (float64_t __a, float64_t __b)
12273 {
12274   return __builtin_fabs (__a) <= __builtin_fabs (__b) ? -1 : 0;
12275 }
12276
12277 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
12278 vcales_f32 (float32_t __a, float32_t __b)
12279 {
12280   return __builtin_fabsf (__a) <= __builtin_fabsf (__b) ? -1 : 0;
12281 }
12282
12283 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12284 vcaleq_f32 (float32x4_t __a, float32x4_t __b)
12285 {
12286   return vabsq_f32 (__a) <= vabsq_f32 (__b);
12287 }
12288
12289 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12290 vcaleq_f64 (float64x2_t __a, float64x2_t __b)
12291 {
12292   return vabsq_f64 (__a) <= vabsq_f64 (__b);
12293 }
12294
12295 /* vcalt  */
12296
12297 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12298 vcalt_f32 (float32x2_t __a, float32x2_t __b)
12299 {
12300   return vabs_f32 (__a) < vabs_f32 (__b);
12301 }
12302
12303 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12304 vcalt_f64 (float64x1_t __a, float64x1_t __b)
12305 {
12306   return vabs_f64 (__a) < vabs_f64 (__b);
12307 }
12308
12309 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12310 vcaltd_f64 (float64_t __a, float64_t __b)
12311 {
12312   return __builtin_fabs (__a) < __builtin_fabs (__b) ? -1 : 0;
12313 }
12314
12315 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12316 vcaltq_f32 (float32x4_t __a, float32x4_t __b)
12317 {
12318   return vabsq_f32 (__a) < vabsq_f32 (__b);
12319 }
12320
12321 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12322 vcaltq_f64 (float64x2_t __a, float64x2_t __b)
12323 {
12324   return vabsq_f64 (__a) < vabsq_f64 (__b);
12325 }
12326
12327 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
12328 vcalts_f32 (float32_t __a, float32_t __b)
12329 {
12330   return __builtin_fabsf (__a) < __builtin_fabsf (__b) ? -1 : 0;
12331 }
12332
12333 /* vceq - vector.  */
12334
12335 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12336 vceq_f32 (float32x2_t __a, float32x2_t __b)
12337 {
12338   return (uint32x2_t) (__a == __b);
12339 }
12340
12341 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12342 vceq_f64 (float64x1_t __a, float64x1_t __b)
12343 {
12344   return (uint64x1_t) (__a == __b);
12345 }
12346
12347 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12348 vceq_p8 (poly8x8_t __a, poly8x8_t __b)
12349 {
12350   return (uint8x8_t) (__a == __b);
12351 }
12352
12353 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12354 vceq_s8 (int8x8_t __a, int8x8_t __b)
12355 {
12356   return (uint8x8_t) (__a == __b);
12357 }
12358
12359 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12360 vceq_s16 (int16x4_t __a, int16x4_t __b)
12361 {
12362   return (uint16x4_t) (__a == __b);
12363 }
12364
12365 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12366 vceq_s32 (int32x2_t __a, int32x2_t __b)
12367 {
12368   return (uint32x2_t) (__a == __b);
12369 }
12370
12371 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12372 vceq_s64 (int64x1_t __a, int64x1_t __b)
12373 {
12374   return (uint64x1_t) {__a[0] == __b[0] ? -1ll : 0ll};
12375 }
12376
12377 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12378 vceq_u8 (uint8x8_t __a, uint8x8_t __b)
12379 {
12380   return (__a == __b);
12381 }
12382
12383 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12384 vceq_u16 (uint16x4_t __a, uint16x4_t __b)
12385 {
12386   return (__a == __b);
12387 }
12388
12389 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12390 vceq_u32 (uint32x2_t __a, uint32x2_t __b)
12391 {
12392   return (__a == __b);
12393 }
12394
12395 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12396 vceq_u64 (uint64x1_t __a, uint64x1_t __b)
12397 {
12398   return (uint64x1_t) {__a[0] == __b[0] ? -1ll : 0ll};
12399 }
12400
12401 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12402 vceqq_f32 (float32x4_t __a, float32x4_t __b)
12403 {
12404   return (uint32x4_t) (__a == __b);
12405 }
12406
12407 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12408 vceqq_f64 (float64x2_t __a, float64x2_t __b)
12409 {
12410   return (uint64x2_t) (__a == __b);
12411 }
12412
12413 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12414 vceqq_p8 (poly8x16_t __a, poly8x16_t __b)
12415 {
12416   return (uint8x16_t) (__a == __b);
12417 }
12418
12419 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12420 vceqq_s8 (int8x16_t __a, int8x16_t __b)
12421 {
12422   return (uint8x16_t) (__a == __b);
12423 }
12424
12425 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
12426 vceqq_s16 (int16x8_t __a, int16x8_t __b)
12427 {
12428   return (uint16x8_t) (__a == __b);
12429 }
12430
12431 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12432 vceqq_s32 (int32x4_t __a, int32x4_t __b)
12433 {
12434   return (uint32x4_t) (__a == __b);
12435 }
12436
12437 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12438 vceqq_s64 (int64x2_t __a, int64x2_t __b)
12439 {
12440   return (uint64x2_t) (__a == __b);
12441 }
12442
12443 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12444 vceqq_u8 (uint8x16_t __a, uint8x16_t __b)
12445 {
12446   return (__a == __b);
12447 }
12448
12449 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
12450 vceqq_u16 (uint16x8_t __a, uint16x8_t __b)
12451 {
12452   return (__a == __b);
12453 }
12454
12455 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12456 vceqq_u32 (uint32x4_t __a, uint32x4_t __b)
12457 {
12458   return (__a == __b);
12459 }
12460
12461 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12462 vceqq_u64 (uint64x2_t __a, uint64x2_t __b)
12463 {
12464   return (__a == __b);
12465 }
12466
12467 /* vceq - scalar.  */
12468
12469 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
12470 vceqs_f32 (float32_t __a, float32_t __b)
12471 {
12472   return __a == __b ? -1 : 0;
12473 }
12474
12475 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12476 vceqd_s64 (int64_t __a, int64_t __b)
12477 {
12478   return __a == __b ? -1ll : 0ll;
12479 }
12480
12481 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12482 vceqd_u64 (uint64_t __a, uint64_t __b)
12483 {
12484   return __a == __b ? -1ll : 0ll;
12485 }
12486
12487 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12488 vceqd_f64 (float64_t __a, float64_t __b)
12489 {
12490   return __a == __b ? -1ll : 0ll;
12491 }
12492
12493 /* vceqz - vector.  */
12494
12495 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12496 vceqz_f32 (float32x2_t __a)
12497 {
12498   return (uint32x2_t) (__a == 0.0f);
12499 }
12500
12501 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12502 vceqz_f64 (float64x1_t __a)
12503 {
12504   return (uint64x1_t) (__a == (float64x1_t) {0.0});
12505 }
12506
12507 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12508 vceqz_p8 (poly8x8_t __a)
12509 {
12510   return (uint8x8_t) (__a == 0);
12511 }
12512
12513 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12514 vceqz_s8 (int8x8_t __a)
12515 {
12516   return (uint8x8_t) (__a == 0);
12517 }
12518
12519 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12520 vceqz_s16 (int16x4_t __a)
12521 {
12522   return (uint16x4_t) (__a == 0);
12523 }
12524
12525 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12526 vceqz_s32 (int32x2_t __a)
12527 {
12528   return (uint32x2_t) (__a == 0);
12529 }
12530
12531 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12532 vceqz_s64 (int64x1_t __a)
12533 {
12534   return (uint64x1_t) {__a[0] == 0ll ? -1ll : 0ll};
12535 }
12536
12537 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12538 vceqz_u8 (uint8x8_t __a)
12539 {
12540   return (__a == 0);
12541 }
12542
12543 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12544 vceqz_u16 (uint16x4_t __a)
12545 {
12546   return (__a == 0);
12547 }
12548
12549 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12550 vceqz_u32 (uint32x2_t __a)
12551 {
12552   return (__a == 0);
12553 }
12554
12555 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12556 vceqz_u64 (uint64x1_t __a)
12557 {
12558   return (uint64x1_t) {__a[0] == 0ll ? -1ll : 0ll};
12559 }
12560
12561 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12562 vceqzq_f32 (float32x4_t __a)
12563 {
12564   return (uint32x4_t) (__a == 0.0f);
12565 }
12566
12567 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12568 vceqzq_f64 (float64x2_t __a)
12569 {
12570   return (uint64x2_t) (__a == 0.0f);
12571 }
12572
12573 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12574 vceqzq_p8 (poly8x16_t __a)
12575 {
12576   return (uint8x16_t) (__a == 0);
12577 }
12578
12579 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12580 vceqzq_s8 (int8x16_t __a)
12581 {
12582   return (uint8x16_t) (__a == 0);
12583 }
12584
12585 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
12586 vceqzq_s16 (int16x8_t __a)
12587 {
12588   return (uint16x8_t) (__a == 0);
12589 }
12590
12591 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12592 vceqzq_s32 (int32x4_t __a)
12593 {
12594   return (uint32x4_t) (__a == 0);
12595 }
12596
12597 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12598 vceqzq_s64 (int64x2_t __a)
12599 {
12600   return (uint64x2_t) (__a == __AARCH64_INT64_C (0));
12601 }
12602
12603 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12604 vceqzq_u8 (uint8x16_t __a)
12605 {
12606   return (__a == 0);
12607 }
12608
12609 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
12610 vceqzq_u16 (uint16x8_t __a)
12611 {
12612   return (__a == 0);
12613 }
12614
12615 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12616 vceqzq_u32 (uint32x4_t __a)
12617 {
12618   return (__a == 0);
12619 }
12620
12621 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12622 vceqzq_u64 (uint64x2_t __a)
12623 {
12624   return (__a == __AARCH64_UINT64_C (0));
12625 }
12626
12627 /* vceqz - scalar.  */
12628
12629 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
12630 vceqzs_f32 (float32_t __a)
12631 {
12632   return __a == 0.0f ? -1 : 0;
12633 }
12634
12635 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12636 vceqzd_s64 (int64_t __a)
12637 {
12638   return __a == 0 ? -1ll : 0ll;
12639 }
12640
12641 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12642 vceqzd_u64 (uint64_t __a)
12643 {
12644   return __a == 0 ? -1ll : 0ll;
12645 }
12646
12647 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12648 vceqzd_f64 (float64_t __a)
12649 {
12650   return __a == 0.0 ? -1ll : 0ll;
12651 }
12652
12653 /* vcge - vector.  */
12654
12655 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12656 vcge_f32 (float32x2_t __a, float32x2_t __b)
12657 {
12658   return (uint32x2_t) (__a >= __b);
12659 }
12660
12661 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12662 vcge_f64 (float64x1_t __a, float64x1_t __b)
12663 {
12664   return (uint64x1_t) (__a >= __b);
12665 }
12666
12667 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12668 vcge_s8 (int8x8_t __a, int8x8_t __b)
12669 {
12670   return (uint8x8_t) (__a >= __b);
12671 }
12672
12673 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12674 vcge_s16 (int16x4_t __a, int16x4_t __b)
12675 {
12676   return (uint16x4_t) (__a >= __b);
12677 }
12678
12679 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12680 vcge_s32 (int32x2_t __a, int32x2_t __b)
12681 {
12682   return (uint32x2_t) (__a >= __b);
12683 }
12684
12685 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12686 vcge_s64 (int64x1_t __a, int64x1_t __b)
12687 {
12688   return (uint64x1_t) {__a[0] >= __b[0] ? -1ll : 0ll};
12689 }
12690
12691 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12692 vcge_u8 (uint8x8_t __a, uint8x8_t __b)
12693 {
12694   return (__a >= __b);
12695 }
12696
12697 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12698 vcge_u16 (uint16x4_t __a, uint16x4_t __b)
12699 {
12700   return (__a >= __b);
12701 }
12702
12703 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12704 vcge_u32 (uint32x2_t __a, uint32x2_t __b)
12705 {
12706   return (__a >= __b);
12707 }
12708
12709 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12710 vcge_u64 (uint64x1_t __a, uint64x1_t __b)
12711 {
12712   return (uint64x1_t) {__a[0] >= __b[0] ? -1ll : 0ll};
12713 }
12714
12715 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12716 vcgeq_f32 (float32x4_t __a, float32x4_t __b)
12717 {
12718   return (uint32x4_t) (__a >= __b);
12719 }
12720
12721 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12722 vcgeq_f64 (float64x2_t __a, float64x2_t __b)
12723 {
12724   return (uint64x2_t) (__a >= __b);
12725 }
12726
12727 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12728 vcgeq_s8 (int8x16_t __a, int8x16_t __b)
12729 {
12730   return (uint8x16_t) (__a >= __b);
12731 }
12732
12733 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
12734 vcgeq_s16 (int16x8_t __a, int16x8_t __b)
12735 {
12736   return (uint16x8_t) (__a >= __b);
12737 }
12738
12739 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12740 vcgeq_s32 (int32x4_t __a, int32x4_t __b)
12741 {
12742   return (uint32x4_t) (__a >= __b);
12743 }
12744
12745 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12746 vcgeq_s64 (int64x2_t __a, int64x2_t __b)
12747 {
12748   return (uint64x2_t) (__a >= __b);
12749 }
12750
12751 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12752 vcgeq_u8 (uint8x16_t __a, uint8x16_t __b)
12753 {
12754   return (__a >= __b);
12755 }
12756
12757 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
12758 vcgeq_u16 (uint16x8_t __a, uint16x8_t __b)
12759 {
12760   return (__a >= __b);
12761 }
12762
12763 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12764 vcgeq_u32 (uint32x4_t __a, uint32x4_t __b)
12765 {
12766   return (__a >= __b);
12767 }
12768
12769 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12770 vcgeq_u64 (uint64x2_t __a, uint64x2_t __b)
12771 {
12772   return (__a >= __b);
12773 }
12774
12775 /* vcge - scalar.  */
12776
12777 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
12778 vcges_f32 (float32_t __a, float32_t __b)
12779 {
12780   return __a >= __b ? -1 : 0;
12781 }
12782
12783 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12784 vcged_s64 (int64_t __a, int64_t __b)
12785 {
12786   return __a >= __b ? -1ll : 0ll;
12787 }
12788
12789 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12790 vcged_u64 (uint64_t __a, uint64_t __b)
12791 {
12792   return __a >= __b ? -1ll : 0ll;
12793 }
12794
12795 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12796 vcged_f64 (float64_t __a, float64_t __b)
12797 {
12798   return __a >= __b ? -1ll : 0ll;
12799 }
12800
12801 /* vcgez - vector.  */
12802
12803 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12804 vcgez_f32 (float32x2_t __a)
12805 {
12806   return (uint32x2_t) (__a >= 0.0f);
12807 }
12808
12809 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12810 vcgez_f64 (float64x1_t __a)
12811 {
12812   return (uint64x1_t) (__a[0] >= (float64x1_t) {0.0});
12813 }
12814
12815 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12816 vcgez_s8 (int8x8_t __a)
12817 {
12818   return (uint8x8_t) (__a >= 0);
12819 }
12820
12821 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12822 vcgez_s16 (int16x4_t __a)
12823 {
12824   return (uint16x4_t) (__a >= 0);
12825 }
12826
12827 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12828 vcgez_s32 (int32x2_t __a)
12829 {
12830   return (uint32x2_t) (__a >= 0);
12831 }
12832
12833 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12834 vcgez_s64 (int64x1_t __a)
12835 {
12836   return (uint64x1_t) {__a[0] >= 0ll ? -1ll : 0ll};
12837 }
12838
12839 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12840 vcgezq_f32 (float32x4_t __a)
12841 {
12842   return (uint32x4_t) (__a >= 0.0f);
12843 }
12844
12845 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12846 vcgezq_f64 (float64x2_t __a)
12847 {
12848   return (uint64x2_t) (__a >= 0.0);
12849 }
12850
12851 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12852 vcgezq_s8 (int8x16_t __a)
12853 {
12854   return (uint8x16_t) (__a >= 0);
12855 }
12856
12857 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
12858 vcgezq_s16 (int16x8_t __a)
12859 {
12860   return (uint16x8_t) (__a >= 0);
12861 }
12862
12863 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12864 vcgezq_s32 (int32x4_t __a)
12865 {
12866   return (uint32x4_t) (__a >= 0);
12867 }
12868
12869 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12870 vcgezq_s64 (int64x2_t __a)
12871 {
12872   return (uint64x2_t) (__a >= __AARCH64_INT64_C (0));
12873 }
12874
12875 /* vcgez - scalar.  */
12876
12877 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
12878 vcgezs_f32 (float32_t __a)
12879 {
12880   return __a >= 0.0f ? -1 : 0;
12881 }
12882
12883 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12884 vcgezd_s64 (int64_t __a)
12885 {
12886   return __a >= 0 ? -1ll : 0ll;
12887 }
12888
12889 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12890 vcgezd_f64 (float64_t __a)
12891 {
12892   return __a >= 0.0 ? -1ll : 0ll;
12893 }
12894
12895 /* vcgt - vector.  */
12896
12897 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12898 vcgt_f32 (float32x2_t __a, float32x2_t __b)
12899 {
12900   return (uint32x2_t) (__a > __b);
12901 }
12902
12903 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12904 vcgt_f64 (float64x1_t __a, float64x1_t __b)
12905 {
12906   return (uint64x1_t) (__a > __b);
12907 }
12908
12909 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12910 vcgt_s8 (int8x8_t __a, int8x8_t __b)
12911 {
12912   return (uint8x8_t) (__a > __b);
12913 }
12914
12915 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12916 vcgt_s16 (int16x4_t __a, int16x4_t __b)
12917 {
12918   return (uint16x4_t) (__a > __b);
12919 }
12920
12921 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12922 vcgt_s32 (int32x2_t __a, int32x2_t __b)
12923 {
12924   return (uint32x2_t) (__a > __b);
12925 }
12926
12927 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12928 vcgt_s64 (int64x1_t __a, int64x1_t __b)
12929 {
12930   return (uint64x1_t) (__a[0] > __b[0] ? -1ll : 0ll);
12931 }
12932
12933 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12934 vcgt_u8 (uint8x8_t __a, uint8x8_t __b)
12935 {
12936   return (__a > __b);
12937 }
12938
12939 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12940 vcgt_u16 (uint16x4_t __a, uint16x4_t __b)
12941 {
12942   return (__a > __b);
12943 }
12944
12945 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12946 vcgt_u32 (uint32x2_t __a, uint32x2_t __b)
12947 {
12948   return (__a > __b);
12949 }
12950
12951 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12952 vcgt_u64 (uint64x1_t __a, uint64x1_t __b)
12953 {
12954   return (uint64x1_t) (__a[0] > __b[0] ? -1ll : 0ll);
12955 }
12956
12957 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12958 vcgtq_f32 (float32x4_t __a, float32x4_t __b)
12959 {
12960   return (uint32x4_t) (__a > __b);
12961 }
12962
12963 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12964 vcgtq_f64 (float64x2_t __a, float64x2_t __b)
12965 {
12966   return (uint64x2_t) (__a > __b);
12967 }
12968
12969 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12970 vcgtq_s8 (int8x16_t __a, int8x16_t __b)
12971 {
12972   return (uint8x16_t) (__a > __b);
12973 }
12974
12975 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
12976 vcgtq_s16 (int16x8_t __a, int16x8_t __b)
12977 {
12978   return (uint16x8_t) (__a > __b);
12979 }
12980
12981 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12982 vcgtq_s32 (int32x4_t __a, int32x4_t __b)
12983 {
12984   return (uint32x4_t) (__a > __b);
12985 }
12986
12987 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12988 vcgtq_s64 (int64x2_t __a, int64x2_t __b)
12989 {
12990   return (uint64x2_t) (__a > __b);
12991 }
12992
12993 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12994 vcgtq_u8 (uint8x16_t __a, uint8x16_t __b)
12995 {
12996   return (__a > __b);
12997 }
12998
12999 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
13000 vcgtq_u16 (uint16x8_t __a, uint16x8_t __b)
13001 {
13002   return (__a > __b);
13003 }
13004
13005 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13006 vcgtq_u32 (uint32x4_t __a, uint32x4_t __b)
13007 {
13008   return (__a > __b);
13009 }
13010
13011 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13012 vcgtq_u64 (uint64x2_t __a, uint64x2_t __b)
13013 {
13014   return (__a > __b);
13015 }
13016
13017 /* vcgt - scalar.  */
13018
13019 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
13020 vcgts_f32 (float32_t __a, float32_t __b)
13021 {
13022   return __a > __b ? -1 : 0;
13023 }
13024
13025 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13026 vcgtd_s64 (int64_t __a, int64_t __b)
13027 {
13028   return __a > __b ? -1ll : 0ll;
13029 }
13030
13031 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13032 vcgtd_u64 (uint64_t __a, uint64_t __b)
13033 {
13034   return __a > __b ? -1ll : 0ll;
13035 }
13036
13037 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13038 vcgtd_f64 (float64_t __a, float64_t __b)
13039 {
13040   return __a > __b ? -1ll : 0ll;
13041 }
13042
13043 /* vcgtz - vector.  */
13044
13045 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13046 vcgtz_f32 (float32x2_t __a)
13047 {
13048   return (uint32x2_t) (__a > 0.0f);
13049 }
13050
13051 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13052 vcgtz_f64 (float64x1_t __a)
13053 {
13054   return (uint64x1_t) (__a > (float64x1_t) {0.0});
13055 }
13056
13057 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
13058 vcgtz_s8 (int8x8_t __a)
13059 {
13060   return (uint8x8_t) (__a > 0);
13061 }
13062
13063 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
13064 vcgtz_s16 (int16x4_t __a)
13065 {
13066   return (uint16x4_t) (__a > 0);
13067 }
13068
13069 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13070 vcgtz_s32 (int32x2_t __a)
13071 {
13072   return (uint32x2_t) (__a > 0);
13073 }
13074
13075 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13076 vcgtz_s64 (int64x1_t __a)
13077 {
13078   return (uint64x1_t) {__a[0] > 0ll ? -1ll : 0ll};
13079 }
13080
13081 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13082 vcgtzq_f32 (float32x4_t __a)
13083 {
13084   return (uint32x4_t) (__a > 0.0f);
13085 }
13086
13087 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13088 vcgtzq_f64 (float64x2_t __a)
13089 {
13090     return (uint64x2_t) (__a > 0.0);
13091 }
13092
13093 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
13094 vcgtzq_s8 (int8x16_t __a)
13095 {
13096   return (uint8x16_t) (__a > 0);
13097 }
13098
13099 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
13100 vcgtzq_s16 (int16x8_t __a)
13101 {
13102   return (uint16x8_t) (__a > 0);
13103 }
13104
13105 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13106 vcgtzq_s32 (int32x4_t __a)
13107 {
13108   return (uint32x4_t) (__a > 0);
13109 }
13110
13111 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13112 vcgtzq_s64 (int64x2_t __a)
13113 {
13114   return (uint64x2_t) (__a > __AARCH64_INT64_C (0));
13115 }
13116
13117 /* vcgtz - scalar.  */
13118
13119 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
13120 vcgtzs_f32 (float32_t __a)
13121 {
13122   return __a > 0.0f ? -1 : 0;
13123 }
13124
13125 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13126 vcgtzd_s64 (int64_t __a)
13127 {
13128   return __a > 0 ? -1ll : 0ll;
13129 }
13130
13131 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13132 vcgtzd_f64 (float64_t __a)
13133 {
13134   return __a > 0.0 ? -1ll : 0ll;
13135 }
13136
13137 /* vcle - vector.  */
13138
13139 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13140 vcle_f32 (float32x2_t __a, float32x2_t __b)
13141 {
13142   return (uint32x2_t) (__a <= __b);
13143 }
13144
13145 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13146 vcle_f64 (float64x1_t __a, float64x1_t __b)
13147 {
13148   return (uint64x1_t) (__a <= __b);
13149 }
13150
13151 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
13152 vcle_s8 (int8x8_t __a, int8x8_t __b)
13153 {
13154   return (uint8x8_t) (__a <= __b);
13155 }
13156
13157 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
13158 vcle_s16 (int16x4_t __a, int16x4_t __b)
13159 {
13160   return (uint16x4_t) (__a <= __b);
13161 }
13162
13163 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13164 vcle_s32 (int32x2_t __a, int32x2_t __b)
13165 {
13166   return (uint32x2_t) (__a <= __b);
13167 }
13168
13169 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13170 vcle_s64 (int64x1_t __a, int64x1_t __b)
13171 {
13172   return (uint64x1_t) {__a[0] <= __b[0] ? -1ll : 0ll};
13173 }
13174
13175 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
13176 vcle_u8 (uint8x8_t __a, uint8x8_t __b)
13177 {
13178   return (__a <= __b);
13179 }
13180
13181 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
13182 vcle_u16 (uint16x4_t __a, uint16x4_t __b)
13183 {
13184   return (__a <= __b);
13185 }
13186
13187 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13188 vcle_u32 (uint32x2_t __a, uint32x2_t __b)
13189 {
13190   return (__a <= __b);
13191 }
13192
13193 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13194 vcle_u64 (uint64x1_t __a, uint64x1_t __b)
13195 {
13196   return (uint64x1_t) {__a[0] <= __b[0] ? -1ll : 0ll};
13197 }
13198
13199 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13200 vcleq_f32 (float32x4_t __a, float32x4_t __b)
13201 {
13202   return (uint32x4_t) (__a <= __b);
13203 }
13204
13205 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13206 vcleq_f64 (float64x2_t __a, float64x2_t __b)
13207 {
13208   return (uint64x2_t) (__a <= __b);
13209 }
13210
13211 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
13212 vcleq_s8 (int8x16_t __a, int8x16_t __b)
13213 {
13214   return (uint8x16_t) (__a <= __b);
13215 }
13216
13217 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
13218 vcleq_s16 (int16x8_t __a, int16x8_t __b)
13219 {
13220   return (uint16x8_t) (__a <= __b);
13221 }
13222
13223 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13224 vcleq_s32 (int32x4_t __a, int32x4_t __b)
13225 {
13226   return (uint32x4_t) (__a <= __b);
13227 }
13228
13229 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13230 vcleq_s64 (int64x2_t __a, int64x2_t __b)
13231 {
13232   return (uint64x2_t) (__a <= __b);
13233 }
13234
13235 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
13236 vcleq_u8 (uint8x16_t __a, uint8x16_t __b)
13237 {
13238   return (__a <= __b);
13239 }
13240
13241 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
13242 vcleq_u16 (uint16x8_t __a, uint16x8_t __b)
13243 {
13244   return (__a <= __b);
13245 }
13246
13247 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13248 vcleq_u32 (uint32x4_t __a, uint32x4_t __b)
13249 {
13250   return (__a <= __b);
13251 }
13252
13253 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13254 vcleq_u64 (uint64x2_t __a, uint64x2_t __b)
13255 {
13256   return (__a <= __b);
13257 }
13258
13259 /* vcle - scalar.  */
13260
13261 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
13262 vcles_f32 (float32_t __a, float32_t __b)
13263 {
13264   return __a <= __b ? -1 : 0;
13265 }
13266
13267 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13268 vcled_s64 (int64_t __a, int64_t __b)
13269 {
13270   return __a <= __b ? -1ll : 0ll;
13271 }
13272
13273 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13274 vcled_u64 (uint64_t __a, uint64_t __b)
13275 {
13276   return __a <= __b ? -1ll : 0ll;
13277 }
13278
13279 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13280 vcled_f64 (float64_t __a, float64_t __b)
13281 {
13282   return __a <= __b ? -1ll : 0ll;
13283 }
13284
13285 /* vclez - vector.  */
13286
13287 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13288 vclez_f32 (float32x2_t __a)
13289 {
13290   return (uint32x2_t) (__a <= 0.0f);
13291 }
13292
13293 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13294 vclez_f64 (float64x1_t __a)
13295 {
13296   return (uint64x1_t) (__a <= (float64x1_t) {0.0});
13297 }
13298
13299 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
13300 vclez_s8 (int8x8_t __a)
13301 {
13302   return (uint8x8_t) (__a <= 0);
13303 }
13304
13305 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
13306 vclez_s16 (int16x4_t __a)
13307 {
13308   return (uint16x4_t) (__a <= 0);
13309 }
13310
13311 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13312 vclez_s32 (int32x2_t __a)
13313 {
13314   return (uint32x2_t) (__a <= 0);
13315 }
13316
13317 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13318 vclez_s64 (int64x1_t __a)
13319 {
13320   return (uint64x1_t) {__a[0] <= 0ll ? -1ll : 0ll};
13321 }
13322
13323 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13324 vclezq_f32 (float32x4_t __a)
13325 {
13326   return (uint32x4_t) (__a <= 0.0f);
13327 }
13328
13329 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13330 vclezq_f64 (float64x2_t __a)
13331 {
13332   return (uint64x2_t) (__a <= 0.0);
13333 }
13334
13335 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
13336 vclezq_s8 (int8x16_t __a)
13337 {
13338   return (uint8x16_t) (__a <= 0);
13339 }
13340
13341 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
13342 vclezq_s16 (int16x8_t __a)
13343 {
13344   return (uint16x8_t) (__a <= 0);
13345 }
13346
13347 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13348 vclezq_s32 (int32x4_t __a)
13349 {
13350   return (uint32x4_t) (__a <= 0);
13351 }
13352
13353 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13354 vclezq_s64 (int64x2_t __a)
13355 {
13356   return (uint64x2_t) (__a <= __AARCH64_INT64_C (0));
13357 }
13358
13359 /* vclez - scalar.  */
13360
13361 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
13362 vclezs_f32 (float32_t __a)
13363 {
13364   return __a <= 0.0f ? -1 : 0;
13365 }
13366
13367 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13368 vclezd_s64 (int64_t __a)
13369 {
13370   return __a <= 0 ? -1ll : 0ll;
13371 }
13372
13373 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13374 vclezd_f64 (float64_t __a)
13375 {
13376   return __a <= 0.0 ? -1ll : 0ll;
13377 }
13378
13379 /* vclt - vector.  */
13380
13381 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13382 vclt_f32 (float32x2_t __a, float32x2_t __b)
13383 {
13384   return (uint32x2_t) (__a < __b);
13385 }
13386
13387 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13388 vclt_f64 (float64x1_t __a, float64x1_t __b)
13389 {
13390   return (uint64x1_t) (__a < __b);
13391 }
13392
13393 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
13394 vclt_s8 (int8x8_t __a, int8x8_t __b)
13395 {
13396   return (uint8x8_t) (__a < __b);
13397 }
13398
13399 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
13400 vclt_s16 (int16x4_t __a, int16x4_t __b)
13401 {
13402   return (uint16x4_t) (__a < __b);
13403 }
13404
13405 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13406 vclt_s32 (int32x2_t __a, int32x2_t __b)
13407 {
13408   return (uint32x2_t) (__a < __b);
13409 }
13410
13411 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13412 vclt_s64 (int64x1_t __a, int64x1_t __b)
13413 {
13414   return (uint64x1_t) {__a[0] < __b[0] ? -1ll : 0ll};
13415 }
13416
13417 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
13418 vclt_u8 (uint8x8_t __a, uint8x8_t __b)
13419 {
13420   return (__a < __b);
13421 }
13422
13423 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
13424 vclt_u16 (uint16x4_t __a, uint16x4_t __b)
13425 {
13426   return (__a < __b);
13427 }
13428
13429 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13430 vclt_u32 (uint32x2_t __a, uint32x2_t __b)
13431 {
13432   return (__a < __b);
13433 }
13434
13435 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13436 vclt_u64 (uint64x1_t __a, uint64x1_t __b)
13437 {
13438   return (uint64x1_t) {__a[0] < __b[0] ? -1ll : 0ll};
13439 }
13440
13441 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13442 vcltq_f32 (float32x4_t __a, float32x4_t __b)
13443 {
13444   return (uint32x4_t) (__a < __b);
13445 }
13446
13447 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13448 vcltq_f64 (float64x2_t __a, float64x2_t __b)
13449 {
13450   return (uint64x2_t) (__a < __b);
13451 }
13452
13453 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
13454 vcltq_s8 (int8x16_t __a, int8x16_t __b)
13455 {
13456   return (uint8x16_t) (__a < __b);
13457 }
13458
13459 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
13460 vcltq_s16 (int16x8_t __a, int16x8_t __b)
13461 {
13462   return (uint16x8_t) (__a < __b);
13463 }
13464
13465 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13466 vcltq_s32 (int32x4_t __a, int32x4_t __b)
13467 {
13468   return (uint32x4_t) (__a < __b);
13469 }
13470
13471 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13472 vcltq_s64 (int64x2_t __a, int64x2_t __b)
13473 {
13474   return (uint64x2_t) (__a < __b);
13475 }
13476
13477 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
13478 vcltq_u8 (uint8x16_t __a, uint8x16_t __b)
13479 {
13480   return (__a < __b);
13481 }
13482
13483 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
13484 vcltq_u16 (uint16x8_t __a, uint16x8_t __b)
13485 {
13486   return (__a < __b);
13487 }
13488
13489 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13490 vcltq_u32 (uint32x4_t __a, uint32x4_t __b)
13491 {
13492   return (__a < __b);
13493 }
13494
13495 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13496 vcltq_u64 (uint64x2_t __a, uint64x2_t __b)
13497 {
13498   return (__a < __b);
13499 }
13500
13501 /* vclt - scalar.  */
13502
13503 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
13504 vclts_f32 (float32_t __a, float32_t __b)
13505 {
13506   return __a < __b ? -1 : 0;
13507 }
13508
13509 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13510 vcltd_s64 (int64_t __a, int64_t __b)
13511 {
13512   return __a < __b ? -1ll : 0ll;
13513 }
13514
13515 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13516 vcltd_u64 (uint64_t __a, uint64_t __b)
13517 {
13518   return __a < __b ? -1ll : 0ll;
13519 }
13520
13521 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13522 vcltd_f64 (float64_t __a, float64_t __b)
13523 {
13524   return __a < __b ? -1ll : 0ll;
13525 }
13526
13527 /* vcltz - vector.  */
13528
13529 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13530 vcltz_f32 (float32x2_t __a)
13531 {
13532   return (uint32x2_t) (__a < 0.0f);
13533 }
13534
13535 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13536 vcltz_f64 (float64x1_t __a)
13537 {
13538   return (uint64x1_t) (__a < (float64x1_t) {0.0});
13539 }
13540
13541 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
13542 vcltz_s8 (int8x8_t __a)
13543 {
13544   return (uint8x8_t) (__a < 0);
13545 }
13546
13547 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
13548 vcltz_s16 (int16x4_t __a)
13549 {
13550   return (uint16x4_t) (__a < 0);
13551 }
13552
13553 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13554 vcltz_s32 (int32x2_t __a)
13555 {
13556   return (uint32x2_t) (__a < 0);
13557 }
13558
13559 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13560 vcltz_s64 (int64x1_t __a)
13561 {
13562   return (uint64x1_t) {__a[0] < 0ll ? -1ll : 0ll};
13563 }
13564
13565 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13566 vcltzq_f32 (float32x4_t __a)
13567 {
13568   return (uint32x4_t) (__a < 0.0f);
13569 }
13570
13571 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13572 vcltzq_f64 (float64x2_t __a)
13573 {
13574   return (uint64x2_t) (__a < 0.0);
13575 }
13576
13577 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
13578 vcltzq_s8 (int8x16_t __a)
13579 {
13580   return (uint8x16_t) (__a < 0);
13581 }
13582
13583 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
13584 vcltzq_s16 (int16x8_t __a)
13585 {
13586   return (uint16x8_t) (__a < 0);
13587 }
13588
13589 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13590 vcltzq_s32 (int32x4_t __a)
13591 {
13592   return (uint32x4_t) (__a < 0);
13593 }
13594
13595 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13596 vcltzq_s64 (int64x2_t __a)
13597 {
13598   return (uint64x2_t) (__a < __AARCH64_INT64_C (0));
13599 }
13600
13601 /* vcltz - scalar.  */
13602
13603 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
13604 vcltzs_f32 (float32_t __a)
13605 {
13606   return __a < 0.0f ? -1 : 0;
13607 }
13608
13609 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13610 vcltzd_s64 (int64_t __a)
13611 {
13612   return __a < 0 ? -1ll : 0ll;
13613 }
13614
13615 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13616 vcltzd_f64 (float64_t __a)
13617 {
13618   return __a < 0.0 ? -1ll : 0ll;
13619 }
13620
13621 /* vcls.  */
13622
13623 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
13624 vcls_s8 (int8x8_t __a)
13625 {
13626   return __builtin_aarch64_clrsbv8qi (__a);
13627 }
13628
13629 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
13630 vcls_s16 (int16x4_t __a)
13631 {
13632   return __builtin_aarch64_clrsbv4hi (__a);
13633 }
13634
13635 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
13636 vcls_s32 (int32x2_t __a)
13637 {
13638   return __builtin_aarch64_clrsbv2si (__a);
13639 }
13640
13641 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
13642 vclsq_s8 (int8x16_t __a)
13643 {
13644   return __builtin_aarch64_clrsbv16qi (__a);
13645 }
13646
13647 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
13648 vclsq_s16 (int16x8_t __a)
13649 {
13650   return __builtin_aarch64_clrsbv8hi (__a);
13651 }
13652
13653 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
13654 vclsq_s32 (int32x4_t __a)
13655 {
13656   return __builtin_aarch64_clrsbv4si (__a);
13657 }
13658
13659 /* vclz.  */
13660
13661 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
13662 vclz_s8 (int8x8_t __a)
13663 {
13664   return __builtin_aarch64_clzv8qi (__a);
13665 }
13666
13667 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
13668 vclz_s16 (int16x4_t __a)
13669 {
13670   return __builtin_aarch64_clzv4hi (__a);
13671 }
13672
13673 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
13674 vclz_s32 (int32x2_t __a)
13675 {
13676   return __builtin_aarch64_clzv2si (__a);
13677 }
13678
13679 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
13680 vclz_u8 (uint8x8_t __a)
13681 {
13682   return (uint8x8_t)__builtin_aarch64_clzv8qi ((int8x8_t)__a);
13683 }
13684
13685 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
13686 vclz_u16 (uint16x4_t __a)
13687 {
13688   return (uint16x4_t)__builtin_aarch64_clzv4hi ((int16x4_t)__a);
13689 }
13690
13691 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13692 vclz_u32 (uint32x2_t __a)
13693 {
13694   return (uint32x2_t)__builtin_aarch64_clzv2si ((int32x2_t)__a);
13695 }
13696
13697 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
13698 vclzq_s8 (int8x16_t __a)
13699 {
13700   return __builtin_aarch64_clzv16qi (__a);
13701 }
13702
13703 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
13704 vclzq_s16 (int16x8_t __a)
13705 {
13706   return __builtin_aarch64_clzv8hi (__a);
13707 }
13708
13709 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
13710 vclzq_s32 (int32x4_t __a)
13711 {
13712   return __builtin_aarch64_clzv4si (__a);
13713 }
13714
13715 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
13716 vclzq_u8 (uint8x16_t __a)
13717 {
13718   return (uint8x16_t)__builtin_aarch64_clzv16qi ((int8x16_t)__a);
13719 }
13720
13721 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
13722 vclzq_u16 (uint16x8_t __a)
13723 {
13724   return (uint16x8_t)__builtin_aarch64_clzv8hi ((int16x8_t)__a);
13725 }
13726
13727 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13728 vclzq_u32 (uint32x4_t __a)
13729 {
13730   return (uint32x4_t)__builtin_aarch64_clzv4si ((int32x4_t)__a);
13731 }
13732
13733 /* vcnt.  */
13734
13735 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
13736 vcnt_p8 (poly8x8_t __a)
13737 {
13738   return (poly8x8_t) __builtin_aarch64_popcountv8qi ((int8x8_t) __a);
13739 }
13740
13741 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
13742 vcnt_s8 (int8x8_t __a)
13743 {
13744   return __builtin_aarch64_popcountv8qi (__a);
13745 }
13746
13747 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
13748 vcnt_u8 (uint8x8_t __a)
13749 {
13750   return (uint8x8_t) __builtin_aarch64_popcountv8qi ((int8x8_t) __a);
13751 }
13752
13753 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
13754 vcntq_p8 (poly8x16_t __a)
13755 {
13756   return (poly8x16_t) __builtin_aarch64_popcountv16qi ((int8x16_t) __a);
13757 }
13758
13759 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
13760 vcntq_s8 (int8x16_t __a)
13761 {
13762   return __builtin_aarch64_popcountv16qi (__a);
13763 }
13764
13765 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
13766 vcntq_u8 (uint8x16_t __a)
13767 {
13768   return (uint8x16_t) __builtin_aarch64_popcountv16qi ((int8x16_t) __a);
13769 }
13770
13771 /* vcvt (double -> float).  */
13772
13773 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
13774 vcvt_f32_f64 (float64x2_t __a)
13775 {
13776   return __builtin_aarch64_float_truncate_lo_v2sf (__a);
13777 }
13778
13779 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
13780 vcvt_high_f32_f64 (float32x2_t __a, float64x2_t __b)
13781 {
13782   return __builtin_aarch64_float_truncate_hi_v4sf (__a, __b);
13783 }
13784
13785 /* vcvt (float -> double).  */
13786
13787 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
13788 vcvt_f64_f32 (float32x2_t __a)
13789 {
13790
13791   return __builtin_aarch64_float_extend_lo_v2df (__a);
13792 }
13793
13794 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
13795 vcvt_high_f64_f32 (float32x4_t __a)
13796 {
13797   return __builtin_aarch64_vec_unpacks_hi_v4sf (__a);
13798 }
13799
13800 /* vcvt  (<u>int -> float)  */
13801
13802 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
13803 vcvtd_f64_s64 (int64_t __a)
13804 {
13805   return (float64_t) __a;
13806 }
13807
13808 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
13809 vcvtd_f64_u64 (uint64_t __a)
13810 {
13811   return (float64_t) __a;
13812 }
13813
13814 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
13815 vcvts_f32_s32 (int32_t __a)
13816 {
13817   return (float32_t) __a;
13818 }
13819
13820 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
13821 vcvts_f32_u32 (uint32_t __a)
13822 {
13823   return (float32_t) __a;
13824 }
13825
13826 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
13827 vcvt_f32_s32 (int32x2_t __a)
13828 {
13829   return __builtin_aarch64_floatv2siv2sf (__a);
13830 }
13831
13832 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
13833 vcvt_f32_u32 (uint32x2_t __a)
13834 {
13835   return __builtin_aarch64_floatunsv2siv2sf ((int32x2_t) __a);
13836 }
13837
13838 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
13839 vcvtq_f32_s32 (int32x4_t __a)
13840 {
13841   return __builtin_aarch64_floatv4siv4sf (__a);
13842 }
13843
13844 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
13845 vcvtq_f32_u32 (uint32x4_t __a)
13846 {
13847   return __builtin_aarch64_floatunsv4siv4sf ((int32x4_t) __a);
13848 }
13849
13850 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
13851 vcvtq_f64_s64 (int64x2_t __a)
13852 {
13853   return __builtin_aarch64_floatv2div2df (__a);
13854 }
13855
13856 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
13857 vcvtq_f64_u64 (uint64x2_t __a)
13858 {
13859   return __builtin_aarch64_floatunsv2div2df ((int64x2_t) __a);
13860 }
13861
13862 /* vcvt (float -> <u>int)  */
13863
13864 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
13865 vcvtd_s64_f64 (float64_t __a)
13866 {
13867   return (int64_t) __a;
13868 }
13869
13870 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13871 vcvtd_u64_f64 (float64_t __a)
13872 {
13873   return (uint64_t) __a;
13874 }
13875
13876 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
13877 vcvts_s32_f32 (float32_t __a)
13878 {
13879   return (int32_t) __a;
13880 }
13881
13882 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
13883 vcvts_u32_f32 (float32_t __a)
13884 {
13885   return (uint32_t) __a;
13886 }
13887
13888 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
13889 vcvt_s32_f32 (float32x2_t __a)
13890 {
13891   return __builtin_aarch64_lbtruncv2sfv2si (__a);
13892 }
13893
13894 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13895 vcvt_u32_f32 (float32x2_t __a)
13896 {
13897   /* TODO: This cast should go away when builtins have
13898      their correct types.  */
13899   return (uint32x2_t) __builtin_aarch64_lbtruncuv2sfv2si (__a);
13900 }
13901
13902 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
13903 vcvtq_s32_f32 (float32x4_t __a)
13904 {
13905   return __builtin_aarch64_lbtruncv4sfv4si (__a);
13906 }
13907
13908 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13909 vcvtq_u32_f32 (float32x4_t __a)
13910 {
13911   /* TODO: This cast should go away when builtins have
13912      their correct types.  */
13913   return (uint32x4_t) __builtin_aarch64_lbtruncuv4sfv4si (__a);
13914 }
13915
13916 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
13917 vcvtq_s64_f64 (float64x2_t __a)
13918 {
13919   return __builtin_aarch64_lbtruncv2dfv2di (__a);
13920 }
13921
13922 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13923 vcvtq_u64_f64 (float64x2_t __a)
13924 {
13925   /* TODO: This cast should go away when builtins have
13926      their correct types.  */
13927   return (uint64x2_t) __builtin_aarch64_lbtruncuv2dfv2di (__a);
13928 }
13929
13930 /* vcvta  */
13931
13932 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
13933 vcvtad_s64_f64 (float64_t __a)
13934 {
13935   return __builtin_aarch64_lrounddfdi (__a);
13936 }
13937
13938 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13939 vcvtad_u64_f64 (float64_t __a)
13940 {
13941   return __builtin_aarch64_lroundudfdi (__a);
13942 }
13943
13944 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
13945 vcvtas_s32_f32 (float32_t __a)
13946 {
13947   return __builtin_aarch64_lroundsfsi (__a);
13948 }
13949
13950 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
13951 vcvtas_u32_f32 (float32_t __a)
13952 {
13953   return __builtin_aarch64_lroundusfsi (__a);
13954 }
13955
13956 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
13957 vcvta_s32_f32 (float32x2_t __a)
13958 {
13959   return __builtin_aarch64_lroundv2sfv2si (__a);
13960 }
13961
13962 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13963 vcvta_u32_f32 (float32x2_t __a)
13964 {
13965   /* TODO: This cast should go away when builtins have
13966      their correct types.  */
13967   return (uint32x2_t) __builtin_aarch64_lrounduv2sfv2si (__a);
13968 }
13969
13970 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
13971 vcvtaq_s32_f32 (float32x4_t __a)
13972 {
13973   return __builtin_aarch64_lroundv4sfv4si (__a);
13974 }
13975
13976 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13977 vcvtaq_u32_f32 (float32x4_t __a)
13978 {
13979   /* TODO: This cast should go away when builtins have
13980      their correct types.  */
13981   return (uint32x4_t) __builtin_aarch64_lrounduv4sfv4si (__a);
13982 }
13983
13984 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
13985 vcvtaq_s64_f64 (float64x2_t __a)
13986 {
13987   return __builtin_aarch64_lroundv2dfv2di (__a);
13988 }
13989
13990 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13991 vcvtaq_u64_f64 (float64x2_t __a)
13992 {
13993   /* TODO: This cast should go away when builtins have
13994      their correct types.  */
13995   return (uint64x2_t) __builtin_aarch64_lrounduv2dfv2di (__a);
13996 }
13997
13998 /* vcvtm  */
13999
14000 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
14001 vcvtmd_s64_f64 (float64_t __a)
14002 {
14003   return __builtin_llfloor (__a);
14004 }
14005
14006 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
14007 vcvtmd_u64_f64 (float64_t __a)
14008 {
14009   return __builtin_aarch64_lfloorudfdi (__a);
14010 }
14011
14012 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
14013 vcvtms_s32_f32 (float32_t __a)
14014 {
14015   return __builtin_ifloorf (__a);
14016 }
14017
14018 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
14019 vcvtms_u32_f32 (float32_t __a)
14020 {
14021   return __builtin_aarch64_lfloorusfsi (__a);
14022 }
14023
14024 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
14025 vcvtm_s32_f32 (float32x2_t __a)
14026 {
14027   return __builtin_aarch64_lfloorv2sfv2si (__a);
14028 }
14029
14030 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
14031 vcvtm_u32_f32 (float32x2_t __a)
14032 {
14033   /* TODO: This cast should go away when builtins have
14034      their correct types.  */
14035   return (uint32x2_t) __builtin_aarch64_lflooruv2sfv2si (__a);
14036 }
14037
14038 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
14039 vcvtmq_s32_f32 (float32x4_t __a)
14040 {
14041   return __builtin_aarch64_lfloorv4sfv4si (__a);
14042 }
14043
14044 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
14045 vcvtmq_u32_f32 (float32x4_t __a)
14046 {
14047   /* TODO: This cast should go away when builtins have
14048      their correct types.  */
14049   return (uint32x4_t) __builtin_aarch64_lflooruv4sfv4si (__a);
14050 }
14051
14052 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
14053 vcvtmq_s64_f64 (float64x2_t __a)
14054 {
14055   return __builtin_aarch64_lfloorv2dfv2di (__a);
14056 }
14057
14058 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
14059 vcvtmq_u64_f64 (float64x2_t __a)
14060 {
14061   /* TODO: This cast should go away when builtins have
14062      their correct types.  */
14063   return (uint64x2_t) __builtin_aarch64_lflooruv2dfv2di (__a);
14064 }
14065
14066 /* vcvtn  */
14067
14068 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
14069 vcvtnd_s64_f64 (float64_t __a)
14070 {
14071   return __builtin_aarch64_lfrintndfdi (__a);
14072 }
14073
14074 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
14075 vcvtnd_u64_f64 (float64_t __a)
14076 {
14077   return __builtin_aarch64_lfrintnudfdi (__a);
14078 }
14079
14080 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
14081 vcvtns_s32_f32 (float32_t __a)
14082 {
14083   return __builtin_aarch64_lfrintnsfsi (__a);
14084 }
14085
14086 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
14087 vcvtns_u32_f32 (float32_t __a)
14088 {
14089   return __builtin_aarch64_lfrintnusfsi (__a);
14090 }
14091
14092 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
14093 vcvtn_s32_f32 (float32x2_t __a)
14094 {
14095   return __builtin_aarch64_lfrintnv2sfv2si (__a);
14096 }
14097
14098 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
14099 vcvtn_u32_f32 (float32x2_t __a)
14100 {
14101   /* TODO: This cast should go away when builtins have
14102      their correct types.  */
14103   return (uint32x2_t) __builtin_aarch64_lfrintnuv2sfv2si (__a);
14104 }
14105
14106 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
14107 vcvtnq_s32_f32 (float32x4_t __a)
14108 {
14109   return __builtin_aarch64_lfrintnv4sfv4si (__a);
14110 }
14111
14112 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
14113 vcvtnq_u32_f32 (float32x4_t __a)
14114 {
14115   /* TODO: This cast should go away when builtins have
14116      their correct types.  */
14117   return (uint32x4_t) __builtin_aarch64_lfrintnuv4sfv4si (__a);
14118 }
14119
14120 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
14121 vcvtnq_s64_f64 (float64x2_t __a)
14122 {
14123   return __builtin_aarch64_lfrintnv2dfv2di (__a);
14124 }
14125
14126 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
14127 vcvtnq_u64_f64 (float64x2_t __a)
14128 {
14129   /* TODO: This cast should go away when builtins have
14130      their correct types.  */
14131   return (uint64x2_t) __builtin_aarch64_lfrintnuv2dfv2di (__a);
14132 }
14133
14134 /* vcvtp  */
14135
14136 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
14137 vcvtpd_s64_f64 (float64_t __a)
14138 {
14139   return __builtin_llceil (__a);
14140 }
14141
14142 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
14143 vcvtpd_u64_f64 (float64_t __a)
14144 {
14145   return __builtin_aarch64_lceiludfdi (__a);
14146 }
14147
14148 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
14149 vcvtps_s32_f32 (float32_t __a)
14150 {
14151   return __builtin_iceilf (__a);
14152 }
14153
14154 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
14155 vcvtps_u32_f32 (float32_t __a)
14156 {
14157   return __builtin_aarch64_lceilusfsi (__a);
14158 }
14159
14160 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
14161 vcvtp_s32_f32 (float32x2_t __a)
14162 {
14163   return __builtin_aarch64_lceilv2sfv2si (__a);
14164 }
14165
14166 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
14167 vcvtp_u32_f32 (float32x2_t __a)
14168 {
14169   /* TODO: This cast should go away when builtins have
14170      their correct types.  */
14171   return (uint32x2_t) __builtin_aarch64_lceiluv2sfv2si (__a);
14172 }
14173
14174 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
14175 vcvtpq_s32_f32 (float32x4_t __a)
14176 {
14177   return __builtin_aarch64_lceilv4sfv4si (__a);
14178 }
14179
14180 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
14181 vcvtpq_u32_f32 (float32x4_t __a)
14182 {
14183   /* TODO: This cast should go away when builtins have
14184      their correct types.  */
14185   return (uint32x4_t) __builtin_aarch64_lceiluv4sfv4si (__a);
14186 }
14187
14188 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
14189 vcvtpq_s64_f64 (float64x2_t __a)
14190 {
14191   return __builtin_aarch64_lceilv2dfv2di (__a);
14192 }
14193
14194 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
14195 vcvtpq_u64_f64 (float64x2_t __a)
14196 {
14197   /* TODO: This cast should go away when builtins have
14198      their correct types.  */
14199   return (uint64x2_t) __builtin_aarch64_lceiluv2dfv2di (__a);
14200 }
14201
14202 /* vdup_n  */
14203
14204 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
14205 vdup_n_f32 (float32_t __a)
14206 {
14207   return (float32x2_t) {__a, __a};
14208 }
14209
14210 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
14211 vdup_n_f64 (float64_t __a)
14212 {
14213   return (float64x1_t) {__a};
14214 }
14215
14216 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
14217 vdup_n_p8 (poly8_t __a)
14218 {
14219   return (poly8x8_t) {__a, __a, __a, __a, __a, __a, __a, __a};
14220 }
14221
14222 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
14223 vdup_n_p16 (poly16_t __a)
14224 {
14225   return (poly16x4_t) {__a, __a, __a, __a};
14226 }
14227
14228 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
14229 vdup_n_s8 (int8_t __a)
14230 {
14231   return (int8x8_t) {__a, __a, __a, __a, __a, __a, __a, __a};
14232 }
14233
14234 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
14235 vdup_n_s16 (int16_t __a)
14236 {
14237   return (int16x4_t) {__a, __a, __a, __a};
14238 }
14239
14240 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
14241 vdup_n_s32 (int32_t __a)
14242 {
14243   return (int32x2_t) {__a, __a};
14244 }
14245
14246 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
14247 vdup_n_s64 (int64_t __a)
14248 {
14249   return (int64x1_t) {__a};
14250 }
14251
14252 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
14253 vdup_n_u8 (uint8_t __a)
14254 {
14255   return (uint8x8_t) {__a, __a, __a, __a, __a, __a, __a, __a};
14256 }
14257
14258 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
14259 vdup_n_u16 (uint16_t __a)
14260 {
14261   return (uint16x4_t) {__a, __a, __a, __a};
14262 }
14263
14264 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
14265 vdup_n_u32 (uint32_t __a)
14266 {
14267   return (uint32x2_t) {__a, __a};
14268 }
14269
14270 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
14271 vdup_n_u64 (uint64_t __a)
14272 {
14273   return (uint64x1_t) {__a};
14274 }
14275
14276 /* vdupq_n  */
14277
14278 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
14279 vdupq_n_f32 (float32_t __a)
14280 {
14281   return (float32x4_t) {__a, __a, __a, __a};
14282 }
14283
14284 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
14285 vdupq_n_f64 (float64_t __a)
14286 {
14287   return (float64x2_t) {__a, __a};
14288 }
14289
14290 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
14291 vdupq_n_p8 (uint32_t __a)
14292 {
14293   return (poly8x16_t) {__a, __a, __a, __a, __a, __a, __a, __a,
14294                        __a, __a, __a, __a, __a, __a, __a, __a};
14295 }
14296
14297 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
14298 vdupq_n_p16 (uint32_t __a)
14299 {
14300   return (poly16x8_t) {__a, __a, __a, __a, __a, __a, __a, __a};
14301 }
14302
14303 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
14304 vdupq_n_s8 (int32_t __a)
14305 {
14306   return (int8x16_t) {__a, __a, __a, __a, __a, __a, __a, __a,
14307                       __a, __a, __a, __a, __a, __a, __a, __a};
14308 }
14309
14310 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
14311 vdupq_n_s16 (int32_t __a)
14312 {
14313   return (int16x8_t) {__a, __a, __a, __a, __a, __a, __a, __a};
14314 }
14315
14316 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
14317 vdupq_n_s32 (int32_t __a)
14318 {
14319   return (int32x4_t) {__a, __a, __a, __a};
14320 }
14321
14322 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
14323 vdupq_n_s64 (int64_t __a)
14324 {
14325   return (int64x2_t) {__a, __a};
14326 }
14327
14328 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
14329 vdupq_n_u8 (uint32_t __a)
14330 {
14331   return (uint8x16_t) {__a, __a, __a, __a, __a, __a, __a, __a,
14332                        __a, __a, __a, __a, __a, __a, __a, __a};
14333 }
14334
14335 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
14336 vdupq_n_u16 (uint32_t __a)
14337 {
14338   return (uint16x8_t) {__a, __a, __a, __a, __a, __a, __a, __a};
14339 }
14340
14341 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
14342 vdupq_n_u32 (uint32_t __a)
14343 {
14344   return (uint32x4_t) {__a, __a, __a, __a};
14345 }
14346
14347 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
14348 vdupq_n_u64 (uint64_t __a)
14349 {
14350   return (uint64x2_t) {__a, __a};
14351 }
14352
14353 /* vdup_lane  */
14354
14355 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
14356 vdup_lane_f32 (float32x2_t __a, const int __b)
14357 {
14358   return __aarch64_vdup_lane_f32 (__a, __b);
14359 }
14360
14361 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
14362 vdup_lane_f64 (float64x1_t __a, const int __b)
14363 {
14364   return __aarch64_vdup_lane_f64 (__a, __b);
14365 }
14366
14367 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
14368 vdup_lane_p8 (poly8x8_t __a, const int __b)
14369 {
14370   return __aarch64_vdup_lane_p8 (__a, __b);
14371 }
14372
14373 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
14374 vdup_lane_p16 (poly16x4_t __a, const int __b)
14375 {
14376   return __aarch64_vdup_lane_p16 (__a, __b);
14377 }
14378
14379 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
14380 vdup_lane_s8 (int8x8_t __a, const int __b)
14381 {
14382   return __aarch64_vdup_lane_s8 (__a, __b);
14383 }
14384
14385 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
14386 vdup_lane_s16 (int16x4_t __a, const int __b)
14387 {
14388   return __aarch64_vdup_lane_s16 (__a, __b);
14389 }
14390
14391 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
14392 vdup_lane_s32 (int32x2_t __a, const int __b)
14393 {
14394   return __aarch64_vdup_lane_s32 (__a, __b);
14395 }
14396
14397 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
14398 vdup_lane_s64 (int64x1_t __a, const int __b)
14399 {
14400   return __aarch64_vdup_lane_s64 (__a, __b);
14401 }
14402
14403 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
14404 vdup_lane_u8 (uint8x8_t __a, const int __b)
14405 {
14406   return __aarch64_vdup_lane_u8 (__a, __b);
14407 }
14408
14409 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
14410 vdup_lane_u16 (uint16x4_t __a, const int __b)
14411 {
14412   return __aarch64_vdup_lane_u16 (__a, __b);
14413 }
14414
14415 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
14416 vdup_lane_u32 (uint32x2_t __a, const int __b)
14417 {
14418   return __aarch64_vdup_lane_u32 (__a, __b);
14419 }
14420
14421 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
14422 vdup_lane_u64 (uint64x1_t __a, const int __b)
14423 {
14424   return __aarch64_vdup_lane_u64 (__a, __b);
14425 }
14426
14427 /* vdup_laneq  */
14428
14429 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
14430 vdup_laneq_f32 (float32x4_t __a, const int __b)
14431 {
14432   return __aarch64_vdup_laneq_f32 (__a, __b);
14433 }
14434
14435 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
14436 vdup_laneq_f64 (float64x2_t __a, const int __b)
14437 {
14438   return __aarch64_vdup_laneq_f64 (__a, __b);
14439 }
14440
14441 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
14442 vdup_laneq_p8 (poly8x16_t __a, const int __b)
14443 {
14444   return __aarch64_vdup_laneq_p8 (__a, __b);
14445 }
14446
14447 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
14448 vdup_laneq_p16 (poly16x8_t __a, const int __b)
14449 {
14450   return __aarch64_vdup_laneq_p16 (__a, __b);
14451 }
14452
14453 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
14454 vdup_laneq_s8 (int8x16_t __a, const int __b)
14455 {
14456   return __aarch64_vdup_laneq_s8 (__a, __b);
14457 }
14458
14459 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
14460 vdup_laneq_s16 (int16x8_t __a, const int __b)
14461 {
14462   return __aarch64_vdup_laneq_s16 (__a, __b);
14463 }
14464
14465 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
14466 vdup_laneq_s32 (int32x4_t __a, const int __b)
14467 {
14468   return __aarch64_vdup_laneq_s32 (__a, __b);
14469 }
14470
14471 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
14472 vdup_laneq_s64 (int64x2_t __a, const int __b)
14473 {
14474   return __aarch64_vdup_laneq_s64 (__a, __b);
14475 }
14476
14477 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
14478 vdup_laneq_u8 (uint8x16_t __a, const int __b)
14479 {
14480   return __aarch64_vdup_laneq_u8 (__a, __b);
14481 }
14482
14483 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
14484 vdup_laneq_u16 (uint16x8_t __a, const int __b)
14485 {
14486   return __aarch64_vdup_laneq_u16 (__a, __b);
14487 }
14488
14489 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
14490 vdup_laneq_u32 (uint32x4_t __a, const int __b)
14491 {
14492   return __aarch64_vdup_laneq_u32 (__a, __b);
14493 }
14494
14495 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
14496 vdup_laneq_u64 (uint64x2_t __a, const int __b)
14497 {
14498   return __aarch64_vdup_laneq_u64 (__a, __b);
14499 }
14500
14501 /* vdupq_lane  */
14502 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
14503 vdupq_lane_f32 (float32x2_t __a, const int __b)
14504 {
14505   return __aarch64_vdupq_lane_f32 (__a, __b);
14506 }
14507
14508 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
14509 vdupq_lane_f64 (float64x1_t __a, const int __b)
14510 {
14511   return __aarch64_vdupq_lane_f64 (__a, __b);
14512 }
14513
14514 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
14515 vdupq_lane_p8 (poly8x8_t __a, const int __b)
14516 {
14517   return __aarch64_vdupq_lane_p8 (__a, __b);
14518 }
14519
14520 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
14521 vdupq_lane_p16 (poly16x4_t __a, const int __b)
14522 {
14523   return __aarch64_vdupq_lane_p16 (__a, __b);
14524 }
14525
14526 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
14527 vdupq_lane_s8 (int8x8_t __a, const int __b)
14528 {
14529   return __aarch64_vdupq_lane_s8 (__a, __b);
14530 }
14531
14532 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
14533 vdupq_lane_s16 (int16x4_t __a, const int __b)
14534 {
14535   return __aarch64_vdupq_lane_s16 (__a, __b);
14536 }
14537
14538 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
14539 vdupq_lane_s32 (int32x2_t __a, const int __b)
14540 {
14541   return __aarch64_vdupq_lane_s32 (__a, __b);
14542 }
14543
14544 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
14545 vdupq_lane_s64 (int64x1_t __a, const int __b)
14546 {
14547   return __aarch64_vdupq_lane_s64 (__a, __b);
14548 }
14549
14550 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
14551 vdupq_lane_u8 (uint8x8_t __a, const int __b)
14552 {
14553   return __aarch64_vdupq_lane_u8 (__a, __b);
14554 }
14555
14556 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
14557 vdupq_lane_u16 (uint16x4_t __a, const int __b)
14558 {
14559   return __aarch64_vdupq_lane_u16 (__a, __b);
14560 }
14561
14562 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
14563 vdupq_lane_u32 (uint32x2_t __a, const int __b)
14564 {
14565   return __aarch64_vdupq_lane_u32 (__a, __b);
14566 }
14567
14568 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
14569 vdupq_lane_u64 (uint64x1_t __a, const int __b)
14570 {
14571   return __aarch64_vdupq_lane_u64 (__a, __b);
14572 }
14573
14574 /* vdupq_laneq  */
14575 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
14576 vdupq_laneq_f32 (float32x4_t __a, const int __b)
14577 {
14578   return __aarch64_vdupq_laneq_f32 (__a, __b);
14579 }
14580
14581 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
14582 vdupq_laneq_f64 (float64x2_t __a, const int __b)
14583 {
14584   return __aarch64_vdupq_laneq_f64 (__a, __b);
14585 }
14586
14587 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
14588 vdupq_laneq_p8 (poly8x16_t __a, const int __b)
14589 {
14590   return __aarch64_vdupq_laneq_p8 (__a, __b);
14591 }
14592
14593 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
14594 vdupq_laneq_p16 (poly16x8_t __a, const int __b)
14595 {
14596   return __aarch64_vdupq_laneq_p16 (__a, __b);
14597 }
14598
14599 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
14600 vdupq_laneq_s8 (int8x16_t __a, const int __b)
14601 {
14602   return __aarch64_vdupq_laneq_s8 (__a, __b);
14603 }
14604
14605 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
14606 vdupq_laneq_s16 (int16x8_t __a, const int __b)
14607 {
14608   return __aarch64_vdupq_laneq_s16 (__a, __b);
14609 }
14610
14611 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
14612 vdupq_laneq_s32 (int32x4_t __a, const int __b)
14613 {
14614   return __aarch64_vdupq_laneq_s32 (__a, __b);
14615 }
14616
14617 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
14618 vdupq_laneq_s64 (int64x2_t __a, const int __b)
14619 {
14620   return __aarch64_vdupq_laneq_s64 (__a, __b);
14621 }
14622
14623 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
14624 vdupq_laneq_u8 (uint8x16_t __a, const int __b)
14625 {
14626   return __aarch64_vdupq_laneq_u8 (__a, __b);
14627 }
14628
14629 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
14630 vdupq_laneq_u16 (uint16x8_t __a, const int __b)
14631 {
14632   return __aarch64_vdupq_laneq_u16 (__a, __b);
14633 }
14634
14635 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
14636 vdupq_laneq_u32 (uint32x4_t __a, const int __b)
14637 {
14638   return __aarch64_vdupq_laneq_u32 (__a, __b);
14639 }
14640
14641 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
14642 vdupq_laneq_u64 (uint64x2_t __a, const int __b)
14643 {
14644   return __aarch64_vdupq_laneq_u64 (__a, __b);
14645 }
14646
14647 /* vdupb_lane  */
14648 __extension__ static __inline poly8_t __attribute__ ((__always_inline__))
14649 vdupb_lane_p8 (poly8x8_t __a, const int __b)
14650 {
14651   return __aarch64_vget_lane_any (__a, __b);
14652 }
14653
14654 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
14655 vdupb_lane_s8 (int8x8_t __a, const int __b)
14656 {
14657   return __aarch64_vget_lane_any (__a, __b);
14658 }
14659
14660 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
14661 vdupb_lane_u8 (uint8x8_t __a, const int __b)
14662 {
14663   return __aarch64_vget_lane_any (__a, __b);
14664 }
14665
14666 /* vduph_lane  */
14667 __extension__ static __inline poly16_t __attribute__ ((__always_inline__))
14668 vduph_lane_p16 (poly16x4_t __a, const int __b)
14669 {
14670   return __aarch64_vget_lane_any (__a, __b);
14671 }
14672
14673 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
14674 vduph_lane_s16 (int16x4_t __a, const int __b)
14675 {
14676   return __aarch64_vget_lane_any (__a, __b);
14677 }
14678
14679 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
14680 vduph_lane_u16 (uint16x4_t __a, const int __b)
14681 {
14682   return __aarch64_vget_lane_any (__a, __b);
14683 }
14684
14685 /* vdups_lane  */
14686 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
14687 vdups_lane_f32 (float32x2_t __a, const int __b)
14688 {
14689   return __aarch64_vget_lane_any (__a, __b);
14690 }
14691
14692 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
14693 vdups_lane_s32 (int32x2_t __a, const int __b)
14694 {
14695   return __aarch64_vget_lane_any (__a, __b);
14696 }
14697
14698 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
14699 vdups_lane_u32 (uint32x2_t __a, const int __b)
14700 {
14701   return __aarch64_vget_lane_any (__a, __b);
14702 }
14703
14704 /* vdupd_lane  */
14705 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
14706 vdupd_lane_f64 (float64x1_t __a, const int __b)
14707 {
14708   __AARCH64_LANE_CHECK (__a, __b);
14709   return __a[0];
14710 }
14711
14712 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
14713 vdupd_lane_s64 (int64x1_t __a, const int __b)
14714 {
14715   __AARCH64_LANE_CHECK (__a, __b);
14716   return __a[0];
14717 }
14718
14719 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
14720 vdupd_lane_u64 (uint64x1_t __a, const int __b)
14721 {
14722   __AARCH64_LANE_CHECK (__a, __b);
14723   return __a[0];
14724 }
14725
14726 /* vdupb_laneq  */
14727 __extension__ static __inline poly8_t __attribute__ ((__always_inline__))
14728 vdupb_laneq_p8 (poly8x16_t __a, const int __b)
14729 {
14730   return __aarch64_vget_lane_any (__a, __b);
14731 }
14732
14733 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
14734 vdupb_laneq_s8 (int8x16_t __a, const int __attribute__ ((unused)) __b)
14735 {
14736   return __aarch64_vget_lane_any (__a, __b);
14737 }
14738
14739 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
14740 vdupb_laneq_u8 (uint8x16_t __a, const int __b)
14741 {
14742   return __aarch64_vget_lane_any (__a, __b);
14743 }
14744
14745 /* vduph_laneq  */
14746 __extension__ static __inline poly16_t __attribute__ ((__always_inline__))
14747 vduph_laneq_p16 (poly16x8_t __a, const int __b)
14748 {
14749   return __aarch64_vget_lane_any (__a, __b);
14750 }
14751
14752 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
14753 vduph_laneq_s16 (int16x8_t __a, const int __b)
14754 {
14755   return __aarch64_vget_lane_any (__a, __b);
14756 }
14757
14758 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
14759 vduph_laneq_u16 (uint16x8_t __a, const int __b)
14760 {
14761   return __aarch64_vget_lane_any (__a, __b);
14762 }
14763
14764 /* vdups_laneq  */
14765 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
14766 vdups_laneq_f32 (float32x4_t __a, const int __b)
14767 {
14768   return __aarch64_vget_lane_any (__a, __b);
14769 }
14770
14771 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
14772 vdups_laneq_s32 (int32x4_t __a, const int __b)
14773 {
14774   return __aarch64_vget_lane_any (__a, __b);
14775 }
14776
14777 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
14778 vdups_laneq_u32 (uint32x4_t __a, const int __b)
14779 {
14780   return __aarch64_vget_lane_any (__a, __b);
14781 }
14782
14783 /* vdupd_laneq  */
14784 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
14785 vdupd_laneq_f64 (float64x2_t __a, const int __b)
14786 {
14787   return __aarch64_vget_lane_any (__a, __b);
14788 }
14789
14790 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
14791 vdupd_laneq_s64 (int64x2_t __a, const int __b)
14792 {
14793   return __aarch64_vget_lane_any (__a, __b);
14794 }
14795
14796 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
14797 vdupd_laneq_u64 (uint64x2_t __a, const int __b)
14798 {
14799   return __aarch64_vget_lane_any (__a, __b);
14800 }
14801
14802 /* vext  */
14803
14804 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
14805 vext_f32 (float32x2_t __a, float32x2_t __b, __const int __c)
14806 {
14807   __AARCH64_LANE_CHECK (__a, __c);
14808 #ifdef __AARCH64EB__
14809   return __builtin_shuffle (__b, __a, (uint32x2_t) {2-__c, 3-__c});
14810 #else
14811   return __builtin_shuffle (__a, __b, (uint32x2_t) {__c, __c+1});
14812 #endif
14813 }
14814
14815 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
14816 vext_f64 (float64x1_t __a, float64x1_t __b, __const int __c)
14817 {
14818   __AARCH64_LANE_CHECK (__a, __c);
14819   /* The only possible index to the assembler instruction returns element 0.  */
14820   return __a;
14821 }
14822 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
14823 vext_p8 (poly8x8_t __a, poly8x8_t __b, __const int __c)
14824 {
14825   __AARCH64_LANE_CHECK (__a, __c);
14826 #ifdef __AARCH64EB__
14827   return __builtin_shuffle (__b, __a, (uint8x8_t)
14828       {8-__c, 9-__c, 10-__c, 11-__c, 12-__c, 13-__c, 14-__c, 15-__c});
14829 #else
14830   return __builtin_shuffle (__a, __b,
14831       (uint8x8_t) {__c, __c+1, __c+2, __c+3, __c+4, __c+5, __c+6, __c+7});
14832 #endif
14833 }
14834
14835 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
14836 vext_p16 (poly16x4_t __a, poly16x4_t __b, __const int __c)
14837 {
14838   __AARCH64_LANE_CHECK (__a, __c);
14839 #ifdef __AARCH64EB__
14840   return __builtin_shuffle (__b, __a,
14841       (uint16x4_t) {4-__c, 5-__c, 6-__c, 7-__c});
14842 #else
14843   return __builtin_shuffle (__a, __b, (uint16x4_t) {__c, __c+1, __c+2, __c+3});
14844 #endif
14845 }
14846
14847 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
14848 vext_s8 (int8x8_t __a, int8x8_t __b, __const int __c)
14849 {
14850   __AARCH64_LANE_CHECK (__a, __c);
14851 #ifdef __AARCH64EB__
14852   return __builtin_shuffle (__b, __a, (uint8x8_t)
14853       {8-__c, 9-__c, 10-__c, 11-__c, 12-__c, 13-__c, 14-__c, 15-__c});
14854 #else
14855   return __builtin_shuffle (__a, __b,
14856       (uint8x8_t) {__c, __c+1, __c+2, __c+3, __c+4, __c+5, __c+6, __c+7});
14857 #endif
14858 }
14859
14860 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
14861 vext_s16 (int16x4_t __a, int16x4_t __b, __const int __c)
14862 {
14863   __AARCH64_LANE_CHECK (__a, __c);
14864 #ifdef __AARCH64EB__
14865   return __builtin_shuffle (__b, __a,
14866       (uint16x4_t) {4-__c, 5-__c, 6-__c, 7-__c});
14867 #else
14868   return __builtin_shuffle (__a, __b, (uint16x4_t) {__c, __c+1, __c+2, __c+3});
14869 #endif
14870 }
14871
14872 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
14873 vext_s32 (int32x2_t __a, int32x2_t __b, __const int __c)
14874 {
14875   __AARCH64_LANE_CHECK (__a, __c);
14876 #ifdef __AARCH64EB__
14877   return __builtin_shuffle (__b, __a, (uint32x2_t) {2-__c, 3-__c});
14878 #else
14879   return __builtin_shuffle (__a, __b, (uint32x2_t) {__c, __c+1});
14880 #endif
14881 }
14882
14883 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
14884 vext_s64 (int64x1_t __a, int64x1_t __b, __const int __c)
14885 {
14886   __AARCH64_LANE_CHECK (__a, __c);
14887   /* The only possible index to the assembler instruction returns element 0.  */
14888   return __a;
14889 }
14890
14891 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
14892 vext_u8 (uint8x8_t __a, uint8x8_t __b, __const int __c)
14893 {
14894   __AARCH64_LANE_CHECK (__a, __c);
14895 #ifdef __AARCH64EB__
14896   return __builtin_shuffle (__b, __a, (uint8x8_t)
14897       {8-__c, 9-__c, 10-__c, 11-__c, 12-__c, 13-__c, 14-__c, 15-__c});
14898 #else
14899   return __builtin_shuffle (__a, __b,
14900       (uint8x8_t) {__c, __c+1, __c+2, __c+3, __c+4, __c+5, __c+6, __c+7});
14901 #endif
14902 }
14903
14904 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
14905 vext_u16 (uint16x4_t __a, uint16x4_t __b, __const int __c)
14906 {
14907   __AARCH64_LANE_CHECK (__a, __c);
14908 #ifdef __AARCH64EB__
14909   return __builtin_shuffle (__b, __a,
14910       (uint16x4_t) {4-__c, 5-__c, 6-__c, 7-__c});
14911 #else
14912   return __builtin_shuffle (__a, __b, (uint16x4_t) {__c, __c+1, __c+2, __c+3});
14913 #endif
14914 }
14915
14916 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
14917 vext_u32 (uint32x2_t __a, uint32x2_t __b, __const int __c)
14918 {
14919   __AARCH64_LANE_CHECK (__a, __c);
14920 #ifdef __AARCH64EB__
14921   return __builtin_shuffle (__b, __a, (uint32x2_t) {2-__c, 3-__c});
14922 #else
14923   return __builtin_shuffle (__a, __b, (uint32x2_t) {__c, __c+1});
14924 #endif
14925 }
14926
14927 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
14928 vext_u64 (uint64x1_t __a, uint64x1_t __b, __const int __c)
14929 {
14930   __AARCH64_LANE_CHECK (__a, __c);
14931   /* The only possible index to the assembler instruction returns element 0.  */
14932   return __a;
14933 }
14934
14935 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
14936 vextq_f32 (float32x4_t __a, float32x4_t __b, __const int __c)
14937 {
14938   __AARCH64_LANE_CHECK (__a, __c);
14939 #ifdef __AARCH64EB__
14940   return __builtin_shuffle (__b, __a,
14941       (uint32x4_t) {4-__c, 5-__c, 6-__c, 7-__c});
14942 #else
14943   return __builtin_shuffle (__a, __b, (uint32x4_t) {__c, __c+1, __c+2, __c+3});
14944 #endif
14945 }
14946
14947 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
14948 vextq_f64 (float64x2_t __a, float64x2_t __b, __const int __c)
14949 {
14950   __AARCH64_LANE_CHECK (__a, __c);
14951 #ifdef __AARCH64EB__
14952   return __builtin_shuffle (__b, __a, (uint64x2_t) {2-__c, 3-__c});
14953 #else
14954   return __builtin_shuffle (__a, __b, (uint64x2_t) {__c, __c+1});
14955 #endif
14956 }
14957
14958 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
14959 vextq_p8 (poly8x16_t __a, poly8x16_t __b, __const int __c)
14960 {
14961   __AARCH64_LANE_CHECK (__a, __c);
14962 #ifdef __AARCH64EB__
14963   return __builtin_shuffle (__b, __a, (uint8x16_t)
14964       {16-__c, 17-__c, 18-__c, 19-__c, 20-__c, 21-__c, 22-__c, 23-__c,
14965        24-__c, 25-__c, 26-__c, 27-__c, 28-__c, 29-__c, 30-__c, 31-__c});
14966 #else
14967   return __builtin_shuffle (__a, __b, (uint8x16_t)
14968       {__c, __c+1, __c+2, __c+3, __c+4, __c+5, __c+6, __c+7,
14969        __c+8, __c+9, __c+10, __c+11, __c+12, __c+13, __c+14, __c+15});
14970 #endif
14971 }
14972
14973 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
14974 vextq_p16 (poly16x8_t __a, poly16x8_t __b, __const int __c)
14975 {
14976   __AARCH64_LANE_CHECK (__a, __c);
14977 #ifdef __AARCH64EB__
14978   return __builtin_shuffle (__b, __a, (uint16x8_t)
14979       {8-__c, 9-__c, 10-__c, 11-__c, 12-__c, 13-__c, 14-__c, 15-__c});
14980 #else
14981   return __builtin_shuffle (__a, __b,
14982       (uint16x8_t) {__c, __c+1, __c+2, __c+3, __c+4, __c+5, __c+6, __c+7});
14983 #endif
14984 }
14985
14986 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
14987 vextq_s8 (int8x16_t __a, int8x16_t __b, __const int __c)
14988 {
14989   __AARCH64_LANE_CHECK (__a, __c);
14990 #ifdef __AARCH64EB__
14991   return __builtin_shuffle (__b, __a, (uint8x16_t)
14992       {16-__c, 17-__c, 18-__c, 19-__c, 20-__c, 21-__c, 22-__c, 23-__c,
14993        24-__c, 25-__c, 26-__c, 27-__c, 28-__c, 29-__c, 30-__c, 31-__c});
14994 #else
14995   return __builtin_shuffle (__a, __b, (uint8x16_t)
14996       {__c, __c+1, __c+2, __c+3, __c+4, __c+5, __c+6, __c+7,
14997        __c+8, __c+9, __c+10, __c+11, __c+12, __c+13, __c+14, __c+15});
14998 #endif
14999 }
15000
15001 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
15002 vextq_s16 (int16x8_t __a, int16x8_t __b, __const int __c)
15003 {
15004   __AARCH64_LANE_CHECK (__a, __c);
15005 #ifdef __AARCH64EB__
15006   return __builtin_shuffle (__b, __a, (uint16x8_t)
15007       {8-__c, 9-__c, 10-__c, 11-__c, 12-__c, 13-__c, 14-__c, 15-__c});
15008 #else
15009   return __builtin_shuffle (__a, __b,
15010       (uint16x8_t) {__c, __c+1, __c+2, __c+3, __c+4, __c+5, __c+6, __c+7});
15011 #endif
15012 }
15013
15014 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
15015 vextq_s32 (int32x4_t __a, int32x4_t __b, __const int __c)
15016 {
15017   __AARCH64_LANE_CHECK (__a, __c);
15018 #ifdef __AARCH64EB__
15019   return __builtin_shuffle (__b, __a,
15020       (uint32x4_t) {4-__c, 5-__c, 6-__c, 7-__c});
15021 #else
15022   return __builtin_shuffle (__a, __b, (uint32x4_t) {__c, __c+1, __c+2, __c+3});
15023 #endif
15024 }
15025
15026 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
15027 vextq_s64 (int64x2_t __a, int64x2_t __b, __const int __c)
15028 {
15029   __AARCH64_LANE_CHECK (__a, __c);
15030 #ifdef __AARCH64EB__
15031   return __builtin_shuffle (__b, __a, (uint64x2_t) {2-__c, 3-__c});
15032 #else
15033   return __builtin_shuffle (__a, __b, (uint64x2_t) {__c, __c+1});
15034 #endif
15035 }
15036
15037 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
15038 vextq_u8 (uint8x16_t __a, uint8x16_t __b, __const int __c)
15039 {
15040   __AARCH64_LANE_CHECK (__a, __c);
15041 #ifdef __AARCH64EB__
15042   return __builtin_shuffle (__b, __a, (uint8x16_t)
15043       {16-__c, 17-__c, 18-__c, 19-__c, 20-__c, 21-__c, 22-__c, 23-__c,
15044        24-__c, 25-__c, 26-__c, 27-__c, 28-__c, 29-__c, 30-__c, 31-__c});
15045 #else
15046   return __builtin_shuffle (__a, __b, (uint8x16_t)
15047       {__c, __c+1, __c+2, __c+3, __c+4, __c+5, __c+6, __c+7,
15048        __c+8, __c+9, __c+10, __c+11, __c+12, __c+13, __c+14, __c+15});
15049 #endif
15050 }
15051
15052 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
15053 vextq_u16 (uint16x8_t __a, uint16x8_t __b, __const int __c)
15054 {
15055   __AARCH64_LANE_CHECK (__a, __c);
15056 #ifdef __AARCH64EB__
15057   return __builtin_shuffle (__b, __a, (uint16x8_t)
15058       {8-__c, 9-__c, 10-__c, 11-__c, 12-__c, 13-__c, 14-__c, 15-__c});
15059 #else
15060   return __builtin_shuffle (__a, __b,
15061       (uint16x8_t) {__c, __c+1, __c+2, __c+3, __c+4, __c+5, __c+6, __c+7});
15062 #endif
15063 }
15064
15065 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
15066 vextq_u32 (uint32x4_t __a, uint32x4_t __b, __const int __c)
15067 {
15068   __AARCH64_LANE_CHECK (__a, __c);
15069 #ifdef __AARCH64EB__
15070   return __builtin_shuffle (__b, __a,
15071       (uint32x4_t) {4-__c, 5-__c, 6-__c, 7-__c});
15072 #else
15073   return __builtin_shuffle (__a, __b, (uint32x4_t) {__c, __c+1, __c+2, __c+3});
15074 #endif
15075 }
15076
15077 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
15078 vextq_u64 (uint64x2_t __a, uint64x2_t __b, __const int __c)
15079 {
15080   __AARCH64_LANE_CHECK (__a, __c);
15081 #ifdef __AARCH64EB__
15082   return __builtin_shuffle (__b, __a, (uint64x2_t) {2-__c, 3-__c});
15083 #else
15084   return __builtin_shuffle (__a, __b, (uint64x2_t) {__c, __c+1});
15085 #endif
15086 }
15087
15088 /* vfma  */
15089
15090 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
15091 vfma_f64 (float64x1_t __a, float64x1_t __b, float64x1_t __c)
15092 {
15093   return (float64x1_t) {__builtin_fma (__b[0], __c[0], __a[0])};
15094 }
15095
15096 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
15097 vfma_f32 (float32x2_t __a, float32x2_t __b, float32x2_t __c)
15098 {
15099   return __builtin_aarch64_fmav2sf (__b, __c, __a);
15100 }
15101
15102 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
15103 vfmaq_f32 (float32x4_t __a, float32x4_t __b, float32x4_t __c)
15104 {
15105   return __builtin_aarch64_fmav4sf (__b, __c, __a);
15106 }
15107
15108 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
15109 vfmaq_f64 (float64x2_t __a, float64x2_t __b, float64x2_t __c)
15110 {
15111   return __builtin_aarch64_fmav2df (__b, __c, __a);
15112 }
15113
15114 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
15115 vfma_n_f32 (float32x2_t __a, float32x2_t __b, float32_t __c)
15116 {
15117   return __builtin_aarch64_fmav2sf (__b, vdup_n_f32 (__c), __a);
15118 }
15119
15120 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
15121 vfmaq_n_f32 (float32x4_t __a, float32x4_t __b, float32_t __c)
15122 {
15123   return __builtin_aarch64_fmav4sf (__b, vdupq_n_f32 (__c), __a);
15124 }
15125
15126 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
15127 vfmaq_n_f64 (float64x2_t __a, float64x2_t __b, float64_t __c)
15128 {
15129   return __builtin_aarch64_fmav2df (__b, vdupq_n_f64 (__c), __a);
15130 }
15131
15132 /* vfma_lane  */
15133
15134 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
15135 vfma_lane_f32 (float32x2_t __a, float32x2_t __b,
15136                float32x2_t __c, const int __lane)
15137 {
15138   return __builtin_aarch64_fmav2sf (__b,
15139                                     __aarch64_vdup_lane_f32 (__c, __lane),
15140                                     __a);
15141 }
15142
15143 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
15144 vfma_lane_f64 (float64x1_t __a, float64x1_t __b,
15145                float64x1_t __c, const int __lane)
15146 {
15147   return (float64x1_t) {__builtin_fma (__b[0], __c[0], __a[0])};
15148 }
15149
15150 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
15151 vfmad_lane_f64 (float64_t __a, float64_t __b,
15152                 float64x1_t __c, const int __lane)
15153 {
15154   return __builtin_fma (__b, __c[0], __a);
15155 }
15156
15157 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
15158 vfmas_lane_f32 (float32_t __a, float32_t __b,
15159                 float32x2_t __c, const int __lane)
15160 {
15161   return __builtin_fmaf (__b, __aarch64_vget_lane_any (__c, __lane), __a);
15162 }
15163
15164 /* vfma_laneq  */
15165
15166 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
15167 vfma_laneq_f32 (float32x2_t __a, float32x2_t __b,
15168                 float32x4_t __c, const int __lane)
15169 {
15170   return __builtin_aarch64_fmav2sf (__b,
15171                                     __aarch64_vdup_laneq_f32 (__c, __lane),
15172                                     __a);
15173 }
15174
15175 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
15176 vfma_laneq_f64 (float64x1_t __a, float64x1_t __b,
15177                 float64x2_t __c, const int __lane)
15178 {
15179   float64_t __c0 = __aarch64_vget_lane_any (__c, __lane);
15180   return (float64x1_t) {__builtin_fma (__b[0], __c0, __a[0])};
15181 }
15182
15183 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
15184 vfmad_laneq_f64 (float64_t __a, float64_t __b,
15185                  float64x2_t __c, const int __lane)
15186 {
15187   return __builtin_fma (__b, __aarch64_vget_lane_any (__c, __lane), __a);
15188 }
15189
15190 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
15191 vfmas_laneq_f32 (float32_t __a, float32_t __b,
15192                  float32x4_t __c, const int __lane)
15193 {
15194   return __builtin_fmaf (__b, __aarch64_vget_lane_any (__c, __lane), __a);
15195 }
15196
15197 /* vfmaq_lane  */
15198
15199 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
15200 vfmaq_lane_f32 (float32x4_t __a, float32x4_t __b,
15201                 float32x2_t __c, const int __lane)
15202 {
15203   return __builtin_aarch64_fmav4sf (__b,
15204                                     __aarch64_vdupq_lane_f32 (__c, __lane),
15205                                     __a);
15206 }
15207
15208 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
15209 vfmaq_lane_f64 (float64x2_t __a, float64x2_t __b,
15210                 float64x1_t __c, const int __lane)
15211 {
15212   return __builtin_aarch64_fmav2df (__b, vdupq_n_f64 (__c[0]), __a);
15213 }
15214
15215 /* vfmaq_laneq  */
15216
15217 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
15218 vfmaq_laneq_f32 (float32x4_t __a, float32x4_t __b,
15219                  float32x4_t __c, const int __lane)
15220 {
15221   return __builtin_aarch64_fmav4sf (__b,
15222                                     __aarch64_vdupq_laneq_f32 (__c, __lane),
15223                                     __a);
15224 }
15225
15226 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
15227 vfmaq_laneq_f64 (float64x2_t __a, float64x2_t __b,
15228                  float64x2_t __c, const int __lane)
15229 {
15230   return __builtin_aarch64_fmav2df (__b,
15231                                     __aarch64_vdupq_laneq_f64 (__c, __lane),
15232                                     __a);
15233 }
15234
15235 /* vfms  */
15236
15237 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
15238 vfms_f64 (float64x1_t __a, float64x1_t __b, float64x1_t __c)
15239 {
15240   return (float64x1_t) {__builtin_fma (-__b[0], __c[0], __a[0])};
15241 }
15242
15243 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
15244 vfms_f32 (float32x2_t __a, float32x2_t __b, float32x2_t __c)
15245 {
15246   return __builtin_aarch64_fmav2sf (-__b, __c, __a);
15247 }
15248
15249 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
15250 vfmsq_f32 (float32x4_t __a, float32x4_t __b, float32x4_t __c)
15251 {
15252   return __builtin_aarch64_fmav4sf (-__b, __c, __a);
15253 }
15254
15255 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
15256 vfmsq_f64 (float64x2_t __a, float64x2_t __b, float64x2_t __c)
15257 {
15258   return __builtin_aarch64_fmav2df (-__b, __c, __a);
15259 }
15260
15261
15262 /* vfms_lane  */
15263
15264 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
15265 vfms_lane_f32 (float32x2_t __a, float32x2_t __b,
15266                float32x2_t __c, const int __lane)
15267 {
15268   return __builtin_aarch64_fmav2sf (-__b,
15269                                     __aarch64_vdup_lane_f32 (__c, __lane),
15270                                     __a);
15271 }
15272
15273 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
15274 vfms_lane_f64 (float64x1_t __a, float64x1_t __b,
15275                float64x1_t __c, const int __lane)
15276 {
15277   return (float64x1_t) {__builtin_fma (-__b[0], __c[0], __a[0])};
15278 }
15279
15280 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
15281 vfmsd_lane_f64 (float64_t __a, float64_t __b,
15282                 float64x1_t __c, const int __lane)
15283 {
15284   return __builtin_fma (-__b, __c[0], __a);
15285 }
15286
15287 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
15288 vfmss_lane_f32 (float32_t __a, float32_t __b,
15289                 float32x2_t __c, const int __lane)
15290 {
15291   return __builtin_fmaf (-__b, __aarch64_vget_lane_any (__c, __lane), __a);
15292 }
15293
15294 /* vfms_laneq  */
15295
15296 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
15297 vfms_laneq_f32 (float32x2_t __a, float32x2_t __b,
15298                 float32x4_t __c, const int __lane)
15299 {
15300   return __builtin_aarch64_fmav2sf (-__b,
15301                                     __aarch64_vdup_laneq_f32 (__c, __lane),
15302                                     __a);
15303 }
15304
15305 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
15306 vfms_laneq_f64 (float64x1_t __a, float64x1_t __b,
15307                 float64x2_t __c, const int __lane)
15308 {
15309   float64_t __c0 = __aarch64_vget_lane_any (__c, __lane);
15310   return (float64x1_t) {__builtin_fma (-__b[0], __c0, __a[0])};
15311 }
15312
15313 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
15314 vfmsd_laneq_f64 (float64_t __a, float64_t __b,
15315                  float64x2_t __c, const int __lane)
15316 {
15317   return __builtin_fma (-__b, __aarch64_vget_lane_any (__c, __lane), __a);
15318 }
15319
15320 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
15321 vfmss_laneq_f32 (float32_t __a, float32_t __b,
15322                  float32x4_t __c, const int __lane)
15323 {
15324   return __builtin_fmaf (-__b, __aarch64_vget_lane_any (__c, __lane), __a);
15325 }
15326
15327 /* vfmsq_lane  */
15328
15329 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
15330 vfmsq_lane_f32 (float32x4_t __a, float32x4_t __b,
15331                 float32x2_t __c, const int __lane)
15332 {
15333   return __builtin_aarch64_fmav4sf (-__b,
15334                                     __aarch64_vdupq_lane_f32 (__c, __lane),
15335                                     __a);
15336 }
15337
15338 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
15339 vfmsq_lane_f64 (float64x2_t __a, float64x2_t __b,
15340                 float64x1_t __c, const int __lane)
15341 {
15342   return __builtin_aarch64_fmav2df (-__b, vdupq_n_f64 (__c[0]), __a);
15343 }
15344
15345 /* vfmsq_laneq  */
15346
15347 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
15348 vfmsq_laneq_f32 (float32x4_t __a, float32x4_t __b,
15349                  float32x4_t __c, const int __lane)
15350 {
15351   return __builtin_aarch64_fmav4sf (-__b,
15352                                     __aarch64_vdupq_laneq_f32 (__c, __lane),
15353                                     __a);
15354 }
15355
15356 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
15357 vfmsq_laneq_f64 (float64x2_t __a, float64x2_t __b,
15358                  float64x2_t __c, const int __lane)
15359 {
15360   return __builtin_aarch64_fmav2df (-__b,
15361                                     __aarch64_vdupq_laneq_f64 (__c, __lane),
15362                                     __a);
15363 }
15364
15365 /* vld1 */
15366
15367 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
15368 vld1_f32 (const float32_t *a)
15369 {
15370   return __builtin_aarch64_ld1v2sf ((const __builtin_aarch64_simd_sf *) a);
15371 }
15372
15373 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
15374 vld1_f64 (const float64_t *a)
15375 {
15376   return (float64x1_t) {*a};
15377 }
15378
15379 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
15380 vld1_p8 (const poly8_t *a)
15381 {
15382   return (poly8x8_t)
15383     __builtin_aarch64_ld1v8qi ((const __builtin_aarch64_simd_qi *) a);
15384 }
15385
15386 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
15387 vld1_p16 (const poly16_t *a)
15388 {
15389   return (poly16x4_t)
15390     __builtin_aarch64_ld1v4hi ((const __builtin_aarch64_simd_hi *) a);
15391 }
15392
15393 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
15394 vld1_s8 (const int8_t *a)
15395 {
15396   return __builtin_aarch64_ld1v8qi ((const __builtin_aarch64_simd_qi *) a);
15397 }
15398
15399 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
15400 vld1_s16 (const int16_t *a)
15401 {
15402   return __builtin_aarch64_ld1v4hi ((const __builtin_aarch64_simd_hi *) a);
15403 }
15404
15405 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
15406 vld1_s32 (const int32_t *a)
15407 {
15408   return __builtin_aarch64_ld1v2si ((const __builtin_aarch64_simd_si *) a);
15409 }
15410
15411 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
15412 vld1_s64 (const int64_t *a)
15413 {
15414   return (int64x1_t) {*a};
15415 }
15416
15417 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
15418 vld1_u8 (const uint8_t *a)
15419 {
15420   return (uint8x8_t)
15421     __builtin_aarch64_ld1v8qi ((const __builtin_aarch64_simd_qi *) a);
15422 }
15423
15424 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
15425 vld1_u16 (const uint16_t *a)
15426 {
15427   return (uint16x4_t)
15428     __builtin_aarch64_ld1v4hi ((const __builtin_aarch64_simd_hi *) a);
15429 }
15430
15431 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
15432 vld1_u32 (const uint32_t *a)
15433 {
15434   return (uint32x2_t)
15435     __builtin_aarch64_ld1v2si ((const __builtin_aarch64_simd_si *) a);
15436 }
15437
15438 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
15439 vld1_u64 (const uint64_t *a)
15440 {
15441   return (uint64x1_t) {*a};
15442 }
15443
15444 /* vld1q */
15445
15446 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
15447 vld1q_f32 (const float32_t *a)
15448 {
15449   return __builtin_aarch64_ld1v4sf ((const __builtin_aarch64_simd_sf *) a);
15450 }
15451
15452 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
15453 vld1q_f64 (const float64_t *a)
15454 {
15455   return __builtin_aarch64_ld1v2df ((const __builtin_aarch64_simd_df *) a);
15456 }
15457
15458 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
15459 vld1q_p8 (const poly8_t *a)
15460 {
15461   return (poly8x16_t)
15462     __builtin_aarch64_ld1v16qi ((const __builtin_aarch64_simd_qi *) a);
15463 }
15464
15465 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
15466 vld1q_p16 (const poly16_t *a)
15467 {
15468   return (poly16x8_t)
15469     __builtin_aarch64_ld1v8hi ((const __builtin_aarch64_simd_hi *) a);
15470 }
15471
15472 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
15473 vld1q_s8 (const int8_t *a)
15474 {
15475   return __builtin_aarch64_ld1v16qi ((const __builtin_aarch64_simd_qi *) a);
15476 }
15477
15478 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
15479 vld1q_s16 (const int16_t *a)
15480 {
15481   return __builtin_aarch64_ld1v8hi ((const __builtin_aarch64_simd_hi *) a);
15482 }
15483
15484 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
15485 vld1q_s32 (const int32_t *a)
15486 {
15487   return __builtin_aarch64_ld1v4si ((const __builtin_aarch64_simd_si *) a);
15488 }
15489
15490 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
15491 vld1q_s64 (const int64_t *a)
15492 {
15493   return __builtin_aarch64_ld1v2di ((const __builtin_aarch64_simd_di *) a);
15494 }
15495
15496 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
15497 vld1q_u8 (const uint8_t *a)
15498 {
15499   return (uint8x16_t)
15500     __builtin_aarch64_ld1v16qi ((const __builtin_aarch64_simd_qi *) a);
15501 }
15502
15503 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
15504 vld1q_u16 (const uint16_t *a)
15505 {
15506   return (uint16x8_t)
15507     __builtin_aarch64_ld1v8hi ((const __builtin_aarch64_simd_hi *) a);
15508 }
15509
15510 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
15511 vld1q_u32 (const uint32_t *a)
15512 {
15513   return (uint32x4_t)
15514     __builtin_aarch64_ld1v4si ((const __builtin_aarch64_simd_si *) a);
15515 }
15516
15517 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
15518 vld1q_u64 (const uint64_t *a)
15519 {
15520   return (uint64x2_t)
15521     __builtin_aarch64_ld1v2di ((const __builtin_aarch64_simd_di *) a);
15522 }
15523
15524 /* vld1_dup  */
15525
15526 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
15527 vld1_dup_f32 (const float32_t* __a)
15528 {
15529   return vdup_n_f32 (*__a);
15530 }
15531
15532 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
15533 vld1_dup_f64 (const float64_t* __a)
15534 {
15535   return vdup_n_f64 (*__a);
15536 }
15537
15538 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
15539 vld1_dup_p8 (const poly8_t* __a)
15540 {
15541   return vdup_n_p8 (*__a);
15542 }
15543
15544 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
15545 vld1_dup_p16 (const poly16_t* __a)
15546 {
15547   return vdup_n_p16 (*__a);
15548 }
15549
15550 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
15551 vld1_dup_s8 (const int8_t* __a)
15552 {
15553   return vdup_n_s8 (*__a);
15554 }
15555
15556 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
15557 vld1_dup_s16 (const int16_t* __a)
15558 {
15559   return vdup_n_s16 (*__a);
15560 }
15561
15562 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
15563 vld1_dup_s32 (const int32_t* __a)
15564 {
15565   return vdup_n_s32 (*__a);
15566 }
15567
15568 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
15569 vld1_dup_s64 (const int64_t* __a)
15570 {
15571   return vdup_n_s64 (*__a);
15572 }
15573
15574 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
15575 vld1_dup_u8 (const uint8_t* __a)
15576 {
15577   return vdup_n_u8 (*__a);
15578 }
15579
15580 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
15581 vld1_dup_u16 (const uint16_t* __a)
15582 {
15583   return vdup_n_u16 (*__a);
15584 }
15585
15586 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
15587 vld1_dup_u32 (const uint32_t* __a)
15588 {
15589   return vdup_n_u32 (*__a);
15590 }
15591
15592 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
15593 vld1_dup_u64 (const uint64_t* __a)
15594 {
15595   return vdup_n_u64 (*__a);
15596 }
15597
15598 /* vld1q_dup  */
15599
15600 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
15601 vld1q_dup_f32 (const float32_t* __a)
15602 {
15603   return vdupq_n_f32 (*__a);
15604 }
15605
15606 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
15607 vld1q_dup_f64 (const float64_t* __a)
15608 {
15609   return vdupq_n_f64 (*__a);
15610 }
15611
15612 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
15613 vld1q_dup_p8 (const poly8_t* __a)
15614 {
15615   return vdupq_n_p8 (*__a);
15616 }
15617
15618 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
15619 vld1q_dup_p16 (const poly16_t* __a)
15620 {
15621   return vdupq_n_p16 (*__a);
15622 }
15623
15624 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
15625 vld1q_dup_s8 (const int8_t* __a)
15626 {
15627   return vdupq_n_s8 (*__a);
15628 }
15629
15630 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
15631 vld1q_dup_s16 (const int16_t* __a)
15632 {
15633   return vdupq_n_s16 (*__a);
15634 }
15635
15636 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
15637 vld1q_dup_s32 (const int32_t* __a)
15638 {
15639   return vdupq_n_s32 (*__a);
15640 }
15641
15642 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
15643 vld1q_dup_s64 (const int64_t* __a)
15644 {
15645   return vdupq_n_s64 (*__a);
15646 }
15647
15648 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
15649 vld1q_dup_u8 (const uint8_t* __a)
15650 {
15651   return vdupq_n_u8 (*__a);
15652 }
15653
15654 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
15655 vld1q_dup_u16 (const uint16_t* __a)
15656 {
15657   return vdupq_n_u16 (*__a);
15658 }
15659
15660 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
15661 vld1q_dup_u32 (const uint32_t* __a)
15662 {
15663   return vdupq_n_u32 (*__a);
15664 }
15665
15666 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
15667 vld1q_dup_u64 (const uint64_t* __a)
15668 {
15669   return vdupq_n_u64 (*__a);
15670 }
15671
15672 /* vld1_lane  */
15673
15674 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
15675 vld1_lane_f32 (const float32_t *__src, float32x2_t __vec, const int __lane)
15676 {
15677   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15678 }
15679
15680 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
15681 vld1_lane_f64 (const float64_t *__src, float64x1_t __vec, const int __lane)
15682 {
15683   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15684 }
15685
15686 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
15687 vld1_lane_p8 (const poly8_t *__src, poly8x8_t __vec, const int __lane)
15688 {
15689   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15690 }
15691
15692 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
15693 vld1_lane_p16 (const poly16_t *__src, poly16x4_t __vec, const int __lane)
15694 {
15695   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15696 }
15697
15698 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
15699 vld1_lane_s8 (const int8_t *__src, int8x8_t __vec, const int __lane)
15700 {
15701   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15702 }
15703
15704 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
15705 vld1_lane_s16 (const int16_t *__src, int16x4_t __vec, const int __lane)
15706 {
15707   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15708 }
15709
15710 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
15711 vld1_lane_s32 (const int32_t *__src, int32x2_t __vec, const int __lane)
15712 {
15713   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15714 }
15715
15716 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
15717 vld1_lane_s64 (const int64_t *__src, int64x1_t __vec, const int __lane)
15718 {
15719   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15720 }
15721
15722 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
15723 vld1_lane_u8 (const uint8_t *__src, uint8x8_t __vec, const int __lane)
15724 {
15725   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15726 }
15727
15728 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
15729 vld1_lane_u16 (const uint16_t *__src, uint16x4_t __vec, const int __lane)
15730 {
15731   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15732 }
15733
15734 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
15735 vld1_lane_u32 (const uint32_t *__src, uint32x2_t __vec, const int __lane)
15736 {
15737   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15738 }
15739
15740 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
15741 vld1_lane_u64 (const uint64_t *__src, uint64x1_t __vec, const int __lane)
15742 {
15743   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15744 }
15745
15746 /* vld1q_lane  */
15747
15748 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
15749 vld1q_lane_f32 (const float32_t *__src, float32x4_t __vec, const int __lane)
15750 {
15751   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15752 }
15753
15754 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
15755 vld1q_lane_f64 (const float64_t *__src, float64x2_t __vec, const int __lane)
15756 {
15757   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15758 }
15759
15760 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
15761 vld1q_lane_p8 (const poly8_t *__src, poly8x16_t __vec, const int __lane)
15762 {
15763   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15764 }
15765
15766 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
15767 vld1q_lane_p16 (const poly16_t *__src, poly16x8_t __vec, const int __lane)
15768 {
15769   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15770 }
15771
15772 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
15773 vld1q_lane_s8 (const int8_t *__src, int8x16_t __vec, const int __lane)
15774 {
15775   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15776 }
15777
15778 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
15779 vld1q_lane_s16 (const int16_t *__src, int16x8_t __vec, const int __lane)
15780 {
15781   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15782 }
15783
15784 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
15785 vld1q_lane_s32 (const int32_t *__src, int32x4_t __vec, const int __lane)
15786 {
15787   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15788 }
15789
15790 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
15791 vld1q_lane_s64 (const int64_t *__src, int64x2_t __vec, const int __lane)
15792 {
15793   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15794 }
15795
15796 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
15797 vld1q_lane_u8 (const uint8_t *__src, uint8x16_t __vec, const int __lane)
15798 {
15799   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15800 }
15801
15802 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
15803 vld1q_lane_u16 (const uint16_t *__src, uint16x8_t __vec, const int __lane)
15804 {
15805   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15806 }
15807
15808 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
15809 vld1q_lane_u32 (const uint32_t *__src, uint32x4_t __vec, const int __lane)
15810 {
15811   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15812 }
15813
15814 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
15815 vld1q_lane_u64 (const uint64_t *__src, uint64x2_t __vec, const int __lane)
15816 {
15817   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15818 }
15819
15820 /* vldn */
15821
15822 __extension__ static __inline int64x1x2_t __attribute__ ((__always_inline__))
15823 vld2_s64 (const int64_t * __a)
15824 {
15825   int64x1x2_t ret;
15826   __builtin_aarch64_simd_oi __o;
15827   __o = __builtin_aarch64_ld2di ((const __builtin_aarch64_simd_di *) __a);
15828   ret.val[0] = (int64x1_t) __builtin_aarch64_get_dregoidi (__o, 0);
15829   ret.val[1] = (int64x1_t) __builtin_aarch64_get_dregoidi (__o, 1);
15830   return ret;
15831 }
15832
15833 __extension__ static __inline uint64x1x2_t __attribute__ ((__always_inline__))
15834 vld2_u64 (const uint64_t * __a)
15835 {
15836   uint64x1x2_t ret;
15837   __builtin_aarch64_simd_oi __o;
15838   __o = __builtin_aarch64_ld2di ((const __builtin_aarch64_simd_di *) __a);
15839   ret.val[0] = (uint64x1_t) __builtin_aarch64_get_dregoidi (__o, 0);
15840   ret.val[1] = (uint64x1_t) __builtin_aarch64_get_dregoidi (__o, 1);
15841   return ret;
15842 }
15843
15844 __extension__ static __inline float64x1x2_t __attribute__ ((__always_inline__))
15845 vld2_f64 (const float64_t * __a)
15846 {
15847   float64x1x2_t ret;
15848   __builtin_aarch64_simd_oi __o;
15849   __o = __builtin_aarch64_ld2df ((const __builtin_aarch64_simd_df *) __a);
15850   ret.val[0] = (float64x1_t) {__builtin_aarch64_get_dregoidf (__o, 0)};
15851   ret.val[1] = (float64x1_t) {__builtin_aarch64_get_dregoidf (__o, 1)};
15852   return ret;
15853 }
15854
15855 __extension__ static __inline int8x8x2_t __attribute__ ((__always_inline__))
15856 vld2_s8 (const int8_t * __a)
15857 {
15858   int8x8x2_t ret;
15859   __builtin_aarch64_simd_oi __o;
15860   __o = __builtin_aarch64_ld2v8qi ((const __builtin_aarch64_simd_qi *) __a);
15861   ret.val[0] = (int8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 0);
15862   ret.val[1] = (int8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 1);
15863   return ret;
15864 }
15865
15866 __extension__ static __inline poly8x8x2_t __attribute__ ((__always_inline__))
15867 vld2_p8 (const poly8_t * __a)
15868 {
15869   poly8x8x2_t ret;
15870   __builtin_aarch64_simd_oi __o;
15871   __o = __builtin_aarch64_ld2v8qi ((const __builtin_aarch64_simd_qi *) __a);
15872   ret.val[0] = (poly8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 0);
15873   ret.val[1] = (poly8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 1);
15874   return ret;
15875 }
15876
15877 __extension__ static __inline int16x4x2_t __attribute__ ((__always_inline__))
15878 vld2_s16 (const int16_t * __a)
15879 {
15880   int16x4x2_t ret;
15881   __builtin_aarch64_simd_oi __o;
15882   __o = __builtin_aarch64_ld2v4hi ((const __builtin_aarch64_simd_hi *) __a);
15883   ret.val[0] = (int16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 0);
15884   ret.val[1] = (int16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 1);
15885   return ret;
15886 }
15887
15888 __extension__ static __inline poly16x4x2_t __attribute__ ((__always_inline__))
15889 vld2_p16 (const poly16_t * __a)
15890 {
15891   poly16x4x2_t ret;
15892   __builtin_aarch64_simd_oi __o;
15893   __o = __builtin_aarch64_ld2v4hi ((const __builtin_aarch64_simd_hi *) __a);
15894   ret.val[0] = (poly16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 0);
15895   ret.val[1] = (poly16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 1);
15896   return ret;
15897 }
15898
15899 __extension__ static __inline int32x2x2_t __attribute__ ((__always_inline__))
15900 vld2_s32 (const int32_t * __a)
15901 {
15902   int32x2x2_t ret;
15903   __builtin_aarch64_simd_oi __o;
15904   __o = __builtin_aarch64_ld2v2si ((const __builtin_aarch64_simd_si *) __a);
15905   ret.val[0] = (int32x2_t) __builtin_aarch64_get_dregoiv2si (__o, 0);
15906   ret.val[1] = (int32x2_t) __builtin_aarch64_get_dregoiv2si (__o, 1);
15907   return ret;
15908 }
15909
15910 __extension__ static __inline uint8x8x2_t __attribute__ ((__always_inline__))
15911 vld2_u8 (const uint8_t * __a)
15912 {
15913   uint8x8x2_t ret;
15914   __builtin_aarch64_simd_oi __o;
15915   __o = __builtin_aarch64_ld2v8qi ((const __builtin_aarch64_simd_qi *) __a);
15916   ret.val[0] = (uint8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 0);
15917   ret.val[1] = (uint8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 1);
15918   return ret;
15919 }
15920
15921 __extension__ static __inline uint16x4x2_t __attribute__ ((__always_inline__))
15922 vld2_u16 (const uint16_t * __a)
15923 {
15924   uint16x4x2_t ret;
15925   __builtin_aarch64_simd_oi __o;
15926   __o = __builtin_aarch64_ld2v4hi ((const __builtin_aarch64_simd_hi *) __a);
15927   ret.val[0] = (uint16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 0);
15928   ret.val[1] = (uint16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 1);
15929   return ret;
15930 }
15931
15932 __extension__ static __inline uint32x2x2_t __attribute__ ((__always_inline__))
15933 vld2_u32 (const uint32_t * __a)
15934 {
15935   uint32x2x2_t ret;
15936   __builtin_aarch64_simd_oi __o;
15937   __o = __builtin_aarch64_ld2v2si ((const __builtin_aarch64_simd_si *) __a);
15938   ret.val[0] = (uint32x2_t) __builtin_aarch64_get_dregoiv2si (__o, 0);
15939   ret.val[1] = (uint32x2_t) __builtin_aarch64_get_dregoiv2si (__o, 1);
15940   return ret;
15941 }
15942
15943 __extension__ static __inline float32x2x2_t __attribute__ ((__always_inline__))
15944 vld2_f32 (const float32_t * __a)
15945 {
15946   float32x2x2_t ret;
15947   __builtin_aarch64_simd_oi __o;
15948   __o = __builtin_aarch64_ld2v2sf ((const __builtin_aarch64_simd_sf *) __a);
15949   ret.val[0] = (float32x2_t) __builtin_aarch64_get_dregoiv2sf (__o, 0);
15950   ret.val[1] = (float32x2_t) __builtin_aarch64_get_dregoiv2sf (__o, 1);
15951   return ret;
15952 }
15953
15954 __extension__ static __inline int8x16x2_t __attribute__ ((__always_inline__))
15955 vld2q_s8 (const int8_t * __a)
15956 {
15957   int8x16x2_t ret;
15958   __builtin_aarch64_simd_oi __o;
15959   __o = __builtin_aarch64_ld2v16qi ((const __builtin_aarch64_simd_qi *) __a);
15960   ret.val[0] = (int8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 0);
15961   ret.val[1] = (int8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 1);
15962   return ret;
15963 }
15964
15965 __extension__ static __inline poly8x16x2_t __attribute__ ((__always_inline__))
15966 vld2q_p8 (const poly8_t * __a)
15967 {
15968   poly8x16x2_t ret;
15969   __builtin_aarch64_simd_oi __o;
15970   __o = __builtin_aarch64_ld2v16qi ((const __builtin_aarch64_simd_qi *) __a);
15971   ret.val[0] = (poly8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 0);
15972   ret.val[1] = (poly8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 1);
15973   return ret;
15974 }
15975
15976 __extension__ static __inline int16x8x2_t __attribute__ ((__always_inline__))
15977 vld2q_s16 (const int16_t * __a)
15978 {
15979   int16x8x2_t ret;
15980   __builtin_aarch64_simd_oi __o;
15981   __o = __builtin_aarch64_ld2v8hi ((const __builtin_aarch64_simd_hi *) __a);
15982   ret.val[0] = (int16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 0);
15983   ret.val[1] = (int16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 1);
15984   return ret;
15985 }
15986
15987 __extension__ static __inline poly16x8x2_t __attribute__ ((__always_inline__))
15988 vld2q_p16 (const poly16_t * __a)
15989 {
15990   poly16x8x2_t ret;
15991   __builtin_aarch64_simd_oi __o;
15992   __o = __builtin_aarch64_ld2v8hi ((const __builtin_aarch64_simd_hi *) __a);
15993   ret.val[0] = (poly16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 0);
15994   ret.val[1] = (poly16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 1);
15995   return ret;
15996 }
15997
15998 __extension__ static __inline int32x4x2_t __attribute__ ((__always_inline__))
15999 vld2q_s32 (const int32_t * __a)
16000 {
16001   int32x4x2_t ret;
16002   __builtin_aarch64_simd_oi __o;
16003   __o = __builtin_aarch64_ld2v4si ((const __builtin_aarch64_simd_si *) __a);
16004   ret.val[0] = (int32x4_t) __builtin_aarch64_get_qregoiv4si (__o, 0);
16005   ret.val[1] = (int32x4_t) __builtin_aarch64_get_qregoiv4si (__o, 1);
16006   return ret;
16007 }
16008
16009 __extension__ static __inline int64x2x2_t __attribute__ ((__always_inline__))
16010 vld2q_s64 (const int64_t * __a)
16011 {
16012   int64x2x2_t ret;
16013   __builtin_aarch64_simd_oi __o;
16014   __o = __builtin_aarch64_ld2v2di ((const __builtin_aarch64_simd_di *) __a);
16015   ret.val[0] = (int64x2_t) __builtin_aarch64_get_qregoiv2di (__o, 0);
16016   ret.val[1] = (int64x2_t) __builtin_aarch64_get_qregoiv2di (__o, 1);
16017   return ret;
16018 }
16019
16020 __extension__ static __inline uint8x16x2_t __attribute__ ((__always_inline__))
16021 vld2q_u8 (const uint8_t * __a)
16022 {
16023   uint8x16x2_t ret;
16024   __builtin_aarch64_simd_oi __o;
16025   __o = __builtin_aarch64_ld2v16qi ((const __builtin_aarch64_simd_qi *) __a);
16026   ret.val[0] = (uint8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 0);
16027   ret.val[1] = (uint8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 1);
16028   return ret;
16029 }
16030
16031 __extension__ static __inline uint16x8x2_t __attribute__ ((__always_inline__))
16032 vld2q_u16 (const uint16_t * __a)
16033 {
16034   uint16x8x2_t ret;
16035   __builtin_aarch64_simd_oi __o;
16036   __o = __builtin_aarch64_ld2v8hi ((const __builtin_aarch64_simd_hi *) __a);
16037   ret.val[0] = (uint16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 0);
16038   ret.val[1] = (uint16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 1);
16039   return ret;
16040 }
16041
16042 __extension__ static __inline uint32x4x2_t __attribute__ ((__always_inline__))
16043 vld2q_u32 (const uint32_t * __a)
16044 {
16045   uint32x4x2_t ret;
16046   __builtin_aarch64_simd_oi __o;
16047   __o = __builtin_aarch64_ld2v4si ((const __builtin_aarch64_simd_si *) __a);
16048   ret.val[0] = (uint32x4_t) __builtin_aarch64_get_qregoiv4si (__o, 0);
16049   ret.val[1] = (uint32x4_t) __builtin_aarch64_get_qregoiv4si (__o, 1);
16050   return ret;
16051 }
16052
16053 __extension__ static __inline uint64x2x2_t __attribute__ ((__always_inline__))
16054 vld2q_u64 (const uint64_t * __a)
16055 {
16056   uint64x2x2_t ret;
16057   __builtin_aarch64_simd_oi __o;
16058   __o = __builtin_aarch64_ld2v2di ((const __builtin_aarch64_simd_di *) __a);
16059   ret.val[0] = (uint64x2_t) __builtin_aarch64_get_qregoiv2di (__o, 0);
16060   ret.val[1] = (uint64x2_t) __builtin_aarch64_get_qregoiv2di (__o, 1);
16061   return ret;
16062 }
16063
16064 __extension__ static __inline float32x4x2_t __attribute__ ((__always_inline__))
16065 vld2q_f32 (const float32_t * __a)
16066 {
16067   float32x4x2_t ret;
16068   __builtin_aarch64_simd_oi __o;
16069   __o = __builtin_aarch64_ld2v4sf ((const __builtin_aarch64_simd_sf *) __a);
16070   ret.val[0] = (float32x4_t) __builtin_aarch64_get_qregoiv4sf (__o, 0);
16071   ret.val[1] = (float32x4_t) __builtin_aarch64_get_qregoiv4sf (__o, 1);
16072   return ret;
16073 }
16074
16075 __extension__ static __inline float64x2x2_t __attribute__ ((__always_inline__))
16076 vld2q_f64 (const float64_t * __a)
16077 {
16078   float64x2x2_t ret;
16079   __builtin_aarch64_simd_oi __o;
16080   __o = __builtin_aarch64_ld2v2df ((const __builtin_aarch64_simd_df *) __a);
16081   ret.val[0] = (float64x2_t) __builtin_aarch64_get_qregoiv2df (__o, 0);
16082   ret.val[1] = (float64x2_t) __builtin_aarch64_get_qregoiv2df (__o, 1);
16083   return ret;
16084 }
16085
16086 __extension__ static __inline int64x1x3_t __attribute__ ((__always_inline__))
16087 vld3_s64 (const int64_t * __a)
16088 {
16089   int64x1x3_t ret;
16090   __builtin_aarch64_simd_ci __o;
16091   __o = __builtin_aarch64_ld3di ((const __builtin_aarch64_simd_di *) __a);
16092   ret.val[0] = (int64x1_t) __builtin_aarch64_get_dregcidi (__o, 0);
16093   ret.val[1] = (int64x1_t) __builtin_aarch64_get_dregcidi (__o, 1);
16094   ret.val[2] = (int64x1_t) __builtin_aarch64_get_dregcidi (__o, 2);
16095   return ret;
16096 }
16097
16098 __extension__ static __inline uint64x1x3_t __attribute__ ((__always_inline__))
16099 vld3_u64 (const uint64_t * __a)
16100 {
16101   uint64x1x3_t ret;
16102   __builtin_aarch64_simd_ci __o;
16103   __o = __builtin_aarch64_ld3di ((const __builtin_aarch64_simd_di *) __a);
16104   ret.val[0] = (uint64x1_t) __builtin_aarch64_get_dregcidi (__o, 0);
16105   ret.val[1] = (uint64x1_t) __builtin_aarch64_get_dregcidi (__o, 1);
16106   ret.val[2] = (uint64x1_t) __builtin_aarch64_get_dregcidi (__o, 2);
16107   return ret;
16108 }
16109
16110 __extension__ static __inline float64x1x3_t __attribute__ ((__always_inline__))
16111 vld3_f64 (const float64_t * __a)
16112 {
16113   float64x1x3_t ret;
16114   __builtin_aarch64_simd_ci __o;
16115   __o = __builtin_aarch64_ld3df ((const __builtin_aarch64_simd_df *) __a);
16116   ret.val[0] = (float64x1_t) {__builtin_aarch64_get_dregcidf (__o, 0)};
16117   ret.val[1] = (float64x1_t) {__builtin_aarch64_get_dregcidf (__o, 1)};
16118   ret.val[2] = (float64x1_t) {__builtin_aarch64_get_dregcidf (__o, 2)};
16119   return ret;
16120 }
16121
16122 __extension__ static __inline int8x8x3_t __attribute__ ((__always_inline__))
16123 vld3_s8 (const int8_t * __a)
16124 {
16125   int8x8x3_t ret;
16126   __builtin_aarch64_simd_ci __o;
16127   __o = __builtin_aarch64_ld3v8qi ((const __builtin_aarch64_simd_qi *) __a);
16128   ret.val[0] = (int8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 0);
16129   ret.val[1] = (int8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 1);
16130   ret.val[2] = (int8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 2);
16131   return ret;
16132 }
16133
16134 __extension__ static __inline poly8x8x3_t __attribute__ ((__always_inline__))
16135 vld3_p8 (const poly8_t * __a)
16136 {
16137   poly8x8x3_t ret;
16138   __builtin_aarch64_simd_ci __o;
16139   __o = __builtin_aarch64_ld3v8qi ((const __builtin_aarch64_simd_qi *) __a);
16140   ret.val[0] = (poly8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 0);
16141   ret.val[1] = (poly8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 1);
16142   ret.val[2] = (poly8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 2);
16143   return ret;
16144 }
16145
16146 __extension__ static __inline int16x4x3_t __attribute__ ((__always_inline__))
16147 vld3_s16 (const int16_t * __a)
16148 {
16149   int16x4x3_t ret;
16150   __builtin_aarch64_simd_ci __o;
16151   __o = __builtin_aarch64_ld3v4hi ((const __builtin_aarch64_simd_hi *) __a);
16152   ret.val[0] = (int16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 0);
16153   ret.val[1] = (int16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 1);
16154   ret.val[2] = (int16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 2);
16155   return ret;
16156 }
16157
16158 __extension__ static __inline poly16x4x3_t __attribute__ ((__always_inline__))
16159 vld3_p16 (const poly16_t * __a)
16160 {
16161   poly16x4x3_t ret;
16162   __builtin_aarch64_simd_ci __o;
16163   __o = __builtin_aarch64_ld3v4hi ((const __builtin_aarch64_simd_hi *) __a);
16164   ret.val[0] = (poly16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 0);
16165   ret.val[1] = (poly16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 1);
16166   ret.val[2] = (poly16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 2);
16167   return ret;
16168 }
16169
16170 __extension__ static __inline int32x2x3_t __attribute__ ((__always_inline__))
16171 vld3_s32 (const int32_t * __a)
16172 {
16173   int32x2x3_t ret;
16174   __builtin_aarch64_simd_ci __o;
16175   __o = __builtin_aarch64_ld3v2si ((const __builtin_aarch64_simd_si *) __a);
16176   ret.val[0] = (int32x2_t) __builtin_aarch64_get_dregciv2si (__o, 0);
16177   ret.val[1] = (int32x2_t) __builtin_aarch64_get_dregciv2si (__o, 1);
16178   ret.val[2] = (int32x2_t) __builtin_aarch64_get_dregciv2si (__o, 2);
16179   return ret;
16180 }
16181
16182 __extension__ static __inline uint8x8x3_t __attribute__ ((__always_inline__))
16183 vld3_u8 (const uint8_t * __a)
16184 {
16185   uint8x8x3_t ret;
16186   __builtin_aarch64_simd_ci __o;
16187   __o = __builtin_aarch64_ld3v8qi ((const __builtin_aarch64_simd_qi *) __a);
16188   ret.val[0] = (uint8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 0);
16189   ret.val[1] = (uint8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 1);
16190   ret.val[2] = (uint8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 2);
16191   return ret;
16192 }
16193
16194 __extension__ static __inline uint16x4x3_t __attribute__ ((__always_inline__))
16195 vld3_u16 (const uint16_t * __a)
16196 {
16197   uint16x4x3_t ret;
16198   __builtin_aarch64_simd_ci __o;
16199   __o = __builtin_aarch64_ld3v4hi ((const __builtin_aarch64_simd_hi *) __a);
16200   ret.val[0] = (uint16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 0);
16201   ret.val[1] = (uint16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 1);
16202   ret.val[2] = (uint16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 2);
16203   return ret;
16204 }
16205
16206 __extension__ static __inline uint32x2x3_t __attribute__ ((__always_inline__))
16207 vld3_u32 (const uint32_t * __a)
16208 {
16209   uint32x2x3_t ret;
16210   __builtin_aarch64_simd_ci __o;
16211   __o = __builtin_aarch64_ld3v2si ((const __builtin_aarch64_simd_si *) __a);
16212   ret.val[0] = (uint32x2_t) __builtin_aarch64_get_dregciv2si (__o, 0);
16213   ret.val[1] = (uint32x2_t) __builtin_aarch64_get_dregciv2si (__o, 1);
16214   ret.val[2] = (uint32x2_t) __builtin_aarch64_get_dregciv2si (__o, 2);
16215   return ret;
16216 }
16217
16218 __extension__ static __inline float32x2x3_t __attribute__ ((__always_inline__))
16219 vld3_f32 (const float32_t * __a)
16220 {
16221   float32x2x3_t ret;
16222   __builtin_aarch64_simd_ci __o;
16223   __o = __builtin_aarch64_ld3v2sf ((const __builtin_aarch64_simd_sf *) __a);
16224   ret.val[0] = (float32x2_t) __builtin_aarch64_get_dregciv2sf (__o, 0);
16225   ret.val[1] = (float32x2_t) __builtin_aarch64_get_dregciv2sf (__o, 1);
16226   ret.val[2] = (float32x2_t) __builtin_aarch64_get_dregciv2sf (__o, 2);
16227   return ret;
16228 }
16229
16230 __extension__ static __inline int8x16x3_t __attribute__ ((__always_inline__))
16231 vld3q_s8 (const int8_t * __a)
16232 {
16233   int8x16x3_t ret;
16234   __builtin_aarch64_simd_ci __o;
16235   __o = __builtin_aarch64_ld3v16qi ((const __builtin_aarch64_simd_qi *) __a);
16236   ret.val[0] = (int8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 0);
16237   ret.val[1] = (int8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 1);
16238   ret.val[2] = (int8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 2);
16239   return ret;
16240 }
16241
16242 __extension__ static __inline poly8x16x3_t __attribute__ ((__always_inline__))
16243 vld3q_p8 (const poly8_t * __a)
16244 {
16245   poly8x16x3_t ret;
16246   __builtin_aarch64_simd_ci __o;
16247   __o = __builtin_aarch64_ld3v16qi ((const __builtin_aarch64_simd_qi *) __a);
16248   ret.val[0] = (poly8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 0);
16249   ret.val[1] = (poly8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 1);
16250   ret.val[2] = (poly8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 2);
16251   return ret;
16252 }
16253
16254 __extension__ static __inline int16x8x3_t __attribute__ ((__always_inline__))
16255 vld3q_s16 (const int16_t * __a)
16256 {
16257   int16x8x3_t ret;
16258   __builtin_aarch64_simd_ci __o;
16259   __o = __builtin_aarch64_ld3v8hi ((const __builtin_aarch64_simd_hi *) __a);
16260   ret.val[0] = (int16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 0);
16261   ret.val[1] = (int16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 1);
16262   ret.val[2] = (int16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 2);
16263   return ret;
16264 }
16265
16266 __extension__ static __inline poly16x8x3_t __attribute__ ((__always_inline__))
16267 vld3q_p16 (const poly16_t * __a)
16268 {
16269   poly16x8x3_t ret;
16270   __builtin_aarch64_simd_ci __o;
16271   __o = __builtin_aarch64_ld3v8hi ((const __builtin_aarch64_simd_hi *) __a);
16272   ret.val[0] = (poly16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 0);
16273   ret.val[1] = (poly16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 1);
16274   ret.val[2] = (poly16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 2);
16275   return ret;
16276 }
16277
16278 __extension__ static __inline int32x4x3_t __attribute__ ((__always_inline__))
16279 vld3q_s32 (const int32_t * __a)
16280 {
16281   int32x4x3_t ret;
16282   __builtin_aarch64_simd_ci __o;
16283   __o = __builtin_aarch64_ld3v4si ((const __builtin_aarch64_simd_si *) __a);
16284   ret.val[0] = (int32x4_t) __builtin_aarch64_get_qregciv4si (__o, 0);
16285   ret.val[1] = (int32x4_t) __builtin_aarch64_get_qregciv4si (__o, 1);
16286   ret.val[2] = (int32x4_t) __builtin_aarch64_get_qregciv4si (__o, 2);
16287   return ret;
16288 }
16289
16290 __extension__ static __inline int64x2x3_t __attribute__ ((__always_inline__))
16291 vld3q_s64 (const int64_t * __a)
16292 {
16293   int64x2x3_t ret;
16294   __builtin_aarch64_simd_ci __o;
16295   __o = __builtin_aarch64_ld3v2di ((const __builtin_aarch64_simd_di *) __a);
16296   ret.val[0] = (int64x2_t) __builtin_aarch64_get_qregciv2di (__o, 0);
16297   ret.val[1] = (int64x2_t) __builtin_aarch64_get_qregciv2di (__o, 1);
16298   ret.val[2] = (int64x2_t) __builtin_aarch64_get_qregciv2di (__o, 2);
16299   return ret;
16300 }
16301
16302 __extension__ static __inline uint8x16x3_t __attribute__ ((__always_inline__))
16303 vld3q_u8 (const uint8_t * __a)
16304 {
16305   uint8x16x3_t ret;
16306   __builtin_aarch64_simd_ci __o;
16307   __o = __builtin_aarch64_ld3v16qi ((const __builtin_aarch64_simd_qi *) __a);
16308   ret.val[0] = (uint8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 0);
16309   ret.val[1] = (uint8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 1);
16310   ret.val[2] = (uint8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 2);
16311   return ret;
16312 }
16313
16314 __extension__ static __inline uint16x8x3_t __attribute__ ((__always_inline__))
16315 vld3q_u16 (const uint16_t * __a)
16316 {
16317   uint16x8x3_t ret;
16318   __builtin_aarch64_simd_ci __o;
16319   __o = __builtin_aarch64_ld3v8hi ((const __builtin_aarch64_simd_hi *) __a);
16320   ret.val[0] = (uint16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 0);
16321   ret.val[1] = (uint16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 1);
16322   ret.val[2] = (uint16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 2);
16323   return ret;
16324 }
16325
16326 __extension__ static __inline uint32x4x3_t __attribute__ ((__always_inline__))
16327 vld3q_u32 (const uint32_t * __a)
16328 {
16329   uint32x4x3_t ret;
16330   __builtin_aarch64_simd_ci __o;
16331   __o = __builtin_aarch64_ld3v4si ((const __builtin_aarch64_simd_si *) __a);
16332   ret.val[0] = (uint32x4_t) __builtin_aarch64_get_qregciv4si (__o, 0);
16333   ret.val[1] = (uint32x4_t) __builtin_aarch64_get_qregciv4si (__o, 1);
16334   ret.val[2] = (uint32x4_t) __builtin_aarch64_get_qregciv4si (__o, 2);
16335   return ret;
16336 }
16337
16338 __extension__ static __inline uint64x2x3_t __attribute__ ((__always_inline__))
16339 vld3q_u64 (const uint64_t * __a)
16340 {
16341   uint64x2x3_t ret;
16342   __builtin_aarch64_simd_ci __o;
16343   __o = __builtin_aarch64_ld3v2di ((const __builtin_aarch64_simd_di *) __a);
16344   ret.val[0] = (uint64x2_t) __builtin_aarch64_get_qregciv2di (__o, 0);
16345   ret.val[1] = (uint64x2_t) __builtin_aarch64_get_qregciv2di (__o, 1);
16346   ret.val[2] = (uint64x2_t) __builtin_aarch64_get_qregciv2di (__o, 2);
16347   return ret;
16348 }
16349
16350 __extension__ static __inline float32x4x3_t __attribute__ ((__always_inline__))
16351 vld3q_f32 (const float32_t * __a)
16352 {
16353   float32x4x3_t ret;
16354   __builtin_aarch64_simd_ci __o;
16355   __o = __builtin_aarch64_ld3v4sf ((const __builtin_aarch64_simd_sf *) __a);
16356   ret.val[0] = (float32x4_t) __builtin_aarch64_get_qregciv4sf (__o, 0);
16357   ret.val[1] = (float32x4_t) __builtin_aarch64_get_qregciv4sf (__o, 1);
16358   ret.val[2] = (float32x4_t) __builtin_aarch64_get_qregciv4sf (__o, 2);
16359   return ret;
16360 }
16361
16362 __extension__ static __inline float64x2x3_t __attribute__ ((__always_inline__))
16363 vld3q_f64 (const float64_t * __a)
16364 {
16365   float64x2x3_t ret;
16366   __builtin_aarch64_simd_ci __o;
16367   __o = __builtin_aarch64_ld3v2df ((const __builtin_aarch64_simd_df *) __a);
16368   ret.val[0] = (float64x2_t) __builtin_aarch64_get_qregciv2df (__o, 0);
16369   ret.val[1] = (float64x2_t) __builtin_aarch64_get_qregciv2df (__o, 1);
16370   ret.val[2] = (float64x2_t) __builtin_aarch64_get_qregciv2df (__o, 2);
16371   return ret;
16372 }
16373
16374 __extension__ static __inline int64x1x4_t __attribute__ ((__always_inline__))
16375 vld4_s64 (const int64_t * __a)
16376 {
16377   int64x1x4_t ret;
16378   __builtin_aarch64_simd_xi __o;
16379   __o = __builtin_aarch64_ld4di ((const __builtin_aarch64_simd_di *) __a);
16380   ret.val[0] = (int64x1_t) __builtin_aarch64_get_dregxidi (__o, 0);
16381   ret.val[1] = (int64x1_t) __builtin_aarch64_get_dregxidi (__o, 1);
16382   ret.val[2] = (int64x1_t) __builtin_aarch64_get_dregxidi (__o, 2);
16383   ret.val[3] = (int64x1_t) __builtin_aarch64_get_dregxidi (__o, 3);
16384   return ret;
16385 }
16386
16387 __extension__ static __inline uint64x1x4_t __attribute__ ((__always_inline__))
16388 vld4_u64 (const uint64_t * __a)
16389 {
16390   uint64x1x4_t ret;
16391   __builtin_aarch64_simd_xi __o;
16392   __o = __builtin_aarch64_ld4di ((const __builtin_aarch64_simd_di *) __a);
16393   ret.val[0] = (uint64x1_t) __builtin_aarch64_get_dregxidi (__o, 0);
16394   ret.val[1] = (uint64x1_t) __builtin_aarch64_get_dregxidi (__o, 1);
16395   ret.val[2] = (uint64x1_t) __builtin_aarch64_get_dregxidi (__o, 2);
16396   ret.val[3] = (uint64x1_t) __builtin_aarch64_get_dregxidi (__o, 3);
16397   return ret;
16398 }
16399
16400 __extension__ static __inline float64x1x4_t __attribute__ ((__always_inline__))
16401 vld4_f64 (const float64_t * __a)
16402 {
16403   float64x1x4_t ret;
16404   __builtin_aarch64_simd_xi __o;
16405   __o = __builtin_aarch64_ld4df ((const __builtin_aarch64_simd_df *) __a);
16406   ret.val[0] = (float64x1_t) {__builtin_aarch64_get_dregxidf (__o, 0)};
16407   ret.val[1] = (float64x1_t) {__builtin_aarch64_get_dregxidf (__o, 1)};
16408   ret.val[2] = (float64x1_t) {__builtin_aarch64_get_dregxidf (__o, 2)};
16409   ret.val[3] = (float64x1_t) {__builtin_aarch64_get_dregxidf (__o, 3)};
16410   return ret;
16411 }
16412
16413 __extension__ static __inline int8x8x4_t __attribute__ ((__always_inline__))
16414 vld4_s8 (const int8_t * __a)
16415 {
16416   int8x8x4_t ret;
16417   __builtin_aarch64_simd_xi __o;
16418   __o = __builtin_aarch64_ld4v8qi ((const __builtin_aarch64_simd_qi *) __a);
16419   ret.val[0] = (int8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 0);
16420   ret.val[1] = (int8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 1);
16421   ret.val[2] = (int8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 2);
16422   ret.val[3] = (int8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 3);
16423   return ret;
16424 }
16425
16426 __extension__ static __inline poly8x8x4_t __attribute__ ((__always_inline__))
16427 vld4_p8 (const poly8_t * __a)
16428 {
16429   poly8x8x4_t ret;
16430   __builtin_aarch64_simd_xi __o;
16431   __o = __builtin_aarch64_ld4v8qi ((const __builtin_aarch64_simd_qi *) __a);
16432   ret.val[0] = (poly8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 0);
16433   ret.val[1] = (poly8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 1);
16434   ret.val[2] = (poly8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 2);
16435   ret.val[3] = (poly8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 3);
16436   return ret;
16437 }
16438
16439 __extension__ static __inline int16x4x4_t __attribute__ ((__always_inline__))
16440 vld4_s16 (const int16_t * __a)
16441 {
16442   int16x4x4_t ret;
16443   __builtin_aarch64_simd_xi __o;
16444   __o = __builtin_aarch64_ld4v4hi ((const __builtin_aarch64_simd_hi *) __a);
16445   ret.val[0] = (int16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 0);
16446   ret.val[1] = (int16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 1);
16447   ret.val[2] = (int16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 2);
16448   ret.val[3] = (int16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 3);
16449   return ret;
16450 }
16451
16452 __extension__ static __inline poly16x4x4_t __attribute__ ((__always_inline__))
16453 vld4_p16 (const poly16_t * __a)
16454 {
16455   poly16x4x4_t ret;
16456   __builtin_aarch64_simd_xi __o;
16457   __o = __builtin_aarch64_ld4v4hi ((const __builtin_aarch64_simd_hi *) __a);
16458   ret.val[0] = (poly16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 0);
16459   ret.val[1] = (poly16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 1);
16460   ret.val[2] = (poly16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 2);
16461   ret.val[3] = (poly16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 3);
16462   return ret;
16463 }
16464
16465 __extension__ static __inline int32x2x4_t __attribute__ ((__always_inline__))
16466 vld4_s32 (const int32_t * __a)
16467 {
16468   int32x2x4_t ret;
16469   __builtin_aarch64_simd_xi __o;
16470   __o = __builtin_aarch64_ld4v2si ((const __builtin_aarch64_simd_si *) __a);
16471   ret.val[0] = (int32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 0);
16472   ret.val[1] = (int32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 1);
16473   ret.val[2] = (int32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 2);
16474   ret.val[3] = (int32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 3);
16475   return ret;
16476 }
16477
16478 __extension__ static __inline uint8x8x4_t __attribute__ ((__always_inline__))
16479 vld4_u8 (const uint8_t * __a)
16480 {
16481   uint8x8x4_t ret;
16482   __builtin_aarch64_simd_xi __o;
16483   __o = __builtin_aarch64_ld4v8qi ((const __builtin_aarch64_simd_qi *) __a);
16484   ret.val[0] = (uint8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 0);
16485   ret.val[1] = (uint8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 1);
16486   ret.val[2] = (uint8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 2);
16487   ret.val[3] = (uint8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 3);
16488   return ret;
16489 }
16490
16491 __extension__ static __inline uint16x4x4_t __attribute__ ((__always_inline__))
16492 vld4_u16 (const uint16_t * __a)
16493 {
16494   uint16x4x4_t ret;
16495   __builtin_aarch64_simd_xi __o;
16496   __o = __builtin_aarch64_ld4v4hi ((const __builtin_aarch64_simd_hi *) __a);
16497   ret.val[0] = (uint16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 0);
16498   ret.val[1] = (uint16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 1);
16499   ret.val[2] = (uint16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 2);
16500   ret.val[3] = (uint16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 3);
16501   return ret;
16502 }
16503
16504 __extension__ static __inline uint32x2x4_t __attribute__ ((__always_inline__))
16505 vld4_u32 (const uint32_t * __a)
16506 {
16507   uint32x2x4_t ret;
16508   __builtin_aarch64_simd_xi __o;
16509   __o = __builtin_aarch64_ld4v2si ((const __builtin_aarch64_simd_si *) __a);
16510   ret.val[0] = (uint32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 0);
16511   ret.val[1] = (uint32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 1);
16512   ret.val[2] = (uint32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 2);
16513   ret.val[3] = (uint32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 3);
16514   return ret;
16515 }
16516
16517 __extension__ static __inline float32x2x4_t __attribute__ ((__always_inline__))
16518 vld4_f32 (const float32_t * __a)
16519 {
16520   float32x2x4_t ret;
16521   __builtin_aarch64_simd_xi __o;
16522   __o = __builtin_aarch64_ld4v2sf ((const __builtin_aarch64_simd_sf *) __a);
16523   ret.val[0] = (float32x2_t) __builtin_aarch64_get_dregxiv2sf (__o, 0);
16524   ret.val[1] = (float32x2_t) __builtin_aarch64_get_dregxiv2sf (__o, 1);
16525   ret.val[2] = (float32x2_t) __builtin_aarch64_get_dregxiv2sf (__o, 2);
16526   ret.val[3] = (float32x2_t) __builtin_aarch64_get_dregxiv2sf (__o, 3);
16527   return ret;
16528 }
16529
16530 __extension__ static __inline int8x16x4_t __attribute__ ((__always_inline__))
16531 vld4q_s8 (const int8_t * __a)
16532 {
16533   int8x16x4_t ret;
16534   __builtin_aarch64_simd_xi __o;
16535   __o = __builtin_aarch64_ld4v16qi ((const __builtin_aarch64_simd_qi *) __a);
16536   ret.val[0] = (int8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 0);
16537   ret.val[1] = (int8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 1);
16538   ret.val[2] = (int8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 2);
16539   ret.val[3] = (int8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 3);
16540   return ret;
16541 }
16542
16543 __extension__ static __inline poly8x16x4_t __attribute__ ((__always_inline__))
16544 vld4q_p8 (const poly8_t * __a)
16545 {
16546   poly8x16x4_t ret;
16547   __builtin_aarch64_simd_xi __o;
16548   __o = __builtin_aarch64_ld4v16qi ((const __builtin_aarch64_simd_qi *) __a);
16549   ret.val[0] = (poly8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 0);
16550   ret.val[1] = (poly8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 1);
16551   ret.val[2] = (poly8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 2);
16552   ret.val[3] = (poly8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 3);
16553   return ret;
16554 }
16555
16556 __extension__ static __inline int16x8x4_t __attribute__ ((__always_inline__))
16557 vld4q_s16 (const int16_t * __a)
16558 {
16559   int16x8x4_t ret;
16560   __builtin_aarch64_simd_xi __o;
16561   __o = __builtin_aarch64_ld4v8hi ((const __builtin_aarch64_simd_hi *) __a);
16562   ret.val[0] = (int16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 0);
16563   ret.val[1] = (int16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 1);
16564   ret.val[2] = (int16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 2);
16565   ret.val[3] = (int16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 3);
16566   return ret;
16567 }
16568
16569 __extension__ static __inline poly16x8x4_t __attribute__ ((__always_inline__))
16570 vld4q_p16 (const poly16_t * __a)
16571 {
16572   poly16x8x4_t ret;
16573   __builtin_aarch64_simd_xi __o;
16574   __o = __builtin_aarch64_ld4v8hi ((const __builtin_aarch64_simd_hi *) __a);
16575   ret.val[0] = (poly16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 0);
16576   ret.val[1] = (poly16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 1);
16577   ret.val[2] = (poly16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 2);
16578   ret.val[3] = (poly16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 3);
16579   return ret;
16580 }
16581
16582 __extension__ static __inline int32x4x4_t __attribute__ ((__always_inline__))
16583 vld4q_s32 (const int32_t * __a)
16584 {
16585   int32x4x4_t ret;
16586   __builtin_aarch64_simd_xi __o;
16587   __o = __builtin_aarch64_ld4v4si ((const __builtin_aarch64_simd_si *) __a);
16588   ret.val[0] = (int32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 0);
16589   ret.val[1] = (int32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 1);
16590   ret.val[2] = (int32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 2);
16591   ret.val[3] = (int32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 3);
16592   return ret;
16593 }
16594
16595 __extension__ static __inline int64x2x4_t __attribute__ ((__always_inline__))
16596 vld4q_s64 (const int64_t * __a)
16597 {
16598   int64x2x4_t ret;
16599   __builtin_aarch64_simd_xi __o;
16600   __o = __builtin_aarch64_ld4v2di ((const __builtin_aarch64_simd_di *) __a);
16601   ret.val[0] = (int64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 0);
16602   ret.val[1] = (int64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 1);
16603   ret.val[2] = (int64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 2);
16604   ret.val[3] = (int64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 3);
16605   return ret;
16606 }
16607
16608 __extension__ static __inline uint8x16x4_t __attribute__ ((__always_inline__))
16609 vld4q_u8 (const uint8_t * __a)
16610 {
16611   uint8x16x4_t ret;
16612   __builtin_aarch64_simd_xi __o;
16613   __o = __builtin_aarch64_ld4v16qi ((const __builtin_aarch64_simd_qi *) __a);
16614   ret.val[0] = (uint8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 0);
16615   ret.val[1] = (uint8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 1);
16616   ret.val[2] = (uint8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 2);
16617   ret.val[3] = (uint8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 3);
16618   return ret;
16619 }
16620
16621 __extension__ static __inline uint16x8x4_t __attribute__ ((__always_inline__))
16622 vld4q_u16 (const uint16_t * __a)
16623 {
16624   uint16x8x4_t ret;
16625   __builtin_aarch64_simd_xi __o;
16626   __o = __builtin_aarch64_ld4v8hi ((const __builtin_aarch64_simd_hi *) __a);
16627   ret.val[0] = (uint16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 0);
16628   ret.val[1] = (uint16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 1);
16629   ret.val[2] = (uint16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 2);
16630   ret.val[3] = (uint16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 3);
16631   return ret;
16632 }
16633
16634 __extension__ static __inline uint32x4x4_t __attribute__ ((__always_inline__))
16635 vld4q_u32 (const uint32_t * __a)
16636 {
16637   uint32x4x4_t ret;
16638   __builtin_aarch64_simd_xi __o;
16639   __o = __builtin_aarch64_ld4v4si ((const __builtin_aarch64_simd_si *) __a);
16640   ret.val[0] = (uint32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 0);
16641   ret.val[1] = (uint32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 1);
16642   ret.val[2] = (uint32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 2);
16643   ret.val[3] = (uint32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 3);
16644   return ret;
16645 }
16646
16647 __extension__ static __inline uint64x2x4_t __attribute__ ((__always_inline__))
16648 vld4q_u64 (const uint64_t * __a)
16649 {
16650   uint64x2x4_t ret;
16651   __builtin_aarch64_simd_xi __o;
16652   __o = __builtin_aarch64_ld4v2di ((const __builtin_aarch64_simd_di *) __a);
16653   ret.val[0] = (uint64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 0);
16654   ret.val[1] = (uint64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 1);
16655   ret.val[2] = (uint64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 2);
16656   ret.val[3] = (uint64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 3);
16657   return ret;
16658 }
16659
16660 __extension__ static __inline float32x4x4_t __attribute__ ((__always_inline__))
16661 vld4q_f32 (const float32_t * __a)
16662 {
16663   float32x4x4_t ret;
16664   __builtin_aarch64_simd_xi __o;
16665   __o = __builtin_aarch64_ld4v4sf ((const __builtin_aarch64_simd_sf *) __a);
16666   ret.val[0] = (float32x4_t) __builtin_aarch64_get_qregxiv4sf (__o, 0);
16667   ret.val[1] = (float32x4_t) __builtin_aarch64_get_qregxiv4sf (__o, 1);
16668   ret.val[2] = (float32x4_t) __builtin_aarch64_get_qregxiv4sf (__o, 2);
16669   ret.val[3] = (float32x4_t) __builtin_aarch64_get_qregxiv4sf (__o, 3);
16670   return ret;
16671 }
16672
16673 __extension__ static __inline float64x2x4_t __attribute__ ((__always_inline__))
16674 vld4q_f64 (const float64_t * __a)
16675 {
16676   float64x2x4_t ret;
16677   __builtin_aarch64_simd_xi __o;
16678   __o = __builtin_aarch64_ld4v2df ((const __builtin_aarch64_simd_df *) __a);
16679   ret.val[0] = (float64x2_t) __builtin_aarch64_get_qregxiv2df (__o, 0);
16680   ret.val[1] = (float64x2_t) __builtin_aarch64_get_qregxiv2df (__o, 1);
16681   ret.val[2] = (float64x2_t) __builtin_aarch64_get_qregxiv2df (__o, 2);
16682   ret.val[3] = (float64x2_t) __builtin_aarch64_get_qregxiv2df (__o, 3);
16683   return ret;
16684 }
16685
16686 /* vldn_dup */
16687
16688 __extension__ static __inline int8x8x2_t __attribute__ ((__always_inline__))
16689 vld2_dup_s8 (const int8_t * __a)
16690 {
16691   int8x8x2_t ret;
16692   __builtin_aarch64_simd_oi __o;
16693   __o = __builtin_aarch64_ld2rv8qi ((const __builtin_aarch64_simd_qi *) __a);
16694   ret.val[0] = (int8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 0);
16695   ret.val[1] = (int8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 1);
16696   return ret;
16697 }
16698
16699 __extension__ static __inline int16x4x2_t __attribute__ ((__always_inline__))
16700 vld2_dup_s16 (const int16_t * __a)
16701 {
16702   int16x4x2_t ret;
16703   __builtin_aarch64_simd_oi __o;
16704   __o = __builtin_aarch64_ld2rv4hi ((const __builtin_aarch64_simd_hi *) __a);
16705   ret.val[0] = (int16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 0);
16706   ret.val[1] = (int16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 1);
16707   return ret;
16708 }
16709
16710 __extension__ static __inline int32x2x2_t __attribute__ ((__always_inline__))
16711 vld2_dup_s32 (const int32_t * __a)
16712 {
16713   int32x2x2_t ret;
16714   __builtin_aarch64_simd_oi __o;
16715   __o = __builtin_aarch64_ld2rv2si ((const __builtin_aarch64_simd_si *) __a);
16716   ret.val[0] = (int32x2_t) __builtin_aarch64_get_dregoiv2si (__o, 0);
16717   ret.val[1] = (int32x2_t) __builtin_aarch64_get_dregoiv2si (__o, 1);
16718   return ret;
16719 }
16720
16721 __extension__ static __inline float32x2x2_t __attribute__ ((__always_inline__))
16722 vld2_dup_f32 (const float32_t * __a)
16723 {
16724   float32x2x2_t ret;
16725   __builtin_aarch64_simd_oi __o;
16726   __o = __builtin_aarch64_ld2rv2sf ((const __builtin_aarch64_simd_sf *) __a);
16727   ret.val[0] = (float32x2_t) __builtin_aarch64_get_dregoiv2sf (__o, 0);
16728   ret.val[1] = (float32x2_t) __builtin_aarch64_get_dregoiv2sf (__o, 1);
16729   return ret;
16730 }
16731
16732 __extension__ static __inline float64x1x2_t __attribute__ ((__always_inline__))
16733 vld2_dup_f64 (const float64_t * __a)
16734 {
16735   float64x1x2_t ret;
16736   __builtin_aarch64_simd_oi __o;
16737   __o = __builtin_aarch64_ld2rdf ((const __builtin_aarch64_simd_df *) __a);
16738   ret.val[0] = (float64x1_t) {__builtin_aarch64_get_dregoidf (__o, 0)};
16739   ret.val[1] = (float64x1_t) {__builtin_aarch64_get_dregoidf (__o, 1)};
16740   return ret;
16741 }
16742
16743 __extension__ static __inline uint8x8x2_t __attribute__ ((__always_inline__))
16744 vld2_dup_u8 (const uint8_t * __a)
16745 {
16746   uint8x8x2_t ret;
16747   __builtin_aarch64_simd_oi __o;
16748   __o = __builtin_aarch64_ld2rv8qi ((const __builtin_aarch64_simd_qi *) __a);
16749   ret.val[0] = (uint8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 0);
16750   ret.val[1] = (uint8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 1);
16751   return ret;
16752 }
16753
16754 __extension__ static __inline uint16x4x2_t __attribute__ ((__always_inline__))
16755 vld2_dup_u16 (const uint16_t * __a)
16756 {
16757   uint16x4x2_t ret;
16758   __builtin_aarch64_simd_oi __o;
16759   __o = __builtin_aarch64_ld2rv4hi ((const __builtin_aarch64_simd_hi *) __a);
16760   ret.val[0] = (uint16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 0);
16761   ret.val[1] = (uint16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 1);
16762   return ret;
16763 }
16764
16765 __extension__ static __inline uint32x2x2_t __attribute__ ((__always_inline__))
16766 vld2_dup_u32 (const uint32_t * __a)
16767 {
16768   uint32x2x2_t ret;
16769   __builtin_aarch64_simd_oi __o;
16770   __o = __builtin_aarch64_ld2rv2si ((const __builtin_aarch64_simd_si *) __a);
16771   ret.val[0] = (uint32x2_t) __builtin_aarch64_get_dregoiv2si (__o, 0);
16772   ret.val[1] = (uint32x2_t) __builtin_aarch64_get_dregoiv2si (__o, 1);
16773   return ret;
16774 }
16775
16776 __extension__ static __inline poly8x8x2_t __attribute__ ((__always_inline__))
16777 vld2_dup_p8 (const poly8_t * __a)
16778 {
16779   poly8x8x2_t ret;
16780   __builtin_aarch64_simd_oi __o;
16781   __o = __builtin_aarch64_ld2rv8qi ((const __builtin_aarch64_simd_qi *) __a);
16782   ret.val[0] = (poly8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 0);
16783   ret.val[1] = (poly8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 1);
16784   return ret;
16785 }
16786
16787 __extension__ static __inline poly16x4x2_t __attribute__ ((__always_inline__))
16788 vld2_dup_p16 (const poly16_t * __a)
16789 {
16790   poly16x4x2_t ret;
16791   __builtin_aarch64_simd_oi __o;
16792   __o = __builtin_aarch64_ld2rv4hi ((const __builtin_aarch64_simd_hi *) __a);
16793   ret.val[0] = (poly16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 0);
16794   ret.val[1] = (poly16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 1);
16795   return ret;
16796 }
16797
16798 __extension__ static __inline int64x1x2_t __attribute__ ((__always_inline__))
16799 vld2_dup_s64 (const int64_t * __a)
16800 {
16801   int64x1x2_t ret;
16802   __builtin_aarch64_simd_oi __o;
16803   __o = __builtin_aarch64_ld2rdi ((const __builtin_aarch64_simd_di *) __a);
16804   ret.val[0] = (int64x1_t) __builtin_aarch64_get_dregoidi (__o, 0);
16805   ret.val[1] = (int64x1_t) __builtin_aarch64_get_dregoidi (__o, 1);
16806   return ret;
16807 }
16808
16809 __extension__ static __inline uint64x1x2_t __attribute__ ((__always_inline__))
16810 vld2_dup_u64 (const uint64_t * __a)
16811 {
16812   uint64x1x2_t ret;
16813   __builtin_aarch64_simd_oi __o;
16814   __o = __builtin_aarch64_ld2rdi ((const __builtin_aarch64_simd_di *) __a);
16815   ret.val[0] = (uint64x1_t) __builtin_aarch64_get_dregoidi (__o, 0);
16816   ret.val[1] = (uint64x1_t) __builtin_aarch64_get_dregoidi (__o, 1);
16817   return ret;
16818 }
16819
16820 __extension__ static __inline int8x16x2_t __attribute__ ((__always_inline__))
16821 vld2q_dup_s8 (const int8_t * __a)
16822 {
16823   int8x16x2_t ret;
16824   __builtin_aarch64_simd_oi __o;
16825   __o = __builtin_aarch64_ld2rv16qi ((const __builtin_aarch64_simd_qi *) __a);
16826   ret.val[0] = (int8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 0);
16827   ret.val[1] = (int8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 1);
16828   return ret;
16829 }
16830
16831 __extension__ static __inline poly8x16x2_t __attribute__ ((__always_inline__))
16832 vld2q_dup_p8 (const poly8_t * __a)
16833 {
16834   poly8x16x2_t ret;
16835   __builtin_aarch64_simd_oi __o;
16836   __o = __builtin_aarch64_ld2rv16qi ((const __builtin_aarch64_simd_qi *) __a);
16837   ret.val[0] = (poly8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 0);
16838   ret.val[1] = (poly8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 1);
16839   return ret;
16840 }
16841
16842 __extension__ static __inline int16x8x2_t __attribute__ ((__always_inline__))
16843 vld2q_dup_s16 (const int16_t * __a)
16844 {
16845   int16x8x2_t ret;
16846   __builtin_aarch64_simd_oi __o;
16847   __o = __builtin_aarch64_ld2rv8hi ((const __builtin_aarch64_simd_hi *) __a);
16848   ret.val[0] = (int16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 0);
16849   ret.val[1] = (int16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 1);
16850   return ret;
16851 }
16852
16853 __extension__ static __inline poly16x8x2_t __attribute__ ((__always_inline__))
16854 vld2q_dup_p16 (const poly16_t * __a)
16855 {
16856   poly16x8x2_t ret;
16857   __builtin_aarch64_simd_oi __o;
16858   __o = __builtin_aarch64_ld2rv8hi ((const __builtin_aarch64_simd_hi *) __a);
16859   ret.val[0] = (poly16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 0);
16860   ret.val[1] = (poly16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 1);
16861   return ret;
16862 }
16863
16864 __extension__ static __inline int32x4x2_t __attribute__ ((__always_inline__))
16865 vld2q_dup_s32 (const int32_t * __a)
16866 {
16867   int32x4x2_t ret;
16868   __builtin_aarch64_simd_oi __o;
16869   __o = __builtin_aarch64_ld2rv4si ((const __builtin_aarch64_simd_si *) __a);
16870   ret.val[0] = (int32x4_t) __builtin_aarch64_get_qregoiv4si (__o, 0);
16871   ret.val[1] = (int32x4_t) __builtin_aarch64_get_qregoiv4si (__o, 1);
16872   return ret;
16873 }
16874
16875 __extension__ static __inline int64x2x2_t __attribute__ ((__always_inline__))
16876 vld2q_dup_s64 (const int64_t * __a)
16877 {
16878   int64x2x2_t ret;
16879   __builtin_aarch64_simd_oi __o;
16880   __o = __builtin_aarch64_ld2rv2di ((const __builtin_aarch64_simd_di *) __a);
16881   ret.val[0] = (int64x2_t) __builtin_aarch64_get_qregoiv2di (__o, 0);
16882   ret.val[1] = (int64x2_t) __builtin_aarch64_get_qregoiv2di (__o, 1);
16883   return ret;
16884 }
16885
16886 __extension__ static __inline uint8x16x2_t __attribute__ ((__always_inline__))
16887 vld2q_dup_u8 (const uint8_t * __a)
16888 {
16889   uint8x16x2_t ret;
16890   __builtin_aarch64_simd_oi __o;
16891   __o = __builtin_aarch64_ld2rv16qi ((const __builtin_aarch64_simd_qi *) __a);
16892   ret.val[0] = (uint8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 0);
16893   ret.val[1] = (uint8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 1);
16894   return ret;
16895 }
16896
16897 __extension__ static __inline uint16x8x2_t __attribute__ ((__always_inline__))
16898 vld2q_dup_u16 (const uint16_t * __a)
16899 {
16900   uint16x8x2_t ret;
16901   __builtin_aarch64_simd_oi __o;
16902   __o = __builtin_aarch64_ld2rv8hi ((const __builtin_aarch64_simd_hi *) __a);
16903   ret.val[0] = (uint16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 0);
16904   ret.val[1] = (uint16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 1);
16905   return ret;
16906 }
16907
16908 __extension__ static __inline uint32x4x2_t __attribute__ ((__always_inline__))
16909 vld2q_dup_u32 (const uint32_t * __a)
16910 {
16911   uint32x4x2_t ret;
16912   __builtin_aarch64_simd_oi __o;
16913   __o = __builtin_aarch64_ld2rv4si ((const __builtin_aarch64_simd_si *) __a);
16914   ret.val[0] = (uint32x4_t) __builtin_aarch64_get_qregoiv4si (__o, 0);
16915   ret.val[1] = (uint32x4_t) __builtin_aarch64_get_qregoiv4si (__o, 1);
16916   return ret;
16917 }
16918
16919 __extension__ static __inline uint64x2x2_t __attribute__ ((__always_inline__))
16920 vld2q_dup_u64 (const uint64_t * __a)
16921 {
16922   uint64x2x2_t ret;
16923   __builtin_aarch64_simd_oi __o;
16924   __o = __builtin_aarch64_ld2rv2di ((const __builtin_aarch64_simd_di *) __a);
16925   ret.val[0] = (uint64x2_t) __builtin_aarch64_get_qregoiv2di (__o, 0);
16926   ret.val[1] = (uint64x2_t) __builtin_aarch64_get_qregoiv2di (__o, 1);
16927   return ret;
16928 }
16929
16930 __extension__ static __inline float32x4x2_t __attribute__ ((__always_inline__))
16931 vld2q_dup_f32 (const float32_t * __a)
16932 {
16933   float32x4x2_t ret;
16934   __builtin_aarch64_simd_oi __o;
16935   __o = __builtin_aarch64_ld2rv4sf ((const __builtin_aarch64_simd_sf *) __a);
16936   ret.val[0] = (float32x4_t) __builtin_aarch64_get_qregoiv4sf (__o, 0);
16937   ret.val[1] = (float32x4_t) __builtin_aarch64_get_qregoiv4sf (__o, 1);
16938   return ret;
16939 }
16940
16941 __extension__ static __inline float64x2x2_t __attribute__ ((__always_inline__))
16942 vld2q_dup_f64 (const float64_t * __a)
16943 {
16944   float64x2x2_t ret;
16945   __builtin_aarch64_simd_oi __o;
16946   __o = __builtin_aarch64_ld2rv2df ((const __builtin_aarch64_simd_df *) __a);
16947   ret.val[0] = (float64x2_t) __builtin_aarch64_get_qregoiv2df (__o, 0);
16948   ret.val[1] = (float64x2_t) __builtin_aarch64_get_qregoiv2df (__o, 1);
16949   return ret;
16950 }
16951
16952 __extension__ static __inline int64x1x3_t __attribute__ ((__always_inline__))
16953 vld3_dup_s64 (const int64_t * __a)
16954 {
16955   int64x1x3_t ret;
16956   __builtin_aarch64_simd_ci __o;
16957   __o = __builtin_aarch64_ld3rdi ((const __builtin_aarch64_simd_di *) __a);
16958   ret.val[0] = (int64x1_t) __builtin_aarch64_get_dregcidi (__o, 0);
16959   ret.val[1] = (int64x1_t) __builtin_aarch64_get_dregcidi (__o, 1);
16960   ret.val[2] = (int64x1_t) __builtin_aarch64_get_dregcidi (__o, 2);
16961   return ret;
16962 }
16963
16964 __extension__ static __inline uint64x1x3_t __attribute__ ((__always_inline__))
16965 vld3_dup_u64 (const uint64_t * __a)
16966 {
16967   uint64x1x3_t ret;
16968   __builtin_aarch64_simd_ci __o;
16969   __o = __builtin_aarch64_ld3rdi ((const __builtin_aarch64_simd_di *) __a);
16970   ret.val[0] = (uint64x1_t) __builtin_aarch64_get_dregcidi (__o, 0);
16971   ret.val[1] = (uint64x1_t) __builtin_aarch64_get_dregcidi (__o, 1);
16972   ret.val[2] = (uint64x1_t) __builtin_aarch64_get_dregcidi (__o, 2);
16973   return ret;
16974 }
16975
16976 __extension__ static __inline float64x1x3_t __attribute__ ((__always_inline__))
16977 vld3_dup_f64 (const float64_t * __a)
16978 {
16979   float64x1x3_t ret;
16980   __builtin_aarch64_simd_ci __o;
16981   __o = __builtin_aarch64_ld3rdf ((const __builtin_aarch64_simd_df *) __a);
16982   ret.val[0] = (float64x1_t) {__builtin_aarch64_get_dregcidf (__o, 0)};
16983   ret.val[1] = (float64x1_t) {__builtin_aarch64_get_dregcidf (__o, 1)};
16984   ret.val[2] = (float64x1_t) {__builtin_aarch64_get_dregcidf (__o, 2)};
16985   return ret;
16986 }
16987
16988 __extension__ static __inline int8x8x3_t __attribute__ ((__always_inline__))
16989 vld3_dup_s8 (const int8_t * __a)
16990 {
16991   int8x8x3_t ret;
16992   __builtin_aarch64_simd_ci __o;
16993   __o = __builtin_aarch64_ld3rv8qi ((const __builtin_aarch64_simd_qi *) __a);
16994   ret.val[0] = (int8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 0);
16995   ret.val[1] = (int8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 1);
16996   ret.val[2] = (int8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 2);
16997   return ret;
16998 }
16999
17000 __extension__ static __inline poly8x8x3_t __attribute__ ((__always_inline__))
17001 vld3_dup_p8 (const poly8_t * __a)
17002 {
17003   poly8x8x3_t ret;
17004   __builtin_aarch64_simd_ci __o;
17005   __o = __builtin_aarch64_ld3rv8qi ((const __builtin_aarch64_simd_qi *) __a);
17006   ret.val[0] = (poly8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 0);
17007   ret.val[1] = (poly8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 1);
17008   ret.val[2] = (poly8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 2);
17009   return ret;
17010 }
17011
17012 __extension__ static __inline int16x4x3_t __attribute__ ((__always_inline__))
17013 vld3_dup_s16 (const int16_t * __a)
17014 {
17015   int16x4x3_t ret;
17016   __builtin_aarch64_simd_ci __o;
17017   __o = __builtin_aarch64_ld3rv4hi ((const __builtin_aarch64_simd_hi *) __a);
17018   ret.val[0] = (int16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 0);
17019   ret.val[1] = (int16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 1);
17020   ret.val[2] = (int16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 2);
17021   return ret;
17022 }
17023
17024 __extension__ static __inline poly16x4x3_t __attribute__ ((__always_inline__))
17025 vld3_dup_p16 (const poly16_t * __a)
17026 {
17027   poly16x4x3_t ret;
17028   __builtin_aarch64_simd_ci __o;
17029   __o = __builtin_aarch64_ld3rv4hi ((const __builtin_aarch64_simd_hi *) __a);
17030   ret.val[0] = (poly16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 0);
17031   ret.val[1] = (poly16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 1);
17032   ret.val[2] = (poly16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 2);
17033   return ret;
17034 }
17035
17036 __extension__ static __inline int32x2x3_t __attribute__ ((__always_inline__))
17037 vld3_dup_s32 (const int32_t * __a)
17038 {
17039   int32x2x3_t ret;
17040   __builtin_aarch64_simd_ci __o;
17041   __o = __builtin_aarch64_ld3rv2si ((const __builtin_aarch64_simd_si *) __a);
17042   ret.val[0] = (int32x2_t) __builtin_aarch64_get_dregciv2si (__o, 0);
17043   ret.val[1] = (int32x2_t) __builtin_aarch64_get_dregciv2si (__o, 1);
17044   ret.val[2] = (int32x2_t) __builtin_aarch64_get_dregciv2si (__o, 2);
17045   return ret;
17046 }
17047
17048 __extension__ static __inline uint8x8x3_t __attribute__ ((__always_inline__))
17049 vld3_dup_u8 (const uint8_t * __a)
17050 {
17051   uint8x8x3_t ret;
17052   __builtin_aarch64_simd_ci __o;
17053   __o = __builtin_aarch64_ld3rv8qi ((const __builtin_aarch64_simd_qi *) __a);
17054   ret.val[0] = (uint8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 0);
17055   ret.val[1] = (uint8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 1);
17056   ret.val[2] = (uint8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 2);
17057   return ret;
17058 }
17059
17060 __extension__ static __inline uint16x4x3_t __attribute__ ((__always_inline__))
17061 vld3_dup_u16 (const uint16_t * __a)
17062 {
17063   uint16x4x3_t ret;
17064   __builtin_aarch64_simd_ci __o;
17065   __o = __builtin_aarch64_ld3rv4hi ((const __builtin_aarch64_simd_hi *) __a);
17066   ret.val[0] = (uint16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 0);
17067   ret.val[1] = (uint16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 1);
17068   ret.val[2] = (uint16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 2);
17069   return ret;
17070 }
17071
17072 __extension__ static __inline uint32x2x3_t __attribute__ ((__always_inline__))
17073 vld3_dup_u32 (const uint32_t * __a)
17074 {
17075   uint32x2x3_t ret;
17076   __builtin_aarch64_simd_ci __o;
17077   __o = __builtin_aarch64_ld3rv2si ((const __builtin_aarch64_simd_si *) __a);
17078   ret.val[0] = (uint32x2_t) __builtin_aarch64_get_dregciv2si (__o, 0);
17079   ret.val[1] = (uint32x2_t) __builtin_aarch64_get_dregciv2si (__o, 1);
17080   ret.val[2] = (uint32x2_t) __builtin_aarch64_get_dregciv2si (__o, 2);
17081   return ret;
17082 }
17083
17084 __extension__ static __inline float32x2x3_t __attribute__ ((__always_inline__))
17085 vld3_dup_f32 (const float32_t * __a)
17086 {
17087   float32x2x3_t ret;
17088   __builtin_aarch64_simd_ci __o;
17089   __o = __builtin_aarch64_ld3rv2sf ((const __builtin_aarch64_simd_sf *) __a);
17090   ret.val[0] = (float32x2_t) __builtin_aarch64_get_dregciv2sf (__o, 0);
17091   ret.val[1] = (float32x2_t) __builtin_aarch64_get_dregciv2sf (__o, 1);
17092   ret.val[2] = (float32x2_t) __builtin_aarch64_get_dregciv2sf (__o, 2);
17093   return ret;
17094 }
17095
17096 __extension__ static __inline int8x16x3_t __attribute__ ((__always_inline__))
17097 vld3q_dup_s8 (const int8_t * __a)
17098 {
17099   int8x16x3_t ret;
17100   __builtin_aarch64_simd_ci __o;
17101   __o = __builtin_aarch64_ld3rv16qi ((const __builtin_aarch64_simd_qi *) __a);
17102   ret.val[0] = (int8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 0);
17103   ret.val[1] = (int8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 1);
17104   ret.val[2] = (int8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 2);
17105   return ret;
17106 }
17107
17108 __extension__ static __inline poly8x16x3_t __attribute__ ((__always_inline__))
17109 vld3q_dup_p8 (const poly8_t * __a)
17110 {
17111   poly8x16x3_t ret;
17112   __builtin_aarch64_simd_ci __o;
17113   __o = __builtin_aarch64_ld3rv16qi ((const __builtin_aarch64_simd_qi *) __a);
17114   ret.val[0] = (poly8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 0);
17115   ret.val[1] = (poly8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 1);
17116   ret.val[2] = (poly8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 2);
17117   return ret;
17118 }
17119
17120 __extension__ static __inline int16x8x3_t __attribute__ ((__always_inline__))
17121 vld3q_dup_s16 (const int16_t * __a)
17122 {
17123   int16x8x3_t ret;
17124   __builtin_aarch64_simd_ci __o;
17125   __o = __builtin_aarch64_ld3rv8hi ((const __builtin_aarch64_simd_hi *) __a);
17126   ret.val[0] = (int16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 0);
17127   ret.val[1] = (int16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 1);
17128   ret.val[2] = (int16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 2);
17129   return ret;
17130 }
17131
17132 __extension__ static __inline poly16x8x3_t __attribute__ ((__always_inline__))
17133 vld3q_dup_p16 (const poly16_t * __a)
17134 {
17135   poly16x8x3_t ret;
17136   __builtin_aarch64_simd_ci __o;
17137   __o = __builtin_aarch64_ld3rv8hi ((const __builtin_aarch64_simd_hi *) __a);
17138   ret.val[0] = (poly16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 0);
17139   ret.val[1] = (poly16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 1);
17140   ret.val[2] = (poly16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 2);
17141   return ret;
17142 }
17143
17144 __extension__ static __inline int32x4x3_t __attribute__ ((__always_inline__))
17145 vld3q_dup_s32 (const int32_t * __a)
17146 {
17147   int32x4x3_t ret;
17148   __builtin_aarch64_simd_ci __o;
17149   __o = __builtin_aarch64_ld3rv4si ((const __builtin_aarch64_simd_si *) __a);
17150   ret.val[0] = (int32x4_t) __builtin_aarch64_get_qregciv4si (__o, 0);
17151   ret.val[1] = (int32x4_t) __builtin_aarch64_get_qregciv4si (__o, 1);
17152   ret.val[2] = (int32x4_t) __builtin_aarch64_get_qregciv4si (__o, 2);
17153   return ret;
17154 }
17155
17156 __extension__ static __inline int64x2x3_t __attribute__ ((__always_inline__))
17157 vld3q_dup_s64 (const int64_t * __a)
17158 {
17159   int64x2x3_t ret;
17160   __builtin_aarch64_simd_ci __o;
17161   __o = __builtin_aarch64_ld3rv2di ((const __builtin_aarch64_simd_di *) __a);
17162   ret.val[0] = (int64x2_t) __builtin_aarch64_get_qregciv2di (__o, 0);
17163   ret.val[1] = (int64x2_t) __builtin_aarch64_get_qregciv2di (__o, 1);
17164   ret.val[2] = (int64x2_t) __builtin_aarch64_get_qregciv2di (__o, 2);
17165   return ret;
17166 }
17167
17168 __extension__ static __inline uint8x16x3_t __attribute__ ((__always_inline__))
17169 vld3q_dup_u8 (const uint8_t * __a)
17170 {
17171   uint8x16x3_t ret;
17172   __builtin_aarch64_simd_ci __o;
17173   __o = __builtin_aarch64_ld3rv16qi ((const __builtin_aarch64_simd_qi *) __a);
17174   ret.val[0] = (uint8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 0);
17175   ret.val[1] = (uint8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 1);
17176   ret.val[2] = (uint8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 2);
17177   return ret;
17178 }
17179
17180 __extension__ static __inline uint16x8x3_t __attribute__ ((__always_inline__))
17181 vld3q_dup_u16 (const uint16_t * __a)
17182 {
17183   uint16x8x3_t ret;
17184   __builtin_aarch64_simd_ci __o;
17185   __o = __builtin_aarch64_ld3rv8hi ((const __builtin_aarch64_simd_hi *) __a);
17186   ret.val[0] = (uint16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 0);
17187   ret.val[1] = (uint16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 1);
17188   ret.val[2] = (uint16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 2);
17189   return ret;
17190 }
17191
17192 __extension__ static __inline uint32x4x3_t __attribute__ ((__always_inline__))
17193 vld3q_dup_u32 (const uint32_t * __a)
17194 {
17195   uint32x4x3_t ret;
17196   __builtin_aarch64_simd_ci __o;
17197   __o = __builtin_aarch64_ld3rv4si ((const __builtin_aarch64_simd_si *) __a);
17198   ret.val[0] = (uint32x4_t) __builtin_aarch64_get_qregciv4si (__o, 0);
17199   ret.val[1] = (uint32x4_t) __builtin_aarch64_get_qregciv4si (__o, 1);
17200   ret.val[2] = (uint32x4_t) __builtin_aarch64_get_qregciv4si (__o, 2);
17201   return ret;
17202 }
17203
17204 __extension__ static __inline uint64x2x3_t __attribute__ ((__always_inline__))
17205 vld3q_dup_u64 (const uint64_t * __a)
17206 {
17207   uint64x2x3_t ret;
17208   __builtin_aarch64_simd_ci __o;
17209   __o = __builtin_aarch64_ld3rv2di ((const __builtin_aarch64_simd_di *) __a);
17210   ret.val[0] = (uint64x2_t) __builtin_aarch64_get_qregciv2di (__o, 0);
17211   ret.val[1] = (uint64x2_t) __builtin_aarch64_get_qregciv2di (__o, 1);
17212   ret.val[2] = (uint64x2_t) __builtin_aarch64_get_qregciv2di (__o, 2);
17213   return ret;
17214 }
17215
17216 __extension__ static __inline float32x4x3_t __attribute__ ((__always_inline__))
17217 vld3q_dup_f32 (const float32_t * __a)
17218 {
17219   float32x4x3_t ret;
17220   __builtin_aarch64_simd_ci __o;
17221   __o = __builtin_aarch64_ld3rv4sf ((const __builtin_aarch64_simd_sf *) __a);
17222   ret.val[0] = (float32x4_t) __builtin_aarch64_get_qregciv4sf (__o, 0);
17223   ret.val[1] = (float32x4_t) __builtin_aarch64_get_qregciv4sf (__o, 1);
17224   ret.val[2] = (float32x4_t) __builtin_aarch64_get_qregciv4sf (__o, 2);
17225   return ret;
17226 }
17227
17228 __extension__ static __inline float64x2x3_t __attribute__ ((__always_inline__))
17229 vld3q_dup_f64 (const float64_t * __a)
17230 {
17231   float64x2x3_t ret;
17232   __builtin_aarch64_simd_ci __o;
17233   __o = __builtin_aarch64_ld3rv2df ((const __builtin_aarch64_simd_df *) __a);
17234   ret.val[0] = (float64x2_t) __builtin_aarch64_get_qregciv2df (__o, 0);
17235   ret.val[1] = (float64x2_t) __builtin_aarch64_get_qregciv2df (__o, 1);
17236   ret.val[2] = (float64x2_t) __builtin_aarch64_get_qregciv2df (__o, 2);
17237   return ret;
17238 }
17239
17240 __extension__ static __inline int64x1x4_t __attribute__ ((__always_inline__))
17241 vld4_dup_s64 (const int64_t * __a)
17242 {
17243   int64x1x4_t ret;
17244   __builtin_aarch64_simd_xi __o;
17245   __o = __builtin_aarch64_ld4rdi ((const __builtin_aarch64_simd_di *) __a);
17246   ret.val[0] = (int64x1_t) __builtin_aarch64_get_dregxidi (__o, 0);
17247   ret.val[1] = (int64x1_t) __builtin_aarch64_get_dregxidi (__o, 1);
17248   ret.val[2] = (int64x1_t) __builtin_aarch64_get_dregxidi (__o, 2);
17249   ret.val[3] = (int64x1_t) __builtin_aarch64_get_dregxidi (__o, 3);
17250   return ret;
17251 }
17252
17253 __extension__ static __inline uint64x1x4_t __attribute__ ((__always_inline__))
17254 vld4_dup_u64 (const uint64_t * __a)
17255 {
17256   uint64x1x4_t ret;
17257   __builtin_aarch64_simd_xi __o;
17258   __o = __builtin_aarch64_ld4rdi ((const __builtin_aarch64_simd_di *) __a);
17259   ret.val[0] = (uint64x1_t) __builtin_aarch64_get_dregxidi (__o, 0);
17260   ret.val[1] = (uint64x1_t) __builtin_aarch64_get_dregxidi (__o, 1);
17261   ret.val[2] = (uint64x1_t) __builtin_aarch64_get_dregxidi (__o, 2);
17262   ret.val[3] = (uint64x1_t) __builtin_aarch64_get_dregxidi (__o, 3);
17263   return ret;
17264 }
17265
17266 __extension__ static __inline float64x1x4_t __attribute__ ((__always_inline__))
17267 vld4_dup_f64 (const float64_t * __a)
17268 {
17269   float64x1x4_t ret;
17270   __builtin_aarch64_simd_xi __o;
17271   __o = __builtin_aarch64_ld4rdf ((const __builtin_aarch64_simd_df *) __a);
17272   ret.val[0] = (float64x1_t) {__builtin_aarch64_get_dregxidf (__o, 0)};
17273   ret.val[1] = (float64x1_t) {__builtin_aarch64_get_dregxidf (__o, 1)};
17274   ret.val[2] = (float64x1_t) {__builtin_aarch64_get_dregxidf (__o, 2)};
17275   ret.val[3] = (float64x1_t) {__builtin_aarch64_get_dregxidf (__o, 3)};
17276   return ret;
17277 }
17278
17279 __extension__ static __inline int8x8x4_t __attribute__ ((__always_inline__))
17280 vld4_dup_s8 (const int8_t * __a)
17281 {
17282   int8x8x4_t ret;
17283   __builtin_aarch64_simd_xi __o;
17284   __o = __builtin_aarch64_ld4rv8qi ((const __builtin_aarch64_simd_qi *) __a);
17285   ret.val[0] = (int8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 0);
17286   ret.val[1] = (int8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 1);
17287   ret.val[2] = (int8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 2);
17288   ret.val[3] = (int8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 3);
17289   return ret;
17290 }
17291
17292 __extension__ static __inline poly8x8x4_t __attribute__ ((__always_inline__))
17293 vld4_dup_p8 (const poly8_t * __a)
17294 {
17295   poly8x8x4_t ret;
17296   __builtin_aarch64_simd_xi __o;
17297   __o = __builtin_aarch64_ld4rv8qi ((const __builtin_aarch64_simd_qi *) __a);
17298   ret.val[0] = (poly8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 0);
17299   ret.val[1] = (poly8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 1);
17300   ret.val[2] = (poly8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 2);
17301   ret.val[3] = (poly8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 3);
17302   return ret;
17303 }
17304
17305 __extension__ static __inline int16x4x4_t __attribute__ ((__always_inline__))
17306 vld4_dup_s16 (const int16_t * __a)
17307 {
17308   int16x4x4_t ret;
17309   __builtin_aarch64_simd_xi __o;
17310   __o = __builtin_aarch64_ld4rv4hi ((const __builtin_aarch64_simd_hi *) __a);
17311   ret.val[0] = (int16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 0);
17312   ret.val[1] = (int16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 1);
17313   ret.val[2] = (int16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 2);
17314   ret.val[3] = (int16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 3);
17315   return ret;
17316 }
17317
17318 __extension__ static __inline poly16x4x4_t __attribute__ ((__always_inline__))
17319 vld4_dup_p16 (const poly16_t * __a)
17320 {
17321   poly16x4x4_t ret;
17322   __builtin_aarch64_simd_xi __o;
17323   __o = __builtin_aarch64_ld4rv4hi ((const __builtin_aarch64_simd_hi *) __a);
17324   ret.val[0] = (poly16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 0);
17325   ret.val[1] = (poly16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 1);
17326   ret.val[2] = (poly16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 2);
17327   ret.val[3] = (poly16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 3);
17328   return ret;
17329 }
17330
17331 __extension__ static __inline int32x2x4_t __attribute__ ((__always_inline__))
17332 vld4_dup_s32 (const int32_t * __a)
17333 {
17334   int32x2x4_t ret;
17335   __builtin_aarch64_simd_xi __o;
17336   __o = __builtin_aarch64_ld4rv2si ((const __builtin_aarch64_simd_si *) __a);
17337   ret.val[0] = (int32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 0);
17338   ret.val[1] = (int32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 1);
17339   ret.val[2] = (int32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 2);
17340   ret.val[3] = (int32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 3);
17341   return ret;
17342 }
17343
17344 __extension__ static __inline uint8x8x4_t __attribute__ ((__always_inline__))
17345 vld4_dup_u8 (const uint8_t * __a)
17346 {
17347   uint8x8x4_t ret;
17348   __builtin_aarch64_simd_xi __o;
17349   __o = __builtin_aarch64_ld4rv8qi ((const __builtin_aarch64_simd_qi *) __a);
17350   ret.val[0] = (uint8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 0);
17351   ret.val[1] = (uint8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 1);
17352   ret.val[2] = (uint8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 2);
17353   ret.val[3] = (uint8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 3);
17354   return ret;
17355 }
17356
17357 __extension__ static __inline uint16x4x4_t __attribute__ ((__always_inline__))
17358 vld4_dup_u16 (const uint16_t * __a)
17359 {
17360   uint16x4x4_t ret;
17361   __builtin_aarch64_simd_xi __o;
17362   __o = __builtin_aarch64_ld4rv4hi ((const __builtin_aarch64_simd_hi *) __a);
17363   ret.val[0] = (uint16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 0);
17364   ret.val[1] = (uint16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 1);
17365   ret.val[2] = (uint16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 2);
17366   ret.val[3] = (uint16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 3);
17367   return ret;
17368 }
17369
17370 __extension__ static __inline uint32x2x4_t __attribute__ ((__always_inline__))
17371 vld4_dup_u32 (const uint32_t * __a)
17372 {
17373   uint32x2x4_t ret;
17374   __builtin_aarch64_simd_xi __o;
17375   __o = __builtin_aarch64_ld4rv2si ((const __builtin_aarch64_simd_si *) __a);
17376   ret.val[0] = (uint32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 0);
17377   ret.val[1] = (uint32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 1);
17378   ret.val[2] = (uint32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 2);
17379   ret.val[3] = (uint32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 3);
17380   return ret;
17381 }
17382
17383 __extension__ static __inline float32x2x4_t __attribute__ ((__always_inline__))
17384 vld4_dup_f32 (const float32_t * __a)
17385 {
17386   float32x2x4_t ret;
17387   __builtin_aarch64_simd_xi __o;
17388   __o = __builtin_aarch64_ld4rv2sf ((const __builtin_aarch64_simd_sf *) __a);
17389   ret.val[0] = (float32x2_t) __builtin_aarch64_get_dregxiv2sf (__o, 0);
17390   ret.val[1] = (float32x2_t) __builtin_aarch64_get_dregxiv2sf (__o, 1);
17391   ret.val[2] = (float32x2_t) __builtin_aarch64_get_dregxiv2sf (__o, 2);
17392   ret.val[3] = (float32x2_t) __builtin_aarch64_get_dregxiv2sf (__o, 3);
17393   return ret;
17394 }
17395
17396 __extension__ static __inline int8x16x4_t __attribute__ ((__always_inline__))
17397 vld4q_dup_s8 (const int8_t * __a)
17398 {
17399   int8x16x4_t ret;
17400   __builtin_aarch64_simd_xi __o;
17401   __o = __builtin_aarch64_ld4rv16qi ((const __builtin_aarch64_simd_qi *) __a);
17402   ret.val[0] = (int8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 0);
17403   ret.val[1] = (int8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 1);
17404   ret.val[2] = (int8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 2);
17405   ret.val[3] = (int8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 3);
17406   return ret;
17407 }
17408
17409 __extension__ static __inline poly8x16x4_t __attribute__ ((__always_inline__))
17410 vld4q_dup_p8 (const poly8_t * __a)
17411 {
17412   poly8x16x4_t ret;
17413   __builtin_aarch64_simd_xi __o;
17414   __o = __builtin_aarch64_ld4rv16qi ((const __builtin_aarch64_simd_qi *) __a);
17415   ret.val[0] = (poly8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 0);
17416   ret.val[1] = (poly8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 1);
17417   ret.val[2] = (poly8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 2);
17418   ret.val[3] = (poly8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 3);
17419   return ret;
17420 }
17421
17422 __extension__ static __inline int16x8x4_t __attribute__ ((__always_inline__))
17423 vld4q_dup_s16 (const int16_t * __a)
17424 {
17425   int16x8x4_t ret;
17426   __builtin_aarch64_simd_xi __o;
17427   __o = __builtin_aarch64_ld4rv8hi ((const __builtin_aarch64_simd_hi *) __a);
17428   ret.val[0] = (int16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 0);
17429   ret.val[1] = (int16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 1);
17430   ret.val[2] = (int16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 2);
17431   ret.val[3] = (int16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 3);
17432   return ret;
17433 }
17434
17435 __extension__ static __inline poly16x8x4_t __attribute__ ((__always_inline__))
17436 vld4q_dup_p16 (const poly16_t * __a)
17437 {
17438   poly16x8x4_t ret;
17439   __builtin_aarch64_simd_xi __o;
17440   __o = __builtin_aarch64_ld4rv8hi ((const __builtin_aarch64_simd_hi *) __a);
17441   ret.val[0] = (poly16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 0);
17442   ret.val[1] = (poly16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 1);
17443   ret.val[2] = (poly16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 2);
17444   ret.val[3] = (poly16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 3);
17445   return ret;
17446 }
17447
17448 __extension__ static __inline int32x4x4_t __attribute__ ((__always_inline__))
17449 vld4q_dup_s32 (const int32_t * __a)
17450 {
17451   int32x4x4_t ret;
17452   __builtin_aarch64_simd_xi __o;
17453   __o = __builtin_aarch64_ld4rv4si ((const __builtin_aarch64_simd_si *) __a);
17454   ret.val[0] = (int32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 0);
17455   ret.val[1] = (int32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 1);
17456   ret.val[2] = (int32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 2);
17457   ret.val[3] = (int32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 3);
17458   return ret;
17459 }
17460
17461 __extension__ static __inline int64x2x4_t __attribute__ ((__always_inline__))
17462 vld4q_dup_s64 (const int64_t * __a)
17463 {
17464   int64x2x4_t ret;
17465   __builtin_aarch64_simd_xi __o;
17466   __o = __builtin_aarch64_ld4rv2di ((const __builtin_aarch64_simd_di *) __a);
17467   ret.val[0] = (int64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 0);
17468   ret.val[1] = (int64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 1);
17469   ret.val[2] = (int64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 2);
17470   ret.val[3] = (int64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 3);
17471   return ret;
17472 }
17473
17474 __extension__ static __inline uint8x16x4_t __attribute__ ((__always_inline__))
17475 vld4q_dup_u8 (const uint8_t * __a)
17476 {
17477   uint8x16x4_t ret;
17478   __builtin_aarch64_simd_xi __o;
17479   __o = __builtin_aarch64_ld4rv16qi ((const __builtin_aarch64_simd_qi *) __a);
17480   ret.val[0] = (uint8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 0);
17481   ret.val[1] = (uint8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 1);
17482   ret.val[2] = (uint8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 2);
17483   ret.val[3] = (uint8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 3);
17484   return ret;
17485 }
17486
17487 __extension__ static __inline uint16x8x4_t __attribute__ ((__always_inline__))
17488 vld4q_dup_u16 (const uint16_t * __a)
17489 {
17490   uint16x8x4_t ret;
17491   __builtin_aarch64_simd_xi __o;
17492   __o = __builtin_aarch64_ld4rv8hi ((const __builtin_aarch64_simd_hi *) __a);
17493   ret.val[0] = (uint16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 0);
17494   ret.val[1] = (uint16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 1);
17495   ret.val[2] = (uint16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 2);
17496   ret.val[3] = (uint16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 3);
17497   return ret;
17498 }
17499
17500 __extension__ static __inline uint32x4x4_t __attribute__ ((__always_inline__))
17501 vld4q_dup_u32 (const uint32_t * __a)
17502 {
17503   uint32x4x4_t ret;
17504   __builtin_aarch64_simd_xi __o;
17505   __o = __builtin_aarch64_ld4rv4si ((const __builtin_aarch64_simd_si *) __a);
17506   ret.val[0] = (uint32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 0);
17507   ret.val[1] = (uint32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 1);
17508   ret.val[2] = (uint32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 2);
17509   ret.val[3] = (uint32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 3);
17510   return ret;
17511 }
17512
17513 __extension__ static __inline uint64x2x4_t __attribute__ ((__always_inline__))
17514 vld4q_dup_u64 (const uint64_t * __a)
17515 {
17516   uint64x2x4_t ret;
17517   __builtin_aarch64_simd_xi __o;
17518   __o = __builtin_aarch64_ld4rv2di ((const __builtin_aarch64_simd_di *) __a);
17519   ret.val[0] = (uint64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 0);
17520   ret.val[1] = (uint64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 1);
17521   ret.val[2] = (uint64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 2);
17522   ret.val[3] = (uint64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 3);
17523   return ret;
17524 }
17525
17526 __extension__ static __inline float32x4x4_t __attribute__ ((__always_inline__))
17527 vld4q_dup_f32 (const float32_t * __a)
17528 {
17529   float32x4x4_t ret;
17530   __builtin_aarch64_simd_xi __o;
17531   __o = __builtin_aarch64_ld4rv4sf ((const __builtin_aarch64_simd_sf *) __a);
17532   ret.val[0] = (float32x4_t) __builtin_aarch64_get_qregxiv4sf (__o, 0);
17533   ret.val[1] = (float32x4_t) __builtin_aarch64_get_qregxiv4sf (__o, 1);
17534   ret.val[2] = (float32x4_t) __builtin_aarch64_get_qregxiv4sf (__o, 2);
17535   ret.val[3] = (float32x4_t) __builtin_aarch64_get_qregxiv4sf (__o, 3);
17536   return ret;
17537 }
17538
17539 __extension__ static __inline float64x2x4_t __attribute__ ((__always_inline__))
17540 vld4q_dup_f64 (const float64_t * __a)
17541 {
17542   float64x2x4_t ret;
17543   __builtin_aarch64_simd_xi __o;
17544   __o = __builtin_aarch64_ld4rv2df ((const __builtin_aarch64_simd_df *) __a);
17545   ret.val[0] = (float64x2_t) __builtin_aarch64_get_qregxiv2df (__o, 0);
17546   ret.val[1] = (float64x2_t) __builtin_aarch64_get_qregxiv2df (__o, 1);
17547   ret.val[2] = (float64x2_t) __builtin_aarch64_get_qregxiv2df (__o, 2);
17548   ret.val[3] = (float64x2_t) __builtin_aarch64_get_qregxiv2df (__o, 3);
17549   return ret;
17550 }
17551
17552 /* vld2_lane */
17553
17554 #define __LD2_LANE_FUNC(intype, vectype, largetype, ptrtype,               \
17555                          mode, ptrmode, funcsuffix, signedtype)            \
17556 __extension__ static __inline intype __attribute__ ((__always_inline__))   \
17557 vld2_lane_##funcsuffix (const ptrtype * __ptr, intype __b, const int __c)  \
17558 {                                                                          \
17559   __builtin_aarch64_simd_oi __o;                                           \
17560   largetype __temp;                                                        \
17561   __temp.val[0] =                                                          \
17562     vcombine_##funcsuffix (__b.val[0], vcreate_##funcsuffix (0));          \
17563   __temp.val[1] =                                                          \
17564     vcombine_##funcsuffix (__b.val[1], vcreate_##funcsuffix (0));          \
17565   __o = __builtin_aarch64_set_qregoi##mode (__o,                           \
17566                                            (signedtype) __temp.val[0],     \
17567                                            0);                             \
17568   __o = __builtin_aarch64_set_qregoi##mode (__o,                           \
17569                                            (signedtype) __temp.val[1],     \
17570                                            1);                             \
17571   __o = __builtin_aarch64_ld2_lane##mode (                                 \
17572           (__builtin_aarch64_simd_##ptrmode *) __ptr, __o, __c);           \
17573   __b.val[0] = (vectype) __builtin_aarch64_get_dregoidi (__o, 0);          \
17574   __b.val[1] = (vectype) __builtin_aarch64_get_dregoidi (__o, 1);          \
17575   return __b;                                                              \
17576 }
17577
17578 __LD2_LANE_FUNC (float32x2x2_t, float32x2_t, float32x4x2_t, float32_t, v4sf,
17579                  sf, f32, float32x4_t)
17580 __LD2_LANE_FUNC (float64x1x2_t, float64x1_t, float64x2x2_t, float64_t, v2df,
17581                  df, f64, float64x2_t)
17582 __LD2_LANE_FUNC (poly8x8x2_t, poly8x8_t, poly8x16x2_t, poly8_t, v16qi, qi, p8,
17583                  int8x16_t)
17584 __LD2_LANE_FUNC (poly16x4x2_t, poly16x4_t, poly16x8x2_t, poly16_t, v8hi, hi,
17585                  p16, int16x8_t)
17586 __LD2_LANE_FUNC (int8x8x2_t, int8x8_t, int8x16x2_t, int8_t, v16qi, qi, s8,
17587                  int8x16_t)
17588 __LD2_LANE_FUNC (int16x4x2_t, int16x4_t, int16x8x2_t, int16_t, v8hi, hi, s16,
17589                  int16x8_t)
17590 __LD2_LANE_FUNC (int32x2x2_t, int32x2_t, int32x4x2_t, int32_t, v4si, si, s32,
17591                  int32x4_t)
17592 __LD2_LANE_FUNC (int64x1x2_t, int64x1_t, int64x2x2_t, int64_t, v2di, di, s64,
17593                  int64x2_t)
17594 __LD2_LANE_FUNC (uint8x8x2_t, uint8x8_t, uint8x16x2_t, uint8_t, v16qi, qi, u8,
17595                  int8x16_t)
17596 __LD2_LANE_FUNC (uint16x4x2_t, uint16x4_t, uint16x8x2_t, uint16_t, v8hi, hi,
17597                  u16, int16x8_t)
17598 __LD2_LANE_FUNC (uint32x2x2_t, uint32x2_t, uint32x4x2_t, uint32_t, v4si, si,
17599                  u32, int32x4_t)
17600 __LD2_LANE_FUNC (uint64x1x2_t, uint64x1_t, uint64x2x2_t, uint64_t, v2di, di,
17601                  u64, int64x2_t)
17602
17603 #undef __LD2_LANE_FUNC
17604
17605 /* vld2q_lane */
17606
17607 #define __LD2_LANE_FUNC(intype, vtype, ptrtype, mode, ptrmode, funcsuffix) \
17608 __extension__ static __inline intype __attribute__ ((__always_inline__))   \
17609 vld2q_lane_##funcsuffix (const ptrtype * __ptr, intype __b, const int __c) \
17610 {                                                                          \
17611   __builtin_aarch64_simd_oi __o;                                           \
17612   intype ret;                                                              \
17613   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) __b.val[0], 0); \
17614   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) __b.val[1], 1); \
17615   __o = __builtin_aarch64_ld2_lane##mode (                                 \
17616         (__builtin_aarch64_simd_##ptrmode *) __ptr, __o, __c);             \
17617   ret.val[0] = (vtype) __builtin_aarch64_get_qregoiv4si (__o, 0);          \
17618   ret.val[1] = (vtype) __builtin_aarch64_get_qregoiv4si (__o, 1);          \
17619   return ret;                                                              \
17620 }
17621
17622 __LD2_LANE_FUNC (float32x4x2_t, float32x4_t, float32_t, v4sf, sf, f32)
17623 __LD2_LANE_FUNC (float64x2x2_t, float64x2_t, float64_t, v2df, df, f64)
17624 __LD2_LANE_FUNC (poly8x16x2_t, poly8x16_t, poly8_t, v16qi, qi, p8)
17625 __LD2_LANE_FUNC (poly16x8x2_t, poly16x8_t, poly16_t, v8hi, hi, p16)
17626 __LD2_LANE_FUNC (int8x16x2_t, int8x16_t, int8_t, v16qi, qi, s8)
17627 __LD2_LANE_FUNC (int16x8x2_t, int16x8_t, int16_t, v8hi, hi, s16)
17628 __LD2_LANE_FUNC (int32x4x2_t, int32x4_t, int32_t, v4si, si, s32)
17629 __LD2_LANE_FUNC (int64x2x2_t, int64x2_t, int64_t, v2di, di, s64)
17630 __LD2_LANE_FUNC (uint8x16x2_t, uint8x16_t, uint8_t, v16qi, qi, u8)
17631 __LD2_LANE_FUNC (uint16x8x2_t, uint16x8_t, uint16_t, v8hi, hi, u16)
17632 __LD2_LANE_FUNC (uint32x4x2_t, uint32x4_t, uint32_t, v4si, si, u32)
17633 __LD2_LANE_FUNC (uint64x2x2_t, uint64x2_t, uint64_t, v2di, di, u64)
17634
17635 #undef __LD2_LANE_FUNC
17636
17637 /* vld3_lane */
17638
17639 #define __LD3_LANE_FUNC(intype, vectype, largetype, ptrtype,               \
17640                          mode, ptrmode, funcsuffix, signedtype)            \
17641 __extension__ static __inline intype __attribute__ ((__always_inline__))   \
17642 vld3_lane_##funcsuffix (const ptrtype * __ptr, intype __b, const int __c)  \
17643 {                                                                          \
17644   __builtin_aarch64_simd_ci __o;                                           \
17645   largetype __temp;                                                        \
17646   __temp.val[0] =                                                          \
17647     vcombine_##funcsuffix (__b.val[0], vcreate_##funcsuffix (0));          \
17648   __temp.val[1] =                                                          \
17649     vcombine_##funcsuffix (__b.val[1], vcreate_##funcsuffix (0));          \
17650   __temp.val[2] =                                                          \
17651     vcombine_##funcsuffix (__b.val[2], vcreate_##funcsuffix (0));          \
17652   __o = __builtin_aarch64_set_qregci##mode (__o,                           \
17653                                            (signedtype) __temp.val[0],     \
17654                                            0);                             \
17655   __o = __builtin_aarch64_set_qregci##mode (__o,                           \
17656                                            (signedtype) __temp.val[1],     \
17657                                            1);                             \
17658   __o = __builtin_aarch64_set_qregci##mode (__o,                           \
17659                                            (signedtype) __temp.val[2],     \
17660                                            2);                             \
17661   __o = __builtin_aarch64_ld3_lane##mode (                                 \
17662           (__builtin_aarch64_simd_##ptrmode *) __ptr, __o, __c);           \
17663   __b.val[0] = (vectype) __builtin_aarch64_get_dregcidi (__o, 0);          \
17664   __b.val[1] = (vectype) __builtin_aarch64_get_dregcidi (__o, 1);          \
17665   __b.val[2] = (vectype) __builtin_aarch64_get_dregcidi (__o, 2);          \
17666   return __b;                                                              \
17667 }
17668
17669 __LD3_LANE_FUNC (float32x2x3_t, float32x2_t, float32x4x3_t, float32_t, v4sf,
17670                  sf, f32, float32x4_t)
17671 __LD3_LANE_FUNC (float64x1x3_t, float64x1_t, float64x2x3_t, float64_t, v2df,
17672                  df, f64, float64x2_t)
17673 __LD3_LANE_FUNC (poly8x8x3_t, poly8x8_t, poly8x16x3_t, poly8_t, v16qi, qi, p8,
17674                  int8x16_t)
17675 __LD3_LANE_FUNC (poly16x4x3_t, poly16x4_t, poly16x8x3_t, poly16_t, v8hi, hi,
17676                  p16, int16x8_t)
17677 __LD3_LANE_FUNC (int8x8x3_t, int8x8_t, int8x16x3_t, int8_t, v16qi, qi, s8,
17678                  int8x16_t)
17679 __LD3_LANE_FUNC (int16x4x3_t, int16x4_t, int16x8x3_t, int16_t, v8hi, hi, s16,
17680                  int16x8_t)
17681 __LD3_LANE_FUNC (int32x2x3_t, int32x2_t, int32x4x3_t, int32_t, v4si, si, s32,
17682                  int32x4_t)
17683 __LD3_LANE_FUNC (int64x1x3_t, int64x1_t, int64x2x3_t, int64_t, v2di, di, s64,
17684                  int64x2_t)
17685 __LD3_LANE_FUNC (uint8x8x3_t, uint8x8_t, uint8x16x3_t, uint8_t, v16qi, qi, u8,
17686                  int8x16_t)
17687 __LD3_LANE_FUNC (uint16x4x3_t, uint16x4_t, uint16x8x3_t, uint16_t, v8hi, hi,
17688                  u16, int16x8_t)
17689 __LD3_LANE_FUNC (uint32x2x3_t, uint32x2_t, uint32x4x3_t, uint32_t, v4si, si,
17690                  u32, int32x4_t)
17691 __LD3_LANE_FUNC (uint64x1x3_t, uint64x1_t, uint64x2x3_t, uint64_t, v2di, di,
17692                  u64, int64x2_t)
17693
17694 #undef __LD3_LANE_FUNC
17695
17696 /* vld3q_lane */
17697
17698 #define __LD3_LANE_FUNC(intype, vtype, ptrtype, mode, ptrmode, funcsuffix) \
17699 __extension__ static __inline intype __attribute__ ((__always_inline__))   \
17700 vld3q_lane_##funcsuffix (const ptrtype * __ptr, intype __b, const int __c) \
17701 {                                                                          \
17702   __builtin_aarch64_simd_ci __o;                                           \
17703   intype ret;                                                              \
17704   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) __b.val[0], 0); \
17705   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) __b.val[1], 1); \
17706   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) __b.val[2], 2); \
17707   __o = __builtin_aarch64_ld3_lane##mode (                                 \
17708         (__builtin_aarch64_simd_##ptrmode *) __ptr, __o, __c);             \
17709   ret.val[0] = (vtype) __builtin_aarch64_get_qregciv4si (__o, 0);          \
17710   ret.val[1] = (vtype) __builtin_aarch64_get_qregciv4si (__o, 1);          \
17711   ret.val[2] = (vtype) __builtin_aarch64_get_qregciv4si (__o, 2);          \
17712   return ret;                                                              \
17713 }
17714
17715 __LD3_LANE_FUNC (float32x4x3_t, float32x4_t, float32_t, v4sf, sf, f32)
17716 __LD3_LANE_FUNC (float64x2x3_t, float64x2_t, float64_t, v2df, df, f64)
17717 __LD3_LANE_FUNC (poly8x16x3_t, poly8x16_t, poly8_t, v16qi, qi, p8)
17718 __LD3_LANE_FUNC (poly16x8x3_t, poly16x8_t, poly16_t, v8hi, hi, p16)
17719 __LD3_LANE_FUNC (int8x16x3_t, int8x16_t, int8_t, v16qi, qi, s8)
17720 __LD3_LANE_FUNC (int16x8x3_t, int16x8_t, int16_t, v8hi, hi, s16)
17721 __LD3_LANE_FUNC (int32x4x3_t, int32x4_t, int32_t, v4si, si, s32)
17722 __LD3_LANE_FUNC (int64x2x3_t, int64x2_t, int64_t, v2di, di, s64)
17723 __LD3_LANE_FUNC (uint8x16x3_t, uint8x16_t, uint8_t, v16qi, qi, u8)
17724 __LD3_LANE_FUNC (uint16x8x3_t, uint16x8_t, uint16_t, v8hi, hi, u16)
17725 __LD3_LANE_FUNC (uint32x4x3_t, uint32x4_t, uint32_t, v4si, si, u32)
17726 __LD3_LANE_FUNC (uint64x2x3_t, uint64x2_t, uint64_t, v2di, di, u64)
17727
17728 #undef __LD3_LANE_FUNC
17729
17730 /* vld4_lane */
17731
17732 #define __LD4_LANE_FUNC(intype, vectype, largetype, ptrtype,               \
17733                          mode, ptrmode, funcsuffix, signedtype)            \
17734 __extension__ static __inline intype __attribute__ ((__always_inline__))   \
17735 vld4_lane_##funcsuffix (const ptrtype * __ptr, intype __b, const int __c)  \
17736 {                                                                          \
17737   __builtin_aarch64_simd_xi __o;                                           \
17738   largetype __temp;                                                        \
17739   __temp.val[0] =                                                          \
17740     vcombine_##funcsuffix (__b.val[0], vcreate_##funcsuffix (0));          \
17741   __temp.val[1] =                                                          \
17742     vcombine_##funcsuffix (__b.val[1], vcreate_##funcsuffix (0));          \
17743   __temp.val[2] =                                                          \
17744     vcombine_##funcsuffix (__b.val[2], vcreate_##funcsuffix (0));          \
17745   __temp.val[3] =                                                          \
17746     vcombine_##funcsuffix (__b.val[3], vcreate_##funcsuffix (0));          \
17747   __o = __builtin_aarch64_set_qregxi##mode (__o,                           \
17748                                            (signedtype) __temp.val[0],     \
17749                                            0);                             \
17750   __o = __builtin_aarch64_set_qregxi##mode (__o,                           \
17751                                            (signedtype) __temp.val[1],     \
17752                                            1);                             \
17753   __o = __builtin_aarch64_set_qregxi##mode (__o,                           \
17754                                            (signedtype) __temp.val[2],     \
17755                                            2);                             \
17756   __o = __builtin_aarch64_set_qregxi##mode (__o,                           \
17757                                            (signedtype) __temp.val[3],     \
17758                                            3);                             \
17759   __o = __builtin_aarch64_ld4_lane##mode (                                 \
17760           (__builtin_aarch64_simd_##ptrmode *) __ptr, __o, __c);           \
17761   __b.val[0] = (vectype) __builtin_aarch64_get_dregxidi (__o, 0);          \
17762   __b.val[1] = (vectype) __builtin_aarch64_get_dregxidi (__o, 1);          \
17763   __b.val[2] = (vectype) __builtin_aarch64_get_dregxidi (__o, 2);          \
17764   __b.val[3] = (vectype) __builtin_aarch64_get_dregxidi (__o, 3);          \
17765   return __b;                                                              \
17766 }
17767
17768 /* vld4q_lane */
17769
17770 __LD4_LANE_FUNC (float32x2x4_t, float32x2_t, float32x4x4_t, float32_t, v4sf,
17771                  sf, f32, float32x4_t)
17772 __LD4_LANE_FUNC (float64x1x4_t, float64x1_t, float64x2x4_t, float64_t, v2df,
17773                  df, f64, float64x2_t)
17774 __LD4_LANE_FUNC (poly8x8x4_t, poly8x8_t, poly8x16x4_t, poly8_t, v16qi, qi, p8,
17775                  int8x16_t)
17776 __LD4_LANE_FUNC (poly16x4x4_t, poly16x4_t, poly16x8x4_t, poly16_t, v8hi, hi,
17777                  p16, int16x8_t)
17778 __LD4_LANE_FUNC (int8x8x4_t, int8x8_t, int8x16x4_t, int8_t, v16qi, qi, s8,
17779                  int8x16_t)
17780 __LD4_LANE_FUNC (int16x4x4_t, int16x4_t, int16x8x4_t, int16_t, v8hi, hi, s16,
17781                  int16x8_t)
17782 __LD4_LANE_FUNC (int32x2x4_t, int32x2_t, int32x4x4_t, int32_t, v4si, si, s32,
17783                  int32x4_t)
17784 __LD4_LANE_FUNC (int64x1x4_t, int64x1_t, int64x2x4_t, int64_t, v2di, di, s64,
17785                  int64x2_t)
17786 __LD4_LANE_FUNC (uint8x8x4_t, uint8x8_t, uint8x16x4_t, uint8_t, v16qi, qi, u8,
17787                  int8x16_t)
17788 __LD4_LANE_FUNC (uint16x4x4_t, uint16x4_t, uint16x8x4_t, uint16_t, v8hi, hi,
17789                  u16, int16x8_t)
17790 __LD4_LANE_FUNC (uint32x2x4_t, uint32x2_t, uint32x4x4_t, uint32_t, v4si, si,
17791                  u32, int32x4_t)
17792 __LD4_LANE_FUNC (uint64x1x4_t, uint64x1_t, uint64x2x4_t, uint64_t, v2di, di,
17793                  u64, int64x2_t)
17794
17795 #undef __LD4_LANE_FUNC
17796
17797 /* vld4q_lane */
17798
17799 #define __LD4_LANE_FUNC(intype, vtype, ptrtype, mode, ptrmode, funcsuffix) \
17800 __extension__ static __inline intype __attribute__ ((__always_inline__))   \
17801 vld4q_lane_##funcsuffix (const ptrtype * __ptr, intype __b, const int __c) \
17802 {                                                                          \
17803   __builtin_aarch64_simd_xi __o;                                           \
17804   intype ret;                                                              \
17805   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) __b.val[0], 0); \
17806   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) __b.val[1], 1); \
17807   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) __b.val[2], 2); \
17808   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) __b.val[3], 3); \
17809   __o = __builtin_aarch64_ld4_lane##mode (                                 \
17810         (__builtin_aarch64_simd_##ptrmode *) __ptr, __o, __c);             \
17811   ret.val[0] = (vtype) __builtin_aarch64_get_qregxiv4si (__o, 0);          \
17812   ret.val[1] = (vtype) __builtin_aarch64_get_qregxiv4si (__o, 1);          \
17813   ret.val[2] = (vtype) __builtin_aarch64_get_qregxiv4si (__o, 2);          \
17814   ret.val[3] = (vtype) __builtin_aarch64_get_qregxiv4si (__o, 3);          \
17815   return ret;                                                              \
17816 }
17817
17818 __LD4_LANE_FUNC (float32x4x4_t, float32x4_t, float32_t, v4sf, sf, f32)
17819 __LD4_LANE_FUNC (float64x2x4_t, float64x2_t, float64_t, v2df, df, f64)
17820 __LD4_LANE_FUNC (poly8x16x4_t, poly8x16_t, poly8_t, v16qi, qi, p8)
17821 __LD4_LANE_FUNC (poly16x8x4_t, poly16x8_t, poly16_t, v8hi, hi, p16)
17822 __LD4_LANE_FUNC (int8x16x4_t, int8x16_t, int8_t, v16qi, qi, s8)
17823 __LD4_LANE_FUNC (int16x8x4_t, int16x8_t, int16_t, v8hi, hi, s16)
17824 __LD4_LANE_FUNC (int32x4x4_t, int32x4_t, int32_t, v4si, si, s32)
17825 __LD4_LANE_FUNC (int64x2x4_t, int64x2_t, int64_t, v2di, di, s64)
17826 __LD4_LANE_FUNC (uint8x16x4_t, uint8x16_t, uint8_t, v16qi, qi, u8)
17827 __LD4_LANE_FUNC (uint16x8x4_t, uint16x8_t, uint16_t, v8hi, hi, u16)
17828 __LD4_LANE_FUNC (uint32x4x4_t, uint32x4_t, uint32_t, v4si, si, u32)
17829 __LD4_LANE_FUNC (uint64x2x4_t, uint64x2_t, uint64_t, v2di, di, u64)
17830
17831 #undef __LD4_LANE_FUNC
17832
17833 /* vmax */
17834
17835 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
17836 vmax_f32 (float32x2_t __a, float32x2_t __b)
17837 {
17838   return __builtin_aarch64_smax_nanv2sf (__a, __b);
17839 }
17840
17841 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
17842 vmax_s8 (int8x8_t __a, int8x8_t __b)
17843 {
17844   return __builtin_aarch64_smaxv8qi (__a, __b);
17845 }
17846
17847 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
17848 vmax_s16 (int16x4_t __a, int16x4_t __b)
17849 {
17850   return __builtin_aarch64_smaxv4hi (__a, __b);
17851 }
17852
17853 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
17854 vmax_s32 (int32x2_t __a, int32x2_t __b)
17855 {
17856   return __builtin_aarch64_smaxv2si (__a, __b);
17857 }
17858
17859 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
17860 vmax_u8 (uint8x8_t __a, uint8x8_t __b)
17861 {
17862   return (uint8x8_t) __builtin_aarch64_umaxv8qi ((int8x8_t) __a,
17863                                                  (int8x8_t) __b);
17864 }
17865
17866 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
17867 vmax_u16 (uint16x4_t __a, uint16x4_t __b)
17868 {
17869   return (uint16x4_t) __builtin_aarch64_umaxv4hi ((int16x4_t) __a,
17870                                                   (int16x4_t) __b);
17871 }
17872
17873 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
17874 vmax_u32 (uint32x2_t __a, uint32x2_t __b)
17875 {
17876   return (uint32x2_t) __builtin_aarch64_umaxv2si ((int32x2_t) __a,
17877                                                   (int32x2_t) __b);
17878 }
17879
17880 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
17881 vmaxq_f32 (float32x4_t __a, float32x4_t __b)
17882 {
17883   return __builtin_aarch64_smax_nanv4sf (__a, __b);
17884 }
17885
17886 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
17887 vmaxq_f64 (float64x2_t __a, float64x2_t __b)
17888 {
17889   return __builtin_aarch64_smax_nanv2df (__a, __b);
17890 }
17891
17892 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
17893 vmaxq_s8 (int8x16_t __a, int8x16_t __b)
17894 {
17895   return __builtin_aarch64_smaxv16qi (__a, __b);
17896 }
17897
17898 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
17899 vmaxq_s16 (int16x8_t __a, int16x8_t __b)
17900 {
17901   return __builtin_aarch64_smaxv8hi (__a, __b);
17902 }
17903
17904 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
17905 vmaxq_s32 (int32x4_t __a, int32x4_t __b)
17906 {
17907   return __builtin_aarch64_smaxv4si (__a, __b);
17908 }
17909
17910 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
17911 vmaxq_u8 (uint8x16_t __a, uint8x16_t __b)
17912 {
17913   return (uint8x16_t) __builtin_aarch64_umaxv16qi ((int8x16_t) __a,
17914                                                    (int8x16_t) __b);
17915 }
17916
17917 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
17918 vmaxq_u16 (uint16x8_t __a, uint16x8_t __b)
17919 {
17920   return (uint16x8_t) __builtin_aarch64_umaxv8hi ((int16x8_t) __a,
17921                                                   (int16x8_t) __b);
17922 }
17923
17924 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
17925 vmaxq_u32 (uint32x4_t __a, uint32x4_t __b)
17926 {
17927   return (uint32x4_t) __builtin_aarch64_umaxv4si ((int32x4_t) __a,
17928                                                   (int32x4_t) __b);
17929 }
17930
17931 /* vmaxnm  */
17932
17933 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
17934 vmaxnm_f32 (float32x2_t __a, float32x2_t __b)
17935 {
17936   return __builtin_aarch64_smaxv2sf (__a, __b);
17937 }
17938
17939 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
17940 vmaxnmq_f32 (float32x4_t __a, float32x4_t __b)
17941 {
17942   return __builtin_aarch64_smaxv4sf (__a, __b);
17943 }
17944
17945 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
17946 vmaxnmq_f64 (float64x2_t __a, float64x2_t __b)
17947 {
17948   return __builtin_aarch64_smaxv2df (__a, __b);
17949 }
17950
17951 /* vmaxv  */
17952
17953 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
17954 vmaxv_f32 (float32x2_t __a)
17955 {
17956   return __builtin_aarch64_reduc_smax_nan_scal_v2sf (__a);
17957 }
17958
17959 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
17960 vmaxv_s8 (int8x8_t __a)
17961 {
17962   return __builtin_aarch64_reduc_smax_scal_v8qi (__a);
17963 }
17964
17965 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
17966 vmaxv_s16 (int16x4_t __a)
17967 {
17968   return __builtin_aarch64_reduc_smax_scal_v4hi (__a);
17969 }
17970
17971 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
17972 vmaxv_s32 (int32x2_t __a)
17973 {
17974   return __builtin_aarch64_reduc_smax_scal_v2si (__a);
17975 }
17976
17977 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
17978 vmaxv_u8 (uint8x8_t __a)
17979 {
17980   return __builtin_aarch64_reduc_umax_scal_v8qi_uu (__a);
17981 }
17982
17983 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
17984 vmaxv_u16 (uint16x4_t __a)
17985 {
17986   return __builtin_aarch64_reduc_umax_scal_v4hi_uu (__a);
17987 }
17988
17989 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
17990 vmaxv_u32 (uint32x2_t __a)
17991 {
17992   return __builtin_aarch64_reduc_umax_scal_v2si_uu (__a);
17993 }
17994
17995 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
17996 vmaxvq_f32 (float32x4_t __a)
17997 {
17998   return __builtin_aarch64_reduc_smax_nan_scal_v4sf (__a);
17999 }
18000
18001 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
18002 vmaxvq_f64 (float64x2_t __a)
18003 {
18004   return __builtin_aarch64_reduc_smax_nan_scal_v2df (__a);
18005 }
18006
18007 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
18008 vmaxvq_s8 (int8x16_t __a)
18009 {
18010   return __builtin_aarch64_reduc_smax_scal_v16qi (__a);
18011 }
18012
18013 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
18014 vmaxvq_s16 (int16x8_t __a)
18015 {
18016   return __builtin_aarch64_reduc_smax_scal_v8hi (__a);
18017 }
18018
18019 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
18020 vmaxvq_s32 (int32x4_t __a)
18021 {
18022   return __builtin_aarch64_reduc_smax_scal_v4si (__a);
18023 }
18024
18025 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
18026 vmaxvq_u8 (uint8x16_t __a)
18027 {
18028   return __builtin_aarch64_reduc_umax_scal_v16qi_uu (__a);
18029 }
18030
18031 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
18032 vmaxvq_u16 (uint16x8_t __a)
18033 {
18034   return __builtin_aarch64_reduc_umax_scal_v8hi_uu (__a);
18035 }
18036
18037 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
18038 vmaxvq_u32 (uint32x4_t __a)
18039 {
18040   return __builtin_aarch64_reduc_umax_scal_v4si_uu (__a);
18041 }
18042
18043 /* vmaxnmv  */
18044
18045 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
18046 vmaxnmv_f32 (float32x2_t __a)
18047 {
18048   return __builtin_aarch64_reduc_smax_scal_v2sf (__a);
18049 }
18050
18051 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
18052 vmaxnmvq_f32 (float32x4_t __a)
18053 {
18054   return __builtin_aarch64_reduc_smax_scal_v4sf (__a);
18055 }
18056
18057 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
18058 vmaxnmvq_f64 (float64x2_t __a)
18059 {
18060   return __builtin_aarch64_reduc_smax_scal_v2df (__a);
18061 }
18062
18063 /* vmin  */
18064
18065 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18066 vmin_f32 (float32x2_t __a, float32x2_t __b)
18067 {
18068   return __builtin_aarch64_smin_nanv2sf (__a, __b);
18069 }
18070
18071 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
18072 vmin_s8 (int8x8_t __a, int8x8_t __b)
18073 {
18074   return __builtin_aarch64_sminv8qi (__a, __b);
18075 }
18076
18077 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
18078 vmin_s16 (int16x4_t __a, int16x4_t __b)
18079 {
18080   return __builtin_aarch64_sminv4hi (__a, __b);
18081 }
18082
18083 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
18084 vmin_s32 (int32x2_t __a, int32x2_t __b)
18085 {
18086   return __builtin_aarch64_sminv2si (__a, __b);
18087 }
18088
18089 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
18090 vmin_u8 (uint8x8_t __a, uint8x8_t __b)
18091 {
18092   return (uint8x8_t) __builtin_aarch64_uminv8qi ((int8x8_t) __a,
18093                                                  (int8x8_t) __b);
18094 }
18095
18096 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
18097 vmin_u16 (uint16x4_t __a, uint16x4_t __b)
18098 {
18099   return (uint16x4_t) __builtin_aarch64_uminv4hi ((int16x4_t) __a,
18100                                                   (int16x4_t) __b);
18101 }
18102
18103 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18104 vmin_u32 (uint32x2_t __a, uint32x2_t __b)
18105 {
18106   return (uint32x2_t) __builtin_aarch64_uminv2si ((int32x2_t) __a,
18107                                                   (int32x2_t) __b);
18108 }
18109
18110 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18111 vminq_f32 (float32x4_t __a, float32x4_t __b)
18112 {
18113   return __builtin_aarch64_smin_nanv4sf (__a, __b);
18114 }
18115
18116 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
18117 vminq_f64 (float64x2_t __a, float64x2_t __b)
18118 {
18119   return __builtin_aarch64_smin_nanv2df (__a, __b);
18120 }
18121
18122 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
18123 vminq_s8 (int8x16_t __a, int8x16_t __b)
18124 {
18125   return __builtin_aarch64_sminv16qi (__a, __b);
18126 }
18127
18128 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
18129 vminq_s16 (int16x8_t __a, int16x8_t __b)
18130 {
18131   return __builtin_aarch64_sminv8hi (__a, __b);
18132 }
18133
18134 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
18135 vminq_s32 (int32x4_t __a, int32x4_t __b)
18136 {
18137   return __builtin_aarch64_sminv4si (__a, __b);
18138 }
18139
18140 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
18141 vminq_u8 (uint8x16_t __a, uint8x16_t __b)
18142 {
18143   return (uint8x16_t) __builtin_aarch64_uminv16qi ((int8x16_t) __a,
18144                                                    (int8x16_t) __b);
18145 }
18146
18147 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
18148 vminq_u16 (uint16x8_t __a, uint16x8_t __b)
18149 {
18150   return (uint16x8_t) __builtin_aarch64_uminv8hi ((int16x8_t) __a,
18151                                                   (int16x8_t) __b);
18152 }
18153
18154 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18155 vminq_u32 (uint32x4_t __a, uint32x4_t __b)
18156 {
18157   return (uint32x4_t) __builtin_aarch64_uminv4si ((int32x4_t) __a,
18158                                                   (int32x4_t) __b);
18159 }
18160
18161 /* vminnm  */
18162
18163 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18164 vminnm_f32 (float32x2_t __a, float32x2_t __b)
18165 {
18166   return __builtin_aarch64_sminv2sf (__a, __b);
18167 }
18168
18169 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18170 vminnmq_f32 (float32x4_t __a, float32x4_t __b)
18171 {
18172   return __builtin_aarch64_sminv4sf (__a, __b);
18173 }
18174
18175 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
18176 vminnmq_f64 (float64x2_t __a, float64x2_t __b)
18177 {
18178   return __builtin_aarch64_sminv2df (__a, __b);
18179 }
18180
18181 /* vminv  */
18182
18183 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
18184 vminv_f32 (float32x2_t __a)
18185 {
18186   return __builtin_aarch64_reduc_smin_nan_scal_v2sf (__a);
18187 }
18188
18189 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
18190 vminv_s8 (int8x8_t __a)
18191 {
18192   return __builtin_aarch64_reduc_smin_scal_v8qi (__a);
18193 }
18194
18195 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
18196 vminv_s16 (int16x4_t __a)
18197 {
18198   return __builtin_aarch64_reduc_smin_scal_v4hi (__a);
18199 }
18200
18201 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
18202 vminv_s32 (int32x2_t __a)
18203 {
18204   return __builtin_aarch64_reduc_smin_scal_v2si (__a);
18205 }
18206
18207 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
18208 vminv_u8 (uint8x8_t __a)
18209 {
18210   return __builtin_aarch64_reduc_umin_scal_v8qi_uu (__a);
18211 }
18212
18213 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
18214 vminv_u16 (uint16x4_t __a)
18215 {
18216   return __builtin_aarch64_reduc_umin_scal_v4hi_uu (__a);
18217 }
18218
18219 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
18220 vminv_u32 (uint32x2_t __a)
18221 {
18222   return __builtin_aarch64_reduc_umin_scal_v2si_uu (__a);
18223 }
18224
18225 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
18226 vminvq_f32 (float32x4_t __a)
18227 {
18228   return __builtin_aarch64_reduc_smin_nan_scal_v4sf (__a);
18229 }
18230
18231 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
18232 vminvq_f64 (float64x2_t __a)
18233 {
18234   return __builtin_aarch64_reduc_smin_nan_scal_v2df (__a);
18235 }
18236
18237 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
18238 vminvq_s8 (int8x16_t __a)
18239 {
18240   return __builtin_aarch64_reduc_smin_scal_v16qi (__a);
18241 }
18242
18243 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
18244 vminvq_s16 (int16x8_t __a)
18245 {
18246   return __builtin_aarch64_reduc_smin_scal_v8hi (__a);
18247 }
18248
18249 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
18250 vminvq_s32 (int32x4_t __a)
18251 {
18252   return __builtin_aarch64_reduc_smin_scal_v4si (__a);
18253 }
18254
18255 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
18256 vminvq_u8 (uint8x16_t __a)
18257 {
18258   return __builtin_aarch64_reduc_umin_scal_v16qi_uu (__a);
18259 }
18260
18261 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
18262 vminvq_u16 (uint16x8_t __a)
18263 {
18264   return __builtin_aarch64_reduc_umin_scal_v8hi_uu (__a);
18265 }
18266
18267 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
18268 vminvq_u32 (uint32x4_t __a)
18269 {
18270   return __builtin_aarch64_reduc_umin_scal_v4si_uu (__a);
18271 }
18272
18273 /* vminnmv  */
18274
18275 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
18276 vminnmv_f32 (float32x2_t __a)
18277 {
18278   return __builtin_aarch64_reduc_smin_scal_v2sf (__a);
18279 }
18280
18281 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
18282 vminnmvq_f32 (float32x4_t __a)
18283 {
18284   return __builtin_aarch64_reduc_smin_scal_v4sf (__a);
18285 }
18286
18287 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
18288 vminnmvq_f64 (float64x2_t __a)
18289 {
18290   return __builtin_aarch64_reduc_smin_scal_v2df (__a);
18291 }
18292
18293 /* vmla */
18294
18295 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18296 vmla_f32 (float32x2_t a, float32x2_t b, float32x2_t c)
18297 {
18298   return a + b * c;
18299 }
18300
18301 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
18302 vmla_f64 (float64x1_t __a, float64x1_t __b, float64x1_t __c)
18303 {
18304   return __a + __b * __c;
18305 }
18306
18307 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18308 vmlaq_f32 (float32x4_t a, float32x4_t b, float32x4_t c)
18309 {
18310   return a + b * c;
18311 }
18312
18313 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
18314 vmlaq_f64 (float64x2_t a, float64x2_t b, float64x2_t c)
18315 {
18316   return a + b * c;
18317 }
18318
18319 /* vmla_lane  */
18320
18321 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18322 vmla_lane_f32 (float32x2_t __a, float32x2_t __b,
18323                float32x2_t __c, const int __lane)
18324 {
18325   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18326 }
18327
18328 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
18329 vmla_lane_s16 (int16x4_t __a, int16x4_t __b,
18330                 int16x4_t __c, const int __lane)
18331 {
18332   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18333 }
18334
18335 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
18336 vmla_lane_s32 (int32x2_t __a, int32x2_t __b,
18337                 int32x2_t __c, const int __lane)
18338 {
18339   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18340 }
18341
18342 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
18343 vmla_lane_u16 (uint16x4_t __a, uint16x4_t __b,
18344                 uint16x4_t __c, const int __lane)
18345 {
18346   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18347 }
18348
18349 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18350 vmla_lane_u32 (uint32x2_t __a, uint32x2_t __b,
18351                uint32x2_t __c, const int __lane)
18352 {
18353   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18354 }
18355
18356 /* vmla_laneq  */
18357
18358 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18359 vmla_laneq_f32 (float32x2_t __a, float32x2_t __b,
18360                 float32x4_t __c, const int __lane)
18361 {
18362   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18363 }
18364
18365 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
18366 vmla_laneq_s16 (int16x4_t __a, int16x4_t __b,
18367                 int16x8_t __c, const int __lane)
18368 {
18369   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18370 }
18371
18372 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
18373 vmla_laneq_s32 (int32x2_t __a, int32x2_t __b,
18374                 int32x4_t __c, const int __lane)
18375 {
18376   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18377 }
18378
18379 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
18380 vmla_laneq_u16 (uint16x4_t __a, uint16x4_t __b,
18381                 uint16x8_t __c, const int __lane)
18382 {
18383   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18384 }
18385
18386 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18387 vmla_laneq_u32 (uint32x2_t __a, uint32x2_t __b,
18388                 uint32x4_t __c, const int __lane)
18389 {
18390   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18391 }
18392
18393 /* vmlaq_lane  */
18394
18395 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18396 vmlaq_lane_f32 (float32x4_t __a, float32x4_t __b,
18397                 float32x2_t __c, const int __lane)
18398 {
18399   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18400 }
18401
18402 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
18403 vmlaq_lane_s16 (int16x8_t __a, int16x8_t __b,
18404                 int16x4_t __c, const int __lane)
18405 {
18406   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18407 }
18408
18409 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
18410 vmlaq_lane_s32 (int32x4_t __a, int32x4_t __b,
18411                 int32x2_t __c, const int __lane)
18412 {
18413   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18414 }
18415
18416 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
18417 vmlaq_lane_u16 (uint16x8_t __a, uint16x8_t __b,
18418                 uint16x4_t __c, const int __lane)
18419 {
18420   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18421 }
18422
18423 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18424 vmlaq_lane_u32 (uint32x4_t __a, uint32x4_t __b,
18425                 uint32x2_t __c, const int __lane)
18426 {
18427   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18428 }
18429
18430   /* vmlaq_laneq  */
18431
18432 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18433 vmlaq_laneq_f32 (float32x4_t __a, float32x4_t __b,
18434                  float32x4_t __c, const int __lane)
18435 {
18436   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18437 }
18438
18439 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
18440 vmlaq_laneq_s16 (int16x8_t __a, int16x8_t __b,
18441                 int16x8_t __c, const int __lane)
18442 {
18443   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18444 }
18445
18446 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
18447 vmlaq_laneq_s32 (int32x4_t __a, int32x4_t __b,
18448                 int32x4_t __c, const int __lane)
18449 {
18450   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18451 }
18452
18453 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
18454 vmlaq_laneq_u16 (uint16x8_t __a, uint16x8_t __b,
18455                 uint16x8_t __c, const int __lane)
18456 {
18457   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18458 }
18459
18460 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18461 vmlaq_laneq_u32 (uint32x4_t __a, uint32x4_t __b,
18462                 uint32x4_t __c, const int __lane)
18463 {
18464   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18465 }
18466
18467 /* vmls  */
18468
18469 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18470 vmls_f32 (float32x2_t a, float32x2_t b, float32x2_t c)
18471 {
18472   return a - b * c;
18473 }
18474
18475 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
18476 vmls_f64 (float64x1_t __a, float64x1_t __b, float64x1_t __c)
18477 {
18478   return __a - __b * __c;
18479 }
18480
18481 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18482 vmlsq_f32 (float32x4_t a, float32x4_t b, float32x4_t c)
18483 {
18484   return a - b * c;
18485 }
18486
18487 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
18488 vmlsq_f64 (float64x2_t a, float64x2_t b, float64x2_t c)
18489 {
18490   return a - b * c;
18491 }
18492
18493 /* vmls_lane  */
18494
18495 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18496 vmls_lane_f32 (float32x2_t __a, float32x2_t __b,
18497                float32x2_t __c, const int __lane)
18498 {
18499   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18500 }
18501
18502 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
18503 vmls_lane_s16 (int16x4_t __a, int16x4_t __b,
18504                 int16x4_t __c, const int __lane)
18505 {
18506   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18507 }
18508
18509 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
18510 vmls_lane_s32 (int32x2_t __a, int32x2_t __b,
18511                 int32x2_t __c, const int __lane)
18512 {
18513   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18514 }
18515
18516 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
18517 vmls_lane_u16 (uint16x4_t __a, uint16x4_t __b,
18518                 uint16x4_t __c, const int __lane)
18519 {
18520   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18521 }
18522
18523 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18524 vmls_lane_u32 (uint32x2_t __a, uint32x2_t __b,
18525                uint32x2_t __c, const int __lane)
18526 {
18527   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18528 }
18529
18530 /* vmls_laneq  */
18531
18532 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18533 vmls_laneq_f32 (float32x2_t __a, float32x2_t __b,
18534                float32x4_t __c, const int __lane)
18535 {
18536   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18537 }
18538
18539 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
18540 vmls_laneq_s16 (int16x4_t __a, int16x4_t __b,
18541                 int16x8_t __c, const int __lane)
18542 {
18543   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18544 }
18545
18546 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
18547 vmls_laneq_s32 (int32x2_t __a, int32x2_t __b,
18548                 int32x4_t __c, const int __lane)
18549 {
18550   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18551 }
18552
18553 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
18554 vmls_laneq_u16 (uint16x4_t __a, uint16x4_t __b,
18555                 uint16x8_t __c, const int __lane)
18556 {
18557   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18558 }
18559
18560 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18561 vmls_laneq_u32 (uint32x2_t __a, uint32x2_t __b,
18562                 uint32x4_t __c, const int __lane)
18563 {
18564   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18565 }
18566
18567 /* vmlsq_lane  */
18568
18569 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18570 vmlsq_lane_f32 (float32x4_t __a, float32x4_t __b,
18571                 float32x2_t __c, const int __lane)
18572 {
18573   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18574 }
18575
18576 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
18577 vmlsq_lane_s16 (int16x8_t __a, int16x8_t __b,
18578                 int16x4_t __c, const int __lane)
18579 {
18580   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18581 }
18582
18583 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
18584 vmlsq_lane_s32 (int32x4_t __a, int32x4_t __b,
18585                 int32x2_t __c, const int __lane)
18586 {
18587   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18588 }
18589
18590 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
18591 vmlsq_lane_u16 (uint16x8_t __a, uint16x8_t __b,
18592                 uint16x4_t __c, const int __lane)
18593 {
18594   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18595 }
18596
18597 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18598 vmlsq_lane_u32 (uint32x4_t __a, uint32x4_t __b,
18599                 uint32x2_t __c, const int __lane)
18600 {
18601   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18602 }
18603
18604   /* vmlsq_laneq  */
18605
18606 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18607 vmlsq_laneq_f32 (float32x4_t __a, float32x4_t __b,
18608                 float32x4_t __c, const int __lane)
18609 {
18610   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18611 }
18612
18613 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
18614 vmlsq_laneq_s16 (int16x8_t __a, int16x8_t __b,
18615                 int16x8_t __c, const int __lane)
18616 {
18617   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18618 }
18619
18620 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
18621 vmlsq_laneq_s32 (int32x4_t __a, int32x4_t __b,
18622                 int32x4_t __c, const int __lane)
18623 {
18624   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18625 }
18626 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
18627 vmlsq_laneq_u16 (uint16x8_t __a, uint16x8_t __b,
18628                 uint16x8_t __c, const int __lane)
18629 {
18630   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18631 }
18632
18633 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18634 vmlsq_laneq_u32 (uint32x4_t __a, uint32x4_t __b,
18635                 uint32x4_t __c, const int __lane)
18636 {
18637   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18638 }
18639
18640 /* vmov_n_  */
18641
18642 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18643 vmov_n_f32 (float32_t __a)
18644 {
18645   return vdup_n_f32 (__a);
18646 }
18647
18648 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
18649 vmov_n_f64 (float64_t __a)
18650 {
18651   return (float64x1_t) {__a};
18652 }
18653
18654 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
18655 vmov_n_p8 (poly8_t __a)
18656 {
18657   return vdup_n_p8 (__a);
18658 }
18659
18660 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
18661 vmov_n_p16 (poly16_t __a)
18662 {
18663   return vdup_n_p16 (__a);
18664 }
18665
18666 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
18667 vmov_n_s8 (int8_t __a)
18668 {
18669   return vdup_n_s8 (__a);
18670 }
18671
18672 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
18673 vmov_n_s16 (int16_t __a)
18674 {
18675   return vdup_n_s16 (__a);
18676 }
18677
18678 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
18679 vmov_n_s32 (int32_t __a)
18680 {
18681   return vdup_n_s32 (__a);
18682 }
18683
18684 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
18685 vmov_n_s64 (int64_t __a)
18686 {
18687   return (int64x1_t) {__a};
18688 }
18689
18690 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
18691 vmov_n_u8 (uint8_t __a)
18692 {
18693   return vdup_n_u8 (__a);
18694 }
18695
18696 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
18697 vmov_n_u16 (uint16_t __a)
18698 {
18699     return vdup_n_u16 (__a);
18700 }
18701
18702 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18703 vmov_n_u32 (uint32_t __a)
18704 {
18705    return vdup_n_u32 (__a);
18706 }
18707
18708 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
18709 vmov_n_u64 (uint64_t __a)
18710 {
18711   return (uint64x1_t) {__a};
18712 }
18713
18714 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18715 vmovq_n_f32 (float32_t __a)
18716 {
18717   return vdupq_n_f32 (__a);
18718 }
18719
18720 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
18721 vmovq_n_f64 (float64_t __a)
18722 {
18723   return vdupq_n_f64 (__a);
18724 }
18725
18726 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
18727 vmovq_n_p8 (poly8_t __a)
18728 {
18729   return vdupq_n_p8 (__a);
18730 }
18731
18732 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
18733 vmovq_n_p16 (poly16_t __a)
18734 {
18735   return vdupq_n_p16 (__a);
18736 }
18737
18738 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
18739 vmovq_n_s8 (int8_t __a)
18740 {
18741   return vdupq_n_s8 (__a);
18742 }
18743
18744 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
18745 vmovq_n_s16 (int16_t __a)
18746 {
18747   return vdupq_n_s16 (__a);
18748 }
18749
18750 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
18751 vmovq_n_s32 (int32_t __a)
18752 {
18753   return vdupq_n_s32 (__a);
18754 }
18755
18756 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
18757 vmovq_n_s64 (int64_t __a)
18758 {
18759   return vdupq_n_s64 (__a);
18760 }
18761
18762 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
18763 vmovq_n_u8 (uint8_t __a)
18764 {
18765   return vdupq_n_u8 (__a);
18766 }
18767
18768 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
18769 vmovq_n_u16 (uint16_t __a)
18770 {
18771   return vdupq_n_u16 (__a);
18772 }
18773
18774 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18775 vmovq_n_u32 (uint32_t __a)
18776 {
18777   return vdupq_n_u32 (__a);
18778 }
18779
18780 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
18781 vmovq_n_u64 (uint64_t __a)
18782 {
18783   return vdupq_n_u64 (__a);
18784 }
18785
18786 /* vmul_lane  */
18787
18788 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18789 vmul_lane_f32 (float32x2_t __a, float32x2_t __b, const int __lane)
18790 {
18791   return __a * __aarch64_vget_lane_any (__b, __lane);
18792 }
18793
18794 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
18795 vmul_lane_f64 (float64x1_t __a, float64x1_t __b, const int __lane)
18796 {
18797   return __a * __b;
18798 }
18799
18800 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
18801 vmul_lane_s16 (int16x4_t __a, int16x4_t __b, const int __lane)
18802 {
18803   return __a * __aarch64_vget_lane_any (__b, __lane);
18804 }
18805
18806 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
18807 vmul_lane_s32 (int32x2_t __a, int32x2_t __b, const int __lane)
18808 {
18809   return __a * __aarch64_vget_lane_any (__b, __lane);
18810 }
18811
18812 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
18813 vmul_lane_u16 (uint16x4_t __a, uint16x4_t __b, const int __lane)
18814 {
18815   return __a * __aarch64_vget_lane_any (__b, __lane);
18816 }
18817
18818 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18819 vmul_lane_u32 (uint32x2_t __a, uint32x2_t __b, const int __lane)
18820 {
18821   return __a * __aarch64_vget_lane_any (__b, __lane);
18822 }
18823
18824 /* vmuld_lane  */
18825
18826 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
18827 vmuld_lane_f64 (float64_t __a, float64x1_t __b, const int __lane)
18828 {
18829   return __a * __aarch64_vget_lane_any (__b, __lane);
18830 }
18831
18832 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
18833 vmuld_laneq_f64 (float64_t __a, float64x2_t __b, const int __lane)
18834 {
18835   return __a * __aarch64_vget_lane_any (__b, __lane);
18836 }
18837
18838 /* vmuls_lane  */
18839
18840 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
18841 vmuls_lane_f32 (float32_t __a, float32x2_t __b, const int __lane)
18842 {
18843   return __a * __aarch64_vget_lane_any (__b, __lane);
18844 }
18845
18846 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
18847 vmuls_laneq_f32 (float32_t __a, float32x4_t __b, const int __lane)
18848 {
18849   return __a * __aarch64_vget_lane_any (__b, __lane);
18850 }
18851
18852 /* vmul_laneq  */
18853
18854 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18855 vmul_laneq_f32 (float32x2_t __a, float32x4_t __b, const int __lane)
18856 {
18857   return __a * __aarch64_vget_lane_any (__b, __lane);
18858 }
18859
18860 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
18861 vmul_laneq_f64 (float64x1_t __a, float64x2_t __b, const int __lane)
18862 {
18863   return __a * __aarch64_vget_lane_any (__b, __lane);
18864 }
18865
18866 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
18867 vmul_laneq_s16 (int16x4_t __a, int16x8_t __b, const int __lane)
18868 {
18869   return __a * __aarch64_vget_lane_any (__b, __lane);
18870 }
18871
18872 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
18873 vmul_laneq_s32 (int32x2_t __a, int32x4_t __b, const int __lane)
18874 {
18875   return __a * __aarch64_vget_lane_any (__b, __lane);
18876 }
18877
18878 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
18879 vmul_laneq_u16 (uint16x4_t __a, uint16x8_t __b, const int __lane)
18880 {
18881   return __a * __aarch64_vget_lane_any (__b, __lane);
18882 }
18883
18884 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18885 vmul_laneq_u32 (uint32x2_t __a, uint32x4_t __b, const int __lane)
18886 {
18887   return __a * __aarch64_vget_lane_any (__b, __lane);
18888 }
18889
18890 /* vmul_n  */
18891
18892 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
18893 vmul_n_f64  (float64x1_t __a, float64_t __b)
18894 {
18895   return (float64x1_t) { vget_lane_f64 (__a, 0) * __b };
18896 }
18897
18898 /* vmulq_lane  */
18899
18900 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18901 vmulq_lane_f32 (float32x4_t __a, float32x2_t __b, const int __lane)
18902 {
18903   return __a * __aarch64_vget_lane_any (__b, __lane);
18904 }
18905
18906 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
18907 vmulq_lane_f64 (float64x2_t __a, float64x1_t __b, const int __lane)
18908 {
18909   __AARCH64_LANE_CHECK (__a, __lane);
18910   return __a * __b[0];
18911 }
18912
18913 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
18914 vmulq_lane_s16 (int16x8_t __a, int16x4_t __b, const int __lane)
18915 {
18916   return __a * __aarch64_vget_lane_any (__b, __lane);
18917 }
18918
18919 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
18920 vmulq_lane_s32 (int32x4_t __a, int32x2_t __b, const int __lane)
18921 {
18922   return __a * __aarch64_vget_lane_any (__b, __lane);
18923 }
18924
18925 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
18926 vmulq_lane_u16 (uint16x8_t __a, uint16x4_t __b, const int __lane)
18927 {
18928   return __a * __aarch64_vget_lane_any (__b, __lane);
18929 }
18930
18931 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18932 vmulq_lane_u32 (uint32x4_t __a, uint32x2_t __b, const int __lane)
18933 {
18934   return __a * __aarch64_vget_lane_any (__b, __lane);
18935 }
18936
18937 /* vmulq_laneq  */
18938
18939 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18940 vmulq_laneq_f32 (float32x4_t __a, float32x4_t __b, const int __lane)
18941 {
18942   return __a * __aarch64_vget_lane_any (__b, __lane);
18943 }
18944
18945 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
18946 vmulq_laneq_f64 (float64x2_t __a, float64x2_t __b, const int __lane)
18947 {
18948   return __a * __aarch64_vget_lane_any (__b, __lane);
18949 }
18950
18951 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
18952 vmulq_laneq_s16 (int16x8_t __a, int16x8_t __b, const int __lane)
18953 {
18954   return __a * __aarch64_vget_lane_any (__b, __lane);
18955 }
18956
18957 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
18958 vmulq_laneq_s32 (int32x4_t __a, int32x4_t __b, const int __lane)
18959 {
18960   return __a * __aarch64_vget_lane_any (__b, __lane);
18961 }
18962
18963 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
18964 vmulq_laneq_u16 (uint16x8_t __a, uint16x8_t __b, const int __lane)
18965 {
18966   return __a * __aarch64_vget_lane_any (__b, __lane);
18967 }
18968
18969 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18970 vmulq_laneq_u32 (uint32x4_t __a, uint32x4_t __b, const int __lane)
18971 {
18972   return __a * __aarch64_vget_lane_any (__b, __lane);
18973 }
18974
18975 /* vneg  */
18976
18977 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18978 vneg_f32 (float32x2_t __a)
18979 {
18980   return -__a;
18981 }
18982
18983 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
18984 vneg_f64 (float64x1_t __a)
18985 {
18986   return -__a;
18987 }
18988
18989 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
18990 vneg_s8 (int8x8_t __a)
18991 {
18992   return -__a;
18993 }
18994
18995 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
18996 vneg_s16 (int16x4_t __a)
18997 {
18998   return -__a;
18999 }
19000
19001 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
19002 vneg_s32 (int32x2_t __a)
19003 {
19004   return -__a;
19005 }
19006
19007 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
19008 vneg_s64 (int64x1_t __a)
19009 {
19010   return -__a;
19011 }
19012
19013 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
19014 vnegq_f32 (float32x4_t __a)
19015 {
19016   return -__a;
19017 }
19018
19019 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
19020 vnegq_f64 (float64x2_t __a)
19021 {
19022   return -__a;
19023 }
19024
19025 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
19026 vnegq_s8 (int8x16_t __a)
19027 {
19028   return -__a;
19029 }
19030
19031 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
19032 vnegq_s16 (int16x8_t __a)
19033 {
19034   return -__a;
19035 }
19036
19037 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19038 vnegq_s32 (int32x4_t __a)
19039 {
19040   return -__a;
19041 }
19042
19043 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19044 vnegq_s64 (int64x2_t __a)
19045 {
19046   return -__a;
19047 }
19048
19049 /* vpadd  */
19050
19051 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
19052 vpadd_s8 (int8x8_t __a, int8x8_t __b)
19053 {
19054   return __builtin_aarch64_addpv8qi (__a, __b);
19055 }
19056
19057 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
19058 vpadd_s16 (int16x4_t __a, int16x4_t __b)
19059 {
19060   return __builtin_aarch64_addpv4hi (__a, __b);
19061 }
19062
19063 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
19064 vpadd_s32 (int32x2_t __a, int32x2_t __b)
19065 {
19066   return __builtin_aarch64_addpv2si (__a, __b);
19067 }
19068
19069 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
19070 vpadd_u8 (uint8x8_t __a, uint8x8_t __b)
19071 {
19072   return (uint8x8_t) __builtin_aarch64_addpv8qi ((int8x8_t) __a,
19073                                                  (int8x8_t) __b);
19074 }
19075
19076 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
19077 vpadd_u16 (uint16x4_t __a, uint16x4_t __b)
19078 {
19079   return (uint16x4_t) __builtin_aarch64_addpv4hi ((int16x4_t) __a,
19080                                                   (int16x4_t) __b);
19081 }
19082
19083 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
19084 vpadd_u32 (uint32x2_t __a, uint32x2_t __b)
19085 {
19086   return (uint32x2_t) __builtin_aarch64_addpv2si ((int32x2_t) __a,
19087                                                   (int32x2_t) __b);
19088 }
19089
19090 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
19091 vpaddd_f64 (float64x2_t __a)
19092 {
19093   return __builtin_aarch64_reduc_plus_scal_v2df (__a);
19094 }
19095
19096 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19097 vpaddd_s64 (int64x2_t __a)
19098 {
19099   return __builtin_aarch64_addpdi (__a);
19100 }
19101
19102 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
19103 vpaddd_u64 (uint64x2_t __a)
19104 {
19105   return __builtin_aarch64_addpdi ((int64x2_t) __a);
19106 }
19107
19108 /* vqabs */
19109
19110 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19111 vqabsq_s64 (int64x2_t __a)
19112 {
19113   return (int64x2_t) __builtin_aarch64_sqabsv2di (__a);
19114 }
19115
19116 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
19117 vqabsb_s8 (int8_t __a)
19118 {
19119   return (int8_t) __builtin_aarch64_sqabsqi (__a);
19120 }
19121
19122 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19123 vqabsh_s16 (int16_t __a)
19124 {
19125   return (int16_t) __builtin_aarch64_sqabshi (__a);
19126 }
19127
19128 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19129 vqabss_s32 (int32_t __a)
19130 {
19131   return (int32_t) __builtin_aarch64_sqabssi (__a);
19132 }
19133
19134 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19135 vqabsd_s64 (int64_t __a)
19136 {
19137   return __builtin_aarch64_sqabsdi (__a);
19138 }
19139
19140 /* vqadd */
19141
19142 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
19143 vqaddb_s8 (int8_t __a, int8_t __b)
19144 {
19145   return (int8_t) __builtin_aarch64_sqaddqi (__a, __b);
19146 }
19147
19148 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19149 vqaddh_s16 (int16_t __a, int16_t __b)
19150 {
19151   return (int16_t) __builtin_aarch64_sqaddhi (__a, __b);
19152 }
19153
19154 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19155 vqadds_s32 (int32_t __a, int32_t __b)
19156 {
19157   return (int32_t) __builtin_aarch64_sqaddsi (__a, __b);
19158 }
19159
19160 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19161 vqaddd_s64 (int64_t __a, int64_t __b)
19162 {
19163   return __builtin_aarch64_sqadddi (__a, __b);
19164 }
19165
19166 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
19167 vqaddb_u8 (uint8_t __a, uint8_t __b)
19168 {
19169   return (uint8_t) __builtin_aarch64_uqaddqi_uuu (__a, __b);
19170 }
19171
19172 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
19173 vqaddh_u16 (uint16_t __a, uint16_t __b)
19174 {
19175   return (uint16_t) __builtin_aarch64_uqaddhi_uuu (__a, __b);
19176 }
19177
19178 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
19179 vqadds_u32 (uint32_t __a, uint32_t __b)
19180 {
19181   return (uint32_t) __builtin_aarch64_uqaddsi_uuu (__a, __b);
19182 }
19183
19184 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
19185 vqaddd_u64 (uint64_t __a, uint64_t __b)
19186 {
19187   return __builtin_aarch64_uqadddi_uuu (__a, __b);
19188 }
19189
19190 /* vqdmlal */
19191
19192 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19193 vqdmlal_s16 (int32x4_t __a, int16x4_t __b, int16x4_t __c)
19194 {
19195   return __builtin_aarch64_sqdmlalv4hi (__a, __b, __c);
19196 }
19197
19198 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19199 vqdmlal_high_s16 (int32x4_t __a, int16x8_t __b, int16x8_t __c)
19200 {
19201   return __builtin_aarch64_sqdmlal2v8hi (__a, __b, __c);
19202 }
19203
19204 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19205 vqdmlal_high_lane_s16 (int32x4_t __a, int16x8_t __b, int16x4_t __c,
19206                        int const __d)
19207 {
19208   return __builtin_aarch64_sqdmlal2_lanev8hi (__a, __b, __c, __d);
19209 }
19210
19211 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19212 vqdmlal_high_laneq_s16 (int32x4_t __a, int16x8_t __b, int16x8_t __c,
19213                         int const __d)
19214 {
19215   return __builtin_aarch64_sqdmlal2_laneqv8hi (__a, __b, __c, __d);
19216 }
19217
19218 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19219 vqdmlal_high_n_s16 (int32x4_t __a, int16x8_t __b, int16_t __c)
19220 {
19221   return __builtin_aarch64_sqdmlal2_nv8hi (__a, __b, __c);
19222 }
19223
19224 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19225 vqdmlal_lane_s16 (int32x4_t __a, int16x4_t __b, int16x4_t __c, int const __d)
19226 {
19227   return __builtin_aarch64_sqdmlal_lanev4hi (__a, __b, __c, __d);
19228 }
19229
19230 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19231 vqdmlal_laneq_s16 (int32x4_t __a, int16x4_t __b, int16x8_t __c, int const __d)
19232 {
19233   return __builtin_aarch64_sqdmlal_laneqv4hi (__a, __b, __c, __d);
19234 }
19235
19236 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19237 vqdmlal_n_s16 (int32x4_t __a, int16x4_t __b, int16_t __c)
19238 {
19239   return __builtin_aarch64_sqdmlal_nv4hi (__a, __b, __c);
19240 }
19241
19242 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19243 vqdmlal_s32 (int64x2_t __a, int32x2_t __b, int32x2_t __c)
19244 {
19245   return __builtin_aarch64_sqdmlalv2si (__a, __b, __c);
19246 }
19247
19248 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19249 vqdmlal_high_s32 (int64x2_t __a, int32x4_t __b, int32x4_t __c)
19250 {
19251   return __builtin_aarch64_sqdmlal2v4si (__a, __b, __c);
19252 }
19253
19254 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19255 vqdmlal_high_lane_s32 (int64x2_t __a, int32x4_t __b, int32x2_t __c,
19256                        int const __d)
19257 {
19258   return __builtin_aarch64_sqdmlal2_lanev4si (__a, __b, __c, __d);
19259 }
19260
19261 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19262 vqdmlal_high_laneq_s32 (int64x2_t __a, int32x4_t __b, int32x4_t __c,
19263                         int const __d)
19264 {
19265   return __builtin_aarch64_sqdmlal2_laneqv4si (__a, __b, __c, __d);
19266 }
19267
19268 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19269 vqdmlal_high_n_s32 (int64x2_t __a, int32x4_t __b, int32_t __c)
19270 {
19271   return __builtin_aarch64_sqdmlal2_nv4si (__a, __b, __c);
19272 }
19273
19274 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19275 vqdmlal_lane_s32 (int64x2_t __a, int32x2_t __b, int32x2_t __c, int const __d)
19276 {
19277   return __builtin_aarch64_sqdmlal_lanev2si (__a, __b, __c, __d);
19278 }
19279
19280 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19281 vqdmlal_laneq_s32 (int64x2_t __a, int32x2_t __b, int32x4_t __c, int const __d)
19282 {
19283   return __builtin_aarch64_sqdmlal_laneqv2si (__a, __b, __c, __d);
19284 }
19285
19286 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19287 vqdmlal_n_s32 (int64x2_t __a, int32x2_t __b, int32_t __c)
19288 {
19289   return __builtin_aarch64_sqdmlal_nv2si (__a, __b, __c);
19290 }
19291
19292 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19293 vqdmlalh_s16 (int32_t __a, int16_t __b, int16_t __c)
19294 {
19295   return __builtin_aarch64_sqdmlalhi (__a, __b, __c);
19296 }
19297
19298 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19299 vqdmlalh_lane_s16 (int32_t __a, int16_t __b, int16x4_t __c, const int __d)
19300 {
19301   return __builtin_aarch64_sqdmlal_lanehi (__a, __b, __c, __d);
19302 }
19303
19304 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19305 vqdmlalh_laneq_s16 (int32_t __a, int16_t __b, int16x8_t __c, const int __d)
19306 {
19307   return __builtin_aarch64_sqdmlal_laneqhi (__a, __b, __c, __d);
19308 }
19309
19310 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19311 vqdmlals_s32 (int64_t __a, int32_t __b, int32_t __c)
19312 {
19313   return __builtin_aarch64_sqdmlalsi (__a, __b, __c);
19314 }
19315
19316 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19317 vqdmlals_lane_s32 (int64_t __a, int32_t __b, int32x2_t __c, const int __d)
19318 {
19319   return __builtin_aarch64_sqdmlal_lanesi (__a, __b, __c, __d);
19320 }
19321
19322 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19323 vqdmlals_laneq_s32 (int64_t __a, int32_t __b, int32x4_t __c, const int __d)
19324 {
19325   return __builtin_aarch64_sqdmlal_laneqsi (__a, __b, __c, __d);
19326 }
19327
19328 /* vqdmlsl */
19329
19330 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19331 vqdmlsl_s16 (int32x4_t __a, int16x4_t __b, int16x4_t __c)
19332 {
19333   return __builtin_aarch64_sqdmlslv4hi (__a, __b, __c);
19334 }
19335
19336 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19337 vqdmlsl_high_s16 (int32x4_t __a, int16x8_t __b, int16x8_t __c)
19338 {
19339   return __builtin_aarch64_sqdmlsl2v8hi (__a, __b, __c);
19340 }
19341
19342 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19343 vqdmlsl_high_lane_s16 (int32x4_t __a, int16x8_t __b, int16x4_t __c,
19344                        int const __d)
19345 {
19346   return __builtin_aarch64_sqdmlsl2_lanev8hi (__a, __b, __c, __d);
19347 }
19348
19349 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19350 vqdmlsl_high_laneq_s16 (int32x4_t __a, int16x8_t __b, int16x8_t __c,
19351                         int const __d)
19352 {
19353   return __builtin_aarch64_sqdmlsl2_laneqv8hi (__a, __b, __c, __d);
19354 }
19355
19356 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19357 vqdmlsl_high_n_s16 (int32x4_t __a, int16x8_t __b, int16_t __c)
19358 {
19359   return __builtin_aarch64_sqdmlsl2_nv8hi (__a, __b, __c);
19360 }
19361
19362 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19363 vqdmlsl_lane_s16 (int32x4_t __a, int16x4_t __b, int16x4_t __c, int const __d)
19364 {
19365   return __builtin_aarch64_sqdmlsl_lanev4hi (__a, __b, __c, __d);
19366 }
19367
19368 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19369 vqdmlsl_laneq_s16 (int32x4_t __a, int16x4_t __b, int16x8_t __c, int const __d)
19370 {
19371   return __builtin_aarch64_sqdmlsl_laneqv4hi (__a, __b, __c, __d);
19372 }
19373
19374 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19375 vqdmlsl_n_s16 (int32x4_t __a, int16x4_t __b, int16_t __c)
19376 {
19377   return __builtin_aarch64_sqdmlsl_nv4hi (__a, __b, __c);
19378 }
19379
19380 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19381 vqdmlsl_s32 (int64x2_t __a, int32x2_t __b, int32x2_t __c)
19382 {
19383   return __builtin_aarch64_sqdmlslv2si (__a, __b, __c);
19384 }
19385
19386 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19387 vqdmlsl_high_s32 (int64x2_t __a, int32x4_t __b, int32x4_t __c)
19388 {
19389   return __builtin_aarch64_sqdmlsl2v4si (__a, __b, __c);
19390 }
19391
19392 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19393 vqdmlsl_high_lane_s32 (int64x2_t __a, int32x4_t __b, int32x2_t __c,
19394                        int const __d)
19395 {
19396   return __builtin_aarch64_sqdmlsl2_lanev4si (__a, __b, __c, __d);
19397 }
19398
19399 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19400 vqdmlsl_high_laneq_s32 (int64x2_t __a, int32x4_t __b, int32x4_t __c,
19401                         int const __d)
19402 {
19403   return __builtin_aarch64_sqdmlsl2_laneqv4si (__a, __b, __c, __d);
19404 }
19405
19406 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19407 vqdmlsl_high_n_s32 (int64x2_t __a, int32x4_t __b, int32_t __c)
19408 {
19409   return __builtin_aarch64_sqdmlsl2_nv4si (__a, __b, __c);
19410 }
19411
19412 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19413 vqdmlsl_lane_s32 (int64x2_t __a, int32x2_t __b, int32x2_t __c, int const __d)
19414 {
19415   return __builtin_aarch64_sqdmlsl_lanev2si (__a, __b, __c, __d);
19416 }
19417
19418 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19419 vqdmlsl_laneq_s32 (int64x2_t __a, int32x2_t __b, int32x4_t __c, int const __d)
19420 {
19421   return __builtin_aarch64_sqdmlsl_laneqv2si (__a, __b, __c, __d);
19422 }
19423
19424 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19425 vqdmlsl_n_s32 (int64x2_t __a, int32x2_t __b, int32_t __c)
19426 {
19427   return __builtin_aarch64_sqdmlsl_nv2si (__a, __b, __c);
19428 }
19429
19430 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19431 vqdmlslh_s16 (int32_t __a, int16_t __b, int16_t __c)
19432 {
19433   return __builtin_aarch64_sqdmlslhi (__a, __b, __c);
19434 }
19435
19436 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19437 vqdmlslh_lane_s16 (int32_t __a, int16_t __b, int16x4_t __c, const int __d)
19438 {
19439   return __builtin_aarch64_sqdmlsl_lanehi (__a, __b, __c, __d);
19440 }
19441
19442 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19443 vqdmlslh_laneq_s16 (int32_t __a, int16_t __b, int16x8_t __c, const int __d)
19444 {
19445   return __builtin_aarch64_sqdmlsl_laneqhi (__a, __b, __c, __d);
19446 }
19447
19448 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19449 vqdmlsls_s32 (int64_t __a, int32_t __b, int32_t __c)
19450 {
19451   return __builtin_aarch64_sqdmlslsi (__a, __b, __c);
19452 }
19453
19454 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19455 vqdmlsls_lane_s32 (int64_t __a, int32_t __b, int32x2_t __c, const int __d)
19456 {
19457   return __builtin_aarch64_sqdmlsl_lanesi (__a, __b, __c, __d);
19458 }
19459
19460 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19461 vqdmlsls_laneq_s32 (int64_t __a, int32_t __b, int32x4_t __c, const int __d)
19462 {
19463   return __builtin_aarch64_sqdmlsl_laneqsi (__a, __b, __c, __d);
19464 }
19465
19466 /* vqdmulh */
19467
19468 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
19469 vqdmulh_lane_s16 (int16x4_t __a, int16x4_t __b, const int __c)
19470 {
19471   return __builtin_aarch64_sqdmulh_lanev4hi (__a, __b, __c);
19472 }
19473
19474 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
19475 vqdmulh_lane_s32 (int32x2_t __a, int32x2_t __b, const int __c)
19476 {
19477   return __builtin_aarch64_sqdmulh_lanev2si (__a, __b, __c);
19478 }
19479
19480 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
19481 vqdmulhq_lane_s16 (int16x8_t __a, int16x4_t __b, const int __c)
19482 {
19483   return __builtin_aarch64_sqdmulh_lanev8hi (__a, __b, __c);
19484 }
19485
19486 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19487 vqdmulhq_lane_s32 (int32x4_t __a, int32x2_t __b, const int __c)
19488 {
19489   return __builtin_aarch64_sqdmulh_lanev4si (__a, __b, __c);
19490 }
19491
19492 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19493 vqdmulhh_s16 (int16_t __a, int16_t __b)
19494 {
19495   return (int16_t) __builtin_aarch64_sqdmulhhi (__a, __b);
19496 }
19497
19498 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19499 vqdmulhh_lane_s16 (int16_t __a, int16x4_t __b, const int __c)
19500 {
19501   return __builtin_aarch64_sqdmulh_lanehi (__a, __b, __c);
19502 }
19503
19504 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19505 vqdmulhh_laneq_s16 (int16_t __a, int16x8_t __b, const int __c)
19506 {
19507   return __builtin_aarch64_sqdmulh_laneqhi (__a, __b, __c);
19508 }
19509
19510 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19511 vqdmulhs_s32 (int32_t __a, int32_t __b)
19512 {
19513   return (int32_t) __builtin_aarch64_sqdmulhsi (__a, __b);
19514 }
19515
19516 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19517 vqdmulhs_lane_s32 (int32_t __a, int32x2_t __b, const int __c)
19518 {
19519   return __builtin_aarch64_sqdmulh_lanesi (__a, __b, __c);
19520 }
19521
19522 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19523 vqdmulhs_laneq_s32 (int32_t __a, int32x4_t __b, const int __c)
19524 {
19525   return __builtin_aarch64_sqdmulh_laneqsi (__a, __b, __c);
19526 }
19527
19528 /* vqdmull */
19529
19530 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19531 vqdmull_s16 (int16x4_t __a, int16x4_t __b)
19532 {
19533   return __builtin_aarch64_sqdmullv4hi (__a, __b);
19534 }
19535
19536 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19537 vqdmull_high_s16 (int16x8_t __a, int16x8_t __b)
19538 {
19539   return __builtin_aarch64_sqdmull2v8hi (__a, __b);
19540 }
19541
19542 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19543 vqdmull_high_lane_s16 (int16x8_t __a, int16x4_t __b, int const __c)
19544 {
19545   return __builtin_aarch64_sqdmull2_lanev8hi (__a, __b,__c);
19546 }
19547
19548 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19549 vqdmull_high_laneq_s16 (int16x8_t __a, int16x8_t __b, int const __c)
19550 {
19551   return __builtin_aarch64_sqdmull2_laneqv8hi (__a, __b,__c);
19552 }
19553
19554 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19555 vqdmull_high_n_s16 (int16x8_t __a, int16_t __b)
19556 {
19557   return __builtin_aarch64_sqdmull2_nv8hi (__a, __b);
19558 }
19559
19560 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19561 vqdmull_lane_s16 (int16x4_t __a, int16x4_t __b, int const __c)
19562 {
19563   return __builtin_aarch64_sqdmull_lanev4hi (__a, __b, __c);
19564 }
19565
19566 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19567 vqdmull_laneq_s16 (int16x4_t __a, int16x8_t __b, int const __c)
19568 {
19569   return __builtin_aarch64_sqdmull_laneqv4hi (__a, __b, __c);
19570 }
19571
19572 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19573 vqdmull_n_s16 (int16x4_t __a, int16_t __b)
19574 {
19575   return __builtin_aarch64_sqdmull_nv4hi (__a, __b);
19576 }
19577
19578 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19579 vqdmull_s32 (int32x2_t __a, int32x2_t __b)
19580 {
19581   return __builtin_aarch64_sqdmullv2si (__a, __b);
19582 }
19583
19584 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19585 vqdmull_high_s32 (int32x4_t __a, int32x4_t __b)
19586 {
19587   return __builtin_aarch64_sqdmull2v4si (__a, __b);
19588 }
19589
19590 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19591 vqdmull_high_lane_s32 (int32x4_t __a, int32x2_t __b, int const __c)
19592 {
19593   return __builtin_aarch64_sqdmull2_lanev4si (__a, __b, __c);
19594 }
19595
19596 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19597 vqdmull_high_laneq_s32 (int32x4_t __a, int32x4_t __b, int const __c)
19598 {
19599   return __builtin_aarch64_sqdmull2_laneqv4si (__a, __b, __c);
19600 }
19601
19602 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19603 vqdmull_high_n_s32 (int32x4_t __a, int32_t __b)
19604 {
19605   return __builtin_aarch64_sqdmull2_nv4si (__a, __b);
19606 }
19607
19608 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19609 vqdmull_lane_s32 (int32x2_t __a, int32x2_t __b, int const __c)
19610 {
19611   return __builtin_aarch64_sqdmull_lanev2si (__a, __b, __c);
19612 }
19613
19614 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19615 vqdmull_laneq_s32 (int32x2_t __a, int32x4_t __b, int const __c)
19616 {
19617   return __builtin_aarch64_sqdmull_laneqv2si (__a, __b, __c);
19618 }
19619
19620 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19621 vqdmull_n_s32 (int32x2_t __a, int32_t __b)
19622 {
19623   return __builtin_aarch64_sqdmull_nv2si (__a, __b);
19624 }
19625
19626 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19627 vqdmullh_s16 (int16_t __a, int16_t __b)
19628 {
19629   return (int32_t) __builtin_aarch64_sqdmullhi (__a, __b);
19630 }
19631
19632 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19633 vqdmullh_lane_s16 (int16_t __a, int16x4_t __b, const int __c)
19634 {
19635   return __builtin_aarch64_sqdmull_lanehi (__a, __b, __c);
19636 }
19637
19638 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19639 vqdmullh_laneq_s16 (int16_t __a, int16x8_t __b, const int __c)
19640 {
19641   return __builtin_aarch64_sqdmull_laneqhi (__a, __b, __c);
19642 }
19643
19644 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19645 vqdmulls_s32 (int32_t __a, int32_t __b)
19646 {
19647   return __builtin_aarch64_sqdmullsi (__a, __b);
19648 }
19649
19650 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19651 vqdmulls_lane_s32 (int32_t __a, int32x2_t __b, const int __c)
19652 {
19653   return __builtin_aarch64_sqdmull_lanesi (__a, __b, __c);
19654 }
19655
19656 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19657 vqdmulls_laneq_s32 (int32_t __a, int32x4_t __b, const int __c)
19658 {
19659   return __builtin_aarch64_sqdmull_laneqsi (__a, __b, __c);
19660 }
19661
19662 /* vqmovn */
19663
19664 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
19665 vqmovn_s16 (int16x8_t __a)
19666 {
19667   return (int8x8_t) __builtin_aarch64_sqmovnv8hi (__a);
19668 }
19669
19670 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
19671 vqmovn_s32 (int32x4_t __a)
19672 {
19673   return (int16x4_t) __builtin_aarch64_sqmovnv4si (__a);
19674 }
19675
19676 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
19677 vqmovn_s64 (int64x2_t __a)
19678 {
19679   return (int32x2_t) __builtin_aarch64_sqmovnv2di (__a);
19680 }
19681
19682 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
19683 vqmovn_u16 (uint16x8_t __a)
19684 {
19685   return (uint8x8_t) __builtin_aarch64_uqmovnv8hi ((int16x8_t) __a);
19686 }
19687
19688 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
19689 vqmovn_u32 (uint32x4_t __a)
19690 {
19691   return (uint16x4_t) __builtin_aarch64_uqmovnv4si ((int32x4_t) __a);
19692 }
19693
19694 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
19695 vqmovn_u64 (uint64x2_t __a)
19696 {
19697   return (uint32x2_t) __builtin_aarch64_uqmovnv2di ((int64x2_t) __a);
19698 }
19699
19700 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
19701 vqmovnh_s16 (int16_t __a)
19702 {
19703   return (int8_t) __builtin_aarch64_sqmovnhi (__a);
19704 }
19705
19706 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19707 vqmovns_s32 (int32_t __a)
19708 {
19709   return (int16_t) __builtin_aarch64_sqmovnsi (__a);
19710 }
19711
19712 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19713 vqmovnd_s64 (int64_t __a)
19714 {
19715   return (int32_t) __builtin_aarch64_sqmovndi (__a);
19716 }
19717
19718 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
19719 vqmovnh_u16 (uint16_t __a)
19720 {
19721   return (uint8_t) __builtin_aarch64_uqmovnhi (__a);
19722 }
19723
19724 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
19725 vqmovns_u32 (uint32_t __a)
19726 {
19727   return (uint16_t) __builtin_aarch64_uqmovnsi (__a);
19728 }
19729
19730 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
19731 vqmovnd_u64 (uint64_t __a)
19732 {
19733   return (uint32_t) __builtin_aarch64_uqmovndi (__a);
19734 }
19735
19736 /* vqmovun */
19737
19738 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
19739 vqmovun_s16 (int16x8_t __a)
19740 {
19741   return (uint8x8_t) __builtin_aarch64_sqmovunv8hi (__a);
19742 }
19743
19744 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
19745 vqmovun_s32 (int32x4_t __a)
19746 {
19747   return (uint16x4_t) __builtin_aarch64_sqmovunv4si (__a);
19748 }
19749
19750 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
19751 vqmovun_s64 (int64x2_t __a)
19752 {
19753   return (uint32x2_t) __builtin_aarch64_sqmovunv2di (__a);
19754 }
19755
19756 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
19757 vqmovunh_s16 (int16_t __a)
19758 {
19759   return (int8_t) __builtin_aarch64_sqmovunhi (__a);
19760 }
19761
19762 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19763 vqmovuns_s32 (int32_t __a)
19764 {
19765   return (int16_t) __builtin_aarch64_sqmovunsi (__a);
19766 }
19767
19768 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19769 vqmovund_s64 (int64_t __a)
19770 {
19771   return (int32_t) __builtin_aarch64_sqmovundi (__a);
19772 }
19773
19774 /* vqneg */
19775
19776 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19777 vqnegq_s64 (int64x2_t __a)
19778 {
19779   return (int64x2_t) __builtin_aarch64_sqnegv2di (__a);
19780 }
19781
19782 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
19783 vqnegb_s8 (int8_t __a)
19784 {
19785   return (int8_t) __builtin_aarch64_sqnegqi (__a);
19786 }
19787
19788 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19789 vqnegh_s16 (int16_t __a)
19790 {
19791   return (int16_t) __builtin_aarch64_sqneghi (__a);
19792 }
19793
19794 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19795 vqnegs_s32 (int32_t __a)
19796 {
19797   return (int32_t) __builtin_aarch64_sqnegsi (__a);
19798 }
19799
19800 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19801 vqnegd_s64 (int64_t __a)
19802 {
19803   return __builtin_aarch64_sqnegdi (__a);
19804 }
19805
19806 /* vqrdmulh */
19807
19808 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
19809 vqrdmulh_lane_s16 (int16x4_t __a, int16x4_t __b, const int __c)
19810 {
19811   return  __builtin_aarch64_sqrdmulh_lanev4hi (__a, __b, __c);
19812 }
19813
19814 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
19815 vqrdmulh_lane_s32 (int32x2_t __a, int32x2_t __b, const int __c)
19816 {
19817   return __builtin_aarch64_sqrdmulh_lanev2si (__a, __b, __c);
19818 }
19819
19820 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
19821 vqrdmulhq_lane_s16 (int16x8_t __a, int16x4_t __b, const int __c)
19822 {
19823   return __builtin_aarch64_sqrdmulh_lanev8hi (__a, __b, __c);
19824 }
19825
19826 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19827 vqrdmulhq_lane_s32 (int32x4_t __a, int32x2_t __b, const int __c)
19828 {
19829   return __builtin_aarch64_sqrdmulh_lanev4si (__a, __b, __c);
19830 }
19831
19832 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19833 vqrdmulhh_s16 (int16_t __a, int16_t __b)
19834 {
19835   return (int16_t) __builtin_aarch64_sqrdmulhhi (__a, __b);
19836 }
19837
19838 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19839 vqrdmulhh_lane_s16 (int16_t __a, int16x4_t __b, const int __c)
19840 {
19841   return __builtin_aarch64_sqrdmulh_lanehi (__a, __b, __c);
19842 }
19843
19844 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19845 vqrdmulhh_laneq_s16 (int16_t __a, int16x8_t __b, const int __c)
19846 {
19847   return __builtin_aarch64_sqrdmulh_laneqhi (__a, __b, __c);
19848 }
19849
19850 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19851 vqrdmulhs_s32 (int32_t __a, int32_t __b)
19852 {
19853   return (int32_t) __builtin_aarch64_sqrdmulhsi (__a, __b);
19854 }
19855
19856 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19857 vqrdmulhs_lane_s32 (int32_t __a, int32x2_t __b, const int __c)
19858 {
19859   return __builtin_aarch64_sqrdmulh_lanesi (__a, __b, __c);
19860 }
19861
19862 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19863 vqrdmulhs_laneq_s32 (int32_t __a, int32x4_t __b, const int __c)
19864 {
19865   return __builtin_aarch64_sqrdmulh_laneqsi (__a, __b, __c);
19866 }
19867
19868 /* vqrshl */
19869
19870 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
19871 vqrshl_s8 (int8x8_t __a, int8x8_t __b)
19872 {
19873   return __builtin_aarch64_sqrshlv8qi (__a, __b);
19874 }
19875
19876 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
19877 vqrshl_s16 (int16x4_t __a, int16x4_t __b)
19878 {
19879   return __builtin_aarch64_sqrshlv4hi (__a, __b);
19880 }
19881
19882 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
19883 vqrshl_s32 (int32x2_t __a, int32x2_t __b)
19884 {
19885   return __builtin_aarch64_sqrshlv2si (__a, __b);
19886 }
19887
19888 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
19889 vqrshl_s64 (int64x1_t __a, int64x1_t __b)
19890 {
19891   return (int64x1_t) {__builtin_aarch64_sqrshldi (__a[0], __b[0])};
19892 }
19893
19894 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
19895 vqrshl_u8 (uint8x8_t __a, int8x8_t __b)
19896 {
19897   return __builtin_aarch64_uqrshlv8qi_uus ( __a, __b);
19898 }
19899
19900 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
19901 vqrshl_u16 (uint16x4_t __a, int16x4_t __b)
19902 {
19903   return __builtin_aarch64_uqrshlv4hi_uus ( __a, __b);
19904 }
19905
19906 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
19907 vqrshl_u32 (uint32x2_t __a, int32x2_t __b)
19908 {
19909   return __builtin_aarch64_uqrshlv2si_uus ( __a, __b);
19910 }
19911
19912 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
19913 vqrshl_u64 (uint64x1_t __a, int64x1_t __b)
19914 {
19915   return (uint64x1_t) {__builtin_aarch64_uqrshldi_uus (__a[0], __b[0])};
19916 }
19917
19918 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
19919 vqrshlq_s8 (int8x16_t __a, int8x16_t __b)
19920 {
19921   return __builtin_aarch64_sqrshlv16qi (__a, __b);
19922 }
19923
19924 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
19925 vqrshlq_s16 (int16x8_t __a, int16x8_t __b)
19926 {
19927   return __builtin_aarch64_sqrshlv8hi (__a, __b);
19928 }
19929
19930 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19931 vqrshlq_s32 (int32x4_t __a, int32x4_t __b)
19932 {
19933   return __builtin_aarch64_sqrshlv4si (__a, __b);
19934 }
19935
19936 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19937 vqrshlq_s64 (int64x2_t __a, int64x2_t __b)
19938 {
19939   return __builtin_aarch64_sqrshlv2di (__a, __b);
19940 }
19941
19942 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
19943 vqrshlq_u8 (uint8x16_t __a, int8x16_t __b)
19944 {
19945   return __builtin_aarch64_uqrshlv16qi_uus ( __a, __b);
19946 }
19947
19948 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
19949 vqrshlq_u16 (uint16x8_t __a, int16x8_t __b)
19950 {
19951   return __builtin_aarch64_uqrshlv8hi_uus ( __a, __b);
19952 }
19953
19954 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
19955 vqrshlq_u32 (uint32x4_t __a, int32x4_t __b)
19956 {
19957   return __builtin_aarch64_uqrshlv4si_uus ( __a, __b);
19958 }
19959
19960 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
19961 vqrshlq_u64 (uint64x2_t __a, int64x2_t __b)
19962 {
19963   return __builtin_aarch64_uqrshlv2di_uus ( __a, __b);
19964 }
19965
19966 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
19967 vqrshlb_s8 (int8_t __a, int8_t __b)
19968 {
19969   return __builtin_aarch64_sqrshlqi (__a, __b);
19970 }
19971
19972 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19973 vqrshlh_s16 (int16_t __a, int16_t __b)
19974 {
19975   return __builtin_aarch64_sqrshlhi (__a, __b);
19976 }
19977
19978 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19979 vqrshls_s32 (int32_t __a, int32_t __b)
19980 {
19981   return __builtin_aarch64_sqrshlsi (__a, __b);
19982 }
19983
19984 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19985 vqrshld_s64 (int64_t __a, int64_t __b)
19986 {
19987   return __builtin_aarch64_sqrshldi (__a, __b);
19988 }
19989
19990 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
19991 vqrshlb_u8 (uint8_t __a, uint8_t __b)
19992 {
19993   return __builtin_aarch64_uqrshlqi_uus (__a, __b);
19994 }
19995
19996 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
19997 vqrshlh_u16 (uint16_t __a, uint16_t __b)
19998 {
19999   return __builtin_aarch64_uqrshlhi_uus (__a, __b);
20000 }
20001
20002 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
20003 vqrshls_u32 (uint32_t __a, uint32_t __b)
20004 {
20005   return __builtin_aarch64_uqrshlsi_uus (__a, __b);
20006 }
20007
20008 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
20009 vqrshld_u64 (uint64_t __a, uint64_t __b)
20010 {
20011   return __builtin_aarch64_uqrshldi_uus (__a, __b);
20012 }
20013
20014 /* vqrshrn */
20015
20016 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
20017 vqrshrn_n_s16 (int16x8_t __a, const int __b)
20018 {
20019   return (int8x8_t) __builtin_aarch64_sqrshrn_nv8hi (__a, __b);
20020 }
20021
20022 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
20023 vqrshrn_n_s32 (int32x4_t __a, const int __b)
20024 {
20025   return (int16x4_t) __builtin_aarch64_sqrshrn_nv4si (__a, __b);
20026 }
20027
20028 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
20029 vqrshrn_n_s64 (int64x2_t __a, const int __b)
20030 {
20031   return (int32x2_t) __builtin_aarch64_sqrshrn_nv2di (__a, __b);
20032 }
20033
20034 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20035 vqrshrn_n_u16 (uint16x8_t __a, const int __b)
20036 {
20037   return __builtin_aarch64_uqrshrn_nv8hi_uus ( __a, __b);
20038 }
20039
20040 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
20041 vqrshrn_n_u32 (uint32x4_t __a, const int __b)
20042 {
20043   return __builtin_aarch64_uqrshrn_nv4si_uus ( __a, __b);
20044 }
20045
20046 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
20047 vqrshrn_n_u64 (uint64x2_t __a, const int __b)
20048 {
20049   return __builtin_aarch64_uqrshrn_nv2di_uus ( __a, __b);
20050 }
20051
20052 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
20053 vqrshrnh_n_s16 (int16_t __a, const int __b)
20054 {
20055   return (int8_t) __builtin_aarch64_sqrshrn_nhi (__a, __b);
20056 }
20057
20058 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
20059 vqrshrns_n_s32 (int32_t __a, const int __b)
20060 {
20061   return (int16_t) __builtin_aarch64_sqrshrn_nsi (__a, __b);
20062 }
20063
20064 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
20065 vqrshrnd_n_s64 (int64_t __a, const int __b)
20066 {
20067   return (int32_t) __builtin_aarch64_sqrshrn_ndi (__a, __b);
20068 }
20069
20070 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
20071 vqrshrnh_n_u16 (uint16_t __a, const int __b)
20072 {
20073   return __builtin_aarch64_uqrshrn_nhi_uus (__a, __b);
20074 }
20075
20076 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
20077 vqrshrns_n_u32 (uint32_t __a, const int __b)
20078 {
20079   return __builtin_aarch64_uqrshrn_nsi_uus (__a, __b);
20080 }
20081
20082 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
20083 vqrshrnd_n_u64 (uint64_t __a, const int __b)
20084 {
20085   return __builtin_aarch64_uqrshrn_ndi_uus (__a, __b);
20086 }
20087
20088 /* vqrshrun */
20089
20090 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20091 vqrshrun_n_s16 (int16x8_t __a, const int __b)
20092 {
20093   return (uint8x8_t) __builtin_aarch64_sqrshrun_nv8hi (__a, __b);
20094 }
20095
20096 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
20097 vqrshrun_n_s32 (int32x4_t __a, const int __b)
20098 {
20099   return (uint16x4_t) __builtin_aarch64_sqrshrun_nv4si (__a, __b);
20100 }
20101
20102 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
20103 vqrshrun_n_s64 (int64x2_t __a, const int __b)
20104 {
20105   return (uint32x2_t) __builtin_aarch64_sqrshrun_nv2di (__a, __b);
20106 }
20107
20108 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
20109 vqrshrunh_n_s16 (int16_t __a, const int __b)
20110 {
20111   return (int8_t) __builtin_aarch64_sqrshrun_nhi (__a, __b);
20112 }
20113
20114 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
20115 vqrshruns_n_s32 (int32_t __a, const int __b)
20116 {
20117   return (int16_t) __builtin_aarch64_sqrshrun_nsi (__a, __b);
20118 }
20119
20120 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
20121 vqrshrund_n_s64 (int64_t __a, const int __b)
20122 {
20123   return (int32_t) __builtin_aarch64_sqrshrun_ndi (__a, __b);
20124 }
20125
20126 /* vqshl */
20127
20128 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
20129 vqshl_s8 (int8x8_t __a, int8x8_t __b)
20130 {
20131   return __builtin_aarch64_sqshlv8qi (__a, __b);
20132 }
20133
20134 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
20135 vqshl_s16 (int16x4_t __a, int16x4_t __b)
20136 {
20137   return __builtin_aarch64_sqshlv4hi (__a, __b);
20138 }
20139
20140 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
20141 vqshl_s32 (int32x2_t __a, int32x2_t __b)
20142 {
20143   return __builtin_aarch64_sqshlv2si (__a, __b);
20144 }
20145
20146 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
20147 vqshl_s64 (int64x1_t __a, int64x1_t __b)
20148 {
20149   return (int64x1_t) {__builtin_aarch64_sqshldi (__a[0], __b[0])};
20150 }
20151
20152 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20153 vqshl_u8 (uint8x8_t __a, int8x8_t __b)
20154 {
20155   return __builtin_aarch64_uqshlv8qi_uus ( __a, __b);
20156 }
20157
20158 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
20159 vqshl_u16 (uint16x4_t __a, int16x4_t __b)
20160 {
20161   return __builtin_aarch64_uqshlv4hi_uus ( __a, __b);
20162 }
20163
20164 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
20165 vqshl_u32 (uint32x2_t __a, int32x2_t __b)
20166 {
20167   return __builtin_aarch64_uqshlv2si_uus ( __a, __b);
20168 }
20169
20170 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
20171 vqshl_u64 (uint64x1_t __a, int64x1_t __b)
20172 {
20173   return (uint64x1_t) {__builtin_aarch64_uqshldi_uus (__a[0], __b[0])};
20174 }
20175
20176 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
20177 vqshlq_s8 (int8x16_t __a, int8x16_t __b)
20178 {
20179   return __builtin_aarch64_sqshlv16qi (__a, __b);
20180 }
20181
20182 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
20183 vqshlq_s16 (int16x8_t __a, int16x8_t __b)
20184 {
20185   return __builtin_aarch64_sqshlv8hi (__a, __b);
20186 }
20187
20188 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
20189 vqshlq_s32 (int32x4_t __a, int32x4_t __b)
20190 {
20191   return __builtin_aarch64_sqshlv4si (__a, __b);
20192 }
20193
20194 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
20195 vqshlq_s64 (int64x2_t __a, int64x2_t __b)
20196 {
20197   return __builtin_aarch64_sqshlv2di (__a, __b);
20198 }
20199
20200 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
20201 vqshlq_u8 (uint8x16_t __a, int8x16_t __b)
20202 {
20203   return __builtin_aarch64_uqshlv16qi_uus ( __a, __b);
20204 }
20205
20206 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
20207 vqshlq_u16 (uint16x8_t __a, int16x8_t __b)
20208 {
20209   return __builtin_aarch64_uqshlv8hi_uus ( __a, __b);
20210 }
20211
20212 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
20213 vqshlq_u32 (uint32x4_t __a, int32x4_t __b)
20214 {
20215   return __builtin_aarch64_uqshlv4si_uus ( __a, __b);
20216 }
20217
20218 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
20219 vqshlq_u64 (uint64x2_t __a, int64x2_t __b)
20220 {
20221   return __builtin_aarch64_uqshlv2di_uus ( __a, __b);
20222 }
20223
20224 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
20225 vqshlb_s8 (int8_t __a, int8_t __b)
20226 {
20227   return __builtin_aarch64_sqshlqi (__a, __b);
20228 }
20229
20230 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
20231 vqshlh_s16 (int16_t __a, int16_t __b)
20232 {
20233   return __builtin_aarch64_sqshlhi (__a, __b);
20234 }
20235
20236 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
20237 vqshls_s32 (int32_t __a, int32_t __b)
20238 {
20239   return __builtin_aarch64_sqshlsi (__a, __b);
20240 }
20241
20242 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
20243 vqshld_s64 (int64_t __a, int64_t __b)
20244 {
20245   return __builtin_aarch64_sqshldi (__a, __b);
20246 }
20247
20248 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
20249 vqshlb_u8 (uint8_t __a, uint8_t __b)
20250 {
20251   return __builtin_aarch64_uqshlqi_uus (__a, __b);
20252 }
20253
20254 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
20255 vqshlh_u16 (uint16_t __a, uint16_t __b)
20256 {
20257   return __builtin_aarch64_uqshlhi_uus (__a, __b);
20258 }
20259
20260 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
20261 vqshls_u32 (uint32_t __a, uint32_t __b)
20262 {
20263   return __builtin_aarch64_uqshlsi_uus (__a, __b);
20264 }
20265
20266 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
20267 vqshld_u64 (uint64_t __a, uint64_t __b)
20268 {
20269   return __builtin_aarch64_uqshldi_uus (__a, __b);
20270 }
20271
20272 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
20273 vqshl_n_s8 (int8x8_t __a, const int __b)
20274 {
20275   return (int8x8_t) __builtin_aarch64_sqshl_nv8qi (__a, __b);
20276 }
20277
20278 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
20279 vqshl_n_s16 (int16x4_t __a, const int __b)
20280 {
20281   return (int16x4_t) __builtin_aarch64_sqshl_nv4hi (__a, __b);
20282 }
20283
20284 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
20285 vqshl_n_s32 (int32x2_t __a, const int __b)
20286 {
20287   return (int32x2_t) __builtin_aarch64_sqshl_nv2si (__a, __b);
20288 }
20289
20290 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
20291 vqshl_n_s64 (int64x1_t __a, const int __b)
20292 {
20293   return (int64x1_t) {__builtin_aarch64_sqshl_ndi (__a[0], __b)};
20294 }
20295
20296 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20297 vqshl_n_u8 (uint8x8_t __a, const int __b)
20298 {
20299   return __builtin_aarch64_uqshl_nv8qi_uus (__a, __b);
20300 }
20301
20302 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
20303 vqshl_n_u16 (uint16x4_t __a, const int __b)
20304 {
20305   return __builtin_aarch64_uqshl_nv4hi_uus (__a, __b);
20306 }
20307
20308 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
20309 vqshl_n_u32 (uint32x2_t __a, const int __b)
20310 {
20311   return __builtin_aarch64_uqshl_nv2si_uus (__a, __b);
20312 }
20313
20314 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
20315 vqshl_n_u64 (uint64x1_t __a, const int __b)
20316 {
20317   return (uint64x1_t) {__builtin_aarch64_uqshl_ndi_uus (__a[0], __b)};
20318 }
20319
20320 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
20321 vqshlq_n_s8 (int8x16_t __a, const int __b)
20322 {
20323   return (int8x16_t) __builtin_aarch64_sqshl_nv16qi (__a, __b);
20324 }
20325
20326 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
20327 vqshlq_n_s16 (int16x8_t __a, const int __b)
20328 {
20329   return (int16x8_t) __builtin_aarch64_sqshl_nv8hi (__a, __b);
20330 }
20331
20332 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
20333 vqshlq_n_s32 (int32x4_t __a, const int __b)
20334 {
20335   return (int32x4_t) __builtin_aarch64_sqshl_nv4si (__a, __b);
20336 }
20337
20338 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
20339 vqshlq_n_s64 (int64x2_t __a, const int __b)
20340 {
20341   return (int64x2_t) __builtin_aarch64_sqshl_nv2di (__a, __b);
20342 }
20343
20344 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
20345 vqshlq_n_u8 (uint8x16_t __a, const int __b)
20346 {
20347   return __builtin_aarch64_uqshl_nv16qi_uus (__a, __b);
20348 }
20349
20350 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
20351 vqshlq_n_u16 (uint16x8_t __a, const int __b)
20352 {
20353   return __builtin_aarch64_uqshl_nv8hi_uus (__a, __b);
20354 }
20355
20356 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
20357 vqshlq_n_u32 (uint32x4_t __a, const int __b)
20358 {
20359   return __builtin_aarch64_uqshl_nv4si_uus (__a, __b);
20360 }
20361
20362 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
20363 vqshlq_n_u64 (uint64x2_t __a, const int __b)
20364 {
20365   return __builtin_aarch64_uqshl_nv2di_uus (__a, __b);
20366 }
20367
20368 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
20369 vqshlb_n_s8 (int8_t __a, const int __b)
20370 {
20371   return (int8_t) __builtin_aarch64_sqshl_nqi (__a, __b);
20372 }
20373
20374 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
20375 vqshlh_n_s16 (int16_t __a, const int __b)
20376 {
20377   return (int16_t) __builtin_aarch64_sqshl_nhi (__a, __b);
20378 }
20379
20380 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
20381 vqshls_n_s32 (int32_t __a, const int __b)
20382 {
20383   return (int32_t) __builtin_aarch64_sqshl_nsi (__a, __b);
20384 }
20385
20386 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
20387 vqshld_n_s64 (int64_t __a, const int __b)
20388 {
20389   return __builtin_aarch64_sqshl_ndi (__a, __b);
20390 }
20391
20392 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
20393 vqshlb_n_u8 (uint8_t __a, const int __b)
20394 {
20395   return __builtin_aarch64_uqshl_nqi_uus (__a, __b);
20396 }
20397
20398 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
20399 vqshlh_n_u16 (uint16_t __a, const int __b)
20400 {
20401   return __builtin_aarch64_uqshl_nhi_uus (__a, __b);
20402 }
20403
20404 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
20405 vqshls_n_u32 (uint32_t __a, const int __b)
20406 {
20407   return __builtin_aarch64_uqshl_nsi_uus (__a, __b);
20408 }
20409
20410 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
20411 vqshld_n_u64 (uint64_t __a, const int __b)
20412 {
20413   return __builtin_aarch64_uqshl_ndi_uus (__a, __b);
20414 }
20415
20416 /* vqshlu */
20417
20418 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20419 vqshlu_n_s8 (int8x8_t __a, const int __b)
20420 {
20421   return __builtin_aarch64_sqshlu_nv8qi_uss (__a, __b);
20422 }
20423
20424 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
20425 vqshlu_n_s16 (int16x4_t __a, const int __b)
20426 {
20427   return __builtin_aarch64_sqshlu_nv4hi_uss (__a, __b);
20428 }
20429
20430 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
20431 vqshlu_n_s32 (int32x2_t __a, const int __b)
20432 {
20433   return __builtin_aarch64_sqshlu_nv2si_uss (__a, __b);
20434 }
20435
20436 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
20437 vqshlu_n_s64 (int64x1_t __a, const int __b)
20438 {
20439   return (uint64x1_t) {__builtin_aarch64_sqshlu_ndi_uss (__a[0], __b)};
20440 }
20441
20442 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
20443 vqshluq_n_s8 (int8x16_t __a, const int __b)
20444 {
20445   return __builtin_aarch64_sqshlu_nv16qi_uss (__a, __b);
20446 }
20447
20448 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
20449 vqshluq_n_s16 (int16x8_t __a, const int __b)
20450 {
20451   return __builtin_aarch64_sqshlu_nv8hi_uss (__a, __b);
20452 }
20453
20454 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
20455 vqshluq_n_s32 (int32x4_t __a, const int __b)
20456 {
20457   return __builtin_aarch64_sqshlu_nv4si_uss (__a, __b);
20458 }
20459
20460 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
20461 vqshluq_n_s64 (int64x2_t __a, const int __b)
20462 {
20463   return __builtin_aarch64_sqshlu_nv2di_uss (__a, __b);
20464 }
20465
20466 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
20467 vqshlub_n_s8 (int8_t __a, const int __b)
20468 {
20469   return (int8_t) __builtin_aarch64_sqshlu_nqi_uss (__a, __b);
20470 }
20471
20472 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
20473 vqshluh_n_s16 (int16_t __a, const int __b)
20474 {
20475   return (int16_t) __builtin_aarch64_sqshlu_nhi_uss (__a, __b);
20476 }
20477
20478 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
20479 vqshlus_n_s32 (int32_t __a, const int __b)
20480 {
20481   return (int32_t) __builtin_aarch64_sqshlu_nsi_uss (__a, __b);
20482 }
20483
20484 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
20485 vqshlud_n_s64 (int64_t __a, const int __b)
20486 {
20487   return __builtin_aarch64_sqshlu_ndi_uss (__a, __b);
20488 }
20489
20490 /* vqshrn */
20491
20492 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
20493 vqshrn_n_s16 (int16x8_t __a, const int __b)
20494 {
20495   return (int8x8_t) __builtin_aarch64_sqshrn_nv8hi (__a, __b);
20496 }
20497
20498 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
20499 vqshrn_n_s32 (int32x4_t __a, const int __b)
20500 {
20501   return (int16x4_t) __builtin_aarch64_sqshrn_nv4si (__a, __b);
20502 }
20503
20504 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
20505 vqshrn_n_s64 (int64x2_t __a, const int __b)
20506 {
20507   return (int32x2_t) __builtin_aarch64_sqshrn_nv2di (__a, __b);
20508 }
20509
20510 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20511 vqshrn_n_u16 (uint16x8_t __a, const int __b)
20512 {
20513   return __builtin_aarch64_uqshrn_nv8hi_uus ( __a, __b);
20514 }
20515
20516 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
20517 vqshrn_n_u32 (uint32x4_t __a, const int __b)
20518 {
20519   return __builtin_aarch64_uqshrn_nv4si_uus ( __a, __b);
20520 }
20521
20522 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
20523 vqshrn_n_u64 (uint64x2_t __a, const int __b)
20524 {
20525   return __builtin_aarch64_uqshrn_nv2di_uus ( __a, __b);
20526 }
20527
20528 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
20529 vqshrnh_n_s16 (int16_t __a, const int __b)
20530 {
20531   return (int8_t) __builtin_aarch64_sqshrn_nhi (__a, __b);
20532 }
20533
20534 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
20535 vqshrns_n_s32 (int32_t __a, const int __b)
20536 {
20537   return (int16_t) __builtin_aarch64_sqshrn_nsi (__a, __b);
20538 }
20539
20540 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
20541 vqshrnd_n_s64 (int64_t __a, const int __b)
20542 {
20543   return (int32_t) __builtin_aarch64_sqshrn_ndi (__a, __b);
20544 }
20545
20546 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
20547 vqshrnh_n_u16 (uint16_t __a, const int __b)
20548 {
20549   return __builtin_aarch64_uqshrn_nhi_uus (__a, __b);
20550 }
20551
20552 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
20553 vqshrns_n_u32 (uint32_t __a, const int __b)
20554 {
20555   return __builtin_aarch64_uqshrn_nsi_uus (__a, __b);
20556 }
20557
20558 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
20559 vqshrnd_n_u64 (uint64_t __a, const int __b)
20560 {
20561   return __builtin_aarch64_uqshrn_ndi_uus (__a, __b);
20562 }
20563
20564 /* vqshrun */
20565
20566 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20567 vqshrun_n_s16 (int16x8_t __a, const int __b)
20568 {
20569   return (uint8x8_t) __builtin_aarch64_sqshrun_nv8hi (__a, __b);
20570 }
20571
20572 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
20573 vqshrun_n_s32 (int32x4_t __a, const int __b)
20574 {
20575   return (uint16x4_t) __builtin_aarch64_sqshrun_nv4si (__a, __b);
20576 }
20577
20578 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
20579 vqshrun_n_s64 (int64x2_t __a, const int __b)
20580 {
20581   return (uint32x2_t) __builtin_aarch64_sqshrun_nv2di (__a, __b);
20582 }
20583
20584 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
20585 vqshrunh_n_s16 (int16_t __a, const int __b)
20586 {
20587   return (int8_t) __builtin_aarch64_sqshrun_nhi (__a, __b);
20588 }
20589
20590 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
20591 vqshruns_n_s32 (int32_t __a, const int __b)
20592 {
20593   return (int16_t) __builtin_aarch64_sqshrun_nsi (__a, __b);
20594 }
20595
20596 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
20597 vqshrund_n_s64 (int64_t __a, const int __b)
20598 {
20599   return (int32_t) __builtin_aarch64_sqshrun_ndi (__a, __b);
20600 }
20601
20602 /* vqsub */
20603
20604 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
20605 vqsubb_s8 (int8_t __a, int8_t __b)
20606 {
20607   return (int8_t) __builtin_aarch64_sqsubqi (__a, __b);
20608 }
20609
20610 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
20611 vqsubh_s16 (int16_t __a, int16_t __b)
20612 {
20613   return (int16_t) __builtin_aarch64_sqsubhi (__a, __b);
20614 }
20615
20616 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
20617 vqsubs_s32 (int32_t __a, int32_t __b)
20618 {
20619   return (int32_t) __builtin_aarch64_sqsubsi (__a, __b);
20620 }
20621
20622 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
20623 vqsubd_s64 (int64_t __a, int64_t __b)
20624 {
20625   return __builtin_aarch64_sqsubdi (__a, __b);
20626 }
20627
20628 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
20629 vqsubb_u8 (uint8_t __a, uint8_t __b)
20630 {
20631   return (uint8_t) __builtin_aarch64_uqsubqi_uuu (__a, __b);
20632 }
20633
20634 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
20635 vqsubh_u16 (uint16_t __a, uint16_t __b)
20636 {
20637   return (uint16_t) __builtin_aarch64_uqsubhi_uuu (__a, __b);
20638 }
20639
20640 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
20641 vqsubs_u32 (uint32_t __a, uint32_t __b)
20642 {
20643   return (uint32_t) __builtin_aarch64_uqsubsi_uuu (__a, __b);
20644 }
20645
20646 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
20647 vqsubd_u64 (uint64_t __a, uint64_t __b)
20648 {
20649   return __builtin_aarch64_uqsubdi_uuu (__a, __b);
20650 }
20651
20652 /* vrbit  */
20653
20654 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
20655 vrbit_p8 (poly8x8_t __a)
20656 {
20657   return (poly8x8_t) __builtin_aarch64_rbitv8qi ((int8x8_t) __a);
20658 }
20659
20660 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
20661 vrbit_s8 (int8x8_t __a)
20662 {
20663   return __builtin_aarch64_rbitv8qi (__a);
20664 }
20665
20666 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20667 vrbit_u8 (uint8x8_t __a)
20668 {
20669   return (uint8x8_t) __builtin_aarch64_rbitv8qi ((int8x8_t) __a);
20670 }
20671
20672 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
20673 vrbitq_p8 (poly8x16_t __a)
20674 {
20675   return (poly8x16_t) __builtin_aarch64_rbitv16qi ((int8x16_t)__a);
20676 }
20677
20678 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
20679 vrbitq_s8 (int8x16_t __a)
20680 {
20681   return __builtin_aarch64_rbitv16qi (__a);
20682 }
20683
20684 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
20685 vrbitq_u8 (uint8x16_t __a)
20686 {
20687   return (uint8x16_t) __builtin_aarch64_rbitv16qi ((int8x16_t) __a);
20688 }
20689
20690 /* vrecpe  */
20691
20692 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
20693 vrecpe_u32 (uint32x2_t __a)
20694 {
20695   return (uint32x2_t) __builtin_aarch64_urecpev2si ((int32x2_t) __a);
20696 }
20697
20698 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
20699 vrecpeq_u32 (uint32x4_t __a)
20700 {
20701   return (uint32x4_t) __builtin_aarch64_urecpev4si ((int32x4_t) __a);
20702 }
20703
20704 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
20705 vrecpes_f32 (float32_t __a)
20706 {
20707   return __builtin_aarch64_frecpesf (__a);
20708 }
20709
20710 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
20711 vrecped_f64 (float64_t __a)
20712 {
20713   return __builtin_aarch64_frecpedf (__a);
20714 }
20715
20716 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
20717 vrecpe_f32 (float32x2_t __a)
20718 {
20719   return __builtin_aarch64_frecpev2sf (__a);
20720 }
20721
20722 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
20723 vrecpeq_f32 (float32x4_t __a)
20724 {
20725   return __builtin_aarch64_frecpev4sf (__a);
20726 }
20727
20728 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
20729 vrecpeq_f64 (float64x2_t __a)
20730 {
20731   return __builtin_aarch64_frecpev2df (__a);
20732 }
20733
20734 /* vrecps  */
20735
20736 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
20737 vrecpss_f32 (float32_t __a, float32_t __b)
20738 {
20739   return __builtin_aarch64_frecpssf (__a, __b);
20740 }
20741
20742 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
20743 vrecpsd_f64 (float64_t __a, float64_t __b)
20744 {
20745   return __builtin_aarch64_frecpsdf (__a, __b);
20746 }
20747
20748 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
20749 vrecps_f32 (float32x2_t __a, float32x2_t __b)
20750 {
20751   return __builtin_aarch64_frecpsv2sf (__a, __b);
20752 }
20753
20754 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
20755 vrecpsq_f32 (float32x4_t __a, float32x4_t __b)
20756 {
20757   return __builtin_aarch64_frecpsv4sf (__a, __b);
20758 }
20759
20760 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
20761 vrecpsq_f64 (float64x2_t __a, float64x2_t __b)
20762 {
20763   return __builtin_aarch64_frecpsv2df (__a, __b);
20764 }
20765
20766 /* vrecpx  */
20767
20768 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
20769 vrecpxs_f32 (float32_t __a)
20770 {
20771   return __builtin_aarch64_frecpxsf (__a);
20772 }
20773
20774 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
20775 vrecpxd_f64 (float64_t __a)
20776 {
20777   return __builtin_aarch64_frecpxdf (__a);
20778 }
20779
20780
20781 /* vrev  */
20782
20783 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
20784 vrev16_p8 (poly8x8_t a)
20785 {
20786   return __builtin_shuffle (a, (uint8x8_t) { 1, 0, 3, 2, 5, 4, 7, 6 });
20787 }
20788
20789 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
20790 vrev16_s8 (int8x8_t a)
20791 {
20792   return __builtin_shuffle (a, (uint8x8_t) { 1, 0, 3, 2, 5, 4, 7, 6 });
20793 }
20794
20795 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20796 vrev16_u8 (uint8x8_t a)
20797 {
20798   return __builtin_shuffle (a, (uint8x8_t) { 1, 0, 3, 2, 5, 4, 7, 6 });
20799 }
20800
20801 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
20802 vrev16q_p8 (poly8x16_t a)
20803 {
20804   return __builtin_shuffle (a,
20805       (uint8x16_t) { 1, 0, 3, 2, 5, 4, 7, 6, 9, 8, 11, 10, 13, 12, 15, 14 });
20806 }
20807
20808 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
20809 vrev16q_s8 (int8x16_t a)
20810 {
20811   return __builtin_shuffle (a,
20812       (uint8x16_t) { 1, 0, 3, 2, 5, 4, 7, 6, 9, 8, 11, 10, 13, 12, 15, 14 });
20813 }
20814
20815 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
20816 vrev16q_u8 (uint8x16_t a)
20817 {
20818   return __builtin_shuffle (a,
20819       (uint8x16_t) { 1, 0, 3, 2, 5, 4, 7, 6, 9, 8, 11, 10, 13, 12, 15, 14 });
20820 }
20821
20822 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
20823 vrev32_p8 (poly8x8_t a)
20824 {
20825   return __builtin_shuffle (a, (uint8x8_t) { 3, 2, 1, 0, 7, 6, 5, 4 });
20826 }
20827
20828 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
20829 vrev32_p16 (poly16x4_t a)
20830 {
20831   return __builtin_shuffle (a, (uint16x4_t) { 1, 0, 3, 2 });
20832 }
20833
20834 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
20835 vrev32_s8 (int8x8_t a)
20836 {
20837   return __builtin_shuffle (a, (uint8x8_t) { 3, 2, 1, 0, 7, 6, 5, 4 });
20838 }
20839
20840 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
20841 vrev32_s16 (int16x4_t a)
20842 {
20843   return __builtin_shuffle (a, (uint16x4_t) { 1, 0, 3, 2 });
20844 }
20845
20846 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20847 vrev32_u8 (uint8x8_t a)
20848 {
20849   return __builtin_shuffle (a, (uint8x8_t) { 3, 2, 1, 0, 7, 6, 5, 4 });
20850 }
20851
20852 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
20853 vrev32_u16 (uint16x4_t a)
20854 {
20855   return __builtin_shuffle (a, (uint16x4_t) { 1, 0, 3, 2 });
20856 }
20857
20858 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
20859 vrev32q_p8 (poly8x16_t a)
20860 {
20861   return __builtin_shuffle (a,
20862       (uint8x16_t) { 3, 2, 1, 0, 7, 6, 5, 4, 11, 10, 9, 8, 15, 14, 13, 12 });
20863 }
20864
20865 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
20866 vrev32q_p16 (poly16x8_t a)
20867 {
20868   return __builtin_shuffle (a, (uint16x8_t) { 1, 0, 3, 2, 5, 4, 7, 6 });
20869 }
20870
20871 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
20872 vrev32q_s8 (int8x16_t a)
20873 {
20874   return __builtin_shuffle (a,
20875       (uint8x16_t) { 3, 2, 1, 0, 7, 6, 5, 4, 11, 10, 9, 8, 15, 14, 13, 12 });
20876 }
20877
20878 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
20879 vrev32q_s16 (int16x8_t a)
20880 {
20881   return __builtin_shuffle (a, (uint16x8_t) { 1, 0, 3, 2, 5, 4, 7, 6 });
20882 }
20883
20884 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
20885 vrev32q_u8 (uint8x16_t a)
20886 {
20887   return __builtin_shuffle (a,
20888       (uint8x16_t) { 3, 2, 1, 0, 7, 6, 5, 4, 11, 10, 9, 8, 15, 14, 13, 12 });
20889 }
20890
20891 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
20892 vrev32q_u16 (uint16x8_t a)
20893 {
20894   return __builtin_shuffle (a, (uint16x8_t) { 1, 0, 3, 2, 5, 4, 7, 6 });
20895 }
20896
20897 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
20898 vrev64_f32 (float32x2_t a)
20899 {
20900   return __builtin_shuffle (a, (uint32x2_t) { 1, 0 });
20901 }
20902
20903 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
20904 vrev64_p8 (poly8x8_t a)
20905 {
20906   return __builtin_shuffle (a, (uint8x8_t) { 7, 6, 5, 4, 3, 2, 1, 0 });
20907 }
20908
20909 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
20910 vrev64_p16 (poly16x4_t a)
20911 {
20912   return __builtin_shuffle (a, (uint16x4_t) { 3, 2, 1, 0 });
20913 }
20914
20915 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
20916 vrev64_s8 (int8x8_t a)
20917 {
20918   return __builtin_shuffle (a, (uint8x8_t) { 7, 6, 5, 4, 3, 2, 1, 0 });
20919 }
20920
20921 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
20922 vrev64_s16 (int16x4_t a)
20923 {
20924   return __builtin_shuffle (a, (uint16x4_t) { 3, 2, 1, 0 });
20925 }
20926
20927 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
20928 vrev64_s32 (int32x2_t a)
20929 {
20930   return __builtin_shuffle (a, (uint32x2_t) { 1, 0 });
20931 }
20932
20933 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20934 vrev64_u8 (uint8x8_t a)
20935 {
20936   return __builtin_shuffle (a, (uint8x8_t) { 7, 6, 5, 4, 3, 2, 1, 0 });
20937 }
20938
20939 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
20940 vrev64_u16 (uint16x4_t a)
20941 {
20942   return __builtin_shuffle (a, (uint16x4_t) { 3, 2, 1, 0 });
20943 }
20944
20945 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
20946 vrev64_u32 (uint32x2_t a)
20947 {
20948   return __builtin_shuffle (a, (uint32x2_t) { 1, 0 });
20949 }
20950
20951 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
20952 vrev64q_f32 (float32x4_t a)
20953 {
20954   return __builtin_shuffle (a, (uint32x4_t) { 1, 0, 3, 2 });
20955 }
20956
20957 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
20958 vrev64q_p8 (poly8x16_t a)
20959 {
20960   return __builtin_shuffle (a,
20961       (uint8x16_t) { 7, 6, 5, 4, 3, 2, 1, 0, 15, 14, 13, 12, 11, 10, 9, 8 });
20962 }
20963
20964 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
20965 vrev64q_p16 (poly16x8_t a)
20966 {
20967   return __builtin_shuffle (a, (uint16x8_t) { 3, 2, 1, 0, 7, 6, 5, 4 });
20968 }
20969
20970 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
20971 vrev64q_s8 (int8x16_t a)
20972 {
20973   return __builtin_shuffle (a,
20974       (uint8x16_t) { 7, 6, 5, 4, 3, 2, 1, 0, 15, 14, 13, 12, 11, 10, 9, 8 });
20975 }
20976
20977 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
20978 vrev64q_s16 (int16x8_t a)
20979 {
20980   return __builtin_shuffle (a, (uint16x8_t) { 3, 2, 1, 0, 7, 6, 5, 4 });
20981 }
20982
20983 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
20984 vrev64q_s32 (int32x4_t a)
20985 {
20986   return __builtin_shuffle (a, (uint32x4_t) { 1, 0, 3, 2 });
20987 }
20988
20989 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
20990 vrev64q_u8 (uint8x16_t a)
20991 {
20992   return __builtin_shuffle (a,
20993       (uint8x16_t) { 7, 6, 5, 4, 3, 2, 1, 0, 15, 14, 13, 12, 11, 10, 9, 8 });
20994 }
20995
20996 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
20997 vrev64q_u16 (uint16x8_t a)
20998 {
20999   return __builtin_shuffle (a, (uint16x8_t) { 3, 2, 1, 0, 7, 6, 5, 4 });
21000 }
21001
21002 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
21003 vrev64q_u32 (uint32x4_t a)
21004 {
21005   return __builtin_shuffle (a, (uint32x4_t) { 1, 0, 3, 2 });
21006 }
21007
21008 /* vrnd  */
21009
21010 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
21011 vrnd_f32 (float32x2_t __a)
21012 {
21013   return __builtin_aarch64_btruncv2sf (__a);
21014 }
21015
21016 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
21017 vrnd_f64 (float64x1_t __a)
21018 {
21019   return vset_lane_f64 (__builtin_trunc (vget_lane_f64 (__a, 0)), __a, 0);
21020 }
21021
21022 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
21023 vrndq_f32 (float32x4_t __a)
21024 {
21025   return __builtin_aarch64_btruncv4sf (__a);
21026 }
21027
21028 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
21029 vrndq_f64 (float64x2_t __a)
21030 {
21031   return __builtin_aarch64_btruncv2df (__a);
21032 }
21033
21034 /* vrnda  */
21035
21036 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
21037 vrnda_f32 (float32x2_t __a)
21038 {
21039   return __builtin_aarch64_roundv2sf (__a);
21040 }
21041
21042 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
21043 vrnda_f64 (float64x1_t __a)
21044 {
21045   return vset_lane_f64 (__builtin_round (vget_lane_f64 (__a, 0)), __a, 0);
21046 }
21047
21048 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
21049 vrndaq_f32 (float32x4_t __a)
21050 {
21051   return __builtin_aarch64_roundv4sf (__a);
21052 }
21053
21054 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
21055 vrndaq_f64 (float64x2_t __a)
21056 {
21057   return __builtin_aarch64_roundv2df (__a);
21058 }
21059
21060 /* vrndi  */
21061
21062 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
21063 vrndi_f32 (float32x2_t __a)
21064 {
21065   return __builtin_aarch64_nearbyintv2sf (__a);
21066 }
21067
21068 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
21069 vrndi_f64 (float64x1_t __a)
21070 {
21071   return vset_lane_f64 (__builtin_nearbyint (vget_lane_f64 (__a, 0)), __a, 0);
21072 }
21073
21074 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
21075 vrndiq_f32 (float32x4_t __a)
21076 {
21077   return __builtin_aarch64_nearbyintv4sf (__a);
21078 }
21079
21080 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
21081 vrndiq_f64 (float64x2_t __a)
21082 {
21083   return __builtin_aarch64_nearbyintv2df (__a);
21084 }
21085
21086 /* vrndm  */
21087
21088 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
21089 vrndm_f32 (float32x2_t __a)
21090 {
21091   return __builtin_aarch64_floorv2sf (__a);
21092 }
21093
21094 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
21095 vrndm_f64 (float64x1_t __a)
21096 {
21097   return vset_lane_f64 (__builtin_floor (vget_lane_f64 (__a, 0)), __a, 0);
21098 }
21099
21100 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
21101 vrndmq_f32 (float32x4_t __a)
21102 {
21103   return __builtin_aarch64_floorv4sf (__a);
21104 }
21105
21106 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
21107 vrndmq_f64 (float64x2_t __a)
21108 {
21109   return __builtin_aarch64_floorv2df (__a);
21110 }
21111
21112 /* vrndn  */
21113
21114 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
21115 vrndn_f32 (float32x2_t __a)
21116 {
21117   return __builtin_aarch64_frintnv2sf (__a);
21118 }
21119
21120 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
21121 vrndn_f64 (float64x1_t __a)
21122 {
21123   return (float64x1_t) {__builtin_aarch64_frintndf (__a[0])};
21124 }
21125
21126 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
21127 vrndnq_f32 (float32x4_t __a)
21128 {
21129   return __builtin_aarch64_frintnv4sf (__a);
21130 }
21131
21132 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
21133 vrndnq_f64 (float64x2_t __a)
21134 {
21135   return __builtin_aarch64_frintnv2df (__a);
21136 }
21137
21138 /* vrndp  */
21139
21140 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
21141 vrndp_f32 (float32x2_t __a)
21142 {
21143   return __builtin_aarch64_ceilv2sf (__a);
21144 }
21145
21146 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
21147 vrndp_f64 (float64x1_t __a)
21148 {
21149   return vset_lane_f64 (__builtin_ceil (vget_lane_f64 (__a, 0)), __a, 0);
21150 }
21151
21152 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
21153 vrndpq_f32 (float32x4_t __a)
21154 {
21155   return __builtin_aarch64_ceilv4sf (__a);
21156 }
21157
21158 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
21159 vrndpq_f64 (float64x2_t __a)
21160 {
21161   return __builtin_aarch64_ceilv2df (__a);
21162 }
21163
21164 /* vrndx  */
21165
21166 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
21167 vrndx_f32 (float32x2_t __a)
21168 {
21169   return __builtin_aarch64_rintv2sf (__a);
21170 }
21171
21172 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
21173 vrndx_f64 (float64x1_t __a)
21174 {
21175   return vset_lane_f64 (__builtin_rint (vget_lane_f64 (__a, 0)), __a, 0);
21176 }
21177
21178 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
21179 vrndxq_f32 (float32x4_t __a)
21180 {
21181   return __builtin_aarch64_rintv4sf (__a);
21182 }
21183
21184 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
21185 vrndxq_f64 (float64x2_t __a)
21186 {
21187   return __builtin_aarch64_rintv2df (__a);
21188 }
21189
21190 /* vrshl */
21191
21192 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
21193 vrshl_s8 (int8x8_t __a, int8x8_t __b)
21194 {
21195   return (int8x8_t) __builtin_aarch64_srshlv8qi (__a, __b);
21196 }
21197
21198 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
21199 vrshl_s16 (int16x4_t __a, int16x4_t __b)
21200 {
21201   return (int16x4_t) __builtin_aarch64_srshlv4hi (__a, __b);
21202 }
21203
21204 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
21205 vrshl_s32 (int32x2_t __a, int32x2_t __b)
21206 {
21207   return (int32x2_t) __builtin_aarch64_srshlv2si (__a, __b);
21208 }
21209
21210 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
21211 vrshl_s64 (int64x1_t __a, int64x1_t __b)
21212 {
21213   return (int64x1_t) {__builtin_aarch64_srshldi (__a[0], __b[0])};
21214 }
21215
21216 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
21217 vrshl_u8 (uint8x8_t __a, int8x8_t __b)
21218 {
21219   return __builtin_aarch64_urshlv8qi_uus (__a, __b);
21220 }
21221
21222 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
21223 vrshl_u16 (uint16x4_t __a, int16x4_t __b)
21224 {
21225   return __builtin_aarch64_urshlv4hi_uus (__a, __b);
21226 }
21227
21228 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
21229 vrshl_u32 (uint32x2_t __a, int32x2_t __b)
21230 {
21231   return __builtin_aarch64_urshlv2si_uus (__a, __b);
21232 }
21233
21234 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
21235 vrshl_u64 (uint64x1_t __a, int64x1_t __b)
21236 {
21237   return (uint64x1_t) {__builtin_aarch64_urshldi_uus (__a[0], __b[0])};
21238 }
21239
21240 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
21241 vrshlq_s8 (int8x16_t __a, int8x16_t __b)
21242 {
21243   return (int8x16_t) __builtin_aarch64_srshlv16qi (__a, __b);
21244 }
21245
21246 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
21247 vrshlq_s16 (int16x8_t __a, int16x8_t __b)
21248 {
21249   return (int16x8_t) __builtin_aarch64_srshlv8hi (__a, __b);
21250 }
21251
21252 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21253 vrshlq_s32 (int32x4_t __a, int32x4_t __b)
21254 {
21255   return (int32x4_t) __builtin_aarch64_srshlv4si (__a, __b);
21256 }
21257
21258 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21259 vrshlq_s64 (int64x2_t __a, int64x2_t __b)
21260 {
21261   return (int64x2_t) __builtin_aarch64_srshlv2di (__a, __b);
21262 }
21263
21264 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
21265 vrshlq_u8 (uint8x16_t __a, int8x16_t __b)
21266 {
21267   return __builtin_aarch64_urshlv16qi_uus (__a, __b);
21268 }
21269
21270 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
21271 vrshlq_u16 (uint16x8_t __a, int16x8_t __b)
21272 {
21273   return __builtin_aarch64_urshlv8hi_uus (__a, __b);
21274 }
21275
21276 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
21277 vrshlq_u32 (uint32x4_t __a, int32x4_t __b)
21278 {
21279   return __builtin_aarch64_urshlv4si_uus (__a, __b);
21280 }
21281
21282 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
21283 vrshlq_u64 (uint64x2_t __a, int64x2_t __b)
21284 {
21285   return __builtin_aarch64_urshlv2di_uus (__a, __b);
21286 }
21287
21288 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
21289 vrshld_s64 (int64_t __a, int64_t __b)
21290 {
21291   return __builtin_aarch64_srshldi (__a, __b);
21292 }
21293
21294 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
21295 vrshld_u64 (uint64_t __a, int64_t __b)
21296 {
21297   return __builtin_aarch64_urshldi_uus (__a, __b);
21298 }
21299
21300 /* vrshr */
21301
21302 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
21303 vrshr_n_s8 (int8x8_t __a, const int __b)
21304 {
21305   return (int8x8_t) __builtin_aarch64_srshr_nv8qi (__a, __b);
21306 }
21307
21308 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
21309 vrshr_n_s16 (int16x4_t __a, const int __b)
21310 {
21311   return (int16x4_t) __builtin_aarch64_srshr_nv4hi (__a, __b);
21312 }
21313
21314 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
21315 vrshr_n_s32 (int32x2_t __a, const int __b)
21316 {
21317   return (int32x2_t) __builtin_aarch64_srshr_nv2si (__a, __b);
21318 }
21319
21320 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
21321 vrshr_n_s64 (int64x1_t __a, const int __b)
21322 {
21323   return (int64x1_t) {__builtin_aarch64_srshr_ndi (__a[0], __b)};
21324 }
21325
21326 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
21327 vrshr_n_u8 (uint8x8_t __a, const int __b)
21328 {
21329   return __builtin_aarch64_urshr_nv8qi_uus (__a, __b);
21330 }
21331
21332 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
21333 vrshr_n_u16 (uint16x4_t __a, const int __b)
21334 {
21335   return __builtin_aarch64_urshr_nv4hi_uus (__a, __b);
21336 }
21337
21338 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
21339 vrshr_n_u32 (uint32x2_t __a, const int __b)
21340 {
21341   return __builtin_aarch64_urshr_nv2si_uus (__a, __b);
21342 }
21343
21344 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
21345 vrshr_n_u64 (uint64x1_t __a, const int __b)
21346 {
21347   return (uint64x1_t) {__builtin_aarch64_urshr_ndi_uus (__a[0], __b)};
21348 }
21349
21350 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
21351 vrshrq_n_s8 (int8x16_t __a, const int __b)
21352 {
21353   return (int8x16_t) __builtin_aarch64_srshr_nv16qi (__a, __b);
21354 }
21355
21356 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
21357 vrshrq_n_s16 (int16x8_t __a, const int __b)
21358 {
21359   return (int16x8_t) __builtin_aarch64_srshr_nv8hi (__a, __b);
21360 }
21361
21362 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21363 vrshrq_n_s32 (int32x4_t __a, const int __b)
21364 {
21365   return (int32x4_t) __builtin_aarch64_srshr_nv4si (__a, __b);
21366 }
21367
21368 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21369 vrshrq_n_s64 (int64x2_t __a, const int __b)
21370 {
21371   return (int64x2_t) __builtin_aarch64_srshr_nv2di (__a, __b);
21372 }
21373
21374 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
21375 vrshrq_n_u8 (uint8x16_t __a, const int __b)
21376 {
21377   return __builtin_aarch64_urshr_nv16qi_uus (__a, __b);
21378 }
21379
21380 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
21381 vrshrq_n_u16 (uint16x8_t __a, const int __b)
21382 {
21383   return __builtin_aarch64_urshr_nv8hi_uus (__a, __b);
21384 }
21385
21386 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
21387 vrshrq_n_u32 (uint32x4_t __a, const int __b)
21388 {
21389   return __builtin_aarch64_urshr_nv4si_uus (__a, __b);
21390 }
21391
21392 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
21393 vrshrq_n_u64 (uint64x2_t __a, const int __b)
21394 {
21395   return __builtin_aarch64_urshr_nv2di_uus (__a, __b);
21396 }
21397
21398 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
21399 vrshrd_n_s64 (int64_t __a, const int __b)
21400 {
21401   return __builtin_aarch64_srshr_ndi (__a, __b);
21402 }
21403
21404 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
21405 vrshrd_n_u64 (uint64_t __a, const int __b)
21406 {
21407   return __builtin_aarch64_urshr_ndi_uus (__a, __b);
21408 }
21409
21410 /* vrsra */
21411
21412 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
21413 vrsra_n_s8 (int8x8_t __a, int8x8_t __b, const int __c)
21414 {
21415   return (int8x8_t) __builtin_aarch64_srsra_nv8qi (__a, __b, __c);
21416 }
21417
21418 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
21419 vrsra_n_s16 (int16x4_t __a, int16x4_t __b, const int __c)
21420 {
21421   return (int16x4_t) __builtin_aarch64_srsra_nv4hi (__a, __b, __c);
21422 }
21423
21424 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
21425 vrsra_n_s32 (int32x2_t __a, int32x2_t __b, const int __c)
21426 {
21427   return (int32x2_t) __builtin_aarch64_srsra_nv2si (__a, __b, __c);
21428 }
21429
21430 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
21431 vrsra_n_s64 (int64x1_t __a, int64x1_t __b, const int __c)
21432 {
21433   return (int64x1_t) {__builtin_aarch64_srsra_ndi (__a[0], __b[0], __c)};
21434 }
21435
21436 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
21437 vrsra_n_u8 (uint8x8_t __a, uint8x8_t __b, const int __c)
21438 {
21439   return __builtin_aarch64_ursra_nv8qi_uuus (__a, __b, __c);
21440 }
21441
21442 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
21443 vrsra_n_u16 (uint16x4_t __a, uint16x4_t __b, const int __c)
21444 {
21445   return __builtin_aarch64_ursra_nv4hi_uuus (__a, __b, __c);
21446 }
21447
21448 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
21449 vrsra_n_u32 (uint32x2_t __a, uint32x2_t __b, const int __c)
21450 {
21451   return __builtin_aarch64_ursra_nv2si_uuus (__a, __b, __c);
21452 }
21453
21454 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
21455 vrsra_n_u64 (uint64x1_t __a, uint64x1_t __b, const int __c)
21456 {
21457   return (uint64x1_t) {__builtin_aarch64_ursra_ndi_uuus (__a[0], __b[0], __c)};
21458 }
21459
21460 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
21461 vrsraq_n_s8 (int8x16_t __a, int8x16_t __b, const int __c)
21462 {
21463   return (int8x16_t) __builtin_aarch64_srsra_nv16qi (__a, __b, __c);
21464 }
21465
21466 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
21467 vrsraq_n_s16 (int16x8_t __a, int16x8_t __b, const int __c)
21468 {
21469   return (int16x8_t) __builtin_aarch64_srsra_nv8hi (__a, __b, __c);
21470 }
21471
21472 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21473 vrsraq_n_s32 (int32x4_t __a, int32x4_t __b, const int __c)
21474 {
21475   return (int32x4_t) __builtin_aarch64_srsra_nv4si (__a, __b, __c);
21476 }
21477
21478 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21479 vrsraq_n_s64 (int64x2_t __a, int64x2_t __b, const int __c)
21480 {
21481   return (int64x2_t) __builtin_aarch64_srsra_nv2di (__a, __b, __c);
21482 }
21483
21484 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
21485 vrsraq_n_u8 (uint8x16_t __a, uint8x16_t __b, const int __c)
21486 {
21487   return __builtin_aarch64_ursra_nv16qi_uuus (__a, __b, __c);
21488 }
21489
21490 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
21491 vrsraq_n_u16 (uint16x8_t __a, uint16x8_t __b, const int __c)
21492 {
21493   return __builtin_aarch64_ursra_nv8hi_uuus (__a, __b, __c);
21494 }
21495
21496 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
21497 vrsraq_n_u32 (uint32x4_t __a, uint32x4_t __b, const int __c)
21498 {
21499   return __builtin_aarch64_ursra_nv4si_uuus (__a, __b, __c);
21500 }
21501
21502 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
21503 vrsraq_n_u64 (uint64x2_t __a, uint64x2_t __b, const int __c)
21504 {
21505   return __builtin_aarch64_ursra_nv2di_uuus (__a, __b, __c);
21506 }
21507
21508 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
21509 vrsrad_n_s64 (int64_t __a, int64_t __b, const int __c)
21510 {
21511   return __builtin_aarch64_srsra_ndi (__a, __b, __c);
21512 }
21513
21514 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
21515 vrsrad_n_u64 (uint64_t __a, uint64_t __b, const int __c)
21516 {
21517   return __builtin_aarch64_ursra_ndi_uuus (__a, __b, __c);
21518 }
21519
21520 #ifdef __ARM_FEATURE_CRYPTO
21521
21522 /* vsha1  */
21523
21524 static __inline uint32x4_t
21525 vsha1cq_u32 (uint32x4_t hash_abcd, uint32_t hash_e, uint32x4_t wk)
21526 {
21527   return __builtin_aarch64_crypto_sha1cv4si_uuuu (hash_abcd, hash_e, wk);
21528 }
21529 static __inline uint32x4_t
21530 vsha1mq_u32 (uint32x4_t hash_abcd, uint32_t hash_e, uint32x4_t wk)
21531 {
21532   return __builtin_aarch64_crypto_sha1mv4si_uuuu (hash_abcd, hash_e, wk);
21533 }
21534 static __inline uint32x4_t
21535 vsha1pq_u32 (uint32x4_t hash_abcd, uint32_t hash_e, uint32x4_t wk)
21536 {
21537   return __builtin_aarch64_crypto_sha1pv4si_uuuu (hash_abcd, hash_e, wk);
21538 }
21539
21540 static __inline uint32_t
21541 vsha1h_u32 (uint32_t hash_e)
21542 {
21543   return __builtin_aarch64_crypto_sha1hsi_uu (hash_e);
21544 }
21545
21546 static __inline uint32x4_t
21547 vsha1su0q_u32 (uint32x4_t w0_3, uint32x4_t w4_7, uint32x4_t w8_11)
21548 {
21549   return __builtin_aarch64_crypto_sha1su0v4si_uuuu (w0_3, w4_7, w8_11);
21550 }
21551
21552 static __inline uint32x4_t
21553 vsha1su1q_u32 (uint32x4_t tw0_3, uint32x4_t w12_15)
21554 {
21555   return __builtin_aarch64_crypto_sha1su1v4si_uuu (tw0_3, w12_15);
21556 }
21557
21558 static __inline uint32x4_t
21559 vsha256hq_u32 (uint32x4_t hash_abcd, uint32x4_t hash_efgh, uint32x4_t wk)
21560 {
21561   return __builtin_aarch64_crypto_sha256hv4si_uuuu (hash_abcd, hash_efgh, wk);
21562 }
21563
21564 static __inline uint32x4_t
21565 vsha256h2q_u32 (uint32x4_t hash_efgh, uint32x4_t hash_abcd, uint32x4_t wk)
21566 {
21567   return __builtin_aarch64_crypto_sha256h2v4si_uuuu (hash_efgh, hash_abcd, wk);
21568 }
21569
21570 static __inline uint32x4_t
21571 vsha256su0q_u32 (uint32x4_t w0_3, uint32x4_t w4_7)
21572 {
21573   return __builtin_aarch64_crypto_sha256su0v4si_uuu (w0_3, w4_7);
21574 }
21575
21576 static __inline uint32x4_t
21577 vsha256su1q_u32 (uint32x4_t tw0_3, uint32x4_t w8_11, uint32x4_t w12_15)
21578 {
21579   return __builtin_aarch64_crypto_sha256su1v4si_uuuu (tw0_3, w8_11, w12_15);
21580 }
21581
21582 static __inline poly128_t
21583 vmull_p64 (poly64_t a, poly64_t b)
21584 {
21585   return
21586     __builtin_aarch64_crypto_pmulldi_ppp (a, b);
21587 }
21588
21589 static __inline poly128_t
21590 vmull_high_p64 (poly64x2_t a, poly64x2_t b)
21591 {
21592   return __builtin_aarch64_crypto_pmullv2di_ppp (a, b);
21593 }
21594
21595 #endif
21596
21597 /* vshl */
21598
21599 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
21600 vshl_n_s8 (int8x8_t __a, const int __b)
21601 {
21602   return (int8x8_t) __builtin_aarch64_ashlv8qi (__a, __b);
21603 }
21604
21605 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
21606 vshl_n_s16 (int16x4_t __a, const int __b)
21607 {
21608   return (int16x4_t) __builtin_aarch64_ashlv4hi (__a, __b);
21609 }
21610
21611 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
21612 vshl_n_s32 (int32x2_t __a, const int __b)
21613 {
21614   return (int32x2_t) __builtin_aarch64_ashlv2si (__a, __b);
21615 }
21616
21617 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
21618 vshl_n_s64 (int64x1_t __a, const int __b)
21619 {
21620   return (int64x1_t) {__builtin_aarch64_ashldi (__a[0], __b)};
21621 }
21622
21623 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
21624 vshl_n_u8 (uint8x8_t __a, const int __b)
21625 {
21626   return (uint8x8_t) __builtin_aarch64_ashlv8qi ((int8x8_t) __a, __b);
21627 }
21628
21629 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
21630 vshl_n_u16 (uint16x4_t __a, const int __b)
21631 {
21632   return (uint16x4_t) __builtin_aarch64_ashlv4hi ((int16x4_t) __a, __b);
21633 }
21634
21635 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
21636 vshl_n_u32 (uint32x2_t __a, const int __b)
21637 {
21638   return (uint32x2_t) __builtin_aarch64_ashlv2si ((int32x2_t) __a, __b);
21639 }
21640
21641 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
21642 vshl_n_u64 (uint64x1_t __a, const int __b)
21643 {
21644   return (uint64x1_t) {__builtin_aarch64_ashldi ((int64_t) __a[0], __b)};
21645 }
21646
21647 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
21648 vshlq_n_s8 (int8x16_t __a, const int __b)
21649 {
21650   return (int8x16_t) __builtin_aarch64_ashlv16qi (__a, __b);
21651 }
21652
21653 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
21654 vshlq_n_s16 (int16x8_t __a, const int __b)
21655 {
21656   return (int16x8_t) __builtin_aarch64_ashlv8hi (__a, __b);
21657 }
21658
21659 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21660 vshlq_n_s32 (int32x4_t __a, const int __b)
21661 {
21662   return (int32x4_t) __builtin_aarch64_ashlv4si (__a, __b);
21663 }
21664
21665 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21666 vshlq_n_s64 (int64x2_t __a, const int __b)
21667 {
21668   return (int64x2_t) __builtin_aarch64_ashlv2di (__a, __b);
21669 }
21670
21671 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
21672 vshlq_n_u8 (uint8x16_t __a, const int __b)
21673 {
21674   return (uint8x16_t) __builtin_aarch64_ashlv16qi ((int8x16_t) __a, __b);
21675 }
21676
21677 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
21678 vshlq_n_u16 (uint16x8_t __a, const int __b)
21679 {
21680   return (uint16x8_t) __builtin_aarch64_ashlv8hi ((int16x8_t) __a, __b);
21681 }
21682
21683 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
21684 vshlq_n_u32 (uint32x4_t __a, const int __b)
21685 {
21686   return (uint32x4_t) __builtin_aarch64_ashlv4si ((int32x4_t) __a, __b);
21687 }
21688
21689 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
21690 vshlq_n_u64 (uint64x2_t __a, const int __b)
21691 {
21692   return (uint64x2_t) __builtin_aarch64_ashlv2di ((int64x2_t) __a, __b);
21693 }
21694
21695 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
21696 vshld_n_s64 (int64_t __a, const int __b)
21697 {
21698   return __builtin_aarch64_ashldi (__a, __b);
21699 }
21700
21701 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
21702 vshld_n_u64 (uint64_t __a, const int __b)
21703 {
21704   return (uint64_t) __builtin_aarch64_ashldi (__a, __b);
21705 }
21706
21707 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
21708 vshl_s8 (int8x8_t __a, int8x8_t __b)
21709 {
21710   return __builtin_aarch64_sshlv8qi (__a, __b);
21711 }
21712
21713 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
21714 vshl_s16 (int16x4_t __a, int16x4_t __b)
21715 {
21716   return __builtin_aarch64_sshlv4hi (__a, __b);
21717 }
21718
21719 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
21720 vshl_s32 (int32x2_t __a, int32x2_t __b)
21721 {
21722   return __builtin_aarch64_sshlv2si (__a, __b);
21723 }
21724
21725 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
21726 vshl_s64 (int64x1_t __a, int64x1_t __b)
21727 {
21728   return (int64x1_t) {__builtin_aarch64_sshldi (__a[0], __b[0])};
21729 }
21730
21731 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
21732 vshl_u8 (uint8x8_t __a, int8x8_t __b)
21733 {
21734   return __builtin_aarch64_ushlv8qi_uus (__a, __b);
21735 }
21736
21737 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
21738 vshl_u16 (uint16x4_t __a, int16x4_t __b)
21739 {
21740   return __builtin_aarch64_ushlv4hi_uus (__a, __b);
21741 }
21742
21743 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
21744 vshl_u32 (uint32x2_t __a, int32x2_t __b)
21745 {
21746   return __builtin_aarch64_ushlv2si_uus (__a, __b);
21747 }
21748
21749 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
21750 vshl_u64 (uint64x1_t __a, int64x1_t __b)
21751 {
21752   return (uint64x1_t) {__builtin_aarch64_ushldi_uus (__a[0], __b[0])};
21753 }
21754
21755 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
21756 vshlq_s8 (int8x16_t __a, int8x16_t __b)
21757 {
21758   return __builtin_aarch64_sshlv16qi (__a, __b);
21759 }
21760
21761 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
21762 vshlq_s16 (int16x8_t __a, int16x8_t __b)
21763 {
21764   return __builtin_aarch64_sshlv8hi (__a, __b);
21765 }
21766
21767 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21768 vshlq_s32 (int32x4_t __a, int32x4_t __b)
21769 {
21770   return __builtin_aarch64_sshlv4si (__a, __b);
21771 }
21772
21773 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21774 vshlq_s64 (int64x2_t __a, int64x2_t __b)
21775 {
21776   return __builtin_aarch64_sshlv2di (__a, __b);
21777 }
21778
21779 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
21780 vshlq_u8 (uint8x16_t __a, int8x16_t __b)
21781 {
21782   return __builtin_aarch64_ushlv16qi_uus (__a, __b);
21783 }
21784
21785 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
21786 vshlq_u16 (uint16x8_t __a, int16x8_t __b)
21787 {
21788   return __builtin_aarch64_ushlv8hi_uus (__a, __b);
21789 }
21790
21791 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
21792 vshlq_u32 (uint32x4_t __a, int32x4_t __b)
21793 {
21794   return __builtin_aarch64_ushlv4si_uus (__a, __b);
21795 }
21796
21797 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
21798 vshlq_u64 (uint64x2_t __a, int64x2_t __b)
21799 {
21800   return __builtin_aarch64_ushlv2di_uus (__a, __b);
21801 }
21802
21803 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
21804 vshld_s64 (int64_t __a, int64_t __b)
21805 {
21806   return __builtin_aarch64_sshldi (__a, __b);
21807 }
21808
21809 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
21810 vshld_u64 (uint64_t __a, uint64_t __b)
21811 {
21812   return __builtin_aarch64_ushldi_uus (__a, __b);
21813 }
21814
21815 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
21816 vshll_high_n_s8 (int8x16_t __a, const int __b)
21817 {
21818   return __builtin_aarch64_sshll2_nv16qi (__a, __b);
21819 }
21820
21821 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21822 vshll_high_n_s16 (int16x8_t __a, const int __b)
21823 {
21824   return __builtin_aarch64_sshll2_nv8hi (__a, __b);
21825 }
21826
21827 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21828 vshll_high_n_s32 (int32x4_t __a, const int __b)
21829 {
21830   return __builtin_aarch64_sshll2_nv4si (__a, __b);
21831 }
21832
21833 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
21834 vshll_high_n_u8 (uint8x16_t __a, const int __b)
21835 {
21836   return (uint16x8_t) __builtin_aarch64_ushll2_nv16qi ((int8x16_t) __a, __b);
21837 }
21838
21839 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
21840 vshll_high_n_u16 (uint16x8_t __a, const int __b)
21841 {
21842   return (uint32x4_t) __builtin_aarch64_ushll2_nv8hi ((int16x8_t) __a, __b);
21843 }
21844
21845 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
21846 vshll_high_n_u32 (uint32x4_t __a, const int __b)
21847 {
21848   return (uint64x2_t) __builtin_aarch64_ushll2_nv4si ((int32x4_t) __a, __b);
21849 }
21850
21851 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
21852 vshll_n_s8 (int8x8_t __a, const int __b)
21853 {
21854   return __builtin_aarch64_sshll_nv8qi (__a, __b);
21855 }
21856
21857 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21858 vshll_n_s16 (int16x4_t __a, const int __b)
21859 {
21860   return __builtin_aarch64_sshll_nv4hi (__a, __b);
21861 }
21862
21863 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21864 vshll_n_s32 (int32x2_t __a, const int __b)
21865 {
21866   return __builtin_aarch64_sshll_nv2si (__a, __b);
21867 }
21868
21869 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
21870 vshll_n_u8 (uint8x8_t __a, const int __b)
21871 {
21872   return __builtin_aarch64_ushll_nv8qi_uus (__a, __b);
21873 }
21874
21875 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
21876 vshll_n_u16 (uint16x4_t __a, const int __b)
21877 {
21878   return __builtin_aarch64_ushll_nv4hi_uus (__a, __b);
21879 }
21880
21881 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
21882 vshll_n_u32 (uint32x2_t __a, const int __b)
21883 {
21884   return __builtin_aarch64_ushll_nv2si_uus (__a, __b);
21885 }
21886
21887 /* vshr */
21888
21889 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
21890 vshr_n_s8 (int8x8_t __a, const int __b)
21891 {
21892   return (int8x8_t) __builtin_aarch64_ashrv8qi (__a, __b);
21893 }
21894
21895 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
21896 vshr_n_s16 (int16x4_t __a, const int __b)
21897 {
21898   return (int16x4_t) __builtin_aarch64_ashrv4hi (__a, __b);
21899 }
21900
21901 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
21902 vshr_n_s32 (int32x2_t __a, const int __b)
21903 {
21904   return (int32x2_t) __builtin_aarch64_ashrv2si (__a, __b);
21905 }
21906
21907 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
21908 vshr_n_s64 (int64x1_t __a, const int __b)
21909 {
21910   return (int64x1_t) {__builtin_aarch64_ashr_simddi (__a[0], __b)};
21911 }
21912
21913 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
21914 vshr_n_u8 (uint8x8_t __a, const int __b)
21915 {
21916   return (uint8x8_t) __builtin_aarch64_lshrv8qi ((int8x8_t) __a, __b);
21917 }
21918
21919 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
21920 vshr_n_u16 (uint16x4_t __a, const int __b)
21921 {
21922   return (uint16x4_t) __builtin_aarch64_lshrv4hi ((int16x4_t) __a, __b);
21923 }
21924
21925 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
21926 vshr_n_u32 (uint32x2_t __a, const int __b)
21927 {
21928   return (uint32x2_t) __builtin_aarch64_lshrv2si ((int32x2_t) __a, __b);
21929 }
21930
21931 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
21932 vshr_n_u64 (uint64x1_t __a, const int __b)
21933 {
21934   return (uint64x1_t) {__builtin_aarch64_lshr_simddi_uus ( __a[0], __b)};
21935 }
21936
21937 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
21938 vshrq_n_s8 (int8x16_t __a, const int __b)
21939 {
21940   return (int8x16_t) __builtin_aarch64_ashrv16qi (__a, __b);
21941 }
21942
21943 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
21944 vshrq_n_s16 (int16x8_t __a, const int __b)
21945 {
21946   return (int16x8_t) __builtin_aarch64_ashrv8hi (__a, __b);
21947 }
21948
21949 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21950 vshrq_n_s32 (int32x4_t __a, const int __b)
21951 {
21952   return (int32x4_t) __builtin_aarch64_ashrv4si (__a, __b);
21953 }
21954
21955 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21956 vshrq_n_s64 (int64x2_t __a, const int __b)
21957 {
21958   return (int64x2_t) __builtin_aarch64_ashrv2di (__a, __b);
21959 }
21960
21961 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
21962 vshrq_n_u8 (uint8x16_t __a, const int __b)
21963 {
21964   return (uint8x16_t) __builtin_aarch64_lshrv16qi ((int8x16_t) __a, __b);
21965 }
21966
21967 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
21968 vshrq_n_u16 (uint16x8_t __a, const int __b)
21969 {
21970   return (uint16x8_t) __builtin_aarch64_lshrv8hi ((int16x8_t) __a, __b);
21971 }
21972
21973 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
21974 vshrq_n_u32 (uint32x4_t __a, const int __b)
21975 {
21976   return (uint32x4_t) __builtin_aarch64_lshrv4si ((int32x4_t) __a, __b);
21977 }
21978
21979 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
21980 vshrq_n_u64 (uint64x2_t __a, const int __b)
21981 {
21982   return (uint64x2_t) __builtin_aarch64_lshrv2di ((int64x2_t) __a, __b);
21983 }
21984
21985 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
21986 vshrd_n_s64 (int64_t __a, const int __b)
21987 {
21988   return __builtin_aarch64_ashr_simddi (__a, __b);
21989 }
21990
21991 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
21992 vshrd_n_u64 (uint64_t __a, const int __b)
21993 {
21994   return __builtin_aarch64_lshr_simddi_uus (__a, __b);
21995 }
21996
21997 /* vsli */
21998
21999 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
22000 vsli_n_s8 (int8x8_t __a, int8x8_t __b, const int __c)
22001 {
22002   return (int8x8_t) __builtin_aarch64_ssli_nv8qi (__a, __b, __c);
22003 }
22004
22005 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
22006 vsli_n_s16 (int16x4_t __a, int16x4_t __b, const int __c)
22007 {
22008   return (int16x4_t) __builtin_aarch64_ssli_nv4hi (__a, __b, __c);
22009 }
22010
22011 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
22012 vsli_n_s32 (int32x2_t __a, int32x2_t __b, const int __c)
22013 {
22014   return (int32x2_t) __builtin_aarch64_ssli_nv2si (__a, __b, __c);
22015 }
22016
22017 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
22018 vsli_n_s64 (int64x1_t __a, int64x1_t __b, const int __c)
22019 {
22020   return (int64x1_t) {__builtin_aarch64_ssli_ndi (__a[0], __b[0], __c)};
22021 }
22022
22023 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
22024 vsli_n_u8 (uint8x8_t __a, uint8x8_t __b, const int __c)
22025 {
22026   return __builtin_aarch64_usli_nv8qi_uuus (__a, __b, __c);
22027 }
22028
22029 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
22030 vsli_n_u16 (uint16x4_t __a, uint16x4_t __b, const int __c)
22031 {
22032   return __builtin_aarch64_usli_nv4hi_uuus (__a, __b, __c);
22033 }
22034
22035 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
22036 vsli_n_u32 (uint32x2_t __a, uint32x2_t __b, const int __c)
22037 {
22038   return __builtin_aarch64_usli_nv2si_uuus (__a, __b, __c);
22039 }
22040
22041 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
22042 vsli_n_u64 (uint64x1_t __a, uint64x1_t __b, const int __c)
22043 {
22044   return (uint64x1_t) {__builtin_aarch64_usli_ndi_uuus (__a[0], __b[0], __c)};
22045 }
22046
22047 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
22048 vsliq_n_s8 (int8x16_t __a, int8x16_t __b, const int __c)
22049 {
22050   return (int8x16_t) __builtin_aarch64_ssli_nv16qi (__a, __b, __c);
22051 }
22052
22053 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
22054 vsliq_n_s16 (int16x8_t __a, int16x8_t __b, const int __c)
22055 {
22056   return (int16x8_t) __builtin_aarch64_ssli_nv8hi (__a, __b, __c);
22057 }
22058
22059 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
22060 vsliq_n_s32 (int32x4_t __a, int32x4_t __b, const int __c)
22061 {
22062   return (int32x4_t) __builtin_aarch64_ssli_nv4si (__a, __b, __c);
22063 }
22064
22065 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
22066 vsliq_n_s64 (int64x2_t __a, int64x2_t __b, const int __c)
22067 {
22068   return (int64x2_t) __builtin_aarch64_ssli_nv2di (__a, __b, __c);
22069 }
22070
22071 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
22072 vsliq_n_u8 (uint8x16_t __a, uint8x16_t __b, const int __c)
22073 {
22074   return __builtin_aarch64_usli_nv16qi_uuus (__a, __b, __c);
22075 }
22076
22077 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
22078 vsliq_n_u16 (uint16x8_t __a, uint16x8_t __b, const int __c)
22079 {
22080   return __builtin_aarch64_usli_nv8hi_uuus (__a, __b, __c);
22081 }
22082
22083 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
22084 vsliq_n_u32 (uint32x4_t __a, uint32x4_t __b, const int __c)
22085 {
22086   return __builtin_aarch64_usli_nv4si_uuus (__a, __b, __c);
22087 }
22088
22089 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
22090 vsliq_n_u64 (uint64x2_t __a, uint64x2_t __b, const int __c)
22091 {
22092   return __builtin_aarch64_usli_nv2di_uuus (__a, __b, __c);
22093 }
22094
22095 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
22096 vslid_n_s64 (int64_t __a, int64_t __b, const int __c)
22097 {
22098   return __builtin_aarch64_ssli_ndi (__a, __b, __c);
22099 }
22100
22101 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
22102 vslid_n_u64 (uint64_t __a, uint64_t __b, const int __c)
22103 {
22104   return __builtin_aarch64_usli_ndi_uuus (__a, __b, __c);
22105 }
22106
22107 /* vsqadd */
22108
22109 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
22110 vsqadd_u8 (uint8x8_t __a, int8x8_t __b)
22111 {
22112   return __builtin_aarch64_usqaddv8qi_uus (__a, __b);
22113 }
22114
22115 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
22116 vsqadd_u16 (uint16x4_t __a, int16x4_t __b)
22117 {
22118   return __builtin_aarch64_usqaddv4hi_uus (__a, __b);
22119 }
22120
22121 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
22122 vsqadd_u32 (uint32x2_t __a, int32x2_t __b)
22123 {
22124   return __builtin_aarch64_usqaddv2si_uus (__a, __b);
22125 }
22126
22127 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
22128 vsqadd_u64 (uint64x1_t __a, int64x1_t __b)
22129 {
22130   return (uint64x1_t) {__builtin_aarch64_usqadddi_uus (__a[0], __b[0])};
22131 }
22132
22133 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
22134 vsqaddq_u8 (uint8x16_t __a, int8x16_t __b)
22135 {
22136   return __builtin_aarch64_usqaddv16qi_uus (__a, __b);
22137 }
22138
22139 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
22140 vsqaddq_u16 (uint16x8_t __a, int16x8_t __b)
22141 {
22142   return __builtin_aarch64_usqaddv8hi_uus (__a, __b);
22143 }
22144
22145 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
22146 vsqaddq_u32 (uint32x4_t __a, int32x4_t __b)
22147 {
22148   return __builtin_aarch64_usqaddv4si_uus (__a, __b);
22149 }
22150
22151 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
22152 vsqaddq_u64 (uint64x2_t __a, int64x2_t __b)
22153 {
22154   return __builtin_aarch64_usqaddv2di_uus (__a, __b);
22155 }
22156
22157 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
22158 vsqaddb_u8 (uint8_t __a, int8_t __b)
22159 {
22160   return __builtin_aarch64_usqaddqi_uus (__a, __b);
22161 }
22162
22163 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
22164 vsqaddh_u16 (uint16_t __a, int16_t __b)
22165 {
22166   return __builtin_aarch64_usqaddhi_uus (__a, __b);
22167 }
22168
22169 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
22170 vsqadds_u32 (uint32_t __a, int32_t __b)
22171 {
22172   return __builtin_aarch64_usqaddsi_uus (__a, __b);
22173 }
22174
22175 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
22176 vsqaddd_u64 (uint64_t __a, int64_t __b)
22177 {
22178   return __builtin_aarch64_usqadddi_uus (__a, __b);
22179 }
22180
22181 /* vsqrt */
22182 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
22183 vsqrt_f32 (float32x2_t a)
22184 {
22185   return __builtin_aarch64_sqrtv2sf (a);
22186 }
22187
22188 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
22189 vsqrtq_f32 (float32x4_t a)
22190 {
22191   return __builtin_aarch64_sqrtv4sf (a);
22192 }
22193
22194 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
22195 vsqrt_f64 (float64x1_t a)
22196 {
22197   return (float64x1_t) { __builtin_sqrt (a[0]) };
22198 }
22199
22200 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
22201 vsqrtq_f64 (float64x2_t a)
22202 {
22203   return __builtin_aarch64_sqrtv2df (a);
22204 }
22205
22206 /* vsra */
22207
22208 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
22209 vsra_n_s8 (int8x8_t __a, int8x8_t __b, const int __c)
22210 {
22211   return (int8x8_t) __builtin_aarch64_ssra_nv8qi (__a, __b, __c);
22212 }
22213
22214 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
22215 vsra_n_s16 (int16x4_t __a, int16x4_t __b, const int __c)
22216 {
22217   return (int16x4_t) __builtin_aarch64_ssra_nv4hi (__a, __b, __c);
22218 }
22219
22220 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
22221 vsra_n_s32 (int32x2_t __a, int32x2_t __b, const int __c)
22222 {
22223   return (int32x2_t) __builtin_aarch64_ssra_nv2si (__a, __b, __c);
22224 }
22225
22226 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
22227 vsra_n_s64 (int64x1_t __a, int64x1_t __b, const int __c)
22228 {
22229   return (int64x1_t) {__builtin_aarch64_ssra_ndi (__a[0], __b[0], __c)};
22230 }
22231
22232 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
22233 vsra_n_u8 (uint8x8_t __a, uint8x8_t __b, const int __c)
22234 {
22235   return __builtin_aarch64_usra_nv8qi_uuus (__a, __b, __c);
22236 }
22237
22238 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
22239 vsra_n_u16 (uint16x4_t __a, uint16x4_t __b, const int __c)
22240 {
22241   return __builtin_aarch64_usra_nv4hi_uuus (__a, __b, __c);
22242 }
22243
22244 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
22245 vsra_n_u32 (uint32x2_t __a, uint32x2_t __b, const int __c)
22246 {
22247   return __builtin_aarch64_usra_nv2si_uuus (__a, __b, __c);
22248 }
22249
22250 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
22251 vsra_n_u64 (uint64x1_t __a, uint64x1_t __b, const int __c)
22252 {
22253   return (uint64x1_t) {__builtin_aarch64_usra_ndi_uuus (__a[0], __b[0], __c)};
22254 }
22255
22256 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
22257 vsraq_n_s8 (int8x16_t __a, int8x16_t __b, const int __c)
22258 {
22259   return (int8x16_t) __builtin_aarch64_ssra_nv16qi (__a, __b, __c);
22260 }
22261
22262 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
22263 vsraq_n_s16 (int16x8_t __a, int16x8_t __b, const int __c)
22264 {
22265   return (int16x8_t) __builtin_aarch64_ssra_nv8hi (__a, __b, __c);
22266 }
22267
22268 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
22269 vsraq_n_s32 (int32x4_t __a, int32x4_t __b, const int __c)
22270 {
22271   return (int32x4_t) __builtin_aarch64_ssra_nv4si (__a, __b, __c);
22272 }
22273
22274 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
22275 vsraq_n_s64 (int64x2_t __a, int64x2_t __b, const int __c)
22276 {
22277   return (int64x2_t) __builtin_aarch64_ssra_nv2di (__a, __b, __c);
22278 }
22279
22280 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
22281 vsraq_n_u8 (uint8x16_t __a, uint8x16_t __b, const int __c)
22282 {
22283   return __builtin_aarch64_usra_nv16qi_uuus (__a, __b, __c);
22284 }
22285
22286 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
22287 vsraq_n_u16 (uint16x8_t __a, uint16x8_t __b, const int __c)
22288 {
22289   return __builtin_aarch64_usra_nv8hi_uuus (__a, __b, __c);
22290 }
22291
22292 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
22293 vsraq_n_u32 (uint32x4_t __a, uint32x4_t __b, const int __c)
22294 {
22295   return __builtin_aarch64_usra_nv4si_uuus (__a, __b, __c);
22296 }
22297
22298 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
22299 vsraq_n_u64 (uint64x2_t __a, uint64x2_t __b, const int __c)
22300 {
22301   return __builtin_aarch64_usra_nv2di_uuus (__a, __b, __c);
22302 }
22303
22304 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
22305 vsrad_n_s64 (int64_t __a, int64_t __b, const int __c)
22306 {
22307   return __builtin_aarch64_ssra_ndi (__a, __b, __c);
22308 }
22309
22310 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
22311 vsrad_n_u64 (uint64_t __a, uint64_t __b, const int __c)
22312 {
22313   return __builtin_aarch64_usra_ndi_uuus (__a, __b, __c);
22314 }
22315
22316 /* vsri */
22317
22318 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
22319 vsri_n_s8 (int8x8_t __a, int8x8_t __b, const int __c)
22320 {
22321   return (int8x8_t) __builtin_aarch64_ssri_nv8qi (__a, __b, __c);
22322 }
22323
22324 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
22325 vsri_n_s16 (int16x4_t __a, int16x4_t __b, const int __c)
22326 {
22327   return (int16x4_t) __builtin_aarch64_ssri_nv4hi (__a, __b, __c);
22328 }
22329
22330 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
22331 vsri_n_s32 (int32x2_t __a, int32x2_t __b, const int __c)
22332 {
22333   return (int32x2_t) __builtin_aarch64_ssri_nv2si (__a, __b, __c);
22334 }
22335
22336 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
22337 vsri_n_s64 (int64x1_t __a, int64x1_t __b, const int __c)
22338 {
22339   return (int64x1_t) {__builtin_aarch64_ssri_ndi (__a[0], __b[0], __c)};
22340 }
22341
22342 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
22343 vsri_n_u8 (uint8x8_t __a, uint8x8_t __b, const int __c)
22344 {
22345   return __builtin_aarch64_usri_nv8qi_uuus (__a, __b, __c);
22346 }
22347
22348 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
22349 vsri_n_u16 (uint16x4_t __a, uint16x4_t __b, const int __c)
22350 {
22351   return __builtin_aarch64_usri_nv4hi_uuus (__a, __b, __c);
22352 }
22353
22354 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
22355 vsri_n_u32 (uint32x2_t __a, uint32x2_t __b, const int __c)
22356 {
22357   return __builtin_aarch64_usri_nv2si_uuus (__a, __b, __c);
22358 }
22359
22360 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
22361 vsri_n_u64 (uint64x1_t __a, uint64x1_t __b, const int __c)
22362 {
22363   return (uint64x1_t) {__builtin_aarch64_usri_ndi_uuus (__a[0], __b[0], __c)};
22364 }
22365
22366 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
22367 vsriq_n_s8 (int8x16_t __a, int8x16_t __b, const int __c)
22368 {
22369   return (int8x16_t) __builtin_aarch64_ssri_nv16qi (__a, __b, __c);
22370 }
22371
22372 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
22373 vsriq_n_s16 (int16x8_t __a, int16x8_t __b, const int __c)
22374 {
22375   return (int16x8_t) __builtin_aarch64_ssri_nv8hi (__a, __b, __c);
22376 }
22377
22378 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
22379 vsriq_n_s32 (int32x4_t __a, int32x4_t __b, const int __c)
22380 {
22381   return (int32x4_t) __builtin_aarch64_ssri_nv4si (__a, __b, __c);
22382 }
22383
22384 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
22385 vsriq_n_s64 (int64x2_t __a, int64x2_t __b, const int __c)
22386 {
22387   return (int64x2_t) __builtin_aarch64_ssri_nv2di (__a, __b, __c);
22388 }
22389
22390 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
22391 vsriq_n_u8 (uint8x16_t __a, uint8x16_t __b, const int __c)
22392 {
22393   return __builtin_aarch64_usri_nv16qi_uuus (__a, __b, __c);
22394 }
22395
22396 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
22397 vsriq_n_u16 (uint16x8_t __a, uint16x8_t __b, const int __c)
22398 {
22399   return __builtin_aarch64_usri_nv8hi_uuus (__a, __b, __c);
22400 }
22401
22402 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
22403 vsriq_n_u32 (uint32x4_t __a, uint32x4_t __b, const int __c)
22404 {
22405   return __builtin_aarch64_usri_nv4si_uuus (__a, __b, __c);
22406 }
22407
22408 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
22409 vsriq_n_u64 (uint64x2_t __a, uint64x2_t __b, const int __c)
22410 {
22411   return __builtin_aarch64_usri_nv2di_uuus (__a, __b, __c);
22412 }
22413
22414 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
22415 vsrid_n_s64 (int64_t __a, int64_t __b, const int __c)
22416 {
22417   return __builtin_aarch64_ssri_ndi (__a, __b, __c);
22418 }
22419
22420 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
22421 vsrid_n_u64 (uint64_t __a, uint64_t __b, const int __c)
22422 {
22423   return __builtin_aarch64_usri_ndi_uuus (__a, __b, __c);
22424 }
22425
22426 /* vst1 */
22427
22428 __extension__ static __inline void __attribute__ ((__always_inline__))
22429 vst1_f32 (float32_t *a, float32x2_t b)
22430 {
22431   __builtin_aarch64_st1v2sf ((__builtin_aarch64_simd_sf *) a, b);
22432 }
22433
22434 __extension__ static __inline void __attribute__ ((__always_inline__))
22435 vst1_f64 (float64_t *a, float64x1_t b)
22436 {
22437   *a = b[0];
22438 }
22439
22440 __extension__ static __inline void __attribute__ ((__always_inline__))
22441 vst1_p8 (poly8_t *a, poly8x8_t b)
22442 {
22443   __builtin_aarch64_st1v8qi ((__builtin_aarch64_simd_qi *) a,
22444                              (int8x8_t) b);
22445 }
22446
22447 __extension__ static __inline void __attribute__ ((__always_inline__))
22448 vst1_p16 (poly16_t *a, poly16x4_t b)
22449 {
22450   __builtin_aarch64_st1v4hi ((__builtin_aarch64_simd_hi *) a,
22451                              (int16x4_t) b);
22452 }
22453
22454 __extension__ static __inline void __attribute__ ((__always_inline__))
22455 vst1_s8 (int8_t *a, int8x8_t b)
22456 {
22457   __builtin_aarch64_st1v8qi ((__builtin_aarch64_simd_qi *) a, b);
22458 }
22459
22460 __extension__ static __inline void __attribute__ ((__always_inline__))
22461 vst1_s16 (int16_t *a, int16x4_t b)
22462 {
22463   __builtin_aarch64_st1v4hi ((__builtin_aarch64_simd_hi *) a, b);
22464 }
22465
22466 __extension__ static __inline void __attribute__ ((__always_inline__))
22467 vst1_s32 (int32_t *a, int32x2_t b)
22468 {
22469   __builtin_aarch64_st1v2si ((__builtin_aarch64_simd_si *) a, b);
22470 }
22471
22472 __extension__ static __inline void __attribute__ ((__always_inline__))
22473 vst1_s64 (int64_t *a, int64x1_t b)
22474 {
22475   *a = b[0];
22476 }
22477
22478 __extension__ static __inline void __attribute__ ((__always_inline__))
22479 vst1_u8 (uint8_t *a, uint8x8_t b)
22480 {
22481   __builtin_aarch64_st1v8qi ((__builtin_aarch64_simd_qi *) a,
22482                              (int8x8_t) b);
22483 }
22484
22485 __extension__ static __inline void __attribute__ ((__always_inline__))
22486 vst1_u16 (uint16_t *a, uint16x4_t b)
22487 {
22488   __builtin_aarch64_st1v4hi ((__builtin_aarch64_simd_hi *) a,
22489                              (int16x4_t) b);
22490 }
22491
22492 __extension__ static __inline void __attribute__ ((__always_inline__))
22493 vst1_u32 (uint32_t *a, uint32x2_t b)
22494 {
22495   __builtin_aarch64_st1v2si ((__builtin_aarch64_simd_si *) a,
22496                              (int32x2_t) b);
22497 }
22498
22499 __extension__ static __inline void __attribute__ ((__always_inline__))
22500 vst1_u64 (uint64_t *a, uint64x1_t b)
22501 {
22502   *a = b[0];
22503 }
22504
22505 __extension__ static __inline void __attribute__ ((__always_inline__))
22506 vst1q_f32 (float32_t *a, float32x4_t b)
22507 {
22508   __builtin_aarch64_st1v4sf ((__builtin_aarch64_simd_sf *) a, b);
22509 }
22510
22511 __extension__ static __inline void __attribute__ ((__always_inline__))
22512 vst1q_f64 (float64_t *a, float64x2_t b)
22513 {
22514   __builtin_aarch64_st1v2df ((__builtin_aarch64_simd_df *) a, b);
22515 }
22516
22517 /* vst1q */
22518
22519 __extension__ static __inline void __attribute__ ((__always_inline__))
22520 vst1q_p8 (poly8_t *a, poly8x16_t b)
22521 {
22522   __builtin_aarch64_st1v16qi ((__builtin_aarch64_simd_qi *) a,
22523                               (int8x16_t) b);
22524 }
22525
22526 __extension__ static __inline void __attribute__ ((__always_inline__))
22527 vst1q_p16 (poly16_t *a, poly16x8_t b)
22528 {
22529   __builtin_aarch64_st1v8hi ((__builtin_aarch64_simd_hi *) a,
22530                              (int16x8_t) b);
22531 }
22532
22533 __extension__ static __inline void __attribute__ ((__always_inline__))
22534 vst1q_s8 (int8_t *a, int8x16_t b)
22535 {
22536   __builtin_aarch64_st1v16qi ((__builtin_aarch64_simd_qi *) a, b);
22537 }
22538
22539 __extension__ static __inline void __attribute__ ((__always_inline__))
22540 vst1q_s16 (int16_t *a, int16x8_t b)
22541 {
22542   __builtin_aarch64_st1v8hi ((__builtin_aarch64_simd_hi *) a, b);
22543 }
22544
22545 __extension__ static __inline void __attribute__ ((__always_inline__))
22546 vst1q_s32 (int32_t *a, int32x4_t b)
22547 {
22548   __builtin_aarch64_st1v4si ((__builtin_aarch64_simd_si *) a, b);
22549 }
22550
22551 __extension__ static __inline void __attribute__ ((__always_inline__))
22552 vst1q_s64 (int64_t *a, int64x2_t b)
22553 {
22554   __builtin_aarch64_st1v2di ((__builtin_aarch64_simd_di *) a, b);
22555 }
22556
22557 __extension__ static __inline void __attribute__ ((__always_inline__))
22558 vst1q_u8 (uint8_t *a, uint8x16_t b)
22559 {
22560   __builtin_aarch64_st1v16qi ((__builtin_aarch64_simd_qi *) a,
22561                               (int8x16_t) b);
22562 }
22563
22564 __extension__ static __inline void __attribute__ ((__always_inline__))
22565 vst1q_u16 (uint16_t *a, uint16x8_t b)
22566 {
22567   __builtin_aarch64_st1v8hi ((__builtin_aarch64_simd_hi *) a,
22568                              (int16x8_t) b);
22569 }
22570
22571 __extension__ static __inline void __attribute__ ((__always_inline__))
22572 vst1q_u32 (uint32_t *a, uint32x4_t b)
22573 {
22574   __builtin_aarch64_st1v4si ((__builtin_aarch64_simd_si *) a,
22575                              (int32x4_t) b);
22576 }
22577
22578 __extension__ static __inline void __attribute__ ((__always_inline__))
22579 vst1q_u64 (uint64_t *a, uint64x2_t b)
22580 {
22581   __builtin_aarch64_st1v2di ((__builtin_aarch64_simd_di *) a,
22582                              (int64x2_t) b);
22583 }
22584
22585 /* vstn */
22586
22587 __extension__ static __inline void
22588 vst2_s64 (int64_t * __a, int64x1x2_t val)
22589 {
22590   __builtin_aarch64_simd_oi __o;
22591   int64x2x2_t temp;
22592   temp.val[0] = vcombine_s64 (val.val[0], vcreate_s64 (__AARCH64_INT64_C (0)));
22593   temp.val[1] = vcombine_s64 (val.val[1], vcreate_s64 (__AARCH64_INT64_C (0)));
22594   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) temp.val[0], 0);
22595   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) temp.val[1], 1);
22596   __builtin_aarch64_st2di ((__builtin_aarch64_simd_di *) __a, __o);
22597 }
22598
22599 __extension__ static __inline void
22600 vst2_u64 (uint64_t * __a, uint64x1x2_t val)
22601 {
22602   __builtin_aarch64_simd_oi __o;
22603   uint64x2x2_t temp;
22604   temp.val[0] = vcombine_u64 (val.val[0], vcreate_u64 (__AARCH64_UINT64_C (0)));
22605   temp.val[1] = vcombine_u64 (val.val[1], vcreate_u64 (__AARCH64_UINT64_C (0)));
22606   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) temp.val[0], 0);
22607   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) temp.val[1], 1);
22608   __builtin_aarch64_st2di ((__builtin_aarch64_simd_di *) __a, __o);
22609 }
22610
22611 __extension__ static __inline void
22612 vst2_f64 (float64_t * __a, float64x1x2_t val)
22613 {
22614   __builtin_aarch64_simd_oi __o;
22615   float64x2x2_t temp;
22616   temp.val[0] = vcombine_f64 (val.val[0], vcreate_f64 (__AARCH64_UINT64_C (0)));
22617   temp.val[1] = vcombine_f64 (val.val[1], vcreate_f64 (__AARCH64_UINT64_C (0)));
22618   __o = __builtin_aarch64_set_qregoiv2df (__o, (float64x2_t) temp.val[0], 0);
22619   __o = __builtin_aarch64_set_qregoiv2df (__o, (float64x2_t) temp.val[1], 1);
22620   __builtin_aarch64_st2df ((__builtin_aarch64_simd_df *) __a, __o);
22621 }
22622
22623 __extension__ static __inline void
22624 vst2_s8 (int8_t * __a, int8x8x2_t val)
22625 {
22626   __builtin_aarch64_simd_oi __o;
22627   int8x16x2_t temp;
22628   temp.val[0] = vcombine_s8 (val.val[0], vcreate_s8 (__AARCH64_INT64_C (0)));
22629   temp.val[1] = vcombine_s8 (val.val[1], vcreate_s8 (__AARCH64_INT64_C (0)));
22630   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) temp.val[0], 0);
22631   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) temp.val[1], 1);
22632   __builtin_aarch64_st2v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
22633 }
22634
22635 __extension__ static __inline void __attribute__ ((__always_inline__))
22636 vst2_p8 (poly8_t * __a, poly8x8x2_t val)
22637 {
22638   __builtin_aarch64_simd_oi __o;
22639   poly8x16x2_t temp;
22640   temp.val[0] = vcombine_p8 (val.val[0], vcreate_p8 (__AARCH64_UINT64_C (0)));
22641   temp.val[1] = vcombine_p8 (val.val[1], vcreate_p8 (__AARCH64_UINT64_C (0)));
22642   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) temp.val[0], 0);
22643   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) temp.val[1], 1);
22644   __builtin_aarch64_st2v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
22645 }
22646
22647 __extension__ static __inline void __attribute__ ((__always_inline__))
22648 vst2_s16 (int16_t * __a, int16x4x2_t val)
22649 {
22650   __builtin_aarch64_simd_oi __o;
22651   int16x8x2_t temp;
22652   temp.val[0] = vcombine_s16 (val.val[0], vcreate_s16 (__AARCH64_INT64_C (0)));
22653   temp.val[1] = vcombine_s16 (val.val[1], vcreate_s16 (__AARCH64_INT64_C (0)));
22654   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) temp.val[0], 0);
22655   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) temp.val[1], 1);
22656   __builtin_aarch64_st2v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
22657 }
22658
22659 __extension__ static __inline void __attribute__ ((__always_inline__))
22660 vst2_p16 (poly16_t * __a, poly16x4x2_t val)
22661 {
22662   __builtin_aarch64_simd_oi __o;
22663   poly16x8x2_t temp;
22664   temp.val[0] = vcombine_p16 (val.val[0], vcreate_p16 (__AARCH64_UINT64_C (0)));
22665   temp.val[1] = vcombine_p16 (val.val[1], vcreate_p16 (__AARCH64_UINT64_C (0)));
22666   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) temp.val[0], 0);
22667   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) temp.val[1], 1);
22668   __builtin_aarch64_st2v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
22669 }
22670
22671 __extension__ static __inline void __attribute__ ((__always_inline__))
22672 vst2_s32 (int32_t * __a, int32x2x2_t val)
22673 {
22674   __builtin_aarch64_simd_oi __o;
22675   int32x4x2_t temp;
22676   temp.val[0] = vcombine_s32 (val.val[0], vcreate_s32 (__AARCH64_INT64_C (0)));
22677   temp.val[1] = vcombine_s32 (val.val[1], vcreate_s32 (__AARCH64_INT64_C (0)));
22678   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) temp.val[0], 0);
22679   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) temp.val[1], 1);
22680   __builtin_aarch64_st2v2si ((__builtin_aarch64_simd_si *) __a, __o);
22681 }
22682
22683 __extension__ static __inline void __attribute__ ((__always_inline__))
22684 vst2_u8 (uint8_t * __a, uint8x8x2_t val)
22685 {
22686   __builtin_aarch64_simd_oi __o;
22687   uint8x16x2_t temp;
22688   temp.val[0] = vcombine_u8 (val.val[0], vcreate_u8 (__AARCH64_UINT64_C (0)));
22689   temp.val[1] = vcombine_u8 (val.val[1], vcreate_u8 (__AARCH64_UINT64_C (0)));
22690   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) temp.val[0], 0);
22691   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) temp.val[1], 1);
22692   __builtin_aarch64_st2v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
22693 }
22694
22695 __extension__ static __inline void __attribute__ ((__always_inline__))
22696 vst2_u16 (uint16_t * __a, uint16x4x2_t val)
22697 {
22698   __builtin_aarch64_simd_oi __o;
22699   uint16x8x2_t temp;
22700   temp.val[0] = vcombine_u16 (val.val[0], vcreate_u16 (__AARCH64_UINT64_C (0)));
22701   temp.val[1] = vcombine_u16 (val.val[1], vcreate_u16 (__AARCH64_UINT64_C (0)));
22702   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) temp.val[0], 0);
22703   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) temp.val[1], 1);
22704   __builtin_aarch64_st2v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
22705 }
22706
22707 __extension__ static __inline void __attribute__ ((__always_inline__))
22708 vst2_u32 (uint32_t * __a, uint32x2x2_t val)
22709 {
22710   __builtin_aarch64_simd_oi __o;
22711   uint32x4x2_t temp;
22712   temp.val[0] = vcombine_u32 (val.val[0], vcreate_u32 (__AARCH64_UINT64_C (0)));
22713   temp.val[1] = vcombine_u32 (val.val[1], vcreate_u32 (__AARCH64_UINT64_C (0)));
22714   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) temp.val[0], 0);
22715   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) temp.val[1], 1);
22716   __builtin_aarch64_st2v2si ((__builtin_aarch64_simd_si *) __a, __o);
22717 }
22718
22719 __extension__ static __inline void __attribute__ ((__always_inline__))
22720 vst2_f32 (float32_t * __a, float32x2x2_t val)
22721 {
22722   __builtin_aarch64_simd_oi __o;
22723   float32x4x2_t temp;
22724   temp.val[0] = vcombine_f32 (val.val[0], vcreate_f32 (__AARCH64_UINT64_C (0)));
22725   temp.val[1] = vcombine_f32 (val.val[1], vcreate_f32 (__AARCH64_UINT64_C (0)));
22726   __o = __builtin_aarch64_set_qregoiv4sf (__o, (float32x4_t) temp.val[0], 0);
22727   __o = __builtin_aarch64_set_qregoiv4sf (__o, (float32x4_t) temp.val[1], 1);
22728   __builtin_aarch64_st2v2sf ((__builtin_aarch64_simd_sf *) __a, __o);
22729 }
22730
22731 __extension__ static __inline void __attribute__ ((__always_inline__))
22732 vst2q_s8 (int8_t * __a, int8x16x2_t val)
22733 {
22734   __builtin_aarch64_simd_oi __o;
22735   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) val.val[0], 0);
22736   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) val.val[1], 1);
22737   __builtin_aarch64_st2v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
22738 }
22739
22740 __extension__ static __inline void __attribute__ ((__always_inline__))
22741 vst2q_p8 (poly8_t * __a, poly8x16x2_t val)
22742 {
22743   __builtin_aarch64_simd_oi __o;
22744   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) val.val[0], 0);
22745   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) val.val[1], 1);
22746   __builtin_aarch64_st2v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
22747 }
22748
22749 __extension__ static __inline void __attribute__ ((__always_inline__))
22750 vst2q_s16 (int16_t * __a, int16x8x2_t val)
22751 {
22752   __builtin_aarch64_simd_oi __o;
22753   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) val.val[0], 0);
22754   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) val.val[1], 1);
22755   __builtin_aarch64_st2v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
22756 }
22757
22758 __extension__ static __inline void __attribute__ ((__always_inline__))
22759 vst2q_p16 (poly16_t * __a, poly16x8x2_t val)
22760 {
22761   __builtin_aarch64_simd_oi __o;
22762   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) val.val[0], 0);
22763   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) val.val[1], 1);
22764   __builtin_aarch64_st2v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
22765 }
22766
22767 __extension__ static __inline void __attribute__ ((__always_inline__))
22768 vst2q_s32 (int32_t * __a, int32x4x2_t val)
22769 {
22770   __builtin_aarch64_simd_oi __o;
22771   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) val.val[0], 0);
22772   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) val.val[1], 1);
22773   __builtin_aarch64_st2v4si ((__builtin_aarch64_simd_si *) __a, __o);
22774 }
22775
22776 __extension__ static __inline void __attribute__ ((__always_inline__))
22777 vst2q_s64 (int64_t * __a, int64x2x2_t val)
22778 {
22779   __builtin_aarch64_simd_oi __o;
22780   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) val.val[0], 0);
22781   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) val.val[1], 1);
22782   __builtin_aarch64_st2v2di ((__builtin_aarch64_simd_di *) __a, __o);
22783 }
22784
22785 __extension__ static __inline void __attribute__ ((__always_inline__))
22786 vst2q_u8 (uint8_t * __a, uint8x16x2_t val)
22787 {
22788   __builtin_aarch64_simd_oi __o;
22789   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) val.val[0], 0);
22790   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) val.val[1], 1);
22791   __builtin_aarch64_st2v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
22792 }
22793
22794 __extension__ static __inline void __attribute__ ((__always_inline__))
22795 vst2q_u16 (uint16_t * __a, uint16x8x2_t val)
22796 {
22797   __builtin_aarch64_simd_oi __o;
22798   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) val.val[0], 0);
22799   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) val.val[1], 1);
22800   __builtin_aarch64_st2v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
22801 }
22802
22803 __extension__ static __inline void __attribute__ ((__always_inline__))
22804 vst2q_u32 (uint32_t * __a, uint32x4x2_t val)
22805 {
22806   __builtin_aarch64_simd_oi __o;
22807   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) val.val[0], 0);
22808   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) val.val[1], 1);
22809   __builtin_aarch64_st2v4si ((__builtin_aarch64_simd_si *) __a, __o);
22810 }
22811
22812 __extension__ static __inline void __attribute__ ((__always_inline__))
22813 vst2q_u64 (uint64_t * __a, uint64x2x2_t val)
22814 {
22815   __builtin_aarch64_simd_oi __o;
22816   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) val.val[0], 0);
22817   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) val.val[1], 1);
22818   __builtin_aarch64_st2v2di ((__builtin_aarch64_simd_di *) __a, __o);
22819 }
22820
22821 __extension__ static __inline void __attribute__ ((__always_inline__))
22822 vst2q_f32 (float32_t * __a, float32x4x2_t val)
22823 {
22824   __builtin_aarch64_simd_oi __o;
22825   __o = __builtin_aarch64_set_qregoiv4sf (__o, (float32x4_t) val.val[0], 0);
22826   __o = __builtin_aarch64_set_qregoiv4sf (__o, (float32x4_t) val.val[1], 1);
22827   __builtin_aarch64_st2v4sf ((__builtin_aarch64_simd_sf *) __a, __o);
22828 }
22829
22830 __extension__ static __inline void __attribute__ ((__always_inline__))
22831 vst2q_f64 (float64_t * __a, float64x2x2_t val)
22832 {
22833   __builtin_aarch64_simd_oi __o;
22834   __o = __builtin_aarch64_set_qregoiv2df (__o, (float64x2_t) val.val[0], 0);
22835   __o = __builtin_aarch64_set_qregoiv2df (__o, (float64x2_t) val.val[1], 1);
22836   __builtin_aarch64_st2v2df ((__builtin_aarch64_simd_df *) __a, __o);
22837 }
22838
22839 __extension__ static __inline void
22840 vst3_s64 (int64_t * __a, int64x1x3_t val)
22841 {
22842   __builtin_aarch64_simd_ci __o;
22843   int64x2x3_t temp;
22844   temp.val[0] = vcombine_s64 (val.val[0], vcreate_s64 (__AARCH64_INT64_C (0)));
22845   temp.val[1] = vcombine_s64 (val.val[1], vcreate_s64 (__AARCH64_INT64_C (0)));
22846   temp.val[2] = vcombine_s64 (val.val[2], vcreate_s64 (__AARCH64_INT64_C (0)));
22847   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) temp.val[0], 0);
22848   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) temp.val[1], 1);
22849   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) temp.val[2], 2);
22850   __builtin_aarch64_st3di ((__builtin_aarch64_simd_di *) __a, __o);
22851 }
22852
22853 __extension__ static __inline void
22854 vst3_u64 (uint64_t * __a, uint64x1x3_t val)
22855 {
22856   __builtin_aarch64_simd_ci __o;
22857   uint64x2x3_t temp;
22858   temp.val[0] = vcombine_u64 (val.val[0], vcreate_u64 (__AARCH64_UINT64_C (0)));
22859   temp.val[1] = vcombine_u64 (val.val[1], vcreate_u64 (__AARCH64_UINT64_C (0)));
22860   temp.val[2] = vcombine_u64 (val.val[2], vcreate_u64 (__AARCH64_UINT64_C (0)));
22861   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) temp.val[0], 0);
22862   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) temp.val[1], 1);
22863   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) temp.val[2], 2);
22864   __builtin_aarch64_st3di ((__builtin_aarch64_simd_di *) __a, __o);
22865 }
22866
22867 __extension__ static __inline void
22868 vst3_f64 (float64_t * __a, float64x1x3_t val)
22869 {
22870   __builtin_aarch64_simd_ci __o;
22871   float64x2x3_t temp;
22872   temp.val[0] = vcombine_f64 (val.val[0], vcreate_f64 (__AARCH64_UINT64_C (0)));
22873   temp.val[1] = vcombine_f64 (val.val[1], vcreate_f64 (__AARCH64_UINT64_C (0)));
22874   temp.val[2] = vcombine_f64 (val.val[2], vcreate_f64 (__AARCH64_UINT64_C (0)));
22875   __o = __builtin_aarch64_set_qregciv2df (__o, (float64x2_t) temp.val[0], 0);
22876   __o = __builtin_aarch64_set_qregciv2df (__o, (float64x2_t) temp.val[1], 1);
22877   __o = __builtin_aarch64_set_qregciv2df (__o, (float64x2_t) temp.val[2], 2);
22878   __builtin_aarch64_st3df ((__builtin_aarch64_simd_df *) __a, __o);
22879 }
22880
22881 __extension__ static __inline void
22882 vst3_s8 (int8_t * __a, int8x8x3_t val)
22883 {
22884   __builtin_aarch64_simd_ci __o;
22885   int8x16x3_t temp;
22886   temp.val[0] = vcombine_s8 (val.val[0], vcreate_s8 (__AARCH64_INT64_C (0)));
22887   temp.val[1] = vcombine_s8 (val.val[1], vcreate_s8 (__AARCH64_INT64_C (0)));
22888   temp.val[2] = vcombine_s8 (val.val[2], vcreate_s8 (__AARCH64_INT64_C (0)));
22889   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[0], 0);
22890   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[1], 1);
22891   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[2], 2);
22892   __builtin_aarch64_st3v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
22893 }
22894
22895 __extension__ static __inline void __attribute__ ((__always_inline__))
22896 vst3_p8 (poly8_t * __a, poly8x8x3_t val)
22897 {
22898   __builtin_aarch64_simd_ci __o;
22899   poly8x16x3_t temp;
22900   temp.val[0] = vcombine_p8 (val.val[0], vcreate_p8 (__AARCH64_UINT64_C (0)));
22901   temp.val[1] = vcombine_p8 (val.val[1], vcreate_p8 (__AARCH64_UINT64_C (0)));
22902   temp.val[2] = vcombine_p8 (val.val[2], vcreate_p8 (__AARCH64_UINT64_C (0)));
22903   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[0], 0);
22904   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[1], 1);
22905   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[2], 2);
22906   __builtin_aarch64_st3v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
22907 }
22908
22909 __extension__ static __inline void __attribute__ ((__always_inline__))
22910 vst3_s16 (int16_t * __a, int16x4x3_t val)
22911 {
22912   __builtin_aarch64_simd_ci __o;
22913   int16x8x3_t temp;
22914   temp.val[0] = vcombine_s16 (val.val[0], vcreate_s16 (__AARCH64_INT64_C (0)));
22915   temp.val[1] = vcombine_s16 (val.val[1], vcreate_s16 (__AARCH64_INT64_C (0)));
22916   temp.val[2] = vcombine_s16 (val.val[2], vcreate_s16 (__AARCH64_INT64_C (0)));
22917   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[0], 0);
22918   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[1], 1);
22919   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[2], 2);
22920   __builtin_aarch64_st3v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
22921 }
22922
22923 __extension__ static __inline void __attribute__ ((__always_inline__))
22924 vst3_p16 (poly16_t * __a, poly16x4x3_t val)
22925 {
22926   __builtin_aarch64_simd_ci __o;
22927   poly16x8x3_t temp;
22928   temp.val[0] = vcombine_p16 (val.val[0], vcreate_p16 (__AARCH64_UINT64_C (0)));
22929   temp.val[1] = vcombine_p16 (val.val[1], vcreate_p16 (__AARCH64_UINT64_C (0)));
22930   temp.val[2] = vcombine_p16 (val.val[2], vcreate_p16 (__AARCH64_UINT64_C (0)));
22931   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[0], 0);
22932   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[1], 1);
22933   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[2], 2);
22934   __builtin_aarch64_st3v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
22935 }
22936
22937 __extension__ static __inline void __attribute__ ((__always_inline__))
22938 vst3_s32 (int32_t * __a, int32x2x3_t val)
22939 {
22940   __builtin_aarch64_simd_ci __o;
22941   int32x4x3_t temp;
22942   temp.val[0] = vcombine_s32 (val.val[0], vcreate_s32 (__AARCH64_INT64_C (0)));
22943   temp.val[1] = vcombine_s32 (val.val[1], vcreate_s32 (__AARCH64_INT64_C (0)));
22944   temp.val[2] = vcombine_s32 (val.val[2], vcreate_s32 (__AARCH64_INT64_C (0)));
22945   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) temp.val[0], 0);
22946   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) temp.val[1], 1);
22947   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) temp.val[2], 2);
22948   __builtin_aarch64_st3v2si ((__builtin_aarch64_simd_si *) __a, __o);
22949 }
22950
22951 __extension__ static __inline void __attribute__ ((__always_inline__))
22952 vst3_u8 (uint8_t * __a, uint8x8x3_t val)
22953 {
22954   __builtin_aarch64_simd_ci __o;
22955   uint8x16x3_t temp;
22956   temp.val[0] = vcombine_u8 (val.val[0], vcreate_u8 (__AARCH64_UINT64_C (0)));
22957   temp.val[1] = vcombine_u8 (val.val[1], vcreate_u8 (__AARCH64_UINT64_C (0)));
22958   temp.val[2] = vcombine_u8 (val.val[2], vcreate_u8 (__AARCH64_UINT64_C (0)));
22959   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[0], 0);
22960   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[1], 1);
22961   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[2], 2);
22962   __builtin_aarch64_st3v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
22963 }
22964
22965 __extension__ static __inline void __attribute__ ((__always_inline__))
22966 vst3_u16 (uint16_t * __a, uint16x4x3_t val)
22967 {
22968   __builtin_aarch64_simd_ci __o;
22969   uint16x8x3_t temp;
22970   temp.val[0] = vcombine_u16 (val.val[0], vcreate_u16 (__AARCH64_UINT64_C (0)));
22971   temp.val[1] = vcombine_u16 (val.val[1], vcreate_u16 (__AARCH64_UINT64_C (0)));
22972   temp.val[2] = vcombine_u16 (val.val[2], vcreate_u16 (__AARCH64_UINT64_C (0)));
22973   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[0], 0);
22974   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[1], 1);
22975   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[2], 2);
22976   __builtin_aarch64_st3v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
22977 }
22978
22979 __extension__ static __inline void __attribute__ ((__always_inline__))
22980 vst3_u32 (uint32_t * __a, uint32x2x3_t val)
22981 {
22982   __builtin_aarch64_simd_ci __o;
22983   uint32x4x3_t temp;
22984   temp.val[0] = vcombine_u32 (val.val[0], vcreate_u32 (__AARCH64_UINT64_C (0)));
22985   temp.val[1] = vcombine_u32 (val.val[1], vcreate_u32 (__AARCH64_UINT64_C (0)));
22986   temp.val[2] = vcombine_u32 (val.val[2], vcreate_u32 (__AARCH64_UINT64_C (0)));
22987   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) temp.val[0], 0);
22988   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) temp.val[1], 1);
22989   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) temp.val[2], 2);
22990   __builtin_aarch64_st3v2si ((__builtin_aarch64_simd_si *) __a, __o);
22991 }
22992
22993 __extension__ static __inline void __attribute__ ((__always_inline__))
22994 vst3_f32 (float32_t * __a, float32x2x3_t val)
22995 {
22996   __builtin_aarch64_simd_ci __o;
22997   float32x4x3_t temp;
22998   temp.val[0] = vcombine_f32 (val.val[0], vcreate_f32 (__AARCH64_UINT64_C (0)));
22999   temp.val[1] = vcombine_f32 (val.val[1], vcreate_f32 (__AARCH64_UINT64_C (0)));
23000   temp.val[2] = vcombine_f32 (val.val[2], vcreate_f32 (__AARCH64_UINT64_C (0)));
23001   __o = __builtin_aarch64_set_qregciv4sf (__o, (float32x4_t) temp.val[0], 0);
23002   __o = __builtin_aarch64_set_qregciv4sf (__o, (float32x4_t) temp.val[1], 1);
23003   __o = __builtin_aarch64_set_qregciv4sf (__o, (float32x4_t) temp.val[2], 2);
23004   __builtin_aarch64_st3v2sf ((__builtin_aarch64_simd_sf *) __a, __o);
23005 }
23006
23007 __extension__ static __inline void __attribute__ ((__always_inline__))
23008 vst3q_s8 (int8_t * __a, int8x16x3_t val)
23009 {
23010   __builtin_aarch64_simd_ci __o;
23011   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[0], 0);
23012   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[1], 1);
23013   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[2], 2);
23014   __builtin_aarch64_st3v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
23015 }
23016
23017 __extension__ static __inline void __attribute__ ((__always_inline__))
23018 vst3q_p8 (poly8_t * __a, poly8x16x3_t val)
23019 {
23020   __builtin_aarch64_simd_ci __o;
23021   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[0], 0);
23022   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[1], 1);
23023   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[2], 2);
23024   __builtin_aarch64_st3v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
23025 }
23026
23027 __extension__ static __inline void __attribute__ ((__always_inline__))
23028 vst3q_s16 (int16_t * __a, int16x8x3_t val)
23029 {
23030   __builtin_aarch64_simd_ci __o;
23031   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[0], 0);
23032   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[1], 1);
23033   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[2], 2);
23034   __builtin_aarch64_st3v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
23035 }
23036
23037 __extension__ static __inline void __attribute__ ((__always_inline__))
23038 vst3q_p16 (poly16_t * __a, poly16x8x3_t val)
23039 {
23040   __builtin_aarch64_simd_ci __o;
23041   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[0], 0);
23042   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[1], 1);
23043   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[2], 2);
23044   __builtin_aarch64_st3v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
23045 }
23046
23047 __extension__ static __inline void __attribute__ ((__always_inline__))
23048 vst3q_s32 (int32_t * __a, int32x4x3_t val)
23049 {
23050   __builtin_aarch64_simd_ci __o;
23051   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) val.val[0], 0);
23052   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) val.val[1], 1);
23053   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) val.val[2], 2);
23054   __builtin_aarch64_st3v4si ((__builtin_aarch64_simd_si *) __a, __o);
23055 }
23056
23057 __extension__ static __inline void __attribute__ ((__always_inline__))
23058 vst3q_s64 (int64_t * __a, int64x2x3_t val)
23059 {
23060   __builtin_aarch64_simd_ci __o;
23061   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) val.val[0], 0);
23062   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) val.val[1], 1);
23063   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) val.val[2], 2);
23064   __builtin_aarch64_st3v2di ((__builtin_aarch64_simd_di *) __a, __o);
23065 }
23066
23067 __extension__ static __inline void __attribute__ ((__always_inline__))
23068 vst3q_u8 (uint8_t * __a, uint8x16x3_t val)
23069 {
23070   __builtin_aarch64_simd_ci __o;
23071   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[0], 0);
23072   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[1], 1);
23073   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[2], 2);
23074   __builtin_aarch64_st3v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
23075 }
23076
23077 __extension__ static __inline void __attribute__ ((__always_inline__))
23078 vst3q_u16 (uint16_t * __a, uint16x8x3_t val)
23079 {
23080   __builtin_aarch64_simd_ci __o;
23081   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[0], 0);
23082   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[1], 1);
23083   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[2], 2);
23084   __builtin_aarch64_st3v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
23085 }
23086
23087 __extension__ static __inline void __attribute__ ((__always_inline__))
23088 vst3q_u32 (uint32_t * __a, uint32x4x3_t val)
23089 {
23090   __builtin_aarch64_simd_ci __o;
23091   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) val.val[0], 0);
23092   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) val.val[1], 1);
23093   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) val.val[2], 2);
23094   __builtin_aarch64_st3v4si ((__builtin_aarch64_simd_si *) __a, __o);
23095 }
23096
23097 __extension__ static __inline void __attribute__ ((__always_inline__))
23098 vst3q_u64 (uint64_t * __a, uint64x2x3_t val)
23099 {
23100   __builtin_aarch64_simd_ci __o;
23101   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) val.val[0], 0);
23102   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) val.val[1], 1);
23103   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) val.val[2], 2);
23104   __builtin_aarch64_st3v2di ((__builtin_aarch64_simd_di *) __a, __o);
23105 }
23106
23107 __extension__ static __inline void __attribute__ ((__always_inline__))
23108 vst3q_f32 (float32_t * __a, float32x4x3_t val)
23109 {
23110   __builtin_aarch64_simd_ci __o;
23111   __o = __builtin_aarch64_set_qregciv4sf (__o, (float32x4_t) val.val[0], 0);
23112   __o = __builtin_aarch64_set_qregciv4sf (__o, (float32x4_t) val.val[1], 1);
23113   __o = __builtin_aarch64_set_qregciv4sf (__o, (float32x4_t) val.val[2], 2);
23114   __builtin_aarch64_st3v4sf ((__builtin_aarch64_simd_sf *) __a, __o);
23115 }
23116
23117 __extension__ static __inline void __attribute__ ((__always_inline__))
23118 vst3q_f64 (float64_t * __a, float64x2x3_t val)
23119 {
23120   __builtin_aarch64_simd_ci __o;
23121   __o = __builtin_aarch64_set_qregciv2df (__o, (float64x2_t) val.val[0], 0);
23122   __o = __builtin_aarch64_set_qregciv2df (__o, (float64x2_t) val.val[1], 1);
23123   __o = __builtin_aarch64_set_qregciv2df (__o, (float64x2_t) val.val[2], 2);
23124   __builtin_aarch64_st3v2df ((__builtin_aarch64_simd_df *) __a, __o);
23125 }
23126
23127 __extension__ static __inline void
23128 vst4_s64 (int64_t * __a, int64x1x4_t val)
23129 {
23130   __builtin_aarch64_simd_xi __o;
23131   int64x2x4_t temp;
23132   temp.val[0] = vcombine_s64 (val.val[0], vcreate_s64 (__AARCH64_INT64_C (0)));
23133   temp.val[1] = vcombine_s64 (val.val[1], vcreate_s64 (__AARCH64_INT64_C (0)));
23134   temp.val[2] = vcombine_s64 (val.val[2], vcreate_s64 (__AARCH64_INT64_C (0)));
23135   temp.val[3] = vcombine_s64 (val.val[3], vcreate_s64 (__AARCH64_INT64_C (0)));
23136   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[0], 0);
23137   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[1], 1);
23138   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[2], 2);
23139   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[3], 3);
23140   __builtin_aarch64_st4di ((__builtin_aarch64_simd_di *) __a, __o);
23141 }
23142
23143 __extension__ static __inline void
23144 vst4_u64 (uint64_t * __a, uint64x1x4_t val)
23145 {
23146   __builtin_aarch64_simd_xi __o;
23147   uint64x2x4_t temp;
23148   temp.val[0] = vcombine_u64 (val.val[0], vcreate_u64 (__AARCH64_UINT64_C (0)));
23149   temp.val[1] = vcombine_u64 (val.val[1], vcreate_u64 (__AARCH64_UINT64_C (0)));
23150   temp.val[2] = vcombine_u64 (val.val[2], vcreate_u64 (__AARCH64_UINT64_C (0)));
23151   temp.val[3] = vcombine_u64 (val.val[3], vcreate_u64 (__AARCH64_UINT64_C (0)));
23152   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[0], 0);
23153   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[1], 1);
23154   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[2], 2);
23155   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[3], 3);
23156   __builtin_aarch64_st4di ((__builtin_aarch64_simd_di *) __a, __o);
23157 }
23158
23159 __extension__ static __inline void
23160 vst4_f64 (float64_t * __a, float64x1x4_t val)
23161 {
23162   __builtin_aarch64_simd_xi __o;
23163   float64x2x4_t temp;
23164   temp.val[0] = vcombine_f64 (val.val[0], vcreate_f64 (__AARCH64_UINT64_C (0)));
23165   temp.val[1] = vcombine_f64 (val.val[1], vcreate_f64 (__AARCH64_UINT64_C (0)));
23166   temp.val[2] = vcombine_f64 (val.val[2], vcreate_f64 (__AARCH64_UINT64_C (0)));
23167   temp.val[3] = vcombine_f64 (val.val[3], vcreate_f64 (__AARCH64_UINT64_C (0)));
23168   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) temp.val[0], 0);
23169   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) temp.val[1], 1);
23170   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) temp.val[2], 2);
23171   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) temp.val[3], 3);
23172   __builtin_aarch64_st4df ((__builtin_aarch64_simd_df *) __a, __o);
23173 }
23174
23175 __extension__ static __inline void
23176 vst4_s8 (int8_t * __a, int8x8x4_t val)
23177 {
23178   __builtin_aarch64_simd_xi __o;
23179   int8x16x4_t temp;
23180   temp.val[0] = vcombine_s8 (val.val[0], vcreate_s8 (__AARCH64_INT64_C (0)));
23181   temp.val[1] = vcombine_s8 (val.val[1], vcreate_s8 (__AARCH64_INT64_C (0)));
23182   temp.val[2] = vcombine_s8 (val.val[2], vcreate_s8 (__AARCH64_INT64_C (0)));
23183   temp.val[3] = vcombine_s8 (val.val[3], vcreate_s8 (__AARCH64_INT64_C (0)));
23184   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[0], 0);
23185   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[1], 1);
23186   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[2], 2);
23187   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[3], 3);
23188   __builtin_aarch64_st4v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
23189 }
23190
23191 __extension__ static __inline void __attribute__ ((__always_inline__))
23192 vst4_p8 (poly8_t * __a, poly8x8x4_t val)
23193 {
23194   __builtin_aarch64_simd_xi __o;
23195   poly8x16x4_t temp;
23196   temp.val[0] = vcombine_p8 (val.val[0], vcreate_p8 (__AARCH64_UINT64_C (0)));
23197   temp.val[1] = vcombine_p8 (val.val[1], vcreate_p8 (__AARCH64_UINT64_C (0)));
23198   temp.val[2] = vcombine_p8 (val.val[2], vcreate_p8 (__AARCH64_UINT64_C (0)));
23199   temp.val[3] = vcombine_p8 (val.val[3], vcreate_p8 (__AARCH64_UINT64_C (0)));
23200   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[0], 0);
23201   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[1], 1);
23202   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[2], 2);
23203   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[3], 3);
23204   __builtin_aarch64_st4v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
23205 }
23206
23207 __extension__ static __inline void __attribute__ ((__always_inline__))
23208 vst4_s16 (int16_t * __a, int16x4x4_t val)
23209 {
23210   __builtin_aarch64_simd_xi __o;
23211   int16x8x4_t temp;
23212   temp.val[0] = vcombine_s16 (val.val[0], vcreate_s16 (__AARCH64_INT64_C (0)));
23213   temp.val[1] = vcombine_s16 (val.val[1], vcreate_s16 (__AARCH64_INT64_C (0)));
23214   temp.val[2] = vcombine_s16 (val.val[2], vcreate_s16 (__AARCH64_INT64_C (0)));
23215   temp.val[3] = vcombine_s16 (val.val[3], vcreate_s16 (__AARCH64_INT64_C (0)));
23216   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[0], 0);
23217   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[1], 1);
23218   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[2], 2);
23219   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[3], 3);
23220   __builtin_aarch64_st4v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
23221 }
23222
23223 __extension__ static __inline void __attribute__ ((__always_inline__))
23224 vst4_p16 (poly16_t * __a, poly16x4x4_t val)
23225 {
23226   __builtin_aarch64_simd_xi __o;
23227   poly16x8x4_t temp;
23228   temp.val[0] = vcombine_p16 (val.val[0], vcreate_p16 (__AARCH64_UINT64_C (0)));
23229   temp.val[1] = vcombine_p16 (val.val[1], vcreate_p16 (__AARCH64_UINT64_C (0)));
23230   temp.val[2] = vcombine_p16 (val.val[2], vcreate_p16 (__AARCH64_UINT64_C (0)));
23231   temp.val[3] = vcombine_p16 (val.val[3], vcreate_p16 (__AARCH64_UINT64_C (0)));
23232   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[0], 0);
23233   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[1], 1);
23234   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[2], 2);
23235   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[3], 3);
23236   __builtin_aarch64_st4v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
23237 }
23238
23239 __extension__ static __inline void __attribute__ ((__always_inline__))
23240 vst4_s32 (int32_t * __a, int32x2x4_t val)
23241 {
23242   __builtin_aarch64_simd_xi __o;
23243   int32x4x4_t temp;
23244   temp.val[0] = vcombine_s32 (val.val[0], vcreate_s32 (__AARCH64_INT64_C (0)));
23245   temp.val[1] = vcombine_s32 (val.val[1], vcreate_s32 (__AARCH64_INT64_C (0)));
23246   temp.val[2] = vcombine_s32 (val.val[2], vcreate_s32 (__AARCH64_INT64_C (0)));
23247   temp.val[3] = vcombine_s32 (val.val[3], vcreate_s32 (__AARCH64_INT64_C (0)));
23248   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[0], 0);
23249   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[1], 1);
23250   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[2], 2);
23251   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[3], 3);
23252   __builtin_aarch64_st4v2si ((__builtin_aarch64_simd_si *) __a, __o);
23253 }
23254
23255 __extension__ static __inline void __attribute__ ((__always_inline__))
23256 vst4_u8 (uint8_t * __a, uint8x8x4_t val)
23257 {
23258   __builtin_aarch64_simd_xi __o;
23259   uint8x16x4_t temp;
23260   temp.val[0] = vcombine_u8 (val.val[0], vcreate_u8 (__AARCH64_UINT64_C (0)));
23261   temp.val[1] = vcombine_u8 (val.val[1], vcreate_u8 (__AARCH64_UINT64_C (0)));
23262   temp.val[2] = vcombine_u8 (val.val[2], vcreate_u8 (__AARCH64_UINT64_C (0)));
23263   temp.val[3] = vcombine_u8 (val.val[3], vcreate_u8 (__AARCH64_UINT64_C (0)));
23264   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[0], 0);
23265   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[1], 1);
23266   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[2], 2);
23267   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[3], 3);
23268   __builtin_aarch64_st4v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
23269 }
23270
23271 __extension__ static __inline void __attribute__ ((__always_inline__))
23272 vst4_u16 (uint16_t * __a, uint16x4x4_t val)
23273 {
23274   __builtin_aarch64_simd_xi __o;
23275   uint16x8x4_t temp;
23276   temp.val[0] = vcombine_u16 (val.val[0], vcreate_u16 (__AARCH64_UINT64_C (0)));
23277   temp.val[1] = vcombine_u16 (val.val[1], vcreate_u16 (__AARCH64_UINT64_C (0)));
23278   temp.val[2] = vcombine_u16 (val.val[2], vcreate_u16 (__AARCH64_UINT64_C (0)));
23279   temp.val[3] = vcombine_u16 (val.val[3], vcreate_u16 (__AARCH64_UINT64_C (0)));
23280   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[0], 0);
23281   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[1], 1);
23282   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[2], 2);
23283   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[3], 3);
23284   __builtin_aarch64_st4v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
23285 }
23286
23287 __extension__ static __inline void __attribute__ ((__always_inline__))
23288 vst4_u32 (uint32_t * __a, uint32x2x4_t val)
23289 {
23290   __builtin_aarch64_simd_xi __o;
23291   uint32x4x4_t temp;
23292   temp.val[0] = vcombine_u32 (val.val[0], vcreate_u32 (__AARCH64_UINT64_C (0)));
23293   temp.val[1] = vcombine_u32 (val.val[1], vcreate_u32 (__AARCH64_UINT64_C (0)));
23294   temp.val[2] = vcombine_u32 (val.val[2], vcreate_u32 (__AARCH64_UINT64_C (0)));
23295   temp.val[3] = vcombine_u32 (val.val[3], vcreate_u32 (__AARCH64_UINT64_C (0)));
23296   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[0], 0);
23297   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[1], 1);
23298   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[2], 2);
23299   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[3], 3);
23300   __builtin_aarch64_st4v2si ((__builtin_aarch64_simd_si *) __a, __o);
23301 }
23302
23303 __extension__ static __inline void __attribute__ ((__always_inline__))
23304 vst4_f32 (float32_t * __a, float32x2x4_t val)
23305 {
23306   __builtin_aarch64_simd_xi __o;
23307   float32x4x4_t temp;
23308   temp.val[0] = vcombine_f32 (val.val[0], vcreate_f32 (__AARCH64_UINT64_C (0)));
23309   temp.val[1] = vcombine_f32 (val.val[1], vcreate_f32 (__AARCH64_UINT64_C (0)));
23310   temp.val[2] = vcombine_f32 (val.val[2], vcreate_f32 (__AARCH64_UINT64_C (0)));
23311   temp.val[3] = vcombine_f32 (val.val[3], vcreate_f32 (__AARCH64_UINT64_C (0)));
23312   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) temp.val[0], 0);
23313   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) temp.val[1], 1);
23314   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) temp.val[2], 2);
23315   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) temp.val[3], 3);
23316   __builtin_aarch64_st4v2sf ((__builtin_aarch64_simd_sf *) __a, __o);
23317 }
23318
23319 __extension__ static __inline void __attribute__ ((__always_inline__))
23320 vst4q_s8 (int8_t * __a, int8x16x4_t val)
23321 {
23322   __builtin_aarch64_simd_xi __o;
23323   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[0], 0);
23324   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[1], 1);
23325   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[2], 2);
23326   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[3], 3);
23327   __builtin_aarch64_st4v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
23328 }
23329
23330 __extension__ static __inline void __attribute__ ((__always_inline__))
23331 vst4q_p8 (poly8_t * __a, poly8x16x4_t val)
23332 {
23333   __builtin_aarch64_simd_xi __o;
23334   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[0], 0);
23335   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[1], 1);
23336   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[2], 2);
23337   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[3], 3);
23338   __builtin_aarch64_st4v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
23339 }
23340
23341 __extension__ static __inline void __attribute__ ((__always_inline__))
23342 vst4q_s16 (int16_t * __a, int16x8x4_t val)
23343 {
23344   __builtin_aarch64_simd_xi __o;
23345   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[0], 0);
23346   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[1], 1);
23347   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[2], 2);
23348   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[3], 3);
23349   __builtin_aarch64_st4v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
23350 }
23351
23352 __extension__ static __inline void __attribute__ ((__always_inline__))
23353 vst4q_p16 (poly16_t * __a, poly16x8x4_t val)
23354 {
23355   __builtin_aarch64_simd_xi __o;
23356   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[0], 0);
23357   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[1], 1);
23358   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[2], 2);
23359   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[3], 3);
23360   __builtin_aarch64_st4v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
23361 }
23362
23363 __extension__ static __inline void __attribute__ ((__always_inline__))
23364 vst4q_s32 (int32_t * __a, int32x4x4_t val)
23365 {
23366   __builtin_aarch64_simd_xi __o;
23367   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[0], 0);
23368   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[1], 1);
23369   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[2], 2);
23370   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[3], 3);
23371   __builtin_aarch64_st4v4si ((__builtin_aarch64_simd_si *) __a, __o);
23372 }
23373
23374 __extension__ static __inline void __attribute__ ((__always_inline__))
23375 vst4q_s64 (int64_t * __a, int64x2x4_t val)
23376 {
23377   __builtin_aarch64_simd_xi __o;
23378   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[0], 0);
23379   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[1], 1);
23380   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[2], 2);
23381   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[3], 3);
23382   __builtin_aarch64_st4v2di ((__builtin_aarch64_simd_di *) __a, __o);
23383 }
23384
23385 __extension__ static __inline void __attribute__ ((__always_inline__))
23386 vst4q_u8 (uint8_t * __a, uint8x16x4_t val)
23387 {
23388   __builtin_aarch64_simd_xi __o;
23389   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[0], 0);
23390   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[1], 1);
23391   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[2], 2);
23392   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[3], 3);
23393   __builtin_aarch64_st4v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
23394 }
23395
23396 __extension__ static __inline void __attribute__ ((__always_inline__))
23397 vst4q_u16 (uint16_t * __a, uint16x8x4_t val)
23398 {
23399   __builtin_aarch64_simd_xi __o;
23400   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[0], 0);
23401   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[1], 1);
23402   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[2], 2);
23403   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[3], 3);
23404   __builtin_aarch64_st4v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
23405 }
23406
23407 __extension__ static __inline void __attribute__ ((__always_inline__))
23408 vst4q_u32 (uint32_t * __a, uint32x4x4_t val)
23409 {
23410   __builtin_aarch64_simd_xi __o;
23411   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[0], 0);
23412   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[1], 1);
23413   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[2], 2);
23414   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[3], 3);
23415   __builtin_aarch64_st4v4si ((__builtin_aarch64_simd_si *) __a, __o);
23416 }
23417
23418 __extension__ static __inline void __attribute__ ((__always_inline__))
23419 vst4q_u64 (uint64_t * __a, uint64x2x4_t val)
23420 {
23421   __builtin_aarch64_simd_xi __o;
23422   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[0], 0);
23423   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[1], 1);
23424   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[2], 2);
23425   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[3], 3);
23426   __builtin_aarch64_st4v2di ((__builtin_aarch64_simd_di *) __a, __o);
23427 }
23428
23429 __extension__ static __inline void __attribute__ ((__always_inline__))
23430 vst4q_f32 (float32_t * __a, float32x4x4_t val)
23431 {
23432   __builtin_aarch64_simd_xi __o;
23433   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) val.val[0], 0);
23434   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) val.val[1], 1);
23435   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) val.val[2], 2);
23436   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) val.val[3], 3);
23437   __builtin_aarch64_st4v4sf ((__builtin_aarch64_simd_sf *) __a, __o);
23438 }
23439
23440 __extension__ static __inline void __attribute__ ((__always_inline__))
23441 vst4q_f64 (float64_t * __a, float64x2x4_t val)
23442 {
23443   __builtin_aarch64_simd_xi __o;
23444   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) val.val[0], 0);
23445   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) val.val[1], 1);
23446   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) val.val[2], 2);
23447   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) val.val[3], 3);
23448   __builtin_aarch64_st4v2df ((__builtin_aarch64_simd_df *) __a, __o);
23449 }
23450
23451 /* vsub */
23452
23453 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
23454 vsubd_s64 (int64_t __a, int64_t __b)
23455 {
23456   return __a - __b;
23457 }
23458
23459 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
23460 vsubd_u64 (uint64_t __a, uint64_t __b)
23461 {
23462   return __a - __b;
23463 }
23464
23465 /* vtbx1  */
23466
23467 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
23468 vtbx1_s8 (int8x8_t __r, int8x8_t __tab, int8x8_t __idx)
23469 {
23470   uint8x8_t __mask = vclt_u8 (vreinterpret_u8_s8 (__idx),
23471                               vmov_n_u8 (8));
23472   int8x8_t __tbl = vtbl1_s8 (__tab, __idx);
23473
23474   return vbsl_s8 (__mask, __tbl, __r);
23475 }
23476
23477 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
23478 vtbx1_u8 (uint8x8_t __r, uint8x8_t __tab, uint8x8_t __idx)
23479 {
23480   uint8x8_t __mask = vclt_u8 (__idx, vmov_n_u8 (8));
23481   uint8x8_t __tbl = vtbl1_u8 (__tab, __idx);
23482
23483   return vbsl_u8 (__mask, __tbl, __r);
23484 }
23485
23486 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
23487 vtbx1_p8 (poly8x8_t __r, poly8x8_t __tab, uint8x8_t __idx)
23488 {
23489   uint8x8_t __mask = vclt_u8 (__idx, vmov_n_u8 (8));
23490   poly8x8_t __tbl = vtbl1_p8 (__tab, __idx);
23491
23492   return vbsl_p8 (__mask, __tbl, __r);
23493 }
23494
23495 /* vtbx3  */
23496
23497 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
23498 vtbx3_s8 (int8x8_t __r, int8x8x3_t __tab, int8x8_t __idx)
23499 {
23500   uint8x8_t __mask = vclt_u8 (vreinterpret_u8_s8 (__idx),
23501                               vmov_n_u8 (24));
23502   int8x8_t __tbl = vtbl3_s8 (__tab, __idx);
23503
23504   return vbsl_s8 (__mask, __tbl, __r);
23505 }
23506
23507 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
23508 vtbx3_u8 (uint8x8_t __r, uint8x8x3_t __tab, uint8x8_t __idx)
23509 {
23510   uint8x8_t __mask = vclt_u8 (__idx, vmov_n_u8 (24));
23511   uint8x8_t __tbl = vtbl3_u8 (__tab, __idx);
23512
23513   return vbsl_u8 (__mask, __tbl, __r);
23514 }
23515
23516 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
23517 vtbx3_p8 (poly8x8_t __r, poly8x8x3_t __tab, uint8x8_t __idx)
23518 {
23519   uint8x8_t __mask = vclt_u8 (__idx, vmov_n_u8 (24));
23520   poly8x8_t __tbl = vtbl3_p8 (__tab, __idx);
23521
23522   return vbsl_p8 (__mask, __tbl, __r);
23523 }
23524
23525 /* vtrn */
23526
23527 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
23528 vtrn1_f32 (float32x2_t __a, float32x2_t __b)
23529 {
23530 #ifdef __AARCH64EB__
23531   return __builtin_shuffle (__a, __b, (uint32x2_t) {3, 1});
23532 #else
23533   return __builtin_shuffle (__a, __b, (uint32x2_t) {0, 2});
23534 #endif
23535 }
23536
23537 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
23538 vtrn1_p8 (poly8x8_t __a, poly8x8_t __b)
23539 {
23540 #ifdef __AARCH64EB__
23541   return __builtin_shuffle (__a, __b, (uint8x8_t) {9, 1, 11, 3, 13, 5, 15, 7});
23542 #else
23543   return __builtin_shuffle (__a, __b, (uint8x8_t) {0, 8, 2, 10, 4, 12, 6, 14});
23544 #endif
23545 }
23546
23547 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
23548 vtrn1_p16 (poly16x4_t __a, poly16x4_t __b)
23549 {
23550 #ifdef __AARCH64EB__
23551   return __builtin_shuffle (__a, __b, (uint16x4_t) {5, 1, 7, 3});
23552 #else
23553   return __builtin_shuffle (__a, __b, (uint16x4_t) {0, 4, 2, 6});
23554 #endif
23555 }
23556
23557 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
23558 vtrn1_s8 (int8x8_t __a, int8x8_t __b)
23559 {
23560 #ifdef __AARCH64EB__
23561   return __builtin_shuffle (__a, __b, (uint8x8_t) {9, 1, 11, 3, 13, 5, 15, 7});
23562 #else
23563   return __builtin_shuffle (__a, __b, (uint8x8_t) {0, 8, 2, 10, 4, 12, 6, 14});
23564 #endif
23565 }
23566
23567 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
23568 vtrn1_s16 (int16x4_t __a, int16x4_t __b)
23569 {
23570 #ifdef __AARCH64EB__
23571   return __builtin_shuffle (__a, __b, (uint16x4_t) {5, 1, 7, 3});
23572 #else
23573   return __builtin_shuffle (__a, __b, (uint16x4_t) {0, 4, 2, 6});
23574 #endif
23575 }
23576
23577 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
23578 vtrn1_s32 (int32x2_t __a, int32x2_t __b)
23579 {
23580 #ifdef __AARCH64EB__
23581   return __builtin_shuffle (__a, __b, (uint32x2_t) {3, 1});
23582 #else
23583   return __builtin_shuffle (__a, __b, (uint32x2_t) {0, 2});
23584 #endif
23585 }
23586
23587 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
23588 vtrn1_u8 (uint8x8_t __a, uint8x8_t __b)
23589 {
23590 #ifdef __AARCH64EB__
23591   return __builtin_shuffle (__a, __b, (uint8x8_t) {9, 1, 11, 3, 13, 5, 15, 7});
23592 #else
23593   return __builtin_shuffle (__a, __b, (uint8x8_t) {0, 8, 2, 10, 4, 12, 6, 14});
23594 #endif
23595 }
23596
23597 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
23598 vtrn1_u16 (uint16x4_t __a, uint16x4_t __b)
23599 {
23600 #ifdef __AARCH64EB__
23601   return __builtin_shuffle (__a, __b, (uint16x4_t) {5, 1, 7, 3});
23602 #else
23603   return __builtin_shuffle (__a, __b, (uint16x4_t) {0, 4, 2, 6});
23604 #endif
23605 }
23606
23607 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
23608 vtrn1_u32 (uint32x2_t __a, uint32x2_t __b)
23609 {
23610 #ifdef __AARCH64EB__
23611   return __builtin_shuffle (__a, __b, (uint32x2_t) {3, 1});
23612 #else
23613   return __builtin_shuffle (__a, __b, (uint32x2_t) {0, 2});
23614 #endif
23615 }
23616
23617 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
23618 vtrn1q_f32 (float32x4_t __a, float32x4_t __b)
23619 {
23620 #ifdef __AARCH64EB__
23621   return __builtin_shuffle (__a, __b, (uint32x4_t) {5, 1, 7, 3});
23622 #else
23623   return __builtin_shuffle (__a, __b, (uint32x4_t) {0, 4, 2, 6});
23624 #endif
23625 }
23626
23627 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
23628 vtrn1q_f64 (float64x2_t __a, float64x2_t __b)
23629 {
23630 #ifdef __AARCH64EB__
23631   return __builtin_shuffle (__a, __b, (uint64x2_t) {3, 1});
23632 #else
23633   return __builtin_shuffle (__a, __b, (uint64x2_t) {0, 2});
23634 #endif
23635 }
23636
23637 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
23638 vtrn1q_p8 (poly8x16_t __a, poly8x16_t __b)
23639 {
23640 #ifdef __AARCH64EB__
23641   return __builtin_shuffle (__a, __b,
23642       (uint8x16_t) {17, 1, 19, 3, 21, 5, 23, 7, 25, 9, 27, 11, 29, 13, 31, 15});
23643 #else
23644   return __builtin_shuffle (__a, __b,
23645       (uint8x16_t) {0, 16, 2, 18, 4, 20, 6, 22, 8, 24, 10, 26, 12, 28, 14, 30});
23646 #endif
23647 }
23648
23649 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
23650 vtrn1q_p16 (poly16x8_t __a, poly16x8_t __b)
23651 {
23652 #ifdef __AARCH64EB__
23653   return __builtin_shuffle (__a, __b, (uint16x8_t) {9, 1, 11, 3, 13, 5, 15, 7});
23654 #else
23655   return __builtin_shuffle (__a, __b, (uint16x8_t) {0, 8, 2, 10, 4, 12, 6, 14});
23656 #endif
23657 }
23658
23659 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
23660 vtrn1q_s8 (int8x16_t __a, int8x16_t __b)
23661 {
23662 #ifdef __AARCH64EB__
23663   return __builtin_shuffle (__a, __b,
23664       (uint8x16_t) {17, 1, 19, 3, 21, 5, 23, 7, 25, 9, 27, 11, 29, 13, 31, 15});
23665 #else
23666   return __builtin_shuffle (__a, __b,
23667       (uint8x16_t) {0, 16, 2, 18, 4, 20, 6, 22, 8, 24, 10, 26, 12, 28, 14, 30});
23668 #endif
23669 }
23670
23671 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
23672 vtrn1q_s16 (int16x8_t __a, int16x8_t __b)
23673 {
23674 #ifdef __AARCH64EB__
23675   return __builtin_shuffle (__a, __b, (uint16x8_t) {9, 1, 11, 3, 13, 5, 15, 7});
23676 #else
23677   return __builtin_shuffle (__a, __b, (uint16x8_t) {0, 8, 2, 10, 4, 12, 6, 14});
23678 #endif
23679 }
23680
23681 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
23682 vtrn1q_s32 (int32x4_t __a, int32x4_t __b)
23683 {
23684 #ifdef __AARCH64EB__
23685   return __builtin_shuffle (__a, __b, (uint32x4_t) {5, 1, 7, 3});
23686 #else
23687   return __builtin_shuffle (__a, __b, (uint32x4_t) {0, 4, 2, 6});
23688 #endif
23689 }
23690
23691 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
23692 vtrn1q_s64 (int64x2_t __a, int64x2_t __b)
23693 {
23694 #ifdef __AARCH64EB__
23695   return __builtin_shuffle (__a, __b, (uint64x2_t) {3, 1});
23696 #else
23697   return __builtin_shuffle (__a, __b, (uint64x2_t) {0, 2});
23698 #endif
23699 }
23700
23701 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
23702 vtrn1q_u8 (uint8x16_t __a, uint8x16_t __b)
23703 {
23704 #ifdef __AARCH64EB__
23705   return __builtin_shuffle (__a, __b,
23706       (uint8x16_t) {17, 1, 19, 3, 21, 5, 23, 7, 25, 9, 27, 11, 29, 13, 31, 15});
23707 #else
23708   return __builtin_shuffle (__a, __b,
23709       (uint8x16_t) {0, 16, 2, 18, 4, 20, 6, 22, 8, 24, 10, 26, 12, 28, 14, 30});
23710 #endif
23711 }
23712
23713 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
23714 vtrn1q_u16 (uint16x8_t __a, uint16x8_t __b)
23715 {
23716 #ifdef __AARCH64EB__
23717   return __builtin_shuffle (__a, __b, (uint16x8_t) {9, 1, 11, 3, 13, 5, 15, 7});
23718 #else
23719   return __builtin_shuffle (__a, __b, (uint16x8_t) {0, 8, 2, 10, 4, 12, 6, 14});
23720 #endif
23721 }
23722
23723 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
23724 vtrn1q_u32 (uint32x4_t __a, uint32x4_t __b)
23725 {
23726 #ifdef __AARCH64EB__
23727   return __builtin_shuffle (__a, __b, (uint32x4_t) {5, 1, 7, 3});
23728 #else
23729   return __builtin_shuffle (__a, __b, (uint32x4_t) {0, 4, 2, 6});
23730 #endif
23731 }
23732
23733 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
23734 vtrn1q_u64 (uint64x2_t __a, uint64x2_t __b)
23735 {
23736 #ifdef __AARCH64EB__
23737   return __builtin_shuffle (__a, __b, (uint64x2_t) {3, 1});
23738 #else
23739   return __builtin_shuffle (__a, __b, (uint64x2_t) {0, 2});
23740 #endif
23741 }
23742
23743 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
23744 vtrn2_f32 (float32x2_t __a, float32x2_t __b)
23745 {
23746 #ifdef __AARCH64EB__
23747   return __builtin_shuffle (__a, __b, (uint32x2_t) {2, 0});
23748 #else
23749   return __builtin_shuffle (__a, __b, (uint32x2_t) {1, 3});
23750 #endif
23751 }
23752
23753 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
23754 vtrn2_p8 (poly8x8_t __a, poly8x8_t __b)
23755 {
23756 #ifdef __AARCH64EB__
23757   return __builtin_shuffle (__a, __b, (uint8x8_t) {8, 0, 10, 2, 12, 4, 14, 6});
23758 #else
23759   return __builtin_shuffle (__a, __b, (uint8x8_t) {1, 9, 3, 11, 5, 13, 7, 15});
23760 #endif
23761 }
23762
23763 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
23764 vtrn2_p16 (poly16x4_t __a, poly16x4_t __b)
23765 {
23766 #ifdef __AARCH64EB__
23767   return __builtin_shuffle (__a, __b, (uint16x4_t) {4, 0, 6, 2});
23768 #else
23769   return __builtin_shuffle (__a, __b, (uint16x4_t) {1, 5, 3, 7});
23770 #endif
23771 }
23772
23773 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
23774 vtrn2_s8 (int8x8_t __a, int8x8_t __b)
23775 {
23776 #ifdef __AARCH64EB__
23777   return __builtin_shuffle (__a, __b, (uint8x8_t) {8, 0, 10, 2, 12, 4, 14, 6});
23778 #else
23779   return __builtin_shuffle (__a, __b, (uint8x8_t) {1, 9, 3, 11, 5, 13, 7, 15});
23780 #endif
23781 }
23782
23783 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
23784 vtrn2_s16 (int16x4_t __a, int16x4_t __b)
23785 {
23786 #ifdef __AARCH64EB__
23787   return __builtin_shuffle (__a, __b, (uint16x4_t) {4, 0, 6, 2});
23788 #else
23789   return __builtin_shuffle (__a, __b, (uint16x4_t) {1, 5, 3, 7});
23790 #endif
23791 }
23792
23793 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
23794 vtrn2_s32 (int32x2_t __a, int32x2_t __b)
23795 {
23796 #ifdef __AARCH64EB__
23797   return __builtin_shuffle (__a, __b, (uint32x2_t) {2, 0});
23798 #else
23799   return __builtin_shuffle (__a, __b, (uint32x2_t) {1, 3});
23800 #endif
23801 }
23802
23803 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
23804 vtrn2_u8 (uint8x8_t __a, uint8x8_t __b)
23805 {
23806 #ifdef __AARCH64EB__
23807   return __builtin_shuffle (__a, __b, (uint8x8_t) {8, 0, 10, 2, 12, 4, 14, 6});
23808 #else
23809   return __builtin_shuffle (__a, __b, (uint8x8_t) {1, 9, 3, 11, 5, 13, 7, 15});
23810 #endif
23811 }
23812
23813 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
23814 vtrn2_u16 (uint16x4_t __a, uint16x4_t __b)
23815 {
23816 #ifdef __AARCH64EB__
23817   return __builtin_shuffle (__a, __b, (uint16x4_t) {4, 0, 6, 2});
23818 #else
23819   return __builtin_shuffle (__a, __b, (uint16x4_t) {1, 5, 3, 7});
23820 #endif
23821 }
23822
23823 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
23824 vtrn2_u32 (uint32x2_t __a, uint32x2_t __b)
23825 {
23826 #ifdef __AARCH64EB__
23827   return __builtin_shuffle (__a, __b, (uint32x2_t) {2, 0});
23828 #else
23829   return __builtin_shuffle (__a, __b, (uint32x2_t) {1, 3});
23830 #endif
23831 }
23832
23833 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
23834 vtrn2q_f32 (float32x4_t __a, float32x4_t __b)
23835 {
23836 #ifdef __AARCH64EB__
23837   return __builtin_shuffle (__a, __b, (uint32x4_t) {4, 0, 6, 2});
23838 #else
23839   return __builtin_shuffle (__a, __b, (uint32x4_t) {1, 5, 3, 7});
23840 #endif
23841 }
23842
23843 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
23844 vtrn2q_f64 (float64x2_t __a, float64x2_t __b)
23845 {
23846 #ifdef __AARCH64EB__
23847   return __builtin_shuffle (__a, __b, (uint64x2_t) {2, 0});
23848 #else
23849   return __builtin_shuffle (__a, __b, (uint64x2_t) {1, 3});
23850 #endif
23851 }
23852
23853 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
23854 vtrn2q_p8 (poly8x16_t __a, poly8x16_t __b)
23855 {
23856 #ifdef __AARCH64EB__
23857   return __builtin_shuffle (__a, __b,
23858       (uint8x16_t) {16, 0, 18, 2, 20, 4, 22, 6, 24, 8, 26, 10, 28, 12, 30, 14});
23859 #else
23860   return __builtin_shuffle (__a, __b,
23861       (uint8x16_t) {1, 17, 3, 19, 5, 21, 7, 23, 9, 25, 11, 27, 13, 29, 15, 31});
23862 #endif
23863 }
23864
23865 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
23866 vtrn2q_p16 (poly16x8_t __a, poly16x8_t __b)
23867 {
23868 #ifdef __AARCH64EB__
23869   return __builtin_shuffle (__a, __b, (uint16x8_t) {8, 0, 10, 2, 12, 4, 14, 6});
23870 #else
23871   return __builtin_shuffle (__a, __b, (uint16x8_t) {1, 9, 3, 11, 5, 13, 7, 15});
23872 #endif
23873 }
23874
23875 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
23876 vtrn2q_s8 (int8x16_t __a, int8x16_t __b)
23877 {
23878 #ifdef __AARCH64EB__
23879   return __builtin_shuffle (__a, __b,
23880       (uint8x16_t) {16, 0, 18, 2, 20, 4, 22, 6, 24, 8, 26, 10, 28, 12, 30, 14});
23881 #else
23882   return __builtin_shuffle (__a, __b,
23883       (uint8x16_t) {1, 17, 3, 19, 5, 21, 7, 23, 9, 25, 11, 27, 13, 29, 15, 31});
23884 #endif
23885 }
23886
23887 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
23888 vtrn2q_s16 (int16x8_t __a, int16x8_t __b)
23889 {
23890 #ifdef __AARCH64EB__
23891   return __builtin_shuffle (__a, __b, (uint16x8_t) {8, 0, 10, 2, 12, 4, 14, 6});
23892 #else
23893   return __builtin_shuffle (__a, __b, (uint16x8_t) {1, 9, 3, 11, 5, 13, 7, 15});
23894 #endif
23895 }
23896
23897 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
23898 vtrn2q_s32 (int32x4_t __a, int32x4_t __b)
23899 {
23900 #ifdef __AARCH64EB__
23901   return __builtin_shuffle (__a, __b, (uint32x4_t) {4, 0, 6, 2});
23902 #else
23903   return __builtin_shuffle (__a, __b, (uint32x4_t) {1, 5, 3, 7});
23904 #endif
23905 }
23906
23907 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
23908 vtrn2q_s64 (int64x2_t __a, int64x2_t __b)
23909 {
23910 #ifdef __AARCH64EB__
23911   return __builtin_shuffle (__a, __b, (uint64x2_t) {2, 0});
23912 #else
23913   return __builtin_shuffle (__a, __b, (uint64x2_t) {1, 3});
23914 #endif
23915 }
23916
23917 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
23918 vtrn2q_u8 (uint8x16_t __a, uint8x16_t __b)
23919 {
23920 #ifdef __AARCH64EB__
23921   return __builtin_shuffle (__a, __b,
23922       (uint8x16_t) {16, 0, 18, 2, 20, 4, 22, 6, 24, 8, 26, 10, 28, 12, 30, 14});
23923 #else
23924   return __builtin_shuffle (__a, __b,
23925       (uint8x16_t) {1, 17, 3, 19, 5, 21, 7, 23, 9, 25, 11, 27, 13, 29, 15, 31});
23926 #endif
23927 }
23928
23929 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
23930 vtrn2q_u16 (uint16x8_t __a, uint16x8_t __b)
23931 {
23932 #ifdef __AARCH64EB__
23933   return __builtin_shuffle (__a, __b, (uint16x8_t) {8, 0, 10, 2, 12, 4, 14, 6});
23934 #else
23935   return __builtin_shuffle (__a, __b, (uint16x8_t) {1, 9, 3, 11, 5, 13, 7, 15});
23936 #endif
23937 }
23938
23939 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
23940 vtrn2q_u32 (uint32x4_t __a, uint32x4_t __b)
23941 {
23942 #ifdef __AARCH64EB__
23943   return __builtin_shuffle (__a, __b, (uint32x4_t) {4, 0, 6, 2});
23944 #else
23945   return __builtin_shuffle (__a, __b, (uint32x4_t) {1, 5, 3, 7});
23946 #endif
23947 }
23948
23949 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
23950 vtrn2q_u64 (uint64x2_t __a, uint64x2_t __b)
23951 {
23952 #ifdef __AARCH64EB__
23953   return __builtin_shuffle (__a, __b, (uint64x2_t) {2, 0});
23954 #else
23955   return __builtin_shuffle (__a, __b, (uint64x2_t) {1, 3});
23956 #endif
23957 }
23958
23959 __extension__ static __inline float32x2x2_t __attribute__ ((__always_inline__))
23960 vtrn_f32 (float32x2_t a, float32x2_t b)
23961 {
23962   return (float32x2x2_t) {vtrn1_f32 (a, b), vtrn2_f32 (a, b)};
23963 }
23964
23965 __extension__ static __inline poly8x8x2_t __attribute__ ((__always_inline__))
23966 vtrn_p8 (poly8x8_t a, poly8x8_t b)
23967 {
23968   return (poly8x8x2_t) {vtrn1_p8 (a, b), vtrn2_p8 (a, b)};
23969 }
23970
23971 __extension__ static __inline poly16x4x2_t __attribute__ ((__always_inline__))
23972 vtrn_p16 (poly16x4_t a, poly16x4_t b)
23973 {
23974   return (poly16x4x2_t) {vtrn1_p16 (a, b), vtrn2_p16 (a, b)};
23975 }
23976
23977 __extension__ static __inline int8x8x2_t __attribute__ ((__always_inline__))
23978 vtrn_s8 (int8x8_t a, int8x8_t b)
23979 {
23980   return (int8x8x2_t) {vtrn1_s8 (a, b), vtrn2_s8 (a, b)};
23981 }
23982
23983 __extension__ static __inline int16x4x2_t __attribute__ ((__always_inline__))
23984 vtrn_s16 (int16x4_t a, int16x4_t b)
23985 {
23986   return (int16x4x2_t) {vtrn1_s16 (a, b), vtrn2_s16 (a, b)};
23987 }
23988
23989 __extension__ static __inline int32x2x2_t __attribute__ ((__always_inline__))
23990 vtrn_s32 (int32x2_t a, int32x2_t b)
23991 {
23992   return (int32x2x2_t) {vtrn1_s32 (a, b), vtrn2_s32 (a, b)};
23993 }
23994
23995 __extension__ static __inline uint8x8x2_t __attribute__ ((__always_inline__))
23996 vtrn_u8 (uint8x8_t a, uint8x8_t b)
23997 {
23998   return (uint8x8x2_t) {vtrn1_u8 (a, b), vtrn2_u8 (a, b)};
23999 }
24000
24001 __extension__ static __inline uint16x4x2_t __attribute__ ((__always_inline__))
24002 vtrn_u16 (uint16x4_t a, uint16x4_t b)
24003 {
24004   return (uint16x4x2_t) {vtrn1_u16 (a, b), vtrn2_u16 (a, b)};
24005 }
24006
24007 __extension__ static __inline uint32x2x2_t __attribute__ ((__always_inline__))
24008 vtrn_u32 (uint32x2_t a, uint32x2_t b)
24009 {
24010   return (uint32x2x2_t) {vtrn1_u32 (a, b), vtrn2_u32 (a, b)};
24011 }
24012
24013 __extension__ static __inline float32x4x2_t __attribute__ ((__always_inline__))
24014 vtrnq_f32 (float32x4_t a, float32x4_t b)
24015 {
24016   return (float32x4x2_t) {vtrn1q_f32 (a, b), vtrn2q_f32 (a, b)};
24017 }
24018
24019 __extension__ static __inline poly8x16x2_t __attribute__ ((__always_inline__))
24020 vtrnq_p8 (poly8x16_t a, poly8x16_t b)
24021 {
24022   return (poly8x16x2_t) {vtrn1q_p8 (a, b), vtrn2q_p8 (a, b)};
24023 }
24024
24025 __extension__ static __inline poly16x8x2_t __attribute__ ((__always_inline__))
24026 vtrnq_p16 (poly16x8_t a, poly16x8_t b)
24027 {
24028   return (poly16x8x2_t) {vtrn1q_p16 (a, b), vtrn2q_p16 (a, b)};
24029 }
24030
24031 __extension__ static __inline int8x16x2_t __attribute__ ((__always_inline__))
24032 vtrnq_s8 (int8x16_t a, int8x16_t b)
24033 {
24034   return (int8x16x2_t) {vtrn1q_s8 (a, b), vtrn2q_s8 (a, b)};
24035 }
24036
24037 __extension__ static __inline int16x8x2_t __attribute__ ((__always_inline__))
24038 vtrnq_s16 (int16x8_t a, int16x8_t b)
24039 {
24040   return (int16x8x2_t) {vtrn1q_s16 (a, b), vtrn2q_s16 (a, b)};
24041 }
24042
24043 __extension__ static __inline int32x4x2_t __attribute__ ((__always_inline__))
24044 vtrnq_s32 (int32x4_t a, int32x4_t b)
24045 {
24046   return (int32x4x2_t) {vtrn1q_s32 (a, b), vtrn2q_s32 (a, b)};
24047 }
24048
24049 __extension__ static __inline uint8x16x2_t __attribute__ ((__always_inline__))
24050 vtrnq_u8 (uint8x16_t a, uint8x16_t b)
24051 {
24052   return (uint8x16x2_t) {vtrn1q_u8 (a, b), vtrn2q_u8 (a, b)};
24053 }
24054
24055 __extension__ static __inline uint16x8x2_t __attribute__ ((__always_inline__))
24056 vtrnq_u16 (uint16x8_t a, uint16x8_t b)
24057 {
24058   return (uint16x8x2_t) {vtrn1q_u16 (a, b), vtrn2q_u16 (a, b)};
24059 }
24060
24061 __extension__ static __inline uint32x4x2_t __attribute__ ((__always_inline__))
24062 vtrnq_u32 (uint32x4_t a, uint32x4_t b)
24063 {
24064   return (uint32x4x2_t) {vtrn1q_u32 (a, b), vtrn2q_u32 (a, b)};
24065 }
24066
24067 /* vtst */
24068
24069 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
24070 vtst_s8 (int8x8_t __a, int8x8_t __b)
24071 {
24072   return (uint8x8_t) ((__a & __b) != 0);
24073 }
24074
24075 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
24076 vtst_s16 (int16x4_t __a, int16x4_t __b)
24077 {
24078   return (uint16x4_t) ((__a & __b) != 0);
24079 }
24080
24081 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
24082 vtst_s32 (int32x2_t __a, int32x2_t __b)
24083 {
24084   return (uint32x2_t) ((__a & __b) != 0);
24085 }
24086
24087 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
24088 vtst_s64 (int64x1_t __a, int64x1_t __b)
24089 {
24090   return (uint64x1_t) {(__a[0] & __b[0]) ? -1ll : 0ll};
24091 }
24092
24093 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
24094 vtst_u8 (uint8x8_t __a, uint8x8_t __b)
24095 {
24096   return ((__a & __b) != 0);
24097 }
24098
24099 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
24100 vtst_u16 (uint16x4_t __a, uint16x4_t __b)
24101 {
24102   return ((__a & __b) != 0);
24103 }
24104
24105 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
24106 vtst_u32 (uint32x2_t __a, uint32x2_t __b)
24107 {
24108   return ((__a & __b) != 0);
24109 }
24110
24111 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
24112 vtst_u64 (uint64x1_t __a, uint64x1_t __b)
24113 {
24114   return (uint64x1_t) {(__a[0] & __b[0]) ? -1ll : 0ll};
24115 }
24116
24117 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
24118 vtstq_s8 (int8x16_t __a, int8x16_t __b)
24119 {
24120   return (uint8x16_t) ((__a & __b) != 0);
24121 }
24122
24123 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
24124 vtstq_s16 (int16x8_t __a, int16x8_t __b)
24125 {
24126   return (uint16x8_t) ((__a & __b) != 0);
24127 }
24128
24129 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
24130 vtstq_s32 (int32x4_t __a, int32x4_t __b)
24131 {
24132   return (uint32x4_t) ((__a & __b) != 0);
24133 }
24134
24135 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
24136 vtstq_s64 (int64x2_t __a, int64x2_t __b)
24137 {
24138   return (uint64x2_t) ((__a & __b) != __AARCH64_INT64_C (0));
24139 }
24140
24141 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
24142 vtstq_u8 (uint8x16_t __a, uint8x16_t __b)
24143 {
24144   return ((__a & __b) != 0);
24145 }
24146
24147 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
24148 vtstq_u16 (uint16x8_t __a, uint16x8_t __b)
24149 {
24150   return ((__a & __b) != 0);
24151 }
24152
24153 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
24154 vtstq_u32 (uint32x4_t __a, uint32x4_t __b)
24155 {
24156   return ((__a & __b) != 0);
24157 }
24158
24159 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
24160 vtstq_u64 (uint64x2_t __a, uint64x2_t __b)
24161 {
24162   return ((__a & __b) != __AARCH64_UINT64_C (0));
24163 }
24164
24165 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
24166 vtstd_s64 (int64_t __a, int64_t __b)
24167 {
24168   return (__a & __b) ? -1ll : 0ll;
24169 }
24170
24171 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
24172 vtstd_u64 (uint64_t __a, uint64_t __b)
24173 {
24174   return (__a & __b) ? -1ll : 0ll;
24175 }
24176
24177 /* vuqadd */
24178
24179 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
24180 vuqadd_s8 (int8x8_t __a, uint8x8_t __b)
24181 {
24182   return __builtin_aarch64_suqaddv8qi_ssu (__a,  __b);
24183 }
24184
24185 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
24186 vuqadd_s16 (int16x4_t __a, uint16x4_t __b)
24187 {
24188   return __builtin_aarch64_suqaddv4hi_ssu (__a,  __b);
24189 }
24190
24191 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
24192 vuqadd_s32 (int32x2_t __a, uint32x2_t __b)
24193 {
24194   return __builtin_aarch64_suqaddv2si_ssu (__a,  __b);
24195 }
24196
24197 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
24198 vuqadd_s64 (int64x1_t __a, uint64x1_t __b)
24199 {
24200   return (int64x1_t) {__builtin_aarch64_suqadddi_ssu (__a[0], __b[0])};
24201 }
24202
24203 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
24204 vuqaddq_s8 (int8x16_t __a, uint8x16_t __b)
24205 {
24206   return __builtin_aarch64_suqaddv16qi_ssu (__a,  __b);
24207 }
24208
24209 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
24210 vuqaddq_s16 (int16x8_t __a, uint16x8_t __b)
24211 {
24212   return __builtin_aarch64_suqaddv8hi_ssu (__a,  __b);
24213 }
24214
24215 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
24216 vuqaddq_s32 (int32x4_t __a, uint32x4_t __b)
24217 {
24218   return __builtin_aarch64_suqaddv4si_ssu (__a,  __b);
24219 }
24220
24221 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
24222 vuqaddq_s64 (int64x2_t __a, uint64x2_t __b)
24223 {
24224   return __builtin_aarch64_suqaddv2di_ssu (__a,  __b);
24225 }
24226
24227 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
24228 vuqaddb_s8 (int8_t __a, uint8_t __b)
24229 {
24230   return __builtin_aarch64_suqaddqi_ssu (__a,  __b);
24231 }
24232
24233 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
24234 vuqaddh_s16 (int16_t __a, uint16_t __b)
24235 {
24236   return __builtin_aarch64_suqaddhi_ssu (__a,  __b);
24237 }
24238
24239 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
24240 vuqadds_s32 (int32_t __a, uint32_t __b)
24241 {
24242   return __builtin_aarch64_suqaddsi_ssu (__a,  __b);
24243 }
24244
24245 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
24246 vuqaddd_s64 (int64_t __a, uint64_t __b)
24247 {
24248   return __builtin_aarch64_suqadddi_ssu (__a,  __b);
24249 }
24250
24251 #define __DEFINTERLEAVE(op, rettype, intype, funcsuffix, Q)             \
24252   __extension__ static __inline rettype                                 \
24253   __attribute__ ((__always_inline__))                                   \
24254   v ## op ## Q ## _ ## funcsuffix (intype a, intype b)                  \
24255   {                                                                     \
24256     return (rettype) {v ## op ## 1 ## Q ## _ ## funcsuffix (a, b),      \
24257                       v ## op ## 2 ## Q ## _ ## funcsuffix (a, b)};     \
24258   }
24259
24260 #define __INTERLEAVE_LIST(op)                                   \
24261   __DEFINTERLEAVE (op, float32x2x2_t, float32x2_t, f32,)        \
24262   __DEFINTERLEAVE (op, poly8x8x2_t, poly8x8_t, p8,)             \
24263   __DEFINTERLEAVE (op, poly16x4x2_t, poly16x4_t, p16,)          \
24264   __DEFINTERLEAVE (op, int8x8x2_t, int8x8_t, s8,)               \
24265   __DEFINTERLEAVE (op, int16x4x2_t, int16x4_t, s16,)            \
24266   __DEFINTERLEAVE (op, int32x2x2_t, int32x2_t, s32,)            \
24267   __DEFINTERLEAVE (op, uint8x8x2_t, uint8x8_t, u8,)             \
24268   __DEFINTERLEAVE (op, uint16x4x2_t, uint16x4_t, u16,)          \
24269   __DEFINTERLEAVE (op, uint32x2x2_t, uint32x2_t, u32,)          \
24270   __DEFINTERLEAVE (op, float32x4x2_t, float32x4_t, f32, q)      \
24271   __DEFINTERLEAVE (op, poly8x16x2_t, poly8x16_t, p8, q)         \
24272   __DEFINTERLEAVE (op, poly16x8x2_t, poly16x8_t, p16, q)        \
24273   __DEFINTERLEAVE (op, int8x16x2_t, int8x16_t, s8, q)           \
24274   __DEFINTERLEAVE (op, int16x8x2_t, int16x8_t, s16, q)          \
24275   __DEFINTERLEAVE (op, int32x4x2_t, int32x4_t, s32, q)          \
24276   __DEFINTERLEAVE (op, uint8x16x2_t, uint8x16_t, u8, q)         \
24277   __DEFINTERLEAVE (op, uint16x8x2_t, uint16x8_t, u16, q)        \
24278   __DEFINTERLEAVE (op, uint32x4x2_t, uint32x4_t, u32, q)
24279
24280 /* vuzp */
24281
24282 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
24283 vuzp1_f32 (float32x2_t __a, float32x2_t __b)
24284 {
24285 #ifdef __AARCH64EB__
24286   return __builtin_shuffle (__a, __b, (uint32x2_t) {3, 1});
24287 #else
24288   return __builtin_shuffle (__a, __b, (uint32x2_t) {0, 2});
24289 #endif
24290 }
24291
24292 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
24293 vuzp1_p8 (poly8x8_t __a, poly8x8_t __b)
24294 {
24295 #ifdef __AARCH64EB__
24296   return __builtin_shuffle (__a, __b, (uint8x8_t) {9, 11, 13, 15, 1, 3, 5, 7});
24297 #else
24298   return __builtin_shuffle (__a, __b, (uint8x8_t) {0, 2, 4, 6, 8, 10, 12, 14});
24299 #endif
24300 }
24301
24302 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
24303 vuzp1_p16 (poly16x4_t __a, poly16x4_t __b)
24304 {
24305 #ifdef __AARCH64EB__
24306   return __builtin_shuffle (__a, __b, (uint16x4_t) {5, 7, 1, 3});
24307 #else
24308   return __builtin_shuffle (__a, __b, (uint16x4_t) {0, 2, 4, 6});
24309 #endif
24310 }
24311
24312 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
24313 vuzp1_s8 (int8x8_t __a, int8x8_t __b)
24314 {
24315 #ifdef __AARCH64EB__
24316   return __builtin_shuffle (__a, __b, (uint8x8_t) {9, 11, 13, 15, 1, 3, 5, 7});
24317 #else
24318   return __builtin_shuffle (__a, __b, (uint8x8_t) {0, 2, 4, 6, 8, 10, 12, 14});
24319 #endif
24320 }
24321
24322 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
24323 vuzp1_s16 (int16x4_t __a, int16x4_t __b)
24324 {
24325 #ifdef __AARCH64EB__
24326   return __builtin_shuffle (__a, __b, (uint16x4_t) {5, 7, 1, 3});
24327 #else
24328   return __builtin_shuffle (__a, __b, (uint16x4_t) {0, 2, 4, 6});
24329 #endif
24330 }
24331
24332 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
24333 vuzp1_s32 (int32x2_t __a, int32x2_t __b)
24334 {
24335 #ifdef __AARCH64EB__
24336   return __builtin_shuffle (__a, __b, (uint32x2_t) {3, 1});
24337 #else
24338   return __builtin_shuffle (__a, __b, (uint32x2_t) {0, 2});
24339 #endif
24340 }
24341
24342 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
24343 vuzp1_u8 (uint8x8_t __a, uint8x8_t __b)
24344 {
24345 #ifdef __AARCH64EB__
24346   return __builtin_shuffle (__a, __b, (uint8x8_t) {9, 11, 13, 15, 1, 3, 5, 7});
24347 #else
24348   return __builtin_shuffle (__a, __b, (uint8x8_t) {0, 2, 4, 6, 8, 10, 12, 14});
24349 #endif
24350 }
24351
24352 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
24353 vuzp1_u16 (uint16x4_t __a, uint16x4_t __b)
24354 {
24355 #ifdef __AARCH64EB__
24356   return __builtin_shuffle (__a, __b, (uint16x4_t) {5, 7, 1, 3});
24357 #else
24358   return __builtin_shuffle (__a, __b, (uint16x4_t) {0, 2, 4, 6});
24359 #endif
24360 }
24361
24362 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
24363 vuzp1_u32 (uint32x2_t __a, uint32x2_t __b)
24364 {
24365 #ifdef __AARCH64EB__
24366   return __builtin_shuffle (__a, __b, (uint32x2_t) {3, 1});
24367 #else
24368   return __builtin_shuffle (__a, __b, (uint32x2_t) {0, 2});
24369 #endif
24370 }
24371
24372 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
24373 vuzp1q_f32 (float32x4_t __a, float32x4_t __b)
24374 {
24375 #ifdef __AARCH64EB__
24376   return __builtin_shuffle (__a, __b, (uint32x4_t) {5, 7, 1, 3});
24377 #else
24378   return __builtin_shuffle (__a, __b, (uint32x4_t) {0, 2, 4, 6});
24379 #endif
24380 }
24381
24382 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
24383 vuzp1q_f64 (float64x2_t __a, float64x2_t __b)
24384 {
24385 #ifdef __AARCH64EB__
24386   return __builtin_shuffle (__a, __b, (uint64x2_t) {3, 1});
24387 #else
24388   return __builtin_shuffle (__a, __b, (uint64x2_t) {0, 2});
24389 #endif
24390 }
24391
24392 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
24393 vuzp1q_p8 (poly8x16_t __a, poly8x16_t __b)
24394 {
24395 #ifdef __AARCH64EB__
24396   return __builtin_shuffle (__a, __b, (uint8x16_t)
24397       {17, 19, 21, 23, 25, 27, 29, 31, 1, 3, 5, 7, 9, 11, 13, 15});
24398 #else
24399   return __builtin_shuffle (__a, __b, (uint8x16_t)
24400       {0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30});
24401 #endif
24402 }
24403
24404 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
24405 vuzp1q_p16 (poly16x8_t __a, poly16x8_t __b)
24406 {
24407 #ifdef __AARCH64EB__
24408   return __builtin_shuffle (__a, __b, (uint16x8_t) {9, 11, 13, 15, 1, 3, 5, 7});
24409 #else
24410   return __builtin_shuffle (__a, __b, (uint16x8_t) {0, 2, 4, 6, 8, 10, 12, 14});
24411 #endif
24412 }
24413
24414 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
24415 vuzp1q_s8 (int8x16_t __a, int8x16_t __b)
24416 {
24417 #ifdef __AARCH64EB__
24418   return __builtin_shuffle (__a, __b,
24419       (uint8x16_t) {17, 19, 21, 23, 25, 27, 29, 31, 1, 3, 5, 7, 9, 11, 13, 15});
24420 #else
24421   return __builtin_shuffle (__a, __b,
24422       (uint8x16_t) {0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30});
24423 #endif
24424 }
24425
24426 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
24427 vuzp1q_s16 (int16x8_t __a, int16x8_t __b)
24428 {
24429 #ifdef __AARCH64EB__
24430   return __builtin_shuffle (__a, __b, (uint16x8_t) {9, 11, 13, 15, 1, 3, 5, 7});
24431 #else
24432   return __builtin_shuffle (__a, __b, (uint16x8_t) {0, 2, 4, 6, 8, 10, 12, 14});
24433 #endif
24434 }
24435
24436 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
24437 vuzp1q_s32 (int32x4_t __a, int32x4_t __b)
24438 {
24439 #ifdef __AARCH64EB__
24440   return __builtin_shuffle (__a, __b, (uint32x4_t) {5, 7, 1, 3});
24441 #else
24442   return __builtin_shuffle (__a, __b, (uint32x4_t) {0, 2, 4, 6});
24443 #endif
24444 }
24445
24446 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
24447 vuzp1q_s64 (int64x2_t __a, int64x2_t __b)
24448 {
24449 #ifdef __AARCH64EB__
24450   return __builtin_shuffle (__a, __b, (uint64x2_t) {3, 1});
24451 #else
24452   return __builtin_shuffle (__a, __b, (uint64x2_t) {0, 2});
24453 #endif
24454 }
24455
24456 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
24457 vuzp1q_u8 (uint8x16_t __a, uint8x16_t __b)
24458 {
24459 #ifdef __AARCH64EB__
24460   return __builtin_shuffle (__a, __b,
24461       (uint8x16_t) {17, 19, 21, 23, 25, 27, 29, 31, 1, 3, 5, 7, 9, 11, 13, 15});
24462 #else
24463   return __builtin_shuffle (__a, __b,
24464       (uint8x16_t) {0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30});
24465 #endif
24466 }
24467
24468 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
24469 vuzp1q_u16 (uint16x8_t __a, uint16x8_t __b)
24470 {
24471 #ifdef __AARCH64EB__
24472   return __builtin_shuffle (__a, __b, (uint16x8_t) {9, 11, 13, 15, 1, 3, 5, 7});
24473 #else
24474   return __builtin_shuffle (__a, __b, (uint16x8_t) {0, 2, 4, 6, 8, 10, 12, 14});
24475 #endif
24476 }
24477
24478 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
24479 vuzp1q_u32 (uint32x4_t __a, uint32x4_t __b)
24480 {
24481 #ifdef __AARCH64EB__
24482   return __builtin_shuffle (__a, __b, (uint32x4_t) {5, 7, 1, 3});
24483 #else
24484   return __builtin_shuffle (__a, __b, (uint32x4_t) {0, 2, 4, 6});
24485 #endif
24486 }
24487
24488 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
24489 vuzp1q_u64 (uint64x2_t __a, uint64x2_t __b)
24490 {
24491 #ifdef __AARCH64EB__
24492   return __builtin_shuffle (__a, __b, (uint64x2_t) {3, 1});
24493 #else
24494   return __builtin_shuffle (__a, __b, (uint64x2_t) {0, 2});
24495 #endif
24496 }
24497
24498 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
24499 vuzp2_f32 (float32x2_t __a, float32x2_t __b)
24500 {
24501 #ifdef __AARCH64EB__
24502   return __builtin_shuffle (__a, __b, (uint32x2_t) {2, 0});
24503 #else
24504   return __builtin_shuffle (__a, __b, (uint32x2_t) {1, 3});
24505 #endif
24506 }
24507
24508 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
24509 vuzp2_p8 (poly8x8_t __a, poly8x8_t __b)
24510 {
24511 #ifdef __AARCH64EB__
24512   return __builtin_shuffle (__a, __b, (uint8x8_t) {8, 10, 12, 14, 0, 2, 4, 6});
24513 #else
24514   return __builtin_shuffle (__a, __b, (uint8x8_t) {1, 3, 5, 7, 9, 11, 13, 15});
24515 #endif
24516 }
24517
24518 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
24519 vuzp2_p16 (poly16x4_t __a, poly16x4_t __b)
24520 {
24521 #ifdef __AARCH64EB__
24522   return __builtin_shuffle (__a, __b, (uint16x4_t) {4, 6, 0, 2});
24523 #else
24524   return __builtin_shuffle (__a, __b, (uint16x4_t) {1, 3, 5, 7});
24525 #endif
24526 }
24527
24528 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
24529 vuzp2_s8 (int8x8_t __a, int8x8_t __b)
24530 {
24531 #ifdef __AARCH64EB__
24532   return __builtin_shuffle (__a, __b, (uint8x8_t) {8, 10, 12, 14, 0, 2, 4, 6});
24533 #else
24534   return __builtin_shuffle (__a, __b, (uint8x8_t) {1, 3, 5, 7, 9, 11, 13, 15});
24535 #endif
24536 }
24537
24538 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
24539 vuzp2_s16 (int16x4_t __a, int16x4_t __b)
24540 {
24541 #ifdef __AARCH64EB__
24542   return __builtin_shuffle (__a, __b, (uint16x4_t) {4, 6, 0, 2});
24543 #else
24544   return __builtin_shuffle (__a, __b, (uint16x4_t) {1, 3, 5, 7});
24545 #endif
24546 }
24547
24548 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
24549 vuzp2_s32 (int32x2_t __a, int32x2_t __b)
24550 {
24551 #ifdef __AARCH64EB__
24552   return __builtin_shuffle (__a, __b, (uint32x2_t) {2, 0});
24553 #else
24554   return __builtin_shuffle (__a, __b, (uint32x2_t) {1, 3});
24555 #endif
24556 }
24557
24558 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
24559 vuzp2_u8 (uint8x8_t __a, uint8x8_t __b)
24560 {
24561 #ifdef __AARCH64EB__
24562   return __builtin_shuffle (__a, __b, (uint8x8_t) {8, 10, 12, 14, 0, 2, 4, 6});
24563 #else
24564   return __builtin_shuffle (__a, __b, (uint8x8_t) {1, 3, 5, 7, 9, 11, 13, 15});
24565 #endif
24566 }
24567
24568 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
24569 vuzp2_u16 (uint16x4_t __a, uint16x4_t __b)
24570 {
24571 #ifdef __AARCH64EB__
24572   return __builtin_shuffle (__a, __b, (uint16x4_t) {4, 6, 0, 2});
24573 #else
24574   return __builtin_shuffle (__a, __b, (uint16x4_t) {1, 3, 5, 7});
24575 #endif
24576 }
24577
24578 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
24579 vuzp2_u32 (uint32x2_t __a, uint32x2_t __b)
24580 {
24581 #ifdef __AARCH64EB__
24582   return __builtin_shuffle (__a, __b, (uint32x2_t) {2, 0});
24583 #else
24584   return __builtin_shuffle (__a, __b, (uint32x2_t) {1, 3});
24585 #endif
24586 }
24587
24588 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
24589 vuzp2q_f32 (float32x4_t __a, float32x4_t __b)
24590 {
24591 #ifdef __AARCH64EB__
24592   return __builtin_shuffle (__a, __b, (uint32x4_t) {4, 6, 0, 2});
24593 #else
24594   return __builtin_shuffle (__a, __b, (uint32x4_t) {1, 3, 5, 7});
24595 #endif
24596 }
24597
24598 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
24599 vuzp2q_f64 (float64x2_t __a, float64x2_t __b)
24600 {
24601 #ifdef __AARCH64EB__
24602   return __builtin_shuffle (__a, __b, (uint64x2_t) {2, 0});
24603 #else
24604   return __builtin_shuffle (__a, __b, (uint64x2_t) {1, 3});
24605 #endif
24606 }
24607
24608 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
24609 vuzp2q_p8 (poly8x16_t __a, poly8x16_t __b)
24610 {
24611 #ifdef __AARCH64EB__
24612   return __builtin_shuffle (__a, __b,
24613       (uint8x16_t) {16, 18, 20, 22, 24, 26, 28, 30, 0, 2, 4, 6, 8, 10, 12, 14});
24614 #else
24615   return __builtin_shuffle (__a, __b,
24616       (uint8x16_t) {1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31});
24617 #endif
24618 }
24619
24620 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
24621 vuzp2q_p16 (poly16x8_t __a, poly16x8_t __b)
24622 {
24623 #ifdef __AARCH64EB__
24624   return __builtin_shuffle (__a, __b, (uint16x8_t) {8, 10, 12, 14, 0, 2, 4, 6});
24625 #else
24626   return __builtin_shuffle (__a, __b, (uint16x8_t) {1, 3, 5, 7, 9, 11, 13, 15});
24627 #endif
24628 }
24629
24630 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
24631 vuzp2q_s8 (int8x16_t __a, int8x16_t __b)
24632 {
24633 #ifdef __AARCH64EB__
24634   return __builtin_shuffle (__a, __b,
24635       (uint8x16_t) {16, 18, 20, 22, 24, 26, 28, 30, 0, 2, 4, 6, 8, 10, 12, 14});
24636 #else
24637   return __builtin_shuffle (__a, __b,
24638       (uint8x16_t) {1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31});
24639 #endif
24640 }
24641
24642 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
24643 vuzp2q_s16 (int16x8_t __a, int16x8_t __b)
24644 {
24645 #ifdef __AARCH64EB__
24646   return __builtin_shuffle (__a, __b, (uint16x8_t) {8, 10, 12, 14, 0, 2, 4, 6});
24647 #else
24648   return __builtin_shuffle (__a, __b, (uint16x8_t) {1, 3, 5, 7, 9, 11, 13, 15});
24649 #endif
24650 }
24651
24652 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
24653 vuzp2q_s32 (int32x4_t __a, int32x4_t __b)
24654 {
24655 #ifdef __AARCH64EB__
24656   return __builtin_shuffle (__a, __b, (uint32x4_t) {4, 6, 0, 2});
24657 #else
24658   return __builtin_shuffle (__a, __b, (uint32x4_t) {1, 3, 5, 7});
24659 #endif
24660 }
24661
24662 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
24663 vuzp2q_s64 (int64x2_t __a, int64x2_t __b)
24664 {
24665 #ifdef __AARCH64EB__
24666   return __builtin_shuffle (__a, __b, (uint64x2_t) {2, 0});
24667 #else
24668   return __builtin_shuffle (__a, __b, (uint64x2_t) {1, 3});
24669 #endif
24670 }
24671
24672 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
24673 vuzp2q_u8 (uint8x16_t __a, uint8x16_t __b)
24674 {
24675 #ifdef __AARCH64EB__
24676   return __builtin_shuffle (__a, __b, (uint8x16_t)
24677       {16, 18, 20, 22, 24, 26, 28, 30, 0, 2, 4, 6, 8, 10, 12, 14});
24678 #else
24679   return __builtin_shuffle (__a, __b, (uint8x16_t)
24680       {1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31});
24681 #endif
24682 }
24683
24684 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
24685 vuzp2q_u16 (uint16x8_t __a, uint16x8_t __b)
24686 {
24687 #ifdef __AARCH64EB__
24688   return __builtin_shuffle (__a, __b, (uint16x8_t) {8, 10, 12, 14, 0, 2, 4, 6});
24689 #else
24690   return __builtin_shuffle (__a, __b, (uint16x8_t) {1, 3, 5, 7, 9, 11, 13, 15});
24691 #endif
24692 }
24693
24694 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
24695 vuzp2q_u32 (uint32x4_t __a, uint32x4_t __b)
24696 {
24697 #ifdef __AARCH64EB__
24698   return __builtin_shuffle (__a, __b, (uint32x4_t) {4, 6, 0, 2});
24699 #else
24700   return __builtin_shuffle (__a, __b, (uint32x4_t) {1, 3, 5, 7});
24701 #endif
24702 }
24703
24704 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
24705 vuzp2q_u64 (uint64x2_t __a, uint64x2_t __b)
24706 {
24707 #ifdef __AARCH64EB__
24708   return __builtin_shuffle (__a, __b, (uint64x2_t) {2, 0});
24709 #else
24710   return __builtin_shuffle (__a, __b, (uint64x2_t) {1, 3});
24711 #endif
24712 }
24713
24714 __INTERLEAVE_LIST (uzp)
24715
24716 /* vzip */
24717
24718 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
24719 vzip1_f32 (float32x2_t __a, float32x2_t __b)
24720 {
24721 #ifdef __AARCH64EB__
24722   return __builtin_shuffle (__a, __b, (uint32x2_t) {3, 1});
24723 #else
24724   return __builtin_shuffle (__a, __b, (uint32x2_t) {0, 2});
24725 #endif
24726 }
24727
24728 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
24729 vzip1_p8 (poly8x8_t __a, poly8x8_t __b)
24730 {
24731 #ifdef __AARCH64EB__
24732   return __builtin_shuffle (__a, __b, (uint8x8_t) {12, 4, 13, 5, 14, 6, 15, 7});
24733 #else
24734   return __builtin_shuffle (__a, __b, (uint8x8_t) {0, 8, 1, 9, 2, 10, 3, 11});
24735 #endif
24736 }
24737
24738 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
24739 vzip1_p16 (poly16x4_t __a, poly16x4_t __b)
24740 {
24741 #ifdef __AARCH64EB__
24742   return __builtin_shuffle (__a, __b, (uint16x4_t) {6, 2, 7, 3});
24743 #else
24744   return __builtin_shuffle (__a, __b, (uint16x4_t) {0, 4, 1, 5});
24745 #endif
24746 }
24747
24748 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
24749 vzip1_s8 (int8x8_t __a, int8x8_t __b)
24750 {
24751 #ifdef __AARCH64EB__
24752   return __builtin_shuffle (__a, __b, (uint8x8_t) {12, 4, 13, 5, 14, 6, 15, 7});
24753 #else
24754   return __builtin_shuffle (__a, __b, (uint8x8_t) {0, 8, 1, 9, 2, 10, 3, 11});
24755 #endif
24756 }
24757
24758 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
24759 vzip1_s16 (int16x4_t __a, int16x4_t __b)
24760 {
24761 #ifdef __AARCH64EB__
24762   return __builtin_shuffle (__a, __b, (uint16x4_t) {6, 2, 7, 3});
24763 #else
24764   return __builtin_shuffle (__a, __b, (uint16x4_t) {0, 4, 1, 5});
24765 #endif
24766 }
24767
24768 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
24769 vzip1_s32 (int32x2_t __a, int32x2_t __b)
24770 {
24771 #ifdef __AARCH64EB__
24772   return __builtin_shuffle (__a, __b, (uint32x2_t) {3, 1});
24773 #else
24774   return __builtin_shuffle (__a, __b, (uint32x2_t) {0, 2});
24775 #endif
24776 }
24777
24778 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
24779 vzip1_u8 (uint8x8_t __a, uint8x8_t __b)
24780 {
24781 #ifdef __AARCH64EB__
24782   return __builtin_shuffle (__a, __b, (uint8x8_t) {12, 4, 13, 5, 14, 6, 15, 7});
24783 #else
24784   return __builtin_shuffle (__a, __b, (uint8x8_t) {0, 8, 1, 9, 2, 10, 3, 11});
24785 #endif
24786 }
24787
24788 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
24789 vzip1_u16 (uint16x4_t __a, uint16x4_t __b)
24790 {
24791 #ifdef __AARCH64EB__
24792   return __builtin_shuffle (__a, __b, (uint16x4_t) {6, 2, 7, 3});
24793 #else
24794   return __builtin_shuffle (__a, __b, (uint16x4_t) {0, 4, 1, 5});
24795 #endif
24796 }
24797
24798 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
24799 vzip1_u32 (uint32x2_t __a, uint32x2_t __b)
24800 {
24801 #ifdef __AARCH64EB__
24802   return __builtin_shuffle (__a, __b, (uint32x2_t) {3, 1});
24803 #else
24804   return __builtin_shuffle (__a, __b, (uint32x2_t) {0, 2});
24805 #endif
24806 }
24807
24808 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
24809 vzip1q_f32 (float32x4_t __a, float32x4_t __b)
24810 {
24811 #ifdef __AARCH64EB__
24812   return __builtin_shuffle (__a, __b, (uint32x4_t) {6, 2, 7, 3});
24813 #else
24814   return __builtin_shuffle (__a, __b, (uint32x4_t) {0, 4, 1, 5});
24815 #endif
24816 }
24817
24818 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
24819 vzip1q_f64 (float64x2_t __a, float64x2_t __b)
24820 {
24821 #ifdef __AARCH64EB__
24822   return __builtin_shuffle (__a, __b, (uint64x2_t) {3, 1});
24823 #else
24824   return __builtin_shuffle (__a, __b, (uint64x2_t) {0, 2});
24825 #endif
24826 }
24827
24828 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
24829 vzip1q_p8 (poly8x16_t __a, poly8x16_t __b)
24830 {
24831 #ifdef __AARCH64EB__
24832   return __builtin_shuffle (__a, __b, (uint8x16_t)
24833       {24, 8, 25, 9, 26, 10, 27, 11, 28, 12, 29, 13, 30, 14, 31, 15});
24834 #else
24835   return __builtin_shuffle (__a, __b, (uint8x16_t)
24836       {0, 16, 1, 17, 2, 18, 3, 19, 4, 20, 5, 21, 6, 22, 7, 23});
24837 #endif
24838 }
24839
24840 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
24841 vzip1q_p16 (poly16x8_t __a, poly16x8_t __b)
24842 {
24843 #ifdef __AARCH64EB__
24844   return __builtin_shuffle (__a, __b, (uint16x8_t)
24845       {12, 4, 13, 5, 14, 6, 15, 7});
24846 #else
24847   return __builtin_shuffle (__a, __b, (uint16x8_t) {0, 8, 1, 9, 2, 10, 3, 11});
24848 #endif
24849 }
24850
24851 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
24852 vzip1q_s8 (int8x16_t __a, int8x16_t __b)
24853 {
24854 #ifdef __AARCH64EB__
24855   return __builtin_shuffle (__a, __b, (uint8x16_t)
24856       {24, 8, 25, 9, 26, 10, 27, 11, 28, 12, 29, 13, 30, 14, 31, 15});
24857 #else
24858   return __builtin_shuffle (__a, __b, (uint8x16_t)
24859       {0, 16, 1, 17, 2, 18, 3, 19, 4, 20, 5, 21, 6, 22, 7, 23});
24860 #endif
24861 }
24862
24863 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
24864 vzip1q_s16 (int16x8_t __a, int16x8_t __b)
24865 {
24866 #ifdef __AARCH64EB__
24867   return __builtin_shuffle (__a, __b, (uint16x8_t)
24868       {12, 4, 13, 5, 14, 6, 15, 7});
24869 #else
24870   return __builtin_shuffle (__a, __b, (uint16x8_t) {0, 8, 1, 9, 2, 10, 3, 11});
24871 #endif
24872 }
24873
24874 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
24875 vzip1q_s32 (int32x4_t __a, int32x4_t __b)
24876 {
24877 #ifdef __AARCH64EB__
24878   return __builtin_shuffle (__a, __b, (uint32x4_t) {6, 2, 7, 3});
24879 #else
24880   return __builtin_shuffle (__a, __b, (uint32x4_t) {0, 4, 1, 5});
24881 #endif
24882 }
24883
24884 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
24885 vzip1q_s64 (int64x2_t __a, int64x2_t __b)
24886 {
24887 #ifdef __AARCH64EB__
24888   return __builtin_shuffle (__a, __b, (uint64x2_t) {3, 1});
24889 #else
24890   return __builtin_shuffle (__a, __b, (uint64x2_t) {0, 2});
24891 #endif
24892 }
24893
24894 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
24895 vzip1q_u8 (uint8x16_t __a, uint8x16_t __b)
24896 {
24897 #ifdef __AARCH64EB__
24898   return __builtin_shuffle (__a, __b, (uint8x16_t)
24899       {24, 8, 25, 9, 26, 10, 27, 11, 28, 12, 29, 13, 30, 14, 31, 15});
24900 #else
24901   return __builtin_shuffle (__a, __b, (uint8x16_t)
24902       {0, 16, 1, 17, 2, 18, 3, 19, 4, 20, 5, 21, 6, 22, 7, 23});
24903 #endif
24904 }
24905
24906 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
24907 vzip1q_u16 (uint16x8_t __a, uint16x8_t __b)
24908 {
24909 #ifdef __AARCH64EB__
24910   return __builtin_shuffle (__a, __b, (uint16x8_t)
24911       {12, 4, 13, 5, 14, 6, 15, 7});
24912 #else
24913   return __builtin_shuffle (__a, __b, (uint16x8_t) {0, 8, 1, 9, 2, 10, 3, 11});
24914 #endif
24915 }
24916
24917 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
24918 vzip1q_u32 (uint32x4_t __a, uint32x4_t __b)
24919 {
24920 #ifdef __AARCH64EB__
24921   return __builtin_shuffle (__a, __b, (uint32x4_t) {6, 2, 7, 3});
24922 #else
24923   return __builtin_shuffle (__a, __b, (uint32x4_t) {0, 4, 1, 5});
24924 #endif
24925 }
24926
24927 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
24928 vzip1q_u64 (uint64x2_t __a, uint64x2_t __b)
24929 {
24930 #ifdef __AARCH64EB__
24931   return __builtin_shuffle (__a, __b, (uint64x2_t) {3, 1});
24932 #else
24933   return __builtin_shuffle (__a, __b, (uint64x2_t) {0, 2});
24934 #endif
24935 }
24936
24937 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
24938 vzip2_f32 (float32x2_t __a, float32x2_t __b)
24939 {
24940 #ifdef __AARCH64EB__
24941   return __builtin_shuffle (__a, __b, (uint32x2_t) {2, 0});
24942 #else
24943   return __builtin_shuffle (__a, __b, (uint32x2_t) {1, 3});
24944 #endif
24945 }
24946
24947 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
24948 vzip2_p8 (poly8x8_t __a, poly8x8_t __b)
24949 {
24950 #ifdef __AARCH64EB__
24951   return __builtin_shuffle (__a, __b, (uint8x8_t) {8, 0, 9, 1, 10, 2, 11, 3});
24952 #else
24953   return __builtin_shuffle (__a, __b, (uint8x8_t) {4, 12, 5, 13, 6, 14, 7, 15});
24954 #endif
24955 }
24956
24957 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
24958 vzip2_p16 (poly16x4_t __a, poly16x4_t __b)
24959 {
24960 #ifdef __AARCH64EB__
24961   return __builtin_shuffle (__a, __b, (uint16x4_t) {4, 0, 5, 1});
24962 #else
24963   return __builtin_shuffle (__a, __b, (uint16x4_t) {2, 6, 3, 7});
24964 #endif
24965 }
24966
24967 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
24968 vzip2_s8 (int8x8_t __a, int8x8_t __b)
24969 {
24970 #ifdef __AARCH64EB__
24971   return __builtin_shuffle (__a, __b, (uint8x8_t) {8, 0, 9, 1, 10, 2, 11, 3});
24972 #else
24973   return __builtin_shuffle (__a, __b, (uint8x8_t) {4, 12, 5, 13, 6, 14, 7, 15});
24974 #endif
24975 }
24976
24977 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
24978 vzip2_s16 (int16x4_t __a, int16x4_t __b)
24979 {
24980 #ifdef __AARCH64EB__
24981   return __builtin_shuffle (__a, __b, (uint16x4_t) {4, 0, 5, 1});
24982 #else
24983   return __builtin_shuffle (__a, __b, (uint16x4_t) {2, 6, 3, 7});
24984 #endif
24985 }
24986
24987 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
24988 vzip2_s32 (int32x2_t __a, int32x2_t __b)
24989 {
24990 #ifdef __AARCH64EB__
24991   return __builtin_shuffle (__a, __b, (uint32x2_t) {2, 0});
24992 #else
24993   return __builtin_shuffle (__a, __b, (uint32x2_t) {1, 3});
24994 #endif
24995 }
24996
24997 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
24998 vzip2_u8 (uint8x8_t __a, uint8x8_t __b)
24999 {
25000 #ifdef __AARCH64EB__
25001   return __builtin_shuffle (__a, __b, (uint8x8_t) {8, 0, 9, 1, 10, 2, 11, 3});
25002 #else
25003   return __builtin_shuffle (__a, __b, (uint8x8_t) {4, 12, 5, 13, 6, 14, 7, 15});
25004 #endif
25005 }
25006
25007 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
25008 vzip2_u16 (uint16x4_t __a, uint16x4_t __b)
25009 {
25010 #ifdef __AARCH64EB__
25011   return __builtin_shuffle (__a, __b, (uint16x4_t) {4, 0, 5, 1});
25012 #else
25013   return __builtin_shuffle (__a, __b, (uint16x4_t) {2, 6, 3, 7});
25014 #endif
25015 }
25016
25017 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
25018 vzip2_u32 (uint32x2_t __a, uint32x2_t __b)
25019 {
25020 #ifdef __AARCH64EB__
25021   return __builtin_shuffle (__a, __b, (uint32x2_t) {2, 0});
25022 #else
25023   return __builtin_shuffle (__a, __b, (uint32x2_t) {1, 3});
25024 #endif
25025 }
25026
25027 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
25028 vzip2q_f32 (float32x4_t __a, float32x4_t __b)
25029 {
25030 #ifdef __AARCH64EB__
25031   return __builtin_shuffle (__a, __b, (uint32x4_t) {4, 0, 5, 1});
25032 #else
25033   return __builtin_shuffle (__a, __b, (uint32x4_t) {2, 6, 3, 7});
25034 #endif
25035 }
25036
25037 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
25038 vzip2q_f64 (float64x2_t __a, float64x2_t __b)
25039 {
25040 #ifdef __AARCH64EB__
25041   return __builtin_shuffle (__a, __b, (uint64x2_t) {2, 0});
25042 #else
25043   return __builtin_shuffle (__a, __b, (uint64x2_t) {1, 3});
25044 #endif
25045 }
25046
25047 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
25048 vzip2q_p8 (poly8x16_t __a, poly8x16_t __b)
25049 {
25050 #ifdef __AARCH64EB__
25051   return __builtin_shuffle (__a, __b, (uint8x16_t)
25052       {16, 0, 17, 1, 18, 2, 19, 3, 20, 4, 21, 5, 22, 6, 23, 7});
25053 #else
25054   return __builtin_shuffle (__a, __b, (uint8x16_t)
25055       {8, 24, 9, 25, 10, 26, 11, 27, 12, 28, 13, 29, 14, 30, 15, 31});
25056 #endif
25057 }
25058
25059 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
25060 vzip2q_p16 (poly16x8_t __a, poly16x8_t __b)
25061 {
25062 #ifdef __AARCH64EB__
25063   return __builtin_shuffle (__a, __b, (uint16x8_t) {8, 0, 9, 1, 10, 2, 11, 3});
25064 #else
25065   return __builtin_shuffle (__a, __b, (uint16x8_t)
25066       {4, 12, 5, 13, 6, 14, 7, 15});
25067 #endif
25068 }
25069
25070 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
25071 vzip2q_s8 (int8x16_t __a, int8x16_t __b)
25072 {
25073 #ifdef __AARCH64EB__
25074   return __builtin_shuffle (__a, __b, (uint8x16_t)
25075       {16, 0, 17, 1, 18, 2, 19, 3, 20, 4, 21, 5, 22, 6, 23, 7});
25076 #else
25077   return __builtin_shuffle (__a, __b, (uint8x16_t)
25078       {8, 24, 9, 25, 10, 26, 11, 27, 12, 28, 13, 29, 14, 30, 15, 31});
25079 #endif
25080 }
25081
25082 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
25083 vzip2q_s16 (int16x8_t __a, int16x8_t __b)
25084 {
25085 #ifdef __AARCH64EB__
25086   return __builtin_shuffle (__a, __b, (uint16x8_t) {8, 0, 9, 1, 10, 2, 11, 3});
25087 #else
25088   return __builtin_shuffle (__a, __b, (uint16x8_t)
25089       {4, 12, 5, 13, 6, 14, 7, 15});
25090 #endif
25091 }
25092
25093 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
25094 vzip2q_s32 (int32x4_t __a, int32x4_t __b)
25095 {
25096 #ifdef __AARCH64EB__
25097   return __builtin_shuffle (__a, __b, (uint32x4_t) {4, 0, 5, 1});
25098 #else
25099   return __builtin_shuffle (__a, __b, (uint32x4_t) {2, 6, 3, 7});
25100 #endif
25101 }
25102
25103 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
25104 vzip2q_s64 (int64x2_t __a, int64x2_t __b)
25105 {
25106 #ifdef __AARCH64EB__
25107   return __builtin_shuffle (__a, __b, (uint64x2_t) {2, 0});
25108 #else
25109   return __builtin_shuffle (__a, __b, (uint64x2_t) {1, 3});
25110 #endif
25111 }
25112
25113 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
25114 vzip2q_u8 (uint8x16_t __a, uint8x16_t __b)
25115 {
25116 #ifdef __AARCH64EB__
25117   return __builtin_shuffle (__a, __b, (uint8x16_t)
25118       {16, 0, 17, 1, 18, 2, 19, 3, 20, 4, 21, 5, 22, 6, 23, 7});
25119 #else
25120   return __builtin_shuffle (__a, __b, (uint8x16_t)
25121       {8, 24, 9, 25, 10, 26, 11, 27, 12, 28, 13, 29, 14, 30, 15, 31});
25122 #endif
25123 }
25124
25125 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
25126 vzip2q_u16 (uint16x8_t __a, uint16x8_t __b)
25127 {
25128 #ifdef __AARCH64EB__
25129   return __builtin_shuffle (__a, __b, (uint16x8_t) {8, 0, 9, 1, 10, 2, 11, 3});
25130 #else
25131   return __builtin_shuffle (__a, __b, (uint16x8_t)
25132       {4, 12, 5, 13, 6, 14, 7, 15});
25133 #endif
25134 }
25135
25136 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
25137 vzip2q_u32 (uint32x4_t __a, uint32x4_t __b)
25138 {
25139 #ifdef __AARCH64EB__
25140   return __builtin_shuffle (__a, __b, (uint32x4_t) {4, 0, 5, 1});
25141 #else
25142   return __builtin_shuffle (__a, __b, (uint32x4_t) {2, 6, 3, 7});
25143 #endif
25144 }
25145
25146 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
25147 vzip2q_u64 (uint64x2_t __a, uint64x2_t __b)
25148 {
25149 #ifdef __AARCH64EB__
25150   return __builtin_shuffle (__a, __b, (uint64x2_t) {2, 0});
25151 #else
25152   return __builtin_shuffle (__a, __b, (uint64x2_t) {1, 3});
25153 #endif
25154 }
25155
25156 __INTERLEAVE_LIST (zip)
25157
25158 #undef __INTERLEAVE_LIST
25159 #undef __DEFINTERLEAVE
25160
25161 /* End of optimal implementations in approved order.  */
25162
25163 #undef __aarch64_vget_lane_any
25164
25165 #undef __aarch64_vdup_lane_any
25166 #undef __aarch64_vdup_lane_f32
25167 #undef __aarch64_vdup_lane_f64
25168 #undef __aarch64_vdup_lane_p8
25169 #undef __aarch64_vdup_lane_p16
25170 #undef __aarch64_vdup_lane_s8
25171 #undef __aarch64_vdup_lane_s16
25172 #undef __aarch64_vdup_lane_s32
25173 #undef __aarch64_vdup_lane_s64
25174 #undef __aarch64_vdup_lane_u8
25175 #undef __aarch64_vdup_lane_u16
25176 #undef __aarch64_vdup_lane_u32
25177 #undef __aarch64_vdup_lane_u64
25178 #undef __aarch64_vdup_laneq_f32
25179 #undef __aarch64_vdup_laneq_f64
25180 #undef __aarch64_vdup_laneq_p8
25181 #undef __aarch64_vdup_laneq_p16
25182 #undef __aarch64_vdup_laneq_s8
25183 #undef __aarch64_vdup_laneq_s16
25184 #undef __aarch64_vdup_laneq_s32
25185 #undef __aarch64_vdup_laneq_s64
25186 #undef __aarch64_vdup_laneq_u8
25187 #undef __aarch64_vdup_laneq_u16
25188 #undef __aarch64_vdup_laneq_u32
25189 #undef __aarch64_vdup_laneq_u64
25190 #undef __aarch64_vdupq_lane_f32
25191 #undef __aarch64_vdupq_lane_f64
25192 #undef __aarch64_vdupq_lane_p8
25193 #undef __aarch64_vdupq_lane_p16
25194 #undef __aarch64_vdupq_lane_s8
25195 #undef __aarch64_vdupq_lane_s16
25196 #undef __aarch64_vdupq_lane_s32
25197 #undef __aarch64_vdupq_lane_s64
25198 #undef __aarch64_vdupq_lane_u8
25199 #undef __aarch64_vdupq_lane_u16
25200 #undef __aarch64_vdupq_lane_u32
25201 #undef __aarch64_vdupq_lane_u64
25202 #undef __aarch64_vdupq_laneq_f32
25203 #undef __aarch64_vdupq_laneq_f64
25204 #undef __aarch64_vdupq_laneq_p8
25205 #undef __aarch64_vdupq_laneq_p16
25206 #undef __aarch64_vdupq_laneq_s8
25207 #undef __aarch64_vdupq_laneq_s16
25208 #undef __aarch64_vdupq_laneq_s32
25209 #undef __aarch64_vdupq_laneq_s64
25210 #undef __aarch64_vdupq_laneq_u8
25211 #undef __aarch64_vdupq_laneq_u16
25212 #undef __aarch64_vdupq_laneq_u32
25213 #undef __aarch64_vdupq_laneq_u64
25214
25215 #endif
25216
25217 #endif