gcc/config/aarch64/arm_neon.h

   1 /* ARM NEON intrinsics include file.
   2
   3    Copyright (C) 2011-2014 Free Software Foundation, Inc.
   4    Contributed by ARM Ltd.
   5
   6    This file is part of GCC.
   7
   8    GCC is free software; you can redistribute it and/or modify it
   9    under the terms of the GNU General Public License as published
  10    by the Free Software Foundation; either version 3, or (at your
  11    option) any later version.
  12
  13    GCC is distributed in the hope that it will be useful, but WITHOUT
  14    ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
  15    or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public
  16    License for more details.
  17
  18    Under Section 7 of GPL version 3, you are granted additional
  19    permissions described in the GCC Runtime Library Exception, version
  20    3.1, as published by the Free Software Foundation.
  21
  22    You should have received a copy of the GNU General Public License and
  23    a copy of the GCC Runtime Library Exception along with this program;
  24    see the files COPYING3 and COPYING.RUNTIME respectively.  If not, see
  25    <http://www.gnu.org/licenses/>.  */
  26
  27 #ifndef _AARCH64_NEON_H_
  28 #define _AARCH64_NEON_H_
  29
  30 #include <stdint.h>
  31
  32 #define __AARCH64_UINT64_C(__C) ((uint64_t) __C)
  33 #define __AARCH64_INT64_C(__C) ((int64_t) __C)
  34
  35 typedef __Int8x8_t int8x8_t;
  36 typedef __Int16x4_t int16x4_t;
  37 typedef __Int32x2_t int32x2_t;
  38 typedef __Int64x1_t int64x1_t;
  39 typedef __Float32x2_t float32x2_t;
  40 typedef __Poly8x8_t poly8x8_t;
  41 typedef __Poly16x4_t poly16x4_t;
  42 typedef __Uint8x8_t uint8x8_t;
  43 typedef __Uint16x4_t uint16x4_t;
  44 typedef __Uint32x2_t uint32x2_t;
  45 typedef __Float64x1_t float64x1_t;
  46 typedef __Uint64x1_t uint64x1_t;
  47 typedef __Int8x16_t int8x16_t;
  48 typedef __Int16x8_t int16x8_t;
  49 typedef __Int32x4_t int32x4_t;
  50 typedef __Int64x2_t int64x2_t;
  51 typedef __Float32x4_t float32x4_t;
  52 typedef __Float64x2_t float64x2_t;
  53 typedef __Poly8x16_t poly8x16_t;
  54 typedef __Poly16x8_t poly16x8_t;
  55 typedef __Poly64x2_t poly64x2_t;
  56 typedef __Uint8x16_t uint8x16_t;
  57 typedef __Uint16x8_t uint16x8_t;
  58 typedef __Uint32x4_t uint32x4_t;
  59 typedef __Uint64x2_t uint64x2_t;
  60
  61 typedef __Poly8_t poly8_t;
  62 typedef __Poly16_t poly16_t;
  63 typedef __Poly64_t poly64_t;
  64 typedef __Poly128_t poly128_t;
  65
  66 typedef float float32_t;
  67 typedef double float64_t;
  68
  69 typedef struct int8x8x2_t
  70 {
  71   int8x8_t val[2];
  72 } int8x8x2_t;
  73
  74 typedef struct int8x16x2_t
  75 {
  76   int8x16_t val[2];
  77 } int8x16x2_t;
  78
  79 typedef struct int16x4x2_t
  80 {
  81   int16x4_t val[2];
  82 } int16x4x2_t;
  83
  84 typedef struct int16x8x2_t
  85 {
  86   int16x8_t val[2];
  87 } int16x8x2_t;
  88
  89 typedef struct int32x2x2_t
  90 {
  91   int32x2_t val[2];
  92 } int32x2x2_t;
  93
  94 typedef struct int32x4x2_t
  95 {
  96   int32x4_t val[2];
  97 } int32x4x2_t;
  98
  99 typedef struct int64x1x2_t
 100 {
 101   int64x1_t val[2];
 102 } int64x1x2_t;
 103
 104 typedef struct int64x2x2_t
 105 {
 106   int64x2_t val[2];
 107 } int64x2x2_t;
 108
 109 typedef struct uint8x8x2_t
 110 {
 111   uint8x8_t val[2];
 112 } uint8x8x2_t;
 113
 114 typedef struct uint8x16x2_t
 115 {
 116   uint8x16_t val[2];
 117 } uint8x16x2_t;
 118
 119 typedef struct uint16x4x2_t
 120 {
 121   uint16x4_t val[2];
 122 } uint16x4x2_t;
 123
 124 typedef struct uint16x8x2_t
 125 {
 126   uint16x8_t val[2];
 127 } uint16x8x2_t;
 128
 129 typedef struct uint32x2x2_t
 130 {
 131   uint32x2_t val[2];
 132 } uint32x2x2_t;
 133
 134 typedef struct uint32x4x2_t
 135 {
 136   uint32x4_t val[2];
 137 } uint32x4x2_t;
 138
 139 typedef struct uint64x1x2_t
 140 {
 141   uint64x1_t val[2];
 142 } uint64x1x2_t;
 143
 144 typedef struct uint64x2x2_t
 145 {
 146   uint64x2_t val[2];
 147 } uint64x2x2_t;
 148
 149 typedef struct float32x2x2_t
 150 {
 151   float32x2_t val[2];
 152 } float32x2x2_t;
 153
 154 typedef struct float32x4x2_t
 155 {
 156   float32x4_t val[2];
 157 } float32x4x2_t;
 158
 159 typedef struct float64x2x2_t
 160 {
 161   float64x2_t val[2];
 162 } float64x2x2_t;
 163
 164 typedef struct float64x1x2_t
 165 {
 166   float64x1_t val[2];
 167 } float64x1x2_t;
 168
 169 typedef struct poly8x8x2_t
 170 {
 171   poly8x8_t val[2];
 172 } poly8x8x2_t;
 173
 174 typedef struct poly8x16x2_t
 175 {
 176   poly8x16_t val[2];
 177 } poly8x16x2_t;
 178
 179 typedef struct poly16x4x2_t
 180 {
 181   poly16x4_t val[2];
 182 } poly16x4x2_t;
 183
 184 typedef struct poly16x8x2_t
 185 {
 186   poly16x8_t val[2];
 187 } poly16x8x2_t;
 188
 189 typedef struct int8x8x3_t
 190 {
 191   int8x8_t val[3];
 192 } int8x8x3_t;
 193
 194 typedef struct int8x16x3_t
 195 {
 196   int8x16_t val[3];
 197 } int8x16x3_t;
 198
 199 typedef struct int16x4x3_t
 200 {
 201   int16x4_t val[3];
 202 } int16x4x3_t;
 203
 204 typedef struct int16x8x3_t
 205 {
 206   int16x8_t val[3];
 207 } int16x8x3_t;
 208
 209 typedef struct int32x2x3_t
 210 {
 211   int32x2_t val[3];
 212 } int32x2x3_t;
 213
 214 typedef struct int32x4x3_t
 215 {
 216   int32x4_t val[3];
 217 } int32x4x3_t;
 218
 219 typedef struct int64x1x3_t
 220 {
 221   int64x1_t val[3];
 222 } int64x1x3_t;
 223
 224 typedef struct int64x2x3_t
 225 {
 226   int64x2_t val[3];
 227 } int64x2x3_t;
 228
 229 typedef struct uint8x8x3_t
 230 {
 231   uint8x8_t val[3];
 232 } uint8x8x3_t;
 233
 234 typedef struct uint8x16x3_t
 235 {
 236   uint8x16_t val[3];
 237 } uint8x16x3_t;
 238
 239 typedef struct uint16x4x3_t
 240 {
 241   uint16x4_t val[3];
 242 } uint16x4x3_t;
 243
 244 typedef struct uint16x8x3_t
 245 {
 246   uint16x8_t val[3];
 247 } uint16x8x3_t;
 248
 249 typedef struct uint32x2x3_t
 250 {
 251   uint32x2_t val[3];
 252 } uint32x2x3_t;
 253
 254 typedef struct uint32x4x3_t
 255 {
 256   uint32x4_t val[3];
 257 } uint32x4x3_t;
 258
 259 typedef struct uint64x1x3_t
 260 {
 261   uint64x1_t val[3];
 262 } uint64x1x3_t;
 263
 264 typedef struct uint64x2x3_t
 265 {
 266   uint64x2_t val[3];
 267 } uint64x2x3_t;
 268
 269 typedef struct float32x2x3_t
 270 {
 271   float32x2_t val[3];
 272 } float32x2x3_t;
 273
 274 typedef struct float32x4x3_t
 275 {
 276   float32x4_t val[3];
 277 } float32x4x3_t;
 278
 279 typedef struct float64x2x3_t
 280 {
 281   float64x2_t val[3];
 282 } float64x2x3_t;
 283
 284 typedef struct float64x1x3_t
 285 {
 286   float64x1_t val[3];
 287 } float64x1x3_t;
 288
 289 typedef struct poly8x8x3_t
 290 {
 291   poly8x8_t val[3];
 292 } poly8x8x3_t;
 293
 294 typedef struct poly8x16x3_t
 295 {
 296   poly8x16_t val[3];
 297 } poly8x16x3_t;
 298
 299 typedef struct poly16x4x3_t
 300 {
 301   poly16x4_t val[3];
 302 } poly16x4x3_t;
 303
 304 typedef struct poly16x8x3_t
 305 {
 306   poly16x8_t val[3];
 307 } poly16x8x3_t;
 308
 309 typedef struct int8x8x4_t
 310 {
 311   int8x8_t val[4];
 312 } int8x8x4_t;
 313
 314 typedef struct int8x16x4_t
 315 {
 316   int8x16_t val[4];
 317 } int8x16x4_t;
 318
 319 typedef struct int16x4x4_t
 320 {
 321   int16x4_t val[4];
 322 } int16x4x4_t;
 323
 324 typedef struct int16x8x4_t
 325 {
 326   int16x8_t val[4];
 327 } int16x8x4_t;
 328
 329 typedef struct int32x2x4_t
 330 {
 331   int32x2_t val[4];
 332 } int32x2x4_t;
 333
 334 typedef struct int32x4x4_t
 335 {
 336   int32x4_t val[4];
 337 } int32x4x4_t;
 338
 339 typedef struct int64x1x4_t
 340 {
 341   int64x1_t val[4];
 342 } int64x1x4_t;
 343
 344 typedef struct int64x2x4_t
 345 {
 346   int64x2_t val[4];
 347 } int64x2x4_t;
 348
 349 typedef struct uint8x8x4_t
 350 {
 351   uint8x8_t val[4];
 352 } uint8x8x4_t;
 353
 354 typedef struct uint8x16x4_t
 355 {
 356   uint8x16_t val[4];
 357 } uint8x16x4_t;
 358
 359 typedef struct uint16x4x4_t
 360 {
 361   uint16x4_t val[4];
 362 } uint16x4x4_t;
 363
 364 typedef struct uint16x8x4_t
 365 {
 366   uint16x8_t val[4];
 367 } uint16x8x4_t;
 368
 369 typedef struct uint32x2x4_t
 370 {
 371   uint32x2_t val[4];
 372 } uint32x2x4_t;
 373
 374 typedef struct uint32x4x4_t
 375 {
 376   uint32x4_t val[4];
 377 } uint32x4x4_t;
 378
 379 typedef struct uint64x1x4_t
 380 {
 381   uint64x1_t val[4];
 382 } uint64x1x4_t;
 383
 384 typedef struct uint64x2x4_t
 385 {
 386   uint64x2_t val[4];
 387 } uint64x2x4_t;
 388
 389 typedef struct float32x2x4_t
 390 {
 391   float32x2_t val[4];
 392 } float32x2x4_t;
 393
 394 typedef struct float32x4x4_t
 395 {
 396   float32x4_t val[4];
 397 } float32x4x4_t;
 398
 399 typedef struct float64x2x4_t
 400 {
 401   float64x2_t val[4];
 402 } float64x2x4_t;
 403
 404 typedef struct float64x1x4_t
 405 {
 406   float64x1_t val[4];
 407 } float64x1x4_t;
 408
 409 typedef struct poly8x8x4_t
 410 {
 411   poly8x8_t val[4];
 412 } poly8x8x4_t;
 413
 414 typedef struct poly8x16x4_t
 415 {
 416   poly8x16_t val[4];
 417 } poly8x16x4_t;
 418
 419 typedef struct poly16x4x4_t
 420 {
 421   poly16x4_t val[4];
 422 } poly16x4x4_t;
 423
 424 typedef struct poly16x8x4_t
 425 {
 426   poly16x8_t val[4];
 427 } poly16x8x4_t;
 428
 429 /* __aarch64_vdup_lane internal macros.  */
 430 #define __aarch64_vdup_lane_any(__size, __q, __a, __b) \
 431   vdup##__q##_n_##__size (__aarch64_vget_lane_any (__a, __b))
 432
 433 #define __aarch64_vdup_lane_f32(__a, __b) \
 434    __aarch64_vdup_lane_any (f32, , __a, __b)
 435 #define __aarch64_vdup_lane_f64(__a, __b) \
 436    __aarch64_vdup_lane_any (f64, , __a, __b)
 437 #define __aarch64_vdup_lane_p8(__a, __b) \
 438    __aarch64_vdup_lane_any (p8, , __a, __b)
 439 #define __aarch64_vdup_lane_p16(__a, __b) \
 440    __aarch64_vdup_lane_any (p16, , __a, __b)
 441 #define __aarch64_vdup_lane_s8(__a, __b) \
 442    __aarch64_vdup_lane_any (s8, , __a, __b)
 443 #define __aarch64_vdup_lane_s16(__a, __b) \
 444    __aarch64_vdup_lane_any (s16, , __a, __b)
 445 #define __aarch64_vdup_lane_s32(__a, __b) \
 446    __aarch64_vdup_lane_any (s32, , __a, __b)
 447 #define __aarch64_vdup_lane_s64(__a, __b) \
 448   __aarch64_vdup_lane_any (s64, , __a, __b)
 449 #define __aarch64_vdup_lane_u8(__a, __b) \
 450    __aarch64_vdup_lane_any (u8, , __a, __b)
 451 #define __aarch64_vdup_lane_u16(__a, __b) \
 452    __aarch64_vdup_lane_any (u16, , __a, __b)
 453 #define __aarch64_vdup_lane_u32(__a, __b) \
 454    __aarch64_vdup_lane_any (u32, , __a, __b)
 455 #define __aarch64_vdup_lane_u64(__a, __b) \
 456    __aarch64_vdup_lane_any (u64, , __a, __b)
 457
 458 /* __aarch64_vdup_laneq internal macros.  */
 459 #define __aarch64_vdup_laneq_f32(__a, __b) \
 460    __aarch64_vdup_lane_any (f32, , __a, __b)
 461 #define __aarch64_vdup_laneq_f64(__a, __b) \
 462    __aarch64_vdup_lane_any (f64, , __a, __b)
 463 #define __aarch64_vdup_laneq_p8(__a, __b) \
 464    __aarch64_vdup_lane_any (p8, , __a, __b)
 465 #define __aarch64_vdup_laneq_p16(__a, __b) \
 466    __aarch64_vdup_lane_any (p16, , __a, __b)
 467 #define __aarch64_vdup_laneq_s8(__a, __b) \
 468    __aarch64_vdup_lane_any (s8, , __a, __b)
 469 #define __aarch64_vdup_laneq_s16(__a, __b) \
 470    __aarch64_vdup_lane_any (s16, , __a, __b)
 471 #define __aarch64_vdup_laneq_s32(__a, __b) \
 472    __aarch64_vdup_lane_any (s32, , __a, __b)
 473 #define __aarch64_vdup_laneq_s64(__a, __b) \
 474    __aarch64_vdup_lane_any (s64, , __a, __b)
 475 #define __aarch64_vdup_laneq_u8(__a, __b) \
 476    __aarch64_vdup_lane_any (u8, , __a, __b)
 477 #define __aarch64_vdup_laneq_u16(__a, __b) \
 478    __aarch64_vdup_lane_any (u16, , __a, __b)
 479 #define __aarch64_vdup_laneq_u32(__a, __b) \
 480    __aarch64_vdup_lane_any (u32, , __a, __b)
 481 #define __aarch64_vdup_laneq_u64(__a, __b) \
 482    __aarch64_vdup_lane_any (u64, , __a, __b)
 483
 484 /* __aarch64_vdupq_lane internal macros.  */
 485 #define __aarch64_vdupq_lane_f32(__a, __b) \
 486    __aarch64_vdup_lane_any (f32, q, __a, __b)
 487 #define __aarch64_vdupq_lane_f64(__a, __b) \
 488    __aarch64_vdup_lane_any (f64, q, __a, __b)
 489 #define __aarch64_vdupq_lane_p8(__a, __b) \
 490    __aarch64_vdup_lane_any (p8, q, __a, __b)
 491 #define __aarch64_vdupq_lane_p16(__a, __b) \
 492    __aarch64_vdup_lane_any (p16, q, __a, __b)
 493 #define __aarch64_vdupq_lane_s8(__a, __b) \
 494    __aarch64_vdup_lane_any (s8, q, __a, __b)
 495 #define __aarch64_vdupq_lane_s16(__a, __b) \
 496    __aarch64_vdup_lane_any (s16, q, __a, __b)
 497 #define __aarch64_vdupq_lane_s32(__a, __b) \
 498    __aarch64_vdup_lane_any (s32, q, __a, __b)
 499 #define __aarch64_vdupq_lane_s64(__a, __b) \
 500    __aarch64_vdup_lane_any (s64, q, __a, __b)
 501 #define __aarch64_vdupq_lane_u8(__a, __b) \
 502    __aarch64_vdup_lane_any (u8, q, __a, __b)
 503 #define __aarch64_vdupq_lane_u16(__a, __b) \
 504    __aarch64_vdup_lane_any (u16, q, __a, __b)
 505 #define __aarch64_vdupq_lane_u32(__a, __b) \
 506    __aarch64_vdup_lane_any (u32, q, __a, __b)
 507 #define __aarch64_vdupq_lane_u64(__a, __b) \
 508    __aarch64_vdup_lane_any (u64, q, __a, __b)
 509
 510 /* __aarch64_vdupq_laneq internal macros.  */
 511 #define __aarch64_vdupq_laneq_f32(__a, __b) \
 512    __aarch64_vdup_lane_any (f32, q, __a, __b)
 513 #define __aarch64_vdupq_laneq_f64(__a, __b) \
 514    __aarch64_vdup_lane_any (f64, q, __a, __b)
 515 #define __aarch64_vdupq_laneq_p8(__a, __b) \
 516    __aarch64_vdup_lane_any (p8, q, __a, __b)
 517 #define __aarch64_vdupq_laneq_p16(__a, __b) \
 518    __aarch64_vdup_lane_any (p16, q, __a, __b)
 519 #define __aarch64_vdupq_laneq_s8(__a, __b) \
 520    __aarch64_vdup_lane_any (s8, q, __a, __b)
 521 #define __aarch64_vdupq_laneq_s16(__a, __b) \
 522    __aarch64_vdup_lane_any (s16, q, __a, __b)
 523 #define __aarch64_vdupq_laneq_s32(__a, __b) \
 524    __aarch64_vdup_lane_any (s32, q, __a, __b)
 525 #define __aarch64_vdupq_laneq_s64(__a, __b) \
 526    __aarch64_vdup_lane_any (s64, q, __a, __b)
 527 #define __aarch64_vdupq_laneq_u8(__a, __b) \
 528    __aarch64_vdup_lane_any (u8, q, __a, __b)
 529 #define __aarch64_vdupq_laneq_u16(__a, __b) \
 530    __aarch64_vdup_lane_any (u16, q, __a, __b)
 531 #define __aarch64_vdupq_laneq_u32(__a, __b) \
 532    __aarch64_vdup_lane_any (u32, q, __a, __b)
 533 #define __aarch64_vdupq_laneq_u64(__a, __b) \
 534    __aarch64_vdup_lane_any (u64, q, __a, __b)
 535
 536 /* Internal macro for lane indices.  */
 537
 538 #define __AARCH64_NUM_LANES(__v) (sizeof (__v) / sizeof (__v[0]))
 539 #define __AARCH64_LANE_CHECK(__vec, __idx)      \
 540         __builtin_aarch64_im_lane_boundsi (__AARCH64_NUM_LANES (__vec), __idx)
 541
 542 /* For big-endian, GCC's vector indices are the opposite way around
 543    to the architectural lane indices used by Neon intrinsics.  */
 544 #ifdef __AARCH64EB__
 545 #define __aarch64_lane(__vec, __idx) (__AARCH64_NUM_LANES (__vec) - 1 - __idx)
 546 #else
 547 #define __aarch64_lane(__vec, __idx) __idx
 548 #endif
 549
 550 /* vget_lane internal macro.  */
 551 #define __aarch64_vget_lane_any(__vec, __index)                         \
 552   __extension__                                                         \
 553   ({                                                                    \
 554     __AARCH64_LANE_CHECK (__vec, __index);                              \
 555     __vec[__aarch64_lane (__vec, __index)];                             \
 556   })
 557
 558 /* vset_lane and vld1_lane internal macro.  */
 559 #define __aarch64_vset_lane_any(__elem, __vec, __index)                 \
 560   __extension__                                                         \
 561   ({                                                                    \
 562     __AARCH64_LANE_CHECK (__vec, __index);                              \
 563     __vec[__aarch64_lane (__vec, __index)] = __elem;                    \
 564     __vec;                                                              \
 565   })
 566
 567 /* vadd  */
 568 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
 569 vadd_s8 (int8x8_t __a, int8x8_t __b)
 570 {
 571   return __a + __b;
 572 }
 573
 574 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
 575 vadd_s16 (int16x4_t __a, int16x4_t __b)
 576 {
 577   return __a + __b;
 578 }
 579
 580 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
 581 vadd_s32 (int32x2_t __a, int32x2_t __b)
 582 {
 583   return __a + __b;
 584 }
 585
 586 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
 587 vadd_f32 (float32x2_t __a, float32x2_t __b)
 588 {
 589   return __a + __b;
 590 }
 591
 592 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
 593 vadd_f64 (float64x1_t __a, float64x1_t __b)
 594 {
 595   return __a + __b;
 596 }
 597
 598 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
 599 vadd_u8 (uint8x8_t __a, uint8x8_t __b)
 600 {
 601   return __a + __b;
 602 }
 603
 604 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
 605 vadd_u16 (uint16x4_t __a, uint16x4_t __b)
 606 {
 607   return __a + __b;
 608 }
 609
 610 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
 611 vadd_u32 (uint32x2_t __a, uint32x2_t __b)
 612 {
 613   return __a + __b;
 614 }
 615
 616 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
 617 vadd_s64 (int64x1_t __a, int64x1_t __b)
 618 {
 619   return __a + __b;
 620 }
 621
 622 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
 623 vadd_u64 (uint64x1_t __a, uint64x1_t __b)
 624 {
 625   return __a + __b;
 626 }
 627
 628 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
 629 vaddq_s8 (int8x16_t __a, int8x16_t __b)
 630 {
 631   return __a + __b;
 632 }
 633
 634 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
 635 vaddq_s16 (int16x8_t __a, int16x8_t __b)
 636 {
 637   return __a + __b;
 638 }
 639
 640 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
 641 vaddq_s32 (int32x4_t __a, int32x4_t __b)
 642 {
 643   return __a + __b;
 644 }
 645
 646 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
 647 vaddq_s64 (int64x2_t __a, int64x2_t __b)
 648 {
 649   return __a + __b;
 650 }
 651
 652 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
 653 vaddq_f32 (float32x4_t __a, float32x4_t __b)
 654 {
 655   return __a + __b;
 656 }
 657
 658 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
 659 vaddq_f64 (float64x2_t __a, float64x2_t __b)
 660 {
 661   return __a + __b;
 662 }
 663
 664 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
 665 vaddq_u8 (uint8x16_t __a, uint8x16_t __b)
 666 {
 667   return __a + __b;
 668 }
 669
 670 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
 671 vaddq_u16 (uint16x8_t __a, uint16x8_t __b)
 672 {
 673   return __a + __b;
 674 }
 675
 676 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
 677 vaddq_u32 (uint32x4_t __a, uint32x4_t __b)
 678 {
 679   return __a + __b;
 680 }
 681
 682 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
 683 vaddq_u64 (uint64x2_t __a, uint64x2_t __b)
 684 {
 685   return __a + __b;
 686 }
 687
 688 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
 689 vaddl_s8 (int8x8_t __a, int8x8_t __b)
 690 {
 691   return (int16x8_t) __builtin_aarch64_saddlv8qi (__a, __b);
 692 }
 693
 694 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
 695 vaddl_s16 (int16x4_t __a, int16x4_t __b)
 696 {
 697   return (int32x4_t) __builtin_aarch64_saddlv4hi (__a, __b);
 698 }
 699
 700 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
 701 vaddl_s32 (int32x2_t __a, int32x2_t __b)
 702 {
 703   return (int64x2_t) __builtin_aarch64_saddlv2si (__a, __b);
 704 }
 705
 706 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
 707 vaddl_u8 (uint8x8_t __a, uint8x8_t __b)
 708 {
 709   return (uint16x8_t) __builtin_aarch64_uaddlv8qi ((int8x8_t) __a,
 710                                                    (int8x8_t) __b);
 711 }
 712
 713 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
 714 vaddl_u16 (uint16x4_t __a, uint16x4_t __b)
 715 {
 716   return (uint32x4_t) __builtin_aarch64_uaddlv4hi ((int16x4_t) __a,
 717                                                    (int16x4_t) __b);
 718 }
 719
 720 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
 721 vaddl_u32 (uint32x2_t __a, uint32x2_t __b)
 722 {
 723   return (uint64x2_t) __builtin_aarch64_uaddlv2si ((int32x2_t) __a,
 724                                                    (int32x2_t) __b);
 725 }
 726
 727 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
 728 vaddl_high_s8 (int8x16_t __a, int8x16_t __b)
 729 {
 730   return (int16x8_t) __builtin_aarch64_saddl2v16qi (__a, __b);
 731 }
 732
 733 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
 734 vaddl_high_s16 (int16x8_t __a, int16x8_t __b)
 735 {
 736   return (int32x4_t) __builtin_aarch64_saddl2v8hi (__a, __b);
 737 }
 738
 739 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
 740 vaddl_high_s32 (int32x4_t __a, int32x4_t __b)
 741 {
 742   return (int64x2_t) __builtin_aarch64_saddl2v4si (__a, __b);
 743 }
 744
 745 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
 746 vaddl_high_u8 (uint8x16_t __a, uint8x16_t __b)
 747 {
 748   return (uint16x8_t) __builtin_aarch64_uaddl2v16qi ((int8x16_t) __a,
 749                                                      (int8x16_t) __b);
 750 }
 751
 752 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
 753 vaddl_high_u16 (uint16x8_t __a, uint16x8_t __b)
 754 {
 755   return (uint32x4_t) __builtin_aarch64_uaddl2v8hi ((int16x8_t) __a,
 756                                                     (int16x8_t) __b);
 757 }
 758
 759 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
 760 vaddl_high_u32 (uint32x4_t __a, uint32x4_t __b)
 761 {
 762   return (uint64x2_t) __builtin_aarch64_uaddl2v4si ((int32x4_t) __a,
 763                                                     (int32x4_t) __b);
 764 }
 765
 766 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
 767 vaddw_s8 (int16x8_t __a, int8x8_t __b)
 768 {
 769   return (int16x8_t) __builtin_aarch64_saddwv8qi (__a, __b);
 770 }
 771
 772 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
 773 vaddw_s16 (int32x4_t __a, int16x4_t __b)
 774 {
 775   return (int32x4_t) __builtin_aarch64_saddwv4hi (__a, __b);
 776 }
 777
 778 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
 779 vaddw_s32 (int64x2_t __a, int32x2_t __b)
 780 {
 781   return (int64x2_t) __builtin_aarch64_saddwv2si (__a, __b);
 782 }
 783
 784 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
 785 vaddw_u8 (uint16x8_t __a, uint8x8_t __b)
 786 {
 787   return (uint16x8_t) __builtin_aarch64_uaddwv8qi ((int16x8_t) __a,
 788                                                    (int8x8_t) __b);
 789 }
 790
 791 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
 792 vaddw_u16 (uint32x4_t __a, uint16x4_t __b)
 793 {
 794   return (uint32x4_t) __builtin_aarch64_uaddwv4hi ((int32x4_t) __a,
 795                                                    (int16x4_t) __b);
 796 }
 797
 798 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
 799 vaddw_u32 (uint64x2_t __a, uint32x2_t __b)
 800 {
 801   return (uint64x2_t) __builtin_aarch64_uaddwv2si ((int64x2_t) __a,
 802                                                    (int32x2_t) __b);
 803 }
 804
 805 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
 806 vaddw_high_s8 (int16x8_t __a, int8x16_t __b)
 807 {
 808   return (int16x8_t) __builtin_aarch64_saddw2v16qi (__a, __b);
 809 }
 810
 811 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
 812 vaddw_high_s16 (int32x4_t __a, int16x8_t __b)
 813 {
 814   return (int32x4_t) __builtin_aarch64_saddw2v8hi (__a, __b);
 815 }
 816
 817 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
 818 vaddw_high_s32 (int64x2_t __a, int32x4_t __b)
 819 {
 820   return (int64x2_t) __builtin_aarch64_saddw2v4si (__a, __b);
 821 }
 822
 823 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
 824 vaddw_high_u8 (uint16x8_t __a, uint8x16_t __b)
 825 {
 826   return (uint16x8_t) __builtin_aarch64_uaddw2v16qi ((int16x8_t) __a,
 827                                                      (int8x16_t) __b);
 828 }
 829
 830 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
 831 vaddw_high_u16 (uint32x4_t __a, uint16x8_t __b)
 832 {
 833   return (uint32x4_t) __builtin_aarch64_uaddw2v8hi ((int32x4_t) __a,
 834                                                     (int16x8_t) __b);
 835 }
 836
 837 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
 838 vaddw_high_u32 (uint64x2_t __a, uint32x4_t __b)
 839 {
 840   return (uint64x2_t) __builtin_aarch64_uaddw2v4si ((int64x2_t) __a,
 841                                                     (int32x4_t) __b);
 842 }
 843
 844 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
 845 vhadd_s8 (int8x8_t __a, int8x8_t __b)
 846 {
 847   return (int8x8_t) __builtin_aarch64_shaddv8qi (__a, __b);
 848 }
 849
 850 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
 851 vhadd_s16 (int16x4_t __a, int16x4_t __b)
 852 {
 853   return (int16x4_t) __builtin_aarch64_shaddv4hi (__a, __b);
 854 }
 855
 856 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
 857 vhadd_s32 (int32x2_t __a, int32x2_t __b)
 858 {
 859   return (int32x2_t) __builtin_aarch64_shaddv2si (__a, __b);
 860 }
 861
 862 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
 863 vhadd_u8 (uint8x8_t __a, uint8x8_t __b)
 864 {
 865   return (uint8x8_t) __builtin_aarch64_uhaddv8qi ((int8x8_t) __a,
 866                                                   (int8x8_t) __b);
 867 }
 868
 869 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
 870 vhadd_u16 (uint16x4_t __a, uint16x4_t __b)
 871 {
 872   return (uint16x4_t) __builtin_aarch64_uhaddv4hi ((int16x4_t) __a,
 873                                                    (int16x4_t) __b);
 874 }
 875
 876 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
 877 vhadd_u32 (uint32x2_t __a, uint32x2_t __b)
 878 {
 879   return (uint32x2_t) __builtin_aarch64_uhaddv2si ((int32x2_t) __a,
 880                                                    (int32x2_t) __b);
 881 }
 882
 883 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
 884 vhaddq_s8 (int8x16_t __a, int8x16_t __b)
 885 {
 886   return (int8x16_t) __builtin_aarch64_shaddv16qi (__a, __b);
 887 }
 888
 889 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
 890 vhaddq_s16 (int16x8_t __a, int16x8_t __b)
 891 {
 892   return (int16x8_t) __builtin_aarch64_shaddv8hi (__a, __b);
 893 }
 894
 895 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
 896 vhaddq_s32 (int32x4_t __a, int32x4_t __b)
 897 {
 898   return (int32x4_t) __builtin_aarch64_shaddv4si (__a, __b);
 899 }
 900
 901 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
 902 vhaddq_u8 (uint8x16_t __a, uint8x16_t __b)
 903 {
 904   return (uint8x16_t) __builtin_aarch64_uhaddv16qi ((int8x16_t) __a,
 905                                                     (int8x16_t) __b);
 906 }
 907
 908 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
 909 vhaddq_u16 (uint16x8_t __a, uint16x8_t __b)
 910 {
 911   return (uint16x8_t) __builtin_aarch64_uhaddv8hi ((int16x8_t) __a,
 912                                                    (int16x8_t) __b);
 913 }
 914
 915 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
 916 vhaddq_u32 (uint32x4_t __a, uint32x4_t __b)
 917 {
 918   return (uint32x4_t) __builtin_aarch64_uhaddv4si ((int32x4_t) __a,
 919                                                    (int32x4_t) __b);
 920 }
 921
 922 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
 923 vrhadd_s8 (int8x8_t __a, int8x8_t __b)
 924 {
 925   return (int8x8_t) __builtin_aarch64_srhaddv8qi (__a, __b);
 926 }
 927
 928 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
 929 vrhadd_s16 (int16x4_t __a, int16x4_t __b)
 930 {
 931   return (int16x4_t) __builtin_aarch64_srhaddv4hi (__a, __b);
 932 }
 933
 934 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
 935 vrhadd_s32 (int32x2_t __a, int32x2_t __b)
 936 {
 937   return (int32x2_t) __builtin_aarch64_srhaddv2si (__a, __b);
 938 }
 939
 940 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
 941 vrhadd_u8 (uint8x8_t __a, uint8x8_t __b)
 942 {
 943   return (uint8x8_t) __builtin_aarch64_urhaddv8qi ((int8x8_t) __a,
 944                                                    (int8x8_t) __b);
 945 }
 946
 947 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
 948 vrhadd_u16 (uint16x4_t __a, uint16x4_t __b)
 949 {
 950   return (uint16x4_t) __builtin_aarch64_urhaddv4hi ((int16x4_t) __a,
 951                                                     (int16x4_t) __b);
 952 }
 953
 954 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
 955 vrhadd_u32 (uint32x2_t __a, uint32x2_t __b)
 956 {
 957   return (uint32x2_t) __builtin_aarch64_urhaddv2si ((int32x2_t) __a,
 958                                                     (int32x2_t) __b);
 959 }
 960
 961 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
 962 vrhaddq_s8 (int8x16_t __a, int8x16_t __b)
 963 {
 964   return (int8x16_t) __builtin_aarch64_srhaddv16qi (__a, __b);
 965 }
 966
 967 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
 968 vrhaddq_s16 (int16x8_t __a, int16x8_t __b)
 969 {
 970   return (int16x8_t) __builtin_aarch64_srhaddv8hi (__a, __b);
 971 }
 972
 973 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
 974 vrhaddq_s32 (int32x4_t __a, int32x4_t __b)
 975 {
 976   return (int32x4_t) __builtin_aarch64_srhaddv4si (__a, __b);
 977 }
 978
 979 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
 980 vrhaddq_u8 (uint8x16_t __a, uint8x16_t __b)
 981 {
 982   return (uint8x16_t) __builtin_aarch64_urhaddv16qi ((int8x16_t) __a,
 983                                                      (int8x16_t) __b);
 984 }
 985
 986 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
 987 vrhaddq_u16 (uint16x8_t __a, uint16x8_t __b)
 988 {
 989   return (uint16x8_t) __builtin_aarch64_urhaddv8hi ((int16x8_t) __a,
 990                                                     (int16x8_t) __b);
 991 }
 992
 993 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
 994 vrhaddq_u32 (uint32x4_t __a, uint32x4_t __b)
 995 {
 996   return (uint32x4_t) __builtin_aarch64_urhaddv4si ((int32x4_t) __a,
 997                                                     (int32x4_t) __b);
 998 }
 999
1000 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1001 vaddhn_s16 (int16x8_t __a, int16x8_t __b)
1002 {
1003   return (int8x8_t) __builtin_aarch64_addhnv8hi (__a, __b);
1004 }
1005
1006 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1007 vaddhn_s32 (int32x4_t __a, int32x4_t __b)
1008 {
1009   return (int16x4_t) __builtin_aarch64_addhnv4si (__a, __b);
1010 }
1011
1012 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1013 vaddhn_s64 (int64x2_t __a, int64x2_t __b)
1014 {
1015   return (int32x2_t) __builtin_aarch64_addhnv2di (__a, __b);
1016 }
1017
1018 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1019 vaddhn_u16 (uint16x8_t __a, uint16x8_t __b)
1020 {
1021   return (uint8x8_t) __builtin_aarch64_addhnv8hi ((int16x8_t) __a,
1022                                                   (int16x8_t) __b);
1023 }
1024
1025 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1026 vaddhn_u32 (uint32x4_t __a, uint32x4_t __b)
1027 {
1028   return (uint16x4_t) __builtin_aarch64_addhnv4si ((int32x4_t) __a,
1029                                                    (int32x4_t) __b);
1030 }
1031
1032 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1033 vaddhn_u64 (uint64x2_t __a, uint64x2_t __b)
1034 {
1035   return (uint32x2_t) __builtin_aarch64_addhnv2di ((int64x2_t) __a,
1036                                                    (int64x2_t) __b);
1037 }
1038
1039 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1040 vraddhn_s16 (int16x8_t __a, int16x8_t __b)
1041 {
1042   return (int8x8_t) __builtin_aarch64_raddhnv8hi (__a, __b);
1043 }
1044
1045 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1046 vraddhn_s32 (int32x4_t __a, int32x4_t __b)
1047 {
1048   return (int16x4_t) __builtin_aarch64_raddhnv4si (__a, __b);
1049 }
1050
1051 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1052 vraddhn_s64 (int64x2_t __a, int64x2_t __b)
1053 {
1054   return (int32x2_t) __builtin_aarch64_raddhnv2di (__a, __b);
1055 }
1056
1057 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1058 vraddhn_u16 (uint16x8_t __a, uint16x8_t __b)
1059 {
1060   return (uint8x8_t) __builtin_aarch64_raddhnv8hi ((int16x8_t) __a,
1061                                                    (int16x8_t) __b);
1062 }
1063
1064 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1065 vraddhn_u32 (uint32x4_t __a, uint32x4_t __b)
1066 {
1067   return (uint16x4_t) __builtin_aarch64_raddhnv4si ((int32x4_t) __a,
1068                                                     (int32x4_t) __b);
1069 }
1070
1071 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1072 vraddhn_u64 (uint64x2_t __a, uint64x2_t __b)
1073 {
1074   return (uint32x2_t) __builtin_aarch64_raddhnv2di ((int64x2_t) __a,
1075                                                     (int64x2_t) __b);
1076 }
1077
1078 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1079 vaddhn_high_s16 (int8x8_t __a, int16x8_t __b, int16x8_t __c)
1080 {
1081   return (int8x16_t) __builtin_aarch64_addhn2v8hi (__a, __b, __c);
1082 }
1083
1084 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1085 vaddhn_high_s32 (int16x4_t __a, int32x4_t __b, int32x4_t __c)
1086 {
1087   return (int16x8_t) __builtin_aarch64_addhn2v4si (__a, __b, __c);
1088 }
1089
1090 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1091 vaddhn_high_s64 (int32x2_t __a, int64x2_t __b, int64x2_t __c)
1092 {
1093   return (int32x4_t) __builtin_aarch64_addhn2v2di (__a, __b, __c);
1094 }
1095
1096 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1097 vaddhn_high_u16 (uint8x8_t __a, uint16x8_t __b, uint16x8_t __c)
1098 {
1099   return (uint8x16_t) __builtin_aarch64_addhn2v8hi ((int8x8_t) __a,
1100                                                     (int16x8_t) __b,
1101                                                     (int16x8_t) __c);
1102 }
1103
1104 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1105 vaddhn_high_u32 (uint16x4_t __a, uint32x4_t __b, uint32x4_t __c)
1106 {
1107   return (uint16x8_t) __builtin_aarch64_addhn2v4si ((int16x4_t) __a,
1108                                                     (int32x4_t) __b,
1109                                                     (int32x4_t) __c);
1110 }
1111
1112 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1113 vaddhn_high_u64 (uint32x2_t __a, uint64x2_t __b, uint64x2_t __c)
1114 {
1115   return (uint32x4_t) __builtin_aarch64_addhn2v2di ((int32x2_t) __a,
1116                                                     (int64x2_t) __b,
1117                                                     (int64x2_t) __c);
1118 }
1119
1120 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1121 vraddhn_high_s16 (int8x8_t __a, int16x8_t __b, int16x8_t __c)
1122 {
1123   return (int8x16_t) __builtin_aarch64_raddhn2v8hi (__a, __b, __c);
1124 }
1125
1126 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1127 vraddhn_high_s32 (int16x4_t __a, int32x4_t __b, int32x4_t __c)
1128 {
1129   return (int16x8_t) __builtin_aarch64_raddhn2v4si (__a, __b, __c);
1130 }
1131
1132 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1133 vraddhn_high_s64 (int32x2_t __a, int64x2_t __b, int64x2_t __c)
1134 {
1135   return (int32x4_t) __builtin_aarch64_raddhn2v2di (__a, __b, __c);
1136 }
1137
1138 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1139 vraddhn_high_u16 (uint8x8_t __a, uint16x8_t __b, uint16x8_t __c)
1140 {
1141   return (uint8x16_t) __builtin_aarch64_raddhn2v8hi ((int8x8_t) __a,
1142                                                      (int16x8_t) __b,
1143                                                      (int16x8_t) __c);
1144 }
1145
1146 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1147 vraddhn_high_u32 (uint16x4_t __a, uint32x4_t __b, uint32x4_t __c)
1148 {
1149   return (uint16x8_t) __builtin_aarch64_raddhn2v4si ((int16x4_t) __a,
1150                                                      (int32x4_t) __b,
1151                                                      (int32x4_t) __c);
1152 }
1153
1154 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1155 vraddhn_high_u64 (uint32x2_t __a, uint64x2_t __b, uint64x2_t __c)
1156 {
1157   return (uint32x4_t) __builtin_aarch64_raddhn2v2di ((int32x2_t) __a,
1158                                                      (int64x2_t) __b,
1159                                                      (int64x2_t) __c);
1160 }
1161
1162 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
1163 vdiv_f32 (float32x2_t __a, float32x2_t __b)
1164 {
1165   return __a / __b;
1166 }
1167
1168 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
1169 vdiv_f64 (float64x1_t __a, float64x1_t __b)
1170 {
1171   return __a / __b;
1172 }
1173
1174 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
1175 vdivq_f32 (float32x4_t __a, float32x4_t __b)
1176 {
1177   return __a / __b;
1178 }
1179
1180 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
1181 vdivq_f64 (float64x2_t __a, float64x2_t __b)
1182 {
1183   return __a / __b;
1184 }
1185
1186 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1187 vmul_s8 (int8x8_t __a, int8x8_t __b)
1188 {
1189   return __a * __b;
1190 }
1191
1192 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1193 vmul_s16 (int16x4_t __a, int16x4_t __b)
1194 {
1195   return __a * __b;
1196 }
1197
1198 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1199 vmul_s32 (int32x2_t __a, int32x2_t __b)
1200 {
1201   return __a * __b;
1202 }
1203
1204 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
1205 vmul_f32 (float32x2_t __a, float32x2_t __b)
1206 {
1207   return __a * __b;
1208 }
1209
1210 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
1211 vmul_f64 (float64x1_t __a, float64x1_t __b)
1212 {
1213   return __a * __b;
1214 }
1215
1216 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1217 vmul_u8 (uint8x8_t __a, uint8x8_t __b)
1218 {
1219   return __a * __b;
1220 }
1221
1222 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1223 vmul_u16 (uint16x4_t __a, uint16x4_t __b)
1224 {
1225   return __a * __b;
1226 }
1227
1228 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1229 vmul_u32 (uint32x2_t __a, uint32x2_t __b)
1230 {
1231   return __a * __b;
1232 }
1233
1234 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
1235 vmul_p8 (poly8x8_t __a, poly8x8_t __b)
1236 {
1237   return (poly8x8_t) __builtin_aarch64_pmulv8qi ((int8x8_t) __a,
1238                                                  (int8x8_t) __b);
1239 }
1240
1241 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1242 vmulq_s8 (int8x16_t __a, int8x16_t __b)
1243 {
1244   return __a * __b;
1245 }
1246
1247 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1248 vmulq_s16 (int16x8_t __a, int16x8_t __b)
1249 {
1250   return __a * __b;
1251 }
1252
1253 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1254 vmulq_s32 (int32x4_t __a, int32x4_t __b)
1255 {
1256   return __a * __b;
1257 }
1258
1259 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
1260 vmulq_f32 (float32x4_t __a, float32x4_t __b)
1261 {
1262   return __a * __b;
1263 }
1264
1265 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
1266 vmulq_f64 (float64x2_t __a, float64x2_t __b)
1267 {
1268   return __a * __b;
1269 }
1270
1271 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1272 vmulq_u8 (uint8x16_t __a, uint8x16_t __b)
1273 {
1274   return __a * __b;
1275 }
1276
1277 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1278 vmulq_u16 (uint16x8_t __a, uint16x8_t __b)
1279 {
1280   return __a * __b;
1281 }
1282
1283 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1284 vmulq_u32 (uint32x4_t __a, uint32x4_t __b)
1285 {
1286   return __a * __b;
1287 }
1288
1289 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
1290 vmulq_p8 (poly8x16_t __a, poly8x16_t __b)
1291 {
1292   return (poly8x16_t) __builtin_aarch64_pmulv16qi ((int8x16_t) __a,
1293                                                    (int8x16_t) __b);
1294 }
1295
1296 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1297 vand_s8 (int8x8_t __a, int8x8_t __b)
1298 {
1299   return __a & __b;
1300 }
1301
1302 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1303 vand_s16 (int16x4_t __a, int16x4_t __b)
1304 {
1305   return __a & __b;
1306 }
1307
1308 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1309 vand_s32 (int32x2_t __a, int32x2_t __b)
1310 {
1311   return __a & __b;
1312 }
1313
1314 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1315 vand_u8 (uint8x8_t __a, uint8x8_t __b)
1316 {
1317   return __a & __b;
1318 }
1319
1320 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1321 vand_u16 (uint16x4_t __a, uint16x4_t __b)
1322 {
1323   return __a & __b;
1324 }
1325
1326 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1327 vand_u32 (uint32x2_t __a, uint32x2_t __b)
1328 {
1329   return __a & __b;
1330 }
1331
1332 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
1333 vand_s64 (int64x1_t __a, int64x1_t __b)
1334 {
1335   return __a & __b;
1336 }
1337
1338 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
1339 vand_u64 (uint64x1_t __a, uint64x1_t __b)
1340 {
1341   return __a & __b;
1342 }
1343
1344 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1345 vandq_s8 (int8x16_t __a, int8x16_t __b)
1346 {
1347   return __a & __b;
1348 }
1349
1350 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1351 vandq_s16 (int16x8_t __a, int16x8_t __b)
1352 {
1353   return __a & __b;
1354 }
1355
1356 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1357 vandq_s32 (int32x4_t __a, int32x4_t __b)
1358 {
1359   return __a & __b;
1360 }
1361
1362 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1363 vandq_s64 (int64x2_t __a, int64x2_t __b)
1364 {
1365   return __a & __b;
1366 }
1367
1368 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1369 vandq_u8 (uint8x16_t __a, uint8x16_t __b)
1370 {
1371   return __a & __b;
1372 }
1373
1374 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1375 vandq_u16 (uint16x8_t __a, uint16x8_t __b)
1376 {
1377   return __a & __b;
1378 }
1379
1380 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1381 vandq_u32 (uint32x4_t __a, uint32x4_t __b)
1382 {
1383   return __a & __b;
1384 }
1385
1386 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1387 vandq_u64 (uint64x2_t __a, uint64x2_t __b)
1388 {
1389   return __a & __b;
1390 }
1391
1392 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1393 vorr_s8 (int8x8_t __a, int8x8_t __b)
1394 {
1395   return __a | __b;
1396 }
1397
1398 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1399 vorr_s16 (int16x4_t __a, int16x4_t __b)
1400 {
1401   return __a | __b;
1402 }
1403
1404 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1405 vorr_s32 (int32x2_t __a, int32x2_t __b)
1406 {
1407   return __a | __b;
1408 }
1409
1410 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1411 vorr_u8 (uint8x8_t __a, uint8x8_t __b)
1412 {
1413   return __a | __b;
1414 }
1415
1416 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1417 vorr_u16 (uint16x4_t __a, uint16x4_t __b)
1418 {
1419   return __a | __b;
1420 }
1421
1422 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1423 vorr_u32 (uint32x2_t __a, uint32x2_t __b)
1424 {
1425   return __a | __b;
1426 }
1427
1428 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
1429 vorr_s64 (int64x1_t __a, int64x1_t __b)
1430 {
1431   return __a | __b;
1432 }
1433
1434 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
1435 vorr_u64 (uint64x1_t __a, uint64x1_t __b)
1436 {
1437   return __a | __b;
1438 }
1439
1440 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1441 vorrq_s8 (int8x16_t __a, int8x16_t __b)
1442 {
1443   return __a | __b;
1444 }
1445
1446 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1447 vorrq_s16 (int16x8_t __a, int16x8_t __b)
1448 {
1449   return __a | __b;
1450 }
1451
1452 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1453 vorrq_s32 (int32x4_t __a, int32x4_t __b)
1454 {
1455   return __a | __b;
1456 }
1457
1458 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1459 vorrq_s64 (int64x2_t __a, int64x2_t __b)
1460 {
1461   return __a | __b;
1462 }
1463
1464 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1465 vorrq_u8 (uint8x16_t __a, uint8x16_t __b)
1466 {
1467   return __a | __b;
1468 }
1469
1470 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1471 vorrq_u16 (uint16x8_t __a, uint16x8_t __b)
1472 {
1473   return __a | __b;
1474 }
1475
1476 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1477 vorrq_u32 (uint32x4_t __a, uint32x4_t __b)
1478 {
1479   return __a | __b;
1480 }
1481
1482 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1483 vorrq_u64 (uint64x2_t __a, uint64x2_t __b)
1484 {
1485   return __a | __b;
1486 }
1487
1488 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1489 veor_s8 (int8x8_t __a, int8x8_t __b)
1490 {
1491   return __a ^ __b;
1492 }
1493
1494 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1495 veor_s16 (int16x4_t __a, int16x4_t __b)
1496 {
1497   return __a ^ __b;
1498 }
1499
1500 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1501 veor_s32 (int32x2_t __a, int32x2_t __b)
1502 {
1503   return __a ^ __b;
1504 }
1505
1506 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1507 veor_u8 (uint8x8_t __a, uint8x8_t __b)
1508 {
1509   return __a ^ __b;
1510 }
1511
1512 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1513 veor_u16 (uint16x4_t __a, uint16x4_t __b)
1514 {
1515   return __a ^ __b;
1516 }
1517
1518 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1519 veor_u32 (uint32x2_t __a, uint32x2_t __b)
1520 {
1521   return __a ^ __b;
1522 }
1523
1524 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
1525 veor_s64 (int64x1_t __a, int64x1_t __b)
1526 {
1527   return __a ^ __b;
1528 }
1529
1530 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
1531 veor_u64 (uint64x1_t __a, uint64x1_t __b)
1532 {
1533   return __a ^ __b;
1534 }
1535
1536 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1537 veorq_s8 (int8x16_t __a, int8x16_t __b)
1538 {
1539   return __a ^ __b;
1540 }
1541
1542 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1543 veorq_s16 (int16x8_t __a, int16x8_t __b)
1544 {
1545   return __a ^ __b;
1546 }
1547
1548 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1549 veorq_s32 (int32x4_t __a, int32x4_t __b)
1550 {
1551   return __a ^ __b;
1552 }
1553
1554 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1555 veorq_s64 (int64x2_t __a, int64x2_t __b)
1556 {
1557   return __a ^ __b;
1558 }
1559
1560 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1561 veorq_u8 (uint8x16_t __a, uint8x16_t __b)
1562 {
1563   return __a ^ __b;
1564 }
1565
1566 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1567 veorq_u16 (uint16x8_t __a, uint16x8_t __b)
1568 {
1569   return __a ^ __b;
1570 }
1571
1572 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1573 veorq_u32 (uint32x4_t __a, uint32x4_t __b)
1574 {
1575   return __a ^ __b;
1576 }
1577
1578 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1579 veorq_u64 (uint64x2_t __a, uint64x2_t __b)
1580 {
1581   return __a ^ __b;
1582 }
1583
1584 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1585 vbic_s8 (int8x8_t __a, int8x8_t __b)
1586 {
1587   return __a & ~__b;
1588 }
1589
1590 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1591 vbic_s16 (int16x4_t __a, int16x4_t __b)
1592 {
1593   return __a & ~__b;
1594 }
1595
1596 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1597 vbic_s32 (int32x2_t __a, int32x2_t __b)
1598 {
1599   return __a & ~__b;
1600 }
1601
1602 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1603 vbic_u8 (uint8x8_t __a, uint8x8_t __b)
1604 {
1605   return __a & ~__b;
1606 }
1607
1608 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1609 vbic_u16 (uint16x4_t __a, uint16x4_t __b)
1610 {
1611   return __a & ~__b;
1612 }
1613
1614 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1615 vbic_u32 (uint32x2_t __a, uint32x2_t __b)
1616 {
1617   return __a & ~__b;
1618 }
1619
1620 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
1621 vbic_s64 (int64x1_t __a, int64x1_t __b)
1622 {
1623   return __a & ~__b;
1624 }
1625
1626 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
1627 vbic_u64 (uint64x1_t __a, uint64x1_t __b)
1628 {
1629   return __a & ~__b;
1630 }
1631
1632 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1633 vbicq_s8 (int8x16_t __a, int8x16_t __b)
1634 {
1635   return __a & ~__b;
1636 }
1637
1638 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1639 vbicq_s16 (int16x8_t __a, int16x8_t __b)
1640 {
1641   return __a & ~__b;
1642 }
1643
1644 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1645 vbicq_s32 (int32x4_t __a, int32x4_t __b)
1646 {
1647   return __a & ~__b;
1648 }
1649
1650 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1651 vbicq_s64 (int64x2_t __a, int64x2_t __b)
1652 {
1653   return __a & ~__b;
1654 }
1655
1656 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1657 vbicq_u8 (uint8x16_t __a, uint8x16_t __b)
1658 {
1659   return __a & ~__b;
1660 }
1661
1662 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1663 vbicq_u16 (uint16x8_t __a, uint16x8_t __b)
1664 {
1665   return __a & ~__b;
1666 }
1667
1668 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1669 vbicq_u32 (uint32x4_t __a, uint32x4_t __b)
1670 {
1671   return __a & ~__b;
1672 }
1673
1674 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1675 vbicq_u64 (uint64x2_t __a, uint64x2_t __b)
1676 {
1677   return __a & ~__b;
1678 }
1679
1680 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1681 vorn_s8 (int8x8_t __a, int8x8_t __b)
1682 {
1683   return __a | ~__b;
1684 }
1685
1686 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1687 vorn_s16 (int16x4_t __a, int16x4_t __b)
1688 {
1689   return __a | ~__b;
1690 }
1691
1692 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1693 vorn_s32 (int32x2_t __a, int32x2_t __b)
1694 {
1695   return __a | ~__b;
1696 }
1697
1698 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1699 vorn_u8 (uint8x8_t __a, uint8x8_t __b)
1700 {
1701   return __a | ~__b;
1702 }
1703
1704 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1705 vorn_u16 (uint16x4_t __a, uint16x4_t __b)
1706 {
1707   return __a | ~__b;
1708 }
1709
1710 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1711 vorn_u32 (uint32x2_t __a, uint32x2_t __b)
1712 {
1713   return __a | ~__b;
1714 }
1715
1716 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
1717 vorn_s64 (int64x1_t __a, int64x1_t __b)
1718 {
1719   return __a | ~__b;
1720 }
1721
1722 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
1723 vorn_u64 (uint64x1_t __a, uint64x1_t __b)
1724 {
1725   return __a | ~__b;
1726 }
1727
1728 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1729 vornq_s8 (int8x16_t __a, int8x16_t __b)
1730 {
1731   return __a | ~__b;
1732 }
1733
1734 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1735 vornq_s16 (int16x8_t __a, int16x8_t __b)
1736 {
1737   return __a | ~__b;
1738 }
1739
1740 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1741 vornq_s32 (int32x4_t __a, int32x4_t __b)
1742 {
1743   return __a | ~__b;
1744 }
1745
1746 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1747 vornq_s64 (int64x2_t __a, int64x2_t __b)
1748 {
1749   return __a | ~__b;
1750 }
1751
1752 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1753 vornq_u8 (uint8x16_t __a, uint8x16_t __b)
1754 {
1755   return __a | ~__b;
1756 }
1757
1758 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1759 vornq_u16 (uint16x8_t __a, uint16x8_t __b)
1760 {
1761   return __a | ~__b;
1762 }
1763
1764 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1765 vornq_u32 (uint32x4_t __a, uint32x4_t __b)
1766 {
1767   return __a | ~__b;
1768 }
1769
1770 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1771 vornq_u64 (uint64x2_t __a, uint64x2_t __b)
1772 {
1773   return __a | ~__b;
1774 }
1775
1776 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1777 vsub_s8 (int8x8_t __a, int8x8_t __b)
1778 {
1779   return __a - __b;
1780 }
1781
1782 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1783 vsub_s16 (int16x4_t __a, int16x4_t __b)
1784 {
1785   return __a - __b;
1786 }
1787
1788 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1789 vsub_s32 (int32x2_t __a, int32x2_t __b)
1790 {
1791   return __a - __b;
1792 }
1793
1794 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
1795 vsub_f32 (float32x2_t __a, float32x2_t __b)
1796 {
1797   return __a - __b;
1798 }
1799
1800 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
1801 vsub_f64 (float64x1_t __a, float64x1_t __b)
1802 {
1803   return __a - __b;
1804 }
1805
1806 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1807 vsub_u8 (uint8x8_t __a, uint8x8_t __b)
1808 {
1809   return __a - __b;
1810 }
1811
1812 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1813 vsub_u16 (uint16x4_t __a, uint16x4_t __b)
1814 {
1815   return __a - __b;
1816 }
1817
1818 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1819 vsub_u32 (uint32x2_t __a, uint32x2_t __b)
1820 {
1821   return __a - __b;
1822 }
1823
1824 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
1825 vsub_s64 (int64x1_t __a, int64x1_t __b)
1826 {
1827   return __a - __b;
1828 }
1829
1830 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
1831 vsub_u64 (uint64x1_t __a, uint64x1_t __b)
1832 {
1833   return __a - __b;
1834 }
1835
1836 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1837 vsubq_s8 (int8x16_t __a, int8x16_t __b)
1838 {
1839   return __a - __b;
1840 }
1841
1842 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1843 vsubq_s16 (int16x8_t __a, int16x8_t __b)
1844 {
1845   return __a - __b;
1846 }
1847
1848 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1849 vsubq_s32 (int32x4_t __a, int32x4_t __b)
1850 {
1851   return __a - __b;
1852 }
1853
1854 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1855 vsubq_s64 (int64x2_t __a, int64x2_t __b)
1856 {
1857   return __a - __b;
1858 }
1859
1860 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
1861 vsubq_f32 (float32x4_t __a, float32x4_t __b)
1862 {
1863   return __a - __b;
1864 }
1865
1866 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
1867 vsubq_f64 (float64x2_t __a, float64x2_t __b)
1868 {
1869   return __a - __b;
1870 }
1871
1872 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1873 vsubq_u8 (uint8x16_t __a, uint8x16_t __b)
1874 {
1875   return __a - __b;
1876 }
1877
1878 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1879 vsubq_u16 (uint16x8_t __a, uint16x8_t __b)
1880 {
1881   return __a - __b;
1882 }
1883
1884 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1885 vsubq_u32 (uint32x4_t __a, uint32x4_t __b)
1886 {
1887   return __a - __b;
1888 }
1889
1890 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1891 vsubq_u64 (uint64x2_t __a, uint64x2_t __b)
1892 {
1893   return __a - __b;
1894 }
1895
1896 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1897 vsubl_s8 (int8x8_t __a, int8x8_t __b)
1898 {
1899   return (int16x8_t) __builtin_aarch64_ssublv8qi (__a, __b);
1900 }
1901
1902 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1903 vsubl_s16 (int16x4_t __a, int16x4_t __b)
1904 {
1905   return (int32x4_t) __builtin_aarch64_ssublv4hi (__a, __b);
1906 }
1907
1908 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1909 vsubl_s32 (int32x2_t __a, int32x2_t __b)
1910 {
1911   return (int64x2_t) __builtin_aarch64_ssublv2si (__a, __b);
1912 }
1913
1914 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1915 vsubl_u8 (uint8x8_t __a, uint8x8_t __b)
1916 {
1917   return (uint16x8_t) __builtin_aarch64_usublv8qi ((int8x8_t) __a,
1918                                                    (int8x8_t) __b);
1919 }
1920
1921 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1922 vsubl_u16 (uint16x4_t __a, uint16x4_t __b)
1923 {
1924   return (uint32x4_t) __builtin_aarch64_usublv4hi ((int16x4_t) __a,
1925                                                    (int16x4_t) __b);
1926 }
1927
1928 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1929 vsubl_u32 (uint32x2_t __a, uint32x2_t __b)
1930 {
1931   return (uint64x2_t) __builtin_aarch64_usublv2si ((int32x2_t) __a,
1932                                                    (int32x2_t) __b);
1933 }
1934
1935 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1936 vsubl_high_s8 (int8x16_t __a, int8x16_t __b)
1937 {
1938   return (int16x8_t) __builtin_aarch64_ssubl2v16qi (__a, __b);
1939 }
1940
1941 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1942 vsubl_high_s16 (int16x8_t __a, int16x8_t __b)
1943 {
1944   return (int32x4_t) __builtin_aarch64_ssubl2v8hi (__a, __b);
1945 }
1946
1947 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1948 vsubl_high_s32 (int32x4_t __a, int32x4_t __b)
1949 {
1950   return (int64x2_t) __builtin_aarch64_ssubl2v4si (__a, __b);
1951 }
1952
1953 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1954 vsubl_high_u8 (uint8x16_t __a, uint8x16_t __b)
1955 {
1956   return (uint16x8_t) __builtin_aarch64_usubl2v16qi ((int8x16_t) __a,
1957                                                      (int8x16_t) __b);
1958 }
1959
1960 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1961 vsubl_high_u16 (uint16x8_t __a, uint16x8_t __b)
1962 {
1963   return (uint32x4_t) __builtin_aarch64_usubl2v8hi ((int16x8_t) __a,
1964                                                     (int16x8_t) __b);
1965 }
1966
1967 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1968 vsubl_high_u32 (uint32x4_t __a, uint32x4_t __b)
1969 {
1970   return (uint64x2_t) __builtin_aarch64_usubl2v4si ((int32x4_t) __a,
1971                                                     (int32x4_t) __b);
1972 }
1973
1974 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1975 vsubw_s8 (int16x8_t __a, int8x8_t __b)
1976 {
1977   return (int16x8_t) __builtin_aarch64_ssubwv8qi (__a, __b);
1978 }
1979
1980 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1981 vsubw_s16 (int32x4_t __a, int16x4_t __b)
1982 {
1983   return (int32x4_t) __builtin_aarch64_ssubwv4hi (__a, __b);
1984 }
1985
1986 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1987 vsubw_s32 (int64x2_t __a, int32x2_t __b)
1988 {
1989   return (int64x2_t) __builtin_aarch64_ssubwv2si (__a, __b);
1990 }
1991
1992 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1993 vsubw_u8 (uint16x8_t __a, uint8x8_t __b)
1994 {
1995   return (uint16x8_t) __builtin_aarch64_usubwv8qi ((int16x8_t) __a,
1996                                                    (int8x8_t) __b);
1997 }
1998
1999 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
2000 vsubw_u16 (uint32x4_t __a, uint16x4_t __b)
2001 {
2002   return (uint32x4_t) __builtin_aarch64_usubwv4hi ((int32x4_t) __a,
2003                                                    (int16x4_t) __b);
2004 }
2005
2006 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
2007 vsubw_u32 (uint64x2_t __a, uint32x2_t __b)
2008 {
2009   return (uint64x2_t) __builtin_aarch64_usubwv2si ((int64x2_t) __a,
2010                                                    (int32x2_t) __b);
2011 }
2012
2013 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2014 vsubw_high_s8 (int16x8_t __a, int8x16_t __b)
2015 {
2016   return (int16x8_t) __builtin_aarch64_ssubw2v16qi (__a, __b);
2017 }
2018
2019 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2020 vsubw_high_s16 (int32x4_t __a, int16x8_t __b)
2021 {
2022   return (int32x4_t) __builtin_aarch64_ssubw2v8hi (__a, __b);
2023 }
2024
2025 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
2026 vsubw_high_s32 (int64x2_t __a, int32x4_t __b)
2027 {
2028   return (int64x2_t) __builtin_aarch64_ssubw2v4si (__a, __b);
2029 }
2030
2031 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
2032 vsubw_high_u8 (uint16x8_t __a, uint8x16_t __b)
2033 {
2034   return (uint16x8_t) __builtin_aarch64_usubw2v16qi ((int16x8_t) __a,
2035                                                      (int8x16_t) __b);
2036 }
2037
2038 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
2039 vsubw_high_u16 (uint32x4_t __a, uint16x8_t __b)
2040 {
2041   return (uint32x4_t) __builtin_aarch64_usubw2v8hi ((int32x4_t) __a,
2042                                                     (int16x8_t) __b);
2043 }
2044
2045 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
2046 vsubw_high_u32 (uint64x2_t __a, uint32x4_t __b)
2047 {
2048   return (uint64x2_t) __builtin_aarch64_usubw2v4si ((int64x2_t) __a,
2049                                                     (int32x4_t) __b);
2050 }
2051
2052 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
2053 vqadd_s8 (int8x8_t __a, int8x8_t __b)
2054 {
2055   return (int8x8_t) __builtin_aarch64_sqaddv8qi (__a, __b);
2056 }
2057
2058 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2059 vqadd_s16 (int16x4_t __a, int16x4_t __b)
2060 {
2061   return (int16x4_t) __builtin_aarch64_sqaddv4hi (__a, __b);
2062 }
2063
2064 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2065 vqadd_s32 (int32x2_t __a, int32x2_t __b)
2066 {
2067   return (int32x2_t) __builtin_aarch64_sqaddv2si (__a, __b);
2068 }
2069
2070 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
2071 vqadd_s64 (int64x1_t __a, int64x1_t __b)
2072 {
2073   return (int64x1_t) {__builtin_aarch64_sqadddi (__a[0], __b[0])};
2074 }
2075
2076 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
2077 vqadd_u8 (uint8x8_t __a, uint8x8_t __b)
2078 {
2079   return __builtin_aarch64_uqaddv8qi_uuu (__a, __b);
2080 }
2081
2082 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
2083 vhsub_s8 (int8x8_t __a, int8x8_t __b)
2084 {
2085   return (int8x8_t)__builtin_aarch64_shsubv8qi (__a, __b);
2086 }
2087
2088 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2089 vhsub_s16 (int16x4_t __a, int16x4_t __b)
2090 {
2091   return (int16x4_t) __builtin_aarch64_shsubv4hi (__a, __b);
2092 }
2093
2094 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2095 vhsub_s32 (int32x2_t __a, int32x2_t __b)
2096 {
2097   return (int32x2_t) __builtin_aarch64_shsubv2si (__a, __b);
2098 }
2099
2100 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
2101 vhsub_u8 (uint8x8_t __a, uint8x8_t __b)
2102 {
2103   return (uint8x8_t) __builtin_aarch64_uhsubv8qi ((int8x8_t) __a,
2104                                                   (int8x8_t) __b);
2105 }
2106
2107 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
2108 vhsub_u16 (uint16x4_t __a, uint16x4_t __b)
2109 {
2110   return (uint16x4_t) __builtin_aarch64_uhsubv4hi ((int16x4_t) __a,
2111                                                    (int16x4_t) __b);
2112 }
2113
2114 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
2115 vhsub_u32 (uint32x2_t __a, uint32x2_t __b)
2116 {
2117   return (uint32x2_t) __builtin_aarch64_uhsubv2si ((int32x2_t) __a,
2118                                                    (int32x2_t) __b);
2119 }
2120
2121 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
2122 vhsubq_s8 (int8x16_t __a, int8x16_t __b)
2123 {
2124   return (int8x16_t) __builtin_aarch64_shsubv16qi (__a, __b);
2125 }
2126
2127 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2128 vhsubq_s16 (int16x8_t __a, int16x8_t __b)
2129 {
2130   return (int16x8_t) __builtin_aarch64_shsubv8hi (__a, __b);
2131 }
2132
2133 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2134 vhsubq_s32 (int32x4_t __a, int32x4_t __b)
2135 {
2136   return (int32x4_t) __builtin_aarch64_shsubv4si (__a, __b);
2137 }
2138
2139 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
2140 vhsubq_u8 (uint8x16_t __a, uint8x16_t __b)
2141 {
2142   return (uint8x16_t) __builtin_aarch64_uhsubv16qi ((int8x16_t) __a,
2143                                                     (int8x16_t) __b);
2144 }
2145
2146 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
2147 vhsubq_u16 (uint16x8_t __a, uint16x8_t __b)
2148 {
2149   return (uint16x8_t) __builtin_aarch64_uhsubv8hi ((int16x8_t) __a,
2150                                                    (int16x8_t) __b);
2151 }
2152
2153 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
2154 vhsubq_u32 (uint32x4_t __a, uint32x4_t __b)
2155 {
2156   return (uint32x4_t) __builtin_aarch64_uhsubv4si ((int32x4_t) __a,
2157                                                    (int32x4_t) __b);
2158 }
2159
2160 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
2161 vsubhn_s16 (int16x8_t __a, int16x8_t __b)
2162 {
2163   return (int8x8_t) __builtin_aarch64_subhnv8hi (__a, __b);
2164 }
2165
2166 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2167 vsubhn_s32 (int32x4_t __a, int32x4_t __b)
2168 {
2169   return (int16x4_t) __builtin_aarch64_subhnv4si (__a, __b);
2170 }
2171
2172 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2173 vsubhn_s64 (int64x2_t __a, int64x2_t __b)
2174 {
2175   return (int32x2_t) __builtin_aarch64_subhnv2di (__a, __b);
2176 }
2177
2178 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
2179 vsubhn_u16 (uint16x8_t __a, uint16x8_t __b)
2180 {
2181   return (uint8x8_t) __builtin_aarch64_subhnv8hi ((int16x8_t) __a,
2182                                                   (int16x8_t) __b);
2183 }
2184
2185 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
2186 vsubhn_u32 (uint32x4_t __a, uint32x4_t __b)
2187 {
2188   return (uint16x4_t) __builtin_aarch64_subhnv4si ((int32x4_t) __a,
2189                                                    (int32x4_t) __b);
2190 }
2191
2192 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
2193 vsubhn_u64 (uint64x2_t __a, uint64x2_t __b)
2194 {
2195   return (uint32x2_t) __builtin_aarch64_subhnv2di ((int64x2_t) __a,
2196                                                    (int64x2_t) __b);
2197 }
2198
2199 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
2200 vrsubhn_s16 (int16x8_t __a, int16x8_t __b)
2201 {
2202   return (int8x8_t) __builtin_aarch64_rsubhnv8hi (__a, __b);
2203 }
2204
2205 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2206 vrsubhn_s32 (int32x4_t __a, int32x4_t __b)
2207 {
2208   return (int16x4_t) __builtin_aarch64_rsubhnv4si (__a, __b);
2209 }
2210
2211 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2212 vrsubhn_s64 (int64x2_t __a, int64x2_t __b)
2213 {
2214   return (int32x2_t) __builtin_aarch64_rsubhnv2di (__a, __b);
2215 }
2216
2217 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
2218 vrsubhn_u16 (uint16x8_t __a, uint16x8_t __b)
2219 {
2220   return (uint8x8_t) __builtin_aarch64_rsubhnv8hi ((int16x8_t) __a,
2221                                                    (int16x8_t) __b);
2222 }
2223
2224 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
2225 vrsubhn_u32 (uint32x4_t __a, uint32x4_t __b)
2226 {
2227   return (uint16x4_t) __builtin_aarch64_rsubhnv4si ((int32x4_t) __a,
2228                                                     (int32x4_t) __b);
2229 }
2230
2231 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
2232 vrsubhn_u64 (uint64x2_t __a, uint64x2_t __b)
2233 {
2234   return (uint32x2_t) __builtin_aarch64_rsubhnv2di ((int64x2_t) __a,
2235                                                     (int64x2_t) __b);
2236 }
2237
2238 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
2239 vrsubhn_high_s16 (int8x8_t __a, int16x8_t __b, int16x8_t __c)
2240 {
2241   return (int8x16_t) __builtin_aarch64_rsubhn2v8hi (__a, __b, __c);
2242 }
2243
2244 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2245 vrsubhn_high_s32 (int16x4_t __a, int32x4_t __b, int32x4_t __c)
2246 {
2247   return (int16x8_t) __builtin_aarch64_rsubhn2v4si (__a, __b, __c);
2248 }
2249
2250 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2251 vrsubhn_high_s64 (int32x2_t __a, int64x2_t __b, int64x2_t __c)
2252 {
2253   return (int32x4_t) __builtin_aarch64_rsubhn2v2di (__a, __b, __c);
2254 }
2255
2256 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
2257 vrsubhn_high_u16 (uint8x8_t __a, uint16x8_t __b, uint16x8_t __c)
2258 {
2259   return (uint8x16_t) __builtin_aarch64_rsubhn2v8hi ((int8x8_t) __a,
2260                                                      (int16x8_t) __b,
2261                                                      (int16x8_t) __c);
2262 }
2263
2264 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
2265 vrsubhn_high_u32 (uint16x4_t __a, uint32x4_t __b, uint32x4_t __c)
2266 {
2267   return (uint16x8_t) __builtin_aarch64_rsubhn2v4si ((int16x4_t) __a,
2268                                                      (int32x4_t) __b,
2269                                                      (int32x4_t) __c);
2270 }
2271
2272 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
2273 vrsubhn_high_u64 (uint32x2_t __a, uint64x2_t __b, uint64x2_t __c)
2274 {
2275   return (uint32x4_t) __builtin_aarch64_rsubhn2v2di ((int32x2_t) __a,
2276                                                      (int64x2_t) __b,
2277                                                      (int64x2_t) __c);
2278 }
2279
2280 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
2281 vsubhn_high_s16 (int8x8_t __a, int16x8_t __b, int16x8_t __c)
2282 {
2283   return (int8x16_t) __builtin_aarch64_subhn2v8hi (__a, __b, __c);
2284 }
2285
2286 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2287 vsubhn_high_s32 (int16x4_t __a, int32x4_t __b, int32x4_t __c)
2288 {
2289   return (int16x8_t) __builtin_aarch64_subhn2v4si (__a, __b, __c);;
2290 }
2291
2292 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2293 vsubhn_high_s64 (int32x2_t __a, int64x2_t __b, int64x2_t __c)
2294 {
2295   return (int32x4_t) __builtin_aarch64_subhn2v2di (__a, __b, __c);
2296 }
2297
2298 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
2299 vsubhn_high_u16 (uint8x8_t __a, uint16x8_t __b, uint16x8_t __c)
2300 {
2301   return (uint8x16_t) __builtin_aarch64_subhn2v8hi ((int8x8_t) __a,
2302                                                     (int16x8_t) __b,
2303                                                     (int16x8_t) __c);
2304 }
2305
2306 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
2307 vsubhn_high_u32 (uint16x4_t __a, uint32x4_t __b, uint32x4_t __c)
2308 {
2309   return (uint16x8_t) __builtin_aarch64_subhn2v4si ((int16x4_t) __a,
2310                                                     (int32x4_t) __b,
2311                                                     (int32x4_t) __c);
2312 }
2313
2314 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
2315 vsubhn_high_u64 (uint32x2_t __a, uint64x2_t __b, uint64x2_t __c)
2316 {
2317   return (uint32x4_t) __builtin_aarch64_subhn2v2di ((int32x2_t) __a,
2318                                                     (int64x2_t) __b,
2319                                                     (int64x2_t) __c);
2320 }
2321
2322 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
2323 vqadd_u16 (uint16x4_t __a, uint16x4_t __b)
2324 {
2325   return __builtin_aarch64_uqaddv4hi_uuu (__a, __b);
2326 }
2327
2328 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
2329 vqadd_u32 (uint32x2_t __a, uint32x2_t __b)
2330 {
2331   return __builtin_aarch64_uqaddv2si_uuu (__a, __b);
2332 }
2333
2334 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
2335 vqadd_u64 (uint64x1_t __a, uint64x1_t __b)
2336 {
2337   return (uint64x1_t) {__builtin_aarch64_uqadddi_uuu (__a[0], __b[0])};
2338 }
2339
2340 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
2341 vqaddq_s8 (int8x16_t __a, int8x16_t __b)
2342 {
2343   return (int8x16_t) __builtin_aarch64_sqaddv16qi (__a, __b);
2344 }
2345
2346 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2347 vqaddq_s16 (int16x8_t __a, int16x8_t __b)
2348 {
2349   return (int16x8_t) __builtin_aarch64_sqaddv8hi (__a, __b);
2350 }
2351
2352 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2353 vqaddq_s32 (int32x4_t __a, int32x4_t __b)
2354 {
2355   return (int32x4_t) __builtin_aarch64_sqaddv4si (__a, __b);
2356 }
2357
2358 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
2359 vqaddq_s64 (int64x2_t __a, int64x2_t __b)
2360 {
2361   return (int64x2_t) __builtin_aarch64_sqaddv2di (__a, __b);
2362 }
2363
2364 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
2365 vqaddq_u8 (uint8x16_t __a, uint8x16_t __b)
2366 {
2367   return __builtin_aarch64_uqaddv16qi_uuu (__a, __b);
2368 }
2369
2370 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
2371 vqaddq_u16 (uint16x8_t __a, uint16x8_t __b)
2372 {
2373   return __builtin_aarch64_uqaddv8hi_uuu (__a, __b);
2374 }
2375
2376 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
2377 vqaddq_u32 (uint32x4_t __a, uint32x4_t __b)
2378 {
2379   return __builtin_aarch64_uqaddv4si_uuu (__a, __b);
2380 }
2381
2382 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
2383 vqaddq_u64 (uint64x2_t __a, uint64x2_t __b)
2384 {
2385   return __builtin_aarch64_uqaddv2di_uuu (__a, __b);
2386 }
2387
2388 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
2389 vqsub_s8 (int8x8_t __a, int8x8_t __b)
2390 {
2391   return (int8x8_t) __builtin_aarch64_sqsubv8qi (__a, __b);
2392 }
2393
2394 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2395 vqsub_s16 (int16x4_t __a, int16x4_t __b)
2396 {
2397   return (int16x4_t) __builtin_aarch64_sqsubv4hi (__a, __b);
2398 }
2399
2400 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2401 vqsub_s32 (int32x2_t __a, int32x2_t __b)
2402 {
2403   return (int32x2_t) __builtin_aarch64_sqsubv2si (__a, __b);
2404 }
2405
2406 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
2407 vqsub_s64 (int64x1_t __a, int64x1_t __b)
2408 {
2409   return (int64x1_t) {__builtin_aarch64_sqsubdi (__a[0], __b[0])};
2410 }
2411
2412 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
2413 vqsub_u8 (uint8x8_t __a, uint8x8_t __b)
2414 {
2415   return __builtin_aarch64_uqsubv8qi_uuu (__a, __b);
2416 }
2417
2418 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
2419 vqsub_u16 (uint16x4_t __a, uint16x4_t __b)
2420 {
2421   return __builtin_aarch64_uqsubv4hi_uuu (__a, __b);
2422 }
2423
2424 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
2425 vqsub_u32 (uint32x2_t __a, uint32x2_t __b)
2426 {
2427   return __builtin_aarch64_uqsubv2si_uuu (__a, __b);
2428 }
2429
2430 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
2431 vqsub_u64 (uint64x1_t __a, uint64x1_t __b)
2432 {
2433   return (uint64x1_t) {__builtin_aarch64_uqsubdi_uuu (__a[0], __b[0])};
2434 }
2435
2436 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
2437 vqsubq_s8 (int8x16_t __a, int8x16_t __b)
2438 {
2439   return (int8x16_t) __builtin_aarch64_sqsubv16qi (__a, __b);
2440 }
2441
2442 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2443 vqsubq_s16 (int16x8_t __a, int16x8_t __b)
2444 {
2445   return (int16x8_t) __builtin_aarch64_sqsubv8hi (__a, __b);
2446 }
2447
2448 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2449 vqsubq_s32 (int32x4_t __a, int32x4_t __b)
2450 {
2451   return (int32x4_t) __builtin_aarch64_sqsubv4si (__a, __b);
2452 }
2453
2454 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
2455 vqsubq_s64 (int64x2_t __a, int64x2_t __b)
2456 {
2457   return (int64x2_t) __builtin_aarch64_sqsubv2di (__a, __b);
2458 }
2459
2460 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
2461 vqsubq_u8 (uint8x16_t __a, uint8x16_t __b)
2462 {
2463   return __builtin_aarch64_uqsubv16qi_uuu (__a, __b);
2464 }
2465
2466 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
2467 vqsubq_u16 (uint16x8_t __a, uint16x8_t __b)
2468 {
2469   return __builtin_aarch64_uqsubv8hi_uuu (__a, __b);
2470 }
2471
2472 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
2473 vqsubq_u32 (uint32x4_t __a, uint32x4_t __b)
2474 {
2475   return __builtin_aarch64_uqsubv4si_uuu (__a, __b);
2476 }
2477
2478 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
2479 vqsubq_u64 (uint64x2_t __a, uint64x2_t __b)
2480 {
2481   return __builtin_aarch64_uqsubv2di_uuu (__a, __b);
2482 }
2483
2484 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
2485 vqneg_s8 (int8x8_t __a)
2486 {
2487   return (int8x8_t) __builtin_aarch64_sqnegv8qi (__a);
2488 }
2489
2490 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2491 vqneg_s16 (int16x4_t __a)
2492 {
2493   return (int16x4_t) __builtin_aarch64_sqnegv4hi (__a);
2494 }
2495
2496 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2497 vqneg_s32 (int32x2_t __a)
2498 {
2499   return (int32x2_t) __builtin_aarch64_sqnegv2si (__a);
2500 }
2501
2502 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
2503 vqneg_s64 (int64x1_t __a)
2504 {
2505   return (int64x1_t) {__builtin_aarch64_sqnegdi (__a[0])};
2506 }
2507
2508 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
2509 vqnegq_s8 (int8x16_t __a)
2510 {
2511   return (int8x16_t) __builtin_aarch64_sqnegv16qi (__a);
2512 }
2513
2514 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2515 vqnegq_s16 (int16x8_t __a)
2516 {
2517   return (int16x8_t) __builtin_aarch64_sqnegv8hi (__a);
2518 }
2519
2520 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2521 vqnegq_s32 (int32x4_t __a)
2522 {
2523   return (int32x4_t) __builtin_aarch64_sqnegv4si (__a);
2524 }
2525
2526 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
2527 vqabs_s8 (int8x8_t __a)
2528 {
2529   return (int8x8_t) __builtin_aarch64_sqabsv8qi (__a);
2530 }
2531
2532 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2533 vqabs_s16 (int16x4_t __a)
2534 {
2535   return (int16x4_t) __builtin_aarch64_sqabsv4hi (__a);
2536 }
2537
2538 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2539 vqabs_s32 (int32x2_t __a)
2540 {
2541   return (int32x2_t) __builtin_aarch64_sqabsv2si (__a);
2542 }
2543
2544 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
2545 vqabs_s64 (int64x1_t __a)
2546 {
2547   return (int64x1_t) {__builtin_aarch64_sqabsdi (__a[0])};
2548 }
2549
2550 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
2551 vqabsq_s8 (int8x16_t __a)
2552 {
2553   return (int8x16_t) __builtin_aarch64_sqabsv16qi (__a);
2554 }
2555
2556 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2557 vqabsq_s16 (int16x8_t __a)
2558 {
2559   return (int16x8_t) __builtin_aarch64_sqabsv8hi (__a);
2560 }
2561
2562 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2563 vqabsq_s32 (int32x4_t __a)
2564 {
2565   return (int32x4_t) __builtin_aarch64_sqabsv4si (__a);
2566 }
2567
2568 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2569 vqdmulh_s16 (int16x4_t __a, int16x4_t __b)
2570 {
2571   return (int16x4_t) __builtin_aarch64_sqdmulhv4hi (__a, __b);
2572 }
2573
2574 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2575 vqdmulh_s32 (int32x2_t __a, int32x2_t __b)
2576 {
2577   return (int32x2_t) __builtin_aarch64_sqdmulhv2si (__a, __b);
2578 }
2579
2580 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2581 vqdmulhq_s16 (int16x8_t __a, int16x8_t __b)
2582 {
2583   return (int16x8_t) __builtin_aarch64_sqdmulhv8hi (__a, __b);
2584 }
2585
2586 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2587 vqdmulhq_s32 (int32x4_t __a, int32x4_t __b)
2588 {
2589   return (int32x4_t) __builtin_aarch64_sqdmulhv4si (__a, __b);
2590 }
2591
2592 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2593 vqrdmulh_s16 (int16x4_t __a, int16x4_t __b)
2594 {
2595   return (int16x4_t) __builtin_aarch64_sqrdmulhv4hi (__a, __b);
2596 }
2597
2598 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2599 vqrdmulh_s32 (int32x2_t __a, int32x2_t __b)
2600 {
2601   return (int32x2_t) __builtin_aarch64_sqrdmulhv2si (__a, __b);
2602 }
2603
2604 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2605 vqrdmulhq_s16 (int16x8_t __a, int16x8_t __b)
2606 {
2607   return (int16x8_t) __builtin_aarch64_sqrdmulhv8hi (__a, __b);
2608 }
2609
2610 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2611 vqrdmulhq_s32 (int32x4_t __a, int32x4_t __b)
2612 {
2613   return (int32x4_t) __builtin_aarch64_sqrdmulhv4si (__a, __b);
2614 }
2615
2616 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
2617 vcreate_s8 (uint64_t __a)
2618 {
2619   return (int8x8_t) __a;
2620 }
2621
2622 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2623 vcreate_s16 (uint64_t __a)
2624 {
2625   return (int16x4_t) __a;
2626 }
2627
2628 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2629 vcreate_s32 (uint64_t __a)
2630 {
2631   return (int32x2_t) __a;
2632 }
2633
2634 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
2635 vcreate_s64 (uint64_t __a)
2636 {
2637   return (int64x1_t) {__a};
2638 }
2639
2640 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
2641 vcreate_f32 (uint64_t __a)
2642 {
2643   return (float32x2_t) __a;
2644 }
2645
2646 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
2647 vcreate_u8 (uint64_t __a)
2648 {
2649   return (uint8x8_t) __a;
2650 }
2651
2652 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
2653 vcreate_u16 (uint64_t __a)
2654 {
2655   return (uint16x4_t) __a;
2656 }
2657
2658 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
2659 vcreate_u32 (uint64_t __a)
2660 {
2661   return (uint32x2_t) __a;
2662 }
2663
2664 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
2665 vcreate_u64 (uint64_t __a)
2666 {
2667   return (uint64x1_t) {__a};
2668 }
2669
2670 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
2671 vcreate_f64 (uint64_t __a)
2672 {
2673   return (float64x1_t) __a;
2674 }
2675
2676 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2677 vcreate_p8 (uint64_t __a)
2678 {
2679   return (poly8x8_t) __a;
2680 }
2681
2682 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2683 vcreate_p16 (uint64_t __a)
2684 {
2685   return (poly16x4_t) __a;
2686 }
2687
2688 /* vget_lane  */
2689
2690 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
2691 vget_lane_f32 (float32x2_t __a, const int __b)
2692 {
2693   return __aarch64_vget_lane_any (__a, __b);
2694 }
2695
2696 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
2697 vget_lane_f64 (float64x1_t __a, const int __b)
2698 {
2699   return __aarch64_vget_lane_any (__a, __b);
2700 }
2701
2702 __extension__ static __inline poly8_t __attribute__ ((__always_inline__))
2703 vget_lane_p8 (poly8x8_t __a, const int __b)
2704 {
2705   return __aarch64_vget_lane_any (__a, __b);
2706 }
2707
2708 __extension__ static __inline poly16_t __attribute__ ((__always_inline__))
2709 vget_lane_p16 (poly16x4_t __a, const int __b)
2710 {
2711   return __aarch64_vget_lane_any (__a, __b);
2712 }
2713
2714 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
2715 vget_lane_s8 (int8x8_t __a, const int __b)
2716 {
2717   return __aarch64_vget_lane_any (__a, __b);
2718 }
2719
2720 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
2721 vget_lane_s16 (int16x4_t __a, const int __b)
2722 {
2723   return __aarch64_vget_lane_any (__a, __b);
2724 }
2725
2726 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
2727 vget_lane_s32 (int32x2_t __a, const int __b)
2728 {
2729   return __aarch64_vget_lane_any (__a, __b);
2730 }
2731
2732 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
2733 vget_lane_s64 (int64x1_t __a, const int __b)
2734 {
2735   return __aarch64_vget_lane_any (__a, __b);
2736 }
2737
2738 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
2739 vget_lane_u8 (uint8x8_t __a, const int __b)
2740 {
2741   return __aarch64_vget_lane_any (__a, __b);
2742 }
2743
2744 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
2745 vget_lane_u16 (uint16x4_t __a, const int __b)
2746 {
2747   return __aarch64_vget_lane_any (__a, __b);
2748 }
2749
2750 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
2751 vget_lane_u32 (uint32x2_t __a, const int __b)
2752 {
2753   return __aarch64_vget_lane_any (__a, __b);
2754 }
2755
2756 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
2757 vget_lane_u64 (uint64x1_t __a, const int __b)
2758 {
2759   return __aarch64_vget_lane_any (__a, __b);
2760 }
2761
2762 /* vgetq_lane  */
2763
2764 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
2765 vgetq_lane_f32 (float32x4_t __a, const int __b)
2766 {
2767   return __aarch64_vget_lane_any (__a, __b);
2768 }
2769
2770 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
2771 vgetq_lane_f64 (float64x2_t __a, const int __b)
2772 {
2773   return __aarch64_vget_lane_any (__a, __b);
2774 }
2775
2776 __extension__ static __inline poly8_t __attribute__ ((__always_inline__))
2777 vgetq_lane_p8 (poly8x16_t __a, const int __b)
2778 {
2779   return __aarch64_vget_lane_any (__a, __b);
2780 }
2781
2782 __extension__ static __inline poly16_t __attribute__ ((__always_inline__))
2783 vgetq_lane_p16 (poly16x8_t __a, const int __b)
2784 {
2785   return __aarch64_vget_lane_any (__a, __b);
2786 }
2787
2788 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
2789 vgetq_lane_s8 (int8x16_t __a, const int __b)
2790 {
2791   return __aarch64_vget_lane_any (__a, __b);
2792 }
2793
2794 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
2795 vgetq_lane_s16 (int16x8_t __a, const int __b)
2796 {
2797   return __aarch64_vget_lane_any (__a, __b);
2798 }
2799
2800 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
2801 vgetq_lane_s32 (int32x4_t __a, const int __b)
2802 {
2803   return __aarch64_vget_lane_any (__a, __b);
2804 }
2805
2806 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
2807 vgetq_lane_s64 (int64x2_t __a, const int __b)
2808 {
2809   return __aarch64_vget_lane_any (__a, __b);
2810 }
2811
2812 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
2813 vgetq_lane_u8 (uint8x16_t __a, const int __b)
2814 {
2815   return __aarch64_vget_lane_any (__a, __b);
2816 }
2817
2818 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
2819 vgetq_lane_u16 (uint16x8_t __a, const int __b)
2820 {
2821   return __aarch64_vget_lane_any (__a, __b);
2822 }
2823
2824 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
2825 vgetq_lane_u32 (uint32x4_t __a, const int __b)
2826 {
2827   return __aarch64_vget_lane_any (__a, __b);
2828 }
2829
2830 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
2831 vgetq_lane_u64 (uint64x2_t __a, const int __b)
2832 {
2833   return __aarch64_vget_lane_any (__a, __b);
2834 }
2835
2836 /* vreinterpret  */
2837
2838 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2839 vreinterpret_p8_f64 (float64x1_t __a)
2840 {
2841   return (poly8x8_t) __a;
2842 }
2843
2844 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2845 vreinterpret_p8_s8 (int8x8_t __a)
2846 {
2847   return (poly8x8_t) __a;
2848 }
2849
2850 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2851 vreinterpret_p8_s16 (int16x4_t __a)
2852 {
2853   return (poly8x8_t) __a;
2854 }
2855
2856 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2857 vreinterpret_p8_s32 (int32x2_t __a)
2858 {
2859   return (poly8x8_t) __a;
2860 }
2861
2862 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2863 vreinterpret_p8_s64 (int64x1_t __a)
2864 {
2865   return (poly8x8_t) __a;
2866 }
2867
2868 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2869 vreinterpret_p8_f32 (float32x2_t __a)
2870 {
2871   return (poly8x8_t) __a;
2872 }
2873
2874 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2875 vreinterpret_p8_u8 (uint8x8_t __a)
2876 {
2877   return (poly8x8_t) __a;
2878 }
2879
2880 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2881 vreinterpret_p8_u16 (uint16x4_t __a)
2882 {
2883   return (poly8x8_t) __a;
2884 }
2885
2886 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2887 vreinterpret_p8_u32 (uint32x2_t __a)
2888 {
2889   return (poly8x8_t) __a;
2890 }
2891
2892 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2893 vreinterpret_p8_u64 (uint64x1_t __a)
2894 {
2895   return (poly8x8_t) __a;
2896 }
2897
2898 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2899 vreinterpret_p8_p16 (poly16x4_t __a)
2900 {
2901   return (poly8x8_t) __a;
2902 }
2903
2904 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2905 vreinterpretq_p8_f64 (float64x2_t __a)
2906 {
2907   return (poly8x16_t) __a;
2908 }
2909
2910 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2911 vreinterpretq_p8_s8 (int8x16_t __a)
2912 {
2913   return (poly8x16_t) __a;
2914 }
2915
2916 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2917 vreinterpretq_p8_s16 (int16x8_t __a)
2918 {
2919   return (poly8x16_t) __a;
2920 }
2921
2922 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2923 vreinterpretq_p8_s32 (int32x4_t __a)
2924 {
2925   return (poly8x16_t) __a;
2926 }
2927
2928 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2929 vreinterpretq_p8_s64 (int64x2_t __a)
2930 {
2931   return (poly8x16_t) __a;
2932 }
2933
2934 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2935 vreinterpretq_p8_f32 (float32x4_t __a)
2936 {
2937   return (poly8x16_t) __a;
2938 }
2939
2940 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2941 vreinterpretq_p8_u8 (uint8x16_t __a)
2942 {
2943   return (poly8x16_t) __a;
2944 }
2945
2946 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2947 vreinterpretq_p8_u16 (uint16x8_t __a)
2948 {
2949   return (poly8x16_t) __a;
2950 }
2951
2952 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2953 vreinterpretq_p8_u32 (uint32x4_t __a)
2954 {
2955   return (poly8x16_t) __a;
2956 }
2957
2958 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2959 vreinterpretq_p8_u64 (uint64x2_t __a)
2960 {
2961   return (poly8x16_t) __a;
2962 }
2963
2964 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2965 vreinterpretq_p8_p16 (poly16x8_t __a)
2966 {
2967   return (poly8x16_t) __a;
2968 }
2969
2970 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2971 vreinterpret_p16_f64 (float64x1_t __a)
2972 {
2973   return (poly16x4_t) __a;
2974 }
2975
2976 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2977 vreinterpret_p16_s8 (int8x8_t __a)
2978 {
2979   return (poly16x4_t) __a;
2980 }
2981
2982 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2983 vreinterpret_p16_s16 (int16x4_t __a)
2984 {
2985   return (poly16x4_t) __a;
2986 }
2987
2988 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2989 vreinterpret_p16_s32 (int32x2_t __a)
2990 {
2991   return (poly16x4_t) __a;
2992 }
2993
2994 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2995 vreinterpret_p16_s64 (int64x1_t __a)
2996 {
2997   return (poly16x4_t) __a;
2998 }
2999
3000 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
3001 vreinterpret_p16_f32 (float32x2_t __a)
3002 {
3003   return (poly16x4_t) __a;
3004 }
3005
3006 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
3007 vreinterpret_p16_u8 (uint8x8_t __a)
3008 {
3009   return (poly16x4_t) __a;
3010 }
3011
3012 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
3013 vreinterpret_p16_u16 (uint16x4_t __a)
3014 {
3015   return (poly16x4_t) __a;
3016 }
3017
3018 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
3019 vreinterpret_p16_u32 (uint32x2_t __a)
3020 {
3021   return (poly16x4_t) __a;
3022 }
3023
3024 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
3025 vreinterpret_p16_u64 (uint64x1_t __a)
3026 {
3027   return (poly16x4_t) __a;
3028 }
3029
3030 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
3031 vreinterpret_p16_p8 (poly8x8_t __a)
3032 {
3033   return (poly16x4_t) __a;
3034 }
3035
3036 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
3037 vreinterpretq_p16_f64 (float64x2_t __a)
3038 {
3039   return (poly16x8_t) __a;
3040 }
3041
3042 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
3043 vreinterpretq_p16_s8 (int8x16_t __a)
3044 {
3045   return (poly16x8_t) __a;
3046 }
3047
3048 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
3049 vreinterpretq_p16_s16 (int16x8_t __a)
3050 {
3051   return (poly16x8_t) __a;
3052 }
3053
3054 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
3055 vreinterpretq_p16_s32 (int32x4_t __a)
3056 {
3057   return (poly16x8_t) __a;
3058 }
3059
3060 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
3061 vreinterpretq_p16_s64 (int64x2_t __a)
3062 {
3063   return (poly16x8_t) __a;
3064 }
3065
3066 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
3067 vreinterpretq_p16_f32 (float32x4_t __a)
3068 {
3069   return (poly16x8_t) __a;
3070 }
3071
3072 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
3073 vreinterpretq_p16_u8 (uint8x16_t __a)
3074 {
3075   return (poly16x8_t) __a;
3076 }
3077
3078 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
3079 vreinterpretq_p16_u16 (uint16x8_t __a)
3080 {
3081   return (poly16x8_t) __a;
3082 }
3083
3084 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
3085 vreinterpretq_p16_u32 (uint32x4_t __a)
3086 {
3087   return (poly16x8_t) __a;
3088 }
3089
3090 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
3091 vreinterpretq_p16_u64 (uint64x2_t __a)
3092 {
3093   return (poly16x8_t) __a;
3094 }
3095
3096 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
3097 vreinterpretq_p16_p8 (poly8x16_t __a)
3098 {
3099   return (poly16x8_t) __a;
3100 }
3101
3102 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3103 vreinterpret_f32_f64 (float64x1_t __a)
3104 {
3105   return (float32x2_t) __a;
3106 }
3107
3108 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3109 vreinterpret_f32_s8 (int8x8_t __a)
3110 {
3111   return (float32x2_t) __a;
3112 }
3113
3114 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3115 vreinterpret_f32_s16 (int16x4_t __a)
3116 {
3117   return (float32x2_t) __a;
3118 }
3119
3120 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3121 vreinterpret_f32_s32 (int32x2_t __a)
3122 {
3123   return (float32x2_t) __a;
3124 }
3125
3126 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3127 vreinterpret_f32_s64 (int64x1_t __a)
3128 {
3129   return (float32x2_t) __a;
3130 }
3131
3132 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3133 vreinterpret_f32_u8 (uint8x8_t __a)
3134 {
3135   return (float32x2_t) __a;
3136 }
3137
3138 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3139 vreinterpret_f32_u16 (uint16x4_t __a)
3140 {
3141   return (float32x2_t) __a;
3142 }
3143
3144 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3145 vreinterpret_f32_u32 (uint32x2_t __a)
3146 {
3147   return (float32x2_t) __a;
3148 }
3149
3150 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3151 vreinterpret_f32_u64 (uint64x1_t __a)
3152 {
3153   return (float32x2_t) __a;
3154 }
3155
3156 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3157 vreinterpret_f32_p8 (poly8x8_t __a)
3158 {
3159   return (float32x2_t) __a;
3160 }
3161
3162 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3163 vreinterpret_f32_p16 (poly16x4_t __a)
3164 {
3165   return (float32x2_t) __a;
3166 }
3167
3168 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
3169 vreinterpretq_f32_f64 (float64x2_t __a)
3170 {
3171   return (float32x4_t) __a;
3172 }
3173
3174 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
3175 vreinterpretq_f32_s8 (int8x16_t __a)
3176 {
3177   return (float32x4_t) __a;
3178 }
3179
3180 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
3181 vreinterpretq_f32_s16 (int16x8_t __a)
3182 {
3183   return (float32x4_t) __a;
3184 }
3185
3186 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
3187 vreinterpretq_f32_s32 (int32x4_t __a)
3188 {
3189   return (float32x4_t) __a;
3190 }
3191
3192 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
3193 vreinterpretq_f32_s64 (int64x2_t __a)
3194 {
3195   return (float32x4_t) __a;
3196 }
3197
3198 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
3199 vreinterpretq_f32_u8 (uint8x16_t __a)
3200 {
3201   return (float32x4_t) __a;
3202 }
3203
3204 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
3205 vreinterpretq_f32_u16 (uint16x8_t __a)
3206 {
3207   return (float32x4_t) __a;
3208 }
3209
3210 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
3211 vreinterpretq_f32_u32 (uint32x4_t __a)
3212 {
3213   return (float32x4_t) __a;
3214 }
3215
3216 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
3217 vreinterpretq_f32_u64 (uint64x2_t __a)
3218 {
3219   return (float32x4_t) __a;
3220 }
3221
3222 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
3223 vreinterpretq_f32_p8 (poly8x16_t __a)
3224 {
3225   return (float32x4_t) __a;
3226 }
3227
3228 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
3229 vreinterpretq_f32_p16 (poly16x8_t __a)
3230 {
3231   return (float32x4_t) __a;
3232 }
3233
3234 __extension__ static __inline float64x1_t __attribute__((__always_inline__))
3235 vreinterpret_f64_f32 (float32x2_t __a)
3236 {
3237   return (float64x1_t) __a;
3238 }
3239
3240 __extension__ static __inline float64x1_t __attribute__((__always_inline__))
3241 vreinterpret_f64_p8 (poly8x8_t __a)
3242 {
3243   return (float64x1_t) __a;
3244 }
3245
3246 __extension__ static __inline float64x1_t __attribute__((__always_inline__))
3247 vreinterpret_f64_p16 (poly16x4_t __a)
3248 {
3249   return (float64x1_t) __a;
3250 }
3251
3252 __extension__ static __inline float64x1_t __attribute__((__always_inline__))
3253 vreinterpret_f64_s8 (int8x8_t __a)
3254 {
3255   return (float64x1_t) __a;
3256 }
3257
3258 __extension__ static __inline float64x1_t __attribute__((__always_inline__))
3259 vreinterpret_f64_s16 (int16x4_t __a)
3260 {
3261   return (float64x1_t) __a;
3262 }
3263
3264 __extension__ static __inline float64x1_t __attribute__((__always_inline__))
3265 vreinterpret_f64_s32 (int32x2_t __a)
3266 {
3267   return (float64x1_t) __a;
3268 }
3269
3270 __extension__ static __inline float64x1_t __attribute__((__always_inline__))
3271 vreinterpret_f64_s64 (int64x1_t __a)
3272 {
3273   return (float64x1_t) __a;
3274 }
3275
3276 __extension__ static __inline float64x1_t __attribute__((__always_inline__))
3277 vreinterpret_f64_u8 (uint8x8_t __a)
3278 {
3279   return (float64x1_t) __a;
3280 }
3281
3282 __extension__ static __inline float64x1_t __attribute__((__always_inline__))
3283 vreinterpret_f64_u16 (uint16x4_t __a)
3284 {
3285   return (float64x1_t) __a;
3286 }
3287
3288 __extension__ static __inline float64x1_t __attribute__((__always_inline__))
3289 vreinterpret_f64_u32 (uint32x2_t __a)
3290 {
3291   return (float64x1_t) __a;
3292 }
3293
3294 __extension__ static __inline float64x1_t __attribute__((__always_inline__))
3295 vreinterpret_f64_u64 (uint64x1_t __a)
3296 {
3297   return (float64x1_t) __a;
3298 }
3299
3300 __extension__ static __inline float64x2_t __attribute__((__always_inline__))
3301 vreinterpretq_f64_f32 (float32x4_t __a)
3302 {
3303   return (float64x2_t) __a;
3304 }
3305
3306 __extension__ static __inline float64x2_t __attribute__((__always_inline__))
3307 vreinterpretq_f64_p8 (poly8x16_t __a)
3308 {
3309   return (float64x2_t) __a;
3310 }
3311
3312 __extension__ static __inline float64x2_t __attribute__((__always_inline__))
3313 vreinterpretq_f64_p16 (poly16x8_t __a)
3314 {
3315   return (float64x2_t) __a;
3316 }
3317
3318 __extension__ static __inline float64x2_t __attribute__((__always_inline__))
3319 vreinterpretq_f64_s8 (int8x16_t __a)
3320 {
3321   return (float64x2_t) __a;
3322 }
3323
3324 __extension__ static __inline float64x2_t __attribute__((__always_inline__))
3325 vreinterpretq_f64_s16 (int16x8_t __a)
3326 {
3327   return (float64x2_t) __a;
3328 }
3329
3330 __extension__ static __inline float64x2_t __attribute__((__always_inline__))
3331 vreinterpretq_f64_s32 (int32x4_t __a)
3332 {
3333   return (float64x2_t) __a;
3334 }
3335
3336 __extension__ static __inline float64x2_t __attribute__((__always_inline__))
3337 vreinterpretq_f64_s64 (int64x2_t __a)
3338 {
3339   return (float64x2_t) __a;
3340 }
3341
3342 __extension__ static __inline float64x2_t __attribute__((__always_inline__))
3343 vreinterpretq_f64_u8 (uint8x16_t __a)
3344 {
3345   return (float64x2_t) __a;
3346 }
3347
3348 __extension__ static __inline float64x2_t __attribute__((__always_inline__))
3349 vreinterpretq_f64_u16 (uint16x8_t __a)
3350 {
3351   return (float64x2_t) __a;
3352 }
3353
3354 __extension__ static __inline float64x2_t __attribute__((__always_inline__))
3355 vreinterpretq_f64_u32 (uint32x4_t __a)
3356 {
3357   return (float64x2_t) __a;
3358 }
3359
3360 __extension__ static __inline float64x2_t __attribute__((__always_inline__))
3361 vreinterpretq_f64_u64 (uint64x2_t __a)
3362 {
3363   return (float64x2_t) __a;
3364 }
3365
3366 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3367 vreinterpret_s64_f64 (float64x1_t __a)
3368 {
3369   return (int64x1_t) __a;
3370 }
3371
3372 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3373 vreinterpret_s64_s8 (int8x8_t __a)
3374 {
3375   return (int64x1_t) __a;
3376 }
3377
3378 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3379 vreinterpret_s64_s16 (int16x4_t __a)
3380 {
3381   return (int64x1_t) __a;
3382 }
3383
3384 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3385 vreinterpret_s64_s32 (int32x2_t __a)
3386 {
3387   return (int64x1_t) __a;
3388 }
3389
3390 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3391 vreinterpret_s64_f32 (float32x2_t __a)
3392 {
3393   return (int64x1_t) __a;
3394 }
3395
3396 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3397 vreinterpret_s64_u8 (uint8x8_t __a)
3398 {
3399   return (int64x1_t) __a;
3400 }
3401
3402 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3403 vreinterpret_s64_u16 (uint16x4_t __a)
3404 {
3405   return (int64x1_t) __a;
3406 }
3407
3408 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3409 vreinterpret_s64_u32 (uint32x2_t __a)
3410 {
3411   return (int64x1_t) __a;
3412 }
3413
3414 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3415 vreinterpret_s64_u64 (uint64x1_t __a)
3416 {
3417   return (int64x1_t) __a;
3418 }
3419
3420 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3421 vreinterpret_s64_p8 (poly8x8_t __a)
3422 {
3423   return (int64x1_t) __a;
3424 }
3425
3426 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3427 vreinterpret_s64_p16 (poly16x4_t __a)
3428 {
3429   return (int64x1_t) __a;
3430 }
3431
3432 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3433 vreinterpretq_s64_f64 (float64x2_t __a)
3434 {
3435   return (int64x2_t) __a;
3436 }
3437
3438 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3439 vreinterpretq_s64_s8 (int8x16_t __a)
3440 {
3441   return (int64x2_t) __a;
3442 }
3443
3444 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3445 vreinterpretq_s64_s16 (int16x8_t __a)
3446 {
3447   return (int64x2_t) __a;
3448 }
3449
3450 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3451 vreinterpretq_s64_s32 (int32x4_t __a)
3452 {
3453   return (int64x2_t) __a;
3454 }
3455
3456 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3457 vreinterpretq_s64_f32 (float32x4_t __a)
3458 {
3459   return (int64x2_t) __a;
3460 }
3461
3462 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3463 vreinterpretq_s64_u8 (uint8x16_t __a)
3464 {
3465   return (int64x2_t) __a;
3466 }
3467
3468 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3469 vreinterpretq_s64_u16 (uint16x8_t __a)
3470 {
3471   return (int64x2_t) __a;
3472 }
3473
3474 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3475 vreinterpretq_s64_u32 (uint32x4_t __a)
3476 {
3477   return (int64x2_t) __a;
3478 }
3479
3480 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3481 vreinterpretq_s64_u64 (uint64x2_t __a)
3482 {
3483   return (int64x2_t) __a;
3484 }
3485
3486 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3487 vreinterpretq_s64_p8 (poly8x16_t __a)
3488 {
3489   return (int64x2_t) __a;
3490 }
3491
3492 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3493 vreinterpretq_s64_p16 (poly16x8_t __a)
3494 {
3495   return (int64x2_t) __a;
3496 }
3497
3498 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3499 vreinterpret_u64_f64 (float64x1_t __a)
3500 {
3501   return (uint64x1_t) __a;
3502 }
3503
3504 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3505 vreinterpret_u64_s8 (int8x8_t __a)
3506 {
3507   return (uint64x1_t) __a;
3508 }
3509
3510 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3511 vreinterpret_u64_s16 (int16x4_t __a)
3512 {
3513   return (uint64x1_t) __a;
3514 }
3515
3516 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3517 vreinterpret_u64_s32 (int32x2_t __a)
3518 {
3519   return (uint64x1_t) __a;
3520 }
3521
3522 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3523 vreinterpret_u64_s64 (int64x1_t __a)
3524 {
3525   return (uint64x1_t) __a;
3526 }
3527
3528 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3529 vreinterpret_u64_f32 (float32x2_t __a)
3530 {
3531   return (uint64x1_t) __a;
3532 }
3533
3534 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3535 vreinterpret_u64_u8 (uint8x8_t __a)
3536 {
3537   return (uint64x1_t) __a;
3538 }
3539
3540 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3541 vreinterpret_u64_u16 (uint16x4_t __a)
3542 {
3543   return (uint64x1_t) __a;
3544 }
3545
3546 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3547 vreinterpret_u64_u32 (uint32x2_t __a)
3548 {
3549   return (uint64x1_t) __a;
3550 }
3551
3552 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3553 vreinterpret_u64_p8 (poly8x8_t __a)
3554 {
3555   return (uint64x1_t) __a;
3556 }
3557
3558 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3559 vreinterpret_u64_p16 (poly16x4_t __a)
3560 {
3561   return (uint64x1_t) __a;
3562 }
3563
3564 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3565 vreinterpretq_u64_f64 (float64x2_t __a)
3566 {
3567   return (uint64x2_t) __a;
3568 }
3569
3570 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3571 vreinterpretq_u64_s8 (int8x16_t __a)
3572 {
3573   return (uint64x2_t) __a;
3574 }
3575
3576 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3577 vreinterpretq_u64_s16 (int16x8_t __a)
3578 {
3579   return (uint64x2_t) __a;
3580 }
3581
3582 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3583 vreinterpretq_u64_s32 (int32x4_t __a)
3584 {
3585   return (uint64x2_t) __a;
3586 }
3587
3588 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3589 vreinterpretq_u64_s64 (int64x2_t __a)
3590 {
3591   return (uint64x2_t) __a;
3592 }
3593
3594 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3595 vreinterpretq_u64_f32 (float32x4_t __a)
3596 {
3597   return (uint64x2_t) __a;
3598 }
3599
3600 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3601 vreinterpretq_u64_u8 (uint8x16_t __a)
3602 {
3603   return (uint64x2_t) __a;
3604 }
3605
3606 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3607 vreinterpretq_u64_u16 (uint16x8_t __a)
3608 {
3609   return (uint64x2_t) __a;
3610 }
3611
3612 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3613 vreinterpretq_u64_u32 (uint32x4_t __a)
3614 {
3615   return (uint64x2_t) __a;
3616 }
3617
3618 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3619 vreinterpretq_u64_p8 (poly8x16_t __a)
3620 {
3621   return (uint64x2_t) __a;
3622 }
3623
3624 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3625 vreinterpretq_u64_p16 (poly16x8_t __a)
3626 {
3627   return (uint64x2_t) __a;
3628 }
3629
3630 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3631 vreinterpret_s8_f64 (float64x1_t __a)
3632 {
3633   return (int8x8_t) __a;
3634 }
3635
3636 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3637 vreinterpret_s8_s16 (int16x4_t __a)
3638 {
3639   return (int8x8_t) __a;
3640 }
3641
3642 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3643 vreinterpret_s8_s32 (int32x2_t __a)
3644 {
3645   return (int8x8_t) __a;
3646 }
3647
3648 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3649 vreinterpret_s8_s64 (int64x1_t __a)
3650 {
3651   return (int8x8_t) __a;
3652 }
3653
3654 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3655 vreinterpret_s8_f32 (float32x2_t __a)
3656 {
3657   return (int8x8_t) __a;
3658 }
3659
3660 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3661 vreinterpret_s8_u8 (uint8x8_t __a)
3662 {
3663   return (int8x8_t) __a;
3664 }
3665
3666 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3667 vreinterpret_s8_u16 (uint16x4_t __a)
3668 {
3669   return (int8x8_t) __a;
3670 }
3671
3672 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3673 vreinterpret_s8_u32 (uint32x2_t __a)
3674 {
3675   return (int8x8_t) __a;
3676 }
3677
3678 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3679 vreinterpret_s8_u64 (uint64x1_t __a)
3680 {
3681   return (int8x8_t) __a;
3682 }
3683
3684 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3685 vreinterpret_s8_p8 (poly8x8_t __a)
3686 {
3687   return (int8x8_t) __a;
3688 }
3689
3690 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3691 vreinterpret_s8_p16 (poly16x4_t __a)
3692 {
3693   return (int8x8_t) __a;
3694 }
3695
3696 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3697 vreinterpretq_s8_f64 (float64x2_t __a)
3698 {
3699   return (int8x16_t) __a;
3700 }
3701
3702 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3703 vreinterpretq_s8_s16 (int16x8_t __a)
3704 {
3705   return (int8x16_t) __a;
3706 }
3707
3708 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3709 vreinterpretq_s8_s32 (int32x4_t __a)
3710 {
3711   return (int8x16_t) __a;
3712 }
3713
3714 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3715 vreinterpretq_s8_s64 (int64x2_t __a)
3716 {
3717   return (int8x16_t) __a;
3718 }
3719
3720 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3721 vreinterpretq_s8_f32 (float32x4_t __a)
3722 {
3723   return (int8x16_t) __a;
3724 }
3725
3726 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3727 vreinterpretq_s8_u8 (uint8x16_t __a)
3728 {
3729   return (int8x16_t) __a;
3730 }
3731
3732 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3733 vreinterpretq_s8_u16 (uint16x8_t __a)
3734 {
3735   return (int8x16_t) __a;
3736 }
3737
3738 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3739 vreinterpretq_s8_u32 (uint32x4_t __a)
3740 {
3741   return (int8x16_t) __a;
3742 }
3743
3744 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3745 vreinterpretq_s8_u64 (uint64x2_t __a)
3746 {
3747   return (int8x16_t) __a;
3748 }
3749
3750 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3751 vreinterpretq_s8_p8 (poly8x16_t __a)
3752 {
3753   return (int8x16_t) __a;
3754 }
3755
3756 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3757 vreinterpretq_s8_p16 (poly16x8_t __a)
3758 {
3759   return (int8x16_t) __a;
3760 }
3761
3762 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3763 vreinterpret_s16_f64 (float64x1_t __a)
3764 {
3765   return (int16x4_t) __a;
3766 }
3767
3768 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3769 vreinterpret_s16_s8 (int8x8_t __a)
3770 {
3771   return (int16x4_t) __a;
3772 }
3773
3774 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3775 vreinterpret_s16_s32 (int32x2_t __a)
3776 {
3777   return (int16x4_t) __a;
3778 }
3779
3780 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3781 vreinterpret_s16_s64 (int64x1_t __a)
3782 {
3783   return (int16x4_t) __a;
3784 }
3785
3786 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3787 vreinterpret_s16_f32 (float32x2_t __a)
3788 {
3789   return (int16x4_t) __a;
3790 }
3791
3792 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3793 vreinterpret_s16_u8 (uint8x8_t __a)
3794 {
3795   return (int16x4_t) __a;
3796 }
3797
3798 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3799 vreinterpret_s16_u16 (uint16x4_t __a)
3800 {
3801   return (int16x4_t) __a;
3802 }
3803
3804 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3805 vreinterpret_s16_u32 (uint32x2_t __a)
3806 {
3807   return (int16x4_t) __a;
3808 }
3809
3810 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3811 vreinterpret_s16_u64 (uint64x1_t __a)
3812 {
3813   return (int16x4_t) __a;
3814 }
3815
3816 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3817 vreinterpret_s16_p8 (poly8x8_t __a)
3818 {
3819   return (int16x4_t) __a;
3820 }
3821
3822 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3823 vreinterpret_s16_p16 (poly16x4_t __a)
3824 {
3825   return (int16x4_t) __a;
3826 }
3827
3828 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3829 vreinterpretq_s16_f64 (float64x2_t __a)
3830 {
3831   return (int16x8_t) __a;
3832 }
3833
3834 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3835 vreinterpretq_s16_s8 (int8x16_t __a)
3836 {
3837   return (int16x8_t) __a;
3838 }
3839
3840 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3841 vreinterpretq_s16_s32 (int32x4_t __a)
3842 {
3843   return (int16x8_t) __a;
3844 }
3845
3846 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3847 vreinterpretq_s16_s64 (int64x2_t __a)
3848 {
3849   return (int16x8_t) __a;
3850 }
3851
3852 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3853 vreinterpretq_s16_f32 (float32x4_t __a)
3854 {
3855   return (int16x8_t) __a;
3856 }
3857
3858 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3859 vreinterpretq_s16_u8 (uint8x16_t __a)
3860 {
3861   return (int16x8_t) __a;
3862 }
3863
3864 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3865 vreinterpretq_s16_u16 (uint16x8_t __a)
3866 {
3867   return (int16x8_t) __a;
3868 }
3869
3870 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3871 vreinterpretq_s16_u32 (uint32x4_t __a)
3872 {
3873   return (int16x8_t) __a;
3874 }
3875
3876 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3877 vreinterpretq_s16_u64 (uint64x2_t __a)
3878 {
3879   return (int16x8_t) __a;
3880 }
3881
3882 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3883 vreinterpretq_s16_p8 (poly8x16_t __a)
3884 {
3885   return (int16x8_t) __a;
3886 }
3887
3888 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3889 vreinterpretq_s16_p16 (poly16x8_t __a)
3890 {
3891   return (int16x8_t) __a;
3892 }
3893
3894 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3895 vreinterpret_s32_f64 (float64x1_t __a)
3896 {
3897   return (int32x2_t) __a;
3898 }
3899
3900 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3901 vreinterpret_s32_s8 (int8x8_t __a)
3902 {
3903   return (int32x2_t) __a;
3904 }
3905
3906 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3907 vreinterpret_s32_s16 (int16x4_t __a)
3908 {
3909   return (int32x2_t) __a;
3910 }
3911
3912 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3913 vreinterpret_s32_s64 (int64x1_t __a)
3914 {
3915   return (int32x2_t) __a;
3916 }
3917
3918 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3919 vreinterpret_s32_f32 (float32x2_t __a)
3920 {
3921   return (int32x2_t) __a;
3922 }
3923
3924 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3925 vreinterpret_s32_u8 (uint8x8_t __a)
3926 {
3927   return (int32x2_t) __a;
3928 }
3929
3930 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3931 vreinterpret_s32_u16 (uint16x4_t __a)
3932 {
3933   return (int32x2_t) __a;
3934 }
3935
3936 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3937 vreinterpret_s32_u32 (uint32x2_t __a)
3938 {
3939   return (int32x2_t) __a;
3940 }
3941
3942 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3943 vreinterpret_s32_u64 (uint64x1_t __a)
3944 {
3945   return (int32x2_t) __a;
3946 }
3947
3948 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3949 vreinterpret_s32_p8 (poly8x8_t __a)
3950 {
3951   return (int32x2_t) __a;
3952 }
3953
3954 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3955 vreinterpret_s32_p16 (poly16x4_t __a)
3956 {
3957   return (int32x2_t) __a;
3958 }
3959
3960 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3961 vreinterpretq_s32_f64 (float64x2_t __a)
3962 {
3963   return (int32x4_t) __a;
3964 }
3965
3966 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3967 vreinterpretq_s32_s8 (int8x16_t __a)
3968 {
3969   return (int32x4_t) __a;
3970 }
3971
3972 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3973 vreinterpretq_s32_s16 (int16x8_t __a)
3974 {
3975   return (int32x4_t) __a;
3976 }
3977
3978 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3979 vreinterpretq_s32_s64 (int64x2_t __a)
3980 {
3981   return (int32x4_t) __a;
3982 }
3983
3984 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3985 vreinterpretq_s32_f32 (float32x4_t __a)
3986 {
3987   return (int32x4_t) __a;
3988 }
3989
3990 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3991 vreinterpretq_s32_u8 (uint8x16_t __a)
3992 {
3993   return (int32x4_t) __a;
3994 }
3995
3996 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3997 vreinterpretq_s32_u16 (uint16x8_t __a)
3998 {
3999   return (int32x4_t) __a;
4000 }
4001
4002 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4003 vreinterpretq_s32_u32 (uint32x4_t __a)
4004 {
4005   return (int32x4_t) __a;
4006 }
4007
4008 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4009 vreinterpretq_s32_u64 (uint64x2_t __a)
4010 {
4011   return (int32x4_t) __a;
4012 }
4013
4014 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4015 vreinterpretq_s32_p8 (poly8x16_t __a)
4016 {
4017   return (int32x4_t) __a;
4018 }
4019
4020 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4021 vreinterpretq_s32_p16 (poly16x8_t __a)
4022 {
4023   return (int32x4_t) __a;
4024 }
4025
4026 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4027 vreinterpret_u8_f64 (float64x1_t __a)
4028 {
4029   return (uint8x8_t) __a;
4030 }
4031
4032 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4033 vreinterpret_u8_s8 (int8x8_t __a)
4034 {
4035   return (uint8x8_t) __a;
4036 }
4037
4038 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4039 vreinterpret_u8_s16 (int16x4_t __a)
4040 {
4041   return (uint8x8_t) __a;
4042 }
4043
4044 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4045 vreinterpret_u8_s32 (int32x2_t __a)
4046 {
4047   return (uint8x8_t) __a;
4048 }
4049
4050 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4051 vreinterpret_u8_s64 (int64x1_t __a)
4052 {
4053   return (uint8x8_t) __a;
4054 }
4055
4056 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4057 vreinterpret_u8_f32 (float32x2_t __a)
4058 {
4059   return (uint8x8_t) __a;
4060 }
4061
4062 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4063 vreinterpret_u8_u16 (uint16x4_t __a)
4064 {
4065   return (uint8x8_t) __a;
4066 }
4067
4068 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4069 vreinterpret_u8_u32 (uint32x2_t __a)
4070 {
4071   return (uint8x8_t) __a;
4072 }
4073
4074 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4075 vreinterpret_u8_u64 (uint64x1_t __a)
4076 {
4077   return (uint8x8_t) __a;
4078 }
4079
4080 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4081 vreinterpret_u8_p8 (poly8x8_t __a)
4082 {
4083   return (uint8x8_t) __a;
4084 }
4085
4086 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4087 vreinterpret_u8_p16 (poly16x4_t __a)
4088 {
4089   return (uint8x8_t) __a;
4090 }
4091
4092 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4093 vreinterpretq_u8_f64 (float64x2_t __a)
4094 {
4095   return (uint8x16_t) __a;
4096 }
4097
4098 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4099 vreinterpretq_u8_s8 (int8x16_t __a)
4100 {
4101   return (uint8x16_t) __a;
4102 }
4103
4104 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4105 vreinterpretq_u8_s16 (int16x8_t __a)
4106 {
4107   return (uint8x16_t) __a;
4108 }
4109
4110 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4111 vreinterpretq_u8_s32 (int32x4_t __a)
4112 {
4113   return (uint8x16_t) __a;
4114 }
4115
4116 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4117 vreinterpretq_u8_s64 (int64x2_t __a)
4118 {
4119   return (uint8x16_t) __a;
4120 }
4121
4122 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4123 vreinterpretq_u8_f32 (float32x4_t __a)
4124 {
4125   return (uint8x16_t) __a;
4126 }
4127
4128 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4129 vreinterpretq_u8_u16 (uint16x8_t __a)
4130 {
4131   return (uint8x16_t) __a;
4132 }
4133
4134 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4135 vreinterpretq_u8_u32 (uint32x4_t __a)
4136 {
4137   return (uint8x16_t) __a;
4138 }
4139
4140 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4141 vreinterpretq_u8_u64 (uint64x2_t __a)
4142 {
4143   return (uint8x16_t) __a;
4144 }
4145
4146 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4147 vreinterpretq_u8_p8 (poly8x16_t __a)
4148 {
4149   return (uint8x16_t) __a;
4150 }
4151
4152 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4153 vreinterpretq_u8_p16 (poly16x8_t __a)
4154 {
4155   return (uint8x16_t) __a;
4156 }
4157
4158 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4159 vreinterpret_u16_f64 (float64x1_t __a)
4160 {
4161   return (uint16x4_t) __a;
4162 }
4163
4164 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4165 vreinterpret_u16_s8 (int8x8_t __a)
4166 {
4167   return (uint16x4_t) __a;
4168 }
4169
4170 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4171 vreinterpret_u16_s16 (int16x4_t __a)
4172 {
4173   return (uint16x4_t) __a;
4174 }
4175
4176 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4177 vreinterpret_u16_s32 (int32x2_t __a)
4178 {
4179   return (uint16x4_t) __a;
4180 }
4181
4182 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4183 vreinterpret_u16_s64 (int64x1_t __a)
4184 {
4185   return (uint16x4_t) __a;
4186 }
4187
4188 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4189 vreinterpret_u16_f32 (float32x2_t __a)
4190 {
4191   return (uint16x4_t) __a;
4192 }
4193
4194 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4195 vreinterpret_u16_u8 (uint8x8_t __a)
4196 {
4197   return (uint16x4_t) __a;
4198 }
4199
4200 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4201 vreinterpret_u16_u32 (uint32x2_t __a)
4202 {
4203   return (uint16x4_t) __a;
4204 }
4205
4206 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4207 vreinterpret_u16_u64 (uint64x1_t __a)
4208 {
4209   return (uint16x4_t) __a;
4210 }
4211
4212 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4213 vreinterpret_u16_p8 (poly8x8_t __a)
4214 {
4215   return (uint16x4_t) __a;
4216 }
4217
4218 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4219 vreinterpret_u16_p16 (poly16x4_t __a)
4220 {
4221   return (uint16x4_t) __a;
4222 }
4223
4224 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4225 vreinterpretq_u16_f64 (float64x2_t __a)
4226 {
4227   return (uint16x8_t) __a;
4228 }
4229
4230 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4231 vreinterpretq_u16_s8 (int8x16_t __a)
4232 {
4233   return (uint16x8_t) __a;
4234 }
4235
4236 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4237 vreinterpretq_u16_s16 (int16x8_t __a)
4238 {
4239   return (uint16x8_t) __a;
4240 }
4241
4242 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4243 vreinterpretq_u16_s32 (int32x4_t __a)
4244 {
4245   return (uint16x8_t) __a;
4246 }
4247
4248 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4249 vreinterpretq_u16_s64 (int64x2_t __a)
4250 {
4251   return (uint16x8_t) __a;
4252 }
4253
4254 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4255 vreinterpretq_u16_f32 (float32x4_t __a)
4256 {
4257   return (uint16x8_t) __a;
4258 }
4259
4260 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4261 vreinterpretq_u16_u8 (uint8x16_t __a)
4262 {
4263   return (uint16x8_t) __a;
4264 }
4265
4266 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4267 vreinterpretq_u16_u32 (uint32x4_t __a)
4268 {
4269   return (uint16x8_t) __a;
4270 }
4271
4272 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4273 vreinterpretq_u16_u64 (uint64x2_t __a)
4274 {
4275   return (uint16x8_t) __a;
4276 }
4277
4278 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4279 vreinterpretq_u16_p8 (poly8x16_t __a)
4280 {
4281   return (uint16x8_t) __a;
4282 }
4283
4284 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4285 vreinterpretq_u16_p16 (poly16x8_t __a)
4286 {
4287   return (uint16x8_t) __a;
4288 }
4289
4290 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4291 vreinterpret_u32_f64 (float64x1_t __a)
4292 {
4293   return (uint32x2_t) __a;
4294 }
4295
4296 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4297 vreinterpret_u32_s8 (int8x8_t __a)
4298 {
4299   return (uint32x2_t) __a;
4300 }
4301
4302 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4303 vreinterpret_u32_s16 (int16x4_t __a)
4304 {
4305   return (uint32x2_t) __a;
4306 }
4307
4308 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4309 vreinterpret_u32_s32 (int32x2_t __a)
4310 {
4311   return (uint32x2_t) __a;
4312 }
4313
4314 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4315 vreinterpret_u32_s64 (int64x1_t __a)
4316 {
4317   return (uint32x2_t) __a;
4318 }
4319
4320 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4321 vreinterpret_u32_f32 (float32x2_t __a)
4322 {
4323   return (uint32x2_t) __a;
4324 }
4325
4326 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4327 vreinterpret_u32_u8 (uint8x8_t __a)
4328 {
4329   return (uint32x2_t) __a;
4330 }
4331
4332 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4333 vreinterpret_u32_u16 (uint16x4_t __a)
4334 {
4335   return (uint32x2_t) __a;
4336 }
4337
4338 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4339 vreinterpret_u32_u64 (uint64x1_t __a)
4340 {
4341   return (uint32x2_t) __a;
4342 }
4343
4344 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4345 vreinterpret_u32_p8 (poly8x8_t __a)
4346 {
4347   return (uint32x2_t) __a;
4348 }
4349
4350 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4351 vreinterpret_u32_p16 (poly16x4_t __a)
4352 {
4353   return (uint32x2_t) __a;
4354 }
4355
4356 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4357 vreinterpretq_u32_f64 (float64x2_t __a)
4358 {
4359   return (uint32x4_t) __a;
4360 }
4361
4362 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4363 vreinterpretq_u32_s8 (int8x16_t __a)
4364 {
4365   return (uint32x4_t) __a;
4366 }
4367
4368 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4369 vreinterpretq_u32_s16 (int16x8_t __a)
4370 {
4371   return (uint32x4_t) __a;
4372 }
4373
4374 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4375 vreinterpretq_u32_s32 (int32x4_t __a)
4376 {
4377   return (uint32x4_t) __a;
4378 }
4379
4380 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4381 vreinterpretq_u32_s64 (int64x2_t __a)
4382 {
4383   return (uint32x4_t) __a;
4384 }
4385
4386 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4387 vreinterpretq_u32_f32 (float32x4_t __a)
4388 {
4389   return (uint32x4_t) __a;
4390 }
4391
4392 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4393 vreinterpretq_u32_u8 (uint8x16_t __a)
4394 {
4395   return (uint32x4_t) __a;
4396 }
4397
4398 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4399 vreinterpretq_u32_u16 (uint16x8_t __a)
4400 {
4401   return (uint32x4_t) __a;
4402 }
4403
4404 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4405 vreinterpretq_u32_u64 (uint64x2_t __a)
4406 {
4407   return (uint32x4_t) __a;
4408 }
4409
4410 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4411 vreinterpretq_u32_p8 (poly8x16_t __a)
4412 {
4413   return (uint32x4_t) __a;
4414 }
4415
4416 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4417 vreinterpretq_u32_p16 (poly16x8_t __a)
4418 {
4419   return (uint32x4_t) __a;
4420 }
4421
4422 /* vset_lane  */
4423
4424 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
4425 vset_lane_f32 (float32_t __elem, float32x2_t __vec, const int __index)
4426 {
4427   return __aarch64_vset_lane_any (__elem, __vec, __index);
4428 }
4429
4430 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
4431 vset_lane_f64 (float64_t __elem, float64x1_t __vec, const int __index)
4432 {
4433   return __aarch64_vset_lane_any (__elem, __vec, __index);
4434 }
4435
4436 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
4437 vset_lane_p8 (poly8_t __elem, poly8x8_t __vec, const int __index)
4438 {
4439   return __aarch64_vset_lane_any (__elem, __vec, __index);
4440 }
4441
4442 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
4443 vset_lane_p16 (poly16_t __elem, poly16x4_t __vec, const int __index)
4444 {
4445   return __aarch64_vset_lane_any (__elem, __vec, __index);
4446 }
4447
4448 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
4449 vset_lane_s8 (int8_t __elem, int8x8_t __vec, const int __index)
4450 {
4451   return __aarch64_vset_lane_any (__elem, __vec, __index);
4452 }
4453
4454 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
4455 vset_lane_s16 (int16_t __elem, int16x4_t __vec, const int __index)
4456 {
4457   return __aarch64_vset_lane_any (__elem, __vec, __index);
4458 }
4459
4460 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
4461 vset_lane_s32 (int32_t __elem, int32x2_t __vec, const int __index)
4462 {
4463   return __aarch64_vset_lane_any (__elem, __vec, __index);
4464 }
4465
4466 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
4467 vset_lane_s64 (int64_t __elem, int64x1_t __vec, const int __index)
4468 {
4469   return __aarch64_vset_lane_any (__elem, __vec, __index);
4470 }
4471
4472 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4473 vset_lane_u8 (uint8_t __elem, uint8x8_t __vec, const int __index)
4474 {
4475   return __aarch64_vset_lane_any (__elem, __vec, __index);
4476 }
4477
4478 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4479 vset_lane_u16 (uint16_t __elem, uint16x4_t __vec, const int __index)
4480 {
4481   return __aarch64_vset_lane_any (__elem, __vec, __index);
4482 }
4483
4484 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4485 vset_lane_u32 (uint32_t __elem, uint32x2_t __vec, const int __index)
4486 {
4487   return __aarch64_vset_lane_any (__elem, __vec, __index);
4488 }
4489
4490 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
4491 vset_lane_u64 (uint64_t __elem, uint64x1_t __vec, const int __index)
4492 {
4493   return __aarch64_vset_lane_any (__elem, __vec, __index);
4494 }
4495
4496 /* vsetq_lane  */
4497
4498 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
4499 vsetq_lane_f32 (float32_t __elem, float32x4_t __vec, const int __index)
4500 {
4501   return __aarch64_vset_lane_any (__elem, __vec, __index);
4502 }
4503
4504 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
4505 vsetq_lane_f64 (float64_t __elem, float64x2_t __vec, const int __index)
4506 {
4507   return __aarch64_vset_lane_any (__elem, __vec, __index);
4508 }
4509
4510 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
4511 vsetq_lane_p8 (poly8_t __elem, poly8x16_t __vec, const int __index)
4512 {
4513   return __aarch64_vset_lane_any (__elem, __vec, __index);
4514 }
4515
4516 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
4517 vsetq_lane_p16 (poly16_t __elem, poly16x8_t __vec, const int __index)
4518 {
4519   return __aarch64_vset_lane_any (__elem, __vec, __index);
4520 }
4521
4522 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
4523 vsetq_lane_s8 (int8_t __elem, int8x16_t __vec, const int __index)
4524 {
4525   return __aarch64_vset_lane_any (__elem, __vec, __index);
4526 }
4527
4528 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
4529 vsetq_lane_s16 (int16_t __elem, int16x8_t __vec, const int __index)
4530 {
4531   return __aarch64_vset_lane_any (__elem, __vec, __index);
4532 }
4533
4534 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4535 vsetq_lane_s32 (int32_t __elem, int32x4_t __vec, const int __index)
4536 {
4537   return __aarch64_vset_lane_any (__elem, __vec, __index);
4538 }
4539
4540 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
4541 vsetq_lane_s64 (int64_t __elem, int64x2_t __vec, const int __index)
4542 {
4543   return __aarch64_vset_lane_any (__elem, __vec, __index);
4544 }
4545
4546 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4547 vsetq_lane_u8 (uint8_t __elem, uint8x16_t __vec, const int __index)
4548 {
4549   return __aarch64_vset_lane_any (__elem, __vec, __index);
4550 }
4551
4552 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4553 vsetq_lane_u16 (uint16_t __elem, uint16x8_t __vec, const int __index)
4554 {
4555   return __aarch64_vset_lane_any (__elem, __vec, __index);
4556 }
4557
4558 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4559 vsetq_lane_u32 (uint32_t __elem, uint32x4_t __vec, const int __index)
4560 {
4561   return __aarch64_vset_lane_any (__elem, __vec, __index);
4562 }
4563
4564 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
4565 vsetq_lane_u64 (uint64_t __elem, uint64x2_t __vec, const int __index)
4566 {
4567   return __aarch64_vset_lane_any (__elem, __vec, __index);
4568 }
4569
4570 #define __GET_LOW(__TYPE) \
4571   uint64x2_t tmp = vreinterpretq_u64_##__TYPE (__a);  \
4572   uint64x1_t lo = vcreate_u64 (vgetq_lane_u64 (tmp, 0));  \
4573   return vreinterpret_##__TYPE##_u64 (lo);
4574
4575 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
4576 vget_low_f32 (float32x4_t __a)
4577 {
4578   __GET_LOW (f32);
4579 }
4580
4581 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
4582 vget_low_f64 (float64x2_t __a)
4583 {
4584   return (float64x1_t) {vgetq_lane_f64 (__a, 0)};
4585 }
4586
4587 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
4588 vget_low_p8 (poly8x16_t __a)
4589 {
4590   __GET_LOW (p8);
4591 }
4592
4593 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
4594 vget_low_p16 (poly16x8_t __a)
4595 {
4596   __GET_LOW (p16);
4597 }
4598
4599 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
4600 vget_low_s8 (int8x16_t __a)
4601 {
4602   __GET_LOW (s8);
4603 }
4604
4605 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
4606 vget_low_s16 (int16x8_t __a)
4607 {
4608   __GET_LOW (s16);
4609 }
4610
4611 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
4612 vget_low_s32 (int32x4_t __a)
4613 {
4614   __GET_LOW (s32);
4615 }
4616
4617 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
4618 vget_low_s64 (int64x2_t __a)
4619 {
4620   __GET_LOW (s64);
4621 }
4622
4623 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4624 vget_low_u8 (uint8x16_t __a)
4625 {
4626   __GET_LOW (u8);
4627 }
4628
4629 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4630 vget_low_u16 (uint16x8_t __a)
4631 {
4632   __GET_LOW (u16);
4633 }
4634
4635 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4636 vget_low_u32 (uint32x4_t __a)
4637 {
4638   __GET_LOW (u32);
4639 }
4640
4641 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
4642 vget_low_u64 (uint64x2_t __a)
4643 {
4644   return vcreate_u64 (vgetq_lane_u64 (__a, 0));
4645 }
4646
4647 #undef __GET_LOW
4648
4649 #define __GET_HIGH(__TYPE)                                      \
4650   uint64x2_t tmp = vreinterpretq_u64_##__TYPE (__a);            \
4651   uint64x1_t hi = vcreate_u64 (vgetq_lane_u64 (tmp, 1));        \
4652   return vreinterpret_##__TYPE##_u64 (hi);
4653
4654 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
4655 vget_high_f32 (float32x4_t __a)
4656 {
4657   __GET_HIGH (f32);
4658 }
4659
4660 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
4661 vget_high_f64 (float64x2_t __a)
4662 {
4663   __GET_HIGH (f64);
4664 }
4665
4666 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
4667 vget_high_p8 (poly8x16_t __a)
4668 {
4669   __GET_HIGH (p8);
4670 }
4671
4672 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
4673 vget_high_p16 (poly16x8_t __a)
4674 {
4675   __GET_HIGH (p16);
4676 }
4677
4678 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
4679 vget_high_s8 (int8x16_t __a)
4680 {
4681   __GET_HIGH (s8);
4682 }
4683
4684 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
4685 vget_high_s16 (int16x8_t __a)
4686 {
4687   __GET_HIGH (s16);
4688 }
4689
4690 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
4691 vget_high_s32 (int32x4_t __a)
4692 {
4693   __GET_HIGH (s32);
4694 }
4695
4696 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
4697 vget_high_s64 (int64x2_t __a)
4698 {
4699   __GET_HIGH (s64);
4700 }
4701
4702 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4703 vget_high_u8 (uint8x16_t __a)
4704 {
4705   __GET_HIGH (u8);
4706 }
4707
4708 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4709 vget_high_u16 (uint16x8_t __a)
4710 {
4711   __GET_HIGH (u16);
4712 }
4713
4714 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4715 vget_high_u32 (uint32x4_t __a)
4716 {
4717   __GET_HIGH (u32);
4718 }
4719
4720 #undef __GET_HIGH
4721
4722 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
4723 vget_high_u64 (uint64x2_t __a)
4724 {
4725   return vcreate_u64 (vgetq_lane_u64 (__a, 1));
4726 }
4727
4728 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
4729 vcombine_s8 (int8x8_t __a, int8x8_t __b)
4730 {
4731   return (int8x16_t) __builtin_aarch64_combinev8qi (__a, __b);
4732 }
4733
4734 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
4735 vcombine_s16 (int16x4_t __a, int16x4_t __b)
4736 {
4737   return (int16x8_t) __builtin_aarch64_combinev4hi (__a, __b);
4738 }
4739
4740 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4741 vcombine_s32 (int32x2_t __a, int32x2_t __b)
4742 {
4743   return (int32x4_t) __builtin_aarch64_combinev2si (__a, __b);
4744 }
4745
4746 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
4747 vcombine_s64 (int64x1_t __a, int64x1_t __b)
4748 {
4749   return __builtin_aarch64_combinedi (__a[0], __b[0]);
4750 }
4751
4752 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
4753 vcombine_f32 (float32x2_t __a, float32x2_t __b)
4754 {
4755   return (float32x4_t) __builtin_aarch64_combinev2sf (__a, __b);
4756 }
4757
4758 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4759 vcombine_u8 (uint8x8_t __a, uint8x8_t __b)
4760 {
4761   return (uint8x16_t) __builtin_aarch64_combinev8qi ((int8x8_t) __a,
4762                                                      (int8x8_t) __b);
4763 }
4764
4765 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4766 vcombine_u16 (uint16x4_t __a, uint16x4_t __b)
4767 {
4768   return (uint16x8_t) __builtin_aarch64_combinev4hi ((int16x4_t) __a,
4769                                                      (int16x4_t) __b);
4770 }
4771
4772 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4773 vcombine_u32 (uint32x2_t __a, uint32x2_t __b)
4774 {
4775   return (uint32x4_t) __builtin_aarch64_combinev2si ((int32x2_t) __a,
4776                                                      (int32x2_t) __b);
4777 }
4778
4779 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
4780 vcombine_u64 (uint64x1_t __a, uint64x1_t __b)
4781 {
4782   return (uint64x2_t) __builtin_aarch64_combinedi (__a[0], __b[0]);
4783 }
4784
4785 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
4786 vcombine_f64 (float64x1_t __a, float64x1_t __b)
4787 {
4788   return __builtin_aarch64_combinedf (__a[0], __b[0]);
4789 }
4790
4791 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
4792 vcombine_p8 (poly8x8_t __a, poly8x8_t __b)
4793 {
4794   return (poly8x16_t) __builtin_aarch64_combinev8qi ((int8x8_t) __a,
4795                                                      (int8x8_t) __b);
4796 }
4797
4798 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
4799 vcombine_p16 (poly16x4_t __a, poly16x4_t __b)
4800 {
4801   return (poly16x8_t) __builtin_aarch64_combinev4hi ((int16x4_t) __a,
4802                                                      (int16x4_t) __b);
4803 }
4804
4805 /* Start of temporary inline asm implementations.  */
4806
4807 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
4808 vaba_s8 (int8x8_t a, int8x8_t b, int8x8_t c)
4809 {
4810   int8x8_t result;
4811   __asm__ ("saba %0.8b,%2.8b,%3.8b"
4812            : "=w"(result)
4813            : "0"(a), "w"(b), "w"(c)
4814            : /* No clobbers */);
4815   return result;
4816 }
4817
4818 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
4819 vaba_s16 (int16x4_t a, int16x4_t b, int16x4_t c)
4820 {
4821   int16x4_t result;
4822   __asm__ ("saba %0.4h,%2.4h,%3.4h"
4823            : "=w"(result)
4824            : "0"(a), "w"(b), "w"(c)
4825            : /* No clobbers */);
4826   return result;
4827 }
4828
4829 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
4830 vaba_s32 (int32x2_t a, int32x2_t b, int32x2_t c)
4831 {
4832   int32x2_t result;
4833   __asm__ ("saba %0.2s,%2.2s,%3.2s"
4834            : "=w"(result)
4835            : "0"(a), "w"(b), "w"(c)
4836            : /* No clobbers */);
4837   return result;
4838 }
4839
4840 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4841 vaba_u8 (uint8x8_t a, uint8x8_t b, uint8x8_t c)
4842 {
4843   uint8x8_t result;
4844   __asm__ ("uaba %0.8b,%2.8b,%3.8b"
4845            : "=w"(result)
4846            : "0"(a), "w"(b), "w"(c)
4847            : /* No clobbers */);
4848   return result;
4849 }
4850
4851 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4852 vaba_u16 (uint16x4_t a, uint16x4_t b, uint16x4_t c)
4853 {
4854   uint16x4_t result;
4855   __asm__ ("uaba %0.4h,%2.4h,%3.4h"
4856            : "=w"(result)
4857            : "0"(a), "w"(b), "w"(c)
4858            : /* No clobbers */);
4859   return result;
4860 }
4861
4862 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4863 vaba_u32 (uint32x2_t a, uint32x2_t b, uint32x2_t c)
4864 {
4865   uint32x2_t result;
4866   __asm__ ("uaba %0.2s,%2.2s,%3.2s"
4867            : "=w"(result)
4868            : "0"(a), "w"(b), "w"(c)
4869            : /* No clobbers */);
4870   return result;
4871 }
4872
4873 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
4874 vabal_high_s8 (int16x8_t a, int8x16_t b, int8x16_t c)
4875 {
4876   int16x8_t result;
4877   __asm__ ("sabal2 %0.8h,%2.16b,%3.16b"
4878            : "=w"(result)
4879            : "0"(a), "w"(b), "w"(c)
4880            : /* No clobbers */);
4881   return result;
4882 }
4883
4884 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4885 vabal_high_s16 (int32x4_t a, int16x8_t b, int16x8_t c)
4886 {
4887   int32x4_t result;
4888   __asm__ ("sabal2 %0.4s,%2.8h,%3.8h"
4889            : "=w"(result)
4890            : "0"(a), "w"(b), "w"(c)
4891            : /* No clobbers */);
4892   return result;
4893 }
4894
4895 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
4896 vabal_high_s32 (int64x2_t a, int32x4_t b, int32x4_t c)
4897 {
4898   int64x2_t result;
4899   __asm__ ("sabal2 %0.2d,%2.4s,%3.4s"
4900            : "=w"(result)
4901            : "0"(a), "w"(b), "w"(c)
4902            : /* No clobbers */);
4903   return result;
4904 }
4905
4906 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4907 vabal_high_u8 (uint16x8_t a, uint8x16_t b, uint8x16_t c)
4908 {
4909   uint16x8_t result;
4910   __asm__ ("uabal2 %0.8h,%2.16b,%3.16b"
4911            : "=w"(result)
4912            : "0"(a), "w"(b), "w"(c)
4913            : /* No clobbers */);
4914   return result;
4915 }
4916
4917 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4918 vabal_high_u16 (uint32x4_t a, uint16x8_t b, uint16x8_t c)
4919 {
4920   uint32x4_t result;
4921   __asm__ ("uabal2 %0.4s,%2.8h,%3.8h"
4922            : "=w"(result)
4923            : "0"(a), "w"(b), "w"(c)
4924            : /* No clobbers */);
4925   return result;
4926 }
4927
4928 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
4929 vabal_high_u32 (uint64x2_t a, uint32x4_t b, uint32x4_t c)
4930 {
4931   uint64x2_t result;
4932   __asm__ ("uabal2 %0.2d,%2.4s,%3.4s"
4933            : "=w"(result)
4934            : "0"(a), "w"(b), "w"(c)
4935            : /* No clobbers */);
4936   return result;
4937 }
4938
4939 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
4940 vabal_s8 (int16x8_t a, int8x8_t b, int8x8_t c)
4941 {
4942   int16x8_t result;
4943   __asm__ ("sabal %0.8h,%2.8b,%3.8b"
4944            : "=w"(result)
4945            : "0"(a), "w"(b), "w"(c)
4946            : /* No clobbers */);
4947   return result;
4948 }
4949
4950 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4951 vabal_s16 (int32x4_t a, int16x4_t b, int16x4_t c)
4952 {
4953   int32x4_t result;
4954   __asm__ ("sabal %0.4s,%2.4h,%3.4h"
4955            : "=w"(result)
4956            : "0"(a), "w"(b), "w"(c)
4957            : /* No clobbers */);
4958   return result;
4959 }
4960
4961 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
4962 vabal_s32 (int64x2_t a, int32x2_t b, int32x2_t c)
4963 {
4964   int64x2_t result;
4965   __asm__ ("sabal %0.2d,%2.2s,%3.2s"
4966            : "=w"(result)
4967            : "0"(a), "w"(b), "w"(c)
4968            : /* No clobbers */);
4969   return result;
4970 }
4971
4972 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4973 vabal_u8 (uint16x8_t a, uint8x8_t b, uint8x8_t c)
4974 {
4975   uint16x8_t result;
4976   __asm__ ("uabal %0.8h,%2.8b,%3.8b"
4977            : "=w"(result)
4978            : "0"(a), "w"(b), "w"(c)
4979            : /* No clobbers */);
4980   return result;
4981 }
4982
4983 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4984 vabal_u16 (uint32x4_t a, uint16x4_t b, uint16x4_t c)
4985 {
4986   uint32x4_t result;
4987   __asm__ ("uabal %0.4s,%2.4h,%3.4h"
4988            : "=w"(result)
4989            : "0"(a), "w"(b), "w"(c)
4990            : /* No clobbers */);
4991   return result;
4992 }
4993
4994 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
4995 vabal_u32 (uint64x2_t a, uint32x2_t b, uint32x2_t c)
4996 {
4997   uint64x2_t result;
4998   __asm__ ("uabal %0.2d,%2.2s,%3.2s"
4999            : "=w"(result)
5000            : "0"(a), "w"(b), "w"(c)
5001            : /* No clobbers */);
5002   return result;
5003 }
5004
5005 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
5006 vabaq_s8 (int8x16_t a, int8x16_t b, int8x16_t c)
5007 {
5008   int8x16_t result;
5009   __asm__ ("saba %0.16b,%2.16b,%3.16b"
5010            : "=w"(result)
5011            : "0"(a), "w"(b), "w"(c)
5012            : /* No clobbers */);
5013   return result;
5014 }
5015
5016 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
5017 vabaq_s16 (int16x8_t a, int16x8_t b, int16x8_t c)
5018 {
5019   int16x8_t result;
5020   __asm__ ("saba %0.8h,%2.8h,%3.8h"
5021            : "=w"(result)
5022            : "0"(a), "w"(b), "w"(c)
5023            : /* No clobbers */);
5024   return result;
5025 }
5026
5027 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
5028 vabaq_s32 (int32x4_t a, int32x4_t b, int32x4_t c)
5029 {
5030   int32x4_t result;
5031   __asm__ ("saba %0.4s,%2.4s,%3.4s"
5032            : "=w"(result)
5033            : "0"(a), "w"(b), "w"(c)
5034            : /* No clobbers */);
5035   return result;
5036 }
5037
5038 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
5039 vabaq_u8 (uint8x16_t a, uint8x16_t b, uint8x16_t c)
5040 {
5041   uint8x16_t result;
5042   __asm__ ("uaba %0.16b,%2.16b,%3.16b"
5043            : "=w"(result)
5044            : "0"(a), "w"(b), "w"(c)
5045            : /* No clobbers */);
5046   return result;
5047 }
5048
5049 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
5050 vabaq_u16 (uint16x8_t a, uint16x8_t b, uint16x8_t c)
5051 {
5052   uint16x8_t result;
5053   __asm__ ("uaba %0.8h,%2.8h,%3.8h"
5054            : "=w"(result)
5055            : "0"(a), "w"(b), "w"(c)
5056            : /* No clobbers */);
5057   return result;
5058 }
5059
5060 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
5061 vabaq_u32 (uint32x4_t a, uint32x4_t b, uint32x4_t c)
5062 {
5063   uint32x4_t result;
5064   __asm__ ("uaba %0.4s,%2.4s,%3.4s"
5065            : "=w"(result)
5066            : "0"(a), "w"(b), "w"(c)
5067            : /* No clobbers */);
5068   return result;
5069 }
5070
5071 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
5072 vabd_f32 (float32x2_t a, float32x2_t b)
5073 {
5074   float32x2_t result;
5075   __asm__ ("fabd %0.2s, %1.2s, %2.2s"
5076            : "=w"(result)
5077            : "w"(a), "w"(b)
5078            : /* No clobbers */);
5079   return result;
5080 }
5081
5082 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
5083 vabd_s8 (int8x8_t a, int8x8_t b)
5084 {
5085   int8x8_t result;
5086   __asm__ ("sabd %0.8b, %1.8b, %2.8b"
5087            : "=w"(result)
5088            : "w"(a), "w"(b)
5089            : /* No clobbers */);
5090   return result;
5091 }
5092
5093 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
5094 vabd_s16 (int16x4_t a, int16x4_t b)
5095 {
5096   int16x4_t result;
5097   __asm__ ("sabd %0.4h, %1.4h, %2.4h"
5098            : "=w"(result)
5099            : "w"(a), "w"(b)
5100            : /* No clobbers */);
5101   return result;
5102 }
5103
5104 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
5105 vabd_s32 (int32x2_t a, int32x2_t b)
5106 {
5107   int32x2_t result;
5108   __asm__ ("sabd %0.2s, %1.2s, %2.2s"
5109            : "=w"(result)
5110            : "w"(a), "w"(b)
5111            : /* No clobbers */);
5112   return result;
5113 }
5114
5115 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
5116 vabd_u8 (uint8x8_t a, uint8x8_t b)
5117 {
5118   uint8x8_t result;
5119   __asm__ ("uabd %0.8b, %1.8b, %2.8b"
5120            : "=w"(result)
5121            : "w"(a), "w"(b)
5122            : /* No clobbers */);
5123   return result;
5124 }
5125
5126 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
5127 vabd_u16 (uint16x4_t a, uint16x4_t b)
5128 {
5129   uint16x4_t result;
5130   __asm__ ("uabd %0.4h, %1.4h, %2.4h"
5131            : "=w"(result)
5132            : "w"(a), "w"(b)
5133            : /* No clobbers */);
5134   return result;
5135 }
5136
5137 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
5138 vabd_u32 (uint32x2_t a, uint32x2_t b)
5139 {
5140   uint32x2_t result;
5141   __asm__ ("uabd %0.2s, %1.2s, %2.2s"
5142            : "=w"(result)
5143            : "w"(a), "w"(b)
5144            : /* No clobbers */);
5145   return result;
5146 }
5147
5148 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
5149 vabdd_f64 (float64_t a, float64_t b)
5150 {
5151   float64_t result;
5152   __asm__ ("fabd %d0, %d1, %d2"
5153            : "=w"(result)
5154            : "w"(a), "w"(b)
5155            : /* No clobbers */);
5156   return result;
5157 }
5158
5159 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
5160 vabdl_high_s8 (int8x16_t a, int8x16_t b)
5161 {
5162   int16x8_t result;
5163   __asm__ ("sabdl2 %0.8h,%1.16b,%2.16b"
5164            : "=w"(result)
5165            : "w"(a), "w"(b)
5166            : /* No clobbers */);
5167   return result;
5168 }
5169
5170 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
5171 vabdl_high_s16 (int16x8_t a, int16x8_t b)
5172 {
5173   int32x4_t result;
5174   __asm__ ("sabdl2 %0.4s,%1.8h,%2.8h"
5175            : "=w"(result)
5176            : "w"(a), "w"(b)
5177            : /* No clobbers */);
5178   return result;
5179 }
5180
5181 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
5182 vabdl_high_s32 (int32x4_t a, int32x4_t b)
5183 {
5184   int64x2_t result;
5185   __asm__ ("sabdl2 %0.2d,%1.4s,%2.4s"
5186            : "=w"(result)
5187            : "w"(a), "w"(b)
5188            : /* No clobbers */);
5189   return result;
5190 }
5191
5192 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
5193 vabdl_high_u8 (uint8x16_t a, uint8x16_t b)
5194 {
5195   uint16x8_t result;
5196   __asm__ ("uabdl2 %0.8h,%1.16b,%2.16b"
5197            : "=w"(result)
5198            : "w"(a), "w"(b)
5199            : /* No clobbers */);
5200   return result;
5201 }
5202
5203 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
5204 vabdl_high_u16 (uint16x8_t a, uint16x8_t b)
5205 {
5206   uint32x4_t result;
5207   __asm__ ("uabdl2 %0.4s,%1.8h,%2.8h"
5208            : "=w"(result)
5209            : "w"(a), "w"(b)
5210            : /* No clobbers */);
5211   return result;
5212 }
5213
5214 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
5215 vabdl_high_u32 (uint32x4_t a, uint32x4_t b)
5216 {
5217   uint64x2_t result;
5218   __asm__ ("uabdl2 %0.2d,%1.4s,%2.4s"
5219            : "=w"(result)
5220            : "w"(a), "w"(b)
5221            : /* No clobbers */);
5222   return result;
5223 }
5224
5225 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
5226 vabdl_s8 (int8x8_t a, int8x8_t b)
5227 {
5228   int16x8_t result;
5229   __asm__ ("sabdl %0.8h, %1.8b, %2.8b"
5230            : "=w"(result)
5231            : "w"(a), "w"(b)
5232            : /* No clobbers */);
5233   return result;
5234 }
5235
5236 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
5237 vabdl_s16 (int16x4_t a, int16x4_t b)
5238 {
5239   int32x4_t result;
5240   __asm__ ("sabdl %0.4s, %1.4h, %2.4h"
5241            : "=w"(result)
5242            : "w"(a), "w"(b)
5243            : /* No clobbers */);
5244   return result;
5245 }
5246
5247 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
5248 vabdl_s32 (int32x2_t a, int32x2_t b)
5249 {
5250   int64x2_t result;
5251   __asm__ ("sabdl %0.2d, %1.2s, %2.2s"
5252            : "=w"(result)
5253            : "w"(a), "w"(b)
5254            : /* No clobbers */);
5255   return result;
5256 }
5257
5258 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
5259 vabdl_u8 (uint8x8_t a, uint8x8_t b)
5260 {
5261   uint16x8_t result;
5262   __asm__ ("uabdl %0.8h, %1.8b, %2.8b"
5263            : "=w"(result)
5264            : "w"(a), "w"(b)
5265            : /* No clobbers */);
5266   return result;
5267 }
5268
5269 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
5270 vabdl_u16 (uint16x4_t a, uint16x4_t b)
5271 {
5272   uint32x4_t result;
5273   __asm__ ("uabdl %0.4s, %1.4h, %2.4h"
5274            : "=w"(result)
5275            : "w"(a), "w"(b)
5276            : /* No clobbers */);
5277   return result;
5278 }
5279
5280 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
5281 vabdl_u32 (uint32x2_t a, uint32x2_t b)
5282 {
5283   uint64x2_t result;
5284   __asm__ ("uabdl %0.2d, %1.2s, %2.2s"
5285            : "=w"(result)
5286            : "w"(a), "w"(b)
5287            : /* No clobbers */);
5288   return result;
5289 }
5290
5291 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
5292 vabdq_f32 (float32x4_t a, float32x4_t b)
5293 {
5294   float32x4_t result;
5295   __asm__ ("fabd %0.4s, %1.4s, %2.4s"
5296            : "=w"(result)
5297            : "w"(a), "w"(b)
5298            : /* No clobbers */);
5299   return result;
5300 }
5301
5302 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
5303 vabdq_f64 (float64x2_t a, float64x2_t b)
5304 {
5305   float64x2_t result;
5306   __asm__ ("fabd %0.2d, %1.2d, %2.2d"
5307            : "=w"(result)
5308            : "w"(a), "w"(b)
5309            : /* No clobbers */);
5310   return result;
5311 }
5312
5313 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
5314 vabdq_s8 (int8x16_t a, int8x16_t b)
5315 {
5316   int8x16_t result;
5317   __asm__ ("sabd %0.16b, %1.16b, %2.16b"
5318            : "=w"(result)
5319            : "w"(a), "w"(b)
5320            : /* No clobbers */);
5321   return result;
5322 }
5323
5324 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
5325 vabdq_s16 (int16x8_t a, int16x8_t b)
5326 {
5327   int16x8_t result;
5328   __asm__ ("sabd %0.8h, %1.8h, %2.8h"
5329            : "=w"(result)
5330            : "w"(a), "w"(b)
5331            : /* No clobbers */);
5332   return result;
5333 }
5334
5335 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
5336 vabdq_s32 (int32x4_t a, int32x4_t b)
5337 {
5338   int32x4_t result;
5339   __asm__ ("sabd %0.4s, %1.4s, %2.4s"
5340            : "=w"(result)
5341            : "w"(a), "w"(b)
5342            : /* No clobbers */);
5343   return result;
5344 }
5345
5346 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
5347 vabdq_u8 (uint8x16_t a, uint8x16_t b)
5348 {
5349   uint8x16_t result;
5350   __asm__ ("uabd %0.16b, %1.16b, %2.16b"
5351            : "=w"(result)
5352            : "w"(a), "w"(b)
5353            : /* No clobbers */);
5354   return result;
5355 }
5356
5357 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
5358 vabdq_u16 (uint16x8_t a, uint16x8_t b)
5359 {
5360   uint16x8_t result;
5361   __asm__ ("uabd %0.8h, %1.8h, %2.8h"
5362            : "=w"(result)
5363            : "w"(a), "w"(b)
5364            : /* No clobbers */);
5365   return result;
5366 }
5367
5368 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
5369 vabdq_u32 (uint32x4_t a, uint32x4_t b)
5370 {
5371   uint32x4_t result;
5372   __asm__ ("uabd %0.4s, %1.4s, %2.4s"
5373            : "=w"(result)
5374            : "w"(a), "w"(b)
5375            : /* No clobbers */);
5376   return result;
5377 }
5378
5379 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
5380 vabds_f32 (float32_t a, float32_t b)
5381 {
5382   float32_t result;
5383   __asm__ ("fabd %s0, %s1, %s2"
5384            : "=w"(result)
5385            : "w"(a), "w"(b)
5386            : /* No clobbers */);
5387   return result;
5388 }
5389
5390 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
5391 vaddlv_s8 (int8x8_t a)
5392 {
5393   int16_t result;
5394   __asm__ ("saddlv %h0,%1.8b"
5395            : "=w"(result)
5396            : "w"(a)
5397            : /* No clobbers */);
5398   return result;
5399 }
5400
5401 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
5402 vaddlv_s16 (int16x4_t a)
5403 {
5404   int32_t result;
5405   __asm__ ("saddlv %s0,%1.4h"
5406            : "=w"(result)
5407            : "w"(a)
5408            : /* No clobbers */);
5409   return result;
5410 }
5411
5412 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
5413 vaddlv_u8 (uint8x8_t a)
5414 {
5415   uint16_t result;
5416   __asm__ ("uaddlv %h0,%1.8b"
5417            : "=w"(result)
5418            : "w"(a)
5419            : /* No clobbers */);
5420   return result;
5421 }
5422
5423 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
5424 vaddlv_u16 (uint16x4_t a)
5425 {
5426   uint32_t result;
5427   __asm__ ("uaddlv %s0,%1.4h"
5428            : "=w"(result)
5429            : "w"(a)
5430            : /* No clobbers */);
5431   return result;
5432 }
5433
5434 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
5435 vaddlvq_s8 (int8x16_t a)
5436 {
5437   int16_t result;
5438   __asm__ ("saddlv %h0,%1.16b"
5439            : "=w"(result)
5440            : "w"(a)
5441            : /* No clobbers */);
5442   return result;
5443 }
5444
5445 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
5446 vaddlvq_s16 (int16x8_t a)
5447 {
5448   int32_t result;
5449   __asm__ ("saddlv %s0,%1.8h"
5450            : "=w"(result)
5451            : "w"(a)
5452            : /* No clobbers */);
5453   return result;
5454 }
5455
5456 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
5457 vaddlvq_s32 (int32x4_t a)
5458 {
5459   int64_t result;
5460   __asm__ ("saddlv %d0,%1.4s"
5461            : "=w"(result)
5462            : "w"(a)
5463            : /* No clobbers */);
5464   return result;
5465 }
5466
5467 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
5468 vaddlvq_u8 (uint8x16_t a)
5469 {
5470   uint16_t result;
5471   __asm__ ("uaddlv %h0,%1.16b"
5472            : "=w"(result)
5473            : "w"(a)
5474            : /* No clobbers */);
5475   return result;
5476 }
5477
5478 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
5479 vaddlvq_u16 (uint16x8_t a)
5480 {
5481   uint32_t result;
5482   __asm__ ("uaddlv %s0,%1.8h"
5483            : "=w"(result)
5484            : "w"(a)
5485            : /* No clobbers */);
5486   return result;
5487 }
5488
5489 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
5490 vaddlvq_u32 (uint32x4_t a)
5491 {
5492   uint64_t result;
5493   __asm__ ("uaddlv %d0,%1.4s"
5494            : "=w"(result)
5495            : "w"(a)
5496            : /* No clobbers */);
5497   return result;
5498 }
5499
5500 #define vcopyq_lane_f32(a, b, c, d)                                     \
5501   __extension__                                                         \
5502     ({                                                                  \
5503        float32x4_t c_ = (c);                                            \
5504        float32x4_t a_ = (a);                                            \
5505        float32x4_t result;                                              \
5506        __asm__ ("ins %0.s[%2], %3.s[%4]"                                \
5507                 : "=w"(result)                                          \
5508                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5509                 : /* No clobbers */);                                   \
5510        result;                                                          \
5511      })
5512
5513 #define vcopyq_lane_f64(a, b, c, d)                                     \
5514   __extension__                                                         \
5515     ({                                                                  \
5516        float64x2_t c_ = (c);                                            \
5517        float64x2_t a_ = (a);                                            \
5518        float64x2_t result;                                              \
5519        __asm__ ("ins %0.d[%2], %3.d[%4]"                                \
5520                 : "=w"(result)                                          \
5521                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5522                 : /* No clobbers */);                                   \
5523        result;                                                          \
5524      })
5525
5526 #define vcopyq_lane_p8(a, b, c, d)                                      \
5527   __extension__                                                         \
5528     ({                                                                  \
5529        poly8x16_t c_ = (c);                                             \
5530        poly8x16_t a_ = (a);                                             \
5531        poly8x16_t result;                                               \
5532        __asm__ ("ins %0.b[%2], %3.b[%4]"                                \
5533                 : "=w"(result)                                          \
5534                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5535                 : /* No clobbers */);                                   \
5536        result;                                                          \
5537      })
5538
5539 #define vcopyq_lane_p16(a, b, c, d)                                     \
5540   __extension__                                                         \
5541     ({                                                                  \
5542        poly16x8_t c_ = (c);                                             \
5543        poly16x8_t a_ = (a);                                             \
5544        poly16x8_t result;                                               \
5545        __asm__ ("ins %0.h[%2], %3.h[%4]"                                \
5546                 : "=w"(result)                                          \
5547                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5548                 : /* No clobbers */);                                   \
5549        result;                                                          \
5550      })
5551
5552 #define vcopyq_lane_s8(a, b, c, d)                                      \
5553   __extension__                                                         \
5554     ({                                                                  \
5555        int8x16_t c_ = (c);                                              \
5556        int8x16_t a_ = (a);                                              \
5557        int8x16_t result;                                                \
5558        __asm__ ("ins %0.b[%2], %3.b[%4]"                                \
5559                 : "=w"(result)                                          \
5560                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5561                 : /* No clobbers */);                                   \
5562        result;                                                          \
5563      })
5564
5565 #define vcopyq_lane_s16(a, b, c, d)                                     \
5566   __extension__                                                         \
5567     ({                                                                  \
5568        int16x8_t c_ = (c);                                              \
5569        int16x8_t a_ = (a);                                              \
5570        int16x8_t result;                                                \
5571        __asm__ ("ins %0.h[%2], %3.h[%4]"                                \
5572                 : "=w"(result)                                          \
5573                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5574                 : /* No clobbers */);                                   \
5575        result;                                                          \
5576      })
5577
5578 #define vcopyq_lane_s32(a, b, c, d)                                     \
5579   __extension__                                                         \
5580     ({                                                                  \
5581        int32x4_t c_ = (c);                                              \
5582        int32x4_t a_ = (a);                                              \
5583        int32x4_t result;                                                \
5584        __asm__ ("ins %0.s[%2], %3.s[%4]"                                \
5585                 : "=w"(result)                                          \
5586                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5587                 : /* No clobbers */);                                   \
5588        result;                                                          \
5589      })
5590
5591 #define vcopyq_lane_s64(a, b, c, d)                                     \
5592   __extension__                                                         \
5593     ({                                                                  \
5594        int64x2_t c_ = (c);                                              \
5595        int64x2_t a_ = (a);                                              \
5596        int64x2_t result;                                                \
5597        __asm__ ("ins %0.d[%2], %3.d[%4]"                                \
5598                 : "=w"(result)                                          \
5599                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5600                 : /* No clobbers */);                                   \
5601        result;                                                          \
5602      })
5603
5604 #define vcopyq_lane_u8(a, b, c, d)                                      \
5605   __extension__                                                         \
5606     ({                                                                  \
5607        uint8x16_t c_ = (c);                                             \
5608        uint8x16_t a_ = (a);                                             \
5609        uint8x16_t result;                                               \
5610        __asm__ ("ins %0.b[%2], %3.b[%4]"                                \
5611                 : "=w"(result)                                          \
5612                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5613                 : /* No clobbers */);                                   \
5614        result;                                                          \
5615      })
5616
5617 #define vcopyq_lane_u16(a, b, c, d)                                     \
5618   __extension__                                                         \
5619     ({                                                                  \
5620        uint16x8_t c_ = (c);                                             \
5621        uint16x8_t a_ = (a);                                             \
5622        uint16x8_t result;                                               \
5623        __asm__ ("ins %0.h[%2], %3.h[%4]"                                \
5624                 : "=w"(result)                                          \
5625                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5626                 : /* No clobbers */);                                   \
5627        result;                                                          \
5628      })
5629
5630 #define vcopyq_lane_u32(a, b, c, d)                                     \
5631   __extension__                                                         \
5632     ({                                                                  \
5633        uint32x4_t c_ = (c);                                             \
5634        uint32x4_t a_ = (a);                                             \
5635        uint32x4_t result;                                               \
5636        __asm__ ("ins %0.s[%2], %3.s[%4]"                                \
5637                 : "=w"(result)                                          \
5638                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5639                 : /* No clobbers */);                                   \
5640        result;                                                          \
5641      })
5642
5643 #define vcopyq_lane_u64(a, b, c, d)                                     \
5644   __extension__                                                         \
5645     ({                                                                  \
5646        uint64x2_t c_ = (c);                                             \
5647        uint64x2_t a_ = (a);                                             \
5648        uint64x2_t result;                                               \
5649        __asm__ ("ins %0.d[%2], %3.d[%4]"                                \
5650                 : "=w"(result)                                          \
5651                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5652                 : /* No clobbers */);                                   \
5653        result;                                                          \
5654      })
5655
5656 /* vcvt_f16_f32 not supported */
5657
5658 /* vcvt_f32_f16 not supported */
5659
5660 /* vcvt_high_f16_f32 not supported */
5661
5662 /* vcvt_high_f32_f16 not supported */
5663
5664 static float32x2_t vdup_n_f32 (float32_t);
5665
5666 #define vcvt_n_f32_s32(a, b)                                            \
5667   __extension__                                                         \
5668     ({                                                                  \
5669        int32x2_t a_ = (a);                                              \
5670        float32x2_t result;                                              \
5671        __asm__ ("scvtf %0.2s, %1.2s, #%2"                               \
5672                 : "=w"(result)                                          \
5673                 : "w"(a_), "i"(b)                                       \
5674                 : /* No clobbers */);                                   \
5675        result;                                                          \
5676      })
5677
5678 #define vcvt_n_f32_u32(a, b)                                            \
5679   __extension__                                                         \
5680     ({                                                                  \
5681        uint32x2_t a_ = (a);                                             \
5682        float32x2_t result;                                              \
5683        __asm__ ("ucvtf %0.2s, %1.2s, #%2"                               \
5684                 : "=w"(result)                                          \
5685                 : "w"(a_), "i"(b)                                       \
5686                 : /* No clobbers */);                                   \
5687        result;                                                          \
5688      })
5689
5690 #define vcvt_n_s32_f32(a, b)                                            \
5691   __extension__                                                         \
5692     ({                                                                  \
5693        float32x2_t a_ = (a);                                            \
5694        int32x2_t result;                                                \
5695        __asm__ ("fcvtzs %0.2s, %1.2s, #%2"                              \
5696                 : "=w"(result)                                          \
5697                 : "w"(a_), "i"(b)                                       \
5698                 : /* No clobbers */);                                   \
5699        result;                                                          \
5700      })
5701
5702 #define vcvt_n_u32_f32(a, b)                                            \
5703   __extension__                                                         \
5704     ({                                                                  \
5705        float32x2_t a_ = (a);                                            \
5706        uint32x2_t result;                                               \
5707        __asm__ ("fcvtzu %0.2s, %1.2s, #%2"                              \
5708                 : "=w"(result)                                          \
5709                 : "w"(a_), "i"(b)                                       \
5710                 : /* No clobbers */);                                   \
5711        result;                                                          \
5712      })
5713
5714 #define vcvtd_n_f64_s64(a, b)                                           \
5715   __extension__                                                         \
5716     ({                                                                  \
5717        int64_t a_ = (a);                                                \
5718        float64_t result;                                                \
5719        __asm__ ("scvtf %d0,%d1,%2"                                      \
5720                 : "=w"(result)                                          \
5721                 : "w"(a_), "i"(b)                                       \
5722                 : /* No clobbers */);                                   \
5723        result;                                                          \
5724      })
5725
5726 #define vcvtd_n_f64_u64(a, b)                                           \
5727   __extension__                                                         \
5728     ({                                                                  \
5729        uint64_t a_ = (a);                                               \
5730        float64_t result;                                                \
5731        __asm__ ("ucvtf %d0,%d1,%2"                                      \
5732                 : "=w"(result)                                          \
5733                 : "w"(a_), "i"(b)                                       \
5734                 : /* No clobbers */);                                   \
5735        result;                                                          \
5736      })
5737
5738 #define vcvtd_n_s64_f64(a, b)                                           \
5739   __extension__                                                         \
5740     ({                                                                  \
5741        float64_t a_ = (a);                                              \
5742        int64_t result;                                                  \
5743        __asm__ ("fcvtzs %d0,%d1,%2"                                     \
5744                 : "=w"(result)                                          \
5745                 : "w"(a_), "i"(b)                                       \
5746                 : /* No clobbers */);                                   \
5747        result;                                                          \
5748      })
5749
5750 #define vcvtd_n_u64_f64(a, b)                                           \
5751   __extension__                                                         \
5752     ({                                                                  \
5753        float64_t a_ = (a);                                              \
5754        uint64_t result;                                                 \
5755        __asm__ ("fcvtzu %d0,%d1,%2"                                     \
5756                 : "=w"(result)                                          \
5757                 : "w"(a_), "i"(b)                                       \
5758                 : /* No clobbers */);                                   \
5759        result;                                                          \
5760      })
5761
5762 #define vcvtq_n_f32_s32(a, b)                                           \
5763   __extension__                                                         \
5764     ({                                                                  \
5765        int32x4_t a_ = (a);                                              \
5766        float32x4_t result;                                              \
5767        __asm__ ("scvtf %0.4s, %1.4s, #%2"                               \
5768                 : "=w"(result)                                          \
5769                 : "w"(a_), "i"(b)                                       \
5770                 : /* No clobbers */);                                   \
5771        result;                                                          \
5772      })
5773
5774 #define vcvtq_n_f32_u32(a, b)                                           \
5775   __extension__                                                         \
5776     ({                                                                  \
5777        uint32x4_t a_ = (a);                                             \
5778        float32x4_t result;                                              \
5779        __asm__ ("ucvtf %0.4s, %1.4s, #%2"                               \
5780                 : "=w"(result)                                          \
5781                 : "w"(a_), "i"(b)                                       \
5782                 : /* No clobbers */);                                   \
5783        result;                                                          \
5784      })
5785
5786 #define vcvtq_n_f64_s64(a, b)                                           \
5787   __extension__                                                         \
5788     ({                                                                  \
5789        int64x2_t a_ = (a);                                              \
5790        float64x2_t result;                                              \
5791        __asm__ ("scvtf %0.2d, %1.2d, #%2"                               \
5792                 : "=w"(result)                                          \
5793                 : "w"(a_), "i"(b)                                       \
5794                 : /* No clobbers */);                                   \
5795        result;                                                          \
5796      })
5797
5798 #define vcvtq_n_f64_u64(a, b)                                           \
5799   __extension__                                                         \
5800     ({                                                                  \
5801        uint64x2_t a_ = (a);                                             \
5802        float64x2_t result;                                              \
5803        __asm__ ("ucvtf %0.2d, %1.2d, #%2"                               \
5804                 : "=w"(result)                                          \
5805                 : "w"(a_), "i"(b)                                       \
5806                 : /* No clobbers */);                                   \
5807        result;                                                          \
5808      })
5809
5810 #define vcvtq_n_s32_f32(a, b)                                           \
5811   __extension__                                                         \
5812     ({                                                                  \
5813        float32x4_t a_ = (a);                                            \
5814        int32x4_t result;                                                \
5815        __asm__ ("fcvtzs %0.4s, %1.4s, #%2"                              \
5816                 : "=w"(result)                                          \
5817                 : "w"(a_), "i"(b)                                       \
5818                 : /* No clobbers */);                                   \
5819        result;                                                          \
5820      })
5821
5822 #define vcvtq_n_s64_f64(a, b)                                           \
5823   __extension__                                                         \
5824     ({                                                                  \
5825        float64x2_t a_ = (a);                                            \
5826        int64x2_t result;                                                \
5827        __asm__ ("fcvtzs %0.2d, %1.2d, #%2"                              \
5828                 : "=w"(result)                                          \
5829                 : "w"(a_), "i"(b)                                       \
5830                 : /* No clobbers */);                                   \
5831        result;                                                          \
5832      })
5833
5834 #define vcvtq_n_u32_f32(a, b)                                           \
5835   __extension__                                                         \
5836     ({                                                                  \
5837        float32x4_t a_ = (a);                                            \
5838        uint32x4_t result;                                               \
5839        __asm__ ("fcvtzu %0.4s, %1.4s, #%2"                              \
5840                 : "=w"(result)                                          \
5841                 : "w"(a_), "i"(b)                                       \
5842                 : /* No clobbers */);                                   \
5843        result;                                                          \
5844      })
5845
5846 #define vcvtq_n_u64_f64(a, b)                                           \
5847   __extension__                                                         \
5848     ({                                                                  \
5849        float64x2_t a_ = (a);                                            \
5850        uint64x2_t result;                                               \
5851        __asm__ ("fcvtzu %0.2d, %1.2d, #%2"                              \
5852                 : "=w"(result)                                          \
5853                 : "w"(a_), "i"(b)                                       \
5854                 : /* No clobbers */);                                   \
5855        result;                                                          \
5856      })
5857
5858 #define vcvts_n_f32_s32(a, b)                                           \
5859   __extension__                                                         \
5860     ({                                                                  \
5861        int32_t a_ = (a);                                                \
5862        float32_t result;                                                \
5863        __asm__ ("scvtf %s0,%s1,%2"                                      \
5864                 : "=w"(result)                                          \
5865                 : "w"(a_), "i"(b)                                       \
5866                 : /* No clobbers */);                                   \
5867        result;                                                          \
5868      })
5869
5870 #define vcvts_n_f32_u32(a, b)                                           \
5871   __extension__                                                         \
5872     ({                                                                  \
5873        uint32_t a_ = (a);                                               \
5874        float32_t result;                                                \
5875        __asm__ ("ucvtf %s0,%s1,%2"                                      \
5876                 : "=w"(result)                                          \
5877                 : "w"(a_), "i"(b)                                       \
5878                 : /* No clobbers */);                                   \
5879        result;                                                          \
5880      })
5881
5882 #define vcvts_n_s32_f32(a, b)                                           \
5883   __extension__                                                         \
5884     ({                                                                  \
5885        float32_t a_ = (a);                                              \
5886        int32_t result;                                                  \
5887        __asm__ ("fcvtzs %s0,%s1,%2"                                     \
5888                 : "=w"(result)                                          \
5889                 : "w"(a_), "i"(b)                                       \
5890                 : /* No clobbers */);                                   \
5891        result;                                                          \
5892      })
5893
5894 #define vcvts_n_u32_f32(a, b)                                           \
5895   __extension__                                                         \
5896     ({                                                                  \
5897        float32_t a_ = (a);                                              \
5898        uint32_t result;                                                 \
5899        __asm__ ("fcvtzu %s0,%s1,%2"                                     \
5900                 : "=w"(result)                                          \
5901                 : "w"(a_), "i"(b)                                       \
5902                 : /* No clobbers */);                                   \
5903        result;                                                          \
5904      })
5905
5906 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
5907 vcvtx_f32_f64 (float64x2_t a)
5908 {
5909   float32x2_t result;
5910   __asm__ ("fcvtxn %0.2s,%1.2d"
5911            : "=w"(result)
5912            : "w"(a)
5913            : /* No clobbers */);
5914   return result;
5915 }
5916
5917 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
5918 vcvtx_high_f32_f64 (float32x2_t a, float64x2_t b)
5919 {
5920   float32x4_t result;
5921   __asm__ ("fcvtxn2 %0.4s,%1.2d"
5922            : "=w"(result)
5923            : "w" (b), "0"(a)
5924            : /* No clobbers */);
5925   return result;
5926 }
5927
5928 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
5929 vcvtxd_f32_f64 (float64_t a)
5930 {
5931   float32_t result;
5932   __asm__ ("fcvtxn %s0,%d1"
5933            : "=w"(result)
5934            : "w"(a)
5935            : /* No clobbers */);
5936   return result;
5937 }
5938
5939 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
5940 vmla_n_f32 (float32x2_t a, float32x2_t b, float32_t c)
5941 {
5942   float32x2_t result;
5943   float32x2_t t1;
5944   __asm__ ("fmul %1.2s, %3.2s, %4.s[0]; fadd %0.2s, %0.2s, %1.2s"
5945            : "=w"(result), "=w"(t1)
5946            : "0"(a), "w"(b), "w"(c)
5947            : /* No clobbers */);
5948   return result;
5949 }
5950
5951 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
5952 vmla_n_s16 (int16x4_t a, int16x4_t b, int16_t c)
5953 {
5954   int16x4_t result;
5955   __asm__ ("mla %0.4h,%2.4h,%3.h[0]"
5956            : "=w"(result)
5957            : "0"(a), "w"(b), "x"(c)
5958            : /* No clobbers */);
5959   return result;
5960 }
5961
5962 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
5963 vmla_n_s32 (int32x2_t a, int32x2_t b, int32_t c)
5964 {
5965   int32x2_t result;
5966   __asm__ ("mla %0.2s,%2.2s,%3.s[0]"
5967            : "=w"(result)
5968            : "0"(a), "w"(b), "w"(c)
5969            : /* No clobbers */);
5970   return result;
5971 }
5972
5973 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
5974 vmla_n_u16 (uint16x4_t a, uint16x4_t b, uint16_t c)
5975 {
5976   uint16x4_t result;
5977   __asm__ ("mla %0.4h,%2.4h,%3.h[0]"
5978            : "=w"(result)
5979            : "0"(a), "w"(b), "x"(c)
5980            : /* No clobbers */);
5981   return result;
5982 }
5983
5984 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
5985 vmla_n_u32 (uint32x2_t a, uint32x2_t b, uint32_t c)
5986 {
5987   uint32x2_t result;
5988   __asm__ ("mla %0.2s,%2.2s,%3.s[0]"
5989            : "=w"(result)
5990            : "0"(a), "w"(b), "w"(c)
5991            : /* No clobbers */);
5992   return result;
5993 }
5994
5995 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
5996 vmla_s8 (int8x8_t a, int8x8_t b, int8x8_t c)
5997 {
5998   int8x8_t result;
5999   __asm__ ("mla %0.8b, %2.8b, %3.8b"
6000            : "=w"(result)
6001            : "0"(a), "w"(b), "w"(c)
6002            : /* No clobbers */);
6003   return result;
6004 }
6005
6006 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
6007 vmla_s16 (int16x4_t a, int16x4_t b, int16x4_t c)
6008 {
6009   int16x4_t result;
6010   __asm__ ("mla %0.4h, %2.4h, %3.4h"
6011            : "=w"(result)
6012            : "0"(a), "w"(b), "w"(c)
6013            : /* No clobbers */);
6014   return result;
6015 }
6016
6017 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
6018 vmla_s32 (int32x2_t a, int32x2_t b, int32x2_t c)
6019 {
6020   int32x2_t result;
6021   __asm__ ("mla %0.2s, %2.2s, %3.2s"
6022            : "=w"(result)
6023            : "0"(a), "w"(b), "w"(c)
6024            : /* No clobbers */);
6025   return result;
6026 }
6027
6028 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
6029 vmla_u8 (uint8x8_t a, uint8x8_t b, uint8x8_t c)
6030 {
6031   uint8x8_t result;
6032   __asm__ ("mla %0.8b, %2.8b, %3.8b"
6033            : "=w"(result)
6034            : "0"(a), "w"(b), "w"(c)
6035            : /* No clobbers */);
6036   return result;
6037 }
6038
6039 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
6040 vmla_u16 (uint16x4_t a, uint16x4_t b, uint16x4_t c)
6041 {
6042   uint16x4_t result;
6043   __asm__ ("mla %0.4h, %2.4h, %3.4h"
6044            : "=w"(result)
6045            : "0"(a), "w"(b), "w"(c)
6046            : /* No clobbers */);
6047   return result;
6048 }
6049
6050 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
6051 vmla_u32 (uint32x2_t a, uint32x2_t b, uint32x2_t c)
6052 {
6053   uint32x2_t result;
6054   __asm__ ("mla %0.2s, %2.2s, %3.2s"
6055            : "=w"(result)
6056            : "0"(a), "w"(b), "w"(c)
6057            : /* No clobbers */);
6058   return result;
6059 }
6060
6061 #define vmlal_high_lane_s16(a, b, c, d)                                 \
6062   __extension__                                                         \
6063     ({                                                                  \
6064        int16x4_t c_ = (c);                                              \
6065        int16x8_t b_ = (b);                                              \
6066        int32x4_t a_ = (a);                                              \
6067        int32x4_t result;                                                \
6068        __asm__ ("smlal2 %0.4s, %2.8h, %3.h[%4]"                         \
6069                 : "=w"(result)                                          \
6070                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6071                 : /* No clobbers */);                                   \
6072        result;                                                          \
6073      })
6074
6075 #define vmlal_high_lane_s32(a, b, c, d)                                 \
6076   __extension__                                                         \
6077     ({                                                                  \
6078        int32x2_t c_ = (c);                                              \
6079        int32x4_t b_ = (b);                                              \
6080        int64x2_t a_ = (a);                                              \
6081        int64x2_t result;                                                \
6082        __asm__ ("smlal2 %0.2d, %2.4s, %3.s[%4]"                         \
6083                 : "=w"(result)                                          \
6084                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6085                 : /* No clobbers */);                                   \
6086        result;                                                          \
6087      })
6088
6089 #define vmlal_high_lane_u16(a, b, c, d)                                 \
6090   __extension__                                                         \
6091     ({                                                                  \
6092        uint16x4_t c_ = (c);                                             \
6093        uint16x8_t b_ = (b);                                             \
6094        uint32x4_t a_ = (a);                                             \
6095        uint32x4_t result;                                               \
6096        __asm__ ("umlal2 %0.4s, %2.8h, %3.h[%4]"                         \
6097                 : "=w"(result)                                          \
6098                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6099                 : /* No clobbers */);                                   \
6100        result;                                                          \
6101      })
6102
6103 #define vmlal_high_lane_u32(a, b, c, d)                                 \
6104   __extension__                                                         \
6105     ({                                                                  \
6106        uint32x2_t c_ = (c);                                             \
6107        uint32x4_t b_ = (b);                                             \
6108        uint64x2_t a_ = (a);                                             \
6109        uint64x2_t result;                                               \
6110        __asm__ ("umlal2 %0.2d, %2.4s, %3.s[%4]"                         \
6111                 : "=w"(result)                                          \
6112                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6113                 : /* No clobbers */);                                   \
6114        result;                                                          \
6115      })
6116
6117 #define vmlal_high_laneq_s16(a, b, c, d)                                \
6118   __extension__                                                         \
6119     ({                                                                  \
6120        int16x8_t c_ = (c);                                              \
6121        int16x8_t b_ = (b);                                              \
6122        int32x4_t a_ = (a);                                              \
6123        int32x4_t result;                                                \
6124        __asm__ ("smlal2 %0.4s, %2.8h, %3.h[%4]"                         \
6125                 : "=w"(result)                                          \
6126                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6127                 : /* No clobbers */);                                   \
6128        result;                                                          \
6129      })
6130
6131 #define vmlal_high_laneq_s32(a, b, c, d)                                \
6132   __extension__                                                         \
6133     ({                                                                  \
6134        int32x4_t c_ = (c);                                              \
6135        int32x4_t b_ = (b);                                              \
6136        int64x2_t a_ = (a);                                              \
6137        int64x2_t result;                                                \
6138        __asm__ ("smlal2 %0.2d, %2.4s, %3.s[%4]"                         \
6139                 : "=w"(result)                                          \
6140                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6141                 : /* No clobbers */);                                   \
6142        result;                                                          \
6143      })
6144
6145 #define vmlal_high_laneq_u16(a, b, c, d)                                \
6146   __extension__                                                         \
6147     ({                                                                  \
6148        uint16x8_t c_ = (c);                                             \
6149        uint16x8_t b_ = (b);                                             \
6150        uint32x4_t a_ = (a);                                             \
6151        uint32x4_t result;                                               \
6152        __asm__ ("umlal2 %0.4s, %2.8h, %3.h[%4]"                         \
6153                 : "=w"(result)                                          \
6154                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6155                 : /* No clobbers */);                                   \
6156        result;                                                          \
6157      })
6158
6159 #define vmlal_high_laneq_u32(a, b, c, d)                                \
6160   __extension__                                                         \
6161     ({                                                                  \
6162        uint32x4_t c_ = (c);                                             \
6163        uint32x4_t b_ = (b);                                             \
6164        uint64x2_t a_ = (a);                                             \
6165        uint64x2_t result;                                               \
6166        __asm__ ("umlal2 %0.2d, %2.4s, %3.s[%4]"                         \
6167                 : "=w"(result)                                          \
6168                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6169                 : /* No clobbers */);                                   \
6170        result;                                                          \
6171      })
6172
6173 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
6174 vmlal_high_n_s16 (int32x4_t a, int16x8_t b, int16_t c)
6175 {
6176   int32x4_t result;
6177   __asm__ ("smlal2 %0.4s,%2.8h,%3.h[0]"
6178            : "=w"(result)
6179            : "0"(a), "w"(b), "x"(c)
6180            : /* No clobbers */);
6181   return result;
6182 }
6183
6184 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
6185 vmlal_high_n_s32 (int64x2_t a, int32x4_t b, int32_t c)
6186 {
6187   int64x2_t result;
6188   __asm__ ("smlal2 %0.2d,%2.4s,%3.s[0]"
6189            : "=w"(result)
6190            : "0"(a), "w"(b), "w"(c)
6191            : /* No clobbers */);
6192   return result;
6193 }
6194
6195 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
6196 vmlal_high_n_u16 (uint32x4_t a, uint16x8_t b, uint16_t c)
6197 {
6198   uint32x4_t result;
6199   __asm__ ("umlal2 %0.4s,%2.8h,%3.h[0]"
6200            : "=w"(result)
6201            : "0"(a), "w"(b), "x"(c)
6202            : /* No clobbers */);
6203   return result;
6204 }
6205
6206 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
6207 vmlal_high_n_u32 (uint64x2_t a, uint32x4_t b, uint32_t c)
6208 {
6209   uint64x2_t result;
6210   __asm__ ("umlal2 %0.2d,%2.4s,%3.s[0]"
6211            : "=w"(result)
6212            : "0"(a), "w"(b), "w"(c)
6213            : /* No clobbers */);
6214   return result;
6215 }
6216
6217 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
6218 vmlal_high_s8 (int16x8_t a, int8x16_t b, int8x16_t c)
6219 {
6220   int16x8_t result;
6221   __asm__ ("smlal2 %0.8h,%2.16b,%3.16b"
6222            : "=w"(result)
6223            : "0"(a), "w"(b), "w"(c)
6224            : /* No clobbers */);
6225   return result;
6226 }
6227
6228 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
6229 vmlal_high_s16 (int32x4_t a, int16x8_t b, int16x8_t c)
6230 {
6231   int32x4_t result;
6232   __asm__ ("smlal2 %0.4s,%2.8h,%3.8h"
6233            : "=w"(result)
6234            : "0"(a), "w"(b), "w"(c)
6235            : /* No clobbers */);
6236   return result;
6237 }
6238
6239 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
6240 vmlal_high_s32 (int64x2_t a, int32x4_t b, int32x4_t c)
6241 {
6242   int64x2_t result;
6243   __asm__ ("smlal2 %0.2d,%2.4s,%3.4s"
6244            : "=w"(result)
6245            : "0"(a), "w"(b), "w"(c)
6246            : /* No clobbers */);
6247   return result;
6248 }
6249
6250 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
6251 vmlal_high_u8 (uint16x8_t a, uint8x16_t b, uint8x16_t c)
6252 {
6253   uint16x8_t result;
6254   __asm__ ("umlal2 %0.8h,%2.16b,%3.16b"
6255            : "=w"(result)
6256            : "0"(a), "w"(b), "w"(c)
6257            : /* No clobbers */);
6258   return result;
6259 }
6260
6261 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
6262 vmlal_high_u16 (uint32x4_t a, uint16x8_t b, uint16x8_t c)
6263 {
6264   uint32x4_t result;
6265   __asm__ ("umlal2 %0.4s,%2.8h,%3.8h"
6266            : "=w"(result)
6267            : "0"(a), "w"(b), "w"(c)
6268            : /* No clobbers */);
6269   return result;
6270 }
6271
6272 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
6273 vmlal_high_u32 (uint64x2_t a, uint32x4_t b, uint32x4_t c)
6274 {
6275   uint64x2_t result;
6276   __asm__ ("umlal2 %0.2d,%2.4s,%3.4s"
6277            : "=w"(result)
6278            : "0"(a), "w"(b), "w"(c)
6279            : /* No clobbers */);
6280   return result;
6281 }
6282
6283 #define vmlal_lane_s16(a, b, c, d)                                      \
6284   __extension__                                                         \
6285     ({                                                                  \
6286        int16x4_t c_ = (c);                                              \
6287        int16x4_t b_ = (b);                                              \
6288        int32x4_t a_ = (a);                                              \
6289        int32x4_t result;                                                \
6290        __asm__ ("smlal %0.4s,%2.4h,%3.h[%4]"                            \
6291                 : "=w"(result)                                          \
6292                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6293                 : /* No clobbers */);                                   \
6294        result;                                                          \
6295      })
6296
6297 #define vmlal_lane_s32(a, b, c, d)                                      \
6298   __extension__                                                         \
6299     ({                                                                  \
6300        int32x2_t c_ = (c);                                              \
6301        int32x2_t b_ = (b);                                              \
6302        int64x2_t a_ = (a);                                              \
6303        int64x2_t result;                                                \
6304        __asm__ ("smlal %0.2d,%2.2s,%3.s[%4]"                            \
6305                 : "=w"(result)                                          \
6306                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6307                 : /* No clobbers */);                                   \
6308        result;                                                          \
6309      })
6310
6311 #define vmlal_lane_u16(a, b, c, d)                                      \
6312   __extension__                                                         \
6313     ({                                                                  \
6314        uint16x4_t c_ = (c);                                             \
6315        uint16x4_t b_ = (b);                                             \
6316        uint32x4_t a_ = (a);                                             \
6317        uint32x4_t result;                                               \
6318        __asm__ ("umlal %0.4s,%2.4h,%3.h[%4]"                            \
6319                 : "=w"(result)                                          \
6320                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6321                 : /* No clobbers */);                                   \
6322        result;                                                          \
6323      })
6324
6325 #define vmlal_lane_u32(a, b, c, d)                                      \
6326   __extension__                                                         \
6327     ({                                                                  \
6328        uint32x2_t c_ = (c);                                             \
6329        uint32x2_t b_ = (b);                                             \
6330        uint64x2_t a_ = (a);                                             \
6331        uint64x2_t result;                                               \
6332        __asm__ ("umlal %0.2d, %2.2s, %3.s[%4]"                          \
6333                 : "=w"(result)                                          \
6334                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6335                 : /* No clobbers */);                                   \
6336        result;                                                          \
6337      })
6338
6339 #define vmlal_laneq_s16(a, b, c, d)                                     \
6340   __extension__                                                         \
6341     ({                                                                  \
6342        int16x8_t c_ = (c);                                              \
6343        int16x4_t b_ = (b);                                              \
6344        int32x4_t a_ = (a);                                              \
6345        int32x4_t result;                                                \
6346        __asm__ ("smlal %0.4s, %2.4h, %3.h[%4]"                          \
6347                 : "=w"(result)                                          \
6348                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6349                 : /* No clobbers */);                                   \
6350        result;                                                          \
6351      })
6352
6353 #define vmlal_laneq_s32(a, b, c, d)                                     \
6354   __extension__                                                         \
6355     ({                                                                  \
6356        int32x4_t c_ = (c);                                              \
6357        int32x2_t b_ = (b);                                              \
6358        int64x2_t a_ = (a);                                              \
6359        int64x2_t result;                                                \
6360        __asm__ ("smlal %0.2d, %2.2s, %3.s[%4]"                          \
6361                 : "=w"(result)                                          \
6362                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6363                 : /* No clobbers */);                                   \
6364        result;                                                          \
6365      })
6366
6367 #define vmlal_laneq_u16(a, b, c, d)                                     \
6368   __extension__                                                         \
6369     ({                                                                  \
6370        uint16x8_t c_ = (c);                                             \
6371        uint16x4_t b_ = (b);                                             \
6372        uint32x4_t a_ = (a);                                             \
6373        uint32x4_t result;                                               \
6374        __asm__ ("umlal %0.4s, %2.4h, %3.h[%4]"                          \
6375                 : "=w"(result)                                          \
6376                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6377                 : /* No clobbers */);                                   \
6378        result;                                                          \
6379      })
6380
6381 #define vmlal_laneq_u32(a, b, c, d)                                     \
6382   __extension__                                                         \
6383     ({                                                                  \
6384        uint32x4_t c_ = (c);                                             \
6385        uint32x2_t b_ = (b);                                             \
6386        uint64x2_t a_ = (a);                                             \
6387        uint64x2_t result;                                               \
6388        __asm__ ("umlal %0.2d, %2.2s, %3.s[%4]"                          \
6389                 : "=w"(result)                                          \
6390                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6391                 : /* No clobbers */);                                   \
6392        result;                                                          \
6393      })
6394
6395 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
6396 vmlal_n_s16 (int32x4_t a, int16x4_t b, int16_t c)
6397 {
6398   int32x4_t result;
6399   __asm__ ("smlal %0.4s,%2.4h,%3.h[0]"
6400            : "=w"(result)
6401            : "0"(a), "w"(b), "x"(c)
6402            : /* No clobbers */);
6403   return result;
6404 }
6405
6406 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
6407 vmlal_n_s32 (int64x2_t a, int32x2_t b, int32_t c)
6408 {
6409   int64x2_t result;
6410   __asm__ ("smlal %0.2d,%2.2s,%3.s[0]"
6411            : "=w"(result)
6412            : "0"(a), "w"(b), "w"(c)
6413            : /* No clobbers */);
6414   return result;
6415 }
6416
6417 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
6418 vmlal_n_u16 (uint32x4_t a, uint16x4_t b, uint16_t c)
6419 {
6420   uint32x4_t result;
6421   __asm__ ("umlal %0.4s,%2.4h,%3.h[0]"
6422            : "=w"(result)
6423            : "0"(a), "w"(b), "x"(c)
6424            : /* No clobbers */);
6425   return result;
6426 }
6427
6428 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
6429 vmlal_n_u32 (uint64x2_t a, uint32x2_t b, uint32_t c)
6430 {
6431   uint64x2_t result;
6432   __asm__ ("umlal %0.2d,%2.2s,%3.s[0]"
6433            : "=w"(result)
6434            : "0"(a), "w"(b), "w"(c)
6435            : /* No clobbers */);
6436   return result;
6437 }
6438
6439 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
6440 vmlal_s8 (int16x8_t a, int8x8_t b, int8x8_t c)
6441 {
6442   int16x8_t result;
6443   __asm__ ("smlal %0.8h,%2.8b,%3.8b"
6444            : "=w"(result)
6445            : "0"(a), "w"(b), "w"(c)
6446            : /* No clobbers */);
6447   return result;
6448 }
6449
6450 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
6451 vmlal_s16 (int32x4_t a, int16x4_t b, int16x4_t c)
6452 {
6453   int32x4_t result;
6454   __asm__ ("smlal %0.4s,%2.4h,%3.4h"
6455            : "=w"(result)
6456            : "0"(a), "w"(b), "w"(c)
6457            : /* No clobbers */);
6458   return result;
6459 }
6460
6461 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
6462 vmlal_s32 (int64x2_t a, int32x2_t b, int32x2_t c)
6463 {
6464   int64x2_t result;
6465   __asm__ ("smlal %0.2d,%2.2s,%3.2s"
6466            : "=w"(result)
6467            : "0"(a), "w"(b), "w"(c)
6468            : /* No clobbers */);
6469   return result;
6470 }
6471
6472 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
6473 vmlal_u8 (uint16x8_t a, uint8x8_t b, uint8x8_t c)
6474 {
6475   uint16x8_t result;
6476   __asm__ ("umlal %0.8h,%2.8b,%3.8b"
6477            : "=w"(result)
6478            : "0"(a), "w"(b), "w"(c)
6479            : /* No clobbers */);
6480   return result;
6481 }
6482
6483 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
6484 vmlal_u16 (uint32x4_t a, uint16x4_t b, uint16x4_t c)
6485 {
6486   uint32x4_t result;
6487   __asm__ ("umlal %0.4s,%2.4h,%3.4h"
6488            : "=w"(result)
6489            : "0"(a), "w"(b), "w"(c)
6490            : /* No clobbers */);
6491   return result;
6492 }
6493
6494 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
6495 vmlal_u32 (uint64x2_t a, uint32x2_t b, uint32x2_t c)
6496 {
6497   uint64x2_t result;
6498   __asm__ ("umlal %0.2d,%2.2s,%3.2s"
6499            : "=w"(result)
6500            : "0"(a), "w"(b), "w"(c)
6501            : /* No clobbers */);
6502   return result;
6503 }
6504
6505 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
6506 vmlaq_n_f32 (float32x4_t a, float32x4_t b, float32_t c)
6507 {
6508   float32x4_t result;
6509   float32x4_t t1;
6510   __asm__ ("fmul %1.4s, %3.4s, %4.s[0]; fadd %0.4s, %0.4s, %1.4s"
6511            : "=w"(result), "=w"(t1)
6512            : "0"(a), "w"(b), "w"(c)
6513            : /* No clobbers */);
6514   return result;
6515 }
6516
6517 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
6518 vmlaq_n_s16 (int16x8_t a, int16x8_t b, int16_t c)
6519 {
6520   int16x8_t result;
6521   __asm__ ("mla %0.8h,%2.8h,%3.h[0]"
6522            : "=w"(result)
6523            : "0"(a), "w"(b), "x"(c)
6524            : /* No clobbers */);
6525   return result;
6526 }
6527
6528 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
6529 vmlaq_n_s32 (int32x4_t a, int32x4_t b, int32_t c)
6530 {
6531   int32x4_t result;
6532   __asm__ ("mla %0.4s,%2.4s,%3.s[0]"
6533            : "=w"(result)
6534            : "0"(a), "w"(b), "w"(c)
6535            : /* No clobbers */);
6536   return result;
6537 }
6538
6539 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
6540 vmlaq_n_u16 (uint16x8_t a, uint16x8_t b, uint16_t c)
6541 {
6542   uint16x8_t result;
6543   __asm__ ("mla %0.8h,%2.8h,%3.h[0]"
6544            : "=w"(result)
6545            : "0"(a), "w"(b), "x"(c)
6546            : /* No clobbers */);
6547   return result;
6548 }
6549
6550 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
6551 vmlaq_n_u32 (uint32x4_t a, uint32x4_t b, uint32_t c)
6552 {
6553   uint32x4_t result;
6554   __asm__ ("mla %0.4s,%2.4s,%3.s[0]"
6555            : "=w"(result)
6556            : "0"(a), "w"(b), "w"(c)
6557            : /* No clobbers */);
6558   return result;
6559 }
6560
6561 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
6562 vmlaq_s8 (int8x16_t a, int8x16_t b, int8x16_t c)
6563 {
6564   int8x16_t result;
6565   __asm__ ("mla %0.16b, %2.16b, %3.16b"
6566            : "=w"(result)
6567            : "0"(a), "w"(b), "w"(c)
6568            : /* No clobbers */);
6569   return result;
6570 }
6571
6572 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
6573 vmlaq_s16 (int16x8_t a, int16x8_t b, int16x8_t c)
6574 {
6575   int16x8_t result;
6576   __asm__ ("mla %0.8h, %2.8h, %3.8h"
6577            : "=w"(result)
6578            : "0"(a), "w"(b), "w"(c)
6579            : /* No clobbers */);
6580   return result;
6581 }
6582
6583 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
6584 vmlaq_s32 (int32x4_t a, int32x4_t b, int32x4_t c)
6585 {
6586   int32x4_t result;
6587   __asm__ ("mla %0.4s, %2.4s, %3.4s"
6588            : "=w"(result)
6589            : "0"(a), "w"(b), "w"(c)
6590            : /* No clobbers */);
6591   return result;
6592 }
6593
6594 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
6595 vmlaq_u8 (uint8x16_t a, uint8x16_t b, uint8x16_t c)
6596 {
6597   uint8x16_t result;
6598   __asm__ ("mla %0.16b, %2.16b, %3.16b"
6599            : "=w"(result)
6600            : "0"(a), "w"(b), "w"(c)
6601            : /* No clobbers */);
6602   return result;
6603 }
6604
6605 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
6606 vmlaq_u16 (uint16x8_t a, uint16x8_t b, uint16x8_t c)
6607 {
6608   uint16x8_t result;
6609   __asm__ ("mla %0.8h, %2.8h, %3.8h"
6610            : "=w"(result)
6611            : "0"(a), "w"(b), "w"(c)
6612            : /* No clobbers */);
6613   return result;
6614 }
6615
6616 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
6617 vmlaq_u32 (uint32x4_t a, uint32x4_t b, uint32x4_t c)
6618 {
6619   uint32x4_t result;
6620   __asm__ ("mla %0.4s, %2.4s, %3.4s"
6621            : "=w"(result)
6622            : "0"(a), "w"(b), "w"(c)
6623            : /* No clobbers */);
6624   return result;
6625 }
6626
6627 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
6628 vmls_n_f32 (float32x2_t a, float32x2_t b, float32_t c)
6629 {
6630   float32x2_t result;
6631   float32x2_t t1;
6632   __asm__ ("fmul %1.2s, %3.2s, %4.s[0]; fsub %0.2s, %0.2s, %1.2s"
6633            : "=w"(result), "=w"(t1)
6634            : "0"(a), "w"(b), "w"(c)
6635            : /* No clobbers */);
6636   return result;
6637 }
6638
6639 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
6640 vmls_n_s16 (int16x4_t a, int16x4_t b, int16_t c)
6641 {
6642   int16x4_t result;
6643   __asm__ ("mls %0.4h, %2.4h, %3.h[0]"
6644            : "=w"(result)
6645            : "0"(a), "w"(b), "x"(c)
6646            : /* No clobbers */);
6647   return result;
6648 }
6649
6650 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
6651 vmls_n_s32 (int32x2_t a, int32x2_t b, int32_t c)
6652 {
6653   int32x2_t result;
6654   __asm__ ("mls %0.2s, %2.2s, %3.s[0]"
6655            : "=w"(result)
6656            : "0"(a), "w"(b), "w"(c)
6657            : /* No clobbers */);
6658   return result;
6659 }
6660
6661 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
6662 vmls_n_u16 (uint16x4_t a, uint16x4_t b, uint16_t c)
6663 {
6664   uint16x4_t result;
6665   __asm__ ("mls %0.4h, %2.4h, %3.h[0]"
6666            : "=w"(result)
6667            : "0"(a), "w"(b), "x"(c)
6668            : /* No clobbers */);
6669   return result;
6670 }
6671
6672 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
6673 vmls_n_u32 (uint32x2_t a, uint32x2_t b, uint32_t c)
6674 {
6675   uint32x2_t result;
6676   __asm__ ("mls %0.2s, %2.2s, %3.s[0]"
6677            : "=w"(result)
6678            : "0"(a), "w"(b), "w"(c)
6679            : /* No clobbers */);
6680   return result;
6681 }
6682
6683 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
6684 vmls_s8 (int8x8_t a, int8x8_t b, int8x8_t c)
6685 {
6686   int8x8_t result;
6687   __asm__ ("mls %0.8b,%2.8b,%3.8b"
6688            : "=w"(result)
6689            : "0"(a), "w"(b), "w"(c)
6690            : /* No clobbers */);
6691   return result;
6692 }
6693
6694 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
6695 vmls_s16 (int16x4_t a, int16x4_t b, int16x4_t c)
6696 {
6697   int16x4_t result;
6698   __asm__ ("mls %0.4h,%2.4h,%3.4h"
6699            : "=w"(result)
6700            : "0"(a), "w"(b), "w"(c)
6701            : /* No clobbers */);
6702   return result;
6703 }
6704
6705 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
6706 vmls_s32 (int32x2_t a, int32x2_t b, int32x2_t c)
6707 {
6708   int32x2_t result;
6709   __asm__ ("mls %0.2s,%2.2s,%3.2s"
6710            : "=w"(result)
6711            : "0"(a), "w"(b), "w"(c)
6712            : /* No clobbers */);
6713   return result;
6714 }
6715
6716 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
6717 vmls_u8 (uint8x8_t a, uint8x8_t b, uint8x8_t c)
6718 {
6719   uint8x8_t result;
6720   __asm__ ("mls %0.8b,%2.8b,%3.8b"
6721            : "=w"(result)
6722            : "0"(a), "w"(b), "w"(c)
6723            : /* No clobbers */);
6724   return result;
6725 }
6726
6727 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
6728 vmls_u16 (uint16x4_t a, uint16x4_t b, uint16x4_t c)
6729 {
6730   uint16x4_t result;
6731   __asm__ ("mls %0.4h,%2.4h,%3.4h"
6732            : "=w"(result)
6733            : "0"(a), "w"(b), "w"(c)
6734            : /* No clobbers */);
6735   return result;
6736 }
6737
6738 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
6739 vmls_u32 (uint32x2_t a, uint32x2_t b, uint32x2_t c)
6740 {
6741   uint32x2_t result;
6742   __asm__ ("mls %0.2s,%2.2s,%3.2s"
6743            : "=w"(result)
6744            : "0"(a), "w"(b), "w"(c)
6745            : /* No clobbers */);
6746   return result;
6747 }
6748
6749 #define vmlsl_high_lane_s16(a, b, c, d)                                 \
6750   __extension__                                                         \
6751     ({                                                                  \
6752        int16x4_t c_ = (c);                                              \
6753        int16x8_t b_ = (b);                                              \
6754        int32x4_t a_ = (a);                                              \
6755        int32x4_t result;                                                \
6756        __asm__ ("smlsl2 %0.4s, %2.8h, %3.h[%4]"                         \
6757                 : "=w"(result)                                          \
6758                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6759                 : /* No clobbers */);                                   \
6760        result;                                                          \
6761      })
6762
6763 #define vmlsl_high_lane_s32(a, b, c, d)                                 \
6764   __extension__                                                         \
6765     ({                                                                  \
6766        int32x2_t c_ = (c);                                              \
6767        int32x4_t b_ = (b);                                              \
6768        int64x2_t a_ = (a);                                              \
6769        int64x2_t result;                                                \
6770        __asm__ ("smlsl2 %0.2d, %2.4s, %3.s[%4]"                         \
6771                 : "=w"(result)                                          \
6772                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6773                 : /* No clobbers */);                                   \
6774        result;                                                          \
6775      })
6776
6777 #define vmlsl_high_lane_u16(a, b, c, d)                                 \
6778   __extension__                                                         \
6779     ({                                                                  \
6780        uint16x4_t c_ = (c);                                             \
6781        uint16x8_t b_ = (b);                                             \
6782        uint32x4_t a_ = (a);                                             \
6783        uint32x4_t result;                                               \
6784        __asm__ ("umlsl2 %0.4s, %2.8h, %3.h[%4]"                         \
6785                 : "=w"(result)                                          \
6786                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6787                 : /* No clobbers */);                                   \
6788        result;                                                          \
6789      })
6790
6791 #define vmlsl_high_lane_u32(a, b, c, d)                                 \
6792   __extension__                                                         \
6793     ({                                                                  \
6794        uint32x2_t c_ = (c);                                             \
6795        uint32x4_t b_ = (b);                                             \
6796        uint64x2_t a_ = (a);                                             \
6797        uint64x2_t result;                                               \
6798        __asm__ ("umlsl2 %0.2d, %2.4s, %3.s[%4]"                         \
6799                 : "=w"(result)                                          \
6800                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6801                 : /* No clobbers */);                                   \
6802        result;                                                          \
6803      })
6804
6805 #define vmlsl_high_laneq_s16(a, b, c, d)                                \
6806   __extension__                                                         \
6807     ({                                                                  \
6808        int16x8_t c_ = (c);                                              \
6809        int16x8_t b_ = (b);                                              \
6810        int32x4_t a_ = (a);                                              \
6811        int32x4_t result;                                                \
6812        __asm__ ("smlsl2 %0.4s, %2.8h, %3.h[%4]"                         \
6813                 : "=w"(result)                                          \
6814                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6815                 : /* No clobbers */);                                   \
6816        result;                                                          \
6817      })
6818
6819 #define vmlsl_high_laneq_s32(a, b, c, d)                                \
6820   __extension__                                                         \
6821     ({                                                                  \
6822        int32x4_t c_ = (c);                                              \
6823        int32x4_t b_ = (b);                                              \
6824        int64x2_t a_ = (a);                                              \
6825        int64x2_t result;                                                \
6826        __asm__ ("smlsl2 %0.2d, %2.4s, %3.s[%4]"                         \
6827                 : "=w"(result)                                          \
6828                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6829                 : /* No clobbers */);                                   \
6830        result;                                                          \
6831      })
6832
6833 #define vmlsl_high_laneq_u16(a, b, c, d)                                \
6834   __extension__                                                         \
6835     ({                                                                  \
6836        uint16x8_t c_ = (c);                                             \
6837        uint16x8_t b_ = (b);                                             \
6838        uint32x4_t a_ = (a);                                             \
6839        uint32x4_t result;                                               \
6840        __asm__ ("umlsl2 %0.4s, %2.8h, %3.h[%4]"                         \
6841                 : "=w"(result)                                          \
6842                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6843                 : /* No clobbers */);                                   \
6844        result;                                                          \
6845      })
6846
6847 #define vmlsl_high_laneq_u32(a, b, c, d)                                \
6848   __extension__                                                         \
6849     ({                                                                  \
6850        uint32x4_t c_ = (c);                                             \
6851        uint32x4_t b_ = (b);                                             \
6852        uint64x2_t a_ = (a);                                             \
6853        uint64x2_t result;                                               \
6854        __asm__ ("umlsl2 %0.2d, %2.4s, %3.s[%4]"                         \
6855                 : "=w"(result)                                          \
6856                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6857                 : /* No clobbers */);                                   \
6858        result;                                                          \
6859      })
6860
6861 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
6862 vmlsl_high_n_s16 (int32x4_t a, int16x8_t b, int16_t c)
6863 {
6864   int32x4_t result;
6865   __asm__ ("smlsl2 %0.4s, %2.8h, %3.h[0]"
6866            : "=w"(result)
6867            : "0"(a), "w"(b), "x"(c)
6868            : /* No clobbers */);
6869   return result;
6870 }
6871
6872 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
6873 vmlsl_high_n_s32 (int64x2_t a, int32x4_t b, int32_t c)
6874 {
6875   int64x2_t result;
6876   __asm__ ("smlsl2 %0.2d, %2.4s, %3.s[0]"
6877            : "=w"(result)
6878            : "0"(a), "w"(b), "w"(c)
6879            : /* No clobbers */);
6880   return result;
6881 }
6882
6883 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
6884 vmlsl_high_n_u16 (uint32x4_t a, uint16x8_t b, uint16_t c)
6885 {
6886   uint32x4_t result;
6887   __asm__ ("umlsl2 %0.4s, %2.8h, %3.h[0]"
6888            : "=w"(result)
6889            : "0"(a), "w"(b), "x"(c)
6890            : /* No clobbers */);
6891   return result;
6892 }
6893
6894 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
6895 vmlsl_high_n_u32 (uint64x2_t a, uint32x4_t b, uint32_t c)
6896 {
6897   uint64x2_t result;
6898   __asm__ ("umlsl2 %0.2d, %2.4s, %3.s[0]"
6899            : "=w"(result)
6900            : "0"(a), "w"(b), "w"(c)
6901            : /* No clobbers */);
6902   return result;
6903 }
6904
6905 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
6906 vmlsl_high_s8 (int16x8_t a, int8x16_t b, int8x16_t c)
6907 {
6908   int16x8_t result;
6909   __asm__ ("smlsl2 %0.8h,%2.16b,%3.16b"
6910            : "=w"(result)
6911            : "0"(a), "w"(b), "w"(c)
6912            : /* No clobbers */);
6913   return result;
6914 }
6915
6916 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
6917 vmlsl_high_s16 (int32x4_t a, int16x8_t b, int16x8_t c)
6918 {
6919   int32x4_t result;
6920   __asm__ ("smlsl2 %0.4s,%2.8h,%3.8h"
6921            : "=w"(result)
6922            : "0"(a), "w"(b), "w"(c)
6923            : /* No clobbers */);
6924   return result;
6925 }
6926
6927 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
6928 vmlsl_high_s32 (int64x2_t a, int32x4_t b, int32x4_t c)
6929 {
6930   int64x2_t result;
6931   __asm__ ("smlsl2 %0.2d,%2.4s,%3.4s"
6932            : "=w"(result)
6933            : "0"(a), "w"(b), "w"(c)
6934            : /* No clobbers */);
6935   return result;
6936 }
6937
6938 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
6939 vmlsl_high_u8 (uint16x8_t a, uint8x16_t b, uint8x16_t c)
6940 {
6941   uint16x8_t result;
6942   __asm__ ("umlsl2 %0.8h,%2.16b,%3.16b"
6943            : "=w"(result)
6944            : "0"(a), "w"(b), "w"(c)
6945            : /* No clobbers */);
6946   return result;
6947 }
6948
6949 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
6950 vmlsl_high_u16 (uint32x4_t a, uint16x8_t b, uint16x8_t c)
6951 {
6952   uint32x4_t result;
6953   __asm__ ("umlsl2 %0.4s,%2.8h,%3.8h"
6954            : "=w"(result)
6955            : "0"(a), "w"(b), "w"(c)
6956            : /* No clobbers */);
6957   return result;
6958 }
6959
6960 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
6961 vmlsl_high_u32 (uint64x2_t a, uint32x4_t b, uint32x4_t c)
6962 {
6963   uint64x2_t result;
6964   __asm__ ("umlsl2 %0.2d,%2.4s,%3.4s"
6965            : "=w"(result)
6966            : "0"(a), "w"(b), "w"(c)
6967            : /* No clobbers */);
6968   return result;
6969 }
6970
6971 #define vmlsl_lane_s16(a, b, c, d)                                      \
6972   __extension__                                                         \
6973     ({                                                                  \
6974        int16x4_t c_ = (c);                                              \
6975        int16x4_t b_ = (b);                                              \
6976        int32x4_t a_ = (a);                                              \
6977        int32x4_t result;                                                \
6978        __asm__ ("smlsl %0.4s, %2.4h, %3.h[%4]"                          \
6979                 : "=w"(result)                                          \
6980                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
6981                 : /* No clobbers */);                                   \
6982        result;                                                          \
6983      })
6984
6985 #define vmlsl_lane_s32(a, b, c, d)                                      \
6986   __extension__                                                         \
6987     ({                                                                  \
6988        int32x2_t c_ = (c);                                              \
6989        int32x2_t b_ = (b);                                              \
6990        int64x2_t a_ = (a);                                              \
6991        int64x2_t result;                                                \
6992        __asm__ ("smlsl %0.2d, %2.2s, %3.s[%4]"                          \
6993                 : "=w"(result)                                          \
6994                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6995                 : /* No clobbers */);                                   \
6996        result;                                                          \
6997      })
6998
6999 #define vmlsl_lane_u16(a, b, c, d)                                      \
7000   __extension__                                                         \
7001     ({                                                                  \
7002        uint16x4_t c_ = (c);                                             \
7003        uint16x4_t b_ = (b);                                             \
7004        uint32x4_t a_ = (a);                                             \
7005        uint32x4_t result;                                               \
7006        __asm__ ("umlsl %0.4s, %2.4h, %3.h[%4]"                          \
7007                 : "=w"(result)                                          \
7008                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
7009                 : /* No clobbers */);                                   \
7010        result;                                                          \
7011      })
7012
7013 #define vmlsl_lane_u32(a, b, c, d)                                      \
7014   __extension__                                                         \
7015     ({                                                                  \
7016        uint32x2_t c_ = (c);                                             \
7017        uint32x2_t b_ = (b);                                             \
7018        uint64x2_t a_ = (a);                                             \
7019        uint64x2_t result;                                               \
7020        __asm__ ("umlsl %0.2d, %2.2s, %3.s[%4]"                          \
7021                 : "=w"(result)                                          \
7022                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7023                 : /* No clobbers */);                                   \
7024        result;                                                          \
7025      })
7026
7027 #define vmlsl_laneq_s16(a, b, c, d)                                     \
7028   __extension__                                                         \
7029     ({                                                                  \
7030        int16x8_t c_ = (c);                                              \
7031        int16x4_t b_ = (b);                                              \
7032        int32x4_t a_ = (a);                                              \
7033        int32x4_t result;                                                \
7034        __asm__ ("smlsl %0.4s, %2.4h, %3.h[%4]"                          \
7035                 : "=w"(result)                                          \
7036                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
7037                 : /* No clobbers */);                                   \
7038        result;                                                          \
7039      })
7040
7041 #define vmlsl_laneq_s32(a, b, c, d)                                     \
7042   __extension__                                                         \
7043     ({                                                                  \
7044        int32x4_t c_ = (c);                                              \
7045        int32x2_t b_ = (b);                                              \
7046        int64x2_t a_ = (a);                                              \
7047        int64x2_t result;                                                \
7048        __asm__ ("smlsl %0.2d, %2.2s, %3.s[%4]"                          \
7049                 : "=w"(result)                                          \
7050                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7051                 : /* No clobbers */);                                   \
7052        result;                                                          \
7053      })
7054
7055 #define vmlsl_laneq_u16(a, b, c, d)                                     \
7056   __extension__                                                         \
7057     ({                                                                  \
7058        uint16x8_t c_ = (c);                                             \
7059        uint16x4_t b_ = (b);                                             \
7060        uint32x4_t a_ = (a);                                             \
7061        uint32x4_t result;                                               \
7062        __asm__ ("umlsl %0.4s, %2.4h, %3.h[%4]"                          \
7063                 : "=w"(result)                                          \
7064                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
7065                 : /* No clobbers */);                                   \
7066        result;                                                          \
7067      })
7068
7069 #define vmlsl_laneq_u32(a, b, c, d)                                     \
7070   __extension__                                                         \
7071     ({                                                                  \
7072        uint32x4_t c_ = (c);                                             \
7073        uint32x2_t b_ = (b);                                             \
7074        uint64x2_t a_ = (a);                                             \
7075        uint64x2_t result;                                               \
7076        __asm__ ("umlsl %0.2d, %2.2s, %3.s[%4]"                          \
7077                 : "=w"(result)                                          \
7078                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7079                 : /* No clobbers */);                                   \
7080        result;                                                          \
7081      })
7082
7083 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7084 vmlsl_n_s16 (int32x4_t a, int16x4_t b, int16_t c)
7085 {
7086   int32x4_t result;
7087   __asm__ ("smlsl %0.4s, %2.4h, %3.h[0]"
7088            : "=w"(result)
7089            : "0"(a), "w"(b), "x"(c)
7090            : /* No clobbers */);
7091   return result;
7092 }
7093
7094 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
7095 vmlsl_n_s32 (int64x2_t a, int32x2_t b, int32_t c)
7096 {
7097   int64x2_t result;
7098   __asm__ ("smlsl %0.2d, %2.2s, %3.s[0]"
7099            : "=w"(result)
7100            : "0"(a), "w"(b), "w"(c)
7101            : /* No clobbers */);
7102   return result;
7103 }
7104
7105 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7106 vmlsl_n_u16 (uint32x4_t a, uint16x4_t b, uint16_t c)
7107 {
7108   uint32x4_t result;
7109   __asm__ ("umlsl %0.4s, %2.4h, %3.h[0]"
7110            : "=w"(result)
7111            : "0"(a), "w"(b), "x"(c)
7112            : /* No clobbers */);
7113   return result;
7114 }
7115
7116 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
7117 vmlsl_n_u32 (uint64x2_t a, uint32x2_t b, uint32_t c)
7118 {
7119   uint64x2_t result;
7120   __asm__ ("umlsl %0.2d, %2.2s, %3.s[0]"
7121            : "=w"(result)
7122            : "0"(a), "w"(b), "w"(c)
7123            : /* No clobbers */);
7124   return result;
7125 }
7126
7127 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
7128 vmlsl_s8 (int16x8_t a, int8x8_t b, int8x8_t c)
7129 {
7130   int16x8_t result;
7131   __asm__ ("smlsl %0.8h, %2.8b, %3.8b"
7132            : "=w"(result)
7133            : "0"(a), "w"(b), "w"(c)
7134            : /* No clobbers */);
7135   return result;
7136 }
7137
7138 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7139 vmlsl_s16 (int32x4_t a, int16x4_t b, int16x4_t c)
7140 {
7141   int32x4_t result;
7142   __asm__ ("smlsl %0.4s, %2.4h, %3.4h"
7143            : "=w"(result)
7144            : "0"(a), "w"(b), "w"(c)
7145            : /* No clobbers */);
7146   return result;
7147 }
7148
7149 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
7150 vmlsl_s32 (int64x2_t a, int32x2_t b, int32x2_t c)
7151 {
7152   int64x2_t result;
7153   __asm__ ("smlsl %0.2d, %2.2s, %3.2s"
7154            : "=w"(result)
7155            : "0"(a), "w"(b), "w"(c)
7156            : /* No clobbers */);
7157   return result;
7158 }
7159
7160 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
7161 vmlsl_u8 (uint16x8_t a, uint8x8_t b, uint8x8_t c)
7162 {
7163   uint16x8_t result;
7164   __asm__ ("umlsl %0.8h, %2.8b, %3.8b"
7165            : "=w"(result)
7166            : "0"(a), "w"(b), "w"(c)
7167            : /* No clobbers */);
7168   return result;
7169 }
7170
7171 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7172 vmlsl_u16 (uint32x4_t a, uint16x4_t b, uint16x4_t c)
7173 {
7174   uint32x4_t result;
7175   __asm__ ("umlsl %0.4s, %2.4h, %3.4h"
7176            : "=w"(result)
7177            : "0"(a), "w"(b), "w"(c)
7178            : /* No clobbers */);
7179   return result;
7180 }
7181
7182 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
7183 vmlsl_u32 (uint64x2_t a, uint32x2_t b, uint32x2_t c)
7184 {
7185   uint64x2_t result;
7186   __asm__ ("umlsl %0.2d, %2.2s, %3.2s"
7187            : "=w"(result)
7188            : "0"(a), "w"(b), "w"(c)
7189            : /* No clobbers */);
7190   return result;
7191 }
7192
7193 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
7194 vmlsq_n_f32 (float32x4_t a, float32x4_t b, float32_t c)
7195 {
7196   float32x4_t result;
7197   float32x4_t t1;
7198   __asm__ ("fmul %1.4s, %3.4s, %4.s[0]; fsub %0.4s, %0.4s, %1.4s"
7199            : "=w"(result), "=w"(t1)
7200            : "0"(a), "w"(b), "w"(c)
7201            : /* No clobbers */);
7202   return result;
7203 }
7204
7205 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
7206 vmlsq_n_s16 (int16x8_t a, int16x8_t b, int16_t c)
7207 {
7208   int16x8_t result;
7209   __asm__ ("mls %0.8h, %2.8h, %3.h[0]"
7210            : "=w"(result)
7211            : "0"(a), "w"(b), "x"(c)
7212            : /* No clobbers */);
7213   return result;
7214 }
7215
7216 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7217 vmlsq_n_s32 (int32x4_t a, int32x4_t b, int32_t c)
7218 {
7219   int32x4_t result;
7220   __asm__ ("mls %0.4s, %2.4s, %3.s[0]"
7221            : "=w"(result)
7222            : "0"(a), "w"(b), "w"(c)
7223            : /* No clobbers */);
7224   return result;
7225 }
7226
7227 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
7228 vmlsq_n_u16 (uint16x8_t a, uint16x8_t b, uint16_t c)
7229 {
7230   uint16x8_t result;
7231   __asm__ ("mls %0.8h, %2.8h, %3.h[0]"
7232            : "=w"(result)
7233            : "0"(a), "w"(b), "x"(c)
7234            : /* No clobbers */);
7235   return result;
7236 }
7237
7238 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7239 vmlsq_n_u32 (uint32x4_t a, uint32x4_t b, uint32_t c)
7240 {
7241   uint32x4_t result;
7242   __asm__ ("mls %0.4s, %2.4s, %3.s[0]"
7243            : "=w"(result)
7244            : "0"(a), "w"(b), "w"(c)
7245            : /* No clobbers */);
7246   return result;
7247 }
7248
7249 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
7250 vmlsq_s8 (int8x16_t a, int8x16_t b, int8x16_t c)
7251 {
7252   int8x16_t result;
7253   __asm__ ("mls %0.16b,%2.16b,%3.16b"
7254            : "=w"(result)
7255            : "0"(a), "w"(b), "w"(c)
7256            : /* No clobbers */);
7257   return result;
7258 }
7259
7260 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
7261 vmlsq_s16 (int16x8_t a, int16x8_t b, int16x8_t c)
7262 {
7263   int16x8_t result;
7264   __asm__ ("mls %0.8h,%2.8h,%3.8h"
7265            : "=w"(result)
7266            : "0"(a), "w"(b), "w"(c)
7267            : /* No clobbers */);
7268   return result;
7269 }
7270
7271 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7272 vmlsq_s32 (int32x4_t a, int32x4_t b, int32x4_t c)
7273 {
7274   int32x4_t result;
7275   __asm__ ("mls %0.4s,%2.4s,%3.4s"
7276            : "=w"(result)
7277            : "0"(a), "w"(b), "w"(c)
7278            : /* No clobbers */);
7279   return result;
7280 }
7281
7282 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
7283 vmlsq_u8 (uint8x16_t a, uint8x16_t b, uint8x16_t c)
7284 {
7285   uint8x16_t result;
7286   __asm__ ("mls %0.16b,%2.16b,%3.16b"
7287            : "=w"(result)
7288            : "0"(a), "w"(b), "w"(c)
7289            : /* No clobbers */);
7290   return result;
7291 }
7292
7293 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
7294 vmlsq_u16 (uint16x8_t a, uint16x8_t b, uint16x8_t c)
7295 {
7296   uint16x8_t result;
7297   __asm__ ("mls %0.8h,%2.8h,%3.8h"
7298            : "=w"(result)
7299            : "0"(a), "w"(b), "w"(c)
7300            : /* No clobbers */);
7301   return result;
7302 }
7303
7304 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7305 vmlsq_u32 (uint32x4_t a, uint32x4_t b, uint32x4_t c)
7306 {
7307   uint32x4_t result;
7308   __asm__ ("mls %0.4s,%2.4s,%3.4s"
7309            : "=w"(result)
7310            : "0"(a), "w"(b), "w"(c)
7311            : /* No clobbers */);
7312   return result;
7313 }
7314
7315 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
7316 vmovl_high_s8 (int8x16_t a)
7317 {
7318   int16x8_t result;
7319   __asm__ ("sshll2 %0.8h,%1.16b,#0"
7320            : "=w"(result)
7321            : "w"(a)
7322            : /* No clobbers */);
7323   return result;
7324 }
7325
7326 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7327 vmovl_high_s16 (int16x8_t a)
7328 {
7329   int32x4_t result;
7330   __asm__ ("sshll2 %0.4s,%1.8h,#0"
7331            : "=w"(result)
7332            : "w"(a)
7333            : /* No clobbers */);
7334   return result;
7335 }
7336
7337 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
7338 vmovl_high_s32 (int32x4_t a)
7339 {
7340   int64x2_t result;
7341   __asm__ ("sshll2 %0.2d,%1.4s,#0"
7342            : "=w"(result)
7343            : "w"(a)
7344            : /* No clobbers */);
7345   return result;
7346 }
7347
7348 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
7349 vmovl_high_u8 (uint8x16_t a)
7350 {
7351   uint16x8_t result;
7352   __asm__ ("ushll2 %0.8h,%1.16b,#0"
7353            : "=w"(result)
7354            : "w"(a)
7355            : /* No clobbers */);
7356   return result;
7357 }
7358
7359 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7360 vmovl_high_u16 (uint16x8_t a)
7361 {
7362   uint32x4_t result;
7363   __asm__ ("ushll2 %0.4s,%1.8h,#0"
7364            : "=w"(result)
7365            : "w"(a)
7366            : /* No clobbers */);
7367   return result;
7368 }
7369
7370 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
7371 vmovl_high_u32 (uint32x4_t a)
7372 {
7373   uint64x2_t result;
7374   __asm__ ("ushll2 %0.2d,%1.4s,#0"
7375            : "=w"(result)
7376            : "w"(a)
7377            : /* No clobbers */);
7378   return result;
7379 }
7380
7381 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
7382 vmovl_s8 (int8x8_t a)
7383 {
7384   int16x8_t result;
7385   __asm__ ("sshll %0.8h,%1.8b,#0"
7386            : "=w"(result)
7387            : "w"(a)
7388            : /* No clobbers */);
7389   return result;
7390 }
7391
7392 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7393 vmovl_s16 (int16x4_t a)
7394 {
7395   int32x4_t result;
7396   __asm__ ("sshll %0.4s,%1.4h,#0"
7397            : "=w"(result)
7398            : "w"(a)
7399            : /* No clobbers */);
7400   return result;
7401 }
7402
7403 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
7404 vmovl_s32 (int32x2_t a)
7405 {
7406   int64x2_t result;
7407   __asm__ ("sshll %0.2d,%1.2s,#0"
7408            : "=w"(result)
7409            : "w"(a)
7410            : /* No clobbers */);
7411   return result;
7412 }
7413
7414 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
7415 vmovl_u8 (uint8x8_t a)
7416 {
7417   uint16x8_t result;
7418   __asm__ ("ushll %0.8h,%1.8b,#0"
7419            : "=w"(result)
7420            : "w"(a)
7421            : /* No clobbers */);
7422   return result;
7423 }
7424
7425 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7426 vmovl_u16 (uint16x4_t a)
7427 {
7428   uint32x4_t result;
7429   __asm__ ("ushll %0.4s,%1.4h,#0"
7430            : "=w"(result)
7431            : "w"(a)
7432            : /* No clobbers */);
7433   return result;
7434 }
7435
7436 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
7437 vmovl_u32 (uint32x2_t a)
7438 {
7439   uint64x2_t result;
7440   __asm__ ("ushll %0.2d,%1.2s,#0"
7441            : "=w"(result)
7442            : "w"(a)
7443            : /* No clobbers */);
7444   return result;
7445 }
7446
7447 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
7448 vmovn_high_s16 (int8x8_t a, int16x8_t b)
7449 {
7450   int8x16_t result = vcombine_s8 (a, vcreate_s8 (__AARCH64_UINT64_C (0x0)));
7451   __asm__ ("xtn2 %0.16b,%1.8h"
7452            : "+w"(result)
7453            : "w"(b)
7454            : /* No clobbers */);
7455   return result;
7456 }
7457
7458 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
7459 vmovn_high_s32 (int16x4_t a, int32x4_t b)
7460 {
7461   int16x8_t result = vcombine_s16 (a, vcreate_s16 (__AARCH64_UINT64_C (0x0)));
7462   __asm__ ("xtn2 %0.8h,%1.4s"
7463            : "+w"(result)
7464            : "w"(b)
7465            : /* No clobbers */);
7466   return result;
7467 }
7468
7469 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7470 vmovn_high_s64 (int32x2_t a, int64x2_t b)
7471 {
7472   int32x4_t result = vcombine_s32 (a, vcreate_s32 (__AARCH64_UINT64_C (0x0)));
7473   __asm__ ("xtn2 %0.4s,%1.2d"
7474            : "+w"(result)
7475            : "w"(b)
7476            : /* No clobbers */);
7477   return result;
7478 }
7479
7480 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
7481 vmovn_high_u16 (uint8x8_t a, uint16x8_t b)
7482 {
7483   uint8x16_t result = vcombine_u8 (a, vcreate_u8 (__AARCH64_UINT64_C (0x0)));
7484   __asm__ ("xtn2 %0.16b,%1.8h"
7485            : "+w"(result)
7486            : "w"(b)
7487            : /* No clobbers */);
7488   return result;
7489 }
7490
7491 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
7492 vmovn_high_u32 (uint16x4_t a, uint32x4_t b)
7493 {
7494   uint16x8_t result = vcombine_u16 (a, vcreate_u16 (__AARCH64_UINT64_C (0x0)));
7495   __asm__ ("xtn2 %0.8h,%1.4s"
7496            : "+w"(result)
7497            : "w"(b)
7498            : /* No clobbers */);
7499   return result;
7500 }
7501
7502 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7503 vmovn_high_u64 (uint32x2_t a, uint64x2_t b)
7504 {
7505   uint32x4_t result = vcombine_u32 (a, vcreate_u32 (__AARCH64_UINT64_C (0x0)));
7506   __asm__ ("xtn2 %0.4s,%1.2d"
7507            : "+w"(result)
7508            : "w"(b)
7509            : /* No clobbers */);
7510   return result;
7511 }
7512
7513 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
7514 vmovn_s16 (int16x8_t a)
7515 {
7516   int8x8_t result;
7517   __asm__ ("xtn %0.8b,%1.8h"
7518            : "=w"(result)
7519            : "w"(a)
7520            : /* No clobbers */);
7521   return result;
7522 }
7523
7524 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
7525 vmovn_s32 (int32x4_t a)
7526 {
7527   int16x4_t result;
7528   __asm__ ("xtn %0.4h,%1.4s"
7529            : "=w"(result)
7530            : "w"(a)
7531            : /* No clobbers */);
7532   return result;
7533 }
7534
7535 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
7536 vmovn_s64 (int64x2_t a)
7537 {
7538   int32x2_t result;
7539   __asm__ ("xtn %0.2s,%1.2d"
7540            : "=w"(result)
7541            : "w"(a)
7542            : /* No clobbers */);
7543   return result;
7544 }
7545
7546 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
7547 vmovn_u16 (uint16x8_t a)
7548 {
7549   uint8x8_t result;
7550   __asm__ ("xtn %0.8b,%1.8h"
7551            : "=w"(result)
7552            : "w"(a)
7553            : /* No clobbers */);
7554   return result;
7555 }
7556
7557 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
7558 vmovn_u32 (uint32x4_t a)
7559 {
7560   uint16x4_t result;
7561   __asm__ ("xtn %0.4h,%1.4s"
7562            : "=w"(result)
7563            : "w"(a)
7564            : /* No clobbers */);
7565   return result;
7566 }
7567
7568 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
7569 vmovn_u64 (uint64x2_t a)
7570 {
7571   uint32x2_t result;
7572   __asm__ ("xtn %0.2s,%1.2d"
7573            : "=w"(result)
7574            : "w"(a)
7575            : /* No clobbers */);
7576   return result;
7577 }
7578
7579 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
7580 vmul_n_f32 (float32x2_t a, float32_t b)
7581 {
7582   float32x2_t result;
7583   __asm__ ("fmul %0.2s,%1.2s,%2.s[0]"
7584            : "=w"(result)
7585            : "w"(a), "w"(b)
7586            : /* No clobbers */);
7587   return result;
7588 }
7589
7590 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
7591 vmul_n_s16 (int16x4_t a, int16_t b)
7592 {
7593   int16x4_t result;
7594   __asm__ ("mul %0.4h,%1.4h,%2.h[0]"
7595            : "=w"(result)
7596            : "w"(a), "x"(b)
7597            : /* No clobbers */);
7598   return result;
7599 }
7600
7601 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
7602 vmul_n_s32 (int32x2_t a, int32_t b)
7603 {
7604   int32x2_t result;
7605   __asm__ ("mul %0.2s,%1.2s,%2.s[0]"
7606            : "=w"(result)
7607            : "w"(a), "w"(b)
7608            : /* No clobbers */);
7609   return result;
7610 }
7611
7612 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
7613 vmul_n_u16 (uint16x4_t a, uint16_t b)
7614 {
7615   uint16x4_t result;
7616   __asm__ ("mul %0.4h,%1.4h,%2.h[0]"
7617            : "=w"(result)
7618            : "w"(a), "x"(b)
7619            : /* No clobbers */);
7620   return result;
7621 }
7622
7623 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
7624 vmul_n_u32 (uint32x2_t a, uint32_t b)
7625 {
7626   uint32x2_t result;
7627   __asm__ ("mul %0.2s,%1.2s,%2.s[0]"
7628            : "=w"(result)
7629            : "w"(a), "w"(b)
7630            : /* No clobbers */);
7631   return result;
7632 }
7633
7634 #define vmull_high_lane_s16(a, b, c)                                    \
7635   __extension__                                                         \
7636     ({                                                                  \
7637        int16x4_t b_ = (b);                                              \
7638        int16x8_t a_ = (a);                                              \
7639        int32x4_t result;                                                \
7640        __asm__ ("smull2 %0.4s, %1.8h, %2.h[%3]"                         \
7641                 : "=w"(result)                                          \
7642                 : "w"(a_), "x"(b_), "i"(c)                              \
7643                 : /* No clobbers */);                                   \
7644        result;                                                          \
7645      })
7646
7647 #define vmull_high_lane_s32(a, b, c)                                    \
7648   __extension__                                                         \
7649     ({                                                                  \
7650        int32x2_t b_ = (b);                                              \
7651        int32x4_t a_ = (a);                                              \
7652        int64x2_t result;                                                \
7653        __asm__ ("smull2 %0.2d, %1.4s, %2.s[%3]"                         \
7654                 : "=w"(result)                                          \
7655                 : "w"(a_), "w"(b_), "i"(c)                              \
7656                 : /* No clobbers */);                                   \
7657        result;                                                          \
7658      })
7659
7660 #define vmull_high_lane_u16(a, b, c)                                    \
7661   __extension__                                                         \
7662     ({                                                                  \
7663        uint16x4_t b_ = (b);                                             \
7664        uint16x8_t a_ = (a);                                             \
7665        uint32x4_t result;                                               \
7666        __asm__ ("umull2 %0.4s, %1.8h, %2.h[%3]"                         \
7667                 : "=w"(result)                                          \
7668                 : "w"(a_), "x"(b_), "i"(c)                              \
7669                 : /* No clobbers */);                                   \
7670        result;                                                          \
7671      })
7672
7673 #define vmull_high_lane_u32(a, b, c)                                    \
7674   __extension__                                                         \
7675     ({                                                                  \
7676        uint32x2_t b_ = (b);                                             \
7677        uint32x4_t a_ = (a);                                             \
7678        uint64x2_t result;                                               \
7679        __asm__ ("umull2 %0.2d, %1.4s, %2.s[%3]"                         \
7680                 : "=w"(result)                                          \
7681                 : "w"(a_), "w"(b_), "i"(c)                              \
7682                 : /* No clobbers */);                                   \
7683        result;                                                          \
7684      })
7685
7686 #define vmull_high_laneq_s16(a, b, c)                                   \
7687   __extension__                                                         \
7688     ({                                                                  \
7689        int16x8_t b_ = (b);                                              \
7690        int16x8_t a_ = (a);                                              \
7691        int32x4_t result;                                                \
7692        __asm__ ("smull2 %0.4s, %1.8h, %2.h[%3]"                         \
7693                 : "=w"(result)                                          \
7694                 : "w"(a_), "x"(b_), "i"(c)                              \
7695                 : /* No clobbers */);                                   \
7696        result;                                                          \
7697      })
7698
7699 #define vmull_high_laneq_s32(a, b, c)                                   \
7700   __extension__                                                         \
7701     ({                                                                  \
7702        int32x4_t b_ = (b);                                              \
7703        int32x4_t a_ = (a);                                              \
7704        int64x2_t result;                                                \
7705        __asm__ ("smull2 %0.2d, %1.4s, %2.s[%3]"                         \
7706                 : "=w"(result)                                          \
7707                 : "w"(a_), "w"(b_), "i"(c)                              \
7708                 : /* No clobbers */);                                   \
7709        result;                                                          \
7710      })
7711
7712 #define vmull_high_laneq_u16(a, b, c)                                   \
7713   __extension__                                                         \
7714     ({                                                                  \
7715        uint16x8_t b_ = (b);                                             \
7716        uint16x8_t a_ = (a);                                             \
7717        uint32x4_t result;                                               \
7718        __asm__ ("umull2 %0.4s, %1.8h, %2.h[%3]"                         \
7719                 : "=w"(result)                                          \
7720                 : "w"(a_), "x"(b_), "i"(c)                              \
7721                 : /* No clobbers */);                                   \
7722        result;                                                          \
7723      })
7724
7725 #define vmull_high_laneq_u32(a, b, c)                                   \
7726   __extension__                                                         \
7727     ({                                                                  \
7728        uint32x4_t b_ = (b);                                             \
7729        uint32x4_t a_ = (a);                                             \
7730        uint64x2_t result;                                               \
7731        __asm__ ("umull2 %0.2d, %1.4s, %2.s[%3]"                         \
7732                 : "=w"(result)                                          \
7733                 : "w"(a_), "w"(b_), "i"(c)                              \
7734                 : /* No clobbers */);                                   \
7735        result;                                                          \
7736      })
7737
7738 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7739 vmull_high_n_s16 (int16x8_t a, int16_t b)
7740 {
7741   int32x4_t result;
7742   __asm__ ("smull2 %0.4s,%1.8h,%2.h[0]"
7743            : "=w"(result)
7744            : "w"(a), "x"(b)
7745            : /* No clobbers */);
7746   return result;
7747 }
7748
7749 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
7750 vmull_high_n_s32 (int32x4_t a, int32_t b)
7751 {
7752   int64x2_t result;
7753   __asm__ ("smull2 %0.2d,%1.4s,%2.s[0]"
7754            : "=w"(result)
7755            : "w"(a), "w"(b)
7756            : /* No clobbers */);
7757   return result;
7758 }
7759
7760 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7761 vmull_high_n_u16 (uint16x8_t a, uint16_t b)
7762 {
7763   uint32x4_t result;
7764   __asm__ ("umull2 %0.4s,%1.8h,%2.h[0]"
7765            : "=w"(result)
7766            : "w"(a), "x"(b)
7767            : /* No clobbers */);
7768   return result;
7769 }
7770
7771 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
7772 vmull_high_n_u32 (uint32x4_t a, uint32_t b)
7773 {
7774   uint64x2_t result;
7775   __asm__ ("umull2 %0.2d,%1.4s,%2.s[0]"
7776            : "=w"(result)
7777            : "w"(a), "w"(b)
7778            : /* No clobbers */);
7779   return result;
7780 }
7781
7782 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
7783 vmull_high_p8 (poly8x16_t a, poly8x16_t b)
7784 {
7785   poly16x8_t result;
7786   __asm__ ("pmull2 %0.8h,%1.16b,%2.16b"
7787            : "=w"(result)
7788            : "w"(a), "w"(b)
7789            : /* No clobbers */);
7790   return result;
7791 }
7792
7793 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
7794 vmull_high_s8 (int8x16_t a, int8x16_t b)
7795 {
7796   int16x8_t result;
7797   __asm__ ("smull2 %0.8h,%1.16b,%2.16b"
7798            : "=w"(result)
7799            : "w"(a), "w"(b)
7800            : /* No clobbers */);
7801   return result;
7802 }
7803
7804 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7805 vmull_high_s16 (int16x8_t a, int16x8_t b)
7806 {
7807   int32x4_t result;
7808   __asm__ ("smull2 %0.4s,%1.8h,%2.8h"
7809            : "=w"(result)
7810            : "w"(a), "w"(b)
7811            : /* No clobbers */);
7812   return result;
7813 }
7814
7815 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
7816 vmull_high_s32 (int32x4_t a, int32x4_t b)
7817 {
7818   int64x2_t result;
7819   __asm__ ("smull2 %0.2d,%1.4s,%2.4s"
7820            : "=w"(result)
7821            : "w"(a), "w"(b)
7822            : /* No clobbers */);
7823   return result;
7824 }
7825
7826 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
7827 vmull_high_u8 (uint8x16_t a, uint8x16_t b)
7828 {
7829   uint16x8_t result;
7830   __asm__ ("umull2 %0.8h,%1.16b,%2.16b"
7831            : "=w"(result)
7832            : "w"(a), "w"(b)
7833            : /* No clobbers */);
7834   return result;
7835 }
7836
7837 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7838 vmull_high_u16 (uint16x8_t a, uint16x8_t b)
7839 {
7840   uint32x4_t result;
7841   __asm__ ("umull2 %0.4s,%1.8h,%2.8h"
7842            : "=w"(result)
7843            : "w"(a), "w"(b)
7844            : /* No clobbers */);
7845   return result;
7846 }
7847
7848 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
7849 vmull_high_u32 (uint32x4_t a, uint32x4_t b)
7850 {
7851   uint64x2_t result;
7852   __asm__ ("umull2 %0.2d,%1.4s,%2.4s"
7853            : "=w"(result)
7854            : "w"(a), "w"(b)
7855            : /* No clobbers */);
7856   return result;
7857 }
7858
7859 #define vmull_lane_s16(a, b, c)                                         \
7860   __extension__                                                         \
7861     ({                                                                  \
7862        int16x4_t b_ = (b);                                              \
7863        int16x4_t a_ = (a);                                              \
7864        int32x4_t result;                                                \
7865        __asm__ ("smull %0.4s,%1.4h,%2.h[%3]"                            \
7866                 : "=w"(result)                                          \
7867                 : "w"(a_), "x"(b_), "i"(c)                              \
7868                 : /* No clobbers */);                                   \
7869        result;                                                          \
7870      })
7871
7872 #define vmull_lane_s32(a, b, c)                                         \
7873   __extension__                                                         \
7874     ({                                                                  \
7875        int32x2_t b_ = (b);                                              \
7876        int32x2_t a_ = (a);                                              \
7877        int64x2_t result;                                                \
7878        __asm__ ("smull %0.2d,%1.2s,%2.s[%3]"                            \
7879                 : "=w"(result)                                          \
7880                 : "w"(a_), "w"(b_), "i"(c)                              \
7881                 : /* No clobbers */);                                   \
7882        result;                                                          \
7883      })
7884
7885 #define vmull_lane_u16(a, b, c)                                         \
7886   __extension__                                                         \
7887     ({                                                                  \
7888        uint16x4_t b_ = (b);                                             \
7889        uint16x4_t a_ = (a);                                             \
7890        uint32x4_t result;                                               \
7891        __asm__ ("umull %0.4s,%1.4h,%2.h[%3]"                            \
7892                 : "=w"(result)                                          \
7893                 : "w"(a_), "x"(b_), "i"(c)                              \
7894                 : /* No clobbers */);                                   \
7895        result;                                                          \
7896      })
7897
7898 #define vmull_lane_u32(a, b, c)                                         \
7899   __extension__                                                         \
7900     ({                                                                  \
7901        uint32x2_t b_ = (b);                                             \
7902        uint32x2_t a_ = (a);                                             \
7903        uint64x2_t result;                                               \
7904        __asm__ ("umull %0.2d, %1.2s, %2.s[%3]"                          \
7905                 : "=w"(result)                                          \
7906                 : "w"(a_), "w"(b_), "i"(c)                              \
7907                 : /* No clobbers */);                                   \
7908        result;                                                          \
7909      })
7910
7911 #define vmull_laneq_s16(a, b, c)                                        \
7912   __extension__                                                         \
7913     ({                                                                  \
7914        int16x8_t b_ = (b);                                              \
7915        int16x4_t a_ = (a);                                              \
7916        int32x4_t result;                                                \
7917        __asm__ ("smull %0.4s, %1.4h, %2.h[%3]"                          \
7918                 : "=w"(result)                                          \
7919                 : "w"(a_), "x"(b_), "i"(c)                              \
7920                 : /* No clobbers */);                                   \
7921        result;                                                          \
7922      })
7923
7924 #define vmull_laneq_s32(a, b, c)                                        \
7925   __extension__                                                         \
7926     ({                                                                  \
7927        int32x4_t b_ = (b);                                              \
7928        int32x2_t a_ = (a);                                              \
7929        int64x2_t result;                                                \
7930        __asm__ ("smull %0.2d, %1.2s, %2.s[%3]"                          \
7931                 : "=w"(result)                                          \
7932                 : "w"(a_), "w"(b_), "i"(c)                              \
7933                 : /* No clobbers */);                                   \
7934        result;                                                          \
7935      })
7936
7937 #define vmull_laneq_u16(a, b, c)                                        \
7938   __extension__                                                         \
7939     ({                                                                  \
7940        uint16x8_t b_ = (b);                                             \
7941        uint16x4_t a_ = (a);                                             \
7942        uint32x4_t result;                                               \
7943        __asm__ ("umull %0.4s, %1.4h, %2.h[%3]"                          \
7944                 : "=w"(result)                                          \
7945                 : "w"(a_), "x"(b_), "i"(c)                              \
7946                 : /* No clobbers */);                                   \
7947        result;                                                          \
7948      })
7949
7950 #define vmull_laneq_u32(a, b, c)                                        \
7951   __extension__                                                         \
7952     ({                                                                  \
7953        uint32x4_t b_ = (b);                                             \
7954        uint32x2_t a_ = (a);                                             \
7955        uint64x2_t result;                                               \
7956        __asm__ ("umull %0.2d, %1.2s, %2.s[%3]"                          \
7957                 : "=w"(result)                                          \
7958                 : "w"(a_), "w"(b_), "i"(c)                              \
7959                 : /* No clobbers */);                                   \
7960        result;                                                          \
7961      })
7962
7963 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7964 vmull_n_s16 (int16x4_t a, int16_t b)
7965 {
7966   int32x4_t result;
7967   __asm__ ("smull %0.4s,%1.4h,%2.h[0]"
7968            : "=w"(result)
7969            : "w"(a), "x"(b)
7970            : /* No clobbers */);
7971   return result;
7972 }
7973
7974 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
7975 vmull_n_s32 (int32x2_t a, int32_t b)
7976 {
7977   int64x2_t result;
7978   __asm__ ("smull %0.2d,%1.2s,%2.s[0]"
7979            : "=w"(result)
7980            : "w"(a), "w"(b)
7981            : /* No clobbers */);
7982   return result;
7983 }
7984
7985 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7986 vmull_n_u16 (uint16x4_t a, uint16_t b)
7987 {
7988   uint32x4_t result;
7989   __asm__ ("umull %0.4s,%1.4h,%2.h[0]"
7990            : "=w"(result)
7991            : "w"(a), "x"(b)
7992            : /* No clobbers */);
7993   return result;
7994 }
7995
7996 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
7997 vmull_n_u32 (uint32x2_t a, uint32_t b)
7998 {
7999   uint64x2_t result;
8000   __asm__ ("umull %0.2d,%1.2s,%2.s[0]"
8001            : "=w"(result)
8002            : "w"(a), "w"(b)
8003            : /* No clobbers */);
8004   return result;
8005 }
8006
8007 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
8008 vmull_p8 (poly8x8_t a, poly8x8_t b)
8009 {
8010   poly16x8_t result;
8011   __asm__ ("pmull %0.8h, %1.8b, %2.8b"
8012            : "=w"(result)
8013            : "w"(a), "w"(b)
8014            : /* No clobbers */);
8015   return result;
8016 }
8017
8018 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
8019 vmull_s8 (int8x8_t a, int8x8_t b)
8020 {
8021   int16x8_t result;
8022   __asm__ ("smull %0.8h, %1.8b, %2.8b"
8023            : "=w"(result)
8024            : "w"(a), "w"(b)
8025            : /* No clobbers */);
8026   return result;
8027 }
8028
8029 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
8030 vmull_s16 (int16x4_t a, int16x4_t b)
8031 {
8032   int32x4_t result;
8033   __asm__ ("smull %0.4s, %1.4h, %2.4h"
8034            : "=w"(result)
8035            : "w"(a), "w"(b)
8036            : /* No clobbers */);
8037   return result;
8038 }
8039
8040 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
8041 vmull_s32 (int32x2_t a, int32x2_t b)
8042 {
8043   int64x2_t result;
8044   __asm__ ("smull %0.2d, %1.2s, %2.2s"
8045            : "=w"(result)
8046            : "w"(a), "w"(b)
8047            : /* No clobbers */);
8048   return result;
8049 }
8050
8051 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
8052 vmull_u8 (uint8x8_t a, uint8x8_t b)
8053 {
8054   uint16x8_t result;
8055   __asm__ ("umull %0.8h, %1.8b, %2.8b"
8056            : "=w"(result)
8057            : "w"(a), "w"(b)
8058            : /* No clobbers */);
8059   return result;
8060 }
8061
8062 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
8063 vmull_u16 (uint16x4_t a, uint16x4_t b)
8064 {
8065   uint32x4_t result;
8066   __asm__ ("umull %0.4s, %1.4h, %2.4h"
8067            : "=w"(result)
8068            : "w"(a), "w"(b)
8069            : /* No clobbers */);
8070   return result;
8071 }
8072
8073 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
8074 vmull_u32 (uint32x2_t a, uint32x2_t b)
8075 {
8076   uint64x2_t result;
8077   __asm__ ("umull %0.2d, %1.2s, %2.2s"
8078            : "=w"(result)
8079            : "w"(a), "w"(b)
8080            : /* No clobbers */);
8081   return result;
8082 }
8083
8084 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
8085 vmulq_n_f32 (float32x4_t a, float32_t b)
8086 {
8087   float32x4_t result;
8088   __asm__ ("fmul %0.4s,%1.4s,%2.s[0]"
8089            : "=w"(result)
8090            : "w"(a), "w"(b)
8091            : /* No clobbers */);
8092   return result;
8093 }
8094
8095 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
8096 vmulq_n_f64 (float64x2_t a, float64_t b)
8097 {
8098   float64x2_t result;
8099   __asm__ ("fmul %0.2d,%1.2d,%2.d[0]"
8100            : "=w"(result)
8101            : "w"(a), "w"(b)
8102            : /* No clobbers */);
8103   return result;
8104 }
8105
8106 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
8107 vmulq_n_s16 (int16x8_t a, int16_t b)
8108 {
8109   int16x8_t result;
8110   __asm__ ("mul %0.8h,%1.8h,%2.h[0]"
8111            : "=w"(result)
8112            : "w"(a), "x"(b)
8113            : /* No clobbers */);
8114   return result;
8115 }
8116
8117 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
8118 vmulq_n_s32 (int32x4_t a, int32_t b)
8119 {
8120   int32x4_t result;
8121   __asm__ ("mul %0.4s,%1.4s,%2.s[0]"
8122            : "=w"(result)
8123            : "w"(a), "w"(b)
8124            : /* No clobbers */);
8125   return result;
8126 }
8127
8128 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
8129 vmulq_n_u16 (uint16x8_t a, uint16_t b)
8130 {
8131   uint16x8_t result;
8132   __asm__ ("mul %0.8h,%1.8h,%2.h[0]"
8133            : "=w"(result)
8134            : "w"(a), "x"(b)
8135            : /* No clobbers */);
8136   return result;
8137 }
8138
8139 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
8140 vmulq_n_u32 (uint32x4_t a, uint32_t b)
8141 {
8142   uint32x4_t result;
8143   __asm__ ("mul %0.4s,%1.4s,%2.s[0]"
8144            : "=w"(result)
8145            : "w"(a), "w"(b)
8146            : /* No clobbers */);
8147   return result;
8148 }
8149
8150 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
8151 vmulx_f32 (float32x2_t a, float32x2_t b)
8152 {
8153   float32x2_t result;
8154   __asm__ ("fmulx %0.2s,%1.2s,%2.2s"
8155            : "=w"(result)
8156            : "w"(a), "w"(b)
8157            : /* No clobbers */);
8158   return result;
8159 }
8160
8161 #define vmulx_lane_f32(a, b, c)                                         \
8162   __extension__                                                         \
8163     ({                                                                  \
8164        float32x4_t b_ = (b);                                            \
8165        float32x2_t a_ = (a);                                            \
8166        float32x2_t result;                                              \
8167        __asm__ ("fmulx %0.2s,%1.2s,%2.s[%3]"                            \
8168                 : "=w"(result)                                          \
8169                 : "w"(a_), "w"(b_), "i"(c)                              \
8170                 : /* No clobbers */);                                   \
8171        result;                                                          \
8172      })
8173
8174 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
8175 vmulxd_f64 (float64_t a, float64_t b)
8176 {
8177   float64_t result;
8178   __asm__ ("fmulx %d0, %d1, %d2"
8179            : "=w"(result)
8180            : "w"(a), "w"(b)
8181            : /* No clobbers */);
8182   return result;
8183 }
8184
8185 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
8186 vmulxq_f32 (float32x4_t a, float32x4_t b)
8187 {
8188   float32x4_t result;
8189   __asm__ ("fmulx %0.4s,%1.4s,%2.4s"
8190            : "=w"(result)
8191            : "w"(a), "w"(b)
8192            : /* No clobbers */);
8193   return result;
8194 }
8195
8196 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
8197 vmulxq_f64 (float64x2_t a, float64x2_t b)
8198 {
8199   float64x2_t result;
8200   __asm__ ("fmulx %0.2d,%1.2d,%2.2d"
8201            : "=w"(result)
8202            : "w"(a), "w"(b)
8203            : /* No clobbers */);
8204   return result;
8205 }
8206
8207 #define vmulxq_lane_f32(a, b, c)                                        \
8208   __extension__                                                         \
8209     ({                                                                  \
8210        float32x4_t b_ = (b);                                            \
8211        float32x4_t a_ = (a);                                            \
8212        float32x4_t result;                                              \
8213        __asm__ ("fmulx %0.4s,%1.4s,%2.s[%3]"                            \
8214                 : "=w"(result)                                          \
8215                 : "w"(a_), "w"(b_), "i"(c)                              \
8216                 : /* No clobbers */);                                   \
8217        result;                                                          \
8218      })
8219
8220 #define vmulxq_lane_f64(a, b, c)                                        \
8221   __extension__                                                         \
8222     ({                                                                  \
8223        float64x2_t b_ = (b);                                            \
8224        float64x2_t a_ = (a);                                            \
8225        float64x2_t result;                                              \
8226        __asm__ ("fmulx %0.2d,%1.2d,%2.d[%3]"                            \
8227                 : "=w"(result)                                          \
8228                 : "w"(a_), "w"(b_), "i"(c)                              \
8229                 : /* No clobbers */);                                   \
8230        result;                                                          \
8231      })
8232
8233 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
8234 vmulxs_f32 (float32_t a, float32_t b)
8235 {
8236   float32_t result;
8237   __asm__ ("fmulx %s0, %s1, %s2"
8238            : "=w"(result)
8239            : "w"(a), "w"(b)
8240            : /* No clobbers */);
8241   return result;
8242 }
8243
8244 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
8245 vmvn_p8 (poly8x8_t a)
8246 {
8247   poly8x8_t result;
8248   __asm__ ("mvn %0.8b,%1.8b"
8249            : "=w"(result)
8250            : "w"(a)
8251            : /* No clobbers */);
8252   return result;
8253 }
8254
8255 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
8256 vmvn_s8 (int8x8_t a)
8257 {
8258   int8x8_t result;
8259   __asm__ ("mvn %0.8b,%1.8b"
8260            : "=w"(result)
8261            : "w"(a)
8262            : /* No clobbers */);
8263   return result;
8264 }
8265
8266 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
8267 vmvn_s16 (int16x4_t a)
8268 {
8269   int16x4_t result;
8270   __asm__ ("mvn %0.8b,%1.8b"
8271            : "=w"(result)
8272            : "w"(a)
8273            : /* No clobbers */);
8274   return result;
8275 }
8276
8277 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
8278 vmvn_s32 (int32x2_t a)
8279 {
8280   int32x2_t result;
8281   __asm__ ("mvn %0.8b,%1.8b"
8282            : "=w"(result)
8283            : "w"(a)
8284            : /* No clobbers */);
8285   return result;
8286 }
8287
8288 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
8289 vmvn_u8 (uint8x8_t a)
8290 {
8291   uint8x8_t result;
8292   __asm__ ("mvn %0.8b,%1.8b"
8293            : "=w"(result)
8294            : "w"(a)
8295            : /* No clobbers */);
8296   return result;
8297 }
8298
8299 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
8300 vmvn_u16 (uint16x4_t a)
8301 {
8302   uint16x4_t result;
8303   __asm__ ("mvn %0.8b,%1.8b"
8304            : "=w"(result)
8305            : "w"(a)
8306            : /* No clobbers */);
8307   return result;
8308 }
8309
8310 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
8311 vmvn_u32 (uint32x2_t a)
8312 {
8313   uint32x2_t result;
8314   __asm__ ("mvn %0.8b,%1.8b"
8315            : "=w"(result)
8316            : "w"(a)
8317            : /* No clobbers */);
8318   return result;
8319 }
8320
8321 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
8322 vmvnq_p8 (poly8x16_t a)
8323 {
8324   poly8x16_t result;
8325   __asm__ ("mvn %0.16b,%1.16b"
8326            : "=w"(result)
8327            : "w"(a)
8328            : /* No clobbers */);
8329   return result;
8330 }
8331
8332 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
8333 vmvnq_s8 (int8x16_t a)
8334 {
8335   int8x16_t result;
8336   __asm__ ("mvn %0.16b,%1.16b"
8337            : "=w"(result)
8338            : "w"(a)
8339            : /* No clobbers */);
8340   return result;
8341 }
8342
8343 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
8344 vmvnq_s16 (int16x8_t a)
8345 {
8346   int16x8_t result;
8347   __asm__ ("mvn %0.16b,%1.16b"
8348            : "=w"(result)
8349            : "w"(a)
8350            : /* No clobbers */);
8351   return result;
8352 }
8353
8354 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
8355 vmvnq_s32 (int32x4_t a)
8356 {
8357   int32x4_t result;
8358   __asm__ ("mvn %0.16b,%1.16b"
8359            : "=w"(result)
8360            : "w"(a)
8361            : /* No clobbers */);
8362   return result;
8363 }
8364
8365 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
8366 vmvnq_u8 (uint8x16_t a)
8367 {
8368   uint8x16_t result;
8369   __asm__ ("mvn %0.16b,%1.16b"
8370            : "=w"(result)
8371            : "w"(a)
8372            : /* No clobbers */);
8373   return result;
8374 }
8375
8376 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
8377 vmvnq_u16 (uint16x8_t a)
8378 {
8379   uint16x8_t result;
8380   __asm__ ("mvn %0.16b,%1.16b"
8381            : "=w"(result)
8382            : "w"(a)
8383            : /* No clobbers */);
8384   return result;
8385 }
8386
8387 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
8388 vmvnq_u32 (uint32x4_t a)
8389 {
8390   uint32x4_t result;
8391   __asm__ ("mvn %0.16b,%1.16b"
8392            : "=w"(result)
8393            : "w"(a)
8394            : /* No clobbers */);
8395   return result;
8396 }
8397
8398
8399 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
8400 vpadal_s8 (int16x4_t a, int8x8_t b)
8401 {
8402   int16x4_t result;
8403   __asm__ ("sadalp %0.4h,%2.8b"
8404            : "=w"(result)
8405            : "0"(a), "w"(b)
8406            : /* No clobbers */);
8407   return result;
8408 }
8409
8410 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
8411 vpadal_s16 (int32x2_t a, int16x4_t b)
8412 {
8413   int32x2_t result;
8414   __asm__ ("sadalp %0.2s,%2.4h"
8415            : "=w"(result)
8416            : "0"(a), "w"(b)
8417            : /* No clobbers */);
8418   return result;
8419 }
8420
8421 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
8422 vpadal_s32 (int64x1_t a, int32x2_t b)
8423 {
8424   int64x1_t result;
8425   __asm__ ("sadalp %0.1d,%2.2s"
8426            : "=w"(result)
8427            : "0"(a), "w"(b)
8428            : /* No clobbers */);
8429   return result;
8430 }
8431
8432 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
8433 vpadal_u8 (uint16x4_t a, uint8x8_t b)
8434 {
8435   uint16x4_t result;
8436   __asm__ ("uadalp %0.4h,%2.8b"
8437            : "=w"(result)
8438            : "0"(a), "w"(b)
8439            : /* No clobbers */);
8440   return result;
8441 }
8442
8443 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
8444 vpadal_u16 (uint32x2_t a, uint16x4_t b)
8445 {
8446   uint32x2_t result;
8447   __asm__ ("uadalp %0.2s,%2.4h"
8448            : "=w"(result)
8449            : "0"(a), "w"(b)
8450            : /* No clobbers */);
8451   return result;
8452 }
8453
8454 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
8455 vpadal_u32 (uint64x1_t a, uint32x2_t b)
8456 {
8457   uint64x1_t result;
8458   __asm__ ("uadalp %0.1d,%2.2s"
8459            : "=w"(result)
8460            : "0"(a), "w"(b)
8461            : /* No clobbers */);
8462   return result;
8463 }
8464
8465 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
8466 vpadalq_s8 (int16x8_t a, int8x16_t b)
8467 {
8468   int16x8_t result;
8469   __asm__ ("sadalp %0.8h,%2.16b"
8470            : "=w"(result)
8471            : "0"(a), "w"(b)
8472            : /* No clobbers */);
8473   return result;
8474 }
8475
8476 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
8477 vpadalq_s16 (int32x4_t a, int16x8_t b)
8478 {
8479   int32x4_t result;
8480   __asm__ ("sadalp %0.4s,%2.8h"
8481            : "=w"(result)
8482            : "0"(a), "w"(b)
8483            : /* No clobbers */);
8484   return result;
8485 }
8486
8487 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
8488 vpadalq_s32 (int64x2_t a, int32x4_t b)
8489 {
8490   int64x2_t result;
8491   __asm__ ("sadalp %0.2d,%2.4s"
8492            : "=w"(result)
8493            : "0"(a), "w"(b)
8494            : /* No clobbers */);
8495   return result;
8496 }
8497
8498 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
8499 vpadalq_u8 (uint16x8_t a, uint8x16_t b)
8500 {
8501   uint16x8_t result;
8502   __asm__ ("uadalp %0.8h,%2.16b"
8503            : "=w"(result)
8504            : "0"(a), "w"(b)
8505            : /* No clobbers */);
8506   return result;
8507 }
8508
8509 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
8510 vpadalq_u16 (uint32x4_t a, uint16x8_t b)
8511 {
8512   uint32x4_t result;
8513   __asm__ ("uadalp %0.4s,%2.8h"
8514            : "=w"(result)
8515            : "0"(a), "w"(b)
8516            : /* No clobbers */);
8517   return result;
8518 }
8519
8520 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
8521 vpadalq_u32 (uint64x2_t a, uint32x4_t b)
8522 {
8523   uint64x2_t result;
8524   __asm__ ("uadalp %0.2d,%2.4s"
8525            : "=w"(result)
8526            : "0"(a), "w"(b)
8527            : /* No clobbers */);
8528   return result;
8529 }
8530
8531 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
8532 vpadd_f32 (float32x2_t a, float32x2_t b)
8533 {
8534   float32x2_t result;
8535   __asm__ ("faddp %0.2s,%1.2s,%2.2s"
8536            : "=w"(result)
8537            : "w"(a), "w"(b)
8538            : /* No clobbers */);
8539   return result;
8540 }
8541
8542 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
8543 vpaddl_s8 (int8x8_t a)
8544 {
8545   int16x4_t result;
8546   __asm__ ("saddlp %0.4h,%1.8b"
8547            : "=w"(result)
8548            : "w"(a)
8549            : /* No clobbers */);
8550   return result;
8551 }
8552
8553 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
8554 vpaddl_s16 (int16x4_t a)
8555 {
8556   int32x2_t result;
8557   __asm__ ("saddlp %0.2s,%1.4h"
8558            : "=w"(result)
8559            : "w"(a)
8560            : /* No clobbers */);
8561   return result;
8562 }
8563
8564 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
8565 vpaddl_s32 (int32x2_t a)
8566 {
8567   int64x1_t result;
8568   __asm__ ("saddlp %0.1d,%1.2s"
8569            : "=w"(result)
8570            : "w"(a)
8571            : /* No clobbers */);
8572   return result;
8573 }
8574
8575 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
8576 vpaddl_u8 (uint8x8_t a)
8577 {
8578   uint16x4_t result;
8579   __asm__ ("uaddlp %0.4h,%1.8b"
8580            : "=w"(result)
8581            : "w"(a)
8582            : /* No clobbers */);
8583   return result;
8584 }
8585
8586 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
8587 vpaddl_u16 (uint16x4_t a)
8588 {
8589   uint32x2_t result;
8590   __asm__ ("uaddlp %0.2s,%1.4h"
8591            : "=w"(result)
8592            : "w"(a)
8593            : /* No clobbers */);
8594   return result;
8595 }
8596
8597 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
8598 vpaddl_u32 (uint32x2_t a)
8599 {
8600   uint64x1_t result;
8601   __asm__ ("uaddlp %0.1d,%1.2s"
8602            : "=w"(result)
8603            : "w"(a)
8604            : /* No clobbers */);
8605   return result;
8606 }
8607
8608 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
8609 vpaddlq_s8 (int8x16_t a)
8610 {
8611   int16x8_t result;
8612   __asm__ ("saddlp %0.8h,%1.16b"
8613            : "=w"(result)
8614            : "w"(a)
8615            : /* No clobbers */);
8616   return result;
8617 }
8618
8619 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
8620 vpaddlq_s16 (int16x8_t a)
8621 {
8622   int32x4_t result;
8623   __asm__ ("saddlp %0.4s,%1.8h"
8624            : "=w"(result)
8625            : "w"(a)
8626            : /* No clobbers */);
8627   return result;
8628 }
8629
8630 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
8631 vpaddlq_s32 (int32x4_t a)
8632 {
8633   int64x2_t result;
8634   __asm__ ("saddlp %0.2d,%1.4s"
8635            : "=w"(result)
8636            : "w"(a)
8637            : /* No clobbers */);
8638   return result;
8639 }
8640
8641 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
8642 vpaddlq_u8 (uint8x16_t a)
8643 {
8644   uint16x8_t result;
8645   __asm__ ("uaddlp %0.8h,%1.16b"
8646            : "=w"(result)
8647            : "w"(a)
8648            : /* No clobbers */);
8649   return result;
8650 }
8651
8652 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
8653 vpaddlq_u16 (uint16x8_t a)
8654 {
8655   uint32x4_t result;
8656   __asm__ ("uaddlp %0.4s,%1.8h"
8657            : "=w"(result)
8658            : "w"(a)
8659            : /* No clobbers */);
8660   return result;
8661 }
8662
8663 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
8664 vpaddlq_u32 (uint32x4_t a)
8665 {
8666   uint64x2_t result;
8667   __asm__ ("uaddlp %0.2d,%1.4s"
8668            : "=w"(result)
8669            : "w"(a)
8670            : /* No clobbers */);
8671   return result;
8672 }
8673
8674 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
8675 vpaddq_f32 (float32x4_t a, float32x4_t b)
8676 {
8677   float32x4_t result;
8678   __asm__ ("faddp %0.4s,%1.4s,%2.4s"
8679            : "=w"(result)
8680            : "w"(a), "w"(b)
8681            : /* No clobbers */);
8682   return result;
8683 }
8684
8685 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
8686 vpaddq_f64 (float64x2_t a, float64x2_t b)
8687 {
8688   float64x2_t result;
8689   __asm__ ("faddp %0.2d,%1.2d,%2.2d"
8690            : "=w"(result)
8691            : "w"(a), "w"(b)
8692            : /* No clobbers */);
8693   return result;
8694 }
8695
8696 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
8697 vpaddq_s8 (int8x16_t a, int8x16_t b)
8698 {
8699   int8x16_t result;
8700   __asm__ ("addp %0.16b,%1.16b,%2.16b"
8701            : "=w"(result)
8702            : "w"(a), "w"(b)
8703            : /* No clobbers */);
8704   return result;
8705 }
8706
8707 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
8708 vpaddq_s16 (int16x8_t a, int16x8_t b)
8709 {
8710   int16x8_t result;
8711   __asm__ ("addp %0.8h,%1.8h,%2.8h"
8712            : "=w"(result)
8713            : "w"(a), "w"(b)
8714            : /* No clobbers */);
8715   return result;
8716 }
8717
8718 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
8719 vpaddq_s32 (int32x4_t a, int32x4_t b)
8720 {
8721   int32x4_t result;
8722   __asm__ ("addp %0.4s,%1.4s,%2.4s"
8723            : "=w"(result)
8724            : "w"(a), "w"(b)
8725            : /* No clobbers */);
8726   return result;
8727 }
8728
8729 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
8730 vpaddq_s64 (int64x2_t a, int64x2_t b)
8731 {
8732   int64x2_t result;
8733   __asm__ ("addp %0.2d,%1.2d,%2.2d"
8734            : "=w"(result)
8735            : "w"(a), "w"(b)
8736            : /* No clobbers */);
8737   return result;
8738 }
8739
8740 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
8741 vpaddq_u8 (uint8x16_t a, uint8x16_t b)
8742 {
8743   uint8x16_t result;
8744   __asm__ ("addp %0.16b,%1.16b,%2.16b"
8745            : "=w"(result)
8746            : "w"(a), "w"(b)
8747            : /* No clobbers */);
8748   return result;
8749 }
8750
8751 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
8752 vpaddq_u16 (uint16x8_t a, uint16x8_t b)
8753 {
8754   uint16x8_t result;
8755   __asm__ ("addp %0.8h,%1.8h,%2.8h"
8756            : "=w"(result)
8757            : "w"(a), "w"(b)
8758            : /* No clobbers */);
8759   return result;
8760 }
8761
8762 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
8763 vpaddq_u32 (uint32x4_t a, uint32x4_t b)
8764 {
8765   uint32x4_t result;
8766   __asm__ ("addp %0.4s,%1.4s,%2.4s"
8767            : "=w"(result)
8768            : "w"(a), "w"(b)
8769            : /* No clobbers */);
8770   return result;
8771 }
8772
8773 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
8774 vpaddq_u64 (uint64x2_t a, uint64x2_t b)
8775 {
8776   uint64x2_t result;
8777   __asm__ ("addp %0.2d,%1.2d,%2.2d"
8778            : "=w"(result)
8779            : "w"(a), "w"(b)
8780            : /* No clobbers */);
8781   return result;
8782 }
8783
8784 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
8785 vpadds_f32 (float32x2_t a)
8786 {
8787   float32_t result;
8788   __asm__ ("faddp %s0,%1.2s"
8789            : "=w"(result)
8790            : "w"(a)
8791            : /* No clobbers */);
8792   return result;
8793 }
8794
8795 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
8796 vpmax_f32 (float32x2_t a, float32x2_t b)
8797 {
8798   float32x2_t result;
8799   __asm__ ("fmaxp %0.2s, %1.2s, %2.2s"
8800            : "=w"(result)
8801            : "w"(a), "w"(b)
8802            : /* No clobbers */);
8803   return result;
8804 }
8805
8806 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
8807 vpmax_s8 (int8x8_t a, int8x8_t b)
8808 {
8809   int8x8_t result;
8810   __asm__ ("smaxp %0.8b, %1.8b, %2.8b"
8811            : "=w"(result)
8812            : "w"(a), "w"(b)
8813            : /* No clobbers */);
8814   return result;
8815 }
8816
8817 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
8818 vpmax_s16 (int16x4_t a, int16x4_t b)
8819 {
8820   int16x4_t result;
8821   __asm__ ("smaxp %0.4h, %1.4h, %2.4h"
8822            : "=w"(result)
8823            : "w"(a), "w"(b)
8824            : /* No clobbers */);
8825   return result;
8826 }
8827
8828 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
8829 vpmax_s32 (int32x2_t a, int32x2_t b)
8830 {
8831   int32x2_t result;
8832   __asm__ ("smaxp %0.2s, %1.2s, %2.2s"
8833            : "=w"(result)
8834            : "w"(a), "w"(b)
8835            : /* No clobbers */);
8836   return result;
8837 }
8838
8839 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
8840 vpmax_u8 (uint8x8_t a, uint8x8_t b)
8841 {
8842   uint8x8_t result;
8843   __asm__ ("umaxp %0.8b, %1.8b, %2.8b"
8844            : "=w"(result)
8845            : "w"(a), "w"(b)
8846            : /* No clobbers */);
8847   return result;
8848 }
8849
8850 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
8851 vpmax_u16 (uint16x4_t a, uint16x4_t b)
8852 {
8853   uint16x4_t result;
8854   __asm__ ("umaxp %0.4h, %1.4h, %2.4h"
8855            : "=w"(result)
8856            : "w"(a), "w"(b)
8857            : /* No clobbers */);
8858   return result;
8859 }
8860
8861 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
8862 vpmax_u32 (uint32x2_t a, uint32x2_t b)
8863 {
8864   uint32x2_t result;
8865   __asm__ ("umaxp %0.2s, %1.2s, %2.2s"
8866            : "=w"(result)
8867            : "w"(a), "w"(b)
8868            : /* No clobbers */);
8869   return result;
8870 }
8871
8872 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
8873 vpmaxnm_f32 (float32x2_t a, float32x2_t b)
8874 {
8875   float32x2_t result;
8876   __asm__ ("fmaxnmp %0.2s,%1.2s,%2.2s"
8877            : "=w"(result)
8878            : "w"(a), "w"(b)
8879            : /* No clobbers */);
8880   return result;
8881 }
8882
8883 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
8884 vpmaxnmq_f32 (float32x4_t a, float32x4_t b)
8885 {
8886   float32x4_t result;
8887   __asm__ ("fmaxnmp %0.4s,%1.4s,%2.4s"
8888            : "=w"(result)
8889            : "w"(a), "w"(b)
8890            : /* No clobbers */);
8891   return result;
8892 }
8893
8894 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
8895 vpmaxnmq_f64 (float64x2_t a, float64x2_t b)
8896 {
8897   float64x2_t result;
8898   __asm__ ("fmaxnmp %0.2d,%1.2d,%2.2d"
8899            : "=w"(result)
8900            : "w"(a), "w"(b)
8901            : /* No clobbers */);
8902   return result;
8903 }
8904
8905 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
8906 vpmaxnmqd_f64 (float64x2_t a)
8907 {
8908   float64_t result;
8909   __asm__ ("fmaxnmp %d0,%1.2d"
8910            : "=w"(result)
8911            : "w"(a)
8912            : /* No clobbers */);
8913   return result;
8914 }
8915
8916 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
8917 vpmaxnms_f32 (float32x2_t a)
8918 {
8919   float32_t result;
8920   __asm__ ("fmaxnmp %s0,%1.2s"
8921            : "=w"(result)
8922            : "w"(a)
8923            : /* No clobbers */);
8924   return result;
8925 }
8926
8927 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
8928 vpmaxq_f32 (float32x4_t a, float32x4_t b)
8929 {
8930   float32x4_t result;
8931   __asm__ ("fmaxp %0.4s, %1.4s, %2.4s"
8932            : "=w"(result)
8933            : "w"(a), "w"(b)
8934            : /* No clobbers */);
8935   return result;
8936 }
8937
8938 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
8939 vpmaxq_f64 (float64x2_t a, float64x2_t b)
8940 {
8941   float64x2_t result;
8942   __asm__ ("fmaxp %0.2d, %1.2d, %2.2d"
8943            : "=w"(result)
8944            : "w"(a), "w"(b)
8945            : /* No clobbers */);
8946   return result;
8947 }
8948
8949 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
8950 vpmaxq_s8 (int8x16_t a, int8x16_t b)
8951 {
8952   int8x16_t result;
8953   __asm__ ("smaxp %0.16b, %1.16b, %2.16b"
8954            : "=w"(result)
8955            : "w"(a), "w"(b)
8956            : /* No clobbers */);
8957   return result;
8958 }
8959
8960 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
8961 vpmaxq_s16 (int16x8_t a, int16x8_t b)
8962 {
8963   int16x8_t result;
8964   __asm__ ("smaxp %0.8h, %1.8h, %2.8h"
8965            : "=w"(result)
8966            : "w"(a), "w"(b)
8967            : /* No clobbers */);
8968   return result;
8969 }
8970
8971 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
8972 vpmaxq_s32 (int32x4_t a, int32x4_t b)
8973 {
8974   int32x4_t result;
8975   __asm__ ("smaxp %0.4s, %1.4s, %2.4s"
8976            : "=w"(result)
8977            : "w"(a), "w"(b)
8978            : /* No clobbers */);
8979   return result;
8980 }
8981
8982 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
8983 vpmaxq_u8 (uint8x16_t a, uint8x16_t b)
8984 {
8985   uint8x16_t result;
8986   __asm__ ("umaxp %0.16b, %1.16b, %2.16b"
8987            : "=w"(result)
8988            : "w"(a), "w"(b)
8989            : /* No clobbers */);
8990   return result;
8991 }
8992
8993 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
8994 vpmaxq_u16 (uint16x8_t a, uint16x8_t b)
8995 {
8996   uint16x8_t result;
8997   __asm__ ("umaxp %0.8h, %1.8h, %2.8h"
8998            : "=w"(result)
8999            : "w"(a), "w"(b)
9000            : /* No clobbers */);
9001   return result;
9002 }
9003
9004 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
9005 vpmaxq_u32 (uint32x4_t a, uint32x4_t b)
9006 {
9007   uint32x4_t result;
9008   __asm__ ("umaxp %0.4s, %1.4s, %2.4s"
9009            : "=w"(result)
9010            : "w"(a), "w"(b)
9011            : /* No clobbers */);
9012   return result;
9013 }
9014
9015 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
9016 vpmaxqd_f64 (float64x2_t a)
9017 {
9018   float64_t result;
9019   __asm__ ("fmaxp %d0,%1.2d"
9020            : "=w"(result)
9021            : "w"(a)
9022            : /* No clobbers */);
9023   return result;
9024 }
9025
9026 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
9027 vpmaxs_f32 (float32x2_t a)
9028 {
9029   float32_t result;
9030   __asm__ ("fmaxp %s0,%1.2s"
9031            : "=w"(result)
9032            : "w"(a)
9033            : /* No clobbers */);
9034   return result;
9035 }
9036
9037 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
9038 vpmin_f32 (float32x2_t a, float32x2_t b)
9039 {
9040   float32x2_t result;
9041   __asm__ ("fminp %0.2s, %1.2s, %2.2s"
9042            : "=w"(result)
9043            : "w"(a), "w"(b)
9044            : /* No clobbers */);
9045   return result;
9046 }
9047
9048 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
9049 vpmin_s8 (int8x8_t a, int8x8_t b)
9050 {
9051   int8x8_t result;
9052   __asm__ ("sminp %0.8b, %1.8b, %2.8b"
9053            : "=w"(result)
9054            : "w"(a), "w"(b)
9055            : /* No clobbers */);
9056   return result;
9057 }
9058
9059 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
9060 vpmin_s16 (int16x4_t a, int16x4_t b)
9061 {
9062   int16x4_t result;
9063   __asm__ ("sminp %0.4h, %1.4h, %2.4h"
9064            : "=w"(result)
9065            : "w"(a), "w"(b)
9066            : /* No clobbers */);
9067   return result;
9068 }
9069
9070 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
9071 vpmin_s32 (int32x2_t a, int32x2_t b)
9072 {
9073   int32x2_t result;
9074   __asm__ ("sminp %0.2s, %1.2s, %2.2s"
9075            : "=w"(result)
9076            : "w"(a), "w"(b)
9077            : /* No clobbers */);
9078   return result;
9079 }
9080
9081 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
9082 vpmin_u8 (uint8x8_t a, uint8x8_t b)
9083 {
9084   uint8x8_t result;
9085   __asm__ ("uminp %0.8b, %1.8b, %2.8b"
9086            : "=w"(result)
9087            : "w"(a), "w"(b)
9088            : /* No clobbers */);
9089   return result;
9090 }
9091
9092 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
9093 vpmin_u16 (uint16x4_t a, uint16x4_t b)
9094 {
9095   uint16x4_t result;
9096   __asm__ ("uminp %0.4h, %1.4h, %2.4h"
9097            : "=w"(result)
9098            : "w"(a), "w"(b)
9099            : /* No clobbers */);
9100   return result;
9101 }
9102
9103 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
9104 vpmin_u32 (uint32x2_t a, uint32x2_t b)
9105 {
9106   uint32x2_t result;
9107   __asm__ ("uminp %0.2s, %1.2s, %2.2s"
9108            : "=w"(result)
9109            : "w"(a), "w"(b)
9110            : /* No clobbers */);
9111   return result;
9112 }
9113
9114 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
9115 vpminnm_f32 (float32x2_t a, float32x2_t b)
9116 {
9117   float32x2_t result;
9118   __asm__ ("fminnmp %0.2s,%1.2s,%2.2s"
9119            : "=w"(result)
9120            : "w"(a), "w"(b)
9121            : /* No clobbers */);
9122   return result;
9123 }
9124
9125 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
9126 vpminnmq_f32 (float32x4_t a, float32x4_t b)
9127 {
9128   float32x4_t result;
9129   __asm__ ("fminnmp %0.4s,%1.4s,%2.4s"
9130            : "=w"(result)
9131            : "w"(a), "w"(b)
9132            : /* No clobbers */);
9133   return result;
9134 }
9135
9136 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
9137 vpminnmq_f64 (float64x2_t a, float64x2_t b)
9138 {
9139   float64x2_t result;
9140   __asm__ ("fminnmp %0.2d,%1.2d,%2.2d"
9141            : "=w"(result)
9142            : "w"(a), "w"(b)
9143            : /* No clobbers */);
9144   return result;
9145 }
9146
9147 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
9148 vpminnmqd_f64 (float64x2_t a)
9149 {
9150   float64_t result;
9151   __asm__ ("fminnmp %d0,%1.2d"
9152            : "=w"(result)
9153            : "w"(a)
9154            : /* No clobbers */);
9155   return result;
9156 }
9157
9158 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
9159 vpminnms_f32 (float32x2_t a)
9160 {
9161   float32_t result;
9162   __asm__ ("fminnmp %s0,%1.2s"
9163            : "=w"(result)
9164            : "w"(a)
9165            : /* No clobbers */);
9166   return result;
9167 }
9168
9169 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
9170 vpminq_f32 (float32x4_t a, float32x4_t b)
9171 {
9172   float32x4_t result;
9173   __asm__ ("fminp %0.4s, %1.4s, %2.4s"
9174            : "=w"(result)
9175            : "w"(a), "w"(b)
9176            : /* No clobbers */);
9177   return result;
9178 }
9179
9180 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
9181 vpminq_f64 (float64x2_t a, float64x2_t b)
9182 {
9183   float64x2_t result;
9184   __asm__ ("fminp %0.2d, %1.2d, %2.2d"
9185            : "=w"(result)
9186            : "w"(a), "w"(b)
9187            : /* No clobbers */);
9188   return result;
9189 }
9190
9191 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
9192 vpminq_s8 (int8x16_t a, int8x16_t b)
9193 {
9194   int8x16_t result;
9195   __asm__ ("sminp %0.16b, %1.16b, %2.16b"
9196            : "=w"(result)
9197            : "w"(a), "w"(b)
9198            : /* No clobbers */);
9199   return result;
9200 }
9201
9202 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
9203 vpminq_s16 (int16x8_t a, int16x8_t b)
9204 {
9205   int16x8_t result;
9206   __asm__ ("sminp %0.8h, %1.8h, %2.8h"
9207            : "=w"(result)
9208            : "w"(a), "w"(b)
9209            : /* No clobbers */);
9210   return result;
9211 }
9212
9213 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
9214 vpminq_s32 (int32x4_t a, int32x4_t b)
9215 {
9216   int32x4_t result;
9217   __asm__ ("sminp %0.4s, %1.4s, %2.4s"
9218            : "=w"(result)
9219            : "w"(a), "w"(b)
9220            : /* No clobbers */);
9221   return result;
9222 }
9223
9224 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
9225 vpminq_u8 (uint8x16_t a, uint8x16_t b)
9226 {
9227   uint8x16_t result;
9228   __asm__ ("uminp %0.16b, %1.16b, %2.16b"
9229            : "=w"(result)
9230            : "w"(a), "w"(b)
9231            : /* No clobbers */);
9232   return result;
9233 }
9234
9235 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
9236 vpminq_u16 (uint16x8_t a, uint16x8_t b)
9237 {
9238   uint16x8_t result;
9239   __asm__ ("uminp %0.8h, %1.8h, %2.8h"
9240            : "=w"(result)
9241            : "w"(a), "w"(b)
9242            : /* No clobbers */);
9243   return result;
9244 }
9245
9246 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
9247 vpminq_u32 (uint32x4_t a, uint32x4_t b)
9248 {
9249   uint32x4_t result;
9250   __asm__ ("uminp %0.4s, %1.4s, %2.4s"
9251            : "=w"(result)
9252            : "w"(a), "w"(b)
9253            : /* No clobbers */);
9254   return result;
9255 }
9256
9257 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
9258 vpminqd_f64 (float64x2_t a)
9259 {
9260   float64_t result;
9261   __asm__ ("fminp %d0,%1.2d"
9262            : "=w"(result)
9263            : "w"(a)
9264            : /* No clobbers */);
9265   return result;
9266 }
9267
9268 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
9269 vpmins_f32 (float32x2_t a)
9270 {
9271   float32_t result;
9272   __asm__ ("fminp %s0,%1.2s"
9273            : "=w"(result)
9274            : "w"(a)
9275            : /* No clobbers */);
9276   return result;
9277 }
9278
9279 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
9280 vqdmulh_n_s16 (int16x4_t a, int16_t b)
9281 {
9282   int16x4_t result;
9283   __asm__ ("sqdmulh %0.4h,%1.4h,%2.h[0]"
9284            : "=w"(result)
9285            : "w"(a), "x"(b)
9286            : /* No clobbers */);
9287   return result;
9288 }
9289
9290 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
9291 vqdmulh_n_s32 (int32x2_t a, int32_t b)
9292 {
9293   int32x2_t result;
9294   __asm__ ("sqdmulh %0.2s,%1.2s,%2.s[0]"
9295            : "=w"(result)
9296            : "w"(a), "w"(b)
9297            : /* No clobbers */);
9298   return result;
9299 }
9300
9301 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
9302 vqdmulhq_n_s16 (int16x8_t a, int16_t b)
9303 {
9304   int16x8_t result;
9305   __asm__ ("sqdmulh %0.8h,%1.8h,%2.h[0]"
9306            : "=w"(result)
9307            : "w"(a), "x"(b)
9308            : /* No clobbers */);
9309   return result;
9310 }
9311
9312 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
9313 vqdmulhq_n_s32 (int32x4_t a, int32_t b)
9314 {
9315   int32x4_t result;
9316   __asm__ ("sqdmulh %0.4s,%1.4s,%2.s[0]"
9317            : "=w"(result)
9318            : "w"(a), "w"(b)
9319            : /* No clobbers */);
9320   return result;
9321 }
9322
9323 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
9324 vqmovn_high_s16 (int8x8_t a, int16x8_t b)
9325 {
9326   int8x16_t result = vcombine_s8 (a, vcreate_s8 (__AARCH64_UINT64_C (0x0)));
9327   __asm__ ("sqxtn2 %0.16b, %1.8h"
9328            : "+w"(result)
9329            : "w"(b)
9330            : /* No clobbers */);
9331   return result;
9332 }
9333
9334 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
9335 vqmovn_high_s32 (int16x4_t a, int32x4_t b)
9336 {
9337   int16x8_t result = vcombine_s16 (a, vcreate_s16 (__AARCH64_UINT64_C (0x0)));
9338   __asm__ ("sqxtn2 %0.8h, %1.4s"
9339            : "+w"(result)
9340            : "w"(b)
9341            : /* No clobbers */);
9342   return result;
9343 }
9344
9345 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
9346 vqmovn_high_s64 (int32x2_t a, int64x2_t b)
9347 {
9348   int32x4_t result = vcombine_s32 (a, vcreate_s32 (__AARCH64_UINT64_C (0x0)));
9349   __asm__ ("sqxtn2 %0.4s, %1.2d"
9350            : "+w"(result)
9351            : "w"(b)
9352            : /* No clobbers */);
9353   return result;
9354 }
9355
9356 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
9357 vqmovn_high_u16 (uint8x8_t a, uint16x8_t b)
9358 {
9359   uint8x16_t result = vcombine_u8 (a, vcreate_u8 (__AARCH64_UINT64_C (0x0)));
9360   __asm__ ("uqxtn2 %0.16b, %1.8h"
9361            : "+w"(result)
9362            : "w"(b)
9363            : /* No clobbers */);
9364   return result;
9365 }
9366
9367 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
9368 vqmovn_high_u32 (uint16x4_t a, uint32x4_t b)
9369 {
9370   uint16x8_t result = vcombine_u16 (a, vcreate_u16 (__AARCH64_UINT64_C (0x0)));
9371   __asm__ ("uqxtn2 %0.8h, %1.4s"
9372            : "+w"(result)
9373            : "w"(b)
9374            : /* No clobbers */);
9375   return result;
9376 }
9377
9378 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
9379 vqmovn_high_u64 (uint32x2_t a, uint64x2_t b)
9380 {
9381   uint32x4_t result = vcombine_u32 (a, vcreate_u32 (__AARCH64_UINT64_C (0x0)));
9382   __asm__ ("uqxtn2 %0.4s, %1.2d"
9383            : "+w"(result)
9384            : "w"(b)
9385            : /* No clobbers */);
9386   return result;
9387 }
9388
9389 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
9390 vqmovun_high_s16 (uint8x8_t a, int16x8_t b)
9391 {
9392   uint8x16_t result = vcombine_u8 (a, vcreate_u8 (__AARCH64_UINT64_C (0x0)));
9393   __asm__ ("sqxtun2 %0.16b, %1.8h"
9394            : "+w"(result)
9395            : "w"(b)
9396            : /* No clobbers */);
9397   return result;
9398 }
9399
9400 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
9401 vqmovun_high_s32 (uint16x4_t a, int32x4_t b)
9402 {
9403   uint16x8_t result = vcombine_u16 (a, vcreate_u16 (__AARCH64_UINT64_C (0x0)));
9404   __asm__ ("sqxtun2 %0.8h, %1.4s"
9405            : "+w"(result)
9406            : "w"(b)
9407            : /* No clobbers */);
9408   return result;
9409 }
9410
9411 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
9412 vqmovun_high_s64 (uint32x2_t a, int64x2_t b)
9413 {
9414   uint32x4_t result = vcombine_u32 (a, vcreate_u32 (__AARCH64_UINT64_C (0x0)));
9415   __asm__ ("sqxtun2 %0.4s, %1.2d"
9416            : "+w"(result)
9417            : "w"(b)
9418            : /* No clobbers */);
9419   return result;
9420 }
9421
9422 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
9423 vqrdmulh_n_s16 (int16x4_t a, int16_t b)
9424 {
9425   int16x4_t result;
9426   __asm__ ("sqrdmulh %0.4h,%1.4h,%2.h[0]"
9427            : "=w"(result)
9428            : "w"(a), "x"(b)
9429            : /* No clobbers */);
9430   return result;
9431 }
9432
9433 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
9434 vqrdmulh_n_s32 (int32x2_t a, int32_t b)
9435 {
9436   int32x2_t result;
9437   __asm__ ("sqrdmulh %0.2s,%1.2s,%2.s[0]"
9438            : "=w"(result)
9439            : "w"(a), "w"(b)
9440            : /* No clobbers */);
9441   return result;
9442 }
9443
9444 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
9445 vqrdmulhq_n_s16 (int16x8_t a, int16_t b)
9446 {
9447   int16x8_t result;
9448   __asm__ ("sqrdmulh %0.8h,%1.8h,%2.h[0]"
9449            : "=w"(result)
9450            : "w"(a), "x"(b)
9451            : /* No clobbers */);
9452   return result;
9453 }
9454
9455 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
9456 vqrdmulhq_n_s32 (int32x4_t a, int32_t b)
9457 {
9458   int32x4_t result;
9459   __asm__ ("sqrdmulh %0.4s,%1.4s,%2.s[0]"
9460            : "=w"(result)
9461            : "w"(a), "w"(b)
9462            : /* No clobbers */);
9463   return result;
9464 }
9465
9466 #define vqrshrn_high_n_s16(a, b, c)                                     \
9467   __extension__                                                         \
9468     ({                                                                  \
9469        int16x8_t b_ = (b);                                              \
9470        int8x8_t a_ = (a);                                               \
9471        int8x16_t result = vcombine_s8                                   \
9472                             (a_, vcreate_s8                             \
9473                                    (__AARCH64_UINT64_C (0x0)));         \
9474        __asm__ ("sqrshrn2 %0.16b, %1.8h, #%2"                           \
9475                 : "+w"(result)                                          \
9476                 : "w"(b_), "i"(c)                                       \
9477                 : /* No clobbers */);                                   \
9478        result;                                                          \
9479      })
9480
9481 #define vqrshrn_high_n_s32(a, b, c)                                     \
9482   __extension__                                                         \
9483     ({                                                                  \
9484        int32x4_t b_ = (b);                                              \
9485        int16x4_t a_ = (a);                                              \
9486        int16x8_t result = vcombine_s16                                  \
9487                             (a_, vcreate_s16                            \
9488                                    (__AARCH64_UINT64_C (0x0)));         \
9489        __asm__ ("sqrshrn2 %0.8h, %1.4s, #%2"                            \
9490                 : "+w"(result)                                          \
9491                 : "w"(b_), "i"(c)                                       \
9492                 : /* No clobbers */);                                   \
9493        result;                                                          \
9494      })
9495
9496 #define vqrshrn_high_n_s64(a, b, c)                                     \
9497   __extension__                                                         \
9498     ({                                                                  \
9499        int64x2_t b_ = (b);                                              \
9500        int32x2_t a_ = (a);                                              \
9501        int32x4_t result = vcombine_s32                                  \
9502                             (a_, vcreate_s32                            \
9503                                    (__AARCH64_UINT64_C (0x0)));         \
9504        __asm__ ("sqrshrn2 %0.4s, %1.2d, #%2"                            \
9505                 : "+w"(result)                                          \
9506                 : "w"(b_), "i"(c)                                       \
9507                 : /* No clobbers */);                                   \
9508        result;                                                          \
9509      })
9510
9511 #define vqrshrn_high_n_u16(a, b, c)                                     \
9512   __extension__                                                         \
9513     ({                                                                  \
9514        uint16x8_t b_ = (b);                                             \
9515        uint8x8_t a_ = (a);                                              \
9516        uint8x16_t result = vcombine_u8                                  \
9517                              (a_, vcreate_u8                            \
9518                                     (__AARCH64_UINT64_C (0x0)));        \
9519        __asm__ ("uqrshrn2 %0.16b, %1.8h, #%2"                           \
9520                 : "+w"(result)                                          \
9521                 : "w"(b_), "i"(c)                                       \
9522                 : /* No clobbers */);                                   \
9523        result;                                                          \
9524      })
9525
9526 #define vqrshrn_high_n_u32(a, b, c)                                     \
9527   __extension__                                                         \
9528     ({                                                                  \
9529        uint32x4_t b_ = (b);                                             \
9530        uint16x4_t a_ = (a);                                             \
9531        uint16x8_t result = vcombine_u16                                 \
9532                              (a_, vcreate_u16                           \
9533                                     (__AARCH64_UINT64_C (0x0)));        \
9534        __asm__ ("uqrshrn2 %0.8h, %1.4s, #%2"                            \
9535                 : "+w"(result)                                          \
9536                 : "w"(b_), "i"(c)                                       \
9537                 : /* No clobbers */);                                   \
9538        result;                                                          \
9539      })
9540
9541 #define vqrshrn_high_n_u64(a, b, c)                                     \
9542   __extension__                                                         \
9543     ({                                                                  \
9544        uint64x2_t b_ = (b);                                             \
9545        uint32x2_t a_ = (a);                                             \
9546        uint32x4_t result = vcombine_u32                                 \
9547                              (a_, vcreate_u32                           \
9548                                     (__AARCH64_UINT64_C (0x0)));        \
9549        __asm__ ("uqrshrn2 %0.4s, %1.2d, #%2"                            \
9550                 : "+w"(result)                                          \
9551                 : "w"(b_), "i"(c)                                       \
9552                 : /* No clobbers */);                                   \
9553        result;                                                          \
9554      })
9555
9556 #define vqrshrun_high_n_s16(a, b, c)                                    \
9557   __extension__                                                         \
9558     ({                                                                  \
9559        int16x8_t b_ = (b);                                              \
9560        uint8x8_t a_ = (a);                                              \
9561        uint8x16_t result = vcombine_u8                                  \
9562                              (a_, vcreate_u8                            \
9563                                     (__AARCH64_UINT64_C (0x0)));        \
9564        __asm__ ("sqrshrun2 %0.16b, %1.8h, #%2"                          \
9565                 : "+w"(result)                                          \
9566                 : "w"(b_), "i"(c)                                       \
9567                 : /* No clobbers */);                                   \
9568        result;                                                          \
9569      })
9570
9571 #define vqrshrun_high_n_s32(a, b, c)                                    \
9572   __extension__                                                         \
9573     ({                                                                  \
9574        int32x4_t b_ = (b);                                              \
9575        uint16x4_t a_ = (a);                                             \
9576        uint16x8_t result = vcombine_u16                                 \
9577                              (a_, vcreate_u16                           \
9578                                     (__AARCH64_UINT64_C (0x0)));        \
9579        __asm__ ("sqrshrun2 %0.8h, %1.4s, #%2"                           \
9580                 : "+w"(result)                                          \
9581                 : "w"(b_), "i"(c)                                       \
9582                 : /* No clobbers */);                                   \
9583        result;                                                          \
9584      })
9585
9586 #define vqrshrun_high_n_s64(a, b, c)                                    \
9587   __extension__                                                         \
9588     ({                                                                  \
9589        int64x2_t b_ = (b);                                              \
9590        uint32x2_t a_ = (a);                                             \
9591        uint32x4_t result = vcombine_u32                                 \
9592                              (a_, vcreate_u32                           \
9593                                     (__AARCH64_UINT64_C (0x0)));        \
9594        __asm__ ("sqrshrun2 %0.4s, %1.2d, #%2"                           \
9595                 : "+w"(result)                                          \
9596                 : "w"(b_), "i"(c)                                       \
9597                 : /* No clobbers */);                                   \
9598        result;                                                          \
9599      })
9600
9601 #define vqshrn_high_n_s16(a, b, c)                                      \
9602   __extension__                                                         \
9603     ({                                                                  \
9604        int16x8_t b_ = (b);                                              \
9605        int8x8_t a_ = (a);                                               \
9606        int8x16_t result = vcombine_s8                                   \
9607                             (a_, vcreate_s8                             \
9608                                    (__AARCH64_UINT64_C (0x0)));         \
9609        __asm__ ("sqshrn2 %0.16b, %1.8h, #%2"                            \
9610                 : "+w"(result)                                          \
9611                 : "w"(b_), "i"(c)                                       \
9612                 : /* No clobbers */);                                   \
9613        result;                                                          \
9614      })
9615
9616 #define vqshrn_high_n_s32(a, b, c)                                      \
9617   __extension__                                                         \
9618     ({                                                                  \
9619        int32x4_t b_ = (b);                                              \
9620        int16x4_t a_ = (a);                                              \
9621        int16x8_t result = vcombine_s16                                  \
9622                             (a_, vcreate_s16                            \
9623                                    (__AARCH64_UINT64_C (0x0)));         \
9624        __asm__ ("sqshrn2 %0.8h, %1.4s, #%2"                             \
9625                 : "+w"(result)                                          \
9626                 : "w"(b_), "i"(c)                                       \
9627                 : /* No clobbers */);                                   \
9628        result;                                                          \
9629      })
9630
9631 #define vqshrn_high_n_s64(a, b, c)                                      \
9632   __extension__                                                         \
9633     ({                                                                  \
9634        int64x2_t b_ = (b);                                              \
9635        int32x2_t a_ = (a);                                              \
9636        int32x4_t result = vcombine_s32                                  \
9637                             (a_, vcreate_s32                            \
9638                                    (__AARCH64_UINT64_C (0x0)));         \
9639        __asm__ ("sqshrn2 %0.4s, %1.2d, #%2"                             \
9640                 : "+w"(result)                                          \
9641                 : "w"(b_), "i"(c)                                       \
9642                 : /* No clobbers */);                                   \
9643        result;                                                          \
9644      })
9645
9646 #define vqshrn_high_n_u16(a, b, c)                                      \
9647   __extension__                                                         \
9648     ({                                                                  \
9649        uint16x8_t b_ = (b);                                             \
9650        uint8x8_t a_ = (a);                                              \
9651        uint8x16_t result = vcombine_u8                                  \
9652                              (a_, vcreate_u8                            \
9653                                     (__AARCH64_UINT64_C (0x0)));        \
9654        __asm__ ("uqshrn2 %0.16b, %1.8h, #%2"                            \
9655                 : "+w"(result)                                          \
9656                 : "w"(b_), "i"(c)                                       \
9657                 : /* No clobbers */);                                   \
9658        result;                                                          \
9659      })
9660
9661 #define vqshrn_high_n_u32(a, b, c)                                      \
9662   __extension__                                                         \
9663     ({                                                                  \
9664        uint32x4_t b_ = (b);                                             \
9665        uint16x4_t a_ = (a);                                             \
9666        uint16x8_t result = vcombine_u16                                 \
9667                              (a_, vcreate_u16                           \
9668                                     (__AARCH64_UINT64_C (0x0)));        \
9669        __asm__ ("uqshrn2 %0.8h, %1.4s, #%2"                             \
9670                 : "+w"(result)                                          \
9671                 : "w"(b_), "i"(c)                                       \
9672                 : /* No clobbers */);                                   \
9673        result;                                                          \
9674      })
9675
9676 #define vqshrn_high_n_u64(a, b, c)                                      \
9677   __extension__                                                         \
9678     ({                                                                  \
9679        uint64x2_t b_ = (b);                                             \
9680        uint32x2_t a_ = (a);                                             \
9681        uint32x4_t result = vcombine_u32                                 \
9682                              (a_, vcreate_u32                           \
9683                                     (__AARCH64_UINT64_C (0x0)));        \
9684        __asm__ ("uqshrn2 %0.4s, %1.2d, #%2"                             \
9685                 : "+w"(result)                                          \
9686                 : "w"(b_), "i"(c)                                       \
9687                 : /* No clobbers */);                                   \
9688        result;                                                          \
9689      })
9690
9691 #define vqshrun_high_n_s16(a, b, c)                                     \
9692   __extension__                                                         \
9693     ({                                                                  \
9694        int16x8_t b_ = (b);                                              \
9695        uint8x8_t a_ = (a);                                              \
9696        uint8x16_t result = vcombine_u8                                  \
9697                              (a_, vcreate_u8                            \
9698                                     (__AARCH64_UINT64_C (0x0)));        \
9699        __asm__ ("sqshrun2 %0.16b, %1.8h, #%2"                           \
9700                 : "+w"(result)                                          \
9701                 : "w"(b_), "i"(c)                                       \
9702                 : /* No clobbers */);                                   \
9703        result;                                                          \
9704      })
9705
9706 #define vqshrun_high_n_s32(a, b, c)                                     \
9707   __extension__                                                         \
9708     ({                                                                  \
9709        int32x4_t b_ = (b);                                              \
9710        uint16x4_t a_ = (a);                                             \
9711        uint16x8_t result = vcombine_u16                                 \
9712                              (a_, vcreate_u16                           \
9713                                     (__AARCH64_UINT64_C (0x0)));        \
9714        __asm__ ("sqshrun2 %0.8h, %1.4s, #%2"                            \
9715                 : "+w"(result)                                          \
9716                 : "w"(b_), "i"(c)                                       \
9717                 : /* No clobbers */);                                   \
9718        result;                                                          \
9719      })
9720
9721 #define vqshrun_high_n_s64(a, b, c)                                     \
9722   __extension__                                                         \
9723     ({                                                                  \
9724        int64x2_t b_ = (b);                                              \
9725        uint32x2_t a_ = (a);                                             \
9726        uint32x4_t result = vcombine_u32                                 \
9727                              (a_, vcreate_u32                           \
9728                                     (__AARCH64_UINT64_C (0x0)));        \
9729        __asm__ ("sqshrun2 %0.4s, %1.2d, #%2"                            \
9730                 : "+w"(result)                                          \
9731                 : "w"(b_), "i"(c)                                       \
9732                 : /* No clobbers */);                                   \
9733        result;                                                          \
9734      })
9735
9736 #define vrshrn_high_n_s16(a, b, c)                                      \
9737   __extension__                                                         \
9738     ({                                                                  \
9739        int16x8_t b_ = (b);                                              \
9740        int8x8_t a_ = (a);                                               \
9741        int8x16_t result = vcombine_s8                                   \
9742                             (a_, vcreate_s8                             \
9743                                    (__AARCH64_UINT64_C (0x0)));         \
9744        __asm__ ("rshrn2 %0.16b,%1.8h,#%2"                               \
9745                 : "+w"(result)                                          \
9746                 : "w"(b_), "i"(c)                                       \
9747                 : /* No clobbers */);                                   \
9748        result;                                                          \
9749      })
9750
9751 #define vrshrn_high_n_s32(a, b, c)                                      \
9752   __extension__                                                         \
9753     ({                                                                  \
9754        int32x4_t b_ = (b);                                              \
9755        int16x4_t a_ = (a);                                              \
9756        int16x8_t result = vcombine_s16                                  \
9757                             (a_, vcreate_s16                            \
9758                                    (__AARCH64_UINT64_C (0x0)));         \
9759        __asm__ ("rshrn2 %0.8h,%1.4s,#%2"                                \
9760                 : "+w"(result)                                          \
9761                 : "w"(b_), "i"(c)                                       \
9762                 : /* No clobbers */);                                   \
9763        result;                                                          \
9764      })
9765
9766 #define vrshrn_high_n_s64(a, b, c)                                      \
9767   __extension__                                                         \
9768     ({                                                                  \
9769        int64x2_t b_ = (b);                                              \
9770        int32x2_t a_ = (a);                                              \
9771        int32x4_t result = vcombine_s32                                  \
9772                             (a_, vcreate_s32                            \
9773                                    (__AARCH64_UINT64_C (0x0)));         \
9774        __asm__ ("rshrn2 %0.4s,%1.2d,#%2"                                \
9775                 : "+w"(result)                                          \
9776                 : "w"(b_), "i"(c)                                       \
9777                 : /* No clobbers */);                                   \
9778        result;                                                          \
9779      })
9780
9781 #define vrshrn_high_n_u16(a, b, c)                                      \
9782   __extension__                                                         \
9783     ({                                                                  \
9784        uint16x8_t b_ = (b);                                             \
9785        uint8x8_t a_ = (a);                                              \
9786        uint8x16_t result = vcombine_u8                                  \
9787                             (a_, vcreate_u8                             \
9788                                    (__AARCH64_UINT64_C (0x0)));         \
9789        __asm__ ("rshrn2 %0.16b,%1.8h,#%2"                               \
9790                 : "+w"(result)                                          \
9791                 : "w"(b_), "i"(c)                                       \
9792                 : /* No clobbers */);                                   \
9793        result;                                                          \
9794      })
9795
9796 #define vrshrn_high_n_u32(a, b, c)                                      \
9797   __extension__                                                         \
9798     ({                                                                  \
9799        uint32x4_t b_ = (b);                                             \
9800        uint16x4_t a_ = (a);                                             \
9801        uint16x8_t result = vcombine_u16                                 \
9802                             (a_, vcreate_u16                            \
9803                                    (__AARCH64_UINT64_C (0x0)));         \
9804        __asm__ ("rshrn2 %0.8h,%1.4s,#%2"                                \
9805                 : "+w"(result)                                          \
9806                 : "w"(b_), "i"(c)                                       \
9807                 : /* No clobbers */);                                   \
9808        result;                                                          \
9809      })
9810
9811 #define vrshrn_high_n_u64(a, b, c)                                      \
9812   __extension__                                                         \
9813     ({                                                                  \
9814        uint64x2_t b_ = (b);                                             \
9815        uint32x2_t a_ = (a);                                             \
9816        uint32x4_t result = vcombine_u32                                 \
9817                             (a_, vcreate_u32                            \
9818                                    (__AARCH64_UINT64_C (0x0)));         \
9819        __asm__ ("rshrn2 %0.4s,%1.2d,#%2"                                \
9820                 : "+w"(result)                                          \
9821                 : "w"(b_), "i"(c)                                       \
9822                 : /* No clobbers */);                                   \
9823        result;                                                          \
9824      })
9825
9826 #define vrshrn_n_s16(a, b)                                              \
9827   __extension__                                                         \
9828     ({                                                                  \
9829        int16x8_t a_ = (a);                                              \
9830        int8x8_t result;                                                 \
9831        __asm__ ("rshrn %0.8b,%1.8h,%2"                                  \
9832                 : "=w"(result)                                          \
9833                 : "w"(a_), "i"(b)                                       \
9834                 : /* No clobbers */);                                   \
9835        result;                                                          \
9836      })
9837
9838 #define vrshrn_n_s32(a, b)                                              \
9839   __extension__                                                         \
9840     ({                                                                  \
9841        int32x4_t a_ = (a);                                              \
9842        int16x4_t result;                                                \
9843        __asm__ ("rshrn %0.4h,%1.4s,%2"                                  \
9844                 : "=w"(result)                                          \
9845                 : "w"(a_), "i"(b)                                       \
9846                 : /* No clobbers */);                                   \
9847        result;                                                          \
9848      })
9849
9850 #define vrshrn_n_s64(a, b)                                              \
9851   __extension__                                                         \
9852     ({                                                                  \
9853        int64x2_t a_ = (a);                                              \
9854        int32x2_t result;                                                \
9855        __asm__ ("rshrn %0.2s,%1.2d,%2"                                  \
9856                 : "=w"(result)                                          \
9857                 : "w"(a_), "i"(b)                                       \
9858                 : /* No clobbers */);                                   \
9859        result;                                                          \
9860      })
9861
9862 #define vrshrn_n_u16(a, b)                                              \
9863   __extension__                                                         \
9864     ({                                                                  \
9865        uint16x8_t a_ = (a);                                             \
9866        uint8x8_t result;                                                \
9867        __asm__ ("rshrn %0.8b,%1.8h,%2"                                  \
9868                 : "=w"(result)                                          \
9869                 : "w"(a_), "i"(b)                                       \
9870                 : /* No clobbers */);                                   \
9871        result;                                                          \
9872      })
9873
9874 #define vrshrn_n_u32(a, b)                                              \
9875   __extension__                                                         \
9876     ({                                                                  \
9877        uint32x4_t a_ = (a);                                             \
9878        uint16x4_t result;                                               \
9879        __asm__ ("rshrn %0.4h,%1.4s,%2"                                  \
9880                 : "=w"(result)                                          \
9881                 : "w"(a_), "i"(b)                                       \
9882                 : /* No clobbers */);                                   \
9883        result;                                                          \
9884      })
9885
9886 #define vrshrn_n_u64(a, b)                                              \
9887   __extension__                                                         \
9888     ({                                                                  \
9889        uint64x2_t a_ = (a);                                             \
9890        uint32x2_t result;                                               \
9891        __asm__ ("rshrn %0.2s,%1.2d,%2"                                  \
9892                 : "=w"(result)                                          \
9893                 : "w"(a_), "i"(b)                                       \
9894                 : /* No clobbers */);                                   \
9895        result;                                                          \
9896      })
9897
9898 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
9899 vrsqrte_f32 (float32x2_t a)
9900 {
9901   float32x2_t result;
9902   __asm__ ("frsqrte %0.2s,%1.2s"
9903            : "=w"(result)
9904            : "w"(a)
9905            : /* No clobbers */);
9906   return result;
9907 }
9908
9909 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
9910 vrsqrte_f64 (float64x1_t a)
9911 {
9912   float64x1_t result;
9913   __asm__ ("frsqrte %d0,%d1"
9914            : "=w"(result)
9915            : "w"(a)
9916            : /* No clobbers */);
9917   return result;
9918 }
9919
9920 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
9921 vrsqrte_u32 (uint32x2_t a)
9922 {
9923   uint32x2_t result;
9924   __asm__ ("ursqrte %0.2s,%1.2s"
9925            : "=w"(result)
9926            : "w"(a)
9927            : /* No clobbers */);
9928   return result;
9929 }
9930
9931 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
9932 vrsqrted_f64 (float64_t a)
9933 {
9934   float64_t result;
9935   __asm__ ("frsqrte %d0,%d1"
9936            : "=w"(result)
9937            : "w"(a)
9938            : /* No clobbers */);
9939   return result;
9940 }
9941
9942 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
9943 vrsqrteq_f32 (float32x4_t a)
9944 {
9945   float32x4_t result;
9946   __asm__ ("frsqrte %0.4s,%1.4s"
9947            : "=w"(result)
9948            : "w"(a)
9949            : /* No clobbers */);
9950   return result;
9951 }
9952
9953 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
9954 vrsqrteq_f64 (float64x2_t a)
9955 {
9956   float64x2_t result;
9957   __asm__ ("frsqrte %0.2d,%1.2d"
9958            : "=w"(result)
9959            : "w"(a)
9960            : /* No clobbers */);
9961   return result;
9962 }
9963
9964 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
9965 vrsqrteq_u32 (uint32x4_t a)
9966 {
9967   uint32x4_t result;
9968   __asm__ ("ursqrte %0.4s,%1.4s"
9969            : "=w"(result)
9970            : "w"(a)
9971            : /* No clobbers */);
9972   return result;
9973 }
9974
9975 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
9976 vrsqrtes_f32 (float32_t a)
9977 {
9978   float32_t result;
9979   __asm__ ("frsqrte %s0,%s1"
9980            : "=w"(result)
9981            : "w"(a)
9982            : /* No clobbers */);
9983   return result;
9984 }
9985
9986 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
9987 vrsqrts_f32 (float32x2_t a, float32x2_t b)
9988 {
9989   float32x2_t result;
9990   __asm__ ("frsqrts %0.2s,%1.2s,%2.2s"
9991            : "=w"(result)
9992            : "w"(a), "w"(b)
9993            : /* No clobbers */);
9994   return result;
9995 }
9996
9997 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
9998 vrsqrtsd_f64 (float64_t a, float64_t b)
9999 {
10000   float64_t result;
10001   __asm__ ("frsqrts %d0,%d1,%d2"
10002            : "=w"(result)
10003            : "w"(a), "w"(b)
10004            : /* No clobbers */);
10005   return result;
10006 }
10007
10008 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
10009 vrsqrtsq_f32 (float32x4_t a, float32x4_t b)
10010 {
10011   float32x4_t result;
10012   __asm__ ("frsqrts %0.4s,%1.4s,%2.4s"
10013            : "=w"(result)
10014            : "w"(a), "w"(b)
10015            : /* No clobbers */);
10016   return result;
10017 }
10018
10019 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
10020 vrsqrtsq_f64 (float64x2_t a, float64x2_t b)
10021 {
10022   float64x2_t result;
10023   __asm__ ("frsqrts %0.2d,%1.2d,%2.2d"
10024            : "=w"(result)
10025            : "w"(a), "w"(b)
10026            : /* No clobbers */);
10027   return result;
10028 }
10029
10030 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
10031 vrsqrtss_f32 (float32_t a, float32_t b)
10032 {
10033   float32_t result;
10034   __asm__ ("frsqrts %s0,%s1,%s2"
10035            : "=w"(result)
10036            : "w"(a), "w"(b)
10037            : /* No clobbers */);
10038   return result;
10039 }
10040
10041 #define vshrn_high_n_s16(a, b, c)                                       \
10042   __extension__                                                         \
10043     ({                                                                  \
10044        int16x8_t b_ = (b);                                              \
10045        int8x8_t a_ = (a);                                               \
10046        int8x16_t result = vcombine_s8                                   \
10047                             (a_, vcreate_s8                             \
10048                                    (__AARCH64_UINT64_C (0x0)));         \
10049        __asm__ ("shrn2 %0.16b,%1.8h,#%2"                                \
10050                 : "+w"(result)                                          \
10051                 : "w"(b_), "i"(c)                                       \
10052                 : /* No clobbers */);                                   \
10053        result;                                                          \
10054      })
10055
10056 #define vshrn_high_n_s32(a, b, c)                                       \
10057   __extension__                                                         \
10058     ({                                                                  \
10059        int32x4_t b_ = (b);                                              \
10060        int16x4_t a_ = (a);                                              \
10061        int16x8_t result = vcombine_s16                                  \
10062                             (a_, vcreate_s16                            \
10063                                    (__AARCH64_UINT64_C (0x0)));         \
10064        __asm__ ("shrn2 %0.8h,%1.4s,#%2"                                 \
10065                 : "+w"(result)                                          \
10066                 : "w"(b_), "i"(c)                                       \
10067                 : /* No clobbers */);                                   \
10068        result;                                                          \
10069      })
10070
10071 #define vshrn_high_n_s64(a, b, c)                                       \
10072   __extension__                                                         \
10073     ({                                                                  \
10074        int64x2_t b_ = (b);                                              \
10075        int32x2_t a_ = (a);                                              \
10076        int32x4_t result = vcombine_s32                                  \
10077                             (a_, vcreate_s32                            \
10078                                    (__AARCH64_UINT64_C (0x0)));         \
10079        __asm__ ("shrn2 %0.4s,%1.2d,#%2"                                 \
10080                 : "+w"(result)                                          \
10081                 : "w"(b_), "i"(c)                                       \
10082                 : /* No clobbers */);                                   \
10083        result;                                                          \
10084      })
10085
10086 #define vshrn_high_n_u16(a, b, c)                                       \
10087   __extension__                                                         \
10088     ({                                                                  \
10089        uint16x8_t b_ = (b);                                             \
10090        uint8x8_t a_ = (a);                                              \
10091        uint8x16_t result = vcombine_u8                                  \
10092                             (a_, vcreate_u8                             \
10093                                    (__AARCH64_UINT64_C (0x0)));         \
10094        __asm__ ("shrn2 %0.16b,%1.8h,#%2"                                \
10095                 : "+w"(result)                                          \
10096                 : "w"(b_), "i"(c)                                       \
10097                 : /* No clobbers */);                                   \
10098        result;                                                          \
10099      })
10100
10101 #define vshrn_high_n_u32(a, b, c)                                       \
10102   __extension__                                                         \
10103     ({                                                                  \
10104        uint32x4_t b_ = (b);                                             \
10105        uint16x4_t a_ = (a);                                             \
10106        uint16x8_t result = vcombine_u16                                 \
10107                             (a_, vcreate_u16                            \
10108                                    (__AARCH64_UINT64_C (0x0)));         \
10109        __asm__ ("shrn2 %0.8h,%1.4s,#%2"                                 \
10110                 : "+w"(result)                                          \
10111                 : "w"(b_), "i"(c)                                       \
10112                 : /* No clobbers */);                                   \
10113        result;                                                          \
10114      })
10115
10116 #define vshrn_high_n_u64(a, b, c)                                       \
10117   __extension__                                                         \
10118     ({                                                                  \
10119        uint64x2_t b_ = (b);                                             \
10120        uint32x2_t a_ = (a);                                             \
10121        uint32x4_t result = vcombine_u32                                 \
10122                             (a_, vcreate_u32                            \
10123                                    (__AARCH64_UINT64_C (0x0)));         \
10124        __asm__ ("shrn2 %0.4s,%1.2d,#%2"                                 \
10125                 : "+w"(result)                                          \
10126                 : "w"(b_), "i"(c)                                       \
10127                 : /* No clobbers */);                                   \
10128        result;                                                          \
10129      })
10130
10131 #define vshrn_n_s16(a, b)                                               \
10132   __extension__                                                         \
10133     ({                                                                  \
10134        int16x8_t a_ = (a);                                              \
10135        int8x8_t result;                                                 \
10136        __asm__ ("shrn %0.8b,%1.8h,%2"                                   \
10137                 : "=w"(result)                                          \
10138                 : "w"(a_), "i"(b)                                       \
10139                 : /* No clobbers */);                                   \
10140        result;                                                          \
10141      })
10142
10143 #define vshrn_n_s32(a, b)                                               \
10144   __extension__                                                         \
10145     ({                                                                  \
10146        int32x4_t a_ = (a);                                              \
10147        int16x4_t result;                                                \
10148        __asm__ ("shrn %0.4h,%1.4s,%2"                                   \
10149                 : "=w"(result)                                          \
10150                 : "w"(a_), "i"(b)                                       \
10151                 : /* No clobbers */);                                   \
10152        result;                                                          \
10153      })
10154
10155 #define vshrn_n_s64(a, b)                                               \
10156   __extension__                                                         \
10157     ({                                                                  \
10158        int64x2_t a_ = (a);                                              \
10159        int32x2_t result;                                                \
10160        __asm__ ("shrn %0.2s,%1.2d,%2"                                   \
10161                 : "=w"(result)                                          \
10162                 : "w"(a_), "i"(b)                                       \
10163                 : /* No clobbers */);                                   \
10164        result;                                                          \
10165      })
10166
10167 #define vshrn_n_u16(a, b)                                               \
10168   __extension__                                                         \
10169     ({                                                                  \
10170        uint16x8_t a_ = (a);                                             \
10171        uint8x8_t result;                                                \
10172        __asm__ ("shrn %0.8b,%1.8h,%2"                                   \
10173                 : "=w"(result)                                          \
10174                 : "w"(a_), "i"(b)                                       \
10175                 : /* No clobbers */);                                   \
10176        result;                                                          \
10177      })
10178
10179 #define vshrn_n_u32(a, b)                                               \
10180   __extension__                                                         \
10181     ({                                                                  \
10182        uint32x4_t a_ = (a);                                             \
10183        uint16x4_t result;                                               \
10184        __asm__ ("shrn %0.4h,%1.4s,%2"                                   \
10185                 : "=w"(result)                                          \
10186                 : "w"(a_), "i"(b)                                       \
10187                 : /* No clobbers */);                                   \
10188        result;                                                          \
10189      })
10190
10191 #define vshrn_n_u64(a, b)                                               \
10192   __extension__                                                         \
10193     ({                                                                  \
10194        uint64x2_t a_ = (a);                                             \
10195        uint32x2_t result;                                               \
10196        __asm__ ("shrn %0.2s,%1.2d,%2"                                   \
10197                 : "=w"(result)                                          \
10198                 : "w"(a_), "i"(b)                                       \
10199                 : /* No clobbers */);                                   \
10200        result;                                                          \
10201      })
10202
10203 #define vsli_n_p8(a, b, c)                                              \
10204   __extension__                                                         \
10205     ({                                                                  \
10206        poly8x8_t b_ = (b);                                              \
10207        poly8x8_t a_ = (a);                                              \
10208        poly8x8_t result;                                                \
10209        __asm__ ("sli %0.8b,%2.8b,%3"                                    \
10210                 : "=w"(result)                                          \
10211                 : "0"(a_), "w"(b_), "i"(c)                              \
10212                 : /* No clobbers */);                                   \
10213        result;                                                          \
10214      })
10215
10216 #define vsli_n_p16(a, b, c)                                             \
10217   __extension__                                                         \
10218     ({                                                                  \
10219        poly16x4_t b_ = (b);                                             \
10220        poly16x4_t a_ = (a);                                             \
10221        poly16x4_t result;                                               \
10222        __asm__ ("sli %0.4h,%2.4h,%3"                                    \
10223                 : "=w"(result)                                          \
10224                 : "0"(a_), "w"(b_), "i"(c)                              \
10225                 : /* No clobbers */);                                   \
10226        result;                                                          \
10227      })
10228
10229 #define vsliq_n_p8(a, b, c)                                             \
10230   __extension__                                                         \
10231     ({                                                                  \
10232        poly8x16_t b_ = (b);                                             \
10233        poly8x16_t a_ = (a);                                             \
10234        poly8x16_t result;                                               \
10235        __asm__ ("sli %0.16b,%2.16b,%3"                                  \
10236                 : "=w"(result)                                          \
10237                 : "0"(a_), "w"(b_), "i"(c)                              \
10238                 : /* No clobbers */);                                   \
10239        result;                                                          \
10240      })
10241
10242 #define vsliq_n_p16(a, b, c)                                            \
10243   __extension__                                                         \
10244     ({                                                                  \
10245        poly16x8_t b_ = (b);                                             \
10246        poly16x8_t a_ = (a);                                             \
10247        poly16x8_t result;                                               \
10248        __asm__ ("sli %0.8h,%2.8h,%3"                                    \
10249                 : "=w"(result)                                          \
10250                 : "0"(a_), "w"(b_), "i"(c)                              \
10251                 : /* No clobbers */);                                   \
10252        result;                                                          \
10253      })
10254
10255 #define vsri_n_p8(a, b, c)                                              \
10256   __extension__                                                         \
10257     ({                                                                  \
10258        poly8x8_t b_ = (b);                                              \
10259        poly8x8_t a_ = (a);                                              \
10260        poly8x8_t result;                                                \
10261        __asm__ ("sri %0.8b,%2.8b,%3"                                    \
10262                 : "=w"(result)                                          \
10263                 : "0"(a_), "w"(b_), "i"(c)                              \
10264                 : /* No clobbers */);                                   \
10265        result;                                                          \
10266      })
10267
10268 #define vsri_n_p16(a, b, c)                                             \
10269   __extension__                                                         \
10270     ({                                                                  \
10271        poly16x4_t b_ = (b);                                             \
10272        poly16x4_t a_ = (a);                                             \
10273        poly16x4_t result;                                               \
10274        __asm__ ("sri %0.4h,%2.4h,%3"                                    \
10275                 : "=w"(result)                                          \
10276                 : "0"(a_), "w"(b_), "i"(c)                              \
10277                 : /* No clobbers */);                                   \
10278        result;                                                          \
10279      })
10280
10281 #define vsriq_n_p8(a, b, c)                                             \
10282   __extension__                                                         \
10283     ({                                                                  \
10284        poly8x16_t b_ = (b);                                             \
10285        poly8x16_t a_ = (a);                                             \
10286        poly8x16_t result;                                               \
10287        __asm__ ("sri %0.16b,%2.16b,%3"                                  \
10288                 : "=w"(result)                                          \
10289                 : "0"(a_), "w"(b_), "i"(c)                              \
10290                 : /* No clobbers */);                                   \
10291        result;                                                          \
10292      })
10293
10294 #define vsriq_n_p16(a, b, c)                                            \
10295   __extension__                                                         \
10296     ({                                                                  \
10297        poly16x8_t b_ = (b);                                             \
10298        poly16x8_t a_ = (a);                                             \
10299        poly16x8_t result;                                               \
10300        __asm__ ("sri %0.8h,%2.8h,%3"                                    \
10301                 : "=w"(result)                                          \
10302                 : "0"(a_), "w"(b_), "i"(c)                              \
10303                 : /* No clobbers */);                                   \
10304        result;                                                          \
10305      })
10306
10307 #define vst1_lane_f32(a, b, c)                                          \
10308   __extension__                                                         \
10309     ({                                                                  \
10310        float32x2_t b_ = (b);                                            \
10311        float32_t * a_ = (a);                                            \
10312        __asm__ ("st1 {%1.s}[%2],[%0]"                                   \
10313                 :                                                       \
10314                 : "r"(a_), "w"(b_), "i"(c)                              \
10315                 : "memory");                                            \
10316      })
10317
10318 #define vst1_lane_f64(a, b, c)                                          \
10319   __extension__                                                         \
10320     ({                                                                  \
10321        float64x1_t b_ = (b);                                            \
10322        float64_t * a_ = (a);                                            \
10323        __asm__ ("st1 {%1.d}[%2],[%0]"                                   \
10324                 :                                                       \
10325                 : "r"(a_), "w"(b_), "i"(c)                              \
10326                 : "memory");                                            \
10327      })
10328
10329 #define vst1_lane_p8(a, b, c)                                           \
10330   __extension__                                                         \
10331     ({                                                                  \
10332        poly8x8_t b_ = (b);                                              \
10333        poly8_t * a_ = (a);                                              \
10334        __asm__ ("st1 {%1.b}[%2],[%0]"                                   \
10335                 :                                                       \
10336                 : "r"(a_), "w"(b_), "i"(c)                              \
10337                 : "memory");                                            \
10338      })
10339
10340 #define vst1_lane_p16(a, b, c)                                          \
10341   __extension__                                                         \
10342     ({                                                                  \
10343        poly16x4_t b_ = (b);                                             \
10344        poly16_t * a_ = (a);                                             \
10345        __asm__ ("st1 {%1.h}[%2],[%0]"                                   \
10346                 :                                                       \
10347                 : "r"(a_), "w"(b_), "i"(c)                              \
10348                 : "memory");                                            \
10349      })
10350
10351 #define vst1_lane_s8(a, b, c)                                           \
10352   __extension__                                                         \
10353     ({                                                                  \
10354        int8x8_t b_ = (b);                                               \
10355        int8_t * a_ = (a);                                               \
10356        __asm__ ("st1 {%1.b}[%2],[%0]"                                   \
10357                 :                                                       \
10358                 : "r"(a_), "w"(b_), "i"(c)                              \
10359                 : "memory");                                            \
10360      })
10361
10362 #define vst1_lane_s16(a, b, c)                                          \
10363   __extension__                                                         \
10364     ({                                                                  \
10365        int16x4_t b_ = (b);                                              \
10366        int16_t * a_ = (a);                                              \
10367        __asm__ ("st1 {%1.h}[%2],[%0]"                                   \
10368                 :                                                       \
10369                 : "r"(a_), "w"(b_), "i"(c)                              \
10370                 : "memory");                                            \
10371      })
10372
10373 #define vst1_lane_s32(a, b, c)                                          \
10374   __extension__                                                         \
10375     ({                                                                  \
10376        int32x2_t b_ = (b);                                              \
10377        int32_t * a_ = (a);                                              \
10378        __asm__ ("st1 {%1.s}[%2],[%0]"                                   \
10379                 :                                                       \
10380                 : "r"(a_), "w"(b_), "i"(c)                              \
10381                 : "memory");                                            \
10382      })
10383
10384 #define vst1_lane_s64(a, b, c)                                          \
10385   __extension__                                                         \
10386     ({                                                                  \
10387        int64x1_t b_ = (b);                                              \
10388        int64_t * a_ = (a);                                              \
10389        __asm__ ("st1 {%1.d}[%2],[%0]"                                   \
10390                 :                                                       \
10391                 : "r"(a_), "w"(b_), "i"(c)                              \
10392                 : "memory");                                            \
10393      })
10394
10395 #define vst1_lane_u8(a, b, c)                                           \
10396   __extension__                                                         \
10397     ({                                                                  \
10398        uint8x8_t b_ = (b);                                              \
10399        uint8_t * a_ = (a);                                              \
10400        __asm__ ("st1 {%1.b}[%2],[%0]"                                   \
10401                 :                                                       \
10402                 : "r"(a_), "w"(b_), "i"(c)                              \
10403                 : "memory");                                            \
10404      })
10405
10406 #define vst1_lane_u16(a, b, c)                                          \
10407   __extension__                                                         \
10408     ({                                                                  \
10409        uint16x4_t b_ = (b);                                             \
10410        uint16_t * a_ = (a);                                             \
10411        __asm__ ("st1 {%1.h}[%2],[%0]"                                   \
10412                 :                                                       \
10413                 : "r"(a_), "w"(b_), "i"(c)                              \
10414                 : "memory");                                            \
10415      })
10416
10417 #define vst1_lane_u32(a, b, c)                                          \
10418   __extension__                                                         \
10419     ({                                                                  \
10420        uint32x2_t b_ = (b);                                             \
10421        uint32_t * a_ = (a);                                             \
10422        __asm__ ("st1 {%1.s}[%2],[%0]"                                   \
10423                 :                                                       \
10424                 : "r"(a_), "w"(b_), "i"(c)                              \
10425                 : "memory");                                            \
10426      })
10427
10428 #define vst1_lane_u64(a, b, c)                                          \
10429   __extension__                                                         \
10430     ({                                                                  \
10431        uint64x1_t b_ = (b);                                             \
10432        uint64_t * a_ = (a);                                             \
10433        __asm__ ("st1 {%1.d}[%2],[%0]"                                   \
10434                 :                                                       \
10435                 : "r"(a_), "w"(b_), "i"(c)                              \
10436                 : "memory");                                            \
10437      })
10438
10439
10440 #define vst1q_lane_f32(a, b, c)                                         \
10441   __extension__                                                         \
10442     ({                                                                  \
10443        float32x4_t b_ = (b);                                            \
10444        float32_t * a_ = (a);                                            \
10445        __asm__ ("st1 {%1.s}[%2],[%0]"                                   \
10446                 :                                                       \
10447                 : "r"(a_), "w"(b_), "i"(c)                              \
10448                 : "memory");                                            \
10449      })
10450
10451 #define vst1q_lane_f64(a, b, c)                                         \
10452   __extension__                                                         \
10453     ({                                                                  \
10454        float64x2_t b_ = (b);                                            \
10455        float64_t * a_ = (a);                                            \
10456        __asm__ ("st1 {%1.d}[%2],[%0]"                                   \
10457                 :                                                       \
10458                 : "r"(a_), "w"(b_), "i"(c)                              \
10459                 : "memory");                                            \
10460      })
10461
10462 #define vst1q_lane_p8(a, b, c)                                          \
10463   __extension__                                                         \
10464     ({                                                                  \
10465        poly8x16_t b_ = (b);                                             \
10466        poly8_t * a_ = (a);                                              \
10467        __asm__ ("st1 {%1.b}[%2],[%0]"                                   \
10468                 :                                                       \
10469                 : "r"(a_), "w"(b_), "i"(c)                              \
10470                 : "memory");                                            \
10471      })
10472
10473 #define vst1q_lane_p16(a, b, c)                                         \
10474   __extension__                                                         \
10475     ({                                                                  \
10476        poly16x8_t b_ = (b);                                             \
10477        poly16_t * a_ = (a);                                             \
10478        __asm__ ("st1 {%1.h}[%2],[%0]"                                   \
10479                 :                                                       \
10480                 : "r"(a_), "w"(b_), "i"(c)                              \
10481                 : "memory");                                            \
10482      })
10483
10484 #define vst1q_lane_s8(a, b, c)                                          \
10485   __extension__                                                         \
10486     ({                                                                  \
10487        int8x16_t b_ = (b);                                              \
10488        int8_t * a_ = (a);                                               \
10489        __asm__ ("st1 {%1.b}[%2],[%0]"                                   \
10490                 :                                                       \
10491                 : "r"(a_), "w"(b_), "i"(c)                              \
10492                 : "memory");                                            \
10493      })
10494
10495 #define vst1q_lane_s16(a, b, c)                                         \
10496   __extension__                                                         \
10497     ({                                                                  \
10498        int16x8_t b_ = (b);                                              \
10499        int16_t * a_ = (a);                                              \
10500        __asm__ ("st1 {%1.h}[%2],[%0]"                                   \
10501                 :                                                       \
10502                 : "r"(a_), "w"(b_), "i"(c)                              \
10503                 : "memory");                                            \
10504      })
10505
10506 #define vst1q_lane_s32(a, b, c)                                         \
10507   __extension__                                                         \
10508     ({                                                                  \
10509        int32x4_t b_ = (b);                                              \
10510        int32_t * a_ = (a);                                              \
10511        __asm__ ("st1 {%1.s}[%2],[%0]"                                   \
10512                 :                                                       \
10513                 : "r"(a_), "w"(b_), "i"(c)                              \
10514                 : "memory");                                            \
10515      })
10516
10517 #define vst1q_lane_s64(a, b, c)                                         \
10518   __extension__                                                         \
10519     ({                                                                  \
10520        int64x2_t b_ = (b);                                              \
10521        int64_t * a_ = (a);                                              \
10522        __asm__ ("st1 {%1.d}[%2],[%0]"                                   \
10523                 :                                                       \
10524                 : "r"(a_), "w"(b_), "i"(c)                              \
10525                 : "memory");                                            \
10526      })
10527
10528 #define vst1q_lane_u8(a, b, c)                                          \
10529   __extension__                                                         \
10530     ({                                                                  \
10531        uint8x16_t b_ = (b);                                             \
10532        uint8_t * a_ = (a);                                              \
10533        __asm__ ("st1 {%1.b}[%2],[%0]"                                   \
10534                 :                                                       \
10535                 : "r"(a_), "w"(b_), "i"(c)                              \
10536                 : "memory");                                            \
10537      })
10538
10539 #define vst1q_lane_u16(a, b, c)                                         \
10540   __extension__                                                         \
10541     ({                                                                  \
10542        uint16x8_t b_ = (b);                                             \
10543        uint16_t * a_ = (a);                                             \
10544        __asm__ ("st1 {%1.h}[%2],[%0]"                                   \
10545                 :                                                       \
10546                 : "r"(a_), "w"(b_), "i"(c)                              \
10547                 : "memory");                                            \
10548      })
10549
10550 #define vst1q_lane_u32(a, b, c)                                         \
10551   __extension__                                                         \
10552     ({                                                                  \
10553        uint32x4_t b_ = (b);                                             \
10554        uint32_t * a_ = (a);                                             \
10555        __asm__ ("st1 {%1.s}[%2],[%0]"                                   \
10556                 :                                                       \
10557                 : "r"(a_), "w"(b_), "i"(c)                              \
10558                 : "memory");                                            \
10559      })
10560
10561 #define vst1q_lane_u64(a, b, c)                                         \
10562   __extension__                                                         \
10563     ({                                                                  \
10564        uint64x2_t b_ = (b);                                             \
10565        uint64_t * a_ = (a);                                             \
10566        __asm__ ("st1 {%1.d}[%2],[%0]"                                   \
10567                 :                                                       \
10568                 : "r"(a_), "w"(b_), "i"(c)                              \
10569                 : "memory");                                            \
10570      })
10571
10572
10573 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
10574 vtst_p8 (poly8x8_t a, poly8x8_t b)
10575 {
10576   uint8x8_t result;
10577   __asm__ ("cmtst %0.8b, %1.8b, %2.8b"
10578            : "=w"(result)
10579            : "w"(a), "w"(b)
10580            : /* No clobbers */);
10581   return result;
10582 }
10583
10584 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
10585 vtst_p16 (poly16x4_t a, poly16x4_t b)
10586 {
10587   uint16x4_t result;
10588   __asm__ ("cmtst %0.4h, %1.4h, %2.4h"
10589            : "=w"(result)
10590            : "w"(a), "w"(b)
10591            : /* No clobbers */);
10592   return result;
10593 }
10594
10595 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
10596 vtstq_p8 (poly8x16_t a, poly8x16_t b)
10597 {
10598   uint8x16_t result;
10599   __asm__ ("cmtst %0.16b, %1.16b, %2.16b"
10600            : "=w"(result)
10601            : "w"(a), "w"(b)
10602            : /* No clobbers */);
10603   return result;
10604 }
10605
10606 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
10607 vtstq_p16 (poly16x8_t a, poly16x8_t b)
10608 {
10609   uint16x8_t result;
10610   __asm__ ("cmtst %0.8h, %1.8h, %2.8h"
10611            : "=w"(result)
10612            : "w"(a), "w"(b)
10613            : /* No clobbers */);
10614   return result;
10615 }
10616
10617 /* End of temporary inline asm implementations.  */
10618
10619 /* Start of temporary inline asm for vldn, vstn and friends.  */
10620
10621 /* Create struct element types for duplicating loads.
10622
10623    Create 2 element structures of:
10624
10625    +------+----+----+----+----+
10626    |      | 8  | 16 | 32 | 64 |
10627    +------+----+----+----+----+
10628    |int   | Y  | Y  | N  | N  |
10629    +------+----+----+----+----+
10630    |uint  | Y  | Y  | N  | N  |
10631    +------+----+----+----+----+
10632    |float | -  | -  | N  | N  |
10633    +------+----+----+----+----+
10634    |poly  | Y  | Y  | -  | -  |
10635    +------+----+----+----+----+
10636
10637    Create 3 element structures of:
10638
10639    +------+----+----+----+----+
10640    |      | 8  | 16 | 32 | 64 |
10641    +------+----+----+----+----+
10642    |int   | Y  | Y  | Y  | Y  |
10643    +------+----+----+----+----+
10644    |uint  | Y  | Y  | Y  | Y  |
10645    +------+----+----+----+----+
10646    |float | -  | -  | Y  | Y  |
10647    +------+----+----+----+----+
10648    |poly  | Y  | Y  | -  | -  |
10649    +------+----+----+----+----+
10650
10651    Create 4 element structures of:
10652
10653    +------+----+----+----+----+
10654    |      | 8  | 16 | 32 | 64 |
10655    +------+----+----+----+----+
10656    |int   | Y  | N  | N  | Y  |
10657    +------+----+----+----+----+
10658    |uint  | Y  | N  | N  | Y  |
10659    +------+----+----+----+----+
10660    |float | -  | -  | N  | Y  |
10661    +------+----+----+----+----+
10662    |poly  | Y  | N  | -  | -  |
10663    +------+----+----+----+----+
10664
10665   This is required for casting memory reference.  */
10666 #define __STRUCTN(t, sz, nelem)                 \
10667   typedef struct t ## sz ## x ## nelem ## _t {  \
10668     t ## sz ## _t val[nelem];                   \
10669   }  t ## sz ## x ## nelem ## _t;
10670
10671 /* 2-element structs.  */
10672 __STRUCTN (int, 8, 2)
10673 __STRUCTN (int, 16, 2)
10674 __STRUCTN (uint, 8, 2)
10675 __STRUCTN (uint, 16, 2)
10676 __STRUCTN (poly, 8, 2)
10677 __STRUCTN (poly, 16, 2)
10678 /* 3-element structs.  */
10679 __STRUCTN (int, 8, 3)
10680 __STRUCTN (int, 16, 3)
10681 __STRUCTN (int, 32, 3)
10682 __STRUCTN (int, 64, 3)
10683 __STRUCTN (uint, 8, 3)
10684 __STRUCTN (uint, 16, 3)
10685 __STRUCTN (uint, 32, 3)
10686 __STRUCTN (uint, 64, 3)
10687 __STRUCTN (float, 32, 3)
10688 __STRUCTN (float, 64, 3)
10689 __STRUCTN (poly, 8, 3)
10690 __STRUCTN (poly, 16, 3)
10691 /* 4-element structs.  */
10692 __STRUCTN (int, 8, 4)
10693 __STRUCTN (int, 64, 4)
10694 __STRUCTN (uint, 8, 4)
10695 __STRUCTN (uint, 64, 4)
10696 __STRUCTN (poly, 8, 4)
10697 __STRUCTN (float, 64, 4)
10698 #undef __STRUCTN
10699
10700
10701 #define __ST2_LANE_FUNC(intype, largetype, ptrtype,                          \
10702                         mode, ptr_mode, funcsuffix, signedtype)              \
10703 __extension__ static __inline void                                           \
10704 __attribute__ ((__always_inline__))                                          \
10705 vst2_lane_ ## funcsuffix (ptrtype *__ptr,                                    \
10706                           intype __b, const int __c)                         \
10707 {                                                                            \
10708   __builtin_aarch64_simd_oi __o;                                             \
10709   largetype __temp;                                                          \
10710   __temp.val[0]                                                              \
10711     = vcombine_##funcsuffix (__b.val[0],                                     \
10712                              vcreate_##funcsuffix (__AARCH64_UINT64_C (0))); \
10713   __temp.val[1]                                                              \
10714     = vcombine_##funcsuffix (__b.val[1],                                     \
10715                              vcreate_##funcsuffix (__AARCH64_UINT64_C (0))); \
10716   __o = __builtin_aarch64_set_qregoi##mode (__o,                             \
10717                                             (signedtype) __temp.val[0], 0);  \
10718   __o = __builtin_aarch64_set_qregoi##mode (__o,                             \
10719                                             (signedtype) __temp.val[1], 1);  \
10720   __builtin_aarch64_st2_lane##mode ((__builtin_aarch64_simd_ ## ptr_mode *)  \
10721                                      __ptr, __o, __c);                       \
10722 }
10723
10724 __ST2_LANE_FUNC (float32x2x2_t, float32x4x2_t, float32_t, v4sf, sf, f32,
10725                  float32x4_t)
10726 __ST2_LANE_FUNC (float64x1x2_t, float64x2x2_t, float64_t, v2df, df, f64,
10727                  float64x2_t)
10728 __ST2_LANE_FUNC (poly8x8x2_t, poly8x16x2_t, poly8_t, v16qi, qi, p8, int8x16_t)
10729 __ST2_LANE_FUNC (poly16x4x2_t, poly16x8x2_t, poly16_t, v8hi, hi, p16,
10730                  int16x8_t)
10731 __ST2_LANE_FUNC (int8x8x2_t, int8x16x2_t, int8_t, v16qi, qi, s8, int8x16_t)
10732 __ST2_LANE_FUNC (int16x4x2_t, int16x8x2_t, int16_t, v8hi, hi, s16, int16x8_t)
10733 __ST2_LANE_FUNC (int32x2x2_t, int32x4x2_t, int32_t, v4si, si, s32, int32x4_t)
10734 __ST2_LANE_FUNC (int64x1x2_t, int64x2x2_t, int64_t, v2di, di, s64, int64x2_t)
10735 __ST2_LANE_FUNC (uint8x8x2_t, uint8x16x2_t, uint8_t, v16qi, qi, u8, int8x16_t)
10736 __ST2_LANE_FUNC (uint16x4x2_t, uint16x8x2_t, uint16_t, v8hi, hi, u16,
10737                  int16x8_t)
10738 __ST2_LANE_FUNC (uint32x2x2_t, uint32x4x2_t, uint32_t, v4si, si, u32,
10739                  int32x4_t)
10740 __ST2_LANE_FUNC (uint64x1x2_t, uint64x2x2_t, uint64_t, v2di, di, u64,
10741                  int64x2_t)
10742
10743 #undef __ST2_LANE_FUNC
10744 #define __ST2_LANE_FUNC(intype, ptrtype, mode, ptr_mode, funcsuffix)        \
10745 __extension__ static __inline void                                          \
10746 __attribute__ ((__always_inline__))                                         \
10747 vst2q_lane_ ## funcsuffix (ptrtype *__ptr,                                  \
10748                            intype __b, const int __c)                       \
10749 {                                                                           \
10750   union { intype __i;                                                       \
10751           __builtin_aarch64_simd_oi __o; } __temp = { __b };                \
10752   __builtin_aarch64_st2_lane##mode ((__builtin_aarch64_simd_ ## ptr_mode *) \
10753                                     __ptr, __temp.__o, __c);                \
10754 }
10755
10756 __ST2_LANE_FUNC (float32x4x2_t, float32_t, v4sf, sf, f32)
10757 __ST2_LANE_FUNC (float64x2x2_t, float64_t, v2df, df, f64)
10758 __ST2_LANE_FUNC (poly8x16x2_t, poly8_t, v16qi, qi, p8)
10759 __ST2_LANE_FUNC (poly16x8x2_t, poly16_t, v8hi, hi, p16)
10760 __ST2_LANE_FUNC (int8x16x2_t, int8_t, v16qi, qi, s8)
10761 __ST2_LANE_FUNC (int16x8x2_t, int16_t, v8hi, hi, s16)
10762 __ST2_LANE_FUNC (int32x4x2_t, int32_t, v4si, si, s32)
10763 __ST2_LANE_FUNC (int64x2x2_t, int64_t, v2di, di, s64)
10764 __ST2_LANE_FUNC (uint8x16x2_t, uint8_t, v16qi, qi, u8)
10765 __ST2_LANE_FUNC (uint16x8x2_t, uint16_t, v8hi, hi, u16)
10766 __ST2_LANE_FUNC (uint32x4x2_t, uint32_t, v4si, si, u32)
10767 __ST2_LANE_FUNC (uint64x2x2_t, uint64_t, v2di, di, u64)
10768
10769 #define __ST3_LANE_FUNC(intype, largetype, ptrtype,                          \
10770                         mode, ptr_mode, funcsuffix, signedtype)              \
10771 __extension__ static __inline void                                           \
10772 __attribute__ ((__always_inline__))                                          \
10773 vst3_lane_ ## funcsuffix (ptrtype *__ptr,                                    \
10774                           intype __b, const int __c)                         \
10775 {                                                                            \
10776   __builtin_aarch64_simd_ci __o;                                             \
10777   largetype __temp;                                                          \
10778   __temp.val[0]                                                              \
10779     = vcombine_##funcsuffix (__b.val[0],                                     \
10780                              vcreate_##funcsuffix (__AARCH64_UINT64_C (0))); \
10781   __temp.val[1]                                                              \
10782     = vcombine_##funcsuffix (__b.val[1],                                     \
10783                              vcreate_##funcsuffix (__AARCH64_UINT64_C (0))); \
10784   __temp.val[2]                                                              \
10785     = vcombine_##funcsuffix (__b.val[2],                                     \
10786                              vcreate_##funcsuffix (__AARCH64_UINT64_C (0))); \
10787   __o = __builtin_aarch64_set_qregci##mode (__o,                             \
10788                                             (signedtype) __temp.val[0], 0);  \
10789   __o = __builtin_aarch64_set_qregci##mode (__o,                             \
10790                                             (signedtype) __temp.val[1], 1);  \
10791   __o = __builtin_aarch64_set_qregci##mode (__o,                             \
10792                                             (signedtype) __temp.val[2], 2);  \
10793   __builtin_aarch64_st3_lane##mode ((__builtin_aarch64_simd_ ## ptr_mode *)  \
10794                                      __ptr, __o, __c);                       \
10795 }
10796
10797 __ST3_LANE_FUNC (float32x2x3_t, float32x4x3_t, float32_t, v4sf, sf, f32,
10798                  float32x4_t)
10799 __ST3_LANE_FUNC (float64x1x3_t, float64x2x3_t, float64_t, v2df, df, f64,
10800                  float64x2_t)
10801 __ST3_LANE_FUNC (poly8x8x3_t, poly8x16x3_t, poly8_t, v16qi, qi, p8, int8x16_t)
10802 __ST3_LANE_FUNC (poly16x4x3_t, poly16x8x3_t, poly16_t, v8hi, hi, p16,
10803                  int16x8_t)
10804 __ST3_LANE_FUNC (int8x8x3_t, int8x16x3_t, int8_t, v16qi, qi, s8, int8x16_t)
10805 __ST3_LANE_FUNC (int16x4x3_t, int16x8x3_t, int16_t, v8hi, hi, s16, int16x8_t)
10806 __ST3_LANE_FUNC (int32x2x3_t, int32x4x3_t, int32_t, v4si, si, s32, int32x4_t)
10807 __ST3_LANE_FUNC (int64x1x3_t, int64x2x3_t, int64_t, v2di, di, s64, int64x2_t)
10808 __ST3_LANE_FUNC (uint8x8x3_t, uint8x16x3_t, uint8_t, v16qi, qi, u8, int8x16_t)
10809 __ST3_LANE_FUNC (uint16x4x3_t, uint16x8x3_t, uint16_t, v8hi, hi, u16,
10810                  int16x8_t)
10811 __ST3_LANE_FUNC (uint32x2x3_t, uint32x4x3_t, uint32_t, v4si, si, u32,
10812                  int32x4_t)
10813 __ST3_LANE_FUNC (uint64x1x3_t, uint64x2x3_t, uint64_t, v2di, di, u64,
10814                  int64x2_t)
10815
10816 #undef __ST3_LANE_FUNC
10817 #define __ST3_LANE_FUNC(intype, ptrtype, mode, ptr_mode, funcsuffix)        \
10818 __extension__ static __inline void                                          \
10819 __attribute__ ((__always_inline__))                                         \
10820 vst3q_lane_ ## funcsuffix (ptrtype *__ptr,                                  \
10821                            intype __b, const int __c)                       \
10822 {                                                                           \
10823   union { intype __i;                                                       \
10824           __builtin_aarch64_simd_ci __o; } __temp = { __b };                \
10825   __builtin_aarch64_st3_lane##mode ((__builtin_aarch64_simd_ ## ptr_mode *) \
10826                                     __ptr, __temp.__o, __c);                \
10827 }
10828
10829 __ST3_LANE_FUNC (float32x4x3_t, float32_t, v4sf, sf, f32)
10830 __ST3_LANE_FUNC (float64x2x3_t, float64_t, v2df, df, f64)
10831 __ST3_LANE_FUNC (poly8x16x3_t, poly8_t, v16qi, qi, p8)
10832 __ST3_LANE_FUNC (poly16x8x3_t, poly16_t, v8hi, hi, p16)
10833 __ST3_LANE_FUNC (int8x16x3_t, int8_t, v16qi, qi, s8)
10834 __ST3_LANE_FUNC (int16x8x3_t, int16_t, v8hi, hi, s16)
10835 __ST3_LANE_FUNC (int32x4x3_t, int32_t, v4si, si, s32)
10836 __ST3_LANE_FUNC (int64x2x3_t, int64_t, v2di, di, s64)
10837 __ST3_LANE_FUNC (uint8x16x3_t, uint8_t, v16qi, qi, u8)
10838 __ST3_LANE_FUNC (uint16x8x3_t, uint16_t, v8hi, hi, u16)
10839 __ST3_LANE_FUNC (uint32x4x3_t, uint32_t, v4si, si, u32)
10840 __ST3_LANE_FUNC (uint64x2x3_t, uint64_t, v2di, di, u64)
10841
10842 #define __ST4_LANE_FUNC(intype, largetype, ptrtype,                          \
10843                         mode, ptr_mode, funcsuffix, signedtype)              \
10844 __extension__ static __inline void                                           \
10845 __attribute__ ((__always_inline__))                                          \
10846 vst4_lane_ ## funcsuffix (ptrtype *__ptr,                                    \
10847                           intype __b, const int __c)                         \
10848 {                                                                            \
10849   __builtin_aarch64_simd_xi __o;                                             \
10850   largetype __temp;                                                          \
10851   __temp.val[0]                                                              \
10852     = vcombine_##funcsuffix (__b.val[0],                                     \
10853                              vcreate_##funcsuffix (__AARCH64_UINT64_C (0))); \
10854   __temp.val[1]                                                              \
10855     = vcombine_##funcsuffix (__b.val[1],                                     \
10856                              vcreate_##funcsuffix (__AARCH64_UINT64_C (0))); \
10857   __temp.val[2]                                                              \
10858     = vcombine_##funcsuffix (__b.val[2],                                     \
10859                              vcreate_##funcsuffix (__AARCH64_UINT64_C (0))); \
10860   __temp.val[3]                                                              \
10861     = vcombine_##funcsuffix (__b.val[3],                                     \
10862                              vcreate_##funcsuffix (__AARCH64_UINT64_C (0))); \
10863   __o = __builtin_aarch64_set_qregxi##mode (__o,                             \
10864                                             (signedtype) __temp.val[0], 0);  \
10865   __o = __builtin_aarch64_set_qregxi##mode (__o,                             \
10866                                             (signedtype) __temp.val[1], 1);  \
10867   __o = __builtin_aarch64_set_qregxi##mode (__o,                             \
10868                                             (signedtype) __temp.val[2], 2);  \
10869   __o = __builtin_aarch64_set_qregxi##mode (__o,                             \
10870                                             (signedtype) __temp.val[3], 3);  \
10871   __builtin_aarch64_st4_lane##mode ((__builtin_aarch64_simd_ ## ptr_mode *)  \
10872                                      __ptr, __o, __c);                       \
10873 }
10874
10875 __ST4_LANE_FUNC (float32x2x4_t, float32x4x4_t, float32_t, v4sf, sf, f32,
10876                  float32x4_t)
10877 __ST4_LANE_FUNC (float64x1x4_t, float64x2x4_t, float64_t, v2df, df, f64,
10878                  float64x2_t)
10879 __ST4_LANE_FUNC (poly8x8x4_t, poly8x16x4_t, poly8_t, v16qi, qi, p8, int8x16_t)
10880 __ST4_LANE_FUNC (poly16x4x4_t, poly16x8x4_t, poly16_t, v8hi, hi, p16,
10881                  int16x8_t)
10882 __ST4_LANE_FUNC (int8x8x4_t, int8x16x4_t, int8_t, v16qi, qi, s8, int8x16_t)
10883 __ST4_LANE_FUNC (int16x4x4_t, int16x8x4_t, int16_t, v8hi, hi, s16, int16x8_t)
10884 __ST4_LANE_FUNC (int32x2x4_t, int32x4x4_t, int32_t, v4si, si, s32, int32x4_t)
10885 __ST4_LANE_FUNC (int64x1x4_t, int64x2x4_t, int64_t, v2di, di, s64, int64x2_t)
10886 __ST4_LANE_FUNC (uint8x8x4_t, uint8x16x4_t, uint8_t, v16qi, qi, u8, int8x16_t)
10887 __ST4_LANE_FUNC (uint16x4x4_t, uint16x8x4_t, uint16_t, v8hi, hi, u16,
10888                  int16x8_t)
10889 __ST4_LANE_FUNC (uint32x2x4_t, uint32x4x4_t, uint32_t, v4si, si, u32,
10890                  int32x4_t)
10891 __ST4_LANE_FUNC (uint64x1x4_t, uint64x2x4_t, uint64_t, v2di, di, u64,
10892                  int64x2_t)
10893
10894 #undef __ST4_LANE_FUNC
10895 #define __ST4_LANE_FUNC(intype, ptrtype, mode, ptr_mode, funcsuffix)        \
10896 __extension__ static __inline void                                          \
10897 __attribute__ ((__always_inline__))                                         \
10898 vst4q_lane_ ## funcsuffix (ptrtype *__ptr,                                  \
10899                            intype __b, const int __c)                       \
10900 {                                                                           \
10901   union { intype __i;                                                       \
10902           __builtin_aarch64_simd_xi __o; } __temp = { __b };                \
10903   __builtin_aarch64_st4_lane##mode ((__builtin_aarch64_simd_ ## ptr_mode *) \
10904                                     __ptr, __temp.__o, __c);                \
10905 }
10906
10907 __ST4_LANE_FUNC (float32x4x4_t, float32_t, v4sf, sf, f32)
10908 __ST4_LANE_FUNC (float64x2x4_t, float64_t, v2df, df, f64)
10909 __ST4_LANE_FUNC (poly8x16x4_t, poly8_t, v16qi, qi, p8)
10910 __ST4_LANE_FUNC (poly16x8x4_t, poly16_t, v8hi, hi, p16)
10911 __ST4_LANE_FUNC (int8x16x4_t, int8_t, v16qi, qi, s8)
10912 __ST4_LANE_FUNC (int16x8x4_t, int16_t, v8hi, hi, s16)
10913 __ST4_LANE_FUNC (int32x4x4_t, int32_t, v4si, si, s32)
10914 __ST4_LANE_FUNC (int64x2x4_t, int64_t, v2di, di, s64)
10915 __ST4_LANE_FUNC (uint8x16x4_t, uint8_t, v16qi, qi, u8)
10916 __ST4_LANE_FUNC (uint16x8x4_t, uint16_t, v8hi, hi, u16)
10917 __ST4_LANE_FUNC (uint32x4x4_t, uint32_t, v4si, si, u32)
10918 __ST4_LANE_FUNC (uint64x2x4_t, uint64_t, v2di, di, u64)
10919
10920 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
10921 vaddlv_s32 (int32x2_t a)
10922 {
10923   int64_t result;
10924   __asm__ ("saddlp %0.1d, %1.2s" : "=w"(result) : "w"(a) : );
10925   return result;
10926 }
10927
10928 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
10929 vaddlv_u32 (uint32x2_t a)
10930 {
10931   uint64_t result;
10932   __asm__ ("uaddlp %0.1d, %1.2s" : "=w"(result) : "w"(a) : );
10933   return result;
10934 }
10935
10936 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
10937 vqdmulh_laneq_s16 (int16x4_t __a, int16x8_t __b, const int __c)
10938 {
10939   return __builtin_aarch64_sqdmulh_laneqv4hi (__a, __b, __c);
10940 }
10941
10942 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
10943 vqdmulh_laneq_s32 (int32x2_t __a, int32x4_t __b, const int __c)
10944 {
10945   return __builtin_aarch64_sqdmulh_laneqv2si (__a, __b, __c);
10946 }
10947
10948 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
10949 vqdmulhq_laneq_s16 (int16x8_t __a, int16x8_t __b, const int __c)
10950 {
10951   return __builtin_aarch64_sqdmulh_laneqv8hi (__a, __b, __c);
10952 }
10953
10954 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
10955 vqdmulhq_laneq_s32 (int32x4_t __a, int32x4_t __b, const int __c)
10956 {
10957   return __builtin_aarch64_sqdmulh_laneqv4si (__a, __b, __c);
10958 }
10959
10960 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
10961 vqrdmulh_laneq_s16 (int16x4_t __a, int16x8_t __b, const int __c)
10962 {
10963   return  __builtin_aarch64_sqrdmulh_laneqv4hi (__a, __b, __c);
10964 }
10965
10966 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
10967 vqrdmulh_laneq_s32 (int32x2_t __a, int32x4_t __b, const int __c)
10968 {
10969   return __builtin_aarch64_sqrdmulh_laneqv2si (__a, __b, __c);
10970 }
10971
10972 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
10973 vqrdmulhq_laneq_s16 (int16x8_t __a, int16x8_t __b, const int __c)
10974 {
10975   return __builtin_aarch64_sqrdmulh_laneqv8hi (__a, __b, __c);
10976 }
10977
10978 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
10979 vqrdmulhq_laneq_s32 (int32x4_t __a, int32x4_t __b, const int __c)
10980 {
10981   return __builtin_aarch64_sqrdmulh_laneqv4si (__a, __b, __c);
10982 }
10983
10984 /* Table intrinsics.  */
10985
10986 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
10987 vqtbl1_p8 (poly8x16_t a, uint8x8_t b)
10988 {
10989   poly8x8_t result;
10990   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
10991            : "=w"(result)
10992            : "w"(a), "w"(b)
10993            : /* No clobbers */);
10994   return result;
10995 }
10996
10997 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
10998 vqtbl1_s8 (int8x16_t a, uint8x8_t b)
10999 {
11000   int8x8_t result;
11001   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
11002            : "=w"(result)
11003            : "w"(a), "w"(b)
11004            : /* No clobbers */);
11005   return result;
11006 }
11007
11008 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11009 vqtbl1_u8 (uint8x16_t a, uint8x8_t b)
11010 {
11011   uint8x8_t result;
11012   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
11013            : "=w"(result)
11014            : "w"(a), "w"(b)
11015            : /* No clobbers */);
11016   return result;
11017 }
11018
11019 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
11020 vqtbl1q_p8 (poly8x16_t a, uint8x16_t b)
11021 {
11022   poly8x16_t result;
11023   __asm__ ("tbl %0.16b, {%1.16b}, %2.16b"
11024            : "=w"(result)
11025            : "w"(a), "w"(b)
11026            : /* No clobbers */);
11027   return result;
11028 }
11029
11030 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11031 vqtbl1q_s8 (int8x16_t a, uint8x16_t b)
11032 {
11033   int8x16_t result;
11034   __asm__ ("tbl %0.16b, {%1.16b}, %2.16b"
11035            : "=w"(result)
11036            : "w"(a), "w"(b)
11037            : /* No clobbers */);
11038   return result;
11039 }
11040
11041 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
11042 vqtbl1q_u8 (uint8x16_t a, uint8x16_t b)
11043 {
11044   uint8x16_t result;
11045   __asm__ ("tbl %0.16b, {%1.16b}, %2.16b"
11046            : "=w"(result)
11047            : "w"(a), "w"(b)
11048            : /* No clobbers */);
11049   return result;
11050 }
11051
11052 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11053 vqtbl2_s8 (int8x16x2_t tab, uint8x8_t idx)
11054 {
11055   int8x8_t result;
11056   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11057            "tbl %0.8b, {v16.16b, v17.16b}, %2.8b\n\t"
11058            :"=w"(result)
11059            :"Q"(tab),"w"(idx)
11060            :"memory", "v16", "v17");
11061   return result;
11062 }
11063
11064 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11065 vqtbl2_u8 (uint8x16x2_t tab, uint8x8_t idx)
11066 {
11067   uint8x8_t result;
11068   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11069            "tbl %0.8b, {v16.16b, v17.16b}, %2.8b\n\t"
11070            :"=w"(result)
11071            :"Q"(tab),"w"(idx)
11072            :"memory", "v16", "v17");
11073   return result;
11074 }
11075
11076 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11077 vqtbl2_p8 (poly8x16x2_t tab, uint8x8_t idx)
11078 {
11079   poly8x8_t result;
11080   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11081            "tbl %0.8b, {v16.16b, v17.16b}, %2.8b\n\t"
11082            :"=w"(result)
11083            :"Q"(tab),"w"(idx)
11084            :"memory", "v16", "v17");
11085   return result;
11086 }
11087
11088 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11089 vqtbl2q_s8 (int8x16x2_t tab, uint8x16_t idx)
11090 {
11091   int8x16_t result;
11092   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11093            "tbl %0.16b, {v16.16b, v17.16b}, %2.16b\n\t"
11094            :"=w"(result)
11095            :"Q"(tab),"w"(idx)
11096            :"memory", "v16", "v17");
11097   return result;
11098 }
11099
11100 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
11101 vqtbl2q_u8 (uint8x16x2_t tab, uint8x16_t idx)
11102 {
11103   uint8x16_t result;
11104   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11105            "tbl %0.16b, {v16.16b, v17.16b}, %2.16b\n\t"
11106            :"=w"(result)
11107            :"Q"(tab),"w"(idx)
11108            :"memory", "v16", "v17");
11109   return result;
11110 }
11111
11112 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
11113 vqtbl2q_p8 (poly8x16x2_t tab, uint8x16_t idx)
11114 {
11115   poly8x16_t result;
11116   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11117            "tbl %0.16b, {v16.16b, v17.16b}, %2.16b\n\t"
11118            :"=w"(result)
11119            :"Q"(tab),"w"(idx)
11120            :"memory", "v16", "v17");
11121   return result;
11122 }
11123
11124 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11125 vqtbl3_s8 (int8x16x3_t tab, uint8x8_t idx)
11126 {
11127   int8x8_t result;
11128   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11129            "tbl %0.8b, {v16.16b - v18.16b}, %2.8b\n\t"
11130            :"=w"(result)
11131            :"Q"(tab),"w"(idx)
11132            :"memory", "v16", "v17", "v18");
11133   return result;
11134 }
11135
11136 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11137 vqtbl3_u8 (uint8x16x3_t tab, uint8x8_t idx)
11138 {
11139   uint8x8_t result;
11140   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11141            "tbl %0.8b, {v16.16b - v18.16b}, %2.8b\n\t"
11142            :"=w"(result)
11143            :"Q"(tab),"w"(idx)
11144            :"memory", "v16", "v17", "v18");
11145   return result;
11146 }
11147
11148 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11149 vqtbl3_p8 (poly8x16x3_t tab, uint8x8_t idx)
11150 {
11151   poly8x8_t result;
11152   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11153            "tbl %0.8b, {v16.16b - v18.16b}, %2.8b\n\t"
11154            :"=w"(result)
11155            :"Q"(tab),"w"(idx)
11156            :"memory", "v16", "v17", "v18");
11157   return result;
11158 }
11159
11160 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11161 vqtbl3q_s8 (int8x16x3_t tab, uint8x16_t idx)
11162 {
11163   int8x16_t result;
11164   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11165            "tbl %0.16b, {v16.16b - v18.16b}, %2.16b\n\t"
11166            :"=w"(result)
11167            :"Q"(tab),"w"(idx)
11168            :"memory", "v16", "v17", "v18");
11169   return result;
11170 }
11171
11172 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
11173 vqtbl3q_u8 (uint8x16x3_t tab, uint8x16_t idx)
11174 {
11175   uint8x16_t result;
11176   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11177            "tbl %0.16b, {v16.16b - v18.16b}, %2.16b\n\t"
11178            :"=w"(result)
11179            :"Q"(tab),"w"(idx)
11180            :"memory", "v16", "v17", "v18");
11181   return result;
11182 }
11183
11184 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
11185 vqtbl3q_p8 (poly8x16x3_t tab, uint8x16_t idx)
11186 {
11187   poly8x16_t result;
11188   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11189            "tbl %0.16b, {v16.16b - v18.16b}, %2.16b\n\t"
11190            :"=w"(result)
11191            :"Q"(tab),"w"(idx)
11192            :"memory", "v16", "v17", "v18");
11193   return result;
11194 }
11195
11196 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11197 vqtbl4_s8 (int8x16x4_t tab, uint8x8_t idx)
11198 {
11199   int8x8_t result;
11200   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11201            "tbl %0.8b, {v16.16b - v19.16b}, %2.8b\n\t"
11202            :"=w"(result)
11203            :"Q"(tab),"w"(idx)
11204            :"memory", "v16", "v17", "v18", "v19");
11205   return result;
11206 }
11207
11208 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11209 vqtbl4_u8 (uint8x16x4_t tab, uint8x8_t idx)
11210 {
11211   uint8x8_t result;
11212   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11213            "tbl %0.8b, {v16.16b - v19.16b}, %2.8b\n\t"
11214            :"=w"(result)
11215            :"Q"(tab),"w"(idx)
11216            :"memory", "v16", "v17", "v18", "v19");
11217   return result;
11218 }
11219
11220 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11221 vqtbl4_p8 (poly8x16x4_t tab, uint8x8_t idx)
11222 {
11223   poly8x8_t result;
11224   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11225            "tbl %0.8b, {v16.16b - v19.16b}, %2.8b\n\t"
11226            :"=w"(result)
11227            :"Q"(tab),"w"(idx)
11228            :"memory", "v16", "v17", "v18", "v19");
11229   return result;
11230 }
11231
11232
11233 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11234 vqtbl4q_s8 (int8x16x4_t tab, uint8x16_t idx)
11235 {
11236   int8x16_t result;
11237   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11238            "tbl %0.16b, {v16.16b - v19.16b}, %2.16b\n\t"
11239            :"=w"(result)
11240            :"Q"(tab),"w"(idx)
11241            :"memory", "v16", "v17", "v18", "v19");
11242   return result;
11243 }
11244
11245 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
11246 vqtbl4q_u8 (uint8x16x4_t tab, uint8x16_t idx)
11247 {
11248   uint8x16_t result;
11249   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11250            "tbl %0.16b, {v16.16b - v19.16b}, %2.16b\n\t"
11251            :"=w"(result)
11252            :"Q"(tab),"w"(idx)
11253            :"memory", "v16", "v17", "v18", "v19");
11254   return result;
11255 }
11256
11257 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
11258 vqtbl4q_p8 (poly8x16x4_t tab, uint8x16_t idx)
11259 {
11260   poly8x16_t result;
11261   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11262            "tbl %0.16b, {v16.16b - v19.16b}, %2.16b\n\t"
11263            :"=w"(result)
11264            :"Q"(tab),"w"(idx)
11265            :"memory", "v16", "v17", "v18", "v19");
11266   return result;
11267 }
11268
11269
11270 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11271 vqtbx1_s8 (int8x8_t r, int8x16_t tab, uint8x8_t idx)
11272 {
11273   int8x8_t result = r;
11274   __asm__ ("tbx %0.8b,{%1.16b},%2.8b"
11275            : "+w"(result)
11276            : "w"(tab), "w"(idx)
11277            : /* No clobbers */);
11278   return result;
11279 }
11280
11281 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11282 vqtbx1_u8 (uint8x8_t r, uint8x16_t tab, uint8x8_t idx)
11283 {
11284   uint8x8_t result = r;
11285   __asm__ ("tbx %0.8b,{%1.16b},%2.8b"
11286            : "+w"(result)
11287            : "w"(tab), "w"(idx)
11288            : /* No clobbers */);
11289   return result;
11290 }
11291
11292 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11293 vqtbx1_p8 (poly8x8_t r, poly8x16_t tab, uint8x8_t idx)
11294 {
11295   poly8x8_t result = r;
11296   __asm__ ("tbx %0.8b,{%1.16b},%2.8b"
11297            : "+w"(result)
11298            : "w"(tab), "w"(idx)
11299            : /* No clobbers */);
11300   return result;
11301 }
11302
11303 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11304 vqtbx1q_s8 (int8x16_t r, int8x16_t tab, uint8x16_t idx)
11305 {
11306   int8x16_t result = r;
11307   __asm__ ("tbx %0.16b,{%1.16b},%2.16b"
11308            : "+w"(result)
11309            : "w"(tab), "w"(idx)
11310            : /* No clobbers */);
11311   return result;
11312 }
11313
11314 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
11315 vqtbx1q_u8 (uint8x16_t r, uint8x16_t tab, uint8x16_t idx)
11316 {
11317   uint8x16_t result = r;
11318   __asm__ ("tbx %0.16b,{%1.16b},%2.16b"
11319            : "+w"(result)
11320            : "w"(tab), "w"(idx)
11321            : /* No clobbers */);
11322   return result;
11323 }
11324
11325 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
11326 vqtbx1q_p8 (poly8x16_t r, poly8x16_t tab, uint8x16_t idx)
11327 {
11328   poly8x16_t result = r;
11329   __asm__ ("tbx %0.16b,{%1.16b},%2.16b"
11330            : "+w"(result)
11331            : "w"(tab), "w"(idx)
11332            : /* No clobbers */);
11333   return result;
11334 }
11335
11336 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11337 vqtbx2_s8 (int8x8_t r, int8x16x2_t tab, uint8x8_t idx)
11338 {
11339   int8x8_t result = r;
11340   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11341            "tbx %0.8b, {v16.16b, v17.16b}, %2.8b\n\t"
11342            :"+w"(result)
11343            :"Q"(tab),"w"(idx)
11344            :"memory", "v16", "v17");
11345   return result;
11346 }
11347
11348 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11349 vqtbx2_u8 (uint8x8_t r, uint8x16x2_t tab, uint8x8_t idx)
11350 {
11351   uint8x8_t result = r;
11352   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11353            "tbx %0.8b, {v16.16b, v17.16b}, %2.8b\n\t"
11354            :"+w"(result)
11355            :"Q"(tab),"w"(idx)
11356            :"memory", "v16", "v17");
11357   return result;
11358 }
11359
11360 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11361 vqtbx2_p8 (poly8x8_t r, poly8x16x2_t tab, uint8x8_t idx)
11362 {
11363   poly8x8_t result = r;
11364   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11365            "tbx %0.8b, {v16.16b, v17.16b}, %2.8b\n\t"
11366            :"+w"(result)
11367            :"Q"(tab),"w"(idx)
11368            :"memory", "v16", "v17");
11369   return result;
11370 }
11371
11372
11373 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11374 vqtbx2q_s8 (int8x16_t r, int8x16x2_t tab, uint8x16_t idx)
11375 {
11376   int8x16_t result = r;
11377   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11378            "tbx %0.16b, {v16.16b, v17.16b}, %2.16b\n\t"
11379            :"+w"(result)
11380            :"Q"(tab),"w"(idx)
11381            :"memory", "v16", "v17");
11382   return result;
11383 }
11384
11385 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
11386 vqtbx2q_u8 (uint8x16_t r, uint8x16x2_t tab, uint8x16_t idx)
11387 {
11388   uint8x16_t result = r;
11389   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11390            "tbx %0.16b, {v16.16b, v17.16b}, %2.16b\n\t"
11391            :"+w"(result)
11392            :"Q"(tab),"w"(idx)
11393            :"memory", "v16", "v17");
11394   return result;
11395 }
11396
11397 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
11398 vqtbx2q_p8 (poly8x16_t r, poly8x16x2_t tab, uint8x16_t idx)
11399 {
11400   poly8x16_t result = r;
11401   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
11402            "tbx %0.16b, {v16.16b, v17.16b}, %2.16b\n\t"
11403            :"+w"(result)
11404            :"Q"(tab),"w"(idx)
11405            :"memory", "v16", "v17");
11406   return result;
11407 }
11408
11409
11410 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11411 vqtbx3_s8 (int8x8_t r, int8x16x3_t tab, uint8x8_t idx)
11412 {
11413   int8x8_t result = r;
11414   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11415            "tbx %0.8b, {v16.16b - v18.16b}, %2.8b\n\t"
11416            :"+w"(result)
11417            :"Q"(tab),"w"(idx)
11418            :"memory", "v16", "v17", "v18");
11419   return result;
11420 }
11421
11422 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11423 vqtbx3_u8 (uint8x8_t r, uint8x16x3_t tab, uint8x8_t idx)
11424 {
11425   uint8x8_t result = r;
11426   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11427            "tbx %0.8b, {v16.16b - v18.16b}, %2.8b\n\t"
11428            :"+w"(result)
11429            :"Q"(tab),"w"(idx)
11430            :"memory", "v16", "v17", "v18");
11431   return result;
11432 }
11433
11434 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11435 vqtbx3_p8 (poly8x8_t r, poly8x16x3_t tab, uint8x8_t idx)
11436 {
11437   poly8x8_t result = r;
11438   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11439            "tbx %0.8b, {v16.16b - v18.16b}, %2.8b\n\t"
11440            :"+w"(result)
11441            :"Q"(tab),"w"(idx)
11442            :"memory", "v16", "v17", "v18");
11443   return result;
11444 }
11445
11446
11447 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11448 vqtbx3q_s8 (int8x16_t r, int8x16x3_t tab, uint8x16_t idx)
11449 {
11450   int8x16_t result = r;
11451   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11452            "tbx %0.16b, {v16.16b - v18.16b}, %2.16b\n\t"
11453            :"+w"(result)
11454            :"Q"(tab),"w"(idx)
11455            :"memory", "v16", "v17", "v18");
11456   return result;
11457 }
11458
11459 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
11460 vqtbx3q_u8 (uint8x16_t r, uint8x16x3_t tab, uint8x16_t idx)
11461 {
11462   uint8x16_t result = r;
11463   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11464            "tbx %0.16b, {v16.16b - v18.16b}, %2.16b\n\t"
11465            :"+w"(result)
11466            :"Q"(tab),"w"(idx)
11467            :"memory", "v16", "v17", "v18");
11468   return result;
11469 }
11470
11471 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
11472 vqtbx3q_p8 (poly8x16_t r, poly8x16x3_t tab, uint8x16_t idx)
11473 {
11474   poly8x16_t result = r;
11475   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
11476            "tbx %0.16b, {v16.16b - v18.16b}, %2.16b\n\t"
11477            :"+w"(result)
11478            :"Q"(tab),"w"(idx)
11479            :"memory", "v16", "v17", "v18");
11480   return result;
11481 }
11482
11483
11484 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11485 vqtbx4_s8 (int8x8_t r, int8x16x4_t tab, uint8x8_t idx)
11486 {
11487   int8x8_t result = r;
11488   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11489            "tbx %0.8b, {v16.16b - v19.16b}, %2.8b\n\t"
11490            :"+w"(result)
11491            :"Q"(tab),"w"(idx)
11492            :"memory", "v16", "v17", "v18", "v19");
11493   return result;
11494 }
11495
11496 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11497 vqtbx4_u8 (uint8x8_t r, uint8x16x4_t tab, uint8x8_t idx)
11498 {
11499   uint8x8_t result = r;
11500   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11501            "tbx %0.8b, {v16.16b - v19.16b}, %2.8b\n\t"
11502            :"+w"(result)
11503            :"Q"(tab),"w"(idx)
11504            :"memory", "v16", "v17", "v18", "v19");
11505   return result;
11506 }
11507
11508 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11509 vqtbx4_p8 (poly8x8_t r, poly8x16x4_t tab, uint8x8_t idx)
11510 {
11511   poly8x8_t result = r;
11512   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11513            "tbx %0.8b, {v16.16b - v19.16b}, %2.8b\n\t"
11514            :"+w"(result)
11515            :"Q"(tab),"w"(idx)
11516            :"memory", "v16", "v17", "v18", "v19");
11517   return result;
11518 }
11519
11520
11521 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11522 vqtbx4q_s8 (int8x16_t r, int8x16x4_t tab, uint8x16_t idx)
11523 {
11524   int8x16_t result = r;
11525   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11526            "tbx %0.16b, {v16.16b - v19.16b}, %2.16b\n\t"
11527            :"+w"(result)
11528            :"Q"(tab),"w"(idx)
11529            :"memory", "v16", "v17", "v18", "v19");
11530   return result;
11531 }
11532
11533 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
11534 vqtbx4q_u8 (uint8x16_t r, uint8x16x4_t tab, uint8x16_t idx)
11535 {
11536   uint8x16_t result = r;
11537   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11538            "tbx %0.16b, {v16.16b - v19.16b}, %2.16b\n\t"
11539            :"+w"(result)
11540            :"Q"(tab),"w"(idx)
11541            :"memory", "v16", "v17", "v18", "v19");
11542   return result;
11543 }
11544
11545 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
11546 vqtbx4q_p8 (poly8x16_t r, poly8x16x4_t tab, uint8x16_t idx)
11547 {
11548   poly8x16_t result = r;
11549   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
11550            "tbx %0.16b, {v16.16b - v19.16b}, %2.16b\n\t"
11551            :"+w"(result)
11552            :"Q"(tab),"w"(idx)
11553            :"memory", "v16", "v17", "v18", "v19");
11554   return result;
11555 }
11556
11557 /* V7 legacy table intrinsics.  */
11558
11559 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11560 vtbl1_s8 (int8x8_t tab, int8x8_t idx)
11561 {
11562   int8x8_t result;
11563   int8x16_t temp = vcombine_s8 (tab, vcreate_s8 (__AARCH64_UINT64_C (0x0)));
11564   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
11565            : "=w"(result)
11566            : "w"(temp), "w"(idx)
11567            : /* No clobbers */);
11568   return result;
11569 }
11570
11571 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11572 vtbl1_u8 (uint8x8_t tab, uint8x8_t idx)
11573 {
11574   uint8x8_t result;
11575   uint8x16_t temp = vcombine_u8 (tab, vcreate_u8 (__AARCH64_UINT64_C (0x0)));
11576   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
11577            : "=w"(result)
11578            : "w"(temp), "w"(idx)
11579            : /* No clobbers */);
11580   return result;
11581 }
11582
11583 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11584 vtbl1_p8 (poly8x8_t tab, uint8x8_t idx)
11585 {
11586   poly8x8_t result;
11587   poly8x16_t temp = vcombine_p8 (tab, vcreate_p8 (__AARCH64_UINT64_C (0x0)));
11588   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
11589            : "=w"(result)
11590            : "w"(temp), "w"(idx)
11591            : /* No clobbers */);
11592   return result;
11593 }
11594
11595 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11596 vtbl2_s8 (int8x8x2_t tab, int8x8_t idx)
11597 {
11598   int8x8_t result;
11599   int8x16_t temp = vcombine_s8 (tab.val[0], tab.val[1]);
11600   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
11601            : "=w"(result)
11602            : "w"(temp), "w"(idx)
11603            : /* No clobbers */);
11604   return result;
11605 }
11606
11607 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11608 vtbl2_u8 (uint8x8x2_t tab, uint8x8_t idx)
11609 {
11610   uint8x8_t result;
11611   uint8x16_t temp = vcombine_u8 (tab.val[0], tab.val[1]);
11612   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
11613            : "=w"(result)
11614            : "w"(temp), "w"(idx)
11615            : /* No clobbers */);
11616   return result;
11617 }
11618
11619 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11620 vtbl2_p8 (poly8x8x2_t tab, uint8x8_t idx)
11621 {
11622   poly8x8_t result;
11623   poly8x16_t temp = vcombine_p8 (tab.val[0], tab.val[1]);
11624   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
11625            : "=w"(result)
11626            : "w"(temp), "w"(idx)
11627            : /* No clobbers */);
11628   return result;
11629 }
11630
11631 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11632 vtbl3_s8 (int8x8x3_t tab, int8x8_t idx)
11633 {
11634   int8x8_t result;
11635   int8x16x2_t temp;
11636   temp.val[0] = vcombine_s8 (tab.val[0], tab.val[1]);
11637   temp.val[1] = vcombine_s8 (tab.val[2], vcreate_s8 (__AARCH64_UINT64_C (0x0)));
11638   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
11639            "tbl %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
11640            : "=w"(result)
11641            : "Q"(temp), "w"(idx)
11642            : "v16", "v17", "memory");
11643   return result;
11644 }
11645
11646 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11647 vtbl3_u8 (uint8x8x3_t tab, uint8x8_t idx)
11648 {
11649   uint8x8_t result;
11650   uint8x16x2_t temp;
11651   temp.val[0] = vcombine_u8 (tab.val[0], tab.val[1]);
11652   temp.val[1] = vcombine_u8 (tab.val[2], vcreate_u8 (__AARCH64_UINT64_C (0x0)));
11653   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
11654            "tbl %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
11655            : "=w"(result)
11656            : "Q"(temp), "w"(idx)
11657            : "v16", "v17", "memory");
11658   return result;
11659 }
11660
11661 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11662 vtbl3_p8 (poly8x8x3_t tab, uint8x8_t idx)
11663 {
11664   poly8x8_t result;
11665   poly8x16x2_t temp;
11666   temp.val[0] = vcombine_p8 (tab.val[0], tab.val[1]);
11667   temp.val[1] = vcombine_p8 (tab.val[2], vcreate_p8 (__AARCH64_UINT64_C (0x0)));
11668   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
11669            "tbl %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
11670            : "=w"(result)
11671            : "Q"(temp), "w"(idx)
11672            : "v16", "v17", "memory");
11673   return result;
11674 }
11675
11676 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11677 vtbl4_s8 (int8x8x4_t tab, int8x8_t idx)
11678 {
11679   int8x8_t result;
11680   int8x16x2_t temp;
11681   temp.val[0] = vcombine_s8 (tab.val[0], tab.val[1]);
11682   temp.val[1] = vcombine_s8 (tab.val[2], tab.val[3]);
11683   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
11684            "tbl %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
11685            : "=w"(result)
11686            : "Q"(temp), "w"(idx)
11687            : "v16", "v17", "memory");
11688   return result;
11689 }
11690
11691 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11692 vtbl4_u8 (uint8x8x4_t tab, uint8x8_t idx)
11693 {
11694   uint8x8_t result;
11695   uint8x16x2_t temp;
11696   temp.val[0] = vcombine_u8 (tab.val[0], tab.val[1]);
11697   temp.val[1] = vcombine_u8 (tab.val[2], tab.val[3]);
11698   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
11699            "tbl %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
11700            : "=w"(result)
11701            : "Q"(temp), "w"(idx)
11702            : "v16", "v17", "memory");
11703   return result;
11704 }
11705
11706 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11707 vtbl4_p8 (poly8x8x4_t tab, uint8x8_t idx)
11708 {
11709   poly8x8_t result;
11710   poly8x16x2_t temp;
11711   temp.val[0] = vcombine_p8 (tab.val[0], tab.val[1]);
11712   temp.val[1] = vcombine_p8 (tab.val[2], tab.val[3]);
11713   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
11714            "tbl %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
11715            : "=w"(result)
11716            : "Q"(temp), "w"(idx)
11717            : "v16", "v17", "memory");
11718   return result;
11719 }
11720
11721 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11722 vtbx2_s8 (int8x8_t r, int8x8x2_t tab, int8x8_t idx)
11723 {
11724   int8x8_t result = r;
11725   int8x16_t temp = vcombine_s8 (tab.val[0], tab.val[1]);
11726   __asm__ ("tbx %0.8b, {%1.16b}, %2.8b"
11727            : "+w"(result)
11728            : "w"(temp), "w"(idx)
11729            : /* No clobbers */);
11730   return result;
11731 }
11732
11733 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11734 vtbx2_u8 (uint8x8_t r, uint8x8x2_t tab, uint8x8_t idx)
11735 {
11736   uint8x8_t result = r;
11737   uint8x16_t temp = vcombine_u8 (tab.val[0], tab.val[1]);
11738   __asm__ ("tbx %0.8b, {%1.16b}, %2.8b"
11739            : "+w"(result)
11740            : "w"(temp), "w"(idx)
11741            : /* No clobbers */);
11742   return result;
11743 }
11744
11745 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11746 vtbx2_p8 (poly8x8_t r, poly8x8x2_t tab, uint8x8_t idx)
11747 {
11748   poly8x8_t result = r;
11749   poly8x16_t temp = vcombine_p8 (tab.val[0], tab.val[1]);
11750   __asm__ ("tbx %0.8b, {%1.16b}, %2.8b"
11751            : "+w"(result)
11752            : "w"(temp), "w"(idx)
11753            : /* No clobbers */);
11754   return result;
11755 }
11756
11757 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11758 vtbx4_s8 (int8x8_t r, int8x8x4_t tab, int8x8_t idx)
11759 {
11760   int8x8_t result = r;
11761   int8x16x2_t temp;
11762   temp.val[0] = vcombine_s8 (tab.val[0], tab.val[1]);
11763   temp.val[1] = vcombine_s8 (tab.val[2], tab.val[3]);
11764   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
11765            "tbx %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
11766            : "+w"(result)
11767            : "Q"(temp), "w"(idx)
11768            : "v16", "v17", "memory");
11769   return result;
11770 }
11771
11772 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11773 vtbx4_u8 (uint8x8_t r, uint8x8x4_t tab, uint8x8_t idx)
11774 {
11775   uint8x8_t result = r;
11776   uint8x16x2_t temp;
11777   temp.val[0] = vcombine_u8 (tab.val[0], tab.val[1]);
11778   temp.val[1] = vcombine_u8 (tab.val[2], tab.val[3]);
11779   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
11780            "tbx %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
11781            : "+w"(result)
11782            : "Q"(temp), "w"(idx)
11783            : "v16", "v17", "memory");
11784   return result;
11785 }
11786
11787 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11788 vtbx4_p8 (poly8x8_t r, poly8x8x4_t tab, uint8x8_t idx)
11789 {
11790   poly8x8_t result = r;
11791   poly8x16x2_t temp;
11792   temp.val[0] = vcombine_p8 (tab.val[0], tab.val[1]);
11793   temp.val[1] = vcombine_p8 (tab.val[2], tab.val[3]);
11794   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
11795            "tbx %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
11796            : "+w"(result)
11797            : "Q"(temp), "w"(idx)
11798            : "v16", "v17", "memory");
11799   return result;
11800 }
11801
11802 /* End of temporary inline asm.  */
11803
11804 /* Start of optimal implementations in approved order.  */
11805
11806 /* vabs  */
11807
11808 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
11809 vabs_f32 (float32x2_t __a)
11810 {
11811   return __builtin_aarch64_absv2sf (__a);
11812 }
11813
11814 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
11815 vabs_f64 (float64x1_t __a)
11816 {
11817   return (float64x1_t) {__builtin_fabs (__a[0])};
11818 }
11819
11820 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11821 vabs_s8 (int8x8_t __a)
11822 {
11823   return __builtin_aarch64_absv8qi (__a);
11824 }
11825
11826 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
11827 vabs_s16 (int16x4_t __a)
11828 {
11829   return __builtin_aarch64_absv4hi (__a);
11830 }
11831
11832 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
11833 vabs_s32 (int32x2_t __a)
11834 {
11835   return __builtin_aarch64_absv2si (__a);
11836 }
11837
11838 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
11839 vabs_s64 (int64x1_t __a)
11840 {
11841   return (int64x1_t) {__builtin_aarch64_absdi (__a[0])};
11842 }
11843
11844 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
11845 vabsq_f32 (float32x4_t __a)
11846 {
11847   return __builtin_aarch64_absv4sf (__a);
11848 }
11849
11850 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
11851 vabsq_f64 (float64x2_t __a)
11852 {
11853   return __builtin_aarch64_absv2df (__a);
11854 }
11855
11856 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11857 vabsq_s8 (int8x16_t __a)
11858 {
11859   return __builtin_aarch64_absv16qi (__a);
11860 }
11861
11862 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
11863 vabsq_s16 (int16x8_t __a)
11864 {
11865   return __builtin_aarch64_absv8hi (__a);
11866 }
11867
11868 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
11869 vabsq_s32 (int32x4_t __a)
11870 {
11871   return __builtin_aarch64_absv4si (__a);
11872 }
11873
11874 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
11875 vabsq_s64 (int64x2_t __a)
11876 {
11877   return __builtin_aarch64_absv2di (__a);
11878 }
11879
11880 /* vadd */
11881
11882 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
11883 vaddd_s64 (int64_t __a, int64_t __b)
11884 {
11885   return __a + __b;
11886 }
11887
11888 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
11889 vaddd_u64 (uint64_t __a, uint64_t __b)
11890 {
11891   return __a + __b;
11892 }
11893
11894 /* vaddv */
11895
11896 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
11897 vaddv_s8 (int8x8_t __a)
11898 {
11899   return __builtin_aarch64_reduc_plus_scal_v8qi (__a);
11900 }
11901
11902 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
11903 vaddv_s16 (int16x4_t __a)
11904 {
11905   return __builtin_aarch64_reduc_plus_scal_v4hi (__a);
11906 }
11907
11908 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
11909 vaddv_s32 (int32x2_t __a)
11910 {
11911   return __builtin_aarch64_reduc_plus_scal_v2si (__a);
11912 }
11913
11914 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
11915 vaddv_u8 (uint8x8_t __a)
11916 {
11917   return (uint8_t) __builtin_aarch64_reduc_plus_scal_v8qi ((int8x8_t) __a);
11918 }
11919
11920 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
11921 vaddv_u16 (uint16x4_t __a)
11922 {
11923   return (uint16_t) __builtin_aarch64_reduc_plus_scal_v4hi ((int16x4_t) __a);
11924 }
11925
11926 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
11927 vaddv_u32 (uint32x2_t __a)
11928 {
11929   return (int32_t) __builtin_aarch64_reduc_plus_scal_v2si ((int32x2_t) __a);
11930 }
11931
11932 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
11933 vaddvq_s8 (int8x16_t __a)
11934 {
11935   return __builtin_aarch64_reduc_plus_scal_v16qi (__a);
11936 }
11937
11938 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
11939 vaddvq_s16 (int16x8_t __a)
11940 {
11941   return __builtin_aarch64_reduc_plus_scal_v8hi (__a);
11942 }
11943
11944 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
11945 vaddvq_s32 (int32x4_t __a)
11946 {
11947   return __builtin_aarch64_reduc_plus_scal_v4si (__a);
11948 }
11949
11950 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
11951 vaddvq_s64 (int64x2_t __a)
11952 {
11953   return __builtin_aarch64_reduc_plus_scal_v2di (__a);
11954 }
11955
11956 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
11957 vaddvq_u8 (uint8x16_t __a)
11958 {
11959   return (uint8_t) __builtin_aarch64_reduc_plus_scal_v16qi ((int8x16_t) __a);
11960 }
11961
11962 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
11963 vaddvq_u16 (uint16x8_t __a)
11964 {
11965   return (uint16_t) __builtin_aarch64_reduc_plus_scal_v8hi ((int16x8_t) __a);
11966 }
11967
11968 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
11969 vaddvq_u32 (uint32x4_t __a)
11970 {
11971   return (uint32_t) __builtin_aarch64_reduc_plus_scal_v4si ((int32x4_t) __a);
11972 }
11973
11974 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
11975 vaddvq_u64 (uint64x2_t __a)
11976 {
11977   return (uint64_t) __builtin_aarch64_reduc_plus_scal_v2di ((int64x2_t) __a);
11978 }
11979
11980 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
11981 vaddv_f32 (float32x2_t __a)
11982 {
11983   return __builtin_aarch64_reduc_plus_scal_v2sf (__a);
11984 }
11985
11986 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
11987 vaddvq_f32 (float32x4_t __a)
11988 {
11989   return __builtin_aarch64_reduc_plus_scal_v4sf (__a);
11990 }
11991
11992 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
11993 vaddvq_f64 (float64x2_t __a)
11994 {
11995   return __builtin_aarch64_reduc_plus_scal_v2df (__a);
11996 }
11997
11998 /* vbsl  */
11999
12000 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
12001 vbsl_f32 (uint32x2_t __a, float32x2_t __b, float32x2_t __c)
12002 {
12003   return __builtin_aarch64_simd_bslv2sf_suss (__a, __b, __c);
12004 }
12005
12006 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
12007 vbsl_f64 (uint64x1_t __a, float64x1_t __b, float64x1_t __c)
12008 {
12009   return (float64x1_t)
12010     { __builtin_aarch64_simd_bsldf_suss (__a[0], __b[0], __c[0]) };
12011 }
12012
12013 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
12014 vbsl_p8 (uint8x8_t __a, poly8x8_t __b, poly8x8_t __c)
12015 {
12016   return __builtin_aarch64_simd_bslv8qi_pupp (__a, __b, __c);
12017 }
12018
12019 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
12020 vbsl_p16 (uint16x4_t __a, poly16x4_t __b, poly16x4_t __c)
12021 {
12022   return __builtin_aarch64_simd_bslv4hi_pupp (__a, __b, __c);
12023 }
12024
12025 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
12026 vbsl_s8 (uint8x8_t __a, int8x8_t __b, int8x8_t __c)
12027 {
12028   return __builtin_aarch64_simd_bslv8qi_suss (__a, __b, __c);
12029 }
12030
12031 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
12032 vbsl_s16 (uint16x4_t __a, int16x4_t __b, int16x4_t __c)
12033 {
12034   return __builtin_aarch64_simd_bslv4hi_suss (__a, __b, __c);
12035 }
12036
12037 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
12038 vbsl_s32 (uint32x2_t __a, int32x2_t __b, int32x2_t __c)
12039 {
12040   return __builtin_aarch64_simd_bslv2si_suss (__a, __b, __c);
12041 }
12042
12043 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
12044 vbsl_s64 (uint64x1_t __a, int64x1_t __b, int64x1_t __c)
12045 {
12046   return (int64x1_t)
12047       {__builtin_aarch64_simd_bsldi_suss (__a[0], __b[0], __c[0])};
12048 }
12049
12050 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12051 vbsl_u8 (uint8x8_t __a, uint8x8_t __b, uint8x8_t __c)
12052 {
12053   return __builtin_aarch64_simd_bslv8qi_uuuu (__a, __b, __c);
12054 }
12055
12056 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12057 vbsl_u16 (uint16x4_t __a, uint16x4_t __b, uint16x4_t __c)
12058 {
12059   return __builtin_aarch64_simd_bslv4hi_uuuu (__a, __b, __c);
12060 }
12061
12062 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12063 vbsl_u32 (uint32x2_t __a, uint32x2_t __b, uint32x2_t __c)
12064 {
12065   return __builtin_aarch64_simd_bslv2si_uuuu (__a, __b, __c);
12066 }
12067
12068 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12069 vbsl_u64 (uint64x1_t __a, uint64x1_t __b, uint64x1_t __c)
12070 {
12071   return (uint64x1_t)
12072       {__builtin_aarch64_simd_bsldi_uuuu (__a[0], __b[0], __c[0])};
12073 }
12074
12075 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
12076 vbslq_f32 (uint32x4_t __a, float32x4_t __b, float32x4_t __c)
12077 {
12078   return __builtin_aarch64_simd_bslv4sf_suss (__a, __b, __c);
12079 }
12080
12081 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
12082 vbslq_f64 (uint64x2_t __a, float64x2_t __b, float64x2_t __c)
12083 {
12084   return __builtin_aarch64_simd_bslv2df_suss (__a, __b, __c);
12085 }
12086
12087 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
12088 vbslq_p8 (uint8x16_t __a, poly8x16_t __b, poly8x16_t __c)
12089 {
12090   return __builtin_aarch64_simd_bslv16qi_pupp (__a, __b, __c);
12091 }
12092
12093 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
12094 vbslq_p16 (uint16x8_t __a, poly16x8_t __b, poly16x8_t __c)
12095 {
12096   return __builtin_aarch64_simd_bslv8hi_pupp (__a, __b, __c);
12097 }
12098
12099 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
12100 vbslq_s8 (uint8x16_t __a, int8x16_t __b, int8x16_t __c)
12101 {
12102   return __builtin_aarch64_simd_bslv16qi_suss (__a, __b, __c);
12103 }
12104
12105 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
12106 vbslq_s16 (uint16x8_t __a, int16x8_t __b, int16x8_t __c)
12107 {
12108   return __builtin_aarch64_simd_bslv8hi_suss (__a, __b, __c);
12109 }
12110
12111 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
12112 vbslq_s32 (uint32x4_t __a, int32x4_t __b, int32x4_t __c)
12113 {
12114   return __builtin_aarch64_simd_bslv4si_suss (__a, __b, __c);
12115 }
12116
12117 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
12118 vbslq_s64 (uint64x2_t __a, int64x2_t __b, int64x2_t __c)
12119 {
12120   return __builtin_aarch64_simd_bslv2di_suss (__a, __b, __c);
12121 }
12122
12123 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12124 vbslq_u8 (uint8x16_t __a, uint8x16_t __b, uint8x16_t __c)
12125 {
12126   return __builtin_aarch64_simd_bslv16qi_uuuu (__a, __b, __c);
12127 }
12128
12129 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
12130 vbslq_u16 (uint16x8_t __a, uint16x8_t __b, uint16x8_t __c)
12131 {
12132   return __builtin_aarch64_simd_bslv8hi_uuuu (__a, __b, __c);
12133 }
12134
12135 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12136 vbslq_u32 (uint32x4_t __a, uint32x4_t __b, uint32x4_t __c)
12137 {
12138   return __builtin_aarch64_simd_bslv4si_uuuu (__a, __b, __c);
12139 }
12140
12141 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12142 vbslq_u64 (uint64x2_t __a, uint64x2_t __b, uint64x2_t __c)
12143 {
12144   return __builtin_aarch64_simd_bslv2di_uuuu (__a, __b, __c);
12145 }
12146
12147 #ifdef __ARM_FEATURE_CRYPTO
12148
12149 /* vaes  */
12150
12151 static __inline uint8x16_t
12152 vaeseq_u8 (uint8x16_t data, uint8x16_t key)
12153 {
12154   return __builtin_aarch64_crypto_aesev16qi_uuu (data, key);
12155 }
12156
12157 static __inline uint8x16_t
12158 vaesdq_u8 (uint8x16_t data, uint8x16_t key)
12159 {
12160   return __builtin_aarch64_crypto_aesdv16qi_uuu (data, key);
12161 }
12162
12163 static __inline uint8x16_t
12164 vaesmcq_u8 (uint8x16_t data)
12165 {
12166   return __builtin_aarch64_crypto_aesmcv16qi_uu (data);
12167 }
12168
12169 static __inline uint8x16_t
12170 vaesimcq_u8 (uint8x16_t data)
12171 {
12172   return __builtin_aarch64_crypto_aesimcv16qi_uu (data);
12173 }
12174
12175 #endif
12176
12177 /* vcage  */
12178
12179 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12180 vcage_f64 (float64x1_t __a, float64x1_t __b)
12181 {
12182   return vabs_f64 (__a) >= vabs_f64 (__b);
12183 }
12184
12185 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
12186 vcages_f32 (float32_t __a, float32_t __b)
12187 {
12188   return __builtin_fabsf (__a) >= __builtin_fabsf (__b) ? -1 : 0;
12189 }
12190
12191 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12192 vcage_f32 (float32x2_t __a, float32x2_t __b)
12193 {
12194   return vabs_f32 (__a) >= vabs_f32 (__b);
12195 }
12196
12197 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12198 vcageq_f32 (float32x4_t __a, float32x4_t __b)
12199 {
12200   return vabsq_f32 (__a) >= vabsq_f32 (__b);
12201 }
12202
12203 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12204 vcaged_f64 (float64_t __a, float64_t __b)
12205 {
12206   return __builtin_fabs (__a) >= __builtin_fabs (__b) ? -1 : 0;
12207 }
12208
12209 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12210 vcageq_f64 (float64x2_t __a, float64x2_t __b)
12211 {
12212   return vabsq_f64 (__a) >= vabsq_f64 (__b);
12213 }
12214
12215 /* vcagt  */
12216
12217 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
12218 vcagts_f32 (float32_t __a, float32_t __b)
12219 {
12220   return __builtin_fabsf (__a) > __builtin_fabsf (__b) ? -1 : 0;
12221 }
12222
12223 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12224 vcagt_f32 (float32x2_t __a, float32x2_t __b)
12225 {
12226   return vabs_f32 (__a) > vabs_f32 (__b);
12227 }
12228
12229 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12230 vcagt_f64 (float64x1_t __a, float64x1_t __b)
12231 {
12232   return vabs_f64 (__a) > vabs_f64 (__b);
12233 }
12234
12235 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12236 vcagtq_f32 (float32x4_t __a, float32x4_t __b)
12237 {
12238   return vabsq_f32 (__a) > vabsq_f32 (__b);
12239 }
12240
12241 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12242 vcagtd_f64 (float64_t __a, float64_t __b)
12243 {
12244   return __builtin_fabs (__a) > __builtin_fabs (__b) ? -1 : 0;
12245 }
12246
12247 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12248 vcagtq_f64 (float64x2_t __a, float64x2_t __b)
12249 {
12250   return vabsq_f64 (__a) > vabsq_f64 (__b);
12251 }
12252
12253 /* vcale  */
12254
12255 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12256 vcale_f32 (float32x2_t __a, float32x2_t __b)
12257 {
12258   return vabs_f32 (__a) <= vabs_f32 (__b);
12259 }
12260
12261 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12262 vcale_f64 (float64x1_t __a, float64x1_t __b)
12263 {
12264   return vabs_f64 (__a) <= vabs_f64 (__b);
12265 }
12266
12267 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12268 vcaled_f64 (float64_t __a, float64_t __b)
12269 {
12270   return __builtin_fabs (__a) <= __builtin_fabs (__b) ? -1 : 0;
12271 }
12272
12273 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
12274 vcales_f32 (float32_t __a, float32_t __b)
12275 {
12276   return __builtin_fabsf (__a) <= __builtin_fabsf (__b) ? -1 : 0;
12277 }
12278
12279 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12280 vcaleq_f32 (float32x4_t __a, float32x4_t __b)
12281 {
12282   return vabsq_f32 (__a) <= vabsq_f32 (__b);
12283 }
12284
12285 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12286 vcaleq_f64 (float64x2_t __a, float64x2_t __b)
12287 {
12288   return vabsq_f64 (__a) <= vabsq_f64 (__b);
12289 }
12290
12291 /* vcalt  */
12292
12293 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12294 vcalt_f32 (float32x2_t __a, float32x2_t __b)
12295 {
12296   return vabs_f32 (__a) < vabs_f32 (__b);
12297 }
12298
12299 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12300 vcalt_f64 (float64x1_t __a, float64x1_t __b)
12301 {
12302   return vabs_f64 (__a) < vabs_f64 (__b);
12303 }
12304
12305 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12306 vcaltd_f64 (float64_t __a, float64_t __b)
12307 {
12308   return __builtin_fabs (__a) < __builtin_fabs (__b) ? -1 : 0;
12309 }
12310
12311 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12312 vcaltq_f32 (float32x4_t __a, float32x4_t __b)
12313 {
12314   return vabsq_f32 (__a) < vabsq_f32 (__b);
12315 }
12316
12317 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12318 vcaltq_f64 (float64x2_t __a, float64x2_t __b)
12319 {
12320   return vabsq_f64 (__a) < vabsq_f64 (__b);
12321 }
12322
12323 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
12324 vcalts_f32 (float32_t __a, float32_t __b)
12325 {
12326   return __builtin_fabsf (__a) < __builtin_fabsf (__b) ? -1 : 0;
12327 }
12328
12329 /* vceq - vector.  */
12330
12331 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12332 vceq_f32 (float32x2_t __a, float32x2_t __b)
12333 {
12334   return (uint32x2_t) (__a == __b);
12335 }
12336
12337 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12338 vceq_f64 (float64x1_t __a, float64x1_t __b)
12339 {
12340   return (uint64x1_t) (__a == __b);
12341 }
12342
12343 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12344 vceq_p8 (poly8x8_t __a, poly8x8_t __b)
12345 {
12346   return (uint8x8_t) (__a == __b);
12347 }
12348
12349 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12350 vceq_s8 (int8x8_t __a, int8x8_t __b)
12351 {
12352   return (uint8x8_t) (__a == __b);
12353 }
12354
12355 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12356 vceq_s16 (int16x4_t __a, int16x4_t __b)
12357 {
12358   return (uint16x4_t) (__a == __b);
12359 }
12360
12361 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12362 vceq_s32 (int32x2_t __a, int32x2_t __b)
12363 {
12364   return (uint32x2_t) (__a == __b);
12365 }
12366
12367 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12368 vceq_s64 (int64x1_t __a, int64x1_t __b)
12369 {
12370   return (uint64x1_t) {__a[0] == __b[0] ? -1ll : 0ll};
12371 }
12372
12373 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12374 vceq_u8 (uint8x8_t __a, uint8x8_t __b)
12375 {
12376   return (__a == __b);
12377 }
12378
12379 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12380 vceq_u16 (uint16x4_t __a, uint16x4_t __b)
12381 {
12382   return (__a == __b);
12383 }
12384
12385 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12386 vceq_u32 (uint32x2_t __a, uint32x2_t __b)
12387 {
12388   return (__a == __b);
12389 }
12390
12391 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12392 vceq_u64 (uint64x1_t __a, uint64x1_t __b)
12393 {
12394   return (uint64x1_t) {__a[0] == __b[0] ? -1ll : 0ll};
12395 }
12396
12397 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12398 vceqq_f32 (float32x4_t __a, float32x4_t __b)
12399 {
12400   return (uint32x4_t) (__a == __b);
12401 }
12402
12403 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12404 vceqq_f64 (float64x2_t __a, float64x2_t __b)
12405 {
12406   return (uint64x2_t) (__a == __b);
12407 }
12408
12409 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12410 vceqq_p8 (poly8x16_t __a, poly8x16_t __b)
12411 {
12412   return (uint8x16_t) (__a == __b);
12413 }
12414
12415 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12416 vceqq_s8 (int8x16_t __a, int8x16_t __b)
12417 {
12418   return (uint8x16_t) (__a == __b);
12419 }
12420
12421 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
12422 vceqq_s16 (int16x8_t __a, int16x8_t __b)
12423 {
12424   return (uint16x8_t) (__a == __b);
12425 }
12426
12427 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12428 vceqq_s32 (int32x4_t __a, int32x4_t __b)
12429 {
12430   return (uint32x4_t) (__a == __b);
12431 }
12432
12433 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12434 vceqq_s64 (int64x2_t __a, int64x2_t __b)
12435 {
12436   return (uint64x2_t) (__a == __b);
12437 }
12438
12439 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12440 vceqq_u8 (uint8x16_t __a, uint8x16_t __b)
12441 {
12442   return (__a == __b);
12443 }
12444
12445 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
12446 vceqq_u16 (uint16x8_t __a, uint16x8_t __b)
12447 {
12448   return (__a == __b);
12449 }
12450
12451 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12452 vceqq_u32 (uint32x4_t __a, uint32x4_t __b)
12453 {
12454   return (__a == __b);
12455 }
12456
12457 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12458 vceqq_u64 (uint64x2_t __a, uint64x2_t __b)
12459 {
12460   return (__a == __b);
12461 }
12462
12463 /* vceq - scalar.  */
12464
12465 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
12466 vceqs_f32 (float32_t __a, float32_t __b)
12467 {
12468   return __a == __b ? -1 : 0;
12469 }
12470
12471 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12472 vceqd_s64 (int64_t __a, int64_t __b)
12473 {
12474   return __a == __b ? -1ll : 0ll;
12475 }
12476
12477 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12478 vceqd_u64 (uint64_t __a, uint64_t __b)
12479 {
12480   return __a == __b ? -1ll : 0ll;
12481 }
12482
12483 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12484 vceqd_f64 (float64_t __a, float64_t __b)
12485 {
12486   return __a == __b ? -1ll : 0ll;
12487 }
12488
12489 /* vceqz - vector.  */
12490
12491 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12492 vceqz_f32 (float32x2_t __a)
12493 {
12494   return (uint32x2_t) (__a == 0.0f);
12495 }
12496
12497 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12498 vceqz_f64 (float64x1_t __a)
12499 {
12500   return (uint64x1_t) (__a == (float64x1_t) {0.0});
12501 }
12502
12503 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12504 vceqz_p8 (poly8x8_t __a)
12505 {
12506   return (uint8x8_t) (__a == 0);
12507 }
12508
12509 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12510 vceqz_s8 (int8x8_t __a)
12511 {
12512   return (uint8x8_t) (__a == 0);
12513 }
12514
12515 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12516 vceqz_s16 (int16x4_t __a)
12517 {
12518   return (uint16x4_t) (__a == 0);
12519 }
12520
12521 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12522 vceqz_s32 (int32x2_t __a)
12523 {
12524   return (uint32x2_t) (__a == 0);
12525 }
12526
12527 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12528 vceqz_s64 (int64x1_t __a)
12529 {
12530   return (uint64x1_t) {__a[0] == 0ll ? -1ll : 0ll};
12531 }
12532
12533 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12534 vceqz_u8 (uint8x8_t __a)
12535 {
12536   return (__a == 0);
12537 }
12538
12539 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12540 vceqz_u16 (uint16x4_t __a)
12541 {
12542   return (__a == 0);
12543 }
12544
12545 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12546 vceqz_u32 (uint32x2_t __a)
12547 {
12548   return (__a == 0);
12549 }
12550
12551 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12552 vceqz_u64 (uint64x1_t __a)
12553 {
12554   return (uint64x1_t) {__a[0] == 0ll ? -1ll : 0ll};
12555 }
12556
12557 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12558 vceqzq_f32 (float32x4_t __a)
12559 {
12560   return (uint32x4_t) (__a == 0.0f);
12561 }
12562
12563 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12564 vceqzq_f64 (float64x2_t __a)
12565 {
12566   return (uint64x2_t) (__a == 0.0f);
12567 }
12568
12569 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12570 vceqzq_p8 (poly8x16_t __a)
12571 {
12572   return (uint8x16_t) (__a == 0);
12573 }
12574
12575 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12576 vceqzq_s8 (int8x16_t __a)
12577 {
12578   return (uint8x16_t) (__a == 0);
12579 }
12580
12581 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
12582 vceqzq_s16 (int16x8_t __a)
12583 {
12584   return (uint16x8_t) (__a == 0);
12585 }
12586
12587 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12588 vceqzq_s32 (int32x4_t __a)
12589 {
12590   return (uint32x4_t) (__a == 0);
12591 }
12592
12593 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12594 vceqzq_s64 (int64x2_t __a)
12595 {
12596   return (uint64x2_t) (__a == __AARCH64_INT64_C (0));
12597 }
12598
12599 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12600 vceqzq_u8 (uint8x16_t __a)
12601 {
12602   return (__a == 0);
12603 }
12604
12605 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
12606 vceqzq_u16 (uint16x8_t __a)
12607 {
12608   return (__a == 0);
12609 }
12610
12611 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12612 vceqzq_u32 (uint32x4_t __a)
12613 {
12614   return (__a == 0);
12615 }
12616
12617 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12618 vceqzq_u64 (uint64x2_t __a)
12619 {
12620   return (__a == __AARCH64_UINT64_C (0));
12621 }
12622
12623 /* vceqz - scalar.  */
12624
12625 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
12626 vceqzs_f32 (float32_t __a)
12627 {
12628   return __a == 0.0f ? -1 : 0;
12629 }
12630
12631 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12632 vceqzd_s64 (int64_t __a)
12633 {
12634   return __a == 0 ? -1ll : 0ll;
12635 }
12636
12637 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12638 vceqzd_u64 (uint64_t __a)
12639 {
12640   return __a == 0 ? -1ll : 0ll;
12641 }
12642
12643 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12644 vceqzd_f64 (float64_t __a)
12645 {
12646   return __a == 0.0 ? -1ll : 0ll;
12647 }
12648
12649 /* vcge - vector.  */
12650
12651 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12652 vcge_f32 (float32x2_t __a, float32x2_t __b)
12653 {
12654   return (uint32x2_t) (__a >= __b);
12655 }
12656
12657 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12658 vcge_f64 (float64x1_t __a, float64x1_t __b)
12659 {
12660   return (uint64x1_t) (__a >= __b);
12661 }
12662
12663 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12664 vcge_s8 (int8x8_t __a, int8x8_t __b)
12665 {
12666   return (uint8x8_t) (__a >= __b);
12667 }
12668
12669 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12670 vcge_s16 (int16x4_t __a, int16x4_t __b)
12671 {
12672   return (uint16x4_t) (__a >= __b);
12673 }
12674
12675 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12676 vcge_s32 (int32x2_t __a, int32x2_t __b)
12677 {
12678   return (uint32x2_t) (__a >= __b);
12679 }
12680
12681 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12682 vcge_s64 (int64x1_t __a, int64x1_t __b)
12683 {
12684   return (uint64x1_t) {__a[0] >= __b[0] ? -1ll : 0ll};
12685 }
12686
12687 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12688 vcge_u8 (uint8x8_t __a, uint8x8_t __b)
12689 {
12690   return (__a >= __b);
12691 }
12692
12693 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12694 vcge_u16 (uint16x4_t __a, uint16x4_t __b)
12695 {
12696   return (__a >= __b);
12697 }
12698
12699 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12700 vcge_u32 (uint32x2_t __a, uint32x2_t __b)
12701 {
12702   return (__a >= __b);
12703 }
12704
12705 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12706 vcge_u64 (uint64x1_t __a, uint64x1_t __b)
12707 {
12708   return (uint64x1_t) {__a[0] >= __b[0] ? -1ll : 0ll};
12709 }
12710
12711 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12712 vcgeq_f32 (float32x4_t __a, float32x4_t __b)
12713 {
12714   return (uint32x4_t) (__a >= __b);
12715 }
12716
12717 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12718 vcgeq_f64 (float64x2_t __a, float64x2_t __b)
12719 {
12720   return (uint64x2_t) (__a >= __b);
12721 }
12722
12723 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12724 vcgeq_s8 (int8x16_t __a, int8x16_t __b)
12725 {
12726   return (uint8x16_t) (__a >= __b);
12727 }
12728
12729 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
12730 vcgeq_s16 (int16x8_t __a, int16x8_t __b)
12731 {
12732   return (uint16x8_t) (__a >= __b);
12733 }
12734
12735 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12736 vcgeq_s32 (int32x4_t __a, int32x4_t __b)
12737 {
12738   return (uint32x4_t) (__a >= __b);
12739 }
12740
12741 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12742 vcgeq_s64 (int64x2_t __a, int64x2_t __b)
12743 {
12744   return (uint64x2_t) (__a >= __b);
12745 }
12746
12747 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12748 vcgeq_u8 (uint8x16_t __a, uint8x16_t __b)
12749 {
12750   return (__a >= __b);
12751 }
12752
12753 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
12754 vcgeq_u16 (uint16x8_t __a, uint16x8_t __b)
12755 {
12756   return (__a >= __b);
12757 }
12758
12759 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12760 vcgeq_u32 (uint32x4_t __a, uint32x4_t __b)
12761 {
12762   return (__a >= __b);
12763 }
12764
12765 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12766 vcgeq_u64 (uint64x2_t __a, uint64x2_t __b)
12767 {
12768   return (__a >= __b);
12769 }
12770
12771 /* vcge - scalar.  */
12772
12773 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
12774 vcges_f32 (float32_t __a, float32_t __b)
12775 {
12776   return __a >= __b ? -1 : 0;
12777 }
12778
12779 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12780 vcged_s64 (int64_t __a, int64_t __b)
12781 {
12782   return __a >= __b ? -1ll : 0ll;
12783 }
12784
12785 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12786 vcged_u64 (uint64_t __a, uint64_t __b)
12787 {
12788   return __a >= __b ? -1ll : 0ll;
12789 }
12790
12791 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12792 vcged_f64 (float64_t __a, float64_t __b)
12793 {
12794   return __a >= __b ? -1ll : 0ll;
12795 }
12796
12797 /* vcgez - vector.  */
12798
12799 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12800 vcgez_f32 (float32x2_t __a)
12801 {
12802   return (uint32x2_t) (__a >= 0.0f);
12803 }
12804
12805 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12806 vcgez_f64 (float64x1_t __a)
12807 {
12808   return (uint64x1_t) (__a[0] >= (float64x1_t) {0.0});
12809 }
12810
12811 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12812 vcgez_s8 (int8x8_t __a)
12813 {
12814   return (uint8x8_t) (__a >= 0);
12815 }
12816
12817 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12818 vcgez_s16 (int16x4_t __a)
12819 {
12820   return (uint16x4_t) (__a >= 0);
12821 }
12822
12823 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12824 vcgez_s32 (int32x2_t __a)
12825 {
12826   return (uint32x2_t) (__a >= 0);
12827 }
12828
12829 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12830 vcgez_s64 (int64x1_t __a)
12831 {
12832   return (uint64x1_t) {__a[0] >= 0ll ? -1ll : 0ll};
12833 }
12834
12835 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12836 vcgezq_f32 (float32x4_t __a)
12837 {
12838   return (uint32x4_t) (__a >= 0.0f);
12839 }
12840
12841 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12842 vcgezq_f64 (float64x2_t __a)
12843 {
12844   return (uint64x2_t) (__a >= 0.0);
12845 }
12846
12847 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12848 vcgezq_s8 (int8x16_t __a)
12849 {
12850   return (uint8x16_t) (__a >= 0);
12851 }
12852
12853 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
12854 vcgezq_s16 (int16x8_t __a)
12855 {
12856   return (uint16x8_t) (__a >= 0);
12857 }
12858
12859 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12860 vcgezq_s32 (int32x4_t __a)
12861 {
12862   return (uint32x4_t) (__a >= 0);
12863 }
12864
12865 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12866 vcgezq_s64 (int64x2_t __a)
12867 {
12868   return (uint64x2_t) (__a >= __AARCH64_INT64_C (0));
12869 }
12870
12871 /* vcgez - scalar.  */
12872
12873 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
12874 vcgezs_f32 (float32_t __a)
12875 {
12876   return __a >= 0.0f ? -1 : 0;
12877 }
12878
12879 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12880 vcgezd_s64 (int64_t __a)
12881 {
12882   return __a >= 0 ? -1ll : 0ll;
12883 }
12884
12885 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
12886 vcgezd_f64 (float64_t __a)
12887 {
12888   return __a >= 0.0 ? -1ll : 0ll;
12889 }
12890
12891 /* vcgt - vector.  */
12892
12893 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12894 vcgt_f32 (float32x2_t __a, float32x2_t __b)
12895 {
12896   return (uint32x2_t) (__a > __b);
12897 }
12898
12899 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12900 vcgt_f64 (float64x1_t __a, float64x1_t __b)
12901 {
12902   return (uint64x1_t) (__a > __b);
12903 }
12904
12905 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12906 vcgt_s8 (int8x8_t __a, int8x8_t __b)
12907 {
12908   return (uint8x8_t) (__a > __b);
12909 }
12910
12911 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12912 vcgt_s16 (int16x4_t __a, int16x4_t __b)
12913 {
12914   return (uint16x4_t) (__a > __b);
12915 }
12916
12917 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12918 vcgt_s32 (int32x2_t __a, int32x2_t __b)
12919 {
12920   return (uint32x2_t) (__a > __b);
12921 }
12922
12923 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12924 vcgt_s64 (int64x1_t __a, int64x1_t __b)
12925 {
12926   return (uint64x1_t) (__a[0] > __b[0] ? -1ll : 0ll);
12927 }
12928
12929 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12930 vcgt_u8 (uint8x8_t __a, uint8x8_t __b)
12931 {
12932   return (__a > __b);
12933 }
12934
12935 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12936 vcgt_u16 (uint16x4_t __a, uint16x4_t __b)
12937 {
12938   return (__a > __b);
12939 }
12940
12941 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12942 vcgt_u32 (uint32x2_t __a, uint32x2_t __b)
12943 {
12944   return (__a > __b);
12945 }
12946
12947 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
12948 vcgt_u64 (uint64x1_t __a, uint64x1_t __b)
12949 {
12950   return (uint64x1_t) (__a[0] > __b[0] ? -1ll : 0ll);
12951 }
12952
12953 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12954 vcgtq_f32 (float32x4_t __a, float32x4_t __b)
12955 {
12956   return (uint32x4_t) (__a > __b);
12957 }
12958
12959 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12960 vcgtq_f64 (float64x2_t __a, float64x2_t __b)
12961 {
12962   return (uint64x2_t) (__a > __b);
12963 }
12964
12965 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12966 vcgtq_s8 (int8x16_t __a, int8x16_t __b)
12967 {
12968   return (uint8x16_t) (__a > __b);
12969 }
12970
12971 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
12972 vcgtq_s16 (int16x8_t __a, int16x8_t __b)
12973 {
12974   return (uint16x8_t) (__a > __b);
12975 }
12976
12977 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12978 vcgtq_s32 (int32x4_t __a, int32x4_t __b)
12979 {
12980   return (uint32x4_t) (__a > __b);
12981 }
12982
12983 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
12984 vcgtq_s64 (int64x2_t __a, int64x2_t __b)
12985 {
12986   return (uint64x2_t) (__a > __b);
12987 }
12988
12989 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12990 vcgtq_u8 (uint8x16_t __a, uint8x16_t __b)
12991 {
12992   return (__a > __b);
12993 }
12994
12995 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
12996 vcgtq_u16 (uint16x8_t __a, uint16x8_t __b)
12997 {
12998   return (__a > __b);
12999 }
13000
13001 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13002 vcgtq_u32 (uint32x4_t __a, uint32x4_t __b)
13003 {
13004   return (__a > __b);
13005 }
13006
13007 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13008 vcgtq_u64 (uint64x2_t __a, uint64x2_t __b)
13009 {
13010   return (__a > __b);
13011 }
13012
13013 /* vcgt - scalar.  */
13014
13015 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
13016 vcgts_f32 (float32_t __a, float32_t __b)
13017 {
13018   return __a > __b ? -1 : 0;
13019 }
13020
13021 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13022 vcgtd_s64 (int64_t __a, int64_t __b)
13023 {
13024   return __a > __b ? -1ll : 0ll;
13025 }
13026
13027 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13028 vcgtd_u64 (uint64_t __a, uint64_t __b)
13029 {
13030   return __a > __b ? -1ll : 0ll;
13031 }
13032
13033 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13034 vcgtd_f64 (float64_t __a, float64_t __b)
13035 {
13036   return __a > __b ? -1ll : 0ll;
13037 }
13038
13039 /* vcgtz - vector.  */
13040
13041 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13042 vcgtz_f32 (float32x2_t __a)
13043 {
13044   return (uint32x2_t) (__a > 0.0f);
13045 }
13046
13047 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13048 vcgtz_f64 (float64x1_t __a)
13049 {
13050   return (uint64x1_t) (__a > (float64x1_t) {0.0});
13051 }
13052
13053 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
13054 vcgtz_s8 (int8x8_t __a)
13055 {
13056   return (uint8x8_t) (__a > 0);
13057 }
13058
13059 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
13060 vcgtz_s16 (int16x4_t __a)
13061 {
13062   return (uint16x4_t) (__a > 0);
13063 }
13064
13065 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13066 vcgtz_s32 (int32x2_t __a)
13067 {
13068   return (uint32x2_t) (__a > 0);
13069 }
13070
13071 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13072 vcgtz_s64 (int64x1_t __a)
13073 {
13074   return (uint64x1_t) {__a[0] > 0ll ? -1ll : 0ll};
13075 }
13076
13077 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13078 vcgtzq_f32 (float32x4_t __a)
13079 {
13080   return (uint32x4_t) (__a > 0.0f);
13081 }
13082
13083 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13084 vcgtzq_f64 (float64x2_t __a)
13085 {
13086     return (uint64x2_t) (__a > 0.0);
13087 }
13088
13089 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
13090 vcgtzq_s8 (int8x16_t __a)
13091 {
13092   return (uint8x16_t) (__a > 0);
13093 }
13094
13095 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
13096 vcgtzq_s16 (int16x8_t __a)
13097 {
13098   return (uint16x8_t) (__a > 0);
13099 }
13100
13101 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13102 vcgtzq_s32 (int32x4_t __a)
13103 {
13104   return (uint32x4_t) (__a > 0);
13105 }
13106
13107 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13108 vcgtzq_s64 (int64x2_t __a)
13109 {
13110   return (uint64x2_t) (__a > __AARCH64_INT64_C (0));
13111 }
13112
13113 /* vcgtz - scalar.  */
13114
13115 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
13116 vcgtzs_f32 (float32_t __a)
13117 {
13118   return __a > 0.0f ? -1 : 0;
13119 }
13120
13121 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13122 vcgtzd_s64 (int64_t __a)
13123 {
13124   return __a > 0 ? -1ll : 0ll;
13125 }
13126
13127 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13128 vcgtzd_f64 (float64_t __a)
13129 {
13130   return __a > 0.0 ? -1ll : 0ll;
13131 }
13132
13133 /* vcle - vector.  */
13134
13135 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13136 vcle_f32 (float32x2_t __a, float32x2_t __b)
13137 {
13138   return (uint32x2_t) (__a <= __b);
13139 }
13140
13141 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13142 vcle_f64 (float64x1_t __a, float64x1_t __b)
13143 {
13144   return (uint64x1_t) (__a <= __b);
13145 }
13146
13147 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
13148 vcle_s8 (int8x8_t __a, int8x8_t __b)
13149 {
13150   return (uint8x8_t) (__a <= __b);
13151 }
13152
13153 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
13154 vcle_s16 (int16x4_t __a, int16x4_t __b)
13155 {
13156   return (uint16x4_t) (__a <= __b);
13157 }
13158
13159 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13160 vcle_s32 (int32x2_t __a, int32x2_t __b)
13161 {
13162   return (uint32x2_t) (__a <= __b);
13163 }
13164
13165 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13166 vcle_s64 (int64x1_t __a, int64x1_t __b)
13167 {
13168   return (uint64x1_t) {__a[0] <= __b[0] ? -1ll : 0ll};
13169 }
13170
13171 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
13172 vcle_u8 (uint8x8_t __a, uint8x8_t __b)
13173 {
13174   return (__a <= __b);
13175 }
13176
13177 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
13178 vcle_u16 (uint16x4_t __a, uint16x4_t __b)
13179 {
13180   return (__a <= __b);
13181 }
13182
13183 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13184 vcle_u32 (uint32x2_t __a, uint32x2_t __b)
13185 {
13186   return (__a <= __b);
13187 }
13188
13189 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13190 vcle_u64 (uint64x1_t __a, uint64x1_t __b)
13191 {
13192   return (uint64x1_t) {__a[0] <= __b[0] ? -1ll : 0ll};
13193 }
13194
13195 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13196 vcleq_f32 (float32x4_t __a, float32x4_t __b)
13197 {
13198   return (uint32x4_t) (__a <= __b);
13199 }
13200
13201 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13202 vcleq_f64 (float64x2_t __a, float64x2_t __b)
13203 {
13204   return (uint64x2_t) (__a <= __b);
13205 }
13206
13207 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
13208 vcleq_s8 (int8x16_t __a, int8x16_t __b)
13209 {
13210   return (uint8x16_t) (__a <= __b);
13211 }
13212
13213 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
13214 vcleq_s16 (int16x8_t __a, int16x8_t __b)
13215 {
13216   return (uint16x8_t) (__a <= __b);
13217 }
13218
13219 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13220 vcleq_s32 (int32x4_t __a, int32x4_t __b)
13221 {
13222   return (uint32x4_t) (__a <= __b);
13223 }
13224
13225 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13226 vcleq_s64 (int64x2_t __a, int64x2_t __b)
13227 {
13228   return (uint64x2_t) (__a <= __b);
13229 }
13230
13231 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
13232 vcleq_u8 (uint8x16_t __a, uint8x16_t __b)
13233 {
13234   return (__a <= __b);
13235 }
13236
13237 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
13238 vcleq_u16 (uint16x8_t __a, uint16x8_t __b)
13239 {
13240   return (__a <= __b);
13241 }
13242
13243 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13244 vcleq_u32 (uint32x4_t __a, uint32x4_t __b)
13245 {
13246   return (__a <= __b);
13247 }
13248
13249 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13250 vcleq_u64 (uint64x2_t __a, uint64x2_t __b)
13251 {
13252   return (__a <= __b);
13253 }
13254
13255 /* vcle - scalar.  */
13256
13257 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
13258 vcles_f32 (float32_t __a, float32_t __b)
13259 {
13260   return __a <= __b ? -1 : 0;
13261 }
13262
13263 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13264 vcled_s64 (int64_t __a, int64_t __b)
13265 {
13266   return __a <= __b ? -1ll : 0ll;
13267 }
13268
13269 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13270 vcled_u64 (uint64_t __a, uint64_t __b)
13271 {
13272   return __a <= __b ? -1ll : 0ll;
13273 }
13274
13275 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13276 vcled_f64 (float64_t __a, float64_t __b)
13277 {
13278   return __a <= __b ? -1ll : 0ll;
13279 }
13280
13281 /* vclez - vector.  */
13282
13283 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13284 vclez_f32 (float32x2_t __a)
13285 {
13286   return (uint32x2_t) (__a <= 0.0f);
13287 }
13288
13289 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13290 vclez_f64 (float64x1_t __a)
13291 {
13292   return (uint64x1_t) (__a <= (float64x1_t) {0.0});
13293 }
13294
13295 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
13296 vclez_s8 (int8x8_t __a)
13297 {
13298   return (uint8x8_t) (__a <= 0);
13299 }
13300
13301 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
13302 vclez_s16 (int16x4_t __a)
13303 {
13304   return (uint16x4_t) (__a <= 0);
13305 }
13306
13307 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13308 vclez_s32 (int32x2_t __a)
13309 {
13310   return (uint32x2_t) (__a <= 0);
13311 }
13312
13313 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13314 vclez_s64 (int64x1_t __a)
13315 {
13316   return (uint64x1_t) {__a[0] <= 0ll ? -1ll : 0ll};
13317 }
13318
13319 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13320 vclezq_f32 (float32x4_t __a)
13321 {
13322   return (uint32x4_t) (__a <= 0.0f);
13323 }
13324
13325 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13326 vclezq_f64 (float64x2_t __a)
13327 {
13328   return (uint64x2_t) (__a <= 0.0);
13329 }
13330
13331 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
13332 vclezq_s8 (int8x16_t __a)
13333 {
13334   return (uint8x16_t) (__a <= 0);
13335 }
13336
13337 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
13338 vclezq_s16 (int16x8_t __a)
13339 {
13340   return (uint16x8_t) (__a <= 0);
13341 }
13342
13343 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13344 vclezq_s32 (int32x4_t __a)
13345 {
13346   return (uint32x4_t) (__a <= 0);
13347 }
13348
13349 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13350 vclezq_s64 (int64x2_t __a)
13351 {
13352   return (uint64x2_t) (__a <= __AARCH64_INT64_C (0));
13353 }
13354
13355 /* vclez - scalar.  */
13356
13357 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
13358 vclezs_f32 (float32_t __a)
13359 {
13360   return __a <= 0.0f ? -1 : 0;
13361 }
13362
13363 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13364 vclezd_s64 (int64_t __a)
13365 {
13366   return __a <= 0 ? -1ll : 0ll;
13367 }
13368
13369 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13370 vclezd_f64 (float64_t __a)
13371 {
13372   return __a <= 0.0 ? -1ll : 0ll;
13373 }
13374
13375 /* vclt - vector.  */
13376
13377 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13378 vclt_f32 (float32x2_t __a, float32x2_t __b)
13379 {
13380   return (uint32x2_t) (__a < __b);
13381 }
13382
13383 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13384 vclt_f64 (float64x1_t __a, float64x1_t __b)
13385 {
13386   return (uint64x1_t) (__a < __b);
13387 }
13388
13389 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
13390 vclt_s8 (int8x8_t __a, int8x8_t __b)
13391 {
13392   return (uint8x8_t) (__a < __b);
13393 }
13394
13395 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
13396 vclt_s16 (int16x4_t __a, int16x4_t __b)
13397 {
13398   return (uint16x4_t) (__a < __b);
13399 }
13400
13401 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13402 vclt_s32 (int32x2_t __a, int32x2_t __b)
13403 {
13404   return (uint32x2_t) (__a < __b);
13405 }
13406
13407 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13408 vclt_s64 (int64x1_t __a, int64x1_t __b)
13409 {
13410   return (uint64x1_t) {__a[0] < __b[0] ? -1ll : 0ll};
13411 }
13412
13413 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
13414 vclt_u8 (uint8x8_t __a, uint8x8_t __b)
13415 {
13416   return (__a < __b);
13417 }
13418
13419 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
13420 vclt_u16 (uint16x4_t __a, uint16x4_t __b)
13421 {
13422   return (__a < __b);
13423 }
13424
13425 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13426 vclt_u32 (uint32x2_t __a, uint32x2_t __b)
13427 {
13428   return (__a < __b);
13429 }
13430
13431 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13432 vclt_u64 (uint64x1_t __a, uint64x1_t __b)
13433 {
13434   return (uint64x1_t) {__a[0] < __b[0] ? -1ll : 0ll};
13435 }
13436
13437 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13438 vcltq_f32 (float32x4_t __a, float32x4_t __b)
13439 {
13440   return (uint32x4_t) (__a < __b);
13441 }
13442
13443 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13444 vcltq_f64 (float64x2_t __a, float64x2_t __b)
13445 {
13446   return (uint64x2_t) (__a < __b);
13447 }
13448
13449 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
13450 vcltq_s8 (int8x16_t __a, int8x16_t __b)
13451 {
13452   return (uint8x16_t) (__a < __b);
13453 }
13454
13455 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
13456 vcltq_s16 (int16x8_t __a, int16x8_t __b)
13457 {
13458   return (uint16x8_t) (__a < __b);
13459 }
13460
13461 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13462 vcltq_s32 (int32x4_t __a, int32x4_t __b)
13463 {
13464   return (uint32x4_t) (__a < __b);
13465 }
13466
13467 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13468 vcltq_s64 (int64x2_t __a, int64x2_t __b)
13469 {
13470   return (uint64x2_t) (__a < __b);
13471 }
13472
13473 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
13474 vcltq_u8 (uint8x16_t __a, uint8x16_t __b)
13475 {
13476   return (__a < __b);
13477 }
13478
13479 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
13480 vcltq_u16 (uint16x8_t __a, uint16x8_t __b)
13481 {
13482   return (__a < __b);
13483 }
13484
13485 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13486 vcltq_u32 (uint32x4_t __a, uint32x4_t __b)
13487 {
13488   return (__a < __b);
13489 }
13490
13491 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13492 vcltq_u64 (uint64x2_t __a, uint64x2_t __b)
13493 {
13494   return (__a < __b);
13495 }
13496
13497 /* vclt - scalar.  */
13498
13499 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
13500 vclts_f32 (float32_t __a, float32_t __b)
13501 {
13502   return __a < __b ? -1 : 0;
13503 }
13504
13505 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13506 vcltd_s64 (int64_t __a, int64_t __b)
13507 {
13508   return __a < __b ? -1ll : 0ll;
13509 }
13510
13511 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13512 vcltd_u64 (uint64_t __a, uint64_t __b)
13513 {
13514   return __a < __b ? -1ll : 0ll;
13515 }
13516
13517 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13518 vcltd_f64 (float64_t __a, float64_t __b)
13519 {
13520   return __a < __b ? -1ll : 0ll;
13521 }
13522
13523 /* vcltz - vector.  */
13524
13525 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13526 vcltz_f32 (float32x2_t __a)
13527 {
13528   return (uint32x2_t) (__a < 0.0f);
13529 }
13530
13531 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13532 vcltz_f64 (float64x1_t __a)
13533 {
13534   return (uint64x1_t) (__a < (float64x1_t) {0.0});
13535 }
13536
13537 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
13538 vcltz_s8 (int8x8_t __a)
13539 {
13540   return (uint8x8_t) (__a < 0);
13541 }
13542
13543 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
13544 vcltz_s16 (int16x4_t __a)
13545 {
13546   return (uint16x4_t) (__a < 0);
13547 }
13548
13549 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13550 vcltz_s32 (int32x2_t __a)
13551 {
13552   return (uint32x2_t) (__a < 0);
13553 }
13554
13555 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
13556 vcltz_s64 (int64x1_t __a)
13557 {
13558   return (uint64x1_t) {__a[0] < 0ll ? -1ll : 0ll};
13559 }
13560
13561 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13562 vcltzq_f32 (float32x4_t __a)
13563 {
13564   return (uint32x4_t) (__a < 0.0f);
13565 }
13566
13567 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13568 vcltzq_f64 (float64x2_t __a)
13569 {
13570   return (uint64x2_t) (__a < 0.0);
13571 }
13572
13573 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
13574 vcltzq_s8 (int8x16_t __a)
13575 {
13576   return (uint8x16_t) (__a < 0);
13577 }
13578
13579 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
13580 vcltzq_s16 (int16x8_t __a)
13581 {
13582   return (uint16x8_t) (__a < 0);
13583 }
13584
13585 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13586 vcltzq_s32 (int32x4_t __a)
13587 {
13588   return (uint32x4_t) (__a < 0);
13589 }
13590
13591 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13592 vcltzq_s64 (int64x2_t __a)
13593 {
13594   return (uint64x2_t) (__a < __AARCH64_INT64_C (0));
13595 }
13596
13597 /* vcltz - scalar.  */
13598
13599 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
13600 vcltzs_f32 (float32_t __a)
13601 {
13602   return __a < 0.0f ? -1 : 0;
13603 }
13604
13605 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13606 vcltzd_s64 (int64_t __a)
13607 {
13608   return __a < 0 ? -1ll : 0ll;
13609 }
13610
13611 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13612 vcltzd_f64 (float64_t __a)
13613 {
13614   return __a < 0.0 ? -1ll : 0ll;
13615 }
13616
13617 /* vcls.  */
13618
13619 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
13620 vcls_s8 (int8x8_t __a)
13621 {
13622   return __builtin_aarch64_clrsbv8qi (__a);
13623 }
13624
13625 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
13626 vcls_s16 (int16x4_t __a)
13627 {
13628   return __builtin_aarch64_clrsbv4hi (__a);
13629 }
13630
13631 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
13632 vcls_s32 (int32x2_t __a)
13633 {
13634   return __builtin_aarch64_clrsbv2si (__a);
13635 }
13636
13637 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
13638 vclsq_s8 (int8x16_t __a)
13639 {
13640   return __builtin_aarch64_clrsbv16qi (__a);
13641 }
13642
13643 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
13644 vclsq_s16 (int16x8_t __a)
13645 {
13646   return __builtin_aarch64_clrsbv8hi (__a);
13647 }
13648
13649 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
13650 vclsq_s32 (int32x4_t __a)
13651 {
13652   return __builtin_aarch64_clrsbv4si (__a);
13653 }
13654
13655 /* vclz.  */
13656
13657 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
13658 vclz_s8 (int8x8_t __a)
13659 {
13660   return __builtin_aarch64_clzv8qi (__a);
13661 }
13662
13663 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
13664 vclz_s16 (int16x4_t __a)
13665 {
13666   return __builtin_aarch64_clzv4hi (__a);
13667 }
13668
13669 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
13670 vclz_s32 (int32x2_t __a)
13671 {
13672   return __builtin_aarch64_clzv2si (__a);
13673 }
13674
13675 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
13676 vclz_u8 (uint8x8_t __a)
13677 {
13678   return (uint8x8_t)__builtin_aarch64_clzv8qi ((int8x8_t)__a);
13679 }
13680
13681 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
13682 vclz_u16 (uint16x4_t __a)
13683 {
13684   return (uint16x4_t)__builtin_aarch64_clzv4hi ((int16x4_t)__a);
13685 }
13686
13687 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13688 vclz_u32 (uint32x2_t __a)
13689 {
13690   return (uint32x2_t)__builtin_aarch64_clzv2si ((int32x2_t)__a);
13691 }
13692
13693 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
13694 vclzq_s8 (int8x16_t __a)
13695 {
13696   return __builtin_aarch64_clzv16qi (__a);
13697 }
13698
13699 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
13700 vclzq_s16 (int16x8_t __a)
13701 {
13702   return __builtin_aarch64_clzv8hi (__a);
13703 }
13704
13705 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
13706 vclzq_s32 (int32x4_t __a)
13707 {
13708   return __builtin_aarch64_clzv4si (__a);
13709 }
13710
13711 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
13712 vclzq_u8 (uint8x16_t __a)
13713 {
13714   return (uint8x16_t)__builtin_aarch64_clzv16qi ((int8x16_t)__a);
13715 }
13716
13717 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
13718 vclzq_u16 (uint16x8_t __a)
13719 {
13720   return (uint16x8_t)__builtin_aarch64_clzv8hi ((int16x8_t)__a);
13721 }
13722
13723 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13724 vclzq_u32 (uint32x4_t __a)
13725 {
13726   return (uint32x4_t)__builtin_aarch64_clzv4si ((int32x4_t)__a);
13727 }
13728
13729 /* vcnt.  */
13730
13731 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
13732 vcnt_p8 (poly8x8_t __a)
13733 {
13734   return (poly8x8_t) __builtin_aarch64_popcountv8qi ((int8x8_t) __a);
13735 }
13736
13737 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
13738 vcnt_s8 (int8x8_t __a)
13739 {
13740   return __builtin_aarch64_popcountv8qi (__a);
13741 }
13742
13743 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
13744 vcnt_u8 (uint8x8_t __a)
13745 {
13746   return (uint8x8_t) __builtin_aarch64_popcountv8qi ((int8x8_t) __a);
13747 }
13748
13749 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
13750 vcntq_p8 (poly8x16_t __a)
13751 {
13752   return (poly8x16_t) __builtin_aarch64_popcountv16qi ((int8x16_t) __a);
13753 }
13754
13755 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
13756 vcntq_s8 (int8x16_t __a)
13757 {
13758   return __builtin_aarch64_popcountv16qi (__a);
13759 }
13760
13761 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
13762 vcntq_u8 (uint8x16_t __a)
13763 {
13764   return (uint8x16_t) __builtin_aarch64_popcountv16qi ((int8x16_t) __a);
13765 }
13766
13767 /* vcvt (double -> float).  */
13768
13769 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
13770 vcvt_f32_f64 (float64x2_t __a)
13771 {
13772   return __builtin_aarch64_float_truncate_lo_v2sf (__a);
13773 }
13774
13775 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
13776 vcvt_high_f32_f64 (float32x2_t __a, float64x2_t __b)
13777 {
13778   return __builtin_aarch64_float_truncate_hi_v4sf (__a, __b);
13779 }
13780
13781 /* vcvt (float -> double).  */
13782
13783 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
13784 vcvt_f64_f32 (float32x2_t __a)
13785 {
13786
13787   return __builtin_aarch64_float_extend_lo_v2df (__a);
13788 }
13789
13790 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
13791 vcvt_high_f64_f32 (float32x4_t __a)
13792 {
13793   return __builtin_aarch64_vec_unpacks_hi_v4sf (__a);
13794 }
13795
13796 /* vcvt  (<u>int -> float)  */
13797
13798 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
13799 vcvtd_f64_s64 (int64_t __a)
13800 {
13801   return (float64_t) __a;
13802 }
13803
13804 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
13805 vcvtd_f64_u64 (uint64_t __a)
13806 {
13807   return (float64_t) __a;
13808 }
13809
13810 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
13811 vcvts_f32_s32 (int32_t __a)
13812 {
13813   return (float32_t) __a;
13814 }
13815
13816 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
13817 vcvts_f32_u32 (uint32_t __a)
13818 {
13819   return (float32_t) __a;
13820 }
13821
13822 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
13823 vcvt_f32_s32 (int32x2_t __a)
13824 {
13825   return __builtin_aarch64_floatv2siv2sf (__a);
13826 }
13827
13828 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
13829 vcvt_f32_u32 (uint32x2_t __a)
13830 {
13831   return __builtin_aarch64_floatunsv2siv2sf ((int32x2_t) __a);
13832 }
13833
13834 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
13835 vcvtq_f32_s32 (int32x4_t __a)
13836 {
13837   return __builtin_aarch64_floatv4siv4sf (__a);
13838 }
13839
13840 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
13841 vcvtq_f32_u32 (uint32x4_t __a)
13842 {
13843   return __builtin_aarch64_floatunsv4siv4sf ((int32x4_t) __a);
13844 }
13845
13846 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
13847 vcvtq_f64_s64 (int64x2_t __a)
13848 {
13849   return __builtin_aarch64_floatv2div2df (__a);
13850 }
13851
13852 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
13853 vcvtq_f64_u64 (uint64x2_t __a)
13854 {
13855   return __builtin_aarch64_floatunsv2div2df ((int64x2_t) __a);
13856 }
13857
13858 /* vcvt (float -> <u>int)  */
13859
13860 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
13861 vcvtd_s64_f64 (float64_t __a)
13862 {
13863   return (int64_t) __a;
13864 }
13865
13866 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13867 vcvtd_u64_f64 (float64_t __a)
13868 {
13869   return (uint64_t) __a;
13870 }
13871
13872 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
13873 vcvts_s32_f32 (float32_t __a)
13874 {
13875   return (int32_t) __a;
13876 }
13877
13878 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
13879 vcvts_u32_f32 (float32_t __a)
13880 {
13881   return (uint32_t) __a;
13882 }
13883
13884 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
13885 vcvt_s32_f32 (float32x2_t __a)
13886 {
13887   return __builtin_aarch64_lbtruncv2sfv2si (__a);
13888 }
13889
13890 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13891 vcvt_u32_f32 (float32x2_t __a)
13892 {
13893   /* TODO: This cast should go away when builtins have
13894      their correct types.  */
13895   return (uint32x2_t) __builtin_aarch64_lbtruncuv2sfv2si (__a);
13896 }
13897
13898 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
13899 vcvtq_s32_f32 (float32x4_t __a)
13900 {
13901   return __builtin_aarch64_lbtruncv4sfv4si (__a);
13902 }
13903
13904 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13905 vcvtq_u32_f32 (float32x4_t __a)
13906 {
13907   /* TODO: This cast should go away when builtins have
13908      their correct types.  */
13909   return (uint32x4_t) __builtin_aarch64_lbtruncuv4sfv4si (__a);
13910 }
13911
13912 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
13913 vcvtq_s64_f64 (float64x2_t __a)
13914 {
13915   return __builtin_aarch64_lbtruncv2dfv2di (__a);
13916 }
13917
13918 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13919 vcvtq_u64_f64 (float64x2_t __a)
13920 {
13921   /* TODO: This cast should go away when builtins have
13922      their correct types.  */
13923   return (uint64x2_t) __builtin_aarch64_lbtruncuv2dfv2di (__a);
13924 }
13925
13926 /* vcvta  */
13927
13928 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
13929 vcvtad_s64_f64 (float64_t __a)
13930 {
13931   return __builtin_aarch64_lrounddfdi (__a);
13932 }
13933
13934 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
13935 vcvtad_u64_f64 (float64_t __a)
13936 {
13937   return __builtin_aarch64_lroundudfdi (__a);
13938 }
13939
13940 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
13941 vcvtas_s32_f32 (float32_t __a)
13942 {
13943   return __builtin_aarch64_lroundsfsi (__a);
13944 }
13945
13946 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
13947 vcvtas_u32_f32 (float32_t __a)
13948 {
13949   return __builtin_aarch64_lroundusfsi (__a);
13950 }
13951
13952 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
13953 vcvta_s32_f32 (float32x2_t __a)
13954 {
13955   return __builtin_aarch64_lroundv2sfv2si (__a);
13956 }
13957
13958 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13959 vcvta_u32_f32 (float32x2_t __a)
13960 {
13961   /* TODO: This cast should go away when builtins have
13962      their correct types.  */
13963   return (uint32x2_t) __builtin_aarch64_lrounduv2sfv2si (__a);
13964 }
13965
13966 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
13967 vcvtaq_s32_f32 (float32x4_t __a)
13968 {
13969   return __builtin_aarch64_lroundv4sfv4si (__a);
13970 }
13971
13972 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13973 vcvtaq_u32_f32 (float32x4_t __a)
13974 {
13975   /* TODO: This cast should go away when builtins have
13976      their correct types.  */
13977   return (uint32x4_t) __builtin_aarch64_lrounduv4sfv4si (__a);
13978 }
13979
13980 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
13981 vcvtaq_s64_f64 (float64x2_t __a)
13982 {
13983   return __builtin_aarch64_lroundv2dfv2di (__a);
13984 }
13985
13986 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13987 vcvtaq_u64_f64 (float64x2_t __a)
13988 {
13989   /* TODO: This cast should go away when builtins have
13990      their correct types.  */
13991   return (uint64x2_t) __builtin_aarch64_lrounduv2dfv2di (__a);
13992 }
13993
13994 /* vcvtm  */
13995
13996 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
13997 vcvtmd_s64_f64 (float64_t __a)
13998 {
13999   return __builtin_llfloor (__a);
14000 }
14001
14002 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
14003 vcvtmd_u64_f64 (float64_t __a)
14004 {
14005   return __builtin_aarch64_lfloorudfdi (__a);
14006 }
14007
14008 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
14009 vcvtms_s32_f32 (float32_t __a)
14010 {
14011   return __builtin_ifloorf (__a);
14012 }
14013
14014 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
14015 vcvtms_u32_f32 (float32_t __a)
14016 {
14017   return __builtin_aarch64_lfloorusfsi (__a);
14018 }
14019
14020 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
14021 vcvtm_s32_f32 (float32x2_t __a)
14022 {
14023   return __builtin_aarch64_lfloorv2sfv2si (__a);
14024 }
14025
14026 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
14027 vcvtm_u32_f32 (float32x2_t __a)
14028 {
14029   /* TODO: This cast should go away when builtins have
14030      their correct types.  */
14031   return (uint32x2_t) __builtin_aarch64_lflooruv2sfv2si (__a);
14032 }
14033
14034 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
14035 vcvtmq_s32_f32 (float32x4_t __a)
14036 {
14037   return __builtin_aarch64_lfloorv4sfv4si (__a);
14038 }
14039
14040 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
14041 vcvtmq_u32_f32 (float32x4_t __a)
14042 {
14043   /* TODO: This cast should go away when builtins have
14044      their correct types.  */
14045   return (uint32x4_t) __builtin_aarch64_lflooruv4sfv4si (__a);
14046 }
14047
14048 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
14049 vcvtmq_s64_f64 (float64x2_t __a)
14050 {
14051   return __builtin_aarch64_lfloorv2dfv2di (__a);
14052 }
14053
14054 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
14055 vcvtmq_u64_f64 (float64x2_t __a)
14056 {
14057   /* TODO: This cast should go away when builtins have
14058      their correct types.  */
14059   return (uint64x2_t) __builtin_aarch64_lflooruv2dfv2di (__a);
14060 }
14061
14062 /* vcvtn  */
14063
14064 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
14065 vcvtnd_s64_f64 (float64_t __a)
14066 {
14067   return __builtin_aarch64_lfrintndfdi (__a);
14068 }
14069
14070 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
14071 vcvtnd_u64_f64 (float64_t __a)
14072 {
14073   return __builtin_aarch64_lfrintnudfdi (__a);
14074 }
14075
14076 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
14077 vcvtns_s32_f32 (float32_t __a)
14078 {
14079   return __builtin_aarch64_lfrintnsfsi (__a);
14080 }
14081
14082 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
14083 vcvtns_u32_f32 (float32_t __a)
14084 {
14085   return __builtin_aarch64_lfrintnusfsi (__a);
14086 }
14087
14088 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
14089 vcvtn_s32_f32 (float32x2_t __a)
14090 {
14091   return __builtin_aarch64_lfrintnv2sfv2si (__a);
14092 }
14093
14094 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
14095 vcvtn_u32_f32 (float32x2_t __a)
14096 {
14097   /* TODO: This cast should go away when builtins have
14098      their correct types.  */
14099   return (uint32x2_t) __builtin_aarch64_lfrintnuv2sfv2si (__a);
14100 }
14101
14102 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
14103 vcvtnq_s32_f32 (float32x4_t __a)
14104 {
14105   return __builtin_aarch64_lfrintnv4sfv4si (__a);
14106 }
14107
14108 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
14109 vcvtnq_u32_f32 (float32x4_t __a)
14110 {
14111   /* TODO: This cast should go away when builtins have
14112      their correct types.  */
14113   return (uint32x4_t) __builtin_aarch64_lfrintnuv4sfv4si (__a);
14114 }
14115
14116 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
14117 vcvtnq_s64_f64 (float64x2_t __a)
14118 {
14119   return __builtin_aarch64_lfrintnv2dfv2di (__a);
14120 }
14121
14122 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
14123 vcvtnq_u64_f64 (float64x2_t __a)
14124 {
14125   /* TODO: This cast should go away when builtins have
14126      their correct types.  */
14127   return (uint64x2_t) __builtin_aarch64_lfrintnuv2dfv2di (__a);
14128 }
14129
14130 /* vcvtp  */
14131
14132 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
14133 vcvtpd_s64_f64 (float64_t __a)
14134 {
14135   return __builtin_llceil (__a);
14136 }
14137
14138 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
14139 vcvtpd_u64_f64 (float64_t __a)
14140 {
14141   return __builtin_aarch64_lceiludfdi (__a);
14142 }
14143
14144 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
14145 vcvtps_s32_f32 (float32_t __a)
14146 {
14147   return __builtin_iceilf (__a);
14148 }
14149
14150 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
14151 vcvtps_u32_f32 (float32_t __a)
14152 {
14153   return __builtin_aarch64_lceilusfsi (__a);
14154 }
14155
14156 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
14157 vcvtp_s32_f32 (float32x2_t __a)
14158 {
14159   return __builtin_aarch64_lceilv2sfv2si (__a);
14160 }
14161
14162 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
14163 vcvtp_u32_f32 (float32x2_t __a)
14164 {
14165   /* TODO: This cast should go away when builtins have
14166      their correct types.  */
14167   return (uint32x2_t) __builtin_aarch64_lceiluv2sfv2si (__a);
14168 }
14169
14170 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
14171 vcvtpq_s32_f32 (float32x4_t __a)
14172 {
14173   return __builtin_aarch64_lceilv4sfv4si (__a);
14174 }
14175
14176 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
14177 vcvtpq_u32_f32 (float32x4_t __a)
14178 {
14179   /* TODO: This cast should go away when builtins have
14180      their correct types.  */
14181   return (uint32x4_t) __builtin_aarch64_lceiluv4sfv4si (__a);
14182 }
14183
14184 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
14185 vcvtpq_s64_f64 (float64x2_t __a)
14186 {
14187   return __builtin_aarch64_lceilv2dfv2di (__a);
14188 }
14189
14190 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
14191 vcvtpq_u64_f64 (float64x2_t __a)
14192 {
14193   /* TODO: This cast should go away when builtins have
14194      their correct types.  */
14195   return (uint64x2_t) __builtin_aarch64_lceiluv2dfv2di (__a);
14196 }
14197
14198 /* vdup_n  */
14199
14200 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
14201 vdup_n_f32 (float32_t __a)
14202 {
14203   return (float32x2_t) {__a, __a};
14204 }
14205
14206 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
14207 vdup_n_f64 (float64_t __a)
14208 {
14209   return (float64x1_t) {__a};
14210 }
14211
14212 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
14213 vdup_n_p8 (poly8_t __a)
14214 {
14215   return (poly8x8_t) {__a, __a, __a, __a, __a, __a, __a, __a};
14216 }
14217
14218 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
14219 vdup_n_p16 (poly16_t __a)
14220 {
14221   return (poly16x4_t) {__a, __a, __a, __a};
14222 }
14223
14224 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
14225 vdup_n_s8 (int8_t __a)
14226 {
14227   return (int8x8_t) {__a, __a, __a, __a, __a, __a, __a, __a};
14228 }
14229
14230 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
14231 vdup_n_s16 (int16_t __a)
14232 {
14233   return (int16x4_t) {__a, __a, __a, __a};
14234 }
14235
14236 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
14237 vdup_n_s32 (int32_t __a)
14238 {
14239   return (int32x2_t) {__a, __a};
14240 }
14241
14242 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
14243 vdup_n_s64 (int64_t __a)
14244 {
14245   return (int64x1_t) {__a};
14246 }
14247
14248 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
14249 vdup_n_u8 (uint8_t __a)
14250 {
14251   return (uint8x8_t) {__a, __a, __a, __a, __a, __a, __a, __a};
14252 }
14253
14254 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
14255 vdup_n_u16 (uint16_t __a)
14256 {
14257   return (uint16x4_t) {__a, __a, __a, __a};
14258 }
14259
14260 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
14261 vdup_n_u32 (uint32_t __a)
14262 {
14263   return (uint32x2_t) {__a, __a};
14264 }
14265
14266 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
14267 vdup_n_u64 (uint64_t __a)
14268 {
14269   return (uint64x1_t) {__a};
14270 }
14271
14272 /* vdupq_n  */
14273
14274 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
14275 vdupq_n_f32 (float32_t __a)
14276 {
14277   return (float32x4_t) {__a, __a, __a, __a};
14278 }
14279
14280 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
14281 vdupq_n_f64 (float64_t __a)
14282 {
14283   return (float64x2_t) {__a, __a};
14284 }
14285
14286 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
14287 vdupq_n_p8 (uint32_t __a)
14288 {
14289   return (poly8x16_t) {__a, __a, __a, __a, __a, __a, __a, __a,
14290                        __a, __a, __a, __a, __a, __a, __a, __a};
14291 }
14292
14293 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
14294 vdupq_n_p16 (uint32_t __a)
14295 {
14296   return (poly16x8_t) {__a, __a, __a, __a, __a, __a, __a, __a};
14297 }
14298
14299 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
14300 vdupq_n_s8 (int32_t __a)
14301 {
14302   return (int8x16_t) {__a, __a, __a, __a, __a, __a, __a, __a,
14303                       __a, __a, __a, __a, __a, __a, __a, __a};
14304 }
14305
14306 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
14307 vdupq_n_s16 (int32_t __a)
14308 {
14309   return (int16x8_t) {__a, __a, __a, __a, __a, __a, __a, __a};
14310 }
14311
14312 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
14313 vdupq_n_s32 (int32_t __a)
14314 {
14315   return (int32x4_t) {__a, __a, __a, __a};
14316 }
14317
14318 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
14319 vdupq_n_s64 (int64_t __a)
14320 {
14321   return (int64x2_t) {__a, __a};
14322 }
14323
14324 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
14325 vdupq_n_u8 (uint32_t __a)
14326 {
14327   return (uint8x16_t) {__a, __a, __a, __a, __a, __a, __a, __a,
14328                        __a, __a, __a, __a, __a, __a, __a, __a};
14329 }
14330
14331 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
14332 vdupq_n_u16 (uint32_t __a)
14333 {
14334   return (uint16x8_t) {__a, __a, __a, __a, __a, __a, __a, __a};
14335 }
14336
14337 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
14338 vdupq_n_u32 (uint32_t __a)
14339 {
14340   return (uint32x4_t) {__a, __a, __a, __a};
14341 }
14342
14343 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
14344 vdupq_n_u64 (uint64_t __a)
14345 {
14346   return (uint64x2_t) {__a, __a};
14347 }
14348
14349 /* vdup_lane  */
14350
14351 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
14352 vdup_lane_f32 (float32x2_t __a, const int __b)
14353 {
14354   return __aarch64_vdup_lane_f32 (__a, __b);
14355 }
14356
14357 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
14358 vdup_lane_f64 (float64x1_t __a, const int __b)
14359 {
14360   return __aarch64_vdup_lane_f64 (__a, __b);
14361 }
14362
14363 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
14364 vdup_lane_p8 (poly8x8_t __a, const int __b)
14365 {
14366   return __aarch64_vdup_lane_p8 (__a, __b);
14367 }
14368
14369 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
14370 vdup_lane_p16 (poly16x4_t __a, const int __b)
14371 {
14372   return __aarch64_vdup_lane_p16 (__a, __b);
14373 }
14374
14375 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
14376 vdup_lane_s8 (int8x8_t __a, const int __b)
14377 {
14378   return __aarch64_vdup_lane_s8 (__a, __b);
14379 }
14380
14381 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
14382 vdup_lane_s16 (int16x4_t __a, const int __b)
14383 {
14384   return __aarch64_vdup_lane_s16 (__a, __b);
14385 }
14386
14387 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
14388 vdup_lane_s32 (int32x2_t __a, const int __b)
14389 {
14390   return __aarch64_vdup_lane_s32 (__a, __b);
14391 }
14392
14393 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
14394 vdup_lane_s64 (int64x1_t __a, const int __b)
14395 {
14396   return __aarch64_vdup_lane_s64 (__a, __b);
14397 }
14398
14399 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
14400 vdup_lane_u8 (uint8x8_t __a, const int __b)
14401 {
14402   return __aarch64_vdup_lane_u8 (__a, __b);
14403 }
14404
14405 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
14406 vdup_lane_u16 (uint16x4_t __a, const int __b)
14407 {
14408   return __aarch64_vdup_lane_u16 (__a, __b);
14409 }
14410
14411 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
14412 vdup_lane_u32 (uint32x2_t __a, const int __b)
14413 {
14414   return __aarch64_vdup_lane_u32 (__a, __b);
14415 }
14416
14417 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
14418 vdup_lane_u64 (uint64x1_t __a, const int __b)
14419 {
14420   return __aarch64_vdup_lane_u64 (__a, __b);
14421 }
14422
14423 /* vdup_laneq  */
14424
14425 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
14426 vdup_laneq_f32 (float32x4_t __a, const int __b)
14427 {
14428   return __aarch64_vdup_laneq_f32 (__a, __b);
14429 }
14430
14431 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
14432 vdup_laneq_f64 (float64x2_t __a, const int __b)
14433 {
14434   return __aarch64_vdup_laneq_f64 (__a, __b);
14435 }
14436
14437 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
14438 vdup_laneq_p8 (poly8x16_t __a, const int __b)
14439 {
14440   return __aarch64_vdup_laneq_p8 (__a, __b);
14441 }
14442
14443 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
14444 vdup_laneq_p16 (poly16x8_t __a, const int __b)
14445 {
14446   return __aarch64_vdup_laneq_p16 (__a, __b);
14447 }
14448
14449 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
14450 vdup_laneq_s8 (int8x16_t __a, const int __b)
14451 {
14452   return __aarch64_vdup_laneq_s8 (__a, __b);
14453 }
14454
14455 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
14456 vdup_laneq_s16 (int16x8_t __a, const int __b)
14457 {
14458   return __aarch64_vdup_laneq_s16 (__a, __b);
14459 }
14460
14461 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
14462 vdup_laneq_s32 (int32x4_t __a, const int __b)
14463 {
14464   return __aarch64_vdup_laneq_s32 (__a, __b);
14465 }
14466
14467 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
14468 vdup_laneq_s64 (int64x2_t __a, const int __b)
14469 {
14470   return __aarch64_vdup_laneq_s64 (__a, __b);
14471 }
14472
14473 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
14474 vdup_laneq_u8 (uint8x16_t __a, const int __b)
14475 {
14476   return __aarch64_vdup_laneq_u8 (__a, __b);
14477 }
14478
14479 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
14480 vdup_laneq_u16 (uint16x8_t __a, const int __b)
14481 {
14482   return __aarch64_vdup_laneq_u16 (__a, __b);
14483 }
14484
14485 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
14486 vdup_laneq_u32 (uint32x4_t __a, const int __b)
14487 {
14488   return __aarch64_vdup_laneq_u32 (__a, __b);
14489 }
14490
14491 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
14492 vdup_laneq_u64 (uint64x2_t __a, const int __b)
14493 {
14494   return __aarch64_vdup_laneq_u64 (__a, __b);
14495 }
14496
14497 /* vdupq_lane  */
14498 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
14499 vdupq_lane_f32 (float32x2_t __a, const int __b)
14500 {
14501   return __aarch64_vdupq_lane_f32 (__a, __b);
14502 }
14503
14504 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
14505 vdupq_lane_f64 (float64x1_t __a, const int __b)
14506 {
14507   return __aarch64_vdupq_lane_f64 (__a, __b);
14508 }
14509
14510 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
14511 vdupq_lane_p8 (poly8x8_t __a, const int __b)
14512 {
14513   return __aarch64_vdupq_lane_p8 (__a, __b);
14514 }
14515
14516 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
14517 vdupq_lane_p16 (poly16x4_t __a, const int __b)
14518 {
14519   return __aarch64_vdupq_lane_p16 (__a, __b);
14520 }
14521
14522 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
14523 vdupq_lane_s8 (int8x8_t __a, const int __b)
14524 {
14525   return __aarch64_vdupq_lane_s8 (__a, __b);
14526 }
14527
14528 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
14529 vdupq_lane_s16 (int16x4_t __a, const int __b)
14530 {
14531   return __aarch64_vdupq_lane_s16 (__a, __b);
14532 }
14533
14534 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
14535 vdupq_lane_s32 (int32x2_t __a, const int __b)
14536 {
14537   return __aarch64_vdupq_lane_s32 (__a, __b);
14538 }
14539
14540 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
14541 vdupq_lane_s64 (int64x1_t __a, const int __b)
14542 {
14543   return __aarch64_vdupq_lane_s64 (__a, __b);
14544 }
14545
14546 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
14547 vdupq_lane_u8 (uint8x8_t __a, const int __b)
14548 {
14549   return __aarch64_vdupq_lane_u8 (__a, __b);
14550 }
14551
14552 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
14553 vdupq_lane_u16 (uint16x4_t __a, const int __b)
14554 {
14555   return __aarch64_vdupq_lane_u16 (__a, __b);
14556 }
14557
14558 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
14559 vdupq_lane_u32 (uint32x2_t __a, const int __b)
14560 {
14561   return __aarch64_vdupq_lane_u32 (__a, __b);
14562 }
14563
14564 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
14565 vdupq_lane_u64 (uint64x1_t __a, const int __b)
14566 {
14567   return __aarch64_vdupq_lane_u64 (__a, __b);
14568 }
14569
14570 /* vdupq_laneq  */
14571 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
14572 vdupq_laneq_f32 (float32x4_t __a, const int __b)
14573 {
14574   return __aarch64_vdupq_laneq_f32 (__a, __b);
14575 }
14576
14577 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
14578 vdupq_laneq_f64 (float64x2_t __a, const int __b)
14579 {
14580   return __aarch64_vdupq_laneq_f64 (__a, __b);
14581 }
14582
14583 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
14584 vdupq_laneq_p8 (poly8x16_t __a, const int __b)
14585 {
14586   return __aarch64_vdupq_laneq_p8 (__a, __b);
14587 }
14588
14589 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
14590 vdupq_laneq_p16 (poly16x8_t __a, const int __b)
14591 {
14592   return __aarch64_vdupq_laneq_p16 (__a, __b);
14593 }
14594
14595 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
14596 vdupq_laneq_s8 (int8x16_t __a, const int __b)
14597 {
14598   return __aarch64_vdupq_laneq_s8 (__a, __b);
14599 }
14600
14601 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
14602 vdupq_laneq_s16 (int16x8_t __a, const int __b)
14603 {
14604   return __aarch64_vdupq_laneq_s16 (__a, __b);
14605 }
14606
14607 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
14608 vdupq_laneq_s32 (int32x4_t __a, const int __b)
14609 {
14610   return __aarch64_vdupq_laneq_s32 (__a, __b);
14611 }
14612
14613 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
14614 vdupq_laneq_s64 (int64x2_t __a, const int __b)
14615 {
14616   return __aarch64_vdupq_laneq_s64 (__a, __b);
14617 }
14618
14619 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
14620 vdupq_laneq_u8 (uint8x16_t __a, const int __b)
14621 {
14622   return __aarch64_vdupq_laneq_u8 (__a, __b);
14623 }
14624
14625 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
14626 vdupq_laneq_u16 (uint16x8_t __a, const int __b)
14627 {
14628   return __aarch64_vdupq_laneq_u16 (__a, __b);
14629 }
14630
14631 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
14632 vdupq_laneq_u32 (uint32x4_t __a, const int __b)
14633 {
14634   return __aarch64_vdupq_laneq_u32 (__a, __b);
14635 }
14636
14637 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
14638 vdupq_laneq_u64 (uint64x2_t __a, const int __b)
14639 {
14640   return __aarch64_vdupq_laneq_u64 (__a, __b);
14641 }
14642
14643 /* vdupb_lane  */
14644 __extension__ static __inline poly8_t __attribute__ ((__always_inline__))
14645 vdupb_lane_p8 (poly8x8_t __a, const int __b)
14646 {
14647   return __aarch64_vget_lane_any (__a, __b);
14648 }
14649
14650 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
14651 vdupb_lane_s8 (int8x8_t __a, const int __b)
14652 {
14653   return __aarch64_vget_lane_any (__a, __b);
14654 }
14655
14656 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
14657 vdupb_lane_u8 (uint8x8_t __a, const int __b)
14658 {
14659   return __aarch64_vget_lane_any (__a, __b);
14660 }
14661
14662 /* vduph_lane  */
14663 __extension__ static __inline poly16_t __attribute__ ((__always_inline__))
14664 vduph_lane_p16 (poly16x4_t __a, const int __b)
14665 {
14666   return __aarch64_vget_lane_any (__a, __b);
14667 }
14668
14669 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
14670 vduph_lane_s16 (int16x4_t __a, const int __b)
14671 {
14672   return __aarch64_vget_lane_any (__a, __b);
14673 }
14674
14675 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
14676 vduph_lane_u16 (uint16x4_t __a, const int __b)
14677 {
14678   return __aarch64_vget_lane_any (__a, __b);
14679 }
14680
14681 /* vdups_lane  */
14682 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
14683 vdups_lane_f32 (float32x2_t __a, const int __b)
14684 {
14685   return __aarch64_vget_lane_any (__a, __b);
14686 }
14687
14688 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
14689 vdups_lane_s32 (int32x2_t __a, const int __b)
14690 {
14691   return __aarch64_vget_lane_any (__a, __b);
14692 }
14693
14694 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
14695 vdups_lane_u32 (uint32x2_t __a, const int __b)
14696 {
14697   return __aarch64_vget_lane_any (__a, __b);
14698 }
14699
14700 /* vdupd_lane  */
14701 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
14702 vdupd_lane_f64 (float64x1_t __a, const int __b)
14703 {
14704   __AARCH64_LANE_CHECK (__a, __b);
14705   return __a[0];
14706 }
14707
14708 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
14709 vdupd_lane_s64 (int64x1_t __a, const int __b)
14710 {
14711   __AARCH64_LANE_CHECK (__a, __b);
14712   return __a[0];
14713 }
14714
14715 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
14716 vdupd_lane_u64 (uint64x1_t __a, const int __b)
14717 {
14718   __AARCH64_LANE_CHECK (__a, __b);
14719   return __a[0];
14720 }
14721
14722 /* vdupb_laneq  */
14723 __extension__ static __inline poly8_t __attribute__ ((__always_inline__))
14724 vdupb_laneq_p8 (poly8x16_t __a, const int __b)
14725 {
14726   return __aarch64_vget_lane_any (__a, __b);
14727 }
14728
14729 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
14730 vdupb_laneq_s8 (int8x16_t __a, const int __attribute__ ((unused)) __b)
14731 {
14732   return __aarch64_vget_lane_any (__a, __b);
14733 }
14734
14735 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
14736 vdupb_laneq_u8 (uint8x16_t __a, const int __b)
14737 {
14738   return __aarch64_vget_lane_any (__a, __b);
14739 }
14740
14741 /* vduph_laneq  */
14742 __extension__ static __inline poly16_t __attribute__ ((__always_inline__))
14743 vduph_laneq_p16 (poly16x8_t __a, const int __b)
14744 {
14745   return __aarch64_vget_lane_any (__a, __b);
14746 }
14747
14748 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
14749 vduph_laneq_s16 (int16x8_t __a, const int __b)
14750 {
14751   return __aarch64_vget_lane_any (__a, __b);
14752 }
14753
14754 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
14755 vduph_laneq_u16 (uint16x8_t __a, const int __b)
14756 {
14757   return __aarch64_vget_lane_any (__a, __b);
14758 }
14759
14760 /* vdups_laneq  */
14761 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
14762 vdups_laneq_f32 (float32x4_t __a, const int __b)
14763 {
14764   return __aarch64_vget_lane_any (__a, __b);
14765 }
14766
14767 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
14768 vdups_laneq_s32 (int32x4_t __a, const int __b)
14769 {
14770   return __aarch64_vget_lane_any (__a, __b);
14771 }
14772
14773 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
14774 vdups_laneq_u32 (uint32x4_t __a, const int __b)
14775 {
14776   return __aarch64_vget_lane_any (__a, __b);
14777 }
14778
14779 /* vdupd_laneq  */
14780 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
14781 vdupd_laneq_f64 (float64x2_t __a, const int __b)
14782 {
14783   return __aarch64_vget_lane_any (__a, __b);
14784 }
14785
14786 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
14787 vdupd_laneq_s64 (int64x2_t __a, const int __b)
14788 {
14789   return __aarch64_vget_lane_any (__a, __b);
14790 }
14791
14792 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
14793 vdupd_laneq_u64 (uint64x2_t __a, const int __b)
14794 {
14795   return __aarch64_vget_lane_any (__a, __b);
14796 }
14797
14798 /* vext  */
14799
14800 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
14801 vext_f32 (float32x2_t __a, float32x2_t __b, __const int __c)
14802 {
14803   __AARCH64_LANE_CHECK (__a, __c);
14804 #ifdef __AARCH64EB__
14805   return __builtin_shuffle (__b, __a, (uint32x2_t) {2-__c, 3-__c});
14806 #else
14807   return __builtin_shuffle (__a, __b, (uint32x2_t) {__c, __c+1});
14808 #endif
14809 }
14810
14811 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
14812 vext_f64 (float64x1_t __a, float64x1_t __b, __const int __c)
14813 {
14814   __AARCH64_LANE_CHECK (__a, __c);
14815   /* The only possible index to the assembler instruction returns element 0.  */
14816   return __a;
14817 }
14818 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
14819 vext_p8 (poly8x8_t __a, poly8x8_t __b, __const int __c)
14820 {
14821   __AARCH64_LANE_CHECK (__a, __c);
14822 #ifdef __AARCH64EB__
14823   return __builtin_shuffle (__b, __a, (uint8x8_t)
14824       {8-__c, 9-__c, 10-__c, 11-__c, 12-__c, 13-__c, 14-__c, 15-__c});
14825 #else
14826   return __builtin_shuffle (__a, __b,
14827       (uint8x8_t) {__c, __c+1, __c+2, __c+3, __c+4, __c+5, __c+6, __c+7});
14828 #endif
14829 }
14830
14831 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
14832 vext_p16 (poly16x4_t __a, poly16x4_t __b, __const int __c)
14833 {
14834   __AARCH64_LANE_CHECK (__a, __c);
14835 #ifdef __AARCH64EB__
14836   return __builtin_shuffle (__b, __a,
14837       (uint16x4_t) {4-__c, 5-__c, 6-__c, 7-__c});
14838 #else
14839   return __builtin_shuffle (__a, __b, (uint16x4_t) {__c, __c+1, __c+2, __c+3});
14840 #endif
14841 }
14842
14843 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
14844 vext_s8 (int8x8_t __a, int8x8_t __b, __const int __c)
14845 {
14846   __AARCH64_LANE_CHECK (__a, __c);
14847 #ifdef __AARCH64EB__
14848   return __builtin_shuffle (__b, __a, (uint8x8_t)
14849       {8-__c, 9-__c, 10-__c, 11-__c, 12-__c, 13-__c, 14-__c, 15-__c});
14850 #else
14851   return __builtin_shuffle (__a, __b,
14852       (uint8x8_t) {__c, __c+1, __c+2, __c+3, __c+4, __c+5, __c+6, __c+7});
14853 #endif
14854 }
14855
14856 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
14857 vext_s16 (int16x4_t __a, int16x4_t __b, __const int __c)
14858 {
14859   __AARCH64_LANE_CHECK (__a, __c);
14860 #ifdef __AARCH64EB__
14861   return __builtin_shuffle (__b, __a,
14862       (uint16x4_t) {4-__c, 5-__c, 6-__c, 7-__c});
14863 #else
14864   return __builtin_shuffle (__a, __b, (uint16x4_t) {__c, __c+1, __c+2, __c+3});
14865 #endif
14866 }
14867
14868 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
14869 vext_s32 (int32x2_t __a, int32x2_t __b, __const int __c)
14870 {
14871   __AARCH64_LANE_CHECK (__a, __c);
14872 #ifdef __AARCH64EB__
14873   return __builtin_shuffle (__b, __a, (uint32x2_t) {2-__c, 3-__c});
14874 #else
14875   return __builtin_shuffle (__a, __b, (uint32x2_t) {__c, __c+1});
14876 #endif
14877 }
14878
14879 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
14880 vext_s64 (int64x1_t __a, int64x1_t __b, __const int __c)
14881 {
14882   __AARCH64_LANE_CHECK (__a, __c);
14883   /* The only possible index to the assembler instruction returns element 0.  */
14884   return __a;
14885 }
14886
14887 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
14888 vext_u8 (uint8x8_t __a, uint8x8_t __b, __const int __c)
14889 {
14890   __AARCH64_LANE_CHECK (__a, __c);
14891 #ifdef __AARCH64EB__
14892   return __builtin_shuffle (__b, __a, (uint8x8_t)
14893       {8-__c, 9-__c, 10-__c, 11-__c, 12-__c, 13-__c, 14-__c, 15-__c});
14894 #else
14895   return __builtin_shuffle (__a, __b,
14896       (uint8x8_t) {__c, __c+1, __c+2, __c+3, __c+4, __c+5, __c+6, __c+7});
14897 #endif
14898 }
14899
14900 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
14901 vext_u16 (uint16x4_t __a, uint16x4_t __b, __const int __c)
14902 {
14903   __AARCH64_LANE_CHECK (__a, __c);
14904 #ifdef __AARCH64EB__
14905   return __builtin_shuffle (__b, __a,
14906       (uint16x4_t) {4-__c, 5-__c, 6-__c, 7-__c});
14907 #else
14908   return __builtin_shuffle (__a, __b, (uint16x4_t) {__c, __c+1, __c+2, __c+3});
14909 #endif
14910 }
14911
14912 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
14913 vext_u32 (uint32x2_t __a, uint32x2_t __b, __const int __c)
14914 {
14915   __AARCH64_LANE_CHECK (__a, __c);
14916 #ifdef __AARCH64EB__
14917   return __builtin_shuffle (__b, __a, (uint32x2_t) {2-__c, 3-__c});
14918 #else
14919   return __builtin_shuffle (__a, __b, (uint32x2_t) {__c, __c+1});
14920 #endif
14921 }
14922
14923 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
14924 vext_u64 (uint64x1_t __a, uint64x1_t __b, __const int __c)
14925 {
14926   __AARCH64_LANE_CHECK (__a, __c);
14927   /* The only possible index to the assembler instruction returns element 0.  */
14928   return __a;
14929 }
14930
14931 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
14932 vextq_f32 (float32x4_t __a, float32x4_t __b, __const int __c)
14933 {
14934   __AARCH64_LANE_CHECK (__a, __c);
14935 #ifdef __AARCH64EB__
14936   return __builtin_shuffle (__b, __a,
14937       (uint32x4_t) {4-__c, 5-__c, 6-__c, 7-__c});
14938 #else
14939   return __builtin_shuffle (__a, __b, (uint32x4_t) {__c, __c+1, __c+2, __c+3});
14940 #endif
14941 }
14942
14943 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
14944 vextq_f64 (float64x2_t __a, float64x2_t __b, __const int __c)
14945 {
14946   __AARCH64_LANE_CHECK (__a, __c);
14947 #ifdef __AARCH64EB__
14948   return __builtin_shuffle (__b, __a, (uint64x2_t) {2-__c, 3-__c});
14949 #else
14950   return __builtin_shuffle (__a, __b, (uint64x2_t) {__c, __c+1});
14951 #endif
14952 }
14953
14954 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
14955 vextq_p8 (poly8x16_t __a, poly8x16_t __b, __const int __c)
14956 {
14957   __AARCH64_LANE_CHECK (__a, __c);
14958 #ifdef __AARCH64EB__
14959   return __builtin_shuffle (__b, __a, (uint8x16_t)
14960       {16-__c, 17-__c, 18-__c, 19-__c, 20-__c, 21-__c, 22-__c, 23-__c,
14961        24-__c, 25-__c, 26-__c, 27-__c, 28-__c, 29-__c, 30-__c, 31-__c});
14962 #else
14963   return __builtin_shuffle (__a, __b, (uint8x16_t)
14964       {__c, __c+1, __c+2, __c+3, __c+4, __c+5, __c+6, __c+7,
14965        __c+8, __c+9, __c+10, __c+11, __c+12, __c+13, __c+14, __c+15});
14966 #endif
14967 }
14968
14969 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
14970 vextq_p16 (poly16x8_t __a, poly16x8_t __b, __const int __c)
14971 {
14972   __AARCH64_LANE_CHECK (__a, __c);
14973 #ifdef __AARCH64EB__
14974   return __builtin_shuffle (__b, __a, (uint16x8_t)
14975       {8-__c, 9-__c, 10-__c, 11-__c, 12-__c, 13-__c, 14-__c, 15-__c});
14976 #else
14977   return __builtin_shuffle (__a, __b,
14978       (uint16x8_t) {__c, __c+1, __c+2, __c+3, __c+4, __c+5, __c+6, __c+7});
14979 #endif
14980 }
14981
14982 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
14983 vextq_s8 (int8x16_t __a, int8x16_t __b, __const int __c)
14984 {
14985   __AARCH64_LANE_CHECK (__a, __c);
14986 #ifdef __AARCH64EB__
14987   return __builtin_shuffle (__b, __a, (uint8x16_t)
14988       {16-__c, 17-__c, 18-__c, 19-__c, 20-__c, 21-__c, 22-__c, 23-__c,
14989        24-__c, 25-__c, 26-__c, 27-__c, 28-__c, 29-__c, 30-__c, 31-__c});
14990 #else
14991   return __builtin_shuffle (__a, __b, (uint8x16_t)
14992       {__c, __c+1, __c+2, __c+3, __c+4, __c+5, __c+6, __c+7,
14993        __c+8, __c+9, __c+10, __c+11, __c+12, __c+13, __c+14, __c+15});
14994 #endif
14995 }
14996
14997 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
14998 vextq_s16 (int16x8_t __a, int16x8_t __b, __const int __c)
14999 {
15000   __AARCH64_LANE_CHECK (__a, __c);
15001 #ifdef __AARCH64EB__
15002   return __builtin_shuffle (__b, __a, (uint16x8_t)
15003       {8-__c, 9-__c, 10-__c, 11-__c, 12-__c, 13-__c, 14-__c, 15-__c});
15004 #else
15005   return __builtin_shuffle (__a, __b,
15006       (uint16x8_t) {__c, __c+1, __c+2, __c+3, __c+4, __c+5, __c+6, __c+7});
15007 #endif
15008 }
15009
15010 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
15011 vextq_s32 (int32x4_t __a, int32x4_t __b, __const int __c)
15012 {
15013   __AARCH64_LANE_CHECK (__a, __c);
15014 #ifdef __AARCH64EB__
15015   return __builtin_shuffle (__b, __a,
15016       (uint32x4_t) {4-__c, 5-__c, 6-__c, 7-__c});
15017 #else
15018   return __builtin_shuffle (__a, __b, (uint32x4_t) {__c, __c+1, __c+2, __c+3});
15019 #endif
15020 }
15021
15022 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
15023 vextq_s64 (int64x2_t __a, int64x2_t __b, __const int __c)
15024 {
15025   __AARCH64_LANE_CHECK (__a, __c);
15026 #ifdef __AARCH64EB__
15027   return __builtin_shuffle (__b, __a, (uint64x2_t) {2-__c, 3-__c});
15028 #else
15029   return __builtin_shuffle (__a, __b, (uint64x2_t) {__c, __c+1});
15030 #endif
15031 }
15032
15033 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
15034 vextq_u8 (uint8x16_t __a, uint8x16_t __b, __const int __c)
15035 {
15036   __AARCH64_LANE_CHECK (__a, __c);
15037 #ifdef __AARCH64EB__
15038   return __builtin_shuffle (__b, __a, (uint8x16_t)
15039       {16-__c, 17-__c, 18-__c, 19-__c, 20-__c, 21-__c, 22-__c, 23-__c,
15040        24-__c, 25-__c, 26-__c, 27-__c, 28-__c, 29-__c, 30-__c, 31-__c});
15041 #else
15042   return __builtin_shuffle (__a, __b, (uint8x16_t)
15043       {__c, __c+1, __c+2, __c+3, __c+4, __c+5, __c+6, __c+7,
15044        __c+8, __c+9, __c+10, __c+11, __c+12, __c+13, __c+14, __c+15});
15045 #endif
15046 }
15047
15048 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
15049 vextq_u16 (uint16x8_t __a, uint16x8_t __b, __const int __c)
15050 {
15051   __AARCH64_LANE_CHECK (__a, __c);
15052 #ifdef __AARCH64EB__
15053   return __builtin_shuffle (__b, __a, (uint16x8_t)
15054       {8-__c, 9-__c, 10-__c, 11-__c, 12-__c, 13-__c, 14-__c, 15-__c});
15055 #else
15056   return __builtin_shuffle (__a, __b,
15057       (uint16x8_t) {__c, __c+1, __c+2, __c+3, __c+4, __c+5, __c+6, __c+7});
15058 #endif
15059 }
15060
15061 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
15062 vextq_u32 (uint32x4_t __a, uint32x4_t __b, __const int __c)
15063 {
15064   __AARCH64_LANE_CHECK (__a, __c);
15065 #ifdef __AARCH64EB__
15066   return __builtin_shuffle (__b, __a,
15067       (uint32x4_t) {4-__c, 5-__c, 6-__c, 7-__c});
15068 #else
15069   return __builtin_shuffle (__a, __b, (uint32x4_t) {__c, __c+1, __c+2, __c+3});
15070 #endif
15071 }
15072
15073 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
15074 vextq_u64 (uint64x2_t __a, uint64x2_t __b, __const int __c)
15075 {
15076   __AARCH64_LANE_CHECK (__a, __c);
15077 #ifdef __AARCH64EB__
15078   return __builtin_shuffle (__b, __a, (uint64x2_t) {2-__c, 3-__c});
15079 #else
15080   return __builtin_shuffle (__a, __b, (uint64x2_t) {__c, __c+1});
15081 #endif
15082 }
15083
15084 /* vfma  */
15085
15086 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
15087 vfma_f64 (float64x1_t __a, float64x1_t __b, float64x1_t __c)
15088 {
15089   return (float64x1_t) {__builtin_fma (__b[0], __c[0], __a[0])};
15090 }
15091
15092 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
15093 vfma_f32 (float32x2_t __a, float32x2_t __b, float32x2_t __c)
15094 {
15095   return __builtin_aarch64_fmav2sf (__b, __c, __a);
15096 }
15097
15098 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
15099 vfmaq_f32 (float32x4_t __a, float32x4_t __b, float32x4_t __c)
15100 {
15101   return __builtin_aarch64_fmav4sf (__b, __c, __a);
15102 }
15103
15104 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
15105 vfmaq_f64 (float64x2_t __a, float64x2_t __b, float64x2_t __c)
15106 {
15107   return __builtin_aarch64_fmav2df (__b, __c, __a);
15108 }
15109
15110 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
15111 vfma_n_f32 (float32x2_t __a, float32x2_t __b, float32_t __c)
15112 {
15113   return __builtin_aarch64_fmav2sf (__b, vdup_n_f32 (__c), __a);
15114 }
15115
15116 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
15117 vfmaq_n_f32 (float32x4_t __a, float32x4_t __b, float32_t __c)
15118 {
15119   return __builtin_aarch64_fmav4sf (__b, vdupq_n_f32 (__c), __a);
15120 }
15121
15122 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
15123 vfmaq_n_f64 (float64x2_t __a, float64x2_t __b, float64_t __c)
15124 {
15125   return __builtin_aarch64_fmav2df (__b, vdupq_n_f64 (__c), __a);
15126 }
15127
15128 /* vfma_lane  */
15129
15130 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
15131 vfma_lane_f32 (float32x2_t __a, float32x2_t __b,
15132                float32x2_t __c, const int __lane)
15133 {
15134   return __builtin_aarch64_fmav2sf (__b,
15135                                     __aarch64_vdup_lane_f32 (__c, __lane),
15136                                     __a);
15137 }
15138
15139 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
15140 vfma_lane_f64 (float64x1_t __a, float64x1_t __b,
15141                float64x1_t __c, const int __lane)
15142 {
15143   return (float64x1_t) {__builtin_fma (__b[0], __c[0], __a[0])};
15144 }
15145
15146 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
15147 vfmad_lane_f64 (float64_t __a, float64_t __b,
15148                 float64x1_t __c, const int __lane)
15149 {
15150   return __builtin_fma (__b, __c[0], __a);
15151 }
15152
15153 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
15154 vfmas_lane_f32 (float32_t __a, float32_t __b,
15155                 float32x2_t __c, const int __lane)
15156 {
15157   return __builtin_fmaf (__b, __aarch64_vget_lane_any (__c, __lane), __a);
15158 }
15159
15160 /* vfma_laneq  */
15161
15162 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
15163 vfma_laneq_f32 (float32x2_t __a, float32x2_t __b,
15164                 float32x4_t __c, const int __lane)
15165 {
15166   return __builtin_aarch64_fmav2sf (__b,
15167                                     __aarch64_vdup_laneq_f32 (__c, __lane),
15168                                     __a);
15169 }
15170
15171 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
15172 vfma_laneq_f64 (float64x1_t __a, float64x1_t __b,
15173                 float64x2_t __c, const int __lane)
15174 {
15175   float64_t __c0 = __aarch64_vget_lane_any (__c, __lane);
15176   return (float64x1_t) {__builtin_fma (__b[0], __c0, __a[0])};
15177 }
15178
15179 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
15180 vfmad_laneq_f64 (float64_t __a, float64_t __b,
15181                  float64x2_t __c, const int __lane)
15182 {
15183   return __builtin_fma (__b, __aarch64_vget_lane_any (__c, __lane), __a);
15184 }
15185
15186 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
15187 vfmas_laneq_f32 (float32_t __a, float32_t __b,
15188                  float32x4_t __c, const int __lane)
15189 {
15190   return __builtin_fmaf (__b, __aarch64_vget_lane_any (__c, __lane), __a);
15191 }
15192
15193 /* vfmaq_lane  */
15194
15195 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
15196 vfmaq_lane_f32 (float32x4_t __a, float32x4_t __b,
15197                 float32x2_t __c, const int __lane)
15198 {
15199   return __builtin_aarch64_fmav4sf (__b,
15200                                     __aarch64_vdupq_lane_f32 (__c, __lane),
15201                                     __a);
15202 }
15203
15204 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
15205 vfmaq_lane_f64 (float64x2_t __a, float64x2_t __b,
15206                 float64x1_t __c, const int __lane)
15207 {
15208   return __builtin_aarch64_fmav2df (__b, vdupq_n_f64 (__c[0]), __a);
15209 }
15210
15211 /* vfmaq_laneq  */
15212
15213 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
15214 vfmaq_laneq_f32 (float32x4_t __a, float32x4_t __b,
15215                  float32x4_t __c, const int __lane)
15216 {
15217   return __builtin_aarch64_fmav4sf (__b,
15218                                     __aarch64_vdupq_laneq_f32 (__c, __lane),
15219                                     __a);
15220 }
15221
15222 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
15223 vfmaq_laneq_f64 (float64x2_t __a, float64x2_t __b,
15224                  float64x2_t __c, const int __lane)
15225 {
15226   return __builtin_aarch64_fmav2df (__b,
15227                                     __aarch64_vdupq_laneq_f64 (__c, __lane),
15228                                     __a);
15229 }
15230
15231 /* vfms  */
15232
15233 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
15234 vfms_f64 (float64x1_t __a, float64x1_t __b, float64x1_t __c)
15235 {
15236   return (float64x1_t) {__builtin_fma (-__b[0], __c[0], __a[0])};
15237 }
15238
15239 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
15240 vfms_f32 (float32x2_t __a, float32x2_t __b, float32x2_t __c)
15241 {
15242   return __builtin_aarch64_fmav2sf (-__b, __c, __a);
15243 }
15244
15245 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
15246 vfmsq_f32 (float32x4_t __a, float32x4_t __b, float32x4_t __c)
15247 {
15248   return __builtin_aarch64_fmav4sf (-__b, __c, __a);
15249 }
15250
15251 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
15252 vfmsq_f64 (float64x2_t __a, float64x2_t __b, float64x2_t __c)
15253 {
15254   return __builtin_aarch64_fmav2df (-__b, __c, __a);
15255 }
15256
15257
15258 /* vfms_lane  */
15259
15260 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
15261 vfms_lane_f32 (float32x2_t __a, float32x2_t __b,
15262                float32x2_t __c, const int __lane)
15263 {
15264   return __builtin_aarch64_fmav2sf (-__b,
15265                                     __aarch64_vdup_lane_f32 (__c, __lane),
15266                                     __a);
15267 }
15268
15269 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
15270 vfms_lane_f64 (float64x1_t __a, float64x1_t __b,
15271                float64x1_t __c, const int __lane)
15272 {
15273   return (float64x1_t) {__builtin_fma (-__b[0], __c[0], __a[0])};
15274 }
15275
15276 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
15277 vfmsd_lane_f64 (float64_t __a, float64_t __b,
15278                 float64x1_t __c, const int __lane)
15279 {
15280   return __builtin_fma (-__b, __c[0], __a);
15281 }
15282
15283 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
15284 vfmss_lane_f32 (float32_t __a, float32_t __b,
15285                 float32x2_t __c, const int __lane)
15286 {
15287   return __builtin_fmaf (-__b, __aarch64_vget_lane_any (__c, __lane), __a);
15288 }
15289
15290 /* vfms_laneq  */
15291
15292 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
15293 vfms_laneq_f32 (float32x2_t __a, float32x2_t __b,
15294                 float32x4_t __c, const int __lane)
15295 {
15296   return __builtin_aarch64_fmav2sf (-__b,
15297                                     __aarch64_vdup_laneq_f32 (__c, __lane),
15298                                     __a);
15299 }
15300
15301 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
15302 vfms_laneq_f64 (float64x1_t __a, float64x1_t __b,
15303                 float64x2_t __c, const int __lane)
15304 {
15305   float64_t __c0 = __aarch64_vget_lane_any (__c, __lane);
15306   return (float64x1_t) {__builtin_fma (-__b[0], __c0, __a[0])};
15307 }
15308
15309 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
15310 vfmsd_laneq_f64 (float64_t __a, float64_t __b,
15311                  float64x2_t __c, const int __lane)
15312 {
15313   return __builtin_fma (-__b, __aarch64_vget_lane_any (__c, __lane), __a);
15314 }
15315
15316 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
15317 vfmss_laneq_f32 (float32_t __a, float32_t __b,
15318                  float32x4_t __c, const int __lane)
15319 {
15320   return __builtin_fmaf (-__b, __aarch64_vget_lane_any (__c, __lane), __a);
15321 }
15322
15323 /* vfmsq_lane  */
15324
15325 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
15326 vfmsq_lane_f32 (float32x4_t __a, float32x4_t __b,
15327                 float32x2_t __c, const int __lane)
15328 {
15329   return __builtin_aarch64_fmav4sf (-__b,
15330                                     __aarch64_vdupq_lane_f32 (__c, __lane),
15331                                     __a);
15332 }
15333
15334 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
15335 vfmsq_lane_f64 (float64x2_t __a, float64x2_t __b,
15336                 float64x1_t __c, const int __lane)
15337 {
15338   return __builtin_aarch64_fmav2df (-__b, vdupq_n_f64 (__c[0]), __a);
15339 }
15340
15341 /* vfmsq_laneq  */
15342
15343 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
15344 vfmsq_laneq_f32 (float32x4_t __a, float32x4_t __b,
15345                  float32x4_t __c, const int __lane)
15346 {
15347   return __builtin_aarch64_fmav4sf (-__b,
15348                                     __aarch64_vdupq_laneq_f32 (__c, __lane),
15349                                     __a);
15350 }
15351
15352 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
15353 vfmsq_laneq_f64 (float64x2_t __a, float64x2_t __b,
15354                  float64x2_t __c, const int __lane)
15355 {
15356   return __builtin_aarch64_fmav2df (-__b,
15357                                     __aarch64_vdupq_laneq_f64 (__c, __lane),
15358                                     __a);
15359 }
15360
15361 /* vld1 */
15362
15363 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
15364 vld1_f32 (const float32_t *a)
15365 {
15366   return __builtin_aarch64_ld1v2sf ((const __builtin_aarch64_simd_sf *) a);
15367 }
15368
15369 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
15370 vld1_f64 (const float64_t *a)
15371 {
15372   return (float64x1_t) {*a};
15373 }
15374
15375 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
15376 vld1_p8 (const poly8_t *a)
15377 {
15378   return (poly8x8_t)
15379     __builtin_aarch64_ld1v8qi ((const __builtin_aarch64_simd_qi *) a);
15380 }
15381
15382 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
15383 vld1_p16 (const poly16_t *a)
15384 {
15385   return (poly16x4_t)
15386     __builtin_aarch64_ld1v4hi ((const __builtin_aarch64_simd_hi *) a);
15387 }
15388
15389 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
15390 vld1_s8 (const int8_t *a)
15391 {
15392   return __builtin_aarch64_ld1v8qi ((const __builtin_aarch64_simd_qi *) a);
15393 }
15394
15395 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
15396 vld1_s16 (const int16_t *a)
15397 {
15398   return __builtin_aarch64_ld1v4hi ((const __builtin_aarch64_simd_hi *) a);
15399 }
15400
15401 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
15402 vld1_s32 (const int32_t *a)
15403 {
15404   return __builtin_aarch64_ld1v2si ((const __builtin_aarch64_simd_si *) a);
15405 }
15406
15407 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
15408 vld1_s64 (const int64_t *a)
15409 {
15410   return (int64x1_t) {*a};
15411 }
15412
15413 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
15414 vld1_u8 (const uint8_t *a)
15415 {
15416   return (uint8x8_t)
15417     __builtin_aarch64_ld1v8qi ((const __builtin_aarch64_simd_qi *) a);
15418 }
15419
15420 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
15421 vld1_u16 (const uint16_t *a)
15422 {
15423   return (uint16x4_t)
15424     __builtin_aarch64_ld1v4hi ((const __builtin_aarch64_simd_hi *) a);
15425 }
15426
15427 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
15428 vld1_u32 (const uint32_t *a)
15429 {
15430   return (uint32x2_t)
15431     __builtin_aarch64_ld1v2si ((const __builtin_aarch64_simd_si *) a);
15432 }
15433
15434 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
15435 vld1_u64 (const uint64_t *a)
15436 {
15437   return (uint64x1_t) {*a};
15438 }
15439
15440 /* vld1q */
15441
15442 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
15443 vld1q_f32 (const float32_t *a)
15444 {
15445   return __builtin_aarch64_ld1v4sf ((const __builtin_aarch64_simd_sf *) a);
15446 }
15447
15448 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
15449 vld1q_f64 (const float64_t *a)
15450 {
15451   return __builtin_aarch64_ld1v2df ((const __builtin_aarch64_simd_df *) a);
15452 }
15453
15454 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
15455 vld1q_p8 (const poly8_t *a)
15456 {
15457   return (poly8x16_t)
15458     __builtin_aarch64_ld1v16qi ((const __builtin_aarch64_simd_qi *) a);
15459 }
15460
15461 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
15462 vld1q_p16 (const poly16_t *a)
15463 {
15464   return (poly16x8_t)
15465     __builtin_aarch64_ld1v8hi ((const __builtin_aarch64_simd_hi *) a);
15466 }
15467
15468 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
15469 vld1q_s8 (const int8_t *a)
15470 {
15471   return __builtin_aarch64_ld1v16qi ((const __builtin_aarch64_simd_qi *) a);
15472 }
15473
15474 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
15475 vld1q_s16 (const int16_t *a)
15476 {
15477   return __builtin_aarch64_ld1v8hi ((const __builtin_aarch64_simd_hi *) a);
15478 }
15479
15480 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
15481 vld1q_s32 (const int32_t *a)
15482 {
15483   return __builtin_aarch64_ld1v4si ((const __builtin_aarch64_simd_si *) a);
15484 }
15485
15486 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
15487 vld1q_s64 (const int64_t *a)
15488 {
15489   return __builtin_aarch64_ld1v2di ((const __builtin_aarch64_simd_di *) a);
15490 }
15491
15492 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
15493 vld1q_u8 (const uint8_t *a)
15494 {
15495   return (uint8x16_t)
15496     __builtin_aarch64_ld1v16qi ((const __builtin_aarch64_simd_qi *) a);
15497 }
15498
15499 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
15500 vld1q_u16 (const uint16_t *a)
15501 {
15502   return (uint16x8_t)
15503     __builtin_aarch64_ld1v8hi ((const __builtin_aarch64_simd_hi *) a);
15504 }
15505
15506 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
15507 vld1q_u32 (const uint32_t *a)
15508 {
15509   return (uint32x4_t)
15510     __builtin_aarch64_ld1v4si ((const __builtin_aarch64_simd_si *) a);
15511 }
15512
15513 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
15514 vld1q_u64 (const uint64_t *a)
15515 {
15516   return (uint64x2_t)
15517     __builtin_aarch64_ld1v2di ((const __builtin_aarch64_simd_di *) a);
15518 }
15519
15520 /* vld1_dup  */
15521
15522 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
15523 vld1_dup_f32 (const float32_t* __a)
15524 {
15525   return vdup_n_f32 (*__a);
15526 }
15527
15528 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
15529 vld1_dup_f64 (const float64_t* __a)
15530 {
15531   return vdup_n_f64 (*__a);
15532 }
15533
15534 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
15535 vld1_dup_p8 (const poly8_t* __a)
15536 {
15537   return vdup_n_p8 (*__a);
15538 }
15539
15540 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
15541 vld1_dup_p16 (const poly16_t* __a)
15542 {
15543   return vdup_n_p16 (*__a);
15544 }
15545
15546 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
15547 vld1_dup_s8 (const int8_t* __a)
15548 {
15549   return vdup_n_s8 (*__a);
15550 }
15551
15552 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
15553 vld1_dup_s16 (const int16_t* __a)
15554 {
15555   return vdup_n_s16 (*__a);
15556 }
15557
15558 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
15559 vld1_dup_s32 (const int32_t* __a)
15560 {
15561   return vdup_n_s32 (*__a);
15562 }
15563
15564 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
15565 vld1_dup_s64 (const int64_t* __a)
15566 {
15567   return vdup_n_s64 (*__a);
15568 }
15569
15570 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
15571 vld1_dup_u8 (const uint8_t* __a)
15572 {
15573   return vdup_n_u8 (*__a);
15574 }
15575
15576 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
15577 vld1_dup_u16 (const uint16_t* __a)
15578 {
15579   return vdup_n_u16 (*__a);
15580 }
15581
15582 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
15583 vld1_dup_u32 (const uint32_t* __a)
15584 {
15585   return vdup_n_u32 (*__a);
15586 }
15587
15588 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
15589 vld1_dup_u64 (const uint64_t* __a)
15590 {
15591   return vdup_n_u64 (*__a);
15592 }
15593
15594 /* vld1q_dup  */
15595
15596 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
15597 vld1q_dup_f32 (const float32_t* __a)
15598 {
15599   return vdupq_n_f32 (*__a);
15600 }
15601
15602 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
15603 vld1q_dup_f64 (const float64_t* __a)
15604 {
15605   return vdupq_n_f64 (*__a);
15606 }
15607
15608 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
15609 vld1q_dup_p8 (const poly8_t* __a)
15610 {
15611   return vdupq_n_p8 (*__a);
15612 }
15613
15614 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
15615 vld1q_dup_p16 (const poly16_t* __a)
15616 {
15617   return vdupq_n_p16 (*__a);
15618 }
15619
15620 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
15621 vld1q_dup_s8 (const int8_t* __a)
15622 {
15623   return vdupq_n_s8 (*__a);
15624 }
15625
15626 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
15627 vld1q_dup_s16 (const int16_t* __a)
15628 {
15629   return vdupq_n_s16 (*__a);
15630 }
15631
15632 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
15633 vld1q_dup_s32 (const int32_t* __a)
15634 {
15635   return vdupq_n_s32 (*__a);
15636 }
15637
15638 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
15639 vld1q_dup_s64 (const int64_t* __a)
15640 {
15641   return vdupq_n_s64 (*__a);
15642 }
15643
15644 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
15645 vld1q_dup_u8 (const uint8_t* __a)
15646 {
15647   return vdupq_n_u8 (*__a);
15648 }
15649
15650 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
15651 vld1q_dup_u16 (const uint16_t* __a)
15652 {
15653   return vdupq_n_u16 (*__a);
15654 }
15655
15656 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
15657 vld1q_dup_u32 (const uint32_t* __a)
15658 {
15659   return vdupq_n_u32 (*__a);
15660 }
15661
15662 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
15663 vld1q_dup_u64 (const uint64_t* __a)
15664 {
15665   return vdupq_n_u64 (*__a);
15666 }
15667
15668 /* vld1_lane  */
15669
15670 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
15671 vld1_lane_f32 (const float32_t *__src, float32x2_t __vec, const int __lane)
15672 {
15673   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15674 }
15675
15676 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
15677 vld1_lane_f64 (const float64_t *__src, float64x1_t __vec, const int __lane)
15678 {
15679   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15680 }
15681
15682 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
15683 vld1_lane_p8 (const poly8_t *__src, poly8x8_t __vec, const int __lane)
15684 {
15685   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15686 }
15687
15688 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
15689 vld1_lane_p16 (const poly16_t *__src, poly16x4_t __vec, const int __lane)
15690 {
15691   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15692 }
15693
15694 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
15695 vld1_lane_s8 (const int8_t *__src, int8x8_t __vec, const int __lane)
15696 {
15697   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15698 }
15699
15700 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
15701 vld1_lane_s16 (const int16_t *__src, int16x4_t __vec, const int __lane)
15702 {
15703   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15704 }
15705
15706 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
15707 vld1_lane_s32 (const int32_t *__src, int32x2_t __vec, const int __lane)
15708 {
15709   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15710 }
15711
15712 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
15713 vld1_lane_s64 (const int64_t *__src, int64x1_t __vec, const int __lane)
15714 {
15715   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15716 }
15717
15718 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
15719 vld1_lane_u8 (const uint8_t *__src, uint8x8_t __vec, const int __lane)
15720 {
15721   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15722 }
15723
15724 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
15725 vld1_lane_u16 (const uint16_t *__src, uint16x4_t __vec, const int __lane)
15726 {
15727   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15728 }
15729
15730 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
15731 vld1_lane_u32 (const uint32_t *__src, uint32x2_t __vec, const int __lane)
15732 {
15733   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15734 }
15735
15736 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
15737 vld1_lane_u64 (const uint64_t *__src, uint64x1_t __vec, const int __lane)
15738 {
15739   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15740 }
15741
15742 /* vld1q_lane  */
15743
15744 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
15745 vld1q_lane_f32 (const float32_t *__src, float32x4_t __vec, const int __lane)
15746 {
15747   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15748 }
15749
15750 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
15751 vld1q_lane_f64 (const float64_t *__src, float64x2_t __vec, const int __lane)
15752 {
15753   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15754 }
15755
15756 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
15757 vld1q_lane_p8 (const poly8_t *__src, poly8x16_t __vec, const int __lane)
15758 {
15759   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15760 }
15761
15762 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
15763 vld1q_lane_p16 (const poly16_t *__src, poly16x8_t __vec, const int __lane)
15764 {
15765   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15766 }
15767
15768 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
15769 vld1q_lane_s8 (const int8_t *__src, int8x16_t __vec, const int __lane)
15770 {
15771   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15772 }
15773
15774 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
15775 vld1q_lane_s16 (const int16_t *__src, int16x8_t __vec, const int __lane)
15776 {
15777   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15778 }
15779
15780 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
15781 vld1q_lane_s32 (const int32_t *__src, int32x4_t __vec, const int __lane)
15782 {
15783   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15784 }
15785
15786 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
15787 vld1q_lane_s64 (const int64_t *__src, int64x2_t __vec, const int __lane)
15788 {
15789   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15790 }
15791
15792 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
15793 vld1q_lane_u8 (const uint8_t *__src, uint8x16_t __vec, const int __lane)
15794 {
15795   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15796 }
15797
15798 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
15799 vld1q_lane_u16 (const uint16_t *__src, uint16x8_t __vec, const int __lane)
15800 {
15801   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15802 }
15803
15804 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
15805 vld1q_lane_u32 (const uint32_t *__src, uint32x4_t __vec, const int __lane)
15806 {
15807   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15808 }
15809
15810 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
15811 vld1q_lane_u64 (const uint64_t *__src, uint64x2_t __vec, const int __lane)
15812 {
15813   return __aarch64_vset_lane_any (*__src, __vec, __lane);
15814 }
15815
15816 /* vldn */
15817
15818 __extension__ static __inline int64x1x2_t __attribute__ ((__always_inline__))
15819 vld2_s64 (const int64_t * __a)
15820 {
15821   int64x1x2_t ret;
15822   __builtin_aarch64_simd_oi __o;
15823   __o = __builtin_aarch64_ld2di ((const __builtin_aarch64_simd_di *) __a);
15824   ret.val[0] = (int64x1_t) __builtin_aarch64_get_dregoidi (__o, 0);
15825   ret.val[1] = (int64x1_t) __builtin_aarch64_get_dregoidi (__o, 1);
15826   return ret;
15827 }
15828
15829 __extension__ static __inline uint64x1x2_t __attribute__ ((__always_inline__))
15830 vld2_u64 (const uint64_t * __a)
15831 {
15832   uint64x1x2_t ret;
15833   __builtin_aarch64_simd_oi __o;
15834   __o = __builtin_aarch64_ld2di ((const __builtin_aarch64_simd_di *) __a);
15835   ret.val[0] = (uint64x1_t) __builtin_aarch64_get_dregoidi (__o, 0);
15836   ret.val[1] = (uint64x1_t) __builtin_aarch64_get_dregoidi (__o, 1);
15837   return ret;
15838 }
15839
15840 __extension__ static __inline float64x1x2_t __attribute__ ((__always_inline__))
15841 vld2_f64 (const float64_t * __a)
15842 {
15843   float64x1x2_t ret;
15844   __builtin_aarch64_simd_oi __o;
15845   __o = __builtin_aarch64_ld2df ((const __builtin_aarch64_simd_df *) __a);
15846   ret.val[0] = (float64x1_t) {__builtin_aarch64_get_dregoidf (__o, 0)};
15847   ret.val[1] = (float64x1_t) {__builtin_aarch64_get_dregoidf (__o, 1)};
15848   return ret;
15849 }
15850
15851 __extension__ static __inline int8x8x2_t __attribute__ ((__always_inline__))
15852 vld2_s8 (const int8_t * __a)
15853 {
15854   int8x8x2_t ret;
15855   __builtin_aarch64_simd_oi __o;
15856   __o = __builtin_aarch64_ld2v8qi ((const __builtin_aarch64_simd_qi *) __a);
15857   ret.val[0] = (int8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 0);
15858   ret.val[1] = (int8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 1);
15859   return ret;
15860 }
15861
15862 __extension__ static __inline poly8x8x2_t __attribute__ ((__always_inline__))
15863 vld2_p8 (const poly8_t * __a)
15864 {
15865   poly8x8x2_t ret;
15866   __builtin_aarch64_simd_oi __o;
15867   __o = __builtin_aarch64_ld2v8qi ((const __builtin_aarch64_simd_qi *) __a);
15868   ret.val[0] = (poly8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 0);
15869   ret.val[1] = (poly8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 1);
15870   return ret;
15871 }
15872
15873 __extension__ static __inline int16x4x2_t __attribute__ ((__always_inline__))
15874 vld2_s16 (const int16_t * __a)
15875 {
15876   int16x4x2_t ret;
15877   __builtin_aarch64_simd_oi __o;
15878   __o = __builtin_aarch64_ld2v4hi ((const __builtin_aarch64_simd_hi *) __a);
15879   ret.val[0] = (int16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 0);
15880   ret.val[1] = (int16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 1);
15881   return ret;
15882 }
15883
15884 __extension__ static __inline poly16x4x2_t __attribute__ ((__always_inline__))
15885 vld2_p16 (const poly16_t * __a)
15886 {
15887   poly16x4x2_t ret;
15888   __builtin_aarch64_simd_oi __o;
15889   __o = __builtin_aarch64_ld2v4hi ((const __builtin_aarch64_simd_hi *) __a);
15890   ret.val[0] = (poly16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 0);
15891   ret.val[1] = (poly16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 1);
15892   return ret;
15893 }
15894
15895 __extension__ static __inline int32x2x2_t __attribute__ ((__always_inline__))
15896 vld2_s32 (const int32_t * __a)
15897 {
15898   int32x2x2_t ret;
15899   __builtin_aarch64_simd_oi __o;
15900   __o = __builtin_aarch64_ld2v2si ((const __builtin_aarch64_simd_si *) __a);
15901   ret.val[0] = (int32x2_t) __builtin_aarch64_get_dregoiv2si (__o, 0);
15902   ret.val[1] = (int32x2_t) __builtin_aarch64_get_dregoiv2si (__o, 1);
15903   return ret;
15904 }
15905
15906 __extension__ static __inline uint8x8x2_t __attribute__ ((__always_inline__))
15907 vld2_u8 (const uint8_t * __a)
15908 {
15909   uint8x8x2_t ret;
15910   __builtin_aarch64_simd_oi __o;
15911   __o = __builtin_aarch64_ld2v8qi ((const __builtin_aarch64_simd_qi *) __a);
15912   ret.val[0] = (uint8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 0);
15913   ret.val[1] = (uint8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 1);
15914   return ret;
15915 }
15916
15917 __extension__ static __inline uint16x4x2_t __attribute__ ((__always_inline__))
15918 vld2_u16 (const uint16_t * __a)
15919 {
15920   uint16x4x2_t ret;
15921   __builtin_aarch64_simd_oi __o;
15922   __o = __builtin_aarch64_ld2v4hi ((const __builtin_aarch64_simd_hi *) __a);
15923   ret.val[0] = (uint16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 0);
15924   ret.val[1] = (uint16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 1);
15925   return ret;
15926 }
15927
15928 __extension__ static __inline uint32x2x2_t __attribute__ ((__always_inline__))
15929 vld2_u32 (const uint32_t * __a)
15930 {
15931   uint32x2x2_t ret;
15932   __builtin_aarch64_simd_oi __o;
15933   __o = __builtin_aarch64_ld2v2si ((const __builtin_aarch64_simd_si *) __a);
15934   ret.val[0] = (uint32x2_t) __builtin_aarch64_get_dregoiv2si (__o, 0);
15935   ret.val[1] = (uint32x2_t) __builtin_aarch64_get_dregoiv2si (__o, 1);
15936   return ret;
15937 }
15938
15939 __extension__ static __inline float32x2x2_t __attribute__ ((__always_inline__))
15940 vld2_f32 (const float32_t * __a)
15941 {
15942   float32x2x2_t ret;
15943   __builtin_aarch64_simd_oi __o;
15944   __o = __builtin_aarch64_ld2v2sf ((const __builtin_aarch64_simd_sf *) __a);
15945   ret.val[0] = (float32x2_t) __builtin_aarch64_get_dregoiv2sf (__o, 0);
15946   ret.val[1] = (float32x2_t) __builtin_aarch64_get_dregoiv2sf (__o, 1);
15947   return ret;
15948 }
15949
15950 __extension__ static __inline int8x16x2_t __attribute__ ((__always_inline__))
15951 vld2q_s8 (const int8_t * __a)
15952 {
15953   int8x16x2_t ret;
15954   __builtin_aarch64_simd_oi __o;
15955   __o = __builtin_aarch64_ld2v16qi ((const __builtin_aarch64_simd_qi *) __a);
15956   ret.val[0] = (int8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 0);
15957   ret.val[1] = (int8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 1);
15958   return ret;
15959 }
15960
15961 __extension__ static __inline poly8x16x2_t __attribute__ ((__always_inline__))
15962 vld2q_p8 (const poly8_t * __a)
15963 {
15964   poly8x16x2_t ret;
15965   __builtin_aarch64_simd_oi __o;
15966   __o = __builtin_aarch64_ld2v16qi ((const __builtin_aarch64_simd_qi *) __a);
15967   ret.val[0] = (poly8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 0);
15968   ret.val[1] = (poly8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 1);
15969   return ret;
15970 }
15971
15972 __extension__ static __inline int16x8x2_t __attribute__ ((__always_inline__))
15973 vld2q_s16 (const int16_t * __a)
15974 {
15975   int16x8x2_t ret;
15976   __builtin_aarch64_simd_oi __o;
15977   __o = __builtin_aarch64_ld2v8hi ((const __builtin_aarch64_simd_hi *) __a);
15978   ret.val[0] = (int16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 0);
15979   ret.val[1] = (int16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 1);
15980   return ret;
15981 }
15982
15983 __extension__ static __inline poly16x8x2_t __attribute__ ((__always_inline__))
15984 vld2q_p16 (const poly16_t * __a)
15985 {
15986   poly16x8x2_t ret;
15987   __builtin_aarch64_simd_oi __o;
15988   __o = __builtin_aarch64_ld2v8hi ((const __builtin_aarch64_simd_hi *) __a);
15989   ret.val[0] = (poly16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 0);
15990   ret.val[1] = (poly16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 1);
15991   return ret;
15992 }
15993
15994 __extension__ static __inline int32x4x2_t __attribute__ ((__always_inline__))
15995 vld2q_s32 (const int32_t * __a)
15996 {
15997   int32x4x2_t ret;
15998   __builtin_aarch64_simd_oi __o;
15999   __o = __builtin_aarch64_ld2v4si ((const __builtin_aarch64_simd_si *) __a);
16000   ret.val[0] = (int32x4_t) __builtin_aarch64_get_qregoiv4si (__o, 0);
16001   ret.val[1] = (int32x4_t) __builtin_aarch64_get_qregoiv4si (__o, 1);
16002   return ret;
16003 }
16004
16005 __extension__ static __inline int64x2x2_t __attribute__ ((__always_inline__))
16006 vld2q_s64 (const int64_t * __a)
16007 {
16008   int64x2x2_t ret;
16009   __builtin_aarch64_simd_oi __o;
16010   __o = __builtin_aarch64_ld2v2di ((const __builtin_aarch64_simd_di *) __a);
16011   ret.val[0] = (int64x2_t) __builtin_aarch64_get_qregoiv2di (__o, 0);
16012   ret.val[1] = (int64x2_t) __builtin_aarch64_get_qregoiv2di (__o, 1);
16013   return ret;
16014 }
16015
16016 __extension__ static __inline uint8x16x2_t __attribute__ ((__always_inline__))
16017 vld2q_u8 (const uint8_t * __a)
16018 {
16019   uint8x16x2_t ret;
16020   __builtin_aarch64_simd_oi __o;
16021   __o = __builtin_aarch64_ld2v16qi ((const __builtin_aarch64_simd_qi *) __a);
16022   ret.val[0] = (uint8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 0);
16023   ret.val[1] = (uint8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 1);
16024   return ret;
16025 }
16026
16027 __extension__ static __inline uint16x8x2_t __attribute__ ((__always_inline__))
16028 vld2q_u16 (const uint16_t * __a)
16029 {
16030   uint16x8x2_t ret;
16031   __builtin_aarch64_simd_oi __o;
16032   __o = __builtin_aarch64_ld2v8hi ((const __builtin_aarch64_simd_hi *) __a);
16033   ret.val[0] = (uint16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 0);
16034   ret.val[1] = (uint16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 1);
16035   return ret;
16036 }
16037
16038 __extension__ static __inline uint32x4x2_t __attribute__ ((__always_inline__))
16039 vld2q_u32 (const uint32_t * __a)
16040 {
16041   uint32x4x2_t ret;
16042   __builtin_aarch64_simd_oi __o;
16043   __o = __builtin_aarch64_ld2v4si ((const __builtin_aarch64_simd_si *) __a);
16044   ret.val[0] = (uint32x4_t) __builtin_aarch64_get_qregoiv4si (__o, 0);
16045   ret.val[1] = (uint32x4_t) __builtin_aarch64_get_qregoiv4si (__o, 1);
16046   return ret;
16047 }
16048
16049 __extension__ static __inline uint64x2x2_t __attribute__ ((__always_inline__))
16050 vld2q_u64 (const uint64_t * __a)
16051 {
16052   uint64x2x2_t ret;
16053   __builtin_aarch64_simd_oi __o;
16054   __o = __builtin_aarch64_ld2v2di ((const __builtin_aarch64_simd_di *) __a);
16055   ret.val[0] = (uint64x2_t) __builtin_aarch64_get_qregoiv2di (__o, 0);
16056   ret.val[1] = (uint64x2_t) __builtin_aarch64_get_qregoiv2di (__o, 1);
16057   return ret;
16058 }
16059
16060 __extension__ static __inline float32x4x2_t __attribute__ ((__always_inline__))
16061 vld2q_f32 (const float32_t * __a)
16062 {
16063   float32x4x2_t ret;
16064   __builtin_aarch64_simd_oi __o;
16065   __o = __builtin_aarch64_ld2v4sf ((const __builtin_aarch64_simd_sf *) __a);
16066   ret.val[0] = (float32x4_t) __builtin_aarch64_get_qregoiv4sf (__o, 0);
16067   ret.val[1] = (float32x4_t) __builtin_aarch64_get_qregoiv4sf (__o, 1);
16068   return ret;
16069 }
16070
16071 __extension__ static __inline float64x2x2_t __attribute__ ((__always_inline__))
16072 vld2q_f64 (const float64_t * __a)
16073 {
16074   float64x2x2_t ret;
16075   __builtin_aarch64_simd_oi __o;
16076   __o = __builtin_aarch64_ld2v2df ((const __builtin_aarch64_simd_df *) __a);
16077   ret.val[0] = (float64x2_t) __builtin_aarch64_get_qregoiv2df (__o, 0);
16078   ret.val[1] = (float64x2_t) __builtin_aarch64_get_qregoiv2df (__o, 1);
16079   return ret;
16080 }
16081
16082 __extension__ static __inline int64x1x3_t __attribute__ ((__always_inline__))
16083 vld3_s64 (const int64_t * __a)
16084 {
16085   int64x1x3_t ret;
16086   __builtin_aarch64_simd_ci __o;
16087   __o = __builtin_aarch64_ld3di ((const __builtin_aarch64_simd_di *) __a);
16088   ret.val[0] = (int64x1_t) __builtin_aarch64_get_dregcidi (__o, 0);
16089   ret.val[1] = (int64x1_t) __builtin_aarch64_get_dregcidi (__o, 1);
16090   ret.val[2] = (int64x1_t) __builtin_aarch64_get_dregcidi (__o, 2);
16091   return ret;
16092 }
16093
16094 __extension__ static __inline uint64x1x3_t __attribute__ ((__always_inline__))
16095 vld3_u64 (const uint64_t * __a)
16096 {
16097   uint64x1x3_t ret;
16098   __builtin_aarch64_simd_ci __o;
16099   __o = __builtin_aarch64_ld3di ((const __builtin_aarch64_simd_di *) __a);
16100   ret.val[0] = (uint64x1_t) __builtin_aarch64_get_dregcidi (__o, 0);
16101   ret.val[1] = (uint64x1_t) __builtin_aarch64_get_dregcidi (__o, 1);
16102   ret.val[2] = (uint64x1_t) __builtin_aarch64_get_dregcidi (__o, 2);
16103   return ret;
16104 }
16105
16106 __extension__ static __inline float64x1x3_t __attribute__ ((__always_inline__))
16107 vld3_f64 (const float64_t * __a)
16108 {
16109   float64x1x3_t ret;
16110   __builtin_aarch64_simd_ci __o;
16111   __o = __builtin_aarch64_ld3df ((const __builtin_aarch64_simd_df *) __a);
16112   ret.val[0] = (float64x1_t) {__builtin_aarch64_get_dregcidf (__o, 0)};
16113   ret.val[1] = (float64x1_t) {__builtin_aarch64_get_dregcidf (__o, 1)};
16114   ret.val[2] = (float64x1_t) {__builtin_aarch64_get_dregcidf (__o, 2)};
16115   return ret;
16116 }
16117
16118 __extension__ static __inline int8x8x3_t __attribute__ ((__always_inline__))
16119 vld3_s8 (const int8_t * __a)
16120 {
16121   int8x8x3_t ret;
16122   __builtin_aarch64_simd_ci __o;
16123   __o = __builtin_aarch64_ld3v8qi ((const __builtin_aarch64_simd_qi *) __a);
16124   ret.val[0] = (int8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 0);
16125   ret.val[1] = (int8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 1);
16126   ret.val[2] = (int8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 2);
16127   return ret;
16128 }
16129
16130 __extension__ static __inline poly8x8x3_t __attribute__ ((__always_inline__))
16131 vld3_p8 (const poly8_t * __a)
16132 {
16133   poly8x8x3_t ret;
16134   __builtin_aarch64_simd_ci __o;
16135   __o = __builtin_aarch64_ld3v8qi ((const __builtin_aarch64_simd_qi *) __a);
16136   ret.val[0] = (poly8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 0);
16137   ret.val[1] = (poly8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 1);
16138   ret.val[2] = (poly8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 2);
16139   return ret;
16140 }
16141
16142 __extension__ static __inline int16x4x3_t __attribute__ ((__always_inline__))
16143 vld3_s16 (const int16_t * __a)
16144 {
16145   int16x4x3_t ret;
16146   __builtin_aarch64_simd_ci __o;
16147   __o = __builtin_aarch64_ld3v4hi ((const __builtin_aarch64_simd_hi *) __a);
16148   ret.val[0] = (int16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 0);
16149   ret.val[1] = (int16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 1);
16150   ret.val[2] = (int16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 2);
16151   return ret;
16152 }
16153
16154 __extension__ static __inline poly16x4x3_t __attribute__ ((__always_inline__))
16155 vld3_p16 (const poly16_t * __a)
16156 {
16157   poly16x4x3_t ret;
16158   __builtin_aarch64_simd_ci __o;
16159   __o = __builtin_aarch64_ld3v4hi ((const __builtin_aarch64_simd_hi *) __a);
16160   ret.val[0] = (poly16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 0);
16161   ret.val[1] = (poly16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 1);
16162   ret.val[2] = (poly16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 2);
16163   return ret;
16164 }
16165
16166 __extension__ static __inline int32x2x3_t __attribute__ ((__always_inline__))
16167 vld3_s32 (const int32_t * __a)
16168 {
16169   int32x2x3_t ret;
16170   __builtin_aarch64_simd_ci __o;
16171   __o = __builtin_aarch64_ld3v2si ((const __builtin_aarch64_simd_si *) __a);
16172   ret.val[0] = (int32x2_t) __builtin_aarch64_get_dregciv2si (__o, 0);
16173   ret.val[1] = (int32x2_t) __builtin_aarch64_get_dregciv2si (__o, 1);
16174   ret.val[2] = (int32x2_t) __builtin_aarch64_get_dregciv2si (__o, 2);
16175   return ret;
16176 }
16177
16178 __extension__ static __inline uint8x8x3_t __attribute__ ((__always_inline__))
16179 vld3_u8 (const uint8_t * __a)
16180 {
16181   uint8x8x3_t ret;
16182   __builtin_aarch64_simd_ci __o;
16183   __o = __builtin_aarch64_ld3v8qi ((const __builtin_aarch64_simd_qi *) __a);
16184   ret.val[0] = (uint8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 0);
16185   ret.val[1] = (uint8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 1);
16186   ret.val[2] = (uint8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 2);
16187   return ret;
16188 }
16189
16190 __extension__ static __inline uint16x4x3_t __attribute__ ((__always_inline__))
16191 vld3_u16 (const uint16_t * __a)
16192 {
16193   uint16x4x3_t ret;
16194   __builtin_aarch64_simd_ci __o;
16195   __o = __builtin_aarch64_ld3v4hi ((const __builtin_aarch64_simd_hi *) __a);
16196   ret.val[0] = (uint16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 0);
16197   ret.val[1] = (uint16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 1);
16198   ret.val[2] = (uint16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 2);
16199   return ret;
16200 }
16201
16202 __extension__ static __inline uint32x2x3_t __attribute__ ((__always_inline__))
16203 vld3_u32 (const uint32_t * __a)
16204 {
16205   uint32x2x3_t ret;
16206   __builtin_aarch64_simd_ci __o;
16207   __o = __builtin_aarch64_ld3v2si ((const __builtin_aarch64_simd_si *) __a);
16208   ret.val[0] = (uint32x2_t) __builtin_aarch64_get_dregciv2si (__o, 0);
16209   ret.val[1] = (uint32x2_t) __builtin_aarch64_get_dregciv2si (__o, 1);
16210   ret.val[2] = (uint32x2_t) __builtin_aarch64_get_dregciv2si (__o, 2);
16211   return ret;
16212 }
16213
16214 __extension__ static __inline float32x2x3_t __attribute__ ((__always_inline__))
16215 vld3_f32 (const float32_t * __a)
16216 {
16217   float32x2x3_t ret;
16218   __builtin_aarch64_simd_ci __o;
16219   __o = __builtin_aarch64_ld3v2sf ((const __builtin_aarch64_simd_sf *) __a);
16220   ret.val[0] = (float32x2_t) __builtin_aarch64_get_dregciv2sf (__o, 0);
16221   ret.val[1] = (float32x2_t) __builtin_aarch64_get_dregciv2sf (__o, 1);
16222   ret.val[2] = (float32x2_t) __builtin_aarch64_get_dregciv2sf (__o, 2);
16223   return ret;
16224 }
16225
16226 __extension__ static __inline int8x16x3_t __attribute__ ((__always_inline__))
16227 vld3q_s8 (const int8_t * __a)
16228 {
16229   int8x16x3_t ret;
16230   __builtin_aarch64_simd_ci __o;
16231   __o = __builtin_aarch64_ld3v16qi ((const __builtin_aarch64_simd_qi *) __a);
16232   ret.val[0] = (int8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 0);
16233   ret.val[1] = (int8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 1);
16234   ret.val[2] = (int8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 2);
16235   return ret;
16236 }
16237
16238 __extension__ static __inline poly8x16x3_t __attribute__ ((__always_inline__))
16239 vld3q_p8 (const poly8_t * __a)
16240 {
16241   poly8x16x3_t ret;
16242   __builtin_aarch64_simd_ci __o;
16243   __o = __builtin_aarch64_ld3v16qi ((const __builtin_aarch64_simd_qi *) __a);
16244   ret.val[0] = (poly8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 0);
16245   ret.val[1] = (poly8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 1);
16246   ret.val[2] = (poly8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 2);
16247   return ret;
16248 }
16249
16250 __extension__ static __inline int16x8x3_t __attribute__ ((__always_inline__))
16251 vld3q_s16 (const int16_t * __a)
16252 {
16253   int16x8x3_t ret;
16254   __builtin_aarch64_simd_ci __o;
16255   __o = __builtin_aarch64_ld3v8hi ((const __builtin_aarch64_simd_hi *) __a);
16256   ret.val[0] = (int16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 0);
16257   ret.val[1] = (int16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 1);
16258   ret.val[2] = (int16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 2);
16259   return ret;
16260 }
16261
16262 __extension__ static __inline poly16x8x3_t __attribute__ ((__always_inline__))
16263 vld3q_p16 (const poly16_t * __a)
16264 {
16265   poly16x8x3_t ret;
16266   __builtin_aarch64_simd_ci __o;
16267   __o = __builtin_aarch64_ld3v8hi ((const __builtin_aarch64_simd_hi *) __a);
16268   ret.val[0] = (poly16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 0);
16269   ret.val[1] = (poly16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 1);
16270   ret.val[2] = (poly16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 2);
16271   return ret;
16272 }
16273
16274 __extension__ static __inline int32x4x3_t __attribute__ ((__always_inline__))
16275 vld3q_s32 (const int32_t * __a)
16276 {
16277   int32x4x3_t ret;
16278   __builtin_aarch64_simd_ci __o;
16279   __o = __builtin_aarch64_ld3v4si ((const __builtin_aarch64_simd_si *) __a);
16280   ret.val[0] = (int32x4_t) __builtin_aarch64_get_qregciv4si (__o, 0);
16281   ret.val[1] = (int32x4_t) __builtin_aarch64_get_qregciv4si (__o, 1);
16282   ret.val[2] = (int32x4_t) __builtin_aarch64_get_qregciv4si (__o, 2);
16283   return ret;
16284 }
16285
16286 __extension__ static __inline int64x2x3_t __attribute__ ((__always_inline__))
16287 vld3q_s64 (const int64_t * __a)
16288 {
16289   int64x2x3_t ret;
16290   __builtin_aarch64_simd_ci __o;
16291   __o = __builtin_aarch64_ld3v2di ((const __builtin_aarch64_simd_di *) __a);
16292   ret.val[0] = (int64x2_t) __builtin_aarch64_get_qregciv2di (__o, 0);
16293   ret.val[1] = (int64x2_t) __builtin_aarch64_get_qregciv2di (__o, 1);
16294   ret.val[2] = (int64x2_t) __builtin_aarch64_get_qregciv2di (__o, 2);
16295   return ret;
16296 }
16297
16298 __extension__ static __inline uint8x16x3_t __attribute__ ((__always_inline__))
16299 vld3q_u8 (const uint8_t * __a)
16300 {
16301   uint8x16x3_t ret;
16302   __builtin_aarch64_simd_ci __o;
16303   __o = __builtin_aarch64_ld3v16qi ((const __builtin_aarch64_simd_qi *) __a);
16304   ret.val[0] = (uint8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 0);
16305   ret.val[1] = (uint8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 1);
16306   ret.val[2] = (uint8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 2);
16307   return ret;
16308 }
16309
16310 __extension__ static __inline uint16x8x3_t __attribute__ ((__always_inline__))
16311 vld3q_u16 (const uint16_t * __a)
16312 {
16313   uint16x8x3_t ret;
16314   __builtin_aarch64_simd_ci __o;
16315   __o = __builtin_aarch64_ld3v8hi ((const __builtin_aarch64_simd_hi *) __a);
16316   ret.val[0] = (uint16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 0);
16317   ret.val[1] = (uint16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 1);
16318   ret.val[2] = (uint16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 2);
16319   return ret;
16320 }
16321
16322 __extension__ static __inline uint32x4x3_t __attribute__ ((__always_inline__))
16323 vld3q_u32 (const uint32_t * __a)
16324 {
16325   uint32x4x3_t ret;
16326   __builtin_aarch64_simd_ci __o;
16327   __o = __builtin_aarch64_ld3v4si ((const __builtin_aarch64_simd_si *) __a);
16328   ret.val[0] = (uint32x4_t) __builtin_aarch64_get_qregciv4si (__o, 0);
16329   ret.val[1] = (uint32x4_t) __builtin_aarch64_get_qregciv4si (__o, 1);
16330   ret.val[2] = (uint32x4_t) __builtin_aarch64_get_qregciv4si (__o, 2);
16331   return ret;
16332 }
16333
16334 __extension__ static __inline uint64x2x3_t __attribute__ ((__always_inline__))
16335 vld3q_u64 (const uint64_t * __a)
16336 {
16337   uint64x2x3_t ret;
16338   __builtin_aarch64_simd_ci __o;
16339   __o = __builtin_aarch64_ld3v2di ((const __builtin_aarch64_simd_di *) __a);
16340   ret.val[0] = (uint64x2_t) __builtin_aarch64_get_qregciv2di (__o, 0);
16341   ret.val[1] = (uint64x2_t) __builtin_aarch64_get_qregciv2di (__o, 1);
16342   ret.val[2] = (uint64x2_t) __builtin_aarch64_get_qregciv2di (__o, 2);
16343   return ret;
16344 }
16345
16346 __extension__ static __inline float32x4x3_t __attribute__ ((__always_inline__))
16347 vld3q_f32 (const float32_t * __a)
16348 {
16349   float32x4x3_t ret;
16350   __builtin_aarch64_simd_ci __o;
16351   __o = __builtin_aarch64_ld3v4sf ((const __builtin_aarch64_simd_sf *) __a);
16352   ret.val[0] = (float32x4_t) __builtin_aarch64_get_qregciv4sf (__o, 0);
16353   ret.val[1] = (float32x4_t) __builtin_aarch64_get_qregciv4sf (__o, 1);
16354   ret.val[2] = (float32x4_t) __builtin_aarch64_get_qregciv4sf (__o, 2);
16355   return ret;
16356 }
16357
16358 __extension__ static __inline float64x2x3_t __attribute__ ((__always_inline__))
16359 vld3q_f64 (const float64_t * __a)
16360 {
16361   float64x2x3_t ret;
16362   __builtin_aarch64_simd_ci __o;
16363   __o = __builtin_aarch64_ld3v2df ((const __builtin_aarch64_simd_df *) __a);
16364   ret.val[0] = (float64x2_t) __builtin_aarch64_get_qregciv2df (__o, 0);
16365   ret.val[1] = (float64x2_t) __builtin_aarch64_get_qregciv2df (__o, 1);
16366   ret.val[2] = (float64x2_t) __builtin_aarch64_get_qregciv2df (__o, 2);
16367   return ret;
16368 }
16369
16370 __extension__ static __inline int64x1x4_t __attribute__ ((__always_inline__))
16371 vld4_s64 (const int64_t * __a)
16372 {
16373   int64x1x4_t ret;
16374   __builtin_aarch64_simd_xi __o;
16375   __o = __builtin_aarch64_ld4di ((const __builtin_aarch64_simd_di *) __a);
16376   ret.val[0] = (int64x1_t) __builtin_aarch64_get_dregxidi (__o, 0);
16377   ret.val[1] = (int64x1_t) __builtin_aarch64_get_dregxidi (__o, 1);
16378   ret.val[2] = (int64x1_t) __builtin_aarch64_get_dregxidi (__o, 2);
16379   ret.val[3] = (int64x1_t) __builtin_aarch64_get_dregxidi (__o, 3);
16380   return ret;
16381 }
16382
16383 __extension__ static __inline uint64x1x4_t __attribute__ ((__always_inline__))
16384 vld4_u64 (const uint64_t * __a)
16385 {
16386   uint64x1x4_t ret;
16387   __builtin_aarch64_simd_xi __o;
16388   __o = __builtin_aarch64_ld4di ((const __builtin_aarch64_simd_di *) __a);
16389   ret.val[0] = (uint64x1_t) __builtin_aarch64_get_dregxidi (__o, 0);
16390   ret.val[1] = (uint64x1_t) __builtin_aarch64_get_dregxidi (__o, 1);
16391   ret.val[2] = (uint64x1_t) __builtin_aarch64_get_dregxidi (__o, 2);
16392   ret.val[3] = (uint64x1_t) __builtin_aarch64_get_dregxidi (__o, 3);
16393   return ret;
16394 }
16395
16396 __extension__ static __inline float64x1x4_t __attribute__ ((__always_inline__))
16397 vld4_f64 (const float64_t * __a)
16398 {
16399   float64x1x4_t ret;
16400   __builtin_aarch64_simd_xi __o;
16401   __o = __builtin_aarch64_ld4df ((const __builtin_aarch64_simd_df *) __a);
16402   ret.val[0] = (float64x1_t) {__builtin_aarch64_get_dregxidf (__o, 0)};
16403   ret.val[1] = (float64x1_t) {__builtin_aarch64_get_dregxidf (__o, 1)};
16404   ret.val[2] = (float64x1_t) {__builtin_aarch64_get_dregxidf (__o, 2)};
16405   ret.val[3] = (float64x1_t) {__builtin_aarch64_get_dregxidf (__o, 3)};
16406   return ret;
16407 }
16408
16409 __extension__ static __inline int8x8x4_t __attribute__ ((__always_inline__))
16410 vld4_s8 (const int8_t * __a)
16411 {
16412   int8x8x4_t ret;
16413   __builtin_aarch64_simd_xi __o;
16414   __o = __builtin_aarch64_ld4v8qi ((const __builtin_aarch64_simd_qi *) __a);
16415   ret.val[0] = (int8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 0);
16416   ret.val[1] = (int8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 1);
16417   ret.val[2] = (int8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 2);
16418   ret.val[3] = (int8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 3);
16419   return ret;
16420 }
16421
16422 __extension__ static __inline poly8x8x4_t __attribute__ ((__always_inline__))
16423 vld4_p8 (const poly8_t * __a)
16424 {
16425   poly8x8x4_t ret;
16426   __builtin_aarch64_simd_xi __o;
16427   __o = __builtin_aarch64_ld4v8qi ((const __builtin_aarch64_simd_qi *) __a);
16428   ret.val[0] = (poly8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 0);
16429   ret.val[1] = (poly8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 1);
16430   ret.val[2] = (poly8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 2);
16431   ret.val[3] = (poly8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 3);
16432   return ret;
16433 }
16434
16435 __extension__ static __inline int16x4x4_t __attribute__ ((__always_inline__))
16436 vld4_s16 (const int16_t * __a)
16437 {
16438   int16x4x4_t ret;
16439   __builtin_aarch64_simd_xi __o;
16440   __o = __builtin_aarch64_ld4v4hi ((const __builtin_aarch64_simd_hi *) __a);
16441   ret.val[0] = (int16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 0);
16442   ret.val[1] = (int16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 1);
16443   ret.val[2] = (int16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 2);
16444   ret.val[3] = (int16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 3);
16445   return ret;
16446 }
16447
16448 __extension__ static __inline poly16x4x4_t __attribute__ ((__always_inline__))
16449 vld4_p16 (const poly16_t * __a)
16450 {
16451   poly16x4x4_t ret;
16452   __builtin_aarch64_simd_xi __o;
16453   __o = __builtin_aarch64_ld4v4hi ((const __builtin_aarch64_simd_hi *) __a);
16454   ret.val[0] = (poly16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 0);
16455   ret.val[1] = (poly16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 1);
16456   ret.val[2] = (poly16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 2);
16457   ret.val[3] = (poly16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 3);
16458   return ret;
16459 }
16460
16461 __extension__ static __inline int32x2x4_t __attribute__ ((__always_inline__))
16462 vld4_s32 (const int32_t * __a)
16463 {
16464   int32x2x4_t ret;
16465   __builtin_aarch64_simd_xi __o;
16466   __o = __builtin_aarch64_ld4v2si ((const __builtin_aarch64_simd_si *) __a);
16467   ret.val[0] = (int32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 0);
16468   ret.val[1] = (int32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 1);
16469   ret.val[2] = (int32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 2);
16470   ret.val[3] = (int32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 3);
16471   return ret;
16472 }
16473
16474 __extension__ static __inline uint8x8x4_t __attribute__ ((__always_inline__))
16475 vld4_u8 (const uint8_t * __a)
16476 {
16477   uint8x8x4_t ret;
16478   __builtin_aarch64_simd_xi __o;
16479   __o = __builtin_aarch64_ld4v8qi ((const __builtin_aarch64_simd_qi *) __a);
16480   ret.val[0] = (uint8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 0);
16481   ret.val[1] = (uint8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 1);
16482   ret.val[2] = (uint8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 2);
16483   ret.val[3] = (uint8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 3);
16484   return ret;
16485 }
16486
16487 __extension__ static __inline uint16x4x4_t __attribute__ ((__always_inline__))
16488 vld4_u16 (const uint16_t * __a)
16489 {
16490   uint16x4x4_t ret;
16491   __builtin_aarch64_simd_xi __o;
16492   __o = __builtin_aarch64_ld4v4hi ((const __builtin_aarch64_simd_hi *) __a);
16493   ret.val[0] = (uint16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 0);
16494   ret.val[1] = (uint16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 1);
16495   ret.val[2] = (uint16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 2);
16496   ret.val[3] = (uint16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 3);
16497   return ret;
16498 }
16499
16500 __extension__ static __inline uint32x2x4_t __attribute__ ((__always_inline__))
16501 vld4_u32 (const uint32_t * __a)
16502 {
16503   uint32x2x4_t ret;
16504   __builtin_aarch64_simd_xi __o;
16505   __o = __builtin_aarch64_ld4v2si ((const __builtin_aarch64_simd_si *) __a);
16506   ret.val[0] = (uint32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 0);
16507   ret.val[1] = (uint32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 1);
16508   ret.val[2] = (uint32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 2);
16509   ret.val[3] = (uint32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 3);
16510   return ret;
16511 }
16512
16513 __extension__ static __inline float32x2x4_t __attribute__ ((__always_inline__))
16514 vld4_f32 (const float32_t * __a)
16515 {
16516   float32x2x4_t ret;
16517   __builtin_aarch64_simd_xi __o;
16518   __o = __builtin_aarch64_ld4v2sf ((const __builtin_aarch64_simd_sf *) __a);
16519   ret.val[0] = (float32x2_t) __builtin_aarch64_get_dregxiv2sf (__o, 0);
16520   ret.val[1] = (float32x2_t) __builtin_aarch64_get_dregxiv2sf (__o, 1);
16521   ret.val[2] = (float32x2_t) __builtin_aarch64_get_dregxiv2sf (__o, 2);
16522   ret.val[3] = (float32x2_t) __builtin_aarch64_get_dregxiv2sf (__o, 3);
16523   return ret;
16524 }
16525
16526 __extension__ static __inline int8x16x4_t __attribute__ ((__always_inline__))
16527 vld4q_s8 (const int8_t * __a)
16528 {
16529   int8x16x4_t ret;
16530   __builtin_aarch64_simd_xi __o;
16531   __o = __builtin_aarch64_ld4v16qi ((const __builtin_aarch64_simd_qi *) __a);
16532   ret.val[0] = (int8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 0);
16533   ret.val[1] = (int8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 1);
16534   ret.val[2] = (int8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 2);
16535   ret.val[3] = (int8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 3);
16536   return ret;
16537 }
16538
16539 __extension__ static __inline poly8x16x4_t __attribute__ ((__always_inline__))
16540 vld4q_p8 (const poly8_t * __a)
16541 {
16542   poly8x16x4_t ret;
16543   __builtin_aarch64_simd_xi __o;
16544   __o = __builtin_aarch64_ld4v16qi ((const __builtin_aarch64_simd_qi *) __a);
16545   ret.val[0] = (poly8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 0);
16546   ret.val[1] = (poly8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 1);
16547   ret.val[2] = (poly8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 2);
16548   ret.val[3] = (poly8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 3);
16549   return ret;
16550 }
16551
16552 __extension__ static __inline int16x8x4_t __attribute__ ((__always_inline__))
16553 vld4q_s16 (const int16_t * __a)
16554 {
16555   int16x8x4_t ret;
16556   __builtin_aarch64_simd_xi __o;
16557   __o = __builtin_aarch64_ld4v8hi ((const __builtin_aarch64_simd_hi *) __a);
16558   ret.val[0] = (int16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 0);
16559   ret.val[1] = (int16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 1);
16560   ret.val[2] = (int16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 2);
16561   ret.val[3] = (int16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 3);
16562   return ret;
16563 }
16564
16565 __extension__ static __inline poly16x8x4_t __attribute__ ((__always_inline__))
16566 vld4q_p16 (const poly16_t * __a)
16567 {
16568   poly16x8x4_t ret;
16569   __builtin_aarch64_simd_xi __o;
16570   __o = __builtin_aarch64_ld4v8hi ((const __builtin_aarch64_simd_hi *) __a);
16571   ret.val[0] = (poly16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 0);
16572   ret.val[1] = (poly16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 1);
16573   ret.val[2] = (poly16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 2);
16574   ret.val[3] = (poly16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 3);
16575   return ret;
16576 }
16577
16578 __extension__ static __inline int32x4x4_t __attribute__ ((__always_inline__))
16579 vld4q_s32 (const int32_t * __a)
16580 {
16581   int32x4x4_t ret;
16582   __builtin_aarch64_simd_xi __o;
16583   __o = __builtin_aarch64_ld4v4si ((const __builtin_aarch64_simd_si *) __a);
16584   ret.val[0] = (int32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 0);
16585   ret.val[1] = (int32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 1);
16586   ret.val[2] = (int32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 2);
16587   ret.val[3] = (int32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 3);
16588   return ret;
16589 }
16590
16591 __extension__ static __inline int64x2x4_t __attribute__ ((__always_inline__))
16592 vld4q_s64 (const int64_t * __a)
16593 {
16594   int64x2x4_t ret;
16595   __builtin_aarch64_simd_xi __o;
16596   __o = __builtin_aarch64_ld4v2di ((const __builtin_aarch64_simd_di *) __a);
16597   ret.val[0] = (int64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 0);
16598   ret.val[1] = (int64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 1);
16599   ret.val[2] = (int64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 2);
16600   ret.val[3] = (int64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 3);
16601   return ret;
16602 }
16603
16604 __extension__ static __inline uint8x16x4_t __attribute__ ((__always_inline__))
16605 vld4q_u8 (const uint8_t * __a)
16606 {
16607   uint8x16x4_t ret;
16608   __builtin_aarch64_simd_xi __o;
16609   __o = __builtin_aarch64_ld4v16qi ((const __builtin_aarch64_simd_qi *) __a);
16610   ret.val[0] = (uint8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 0);
16611   ret.val[1] = (uint8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 1);
16612   ret.val[2] = (uint8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 2);
16613   ret.val[3] = (uint8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 3);
16614   return ret;
16615 }
16616
16617 __extension__ static __inline uint16x8x4_t __attribute__ ((__always_inline__))
16618 vld4q_u16 (const uint16_t * __a)
16619 {
16620   uint16x8x4_t ret;
16621   __builtin_aarch64_simd_xi __o;
16622   __o = __builtin_aarch64_ld4v8hi ((const __builtin_aarch64_simd_hi *) __a);
16623   ret.val[0] = (uint16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 0);
16624   ret.val[1] = (uint16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 1);
16625   ret.val[2] = (uint16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 2);
16626   ret.val[3] = (uint16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 3);
16627   return ret;
16628 }
16629
16630 __extension__ static __inline uint32x4x4_t __attribute__ ((__always_inline__))
16631 vld4q_u32 (const uint32_t * __a)
16632 {
16633   uint32x4x4_t ret;
16634   __builtin_aarch64_simd_xi __o;
16635   __o = __builtin_aarch64_ld4v4si ((const __builtin_aarch64_simd_si *) __a);
16636   ret.val[0] = (uint32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 0);
16637   ret.val[1] = (uint32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 1);
16638   ret.val[2] = (uint32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 2);
16639   ret.val[3] = (uint32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 3);
16640   return ret;
16641 }
16642
16643 __extension__ static __inline uint64x2x4_t __attribute__ ((__always_inline__))
16644 vld4q_u64 (const uint64_t * __a)
16645 {
16646   uint64x2x4_t ret;
16647   __builtin_aarch64_simd_xi __o;
16648   __o = __builtin_aarch64_ld4v2di ((const __builtin_aarch64_simd_di *) __a);
16649   ret.val[0] = (uint64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 0);
16650   ret.val[1] = (uint64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 1);
16651   ret.val[2] = (uint64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 2);
16652   ret.val[3] = (uint64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 3);
16653   return ret;
16654 }
16655
16656 __extension__ static __inline float32x4x4_t __attribute__ ((__always_inline__))
16657 vld4q_f32 (const float32_t * __a)
16658 {
16659   float32x4x4_t ret;
16660   __builtin_aarch64_simd_xi __o;
16661   __o = __builtin_aarch64_ld4v4sf ((const __builtin_aarch64_simd_sf *) __a);
16662   ret.val[0] = (float32x4_t) __builtin_aarch64_get_qregxiv4sf (__o, 0);
16663   ret.val[1] = (float32x4_t) __builtin_aarch64_get_qregxiv4sf (__o, 1);
16664   ret.val[2] = (float32x4_t) __builtin_aarch64_get_qregxiv4sf (__o, 2);
16665   ret.val[3] = (float32x4_t) __builtin_aarch64_get_qregxiv4sf (__o, 3);
16666   return ret;
16667 }
16668
16669 __extension__ static __inline float64x2x4_t __attribute__ ((__always_inline__))
16670 vld4q_f64 (const float64_t * __a)
16671 {
16672   float64x2x4_t ret;
16673   __builtin_aarch64_simd_xi __o;
16674   __o = __builtin_aarch64_ld4v2df ((const __builtin_aarch64_simd_df *) __a);
16675   ret.val[0] = (float64x2_t) __builtin_aarch64_get_qregxiv2df (__o, 0);
16676   ret.val[1] = (float64x2_t) __builtin_aarch64_get_qregxiv2df (__o, 1);
16677   ret.val[2] = (float64x2_t) __builtin_aarch64_get_qregxiv2df (__o, 2);
16678   ret.val[3] = (float64x2_t) __builtin_aarch64_get_qregxiv2df (__o, 3);
16679   return ret;
16680 }
16681
16682 /* vldn_dup */
16683
16684 __extension__ static __inline int8x8x2_t __attribute__ ((__always_inline__))
16685 vld2_dup_s8 (const int8_t * __a)
16686 {
16687   int8x8x2_t ret;
16688   __builtin_aarch64_simd_oi __o;
16689   __o = __builtin_aarch64_ld2rv8qi ((const __builtin_aarch64_simd_qi *) __a);
16690   ret.val[0] = (int8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 0);
16691   ret.val[1] = (int8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 1);
16692   return ret;
16693 }
16694
16695 __extension__ static __inline int16x4x2_t __attribute__ ((__always_inline__))
16696 vld2_dup_s16 (const int16_t * __a)
16697 {
16698   int16x4x2_t ret;
16699   __builtin_aarch64_simd_oi __o;
16700   __o = __builtin_aarch64_ld2rv4hi ((const __builtin_aarch64_simd_hi *) __a);
16701   ret.val[0] = (int16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 0);
16702   ret.val[1] = (int16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 1);
16703   return ret;
16704 }
16705
16706 __extension__ static __inline int32x2x2_t __attribute__ ((__always_inline__))
16707 vld2_dup_s32 (const int32_t * __a)
16708 {
16709   int32x2x2_t ret;
16710   __builtin_aarch64_simd_oi __o;
16711   __o = __builtin_aarch64_ld2rv2si ((const __builtin_aarch64_simd_si *) __a);
16712   ret.val[0] = (int32x2_t) __builtin_aarch64_get_dregoiv2si (__o, 0);
16713   ret.val[1] = (int32x2_t) __builtin_aarch64_get_dregoiv2si (__o, 1);
16714   return ret;
16715 }
16716
16717 __extension__ static __inline float32x2x2_t __attribute__ ((__always_inline__))
16718 vld2_dup_f32 (const float32_t * __a)
16719 {
16720   float32x2x2_t ret;
16721   __builtin_aarch64_simd_oi __o;
16722   __o = __builtin_aarch64_ld2rv2sf ((const __builtin_aarch64_simd_sf *) __a);
16723   ret.val[0] = (float32x2_t) __builtin_aarch64_get_dregoiv2sf (__o, 0);
16724   ret.val[1] = (float32x2_t) __builtin_aarch64_get_dregoiv2sf (__o, 1);
16725   return ret;
16726 }
16727
16728 __extension__ static __inline float64x1x2_t __attribute__ ((__always_inline__))
16729 vld2_dup_f64 (const float64_t * __a)
16730 {
16731   float64x1x2_t ret;
16732   __builtin_aarch64_simd_oi __o;
16733   __o = __builtin_aarch64_ld2rdf ((const __builtin_aarch64_simd_df *) __a);
16734   ret.val[0] = (float64x1_t) {__builtin_aarch64_get_dregoidf (__o, 0)};
16735   ret.val[1] = (float64x1_t) {__builtin_aarch64_get_dregoidf (__o, 1)};
16736   return ret;
16737 }
16738
16739 __extension__ static __inline uint8x8x2_t __attribute__ ((__always_inline__))
16740 vld2_dup_u8 (const uint8_t * __a)
16741 {
16742   uint8x8x2_t ret;
16743   __builtin_aarch64_simd_oi __o;
16744   __o = __builtin_aarch64_ld2rv8qi ((const __builtin_aarch64_simd_qi *) __a);
16745   ret.val[0] = (uint8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 0);
16746   ret.val[1] = (uint8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 1);
16747   return ret;
16748 }
16749
16750 __extension__ static __inline uint16x4x2_t __attribute__ ((__always_inline__))
16751 vld2_dup_u16 (const uint16_t * __a)
16752 {
16753   uint16x4x2_t ret;
16754   __builtin_aarch64_simd_oi __o;
16755   __o = __builtin_aarch64_ld2rv4hi ((const __builtin_aarch64_simd_hi *) __a);
16756   ret.val[0] = (uint16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 0);
16757   ret.val[1] = (uint16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 1);
16758   return ret;
16759 }
16760
16761 __extension__ static __inline uint32x2x2_t __attribute__ ((__always_inline__))
16762 vld2_dup_u32 (const uint32_t * __a)
16763 {
16764   uint32x2x2_t ret;
16765   __builtin_aarch64_simd_oi __o;
16766   __o = __builtin_aarch64_ld2rv2si ((const __builtin_aarch64_simd_si *) __a);
16767   ret.val[0] = (uint32x2_t) __builtin_aarch64_get_dregoiv2si (__o, 0);
16768   ret.val[1] = (uint32x2_t) __builtin_aarch64_get_dregoiv2si (__o, 1);
16769   return ret;
16770 }
16771
16772 __extension__ static __inline poly8x8x2_t __attribute__ ((__always_inline__))
16773 vld2_dup_p8 (const poly8_t * __a)
16774 {
16775   poly8x8x2_t ret;
16776   __builtin_aarch64_simd_oi __o;
16777   __o = __builtin_aarch64_ld2rv8qi ((const __builtin_aarch64_simd_qi *) __a);
16778   ret.val[0] = (poly8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 0);
16779   ret.val[1] = (poly8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 1);
16780   return ret;
16781 }
16782
16783 __extension__ static __inline poly16x4x2_t __attribute__ ((__always_inline__))
16784 vld2_dup_p16 (const poly16_t * __a)
16785 {
16786   poly16x4x2_t ret;
16787   __builtin_aarch64_simd_oi __o;
16788   __o = __builtin_aarch64_ld2rv4hi ((const __builtin_aarch64_simd_hi *) __a);
16789   ret.val[0] = (poly16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 0);
16790   ret.val[1] = (poly16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 1);
16791   return ret;
16792 }
16793
16794 __extension__ static __inline int64x1x2_t __attribute__ ((__always_inline__))
16795 vld2_dup_s64 (const int64_t * __a)
16796 {
16797   int64x1x2_t ret;
16798   __builtin_aarch64_simd_oi __o;
16799   __o = __builtin_aarch64_ld2rdi ((const __builtin_aarch64_simd_di *) __a);
16800   ret.val[0] = (int64x1_t) __builtin_aarch64_get_dregoidi (__o, 0);
16801   ret.val[1] = (int64x1_t) __builtin_aarch64_get_dregoidi (__o, 1);
16802   return ret;
16803 }
16804
16805 __extension__ static __inline uint64x1x2_t __attribute__ ((__always_inline__))
16806 vld2_dup_u64 (const uint64_t * __a)
16807 {
16808   uint64x1x2_t ret;
16809   __builtin_aarch64_simd_oi __o;
16810   __o = __builtin_aarch64_ld2rdi ((const __builtin_aarch64_simd_di *) __a);
16811   ret.val[0] = (uint64x1_t) __builtin_aarch64_get_dregoidi (__o, 0);
16812   ret.val[1] = (uint64x1_t) __builtin_aarch64_get_dregoidi (__o, 1);
16813   return ret;
16814 }
16815
16816 __extension__ static __inline int8x16x2_t __attribute__ ((__always_inline__))
16817 vld2q_dup_s8 (const int8_t * __a)
16818 {
16819   int8x16x2_t ret;
16820   __builtin_aarch64_simd_oi __o;
16821   __o = __builtin_aarch64_ld2rv16qi ((const __builtin_aarch64_simd_qi *) __a);
16822   ret.val[0] = (int8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 0);
16823   ret.val[1] = (int8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 1);
16824   return ret;
16825 }
16826
16827 __extension__ static __inline poly8x16x2_t __attribute__ ((__always_inline__))
16828 vld2q_dup_p8 (const poly8_t * __a)
16829 {
16830   poly8x16x2_t ret;
16831   __builtin_aarch64_simd_oi __o;
16832   __o = __builtin_aarch64_ld2rv16qi ((const __builtin_aarch64_simd_qi *) __a);
16833   ret.val[0] = (poly8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 0);
16834   ret.val[1] = (poly8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 1);
16835   return ret;
16836 }
16837
16838 __extension__ static __inline int16x8x2_t __attribute__ ((__always_inline__))
16839 vld2q_dup_s16 (const int16_t * __a)
16840 {
16841   int16x8x2_t ret;
16842   __builtin_aarch64_simd_oi __o;
16843   __o = __builtin_aarch64_ld2rv8hi ((const __builtin_aarch64_simd_hi *) __a);
16844   ret.val[0] = (int16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 0);
16845   ret.val[1] = (int16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 1);
16846   return ret;
16847 }
16848
16849 __extension__ static __inline poly16x8x2_t __attribute__ ((__always_inline__))
16850 vld2q_dup_p16 (const poly16_t * __a)
16851 {
16852   poly16x8x2_t ret;
16853   __builtin_aarch64_simd_oi __o;
16854   __o = __builtin_aarch64_ld2rv8hi ((const __builtin_aarch64_simd_hi *) __a);
16855   ret.val[0] = (poly16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 0);
16856   ret.val[1] = (poly16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 1);
16857   return ret;
16858 }
16859
16860 __extension__ static __inline int32x4x2_t __attribute__ ((__always_inline__))
16861 vld2q_dup_s32 (const int32_t * __a)
16862 {
16863   int32x4x2_t ret;
16864   __builtin_aarch64_simd_oi __o;
16865   __o = __builtin_aarch64_ld2rv4si ((const __builtin_aarch64_simd_si *) __a);
16866   ret.val[0] = (int32x4_t) __builtin_aarch64_get_qregoiv4si (__o, 0);
16867   ret.val[1] = (int32x4_t) __builtin_aarch64_get_qregoiv4si (__o, 1);
16868   return ret;
16869 }
16870
16871 __extension__ static __inline int64x2x2_t __attribute__ ((__always_inline__))
16872 vld2q_dup_s64 (const int64_t * __a)
16873 {
16874   int64x2x2_t ret;
16875   __builtin_aarch64_simd_oi __o;
16876   __o = __builtin_aarch64_ld2rv2di ((const __builtin_aarch64_simd_di *) __a);
16877   ret.val[0] = (int64x2_t) __builtin_aarch64_get_qregoiv2di (__o, 0);
16878   ret.val[1] = (int64x2_t) __builtin_aarch64_get_qregoiv2di (__o, 1);
16879   return ret;
16880 }
16881
16882 __extension__ static __inline uint8x16x2_t __attribute__ ((__always_inline__))
16883 vld2q_dup_u8 (const uint8_t * __a)
16884 {
16885   uint8x16x2_t ret;
16886   __builtin_aarch64_simd_oi __o;
16887   __o = __builtin_aarch64_ld2rv16qi ((const __builtin_aarch64_simd_qi *) __a);
16888   ret.val[0] = (uint8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 0);
16889   ret.val[1] = (uint8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 1);
16890   return ret;
16891 }
16892
16893 __extension__ static __inline uint16x8x2_t __attribute__ ((__always_inline__))
16894 vld2q_dup_u16 (const uint16_t * __a)
16895 {
16896   uint16x8x2_t ret;
16897   __builtin_aarch64_simd_oi __o;
16898   __o = __builtin_aarch64_ld2rv8hi ((const __builtin_aarch64_simd_hi *) __a);
16899   ret.val[0] = (uint16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 0);
16900   ret.val[1] = (uint16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 1);
16901   return ret;
16902 }
16903
16904 __extension__ static __inline uint32x4x2_t __attribute__ ((__always_inline__))
16905 vld2q_dup_u32 (const uint32_t * __a)
16906 {
16907   uint32x4x2_t ret;
16908   __builtin_aarch64_simd_oi __o;
16909   __o = __builtin_aarch64_ld2rv4si ((const __builtin_aarch64_simd_si *) __a);
16910   ret.val[0] = (uint32x4_t) __builtin_aarch64_get_qregoiv4si (__o, 0);
16911   ret.val[1] = (uint32x4_t) __builtin_aarch64_get_qregoiv4si (__o, 1);
16912   return ret;
16913 }
16914
16915 __extension__ static __inline uint64x2x2_t __attribute__ ((__always_inline__))
16916 vld2q_dup_u64 (const uint64_t * __a)
16917 {
16918   uint64x2x2_t ret;
16919   __builtin_aarch64_simd_oi __o;
16920   __o = __builtin_aarch64_ld2rv2di ((const __builtin_aarch64_simd_di *) __a);
16921   ret.val[0] = (uint64x2_t) __builtin_aarch64_get_qregoiv2di (__o, 0);
16922   ret.val[1] = (uint64x2_t) __builtin_aarch64_get_qregoiv2di (__o, 1);
16923   return ret;
16924 }
16925
16926 __extension__ static __inline float32x4x2_t __attribute__ ((__always_inline__))
16927 vld2q_dup_f32 (const float32_t * __a)
16928 {
16929   float32x4x2_t ret;
16930   __builtin_aarch64_simd_oi __o;
16931   __o = __builtin_aarch64_ld2rv4sf ((const __builtin_aarch64_simd_sf *) __a);
16932   ret.val[0] = (float32x4_t) __builtin_aarch64_get_qregoiv4sf (__o, 0);
16933   ret.val[1] = (float32x4_t) __builtin_aarch64_get_qregoiv4sf (__o, 1);
16934   return ret;
16935 }
16936
16937 __extension__ static __inline float64x2x2_t __attribute__ ((__always_inline__))
16938 vld2q_dup_f64 (const float64_t * __a)
16939 {
16940   float64x2x2_t ret;
16941   __builtin_aarch64_simd_oi __o;
16942   __o = __builtin_aarch64_ld2rv2df ((const __builtin_aarch64_simd_df *) __a);
16943   ret.val[0] = (float64x2_t) __builtin_aarch64_get_qregoiv2df (__o, 0);
16944   ret.val[1] = (float64x2_t) __builtin_aarch64_get_qregoiv2df (__o, 1);
16945   return ret;
16946 }
16947
16948 __extension__ static __inline int64x1x3_t __attribute__ ((__always_inline__))
16949 vld3_dup_s64 (const int64_t * __a)
16950 {
16951   int64x1x3_t ret;
16952   __builtin_aarch64_simd_ci __o;
16953   __o = __builtin_aarch64_ld3rdi ((const __builtin_aarch64_simd_di *) __a);
16954   ret.val[0] = (int64x1_t) __builtin_aarch64_get_dregcidi (__o, 0);
16955   ret.val[1] = (int64x1_t) __builtin_aarch64_get_dregcidi (__o, 1);
16956   ret.val[2] = (int64x1_t) __builtin_aarch64_get_dregcidi (__o, 2);
16957   return ret;
16958 }
16959
16960 __extension__ static __inline uint64x1x3_t __attribute__ ((__always_inline__))
16961 vld3_dup_u64 (const uint64_t * __a)
16962 {
16963   uint64x1x3_t ret;
16964   __builtin_aarch64_simd_ci __o;
16965   __o = __builtin_aarch64_ld3rdi ((const __builtin_aarch64_simd_di *) __a);
16966   ret.val[0] = (uint64x1_t) __builtin_aarch64_get_dregcidi (__o, 0);
16967   ret.val[1] = (uint64x1_t) __builtin_aarch64_get_dregcidi (__o, 1);
16968   ret.val[2] = (uint64x1_t) __builtin_aarch64_get_dregcidi (__o, 2);
16969   return ret;
16970 }
16971
16972 __extension__ static __inline float64x1x3_t __attribute__ ((__always_inline__))
16973 vld3_dup_f64 (const float64_t * __a)
16974 {
16975   float64x1x3_t ret;
16976   __builtin_aarch64_simd_ci __o;
16977   __o = __builtin_aarch64_ld3rdf ((const __builtin_aarch64_simd_df *) __a);
16978   ret.val[0] = (float64x1_t) {__builtin_aarch64_get_dregcidf (__o, 0)};
16979   ret.val[1] = (float64x1_t) {__builtin_aarch64_get_dregcidf (__o, 1)};
16980   ret.val[2] = (float64x1_t) {__builtin_aarch64_get_dregcidf (__o, 2)};
16981   return ret;
16982 }
16983
16984 __extension__ static __inline int8x8x3_t __attribute__ ((__always_inline__))
16985 vld3_dup_s8 (const int8_t * __a)
16986 {
16987   int8x8x3_t ret;
16988   __builtin_aarch64_simd_ci __o;
16989   __o = __builtin_aarch64_ld3rv8qi ((const __builtin_aarch64_simd_qi *) __a);
16990   ret.val[0] = (int8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 0);
16991   ret.val[1] = (int8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 1);
16992   ret.val[2] = (int8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 2);
16993   return ret;
16994 }
16995
16996 __extension__ static __inline poly8x8x3_t __attribute__ ((__always_inline__))
16997 vld3_dup_p8 (const poly8_t * __a)
16998 {
16999   poly8x8x3_t ret;
17000   __builtin_aarch64_simd_ci __o;
17001   __o = __builtin_aarch64_ld3rv8qi ((const __builtin_aarch64_simd_qi *) __a);
17002   ret.val[0] = (poly8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 0);
17003   ret.val[1] = (poly8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 1);
17004   ret.val[2] = (poly8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 2);
17005   return ret;
17006 }
17007
17008 __extension__ static __inline int16x4x3_t __attribute__ ((__always_inline__))
17009 vld3_dup_s16 (const int16_t * __a)
17010 {
17011   int16x4x3_t ret;
17012   __builtin_aarch64_simd_ci __o;
17013   __o = __builtin_aarch64_ld3rv4hi ((const __builtin_aarch64_simd_hi *) __a);
17014   ret.val[0] = (int16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 0);
17015   ret.val[1] = (int16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 1);
17016   ret.val[2] = (int16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 2);
17017   return ret;
17018 }
17019
17020 __extension__ static __inline poly16x4x3_t __attribute__ ((__always_inline__))
17021 vld3_dup_p16 (const poly16_t * __a)
17022 {
17023   poly16x4x3_t ret;
17024   __builtin_aarch64_simd_ci __o;
17025   __o = __builtin_aarch64_ld3rv4hi ((const __builtin_aarch64_simd_hi *) __a);
17026   ret.val[0] = (poly16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 0);
17027   ret.val[1] = (poly16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 1);
17028   ret.val[2] = (poly16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 2);
17029   return ret;
17030 }
17031
17032 __extension__ static __inline int32x2x3_t __attribute__ ((__always_inline__))
17033 vld3_dup_s32 (const int32_t * __a)
17034 {
17035   int32x2x3_t ret;
17036   __builtin_aarch64_simd_ci __o;
17037   __o = __builtin_aarch64_ld3rv2si ((const __builtin_aarch64_simd_si *) __a);
17038   ret.val[0] = (int32x2_t) __builtin_aarch64_get_dregciv2si (__o, 0);
17039   ret.val[1] = (int32x2_t) __builtin_aarch64_get_dregciv2si (__o, 1);
17040   ret.val[2] = (int32x2_t) __builtin_aarch64_get_dregciv2si (__o, 2);
17041   return ret;
17042 }
17043
17044 __extension__ static __inline uint8x8x3_t __attribute__ ((__always_inline__))
17045 vld3_dup_u8 (const uint8_t * __a)
17046 {
17047   uint8x8x3_t ret;
17048   __builtin_aarch64_simd_ci __o;
17049   __o = __builtin_aarch64_ld3rv8qi ((const __builtin_aarch64_simd_qi *) __a);
17050   ret.val[0] = (uint8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 0);
17051   ret.val[1] = (uint8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 1);
17052   ret.val[2] = (uint8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 2);
17053   return ret;
17054 }
17055
17056 __extension__ static __inline uint16x4x3_t __attribute__ ((__always_inline__))
17057 vld3_dup_u16 (const uint16_t * __a)
17058 {
17059   uint16x4x3_t ret;
17060   __builtin_aarch64_simd_ci __o;
17061   __o = __builtin_aarch64_ld3rv4hi ((const __builtin_aarch64_simd_hi *) __a);
17062   ret.val[0] = (uint16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 0);
17063   ret.val[1] = (uint16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 1);
17064   ret.val[2] = (uint16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 2);
17065   return ret;
17066 }
17067
17068 __extension__ static __inline uint32x2x3_t __attribute__ ((__always_inline__))
17069 vld3_dup_u32 (const uint32_t * __a)
17070 {
17071   uint32x2x3_t ret;
17072   __builtin_aarch64_simd_ci __o;
17073   __o = __builtin_aarch64_ld3rv2si ((const __builtin_aarch64_simd_si *) __a);
17074   ret.val[0] = (uint32x2_t) __builtin_aarch64_get_dregciv2si (__o, 0);
17075   ret.val[1] = (uint32x2_t) __builtin_aarch64_get_dregciv2si (__o, 1);
17076   ret.val[2] = (uint32x2_t) __builtin_aarch64_get_dregciv2si (__o, 2);
17077   return ret;
17078 }
17079
17080 __extension__ static __inline float32x2x3_t __attribute__ ((__always_inline__))
17081 vld3_dup_f32 (const float32_t * __a)
17082 {
17083   float32x2x3_t ret;
17084   __builtin_aarch64_simd_ci __o;
17085   __o = __builtin_aarch64_ld3rv2sf ((const __builtin_aarch64_simd_sf *) __a);
17086   ret.val[0] = (float32x2_t) __builtin_aarch64_get_dregciv2sf (__o, 0);
17087   ret.val[1] = (float32x2_t) __builtin_aarch64_get_dregciv2sf (__o, 1);
17088   ret.val[2] = (float32x2_t) __builtin_aarch64_get_dregciv2sf (__o, 2);
17089   return ret;
17090 }
17091
17092 __extension__ static __inline int8x16x3_t __attribute__ ((__always_inline__))
17093 vld3q_dup_s8 (const int8_t * __a)
17094 {
17095   int8x16x3_t ret;
17096   __builtin_aarch64_simd_ci __o;
17097   __o = __builtin_aarch64_ld3rv16qi ((const __builtin_aarch64_simd_qi *) __a);
17098   ret.val[0] = (int8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 0);
17099   ret.val[1] = (int8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 1);
17100   ret.val[2] = (int8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 2);
17101   return ret;
17102 }
17103
17104 __extension__ static __inline poly8x16x3_t __attribute__ ((__always_inline__))
17105 vld3q_dup_p8 (const poly8_t * __a)
17106 {
17107   poly8x16x3_t ret;
17108   __builtin_aarch64_simd_ci __o;
17109   __o = __builtin_aarch64_ld3rv16qi ((const __builtin_aarch64_simd_qi *) __a);
17110   ret.val[0] = (poly8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 0);
17111   ret.val[1] = (poly8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 1);
17112   ret.val[2] = (poly8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 2);
17113   return ret;
17114 }
17115
17116 __extension__ static __inline int16x8x3_t __attribute__ ((__always_inline__))
17117 vld3q_dup_s16 (const int16_t * __a)
17118 {
17119   int16x8x3_t ret;
17120   __builtin_aarch64_simd_ci __o;
17121   __o = __builtin_aarch64_ld3rv8hi ((const __builtin_aarch64_simd_hi *) __a);
17122   ret.val[0] = (int16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 0);
17123   ret.val[1] = (int16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 1);
17124   ret.val[2] = (int16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 2);
17125   return ret;
17126 }
17127
17128 __extension__ static __inline poly16x8x3_t __attribute__ ((__always_inline__))
17129 vld3q_dup_p16 (const poly16_t * __a)
17130 {
17131   poly16x8x3_t ret;
17132   __builtin_aarch64_simd_ci __o;
17133   __o = __builtin_aarch64_ld3rv8hi ((const __builtin_aarch64_simd_hi *) __a);
17134   ret.val[0] = (poly16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 0);
17135   ret.val[1] = (poly16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 1);
17136   ret.val[2] = (poly16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 2);
17137   return ret;
17138 }
17139
17140 __extension__ static __inline int32x4x3_t __attribute__ ((__always_inline__))
17141 vld3q_dup_s32 (const int32_t * __a)
17142 {
17143   int32x4x3_t ret;
17144   __builtin_aarch64_simd_ci __o;
17145   __o = __builtin_aarch64_ld3rv4si ((const __builtin_aarch64_simd_si *) __a);
17146   ret.val[0] = (int32x4_t) __builtin_aarch64_get_qregciv4si (__o, 0);
17147   ret.val[1] = (int32x4_t) __builtin_aarch64_get_qregciv4si (__o, 1);
17148   ret.val[2] = (int32x4_t) __builtin_aarch64_get_qregciv4si (__o, 2);
17149   return ret;
17150 }
17151
17152 __extension__ static __inline int64x2x3_t __attribute__ ((__always_inline__))
17153 vld3q_dup_s64 (const int64_t * __a)
17154 {
17155   int64x2x3_t ret;
17156   __builtin_aarch64_simd_ci __o;
17157   __o = __builtin_aarch64_ld3rv2di ((const __builtin_aarch64_simd_di *) __a);
17158   ret.val[0] = (int64x2_t) __builtin_aarch64_get_qregciv2di (__o, 0);
17159   ret.val[1] = (int64x2_t) __builtin_aarch64_get_qregciv2di (__o, 1);
17160   ret.val[2] = (int64x2_t) __builtin_aarch64_get_qregciv2di (__o, 2);
17161   return ret;
17162 }
17163
17164 __extension__ static __inline uint8x16x3_t __attribute__ ((__always_inline__))
17165 vld3q_dup_u8 (const uint8_t * __a)
17166 {
17167   uint8x16x3_t ret;
17168   __builtin_aarch64_simd_ci __o;
17169   __o = __builtin_aarch64_ld3rv16qi ((const __builtin_aarch64_simd_qi *) __a);
17170   ret.val[0] = (uint8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 0);
17171   ret.val[1] = (uint8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 1);
17172   ret.val[2] = (uint8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 2);
17173   return ret;
17174 }
17175
17176 __extension__ static __inline uint16x8x3_t __attribute__ ((__always_inline__))
17177 vld3q_dup_u16 (const uint16_t * __a)
17178 {
17179   uint16x8x3_t ret;
17180   __builtin_aarch64_simd_ci __o;
17181   __o = __builtin_aarch64_ld3rv8hi ((const __builtin_aarch64_simd_hi *) __a);
17182   ret.val[0] = (uint16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 0);
17183   ret.val[1] = (uint16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 1);
17184   ret.val[2] = (uint16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 2);
17185   return ret;
17186 }
17187
17188 __extension__ static __inline uint32x4x3_t __attribute__ ((__always_inline__))
17189 vld3q_dup_u32 (const uint32_t * __a)
17190 {
17191   uint32x4x3_t ret;
17192   __builtin_aarch64_simd_ci __o;
17193   __o = __builtin_aarch64_ld3rv4si ((const __builtin_aarch64_simd_si *) __a);
17194   ret.val[0] = (uint32x4_t) __builtin_aarch64_get_qregciv4si (__o, 0);
17195   ret.val[1] = (uint32x4_t) __builtin_aarch64_get_qregciv4si (__o, 1);
17196   ret.val[2] = (uint32x4_t) __builtin_aarch64_get_qregciv4si (__o, 2);
17197   return ret;
17198 }
17199
17200 __extension__ static __inline uint64x2x3_t __attribute__ ((__always_inline__))
17201 vld3q_dup_u64 (const uint64_t * __a)
17202 {
17203   uint64x2x3_t ret;
17204   __builtin_aarch64_simd_ci __o;
17205   __o = __builtin_aarch64_ld3rv2di ((const __builtin_aarch64_simd_di *) __a);
17206   ret.val[0] = (uint64x2_t) __builtin_aarch64_get_qregciv2di (__o, 0);
17207   ret.val[1] = (uint64x2_t) __builtin_aarch64_get_qregciv2di (__o, 1);
17208   ret.val[2] = (uint64x2_t) __builtin_aarch64_get_qregciv2di (__o, 2);
17209   return ret;
17210 }
17211
17212 __extension__ static __inline float32x4x3_t __attribute__ ((__always_inline__))
17213 vld3q_dup_f32 (const float32_t * __a)
17214 {
17215   float32x4x3_t ret;
17216   __builtin_aarch64_simd_ci __o;
17217   __o = __builtin_aarch64_ld3rv4sf ((const __builtin_aarch64_simd_sf *) __a);
17218   ret.val[0] = (float32x4_t) __builtin_aarch64_get_qregciv4sf (__o, 0);
17219   ret.val[1] = (float32x4_t) __builtin_aarch64_get_qregciv4sf (__o, 1);
17220   ret.val[2] = (float32x4_t) __builtin_aarch64_get_qregciv4sf (__o, 2);
17221   return ret;
17222 }
17223
17224 __extension__ static __inline float64x2x3_t __attribute__ ((__always_inline__))
17225 vld3q_dup_f64 (const float64_t * __a)
17226 {
17227   float64x2x3_t ret;
17228   __builtin_aarch64_simd_ci __o;
17229   __o = __builtin_aarch64_ld3rv2df ((const __builtin_aarch64_simd_df *) __a);
17230   ret.val[0] = (float64x2_t) __builtin_aarch64_get_qregciv2df (__o, 0);
17231   ret.val[1] = (float64x2_t) __builtin_aarch64_get_qregciv2df (__o, 1);
17232   ret.val[2] = (float64x2_t) __builtin_aarch64_get_qregciv2df (__o, 2);
17233   return ret;
17234 }
17235
17236 __extension__ static __inline int64x1x4_t __attribute__ ((__always_inline__))
17237 vld4_dup_s64 (const int64_t * __a)
17238 {
17239   int64x1x4_t ret;
17240   __builtin_aarch64_simd_xi __o;
17241   __o = __builtin_aarch64_ld4rdi ((const __builtin_aarch64_simd_di *) __a);
17242   ret.val[0] = (int64x1_t) __builtin_aarch64_get_dregxidi (__o, 0);
17243   ret.val[1] = (int64x1_t) __builtin_aarch64_get_dregxidi (__o, 1);
17244   ret.val[2] = (int64x1_t) __builtin_aarch64_get_dregxidi (__o, 2);
17245   ret.val[3] = (int64x1_t) __builtin_aarch64_get_dregxidi (__o, 3);
17246   return ret;
17247 }
17248
17249 __extension__ static __inline uint64x1x4_t __attribute__ ((__always_inline__))
17250 vld4_dup_u64 (const uint64_t * __a)
17251 {
17252   uint64x1x4_t ret;
17253   __builtin_aarch64_simd_xi __o;
17254   __o = __builtin_aarch64_ld4rdi ((const __builtin_aarch64_simd_di *) __a);
17255   ret.val[0] = (uint64x1_t) __builtin_aarch64_get_dregxidi (__o, 0);
17256   ret.val[1] = (uint64x1_t) __builtin_aarch64_get_dregxidi (__o, 1);
17257   ret.val[2] = (uint64x1_t) __builtin_aarch64_get_dregxidi (__o, 2);
17258   ret.val[3] = (uint64x1_t) __builtin_aarch64_get_dregxidi (__o, 3);
17259   return ret;
17260 }
17261
17262 __extension__ static __inline float64x1x4_t __attribute__ ((__always_inline__))
17263 vld4_dup_f64 (const float64_t * __a)
17264 {
17265   float64x1x4_t ret;
17266   __builtin_aarch64_simd_xi __o;
17267   __o = __builtin_aarch64_ld4rdf ((const __builtin_aarch64_simd_df *) __a);
17268   ret.val[0] = (float64x1_t) {__builtin_aarch64_get_dregxidf (__o, 0)};
17269   ret.val[1] = (float64x1_t) {__builtin_aarch64_get_dregxidf (__o, 1)};
17270   ret.val[2] = (float64x1_t) {__builtin_aarch64_get_dregxidf (__o, 2)};
17271   ret.val[3] = (float64x1_t) {__builtin_aarch64_get_dregxidf (__o, 3)};
17272   return ret;
17273 }
17274
17275 __extension__ static __inline int8x8x4_t __attribute__ ((__always_inline__))
17276 vld4_dup_s8 (const int8_t * __a)
17277 {
17278   int8x8x4_t ret;
17279   __builtin_aarch64_simd_xi __o;
17280   __o = __builtin_aarch64_ld4rv8qi ((const __builtin_aarch64_simd_qi *) __a);
17281   ret.val[0] = (int8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 0);
17282   ret.val[1] = (int8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 1);
17283   ret.val[2] = (int8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 2);
17284   ret.val[3] = (int8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 3);
17285   return ret;
17286 }
17287
17288 __extension__ static __inline poly8x8x4_t __attribute__ ((__always_inline__))
17289 vld4_dup_p8 (const poly8_t * __a)
17290 {
17291   poly8x8x4_t ret;
17292   __builtin_aarch64_simd_xi __o;
17293   __o = __builtin_aarch64_ld4rv8qi ((const __builtin_aarch64_simd_qi *) __a);
17294   ret.val[0] = (poly8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 0);
17295   ret.val[1] = (poly8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 1);
17296   ret.val[2] = (poly8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 2);
17297   ret.val[3] = (poly8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 3);
17298   return ret;
17299 }
17300
17301 __extension__ static __inline int16x4x4_t __attribute__ ((__always_inline__))
17302 vld4_dup_s16 (const int16_t * __a)
17303 {
17304   int16x4x4_t ret;
17305   __builtin_aarch64_simd_xi __o;
17306   __o = __builtin_aarch64_ld4rv4hi ((const __builtin_aarch64_simd_hi *) __a);
17307   ret.val[0] = (int16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 0);
17308   ret.val[1] = (int16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 1);
17309   ret.val[2] = (int16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 2);
17310   ret.val[3] = (int16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 3);
17311   return ret;
17312 }
17313
17314 __extension__ static __inline poly16x4x4_t __attribute__ ((__always_inline__))
17315 vld4_dup_p16 (const poly16_t * __a)
17316 {
17317   poly16x4x4_t ret;
17318   __builtin_aarch64_simd_xi __o;
17319   __o = __builtin_aarch64_ld4rv4hi ((const __builtin_aarch64_simd_hi *) __a);
17320   ret.val[0] = (poly16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 0);
17321   ret.val[1] = (poly16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 1);
17322   ret.val[2] = (poly16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 2);
17323   ret.val[3] = (poly16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 3);
17324   return ret;
17325 }
17326
17327 __extension__ static __inline int32x2x4_t __attribute__ ((__always_inline__))
17328 vld4_dup_s32 (const int32_t * __a)
17329 {
17330   int32x2x4_t ret;
17331   __builtin_aarch64_simd_xi __o;
17332   __o = __builtin_aarch64_ld4rv2si ((const __builtin_aarch64_simd_si *) __a);
17333   ret.val[0] = (int32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 0);
17334   ret.val[1] = (int32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 1);
17335   ret.val[2] = (int32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 2);
17336   ret.val[3] = (int32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 3);
17337   return ret;
17338 }
17339
17340 __extension__ static __inline uint8x8x4_t __attribute__ ((__always_inline__))
17341 vld4_dup_u8 (const uint8_t * __a)
17342 {
17343   uint8x8x4_t ret;
17344   __builtin_aarch64_simd_xi __o;
17345   __o = __builtin_aarch64_ld4rv8qi ((const __builtin_aarch64_simd_qi *) __a);
17346   ret.val[0] = (uint8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 0);
17347   ret.val[1] = (uint8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 1);
17348   ret.val[2] = (uint8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 2);
17349   ret.val[3] = (uint8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 3);
17350   return ret;
17351 }
17352
17353 __extension__ static __inline uint16x4x4_t __attribute__ ((__always_inline__))
17354 vld4_dup_u16 (const uint16_t * __a)
17355 {
17356   uint16x4x4_t ret;
17357   __builtin_aarch64_simd_xi __o;
17358   __o = __builtin_aarch64_ld4rv4hi ((const __builtin_aarch64_simd_hi *) __a);
17359   ret.val[0] = (uint16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 0);
17360   ret.val[1] = (uint16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 1);
17361   ret.val[2] = (uint16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 2);
17362   ret.val[3] = (uint16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 3);
17363   return ret;
17364 }
17365
17366 __extension__ static __inline uint32x2x4_t __attribute__ ((__always_inline__))
17367 vld4_dup_u32 (const uint32_t * __a)
17368 {
17369   uint32x2x4_t ret;
17370   __builtin_aarch64_simd_xi __o;
17371   __o = __builtin_aarch64_ld4rv2si ((const __builtin_aarch64_simd_si *) __a);
17372   ret.val[0] = (uint32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 0);
17373   ret.val[1] = (uint32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 1);
17374   ret.val[2] = (uint32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 2);
17375   ret.val[3] = (uint32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 3);
17376   return ret;
17377 }
17378
17379 __extension__ static __inline float32x2x4_t __attribute__ ((__always_inline__))
17380 vld4_dup_f32 (const float32_t * __a)
17381 {
17382   float32x2x4_t ret;
17383   __builtin_aarch64_simd_xi __o;
17384   __o = __builtin_aarch64_ld4rv2sf ((const __builtin_aarch64_simd_sf *) __a);
17385   ret.val[0] = (float32x2_t) __builtin_aarch64_get_dregxiv2sf (__o, 0);
17386   ret.val[1] = (float32x2_t) __builtin_aarch64_get_dregxiv2sf (__o, 1);
17387   ret.val[2] = (float32x2_t) __builtin_aarch64_get_dregxiv2sf (__o, 2);
17388   ret.val[3] = (float32x2_t) __builtin_aarch64_get_dregxiv2sf (__o, 3);
17389   return ret;
17390 }
17391
17392 __extension__ static __inline int8x16x4_t __attribute__ ((__always_inline__))
17393 vld4q_dup_s8 (const int8_t * __a)
17394 {
17395   int8x16x4_t ret;
17396   __builtin_aarch64_simd_xi __o;
17397   __o = __builtin_aarch64_ld4rv16qi ((const __builtin_aarch64_simd_qi *) __a);
17398   ret.val[0] = (int8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 0);
17399   ret.val[1] = (int8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 1);
17400   ret.val[2] = (int8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 2);
17401   ret.val[3] = (int8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 3);
17402   return ret;
17403 }
17404
17405 __extension__ static __inline poly8x16x4_t __attribute__ ((__always_inline__))
17406 vld4q_dup_p8 (const poly8_t * __a)
17407 {
17408   poly8x16x4_t ret;
17409   __builtin_aarch64_simd_xi __o;
17410   __o = __builtin_aarch64_ld4rv16qi ((const __builtin_aarch64_simd_qi *) __a);
17411   ret.val[0] = (poly8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 0);
17412   ret.val[1] = (poly8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 1);
17413   ret.val[2] = (poly8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 2);
17414   ret.val[3] = (poly8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 3);
17415   return ret;
17416 }
17417
17418 __extension__ static __inline int16x8x4_t __attribute__ ((__always_inline__))
17419 vld4q_dup_s16 (const int16_t * __a)
17420 {
17421   int16x8x4_t ret;
17422   __builtin_aarch64_simd_xi __o;
17423   __o = __builtin_aarch64_ld4rv8hi ((const __builtin_aarch64_simd_hi *) __a);
17424   ret.val[0] = (int16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 0);
17425   ret.val[1] = (int16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 1);
17426   ret.val[2] = (int16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 2);
17427   ret.val[3] = (int16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 3);
17428   return ret;
17429 }
17430
17431 __extension__ static __inline poly16x8x4_t __attribute__ ((__always_inline__))
17432 vld4q_dup_p16 (const poly16_t * __a)
17433 {
17434   poly16x8x4_t ret;
17435   __builtin_aarch64_simd_xi __o;
17436   __o = __builtin_aarch64_ld4rv8hi ((const __builtin_aarch64_simd_hi *) __a);
17437   ret.val[0] = (poly16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 0);
17438   ret.val[1] = (poly16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 1);
17439   ret.val[2] = (poly16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 2);
17440   ret.val[3] = (poly16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 3);
17441   return ret;
17442 }
17443
17444 __extension__ static __inline int32x4x4_t __attribute__ ((__always_inline__))
17445 vld4q_dup_s32 (const int32_t * __a)
17446 {
17447   int32x4x4_t ret;
17448   __builtin_aarch64_simd_xi __o;
17449   __o = __builtin_aarch64_ld4rv4si ((const __builtin_aarch64_simd_si *) __a);
17450   ret.val[0] = (int32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 0);
17451   ret.val[1] = (int32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 1);
17452   ret.val[2] = (int32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 2);
17453   ret.val[3] = (int32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 3);
17454   return ret;
17455 }
17456
17457 __extension__ static __inline int64x2x4_t __attribute__ ((__always_inline__))
17458 vld4q_dup_s64 (const int64_t * __a)
17459 {
17460   int64x2x4_t ret;
17461   __builtin_aarch64_simd_xi __o;
17462   __o = __builtin_aarch64_ld4rv2di ((const __builtin_aarch64_simd_di *) __a);
17463   ret.val[0] = (int64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 0);
17464   ret.val[1] = (int64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 1);
17465   ret.val[2] = (int64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 2);
17466   ret.val[3] = (int64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 3);
17467   return ret;
17468 }
17469
17470 __extension__ static __inline uint8x16x4_t __attribute__ ((__always_inline__))
17471 vld4q_dup_u8 (const uint8_t * __a)
17472 {
17473   uint8x16x4_t ret;
17474   __builtin_aarch64_simd_xi __o;
17475   __o = __builtin_aarch64_ld4rv16qi ((const __builtin_aarch64_simd_qi *) __a);
17476   ret.val[0] = (uint8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 0);
17477   ret.val[1] = (uint8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 1);
17478   ret.val[2] = (uint8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 2);
17479   ret.val[3] = (uint8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 3);
17480   return ret;
17481 }
17482
17483 __extension__ static __inline uint16x8x4_t __attribute__ ((__always_inline__))
17484 vld4q_dup_u16 (const uint16_t * __a)
17485 {
17486   uint16x8x4_t ret;
17487   __builtin_aarch64_simd_xi __o;
17488   __o = __builtin_aarch64_ld4rv8hi ((const __builtin_aarch64_simd_hi *) __a);
17489   ret.val[0] = (uint16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 0);
17490   ret.val[1] = (uint16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 1);
17491   ret.val[2] = (uint16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 2);
17492   ret.val[3] = (uint16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 3);
17493   return ret;
17494 }
17495
17496 __extension__ static __inline uint32x4x4_t __attribute__ ((__always_inline__))
17497 vld4q_dup_u32 (const uint32_t * __a)
17498 {
17499   uint32x4x4_t ret;
17500   __builtin_aarch64_simd_xi __o;
17501   __o = __builtin_aarch64_ld4rv4si ((const __builtin_aarch64_simd_si *) __a);
17502   ret.val[0] = (uint32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 0);
17503   ret.val[1] = (uint32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 1);
17504   ret.val[2] = (uint32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 2);
17505   ret.val[3] = (uint32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 3);
17506   return ret;
17507 }
17508
17509 __extension__ static __inline uint64x2x4_t __attribute__ ((__always_inline__))
17510 vld4q_dup_u64 (const uint64_t * __a)
17511 {
17512   uint64x2x4_t ret;
17513   __builtin_aarch64_simd_xi __o;
17514   __o = __builtin_aarch64_ld4rv2di ((const __builtin_aarch64_simd_di *) __a);
17515   ret.val[0] = (uint64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 0);
17516   ret.val[1] = (uint64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 1);
17517   ret.val[2] = (uint64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 2);
17518   ret.val[3] = (uint64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 3);
17519   return ret;
17520 }
17521
17522 __extension__ static __inline float32x4x4_t __attribute__ ((__always_inline__))
17523 vld4q_dup_f32 (const float32_t * __a)
17524 {
17525   float32x4x4_t ret;
17526   __builtin_aarch64_simd_xi __o;
17527   __o = __builtin_aarch64_ld4rv4sf ((const __builtin_aarch64_simd_sf *) __a);
17528   ret.val[0] = (float32x4_t) __builtin_aarch64_get_qregxiv4sf (__o, 0);
17529   ret.val[1] = (float32x4_t) __builtin_aarch64_get_qregxiv4sf (__o, 1);
17530   ret.val[2] = (float32x4_t) __builtin_aarch64_get_qregxiv4sf (__o, 2);
17531   ret.val[3] = (float32x4_t) __builtin_aarch64_get_qregxiv4sf (__o, 3);
17532   return ret;
17533 }
17534
17535 __extension__ static __inline float64x2x4_t __attribute__ ((__always_inline__))
17536 vld4q_dup_f64 (const float64_t * __a)
17537 {
17538   float64x2x4_t ret;
17539   __builtin_aarch64_simd_xi __o;
17540   __o = __builtin_aarch64_ld4rv2df ((const __builtin_aarch64_simd_df *) __a);
17541   ret.val[0] = (float64x2_t) __builtin_aarch64_get_qregxiv2df (__o, 0);
17542   ret.val[1] = (float64x2_t) __builtin_aarch64_get_qregxiv2df (__o, 1);
17543   ret.val[2] = (float64x2_t) __builtin_aarch64_get_qregxiv2df (__o, 2);
17544   ret.val[3] = (float64x2_t) __builtin_aarch64_get_qregxiv2df (__o, 3);
17545   return ret;
17546 }
17547
17548 /* vld2_lane */
17549
17550 #define __LD2_LANE_FUNC(intype, vectype, largetype, ptrtype,               \
17551                          mode, ptrmode, funcsuffix, signedtype)            \
17552 __extension__ static __inline intype __attribute__ ((__always_inline__))   \
17553 vld2_lane_##funcsuffix (const ptrtype * __ptr, intype __b, const int __c)  \
17554 {                                                                          \
17555   __builtin_aarch64_simd_oi __o;                                           \
17556   largetype __temp;                                                        \
17557   __temp.val[0] =                                                          \
17558     vcombine_##funcsuffix (__b.val[0], vcreate_##funcsuffix (0));          \
17559   __temp.val[1] =                                                          \
17560     vcombine_##funcsuffix (__b.val[1], vcreate_##funcsuffix (0));          \
17561   __o = __builtin_aarch64_set_qregoi##mode (__o,                           \
17562                                            (signedtype) __temp.val[0],     \
17563                                            0);                             \
17564   __o = __builtin_aarch64_set_qregoi##mode (__o,                           \
17565                                            (signedtype) __temp.val[1],     \
17566                                            1);                             \
17567   __o = __builtin_aarch64_ld2_lane##mode (                                 \
17568           (__builtin_aarch64_simd_##ptrmode *) __ptr, __o, __c);           \
17569   __b.val[0] = (vectype) __builtin_aarch64_get_dregoidi (__o, 0);          \
17570   __b.val[1] = (vectype) __builtin_aarch64_get_dregoidi (__o, 1);          \
17571   return __b;                                                              \
17572 }
17573
17574 __LD2_LANE_FUNC (float32x2x2_t, float32x2_t, float32x4x2_t, float32_t, v4sf,
17575                  sf, f32, float32x4_t)
17576 __LD2_LANE_FUNC (float64x1x2_t, float64x1_t, float64x2x2_t, float64_t, v2df,
17577                  df, f64, float64x2_t)
17578 __LD2_LANE_FUNC (poly8x8x2_t, poly8x8_t, poly8x16x2_t, poly8_t, v16qi, qi, p8,
17579                  int8x16_t)
17580 __LD2_LANE_FUNC (poly16x4x2_t, poly16x4_t, poly16x8x2_t, poly16_t, v8hi, hi,
17581                  p16, int16x8_t)
17582 __LD2_LANE_FUNC (int8x8x2_t, int8x8_t, int8x16x2_t, int8_t, v16qi, qi, s8,
17583                  int8x16_t)
17584 __LD2_LANE_FUNC (int16x4x2_t, int16x4_t, int16x8x2_t, int16_t, v8hi, hi, s16,
17585                  int16x8_t)
17586 __LD2_LANE_FUNC (int32x2x2_t, int32x2_t, int32x4x2_t, int32_t, v4si, si, s32,
17587                  int32x4_t)
17588 __LD2_LANE_FUNC (int64x1x2_t, int64x1_t, int64x2x2_t, int64_t, v2di, di, s64,
17589                  int64x2_t)
17590 __LD2_LANE_FUNC (uint8x8x2_t, uint8x8_t, uint8x16x2_t, uint8_t, v16qi, qi, u8,
17591                  int8x16_t)
17592 __LD2_LANE_FUNC (uint16x4x2_t, uint16x4_t, uint16x8x2_t, uint16_t, v8hi, hi,
17593                  u16, int16x8_t)
17594 __LD2_LANE_FUNC (uint32x2x2_t, uint32x2_t, uint32x4x2_t, uint32_t, v4si, si,
17595                  u32, int32x4_t)
17596 __LD2_LANE_FUNC (uint64x1x2_t, uint64x1_t, uint64x2x2_t, uint64_t, v2di, di,
17597                  u64, int64x2_t)
17598
17599 #undef __LD2_LANE_FUNC
17600
17601 /* vld2q_lane */
17602
17603 #define __LD2_LANE_FUNC(intype, vtype, ptrtype, mode, ptrmode, funcsuffix) \
17604 __extension__ static __inline intype __attribute__ ((__always_inline__))   \
17605 vld2q_lane_##funcsuffix (const ptrtype * __ptr, intype __b, const int __c) \
17606 {                                                                          \
17607   __builtin_aarch64_simd_oi __o;                                           \
17608   intype ret;                                                              \
17609   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) __b.val[0], 0); \
17610   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) __b.val[1], 1); \
17611   __o = __builtin_aarch64_ld2_lane##mode (                                 \
17612         (__builtin_aarch64_simd_##ptrmode *) __ptr, __o, __c);             \
17613   ret.val[0] = (vtype) __builtin_aarch64_get_qregoiv4si (__o, 0);          \
17614   ret.val[1] = (vtype) __builtin_aarch64_get_qregoiv4si (__o, 1);          \
17615   return ret;                                                              \
17616 }
17617
17618 __LD2_LANE_FUNC (float32x4x2_t, float32x4_t, float32_t, v4sf, sf, f32)
17619 __LD2_LANE_FUNC (float64x2x2_t, float64x2_t, float64_t, v2df, df, f64)
17620 __LD2_LANE_FUNC (poly8x16x2_t, poly8x16_t, poly8_t, v16qi, qi, p8)
17621 __LD2_LANE_FUNC (poly16x8x2_t, poly16x8_t, poly16_t, v8hi, hi, p16)
17622 __LD2_LANE_FUNC (int8x16x2_t, int8x16_t, int8_t, v16qi, qi, s8)
17623 __LD2_LANE_FUNC (int16x8x2_t, int16x8_t, int16_t, v8hi, hi, s16)
17624 __LD2_LANE_FUNC (int32x4x2_t, int32x4_t, int32_t, v4si, si, s32)
17625 __LD2_LANE_FUNC (int64x2x2_t, int64x2_t, int64_t, v2di, di, s64)
17626 __LD2_LANE_FUNC (uint8x16x2_t, uint8x16_t, uint8_t, v16qi, qi, u8)
17627 __LD2_LANE_FUNC (uint16x8x2_t, uint16x8_t, uint16_t, v8hi, hi, u16)
17628 __LD2_LANE_FUNC (uint32x4x2_t, uint32x4_t, uint32_t, v4si, si, u32)
17629 __LD2_LANE_FUNC (uint64x2x2_t, uint64x2_t, uint64_t, v2di, di, u64)
17630
17631 #undef __LD2_LANE_FUNC
17632
17633 /* vld3_lane */
17634
17635 #define __LD3_LANE_FUNC(intype, vectype, largetype, ptrtype,               \
17636                          mode, ptrmode, funcsuffix, signedtype)            \
17637 __extension__ static __inline intype __attribute__ ((__always_inline__))   \
17638 vld3_lane_##funcsuffix (const ptrtype * __ptr, intype __b, const int __c)  \
17639 {                                                                          \
17640   __builtin_aarch64_simd_ci __o;                                           \
17641   largetype __temp;                                                        \
17642   __temp.val[0] =                                                          \
17643     vcombine_##funcsuffix (__b.val[0], vcreate_##funcsuffix (0));          \
17644   __temp.val[1] =                                                          \
17645     vcombine_##funcsuffix (__b.val[1], vcreate_##funcsuffix (0));          \
17646   __temp.val[2] =                                                          \
17647     vcombine_##funcsuffix (__b.val[2], vcreate_##funcsuffix (0));          \
17648   __o = __builtin_aarch64_set_qregci##mode (__o,                           \
17649                                            (signedtype) __temp.val[0],     \
17650                                            0);                             \
17651   __o = __builtin_aarch64_set_qregci##mode (__o,                           \
17652                                            (signedtype) __temp.val[1],     \
17653                                            1);                             \
17654   __o = __builtin_aarch64_set_qregci##mode (__o,                           \
17655                                            (signedtype) __temp.val[2],     \
17656                                            2);                             \
17657   __o = __builtin_aarch64_ld3_lane##mode (                                 \
17658           (__builtin_aarch64_simd_##ptrmode *) __ptr, __o, __c);           \
17659   __b.val[0] = (vectype) __builtin_aarch64_get_dregcidi (__o, 0);          \
17660   __b.val[1] = (vectype) __builtin_aarch64_get_dregcidi (__o, 1);          \
17661   __b.val[2] = (vectype) __builtin_aarch64_get_dregcidi (__o, 2);          \
17662   return __b;                                                              \
17663 }
17664
17665 __LD3_LANE_FUNC (float32x2x3_t, float32x2_t, float32x4x3_t, float32_t, v4sf,
17666                  sf, f32, float32x4_t)
17667 __LD3_LANE_FUNC (float64x1x3_t, float64x1_t, float64x2x3_t, float64_t, v2df,
17668                  df, f64, float64x2_t)
17669 __LD3_LANE_FUNC (poly8x8x3_t, poly8x8_t, poly8x16x3_t, poly8_t, v16qi, qi, p8,
17670                  int8x16_t)
17671 __LD3_LANE_FUNC (poly16x4x3_t, poly16x4_t, poly16x8x3_t, poly16_t, v8hi, hi,
17672                  p16, int16x8_t)
17673 __LD3_LANE_FUNC (int8x8x3_t, int8x8_t, int8x16x3_t, int8_t, v16qi, qi, s8,
17674                  int8x16_t)
17675 __LD3_LANE_FUNC (int16x4x3_t, int16x4_t, int16x8x3_t, int16_t, v8hi, hi, s16,
17676                  int16x8_t)
17677 __LD3_LANE_FUNC (int32x2x3_t, int32x2_t, int32x4x3_t, int32_t, v4si, si, s32,
17678                  int32x4_t)
17679 __LD3_LANE_FUNC (int64x1x3_t, int64x1_t, int64x2x3_t, int64_t, v2di, di, s64,
17680                  int64x2_t)
17681 __LD3_LANE_FUNC (uint8x8x3_t, uint8x8_t, uint8x16x3_t, uint8_t, v16qi, qi, u8,
17682                  int8x16_t)
17683 __LD3_LANE_FUNC (uint16x4x3_t, uint16x4_t, uint16x8x3_t, uint16_t, v8hi, hi,
17684                  u16, int16x8_t)
17685 __LD3_LANE_FUNC (uint32x2x3_t, uint32x2_t, uint32x4x3_t, uint32_t, v4si, si,
17686                  u32, int32x4_t)
17687 __LD3_LANE_FUNC (uint64x1x3_t, uint64x1_t, uint64x2x3_t, uint64_t, v2di, di,
17688                  u64, int64x2_t)
17689
17690 #undef __LD3_LANE_FUNC
17691
17692 /* vld3q_lane */
17693
17694 #define __LD3_LANE_FUNC(intype, vtype, ptrtype, mode, ptrmode, funcsuffix) \
17695 __extension__ static __inline intype __attribute__ ((__always_inline__))   \
17696 vld3q_lane_##funcsuffix (const ptrtype * __ptr, intype __b, const int __c) \
17697 {                                                                          \
17698   __builtin_aarch64_simd_ci __o;                                           \
17699   intype ret;                                                              \
17700   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) __b.val[0], 0); \
17701   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) __b.val[1], 1); \
17702   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) __b.val[2], 2); \
17703   __o = __builtin_aarch64_ld3_lane##mode (                                 \
17704         (__builtin_aarch64_simd_##ptrmode *) __ptr, __o, __c);             \
17705   ret.val[0] = (vtype) __builtin_aarch64_get_qregciv4si (__o, 0);          \
17706   ret.val[1] = (vtype) __builtin_aarch64_get_qregciv4si (__o, 1);          \
17707   ret.val[2] = (vtype) __builtin_aarch64_get_qregciv4si (__o, 2);          \
17708   return ret;                                                              \
17709 }
17710
17711 __LD3_LANE_FUNC (float32x4x3_t, float32x4_t, float32_t, v4sf, sf, f32)
17712 __LD3_LANE_FUNC (float64x2x3_t, float64x2_t, float64_t, v2df, df, f64)
17713 __LD3_LANE_FUNC (poly8x16x3_t, poly8x16_t, poly8_t, v16qi, qi, p8)
17714 __LD3_LANE_FUNC (poly16x8x3_t, poly16x8_t, poly16_t, v8hi, hi, p16)
17715 __LD3_LANE_FUNC (int8x16x3_t, int8x16_t, int8_t, v16qi, qi, s8)
17716 __LD3_LANE_FUNC (int16x8x3_t, int16x8_t, int16_t, v8hi, hi, s16)
17717 __LD3_LANE_FUNC (int32x4x3_t, int32x4_t, int32_t, v4si, si, s32)
17718 __LD3_LANE_FUNC (int64x2x3_t, int64x2_t, int64_t, v2di, di, s64)
17719 __LD3_LANE_FUNC (uint8x16x3_t, uint8x16_t, uint8_t, v16qi, qi, u8)
17720 __LD3_LANE_FUNC (uint16x8x3_t, uint16x8_t, uint16_t, v8hi, hi, u16)
17721 __LD3_LANE_FUNC (uint32x4x3_t, uint32x4_t, uint32_t, v4si, si, u32)
17722 __LD3_LANE_FUNC (uint64x2x3_t, uint64x2_t, uint64_t, v2di, di, u64)
17723
17724 #undef __LD3_LANE_FUNC
17725
17726 /* vld4_lane */
17727
17728 #define __LD4_LANE_FUNC(intype, vectype, largetype, ptrtype,               \
17729                          mode, ptrmode, funcsuffix, signedtype)            \
17730 __extension__ static __inline intype __attribute__ ((__always_inline__))   \
17731 vld4_lane_##funcsuffix (const ptrtype * __ptr, intype __b, const int __c)  \
17732 {                                                                          \
17733   __builtin_aarch64_simd_xi __o;                                           \
17734   largetype __temp;                                                        \
17735   __temp.val[0] =                                                          \
17736     vcombine_##funcsuffix (__b.val[0], vcreate_##funcsuffix (0));          \
17737   __temp.val[1] =                                                          \
17738     vcombine_##funcsuffix (__b.val[1], vcreate_##funcsuffix (0));          \
17739   __temp.val[2] =                                                          \
17740     vcombine_##funcsuffix (__b.val[2], vcreate_##funcsuffix (0));          \
17741   __temp.val[3] =                                                          \
17742     vcombine_##funcsuffix (__b.val[3], vcreate_##funcsuffix (0));          \
17743   __o = __builtin_aarch64_set_qregxi##mode (__o,                           \
17744                                            (signedtype) __temp.val[0],     \
17745                                            0);                             \
17746   __o = __builtin_aarch64_set_qregxi##mode (__o,                           \
17747                                            (signedtype) __temp.val[1],     \
17748                                            1);                             \
17749   __o = __builtin_aarch64_set_qregxi##mode (__o,                           \
17750                                            (signedtype) __temp.val[2],     \
17751                                            2);                             \
17752   __o = __builtin_aarch64_set_qregxi##mode (__o,                           \
17753                                            (signedtype) __temp.val[3],     \
17754                                            3);                             \
17755   __o = __builtin_aarch64_ld4_lane##mode (                                 \
17756           (__builtin_aarch64_simd_##ptrmode *) __ptr, __o, __c);           \
17757   __b.val[0] = (vectype) __builtin_aarch64_get_dregxidi (__o, 0);          \
17758   __b.val[1] = (vectype) __builtin_aarch64_get_dregxidi (__o, 1);          \
17759   __b.val[2] = (vectype) __builtin_aarch64_get_dregxidi (__o, 2);          \
17760   __b.val[3] = (vectype) __builtin_aarch64_get_dregxidi (__o, 3);          \
17761   return __b;                                                              \
17762 }
17763
17764 /* vld4q_lane */
17765
17766 __LD4_LANE_FUNC (float32x2x4_t, float32x2_t, float32x4x4_t, float32_t, v4sf,
17767                  sf, f32, float32x4_t)
17768 __LD4_LANE_FUNC (float64x1x4_t, float64x1_t, float64x2x4_t, float64_t, v2df,
17769                  df, f64, float64x2_t)
17770 __LD4_LANE_FUNC (poly8x8x4_t, poly8x8_t, poly8x16x4_t, poly8_t, v16qi, qi, p8,
17771                  int8x16_t)
17772 __LD4_LANE_FUNC (poly16x4x4_t, poly16x4_t, poly16x8x4_t, poly16_t, v8hi, hi,
17773                  p16, int16x8_t)
17774 __LD4_LANE_FUNC (int8x8x4_t, int8x8_t, int8x16x4_t, int8_t, v16qi, qi, s8,
17775                  int8x16_t)
17776 __LD4_LANE_FUNC (int16x4x4_t, int16x4_t, int16x8x4_t, int16_t, v8hi, hi, s16,
17777                  int16x8_t)
17778 __LD4_LANE_FUNC (int32x2x4_t, int32x2_t, int32x4x4_t, int32_t, v4si, si, s32,
17779                  int32x4_t)
17780 __LD4_LANE_FUNC (int64x1x4_t, int64x1_t, int64x2x4_t, int64_t, v2di, di, s64,
17781                  int64x2_t)
17782 __LD4_LANE_FUNC (uint8x8x4_t, uint8x8_t, uint8x16x4_t, uint8_t, v16qi, qi, u8,
17783                  int8x16_t)
17784 __LD4_LANE_FUNC (uint16x4x4_t, uint16x4_t, uint16x8x4_t, uint16_t, v8hi, hi,
17785                  u16, int16x8_t)
17786 __LD4_LANE_FUNC (uint32x2x4_t, uint32x2_t, uint32x4x4_t, uint32_t, v4si, si,
17787                  u32, int32x4_t)
17788 __LD4_LANE_FUNC (uint64x1x4_t, uint64x1_t, uint64x2x4_t, uint64_t, v2di, di,
17789                  u64, int64x2_t)
17790
17791 #undef __LD4_LANE_FUNC
17792
17793 /* vld4q_lane */
17794
17795 #define __LD4_LANE_FUNC(intype, vtype, ptrtype, mode, ptrmode, funcsuffix) \
17796 __extension__ static __inline intype __attribute__ ((__always_inline__))   \
17797 vld4q_lane_##funcsuffix (const ptrtype * __ptr, intype __b, const int __c) \
17798 {                                                                          \
17799   __builtin_aarch64_simd_xi __o;                                           \
17800   intype ret;                                                              \
17801   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) __b.val[0], 0); \
17802   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) __b.val[1], 1); \
17803   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) __b.val[2], 2); \
17804   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) __b.val[3], 3); \
17805   __o = __builtin_aarch64_ld4_lane##mode (                                 \
17806         (__builtin_aarch64_simd_##ptrmode *) __ptr, __o, __c);             \
17807   ret.val[0] = (vtype) __builtin_aarch64_get_qregxiv4si (__o, 0);          \
17808   ret.val[1] = (vtype) __builtin_aarch64_get_qregxiv4si (__o, 1);          \
17809   ret.val[2] = (vtype) __builtin_aarch64_get_qregxiv4si (__o, 2);          \
17810   ret.val[3] = (vtype) __builtin_aarch64_get_qregxiv4si (__o, 3);          \
17811   return ret;                                                              \
17812 }
17813
17814 __LD4_LANE_FUNC (float32x4x4_t, float32x4_t, float32_t, v4sf, sf, f32)
17815 __LD4_LANE_FUNC (float64x2x4_t, float64x2_t, float64_t, v2df, df, f64)
17816 __LD4_LANE_FUNC (poly8x16x4_t, poly8x16_t, poly8_t, v16qi, qi, p8)
17817 __LD4_LANE_FUNC (poly16x8x4_t, poly16x8_t, poly16_t, v8hi, hi, p16)
17818 __LD4_LANE_FUNC (int8x16x4_t, int8x16_t, int8_t, v16qi, qi, s8)
17819 __LD4_LANE_FUNC (int16x8x4_t, int16x8_t, int16_t, v8hi, hi, s16)
17820 __LD4_LANE_FUNC (int32x4x4_t, int32x4_t, int32_t, v4si, si, s32)
17821 __LD4_LANE_FUNC (int64x2x4_t, int64x2_t, int64_t, v2di, di, s64)
17822 __LD4_LANE_FUNC (uint8x16x4_t, uint8x16_t, uint8_t, v16qi, qi, u8)
17823 __LD4_LANE_FUNC (uint16x8x4_t, uint16x8_t, uint16_t, v8hi, hi, u16)
17824 __LD4_LANE_FUNC (uint32x4x4_t, uint32x4_t, uint32_t, v4si, si, u32)
17825 __LD4_LANE_FUNC (uint64x2x4_t, uint64x2_t, uint64_t, v2di, di, u64)
17826
17827 #undef __LD4_LANE_FUNC
17828
17829 /* vmax */
17830
17831 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
17832 vmax_f32 (float32x2_t __a, float32x2_t __b)
17833 {
17834   return __builtin_aarch64_smax_nanv2sf (__a, __b);
17835 }
17836
17837 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
17838 vmax_s8 (int8x8_t __a, int8x8_t __b)
17839 {
17840   return __builtin_aarch64_smaxv8qi (__a, __b);
17841 }
17842
17843 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
17844 vmax_s16 (int16x4_t __a, int16x4_t __b)
17845 {
17846   return __builtin_aarch64_smaxv4hi (__a, __b);
17847 }
17848
17849 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
17850 vmax_s32 (int32x2_t __a, int32x2_t __b)
17851 {
17852   return __builtin_aarch64_smaxv2si (__a, __b);
17853 }
17854
17855 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
17856 vmax_u8 (uint8x8_t __a, uint8x8_t __b)
17857 {
17858   return (uint8x8_t) __builtin_aarch64_umaxv8qi ((int8x8_t) __a,
17859                                                  (int8x8_t) __b);
17860 }
17861
17862 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
17863 vmax_u16 (uint16x4_t __a, uint16x4_t __b)
17864 {
17865   return (uint16x4_t) __builtin_aarch64_umaxv4hi ((int16x4_t) __a,
17866                                                   (int16x4_t) __b);
17867 }
17868
17869 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
17870 vmax_u32 (uint32x2_t __a, uint32x2_t __b)
17871 {
17872   return (uint32x2_t) __builtin_aarch64_umaxv2si ((int32x2_t) __a,
17873                                                   (int32x2_t) __b);
17874 }
17875
17876 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
17877 vmaxq_f32 (float32x4_t __a, float32x4_t __b)
17878 {
17879   return __builtin_aarch64_smax_nanv4sf (__a, __b);
17880 }
17881
17882 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
17883 vmaxq_f64 (float64x2_t __a, float64x2_t __b)
17884 {
17885   return __builtin_aarch64_smax_nanv2df (__a, __b);
17886 }
17887
17888 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
17889 vmaxq_s8 (int8x16_t __a, int8x16_t __b)
17890 {
17891   return __builtin_aarch64_smaxv16qi (__a, __b);
17892 }
17893
17894 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
17895 vmaxq_s16 (int16x8_t __a, int16x8_t __b)
17896 {
17897   return __builtin_aarch64_smaxv8hi (__a, __b);
17898 }
17899
17900 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
17901 vmaxq_s32 (int32x4_t __a, int32x4_t __b)
17902 {
17903   return __builtin_aarch64_smaxv4si (__a, __b);
17904 }
17905
17906 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
17907 vmaxq_u8 (uint8x16_t __a, uint8x16_t __b)
17908 {
17909   return (uint8x16_t) __builtin_aarch64_umaxv16qi ((int8x16_t) __a,
17910                                                    (int8x16_t) __b);
17911 }
17912
17913 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
17914 vmaxq_u16 (uint16x8_t __a, uint16x8_t __b)
17915 {
17916   return (uint16x8_t) __builtin_aarch64_umaxv8hi ((int16x8_t) __a,
17917                                                   (int16x8_t) __b);
17918 }
17919
17920 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
17921 vmaxq_u32 (uint32x4_t __a, uint32x4_t __b)
17922 {
17923   return (uint32x4_t) __builtin_aarch64_umaxv4si ((int32x4_t) __a,
17924                                                   (int32x4_t) __b);
17925 }
17926
17927 /* vmaxnm  */
17928
17929 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
17930 vmaxnm_f32 (float32x2_t __a, float32x2_t __b)
17931 {
17932   return __builtin_aarch64_smaxv2sf (__a, __b);
17933 }
17934
17935 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
17936 vmaxnmq_f32 (float32x4_t __a, float32x4_t __b)
17937 {
17938   return __builtin_aarch64_smaxv4sf (__a, __b);
17939 }
17940
17941 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
17942 vmaxnmq_f64 (float64x2_t __a, float64x2_t __b)
17943 {
17944   return __builtin_aarch64_smaxv2df (__a, __b);
17945 }
17946
17947 /* vmaxv  */
17948
17949 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
17950 vmaxv_f32 (float32x2_t __a)
17951 {
17952   return __builtin_aarch64_reduc_smax_nan_scal_v2sf (__a);
17953 }
17954
17955 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
17956 vmaxv_s8 (int8x8_t __a)
17957 {
17958   return __builtin_aarch64_reduc_smax_scal_v8qi (__a);
17959 }
17960
17961 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
17962 vmaxv_s16 (int16x4_t __a)
17963 {
17964   return __builtin_aarch64_reduc_smax_scal_v4hi (__a);
17965 }
17966
17967 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
17968 vmaxv_s32 (int32x2_t __a)
17969 {
17970   return __builtin_aarch64_reduc_smax_scal_v2si (__a);
17971 }
17972
17973 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
17974 vmaxv_u8 (uint8x8_t __a)
17975 {
17976   return __builtin_aarch64_reduc_umax_scal_v8qi_uu (__a);
17977 }
17978
17979 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
17980 vmaxv_u16 (uint16x4_t __a)
17981 {
17982   return __builtin_aarch64_reduc_umax_scal_v4hi_uu (__a);
17983 }
17984
17985 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
17986 vmaxv_u32 (uint32x2_t __a)
17987 {
17988   return __builtin_aarch64_reduc_umax_scal_v2si_uu (__a);
17989 }
17990
17991 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
17992 vmaxvq_f32 (float32x4_t __a)
17993 {
17994   return __builtin_aarch64_reduc_smax_nan_scal_v4sf (__a);
17995 }
17996
17997 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
17998 vmaxvq_f64 (float64x2_t __a)
17999 {
18000   return __builtin_aarch64_reduc_smax_nan_scal_v2df (__a);
18001 }
18002
18003 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
18004 vmaxvq_s8 (int8x16_t __a)
18005 {
18006   return __builtin_aarch64_reduc_smax_scal_v16qi (__a);
18007 }
18008
18009 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
18010 vmaxvq_s16 (int16x8_t __a)
18011 {
18012   return __builtin_aarch64_reduc_smax_scal_v8hi (__a);
18013 }
18014
18015 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
18016 vmaxvq_s32 (int32x4_t __a)
18017 {
18018   return __builtin_aarch64_reduc_smax_scal_v4si (__a);
18019 }
18020
18021 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
18022 vmaxvq_u8 (uint8x16_t __a)
18023 {
18024   return __builtin_aarch64_reduc_umax_scal_v16qi_uu (__a);
18025 }
18026
18027 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
18028 vmaxvq_u16 (uint16x8_t __a)
18029 {
18030   return __builtin_aarch64_reduc_umax_scal_v8hi_uu (__a);
18031 }
18032
18033 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
18034 vmaxvq_u32 (uint32x4_t __a)
18035 {
18036   return __builtin_aarch64_reduc_umax_scal_v4si_uu (__a);
18037 }
18038
18039 /* vmaxnmv  */
18040
18041 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
18042 vmaxnmv_f32 (float32x2_t __a)
18043 {
18044   return __builtin_aarch64_reduc_smax_scal_v2sf (__a);
18045 }
18046
18047 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
18048 vmaxnmvq_f32 (float32x4_t __a)
18049 {
18050   return __builtin_aarch64_reduc_smax_scal_v4sf (__a);
18051 }
18052
18053 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
18054 vmaxnmvq_f64 (float64x2_t __a)
18055 {
18056   return __builtin_aarch64_reduc_smax_scal_v2df (__a);
18057 }
18058
18059 /* vmin  */
18060
18061 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18062 vmin_f32 (float32x2_t __a, float32x2_t __b)
18063 {
18064   return __builtin_aarch64_smin_nanv2sf (__a, __b);
18065 }
18066
18067 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
18068 vmin_s8 (int8x8_t __a, int8x8_t __b)
18069 {
18070   return __builtin_aarch64_sminv8qi (__a, __b);
18071 }
18072
18073 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
18074 vmin_s16 (int16x4_t __a, int16x4_t __b)
18075 {
18076   return __builtin_aarch64_sminv4hi (__a, __b);
18077 }
18078
18079 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
18080 vmin_s32 (int32x2_t __a, int32x2_t __b)
18081 {
18082   return __builtin_aarch64_sminv2si (__a, __b);
18083 }
18084
18085 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
18086 vmin_u8 (uint8x8_t __a, uint8x8_t __b)
18087 {
18088   return (uint8x8_t) __builtin_aarch64_uminv8qi ((int8x8_t) __a,
18089                                                  (int8x8_t) __b);
18090 }
18091
18092 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
18093 vmin_u16 (uint16x4_t __a, uint16x4_t __b)
18094 {
18095   return (uint16x4_t) __builtin_aarch64_uminv4hi ((int16x4_t) __a,
18096                                                   (int16x4_t) __b);
18097 }
18098
18099 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18100 vmin_u32 (uint32x2_t __a, uint32x2_t __b)
18101 {
18102   return (uint32x2_t) __builtin_aarch64_uminv2si ((int32x2_t) __a,
18103                                                   (int32x2_t) __b);
18104 }
18105
18106 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18107 vminq_f32 (float32x4_t __a, float32x4_t __b)
18108 {
18109   return __builtin_aarch64_smin_nanv4sf (__a, __b);
18110 }
18111
18112 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
18113 vminq_f64 (float64x2_t __a, float64x2_t __b)
18114 {
18115   return __builtin_aarch64_smin_nanv2df (__a, __b);
18116 }
18117
18118 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
18119 vminq_s8 (int8x16_t __a, int8x16_t __b)
18120 {
18121   return __builtin_aarch64_sminv16qi (__a, __b);
18122 }
18123
18124 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
18125 vminq_s16 (int16x8_t __a, int16x8_t __b)
18126 {
18127   return __builtin_aarch64_sminv8hi (__a, __b);
18128 }
18129
18130 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
18131 vminq_s32 (int32x4_t __a, int32x4_t __b)
18132 {
18133   return __builtin_aarch64_sminv4si (__a, __b);
18134 }
18135
18136 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
18137 vminq_u8 (uint8x16_t __a, uint8x16_t __b)
18138 {
18139   return (uint8x16_t) __builtin_aarch64_uminv16qi ((int8x16_t) __a,
18140                                                    (int8x16_t) __b);
18141 }
18142
18143 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
18144 vminq_u16 (uint16x8_t __a, uint16x8_t __b)
18145 {
18146   return (uint16x8_t) __builtin_aarch64_uminv8hi ((int16x8_t) __a,
18147                                                   (int16x8_t) __b);
18148 }
18149
18150 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18151 vminq_u32 (uint32x4_t __a, uint32x4_t __b)
18152 {
18153   return (uint32x4_t) __builtin_aarch64_uminv4si ((int32x4_t) __a,
18154                                                   (int32x4_t) __b);
18155 }
18156
18157 /* vminnm  */
18158
18159 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18160 vminnm_f32 (float32x2_t __a, float32x2_t __b)
18161 {
18162   return __builtin_aarch64_sminv2sf (__a, __b);
18163 }
18164
18165 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18166 vminnmq_f32 (float32x4_t __a, float32x4_t __b)
18167 {
18168   return __builtin_aarch64_sminv4sf (__a, __b);
18169 }
18170
18171 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
18172 vminnmq_f64 (float64x2_t __a, float64x2_t __b)
18173 {
18174   return __builtin_aarch64_sminv2df (__a, __b);
18175 }
18176
18177 /* vminv  */
18178
18179 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
18180 vminv_f32 (float32x2_t __a)
18181 {
18182   return __builtin_aarch64_reduc_smin_nan_scal_v2sf (__a);
18183 }
18184
18185 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
18186 vminv_s8 (int8x8_t __a)
18187 {
18188   return __builtin_aarch64_reduc_smin_scal_v8qi (__a);
18189 }
18190
18191 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
18192 vminv_s16 (int16x4_t __a)
18193 {
18194   return __builtin_aarch64_reduc_smin_scal_v4hi (__a);
18195 }
18196
18197 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
18198 vminv_s32 (int32x2_t __a)
18199 {
18200   return __builtin_aarch64_reduc_smin_scal_v2si (__a);
18201 }
18202
18203 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
18204 vminv_u8 (uint8x8_t __a)
18205 {
18206   return __builtin_aarch64_reduc_umin_scal_v8qi_uu (__a);
18207 }
18208
18209 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
18210 vminv_u16 (uint16x4_t __a)
18211 {
18212   return __builtin_aarch64_reduc_umin_scal_v4hi_uu (__a);
18213 }
18214
18215 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
18216 vminv_u32 (uint32x2_t __a)
18217 {
18218   return __builtin_aarch64_reduc_umin_scal_v2si_uu (__a);
18219 }
18220
18221 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
18222 vminvq_f32 (float32x4_t __a)
18223 {
18224   return __builtin_aarch64_reduc_smin_nan_scal_v4sf (__a);
18225 }
18226
18227 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
18228 vminvq_f64 (float64x2_t __a)
18229 {
18230   return __builtin_aarch64_reduc_smin_nan_scal_v2df (__a);
18231 }
18232
18233 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
18234 vminvq_s8 (int8x16_t __a)
18235 {
18236   return __builtin_aarch64_reduc_smin_scal_v16qi (__a);
18237 }
18238
18239 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
18240 vminvq_s16 (int16x8_t __a)
18241 {
18242   return __builtin_aarch64_reduc_smin_scal_v8hi (__a);
18243 }
18244
18245 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
18246 vminvq_s32 (int32x4_t __a)
18247 {
18248   return __builtin_aarch64_reduc_smin_scal_v4si (__a);
18249 }
18250
18251 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
18252 vminvq_u8 (uint8x16_t __a)
18253 {
18254   return __builtin_aarch64_reduc_umin_scal_v16qi_uu (__a);
18255 }
18256
18257 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
18258 vminvq_u16 (uint16x8_t __a)
18259 {
18260   return __builtin_aarch64_reduc_umin_scal_v8hi_uu (__a);
18261 }
18262
18263 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
18264 vminvq_u32 (uint32x4_t __a)
18265 {
18266   return __builtin_aarch64_reduc_umin_scal_v4si_uu (__a);
18267 }
18268
18269 /* vminnmv  */
18270
18271 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
18272 vminnmv_f32 (float32x2_t __a)
18273 {
18274   return __builtin_aarch64_reduc_smin_scal_v2sf (__a);
18275 }
18276
18277 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
18278 vminnmvq_f32 (float32x4_t __a)
18279 {
18280   return __builtin_aarch64_reduc_smin_scal_v4sf (__a);
18281 }
18282
18283 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
18284 vminnmvq_f64 (float64x2_t __a)
18285 {
18286   return __builtin_aarch64_reduc_smin_scal_v2df (__a);
18287 }
18288
18289 /* vmla */
18290
18291 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18292 vmla_f32 (float32x2_t a, float32x2_t b, float32x2_t c)
18293 {
18294   return a + b * c;
18295 }
18296
18297 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
18298 vmla_f64 (float64x1_t __a, float64x1_t __b, float64x1_t __c)
18299 {
18300   return __a + __b * __c;
18301 }
18302
18303 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18304 vmlaq_f32 (float32x4_t a, float32x4_t b, float32x4_t c)
18305 {
18306   return a + b * c;
18307 }
18308
18309 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
18310 vmlaq_f64 (float64x2_t a, float64x2_t b, float64x2_t c)
18311 {
18312   return a + b * c;
18313 }
18314
18315 /* vmla_lane  */
18316
18317 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18318 vmla_lane_f32 (float32x2_t __a, float32x2_t __b,
18319                float32x2_t __c, const int __lane)
18320 {
18321   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18322 }
18323
18324 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
18325 vmla_lane_s16 (int16x4_t __a, int16x4_t __b,
18326                 int16x4_t __c, const int __lane)
18327 {
18328   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18329 }
18330
18331 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
18332 vmla_lane_s32 (int32x2_t __a, int32x2_t __b,
18333                 int32x2_t __c, const int __lane)
18334 {
18335   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18336 }
18337
18338 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
18339 vmla_lane_u16 (uint16x4_t __a, uint16x4_t __b,
18340                 uint16x4_t __c, const int __lane)
18341 {
18342   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18343 }
18344
18345 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18346 vmla_lane_u32 (uint32x2_t __a, uint32x2_t __b,
18347                uint32x2_t __c, const int __lane)
18348 {
18349   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18350 }
18351
18352 /* vmla_laneq  */
18353
18354 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18355 vmla_laneq_f32 (float32x2_t __a, float32x2_t __b,
18356                 float32x4_t __c, const int __lane)
18357 {
18358   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18359 }
18360
18361 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
18362 vmla_laneq_s16 (int16x4_t __a, int16x4_t __b,
18363                 int16x8_t __c, const int __lane)
18364 {
18365   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18366 }
18367
18368 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
18369 vmla_laneq_s32 (int32x2_t __a, int32x2_t __b,
18370                 int32x4_t __c, const int __lane)
18371 {
18372   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18373 }
18374
18375 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
18376 vmla_laneq_u16 (uint16x4_t __a, uint16x4_t __b,
18377                 uint16x8_t __c, const int __lane)
18378 {
18379   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18380 }
18381
18382 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18383 vmla_laneq_u32 (uint32x2_t __a, uint32x2_t __b,
18384                 uint32x4_t __c, const int __lane)
18385 {
18386   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18387 }
18388
18389 /* vmlaq_lane  */
18390
18391 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18392 vmlaq_lane_f32 (float32x4_t __a, float32x4_t __b,
18393                 float32x2_t __c, const int __lane)
18394 {
18395   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18396 }
18397
18398 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
18399 vmlaq_lane_s16 (int16x8_t __a, int16x8_t __b,
18400                 int16x4_t __c, const int __lane)
18401 {
18402   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18403 }
18404
18405 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
18406 vmlaq_lane_s32 (int32x4_t __a, int32x4_t __b,
18407                 int32x2_t __c, const int __lane)
18408 {
18409   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18410 }
18411
18412 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
18413 vmlaq_lane_u16 (uint16x8_t __a, uint16x8_t __b,
18414                 uint16x4_t __c, const int __lane)
18415 {
18416   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18417 }
18418
18419 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18420 vmlaq_lane_u32 (uint32x4_t __a, uint32x4_t __b,
18421                 uint32x2_t __c, const int __lane)
18422 {
18423   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18424 }
18425
18426   /* vmlaq_laneq  */
18427
18428 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18429 vmlaq_laneq_f32 (float32x4_t __a, float32x4_t __b,
18430                  float32x4_t __c, const int __lane)
18431 {
18432   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18433 }
18434
18435 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
18436 vmlaq_laneq_s16 (int16x8_t __a, int16x8_t __b,
18437                 int16x8_t __c, const int __lane)
18438 {
18439   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18440 }
18441
18442 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
18443 vmlaq_laneq_s32 (int32x4_t __a, int32x4_t __b,
18444                 int32x4_t __c, const int __lane)
18445 {
18446   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18447 }
18448
18449 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
18450 vmlaq_laneq_u16 (uint16x8_t __a, uint16x8_t __b,
18451                 uint16x8_t __c, const int __lane)
18452 {
18453   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18454 }
18455
18456 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18457 vmlaq_laneq_u32 (uint32x4_t __a, uint32x4_t __b,
18458                 uint32x4_t __c, const int __lane)
18459 {
18460   return (__a + (__b * __aarch64_vget_lane_any (__c, __lane)));
18461 }
18462
18463 /* vmls  */
18464
18465 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18466 vmls_f32 (float32x2_t a, float32x2_t b, float32x2_t c)
18467 {
18468   return a - b * c;
18469 }
18470
18471 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
18472 vmls_f64 (float64x1_t __a, float64x1_t __b, float64x1_t __c)
18473 {
18474   return __a - __b * __c;
18475 }
18476
18477 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18478 vmlsq_f32 (float32x4_t a, float32x4_t b, float32x4_t c)
18479 {
18480   return a - b * c;
18481 }
18482
18483 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
18484 vmlsq_f64 (float64x2_t a, float64x2_t b, float64x2_t c)
18485 {
18486   return a - b * c;
18487 }
18488
18489 /* vmls_lane  */
18490
18491 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18492 vmls_lane_f32 (float32x2_t __a, float32x2_t __b,
18493                float32x2_t __c, const int __lane)
18494 {
18495   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18496 }
18497
18498 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
18499 vmls_lane_s16 (int16x4_t __a, int16x4_t __b,
18500                 int16x4_t __c, const int __lane)
18501 {
18502   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18503 }
18504
18505 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
18506 vmls_lane_s32 (int32x2_t __a, int32x2_t __b,
18507                 int32x2_t __c, const int __lane)
18508 {
18509   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18510 }
18511
18512 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
18513 vmls_lane_u16 (uint16x4_t __a, uint16x4_t __b,
18514                 uint16x4_t __c, const int __lane)
18515 {
18516   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18517 }
18518
18519 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18520 vmls_lane_u32 (uint32x2_t __a, uint32x2_t __b,
18521                uint32x2_t __c, const int __lane)
18522 {
18523   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18524 }
18525
18526 /* vmls_laneq  */
18527
18528 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18529 vmls_laneq_f32 (float32x2_t __a, float32x2_t __b,
18530                float32x4_t __c, const int __lane)
18531 {
18532   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18533 }
18534
18535 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
18536 vmls_laneq_s16 (int16x4_t __a, int16x4_t __b,
18537                 int16x8_t __c, const int __lane)
18538 {
18539   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18540 }
18541
18542 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
18543 vmls_laneq_s32 (int32x2_t __a, int32x2_t __b,
18544                 int32x4_t __c, const int __lane)
18545 {
18546   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18547 }
18548
18549 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
18550 vmls_laneq_u16 (uint16x4_t __a, uint16x4_t __b,
18551                 uint16x8_t __c, const int __lane)
18552 {
18553   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18554 }
18555
18556 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18557 vmls_laneq_u32 (uint32x2_t __a, uint32x2_t __b,
18558                 uint32x4_t __c, const int __lane)
18559 {
18560   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18561 }
18562
18563 /* vmlsq_lane  */
18564
18565 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18566 vmlsq_lane_f32 (float32x4_t __a, float32x4_t __b,
18567                 float32x2_t __c, const int __lane)
18568 {
18569   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18570 }
18571
18572 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
18573 vmlsq_lane_s16 (int16x8_t __a, int16x8_t __b,
18574                 int16x4_t __c, const int __lane)
18575 {
18576   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18577 }
18578
18579 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
18580 vmlsq_lane_s32 (int32x4_t __a, int32x4_t __b,
18581                 int32x2_t __c, const int __lane)
18582 {
18583   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18584 }
18585
18586 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
18587 vmlsq_lane_u16 (uint16x8_t __a, uint16x8_t __b,
18588                 uint16x4_t __c, const int __lane)
18589 {
18590   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18591 }
18592
18593 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18594 vmlsq_lane_u32 (uint32x4_t __a, uint32x4_t __b,
18595                 uint32x2_t __c, const int __lane)
18596 {
18597   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18598 }
18599
18600   /* vmlsq_laneq  */
18601
18602 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18603 vmlsq_laneq_f32 (float32x4_t __a, float32x4_t __b,
18604                 float32x4_t __c, const int __lane)
18605 {
18606   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18607 }
18608
18609 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
18610 vmlsq_laneq_s16 (int16x8_t __a, int16x8_t __b,
18611                 int16x8_t __c, const int __lane)
18612 {
18613   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18614 }
18615
18616 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
18617 vmlsq_laneq_s32 (int32x4_t __a, int32x4_t __b,
18618                 int32x4_t __c, const int __lane)
18619 {
18620   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18621 }
18622 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
18623 vmlsq_laneq_u16 (uint16x8_t __a, uint16x8_t __b,
18624                 uint16x8_t __c, const int __lane)
18625 {
18626   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18627 }
18628
18629 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18630 vmlsq_laneq_u32 (uint32x4_t __a, uint32x4_t __b,
18631                 uint32x4_t __c, const int __lane)
18632 {
18633   return (__a - (__b * __aarch64_vget_lane_any (__c, __lane)));
18634 }
18635
18636 /* vmov_n_  */
18637
18638 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18639 vmov_n_f32 (float32_t __a)
18640 {
18641   return vdup_n_f32 (__a);
18642 }
18643
18644 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
18645 vmov_n_f64 (float64_t __a)
18646 {
18647   return (float64x1_t) {__a};
18648 }
18649
18650 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
18651 vmov_n_p8 (poly8_t __a)
18652 {
18653   return vdup_n_p8 (__a);
18654 }
18655
18656 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
18657 vmov_n_p16 (poly16_t __a)
18658 {
18659   return vdup_n_p16 (__a);
18660 }
18661
18662 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
18663 vmov_n_s8 (int8_t __a)
18664 {
18665   return vdup_n_s8 (__a);
18666 }
18667
18668 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
18669 vmov_n_s16 (int16_t __a)
18670 {
18671   return vdup_n_s16 (__a);
18672 }
18673
18674 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
18675 vmov_n_s32 (int32_t __a)
18676 {
18677   return vdup_n_s32 (__a);
18678 }
18679
18680 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
18681 vmov_n_s64 (int64_t __a)
18682 {
18683   return (int64x1_t) {__a};
18684 }
18685
18686 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
18687 vmov_n_u8 (uint8_t __a)
18688 {
18689   return vdup_n_u8 (__a);
18690 }
18691
18692 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
18693 vmov_n_u16 (uint16_t __a)
18694 {
18695     return vdup_n_u16 (__a);
18696 }
18697
18698 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18699 vmov_n_u32 (uint32_t __a)
18700 {
18701    return vdup_n_u32 (__a);
18702 }
18703
18704 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
18705 vmov_n_u64 (uint64_t __a)
18706 {
18707   return (uint64x1_t) {__a};
18708 }
18709
18710 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18711 vmovq_n_f32 (float32_t __a)
18712 {
18713   return vdupq_n_f32 (__a);
18714 }
18715
18716 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
18717 vmovq_n_f64 (float64_t __a)
18718 {
18719   return vdupq_n_f64 (__a);
18720 }
18721
18722 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
18723 vmovq_n_p8 (poly8_t __a)
18724 {
18725   return vdupq_n_p8 (__a);
18726 }
18727
18728 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
18729 vmovq_n_p16 (poly16_t __a)
18730 {
18731   return vdupq_n_p16 (__a);
18732 }
18733
18734 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
18735 vmovq_n_s8 (int8_t __a)
18736 {
18737   return vdupq_n_s8 (__a);
18738 }
18739
18740 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
18741 vmovq_n_s16 (int16_t __a)
18742 {
18743   return vdupq_n_s16 (__a);
18744 }
18745
18746 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
18747 vmovq_n_s32 (int32_t __a)
18748 {
18749   return vdupq_n_s32 (__a);
18750 }
18751
18752 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
18753 vmovq_n_s64 (int64_t __a)
18754 {
18755   return vdupq_n_s64 (__a);
18756 }
18757
18758 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
18759 vmovq_n_u8 (uint8_t __a)
18760 {
18761   return vdupq_n_u8 (__a);
18762 }
18763
18764 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
18765 vmovq_n_u16 (uint16_t __a)
18766 {
18767   return vdupq_n_u16 (__a);
18768 }
18769
18770 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18771 vmovq_n_u32 (uint32_t __a)
18772 {
18773   return vdupq_n_u32 (__a);
18774 }
18775
18776 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
18777 vmovq_n_u64 (uint64_t __a)
18778 {
18779   return vdupq_n_u64 (__a);
18780 }
18781
18782 /* vmul_lane  */
18783
18784 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18785 vmul_lane_f32 (float32x2_t __a, float32x2_t __b, const int __lane)
18786 {
18787   return __a * __aarch64_vget_lane_any (__b, __lane);
18788 }
18789
18790 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
18791 vmul_lane_f64 (float64x1_t __a, float64x1_t __b, const int __lane)
18792 {
18793   return __a * __b;
18794 }
18795
18796 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
18797 vmul_lane_s16 (int16x4_t __a, int16x4_t __b, const int __lane)
18798 {
18799   return __a * __aarch64_vget_lane_any (__b, __lane);
18800 }
18801
18802 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
18803 vmul_lane_s32 (int32x2_t __a, int32x2_t __b, const int __lane)
18804 {
18805   return __a * __aarch64_vget_lane_any (__b, __lane);
18806 }
18807
18808 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
18809 vmul_lane_u16 (uint16x4_t __a, uint16x4_t __b, const int __lane)
18810 {
18811   return __a * __aarch64_vget_lane_any (__b, __lane);
18812 }
18813
18814 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18815 vmul_lane_u32 (uint32x2_t __a, uint32x2_t __b, const int __lane)
18816 {
18817   return __a * __aarch64_vget_lane_any (__b, __lane);
18818 }
18819
18820 /* vmuld_lane  */
18821
18822 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
18823 vmuld_lane_f64 (float64_t __a, float64x1_t __b, const int __lane)
18824 {
18825   return __a * __aarch64_vget_lane_any (__b, __lane);
18826 }
18827
18828 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
18829 vmuld_laneq_f64 (float64_t __a, float64x2_t __b, const int __lane)
18830 {
18831   return __a * __aarch64_vget_lane_any (__b, __lane);
18832 }
18833
18834 /* vmuls_lane  */
18835
18836 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
18837 vmuls_lane_f32 (float32_t __a, float32x2_t __b, const int __lane)
18838 {
18839   return __a * __aarch64_vget_lane_any (__b, __lane);
18840 }
18841
18842 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
18843 vmuls_laneq_f32 (float32_t __a, float32x4_t __b, const int __lane)
18844 {
18845   return __a * __aarch64_vget_lane_any (__b, __lane);
18846 }
18847
18848 /* vmul_laneq  */
18849
18850 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18851 vmul_laneq_f32 (float32x2_t __a, float32x4_t __b, const int __lane)
18852 {
18853   return __a * __aarch64_vget_lane_any (__b, __lane);
18854 }
18855
18856 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
18857 vmul_laneq_f64 (float64x1_t __a, float64x2_t __b, const int __lane)
18858 {
18859   return __a * __aarch64_vget_lane_any (__b, __lane);
18860 }
18861
18862 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
18863 vmul_laneq_s16 (int16x4_t __a, int16x8_t __b, const int __lane)
18864 {
18865   return __a * __aarch64_vget_lane_any (__b, __lane);
18866 }
18867
18868 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
18869 vmul_laneq_s32 (int32x2_t __a, int32x4_t __b, const int __lane)
18870 {
18871   return __a * __aarch64_vget_lane_any (__b, __lane);
18872 }
18873
18874 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
18875 vmul_laneq_u16 (uint16x4_t __a, uint16x8_t __b, const int __lane)
18876 {
18877   return __a * __aarch64_vget_lane_any (__b, __lane);
18878 }
18879
18880 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18881 vmul_laneq_u32 (uint32x2_t __a, uint32x4_t __b, const int __lane)
18882 {
18883   return __a * __aarch64_vget_lane_any (__b, __lane);
18884 }
18885
18886 /* vmul_n  */
18887
18888 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
18889 vmul_n_f64  (float64x1_t __a, float64_t __b)
18890 {
18891   return (float64x1_t) { vget_lane_f64 (__a, 0) * __b };
18892 }
18893
18894 /* vmulq_lane  */
18895
18896 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18897 vmulq_lane_f32 (float32x4_t __a, float32x2_t __b, const int __lane)
18898 {
18899   return __a * __aarch64_vget_lane_any (__b, __lane);
18900 }
18901
18902 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
18903 vmulq_lane_f64 (float64x2_t __a, float64x1_t __b, const int __lane)
18904 {
18905   __AARCH64_LANE_CHECK (__a, __lane);
18906   return __a * __b[0];
18907 }
18908
18909 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
18910 vmulq_lane_s16 (int16x8_t __a, int16x4_t __b, const int __lane)
18911 {
18912   return __a * __aarch64_vget_lane_any (__b, __lane);
18913 }
18914
18915 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
18916 vmulq_lane_s32 (int32x4_t __a, int32x2_t __b, const int __lane)
18917 {
18918   return __a * __aarch64_vget_lane_any (__b, __lane);
18919 }
18920
18921 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
18922 vmulq_lane_u16 (uint16x8_t __a, uint16x4_t __b, const int __lane)
18923 {
18924   return __a * __aarch64_vget_lane_any (__b, __lane);
18925 }
18926
18927 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18928 vmulq_lane_u32 (uint32x4_t __a, uint32x2_t __b, const int __lane)
18929 {
18930   return __a * __aarch64_vget_lane_any (__b, __lane);
18931 }
18932
18933 /* vmulq_laneq  */
18934
18935 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18936 vmulq_laneq_f32 (float32x4_t __a, float32x4_t __b, const int __lane)
18937 {
18938   return __a * __aarch64_vget_lane_any (__b, __lane);
18939 }
18940
18941 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
18942 vmulq_laneq_f64 (float64x2_t __a, float64x2_t __b, const int __lane)
18943 {
18944   return __a * __aarch64_vget_lane_any (__b, __lane);
18945 }
18946
18947 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
18948 vmulq_laneq_s16 (int16x8_t __a, int16x8_t __b, const int __lane)
18949 {
18950   return __a * __aarch64_vget_lane_any (__b, __lane);
18951 }
18952
18953 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
18954 vmulq_laneq_s32 (int32x4_t __a, int32x4_t __b, const int __lane)
18955 {
18956   return __a * __aarch64_vget_lane_any (__b, __lane);
18957 }
18958
18959 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
18960 vmulq_laneq_u16 (uint16x8_t __a, uint16x8_t __b, const int __lane)
18961 {
18962   return __a * __aarch64_vget_lane_any (__b, __lane);
18963 }
18964
18965 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18966 vmulq_laneq_u32 (uint32x4_t __a, uint32x4_t __b, const int __lane)
18967 {
18968   return __a * __aarch64_vget_lane_any (__b, __lane);
18969 }
18970
18971 /* vneg  */
18972
18973 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18974 vneg_f32 (float32x2_t __a)
18975 {
18976   return -__a;
18977 }
18978
18979 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
18980 vneg_f64 (float64x1_t __a)
18981 {
18982   return -__a;
18983 }
18984
18985 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
18986 vneg_s8 (int8x8_t __a)
18987 {
18988   return -__a;
18989 }
18990
18991 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
18992 vneg_s16 (int16x4_t __a)
18993 {
18994   return -__a;
18995 }
18996
18997 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
18998 vneg_s32 (int32x2_t __a)
18999 {
19000   return -__a;
19001 }
19002
19003 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
19004 vneg_s64 (int64x1_t __a)
19005 {
19006   return -__a;
19007 }
19008
19009 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
19010 vnegq_f32 (float32x4_t __a)
19011 {
19012   return -__a;
19013 }
19014
19015 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
19016 vnegq_f64 (float64x2_t __a)
19017 {
19018   return -__a;
19019 }
19020
19021 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
19022 vnegq_s8 (int8x16_t __a)
19023 {
19024   return -__a;
19025 }
19026
19027 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
19028 vnegq_s16 (int16x8_t __a)
19029 {
19030   return -__a;
19031 }
19032
19033 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19034 vnegq_s32 (int32x4_t __a)
19035 {
19036   return -__a;
19037 }
19038
19039 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19040 vnegq_s64 (int64x2_t __a)
19041 {
19042   return -__a;
19043 }
19044
19045 /* vpadd  */
19046
19047 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
19048 vpadd_s8 (int8x8_t __a, int8x8_t __b)
19049 {
19050   return __builtin_aarch64_addpv8qi (__a, __b);
19051 }
19052
19053 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
19054 vpadd_s16 (int16x4_t __a, int16x4_t __b)
19055 {
19056   return __builtin_aarch64_addpv4hi (__a, __b);
19057 }
19058
19059 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
19060 vpadd_s32 (int32x2_t __a, int32x2_t __b)
19061 {
19062   return __builtin_aarch64_addpv2si (__a, __b);
19063 }
19064
19065 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
19066 vpadd_u8 (uint8x8_t __a, uint8x8_t __b)
19067 {
19068   return (uint8x8_t) __builtin_aarch64_addpv8qi ((int8x8_t) __a,
19069                                                  (int8x8_t) __b);
19070 }
19071
19072 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
19073 vpadd_u16 (uint16x4_t __a, uint16x4_t __b)
19074 {
19075   return (uint16x4_t) __builtin_aarch64_addpv4hi ((int16x4_t) __a,
19076                                                   (int16x4_t) __b);
19077 }
19078
19079 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
19080 vpadd_u32 (uint32x2_t __a, uint32x2_t __b)
19081 {
19082   return (uint32x2_t) __builtin_aarch64_addpv2si ((int32x2_t) __a,
19083                                                   (int32x2_t) __b);
19084 }
19085
19086 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
19087 vpaddd_f64 (float64x2_t __a)
19088 {
19089   return __builtin_aarch64_reduc_plus_scal_v2df (__a);
19090 }
19091
19092 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19093 vpaddd_s64 (int64x2_t __a)
19094 {
19095   return __builtin_aarch64_addpdi (__a);
19096 }
19097
19098 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
19099 vpaddd_u64 (uint64x2_t __a)
19100 {
19101   return __builtin_aarch64_addpdi ((int64x2_t) __a);
19102 }
19103
19104 /* vqabs */
19105
19106 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19107 vqabsq_s64 (int64x2_t __a)
19108 {
19109   return (int64x2_t) __builtin_aarch64_sqabsv2di (__a);
19110 }
19111
19112 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
19113 vqabsb_s8 (int8_t __a)
19114 {
19115   return (int8_t) __builtin_aarch64_sqabsqi (__a);
19116 }
19117
19118 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19119 vqabsh_s16 (int16_t __a)
19120 {
19121   return (int16_t) __builtin_aarch64_sqabshi (__a);
19122 }
19123
19124 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19125 vqabss_s32 (int32_t __a)
19126 {
19127   return (int32_t) __builtin_aarch64_sqabssi (__a);
19128 }
19129
19130 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19131 vqabsd_s64 (int64_t __a)
19132 {
19133   return __builtin_aarch64_sqabsdi (__a);
19134 }
19135
19136 /* vqadd */
19137
19138 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
19139 vqaddb_s8 (int8_t __a, int8_t __b)
19140 {
19141   return (int8_t) __builtin_aarch64_sqaddqi (__a, __b);
19142 }
19143
19144 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19145 vqaddh_s16 (int16_t __a, int16_t __b)
19146 {
19147   return (int16_t) __builtin_aarch64_sqaddhi (__a, __b);
19148 }
19149
19150 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19151 vqadds_s32 (int32_t __a, int32_t __b)
19152 {
19153   return (int32_t) __builtin_aarch64_sqaddsi (__a, __b);
19154 }
19155
19156 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19157 vqaddd_s64 (int64_t __a, int64_t __b)
19158 {
19159   return __builtin_aarch64_sqadddi (__a, __b);
19160 }
19161
19162 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
19163 vqaddb_u8 (uint8_t __a, uint8_t __b)
19164 {
19165   return (uint8_t) __builtin_aarch64_uqaddqi_uuu (__a, __b);
19166 }
19167
19168 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
19169 vqaddh_u16 (uint16_t __a, uint16_t __b)
19170 {
19171   return (uint16_t) __builtin_aarch64_uqaddhi_uuu (__a, __b);
19172 }
19173
19174 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
19175 vqadds_u32 (uint32_t __a, uint32_t __b)
19176 {
19177   return (uint32_t) __builtin_aarch64_uqaddsi_uuu (__a, __b);
19178 }
19179
19180 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
19181 vqaddd_u64 (uint64_t __a, uint64_t __b)
19182 {
19183   return __builtin_aarch64_uqadddi_uuu (__a, __b);
19184 }
19185
19186 /* vqdmlal */
19187
19188 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19189 vqdmlal_s16 (int32x4_t __a, int16x4_t __b, int16x4_t __c)
19190 {
19191   return __builtin_aarch64_sqdmlalv4hi (__a, __b, __c);
19192 }
19193
19194 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19195 vqdmlal_high_s16 (int32x4_t __a, int16x8_t __b, int16x8_t __c)
19196 {
19197   return __builtin_aarch64_sqdmlal2v8hi (__a, __b, __c);
19198 }
19199
19200 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19201 vqdmlal_high_lane_s16 (int32x4_t __a, int16x8_t __b, int16x4_t __c,
19202                        int const __d)
19203 {
19204   return __builtin_aarch64_sqdmlal2_lanev8hi (__a, __b, __c, __d);
19205 }
19206
19207 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19208 vqdmlal_high_laneq_s16 (int32x4_t __a, int16x8_t __b, int16x8_t __c,
19209                         int const __d)
19210 {
19211   return __builtin_aarch64_sqdmlal2_laneqv8hi (__a, __b, __c, __d);
19212 }
19213
19214 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19215 vqdmlal_high_n_s16 (int32x4_t __a, int16x8_t __b, int16_t __c)
19216 {
19217   return __builtin_aarch64_sqdmlal2_nv8hi (__a, __b, __c);
19218 }
19219
19220 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19221 vqdmlal_lane_s16 (int32x4_t __a, int16x4_t __b, int16x4_t __c, int const __d)
19222 {
19223   return __builtin_aarch64_sqdmlal_lanev4hi (__a, __b, __c, __d);
19224 }
19225
19226 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19227 vqdmlal_laneq_s16 (int32x4_t __a, int16x4_t __b, int16x8_t __c, int const __d)
19228 {
19229   return __builtin_aarch64_sqdmlal_laneqv4hi (__a, __b, __c, __d);
19230 }
19231
19232 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19233 vqdmlal_n_s16 (int32x4_t __a, int16x4_t __b, int16_t __c)
19234 {
19235   return __builtin_aarch64_sqdmlal_nv4hi (__a, __b, __c);
19236 }
19237
19238 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19239 vqdmlal_s32 (int64x2_t __a, int32x2_t __b, int32x2_t __c)
19240 {
19241   return __builtin_aarch64_sqdmlalv2si (__a, __b, __c);
19242 }
19243
19244 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19245 vqdmlal_high_s32 (int64x2_t __a, int32x4_t __b, int32x4_t __c)
19246 {
19247   return __builtin_aarch64_sqdmlal2v4si (__a, __b, __c);
19248 }
19249
19250 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19251 vqdmlal_high_lane_s32 (int64x2_t __a, int32x4_t __b, int32x2_t __c,
19252                        int const __d)
19253 {
19254   return __builtin_aarch64_sqdmlal2_lanev4si (__a, __b, __c, __d);
19255 }
19256
19257 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19258 vqdmlal_high_laneq_s32 (int64x2_t __a, int32x4_t __b, int32x4_t __c,
19259                         int const __d)
19260 {
19261   return __builtin_aarch64_sqdmlal2_laneqv4si (__a, __b, __c, __d);
19262 }
19263
19264 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19265 vqdmlal_high_n_s32 (int64x2_t __a, int32x4_t __b, int32_t __c)
19266 {
19267   return __builtin_aarch64_sqdmlal2_nv4si (__a, __b, __c);
19268 }
19269
19270 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19271 vqdmlal_lane_s32 (int64x2_t __a, int32x2_t __b, int32x2_t __c, int const __d)
19272 {
19273   return __builtin_aarch64_sqdmlal_lanev2si (__a, __b, __c, __d);
19274 }
19275
19276 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19277 vqdmlal_laneq_s32 (int64x2_t __a, int32x2_t __b, int32x4_t __c, int const __d)
19278 {
19279   return __builtin_aarch64_sqdmlal_laneqv2si (__a, __b, __c, __d);
19280 }
19281
19282 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19283 vqdmlal_n_s32 (int64x2_t __a, int32x2_t __b, int32_t __c)
19284 {
19285   return __builtin_aarch64_sqdmlal_nv2si (__a, __b, __c);
19286 }
19287
19288 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19289 vqdmlalh_s16 (int32_t __a, int16_t __b, int16_t __c)
19290 {
19291   return __builtin_aarch64_sqdmlalhi (__a, __b, __c);
19292 }
19293
19294 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19295 vqdmlalh_lane_s16 (int32_t __a, int16_t __b, int16x4_t __c, const int __d)
19296 {
19297   return __builtin_aarch64_sqdmlal_lanehi (__a, __b, __c, __d);
19298 }
19299
19300 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19301 vqdmlalh_laneq_s16 (int32_t __a, int16_t __b, int16x8_t __c, const int __d)
19302 {
19303   return __builtin_aarch64_sqdmlal_laneqhi (__a, __b, __c, __d);
19304 }
19305
19306 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19307 vqdmlals_s32 (int64_t __a, int32_t __b, int32_t __c)
19308 {
19309   return __builtin_aarch64_sqdmlalsi (__a, __b, __c);
19310 }
19311
19312 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19313 vqdmlals_lane_s32 (int64_t __a, int32_t __b, int32x2_t __c, const int __d)
19314 {
19315   return __builtin_aarch64_sqdmlal_lanesi (__a, __b, __c, __d);
19316 }
19317
19318 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19319 vqdmlals_laneq_s32 (int64_t __a, int32_t __b, int32x4_t __c, const int __d)
19320 {
19321   return __builtin_aarch64_sqdmlal_laneqsi (__a, __b, __c, __d);
19322 }
19323
19324 /* vqdmlsl */
19325
19326 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19327 vqdmlsl_s16 (int32x4_t __a, int16x4_t __b, int16x4_t __c)
19328 {
19329   return __builtin_aarch64_sqdmlslv4hi (__a, __b, __c);
19330 }
19331
19332 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19333 vqdmlsl_high_s16 (int32x4_t __a, int16x8_t __b, int16x8_t __c)
19334 {
19335   return __builtin_aarch64_sqdmlsl2v8hi (__a, __b, __c);
19336 }
19337
19338 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19339 vqdmlsl_high_lane_s16 (int32x4_t __a, int16x8_t __b, int16x4_t __c,
19340                        int const __d)
19341 {
19342   return __builtin_aarch64_sqdmlsl2_lanev8hi (__a, __b, __c, __d);
19343 }
19344
19345 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19346 vqdmlsl_high_laneq_s16 (int32x4_t __a, int16x8_t __b, int16x8_t __c,
19347                         int const __d)
19348 {
19349   return __builtin_aarch64_sqdmlsl2_laneqv8hi (__a, __b, __c, __d);
19350 }
19351
19352 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19353 vqdmlsl_high_n_s16 (int32x4_t __a, int16x8_t __b, int16_t __c)
19354 {
19355   return __builtin_aarch64_sqdmlsl2_nv8hi (__a, __b, __c);
19356 }
19357
19358 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19359 vqdmlsl_lane_s16 (int32x4_t __a, int16x4_t __b, int16x4_t __c, int const __d)
19360 {
19361   return __builtin_aarch64_sqdmlsl_lanev4hi (__a, __b, __c, __d);
19362 }
19363
19364 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19365 vqdmlsl_laneq_s16 (int32x4_t __a, int16x4_t __b, int16x8_t __c, int const __d)
19366 {
19367   return __builtin_aarch64_sqdmlsl_laneqv4hi (__a, __b, __c, __d);
19368 }
19369
19370 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19371 vqdmlsl_n_s16 (int32x4_t __a, int16x4_t __b, int16_t __c)
19372 {
19373   return __builtin_aarch64_sqdmlsl_nv4hi (__a, __b, __c);
19374 }
19375
19376 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19377 vqdmlsl_s32 (int64x2_t __a, int32x2_t __b, int32x2_t __c)
19378 {
19379   return __builtin_aarch64_sqdmlslv2si (__a, __b, __c);
19380 }
19381
19382 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19383 vqdmlsl_high_s32 (int64x2_t __a, int32x4_t __b, int32x4_t __c)
19384 {
19385   return __builtin_aarch64_sqdmlsl2v4si (__a, __b, __c);
19386 }
19387
19388 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19389 vqdmlsl_high_lane_s32 (int64x2_t __a, int32x4_t __b, int32x2_t __c,
19390                        int const __d)
19391 {
19392   return __builtin_aarch64_sqdmlsl2_lanev4si (__a, __b, __c, __d);
19393 }
19394
19395 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19396 vqdmlsl_high_laneq_s32 (int64x2_t __a, int32x4_t __b, int32x4_t __c,
19397                         int const __d)
19398 {
19399   return __builtin_aarch64_sqdmlsl2_laneqv4si (__a, __b, __c, __d);
19400 }
19401
19402 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19403 vqdmlsl_high_n_s32 (int64x2_t __a, int32x4_t __b, int32_t __c)
19404 {
19405   return __builtin_aarch64_sqdmlsl2_nv4si (__a, __b, __c);
19406 }
19407
19408 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19409 vqdmlsl_lane_s32 (int64x2_t __a, int32x2_t __b, int32x2_t __c, int const __d)
19410 {
19411   return __builtin_aarch64_sqdmlsl_lanev2si (__a, __b, __c, __d);
19412 }
19413
19414 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19415 vqdmlsl_laneq_s32 (int64x2_t __a, int32x2_t __b, int32x4_t __c, int const __d)
19416 {
19417   return __builtin_aarch64_sqdmlsl_laneqv2si (__a, __b, __c, __d);
19418 }
19419
19420 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19421 vqdmlsl_n_s32 (int64x2_t __a, int32x2_t __b, int32_t __c)
19422 {
19423   return __builtin_aarch64_sqdmlsl_nv2si (__a, __b, __c);
19424 }
19425
19426 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19427 vqdmlslh_s16 (int32_t __a, int16_t __b, int16_t __c)
19428 {
19429   return __builtin_aarch64_sqdmlslhi (__a, __b, __c);
19430 }
19431
19432 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19433 vqdmlslh_lane_s16 (int32_t __a, int16_t __b, int16x4_t __c, const int __d)
19434 {
19435   return __builtin_aarch64_sqdmlsl_lanehi (__a, __b, __c, __d);
19436 }
19437
19438 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19439 vqdmlslh_laneq_s16 (int32_t __a, int16_t __b, int16x8_t __c, const int __d)
19440 {
19441   return __builtin_aarch64_sqdmlsl_laneqhi (__a, __b, __c, __d);
19442 }
19443
19444 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19445 vqdmlsls_s32 (int64_t __a, int32_t __b, int32_t __c)
19446 {
19447   return __builtin_aarch64_sqdmlslsi (__a, __b, __c);
19448 }
19449
19450 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19451 vqdmlsls_lane_s32 (int64_t __a, int32_t __b, int32x2_t __c, const int __d)
19452 {
19453   return __builtin_aarch64_sqdmlsl_lanesi (__a, __b, __c, __d);
19454 }
19455
19456 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19457 vqdmlsls_laneq_s32 (int64_t __a, int32_t __b, int32x4_t __c, const int __d)
19458 {
19459   return __builtin_aarch64_sqdmlsl_laneqsi (__a, __b, __c, __d);
19460 }
19461
19462 /* vqdmulh */
19463
19464 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
19465 vqdmulh_lane_s16 (int16x4_t __a, int16x4_t __b, const int __c)
19466 {
19467   return __builtin_aarch64_sqdmulh_lanev4hi (__a, __b, __c);
19468 }
19469
19470 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
19471 vqdmulh_lane_s32 (int32x2_t __a, int32x2_t __b, const int __c)
19472 {
19473   return __builtin_aarch64_sqdmulh_lanev2si (__a, __b, __c);
19474 }
19475
19476 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
19477 vqdmulhq_lane_s16 (int16x8_t __a, int16x4_t __b, const int __c)
19478 {
19479   return __builtin_aarch64_sqdmulh_lanev8hi (__a, __b, __c);
19480 }
19481
19482 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19483 vqdmulhq_lane_s32 (int32x4_t __a, int32x2_t __b, const int __c)
19484 {
19485   return __builtin_aarch64_sqdmulh_lanev4si (__a, __b, __c);
19486 }
19487
19488 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19489 vqdmulhh_s16 (int16_t __a, int16_t __b)
19490 {
19491   return (int16_t) __builtin_aarch64_sqdmulhhi (__a, __b);
19492 }
19493
19494 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19495 vqdmulhh_lane_s16 (int16_t __a, int16x4_t __b, const int __c)
19496 {
19497   return __builtin_aarch64_sqdmulh_lanehi (__a, __b, __c);
19498 }
19499
19500 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19501 vqdmulhh_laneq_s16 (int16_t __a, int16x8_t __b, const int __c)
19502 {
19503   return __builtin_aarch64_sqdmulh_laneqhi (__a, __b, __c);
19504 }
19505
19506 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19507 vqdmulhs_s32 (int32_t __a, int32_t __b)
19508 {
19509   return (int32_t) __builtin_aarch64_sqdmulhsi (__a, __b);
19510 }
19511
19512 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19513 vqdmulhs_lane_s32 (int32_t __a, int32x2_t __b, const int __c)
19514 {
19515   return __builtin_aarch64_sqdmulh_lanesi (__a, __b, __c);
19516 }
19517
19518 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19519 vqdmulhs_laneq_s32 (int32_t __a, int32x4_t __b, const int __c)
19520 {
19521   return __builtin_aarch64_sqdmulh_laneqsi (__a, __b, __c);
19522 }
19523
19524 /* vqdmull */
19525
19526 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19527 vqdmull_s16 (int16x4_t __a, int16x4_t __b)
19528 {
19529   return __builtin_aarch64_sqdmullv4hi (__a, __b);
19530 }
19531
19532 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19533 vqdmull_high_s16 (int16x8_t __a, int16x8_t __b)
19534 {
19535   return __builtin_aarch64_sqdmull2v8hi (__a, __b);
19536 }
19537
19538 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19539 vqdmull_high_lane_s16 (int16x8_t __a, int16x4_t __b, int const __c)
19540 {
19541   return __builtin_aarch64_sqdmull2_lanev8hi (__a, __b,__c);
19542 }
19543
19544 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19545 vqdmull_high_laneq_s16 (int16x8_t __a, int16x8_t __b, int const __c)
19546 {
19547   return __builtin_aarch64_sqdmull2_laneqv8hi (__a, __b,__c);
19548 }
19549
19550 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19551 vqdmull_high_n_s16 (int16x8_t __a, int16_t __b)
19552 {
19553   return __builtin_aarch64_sqdmull2_nv8hi (__a, __b);
19554 }
19555
19556 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19557 vqdmull_lane_s16 (int16x4_t __a, int16x4_t __b, int const __c)
19558 {
19559   return __builtin_aarch64_sqdmull_lanev4hi (__a, __b, __c);
19560 }
19561
19562 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19563 vqdmull_laneq_s16 (int16x4_t __a, int16x8_t __b, int const __c)
19564 {
19565   return __builtin_aarch64_sqdmull_laneqv4hi (__a, __b, __c);
19566 }
19567
19568 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19569 vqdmull_n_s16 (int16x4_t __a, int16_t __b)
19570 {
19571   return __builtin_aarch64_sqdmull_nv4hi (__a, __b);
19572 }
19573
19574 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19575 vqdmull_s32 (int32x2_t __a, int32x2_t __b)
19576 {
19577   return __builtin_aarch64_sqdmullv2si (__a, __b);
19578 }
19579
19580 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19581 vqdmull_high_s32 (int32x4_t __a, int32x4_t __b)
19582 {
19583   return __builtin_aarch64_sqdmull2v4si (__a, __b);
19584 }
19585
19586 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19587 vqdmull_high_lane_s32 (int32x4_t __a, int32x2_t __b, int const __c)
19588 {
19589   return __builtin_aarch64_sqdmull2_lanev4si (__a, __b, __c);
19590 }
19591
19592 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19593 vqdmull_high_laneq_s32 (int32x4_t __a, int32x4_t __b, int const __c)
19594 {
19595   return __builtin_aarch64_sqdmull2_laneqv4si (__a, __b, __c);
19596 }
19597
19598 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19599 vqdmull_high_n_s32 (int32x4_t __a, int32_t __b)
19600 {
19601   return __builtin_aarch64_sqdmull2_nv4si (__a, __b);
19602 }
19603
19604 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19605 vqdmull_lane_s32 (int32x2_t __a, int32x2_t __b, int const __c)
19606 {
19607   return __builtin_aarch64_sqdmull_lanev2si (__a, __b, __c);
19608 }
19609
19610 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19611 vqdmull_laneq_s32 (int32x2_t __a, int32x4_t __b, int const __c)
19612 {
19613   return __builtin_aarch64_sqdmull_laneqv2si (__a, __b, __c);
19614 }
19615
19616 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19617 vqdmull_n_s32 (int32x2_t __a, int32_t __b)
19618 {
19619   return __builtin_aarch64_sqdmull_nv2si (__a, __b);
19620 }
19621
19622 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19623 vqdmullh_s16 (int16_t __a, int16_t __b)
19624 {
19625   return (int32_t) __builtin_aarch64_sqdmullhi (__a, __b);
19626 }
19627
19628 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19629 vqdmullh_lane_s16 (int16_t __a, int16x4_t __b, const int __c)
19630 {
19631   return __builtin_aarch64_sqdmull_lanehi (__a, __b, __c);
19632 }
19633
19634 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19635 vqdmullh_laneq_s16 (int16_t __a, int16x8_t __b, const int __c)
19636 {
19637   return __builtin_aarch64_sqdmull_laneqhi (__a, __b, __c);
19638 }
19639
19640 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19641 vqdmulls_s32 (int32_t __a, int32_t __b)
19642 {
19643   return __builtin_aarch64_sqdmullsi (__a, __b);
19644 }
19645
19646 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19647 vqdmulls_lane_s32 (int32_t __a, int32x2_t __b, const int __c)
19648 {
19649   return __builtin_aarch64_sqdmull_lanesi (__a, __b, __c);
19650 }
19651
19652 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19653 vqdmulls_laneq_s32 (int32_t __a, int32x4_t __b, const int __c)
19654 {
19655   return __builtin_aarch64_sqdmull_laneqsi (__a, __b, __c);
19656 }
19657
19658 /* vqmovn */
19659
19660 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
19661 vqmovn_s16 (int16x8_t __a)
19662 {
19663   return (int8x8_t) __builtin_aarch64_sqmovnv8hi (__a);
19664 }
19665
19666 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
19667 vqmovn_s32 (int32x4_t __a)
19668 {
19669   return (int16x4_t) __builtin_aarch64_sqmovnv4si (__a);
19670 }
19671
19672 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
19673 vqmovn_s64 (int64x2_t __a)
19674 {
19675   return (int32x2_t) __builtin_aarch64_sqmovnv2di (__a);
19676 }
19677
19678 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
19679 vqmovn_u16 (uint16x8_t __a)
19680 {
19681   return (uint8x8_t) __builtin_aarch64_uqmovnv8hi ((int16x8_t) __a);
19682 }
19683
19684 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
19685 vqmovn_u32 (uint32x4_t __a)
19686 {
19687   return (uint16x4_t) __builtin_aarch64_uqmovnv4si ((int32x4_t) __a);
19688 }
19689
19690 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
19691 vqmovn_u64 (uint64x2_t __a)
19692 {
19693   return (uint32x2_t) __builtin_aarch64_uqmovnv2di ((int64x2_t) __a);
19694 }
19695
19696 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
19697 vqmovnh_s16 (int16_t __a)
19698 {
19699   return (int8_t) __builtin_aarch64_sqmovnhi (__a);
19700 }
19701
19702 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19703 vqmovns_s32 (int32_t __a)
19704 {
19705   return (int16_t) __builtin_aarch64_sqmovnsi (__a);
19706 }
19707
19708 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19709 vqmovnd_s64 (int64_t __a)
19710 {
19711   return (int32_t) __builtin_aarch64_sqmovndi (__a);
19712 }
19713
19714 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
19715 vqmovnh_u16 (uint16_t __a)
19716 {
19717   return (uint8_t) __builtin_aarch64_uqmovnhi (__a);
19718 }
19719
19720 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
19721 vqmovns_u32 (uint32_t __a)
19722 {
19723   return (uint16_t) __builtin_aarch64_uqmovnsi (__a);
19724 }
19725
19726 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
19727 vqmovnd_u64 (uint64_t __a)
19728 {
19729   return (uint32_t) __builtin_aarch64_uqmovndi (__a);
19730 }
19731
19732 /* vqmovun */
19733
19734 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
19735 vqmovun_s16 (int16x8_t __a)
19736 {
19737   return (uint8x8_t) __builtin_aarch64_sqmovunv8hi (__a);
19738 }
19739
19740 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
19741 vqmovun_s32 (int32x4_t __a)
19742 {
19743   return (uint16x4_t) __builtin_aarch64_sqmovunv4si (__a);
19744 }
19745
19746 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
19747 vqmovun_s64 (int64x2_t __a)
19748 {
19749   return (uint32x2_t) __builtin_aarch64_sqmovunv2di (__a);
19750 }
19751
19752 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
19753 vqmovunh_s16 (int16_t __a)
19754 {
19755   return (int8_t) __builtin_aarch64_sqmovunhi (__a);
19756 }
19757
19758 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19759 vqmovuns_s32 (int32_t __a)
19760 {
19761   return (int16_t) __builtin_aarch64_sqmovunsi (__a);
19762 }
19763
19764 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19765 vqmovund_s64 (int64_t __a)
19766 {
19767   return (int32_t) __builtin_aarch64_sqmovundi (__a);
19768 }
19769
19770 /* vqneg */
19771
19772 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19773 vqnegq_s64 (int64x2_t __a)
19774 {
19775   return (int64x2_t) __builtin_aarch64_sqnegv2di (__a);
19776 }
19777
19778 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
19779 vqnegb_s8 (int8_t __a)
19780 {
19781   return (int8_t) __builtin_aarch64_sqnegqi (__a);
19782 }
19783
19784 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19785 vqnegh_s16 (int16_t __a)
19786 {
19787   return (int16_t) __builtin_aarch64_sqneghi (__a);
19788 }
19789
19790 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19791 vqnegs_s32 (int32_t __a)
19792 {
19793   return (int32_t) __builtin_aarch64_sqnegsi (__a);
19794 }
19795
19796 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19797 vqnegd_s64 (int64_t __a)
19798 {
19799   return __builtin_aarch64_sqnegdi (__a);
19800 }
19801
19802 /* vqrdmulh */
19803
19804 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
19805 vqrdmulh_lane_s16 (int16x4_t __a, int16x4_t __b, const int __c)
19806 {
19807   return  __builtin_aarch64_sqrdmulh_lanev4hi (__a, __b, __c);
19808 }
19809
19810 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
19811 vqrdmulh_lane_s32 (int32x2_t __a, int32x2_t __b, const int __c)
19812 {
19813   return __builtin_aarch64_sqrdmulh_lanev2si (__a, __b, __c);
19814 }
19815
19816 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
19817 vqrdmulhq_lane_s16 (int16x8_t __a, int16x4_t __b, const int __c)
19818 {
19819   return __builtin_aarch64_sqrdmulh_lanev8hi (__a, __b, __c);
19820 }
19821
19822 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19823 vqrdmulhq_lane_s32 (int32x4_t __a, int32x2_t __b, const int __c)
19824 {
19825   return __builtin_aarch64_sqrdmulh_lanev4si (__a, __b, __c);
19826 }
19827
19828 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19829 vqrdmulhh_s16 (int16_t __a, int16_t __b)
19830 {
19831   return (int16_t) __builtin_aarch64_sqrdmulhhi (__a, __b);
19832 }
19833
19834 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19835 vqrdmulhh_lane_s16 (int16_t __a, int16x4_t __b, const int __c)
19836 {
19837   return __builtin_aarch64_sqrdmulh_lanehi (__a, __b, __c);
19838 }
19839
19840 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19841 vqrdmulhh_laneq_s16 (int16_t __a, int16x8_t __b, const int __c)
19842 {
19843   return __builtin_aarch64_sqrdmulh_laneqhi (__a, __b, __c);
19844 }
19845
19846 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19847 vqrdmulhs_s32 (int32_t __a, int32_t __b)
19848 {
19849   return (int32_t) __builtin_aarch64_sqrdmulhsi (__a, __b);
19850 }
19851
19852 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19853 vqrdmulhs_lane_s32 (int32_t __a, int32x2_t __b, const int __c)
19854 {
19855   return __builtin_aarch64_sqrdmulh_lanesi (__a, __b, __c);
19856 }
19857
19858 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19859 vqrdmulhs_laneq_s32 (int32_t __a, int32x4_t __b, const int __c)
19860 {
19861   return __builtin_aarch64_sqrdmulh_laneqsi (__a, __b, __c);
19862 }
19863
19864 /* vqrshl */
19865
19866 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
19867 vqrshl_s8 (int8x8_t __a, int8x8_t __b)
19868 {
19869   return __builtin_aarch64_sqrshlv8qi (__a, __b);
19870 }
19871
19872 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
19873 vqrshl_s16 (int16x4_t __a, int16x4_t __b)
19874 {
19875   return __builtin_aarch64_sqrshlv4hi (__a, __b);
19876 }
19877
19878 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
19879 vqrshl_s32 (int32x2_t __a, int32x2_t __b)
19880 {
19881   return __builtin_aarch64_sqrshlv2si (__a, __b);
19882 }
19883
19884 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
19885 vqrshl_s64 (int64x1_t __a, int64x1_t __b)
19886 {
19887   return (int64x1_t) {__builtin_aarch64_sqrshldi (__a[0], __b[0])};
19888 }
19889
19890 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
19891 vqrshl_u8 (uint8x8_t __a, int8x8_t __b)
19892 {
19893   return __builtin_aarch64_uqrshlv8qi_uus ( __a, __b);
19894 }
19895
19896 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
19897 vqrshl_u16 (uint16x4_t __a, int16x4_t __b)
19898 {
19899   return __builtin_aarch64_uqrshlv4hi_uus ( __a, __b);
19900 }
19901
19902 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
19903 vqrshl_u32 (uint32x2_t __a, int32x2_t __b)
19904 {
19905   return __builtin_aarch64_uqrshlv2si_uus ( __a, __b);
19906 }
19907
19908 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
19909 vqrshl_u64 (uint64x1_t __a, int64x1_t __b)
19910 {
19911   return (uint64x1_t) {__builtin_aarch64_uqrshldi_uus (__a[0], __b[0])};
19912 }
19913
19914 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
19915 vqrshlq_s8 (int8x16_t __a, int8x16_t __b)
19916 {
19917   return __builtin_aarch64_sqrshlv16qi (__a, __b);
19918 }
19919
19920 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
19921 vqrshlq_s16 (int16x8_t __a, int16x8_t __b)
19922 {
19923   return __builtin_aarch64_sqrshlv8hi (__a, __b);
19924 }
19925
19926 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19927 vqrshlq_s32 (int32x4_t __a, int32x4_t __b)
19928 {
19929   return __builtin_aarch64_sqrshlv4si (__a, __b);
19930 }
19931
19932 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19933 vqrshlq_s64 (int64x2_t __a, int64x2_t __b)
19934 {
19935   return __builtin_aarch64_sqrshlv2di (__a, __b);
19936 }
19937
19938 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
19939 vqrshlq_u8 (uint8x16_t __a, int8x16_t __b)
19940 {
19941   return __builtin_aarch64_uqrshlv16qi_uus ( __a, __b);
19942 }
19943
19944 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
19945 vqrshlq_u16 (uint16x8_t __a, int16x8_t __b)
19946 {
19947   return __builtin_aarch64_uqrshlv8hi_uus ( __a, __b);
19948 }
19949
19950 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
19951 vqrshlq_u32 (uint32x4_t __a, int32x4_t __b)
19952 {
19953   return __builtin_aarch64_uqrshlv4si_uus ( __a, __b);
19954 }
19955
19956 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
19957 vqrshlq_u64 (uint64x2_t __a, int64x2_t __b)
19958 {
19959   return __builtin_aarch64_uqrshlv2di_uus ( __a, __b);
19960 }
19961
19962 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
19963 vqrshlb_s8 (int8_t __a, int8_t __b)
19964 {
19965   return __builtin_aarch64_sqrshlqi (__a, __b);
19966 }
19967
19968 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19969 vqrshlh_s16 (int16_t __a, int16_t __b)
19970 {
19971   return __builtin_aarch64_sqrshlhi (__a, __b);
19972 }
19973
19974 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19975 vqrshls_s32 (int32_t __a, int32_t __b)
19976 {
19977   return __builtin_aarch64_sqrshlsi (__a, __b);
19978 }
19979
19980 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19981 vqrshld_s64 (int64_t __a, int64_t __b)
19982 {
19983   return __builtin_aarch64_sqrshldi (__a, __b);
19984 }
19985
19986 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
19987 vqrshlb_u8 (uint8_t __a, uint8_t __b)
19988 {
19989   return __builtin_aarch64_uqrshlqi_uus (__a, __b);
19990 }
19991
19992 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
19993 vqrshlh_u16 (uint16_t __a, uint16_t __b)
19994 {
19995   return __builtin_aarch64_uqrshlhi_uus (__a, __b);
19996 }
19997
19998 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
19999 vqrshls_u32 (uint32_t __a, uint32_t __b)
20000 {
20001   return __builtin_aarch64_uqrshlsi_uus (__a, __b);
20002 }
20003
20004 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
20005 vqrshld_u64 (uint64_t __a, uint64_t __b)
20006 {
20007   return __builtin_aarch64_uqrshldi_uus (__a, __b);
20008 }
20009
20010 /* vqrshrn */
20011
20012 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
20013 vqrshrn_n_s16 (int16x8_t __a, const int __b)
20014 {
20015   return (int8x8_t) __builtin_aarch64_sqrshrn_nv8hi (__a, __b);
20016 }
20017
20018 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
20019 vqrshrn_n_s32 (int32x4_t __a, const int __b)
20020 {
20021   return (int16x4_t) __builtin_aarch64_sqrshrn_nv4si (__a, __b);
20022 }
20023
20024 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
20025 vqrshrn_n_s64 (int64x2_t __a, const int __b)
20026 {
20027   return (int32x2_t) __builtin_aarch64_sqrshrn_nv2di (__a, __b);
20028 }
20029
20030 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20031 vqrshrn_n_u16 (uint16x8_t __a, const int __b)
20032 {
20033   return __builtin_aarch64_uqrshrn_nv8hi_uus ( __a, __b);
20034 }
20035
20036 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
20037 vqrshrn_n_u32 (uint32x4_t __a, const int __b)
20038 {
20039   return __builtin_aarch64_uqrshrn_nv4si_uus ( __a, __b);
20040 }
20041
20042 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
20043 vqrshrn_n_u64 (uint64x2_t __a, const int __b)
20044 {
20045   return __builtin_aarch64_uqrshrn_nv2di_uus ( __a, __b);
20046 }
20047
20048 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
20049 vqrshrnh_n_s16 (int16_t __a, const int __b)
20050 {
20051   return (int8_t) __builtin_aarch64_sqrshrn_nhi (__a, __b);
20052 }
20053
20054 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
20055 vqrshrns_n_s32 (int32_t __a, const int __b)
20056 {
20057   return (int16_t) __builtin_aarch64_sqrshrn_nsi (__a, __b);
20058 }
20059
20060 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
20061 vqrshrnd_n_s64 (int64_t __a, const int __b)
20062 {
20063   return (int32_t) __builtin_aarch64_sqrshrn_ndi (__a, __b);
20064 }
20065
20066 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
20067 vqrshrnh_n_u16 (uint16_t __a, const int __b)
20068 {
20069   return __builtin_aarch64_uqrshrn_nhi_uus (__a, __b);
20070 }
20071
20072 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
20073 vqrshrns_n_u32 (uint32_t __a, const int __b)
20074 {
20075   return __builtin_aarch64_uqrshrn_nsi_uus (__a, __b);
20076 }
20077
20078 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
20079 vqrshrnd_n_u64 (uint64_t __a, const int __b)
20080 {
20081   return __builtin_aarch64_uqrshrn_ndi_uus (__a, __b);
20082 }
20083
20084 /* vqrshrun */
20085
20086 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20087 vqrshrun_n_s16 (int16x8_t __a, const int __b)
20088 {
20089   return (uint8x8_t) __builtin_aarch64_sqrshrun_nv8hi (__a, __b);
20090 }
20091
20092 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
20093 vqrshrun_n_s32 (int32x4_t __a, const int __b)
20094 {
20095   return (uint16x4_t) __builtin_aarch64_sqrshrun_nv4si (__a, __b);
20096 }
20097
20098 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
20099 vqrshrun_n_s64 (int64x2_t __a, const int __b)
20100 {
20101   return (uint32x2_t) __builtin_aarch64_sqrshrun_nv2di (__a, __b);
20102 }
20103
20104 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
20105 vqrshrunh_n_s16 (int16_t __a, const int __b)
20106 {
20107   return (int8_t) __builtin_aarch64_sqrshrun_nhi (__a, __b);
20108 }
20109
20110 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
20111 vqrshruns_n_s32 (int32_t __a, const int __b)
20112 {
20113   return (int16_t) __builtin_aarch64_sqrshrun_nsi (__a, __b);
20114 }
20115
20116 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
20117 vqrshrund_n_s64 (int64_t __a, const int __b)
20118 {
20119   return (int32_t) __builtin_aarch64_sqrshrun_ndi (__a, __b);
20120 }
20121
20122 /* vqshl */
20123
20124 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
20125 vqshl_s8 (int8x8_t __a, int8x8_t __b)
20126 {
20127   return __builtin_aarch64_sqshlv8qi (__a, __b);
20128 }
20129
20130 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
20131 vqshl_s16 (int16x4_t __a, int16x4_t __b)
20132 {
20133   return __builtin_aarch64_sqshlv4hi (__a, __b);
20134 }
20135
20136 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
20137 vqshl_s32 (int32x2_t __a, int32x2_t __b)
20138 {
20139   return __builtin_aarch64_sqshlv2si (__a, __b);
20140 }
20141
20142 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
20143 vqshl_s64 (int64x1_t __a, int64x1_t __b)
20144 {
20145   return (int64x1_t) {__builtin_aarch64_sqshldi (__a[0], __b[0])};
20146 }
20147
20148 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20149 vqshl_u8 (uint8x8_t __a, int8x8_t __b)
20150 {
20151   return __builtin_aarch64_uqshlv8qi_uus ( __a, __b);
20152 }
20153
20154 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
20155 vqshl_u16 (uint16x4_t __a, int16x4_t __b)
20156 {
20157   return __builtin_aarch64_uqshlv4hi_uus ( __a, __b);
20158 }
20159
20160 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
20161 vqshl_u32 (uint32x2_t __a, int32x2_t __b)
20162 {
20163   return __builtin_aarch64_uqshlv2si_uus ( __a, __b);
20164 }
20165
20166 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
20167 vqshl_u64 (uint64x1_t __a, int64x1_t __b)
20168 {
20169   return (uint64x1_t) {__builtin_aarch64_uqshldi_uus (__a[0], __b[0])};
20170 }
20171
20172 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
20173 vqshlq_s8 (int8x16_t __a, int8x16_t __b)
20174 {
20175   return __builtin_aarch64_sqshlv16qi (__a, __b);
20176 }
20177
20178 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
20179 vqshlq_s16 (int16x8_t __a, int16x8_t __b)
20180 {
20181   return __builtin_aarch64_sqshlv8hi (__a, __b);
20182 }
20183
20184 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
20185 vqshlq_s32 (int32x4_t __a, int32x4_t __b)
20186 {
20187   return __builtin_aarch64_sqshlv4si (__a, __b);
20188 }
20189
20190 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
20191 vqshlq_s64 (int64x2_t __a, int64x2_t __b)
20192 {
20193   return __builtin_aarch64_sqshlv2di (__a, __b);
20194 }
20195
20196 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
20197 vqshlq_u8 (uint8x16_t __a, int8x16_t __b)
20198 {
20199   return __builtin_aarch64_uqshlv16qi_uus ( __a, __b);
20200 }
20201
20202 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
20203 vqshlq_u16 (uint16x8_t __a, int16x8_t __b)
20204 {
20205   return __builtin_aarch64_uqshlv8hi_uus ( __a, __b);
20206 }
20207
20208 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
20209 vqshlq_u32 (uint32x4_t __a, int32x4_t __b)
20210 {
20211   return __builtin_aarch64_uqshlv4si_uus ( __a, __b);
20212 }
20213
20214 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
20215 vqshlq_u64 (uint64x2_t __a, int64x2_t __b)
20216 {
20217   return __builtin_aarch64_uqshlv2di_uus ( __a, __b);
20218 }
20219
20220 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
20221 vqshlb_s8 (int8_t __a, int8_t __b)
20222 {
20223   return __builtin_aarch64_sqshlqi (__a, __b);
20224 }
20225
20226 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
20227 vqshlh_s16 (int16_t __a, int16_t __b)
20228 {
20229   return __builtin_aarch64_sqshlhi (__a, __b);
20230 }
20231
20232 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
20233 vqshls_s32 (int32_t __a, int32_t __b)
20234 {
20235   return __builtin_aarch64_sqshlsi (__a, __b);
20236 }
20237
20238 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
20239 vqshld_s64 (int64_t __a, int64_t __b)
20240 {
20241   return __builtin_aarch64_sqshldi (__a, __b);
20242 }
20243
20244 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
20245 vqshlb_u8 (uint8_t __a, uint8_t __b)
20246 {
20247   return __builtin_aarch64_uqshlqi_uus (__a, __b);
20248 }
20249
20250 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
20251 vqshlh_u16 (uint16_t __a, uint16_t __b)
20252 {
20253   return __builtin_aarch64_uqshlhi_uus (__a, __b);
20254 }
20255
20256 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
20257 vqshls_u32 (uint32_t __a, uint32_t __b)
20258 {
20259   return __builtin_aarch64_uqshlsi_uus (__a, __b);
20260 }
20261
20262 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
20263 vqshld_u64 (uint64_t __a, uint64_t __b)
20264 {
20265   return __builtin_aarch64_uqshldi_uus (__a, __b);
20266 }
20267
20268 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
20269 vqshl_n_s8 (int8x8_t __a, const int __b)
20270 {
20271   return (int8x8_t) __builtin_aarch64_sqshl_nv8qi (__a, __b);
20272 }
20273
20274 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
20275 vqshl_n_s16 (int16x4_t __a, const int __b)
20276 {
20277   return (int16x4_t) __builtin_aarch64_sqshl_nv4hi (__a, __b);
20278 }
20279
20280 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
20281 vqshl_n_s32 (int32x2_t __a, const int __b)
20282 {
20283   return (int32x2_t) __builtin_aarch64_sqshl_nv2si (__a, __b);
20284 }
20285
20286 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
20287 vqshl_n_s64 (int64x1_t __a, const int __b)
20288 {
20289   return (int64x1_t) {__builtin_aarch64_sqshl_ndi (__a[0], __b)};
20290 }
20291
20292 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20293 vqshl_n_u8 (uint8x8_t __a, const int __b)
20294 {
20295   return __builtin_aarch64_uqshl_nv8qi_uus (__a, __b);
20296 }
20297
20298 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
20299 vqshl_n_u16 (uint16x4_t __a, const int __b)
20300 {
20301   return __builtin_aarch64_uqshl_nv4hi_uus (__a, __b);
20302 }
20303
20304 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
20305 vqshl_n_u32 (uint32x2_t __a, const int __b)
20306 {
20307   return __builtin_aarch64_uqshl_nv2si_uus (__a, __b);
20308 }
20309
20310 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
20311 vqshl_n_u64 (uint64x1_t __a, const int __b)
20312 {
20313   return (uint64x1_t) {__builtin_aarch64_uqshl_ndi_uus (__a[0], __b)};
20314 }
20315
20316 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
20317 vqshlq_n_s8 (int8x16_t __a, const int __b)
20318 {
20319   return (int8x16_t) __builtin_aarch64_sqshl_nv16qi (__a, __b);
20320 }
20321
20322 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
20323 vqshlq_n_s16 (int16x8_t __a, const int __b)
20324 {
20325   return (int16x8_t) __builtin_aarch64_sqshl_nv8hi (__a, __b);
20326 }
20327
20328 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
20329 vqshlq_n_s32 (int32x4_t __a, const int __b)
20330 {
20331   return (int32x4_t) __builtin_aarch64_sqshl_nv4si (__a, __b);
20332 }
20333
20334 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
20335 vqshlq_n_s64 (int64x2_t __a, const int __b)
20336 {
20337   return (int64x2_t) __builtin_aarch64_sqshl_nv2di (__a, __b);
20338 }
20339
20340 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
20341 vqshlq_n_u8 (uint8x16_t __a, const int __b)
20342 {
20343   return __builtin_aarch64_uqshl_nv16qi_uus (__a, __b);
20344 }
20345
20346 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
20347 vqshlq_n_u16 (uint16x8_t __a, const int __b)
20348 {
20349   return __builtin_aarch64_uqshl_nv8hi_uus (__a, __b);
20350 }
20351
20352 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
20353 vqshlq_n_u32 (uint32x4_t __a, const int __b)
20354 {
20355   return __builtin_aarch64_uqshl_nv4si_uus (__a, __b);
20356 }
20357
20358 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
20359 vqshlq_n_u64 (uint64x2_t __a, const int __b)
20360 {
20361   return __builtin_aarch64_uqshl_nv2di_uus (__a, __b);
20362 }
20363
20364 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
20365 vqshlb_n_s8 (int8_t __a, const int __b)
20366 {
20367   return (int8_t) __builtin_aarch64_sqshl_nqi (__a, __b);
20368 }
20369
20370 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
20371 vqshlh_n_s16 (int16_t __a, const int __b)
20372 {
20373   return (int16_t) __builtin_aarch64_sqshl_nhi (__a, __b);
20374 }
20375
20376 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
20377 vqshls_n_s32 (int32_t __a, const int __b)
20378 {
20379   return (int32_t) __builtin_aarch64_sqshl_nsi (__a, __b);
20380 }
20381
20382 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
20383 vqshld_n_s64 (int64_t __a, const int __b)
20384 {
20385   return __builtin_aarch64_sqshl_ndi (__a, __b);
20386 }
20387
20388 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
20389 vqshlb_n_u8 (uint8_t __a, const int __b)
20390 {
20391   return __builtin_aarch64_uqshl_nqi_uus (__a, __b);
20392 }
20393
20394 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
20395 vqshlh_n_u16 (uint16_t __a, const int __b)
20396 {
20397   return __builtin_aarch64_uqshl_nhi_uus (__a, __b);
20398 }
20399
20400 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
20401 vqshls_n_u32 (uint32_t __a, const int __b)
20402 {
20403   return __builtin_aarch64_uqshl_nsi_uus (__a, __b);
20404 }
20405
20406 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
20407 vqshld_n_u64 (uint64_t __a, const int __b)
20408 {
20409   return __builtin_aarch64_uqshl_ndi_uus (__a, __b);
20410 }
20411
20412 /* vqshlu */
20413
20414 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20415 vqshlu_n_s8 (int8x8_t __a, const int __b)
20416 {
20417   return __builtin_aarch64_sqshlu_nv8qi_uss (__a, __b);
20418 }
20419
20420 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
20421 vqshlu_n_s16 (int16x4_t __a, const int __b)
20422 {
20423   return __builtin_aarch64_sqshlu_nv4hi_uss (__a, __b);
20424 }
20425
20426 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
20427 vqshlu_n_s32 (int32x2_t __a, const int __b)
20428 {
20429   return __builtin_aarch64_sqshlu_nv2si_uss (__a, __b);
20430 }
20431
20432 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
20433 vqshlu_n_s64 (int64x1_t __a, const int __b)
20434 {
20435   return (uint64x1_t) {__builtin_aarch64_sqshlu_ndi_uss (__a[0], __b)};
20436 }
20437
20438 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
20439 vqshluq_n_s8 (int8x16_t __a, const int __b)
20440 {
20441   return __builtin_aarch64_sqshlu_nv16qi_uss (__a, __b);
20442 }
20443
20444 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
20445 vqshluq_n_s16 (int16x8_t __a, const int __b)
20446 {
20447   return __builtin_aarch64_sqshlu_nv8hi_uss (__a, __b);
20448 }
20449
20450 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
20451 vqshluq_n_s32 (int32x4_t __a, const int __b)
20452 {
20453   return __builtin_aarch64_sqshlu_nv4si_uss (__a, __b);
20454 }
20455
20456 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
20457 vqshluq_n_s64 (int64x2_t __a, const int __b)
20458 {
20459   return __builtin_aarch64_sqshlu_nv2di_uss (__a, __b);
20460 }
20461
20462 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
20463 vqshlub_n_s8 (int8_t __a, const int __b)
20464 {
20465   return (int8_t) __builtin_aarch64_sqshlu_nqi_uss (__a, __b);
20466 }
20467
20468 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
20469 vqshluh_n_s16 (int16_t __a, const int __b)
20470 {
20471   return (int16_t) __builtin_aarch64_sqshlu_nhi_uss (__a, __b);
20472 }
20473
20474 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
20475 vqshlus_n_s32 (int32_t __a, const int __b)
20476 {
20477   return (int32_t) __builtin_aarch64_sqshlu_nsi_uss (__a, __b);
20478 }
20479
20480 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
20481 vqshlud_n_s64 (int64_t __a, const int __b)
20482 {
20483   return __builtin_aarch64_sqshlu_ndi_uss (__a, __b);
20484 }
20485
20486 /* vqshrn */
20487
20488 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
20489 vqshrn_n_s16 (int16x8_t __a, const int __b)
20490 {
20491   return (int8x8_t) __builtin_aarch64_sqshrn_nv8hi (__a, __b);
20492 }
20493
20494 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
20495 vqshrn_n_s32 (int32x4_t __a, const int __b)
20496 {
20497   return (int16x4_t) __builtin_aarch64_sqshrn_nv4si (__a, __b);
20498 }
20499
20500 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
20501 vqshrn_n_s64 (int64x2_t __a, const int __b)
20502 {
20503   return (int32x2_t) __builtin_aarch64_sqshrn_nv2di (__a, __b);
20504 }
20505
20506 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20507 vqshrn_n_u16 (uint16x8_t __a, const int __b)
20508 {
20509   return __builtin_aarch64_uqshrn_nv8hi_uus ( __a, __b);
20510 }
20511
20512 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
20513 vqshrn_n_u32 (uint32x4_t __a, const int __b)
20514 {
20515   return __builtin_aarch64_uqshrn_nv4si_uus ( __a, __b);
20516 }
20517
20518 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
20519 vqshrn_n_u64 (uint64x2_t __a, const int __b)
20520 {
20521   return __builtin_aarch64_uqshrn_nv2di_uus ( __a, __b);
20522 }
20523
20524 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
20525 vqshrnh_n_s16 (int16_t __a, const int __b)
20526 {
20527   return (int8_t) __builtin_aarch64_sqshrn_nhi (__a, __b);
20528 }
20529
20530 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
20531 vqshrns_n_s32 (int32_t __a, const int __b)
20532 {
20533   return (int16_t) __builtin_aarch64_sqshrn_nsi (__a, __b);
20534 }
20535
20536 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
20537 vqshrnd_n_s64 (int64_t __a, const int __b)
20538 {
20539   return (int32_t) __builtin_aarch64_sqshrn_ndi (__a, __b);
20540 }
20541
20542 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
20543 vqshrnh_n_u16 (uint16_t __a, const int __b)
20544 {
20545   return __builtin_aarch64_uqshrn_nhi_uus (__a, __b);
20546 }
20547
20548 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
20549 vqshrns_n_u32 (uint32_t __a, const int __b)
20550 {
20551   return __builtin_aarch64_uqshrn_nsi_uus (__a, __b);
20552 }
20553
20554 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
20555 vqshrnd_n_u64 (uint64_t __a, const int __b)
20556 {
20557   return __builtin_aarch64_uqshrn_ndi_uus (__a, __b);
20558 }
20559
20560 /* vqshrun */
20561
20562 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20563 vqshrun_n_s16 (int16x8_t __a, const int __b)
20564 {
20565   return (uint8x8_t) __builtin_aarch64_sqshrun_nv8hi (__a, __b);
20566 }
20567
20568 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
20569 vqshrun_n_s32 (int32x4_t __a, const int __b)
20570 {
20571   return (uint16x4_t) __builtin_aarch64_sqshrun_nv4si (__a, __b);
20572 }
20573
20574 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
20575 vqshrun_n_s64 (int64x2_t __a, const int __b)
20576 {
20577   return (uint32x2_t) __builtin_aarch64_sqshrun_nv2di (__a, __b);
20578 }
20579
20580 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
20581 vqshrunh_n_s16 (int16_t __a, const int __b)
20582 {
20583   return (int8_t) __builtin_aarch64_sqshrun_nhi (__a, __b);
20584 }
20585
20586 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
20587 vqshruns_n_s32 (int32_t __a, const int __b)
20588 {
20589   return (int16_t) __builtin_aarch64_sqshrun_nsi (__a, __b);
20590 }
20591
20592 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
20593 vqshrund_n_s64 (int64_t __a, const int __b)
20594 {
20595   return (int32_t) __builtin_aarch64_sqshrun_ndi (__a, __b);
20596 }
20597
20598 /* vqsub */
20599
20600 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
20601 vqsubb_s8 (int8_t __a, int8_t __b)
20602 {
20603   return (int8_t) __builtin_aarch64_sqsubqi (__a, __b);
20604 }
20605
20606 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
20607 vqsubh_s16 (int16_t __a, int16_t __b)
20608 {
20609   return (int16_t) __builtin_aarch64_sqsubhi (__a, __b);
20610 }
20611
20612 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
20613 vqsubs_s32 (int32_t __a, int32_t __b)
20614 {
20615   return (int32_t) __builtin_aarch64_sqsubsi (__a, __b);
20616 }
20617
20618 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
20619 vqsubd_s64 (int64_t __a, int64_t __b)
20620 {
20621   return __builtin_aarch64_sqsubdi (__a, __b);
20622 }
20623
20624 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
20625 vqsubb_u8 (uint8_t __a, uint8_t __b)
20626 {
20627   return (uint8_t) __builtin_aarch64_uqsubqi_uuu (__a, __b);
20628 }
20629
20630 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
20631 vqsubh_u16 (uint16_t __a, uint16_t __b)
20632 {
20633   return (uint16_t) __builtin_aarch64_uqsubhi_uuu (__a, __b);
20634 }
20635
20636 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
20637 vqsubs_u32 (uint32_t __a, uint32_t __b)
20638 {
20639   return (uint32_t) __builtin_aarch64_uqsubsi_uuu (__a, __b);
20640 }
20641
20642 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
20643 vqsubd_u64 (uint64_t __a, uint64_t __b)
20644 {
20645   return __builtin_aarch64_uqsubdi_uuu (__a, __b);
20646 }
20647
20648 /* vrbit  */
20649
20650 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
20651 vrbit_p8 (poly8x8_t __a)
20652 {
20653   return (poly8x8_t) __builtin_aarch64_rbitv8qi ((int8x8_t) __a);
20654 }
20655
20656 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
20657 vrbit_s8 (int8x8_t __a)
20658 {
20659   return __builtin_aarch64_rbitv8qi (__a);
20660 }
20661
20662 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20663 vrbit_u8 (uint8x8_t __a)
20664 {
20665   return (uint8x8_t) __builtin_aarch64_rbitv8qi ((int8x8_t) __a);
20666 }
20667
20668 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
20669 vrbitq_p8 (poly8x16_t __a)
20670 {
20671   return (poly8x16_t) __builtin_aarch64_rbitv16qi ((int8x16_t)__a);
20672 }
20673
20674 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
20675 vrbitq_s8 (int8x16_t __a)
20676 {
20677   return __builtin_aarch64_rbitv16qi (__a);
20678 }
20679
20680 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
20681 vrbitq_u8 (uint8x16_t __a)
20682 {
20683   return (uint8x16_t) __builtin_aarch64_rbitv16qi ((int8x16_t) __a);
20684 }
20685
20686 /* vrecpe  */
20687
20688 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
20689 vrecpe_u32 (uint32x2_t __a)
20690 {
20691   return (uint32x2_t) __builtin_aarch64_urecpev2si ((int32x2_t) __a);
20692 }
20693
20694 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
20695 vrecpeq_u32 (uint32x4_t __a)
20696 {
20697   return (uint32x4_t) __builtin_aarch64_urecpev4si ((int32x4_t) __a);
20698 }
20699
20700 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
20701 vrecpes_f32 (float32_t __a)
20702 {
20703   return __builtin_aarch64_frecpesf (__a);
20704 }
20705
20706 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
20707 vrecped_f64 (float64_t __a)
20708 {
20709   return __builtin_aarch64_frecpedf (__a);
20710 }
20711
20712 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
20713 vrecpe_f32 (float32x2_t __a)
20714 {
20715   return __builtin_aarch64_frecpev2sf (__a);
20716 }
20717
20718 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
20719 vrecpeq_f32 (float32x4_t __a)
20720 {
20721   return __builtin_aarch64_frecpev4sf (__a);
20722 }
20723
20724 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
20725 vrecpeq_f64 (float64x2_t __a)
20726 {
20727   return __builtin_aarch64_frecpev2df (__a);
20728 }
20729
20730 /* vrecps  */
20731
20732 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
20733 vrecpss_f32 (float32_t __a, float32_t __b)
20734 {
20735   return __builtin_aarch64_frecpssf (__a, __b);
20736 }
20737
20738 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
20739 vrecpsd_f64 (float64_t __a, float64_t __b)
20740 {
20741   return __builtin_aarch64_frecpsdf (__a, __b);
20742 }
20743
20744 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
20745 vrecps_f32 (float32x2_t __a, float32x2_t __b)
20746 {
20747   return __builtin_aarch64_frecpsv2sf (__a, __b);
20748 }
20749
20750 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
20751 vrecpsq_f32 (float32x4_t __a, float32x4_t __b)
20752 {
20753   return __builtin_aarch64_frecpsv4sf (__a, __b);
20754 }
20755
20756 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
20757 vrecpsq_f64 (float64x2_t __a, float64x2_t __b)
20758 {
20759   return __builtin_aarch64_frecpsv2df (__a, __b);
20760 }
20761
20762 /* vrecpx  */
20763
20764 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
20765 vrecpxs_f32 (float32_t __a)
20766 {
20767   return __builtin_aarch64_frecpxsf (__a);
20768 }
20769
20770 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
20771 vrecpxd_f64 (float64_t __a)
20772 {
20773   return __builtin_aarch64_frecpxdf (__a);
20774 }
20775
20776
20777 /* vrev  */
20778
20779 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
20780 vrev16_p8 (poly8x8_t a)
20781 {
20782   return __builtin_shuffle (a, (uint8x8_t) { 1, 0, 3, 2, 5, 4, 7, 6 });
20783 }
20784
20785 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
20786 vrev16_s8 (int8x8_t a)
20787 {
20788   return __builtin_shuffle (a, (uint8x8_t) { 1, 0, 3, 2, 5, 4, 7, 6 });
20789 }
20790
20791 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20792 vrev16_u8 (uint8x8_t a)
20793 {
20794   return __builtin_shuffle (a, (uint8x8_t) { 1, 0, 3, 2, 5, 4, 7, 6 });
20795 }
20796
20797 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
20798 vrev16q_p8 (poly8x16_t a)
20799 {
20800   return __builtin_shuffle (a,
20801       (uint8x16_t) { 1, 0, 3, 2, 5, 4, 7, 6, 9, 8, 11, 10, 13, 12, 15, 14 });
20802 }
20803
20804 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
20805 vrev16q_s8 (int8x16_t a)
20806 {
20807   return __builtin_shuffle (a,
20808       (uint8x16_t) { 1, 0, 3, 2, 5, 4, 7, 6, 9, 8, 11, 10, 13, 12, 15, 14 });
20809 }
20810
20811 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
20812 vrev16q_u8 (uint8x16_t a)
20813 {
20814   return __builtin_shuffle (a,
20815       (uint8x16_t) { 1, 0, 3, 2, 5, 4, 7, 6, 9, 8, 11, 10, 13, 12, 15, 14 });
20816 }
20817
20818 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
20819 vrev32_p8 (poly8x8_t a)
20820 {
20821   return __builtin_shuffle (a, (uint8x8_t) { 3, 2, 1, 0, 7, 6, 5, 4 });
20822 }
20823
20824 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
20825 vrev32_p16 (poly16x4_t a)
20826 {
20827   return __builtin_shuffle (a, (uint16x4_t) { 1, 0, 3, 2 });
20828 }
20829
20830 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
20831 vrev32_s8 (int8x8_t a)
20832 {
20833   return __builtin_shuffle (a, (uint8x8_t) { 3, 2, 1, 0, 7, 6, 5, 4 });
20834 }
20835
20836 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
20837 vrev32_s16 (int16x4_t a)
20838 {
20839   return __builtin_shuffle (a, (uint16x4_t) { 1, 0, 3, 2 });
20840 }
20841
20842 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20843 vrev32_u8 (uint8x8_t a)
20844 {
20845   return __builtin_shuffle (a, (uint8x8_t) { 3, 2, 1, 0, 7, 6, 5, 4 });
20846 }
20847
20848 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
20849 vrev32_u16 (uint16x4_t a)
20850 {
20851   return __builtin_shuffle (a, (uint16x4_t) { 1, 0, 3, 2 });
20852 }
20853
20854 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
20855 vrev32q_p8 (poly8x16_t a)
20856 {
20857   return __builtin_shuffle (a,
20858       (uint8x16_t) { 3, 2, 1, 0, 7, 6, 5, 4, 11, 10, 9, 8, 15, 14, 13, 12 });
20859 }
20860
20861 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
20862 vrev32q_p16 (poly16x8_t a)
20863 {
20864   return __builtin_shuffle (a, (uint16x8_t) { 1, 0, 3, 2, 5, 4, 7, 6 });
20865 }
20866
20867 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
20868 vrev32q_s8 (int8x16_t a)
20869 {
20870   return __builtin_shuffle (a,
20871       (uint8x16_t) { 3, 2, 1, 0, 7, 6, 5, 4, 11, 10, 9, 8, 15, 14, 13, 12 });
20872 }
20873
20874 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
20875 vrev32q_s16 (int16x8_t a)
20876 {
20877   return __builtin_shuffle (a, (uint16x8_t) { 1, 0, 3, 2, 5, 4, 7, 6 });
20878 }
20879
20880 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
20881 vrev32q_u8 (uint8x16_t a)
20882 {
20883   return __builtin_shuffle (a,
20884       (uint8x16_t) { 3, 2, 1, 0, 7, 6, 5, 4, 11, 10, 9, 8, 15, 14, 13, 12 });
20885 }
20886
20887 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
20888 vrev32q_u16 (uint16x8_t a)
20889 {
20890   return __builtin_shuffle (a, (uint16x8_t) { 1, 0, 3, 2, 5, 4, 7, 6 });
20891 }
20892
20893 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
20894 vrev64_f32 (float32x2_t a)
20895 {
20896   return __builtin_shuffle (a, (uint32x2_t) { 1, 0 });
20897 }
20898
20899 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
20900 vrev64_p8 (poly8x8_t a)
20901 {
20902   return __builtin_shuffle (a, (uint8x8_t) { 7, 6, 5, 4, 3, 2, 1, 0 });
20903 }
20904
20905 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
20906 vrev64_p16 (poly16x4_t a)
20907 {
20908   return __builtin_shuffle (a, (uint16x4_t) { 3, 2, 1, 0 });
20909 }
20910
20911 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
20912 vrev64_s8 (int8x8_t a)
20913 {
20914   return __builtin_shuffle (a, (uint8x8_t) { 7, 6, 5, 4, 3, 2, 1, 0 });
20915 }
20916
20917 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
20918 vrev64_s16 (int16x4_t a)
20919 {
20920   return __builtin_shuffle (a, (uint16x4_t) { 3, 2, 1, 0 });
20921 }
20922
20923 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
20924 vrev64_s32 (int32x2_t a)
20925 {
20926   return __builtin_shuffle (a, (uint32x2_t) { 1, 0 });
20927 }
20928
20929 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20930 vrev64_u8 (uint8x8_t a)
20931 {
20932   return __builtin_shuffle (a, (uint8x8_t) { 7, 6, 5, 4, 3, 2, 1, 0 });
20933 }
20934
20935 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
20936 vrev64_u16 (uint16x4_t a)
20937 {
20938   return __builtin_shuffle (a, (uint16x4_t) { 3, 2, 1, 0 });
20939 }
20940
20941 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
20942 vrev64_u32 (uint32x2_t a)
20943 {
20944   return __builtin_shuffle (a, (uint32x2_t) { 1, 0 });
20945 }
20946
20947 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
20948 vrev64q_f32 (float32x4_t a)
20949 {
20950   return __builtin_shuffle (a, (uint32x4_t) { 1, 0, 3, 2 });
20951 }
20952
20953 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
20954 vrev64q_p8 (poly8x16_t a)
20955 {
20956   return __builtin_shuffle (a,
20957       (uint8x16_t) { 7, 6, 5, 4, 3, 2, 1, 0, 15, 14, 13, 12, 11, 10, 9, 8 });
20958 }
20959
20960 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
20961 vrev64q_p16 (poly16x8_t a)
20962 {
20963   return __builtin_shuffle (a, (uint16x8_t) { 3, 2, 1, 0, 7, 6, 5, 4 });
20964 }
20965
20966 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
20967 vrev64q_s8 (int8x16_t a)
20968 {
20969   return __builtin_shuffle (a,
20970       (uint8x16_t) { 7, 6, 5, 4, 3, 2, 1, 0, 15, 14, 13, 12, 11, 10, 9, 8 });
20971 }
20972
20973 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
20974 vrev64q_s16 (int16x8_t a)
20975 {
20976   return __builtin_shuffle (a, (uint16x8_t) { 3, 2, 1, 0, 7, 6, 5, 4 });
20977 }
20978
20979 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
20980 vrev64q_s32 (int32x4_t a)
20981 {
20982   return __builtin_shuffle (a, (uint32x4_t) { 1, 0, 3, 2 });
20983 }
20984
20985 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
20986 vrev64q_u8 (uint8x16_t a)
20987 {
20988   return __builtin_shuffle (a,
20989       (uint8x16_t) { 7, 6, 5, 4, 3, 2, 1, 0, 15, 14, 13, 12, 11, 10, 9, 8 });
20990 }
20991
20992 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
20993 vrev64q_u16 (uint16x8_t a)
20994 {
20995   return __builtin_shuffle (a, (uint16x8_t) { 3, 2, 1, 0, 7, 6, 5, 4 });
20996 }
20997
20998 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
20999 vrev64q_u32 (uint32x4_t a)
21000 {
21001   return __builtin_shuffle (a, (uint32x4_t) { 1, 0, 3, 2 });
21002 }
21003
21004 /* vrnd  */
21005
21006 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
21007 vrnd_f32 (float32x2_t __a)
21008 {
21009   return __builtin_aarch64_btruncv2sf (__a);
21010 }
21011
21012 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
21013 vrnd_f64 (float64x1_t __a)
21014 {
21015   return vset_lane_f64 (__builtin_trunc (vget_lane_f64 (__a, 0)), __a, 0);
21016 }
21017
21018 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
21019 vrndq_f32 (float32x4_t __a)
21020 {
21021   return __builtin_aarch64_btruncv4sf (__a);
21022 }
21023
21024 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
21025 vrndq_f64 (float64x2_t __a)
21026 {
21027   return __builtin_aarch64_btruncv2df (__a);
21028 }
21029
21030 /* vrnda  */
21031
21032 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
21033 vrnda_f32 (float32x2_t __a)
21034 {
21035   return __builtin_aarch64_roundv2sf (__a);
21036 }
21037
21038 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
21039 vrnda_f64 (float64x1_t __a)
21040 {
21041   return vset_lane_f64 (__builtin_round (vget_lane_f64 (__a, 0)), __a, 0);
21042 }
21043
21044 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
21045 vrndaq_f32 (float32x4_t __a)
21046 {
21047   return __builtin_aarch64_roundv4sf (__a);
21048 }
21049
21050 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
21051 vrndaq_f64 (float64x2_t __a)
21052 {
21053   return __builtin_aarch64_roundv2df (__a);
21054 }
21055
21056 /* vrndi  */
21057
21058 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
21059 vrndi_f32 (float32x2_t __a)
21060 {
21061   return __builtin_aarch64_nearbyintv2sf (__a);
21062 }
21063
21064 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
21065 vrndi_f64 (float64x1_t __a)
21066 {
21067   return vset_lane_f64 (__builtin_nearbyint (vget_lane_f64 (__a, 0)), __a, 0);
21068 }
21069
21070 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
21071 vrndiq_f32 (float32x4_t __a)
21072 {
21073   return __builtin_aarch64_nearbyintv4sf (__a);
21074 }
21075
21076 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
21077 vrndiq_f64 (float64x2_t __a)
21078 {
21079   return __builtin_aarch64_nearbyintv2df (__a);
21080 }
21081
21082 /* vrndm  */
21083
21084 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
21085 vrndm_f32 (float32x2_t __a)
21086 {
21087   return __builtin_aarch64_floorv2sf (__a);
21088 }
21089
21090 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
21091 vrndm_f64 (float64x1_t __a)
21092 {
21093   return vset_lane_f64 (__builtin_floor (vget_lane_f64 (__a, 0)), __a, 0);
21094 }
21095
21096 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
21097 vrndmq_f32 (float32x4_t __a)
21098 {
21099   return __builtin_aarch64_floorv4sf (__a);
21100 }
21101
21102 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
21103 vrndmq_f64 (float64x2_t __a)
21104 {
21105   return __builtin_aarch64_floorv2df (__a);
21106 }
21107
21108 /* vrndn  */
21109
21110 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
21111 vrndn_f32 (float32x2_t __a)
21112 {
21113   return __builtin_aarch64_frintnv2sf (__a);
21114 }
21115
21116 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
21117 vrndn_f64 (float64x1_t __a)
21118 {
21119   return (float64x1_t) {__builtin_aarch64_frintndf (__a[0])};
21120 }
21121
21122 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
21123 vrndnq_f32 (float32x4_t __a)
21124 {
21125   return __builtin_aarch64_frintnv4sf (__a);
21126 }
21127
21128 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
21129 vrndnq_f64 (float64x2_t __a)
21130 {
21131   return __builtin_aarch64_frintnv2df (__a);
21132 }
21133
21134 /* vrndp  */
21135
21136 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
21137 vrndp_f32 (float32x2_t __a)
21138 {
21139   return __builtin_aarch64_ceilv2sf (__a);
21140 }
21141
21142 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
21143 vrndp_f64 (float64x1_t __a)
21144 {
21145   return vset_lane_f64 (__builtin_ceil (vget_lane_f64 (__a, 0)), __a, 0);
21146 }
21147
21148 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
21149 vrndpq_f32 (float32x4_t __a)
21150 {
21151   return __builtin_aarch64_ceilv4sf (__a);
21152 }
21153
21154 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
21155 vrndpq_f64 (float64x2_t __a)
21156 {
21157   return __builtin_aarch64_ceilv2df (__a);
21158 }
21159
21160 /* vrndx  */
21161
21162 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
21163 vrndx_f32 (float32x2_t __a)
21164 {
21165   return __builtin_aarch64_rintv2sf (__a);
21166 }
21167
21168 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
21169 vrndx_f64 (float64x1_t __a)
21170 {
21171   return vset_lane_f64 (__builtin_rint (vget_lane_f64 (__a, 0)), __a, 0);
21172 }
21173
21174 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
21175 vrndxq_f32 (float32x4_t __a)
21176 {
21177   return __builtin_aarch64_rintv4sf (__a);
21178 }
21179
21180 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
21181 vrndxq_f64 (float64x2_t __a)
21182 {
21183   return __builtin_aarch64_rintv2df (__a);
21184 }
21185
21186 /* vrshl */
21187
21188 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
21189 vrshl_s8 (int8x8_t __a, int8x8_t __b)
21190 {
21191   return (int8x8_t) __builtin_aarch64_srshlv8qi (__a, __b);
21192 }
21193
21194 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
21195 vrshl_s16 (int16x4_t __a, int16x4_t __b)
21196 {
21197   return (int16x4_t) __builtin_aarch64_srshlv4hi (__a, __b);
21198 }
21199
21200 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
21201 vrshl_s32 (int32x2_t __a, int32x2_t __b)
21202 {
21203   return (int32x2_t) __builtin_aarch64_srshlv2si (__a, __b);
21204 }
21205
21206 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
21207 vrshl_s64 (int64x1_t __a, int64x1_t __b)
21208 {
21209   return (int64x1_t) {__builtin_aarch64_srshldi (__a[0], __b[0])};
21210 }
21211
21212 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
21213 vrshl_u8 (uint8x8_t __a, int8x8_t __b)
21214 {
21215   return __builtin_aarch64_urshlv8qi_uus (__a, __b);
21216 }
21217
21218 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
21219 vrshl_u16 (uint16x4_t __a, int16x4_t __b)
21220 {
21221   return __builtin_aarch64_urshlv4hi_uus (__a, __b);
21222 }
21223
21224 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
21225 vrshl_u32 (uint32x2_t __a, int32x2_t __b)
21226 {
21227   return __builtin_aarch64_urshlv2si_uus (__a, __b);
21228 }
21229
21230 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
21231 vrshl_u64 (uint64x1_t __a, int64x1_t __b)
21232 {
21233   return (uint64x1_t) {__builtin_aarch64_urshldi_uus (__a[0], __b[0])};
21234 }
21235
21236 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
21237 vrshlq_s8 (int8x16_t __a, int8x16_t __b)
21238 {
21239   return (int8x16_t) __builtin_aarch64_srshlv16qi (__a, __b);
21240 }
21241
21242 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
21243 vrshlq_s16 (int16x8_t __a, int16x8_t __b)
21244 {
21245   return (int16x8_t) __builtin_aarch64_srshlv8hi (__a, __b);
21246 }
21247
21248 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21249 vrshlq_s32 (int32x4_t __a, int32x4_t __b)
21250 {
21251   return (int32x4_t) __builtin_aarch64_srshlv4si (__a, __b);
21252 }
21253
21254 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21255 vrshlq_s64 (int64x2_t __a, int64x2_t __b)
21256 {
21257   return (int64x2_t) __builtin_aarch64_srshlv2di (__a, __b);
21258 }
21259
21260 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
21261 vrshlq_u8 (uint8x16_t __a, int8x16_t __b)
21262 {
21263   return __builtin_aarch64_urshlv16qi_uus (__a, __b);
21264 }
21265
21266 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
21267 vrshlq_u16 (uint16x8_t __a, int16x8_t __b)
21268 {
21269   return __builtin_aarch64_urshlv8hi_uus (__a, __b);
21270 }
21271
21272 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
21273 vrshlq_u32 (uint32x4_t __a, int32x4_t __b)
21274 {
21275   return __builtin_aarch64_urshlv4si_uus (__a, __b);
21276 }
21277
21278 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
21279 vrshlq_u64 (uint64x2_t __a, int64x2_t __b)
21280 {
21281   return __builtin_aarch64_urshlv2di_uus (__a, __b);
21282 }
21283
21284 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
21285 vrshld_s64 (int64_t __a, int64_t __b)
21286 {
21287   return __builtin_aarch64_srshldi (__a, __b);
21288 }
21289
21290 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
21291 vrshld_u64 (uint64_t __a, int64_t __b)
21292 {
21293   return __builtin_aarch64_urshldi_uus (__a, __b);
21294 }
21295
21296 /* vrshr */
21297
21298 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
21299 vrshr_n_s8 (int8x8_t __a, const int __b)
21300 {
21301   return (int8x8_t) __builtin_aarch64_srshr_nv8qi (__a, __b);
21302 }
21303
21304 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
21305 vrshr_n_s16 (int16x4_t __a, const int __b)
21306 {
21307   return (int16x4_t) __builtin_aarch64_srshr_nv4hi (__a, __b);
21308 }
21309
21310 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
21311 vrshr_n_s32 (int32x2_t __a, const int __b)
21312 {
21313   return (int32x2_t) __builtin_aarch64_srshr_nv2si (__a, __b);
21314 }
21315
21316 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
21317 vrshr_n_s64 (int64x1_t __a, const int __b)
21318 {
21319   return (int64x1_t) {__builtin_aarch64_srshr_ndi (__a[0], __b)};
21320 }
21321
21322 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
21323 vrshr_n_u8 (uint8x8_t __a, const int __b)
21324 {
21325   return __builtin_aarch64_urshr_nv8qi_uus (__a, __b);
21326 }
21327
21328 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
21329 vrshr_n_u16 (uint16x4_t __a, const int __b)
21330 {
21331   return __builtin_aarch64_urshr_nv4hi_uus (__a, __b);
21332 }
21333
21334 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
21335 vrshr_n_u32 (uint32x2_t __a, const int __b)
21336 {
21337   return __builtin_aarch64_urshr_nv2si_uus (__a, __b);
21338 }
21339
21340 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
21341 vrshr_n_u64 (uint64x1_t __a, const int __b)
21342 {
21343   return (uint64x1_t) {__builtin_aarch64_urshr_ndi_uus (__a[0], __b)};
21344 }
21345
21346 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
21347 vrshrq_n_s8 (int8x16_t __a, const int __b)
21348 {
21349   return (int8x16_t) __builtin_aarch64_srshr_nv16qi (__a, __b);
21350 }
21351
21352 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
21353 vrshrq_n_s16 (int16x8_t __a, const int __b)
21354 {
21355   return (int16x8_t) __builtin_aarch64_srshr_nv8hi (__a, __b);
21356 }
21357
21358 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21359 vrshrq_n_s32 (int32x4_t __a, const int __b)
21360 {
21361   return (int32x4_t) __builtin_aarch64_srshr_nv4si (__a, __b);
21362 }
21363
21364 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21365 vrshrq_n_s64 (int64x2_t __a, const int __b)
21366 {
21367   return (int64x2_t) __builtin_aarch64_srshr_nv2di (__a, __b);
21368 }
21369
21370 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
21371 vrshrq_n_u8 (uint8x16_t __a, const int __b)
21372 {
21373   return __builtin_aarch64_urshr_nv16qi_uus (__a, __b);
21374 }
21375
21376 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
21377 vrshrq_n_u16 (uint16x8_t __a, const int __b)
21378 {
21379   return __builtin_aarch64_urshr_nv8hi_uus (__a, __b);
21380 }
21381
21382 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
21383 vrshrq_n_u32 (uint32x4_t __a, const int __b)
21384 {
21385   return __builtin_aarch64_urshr_nv4si_uus (__a, __b);
21386 }
21387
21388 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
21389 vrshrq_n_u64 (uint64x2_t __a, const int __b)
21390 {
21391   return __builtin_aarch64_urshr_nv2di_uus (__a, __b);
21392 }
21393
21394 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
21395 vrshrd_n_s64 (int64_t __a, const int __b)
21396 {
21397   return __builtin_aarch64_srshr_ndi (__a, __b);
21398 }
21399
21400 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
21401 vrshrd_n_u64 (uint64_t __a, const int __b)
21402 {
21403   return __builtin_aarch64_urshr_ndi_uus (__a, __b);
21404 }
21405
21406 /* vrsra */
21407
21408 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
21409 vrsra_n_s8 (int8x8_t __a, int8x8_t __b, const int __c)
21410 {
21411   return (int8x8_t) __builtin_aarch64_srsra_nv8qi (__a, __b, __c);
21412 }
21413
21414 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
21415 vrsra_n_s16 (int16x4_t __a, int16x4_t __b, const int __c)
21416 {
21417   return (int16x4_t) __builtin_aarch64_srsra_nv4hi (__a, __b, __c);
21418 }
21419
21420 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
21421 vrsra_n_s32 (int32x2_t __a, int32x2_t __b, const int __c)
21422 {
21423   return (int32x2_t) __builtin_aarch64_srsra_nv2si (__a, __b, __c);
21424 }
21425
21426 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
21427 vrsra_n_s64 (int64x1_t __a, int64x1_t __b, const int __c)
21428 {
21429   return (int64x1_t) {__builtin_aarch64_srsra_ndi (__a[0], __b[0], __c)};
21430 }
21431
21432 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
21433 vrsra_n_u8 (uint8x8_t __a, uint8x8_t __b, const int __c)
21434 {
21435   return __builtin_aarch64_ursra_nv8qi_uuus (__a, __b, __c);
21436 }
21437
21438 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
21439 vrsra_n_u16 (uint16x4_t __a, uint16x4_t __b, const int __c)
21440 {
21441   return __builtin_aarch64_ursra_nv4hi_uuus (__a, __b, __c);
21442 }
21443
21444 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
21445 vrsra_n_u32 (uint32x2_t __a, uint32x2_t __b, const int __c)
21446 {
21447   return __builtin_aarch64_ursra_nv2si_uuus (__a, __b, __c);
21448 }
21449
21450 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
21451 vrsra_n_u64 (uint64x1_t __a, uint64x1_t __b, const int __c)
21452 {
21453   return (uint64x1_t) {__builtin_aarch64_ursra_ndi_uuus (__a[0], __b[0], __c)};
21454 }
21455
21456 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
21457 vrsraq_n_s8 (int8x16_t __a, int8x16_t __b, const int __c)
21458 {
21459   return (int8x16_t) __builtin_aarch64_srsra_nv16qi (__a, __b, __c);
21460 }
21461
21462 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
21463 vrsraq_n_s16 (int16x8_t __a, int16x8_t __b, const int __c)
21464 {
21465   return (int16x8_t) __builtin_aarch64_srsra_nv8hi (__a, __b, __c);
21466 }
21467
21468 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21469 vrsraq_n_s32 (int32x4_t __a, int32x4_t __b, const int __c)
21470 {
21471   return (int32x4_t) __builtin_aarch64_srsra_nv4si (__a, __b, __c);
21472 }
21473
21474 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21475 vrsraq_n_s64 (int64x2_t __a, int64x2_t __b, const int __c)
21476 {
21477   return (int64x2_t) __builtin_aarch64_srsra_nv2di (__a, __b, __c);
21478 }
21479
21480 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
21481 vrsraq_n_u8 (uint8x16_t __a, uint8x16_t __b, const int __c)
21482 {
21483   return __builtin_aarch64_ursra_nv16qi_uuus (__a, __b, __c);
21484 }
21485
21486 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
21487 vrsraq_n_u16 (uint16x8_t __a, uint16x8_t __b, const int __c)
21488 {
21489   return __builtin_aarch64_ursra_nv8hi_uuus (__a, __b, __c);
21490 }
21491
21492 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
21493 vrsraq_n_u32 (uint32x4_t __a, uint32x4_t __b, const int __c)
21494 {
21495   return __builtin_aarch64_ursra_nv4si_uuus (__a, __b, __c);
21496 }
21497
21498 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
21499 vrsraq_n_u64 (uint64x2_t __a, uint64x2_t __b, const int __c)
21500 {
21501   return __builtin_aarch64_ursra_nv2di_uuus (__a, __b, __c);
21502 }
21503
21504 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
21505 vrsrad_n_s64 (int64_t __a, int64_t __b, const int __c)
21506 {
21507   return __builtin_aarch64_srsra_ndi (__a, __b, __c);
21508 }
21509
21510 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
21511 vrsrad_n_u64 (uint64_t __a, uint64_t __b, const int __c)
21512 {
21513   return __builtin_aarch64_ursra_ndi_uuus (__a, __b, __c);
21514 }
21515
21516 #ifdef __ARM_FEATURE_CRYPTO
21517
21518 /* vsha1  */
21519
21520 static __inline uint32x4_t
21521 vsha1cq_u32 (uint32x4_t hash_abcd, uint32_t hash_e, uint32x4_t wk)
21522 {
21523   return __builtin_aarch64_crypto_sha1cv4si_uuuu (hash_abcd, hash_e, wk);
21524 }
21525 static __inline uint32x4_t
21526 vsha1mq_u32 (uint32x4_t hash_abcd, uint32_t hash_e, uint32x4_t wk)
21527 {
21528   return __builtin_aarch64_crypto_sha1mv4si_uuuu (hash_abcd, hash_e, wk);
21529 }
21530 static __inline uint32x4_t
21531 vsha1pq_u32 (uint32x4_t hash_abcd, uint32_t hash_e, uint32x4_t wk)
21532 {
21533   return __builtin_aarch64_crypto_sha1pv4si_uuuu (hash_abcd, hash_e, wk);
21534 }
21535
21536 static __inline uint32_t
21537 vsha1h_u32 (uint32_t hash_e)
21538 {
21539   return __builtin_aarch64_crypto_sha1hsi_uu (hash_e);
21540 }
21541
21542 static __inline uint32x4_t
21543 vsha1su0q_u32 (uint32x4_t w0_3, uint32x4_t w4_7, uint32x4_t w8_11)
21544 {
21545   return __builtin_aarch64_crypto_sha1su0v4si_uuuu (w0_3, w4_7, w8_11);
21546 }
21547
21548 static __inline uint32x4_t
21549 vsha1su1q_u32 (uint32x4_t tw0_3, uint32x4_t w12_15)
21550 {
21551   return __builtin_aarch64_crypto_sha1su1v4si_uuu (tw0_3, w12_15);
21552 }
21553
21554 static __inline uint32x4_t
21555 vsha256hq_u32 (uint32x4_t hash_abcd, uint32x4_t hash_efgh, uint32x4_t wk)
21556 {
21557   return __builtin_aarch64_crypto_sha256hv4si_uuuu (hash_abcd, hash_efgh, wk);
21558 }
21559
21560 static __inline uint32x4_t
21561 vsha256h2q_u32 (uint32x4_t hash_efgh, uint32x4_t hash_abcd, uint32x4_t wk)
21562 {
21563   return __builtin_aarch64_crypto_sha256h2v4si_uuuu (hash_efgh, hash_abcd, wk);
21564 }
21565
21566 static __inline uint32x4_t
21567 vsha256su0q_u32 (uint32x4_t w0_3, uint32x4_t w4_7)
21568 {
21569   return __builtin_aarch64_crypto_sha256su0v4si_uuu (w0_3, w4_7);
21570 }
21571
21572 static __inline uint32x4_t
21573 vsha256su1q_u32 (uint32x4_t tw0_3, uint32x4_t w8_11, uint32x4_t w12_15)
21574 {
21575   return __builtin_aarch64_crypto_sha256su1v4si_uuuu (tw0_3, w8_11, w12_15);
21576 }
21577
21578 static __inline poly128_t
21579 vmull_p64 (poly64_t a, poly64_t b)
21580 {
21581   return
21582     __builtin_aarch64_crypto_pmulldi_ppp (a, b);
21583 }
21584
21585 static __inline poly128_t
21586 vmull_high_p64 (poly64x2_t a, poly64x2_t b)
21587 {
21588   return __builtin_aarch64_crypto_pmullv2di_ppp (a, b);
21589 }
21590
21591 #endif
21592
21593 /* vshl */
21594
21595 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
21596 vshl_n_s8 (int8x8_t __a, const int __b)
21597 {
21598   return (int8x8_t) __builtin_aarch64_ashlv8qi (__a, __b);
21599 }
21600
21601 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
21602 vshl_n_s16 (int16x4_t __a, const int __b)
21603 {
21604   return (int16x4_t) __builtin_aarch64_ashlv4hi (__a, __b);
21605 }
21606
21607 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
21608 vshl_n_s32 (int32x2_t __a, const int __b)
21609 {
21610   return (int32x2_t) __builtin_aarch64_ashlv2si (__a, __b);
21611 }
21612
21613 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
21614 vshl_n_s64 (int64x1_t __a, const int __b)
21615 {
21616   return (int64x1_t) {__builtin_aarch64_ashldi (__a[0], __b)};
21617 }
21618
21619 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
21620 vshl_n_u8 (uint8x8_t __a, const int __b)
21621 {
21622   return (uint8x8_t) __builtin_aarch64_ashlv8qi ((int8x8_t) __a, __b);
21623 }
21624
21625 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
21626 vshl_n_u16 (uint16x4_t __a, const int __b)
21627 {
21628   return (uint16x4_t) __builtin_aarch64_ashlv4hi ((int16x4_t) __a, __b);
21629 }
21630
21631 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
21632 vshl_n_u32 (uint32x2_t __a, const int __b)
21633 {
21634   return (uint32x2_t) __builtin_aarch64_ashlv2si ((int32x2_t) __a, __b);
21635 }
21636
21637 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
21638 vshl_n_u64 (uint64x1_t __a, const int __b)
21639 {
21640   return (uint64x1_t) {__builtin_aarch64_ashldi ((int64_t) __a[0], __b)};
21641 }
21642
21643 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
21644 vshlq_n_s8 (int8x16_t __a, const int __b)
21645 {
21646   return (int8x16_t) __builtin_aarch64_ashlv16qi (__a, __b);
21647 }
21648
21649 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
21650 vshlq_n_s16 (int16x8_t __a, const int __b)
21651 {
21652   return (int16x8_t) __builtin_aarch64_ashlv8hi (__a, __b);
21653 }
21654
21655 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21656 vshlq_n_s32 (int32x4_t __a, const int __b)
21657 {
21658   return (int32x4_t) __builtin_aarch64_ashlv4si (__a, __b);
21659 }
21660
21661 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21662 vshlq_n_s64 (int64x2_t __a, const int __b)
21663 {
21664   return (int64x2_t) __builtin_aarch64_ashlv2di (__a, __b);
21665 }
21666
21667 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
21668 vshlq_n_u8 (uint8x16_t __a, const int __b)
21669 {
21670   return (uint8x16_t) __builtin_aarch64_ashlv16qi ((int8x16_t) __a, __b);
21671 }
21672
21673 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
21674 vshlq_n_u16 (uint16x8_t __a, const int __b)
21675 {
21676   return (uint16x8_t) __builtin_aarch64_ashlv8hi ((int16x8_t) __a, __b);
21677 }
21678
21679 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
21680 vshlq_n_u32 (uint32x4_t __a, const int __b)
21681 {
21682   return (uint32x4_t) __builtin_aarch64_ashlv4si ((int32x4_t) __a, __b);
21683 }
21684
21685 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
21686 vshlq_n_u64 (uint64x2_t __a, const int __b)
21687 {
21688   return (uint64x2_t) __builtin_aarch64_ashlv2di ((int64x2_t) __a, __b);
21689 }
21690
21691 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
21692 vshld_n_s64 (int64_t __a, const int __b)
21693 {
21694   return __builtin_aarch64_ashldi (__a, __b);
21695 }
21696
21697 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
21698 vshld_n_u64 (uint64_t __a, const int __b)
21699 {
21700   return (uint64_t) __builtin_aarch64_ashldi (__a, __b);
21701 }
21702
21703 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
21704 vshl_s8 (int8x8_t __a, int8x8_t __b)
21705 {
21706   return __builtin_aarch64_sshlv8qi (__a, __b);
21707 }
21708
21709 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
21710 vshl_s16 (int16x4_t __a, int16x4_t __b)
21711 {
21712   return __builtin_aarch64_sshlv4hi (__a, __b);
21713 }
21714
21715 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
21716 vshl_s32 (int32x2_t __a, int32x2_t __b)
21717 {
21718   return __builtin_aarch64_sshlv2si (__a, __b);
21719 }
21720
21721 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
21722 vshl_s64 (int64x1_t __a, int64x1_t __b)
21723 {
21724   return (int64x1_t) {__builtin_aarch64_sshldi (__a[0], __b[0])};
21725 }
21726
21727 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
21728 vshl_u8 (uint8x8_t __a, int8x8_t __b)
21729 {
21730   return __builtin_aarch64_ushlv8qi_uus (__a, __b);
21731 }
21732
21733 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
21734 vshl_u16 (uint16x4_t __a, int16x4_t __b)
21735 {
21736   return __builtin_aarch64_ushlv4hi_uus (__a, __b);
21737 }
21738
21739 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
21740 vshl_u32 (uint32x2_t __a, int32x2_t __b)
21741 {
21742   return __builtin_aarch64_ushlv2si_uus (__a, __b);
21743 }
21744
21745 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
21746 vshl_u64 (uint64x1_t __a, int64x1_t __b)
21747 {
21748   return (uint64x1_t) {__builtin_aarch64_ushldi_uus (__a[0], __b[0])};
21749 }
21750
21751 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
21752 vshlq_s8 (int8x16_t __a, int8x16_t __b)
21753 {
21754   return __builtin_aarch64_sshlv16qi (__a, __b);
21755 }
21756
21757 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
21758 vshlq_s16 (int16x8_t __a, int16x8_t __b)
21759 {
21760   return __builtin_aarch64_sshlv8hi (__a, __b);
21761 }
21762
21763 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21764 vshlq_s32 (int32x4_t __a, int32x4_t __b)
21765 {
21766   return __builtin_aarch64_sshlv4si (__a, __b);
21767 }
21768
21769 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21770 vshlq_s64 (int64x2_t __a, int64x2_t __b)
21771 {
21772   return __builtin_aarch64_sshlv2di (__a, __b);
21773 }
21774
21775 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
21776 vshlq_u8 (uint8x16_t __a, int8x16_t __b)
21777 {
21778   return __builtin_aarch64_ushlv16qi_uus (__a, __b);
21779 }
21780
21781 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
21782 vshlq_u16 (uint16x8_t __a, int16x8_t __b)
21783 {
21784   return __builtin_aarch64_ushlv8hi_uus (__a, __b);
21785 }
21786
21787 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
21788 vshlq_u32 (uint32x4_t __a, int32x4_t __b)
21789 {
21790   return __builtin_aarch64_ushlv4si_uus (__a, __b);
21791 }
21792
21793 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
21794 vshlq_u64 (uint64x2_t __a, int64x2_t __b)
21795 {
21796   return __builtin_aarch64_ushlv2di_uus (__a, __b);
21797 }
21798
21799 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
21800 vshld_s64 (int64_t __a, int64_t __b)
21801 {
21802   return __builtin_aarch64_sshldi (__a, __b);
21803 }
21804
21805 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
21806 vshld_u64 (uint64_t __a, uint64_t __b)
21807 {
21808   return __builtin_aarch64_ushldi_uus (__a, __b);
21809 }
21810
21811 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
21812 vshll_high_n_s8 (int8x16_t __a, const int __b)
21813 {
21814   return __builtin_aarch64_sshll2_nv16qi (__a, __b);
21815 }
21816
21817 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21818 vshll_high_n_s16 (int16x8_t __a, const int __b)
21819 {
21820   return __builtin_aarch64_sshll2_nv8hi (__a, __b);
21821 }
21822
21823 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21824 vshll_high_n_s32 (int32x4_t __a, const int __b)
21825 {
21826   return __builtin_aarch64_sshll2_nv4si (__a, __b);
21827 }
21828
21829 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
21830 vshll_high_n_u8 (uint8x16_t __a, const int __b)
21831 {
21832   return (uint16x8_t) __builtin_aarch64_ushll2_nv16qi ((int8x16_t) __a, __b);
21833 }
21834
21835 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
21836 vshll_high_n_u16 (uint16x8_t __a, const int __b)
21837 {
21838   return (uint32x4_t) __builtin_aarch64_ushll2_nv8hi ((int16x8_t) __a, __b);
21839 }
21840
21841 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
21842 vshll_high_n_u32 (uint32x4_t __a, const int __b)
21843 {
21844   return (uint64x2_t) __builtin_aarch64_ushll2_nv4si ((int32x4_t) __a, __b);
21845 }
21846
21847 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
21848 vshll_n_s8 (int8x8_t __a, const int __b)
21849 {
21850   return __builtin_aarch64_sshll_nv8qi (__a, __b);
21851 }
21852
21853 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21854 vshll_n_s16 (int16x4_t __a, const int __b)
21855 {
21856   return __builtin_aarch64_sshll_nv4hi (__a, __b);
21857 }
21858
21859 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21860 vshll_n_s32 (int32x2_t __a, const int __b)
21861 {
21862   return __builtin_aarch64_sshll_nv2si (__a, __b);
21863 }
21864
21865 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
21866 vshll_n_u8 (uint8x8_t __a, const int __b)
21867 {
21868   return __builtin_aarch64_ushll_nv8qi_uus (__a, __b);
21869 }
21870
21871 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
21872 vshll_n_u16 (uint16x4_t __a, const int __b)
21873 {
21874   return __builtin_aarch64_ushll_nv4hi_uus (__a, __b);
21875 }
21876
21877 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
21878 vshll_n_u32 (uint32x2_t __a, const int __b)
21879 {
21880   return __builtin_aarch64_ushll_nv2si_uus (__a, __b);
21881 }
21882
21883 /* vshr */
21884
21885 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
21886 vshr_n_s8 (int8x8_t __a, const int __b)
21887 {
21888   return (int8x8_t) __builtin_aarch64_ashrv8qi (__a, __b);
21889 }
21890
21891 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
21892 vshr_n_s16 (int16x4_t __a, const int __b)
21893 {
21894   return (int16x4_t) __builtin_aarch64_ashrv4hi (__a, __b);
21895 }
21896
21897 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
21898 vshr_n_s32 (int32x2_t __a, const int __b)
21899 {
21900   return (int32x2_t) __builtin_aarch64_ashrv2si (__a, __b);
21901 }
21902
21903 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
21904 vshr_n_s64 (int64x1_t __a, const int __b)
21905 {
21906   return (int64x1_t) {__builtin_aarch64_ashr_simddi (__a[0], __b)};
21907 }
21908
21909 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
21910 vshr_n_u8 (uint8x8_t __a, const int __b)
21911 {
21912   return (uint8x8_t) __builtin_aarch64_lshrv8qi ((int8x8_t) __a, __b);
21913 }
21914
21915 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
21916 vshr_n_u16 (uint16x4_t __a, const int __b)
21917 {
21918   return (uint16x4_t) __builtin_aarch64_lshrv4hi ((int16x4_t) __a, __b);
21919 }
21920
21921 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
21922 vshr_n_u32 (uint32x2_t __a, const int __b)
21923 {
21924   return (uint32x2_t) __builtin_aarch64_lshrv2si ((int32x2_t) __a, __b);
21925 }
21926
21927 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
21928 vshr_n_u64 (uint64x1_t __a, const int __b)
21929 {
21930   return (uint64x1_t) {__builtin_aarch64_lshr_simddi_uus ( __a[0], __b)};
21931 }
21932
21933 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
21934 vshrq_n_s8 (int8x16_t __a, const int __b)
21935 {
21936   return (int8x16_t) __builtin_aarch64_ashrv16qi (__a, __b);
21937 }
21938
21939 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
21940 vshrq_n_s16 (int16x8_t __a, const int __b)
21941 {
21942   return (int16x8_t) __builtin_aarch64_ashrv8hi (__a, __b);
21943 }
21944
21945 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21946 vshrq_n_s32 (int32x4_t __a, const int __b)
21947 {
21948   return (int32x4_t) __builtin_aarch64_ashrv4si (__a, __b);
21949 }
21950
21951 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21952 vshrq_n_s64 (int64x2_t __a, const int __b)
21953 {
21954   return (int64x2_t) __builtin_aarch64_ashrv2di (__a, __b);
21955 }
21956
21957 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
21958 vshrq_n_u8 (uint8x16_t __a, const int __b)
21959 {
21960   return (uint8x16_t) __builtin_aarch64_lshrv16qi ((int8x16_t) __a, __b);
21961 }
21962
21963 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
21964 vshrq_n_u16 (uint16x8_t __a, const int __b)
21965 {
21966   return (uint16x8_t) __builtin_aarch64_lshrv8hi ((int16x8_t) __a, __b);
21967 }
21968
21969 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
21970 vshrq_n_u32 (uint32x4_t __a, const int __b)
21971 {
21972   return (uint32x4_t) __builtin_aarch64_lshrv4si ((int32x4_t) __a, __b);
21973 }
21974
21975 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
21976 vshrq_n_u64 (uint64x2_t __a, const int __b)
21977 {
21978   return (uint64x2_t) __builtin_aarch64_lshrv2di ((int64x2_t) __a, __b);
21979 }
21980
21981 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
21982 vshrd_n_s64 (int64_t __a, const int __b)
21983 {
21984   return __builtin_aarch64_ashr_simddi (__a, __b);
21985 }
21986
21987 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
21988 vshrd_n_u64 (uint64_t __a, const int __b)
21989 {
21990   return __builtin_aarch64_lshr_simddi_uus (__a, __b);
21991 }
21992
21993 /* vsli */
21994
21995 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
21996 vsli_n_s8 (int8x8_t __a, int8x8_t __b, const int __c)
21997 {
21998   return (int8x8_t) __builtin_aarch64_ssli_nv8qi (__a, __b, __c);
21999 }
22000
22001 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
22002 vsli_n_s16 (int16x4_t __a, int16x4_t __b, const int __c)
22003 {
22004   return (int16x4_t) __builtin_aarch64_ssli_nv4hi (__a, __b, __c);
22005 }
22006
22007 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
22008 vsli_n_s32 (int32x2_t __a, int32x2_t __b, const int __c)
22009 {
22010   return (int32x2_t) __builtin_aarch64_ssli_nv2si (__a, __b, __c);
22011 }
22012
22013 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
22014 vsli_n_s64 (int64x1_t __a, int64x1_t __b, const int __c)
22015 {
22016   return (int64x1_t) {__builtin_aarch64_ssli_ndi (__a[0], __b[0], __c)};
22017 }
22018
22019 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
22020 vsli_n_u8 (uint8x8_t __a, uint8x8_t __b, const int __c)
22021 {
22022   return __builtin_aarch64_usli_nv8qi_uuus (__a, __b, __c);
22023 }
22024
22025 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
22026 vsli_n_u16 (uint16x4_t __a, uint16x4_t __b, const int __c)
22027 {
22028   return __builtin_aarch64_usli_nv4hi_uuus (__a, __b, __c);
22029 }
22030
22031 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
22032 vsli_n_u32 (uint32x2_t __a, uint32x2_t __b, const int __c)
22033 {
22034   return __builtin_aarch64_usli_nv2si_uuus (__a, __b, __c);
22035 }
22036
22037 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
22038 vsli_n_u64 (uint64x1_t __a, uint64x1_t __b, const int __c)
22039 {
22040   return (uint64x1_t) {__builtin_aarch64_usli_ndi_uuus (__a[0], __b[0], __c)};
22041 }
22042
22043 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
22044 vsliq_n_s8 (int8x16_t __a, int8x16_t __b, const int __c)
22045 {
22046   return (int8x16_t) __builtin_aarch64_ssli_nv16qi (__a, __b, __c);
22047 }
22048
22049 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
22050 vsliq_n_s16 (int16x8_t __a, int16x8_t __b, const int __c)
22051 {
22052   return (int16x8_t) __builtin_aarch64_ssli_nv8hi (__a, __b, __c);
22053 }
22054
22055 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
22056 vsliq_n_s32 (int32x4_t __a, int32x4_t __b, const int __c)
22057 {
22058   return (int32x4_t) __builtin_aarch64_ssli_nv4si (__a, __b, __c);
22059 }
22060
22061 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
22062 vsliq_n_s64 (int64x2_t __a, int64x2_t __b, const int __c)
22063 {
22064   return (int64x2_t) __builtin_aarch64_ssli_nv2di (__a, __b, __c);
22065 }
22066
22067 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
22068 vsliq_n_u8 (uint8x16_t __a, uint8x16_t __b, const int __c)
22069 {
22070   return __builtin_aarch64_usli_nv16qi_uuus (__a, __b, __c);
22071 }
22072
22073 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
22074 vsliq_n_u16 (uint16x8_t __a, uint16x8_t __b, const int __c)
22075 {
22076   return __builtin_aarch64_usli_nv8hi_uuus (__a, __b, __c);
22077 }
22078
22079 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
22080 vsliq_n_u32 (uint32x4_t __a, uint32x4_t __b, const int __c)
22081 {
22082   return __builtin_aarch64_usli_nv4si_uuus (__a, __b, __c);
22083 }
22084
22085 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
22086 vsliq_n_u64 (uint64x2_t __a, uint64x2_t __b, const int __c)
22087 {
22088   return __builtin_aarch64_usli_nv2di_uuus (__a, __b, __c);
22089 }
22090
22091 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
22092 vslid_n_s64 (int64_t __a, int64_t __b, const int __c)
22093 {
22094   return __builtin_aarch64_ssli_ndi (__a, __b, __c);
22095 }
22096
22097 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
22098 vslid_n_u64 (uint64_t __a, uint64_t __b, const int __c)
22099 {
22100   return __builtin_aarch64_usli_ndi_uuus (__a, __b, __c);
22101 }
22102
22103 /* vsqadd */
22104
22105 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
22106 vsqadd_u8 (uint8x8_t __a, int8x8_t __b)
22107 {
22108   return __builtin_aarch64_usqaddv8qi_uus (__a, __b);
22109 }
22110
22111 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
22112 vsqadd_u16 (uint16x4_t __a, int16x4_t __b)
22113 {
22114   return __builtin_aarch64_usqaddv4hi_uus (__a, __b);
22115 }
22116
22117 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
22118 vsqadd_u32 (uint32x2_t __a, int32x2_t __b)
22119 {
22120   return __builtin_aarch64_usqaddv2si_uus (__a, __b);
22121 }
22122
22123 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
22124 vsqadd_u64 (uint64x1_t __a, int64x1_t __b)
22125 {
22126   return (uint64x1_t) {__builtin_aarch64_usqadddi_uus (__a[0], __b[0])};
22127 }
22128
22129 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
22130 vsqaddq_u8 (uint8x16_t __a, int8x16_t __b)
22131 {
22132   return __builtin_aarch64_usqaddv16qi_uus (__a, __b);
22133 }
22134
22135 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
22136 vsqaddq_u16 (uint16x8_t __a, int16x8_t __b)
22137 {
22138   return __builtin_aarch64_usqaddv8hi_uus (__a, __b);
22139 }
22140
22141 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
22142 vsqaddq_u32 (uint32x4_t __a, int32x4_t __b)
22143 {
22144   return __builtin_aarch64_usqaddv4si_uus (__a, __b);
22145 }
22146
22147 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
22148 vsqaddq_u64 (uint64x2_t __a, int64x2_t __b)
22149 {
22150   return __builtin_aarch64_usqaddv2di_uus (__a, __b);
22151 }
22152
22153 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
22154 vsqaddb_u8 (uint8_t __a, int8_t __b)
22155 {
22156   return __builtin_aarch64_usqaddqi_uus (__a, __b);
22157 }
22158
22159 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
22160 vsqaddh_u16 (uint16_t __a, int16_t __b)
22161 {
22162   return __builtin_aarch64_usqaddhi_uus (__a, __b);
22163 }
22164
22165 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
22166 vsqadds_u32 (uint32_t __a, int32_t __b)
22167 {
22168   return __builtin_aarch64_usqaddsi_uus (__a, __b);
22169 }
22170
22171 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
22172 vsqaddd_u64 (uint64_t __a, int64_t __b)
22173 {
22174   return __builtin_aarch64_usqadddi_uus (__a, __b);
22175 }
22176
22177 /* vsqrt */
22178 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
22179 vsqrt_f32 (float32x2_t a)
22180 {
22181   return __builtin_aarch64_sqrtv2sf (a);
22182 }
22183
22184 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
22185 vsqrtq_f32 (float32x4_t a)
22186 {
22187   return __builtin_aarch64_sqrtv4sf (a);
22188 }
22189
22190 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
22191 vsqrt_f64 (float64x1_t a)
22192 {
22193   return (float64x1_t) { __builtin_sqrt (a[0]) };
22194 }
22195
22196 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
22197 vsqrtq_f64 (float64x2_t a)
22198 {
22199   return __builtin_aarch64_sqrtv2df (a);
22200 }
22201
22202 /* vsra */
22203
22204 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
22205 vsra_n_s8 (int8x8_t __a, int8x8_t __b, const int __c)
22206 {
22207   return (int8x8_t) __builtin_aarch64_ssra_nv8qi (__a, __b, __c);
22208 }
22209
22210 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
22211 vsra_n_s16 (int16x4_t __a, int16x4_t __b, const int __c)
22212 {
22213   return (int16x4_t) __builtin_aarch64_ssra_nv4hi (__a, __b, __c);
22214 }
22215
22216 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
22217 vsra_n_s32 (int32x2_t __a, int32x2_t __b, const int __c)
22218 {
22219   return (int32x2_t) __builtin_aarch64_ssra_nv2si (__a, __b, __c);
22220 }
22221
22222 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
22223 vsra_n_s64 (int64x1_t __a, int64x1_t __b, const int __c)
22224 {
22225   return (int64x1_t) {__builtin_aarch64_ssra_ndi (__a[0], __b[0], __c)};
22226 }
22227
22228 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
22229 vsra_n_u8 (uint8x8_t __a, uint8x8_t __b, const int __c)
22230 {
22231   return __builtin_aarch64_usra_nv8qi_uuus (__a, __b, __c);
22232 }
22233
22234 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
22235 vsra_n_u16 (uint16x4_t __a, uint16x4_t __b, const int __c)
22236 {
22237   return __builtin_aarch64_usra_nv4hi_uuus (__a, __b, __c);
22238 }
22239
22240 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
22241 vsra_n_u32 (uint32x2_t __a, uint32x2_t __b, const int __c)
22242 {
22243   return __builtin_aarch64_usra_nv2si_uuus (__a, __b, __c);
22244 }
22245
22246 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
22247 vsra_n_u64 (uint64x1_t __a, uint64x1_t __b, const int __c)
22248 {
22249   return (uint64x1_t) {__builtin_aarch64_usra_ndi_uuus (__a[0], __b[0], __c)};
22250 }
22251
22252 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
22253 vsraq_n_s8 (int8x16_t __a, int8x16_t __b, const int __c)
22254 {
22255   return (int8x16_t) __builtin_aarch64_ssra_nv16qi (__a, __b, __c);
22256 }
22257
22258 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
22259 vsraq_n_s16 (int16x8_t __a, int16x8_t __b, const int __c)
22260 {
22261   return (int16x8_t) __builtin_aarch64_ssra_nv8hi (__a, __b, __c);
22262 }
22263
22264 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
22265 vsraq_n_s32 (int32x4_t __a, int32x4_t __b, const int __c)
22266 {
22267   return (int32x4_t) __builtin_aarch64_ssra_nv4si (__a, __b, __c);
22268 }
22269
22270 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
22271 vsraq_n_s64 (int64x2_t __a, int64x2_t __b, const int __c)
22272 {
22273   return (int64x2_t) __builtin_aarch64_ssra_nv2di (__a, __b, __c);
22274 }
22275
22276 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
22277 vsraq_n_u8 (uint8x16_t __a, uint8x16_t __b, const int __c)
22278 {
22279   return __builtin_aarch64_usra_nv16qi_uuus (__a, __b, __c);
22280 }
22281
22282 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
22283 vsraq_n_u16 (uint16x8_t __a, uint16x8_t __b, const int __c)
22284 {
22285   return __builtin_aarch64_usra_nv8hi_uuus (__a, __b, __c);
22286 }
22287
22288 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
22289 vsraq_n_u32 (uint32x4_t __a, uint32x4_t __b, const int __c)
22290 {
22291   return __builtin_aarch64_usra_nv4si_uuus (__a, __b, __c);
22292 }
22293
22294 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
22295 vsraq_n_u64 (uint64x2_t __a, uint64x2_t __b, const int __c)
22296 {
22297   return __builtin_aarch64_usra_nv2di_uuus (__a, __b, __c);
22298 }
22299
22300 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
22301 vsrad_n_s64 (int64_t __a, int64_t __b, const int __c)
22302 {
22303   return __builtin_aarch64_ssra_ndi (__a, __b, __c);
22304 }
22305
22306 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
22307 vsrad_n_u64 (uint64_t __a, uint64_t __b, const int __c)
22308 {
22309   return __builtin_aarch64_usra_ndi_uuus (__a, __b, __c);
22310 }
22311
22312 /* vsri */
22313
22314 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
22315 vsri_n_s8 (int8x8_t __a, int8x8_t __b, const int __c)
22316 {
22317   return (int8x8_t) __builtin_aarch64_ssri_nv8qi (__a, __b, __c);
22318 }
22319
22320 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
22321 vsri_n_s16 (int16x4_t __a, int16x4_t __b, const int __c)
22322 {
22323   return (int16x4_t) __builtin_aarch64_ssri_nv4hi (__a, __b, __c);
22324 }
22325
22326 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
22327 vsri_n_s32 (int32x2_t __a, int32x2_t __b, const int __c)
22328 {
22329   return (int32x2_t) __builtin_aarch64_ssri_nv2si (__a, __b, __c);
22330 }
22331
22332 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
22333 vsri_n_s64 (int64x1_t __a, int64x1_t __b, const int __c)
22334 {
22335   return (int64x1_t) {__builtin_aarch64_ssri_ndi (__a[0], __b[0], __c)};
22336 }
22337
22338 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
22339 vsri_n_u8 (uint8x8_t __a, uint8x8_t __b, const int __c)
22340 {
22341   return __builtin_aarch64_usri_nv8qi_uuus (__a, __b, __c);
22342 }
22343
22344 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
22345 vsri_n_u16 (uint16x4_t __a, uint16x4_t __b, const int __c)
22346 {
22347   return __builtin_aarch64_usri_nv4hi_uuus (__a, __b, __c);
22348 }
22349
22350 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
22351 vsri_n_u32 (uint32x2_t __a, uint32x2_t __b, const int __c)
22352 {
22353   return __builtin_aarch64_usri_nv2si_uuus (__a, __b, __c);
22354 }
22355
22356 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
22357 vsri_n_u64 (uint64x1_t __a, uint64x1_t __b, const int __c)
22358 {
22359   return (uint64x1_t) {__builtin_aarch64_usri_ndi_uuus (__a[0], __b[0], __c)};
22360 }
22361
22362 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
22363 vsriq_n_s8 (int8x16_t __a, int8x16_t __b, const int __c)
22364 {
22365   return (int8x16_t) __builtin_aarch64_ssri_nv16qi (__a, __b, __c);
22366 }
22367
22368 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
22369 vsriq_n_s16 (int16x8_t __a, int16x8_t __b, const int __c)
22370 {
22371   return (int16x8_t) __builtin_aarch64_ssri_nv8hi (__a, __b, __c);
22372 }
22373
22374 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
22375 vsriq_n_s32 (int32x4_t __a, int32x4_t __b, const int __c)
22376 {
22377   return (int32x4_t) __builtin_aarch64_ssri_nv4si (__a, __b, __c);
22378 }
22379
22380 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
22381 vsriq_n_s64 (int64x2_t __a, int64x2_t __b, const int __c)
22382 {
22383   return (int64x2_t) __builtin_aarch64_ssri_nv2di (__a, __b, __c);
22384 }
22385
22386 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
22387 vsriq_n_u8 (uint8x16_t __a, uint8x16_t __b, const int __c)
22388 {
22389   return __builtin_aarch64_usri_nv16qi_uuus (__a, __b, __c);
22390 }
22391
22392 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
22393 vsriq_n_u16 (uint16x8_t __a, uint16x8_t __b, const int __c)
22394 {
22395   return __builtin_aarch64_usri_nv8hi_uuus (__a, __b, __c);
22396 }
22397
22398 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
22399 vsriq_n_u32 (uint32x4_t __a, uint32x4_t __b, const int __c)
22400 {
22401   return __builtin_aarch64_usri_nv4si_uuus (__a, __b, __c);
22402 }
22403
22404 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
22405 vsriq_n_u64 (uint64x2_t __a, uint64x2_t __b, const int __c)
22406 {
22407   return __builtin_aarch64_usri_nv2di_uuus (__a, __b, __c);
22408 }
22409
22410 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
22411 vsrid_n_s64 (int64_t __a, int64_t __b, const int __c)
22412 {
22413   return __builtin_aarch64_ssri_ndi (__a, __b, __c);
22414 }
22415
22416 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
22417 vsrid_n_u64 (uint64_t __a, uint64_t __b, const int __c)
22418 {
22419   return __builtin_aarch64_usri_ndi_uuus (__a, __b, __c);
22420 }
22421
22422 /* vst1 */
22423
22424 __extension__ static __inline void __attribute__ ((__always_inline__))
22425 vst1_f32 (float32_t *a, float32x2_t b)
22426 {
22427   __builtin_aarch64_st1v2sf ((__builtin_aarch64_simd_sf *) a, b);
22428 }
22429
22430 __extension__ static __inline void __attribute__ ((__always_inline__))
22431 vst1_f64 (float64_t *a, float64x1_t b)
22432 {
22433   *a = b[0];
22434 }
22435
22436 __extension__ static __inline void __attribute__ ((__always_inline__))
22437 vst1_p8 (poly8_t *a, poly8x8_t b)
22438 {
22439   __builtin_aarch64_st1v8qi ((__builtin_aarch64_simd_qi *) a,
22440                              (int8x8_t) b);
22441 }
22442
22443 __extension__ static __inline void __attribute__ ((__always_inline__))
22444 vst1_p16 (poly16_t *a, poly16x4_t b)
22445 {
22446   __builtin_aarch64_st1v4hi ((__builtin_aarch64_simd_hi *) a,
22447                              (int16x4_t) b);
22448 }
22449
22450 __extension__ static __inline void __attribute__ ((__always_inline__))
22451 vst1_s8 (int8_t *a, int8x8_t b)
22452 {
22453   __builtin_aarch64_st1v8qi ((__builtin_aarch64_simd_qi *) a, b);
22454 }
22455
22456 __extension__ static __inline void __attribute__ ((__always_inline__))
22457 vst1_s16 (int16_t *a, int16x4_t b)
22458 {
22459   __builtin_aarch64_st1v4hi ((__builtin_aarch64_simd_hi *) a, b);
22460 }
22461
22462 __extension__ static __inline void __attribute__ ((__always_inline__))
22463 vst1_s32 (int32_t *a, int32x2_t b)
22464 {
22465   __builtin_aarch64_st1v2si ((__builtin_aarch64_simd_si *) a, b);
22466 }
22467
22468 __extension__ static __inline void __attribute__ ((__always_inline__))
22469 vst1_s64 (int64_t *a, int64x1_t b)
22470 {
22471   *a = b[0];
22472 }
22473
22474 __extension__ static __inline void __attribute__ ((__always_inline__))
22475 vst1_u8 (uint8_t *a, uint8x8_t b)
22476 {
22477   __builtin_aarch64_st1v8qi ((__builtin_aarch64_simd_qi *) a,
22478                              (int8x8_t) b);
22479 }
22480
22481 __extension__ static __inline void __attribute__ ((__always_inline__))
22482 vst1_u16 (uint16_t *a, uint16x4_t b)
22483 {
22484   __builtin_aarch64_st1v4hi ((__builtin_aarch64_simd_hi *) a,
22485                              (int16x4_t) b);
22486 }
22487
22488 __extension__ static __inline void __attribute__ ((__always_inline__))
22489 vst1_u32 (uint32_t *a, uint32x2_t b)
22490 {
22491   __builtin_aarch64_st1v2si ((__builtin_aarch64_simd_si *) a,
22492                              (int32x2_t) b);
22493 }
22494
22495 __extension__ static __inline void __attribute__ ((__always_inline__))
22496 vst1_u64 (uint64_t *a, uint64x1_t b)
22497 {
22498   *a = b[0];
22499 }
22500
22501 __extension__ static __inline void __attribute__ ((__always_inline__))
22502 vst1q_f32 (float32_t *a, float32x4_t b)
22503 {
22504   __builtin_aarch64_st1v4sf ((__builtin_aarch64_simd_sf *) a, b);
22505 }
22506
22507 __extension__ static __inline void __attribute__ ((__always_inline__))
22508 vst1q_f64 (float64_t *a, float64x2_t b)
22509 {
22510   __builtin_aarch64_st1v2df ((__builtin_aarch64_simd_df *) a, b);
22511 }
22512
22513 /* vst1q */
22514
22515 __extension__ static __inline void __attribute__ ((__always_inline__))
22516 vst1q_p8 (poly8_t *a, poly8x16_t b)
22517 {
22518   __builtin_aarch64_st1v16qi ((__builtin_aarch64_simd_qi *) a,
22519                               (int8x16_t) b);
22520 }
22521
22522 __extension__ static __inline void __attribute__ ((__always_inline__))
22523 vst1q_p16 (poly16_t *a, poly16x8_t b)
22524 {
22525   __builtin_aarch64_st1v8hi ((__builtin_aarch64_simd_hi *) a,
22526                              (int16x8_t) b);
22527 }
22528
22529 __extension__ static __inline void __attribute__ ((__always_inline__))
22530 vst1q_s8 (int8_t *a, int8x16_t b)
22531 {
22532   __builtin_aarch64_st1v16qi ((__builtin_aarch64_simd_qi *) a, b);
22533 }
22534
22535 __extension__ static __inline void __attribute__ ((__always_inline__))
22536 vst1q_s16 (int16_t *a, int16x8_t b)
22537 {
22538   __builtin_aarch64_st1v8hi ((__builtin_aarch64_simd_hi *) a, b);
22539 }
22540
22541 __extension__ static __inline void __attribute__ ((__always_inline__))
22542 vst1q_s32 (int32_t *a, int32x4_t b)
22543 {
22544   __builtin_aarch64_st1v4si ((__builtin_aarch64_simd_si *) a, b);
22545 }
22546
22547 __extension__ static __inline void __attribute__ ((__always_inline__))
22548 vst1q_s64 (int64_t *a, int64x2_t b)
22549 {
22550   __builtin_aarch64_st1v2di ((__builtin_aarch64_simd_di *) a, b);
22551 }
22552
22553 __extension__ static __inline void __attribute__ ((__always_inline__))
22554 vst1q_u8 (uint8_t *a, uint8x16_t b)
22555 {
22556   __builtin_aarch64_st1v16qi ((__builtin_aarch64_simd_qi *) a,
22557                               (int8x16_t) b);
22558 }
22559
22560 __extension__ static __inline void __attribute__ ((__always_inline__))
22561 vst1q_u16 (uint16_t *a, uint16x8_t b)
22562 {
22563   __builtin_aarch64_st1v8hi ((__builtin_aarch64_simd_hi *) a,
22564                              (int16x8_t) b);
22565 }
22566
22567 __extension__ static __inline void __attribute__ ((__always_inline__))
22568 vst1q_u32 (uint32_t *a, uint32x4_t b)
22569 {
22570   __builtin_aarch64_st1v4si ((__builtin_aarch64_simd_si *) a,
22571                              (int32x4_t) b);
22572 }
22573
22574 __extension__ static __inline void __attribute__ ((__always_inline__))
22575 vst1q_u64 (uint64_t *a, uint64x2_t b)
22576 {
22577   __builtin_aarch64_st1v2di ((__builtin_aarch64_simd_di *) a,
22578                              (int64x2_t) b);
22579 }
22580
22581 /* vstn */
22582
22583 __extension__ static __inline void
22584 vst2_s64 (int64_t * __a, int64x1x2_t val)
22585 {
22586   __builtin_aarch64_simd_oi __o;
22587   int64x2x2_t temp;
22588   temp.val[0] = vcombine_s64 (val.val[0], vcreate_s64 (__AARCH64_INT64_C (0)));
22589   temp.val[1] = vcombine_s64 (val.val[1], vcreate_s64 (__AARCH64_INT64_C (0)));
22590   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) temp.val[0], 0);
22591   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) temp.val[1], 1);
22592   __builtin_aarch64_st2di ((__builtin_aarch64_simd_di *) __a, __o);
22593 }
22594
22595 __extension__ static __inline void
22596 vst2_u64 (uint64_t * __a, uint64x1x2_t val)
22597 {
22598   __builtin_aarch64_simd_oi __o;
22599   uint64x2x2_t temp;
22600   temp.val[0] = vcombine_u64 (val.val[0], vcreate_u64 (__AARCH64_UINT64_C (0)));
22601   temp.val[1] = vcombine_u64 (val.val[1], vcreate_u64 (__AARCH64_UINT64_C (0)));
22602   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) temp.val[0], 0);
22603   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) temp.val[1], 1);
22604   __builtin_aarch64_st2di ((__builtin_aarch64_simd_di *) __a, __o);
22605 }
22606
22607 __extension__ static __inline void
22608 vst2_f64 (float64_t * __a, float64x1x2_t val)
22609 {
22610   __builtin_aarch64_simd_oi __o;
22611   float64x2x2_t temp;
22612   temp.val[0] = vcombine_f64 (val.val[0], vcreate_f64 (__AARCH64_UINT64_C (0)));
22613   temp.val[1] = vcombine_f64 (val.val[1], vcreate_f64 (__AARCH64_UINT64_C (0)));
22614   __o = __builtin_aarch64_set_qregoiv2df (__o, (float64x2_t) temp.val[0], 0);
22615   __o = __builtin_aarch64_set_qregoiv2df (__o, (float64x2_t) temp.val[1], 1);
22616   __builtin_aarch64_st2df ((__builtin_aarch64_simd_df *) __a, __o);
22617 }
22618
22619 __extension__ static __inline void
22620 vst2_s8 (int8_t * __a, int8x8x2_t val)
22621 {
22622   __builtin_aarch64_simd_oi __o;
22623   int8x16x2_t temp;
22624   temp.val[0] = vcombine_s8 (val.val[0], vcreate_s8 (__AARCH64_INT64_C (0)));
22625   temp.val[1] = vcombine_s8 (val.val[1], vcreate_s8 (__AARCH64_INT64_C (0)));
22626   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) temp.val[0], 0);
22627   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) temp.val[1], 1);
22628   __builtin_aarch64_st2v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
22629 }
22630
22631 __extension__ static __inline void __attribute__ ((__always_inline__))
22632 vst2_p8 (poly8_t * __a, poly8x8x2_t val)
22633 {
22634   __builtin_aarch64_simd_oi __o;
22635   poly8x16x2_t temp;
22636   temp.val[0] = vcombine_p8 (val.val[0], vcreate_p8 (__AARCH64_UINT64_C (0)));
22637   temp.val[1] = vcombine_p8 (val.val[1], vcreate_p8 (__AARCH64_UINT64_C (0)));
22638   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) temp.val[0], 0);
22639   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) temp.val[1], 1);
22640   __builtin_aarch64_st2v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
22641 }
22642
22643 __extension__ static __inline void __attribute__ ((__always_inline__))
22644 vst2_s16 (int16_t * __a, int16x4x2_t val)
22645 {
22646   __builtin_aarch64_simd_oi __o;
22647   int16x8x2_t temp;
22648   temp.val[0] = vcombine_s16 (val.val[0], vcreate_s16 (__AARCH64_INT64_C (0)));
22649   temp.val[1] = vcombine_s16 (val.val[1], vcreate_s16 (__AARCH64_INT64_C (0)));
22650   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) temp.val[0], 0);
22651   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) temp.val[1], 1);
22652   __builtin_aarch64_st2v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
22653 }
22654
22655 __extension__ static __inline void __attribute__ ((__always_inline__))
22656 vst2_p16 (poly16_t * __a, poly16x4x2_t val)
22657 {
22658   __builtin_aarch64_simd_oi __o;
22659   poly16x8x2_t temp;
22660   temp.val[0] = vcombine_p16 (val.val[0], vcreate_p16 (__AARCH64_UINT64_C (0)));
22661   temp.val[1] = vcombine_p16 (val.val[1], vcreate_p16 (__AARCH64_UINT64_C (0)));
22662   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) temp.val[0], 0);
22663   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) temp.val[1], 1);
22664   __builtin_aarch64_st2v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
22665 }
22666
22667 __extension__ static __inline void __attribute__ ((__always_inline__))
22668 vst2_s32 (int32_t * __a, int32x2x2_t val)
22669 {
22670   __builtin_aarch64_simd_oi __o;
22671   int32x4x2_t temp;
22672   temp.val[0] = vcombine_s32 (val.val[0], vcreate_s32 (__AARCH64_INT64_C (0)));
22673   temp.val[1] = vcombine_s32 (val.val[1], vcreate_s32 (__AARCH64_INT64_C (0)));
22674   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) temp.val[0], 0);
22675   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) temp.val[1], 1);
22676   __builtin_aarch64_st2v2si ((__builtin_aarch64_simd_si *) __a, __o);
22677 }
22678
22679 __extension__ static __inline void __attribute__ ((__always_inline__))
22680 vst2_u8 (uint8_t * __a, uint8x8x2_t val)
22681 {
22682   __builtin_aarch64_simd_oi __o;
22683   uint8x16x2_t temp;
22684   temp.val[0] = vcombine_u8 (val.val[0], vcreate_u8 (__AARCH64_UINT64_C (0)));
22685   temp.val[1] = vcombine_u8 (val.val[1], vcreate_u8 (__AARCH64_UINT64_C (0)));
22686   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) temp.val[0], 0);
22687   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) temp.val[1], 1);
22688   __builtin_aarch64_st2v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
22689 }
22690
22691 __extension__ static __inline void __attribute__ ((__always_inline__))
22692 vst2_u16 (uint16_t * __a, uint16x4x2_t val)
22693 {
22694   __builtin_aarch64_simd_oi __o;
22695   uint16x8x2_t temp;
22696   temp.val[0] = vcombine_u16 (val.val[0], vcreate_u16 (__AARCH64_UINT64_C (0)));
22697   temp.val[1] = vcombine_u16 (val.val[1], vcreate_u16 (__AARCH64_UINT64_C (0)));
22698   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) temp.val[0], 0);
22699   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) temp.val[1], 1);
22700   __builtin_aarch64_st2v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
22701 }
22702
22703 __extension__ static __inline void __attribute__ ((__always_inline__))
22704 vst2_u32 (uint32_t * __a, uint32x2x2_t val)
22705 {
22706   __builtin_aarch64_simd_oi __o;
22707   uint32x4x2_t temp;
22708   temp.val[0] = vcombine_u32 (val.val[0], vcreate_u32 (__AARCH64_UINT64_C (0)));
22709   temp.val[1] = vcombine_u32 (val.val[1], vcreate_u32 (__AARCH64_UINT64_C (0)));
22710   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) temp.val[0], 0);
22711   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) temp.val[1], 1);
22712   __builtin_aarch64_st2v2si ((__builtin_aarch64_simd_si *) __a, __o);
22713 }
22714
22715 __extension__ static __inline void __attribute__ ((__always_inline__))
22716 vst2_f32 (float32_t * __a, float32x2x2_t val)
22717 {
22718   __builtin_aarch64_simd_oi __o;
22719   float32x4x2_t temp;
22720   temp.val[0] = vcombine_f32 (val.val[0], vcreate_f32 (__AARCH64_UINT64_C (0)));
22721   temp.val[1] = vcombine_f32 (val.val[1], vcreate_f32 (__AARCH64_UINT64_C (0)));
22722   __o = __builtin_aarch64_set_qregoiv4sf (__o, (float32x4_t) temp.val[0], 0);
22723   __o = __builtin_aarch64_set_qregoiv4sf (__o, (float32x4_t) temp.val[1], 1);
22724   __builtin_aarch64_st2v2sf ((__builtin_aarch64_simd_sf *) __a, __o);
22725 }
22726
22727 __extension__ static __inline void __attribute__ ((__always_inline__))
22728 vst2q_s8 (int8_t * __a, int8x16x2_t val)
22729 {
22730   __builtin_aarch64_simd_oi __o;
22731   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) val.val[0], 0);
22732   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) val.val[1], 1);
22733   __builtin_aarch64_st2v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
22734 }
22735
22736 __extension__ static __inline void __attribute__ ((__always_inline__))
22737 vst2q_p8 (poly8_t * __a, poly8x16x2_t val)
22738 {
22739   __builtin_aarch64_simd_oi __o;
22740   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) val.val[0], 0);
22741   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) val.val[1], 1);
22742   __builtin_aarch64_st2v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
22743 }
22744
22745 __extension__ static __inline void __attribute__ ((__always_inline__))
22746 vst2q_s16 (int16_t * __a, int16x8x2_t val)
22747 {
22748   __builtin_aarch64_simd_oi __o;
22749   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) val.val[0], 0);
22750   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) val.val[1], 1);
22751   __builtin_aarch64_st2v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
22752 }
22753
22754 __extension__ static __inline void __attribute__ ((__always_inline__))
22755 vst2q_p16 (poly16_t * __a, poly16x8x2_t val)
22756 {
22757   __builtin_aarch64_simd_oi __o;
22758   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) val.val[0], 0);
22759   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) val.val[1], 1);
22760   __builtin_aarch64_st2v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
22761 }
22762
22763 __extension__ static __inline void __attribute__ ((__always_inline__))
22764 vst2q_s32 (int32_t * __a, int32x4x2_t val)
22765 {
22766   __builtin_aarch64_simd_oi __o;
22767   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) val.val[0], 0);
22768   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) val.val[1], 1);
22769   __builtin_aarch64_st2v4si ((__builtin_aarch64_simd_si *) __a, __o);
22770 }
22771
22772 __extension__ static __inline void __attribute__ ((__always_inline__))
22773 vst2q_s64 (int64_t * __a, int64x2x2_t val)
22774 {
22775   __builtin_aarch64_simd_oi __o;
22776   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) val.val[0], 0);
22777   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) val.val[1], 1);
22778   __builtin_aarch64_st2v2di ((__builtin_aarch64_simd_di *) __a, __o);
22779 }
22780
22781 __extension__ static __inline void __attribute__ ((__always_inline__))
22782 vst2q_u8 (uint8_t * __a, uint8x16x2_t val)
22783 {
22784   __builtin_aarch64_simd_oi __o;
22785   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) val.val[0], 0);
22786   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) val.val[1], 1);
22787   __builtin_aarch64_st2v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
22788 }
22789
22790 __extension__ static __inline void __attribute__ ((__always_inline__))
22791 vst2q_u16 (uint16_t * __a, uint16x8x2_t val)
22792 {
22793   __builtin_aarch64_simd_oi __o;
22794   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) val.val[0], 0);
22795   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) val.val[1], 1);
22796   __builtin_aarch64_st2v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
22797 }
22798
22799 __extension__ static __inline void __attribute__ ((__always_inline__))
22800 vst2q_u32 (uint32_t * __a, uint32x4x2_t val)
22801 {
22802   __builtin_aarch64_simd_oi __o;
22803   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) val.val[0], 0);
22804   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) val.val[1], 1);
22805   __builtin_aarch64_st2v4si ((__builtin_aarch64_simd_si *) __a, __o);
22806 }
22807
22808 __extension__ static __inline void __attribute__ ((__always_inline__))
22809 vst2q_u64 (uint64_t * __a, uint64x2x2_t val)
22810 {
22811   __builtin_aarch64_simd_oi __o;
22812   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) val.val[0], 0);
22813   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) val.val[1], 1);
22814   __builtin_aarch64_st2v2di ((__builtin_aarch64_simd_di *) __a, __o);
22815 }
22816
22817 __extension__ static __inline void __attribute__ ((__always_inline__))
22818 vst2q_f32 (float32_t * __a, float32x4x2_t val)
22819 {
22820   __builtin_aarch64_simd_oi __o;
22821   __o = __builtin_aarch64_set_qregoiv4sf (__o, (float32x4_t) val.val[0], 0);
22822   __o = __builtin_aarch64_set_qregoiv4sf (__o, (float32x4_t) val.val[1], 1);
22823   __builtin_aarch64_st2v4sf ((__builtin_aarch64_simd_sf *) __a, __o);
22824 }
22825
22826 __extension__ static __inline void __attribute__ ((__always_inline__))
22827 vst2q_f64 (float64_t * __a, float64x2x2_t val)
22828 {
22829   __builtin_aarch64_simd_oi __o;
22830   __o = __builtin_aarch64_set_qregoiv2df (__o, (float64x2_t) val.val[0], 0);
22831   __o = __builtin_aarch64_set_qregoiv2df (__o, (float64x2_t) val.val[1], 1);
22832   __builtin_aarch64_st2v2df ((__builtin_aarch64_simd_df *) __a, __o);
22833 }
22834
22835 __extension__ static __inline void
22836 vst3_s64 (int64_t * __a, int64x1x3_t val)
22837 {
22838   __builtin_aarch64_simd_ci __o;
22839   int64x2x3_t temp;
22840   temp.val[0] = vcombine_s64 (val.val[0], vcreate_s64 (__AARCH64_INT64_C (0)));
22841   temp.val[1] = vcombine_s64 (val.val[1], vcreate_s64 (__AARCH64_INT64_C (0)));
22842   temp.val[2] = vcombine_s64 (val.val[2], vcreate_s64 (__AARCH64_INT64_C (0)));
22843   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) temp.val[0], 0);
22844   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) temp.val[1], 1);
22845   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) temp.val[2], 2);
22846   __builtin_aarch64_st3di ((__builtin_aarch64_simd_di *) __a, __o);
22847 }
22848
22849 __extension__ static __inline void
22850 vst3_u64 (uint64_t * __a, uint64x1x3_t val)
22851 {
22852   __builtin_aarch64_simd_ci __o;
22853   uint64x2x3_t temp;
22854   temp.val[0] = vcombine_u64 (val.val[0], vcreate_u64 (__AARCH64_UINT64_C (0)));
22855   temp.val[1] = vcombine_u64 (val.val[1], vcreate_u64 (__AARCH64_UINT64_C (0)));
22856   temp.val[2] = vcombine_u64 (val.val[2], vcreate_u64 (__AARCH64_UINT64_C (0)));
22857   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) temp.val[0], 0);
22858   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) temp.val[1], 1);
22859   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) temp.val[2], 2);
22860   __builtin_aarch64_st3di ((__builtin_aarch64_simd_di *) __a, __o);
22861 }
22862
22863 __extension__ static __inline void
22864 vst3_f64 (float64_t * __a, float64x1x3_t val)
22865 {
22866   __builtin_aarch64_simd_ci __o;
22867   float64x2x3_t temp;
22868   temp.val[0] = vcombine_f64 (val.val[0], vcreate_f64 (__AARCH64_UINT64_C (0)));
22869   temp.val[1] = vcombine_f64 (val.val[1], vcreate_f64 (__AARCH64_UINT64_C (0)));
22870   temp.val[2] = vcombine_f64 (val.val[2], vcreate_f64 (__AARCH64_UINT64_C (0)));
22871   __o = __builtin_aarch64_set_qregciv2df (__o, (float64x2_t) temp.val[0], 0);
22872   __o = __builtin_aarch64_set_qregciv2df (__o, (float64x2_t) temp.val[1], 1);
22873   __o = __builtin_aarch64_set_qregciv2df (__o, (float64x2_t) temp.val[2], 2);
22874   __builtin_aarch64_st3df ((__builtin_aarch64_simd_df *) __a, __o);
22875 }
22876
22877 __extension__ static __inline void
22878 vst3_s8 (int8_t * __a, int8x8x3_t val)
22879 {
22880   __builtin_aarch64_simd_ci __o;
22881   int8x16x3_t temp;
22882   temp.val[0] = vcombine_s8 (val.val[0], vcreate_s8 (__AARCH64_INT64_C (0)));
22883   temp.val[1] = vcombine_s8 (val.val[1], vcreate_s8 (__AARCH64_INT64_C (0)));
22884   temp.val[2] = vcombine_s8 (val.val[2], vcreate_s8 (__AARCH64_INT64_C (0)));
22885   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[0], 0);
22886   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[1], 1);
22887   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[2], 2);
22888   __builtin_aarch64_st3v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
22889 }
22890
22891 __extension__ static __inline void __attribute__ ((__always_inline__))
22892 vst3_p8 (poly8_t * __a, poly8x8x3_t val)
22893 {
22894   __builtin_aarch64_simd_ci __o;
22895   poly8x16x3_t temp;
22896   temp.val[0] = vcombine_p8 (val.val[0], vcreate_p8 (__AARCH64_UINT64_C (0)));
22897   temp.val[1] = vcombine_p8 (val.val[1], vcreate_p8 (__AARCH64_UINT64_C (0)));
22898   temp.val[2] = vcombine_p8 (val.val[2], vcreate_p8 (__AARCH64_UINT64_C (0)));
22899   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[0], 0);
22900   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[1], 1);
22901   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[2], 2);
22902   __builtin_aarch64_st3v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
22903 }
22904
22905 __extension__ static __inline void __attribute__ ((__always_inline__))
22906 vst3_s16 (int16_t * __a, int16x4x3_t val)
22907 {
22908   __builtin_aarch64_simd_ci __o;
22909   int16x8x3_t temp;
22910   temp.val[0] = vcombine_s16 (val.val[0], vcreate_s16 (__AARCH64_INT64_C (0)));
22911   temp.val[1] = vcombine_s16 (val.val[1], vcreate_s16 (__AARCH64_INT64_C (0)));
22912   temp.val[2] = vcombine_s16 (val.val[2], vcreate_s16 (__AARCH64_INT64_C (0)));
22913   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[0], 0);
22914   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[1], 1);
22915   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[2], 2);
22916   __builtin_aarch64_st3v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
22917 }
22918
22919 __extension__ static __inline void __attribute__ ((__always_inline__))
22920 vst3_p16 (poly16_t * __a, poly16x4x3_t val)
22921 {
22922   __builtin_aarch64_simd_ci __o;
22923   poly16x8x3_t temp;
22924   temp.val[0] = vcombine_p16 (val.val[0], vcreate_p16 (__AARCH64_UINT64_C (0)));
22925   temp.val[1] = vcombine_p16 (val.val[1], vcreate_p16 (__AARCH64_UINT64_C (0)));
22926   temp.val[2] = vcombine_p16 (val.val[2], vcreate_p16 (__AARCH64_UINT64_C (0)));
22927   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[0], 0);
22928   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[1], 1);
22929   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[2], 2);
22930   __builtin_aarch64_st3v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
22931 }
22932
22933 __extension__ static __inline void __attribute__ ((__always_inline__))
22934 vst3_s32 (int32_t * __a, int32x2x3_t val)
22935 {
22936   __builtin_aarch64_simd_ci __o;
22937   int32x4x3_t temp;
22938   temp.val[0] = vcombine_s32 (val.val[0], vcreate_s32 (__AARCH64_INT64_C (0)));
22939   temp.val[1] = vcombine_s32 (val.val[1], vcreate_s32 (__AARCH64_INT64_C (0)));
22940   temp.val[2] = vcombine_s32 (val.val[2], vcreate_s32 (__AARCH64_INT64_C (0)));
22941   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) temp.val[0], 0);
22942   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) temp.val[1], 1);
22943   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) temp.val[2], 2);
22944   __builtin_aarch64_st3v2si ((__builtin_aarch64_simd_si *) __a, __o);
22945 }
22946
22947 __extension__ static __inline void __attribute__ ((__always_inline__))
22948 vst3_u8 (uint8_t * __a, uint8x8x3_t val)
22949 {
22950   __builtin_aarch64_simd_ci __o;
22951   uint8x16x3_t temp;
22952   temp.val[0] = vcombine_u8 (val.val[0], vcreate_u8 (__AARCH64_UINT64_C (0)));
22953   temp.val[1] = vcombine_u8 (val.val[1], vcreate_u8 (__AARCH64_UINT64_C (0)));
22954   temp.val[2] = vcombine_u8 (val.val[2], vcreate_u8 (__AARCH64_UINT64_C (0)));
22955   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[0], 0);
22956   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[1], 1);
22957   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[2], 2);
22958   __builtin_aarch64_st3v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
22959 }
22960
22961 __extension__ static __inline void __attribute__ ((__always_inline__))
22962 vst3_u16 (uint16_t * __a, uint16x4x3_t val)
22963 {
22964   __builtin_aarch64_simd_ci __o;
22965   uint16x8x3_t temp;
22966   temp.val[0] = vcombine_u16 (val.val[0], vcreate_u16 (__AARCH64_UINT64_C (0)));
22967   temp.val[1] = vcombine_u16 (val.val[1], vcreate_u16 (__AARCH64_UINT64_C (0)));
22968   temp.val[2] = vcombine_u16 (val.val[2], vcreate_u16 (__AARCH64_UINT64_C (0)));
22969   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[0], 0);
22970   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[1], 1);
22971   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[2], 2);
22972   __builtin_aarch64_st3v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
22973 }
22974
22975 __extension__ static __inline void __attribute__ ((__always_inline__))
22976 vst3_u32 (uint32_t * __a, uint32x2x3_t val)
22977 {
22978   __builtin_aarch64_simd_ci __o;
22979   uint32x4x3_t temp;
22980   temp.val[0] = vcombine_u32 (val.val[0], vcreate_u32 (__AARCH64_UINT64_C (0)));
22981   temp.val[1] = vcombine_u32 (val.val[1], vcreate_u32 (__AARCH64_UINT64_C (0)));
22982   temp.val[2] = vcombine_u32 (val.val[2], vcreate_u32 (__AARCH64_UINT64_C (0)));
22983   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) temp.val[0], 0);
22984   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) temp.val[1], 1);
22985   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) temp.val[2], 2);
22986   __builtin_aarch64_st3v2si ((__builtin_aarch64_simd_si *) __a, __o);
22987 }
22988
22989 __extension__ static __inline void __attribute__ ((__always_inline__))
22990 vst3_f32 (float32_t * __a, float32x2x3_t val)
22991 {
22992   __builtin_aarch64_simd_ci __o;
22993   float32x4x3_t temp;
22994   temp.val[0] = vcombine_f32 (val.val[0], vcreate_f32 (__AARCH64_UINT64_C (0)));
22995   temp.val[1] = vcombine_f32 (val.val[1], vcreate_f32 (__AARCH64_UINT64_C (0)));
22996   temp.val[2] = vcombine_f32 (val.val[2], vcreate_f32 (__AARCH64_UINT64_C (0)));
22997   __o = __builtin_aarch64_set_qregciv4sf (__o, (float32x4_t) temp.val[0], 0);
22998   __o = __builtin_aarch64_set_qregciv4sf (__o, (float32x4_t) temp.val[1], 1);
22999   __o = __builtin_aarch64_set_qregciv4sf (__o, (float32x4_t) temp.val[2], 2);
23000   __builtin_aarch64_st3v2sf ((__builtin_aarch64_simd_sf *) __a, __o);
23001 }
23002
23003 __extension__ static __inline void __attribute__ ((__always_inline__))
23004 vst3q_s8 (int8_t * __a, int8x16x3_t val)
23005 {
23006   __builtin_aarch64_simd_ci __o;
23007   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[0], 0);
23008   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[1], 1);
23009   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[2], 2);
23010   __builtin_aarch64_st3v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
23011 }
23012
23013 __extension__ static __inline void __attribute__ ((__always_inline__))
23014 vst3q_p8 (poly8_t * __a, poly8x16x3_t val)
23015 {
23016   __builtin_aarch64_simd_ci __o;
23017   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[0], 0);
23018   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[1], 1);
23019   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[2], 2);
23020   __builtin_aarch64_st3v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
23021 }
23022
23023 __extension__ static __inline void __attribute__ ((__always_inline__))
23024 vst3q_s16 (int16_t * __a, int16x8x3_t val)
23025 {
23026   __builtin_aarch64_simd_ci __o;
23027   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[0], 0);
23028   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[1], 1);
23029   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[2], 2);
23030   __builtin_aarch64_st3v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
23031 }
23032
23033 __extension__ static __inline void __attribute__ ((__always_inline__))
23034 vst3q_p16 (poly16_t * __a, poly16x8x3_t val)
23035 {
23036   __builtin_aarch64_simd_ci __o;
23037   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[0], 0);
23038   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[1], 1);
23039   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[2], 2);
23040   __builtin_aarch64_st3v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
23041 }
23042
23043 __extension__ static __inline void __attribute__ ((__always_inline__))
23044 vst3q_s32 (int32_t * __a, int32x4x3_t val)
23045 {
23046   __builtin_aarch64_simd_ci __o;
23047   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) val.val[0], 0);
23048   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) val.val[1], 1);
23049   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) val.val[2], 2);
23050   __builtin_aarch64_st3v4si ((__builtin_aarch64_simd_si *) __a, __o);
23051 }
23052
23053 __extension__ static __inline void __attribute__ ((__always_inline__))
23054 vst3q_s64 (int64_t * __a, int64x2x3_t val)
23055 {
23056   __builtin_aarch64_simd_ci __o;
23057   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) val.val[0], 0);
23058   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) val.val[1], 1);
23059   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) val.val[2], 2);
23060   __builtin_aarch64_st3v2di ((__builtin_aarch64_simd_di *) __a, __o);
23061 }
23062
23063 __extension__ static __inline void __attribute__ ((__always_inline__))
23064 vst3q_u8 (uint8_t * __a, uint8x16x3_t val)
23065 {
23066   __builtin_aarch64_simd_ci __o;
23067   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[0], 0);
23068   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[1], 1);
23069   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[2], 2);
23070   __builtin_aarch64_st3v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
23071 }
23072
23073 __extension__ static __inline void __attribute__ ((__always_inline__))
23074 vst3q_u16 (uint16_t * __a, uint16x8x3_t val)
23075 {
23076   __builtin_aarch64_simd_ci __o;
23077   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[0], 0);
23078   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[1], 1);
23079   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[2], 2);
23080   __builtin_aarch64_st3v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
23081 }
23082
23083 __extension__ static __inline void __attribute__ ((__always_inline__))
23084 vst3q_u32 (uint32_t * __a, uint32x4x3_t val)
23085 {
23086   __builtin_aarch64_simd_ci __o;
23087   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) val.val[0], 0);
23088   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) val.val[1], 1);
23089   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) val.val[2], 2);
23090   __builtin_aarch64_st3v4si ((__builtin_aarch64_simd_si *) __a, __o);
23091 }
23092
23093 __extension__ static __inline void __attribute__ ((__always_inline__))
23094 vst3q_u64 (uint64_t * __a, uint64x2x3_t val)
23095 {
23096   __builtin_aarch64_simd_ci __o;
23097   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) val.val[0], 0);
23098   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) val.val[1], 1);
23099   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) val.val[2], 2);
23100   __builtin_aarch64_st3v2di ((__builtin_aarch64_simd_di *) __a, __o);
23101 }
23102
23103 __extension__ static __inline void __attribute__ ((__always_inline__))
23104 vst3q_f32 (float32_t * __a, float32x4x3_t val)
23105 {
23106   __builtin_aarch64_simd_ci __o;
23107   __o = __builtin_aarch64_set_qregciv4sf (__o, (float32x4_t) val.val[0], 0);
23108   __o = __builtin_aarch64_set_qregciv4sf (__o, (float32x4_t) val.val[1], 1);
23109   __o = __builtin_aarch64_set_qregciv4sf (__o, (float32x4_t) val.val[2], 2);
23110   __builtin_aarch64_st3v4sf ((__builtin_aarch64_simd_sf *) __a, __o);
23111 }
23112
23113 __extension__ static __inline void __attribute__ ((__always_inline__))
23114 vst3q_f64 (float64_t * __a, float64x2x3_t val)
23115 {
23116   __builtin_aarch64_simd_ci __o;
23117   __o = __builtin_aarch64_set_qregciv2df (__o, (float64x2_t) val.val[0], 0);
23118   __o = __builtin_aarch64_set_qregciv2df (__o, (float64x2_t) val.val[1], 1);
23119   __o = __builtin_aarch64_set_qregciv2df (__o, (float64x2_t) val.val[2], 2);
23120   __builtin_aarch64_st3v2df ((__builtin_aarch64_simd_df *) __a, __o);
23121 }
23122
23123 __extension__ static __inline void
23124 vst4_s64 (int64_t * __a, int64x1x4_t val)
23125 {
23126   __builtin_aarch64_simd_xi __o;
23127   int64x2x4_t temp;
23128   temp.val[0] = vcombine_s64 (val.val[0], vcreate_s64 (__AARCH64_INT64_C (0)));
23129   temp.val[1] = vcombine_s64 (val.val[1], vcreate_s64 (__AARCH64_INT64_C (0)));
23130   temp.val[2] = vcombine_s64 (val.val[2], vcreate_s64 (__AARCH64_INT64_C (0)));
23131   temp.val[3] = vcombine_s64 (val.val[3], vcreate_s64 (__AARCH64_INT64_C (0)));
23132   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[0], 0);
23133   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[1], 1);
23134   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[2], 2);
23135   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[3], 3);
23136   __builtin_aarch64_st4di ((__builtin_aarch64_simd_di *) __a, __o);
23137 }
23138
23139 __extension__ static __inline void
23140 vst4_u64 (uint64_t * __a, uint64x1x4_t val)
23141 {
23142   __builtin_aarch64_simd_xi __o;
23143   uint64x2x4_t temp;
23144   temp.val[0] = vcombine_u64 (val.val[0], vcreate_u64 (__AARCH64_UINT64_C (0)));
23145   temp.val[1] = vcombine_u64 (val.val[1], vcreate_u64 (__AARCH64_UINT64_C (0)));
23146   temp.val[2] = vcombine_u64 (val.val[2], vcreate_u64 (__AARCH64_UINT64_C (0)));
23147   temp.val[3] = vcombine_u64 (val.val[3], vcreate_u64 (__AARCH64_UINT64_C (0)));
23148   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[0], 0);
23149   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[1], 1);
23150   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[2], 2);
23151   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[3], 3);
23152   __builtin_aarch64_st4di ((__builtin_aarch64_simd_di *) __a, __o);
23153 }
23154
23155 __extension__ static __inline void
23156 vst4_f64 (float64_t * __a, float64x1x4_t val)
23157 {
23158   __builtin_aarch64_simd_xi __o;
23159   float64x2x4_t temp;
23160   temp.val[0] = vcombine_f64 (val.val[0], vcreate_f64 (__AARCH64_UINT64_C (0)));
23161   temp.val[1] = vcombine_f64 (val.val[1], vcreate_f64 (__AARCH64_UINT64_C (0)));
23162   temp.val[2] = vcombine_f64 (val.val[2], vcreate_f64 (__AARCH64_UINT64_C (0)));
23163   temp.val[3] = vcombine_f64 (val.val[3], vcreate_f64 (__AARCH64_UINT64_C (0)));
23164   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) temp.val[0], 0);
23165   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) temp.val[1], 1);
23166   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) temp.val[2], 2);
23167   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) temp.val[3], 3);
23168   __builtin_aarch64_st4df ((__builtin_aarch64_simd_df *) __a, __o);
23169 }
23170
23171 __extension__ static __inline void
23172 vst4_s8 (int8_t * __a, int8x8x4_t val)
23173 {
23174   __builtin_aarch64_simd_xi __o;
23175   int8x16x4_t temp;
23176   temp.val[0] = vcombine_s8 (val.val[0], vcreate_s8 (__AARCH64_INT64_C (0)));
23177   temp.val[1] = vcombine_s8 (val.val[1], vcreate_s8 (__AARCH64_INT64_C (0)));
23178   temp.val[2] = vcombine_s8 (val.val[2], vcreate_s8 (__AARCH64_INT64_C (0)));
23179   temp.val[3] = vcombine_s8 (val.val[3], vcreate_s8 (__AARCH64_INT64_C (0)));
23180   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[0], 0);
23181   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[1], 1);
23182   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[2], 2);
23183   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[3], 3);
23184   __builtin_aarch64_st4v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
23185 }
23186
23187 __extension__ static __inline void __attribute__ ((__always_inline__))
23188 vst4_p8 (poly8_t * __a, poly8x8x4_t val)
23189 {
23190   __builtin_aarch64_simd_xi __o;
23191   poly8x16x4_t temp;
23192   temp.val[0] = vcombine_p8 (val.val[0], vcreate_p8 (__AARCH64_UINT64_C (0)));
23193   temp.val[1] = vcombine_p8 (val.val[1], vcreate_p8 (__AARCH64_UINT64_C (0)));
23194   temp.val[2] = vcombine_p8 (val.val[2], vcreate_p8 (__AARCH64_UINT64_C (0)));
23195   temp.val[3] = vcombine_p8 (val.val[3], vcreate_p8 (__AARCH64_UINT64_C (0)));
23196   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[0], 0);
23197   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[1], 1);
23198   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[2], 2);
23199   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[3], 3);
23200   __builtin_aarch64_st4v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
23201 }
23202
23203 __extension__ static __inline void __attribute__ ((__always_inline__))
23204 vst4_s16 (int16_t * __a, int16x4x4_t val)
23205 {
23206   __builtin_aarch64_simd_xi __o;
23207   int16x8x4_t temp;
23208   temp.val[0] = vcombine_s16 (val.val[0], vcreate_s16 (__AARCH64_INT64_C (0)));
23209   temp.val[1] = vcombine_s16 (val.val[1], vcreate_s16 (__AARCH64_INT64_C (0)));
23210   temp.val[2] = vcombine_s16 (val.val[2], vcreate_s16 (__AARCH64_INT64_C (0)));
23211   temp.val[3] = vcombine_s16 (val.val[3], vcreate_s16 (__AARCH64_INT64_C (0)));
23212   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[0], 0);
23213   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[1], 1);
23214   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[2], 2);
23215   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[3], 3);
23216   __builtin_aarch64_st4v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
23217 }
23218
23219 __extension__ static __inline void __attribute__ ((__always_inline__))
23220 vst4_p16 (poly16_t * __a, poly16x4x4_t val)
23221 {
23222   __builtin_aarch64_simd_xi __o;
23223   poly16x8x4_t temp;
23224   temp.val[0] = vcombine_p16 (val.val[0], vcreate_p16 (__AARCH64_UINT64_C (0)));
23225   temp.val[1] = vcombine_p16 (val.val[1], vcreate_p16 (__AARCH64_UINT64_C (0)));
23226   temp.val[2] = vcombine_p16 (val.val[2], vcreate_p16 (__AARCH64_UINT64_C (0)));
23227   temp.val[3] = vcombine_p16 (val.val[3], vcreate_p16 (__AARCH64_UINT64_C (0)));
23228   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[0], 0);
23229   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[1], 1);
23230   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[2], 2);
23231   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[3], 3);
23232   __builtin_aarch64_st4v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
23233 }
23234
23235 __extension__ static __inline void __attribute__ ((__always_inline__))
23236 vst4_s32 (int32_t * __a, int32x2x4_t val)
23237 {
23238   __builtin_aarch64_simd_xi __o;
23239   int32x4x4_t temp;
23240   temp.val[0] = vcombine_s32 (val.val[0], vcreate_s32 (__AARCH64_INT64_C (0)));
23241   temp.val[1] = vcombine_s32 (val.val[1], vcreate_s32 (__AARCH64_INT64_C (0)));
23242   temp.val[2] = vcombine_s32 (val.val[2], vcreate_s32 (__AARCH64_INT64_C (0)));
23243   temp.val[3] = vcombine_s32 (val.val[3], vcreate_s32 (__AARCH64_INT64_C (0)));
23244   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[0], 0);
23245   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[1], 1);
23246   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[2], 2);
23247   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[3], 3);
23248   __builtin_aarch64_st4v2si ((__builtin_aarch64_simd_si *) __a, __o);
23249 }
23250
23251 __extension__ static __inline void __attribute__ ((__always_inline__))
23252 vst4_u8 (uint8_t * __a, uint8x8x4_t val)
23253 {
23254   __builtin_aarch64_simd_xi __o;
23255   uint8x16x4_t temp;
23256   temp.val[0] = vcombine_u8 (val.val[0], vcreate_u8 (__AARCH64_UINT64_C (0)));
23257   temp.val[1] = vcombine_u8 (val.val[1], vcreate_u8 (__AARCH64_UINT64_C (0)));
23258   temp.val[2] = vcombine_u8 (val.val[2], vcreate_u8 (__AARCH64_UINT64_C (0)));
23259   temp.val[3] = vcombine_u8 (val.val[3], vcreate_u8 (__AARCH64_UINT64_C (0)));
23260   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[0], 0);
23261   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[1], 1);
23262   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[2], 2);
23263   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[3], 3);
23264   __builtin_aarch64_st4v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
23265 }
23266
23267 __extension__ static __inline void __attribute__ ((__always_inline__))
23268 vst4_u16 (uint16_t * __a, uint16x4x4_t val)
23269 {
23270   __builtin_aarch64_simd_xi __o;
23271   uint16x8x4_t temp;
23272   temp.val[0] = vcombine_u16 (val.val[0], vcreate_u16 (__AARCH64_UINT64_C (0)));
23273   temp.val[1] = vcombine_u16 (val.val[1], vcreate_u16 (__AARCH64_UINT64_C (0)));
23274   temp.val[2] = vcombine_u16 (val.val[2], vcreate_u16 (__AARCH64_UINT64_C (0)));
23275   temp.val[3] = vcombine_u16 (val.val[3], vcreate_u16 (__AARCH64_UINT64_C (0)));
23276   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[0], 0);
23277   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[1], 1);
23278   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[2], 2);
23279   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[3], 3);
23280   __builtin_aarch64_st4v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
23281 }
23282
23283 __extension__ static __inline void __attribute__ ((__always_inline__))
23284 vst4_u32 (uint32_t * __a, uint32x2x4_t val)
23285 {
23286   __builtin_aarch64_simd_xi __o;
23287   uint32x4x4_t temp;
23288   temp.val[0] = vcombine_u32 (val.val[0], vcreate_u32 (__AARCH64_UINT64_C (0)));
23289   temp.val[1] = vcombine_u32 (val.val[1], vcreate_u32 (__AARCH64_UINT64_C (0)));
23290   temp.val[2] = vcombine_u32 (val.val[2], vcreate_u32 (__AARCH64_UINT64_C (0)));
23291   temp.val[3] = vcombine_u32 (val.val[3], vcreate_u32 (__AARCH64_UINT64_C (0)));
23292   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[0], 0);
23293   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[1], 1);
23294   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[2], 2);
23295   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[3], 3);
23296   __builtin_aarch64_st4v2si ((__builtin_aarch64_simd_si *) __a, __o);
23297 }
23298
23299 __extension__ static __inline void __attribute__ ((__always_inline__))
23300 vst4_f32 (float32_t * __a, float32x2x4_t val)
23301 {
23302   __builtin_aarch64_simd_xi __o;
23303   float32x4x4_t temp;
23304   temp.val[0] = vcombine_f32 (val.val[0], vcreate_f32 (__AARCH64_UINT64_C (0)));
23305   temp.val[1] = vcombine_f32 (val.val[1], vcreate_f32 (__AARCH64_UINT64_C (0)));
23306   temp.val[2] = vcombine_f32 (val.val[2], vcreate_f32 (__AARCH64_UINT64_C (0)));
23307   temp.val[3] = vcombine_f32 (val.val[3], vcreate_f32 (__AARCH64_UINT64_C (0)));
23308   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) temp.val[0], 0);
23309   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) temp.val[1], 1);
23310   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) temp.val[2], 2);
23311   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) temp.val[3], 3);
23312   __builtin_aarch64_st4v2sf ((__builtin_aarch64_simd_sf *) __a, __o);
23313 }
23314
23315 __extension__ static __inline void __attribute__ ((__always_inline__))
23316 vst4q_s8 (int8_t * __a, int8x16x4_t val)
23317 {
23318   __builtin_aarch64_simd_xi __o;
23319   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[0], 0);
23320   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[1], 1);
23321   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[2], 2);
23322   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[3], 3);
23323   __builtin_aarch64_st4v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
23324 }
23325
23326 __extension__ static __inline void __attribute__ ((__always_inline__))
23327 vst4q_p8 (poly8_t * __a, poly8x16x4_t val)
23328 {
23329   __builtin_aarch64_simd_xi __o;
23330   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[0], 0);
23331   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[1], 1);
23332   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[2], 2);
23333   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[3], 3);
23334   __builtin_aarch64_st4v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
23335 }
23336
23337 __extension__ static __inline void __attribute__ ((__always_inline__))
23338 vst4q_s16 (int16_t * __a, int16x8x4_t val)
23339 {
23340   __builtin_aarch64_simd_xi __o;
23341   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[0], 0);
23342   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[1], 1);
23343   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[2], 2);
23344   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[3], 3);
23345   __builtin_aarch64_st4v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
23346 }
23347
23348 __extension__ static __inline void __attribute__ ((__always_inline__))
23349 vst4q_p16 (poly16_t * __a, poly16x8x4_t val)
23350 {
23351   __builtin_aarch64_simd_xi __o;
23352   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[0], 0);
23353   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[1], 1);
23354   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[2], 2);
23355   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[3], 3);
23356   __builtin_aarch64_st4v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
23357 }
23358
23359 __extension__ static __inline void __attribute__ ((__always_inline__))
23360 vst4q_s32 (int32_t * __a, int32x4x4_t val)
23361 {
23362   __builtin_aarch64_simd_xi __o;
23363   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[0], 0);
23364   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[1], 1);
23365   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[2], 2);
23366   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[3], 3);
23367   __builtin_aarch64_st4v4si ((__builtin_aarch64_simd_si *) __a, __o);
23368 }
23369
23370 __extension__ static __inline void __attribute__ ((__always_inline__))
23371 vst4q_s64 (int64_t * __a, int64x2x4_t val)
23372 {
23373   __builtin_aarch64_simd_xi __o;
23374   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[0], 0);
23375   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[1], 1);
23376   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[2], 2);
23377   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[3], 3);
23378   __builtin_aarch64_st4v2di ((__builtin_aarch64_simd_di *) __a, __o);
23379 }
23380
23381 __extension__ static __inline void __attribute__ ((__always_inline__))
23382 vst4q_u8 (uint8_t * __a, uint8x16x4_t val)
23383 {
23384   __builtin_aarch64_simd_xi __o;
23385   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[0], 0);
23386   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[1], 1);
23387   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[2], 2);
23388   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[3], 3);
23389   __builtin_aarch64_st4v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
23390 }
23391
23392 __extension__ static __inline void __attribute__ ((__always_inline__))
23393 vst4q_u16 (uint16_t * __a, uint16x8x4_t val)
23394 {
23395   __builtin_aarch64_simd_xi __o;
23396   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[0], 0);
23397   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[1], 1);
23398   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[2], 2);
23399   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[3], 3);
23400   __builtin_aarch64_st4v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
23401 }
23402
23403 __extension__ static __inline void __attribute__ ((__always_inline__))
23404 vst4q_u32 (uint32_t * __a, uint32x4x4_t val)
23405 {
23406   __builtin_aarch64_simd_xi __o;
23407   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[0], 0);
23408   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[1], 1);
23409   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[2], 2);
23410   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[3], 3);
23411   __builtin_aarch64_st4v4si ((__builtin_aarch64_simd_si *) __a, __o);
23412 }
23413
23414 __extension__ static __inline void __attribute__ ((__always_inline__))
23415 vst4q_u64 (uint64_t * __a, uint64x2x4_t val)
23416 {
23417   __builtin_aarch64_simd_xi __o;
23418   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[0], 0);
23419   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[1], 1);
23420   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[2], 2);
23421   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[3], 3);
23422   __builtin_aarch64_st4v2di ((__builtin_aarch64_simd_di *) __a, __o);
23423 }
23424
23425 __extension__ static __inline void __attribute__ ((__always_inline__))
23426 vst4q_f32 (float32_t * __a, float32x4x4_t val)
23427 {
23428   __builtin_aarch64_simd_xi __o;
23429   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) val.val[0], 0);
23430   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) val.val[1], 1);
23431   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) val.val[2], 2);
23432   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) val.val[3], 3);
23433   __builtin_aarch64_st4v4sf ((__builtin_aarch64_simd_sf *) __a, __o);
23434 }
23435
23436 __extension__ static __inline void __attribute__ ((__always_inline__))
23437 vst4q_f64 (float64_t * __a, float64x2x4_t val)
23438 {
23439   __builtin_aarch64_simd_xi __o;
23440   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) val.val[0], 0);
23441   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) val.val[1], 1);
23442   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) val.val[2], 2);
23443   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) val.val[3], 3);
23444   __builtin_aarch64_st4v2df ((__builtin_aarch64_simd_df *) __a, __o);
23445 }
23446
23447 /* vsub */
23448
23449 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
23450 vsubd_s64 (int64_t __a, int64_t __b)
23451 {
23452   return __a - __b;
23453 }
23454
23455 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
23456 vsubd_u64 (uint64_t __a, uint64_t __b)
23457 {
23458   return __a - __b;
23459 }
23460
23461 /* vtbx1  */
23462
23463 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
23464 vtbx1_s8 (int8x8_t __r, int8x8_t __tab, int8x8_t __idx)
23465 {
23466   uint8x8_t __mask = vclt_u8 (vreinterpret_u8_s8 (__idx),
23467                               vmov_n_u8 (8));
23468   int8x8_t __tbl = vtbl1_s8 (__tab, __idx);
23469
23470   return vbsl_s8 (__mask, __tbl, __r);
23471 }
23472
23473 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
23474 vtbx1_u8 (uint8x8_t __r, uint8x8_t __tab, uint8x8_t __idx)
23475 {
23476   uint8x8_t __mask = vclt_u8 (__idx, vmov_n_u8 (8));
23477   uint8x8_t __tbl = vtbl1_u8 (__tab, __idx);
23478
23479   return vbsl_u8 (__mask, __tbl, __r);
23480 }
23481
23482 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
23483 vtbx1_p8 (poly8x8_t __r, poly8x8_t __tab, uint8x8_t __idx)
23484 {
23485   uint8x8_t __mask = vclt_u8 (__idx, vmov_n_u8 (8));
23486   poly8x8_t __tbl = vtbl1_p8 (__tab, __idx);
23487
23488   return vbsl_p8 (__mask, __tbl, __r);
23489 }
23490
23491 /* vtbx3  */
23492
23493 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
23494 vtbx3_s8 (int8x8_t __r, int8x8x3_t __tab, int8x8_t __idx)
23495 {
23496   uint8x8_t __mask = vclt_u8 (vreinterpret_u8_s8 (__idx),
23497                               vmov_n_u8 (24));
23498   int8x8_t __tbl = vtbl3_s8 (__tab, __idx);
23499
23500   return vbsl_s8 (__mask, __tbl, __r);
23501 }
23502
23503 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
23504 vtbx3_u8 (uint8x8_t __r, uint8x8x3_t __tab, uint8x8_t __idx)
23505 {
23506   uint8x8_t __mask = vclt_u8 (__idx, vmov_n_u8 (24));
23507   uint8x8_t __tbl = vtbl3_u8 (__tab, __idx);
23508
23509   return vbsl_u8 (__mask, __tbl, __r);
23510 }
23511
23512 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
23513 vtbx3_p8 (poly8x8_t __r, poly8x8x3_t __tab, uint8x8_t __idx)
23514 {
23515   uint8x8_t __mask = vclt_u8 (__idx, vmov_n_u8 (24));
23516   poly8x8_t __tbl = vtbl3_p8 (__tab, __idx);
23517
23518   return vbsl_p8 (__mask, __tbl, __r);
23519 }
23520
23521 /* vtrn */
23522
23523 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
23524 vtrn1_f32 (float32x2_t __a, float32x2_t __b)
23525 {
23526 #ifdef __AARCH64EB__
23527   return __builtin_shuffle (__a, __b, (uint32x2_t) {3, 1});
23528 #else
23529   return __builtin_shuffle (__a, __b, (uint32x2_t) {0, 2});
23530 #endif
23531 }
23532
23533 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
23534 vtrn1_p8 (poly8x8_t __a, poly8x8_t __b)
23535 {
23536 #ifdef __AARCH64EB__
23537   return __builtin_shuffle (__a, __b, (uint8x8_t) {9, 1, 11, 3, 13, 5, 15, 7});
23538 #else
23539   return __builtin_shuffle (__a, __b, (uint8x8_t) {0, 8, 2, 10, 4, 12, 6, 14});
23540 #endif
23541 }
23542
23543 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
23544 vtrn1_p16 (poly16x4_t __a, poly16x4_t __b)
23545 {
23546 #ifdef __AARCH64EB__
23547   return __builtin_shuffle (__a, __b, (uint16x4_t) {5, 1, 7, 3});
23548 #else
23549   return __builtin_shuffle (__a, __b, (uint16x4_t) {0, 4, 2, 6});
23550 #endif
23551 }
23552
23553 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
23554 vtrn1_s8 (int8x8_t __a, int8x8_t __b)
23555 {
23556 #ifdef __AARCH64EB__
23557   return __builtin_shuffle (__a, __b, (uint8x8_t) {9, 1, 11, 3, 13, 5, 15, 7});
23558 #else
23559   return __builtin_shuffle (__a, __b, (uint8x8_t) {0, 8, 2, 10, 4, 12, 6, 14});
23560 #endif
23561 }
23562
23563 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
23564 vtrn1_s16 (int16x4_t __a, int16x4_t __b)
23565 {
23566 #ifdef __AARCH64EB__
23567   return __builtin_shuffle (__a, __b, (uint16x4_t) {5, 1, 7, 3});
23568 #else
23569   return __builtin_shuffle (__a, __b, (uint16x4_t) {0, 4, 2, 6});
23570 #endif
23571 }
23572
23573 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
23574 vtrn1_s32 (int32x2_t __a, int32x2_t __b)
23575 {
23576 #ifdef __AARCH64EB__
23577   return __builtin_shuffle (__a, __b, (uint32x2_t) {3, 1});
23578 #else
23579   return __builtin_shuffle (__a, __b, (uint32x2_t) {0, 2});
23580 #endif
23581 }
23582
23583 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
23584 vtrn1_u8 (uint8x8_t __a, uint8x8_t __b)
23585 {
23586 #ifdef __AARCH64EB__
23587   return __builtin_shuffle (__a, __b, (uint8x8_t) {9, 1, 11, 3, 13, 5, 15, 7});
23588 #else
23589   return __builtin_shuffle (__a, __b, (uint8x8_t) {0, 8, 2, 10, 4, 12, 6, 14});
23590 #endif
23591 }
23592
23593 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
23594 vtrn1_u16 (uint16x4_t __a, uint16x4_t __b)
23595 {
23596 #ifdef __AARCH64EB__
23597   return __builtin_shuffle (__a, __b, (uint16x4_t) {5, 1, 7, 3});
23598 #else
23599   return __builtin_shuffle (__a, __b, (uint16x4_t) {0, 4, 2, 6});
23600 #endif
23601 }
23602
23603 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
23604 vtrn1_u32 (uint32x2_t __a, uint32x2_t __b)
23605 {
23606 #ifdef __AARCH64EB__
23607   return __builtin_shuffle (__a, __b, (uint32x2_t) {3, 1});
23608 #else
23609   return __builtin_shuffle (__a, __b, (uint32x2_t) {0, 2});
23610 #endif
23611 }
23612
23613 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
23614 vtrn1q_f32 (float32x4_t __a, float32x4_t __b)
23615 {
23616 #ifdef __AARCH64EB__
23617   return __builtin_shuffle (__a, __b, (uint32x4_t) {5, 1, 7, 3});
23618 #else
23619   return __builtin_shuffle (__a, __b, (uint32x4_t) {0, 4, 2, 6});
23620 #endif
23621 }
23622
23623 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
23624 vtrn1q_f64 (float64x2_t __a, float64x2_t __b)
23625 {
23626 #ifdef __AARCH64EB__
23627   return __builtin_shuffle (__a, __b, (uint64x2_t) {3, 1});
23628 #else
23629   return __builtin_shuffle (__a, __b, (uint64x2_t) {0, 2});
23630 #endif
23631 }
23632
23633 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
23634 vtrn1q_p8 (poly8x16_t __a, poly8x16_t __b)
23635 {
23636 #ifdef __AARCH64EB__
23637   return __builtin_shuffle (__a, __b,
23638       (uint8x16_t) {17, 1, 19, 3, 21, 5, 23, 7, 25, 9, 27, 11, 29, 13, 31, 15});
23639 #else
23640   return __builtin_shuffle (__a, __b,
23641       (uint8x16_t) {0, 16, 2, 18, 4, 20, 6, 22, 8, 24, 10, 26, 12, 28, 14, 30});
23642 #endif
23643 }
23644
23645 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
23646 vtrn1q_p16 (poly16x8_t __a, poly16x8_t __b)
23647 {
23648 #ifdef __AARCH64EB__
23649   return __builtin_shuffle (__a, __b, (uint16x8_t) {9, 1, 11, 3, 13, 5, 15, 7});
23650 #else
23651   return __builtin_shuffle (__a, __b, (uint16x8_t) {0, 8, 2, 10, 4, 12, 6, 14});
23652 #endif
23653 }
23654
23655 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
23656 vtrn1q_s8 (int8x16_t __a, int8x16_t __b)
23657 {
23658 #ifdef __AARCH64EB__
23659   return __builtin_shuffle (__a, __b,
23660       (uint8x16_t) {17, 1, 19, 3, 21, 5, 23, 7, 25, 9, 27, 11, 29, 13, 31, 15});
23661 #else
23662   return __builtin_shuffle (__a, __b,
23663       (uint8x16_t) {0, 16, 2, 18, 4, 20, 6, 22, 8, 24, 10, 26, 12, 28, 14, 30});
23664 #endif
23665 }
23666
23667 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
23668 vtrn1q_s16 (int16x8_t __a, int16x8_t __b)
23669 {
23670 #ifdef __AARCH64EB__
23671   return __builtin_shuffle (__a, __b, (uint16x8_t) {9, 1, 11, 3, 13, 5, 15, 7});
23672 #else
23673   return __builtin_shuffle (__a, __b, (uint16x8_t) {0, 8, 2, 10, 4, 12, 6, 14});
23674 #endif
23675 }
23676
23677 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
23678 vtrn1q_s32 (int32x4_t __a, int32x4_t __b)
23679 {
23680 #ifdef __AARCH64EB__
23681   return __builtin_shuffle (__a, __b, (uint32x4_t) {5, 1, 7, 3});
23682 #else
23683   return __builtin_shuffle (__a, __b, (uint32x4_t) {0, 4, 2, 6});
23684 #endif
23685 }
23686
23687 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
23688 vtrn1q_s64 (int64x2_t __a, int64x2_t __b)
23689 {
23690 #ifdef __AARCH64EB__
23691   return __builtin_shuffle (__a, __b, (uint64x2_t) {3, 1});
23692 #else
23693   return __builtin_shuffle (__a, __b, (uint64x2_t) {0, 2});
23694 #endif
23695 }
23696
23697 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
23698 vtrn1q_u8 (uint8x16_t __a, uint8x16_t __b)
23699 {
23700 #ifdef __AARCH64EB__
23701   return __builtin_shuffle (__a, __b,
23702       (uint8x16_t) {17, 1, 19, 3, 21, 5, 23, 7, 25, 9, 27, 11, 29, 13, 31, 15});
23703 #else
23704   return __builtin_shuffle (__a, __b,
23705       (uint8x16_t) {0, 16, 2, 18, 4, 20, 6, 22, 8, 24, 10, 26, 12, 28, 14, 30});
23706 #endif
23707 }
23708
23709 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
23710 vtrn1q_u16 (uint16x8_t __a, uint16x8_t __b)
23711 {
23712 #ifdef __AARCH64EB__
23713   return __builtin_shuffle (__a, __b, (uint16x8_t) {9, 1, 11, 3, 13, 5, 15, 7});
23714 #else
23715   return __builtin_shuffle (__a, __b, (uint16x8_t) {0, 8, 2, 10, 4, 12, 6, 14});
23716 #endif
23717 }
23718
23719 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
23720 vtrn1q_u32 (uint32x4_t __a, uint32x4_t __b)
23721 {
23722 #ifdef __AARCH64EB__
23723   return __builtin_shuffle (__a, __b, (uint32x4_t) {5, 1, 7, 3});
23724 #else
23725   return __builtin_shuffle (__a, __b, (uint32x4_t) {0, 4, 2, 6});
23726 #endif
23727 }
23728
23729 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
23730 vtrn1q_u64 (uint64x2_t __a, uint64x2_t __b)
23731 {
23732 #ifdef __AARCH64EB__
23733   return __builtin_shuffle (__a, __b, (uint64x2_t) {3, 1});
23734 #else
23735   return __builtin_shuffle (__a, __b, (uint64x2_t) {0, 2});
23736 #endif
23737 }
23738
23739 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
23740 vtrn2_f32 (float32x2_t __a, float32x2_t __b)
23741 {
23742 #ifdef __AARCH64EB__
23743   return __builtin_shuffle (__a, __b, (uint32x2_t) {2, 0});
23744 #else
23745   return __builtin_shuffle (__a, __b, (uint32x2_t) {1, 3});
23746 #endif
23747 }
23748
23749 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
23750 vtrn2_p8 (poly8x8_t __a, poly8x8_t __b)
23751 {
23752 #ifdef __AARCH64EB__
23753   return __builtin_shuffle (__a, __b, (uint8x8_t) {8, 0, 10, 2, 12, 4, 14, 6});
23754 #else
23755   return __builtin_shuffle (__a, __b, (uint8x8_t) {1, 9, 3, 11, 5, 13, 7, 15});
23756 #endif
23757 }
23758
23759 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
23760 vtrn2_p16 (poly16x4_t __a, poly16x4_t __b)
23761 {
23762 #ifdef __AARCH64EB__
23763   return __builtin_shuffle (__a, __b, (uint16x4_t) {4, 0, 6, 2});
23764 #else
23765   return __builtin_shuffle (__a, __b, (uint16x4_t) {1, 5, 3, 7});
23766 #endif
23767 }
23768
23769 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
23770 vtrn2_s8 (int8x8_t __a, int8x8_t __b)
23771 {
23772 #ifdef __AARCH64EB__
23773   return __builtin_shuffle (__a, __b, (uint8x8_t) {8, 0, 10, 2, 12, 4, 14, 6});
23774 #else
23775   return __builtin_shuffle (__a, __b, (uint8x8_t) {1, 9, 3, 11, 5, 13, 7, 15});
23776 #endif
23777 }
23778
23779 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
23780 vtrn2_s16 (int16x4_t __a, int16x4_t __b)
23781 {
23782 #ifdef __AARCH64EB__
23783   return __builtin_shuffle (__a, __b, (uint16x4_t) {4, 0, 6, 2});
23784 #else
23785   return __builtin_shuffle (__a, __b, (uint16x4_t) {1, 5, 3, 7});
23786 #endif
23787 }
23788
23789 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
23790 vtrn2_s32 (int32x2_t __a, int32x2_t __b)
23791 {
23792 #ifdef __AARCH64EB__
23793   return __builtin_shuffle (__a, __b, (uint32x2_t) {2, 0});
23794 #else
23795   return __builtin_shuffle (__a, __b, (uint32x2_t) {1, 3});
23796 #endif
23797 }
23798
23799 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
23800 vtrn2_u8 (uint8x8_t __a, uint8x8_t __b)
23801 {
23802 #ifdef __AARCH64EB__
23803   return __builtin_shuffle (__a, __b, (uint8x8_t) {8, 0, 10, 2, 12, 4, 14, 6});
23804 #else
23805   return __builtin_shuffle (__a, __b, (uint8x8_t) {1, 9, 3, 11, 5, 13, 7, 15});
23806 #endif
23807 }
23808
23809 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
23810 vtrn2_u16 (uint16x4_t __a, uint16x4_t __b)
23811 {
23812 #ifdef __AARCH64EB__
23813   return __builtin_shuffle (__a, __b, (uint16x4_t) {4, 0, 6, 2});
23814 #else
23815   return __builtin_shuffle (__a, __b, (uint16x4_t) {1, 5, 3, 7});
23816 #endif
23817 }
23818
23819 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
23820 vtrn2_u32 (uint32x2_t __a, uint32x2_t __b)
23821 {
23822 #ifdef __AARCH64EB__
23823   return __builtin_shuffle (__a, __b, (uint32x2_t) {2, 0});
23824 #else
23825   return __builtin_shuffle (__a, __b, (uint32x2_t) {1, 3});
23826 #endif
23827 }
23828
23829 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
23830 vtrn2q_f32 (float32x4_t __a, float32x4_t __b)
23831 {
23832 #ifdef __AARCH64EB__
23833   return __builtin_shuffle (__a, __b, (uint32x4_t) {4, 0, 6, 2});
23834 #else
23835   return __builtin_shuffle (__a, __b, (uint32x4_t) {1, 5, 3, 7});
23836 #endif
23837 }
23838
23839 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
23840 vtrn2q_f64 (float64x2_t __a, float64x2_t __b)
23841 {
23842 #ifdef __AARCH64EB__
23843   return __builtin_shuffle (__a, __b, (uint64x2_t) {2, 0});
23844 #else
23845   return __builtin_shuffle (__a, __b, (uint64x2_t) {1, 3});
23846 #endif
23847 }
23848
23849 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
23850 vtrn2q_p8 (poly8x16_t __a, poly8x16_t __b)
23851 {
23852 #ifdef __AARCH64EB__
23853   return __builtin_shuffle (__a, __b,
23854       (uint8x16_t) {16, 0, 18, 2, 20, 4, 22, 6, 24, 8, 26, 10, 28, 12, 30, 14});
23855 #else
23856   return __builtin_shuffle (__a, __b,
23857       (uint8x16_t) {1, 17, 3, 19, 5, 21, 7, 23, 9, 25, 11, 27, 13, 29, 15, 31});
23858 #endif
23859 }
23860
23861 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
23862 vtrn2q_p16 (poly16x8_t __a, poly16x8_t __b)
23863 {
23864 #ifdef __AARCH64EB__
23865   return __builtin_shuffle (__a, __b, (uint16x8_t) {8, 0, 10, 2, 12, 4, 14, 6});
23866 #else
23867   return __builtin_shuffle (__a, __b, (uint16x8_t) {1, 9, 3, 11, 5, 13, 7, 15});
23868 #endif
23869 }
23870
23871 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
23872 vtrn2q_s8 (int8x16_t __a, int8x16_t __b)
23873 {
23874 #ifdef __AARCH64EB__
23875   return __builtin_shuffle (__a, __b,
23876       (uint8x16_t) {16, 0, 18, 2, 20, 4, 22, 6, 24, 8, 26, 10, 28, 12, 30, 14});
23877 #else
23878   return __builtin_shuffle (__a, __b,
23879       (uint8x16_t) {1, 17, 3, 19, 5, 21, 7, 23, 9, 25, 11, 27, 13, 29, 15, 31});
23880 #endif
23881 }
23882
23883 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
23884 vtrn2q_s16 (int16x8_t __a, int16x8_t __b)
23885 {
23886 #ifdef __AARCH64EB__
23887   return __builtin_shuffle (__a, __b, (uint16x8_t) {8, 0, 10, 2, 12, 4, 14, 6});
23888 #else
23889   return __builtin_shuffle (__a, __b, (uint16x8_t) {1, 9, 3, 11, 5, 13, 7, 15});
23890 #endif
23891 }
23892
23893 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
23894 vtrn2q_s32 (int32x4_t __a, int32x4_t __b)
23895 {
23896 #ifdef __AARCH64EB__
23897   return __builtin_shuffle (__a, __b, (uint32x4_t) {4, 0, 6, 2});
23898 #else
23899   return __builtin_shuffle (__a, __b, (uint32x4_t) {1, 5, 3, 7});
23900 #endif
23901 }
23902
23903 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
23904 vtrn2q_s64 (int64x2_t __a, int64x2_t __b)
23905 {
23906 #ifdef __AARCH64EB__
23907   return __builtin_shuffle (__a, __b, (uint64x2_t) {2, 0});
23908 #else
23909   return __builtin_shuffle (__a, __b, (uint64x2_t) {1, 3});
23910 #endif
23911 }
23912
23913 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
23914 vtrn2q_u8 (uint8x16_t __a, uint8x16_t __b)
23915 {
23916 #ifdef __AARCH64EB__
23917   return __builtin_shuffle (__a, __b,
23918       (uint8x16_t) {16, 0, 18, 2, 20, 4, 22, 6, 24, 8, 26, 10, 28, 12, 30, 14});
23919 #else
23920   return __builtin_shuffle (__a, __b,
23921       (uint8x16_t) {1, 17, 3, 19, 5, 21, 7, 23, 9, 25, 11, 27, 13, 29, 15, 31});
23922 #endif
23923 }
23924
23925 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
23926 vtrn2q_u16 (uint16x8_t __a, uint16x8_t __b)
23927 {
23928 #ifdef __AARCH64EB__
23929   return __builtin_shuffle (__a, __b, (uint16x8_t) {8, 0, 10, 2, 12, 4, 14, 6});
23930 #else
23931   return __builtin_shuffle (__a, __b, (uint16x8_t) {1, 9, 3, 11, 5, 13, 7, 15});
23932 #endif
23933 }
23934
23935 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
23936 vtrn2q_u32 (uint32x4_t __a, uint32x4_t __b)
23937 {
23938 #ifdef __AARCH64EB__
23939   return __builtin_shuffle (__a, __b, (uint32x4_t) {4, 0, 6, 2});
23940 #else
23941   return __builtin_shuffle (__a, __b, (uint32x4_t) {1, 5, 3, 7});
23942 #endif
23943 }
23944
23945 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
23946 vtrn2q_u64 (uint64x2_t __a, uint64x2_t __b)
23947 {
23948 #ifdef __AARCH64EB__
23949   return __builtin_shuffle (__a, __b, (uint64x2_t) {2, 0});
23950 #else
23951   return __builtin_shuffle (__a, __b, (uint64x2_t) {1, 3});
23952 #endif
23953 }
23954
23955 __extension__ static __inline float32x2x2_t __attribute__ ((__always_inline__))
23956 vtrn_f32 (float32x2_t a, float32x2_t b)
23957 {
23958   return (float32x2x2_t) {vtrn1_f32 (a, b), vtrn2_f32 (a, b)};
23959 }
23960
23961 __extension__ static __inline poly8x8x2_t __attribute__ ((__always_inline__))
23962 vtrn_p8 (poly8x8_t a, poly8x8_t b)
23963 {
23964   return (poly8x8x2_t) {vtrn1_p8 (a, b), vtrn2_p8 (a, b)};
23965 }
23966
23967 __extension__ static __inline poly16x4x2_t __attribute__ ((__always_inline__))
23968 vtrn_p16 (poly16x4_t a, poly16x4_t b)
23969 {
23970   return (poly16x4x2_t) {vtrn1_p16 (a, b), vtrn2_p16 (a, b)};
23971 }
23972
23973 __extension__ static __inline int8x8x2_t __attribute__ ((__always_inline__))
23974 vtrn_s8 (int8x8_t a, int8x8_t b)
23975 {
23976   return (int8x8x2_t) {vtrn1_s8 (a, b), vtrn2_s8 (a, b)};
23977 }
23978
23979 __extension__ static __inline int16x4x2_t __attribute__ ((__always_inline__))
23980 vtrn_s16 (int16x4_t a, int16x4_t b)
23981 {
23982   return (int16x4x2_t) {vtrn1_s16 (a, b), vtrn2_s16 (a, b)};
23983 }
23984
23985 __extension__ static __inline int32x2x2_t __attribute__ ((__always_inline__))
23986 vtrn_s32 (int32x2_t a, int32x2_t b)
23987 {
23988   return (int32x2x2_t) {vtrn1_s32 (a, b), vtrn2_s32 (a, b)};
23989 }
23990
23991 __extension__ static __inline uint8x8x2_t __attribute__ ((__always_inline__))
23992 vtrn_u8 (uint8x8_t a, uint8x8_t b)
23993 {
23994   return (uint8x8x2_t) {vtrn1_u8 (a, b), vtrn2_u8 (a, b)};
23995 }
23996
23997 __extension__ static __inline uint16x4x2_t __attribute__ ((__always_inline__))
23998 vtrn_u16 (uint16x4_t a, uint16x4_t b)
23999 {
24000   return (uint16x4x2_t) {vtrn1_u16 (a, b), vtrn2_u16 (a, b)};
24001 }
24002
24003 __extension__ static __inline uint32x2x2_t __attribute__ ((__always_inline__))
24004 vtrn_u32 (uint32x2_t a, uint32x2_t b)
24005 {
24006   return (uint32x2x2_t) {vtrn1_u32 (a, b), vtrn2_u32 (a, b)};
24007 }
24008
24009 __extension__ static __inline float32x4x2_t __attribute__ ((__always_inline__))
24010 vtrnq_f32 (float32x4_t a, float32x4_t b)
24011 {
24012   return (float32x4x2_t) {vtrn1q_f32 (a, b), vtrn2q_f32 (a, b)};
24013 }
24014
24015 __extension__ static __inline poly8x16x2_t __attribute__ ((__always_inline__))
24016 vtrnq_p8 (poly8x16_t a, poly8x16_t b)
24017 {
24018   return (poly8x16x2_t) {vtrn1q_p8 (a, b), vtrn2q_p8 (a, b)};
24019 }
24020
24021 __extension__ static __inline poly16x8x2_t __attribute__ ((__always_inline__))
24022 vtrnq_p16 (poly16x8_t a, poly16x8_t b)
24023 {
24024   return (poly16x8x2_t) {vtrn1q_p16 (a, b), vtrn2q_p16 (a, b)};
24025 }
24026
24027 __extension__ static __inline int8x16x2_t __attribute__ ((__always_inline__))
24028 vtrnq_s8 (int8x16_t a, int8x16_t b)
24029 {
24030   return (int8x16x2_t) {vtrn1q_s8 (a, b), vtrn2q_s8 (a, b)};
24031 }
24032
24033 __extension__ static __inline int16x8x2_t __attribute__ ((__always_inline__))
24034 vtrnq_s16 (int16x8_t a, int16x8_t b)
24035 {
24036   return (int16x8x2_t) {vtrn1q_s16 (a, b), vtrn2q_s16 (a, b)};
24037 }
24038
24039 __extension__ static __inline int32x4x2_t __attribute__ ((__always_inline__))
24040 vtrnq_s32 (int32x4_t a, int32x4_t b)
24041 {
24042   return (int32x4x2_t) {vtrn1q_s32 (a, b), vtrn2q_s32 (a, b)};
24043 }
24044
24045 __extension__ static __inline uint8x16x2_t __attribute__ ((__always_inline__))
24046 vtrnq_u8 (uint8x16_t a, uint8x16_t b)
24047 {
24048   return (uint8x16x2_t) {vtrn1q_u8 (a, b), vtrn2q_u8 (a, b)};
24049 }
24050
24051 __extension__ static __inline uint16x8x2_t __attribute__ ((__always_inline__))
24052 vtrnq_u16 (uint16x8_t a, uint16x8_t b)
24053 {
24054   return (uint16x8x2_t) {vtrn1q_u16 (a, b), vtrn2q_u16 (a, b)};
24055 }
24056
24057 __extension__ static __inline uint32x4x2_t __attribute__ ((__always_inline__))
24058 vtrnq_u32 (uint32x4_t a, uint32x4_t b)
24059 {
24060   return (uint32x4x2_t) {vtrn1q_u32 (a, b), vtrn2q_u32 (a, b)};
24061 }
24062
24063 /* vtst */
24064
24065 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
24066 vtst_s8 (int8x8_t __a, int8x8_t __b)
24067 {
24068   return (uint8x8_t) ((__a & __b) != 0);
24069 }
24070
24071 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
24072 vtst_s16 (int16x4_t __a, int16x4_t __b)
24073 {
24074   return (uint16x4_t) ((__a & __b) != 0);
24075 }
24076
24077 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
24078 vtst_s32 (int32x2_t __a, int32x2_t __b)
24079 {
24080   return (uint32x2_t) ((__a & __b) != 0);
24081 }
24082
24083 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
24084 vtst_s64 (int64x1_t __a, int64x1_t __b)
24085 {
24086   return (uint64x1_t) {(__a[0] & __b[0]) ? -1ll : 0ll};
24087 }
24088
24089 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
24090 vtst_u8 (uint8x8_t __a, uint8x8_t __b)
24091 {
24092   return ((__a & __b) != 0);
24093 }
24094
24095 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
24096 vtst_u16 (uint16x4_t __a, uint16x4_t __b)
24097 {
24098   return ((__a & __b) != 0);
24099 }
24100
24101 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
24102 vtst_u32 (uint32x2_t __a, uint32x2_t __b)
24103 {
24104   return ((__a & __b) != 0);
24105 }
24106
24107 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
24108 vtst_u64 (uint64x1_t __a, uint64x1_t __b)
24109 {
24110   return (uint64x1_t) {(__a[0] & __b[0]) ? -1ll : 0ll};
24111 }
24112
24113 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
24114 vtstq_s8 (int8x16_t __a, int8x16_t __b)
24115 {
24116   return (uint8x16_t) ((__a & __b) != 0);
24117 }
24118
24119 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
24120 vtstq_s16 (int16x8_t __a, int16x8_t __b)
24121 {
24122   return (uint16x8_t) ((__a & __b) != 0);
24123 }
24124
24125 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
24126 vtstq_s32 (int32x4_t __a, int32x4_t __b)
24127 {
24128   return (uint32x4_t) ((__a & __b) != 0);
24129 }
24130
24131 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
24132 vtstq_s64 (int64x2_t __a, int64x2_t __b)
24133 {
24134   return (uint64x2_t) ((__a & __b) != __AARCH64_INT64_C (0));
24135 }
24136
24137 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
24138 vtstq_u8 (uint8x16_t __a, uint8x16_t __b)
24139 {
24140   return ((__a & __b) != 0);
24141 }
24142
24143 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
24144 vtstq_u16 (uint16x8_t __a, uint16x8_t __b)
24145 {
24146   return ((__a & __b) != 0);
24147 }
24148
24149 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
24150 vtstq_u32 (uint32x4_t __a, uint32x4_t __b)
24151 {
24152   return ((__a & __b) != 0);
24153 }
24154
24155 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
24156 vtstq_u64 (uint64x2_t __a, uint64x2_t __b)
24157 {
24158   return ((__a & __b) != __AARCH64_UINT64_C (0));
24159 }
24160
24161 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
24162 vtstd_s64 (int64_t __a, int64_t __b)
24163 {
24164   return (__a & __b) ? -1ll : 0ll;
24165 }
24166
24167 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
24168 vtstd_u64 (uint64_t __a, uint64_t __b)
24169 {
24170   return (__a & __b) ? -1ll : 0ll;
24171 }
24172
24173 /* vuqadd */
24174
24175 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
24176 vuqadd_s8 (int8x8_t __a, uint8x8_t __b)
24177 {
24178   return __builtin_aarch64_suqaddv8qi_ssu (__a,  __b);
24179 }
24180
24181 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
24182 vuqadd_s16 (int16x4_t __a, uint16x4_t __b)
24183 {
24184   return __builtin_aarch64_suqaddv4hi_ssu (__a,  __b);
24185 }
24186
24187 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
24188 vuqadd_s32 (int32x2_t __a, uint32x2_t __b)
24189 {
24190   return __builtin_aarch64_suqaddv2si_ssu (__a,  __b);
24191 }
24192
24193 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
24194 vuqadd_s64 (int64x1_t __a, uint64x1_t __b)
24195 {
24196   return (int64x1_t) {__builtin_aarch64_suqadddi_ssu (__a[0], __b[0])};
24197 }
24198
24199 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
24200 vuqaddq_s8 (int8x16_t __a, uint8x16_t __b)
24201 {
24202   return __builtin_aarch64_suqaddv16qi_ssu (__a,  __b);
24203 }
24204
24205 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
24206 vuqaddq_s16 (int16x8_t __a, uint16x8_t __b)
24207 {
24208   return __builtin_aarch64_suqaddv8hi_ssu (__a,  __b);
24209 }
24210
24211 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
24212 vuqaddq_s32 (int32x4_t __a, uint32x4_t __b)
24213 {
24214   return __builtin_aarch64_suqaddv4si_ssu (__a,  __b);
24215 }
24216
24217 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
24218 vuqaddq_s64 (int64x2_t __a, uint64x2_t __b)
24219 {
24220   return __builtin_aarch64_suqaddv2di_ssu (__a,  __b);
24221 }
24222
24223 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
24224 vuqaddb_s8 (int8_t __a, uint8_t __b)
24225 {
24226   return __builtin_aarch64_suqaddqi_ssu (__a,  __b);
24227 }
24228
24229 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
24230 vuqaddh_s16 (int16_t __a, uint16_t __b)
24231 {
24232   return __builtin_aarch64_suqaddhi_ssu (__a,  __b);
24233 }
24234
24235 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
24236 vuqadds_s32 (int32_t __a, uint32_t __b)
24237 {
24238   return __builtin_aarch64_suqaddsi_ssu (__a,  __b);
24239 }
24240
24241 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
24242 vuqaddd_s64 (int64_t __a, uint64_t __b)
24243 {
24244   return __builtin_aarch64_suqadddi_ssu (__a,  __b);
24245 }
24246
24247 #define __DEFINTERLEAVE(op, rettype, intype, funcsuffix, Q)             \
24248   __extension__ static __inline rettype                                 \
24249   __attribute__ ((__always_inline__))                                   \
24250   v ## op ## Q ## _ ## funcsuffix (intype a, intype b)                  \
24251   {                                                                     \
24252     return (rettype) {v ## op ## 1 ## Q ## _ ## funcsuffix (a, b),      \
24253                       v ## op ## 2 ## Q ## _ ## funcsuffix (a, b)};     \
24254   }
24255
24256 #define __INTERLEAVE_LIST(op)                                   \
24257   __DEFINTERLEAVE (op, float32x2x2_t, float32x2_t, f32,)        \
24258   __DEFINTERLEAVE (op, poly8x8x2_t, poly8x8_t, p8,)             \
24259   __DEFINTERLEAVE (op, poly16x4x2_t, poly16x4_t, p16,)          \
24260   __DEFINTERLEAVE (op, int8x8x2_t, int8x8_t, s8,)               \
24261   __DEFINTERLEAVE (op, int16x4x2_t, int16x4_t, s16,)            \
24262   __DEFINTERLEAVE (op, int32x2x2_t, int32x2_t, s32,)            \
24263   __DEFINTERLEAVE (op, uint8x8x2_t, uint8x8_t, u8,)             \
24264   __DEFINTERLEAVE (op, uint16x4x2_t, uint16x4_t, u16,)          \
24265   __DEFINTERLEAVE (op, uint32x2x2_t, uint32x2_t, u32,)          \
24266   __DEFINTERLEAVE (op, float32x4x2_t, float32x4_t, f32, q)      \
24267   __DEFINTERLEAVE (op, poly8x16x2_t, poly8x16_t, p8, q)         \
24268   __DEFINTERLEAVE (op, poly16x8x2_t, poly16x8_t, p16, q)        \
24269   __DEFINTERLEAVE (op, int8x16x2_t, int8x16_t, s8, q)           \
24270   __DEFINTERLEAVE (op, int16x8x2_t, int16x8_t, s16, q)          \
24271   __DEFINTERLEAVE (op, int32x4x2_t, int32x4_t, s32, q)          \
24272   __DEFINTERLEAVE (op, uint8x16x2_t, uint8x16_t, u8, q)         \
24273   __DEFINTERLEAVE (op, uint16x8x2_t, uint16x8_t, u16, q)        \
24274   __DEFINTERLEAVE (op, uint32x4x2_t, uint32x4_t, u32, q)
24275
24276 /* vuzp */
24277
24278 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
24279 vuzp1_f32 (float32x2_t __a, float32x2_t __b)
24280 {
24281 #ifdef __AARCH64EB__
24282   return __builtin_shuffle (__a, __b, (uint32x2_t) {3, 1});
24283 #else
24284   return __builtin_shuffle (__a, __b, (uint32x2_t) {0, 2});
24285 #endif
24286 }
24287
24288 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
24289 vuzp1_p8 (poly8x8_t __a, poly8x8_t __b)
24290 {
24291 #ifdef __AARCH64EB__
24292   return __builtin_shuffle (__a, __b, (uint8x8_t) {9, 11, 13, 15, 1, 3, 5, 7});
24293 #else
24294   return __builtin_shuffle (__a, __b, (uint8x8_t) {0, 2, 4, 6, 8, 10, 12, 14});
24295 #endif
24296 }
24297
24298 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
24299 vuzp1_p16 (poly16x4_t __a, poly16x4_t __b)
24300 {
24301 #ifdef __AARCH64EB__
24302   return __builtin_shuffle (__a, __b, (uint16x4_t) {5, 7, 1, 3});
24303 #else
24304   return __builtin_shuffle (__a, __b, (uint16x4_t) {0, 2, 4, 6});
24305 #endif
24306 }
24307
24308 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
24309 vuzp1_s8 (int8x8_t __a, int8x8_t __b)
24310 {
24311 #ifdef __AARCH64EB__
24312   return __builtin_shuffle (__a, __b, (uint8x8_t) {9, 11, 13, 15, 1, 3, 5, 7});
24313 #else
24314   return __builtin_shuffle (__a, __b, (uint8x8_t) {0, 2, 4, 6, 8, 10, 12, 14});
24315 #endif
24316 }
24317
24318 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
24319 vuzp1_s16 (int16x4_t __a, int16x4_t __b)
24320 {
24321 #ifdef __AARCH64EB__
24322   return __builtin_shuffle (__a, __b, (uint16x4_t) {5, 7, 1, 3});
24323 #else
24324   return __builtin_shuffle (__a, __b, (uint16x4_t) {0, 2, 4, 6});
24325 #endif
24326 }
24327
24328 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
24329 vuzp1_s32 (int32x2_t __a, int32x2_t __b)
24330 {
24331 #ifdef __AARCH64EB__
24332   return __builtin_shuffle (__a, __b, (uint32x2_t) {3, 1});
24333 #else
24334   return __builtin_shuffle (__a, __b, (uint32x2_t) {0, 2});
24335 #endif
24336 }
24337
24338 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
24339 vuzp1_u8 (uint8x8_t __a, uint8x8_t __b)
24340 {
24341 #ifdef __AARCH64EB__
24342   return __builtin_shuffle (__a, __b, (uint8x8_t) {9, 11, 13, 15, 1, 3, 5, 7});
24343 #else
24344   return __builtin_shuffle (__a, __b, (uint8x8_t) {0, 2, 4, 6, 8, 10, 12, 14});
24345 #endif
24346 }
24347
24348 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
24349 vuzp1_u16 (uint16x4_t __a, uint16x4_t __b)
24350 {
24351 #ifdef __AARCH64EB__
24352   return __builtin_shuffle (__a, __b, (uint16x4_t) {5, 7, 1, 3});
24353 #else
24354   return __builtin_shuffle (__a, __b, (uint16x4_t) {0, 2, 4, 6});
24355 #endif
24356 }
24357
24358 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
24359 vuzp1_u32 (uint32x2_t __a, uint32x2_t __b)
24360 {
24361 #ifdef __AARCH64EB__
24362   return __builtin_shuffle (__a, __b, (uint32x2_t) {3, 1});
24363 #else
24364   return __builtin_shuffle (__a, __b, (uint32x2_t) {0, 2});
24365 #endif
24366 }
24367
24368 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
24369 vuzp1q_f32 (float32x4_t __a, float32x4_t __b)
24370 {
24371 #ifdef __AARCH64EB__
24372   return __builtin_shuffle (__a, __b, (uint32x4_t) {5, 7, 1, 3});
24373 #else
24374   return __builtin_shuffle (__a, __b, (uint32x4_t) {0, 2, 4, 6});
24375 #endif
24376 }
24377
24378 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
24379 vuzp1q_f64 (float64x2_t __a, float64x2_t __b)
24380 {
24381 #ifdef __AARCH64EB__
24382   return __builtin_shuffle (__a, __b, (uint64x2_t) {3, 1});
24383 #else
24384   return __builtin_shuffle (__a, __b, (uint64x2_t) {0, 2});
24385 #endif
24386 }
24387
24388 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
24389 vuzp1q_p8 (poly8x16_t __a, poly8x16_t __b)
24390 {
24391 #ifdef __AARCH64EB__
24392   return __builtin_shuffle (__a, __b, (uint8x16_t)
24393       {17, 19, 21, 23, 25, 27, 29, 31, 1, 3, 5, 7, 9, 11, 13, 15});
24394 #else
24395   return __builtin_shuffle (__a, __b, (uint8x16_t)
24396       {0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30});
24397 #endif
24398 }
24399
24400 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
24401 vuzp1q_p16 (poly16x8_t __a, poly16x8_t __b)
24402 {
24403 #ifdef __AARCH64EB__
24404   return __builtin_shuffle (__a, __b, (uint16x8_t) {9, 11, 13, 15, 1, 3, 5, 7});
24405 #else
24406   return __builtin_shuffle (__a, __b, (uint16x8_t) {0, 2, 4, 6, 8, 10, 12, 14});
24407 #endif
24408 }
24409
24410 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
24411 vuzp1q_s8 (int8x16_t __a, int8x16_t __b)
24412 {
24413 #ifdef __AARCH64EB__
24414   return __builtin_shuffle (__a, __b,
24415       (uint8x16_t) {17, 19, 21, 23, 25, 27, 29, 31, 1, 3, 5, 7, 9, 11, 13, 15});
24416 #else
24417   return __builtin_shuffle (__a, __b,
24418       (uint8x16_t) {0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30});
24419 #endif
24420 }
24421
24422 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
24423 vuzp1q_s16 (int16x8_t __a, int16x8_t __b)
24424 {
24425 #ifdef __AARCH64EB__
24426   return __builtin_shuffle (__a, __b, (uint16x8_t) {9, 11, 13, 15, 1, 3, 5, 7});
24427 #else
24428   return __builtin_shuffle (__a, __b, (uint16x8_t) {0, 2, 4, 6, 8, 10, 12, 14});
24429 #endif
24430 }
24431
24432 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
24433 vuzp1q_s32 (int32x4_t __a, int32x4_t __b)
24434 {
24435 #ifdef __AARCH64EB__
24436   return __builtin_shuffle (__a, __b, (uint32x4_t) {5, 7, 1, 3});
24437 #else
24438   return __builtin_shuffle (__a, __b, (uint32x4_t) {0, 2, 4, 6});
24439 #endif
24440 }
24441
24442 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
24443 vuzp1q_s64 (int64x2_t __a, int64x2_t __b)
24444 {
24445 #ifdef __AARCH64EB__
24446   return __builtin_shuffle (__a, __b, (uint64x2_t) {3, 1});
24447 #else
24448   return __builtin_shuffle (__a, __b, (uint64x2_t) {0, 2});
24449 #endif
24450 }
24451
24452 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
24453 vuzp1q_u8 (uint8x16_t __a, uint8x16_t __b)
24454 {
24455 #ifdef __AARCH64EB__
24456   return __builtin_shuffle (__a, __b,
24457       (uint8x16_t) {17, 19, 21, 23, 25, 27, 29, 31, 1, 3, 5, 7, 9, 11, 13, 15});
24458 #else
24459   return __builtin_shuffle (__a, __b,
24460       (uint8x16_t) {0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30});
24461 #endif
24462 }
24463
24464 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
24465 vuzp1q_u16 (uint16x8_t __a, uint16x8_t __b)
24466 {
24467 #ifdef __AARCH64EB__
24468   return __builtin_shuffle (__a, __b, (uint16x8_t) {9, 11, 13, 15, 1, 3, 5, 7});
24469 #else
24470   return __builtin_shuffle (__a, __b, (uint16x8_t) {0, 2, 4, 6, 8, 10, 12, 14});
24471 #endif
24472 }
24473
24474 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
24475 vuzp1q_u32 (uint32x4_t __a, uint32x4_t __b)
24476 {
24477 #ifdef __AARCH64EB__
24478   return __builtin_shuffle (__a, __b, (uint32x4_t) {5, 7, 1, 3});
24479 #else
24480   return __builtin_shuffle (__a, __b, (uint32x4_t) {0, 2, 4, 6});
24481 #endif
24482 }
24483
24484 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
24485 vuzp1q_u64 (uint64x2_t __a, uint64x2_t __b)
24486 {
24487 #ifdef __AARCH64EB__
24488   return __builtin_shuffle (__a, __b, (uint64x2_t) {3, 1});
24489 #else
24490   return __builtin_shuffle (__a, __b, (uint64x2_t) {0, 2});
24491 #endif
24492 }
24493
24494 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
24495 vuzp2_f32 (float32x2_t __a, float32x2_t __b)
24496 {
24497 #ifdef __AARCH64EB__
24498   return __builtin_shuffle (__a, __b, (uint32x2_t) {2, 0});
24499 #else
24500   return __builtin_shuffle (__a, __b, (uint32x2_t) {1, 3});
24501 #endif
24502 }
24503
24504 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
24505 vuzp2_p8 (poly8x8_t __a, poly8x8_t __b)
24506 {
24507 #ifdef __AARCH64EB__
24508   return __builtin_shuffle (__a, __b, (uint8x8_t) {8, 10, 12, 14, 0, 2, 4, 6});
24509 #else
24510   return __builtin_shuffle (__a, __b, (uint8x8_t) {1, 3, 5, 7, 9, 11, 13, 15});
24511 #endif
24512 }
24513
24514 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
24515 vuzp2_p16 (poly16x4_t __a, poly16x4_t __b)
24516 {
24517 #ifdef __AARCH64EB__
24518   return __builtin_shuffle (__a, __b, (uint16x4_t) {4, 6, 0, 2});
24519 #else
24520   return __builtin_shuffle (__a, __b, (uint16x4_t) {1, 3, 5, 7});
24521 #endif
24522 }
24523
24524 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
24525 vuzp2_s8 (int8x8_t __a, int8x8_t __b)
24526 {
24527 #ifdef __AARCH64EB__
24528   return __builtin_shuffle (__a, __b, (uint8x8_t) {8, 10, 12, 14, 0, 2, 4, 6});
24529 #else
24530   return __builtin_shuffle (__a, __b, (uint8x8_t) {1, 3, 5, 7, 9, 11, 13, 15});
24531 #endif
24532 }
24533
24534 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
24535 vuzp2_s16 (int16x4_t __a, int16x4_t __b)
24536 {
24537 #ifdef __AARCH64EB__
24538   return __builtin_shuffle (__a, __b, (uint16x4_t) {4, 6, 0, 2});
24539 #else
24540   return __builtin_shuffle (__a, __b, (uint16x4_t) {1, 3, 5, 7});
24541 #endif
24542 }
24543
24544 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
24545 vuzp2_s32 (int32x2_t __a, int32x2_t __b)
24546 {
24547 #ifdef __AARCH64EB__
24548   return __builtin_shuffle (__a, __b, (uint32x2_t) {2, 0});
24549 #else
24550   return __builtin_shuffle (__a, __b, (uint32x2_t) {1, 3});
24551 #endif
24552 }
24553
24554 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
24555 vuzp2_u8 (uint8x8_t __a, uint8x8_t __b)
24556 {
24557 #ifdef __AARCH64EB__
24558   return __builtin_shuffle (__a, __b, (uint8x8_t) {8, 10, 12, 14, 0, 2, 4, 6});
24559 #else
24560   return __builtin_shuffle (__a, __b, (uint8x8_t) {1, 3, 5, 7, 9, 11, 13, 15});
24561 #endif
24562 }
24563
24564 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
24565 vuzp2_u16 (uint16x4_t __a, uint16x4_t __b)
24566 {
24567 #ifdef __AARCH64EB__
24568   return __builtin_shuffle (__a, __b, (uint16x4_t) {4, 6, 0, 2});
24569 #else
24570   return __builtin_shuffle (__a, __b, (uint16x4_t) {1, 3, 5, 7});
24571 #endif
24572 }
24573
24574 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
24575 vuzp2_u32 (uint32x2_t __a, uint32x2_t __b)
24576 {
24577 #ifdef __AARCH64EB__
24578   return __builtin_shuffle (__a, __b, (uint32x2_t) {2, 0});
24579 #else
24580   return __builtin_shuffle (__a, __b, (uint32x2_t) {1, 3});
24581 #endif
24582 }
24583
24584 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
24585 vuzp2q_f32 (float32x4_t __a, float32x4_t __b)
24586 {
24587 #ifdef __AARCH64EB__
24588   return __builtin_shuffle (__a, __b, (uint32x4_t) {4, 6, 0, 2});
24589 #else
24590   return __builtin_shuffle (__a, __b, (uint32x4_t) {1, 3, 5, 7});
24591 #endif
24592 }
24593
24594 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
24595 vuzp2q_f64 (float64x2_t __a, float64x2_t __b)
24596 {
24597 #ifdef __AARCH64EB__
24598   return __builtin_shuffle (__a, __b, (uint64x2_t) {2, 0});
24599 #else
24600   return __builtin_shuffle (__a, __b, (uint64x2_t) {1, 3});
24601 #endif
24602 }
24603
24604 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
24605 vuzp2q_p8 (poly8x16_t __a, poly8x16_t __b)
24606 {
24607 #ifdef __AARCH64EB__
24608   return __builtin_shuffle (__a, __b,
24609       (uint8x16_t) {16, 18, 20, 22, 24, 26, 28, 30, 0, 2, 4, 6, 8, 10, 12, 14});
24610 #else
24611   return __builtin_shuffle (__a, __b,
24612       (uint8x16_t) {1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31});
24613 #endif
24614 }
24615
24616 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
24617 vuzp2q_p16 (poly16x8_t __a, poly16x8_t __b)
24618 {
24619 #ifdef __AARCH64EB__
24620   return __builtin_shuffle (__a, __b, (uint16x8_t) {8, 10, 12, 14, 0, 2, 4, 6});
24621 #else
24622   return __builtin_shuffle (__a, __b, (uint16x8_t) {1, 3, 5, 7, 9, 11, 13, 15});
24623 #endif
24624 }
24625
24626 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
24627 vuzp2q_s8 (int8x16_t __a, int8x16_t __b)
24628 {
24629 #ifdef __AARCH64EB__
24630   return __builtin_shuffle (__a, __b,
24631       (uint8x16_t) {16, 18, 20, 22, 24, 26, 28, 30, 0, 2, 4, 6, 8, 10, 12, 14});
24632 #else
24633   return __builtin_shuffle (__a, __b,
24634       (uint8x16_t) {1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31});
24635 #endif
24636 }
24637
24638 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
24639 vuzp2q_s16 (int16x8_t __a, int16x8_t __b)
24640 {
24641 #ifdef __AARCH64EB__
24642   return __builtin_shuffle (__a, __b, (uint16x8_t) {8, 10, 12, 14, 0, 2, 4, 6});
24643 #else
24644   return __builtin_shuffle (__a, __b, (uint16x8_t) {1, 3, 5, 7, 9, 11, 13, 15});
24645 #endif
24646 }
24647
24648 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
24649 vuzp2q_s32 (int32x4_t __a, int32x4_t __b)
24650 {
24651 #ifdef __AARCH64EB__
24652   return __builtin_shuffle (__a, __b, (uint32x4_t) {4, 6, 0, 2});
24653 #else
24654   return __builtin_shuffle (__a, __b, (uint32x4_t) {1, 3, 5, 7});
24655 #endif
24656 }
24657
24658 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
24659 vuzp2q_s64 (int64x2_t __a, int64x2_t __b)
24660 {
24661 #ifdef __AARCH64EB__
24662   return __builtin_shuffle (__a, __b, (uint64x2_t) {2, 0});
24663 #else
24664   return __builtin_shuffle (__a, __b, (uint64x2_t) {1, 3});
24665 #endif
24666 }
24667
24668 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
24669 vuzp2q_u8 (uint8x16_t __a, uint8x16_t __b)
24670 {
24671 #ifdef __AARCH64EB__
24672   return __builtin_shuffle (__a, __b, (uint8x16_t)
24673       {16, 18, 20, 22, 24, 26, 28, 30, 0, 2, 4, 6, 8, 10, 12, 14});
24674 #else
24675   return __builtin_shuffle (__a, __b, (uint8x16_t)
24676       {1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31});
24677 #endif
24678 }
24679
24680 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
24681 vuzp2q_u16 (uint16x8_t __a, uint16x8_t __b)
24682 {
24683 #ifdef __AARCH64EB__
24684   return __builtin_shuffle (__a, __b, (uint16x8_t) {8, 10, 12, 14, 0, 2, 4, 6});
24685 #else
24686   return __builtin_shuffle (__a, __b, (uint16x8_t) {1, 3, 5, 7, 9, 11, 13, 15});
24687 #endif
24688 }
24689
24690 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
24691 vuzp2q_u32 (uint32x4_t __a, uint32x4_t __b)
24692 {
24693 #ifdef __AARCH64EB__
24694   return __builtin_shuffle (__a, __b, (uint32x4_t) {4, 6, 0, 2});
24695 #else
24696   return __builtin_shuffle (__a, __b, (uint32x4_t) {1, 3, 5, 7});
24697 #endif
24698 }
24699
24700 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
24701 vuzp2q_u64 (uint64x2_t __a, uint64x2_t __b)
24702 {
24703 #ifdef __AARCH64EB__
24704   return __builtin_shuffle (__a, __b, (uint64x2_t) {2, 0});
24705 #else
24706   return __builtin_shuffle (__a, __b, (uint64x2_t) {1, 3});
24707 #endif
24708 }
24709
24710 __INTERLEAVE_LIST (uzp)
24711
24712 /* vzip */
24713
24714 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
24715 vzip1_f32 (float32x2_t __a, float32x2_t __b)
24716 {
24717 #ifdef __AARCH64EB__
24718   return __builtin_shuffle (__a, __b, (uint32x2_t) {3, 1});
24719 #else
24720   return __builtin_shuffle (__a, __b, (uint32x2_t) {0, 2});
24721 #endif
24722 }
24723
24724 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
24725 vzip1_p8 (poly8x8_t __a, poly8x8_t __b)
24726 {
24727 #ifdef __AARCH64EB__
24728   return __builtin_shuffle (__a, __b, (uint8x8_t) {12, 4, 13, 5, 14, 6, 15, 7});
24729 #else
24730   return __builtin_shuffle (__a, __b, (uint8x8_t) {0, 8, 1, 9, 2, 10, 3, 11});
24731 #endif
24732 }
24733
24734 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
24735 vzip1_p16 (poly16x4_t __a, poly16x4_t __b)
24736 {
24737 #ifdef __AARCH64EB__
24738   return __builtin_shuffle (__a, __b, (uint16x4_t) {6, 2, 7, 3});
24739 #else
24740   return __builtin_shuffle (__a, __b, (uint16x4_t) {0, 4, 1, 5});
24741 #endif
24742 }
24743
24744 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
24745 vzip1_s8 (int8x8_t __a, int8x8_t __b)
24746 {
24747 #ifdef __AARCH64EB__
24748   return __builtin_shuffle (__a, __b, (uint8x8_t) {12, 4, 13, 5, 14, 6, 15, 7});
24749 #else
24750   return __builtin_shuffle (__a, __b, (uint8x8_t) {0, 8, 1, 9, 2, 10, 3, 11});
24751 #endif
24752 }
24753
24754 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
24755 vzip1_s16 (int16x4_t __a, int16x4_t __b)
24756 {
24757 #ifdef __AARCH64EB__
24758   return __builtin_shuffle (__a, __b, (uint16x4_t) {6, 2, 7, 3});
24759 #else
24760   return __builtin_shuffle (__a, __b, (uint16x4_t) {0, 4, 1, 5});
24761 #endif
24762 }
24763
24764 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
24765 vzip1_s32 (int32x2_t __a, int32x2_t __b)
24766 {
24767 #ifdef __AARCH64EB__
24768   return __builtin_shuffle (__a, __b, (uint32x2_t) {3, 1});
24769 #else
24770   return __builtin_shuffle (__a, __b, (uint32x2_t) {0, 2});
24771 #endif
24772 }
24773
24774 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
24775 vzip1_u8 (uint8x8_t __a, uint8x8_t __b)
24776 {
24777 #ifdef __AARCH64EB__
24778   return __builtin_shuffle (__a, __b, (uint8x8_t) {12, 4, 13, 5, 14, 6, 15, 7});
24779 #else
24780   return __builtin_shuffle (__a, __b, (uint8x8_t) {0, 8, 1, 9, 2, 10, 3, 11});
24781 #endif
24782 }
24783
24784 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
24785 vzip1_u16 (uint16x4_t __a, uint16x4_t __b)
24786 {
24787 #ifdef __AARCH64EB__
24788   return __builtin_shuffle (__a, __b, (uint16x4_t) {6, 2, 7, 3});
24789 #else
24790   return __builtin_shuffle (__a, __b, (uint16x4_t) {0, 4, 1, 5});
24791 #endif
24792 }
24793
24794 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
24795 vzip1_u32 (uint32x2_t __a, uint32x2_t __b)
24796 {
24797 #ifdef __AARCH64EB__
24798   return __builtin_shuffle (__a, __b, (uint32x2_t) {3, 1});
24799 #else
24800   return __builtin_shuffle (__a, __b, (uint32x2_t) {0, 2});
24801 #endif
24802 }
24803
24804 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
24805 vzip1q_f32 (float32x4_t __a, float32x4_t __b)
24806 {
24807 #ifdef __AARCH64EB__
24808   return __builtin_shuffle (__a, __b, (uint32x4_t) {6, 2, 7, 3});
24809 #else
24810   return __builtin_shuffle (__a, __b, (uint32x4_t) {0, 4, 1, 5});
24811 #endif
24812 }
24813
24814 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
24815 vzip1q_f64 (float64x2_t __a, float64x2_t __b)
24816 {
24817 #ifdef __AARCH64EB__
24818   return __builtin_shuffle (__a, __b, (uint64x2_t) {3, 1});
24819 #else
24820   return __builtin_shuffle (__a, __b, (uint64x2_t) {0, 2});
24821 #endif
24822 }
24823
24824 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
24825 vzip1q_p8 (poly8x16_t __a, poly8x16_t __b)
24826 {
24827 #ifdef __AARCH64EB__
24828   return __builtin_shuffle (__a, __b, (uint8x16_t)
24829       {24, 8, 25, 9, 26, 10, 27, 11, 28, 12, 29, 13, 30, 14, 31, 15});
24830 #else
24831   return __builtin_shuffle (__a, __b, (uint8x16_t)
24832       {0, 16, 1, 17, 2, 18, 3, 19, 4, 20, 5, 21, 6, 22, 7, 23});
24833 #endif
24834 }
24835
24836 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
24837 vzip1q_p16 (poly16x8_t __a, poly16x8_t __b)
24838 {
24839 #ifdef __AARCH64EB__
24840   return __builtin_shuffle (__a, __b, (uint16x8_t)
24841       {12, 4, 13, 5, 14, 6, 15, 7});
24842 #else
24843   return __builtin_shuffle (__a, __b, (uint16x8_t) {0, 8, 1, 9, 2, 10, 3, 11});
24844 #endif
24845 }
24846
24847 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
24848 vzip1q_s8 (int8x16_t __a, int8x16_t __b)
24849 {
24850 #ifdef __AARCH64EB__
24851   return __builtin_shuffle (__a, __b, (uint8x16_t)
24852       {24, 8, 25, 9, 26, 10, 27, 11, 28, 12, 29, 13, 30, 14, 31, 15});
24853 #else
24854   return __builtin_shuffle (__a, __b, (uint8x16_t)
24855       {0, 16, 1, 17, 2, 18, 3, 19, 4, 20, 5, 21, 6, 22, 7, 23});
24856 #endif
24857 }
24858
24859 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
24860 vzip1q_s16 (int16x8_t __a, int16x8_t __b)
24861 {
24862 #ifdef __AARCH64EB__
24863   return __builtin_shuffle (__a, __b, (uint16x8_t)
24864       {12, 4, 13, 5, 14, 6, 15, 7});
24865 #else
24866   return __builtin_shuffle (__a, __b, (uint16x8_t) {0, 8, 1, 9, 2, 10, 3, 11});
24867 #endif
24868 }
24869
24870 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
24871 vzip1q_s32 (int32x4_t __a, int32x4_t __b)
24872 {
24873 #ifdef __AARCH64EB__
24874   return __builtin_shuffle (__a, __b, (uint32x4_t) {6, 2, 7, 3});
24875 #else
24876   return __builtin_shuffle (__a, __b, (uint32x4_t) {0, 4, 1, 5});
24877 #endif
24878 }
24879
24880 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
24881 vzip1q_s64 (int64x2_t __a, int64x2_t __b)
24882 {
24883 #ifdef __AARCH64EB__
24884   return __builtin_shuffle (__a, __b, (uint64x2_t) {3, 1});
24885 #else
24886   return __builtin_shuffle (__a, __b, (uint64x2_t) {0, 2});
24887 #endif
24888 }
24889
24890 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
24891 vzip1q_u8 (uint8x16_t __a, uint8x16_t __b)
24892 {
24893 #ifdef __AARCH64EB__
24894   return __builtin_shuffle (__a, __b, (uint8x16_t)
24895       {24, 8, 25, 9, 26, 10, 27, 11, 28, 12, 29, 13, 30, 14, 31, 15});
24896 #else
24897   return __builtin_shuffle (__a, __b, (uint8x16_t)
24898       {0, 16, 1, 17, 2, 18, 3, 19, 4, 20, 5, 21, 6, 22, 7, 23});
24899 #endif
24900 }
24901
24902 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
24903 vzip1q_u16 (uint16x8_t __a, uint16x8_t __b)
24904 {
24905 #ifdef __AARCH64EB__
24906   return __builtin_shuffle (__a, __b, (uint16x8_t)
24907       {12, 4, 13, 5, 14, 6, 15, 7});
24908 #else
24909   return __builtin_shuffle (__a, __b, (uint16x8_t) {0, 8, 1, 9, 2, 10, 3, 11});
24910 #endif
24911 }
24912
24913 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
24914 vzip1q_u32 (uint32x4_t __a, uint32x4_t __b)
24915 {
24916 #ifdef __AARCH64EB__
24917   return __builtin_shuffle (__a, __b, (uint32x4_t) {6, 2, 7, 3});
24918 #else
24919   return __builtin_shuffle (__a, __b, (uint32x4_t) {0, 4, 1, 5});
24920 #endif
24921 }
24922
24923 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
24924 vzip1q_u64 (uint64x2_t __a, uint64x2_t __b)
24925 {
24926 #ifdef __AARCH64EB__
24927   return __builtin_shuffle (__a, __b, (uint64x2_t) {3, 1});
24928 #else
24929   return __builtin_shuffle (__a, __b, (uint64x2_t) {0, 2});
24930 #endif
24931 }
24932
24933 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
24934 vzip2_f32 (float32x2_t __a, float32x2_t __b)
24935 {
24936 #ifdef __AARCH64EB__
24937   return __builtin_shuffle (__a, __b, (uint32x2_t) {2, 0});
24938 #else
24939   return __builtin_shuffle (__a, __b, (uint32x2_t) {1, 3});
24940 #endif
24941 }
24942
24943 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
24944 vzip2_p8 (poly8x8_t __a, poly8x8_t __b)
24945 {
24946 #ifdef __AARCH64EB__
24947   return __builtin_shuffle (__a, __b, (uint8x8_t) {8, 0, 9, 1, 10, 2, 11, 3});
24948 #else
24949   return __builtin_shuffle (__a, __b, (uint8x8_t) {4, 12, 5, 13, 6, 14, 7, 15});
24950 #endif
24951 }
24952
24953 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
24954 vzip2_p16 (poly16x4_t __a, poly16x4_t __b)
24955 {
24956 #ifdef __AARCH64EB__
24957   return __builtin_shuffle (__a, __b, (uint16x4_t) {4, 0, 5, 1});
24958 #else
24959   return __builtin_shuffle (__a, __b, (uint16x4_t) {2, 6, 3, 7});
24960 #endif
24961 }
24962
24963 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
24964 vzip2_s8 (int8x8_t __a, int8x8_t __b)
24965 {
24966 #ifdef __AARCH64EB__
24967   return __builtin_shuffle (__a, __b, (uint8x8_t) {8, 0, 9, 1, 10, 2, 11, 3});
24968 #else
24969   return __builtin_shuffle (__a, __b, (uint8x8_t) {4, 12, 5, 13, 6, 14, 7, 15});
24970 #endif
24971 }
24972
24973 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
24974 vzip2_s16 (int16x4_t __a, int16x4_t __b)
24975 {
24976 #ifdef __AARCH64EB__
24977   return __builtin_shuffle (__a, __b, (uint16x4_t) {4, 0, 5, 1});
24978 #else
24979   return __builtin_shuffle (__a, __b, (uint16x4_t) {2, 6, 3, 7});
24980 #endif
24981 }
24982
24983 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
24984 vzip2_s32 (int32x2_t __a, int32x2_t __b)
24985 {
24986 #ifdef __AARCH64EB__
24987   return __builtin_shuffle (__a, __b, (uint32x2_t) {2, 0});
24988 #else
24989   return __builtin_shuffle (__a, __b, (uint32x2_t) {1, 3});
24990 #endif
24991 }
24992
24993 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
24994 vzip2_u8 (uint8x8_t __a, uint8x8_t __b)
24995 {
24996 #ifdef __AARCH64EB__
24997   return __builtin_shuffle (__a, __b, (uint8x8_t) {8, 0, 9, 1, 10, 2, 11, 3});
24998 #else
24999   return __builtin_shuffle (__a, __b, (uint8x8_t) {4, 12, 5, 13, 6, 14, 7, 15});
25000 #endif
25001 }
25002
25003 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
25004 vzip2_u16 (uint16x4_t __a, uint16x4_t __b)
25005 {
25006 #ifdef __AARCH64EB__
25007   return __builtin_shuffle (__a, __b, (uint16x4_t) {4, 0, 5, 1});
25008 #else
25009   return __builtin_shuffle (__a, __b, (uint16x4_t) {2, 6, 3, 7});
25010 #endif
25011 }
25012
25013 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
25014 vzip2_u32 (uint32x2_t __a, uint32x2_t __b)
25015 {
25016 #ifdef __AARCH64EB__
25017   return __builtin_shuffle (__a, __b, (uint32x2_t) {2, 0});
25018 #else
25019   return __builtin_shuffle (__a, __b, (uint32x2_t) {1, 3});
25020 #endif
25021 }
25022
25023 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
25024 vzip2q_f32 (float32x4_t __a, float32x4_t __b)
25025 {
25026 #ifdef __AARCH64EB__
25027   return __builtin_shuffle (__a, __b, (uint32x4_t) {4, 0, 5, 1});
25028 #else
25029   return __builtin_shuffle (__a, __b, (uint32x4_t) {2, 6, 3, 7});
25030 #endif
25031 }
25032
25033 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
25034 vzip2q_f64 (float64x2_t __a, float64x2_t __b)
25035 {
25036 #ifdef __AARCH64EB__
25037   return __builtin_shuffle (__a, __b, (uint64x2_t) {2, 0});
25038 #else
25039   return __builtin_shuffle (__a, __b, (uint64x2_t) {1, 3});
25040 #endif
25041 }
25042
25043 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
25044 vzip2q_p8 (poly8x16_t __a, poly8x16_t __b)
25045 {
25046 #ifdef __AARCH64EB__
25047   return __builtin_shuffle (__a, __b, (uint8x16_t)
25048       {16, 0, 17, 1, 18, 2, 19, 3, 20, 4, 21, 5, 22, 6, 23, 7});
25049 #else
25050   return __builtin_shuffle (__a, __b, (uint8x16_t)
25051       {8, 24, 9, 25, 10, 26, 11, 27, 12, 28, 13, 29, 14, 30, 15, 31});
25052 #endif
25053 }
25054
25055 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
25056 vzip2q_p16 (poly16x8_t __a, poly16x8_t __b)
25057 {
25058 #ifdef __AARCH64EB__
25059   return __builtin_shuffle (__a, __b, (uint16x8_t) {8, 0, 9, 1, 10, 2, 11, 3});
25060 #else
25061   return __builtin_shuffle (__a, __b, (uint16x8_t)
25062       {4, 12, 5, 13, 6, 14, 7, 15});
25063 #endif
25064 }
25065
25066 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
25067 vzip2q_s8 (int8x16_t __a, int8x16_t __b)
25068 {
25069 #ifdef __AARCH64EB__
25070   return __builtin_shuffle (__a, __b, (uint8x16_t)
25071       {16, 0, 17, 1, 18, 2, 19, 3, 20, 4, 21, 5, 22, 6, 23, 7});
25072 #else
25073   return __builtin_shuffle (__a, __b, (uint8x16_t)
25074       {8, 24, 9, 25, 10, 26, 11, 27, 12, 28, 13, 29, 14, 30, 15, 31});
25075 #endif
25076 }
25077
25078 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
25079 vzip2q_s16 (int16x8_t __a, int16x8_t __b)
25080 {
25081 #ifdef __AARCH64EB__
25082   return __builtin_shuffle (__a, __b, (uint16x8_t) {8, 0, 9, 1, 10, 2, 11, 3});
25083 #else
25084   return __builtin_shuffle (__a, __b, (uint16x8_t)
25085       {4, 12, 5, 13, 6, 14, 7, 15});
25086 #endif
25087 }
25088
25089 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
25090 vzip2q_s32 (int32x4_t __a, int32x4_t __b)
25091 {
25092 #ifdef __AARCH64EB__
25093   return __builtin_shuffle (__a, __b, (uint32x4_t) {4, 0, 5, 1});
25094 #else
25095   return __builtin_shuffle (__a, __b, (uint32x4_t) {2, 6, 3, 7});
25096 #endif
25097 }
25098
25099 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
25100 vzip2q_s64 (int64x2_t __a, int64x2_t __b)
25101 {
25102 #ifdef __AARCH64EB__
25103   return __builtin_shuffle (__a, __b, (uint64x2_t) {2, 0});
25104 #else
25105   return __builtin_shuffle (__a, __b, (uint64x2_t) {1, 3});
25106 #endif
25107 }
25108
25109 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
25110 vzip2q_u8 (uint8x16_t __a, uint8x16_t __b)
25111 {
25112 #ifdef __AARCH64EB__
25113   return __builtin_shuffle (__a, __b, (uint8x16_t)
25114       {16, 0, 17, 1, 18, 2, 19, 3, 20, 4, 21, 5, 22, 6, 23, 7});
25115 #else
25116   return __builtin_shuffle (__a, __b, (uint8x16_t)
25117       {8, 24, 9, 25, 10, 26, 11, 27, 12, 28, 13, 29, 14, 30, 15, 31});
25118 #endif
25119 }
25120
25121 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
25122 vzip2q_u16 (uint16x8_t __a, uint16x8_t __b)
25123 {
25124 #ifdef __AARCH64EB__
25125   return __builtin_shuffle (__a, __b, (uint16x8_t) {8, 0, 9, 1, 10, 2, 11, 3});
25126 #else
25127   return __builtin_shuffle (__a, __b, (uint16x8_t)
25128       {4, 12, 5, 13, 6, 14, 7, 15});
25129 #endif
25130 }
25131
25132 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
25133 vzip2q_u32 (uint32x4_t __a, uint32x4_t __b)
25134 {
25135 #ifdef __AARCH64EB__
25136   return __builtin_shuffle (__a, __b, (uint32x4_t) {4, 0, 5, 1});
25137 #else
25138   return __builtin_shuffle (__a, __b, (uint32x4_t) {2, 6, 3, 7});
25139 #endif
25140 }
25141
25142 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
25143 vzip2q_u64 (uint64x2_t __a, uint64x2_t __b)
25144 {
25145 #ifdef __AARCH64EB__
25146   return __builtin_shuffle (__a, __b, (uint64x2_t) {2, 0});
25147 #else
25148   return __builtin_shuffle (__a, __b, (uint64x2_t) {1, 3});
25149 #endif
25150 }
25151
25152 __INTERLEAVE_LIST (zip)
25153
25154 #undef __INTERLEAVE_LIST
25155 #undef __DEFINTERLEAVE
25156
25157 /* End of optimal implementations in approved order.  */
25158
25159 #undef __aarch64_vget_lane_any
25160
25161 #undef __aarch64_vdup_lane_any
25162 #undef __aarch64_vdup_lane_f32
25163 #undef __aarch64_vdup_lane_f64
25164 #undef __aarch64_vdup_lane_p8
25165 #undef __aarch64_vdup_lane_p16
25166 #undef __aarch64_vdup_lane_s8
25167 #undef __aarch64_vdup_lane_s16
25168 #undef __aarch64_vdup_lane_s32
25169 #undef __aarch64_vdup_lane_s64
25170 #undef __aarch64_vdup_lane_u8
25171 #undef __aarch64_vdup_lane_u16
25172 #undef __aarch64_vdup_lane_u32
25173 #undef __aarch64_vdup_lane_u64
25174 #undef __aarch64_vdup_laneq_f32
25175 #undef __aarch64_vdup_laneq_f64
25176 #undef __aarch64_vdup_laneq_p8
25177 #undef __aarch64_vdup_laneq_p16
25178 #undef __aarch64_vdup_laneq_s8
25179 #undef __aarch64_vdup_laneq_s16
25180 #undef __aarch64_vdup_laneq_s32
25181 #undef __aarch64_vdup_laneq_s64
25182 #undef __aarch64_vdup_laneq_u8
25183 #undef __aarch64_vdup_laneq_u16
25184 #undef __aarch64_vdup_laneq_u32
25185 #undef __aarch64_vdup_laneq_u64
25186 #undef __aarch64_vdupq_lane_f32
25187 #undef __aarch64_vdupq_lane_f64
25188 #undef __aarch64_vdupq_lane_p8
25189 #undef __aarch64_vdupq_lane_p16
25190 #undef __aarch64_vdupq_lane_s8
25191 #undef __aarch64_vdupq_lane_s16
25192 #undef __aarch64_vdupq_lane_s32
25193 #undef __aarch64_vdupq_lane_s64
25194 #undef __aarch64_vdupq_lane_u8
25195 #undef __aarch64_vdupq_lane_u16
25196 #undef __aarch64_vdupq_lane_u32
25197 #undef __aarch64_vdupq_lane_u64
25198 #undef __aarch64_vdupq_laneq_f32
25199 #undef __aarch64_vdupq_laneq_f64
25200 #undef __aarch64_vdupq_laneq_p8
25201 #undef __aarch64_vdupq_laneq_p16
25202 #undef __aarch64_vdupq_laneq_s8
25203 #undef __aarch64_vdupq_laneq_s16
25204 #undef __aarch64_vdupq_laneq_s32
25205 #undef __aarch64_vdupq_laneq_s64
25206 #undef __aarch64_vdupq_laneq_u8
25207 #undef __aarch64_vdupq_laneq_u16
25208 #undef __aarch64_vdupq_laneq_u32
25209 #undef __aarch64_vdupq_laneq_u64
25210
25211 #endif