gcc/config/aarch64/arm_neon.h

   1 /* ARM NEON intrinsics include file.
   2
   3    Copyright (C) 2011-2013 Free Software Foundation, Inc.
   4    Contributed by ARM Ltd.
   5
   6    This file is part of GCC.
   7
   8    GCC is free software; you can redistribute it and/or modify it
   9    under the terms of the GNU General Public License as published
  10    by the Free Software Foundation; either version 3, or (at your
  11    option) any later version.
  12
  13    GCC is distributed in the hope that it will be useful, but WITHOUT
  14    ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
  15    or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public
  16    License for more details.
  17
  18    Under Section 7 of GPL version 3, you are granted additional
  19    permissions described in the GCC Runtime Library Exception, version
  20    3.1, as published by the Free Software Foundation.
  21
  22    You should have received a copy of the GNU General Public License and
  23    a copy of the GCC Runtime Library Exception along with this program;
  24    see the files COPYING3 and COPYING.RUNTIME respectively.  If not, see
  25    <http://www.gnu.org/licenses/>.  */
  26
  27 #ifndef _AARCH64_NEON_H_
  28 #define _AARCH64_NEON_H_
  29
  30 #include <stdint.h>
  31
  32 #define __AARCH64_UINT64_C(__C) ((uint64_t) __C)
  33 #define __AARCH64_INT64_C(__C) ((int64_t) __C)
  34
  35 typedef __builtin_aarch64_simd_qi int8x8_t
  36   __attribute__ ((__vector_size__ (8)));
  37 typedef __builtin_aarch64_simd_hi int16x4_t
  38   __attribute__ ((__vector_size__ (8)));
  39 typedef __builtin_aarch64_simd_si int32x2_t
  40   __attribute__ ((__vector_size__ (8)));
  41 typedef int64_t int64x1_t;
  42 typedef int32_t int32x1_t;
  43 typedef int16_t int16x1_t;
  44 typedef int8_t int8x1_t;
  45 typedef double float64x1_t;
  46 typedef __builtin_aarch64_simd_sf float32x2_t
  47   __attribute__ ((__vector_size__ (8)));
  48 typedef __builtin_aarch64_simd_poly8 poly8x8_t
  49   __attribute__ ((__vector_size__ (8)));
  50 typedef __builtin_aarch64_simd_poly16 poly16x4_t
  51   __attribute__ ((__vector_size__ (8)));
  52 typedef __builtin_aarch64_simd_uqi uint8x8_t
  53   __attribute__ ((__vector_size__ (8)));
  54 typedef __builtin_aarch64_simd_uhi uint16x4_t
  55   __attribute__ ((__vector_size__ (8)));
  56 typedef __builtin_aarch64_simd_usi uint32x2_t
  57   __attribute__ ((__vector_size__ (8)));
  58 typedef uint64_t uint64x1_t;
  59 typedef uint32_t uint32x1_t;
  60 typedef uint16_t uint16x1_t;
  61 typedef uint8_t uint8x1_t;
  62 typedef __builtin_aarch64_simd_qi int8x16_t
  63   __attribute__ ((__vector_size__ (16)));
  64 typedef __builtin_aarch64_simd_hi int16x8_t
  65   __attribute__ ((__vector_size__ (16)));
  66 typedef __builtin_aarch64_simd_si int32x4_t
  67   __attribute__ ((__vector_size__ (16)));
  68 typedef __builtin_aarch64_simd_di int64x2_t
  69   __attribute__ ((__vector_size__ (16)));
  70 typedef __builtin_aarch64_simd_sf float32x4_t
  71   __attribute__ ((__vector_size__ (16)));
  72 typedef __builtin_aarch64_simd_df float64x2_t
  73   __attribute__ ((__vector_size__ (16)));
  74 typedef __builtin_aarch64_simd_poly8 poly8x16_t
  75   __attribute__ ((__vector_size__ (16)));
  76 typedef __builtin_aarch64_simd_poly16 poly16x8_t
  77   __attribute__ ((__vector_size__ (16)));
  78 typedef __builtin_aarch64_simd_uqi uint8x16_t
  79   __attribute__ ((__vector_size__ (16)));
  80 typedef __builtin_aarch64_simd_uhi uint16x8_t
  81   __attribute__ ((__vector_size__ (16)));
  82 typedef __builtin_aarch64_simd_usi uint32x4_t
  83   __attribute__ ((__vector_size__ (16)));
  84 typedef __builtin_aarch64_simd_udi uint64x2_t
  85   __attribute__ ((__vector_size__ (16)));
  86
  87 typedef float float32_t;
  88 typedef double float64_t;
  89 typedef __builtin_aarch64_simd_poly8 poly8_t;
  90 typedef __builtin_aarch64_simd_poly16 poly16_t;
  91
  92 typedef struct int8x8x2_t
  93 {
  94   int8x8_t val[2];
  95 } int8x8x2_t;
  96
  97 typedef struct int8x16x2_t
  98 {
  99   int8x16_t val[2];
 100 } int8x16x2_t;
 101
 102 typedef struct int16x4x2_t
 103 {
 104   int16x4_t val[2];
 105 } int16x4x2_t;
 106
 107 typedef struct int16x8x2_t
 108 {
 109   int16x8_t val[2];
 110 } int16x8x2_t;
 111
 112 typedef struct int32x2x2_t
 113 {
 114   int32x2_t val[2];
 115 } int32x2x2_t;
 116
 117 typedef struct int32x4x2_t
 118 {
 119   int32x4_t val[2];
 120 } int32x4x2_t;
 121
 122 typedef struct int64x1x2_t
 123 {
 124   int64x1_t val[2];
 125 } int64x1x2_t;
 126
 127 typedef struct int64x2x2_t
 128 {
 129   int64x2_t val[2];
 130 } int64x2x2_t;
 131
 132 typedef struct uint8x8x2_t
 133 {
 134   uint8x8_t val[2];
 135 } uint8x8x2_t;
 136
 137 typedef struct uint8x16x2_t
 138 {
 139   uint8x16_t val[2];
 140 } uint8x16x2_t;
 141
 142 typedef struct uint16x4x2_t
 143 {
 144   uint16x4_t val[2];
 145 } uint16x4x2_t;
 146
 147 typedef struct uint16x8x2_t
 148 {
 149   uint16x8_t val[2];
 150 } uint16x8x2_t;
 151
 152 typedef struct uint32x2x2_t
 153 {
 154   uint32x2_t val[2];
 155 } uint32x2x2_t;
 156
 157 typedef struct uint32x4x2_t
 158 {
 159   uint32x4_t val[2];
 160 } uint32x4x2_t;
 161
 162 typedef struct uint64x1x2_t
 163 {
 164   uint64x1_t val[2];
 165 } uint64x1x2_t;
 166
 167 typedef struct uint64x2x2_t
 168 {
 169   uint64x2_t val[2];
 170 } uint64x2x2_t;
 171
 172 typedef struct float32x2x2_t
 173 {
 174   float32x2_t val[2];
 175 } float32x2x2_t;
 176
 177 typedef struct float32x4x2_t
 178 {
 179   float32x4_t val[2];
 180 } float32x4x2_t;
 181
 182 typedef struct float64x2x2_t
 183 {
 184   float64x2_t val[2];
 185 } float64x2x2_t;
 186
 187 typedef struct float64x1x2_t
 188 {
 189   float64x1_t val[2];
 190 } float64x1x2_t;
 191
 192 typedef struct poly8x8x2_t
 193 {
 194   poly8x8_t val[2];
 195 } poly8x8x2_t;
 196
 197 typedef struct poly8x16x2_t
 198 {
 199   poly8x16_t val[2];
 200 } poly8x16x2_t;
 201
 202 typedef struct poly16x4x2_t
 203 {
 204   poly16x4_t val[2];
 205 } poly16x4x2_t;
 206
 207 typedef struct poly16x8x2_t
 208 {
 209   poly16x8_t val[2];
 210 } poly16x8x2_t;
 211
 212 typedef struct int8x8x3_t
 213 {
 214   int8x8_t val[3];
 215 } int8x8x3_t;
 216
 217 typedef struct int8x16x3_t
 218 {
 219   int8x16_t val[3];
 220 } int8x16x3_t;
 221
 222 typedef struct int16x4x3_t
 223 {
 224   int16x4_t val[3];
 225 } int16x4x3_t;
 226
 227 typedef struct int16x8x3_t
 228 {
 229   int16x8_t val[3];
 230 } int16x8x3_t;
 231
 232 typedef struct int32x2x3_t
 233 {
 234   int32x2_t val[3];
 235 } int32x2x3_t;
 236
 237 typedef struct int32x4x3_t
 238 {
 239   int32x4_t val[3];
 240 } int32x4x3_t;
 241
 242 typedef struct int64x1x3_t
 243 {
 244   int64x1_t val[3];
 245 } int64x1x3_t;
 246
 247 typedef struct int64x2x3_t
 248 {
 249   int64x2_t val[3];
 250 } int64x2x3_t;
 251
 252 typedef struct uint8x8x3_t
 253 {
 254   uint8x8_t val[3];
 255 } uint8x8x3_t;
 256
 257 typedef struct uint8x16x3_t
 258 {
 259   uint8x16_t val[3];
 260 } uint8x16x3_t;
 261
 262 typedef struct uint16x4x3_t
 263 {
 264   uint16x4_t val[3];
 265 } uint16x4x3_t;
 266
 267 typedef struct uint16x8x3_t
 268 {
 269   uint16x8_t val[3];
 270 } uint16x8x3_t;
 271
 272 typedef struct uint32x2x3_t
 273 {
 274   uint32x2_t val[3];
 275 } uint32x2x3_t;
 276
 277 typedef struct uint32x4x3_t
 278 {
 279   uint32x4_t val[3];
 280 } uint32x4x3_t;
 281
 282 typedef struct uint64x1x3_t
 283 {
 284   uint64x1_t val[3];
 285 } uint64x1x3_t;
 286
 287 typedef struct uint64x2x3_t
 288 {
 289   uint64x2_t val[3];
 290 } uint64x2x3_t;
 291
 292 typedef struct float32x2x3_t
 293 {
 294   float32x2_t val[3];
 295 } float32x2x3_t;
 296
 297 typedef struct float32x4x3_t
 298 {
 299   float32x4_t val[3];
 300 } float32x4x3_t;
 301
 302 typedef struct float64x2x3_t
 303 {
 304   float64x2_t val[3];
 305 } float64x2x3_t;
 306
 307 typedef struct float64x1x3_t
 308 {
 309   float64x1_t val[3];
 310 } float64x1x3_t;
 311
 312 typedef struct poly8x8x3_t
 313 {
 314   poly8x8_t val[3];
 315 } poly8x8x3_t;
 316
 317 typedef struct poly8x16x3_t
 318 {
 319   poly8x16_t val[3];
 320 } poly8x16x3_t;
 321
 322 typedef struct poly16x4x3_t
 323 {
 324   poly16x4_t val[3];
 325 } poly16x4x3_t;
 326
 327 typedef struct poly16x8x3_t
 328 {
 329   poly16x8_t val[3];
 330 } poly16x8x3_t;
 331
 332 typedef struct int8x8x4_t
 333 {
 334   int8x8_t val[4];
 335 } int8x8x4_t;
 336
 337 typedef struct int8x16x4_t
 338 {
 339   int8x16_t val[4];
 340 } int8x16x4_t;
 341
 342 typedef struct int16x4x4_t
 343 {
 344   int16x4_t val[4];
 345 } int16x4x4_t;
 346
 347 typedef struct int16x8x4_t
 348 {
 349   int16x8_t val[4];
 350 } int16x8x4_t;
 351
 352 typedef struct int32x2x4_t
 353 {
 354   int32x2_t val[4];
 355 } int32x2x4_t;
 356
 357 typedef struct int32x4x4_t
 358 {
 359   int32x4_t val[4];
 360 } int32x4x4_t;
 361
 362 typedef struct int64x1x4_t
 363 {
 364   int64x1_t val[4];
 365 } int64x1x4_t;
 366
 367 typedef struct int64x2x4_t
 368 {
 369   int64x2_t val[4];
 370 } int64x2x4_t;
 371
 372 typedef struct uint8x8x4_t
 373 {
 374   uint8x8_t val[4];
 375 } uint8x8x4_t;
 376
 377 typedef struct uint8x16x4_t
 378 {
 379   uint8x16_t val[4];
 380 } uint8x16x4_t;
 381
 382 typedef struct uint16x4x4_t
 383 {
 384   uint16x4_t val[4];
 385 } uint16x4x4_t;
 386
 387 typedef struct uint16x8x4_t
 388 {
 389   uint16x8_t val[4];
 390 } uint16x8x4_t;
 391
 392 typedef struct uint32x2x4_t
 393 {
 394   uint32x2_t val[4];
 395 } uint32x2x4_t;
 396
 397 typedef struct uint32x4x4_t
 398 {
 399   uint32x4_t val[4];
 400 } uint32x4x4_t;
 401
 402 typedef struct uint64x1x4_t
 403 {
 404   uint64x1_t val[4];
 405 } uint64x1x4_t;
 406
 407 typedef struct uint64x2x4_t
 408 {
 409   uint64x2_t val[4];
 410 } uint64x2x4_t;
 411
 412 typedef struct float32x2x4_t
 413 {
 414   float32x2_t val[4];
 415 } float32x2x4_t;
 416
 417 typedef struct float32x4x4_t
 418 {
 419   float32x4_t val[4];
 420 } float32x4x4_t;
 421
 422 typedef struct float64x2x4_t
 423 {
 424   float64x2_t val[4];
 425 } float64x2x4_t;
 426
 427 typedef struct float64x1x4_t
 428 {
 429   float64x1_t val[4];
 430 } float64x1x4_t;
 431
 432 typedef struct poly8x8x4_t
 433 {
 434   poly8x8_t val[4];
 435 } poly8x8x4_t;
 436
 437 typedef struct poly8x16x4_t
 438 {
 439   poly8x16_t val[4];
 440 } poly8x16x4_t;
 441
 442 typedef struct poly16x4x4_t
 443 {
 444   poly16x4_t val[4];
 445 } poly16x4x4_t;
 446
 447 typedef struct poly16x8x4_t
 448 {
 449   poly16x8_t val[4];
 450 } poly16x8x4_t;
 451
 452 /* vget_lane internal macros.  */
 453
 454 #define __aarch64_vget_lane_any(__size, __cast_ret, __cast_a, __a, __b) \
 455   (__cast_ret                                                           \
 456      __builtin_aarch64_get_lane##__size (__cast_a __a, __b))
 457
 458 #define __aarch64_vget_lane_f32(__a, __b) \
 459   __aarch64_vget_lane_any (v2sf, , , __a, __b)
 460 #define __aarch64_vget_lane_f64(__a, __b) (__a)
 461
 462 #define __aarch64_vget_lane_p8(__a, __b) \
 463   __aarch64_vget_lane_any (v8qi, (poly8_t), (int8x8_t), __a, __b)
 464 #define __aarch64_vget_lane_p16(__a, __b) \
 465   __aarch64_vget_lane_any (v4hi, (poly16_t), (int16x4_t), __a, __b)
 466
 467 #define __aarch64_vget_lane_s8(__a, __b) \
 468   __aarch64_vget_lane_any (v8qi, , ,__a, __b)
 469 #define __aarch64_vget_lane_s16(__a, __b) \
 470   __aarch64_vget_lane_any (v4hi, , ,__a, __b)
 471 #define __aarch64_vget_lane_s32(__a, __b) \
 472   __aarch64_vget_lane_any (v2si, , ,__a, __b)
 473 #define __aarch64_vget_lane_s64(__a, __b) (__a)
 474
 475 #define __aarch64_vget_lane_u8(__a, __b) \
 476   __aarch64_vget_lane_any (v8qi, (uint8_t), (int8x8_t), __a, __b)
 477 #define __aarch64_vget_lane_u16(__a, __b) \
 478   __aarch64_vget_lane_any (v4hi, (uint16_t), (int16x4_t), __a, __b)
 479 #define __aarch64_vget_lane_u32(__a, __b) \
 480   __aarch64_vget_lane_any (v2si, (uint32_t), (int32x2_t), __a, __b)
 481 #define __aarch64_vget_lane_u64(__a, __b) (__a)
 482
 483 #define __aarch64_vgetq_lane_f32(__a, __b) \
 484   __aarch64_vget_lane_any (v4sf, , , __a, __b)
 485 #define __aarch64_vgetq_lane_f64(__a, __b) \
 486   __aarch64_vget_lane_any (v2df, , , __a, __b)
 487
 488 #define __aarch64_vgetq_lane_p8(__a, __b) \
 489   __aarch64_vget_lane_any (v16qi, (poly8_t), (int8x16_t), __a, __b)
 490 #define __aarch64_vgetq_lane_p16(__a, __b) \
 491   __aarch64_vget_lane_any (v8hi, (poly16_t), (int16x8_t), __a, __b)
 492
 493 #define __aarch64_vgetq_lane_s8(__a, __b) \
 494   __aarch64_vget_lane_any (v16qi, , ,__a, __b)
 495 #define __aarch64_vgetq_lane_s16(__a, __b) \
 496   __aarch64_vget_lane_any (v8hi, , ,__a, __b)
 497 #define __aarch64_vgetq_lane_s32(__a, __b) \
 498   __aarch64_vget_lane_any (v4si, , ,__a, __b)
 499 #define __aarch64_vgetq_lane_s64(__a, __b) \
 500   __aarch64_vget_lane_any (v2di, , ,__a, __b)
 501
 502 #define __aarch64_vgetq_lane_u8(__a, __b) \
 503   __aarch64_vget_lane_any (v16qi, (uint8_t), (int8x16_t), __a, __b)
 504 #define __aarch64_vgetq_lane_u16(__a, __b) \
 505   __aarch64_vget_lane_any (v8hi, (uint16_t), (int16x8_t), __a, __b)
 506 #define __aarch64_vgetq_lane_u32(__a, __b) \
 507   __aarch64_vget_lane_any (v4si, (uint32_t), (int32x4_t), __a, __b)
 508 #define __aarch64_vgetq_lane_u64(__a, __b) \
 509   __aarch64_vget_lane_any (v2di, (uint64_t), (int64x2_t), __a, __b)
 510
 511 /* __aarch64_vdup_lane internal macros.  */
 512 #define __aarch64_vdup_lane_any(__size, __q1, __q2, __a, __b) \
 513   vdup##__q1##_n_##__size (__aarch64_vget##__q2##_lane_##__size (__a, __b))
 514
 515 #define __aarch64_vdup_lane_f32(__a, __b) \
 516    __aarch64_vdup_lane_any (f32, , , __a, __b)
 517 #define __aarch64_vdup_lane_f64(__a, __b) (__a)
 518 #define __aarch64_vdup_lane_p8(__a, __b) \
 519    __aarch64_vdup_lane_any (p8, , , __a, __b)
 520 #define __aarch64_vdup_lane_p16(__a, __b) \
 521    __aarch64_vdup_lane_any (p16, , , __a, __b)
 522 #define __aarch64_vdup_lane_s8(__a, __b) \
 523    __aarch64_vdup_lane_any (s8, , , __a, __b)
 524 #define __aarch64_vdup_lane_s16(__a, __b) \
 525    __aarch64_vdup_lane_any (s16, , , __a, __b)
 526 #define __aarch64_vdup_lane_s32(__a, __b) \
 527    __aarch64_vdup_lane_any (s32, , , __a, __b)
 528 #define __aarch64_vdup_lane_s64(__a, __b) (__a)
 529 #define __aarch64_vdup_lane_u8(__a, __b) \
 530    __aarch64_vdup_lane_any (u8, , , __a, __b)
 531 #define __aarch64_vdup_lane_u16(__a, __b) \
 532    __aarch64_vdup_lane_any (u16, , , __a, __b)
 533 #define __aarch64_vdup_lane_u32(__a, __b) \
 534    __aarch64_vdup_lane_any (u32, , , __a, __b)
 535 #define __aarch64_vdup_lane_u64(__a, __b) (__a)
 536
 537 /* __aarch64_vdup_laneq internal macros.  */
 538 #define __aarch64_vdup_laneq_f32(__a, __b) \
 539    __aarch64_vdup_lane_any (f32, , q, __a, __b)
 540 #define __aarch64_vdup_laneq_f64(__a, __b) \
 541    __aarch64_vdup_lane_any (f64, , q, __a, __b)
 542 #define __aarch64_vdup_laneq_p8(__a, __b) \
 543    __aarch64_vdup_lane_any (p8, , q, __a, __b)
 544 #define __aarch64_vdup_laneq_p16(__a, __b) \
 545    __aarch64_vdup_lane_any (p16, , q, __a, __b)
 546 #define __aarch64_vdup_laneq_s8(__a, __b) \
 547    __aarch64_vdup_lane_any (s8, , q, __a, __b)
 548 #define __aarch64_vdup_laneq_s16(__a, __b) \
 549    __aarch64_vdup_lane_any (s16, , q, __a, __b)
 550 #define __aarch64_vdup_laneq_s32(__a, __b) \
 551    __aarch64_vdup_lane_any (s32, , q, __a, __b)
 552 #define __aarch64_vdup_laneq_s64(__a, __b) \
 553    __aarch64_vdup_lane_any (s64, , q, __a, __b)
 554 #define __aarch64_vdup_laneq_u8(__a, __b) \
 555    __aarch64_vdup_lane_any (u8, , q, __a, __b)
 556 #define __aarch64_vdup_laneq_u16(__a, __b) \
 557    __aarch64_vdup_lane_any (u16, , q, __a, __b)
 558 #define __aarch64_vdup_laneq_u32(__a, __b) \
 559    __aarch64_vdup_lane_any (u32, , q, __a, __b)
 560 #define __aarch64_vdup_laneq_u64(__a, __b) \
 561    __aarch64_vdup_lane_any (u64, , q, __a, __b)
 562
 563 /* __aarch64_vdupq_lane internal macros.  */
 564 #define __aarch64_vdupq_lane_f32(__a, __b) \
 565    __aarch64_vdup_lane_any (f32, q, , __a, __b)
 566 #define __aarch64_vdupq_lane_f64(__a, __b) (vdupq_n_f64 (__a))
 567 #define __aarch64_vdupq_lane_p8(__a, __b) \
 568    __aarch64_vdup_lane_any (p8, q, , __a, __b)
 569 #define __aarch64_vdupq_lane_p16(__a, __b) \
 570    __aarch64_vdup_lane_any (p16, q, , __a, __b)
 571 #define __aarch64_vdupq_lane_s8(__a, __b) \
 572    __aarch64_vdup_lane_any (s8, q, , __a, __b)
 573 #define __aarch64_vdupq_lane_s16(__a, __b) \
 574    __aarch64_vdup_lane_any (s16, q, , __a, __b)
 575 #define __aarch64_vdupq_lane_s32(__a, __b) \
 576    __aarch64_vdup_lane_any (s32, q, , __a, __b)
 577 #define __aarch64_vdupq_lane_s64(__a, __b) (vdupq_n_s64 (__a))
 578 #define __aarch64_vdupq_lane_u8(__a, __b) \
 579    __aarch64_vdup_lane_any (u8, q, , __a, __b)
 580 #define __aarch64_vdupq_lane_u16(__a, __b) \
 581    __aarch64_vdup_lane_any (u16, q, , __a, __b)
 582 #define __aarch64_vdupq_lane_u32(__a, __b) \
 583    __aarch64_vdup_lane_any (u32, q, , __a, __b)
 584 #define __aarch64_vdupq_lane_u64(__a, __b) (vdupq_n_u64 (__a))
 585
 586 /* __aarch64_vdupq_laneq internal macros.  */
 587 #define __aarch64_vdupq_laneq_f32(__a, __b) \
 588    __aarch64_vdup_lane_any (f32, q, q, __a, __b)
 589 #define __aarch64_vdupq_laneq_f64(__a, __b) \
 590    __aarch64_vdup_lane_any (f64, q, q, __a, __b)
 591 #define __aarch64_vdupq_laneq_p8(__a, __b) \
 592    __aarch64_vdup_lane_any (p8, q, q, __a, __b)
 593 #define __aarch64_vdupq_laneq_p16(__a, __b) \
 594    __aarch64_vdup_lane_any (p16, q, q, __a, __b)
 595 #define __aarch64_vdupq_laneq_s8(__a, __b) \
 596    __aarch64_vdup_lane_any (s8, q, q, __a, __b)
 597 #define __aarch64_vdupq_laneq_s16(__a, __b) \
 598    __aarch64_vdup_lane_any (s16, q, q, __a, __b)
 599 #define __aarch64_vdupq_laneq_s32(__a, __b) \
 600    __aarch64_vdup_lane_any (s32, q, q, __a, __b)
 601 #define __aarch64_vdupq_laneq_s64(__a, __b) \
 602    __aarch64_vdup_lane_any (s64, q, q, __a, __b)
 603 #define __aarch64_vdupq_laneq_u8(__a, __b) \
 604    __aarch64_vdup_lane_any (u8, q, q, __a, __b)
 605 #define __aarch64_vdupq_laneq_u16(__a, __b) \
 606    __aarch64_vdup_lane_any (u16, q, q, __a, __b)
 607 #define __aarch64_vdupq_laneq_u32(__a, __b) \
 608    __aarch64_vdup_lane_any (u32, q, q, __a, __b)
 609 #define __aarch64_vdupq_laneq_u64(__a, __b) \
 610    __aarch64_vdup_lane_any (u64, q, q, __a, __b)
 611
 612 /* vadd  */
 613 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
 614 vadd_s8 (int8x8_t __a, int8x8_t __b)
 615 {
 616   return __a + __b;
 617 }
 618
 619 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
 620 vadd_s16 (int16x4_t __a, int16x4_t __b)
 621 {
 622   return __a + __b;
 623 }
 624
 625 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
 626 vadd_s32 (int32x2_t __a, int32x2_t __b)
 627 {
 628   return __a + __b;
 629 }
 630
 631 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
 632 vadd_f32 (float32x2_t __a, float32x2_t __b)
 633 {
 634   return __a + __b;
 635 }
 636
 637 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
 638 vadd_u8 (uint8x8_t __a, uint8x8_t __b)
 639 {
 640   return __a + __b;
 641 }
 642
 643 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
 644 vadd_u16 (uint16x4_t __a, uint16x4_t __b)
 645 {
 646   return __a + __b;
 647 }
 648
 649 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
 650 vadd_u32 (uint32x2_t __a, uint32x2_t __b)
 651 {
 652   return __a + __b;
 653 }
 654
 655 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
 656 vadd_s64 (int64x1_t __a, int64x1_t __b)
 657 {
 658   return __a + __b;
 659 }
 660
 661 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
 662 vadd_u64 (uint64x1_t __a, uint64x1_t __b)
 663 {
 664   return __a + __b;
 665 }
 666
 667 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
 668 vaddq_s8 (int8x16_t __a, int8x16_t __b)
 669 {
 670   return __a + __b;
 671 }
 672
 673 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
 674 vaddq_s16 (int16x8_t __a, int16x8_t __b)
 675 {
 676   return __a + __b;
 677 }
 678
 679 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
 680 vaddq_s32 (int32x4_t __a, int32x4_t __b)
 681 {
 682   return __a + __b;
 683 }
 684
 685 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
 686 vaddq_s64 (int64x2_t __a, int64x2_t __b)
 687 {
 688   return __a + __b;
 689 }
 690
 691 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
 692 vaddq_f32 (float32x4_t __a, float32x4_t __b)
 693 {
 694   return __a + __b;
 695 }
 696
 697 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
 698 vaddq_f64 (float64x2_t __a, float64x2_t __b)
 699 {
 700   return __a + __b;
 701 }
 702
 703 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
 704 vaddq_u8 (uint8x16_t __a, uint8x16_t __b)
 705 {
 706   return __a + __b;
 707 }
 708
 709 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
 710 vaddq_u16 (uint16x8_t __a, uint16x8_t __b)
 711 {
 712   return __a + __b;
 713 }
 714
 715 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
 716 vaddq_u32 (uint32x4_t __a, uint32x4_t __b)
 717 {
 718   return __a + __b;
 719 }
 720
 721 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
 722 vaddq_u64 (uint64x2_t __a, uint64x2_t __b)
 723 {
 724   return __a + __b;
 725 }
 726
 727 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
 728 vaddl_s8 (int8x8_t __a, int8x8_t __b)
 729 {
 730   return (int16x8_t) __builtin_aarch64_saddlv8qi (__a, __b);
 731 }
 732
 733 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
 734 vaddl_s16 (int16x4_t __a, int16x4_t __b)
 735 {
 736   return (int32x4_t) __builtin_aarch64_saddlv4hi (__a, __b);
 737 }
 738
 739 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
 740 vaddl_s32 (int32x2_t __a, int32x2_t __b)
 741 {
 742   return (int64x2_t) __builtin_aarch64_saddlv2si (__a, __b);
 743 }
 744
 745 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
 746 vaddl_u8 (uint8x8_t __a, uint8x8_t __b)
 747 {
 748   return (uint16x8_t) __builtin_aarch64_uaddlv8qi ((int8x8_t) __a,
 749                                                    (int8x8_t) __b);
 750 }
 751
 752 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
 753 vaddl_u16 (uint16x4_t __a, uint16x4_t __b)
 754 {
 755   return (uint32x4_t) __builtin_aarch64_uaddlv4hi ((int16x4_t) __a,
 756                                                    (int16x4_t) __b);
 757 }
 758
 759 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
 760 vaddl_u32 (uint32x2_t __a, uint32x2_t __b)
 761 {
 762   return (uint64x2_t) __builtin_aarch64_uaddlv2si ((int32x2_t) __a,
 763                                                    (int32x2_t) __b);
 764 }
 765
 766 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
 767 vaddl_high_s8 (int8x16_t __a, int8x16_t __b)
 768 {
 769   return (int16x8_t) __builtin_aarch64_saddl2v16qi (__a, __b);
 770 }
 771
 772 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
 773 vaddl_high_s16 (int16x8_t __a, int16x8_t __b)
 774 {
 775   return (int32x4_t) __builtin_aarch64_saddl2v8hi (__a, __b);
 776 }
 777
 778 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
 779 vaddl_high_s32 (int32x4_t __a, int32x4_t __b)
 780 {
 781   return (int64x2_t) __builtin_aarch64_saddl2v4si (__a, __b);
 782 }
 783
 784 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
 785 vaddl_high_u8 (uint8x16_t __a, uint8x16_t __b)
 786 {
 787   return (uint16x8_t) __builtin_aarch64_uaddl2v16qi ((int8x16_t) __a,
 788                                                      (int8x16_t) __b);
 789 }
 790
 791 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
 792 vaddl_high_u16 (uint16x8_t __a, uint16x8_t __b)
 793 {
 794   return (uint32x4_t) __builtin_aarch64_uaddl2v8hi ((int16x8_t) __a,
 795                                                     (int16x8_t) __b);
 796 }
 797
 798 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
 799 vaddl_high_u32 (uint32x4_t __a, uint32x4_t __b)
 800 {
 801   return (uint64x2_t) __builtin_aarch64_uaddl2v4si ((int32x4_t) __a,
 802                                                     (int32x4_t) __b);
 803 }
 804
 805 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
 806 vaddw_s8 (int16x8_t __a, int8x8_t __b)
 807 {
 808   return (int16x8_t) __builtin_aarch64_saddwv8qi (__a, __b);
 809 }
 810
 811 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
 812 vaddw_s16 (int32x4_t __a, int16x4_t __b)
 813 {
 814   return (int32x4_t) __builtin_aarch64_saddwv4hi (__a, __b);
 815 }
 816
 817 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
 818 vaddw_s32 (int64x2_t __a, int32x2_t __b)
 819 {
 820   return (int64x2_t) __builtin_aarch64_saddwv2si (__a, __b);
 821 }
 822
 823 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
 824 vaddw_u8 (uint16x8_t __a, uint8x8_t __b)
 825 {
 826   return (uint16x8_t) __builtin_aarch64_uaddwv8qi ((int16x8_t) __a,
 827                                                    (int8x8_t) __b);
 828 }
 829
 830 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
 831 vaddw_u16 (uint32x4_t __a, uint16x4_t __b)
 832 {
 833   return (uint32x4_t) __builtin_aarch64_uaddwv4hi ((int32x4_t) __a,
 834                                                    (int16x4_t) __b);
 835 }
 836
 837 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
 838 vaddw_u32 (uint64x2_t __a, uint32x2_t __b)
 839 {
 840   return (uint64x2_t) __builtin_aarch64_uaddwv2si ((int64x2_t) __a,
 841                                                    (int32x2_t) __b);
 842 }
 843
 844 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
 845 vaddw_high_s8 (int16x8_t __a, int8x16_t __b)
 846 {
 847   return (int16x8_t) __builtin_aarch64_saddw2v16qi (__a, __b);
 848 }
 849
 850 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
 851 vaddw_high_s16 (int32x4_t __a, int16x8_t __b)
 852 {
 853   return (int32x4_t) __builtin_aarch64_saddw2v8hi (__a, __b);
 854 }
 855
 856 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
 857 vaddw_high_s32 (int64x2_t __a, int32x4_t __b)
 858 {
 859   return (int64x2_t) __builtin_aarch64_saddw2v4si (__a, __b);
 860 }
 861
 862 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
 863 vaddw_high_u8 (uint16x8_t __a, uint8x16_t __b)
 864 {
 865   return (uint16x8_t) __builtin_aarch64_uaddw2v16qi ((int16x8_t) __a,
 866                                                      (int8x16_t) __b);
 867 }
 868
 869 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
 870 vaddw_high_u16 (uint32x4_t __a, uint16x8_t __b)
 871 {
 872   return (uint32x4_t) __builtin_aarch64_uaddw2v8hi ((int32x4_t) __a,
 873                                                     (int16x8_t) __b);
 874 }
 875
 876 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
 877 vaddw_high_u32 (uint64x2_t __a, uint32x4_t __b)
 878 {
 879   return (uint64x2_t) __builtin_aarch64_uaddw2v4si ((int64x2_t) __a,
 880                                                     (int32x4_t) __b);
 881 }
 882
 883 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
 884 vhadd_s8 (int8x8_t __a, int8x8_t __b)
 885 {
 886   return (int8x8_t) __builtin_aarch64_shaddv8qi (__a, __b);
 887 }
 888
 889 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
 890 vhadd_s16 (int16x4_t __a, int16x4_t __b)
 891 {
 892   return (int16x4_t) __builtin_aarch64_shaddv4hi (__a, __b);
 893 }
 894
 895 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
 896 vhadd_s32 (int32x2_t __a, int32x2_t __b)
 897 {
 898   return (int32x2_t) __builtin_aarch64_shaddv2si (__a, __b);
 899 }
 900
 901 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
 902 vhadd_u8 (uint8x8_t __a, uint8x8_t __b)
 903 {
 904   return (uint8x8_t) __builtin_aarch64_uhaddv8qi ((int8x8_t) __a,
 905                                                   (int8x8_t) __b);
 906 }
 907
 908 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
 909 vhadd_u16 (uint16x4_t __a, uint16x4_t __b)
 910 {
 911   return (uint16x4_t) __builtin_aarch64_uhaddv4hi ((int16x4_t) __a,
 912                                                    (int16x4_t) __b);
 913 }
 914
 915 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
 916 vhadd_u32 (uint32x2_t __a, uint32x2_t __b)
 917 {
 918   return (uint32x2_t) __builtin_aarch64_uhaddv2si ((int32x2_t) __a,
 919                                                    (int32x2_t) __b);
 920 }
 921
 922 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
 923 vhaddq_s8 (int8x16_t __a, int8x16_t __b)
 924 {
 925   return (int8x16_t) __builtin_aarch64_shaddv16qi (__a, __b);
 926 }
 927
 928 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
 929 vhaddq_s16 (int16x8_t __a, int16x8_t __b)
 930 {
 931   return (int16x8_t) __builtin_aarch64_shaddv8hi (__a, __b);
 932 }
 933
 934 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
 935 vhaddq_s32 (int32x4_t __a, int32x4_t __b)
 936 {
 937   return (int32x4_t) __builtin_aarch64_shaddv4si (__a, __b);
 938 }
 939
 940 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
 941 vhaddq_u8 (uint8x16_t __a, uint8x16_t __b)
 942 {
 943   return (uint8x16_t) __builtin_aarch64_uhaddv16qi ((int8x16_t) __a,
 944                                                     (int8x16_t) __b);
 945 }
 946
 947 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
 948 vhaddq_u16 (uint16x8_t __a, uint16x8_t __b)
 949 {
 950   return (uint16x8_t) __builtin_aarch64_uhaddv8hi ((int16x8_t) __a,
 951                                                    (int16x8_t) __b);
 952 }
 953
 954 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
 955 vhaddq_u32 (uint32x4_t __a, uint32x4_t __b)
 956 {
 957   return (uint32x4_t) __builtin_aarch64_uhaddv4si ((int32x4_t) __a,
 958                                                    (int32x4_t) __b);
 959 }
 960
 961 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
 962 vrhadd_s8 (int8x8_t __a, int8x8_t __b)
 963 {
 964   return (int8x8_t) __builtin_aarch64_srhaddv8qi (__a, __b);
 965 }
 966
 967 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
 968 vrhadd_s16 (int16x4_t __a, int16x4_t __b)
 969 {
 970   return (int16x4_t) __builtin_aarch64_srhaddv4hi (__a, __b);
 971 }
 972
 973 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
 974 vrhadd_s32 (int32x2_t __a, int32x2_t __b)
 975 {
 976   return (int32x2_t) __builtin_aarch64_srhaddv2si (__a, __b);
 977 }
 978
 979 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
 980 vrhadd_u8 (uint8x8_t __a, uint8x8_t __b)
 981 {
 982   return (uint8x8_t) __builtin_aarch64_urhaddv8qi ((int8x8_t) __a,
 983                                                    (int8x8_t) __b);
 984 }
 985
 986 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
 987 vrhadd_u16 (uint16x4_t __a, uint16x4_t __b)
 988 {
 989   return (uint16x4_t) __builtin_aarch64_urhaddv4hi ((int16x4_t) __a,
 990                                                     (int16x4_t) __b);
 991 }
 992
 993 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
 994 vrhadd_u32 (uint32x2_t __a, uint32x2_t __b)
 995 {
 996   return (uint32x2_t) __builtin_aarch64_urhaddv2si ((int32x2_t) __a,
 997                                                     (int32x2_t) __b);
 998 }
 999
1000 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1001 vrhaddq_s8 (int8x16_t __a, int8x16_t __b)
1002 {
1003   return (int8x16_t) __builtin_aarch64_srhaddv16qi (__a, __b);
1004 }
1005
1006 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1007 vrhaddq_s16 (int16x8_t __a, int16x8_t __b)
1008 {
1009   return (int16x8_t) __builtin_aarch64_srhaddv8hi (__a, __b);
1010 }
1011
1012 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1013 vrhaddq_s32 (int32x4_t __a, int32x4_t __b)
1014 {
1015   return (int32x4_t) __builtin_aarch64_srhaddv4si (__a, __b);
1016 }
1017
1018 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1019 vrhaddq_u8 (uint8x16_t __a, uint8x16_t __b)
1020 {
1021   return (uint8x16_t) __builtin_aarch64_urhaddv16qi ((int8x16_t) __a,
1022                                                      (int8x16_t) __b);
1023 }
1024
1025 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1026 vrhaddq_u16 (uint16x8_t __a, uint16x8_t __b)
1027 {
1028   return (uint16x8_t) __builtin_aarch64_urhaddv8hi ((int16x8_t) __a,
1029                                                     (int16x8_t) __b);
1030 }
1031
1032 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1033 vrhaddq_u32 (uint32x4_t __a, uint32x4_t __b)
1034 {
1035   return (uint32x4_t) __builtin_aarch64_urhaddv4si ((int32x4_t) __a,
1036                                                     (int32x4_t) __b);
1037 }
1038
1039 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1040 vaddhn_s16 (int16x8_t __a, int16x8_t __b)
1041 {
1042   return (int8x8_t) __builtin_aarch64_addhnv8hi (__a, __b);
1043 }
1044
1045 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1046 vaddhn_s32 (int32x4_t __a, int32x4_t __b)
1047 {
1048   return (int16x4_t) __builtin_aarch64_addhnv4si (__a, __b);
1049 }
1050
1051 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1052 vaddhn_s64 (int64x2_t __a, int64x2_t __b)
1053 {
1054   return (int32x2_t) __builtin_aarch64_addhnv2di (__a, __b);
1055 }
1056
1057 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1058 vaddhn_u16 (uint16x8_t __a, uint16x8_t __b)
1059 {
1060   return (uint8x8_t) __builtin_aarch64_addhnv8hi ((int16x8_t) __a,
1061                                                   (int16x8_t) __b);
1062 }
1063
1064 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1065 vaddhn_u32 (uint32x4_t __a, uint32x4_t __b)
1066 {
1067   return (uint16x4_t) __builtin_aarch64_addhnv4si ((int32x4_t) __a,
1068                                                    (int32x4_t) __b);
1069 }
1070
1071 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1072 vaddhn_u64 (uint64x2_t __a, uint64x2_t __b)
1073 {
1074   return (uint32x2_t) __builtin_aarch64_addhnv2di ((int64x2_t) __a,
1075                                                    (int64x2_t) __b);
1076 }
1077
1078 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1079 vraddhn_s16 (int16x8_t __a, int16x8_t __b)
1080 {
1081   return (int8x8_t) __builtin_aarch64_raddhnv8hi (__a, __b);
1082 }
1083
1084 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1085 vraddhn_s32 (int32x4_t __a, int32x4_t __b)
1086 {
1087   return (int16x4_t) __builtin_aarch64_raddhnv4si (__a, __b);
1088 }
1089
1090 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1091 vraddhn_s64 (int64x2_t __a, int64x2_t __b)
1092 {
1093   return (int32x2_t) __builtin_aarch64_raddhnv2di (__a, __b);
1094 }
1095
1096 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1097 vraddhn_u16 (uint16x8_t __a, uint16x8_t __b)
1098 {
1099   return (uint8x8_t) __builtin_aarch64_raddhnv8hi ((int16x8_t) __a,
1100                                                    (int16x8_t) __b);
1101 }
1102
1103 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1104 vraddhn_u32 (uint32x4_t __a, uint32x4_t __b)
1105 {
1106   return (uint16x4_t) __builtin_aarch64_raddhnv4si ((int32x4_t) __a,
1107                                                     (int32x4_t) __b);
1108 }
1109
1110 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1111 vraddhn_u64 (uint64x2_t __a, uint64x2_t __b)
1112 {
1113   return (uint32x2_t) __builtin_aarch64_raddhnv2di ((int64x2_t) __a,
1114                                                     (int64x2_t) __b);
1115 }
1116
1117 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1118 vaddhn_high_s16 (int8x8_t __a, int16x8_t __b, int16x8_t __c)
1119 {
1120   return (int8x16_t) __builtin_aarch64_addhn2v8hi (__a, __b, __c);
1121 }
1122
1123 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1124 vaddhn_high_s32 (int16x4_t __a, int32x4_t __b, int32x4_t __c)
1125 {
1126   return (int16x8_t) __builtin_aarch64_addhn2v4si (__a, __b, __c);
1127 }
1128
1129 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1130 vaddhn_high_s64 (int32x2_t __a, int64x2_t __b, int64x2_t __c)
1131 {
1132   return (int32x4_t) __builtin_aarch64_addhn2v2di (__a, __b, __c);
1133 }
1134
1135 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1136 vaddhn_high_u16 (uint8x8_t __a, uint16x8_t __b, uint16x8_t __c)
1137 {
1138   return (uint8x16_t) __builtin_aarch64_addhn2v8hi ((int8x8_t) __a,
1139                                                     (int16x8_t) __b,
1140                                                     (int16x8_t) __c);
1141 }
1142
1143 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1144 vaddhn_high_u32 (uint16x4_t __a, uint32x4_t __b, uint32x4_t __c)
1145 {
1146   return (uint16x8_t) __builtin_aarch64_addhn2v4si ((int16x4_t) __a,
1147                                                     (int32x4_t) __b,
1148                                                     (int32x4_t) __c);
1149 }
1150
1151 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1152 vaddhn_high_u64 (uint32x2_t __a, uint64x2_t __b, uint64x2_t __c)
1153 {
1154   return (uint32x4_t) __builtin_aarch64_addhn2v2di ((int32x2_t) __a,
1155                                                     (int64x2_t) __b,
1156                                                     (int64x2_t) __c);
1157 }
1158
1159 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1160 vraddhn_high_s16 (int8x8_t __a, int16x8_t __b, int16x8_t __c)
1161 {
1162   return (int8x16_t) __builtin_aarch64_raddhn2v8hi (__a, __b, __c);
1163 }
1164
1165 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1166 vraddhn_high_s32 (int16x4_t __a, int32x4_t __b, int32x4_t __c)
1167 {
1168   return (int16x8_t) __builtin_aarch64_raddhn2v4si (__a, __b, __c);
1169 }
1170
1171 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1172 vraddhn_high_s64 (int32x2_t __a, int64x2_t __b, int64x2_t __c)
1173 {
1174   return (int32x4_t) __builtin_aarch64_raddhn2v2di (__a, __b, __c);
1175 }
1176
1177 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1178 vraddhn_high_u16 (uint8x8_t __a, uint16x8_t __b, uint16x8_t __c)
1179 {
1180   return (uint8x16_t) __builtin_aarch64_raddhn2v8hi ((int8x8_t) __a,
1181                                                      (int16x8_t) __b,
1182                                                      (int16x8_t) __c);
1183 }
1184
1185 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1186 vraddhn_high_u32 (uint16x4_t __a, uint32x4_t __b, uint32x4_t __c)
1187 {
1188   return (uint16x8_t) __builtin_aarch64_raddhn2v4si ((int16x4_t) __a,
1189                                                      (int32x4_t) __b,
1190                                                      (int32x4_t) __c);
1191 }
1192
1193 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1194 vraddhn_high_u64 (uint32x2_t __a, uint64x2_t __b, uint64x2_t __c)
1195 {
1196   return (uint32x4_t) __builtin_aarch64_raddhn2v2di ((int32x2_t) __a,
1197                                                      (int64x2_t) __b,
1198                                                      (int64x2_t) __c);
1199 }
1200
1201 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
1202 vdiv_f32 (float32x2_t __a, float32x2_t __b)
1203 {
1204   return __a / __b;
1205 }
1206
1207 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
1208 vdivq_f32 (float32x4_t __a, float32x4_t __b)
1209 {
1210   return __a / __b;
1211 }
1212
1213 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
1214 vdivq_f64 (float64x2_t __a, float64x2_t __b)
1215 {
1216   return __a / __b;
1217 }
1218
1219 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1220 vmul_s8 (int8x8_t __a, int8x8_t __b)
1221 {
1222   return __a * __b;
1223 }
1224
1225 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1226 vmul_s16 (int16x4_t __a, int16x4_t __b)
1227 {
1228   return __a * __b;
1229 }
1230
1231 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1232 vmul_s32 (int32x2_t __a, int32x2_t __b)
1233 {
1234   return __a * __b;
1235 }
1236
1237 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
1238 vmul_f32 (float32x2_t __a, float32x2_t __b)
1239 {
1240   return __a * __b;
1241 }
1242
1243 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1244 vmul_u8 (uint8x8_t __a, uint8x8_t __b)
1245 {
1246   return __a * __b;
1247 }
1248
1249 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1250 vmul_u16 (uint16x4_t __a, uint16x4_t __b)
1251 {
1252   return __a * __b;
1253 }
1254
1255 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1256 vmul_u32 (uint32x2_t __a, uint32x2_t __b)
1257 {
1258   return __a * __b;
1259 }
1260
1261 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
1262 vmul_p8 (poly8x8_t __a, poly8x8_t __b)
1263 {
1264   return (poly8x8_t) __builtin_aarch64_pmulv8qi ((int8x8_t) __a,
1265                                                  (int8x8_t) __b);
1266 }
1267
1268 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1269 vmulq_s8 (int8x16_t __a, int8x16_t __b)
1270 {
1271   return __a * __b;
1272 }
1273
1274 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1275 vmulq_s16 (int16x8_t __a, int16x8_t __b)
1276 {
1277   return __a * __b;
1278 }
1279
1280 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1281 vmulq_s32 (int32x4_t __a, int32x4_t __b)
1282 {
1283   return __a * __b;
1284 }
1285
1286 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
1287 vmulq_f32 (float32x4_t __a, float32x4_t __b)
1288 {
1289   return __a * __b;
1290 }
1291
1292 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
1293 vmulq_f64 (float64x2_t __a, float64x2_t __b)
1294 {
1295   return __a * __b;
1296 }
1297
1298 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1299 vmulq_u8 (uint8x16_t __a, uint8x16_t __b)
1300 {
1301   return __a * __b;
1302 }
1303
1304 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1305 vmulq_u16 (uint16x8_t __a, uint16x8_t __b)
1306 {
1307   return __a * __b;
1308 }
1309
1310 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1311 vmulq_u32 (uint32x4_t __a, uint32x4_t __b)
1312 {
1313   return __a * __b;
1314 }
1315
1316 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
1317 vmulq_p8 (poly8x16_t __a, poly8x16_t __b)
1318 {
1319   return (poly8x16_t) __builtin_aarch64_pmulv16qi ((int8x16_t) __a,
1320                                                    (int8x16_t) __b);
1321 }
1322
1323 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1324 vand_s8 (int8x8_t __a, int8x8_t __b)
1325 {
1326   return __a & __b;
1327 }
1328
1329 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1330 vand_s16 (int16x4_t __a, int16x4_t __b)
1331 {
1332   return __a & __b;
1333 }
1334
1335 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1336 vand_s32 (int32x2_t __a, int32x2_t __b)
1337 {
1338   return __a & __b;
1339 }
1340
1341 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1342 vand_u8 (uint8x8_t __a, uint8x8_t __b)
1343 {
1344   return __a & __b;
1345 }
1346
1347 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1348 vand_u16 (uint16x4_t __a, uint16x4_t __b)
1349 {
1350   return __a & __b;
1351 }
1352
1353 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1354 vand_u32 (uint32x2_t __a, uint32x2_t __b)
1355 {
1356   return __a & __b;
1357 }
1358
1359 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
1360 vand_s64 (int64x1_t __a, int64x1_t __b)
1361 {
1362   return __a & __b;
1363 }
1364
1365 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
1366 vand_u64 (uint64x1_t __a, uint64x1_t __b)
1367 {
1368   return __a & __b;
1369 }
1370
1371 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1372 vandq_s8 (int8x16_t __a, int8x16_t __b)
1373 {
1374   return __a & __b;
1375 }
1376
1377 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1378 vandq_s16 (int16x8_t __a, int16x8_t __b)
1379 {
1380   return __a & __b;
1381 }
1382
1383 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1384 vandq_s32 (int32x4_t __a, int32x4_t __b)
1385 {
1386   return __a & __b;
1387 }
1388
1389 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1390 vandq_s64 (int64x2_t __a, int64x2_t __b)
1391 {
1392   return __a & __b;
1393 }
1394
1395 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1396 vandq_u8 (uint8x16_t __a, uint8x16_t __b)
1397 {
1398   return __a & __b;
1399 }
1400
1401 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1402 vandq_u16 (uint16x8_t __a, uint16x8_t __b)
1403 {
1404   return __a & __b;
1405 }
1406
1407 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1408 vandq_u32 (uint32x4_t __a, uint32x4_t __b)
1409 {
1410   return __a & __b;
1411 }
1412
1413 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1414 vandq_u64 (uint64x2_t __a, uint64x2_t __b)
1415 {
1416   return __a & __b;
1417 }
1418
1419 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1420 vorr_s8 (int8x8_t __a, int8x8_t __b)
1421 {
1422   return __a | __b;
1423 }
1424
1425 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1426 vorr_s16 (int16x4_t __a, int16x4_t __b)
1427 {
1428   return __a | __b;
1429 }
1430
1431 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1432 vorr_s32 (int32x2_t __a, int32x2_t __b)
1433 {
1434   return __a | __b;
1435 }
1436
1437 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1438 vorr_u8 (uint8x8_t __a, uint8x8_t __b)
1439 {
1440   return __a | __b;
1441 }
1442
1443 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1444 vorr_u16 (uint16x4_t __a, uint16x4_t __b)
1445 {
1446   return __a | __b;
1447 }
1448
1449 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1450 vorr_u32 (uint32x2_t __a, uint32x2_t __b)
1451 {
1452   return __a | __b;
1453 }
1454
1455 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
1456 vorr_s64 (int64x1_t __a, int64x1_t __b)
1457 {
1458   return __a | __b;
1459 }
1460
1461 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
1462 vorr_u64 (uint64x1_t __a, uint64x1_t __b)
1463 {
1464   return __a | __b;
1465 }
1466
1467 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1468 vorrq_s8 (int8x16_t __a, int8x16_t __b)
1469 {
1470   return __a | __b;
1471 }
1472
1473 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1474 vorrq_s16 (int16x8_t __a, int16x8_t __b)
1475 {
1476   return __a | __b;
1477 }
1478
1479 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1480 vorrq_s32 (int32x4_t __a, int32x4_t __b)
1481 {
1482   return __a | __b;
1483 }
1484
1485 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1486 vorrq_s64 (int64x2_t __a, int64x2_t __b)
1487 {
1488   return __a | __b;
1489 }
1490
1491 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1492 vorrq_u8 (uint8x16_t __a, uint8x16_t __b)
1493 {
1494   return __a | __b;
1495 }
1496
1497 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1498 vorrq_u16 (uint16x8_t __a, uint16x8_t __b)
1499 {
1500   return __a | __b;
1501 }
1502
1503 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1504 vorrq_u32 (uint32x4_t __a, uint32x4_t __b)
1505 {
1506   return __a | __b;
1507 }
1508
1509 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1510 vorrq_u64 (uint64x2_t __a, uint64x2_t __b)
1511 {
1512   return __a | __b;
1513 }
1514
1515 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1516 veor_s8 (int8x8_t __a, int8x8_t __b)
1517 {
1518   return __a ^ __b;
1519 }
1520
1521 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1522 veor_s16 (int16x4_t __a, int16x4_t __b)
1523 {
1524   return __a ^ __b;
1525 }
1526
1527 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1528 veor_s32 (int32x2_t __a, int32x2_t __b)
1529 {
1530   return __a ^ __b;
1531 }
1532
1533 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1534 veor_u8 (uint8x8_t __a, uint8x8_t __b)
1535 {
1536   return __a ^ __b;
1537 }
1538
1539 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1540 veor_u16 (uint16x4_t __a, uint16x4_t __b)
1541 {
1542   return __a ^ __b;
1543 }
1544
1545 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1546 veor_u32 (uint32x2_t __a, uint32x2_t __b)
1547 {
1548   return __a ^ __b;
1549 }
1550
1551 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
1552 veor_s64 (int64x1_t __a, int64x1_t __b)
1553 {
1554   return __a ^ __b;
1555 }
1556
1557 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
1558 veor_u64 (uint64x1_t __a, uint64x1_t __b)
1559 {
1560   return __a ^ __b;
1561 }
1562
1563 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1564 veorq_s8 (int8x16_t __a, int8x16_t __b)
1565 {
1566   return __a ^ __b;
1567 }
1568
1569 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1570 veorq_s16 (int16x8_t __a, int16x8_t __b)
1571 {
1572   return __a ^ __b;
1573 }
1574
1575 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1576 veorq_s32 (int32x4_t __a, int32x4_t __b)
1577 {
1578   return __a ^ __b;
1579 }
1580
1581 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1582 veorq_s64 (int64x2_t __a, int64x2_t __b)
1583 {
1584   return __a ^ __b;
1585 }
1586
1587 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1588 veorq_u8 (uint8x16_t __a, uint8x16_t __b)
1589 {
1590   return __a ^ __b;
1591 }
1592
1593 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1594 veorq_u16 (uint16x8_t __a, uint16x8_t __b)
1595 {
1596   return __a ^ __b;
1597 }
1598
1599 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1600 veorq_u32 (uint32x4_t __a, uint32x4_t __b)
1601 {
1602   return __a ^ __b;
1603 }
1604
1605 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1606 veorq_u64 (uint64x2_t __a, uint64x2_t __b)
1607 {
1608   return __a ^ __b;
1609 }
1610
1611 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1612 vbic_s8 (int8x8_t __a, int8x8_t __b)
1613 {
1614   return __a & ~__b;
1615 }
1616
1617 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1618 vbic_s16 (int16x4_t __a, int16x4_t __b)
1619 {
1620   return __a & ~__b;
1621 }
1622
1623 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1624 vbic_s32 (int32x2_t __a, int32x2_t __b)
1625 {
1626   return __a & ~__b;
1627 }
1628
1629 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1630 vbic_u8 (uint8x8_t __a, uint8x8_t __b)
1631 {
1632   return __a & ~__b;
1633 }
1634
1635 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1636 vbic_u16 (uint16x4_t __a, uint16x4_t __b)
1637 {
1638   return __a & ~__b;
1639 }
1640
1641 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1642 vbic_u32 (uint32x2_t __a, uint32x2_t __b)
1643 {
1644   return __a & ~__b;
1645 }
1646
1647 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
1648 vbic_s64 (int64x1_t __a, int64x1_t __b)
1649 {
1650   return __a & ~__b;
1651 }
1652
1653 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
1654 vbic_u64 (uint64x1_t __a, uint64x1_t __b)
1655 {
1656   return __a & ~__b;
1657 }
1658
1659 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1660 vbicq_s8 (int8x16_t __a, int8x16_t __b)
1661 {
1662   return __a & ~__b;
1663 }
1664
1665 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1666 vbicq_s16 (int16x8_t __a, int16x8_t __b)
1667 {
1668   return __a & ~__b;
1669 }
1670
1671 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1672 vbicq_s32 (int32x4_t __a, int32x4_t __b)
1673 {
1674   return __a & ~__b;
1675 }
1676
1677 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1678 vbicq_s64 (int64x2_t __a, int64x2_t __b)
1679 {
1680   return __a & ~__b;
1681 }
1682
1683 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1684 vbicq_u8 (uint8x16_t __a, uint8x16_t __b)
1685 {
1686   return __a & ~__b;
1687 }
1688
1689 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1690 vbicq_u16 (uint16x8_t __a, uint16x8_t __b)
1691 {
1692   return __a & ~__b;
1693 }
1694
1695 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1696 vbicq_u32 (uint32x4_t __a, uint32x4_t __b)
1697 {
1698   return __a & ~__b;
1699 }
1700
1701 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1702 vbicq_u64 (uint64x2_t __a, uint64x2_t __b)
1703 {
1704   return __a & ~__b;
1705 }
1706
1707 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1708 vorn_s8 (int8x8_t __a, int8x8_t __b)
1709 {
1710   return __a | ~__b;
1711 }
1712
1713 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1714 vorn_s16 (int16x4_t __a, int16x4_t __b)
1715 {
1716   return __a | ~__b;
1717 }
1718
1719 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1720 vorn_s32 (int32x2_t __a, int32x2_t __b)
1721 {
1722   return __a | ~__b;
1723 }
1724
1725 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1726 vorn_u8 (uint8x8_t __a, uint8x8_t __b)
1727 {
1728   return __a | ~__b;
1729 }
1730
1731 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1732 vorn_u16 (uint16x4_t __a, uint16x4_t __b)
1733 {
1734   return __a | ~__b;
1735 }
1736
1737 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1738 vorn_u32 (uint32x2_t __a, uint32x2_t __b)
1739 {
1740   return __a | ~__b;
1741 }
1742
1743 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
1744 vorn_s64 (int64x1_t __a, int64x1_t __b)
1745 {
1746   return __a | ~__b;
1747 }
1748
1749 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
1750 vorn_u64 (uint64x1_t __a, uint64x1_t __b)
1751 {
1752   return __a | ~__b;
1753 }
1754
1755 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1756 vornq_s8 (int8x16_t __a, int8x16_t __b)
1757 {
1758   return __a | ~__b;
1759 }
1760
1761 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1762 vornq_s16 (int16x8_t __a, int16x8_t __b)
1763 {
1764   return __a | ~__b;
1765 }
1766
1767 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1768 vornq_s32 (int32x4_t __a, int32x4_t __b)
1769 {
1770   return __a | ~__b;
1771 }
1772
1773 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1774 vornq_s64 (int64x2_t __a, int64x2_t __b)
1775 {
1776   return __a | ~__b;
1777 }
1778
1779 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1780 vornq_u8 (uint8x16_t __a, uint8x16_t __b)
1781 {
1782   return __a | ~__b;
1783 }
1784
1785 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1786 vornq_u16 (uint16x8_t __a, uint16x8_t __b)
1787 {
1788   return __a | ~__b;
1789 }
1790
1791 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1792 vornq_u32 (uint32x4_t __a, uint32x4_t __b)
1793 {
1794   return __a | ~__b;
1795 }
1796
1797 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1798 vornq_u64 (uint64x2_t __a, uint64x2_t __b)
1799 {
1800   return __a | ~__b;
1801 }
1802
1803 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
1804 vsub_s8 (int8x8_t __a, int8x8_t __b)
1805 {
1806   return __a - __b;
1807 }
1808
1809 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
1810 vsub_s16 (int16x4_t __a, int16x4_t __b)
1811 {
1812   return __a - __b;
1813 }
1814
1815 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
1816 vsub_s32 (int32x2_t __a, int32x2_t __b)
1817 {
1818   return __a - __b;
1819 }
1820
1821 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
1822 vsub_f32 (float32x2_t __a, float32x2_t __b)
1823 {
1824   return __a - __b;
1825 }
1826
1827 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
1828 vsub_u8 (uint8x8_t __a, uint8x8_t __b)
1829 {
1830   return __a - __b;
1831 }
1832
1833 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
1834 vsub_u16 (uint16x4_t __a, uint16x4_t __b)
1835 {
1836   return __a - __b;
1837 }
1838
1839 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
1840 vsub_u32 (uint32x2_t __a, uint32x2_t __b)
1841 {
1842   return __a - __b;
1843 }
1844
1845 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
1846 vsub_s64 (int64x1_t __a, int64x1_t __b)
1847 {
1848   return __a - __b;
1849 }
1850
1851 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
1852 vsub_u64 (uint64x1_t __a, uint64x1_t __b)
1853 {
1854   return __a - __b;
1855 }
1856
1857 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
1858 vsubq_s8 (int8x16_t __a, int8x16_t __b)
1859 {
1860   return __a - __b;
1861 }
1862
1863 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1864 vsubq_s16 (int16x8_t __a, int16x8_t __b)
1865 {
1866   return __a - __b;
1867 }
1868
1869 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1870 vsubq_s32 (int32x4_t __a, int32x4_t __b)
1871 {
1872   return __a - __b;
1873 }
1874
1875 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1876 vsubq_s64 (int64x2_t __a, int64x2_t __b)
1877 {
1878   return __a - __b;
1879 }
1880
1881 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
1882 vsubq_f32 (float32x4_t __a, float32x4_t __b)
1883 {
1884   return __a - __b;
1885 }
1886
1887 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
1888 vsubq_f64 (float64x2_t __a, float64x2_t __b)
1889 {
1890   return __a - __b;
1891 }
1892
1893 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
1894 vsubq_u8 (uint8x16_t __a, uint8x16_t __b)
1895 {
1896   return __a - __b;
1897 }
1898
1899 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1900 vsubq_u16 (uint16x8_t __a, uint16x8_t __b)
1901 {
1902   return __a - __b;
1903 }
1904
1905 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1906 vsubq_u32 (uint32x4_t __a, uint32x4_t __b)
1907 {
1908   return __a - __b;
1909 }
1910
1911 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1912 vsubq_u64 (uint64x2_t __a, uint64x2_t __b)
1913 {
1914   return __a - __b;
1915 }
1916
1917 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1918 vsubl_s8 (int8x8_t __a, int8x8_t __b)
1919 {
1920   return (int16x8_t) __builtin_aarch64_ssublv8qi (__a, __b);
1921 }
1922
1923 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1924 vsubl_s16 (int16x4_t __a, int16x4_t __b)
1925 {
1926   return (int32x4_t) __builtin_aarch64_ssublv4hi (__a, __b);
1927 }
1928
1929 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1930 vsubl_s32 (int32x2_t __a, int32x2_t __b)
1931 {
1932   return (int64x2_t) __builtin_aarch64_ssublv2si (__a, __b);
1933 }
1934
1935 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1936 vsubl_u8 (uint8x8_t __a, uint8x8_t __b)
1937 {
1938   return (uint16x8_t) __builtin_aarch64_usublv8qi ((int8x8_t) __a,
1939                                                    (int8x8_t) __b);
1940 }
1941
1942 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1943 vsubl_u16 (uint16x4_t __a, uint16x4_t __b)
1944 {
1945   return (uint32x4_t) __builtin_aarch64_usublv4hi ((int16x4_t) __a,
1946                                                    (int16x4_t) __b);
1947 }
1948
1949 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1950 vsubl_u32 (uint32x2_t __a, uint32x2_t __b)
1951 {
1952   return (uint64x2_t) __builtin_aarch64_usublv2si ((int32x2_t) __a,
1953                                                    (int32x2_t) __b);
1954 }
1955
1956 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1957 vsubl_high_s8 (int8x16_t __a, int8x16_t __b)
1958 {
1959   return (int16x8_t) __builtin_aarch64_ssubl2v16qi (__a, __b);
1960 }
1961
1962 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
1963 vsubl_high_s16 (int16x8_t __a, int16x8_t __b)
1964 {
1965   return (int32x4_t) __builtin_aarch64_ssubl2v8hi (__a, __b);
1966 }
1967
1968 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
1969 vsubl_high_s32 (int32x4_t __a, int32x4_t __b)
1970 {
1971   return (int64x2_t) __builtin_aarch64_ssubl2v4si (__a, __b);
1972 }
1973
1974 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
1975 vsubl_high_u8 (uint8x16_t __a, uint8x16_t __b)
1976 {
1977   return (uint16x8_t) __builtin_aarch64_usubl2v16qi ((int8x16_t) __a,
1978                                                      (int8x16_t) __b);
1979 }
1980
1981 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
1982 vsubl_high_u16 (uint16x8_t __a, uint16x8_t __b)
1983 {
1984   return (uint32x4_t) __builtin_aarch64_usubl2v8hi ((int16x8_t) __a,
1985                                                     (int16x8_t) __b);
1986 }
1987
1988 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
1989 vsubl_high_u32 (uint32x4_t __a, uint32x4_t __b)
1990 {
1991   return (uint64x2_t) __builtin_aarch64_usubl2v4si ((int32x4_t) __a,
1992                                                     (int32x4_t) __b);
1993 }
1994
1995 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
1996 vsubw_s8 (int16x8_t __a, int8x8_t __b)
1997 {
1998   return (int16x8_t) __builtin_aarch64_ssubwv8qi (__a, __b);
1999 }
2000
2001 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2002 vsubw_s16 (int32x4_t __a, int16x4_t __b)
2003 {
2004   return (int32x4_t) __builtin_aarch64_ssubwv4hi (__a, __b);
2005 }
2006
2007 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
2008 vsubw_s32 (int64x2_t __a, int32x2_t __b)
2009 {
2010   return (int64x2_t) __builtin_aarch64_ssubwv2si (__a, __b);
2011 }
2012
2013 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
2014 vsubw_u8 (uint16x8_t __a, uint8x8_t __b)
2015 {
2016   return (uint16x8_t) __builtin_aarch64_usubwv8qi ((int16x8_t) __a,
2017                                                    (int8x8_t) __b);
2018 }
2019
2020 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
2021 vsubw_u16 (uint32x4_t __a, uint16x4_t __b)
2022 {
2023   return (uint32x4_t) __builtin_aarch64_usubwv4hi ((int32x4_t) __a,
2024                                                    (int16x4_t) __b);
2025 }
2026
2027 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
2028 vsubw_u32 (uint64x2_t __a, uint32x2_t __b)
2029 {
2030   return (uint64x2_t) __builtin_aarch64_usubwv2si ((int64x2_t) __a,
2031                                                    (int32x2_t) __b);
2032 }
2033
2034 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2035 vsubw_high_s8 (int16x8_t __a, int8x16_t __b)
2036 {
2037   return (int16x8_t) __builtin_aarch64_ssubw2v16qi (__a, __b);
2038 }
2039
2040 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2041 vsubw_high_s16 (int32x4_t __a, int16x8_t __b)
2042 {
2043   return (int32x4_t) __builtin_aarch64_ssubw2v8hi (__a, __b);
2044 }
2045
2046 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
2047 vsubw_high_s32 (int64x2_t __a, int32x4_t __b)
2048 {
2049   return (int64x2_t) __builtin_aarch64_ssubw2v4si (__a, __b);
2050 }
2051
2052 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
2053 vsubw_high_u8 (uint16x8_t __a, uint8x16_t __b)
2054 {
2055   return (uint16x8_t) __builtin_aarch64_usubw2v16qi ((int16x8_t) __a,
2056                                                      (int8x16_t) __b);
2057 }
2058
2059 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
2060 vsubw_high_u16 (uint32x4_t __a, uint16x8_t __b)
2061 {
2062   return (uint32x4_t) __builtin_aarch64_usubw2v8hi ((int32x4_t) __a,
2063                                                     (int16x8_t) __b);
2064 }
2065
2066 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
2067 vsubw_high_u32 (uint64x2_t __a, uint32x4_t __b)
2068 {
2069   return (uint64x2_t) __builtin_aarch64_usubw2v4si ((int64x2_t) __a,
2070                                                     (int32x4_t) __b);
2071 }
2072
2073 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
2074 vqadd_s8 (int8x8_t __a, int8x8_t __b)
2075 {
2076   return (int8x8_t) __builtin_aarch64_sqaddv8qi (__a, __b);
2077 }
2078
2079 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2080 vqadd_s16 (int16x4_t __a, int16x4_t __b)
2081 {
2082   return (int16x4_t) __builtin_aarch64_sqaddv4hi (__a, __b);
2083 }
2084
2085 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2086 vqadd_s32 (int32x2_t __a, int32x2_t __b)
2087 {
2088   return (int32x2_t) __builtin_aarch64_sqaddv2si (__a, __b);
2089 }
2090
2091 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
2092 vqadd_s64 (int64x1_t __a, int64x1_t __b)
2093 {
2094   return (int64x1_t) __builtin_aarch64_sqadddi (__a, __b);
2095 }
2096
2097 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
2098 vqadd_u8 (uint8x8_t __a, uint8x8_t __b)
2099 {
2100   return (uint8x8_t) __builtin_aarch64_uqaddv8qi ((int8x8_t) __a,
2101                                                   (int8x8_t) __b);
2102 }
2103
2104 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
2105 vqadd_u16 (uint16x4_t __a, uint16x4_t __b)
2106 {
2107   return (uint16x4_t) __builtin_aarch64_uqaddv4hi ((int16x4_t) __a,
2108                                                    (int16x4_t) __b);
2109 }
2110
2111 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
2112 vqadd_u32 (uint32x2_t __a, uint32x2_t __b)
2113 {
2114   return (uint32x2_t) __builtin_aarch64_uqaddv2si ((int32x2_t) __a,
2115                                                    (int32x2_t) __b);
2116 }
2117
2118 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
2119 vqadd_u64 (uint64x1_t __a, uint64x1_t __b)
2120 {
2121   return (uint64x1_t) __builtin_aarch64_uqadddi ((int64x1_t) __a,
2122                                                  (int64x1_t) __b);
2123 }
2124
2125 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
2126 vqaddq_s8 (int8x16_t __a, int8x16_t __b)
2127 {
2128   return (int8x16_t) __builtin_aarch64_sqaddv16qi (__a, __b);
2129 }
2130
2131 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2132 vqaddq_s16 (int16x8_t __a, int16x8_t __b)
2133 {
2134   return (int16x8_t) __builtin_aarch64_sqaddv8hi (__a, __b);
2135 }
2136
2137 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2138 vqaddq_s32 (int32x4_t __a, int32x4_t __b)
2139 {
2140   return (int32x4_t) __builtin_aarch64_sqaddv4si (__a, __b);
2141 }
2142
2143 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
2144 vqaddq_s64 (int64x2_t __a, int64x2_t __b)
2145 {
2146   return (int64x2_t) __builtin_aarch64_sqaddv2di (__a, __b);
2147 }
2148
2149 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
2150 vqaddq_u8 (uint8x16_t __a, uint8x16_t __b)
2151 {
2152   return (uint8x16_t) __builtin_aarch64_uqaddv16qi ((int8x16_t) __a,
2153                                                     (int8x16_t) __b);
2154 }
2155
2156 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
2157 vqaddq_u16 (uint16x8_t __a, uint16x8_t __b)
2158 {
2159   return (uint16x8_t) __builtin_aarch64_uqaddv8hi ((int16x8_t) __a,
2160                                                    (int16x8_t) __b);
2161 }
2162
2163 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
2164 vqaddq_u32 (uint32x4_t __a, uint32x4_t __b)
2165 {
2166   return (uint32x4_t) __builtin_aarch64_uqaddv4si ((int32x4_t) __a,
2167                                                    (int32x4_t) __b);
2168 }
2169
2170 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
2171 vqaddq_u64 (uint64x2_t __a, uint64x2_t __b)
2172 {
2173   return (uint64x2_t) __builtin_aarch64_uqaddv2di ((int64x2_t) __a,
2174                                                    (int64x2_t) __b);
2175 }
2176
2177 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
2178 vqsub_s8 (int8x8_t __a, int8x8_t __b)
2179 {
2180   return (int8x8_t) __builtin_aarch64_sqsubv8qi (__a, __b);
2181 }
2182
2183 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2184 vqsub_s16 (int16x4_t __a, int16x4_t __b)
2185 {
2186   return (int16x4_t) __builtin_aarch64_sqsubv4hi (__a, __b);
2187 }
2188
2189 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2190 vqsub_s32 (int32x2_t __a, int32x2_t __b)
2191 {
2192   return (int32x2_t) __builtin_aarch64_sqsubv2si (__a, __b);
2193 }
2194
2195 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
2196 vqsub_s64 (int64x1_t __a, int64x1_t __b)
2197 {
2198   return (int64x1_t) __builtin_aarch64_sqsubdi (__a, __b);
2199 }
2200
2201 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
2202 vqsub_u8 (uint8x8_t __a, uint8x8_t __b)
2203 {
2204   return (uint8x8_t) __builtin_aarch64_uqsubv8qi ((int8x8_t) __a,
2205                                                   (int8x8_t) __b);
2206 }
2207
2208 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
2209 vqsub_u16 (uint16x4_t __a, uint16x4_t __b)
2210 {
2211   return (uint16x4_t) __builtin_aarch64_uqsubv4hi ((int16x4_t) __a,
2212                                                    (int16x4_t) __b);
2213 }
2214
2215 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
2216 vqsub_u32 (uint32x2_t __a, uint32x2_t __b)
2217 {
2218   return (uint32x2_t) __builtin_aarch64_uqsubv2si ((int32x2_t) __a,
2219                                                    (int32x2_t) __b);
2220 }
2221
2222 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
2223 vqsub_u64 (uint64x1_t __a, uint64x1_t __b)
2224 {
2225   return (uint64x1_t) __builtin_aarch64_uqsubdi ((int64x1_t) __a,
2226                                                  (int64x1_t) __b);
2227 }
2228
2229 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
2230 vqsubq_s8 (int8x16_t __a, int8x16_t __b)
2231 {
2232   return (int8x16_t) __builtin_aarch64_sqsubv16qi (__a, __b);
2233 }
2234
2235 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2236 vqsubq_s16 (int16x8_t __a, int16x8_t __b)
2237 {
2238   return (int16x8_t) __builtin_aarch64_sqsubv8hi (__a, __b);
2239 }
2240
2241 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2242 vqsubq_s32 (int32x4_t __a, int32x4_t __b)
2243 {
2244   return (int32x4_t) __builtin_aarch64_sqsubv4si (__a, __b);
2245 }
2246
2247 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
2248 vqsubq_s64 (int64x2_t __a, int64x2_t __b)
2249 {
2250   return (int64x2_t) __builtin_aarch64_sqsubv2di (__a, __b);
2251 }
2252
2253 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
2254 vqsubq_u8 (uint8x16_t __a, uint8x16_t __b)
2255 {
2256   return (uint8x16_t) __builtin_aarch64_uqsubv16qi ((int8x16_t) __a,
2257                                                     (int8x16_t) __b);
2258 }
2259
2260 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
2261 vqsubq_u16 (uint16x8_t __a, uint16x8_t __b)
2262 {
2263   return (uint16x8_t) __builtin_aarch64_uqsubv8hi ((int16x8_t) __a,
2264                                                    (int16x8_t) __b);
2265 }
2266
2267 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
2268 vqsubq_u32 (uint32x4_t __a, uint32x4_t __b)
2269 {
2270   return (uint32x4_t) __builtin_aarch64_uqsubv4si ((int32x4_t) __a,
2271                                                    (int32x4_t) __b);
2272 }
2273
2274 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
2275 vqsubq_u64 (uint64x2_t __a, uint64x2_t __b)
2276 {
2277   return (uint64x2_t) __builtin_aarch64_uqsubv2di ((int64x2_t) __a,
2278                                                    (int64x2_t) __b);
2279 }
2280
2281 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
2282 vqneg_s8 (int8x8_t __a)
2283 {
2284   return (int8x8_t) __builtin_aarch64_sqnegv8qi (__a);
2285 }
2286
2287 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2288 vqneg_s16 (int16x4_t __a)
2289 {
2290   return (int16x4_t) __builtin_aarch64_sqnegv4hi (__a);
2291 }
2292
2293 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2294 vqneg_s32 (int32x2_t __a)
2295 {
2296   return (int32x2_t) __builtin_aarch64_sqnegv2si (__a);
2297 }
2298
2299 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
2300 vqnegq_s8 (int8x16_t __a)
2301 {
2302   return (int8x16_t) __builtin_aarch64_sqnegv16qi (__a);
2303 }
2304
2305 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2306 vqnegq_s16 (int16x8_t __a)
2307 {
2308   return (int16x8_t) __builtin_aarch64_sqnegv8hi (__a);
2309 }
2310
2311 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2312 vqnegq_s32 (int32x4_t __a)
2313 {
2314   return (int32x4_t) __builtin_aarch64_sqnegv4si (__a);
2315 }
2316
2317 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
2318 vqabs_s8 (int8x8_t __a)
2319 {
2320   return (int8x8_t) __builtin_aarch64_sqabsv8qi (__a);
2321 }
2322
2323 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2324 vqabs_s16 (int16x4_t __a)
2325 {
2326   return (int16x4_t) __builtin_aarch64_sqabsv4hi (__a);
2327 }
2328
2329 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2330 vqabs_s32 (int32x2_t __a)
2331 {
2332   return (int32x2_t) __builtin_aarch64_sqabsv2si (__a);
2333 }
2334
2335 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
2336 vqabsq_s8 (int8x16_t __a)
2337 {
2338   return (int8x16_t) __builtin_aarch64_sqabsv16qi (__a);
2339 }
2340
2341 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2342 vqabsq_s16 (int16x8_t __a)
2343 {
2344   return (int16x8_t) __builtin_aarch64_sqabsv8hi (__a);
2345 }
2346
2347 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2348 vqabsq_s32 (int32x4_t __a)
2349 {
2350   return (int32x4_t) __builtin_aarch64_sqabsv4si (__a);
2351 }
2352
2353 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2354 vqdmulh_s16 (int16x4_t __a, int16x4_t __b)
2355 {
2356   return (int16x4_t) __builtin_aarch64_sqdmulhv4hi (__a, __b);
2357 }
2358
2359 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2360 vqdmulh_s32 (int32x2_t __a, int32x2_t __b)
2361 {
2362   return (int32x2_t) __builtin_aarch64_sqdmulhv2si (__a, __b);
2363 }
2364
2365 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2366 vqdmulhq_s16 (int16x8_t __a, int16x8_t __b)
2367 {
2368   return (int16x8_t) __builtin_aarch64_sqdmulhv8hi (__a, __b);
2369 }
2370
2371 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2372 vqdmulhq_s32 (int32x4_t __a, int32x4_t __b)
2373 {
2374   return (int32x4_t) __builtin_aarch64_sqdmulhv4si (__a, __b);
2375 }
2376
2377 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2378 vqrdmulh_s16 (int16x4_t __a, int16x4_t __b)
2379 {
2380   return (int16x4_t) __builtin_aarch64_sqrdmulhv4hi (__a, __b);
2381 }
2382
2383 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2384 vqrdmulh_s32 (int32x2_t __a, int32x2_t __b)
2385 {
2386   return (int32x2_t) __builtin_aarch64_sqrdmulhv2si (__a, __b);
2387 }
2388
2389 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
2390 vqrdmulhq_s16 (int16x8_t __a, int16x8_t __b)
2391 {
2392   return (int16x8_t) __builtin_aarch64_sqrdmulhv8hi (__a, __b);
2393 }
2394
2395 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
2396 vqrdmulhq_s32 (int32x4_t __a, int32x4_t __b)
2397 {
2398   return (int32x4_t) __builtin_aarch64_sqrdmulhv4si (__a, __b);
2399 }
2400
2401 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
2402 vcreate_s8 (uint64_t __a)
2403 {
2404   return (int8x8_t) __a;
2405 }
2406
2407 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
2408 vcreate_s16 (uint64_t __a)
2409 {
2410   return (int16x4_t) __a;
2411 }
2412
2413 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
2414 vcreate_s32 (uint64_t __a)
2415 {
2416   return (int32x2_t) __a;
2417 }
2418
2419 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
2420 vcreate_s64 (uint64_t __a)
2421 {
2422   return (int64x1_t) __a;
2423 }
2424
2425 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
2426 vcreate_f32 (uint64_t __a)
2427 {
2428   return (float32x2_t) __a;
2429 }
2430
2431 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
2432 vcreate_u8 (uint64_t __a)
2433 {
2434   return (uint8x8_t) __a;
2435 }
2436
2437 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
2438 vcreate_u16 (uint64_t __a)
2439 {
2440   return (uint16x4_t) __a;
2441 }
2442
2443 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
2444 vcreate_u32 (uint64_t __a)
2445 {
2446   return (uint32x2_t) __a;
2447 }
2448
2449 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
2450 vcreate_u64 (uint64_t __a)
2451 {
2452   return (uint64x1_t) __a;
2453 }
2454
2455 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
2456 vcreate_f64 (uint64_t __a)
2457 {
2458   return (float64x1_t) __builtin_aarch64_createdf (__a);
2459 }
2460
2461 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2462 vcreate_p8 (uint64_t __a)
2463 {
2464   return (poly8x8_t) __a;
2465 }
2466
2467 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2468 vcreate_p16 (uint64_t __a)
2469 {
2470   return (poly16x4_t) __a;
2471 }
2472
2473 /* vget_lane  */
2474
2475 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
2476 vget_lane_f32 (float32x2_t __a, const int __b)
2477 {
2478   return __aarch64_vget_lane_f32 (__a, __b);
2479 }
2480
2481 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
2482 vget_lane_f64 (float64x1_t __a, const int __b)
2483 {
2484   return __aarch64_vget_lane_f64 (__a, __b);
2485 }
2486
2487 __extension__ static __inline poly8_t __attribute__ ((__always_inline__))
2488 vget_lane_p8 (poly8x8_t __a, const int __b)
2489 {
2490   return __aarch64_vget_lane_p8 (__a, __b);
2491 }
2492
2493 __extension__ static __inline poly16_t __attribute__ ((__always_inline__))
2494 vget_lane_p16 (poly16x4_t __a, const int __b)
2495 {
2496   return __aarch64_vget_lane_p16 (__a, __b);
2497 }
2498
2499 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
2500 vget_lane_s8 (int8x8_t __a, const int __b)
2501 {
2502   return __aarch64_vget_lane_s8 (__a, __b);
2503 }
2504
2505 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
2506 vget_lane_s16 (int16x4_t __a, const int __b)
2507 {
2508   return __aarch64_vget_lane_s16 (__a, __b);
2509 }
2510
2511 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
2512 vget_lane_s32 (int32x2_t __a, const int __b)
2513 {
2514   return __aarch64_vget_lane_s32 (__a, __b);
2515 }
2516
2517 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
2518 vget_lane_s64 (int64x1_t __a, const int __b)
2519 {
2520   return __aarch64_vget_lane_s64 (__a, __b);
2521 }
2522
2523 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
2524 vget_lane_u8 (uint8x8_t __a, const int __b)
2525 {
2526   return __aarch64_vget_lane_u8 (__a, __b);
2527 }
2528
2529 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
2530 vget_lane_u16 (uint16x4_t __a, const int __b)
2531 {
2532   return __aarch64_vget_lane_u16 (__a, __b);
2533 }
2534
2535 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
2536 vget_lane_u32 (uint32x2_t __a, const int __b)
2537 {
2538   return __aarch64_vget_lane_u32 (__a, __b);
2539 }
2540
2541 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
2542 vget_lane_u64 (uint64x1_t __a, const int __b)
2543 {
2544   return __aarch64_vget_lane_u64 (__a, __b);
2545 }
2546
2547 /* vgetq_lane  */
2548
2549 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
2550 vgetq_lane_f32 (float32x4_t __a, const int __b)
2551 {
2552   return __aarch64_vgetq_lane_f32 (__a, __b);
2553 }
2554
2555 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
2556 vgetq_lane_f64 (float64x2_t __a, const int __b)
2557 {
2558   return __aarch64_vgetq_lane_f64 (__a, __b);
2559 }
2560
2561 __extension__ static __inline poly8_t __attribute__ ((__always_inline__))
2562 vgetq_lane_p8 (poly8x16_t __a, const int __b)
2563 {
2564   return __aarch64_vgetq_lane_p8 (__a, __b);
2565 }
2566
2567 __extension__ static __inline poly16_t __attribute__ ((__always_inline__))
2568 vgetq_lane_p16 (poly16x8_t __a, const int __b)
2569 {
2570   return __aarch64_vgetq_lane_p16 (__a, __b);
2571 }
2572
2573 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
2574 vgetq_lane_s8 (int8x16_t __a, const int __b)
2575 {
2576   return __aarch64_vgetq_lane_s8 (__a, __b);
2577 }
2578
2579 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
2580 vgetq_lane_s16 (int16x8_t __a, const int __b)
2581 {
2582   return __aarch64_vgetq_lane_s16 (__a, __b);
2583 }
2584
2585 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
2586 vgetq_lane_s32 (int32x4_t __a, const int __b)
2587 {
2588   return __aarch64_vgetq_lane_s32 (__a, __b);
2589 }
2590
2591 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
2592 vgetq_lane_s64 (int64x2_t __a, const int __b)
2593 {
2594   return __aarch64_vgetq_lane_s64 (__a, __b);
2595 }
2596
2597 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
2598 vgetq_lane_u8 (uint8x16_t __a, const int __b)
2599 {
2600   return __aarch64_vgetq_lane_u8 (__a, __b);
2601 }
2602
2603 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
2604 vgetq_lane_u16 (uint16x8_t __a, const int __b)
2605 {
2606   return __aarch64_vgetq_lane_u16 (__a, __b);
2607 }
2608
2609 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
2610 vgetq_lane_u32 (uint32x4_t __a, const int __b)
2611 {
2612   return __aarch64_vgetq_lane_u32 (__a, __b);
2613 }
2614
2615 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
2616 vgetq_lane_u64 (uint64x2_t __a, const int __b)
2617 {
2618   return __aarch64_vgetq_lane_u64 (__a, __b);
2619 }
2620
2621 /* vreinterpret  */
2622
2623 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2624 vreinterpret_p8_s8 (int8x8_t __a)
2625 {
2626   return (poly8x8_t) __builtin_aarch64_reinterpretv8qiv8qi (__a);
2627 }
2628
2629 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2630 vreinterpret_p8_s16 (int16x4_t __a)
2631 {
2632   return (poly8x8_t) __builtin_aarch64_reinterpretv8qiv4hi (__a);
2633 }
2634
2635 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2636 vreinterpret_p8_s32 (int32x2_t __a)
2637 {
2638   return (poly8x8_t) __builtin_aarch64_reinterpretv8qiv2si (__a);
2639 }
2640
2641 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2642 vreinterpret_p8_s64 (int64x1_t __a)
2643 {
2644   return (poly8x8_t) __builtin_aarch64_reinterpretv8qidi (__a);
2645 }
2646
2647 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2648 vreinterpret_p8_f32 (float32x2_t __a)
2649 {
2650   return (poly8x8_t) __builtin_aarch64_reinterpretv8qiv2sf (__a);
2651 }
2652
2653 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2654 vreinterpret_p8_u8 (uint8x8_t __a)
2655 {
2656   return (poly8x8_t) __builtin_aarch64_reinterpretv8qiv8qi ((int8x8_t) __a);
2657 }
2658
2659 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2660 vreinterpret_p8_u16 (uint16x4_t __a)
2661 {
2662   return (poly8x8_t) __builtin_aarch64_reinterpretv8qiv4hi ((int16x4_t) __a);
2663 }
2664
2665 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2666 vreinterpret_p8_u32 (uint32x2_t __a)
2667 {
2668   return (poly8x8_t) __builtin_aarch64_reinterpretv8qiv2si ((int32x2_t) __a);
2669 }
2670
2671 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2672 vreinterpret_p8_u64 (uint64x1_t __a)
2673 {
2674   return (poly8x8_t) __builtin_aarch64_reinterpretv8qidi ((int64x1_t) __a);
2675 }
2676
2677 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
2678 vreinterpret_p8_p16 (poly16x4_t __a)
2679 {
2680   return (poly8x8_t) __builtin_aarch64_reinterpretv8qiv4hi ((int16x4_t) __a);
2681 }
2682
2683 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2684 vreinterpretq_p8_s8 (int8x16_t __a)
2685 {
2686   return (poly8x16_t) __builtin_aarch64_reinterpretv16qiv16qi (__a);
2687 }
2688
2689 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2690 vreinterpretq_p8_s16 (int16x8_t __a)
2691 {
2692   return (poly8x16_t) __builtin_aarch64_reinterpretv16qiv8hi (__a);
2693 }
2694
2695 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2696 vreinterpretq_p8_s32 (int32x4_t __a)
2697 {
2698   return (poly8x16_t) __builtin_aarch64_reinterpretv16qiv4si (__a);
2699 }
2700
2701 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2702 vreinterpretq_p8_s64 (int64x2_t __a)
2703 {
2704   return (poly8x16_t) __builtin_aarch64_reinterpretv16qiv2di (__a);
2705 }
2706
2707 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2708 vreinterpretq_p8_f32 (float32x4_t __a)
2709 {
2710   return (poly8x16_t) __builtin_aarch64_reinterpretv16qiv4sf (__a);
2711 }
2712
2713 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2714 vreinterpretq_p8_u8 (uint8x16_t __a)
2715 {
2716   return (poly8x16_t) __builtin_aarch64_reinterpretv16qiv16qi ((int8x16_t)
2717                                                                __a);
2718 }
2719
2720 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2721 vreinterpretq_p8_u16 (uint16x8_t __a)
2722 {
2723   return (poly8x16_t) __builtin_aarch64_reinterpretv16qiv8hi ((int16x8_t)
2724                                                               __a);
2725 }
2726
2727 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2728 vreinterpretq_p8_u32 (uint32x4_t __a)
2729 {
2730   return (poly8x16_t) __builtin_aarch64_reinterpretv16qiv4si ((int32x4_t)
2731                                                               __a);
2732 }
2733
2734 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2735 vreinterpretq_p8_u64 (uint64x2_t __a)
2736 {
2737   return (poly8x16_t) __builtin_aarch64_reinterpretv16qiv2di ((int64x2_t)
2738                                                               __a);
2739 }
2740
2741 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
2742 vreinterpretq_p8_p16 (poly16x8_t __a)
2743 {
2744   return (poly8x16_t) __builtin_aarch64_reinterpretv16qiv8hi ((int16x8_t)
2745                                                               __a);
2746 }
2747
2748 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2749 vreinterpret_p16_s8 (int8x8_t __a)
2750 {
2751   return (poly16x4_t) __builtin_aarch64_reinterpretv4hiv8qi (__a);
2752 }
2753
2754 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2755 vreinterpret_p16_s16 (int16x4_t __a)
2756 {
2757   return (poly16x4_t) __builtin_aarch64_reinterpretv4hiv4hi (__a);
2758 }
2759
2760 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2761 vreinterpret_p16_s32 (int32x2_t __a)
2762 {
2763   return (poly16x4_t) __builtin_aarch64_reinterpretv4hiv2si (__a);
2764 }
2765
2766 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2767 vreinterpret_p16_s64 (int64x1_t __a)
2768 {
2769   return (poly16x4_t) __builtin_aarch64_reinterpretv4hidi (__a);
2770 }
2771
2772 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2773 vreinterpret_p16_f32 (float32x2_t __a)
2774 {
2775   return (poly16x4_t) __builtin_aarch64_reinterpretv4hiv2sf (__a);
2776 }
2777
2778 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2779 vreinterpret_p16_u8 (uint8x8_t __a)
2780 {
2781   return (poly16x4_t) __builtin_aarch64_reinterpretv4hiv8qi ((int8x8_t) __a);
2782 }
2783
2784 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2785 vreinterpret_p16_u16 (uint16x4_t __a)
2786 {
2787   return (poly16x4_t) __builtin_aarch64_reinterpretv4hiv4hi ((int16x4_t) __a);
2788 }
2789
2790 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2791 vreinterpret_p16_u32 (uint32x2_t __a)
2792 {
2793   return (poly16x4_t) __builtin_aarch64_reinterpretv4hiv2si ((int32x2_t) __a);
2794 }
2795
2796 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2797 vreinterpret_p16_u64 (uint64x1_t __a)
2798 {
2799   return (poly16x4_t) __builtin_aarch64_reinterpretv4hidi ((int64x1_t) __a);
2800 }
2801
2802 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
2803 vreinterpret_p16_p8 (poly8x8_t __a)
2804 {
2805   return (poly16x4_t) __builtin_aarch64_reinterpretv4hiv8qi ((int8x8_t) __a);
2806 }
2807
2808 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
2809 vreinterpretq_p16_s8 (int8x16_t __a)
2810 {
2811   return (poly16x8_t) __builtin_aarch64_reinterpretv8hiv16qi (__a);
2812 }
2813
2814 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
2815 vreinterpretq_p16_s16 (int16x8_t __a)
2816 {
2817   return (poly16x8_t) __builtin_aarch64_reinterpretv8hiv8hi (__a);
2818 }
2819
2820 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
2821 vreinterpretq_p16_s32 (int32x4_t __a)
2822 {
2823   return (poly16x8_t) __builtin_aarch64_reinterpretv8hiv4si (__a);
2824 }
2825
2826 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
2827 vreinterpretq_p16_s64 (int64x2_t __a)
2828 {
2829   return (poly16x8_t) __builtin_aarch64_reinterpretv8hiv2di (__a);
2830 }
2831
2832 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
2833 vreinterpretq_p16_f32 (float32x4_t __a)
2834 {
2835   return (poly16x8_t) __builtin_aarch64_reinterpretv8hiv4sf (__a);
2836 }
2837
2838 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
2839 vreinterpretq_p16_u8 (uint8x16_t __a)
2840 {
2841   return (poly16x8_t) __builtin_aarch64_reinterpretv8hiv16qi ((int8x16_t)
2842                                                               __a);
2843 }
2844
2845 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
2846 vreinterpretq_p16_u16 (uint16x8_t __a)
2847 {
2848   return (poly16x8_t) __builtin_aarch64_reinterpretv8hiv8hi ((int16x8_t) __a);
2849 }
2850
2851 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
2852 vreinterpretq_p16_u32 (uint32x4_t __a)
2853 {
2854   return (poly16x8_t) __builtin_aarch64_reinterpretv8hiv4si ((int32x4_t) __a);
2855 }
2856
2857 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
2858 vreinterpretq_p16_u64 (uint64x2_t __a)
2859 {
2860   return (poly16x8_t) __builtin_aarch64_reinterpretv8hiv2di ((int64x2_t) __a);
2861 }
2862
2863 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
2864 vreinterpretq_p16_p8 (poly8x16_t __a)
2865 {
2866   return (poly16x8_t) __builtin_aarch64_reinterpretv8hiv16qi ((int8x16_t)
2867                                                               __a);
2868 }
2869
2870 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
2871 vreinterpret_f32_s8 (int8x8_t __a)
2872 {
2873   return (float32x2_t) __builtin_aarch64_reinterpretv2sfv8qi (__a);
2874 }
2875
2876 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
2877 vreinterpret_f32_s16 (int16x4_t __a)
2878 {
2879   return (float32x2_t) __builtin_aarch64_reinterpretv2sfv4hi (__a);
2880 }
2881
2882 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
2883 vreinterpret_f32_s32 (int32x2_t __a)
2884 {
2885   return (float32x2_t) __builtin_aarch64_reinterpretv2sfv2si (__a);
2886 }
2887
2888 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
2889 vreinterpret_f32_s64 (int64x1_t __a)
2890 {
2891   return (float32x2_t) __builtin_aarch64_reinterpretv2sfdi (__a);
2892 }
2893
2894 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
2895 vreinterpret_f32_u8 (uint8x8_t __a)
2896 {
2897   return (float32x2_t) __builtin_aarch64_reinterpretv2sfv8qi ((int8x8_t) __a);
2898 }
2899
2900 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
2901 vreinterpret_f32_u16 (uint16x4_t __a)
2902 {
2903   return (float32x2_t) __builtin_aarch64_reinterpretv2sfv4hi ((int16x4_t)
2904                                                               __a);
2905 }
2906
2907 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
2908 vreinterpret_f32_u32 (uint32x2_t __a)
2909 {
2910   return (float32x2_t) __builtin_aarch64_reinterpretv2sfv2si ((int32x2_t)
2911                                                               __a);
2912 }
2913
2914 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
2915 vreinterpret_f32_u64 (uint64x1_t __a)
2916 {
2917   return (float32x2_t) __builtin_aarch64_reinterpretv2sfdi ((int64x1_t) __a);
2918 }
2919
2920 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
2921 vreinterpret_f32_p8 (poly8x8_t __a)
2922 {
2923   return (float32x2_t) __builtin_aarch64_reinterpretv2sfv8qi ((int8x8_t) __a);
2924 }
2925
2926 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
2927 vreinterpret_f32_p16 (poly16x4_t __a)
2928 {
2929   return (float32x2_t) __builtin_aarch64_reinterpretv2sfv4hi ((int16x4_t)
2930                                                               __a);
2931 }
2932
2933 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
2934 vreinterpretq_f32_s8 (int8x16_t __a)
2935 {
2936   return (float32x4_t) __builtin_aarch64_reinterpretv4sfv16qi (__a);
2937 }
2938
2939 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
2940 vreinterpretq_f32_s16 (int16x8_t __a)
2941 {
2942   return (float32x4_t) __builtin_aarch64_reinterpretv4sfv8hi (__a);
2943 }
2944
2945 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
2946 vreinterpretq_f32_s32 (int32x4_t __a)
2947 {
2948   return (float32x4_t) __builtin_aarch64_reinterpretv4sfv4si (__a);
2949 }
2950
2951 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
2952 vreinterpretq_f32_s64 (int64x2_t __a)
2953 {
2954   return (float32x4_t) __builtin_aarch64_reinterpretv4sfv2di (__a);
2955 }
2956
2957 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
2958 vreinterpretq_f32_u8 (uint8x16_t __a)
2959 {
2960   return (float32x4_t) __builtin_aarch64_reinterpretv4sfv16qi ((int8x16_t)
2961                                                                __a);
2962 }
2963
2964 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
2965 vreinterpretq_f32_u16 (uint16x8_t __a)
2966 {
2967   return (float32x4_t) __builtin_aarch64_reinterpretv4sfv8hi ((int16x8_t)
2968                                                               __a);
2969 }
2970
2971 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
2972 vreinterpretq_f32_u32 (uint32x4_t __a)
2973 {
2974   return (float32x4_t) __builtin_aarch64_reinterpretv4sfv4si ((int32x4_t)
2975                                                               __a);
2976 }
2977
2978 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
2979 vreinterpretq_f32_u64 (uint64x2_t __a)
2980 {
2981   return (float32x4_t) __builtin_aarch64_reinterpretv4sfv2di ((int64x2_t)
2982                                                               __a);
2983 }
2984
2985 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
2986 vreinterpretq_f32_p8 (poly8x16_t __a)
2987 {
2988   return (float32x4_t) __builtin_aarch64_reinterpretv4sfv16qi ((int8x16_t)
2989                                                                __a);
2990 }
2991
2992 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
2993 vreinterpretq_f32_p16 (poly16x8_t __a)
2994 {
2995   return (float32x4_t) __builtin_aarch64_reinterpretv4sfv8hi ((int16x8_t)
2996                                                               __a);
2997 }
2998
2999 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3000 vreinterpret_s64_s8 (int8x8_t __a)
3001 {
3002   return (int64x1_t) __builtin_aarch64_reinterpretdiv8qi (__a);
3003 }
3004
3005 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3006 vreinterpret_s64_s16 (int16x4_t __a)
3007 {
3008   return (int64x1_t) __builtin_aarch64_reinterpretdiv4hi (__a);
3009 }
3010
3011 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3012 vreinterpret_s64_s32 (int32x2_t __a)
3013 {
3014   return (int64x1_t) __builtin_aarch64_reinterpretdiv2si (__a);
3015 }
3016
3017 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3018 vreinterpret_s64_f32 (float32x2_t __a)
3019 {
3020   return (int64x1_t) __builtin_aarch64_reinterpretdiv2sf (__a);
3021 }
3022
3023 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3024 vreinterpret_s64_u8 (uint8x8_t __a)
3025 {
3026   return (int64x1_t) __builtin_aarch64_reinterpretdiv8qi ((int8x8_t) __a);
3027 }
3028
3029 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3030 vreinterpret_s64_u16 (uint16x4_t __a)
3031 {
3032   return (int64x1_t) __builtin_aarch64_reinterpretdiv4hi ((int16x4_t) __a);
3033 }
3034
3035 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3036 vreinterpret_s64_u32 (uint32x2_t __a)
3037 {
3038   return (int64x1_t) __builtin_aarch64_reinterpretdiv2si ((int32x2_t) __a);
3039 }
3040
3041 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3042 vreinterpret_s64_u64 (uint64x1_t __a)
3043 {
3044   return (int64x1_t) __builtin_aarch64_reinterpretdidi ((int64x1_t) __a);
3045 }
3046
3047 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3048 vreinterpret_s64_p8 (poly8x8_t __a)
3049 {
3050   return (int64x1_t) __builtin_aarch64_reinterpretdiv8qi ((int8x8_t) __a);
3051 }
3052
3053 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
3054 vreinterpret_s64_p16 (poly16x4_t __a)
3055 {
3056   return (int64x1_t) __builtin_aarch64_reinterpretdiv4hi ((int16x4_t) __a);
3057 }
3058
3059 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3060 vreinterpretq_s64_s8 (int8x16_t __a)
3061 {
3062   return (int64x2_t) __builtin_aarch64_reinterpretv2div16qi (__a);
3063 }
3064
3065 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3066 vreinterpretq_s64_s16 (int16x8_t __a)
3067 {
3068   return (int64x2_t) __builtin_aarch64_reinterpretv2div8hi (__a);
3069 }
3070
3071 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3072 vreinterpretq_s64_s32 (int32x4_t __a)
3073 {
3074   return (int64x2_t) __builtin_aarch64_reinterpretv2div4si (__a);
3075 }
3076
3077 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3078 vreinterpretq_s64_f32 (float32x4_t __a)
3079 {
3080   return (int64x2_t) __builtin_aarch64_reinterpretv2div4sf (__a);
3081 }
3082
3083 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3084 vreinterpretq_s64_u8 (uint8x16_t __a)
3085 {
3086   return (int64x2_t) __builtin_aarch64_reinterpretv2div16qi ((int8x16_t) __a);
3087 }
3088
3089 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3090 vreinterpretq_s64_u16 (uint16x8_t __a)
3091 {
3092   return (int64x2_t) __builtin_aarch64_reinterpretv2div8hi ((int16x8_t) __a);
3093 }
3094
3095 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3096 vreinterpretq_s64_u32 (uint32x4_t __a)
3097 {
3098   return (int64x2_t) __builtin_aarch64_reinterpretv2div4si ((int32x4_t) __a);
3099 }
3100
3101 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3102 vreinterpretq_s64_u64 (uint64x2_t __a)
3103 {
3104   return (int64x2_t) __builtin_aarch64_reinterpretv2div2di ((int64x2_t) __a);
3105 }
3106
3107 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3108 vreinterpretq_s64_p8 (poly8x16_t __a)
3109 {
3110   return (int64x2_t) __builtin_aarch64_reinterpretv2div16qi ((int8x16_t) __a);
3111 }
3112
3113 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
3114 vreinterpretq_s64_p16 (poly16x8_t __a)
3115 {
3116   return (int64x2_t) __builtin_aarch64_reinterpretv2div8hi ((int16x8_t) __a);
3117 }
3118
3119 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3120 vreinterpret_u64_s8 (int8x8_t __a)
3121 {
3122   return (uint64x1_t) __builtin_aarch64_reinterpretdiv8qi (__a);
3123 }
3124
3125 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3126 vreinterpret_u64_s16 (int16x4_t __a)
3127 {
3128   return (uint64x1_t) __builtin_aarch64_reinterpretdiv4hi (__a);
3129 }
3130
3131 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3132 vreinterpret_u64_s32 (int32x2_t __a)
3133 {
3134   return (uint64x1_t) __builtin_aarch64_reinterpretdiv2si (__a);
3135 }
3136
3137 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3138 vreinterpret_u64_s64 (int64x1_t __a)
3139 {
3140   return (uint64x1_t) __builtin_aarch64_reinterpretdidi (__a);
3141 }
3142
3143 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3144 vreinterpret_u64_f32 (float32x2_t __a)
3145 {
3146   return (uint64x1_t) __builtin_aarch64_reinterpretdiv2sf (__a);
3147 }
3148
3149 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3150 vreinterpret_u64_u8 (uint8x8_t __a)
3151 {
3152   return (uint64x1_t) __builtin_aarch64_reinterpretdiv8qi ((int8x8_t) __a);
3153 }
3154
3155 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3156 vreinterpret_u64_u16 (uint16x4_t __a)
3157 {
3158   return (uint64x1_t) __builtin_aarch64_reinterpretdiv4hi ((int16x4_t) __a);
3159 }
3160
3161 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3162 vreinterpret_u64_u32 (uint32x2_t __a)
3163 {
3164   return (uint64x1_t) __builtin_aarch64_reinterpretdiv2si ((int32x2_t) __a);
3165 }
3166
3167 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3168 vreinterpret_u64_p8 (poly8x8_t __a)
3169 {
3170   return (uint64x1_t) __builtin_aarch64_reinterpretdiv8qi ((int8x8_t) __a);
3171 }
3172
3173 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
3174 vreinterpret_u64_p16 (poly16x4_t __a)
3175 {
3176   return (uint64x1_t) __builtin_aarch64_reinterpretdiv4hi ((int16x4_t) __a);
3177 }
3178
3179 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3180 vreinterpretq_u64_s8 (int8x16_t __a)
3181 {
3182   return (uint64x2_t) __builtin_aarch64_reinterpretv2div16qi (__a);
3183 }
3184
3185 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3186 vreinterpretq_u64_s16 (int16x8_t __a)
3187 {
3188   return (uint64x2_t) __builtin_aarch64_reinterpretv2div8hi (__a);
3189 }
3190
3191 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3192 vreinterpretq_u64_s32 (int32x4_t __a)
3193 {
3194   return (uint64x2_t) __builtin_aarch64_reinterpretv2div4si (__a);
3195 }
3196
3197 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3198 vreinterpretq_u64_s64 (int64x2_t __a)
3199 {
3200   return (uint64x2_t) __builtin_aarch64_reinterpretv2div2di (__a);
3201 }
3202
3203 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3204 vreinterpretq_u64_f32 (float32x4_t __a)
3205 {
3206   return (uint64x2_t) __builtin_aarch64_reinterpretv2div4sf (__a);
3207 }
3208
3209 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3210 vreinterpretq_u64_u8 (uint8x16_t __a)
3211 {
3212   return (uint64x2_t) __builtin_aarch64_reinterpretv2div16qi ((int8x16_t)
3213                                                               __a);
3214 }
3215
3216 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3217 vreinterpretq_u64_u16 (uint16x8_t __a)
3218 {
3219   return (uint64x2_t) __builtin_aarch64_reinterpretv2div8hi ((int16x8_t) __a);
3220 }
3221
3222 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3223 vreinterpretq_u64_u32 (uint32x4_t __a)
3224 {
3225   return (uint64x2_t) __builtin_aarch64_reinterpretv2div4si ((int32x4_t) __a);
3226 }
3227
3228 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3229 vreinterpretq_u64_p8 (poly8x16_t __a)
3230 {
3231   return (uint64x2_t) __builtin_aarch64_reinterpretv2div16qi ((int8x16_t)
3232                                                               __a);
3233 }
3234
3235 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
3236 vreinterpretq_u64_p16 (poly16x8_t __a)
3237 {
3238   return (uint64x2_t) __builtin_aarch64_reinterpretv2div8hi ((int16x8_t) __a);
3239 }
3240
3241 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3242 vreinterpret_s8_s16 (int16x4_t __a)
3243 {
3244   return (int8x8_t) __builtin_aarch64_reinterpretv8qiv4hi (__a);
3245 }
3246
3247 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3248 vreinterpret_s8_s32 (int32x2_t __a)
3249 {
3250   return (int8x8_t) __builtin_aarch64_reinterpretv8qiv2si (__a);
3251 }
3252
3253 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3254 vreinterpret_s8_s64 (int64x1_t __a)
3255 {
3256   return (int8x8_t) __builtin_aarch64_reinterpretv8qidi (__a);
3257 }
3258
3259 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3260 vreinterpret_s8_f32 (float32x2_t __a)
3261 {
3262   return (int8x8_t) __builtin_aarch64_reinterpretv8qiv2sf (__a);
3263 }
3264
3265 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3266 vreinterpret_s8_u8 (uint8x8_t __a)
3267 {
3268   return (int8x8_t) __builtin_aarch64_reinterpretv8qiv8qi ((int8x8_t) __a);
3269 }
3270
3271 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3272 vreinterpret_s8_u16 (uint16x4_t __a)
3273 {
3274   return (int8x8_t) __builtin_aarch64_reinterpretv8qiv4hi ((int16x4_t) __a);
3275 }
3276
3277 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3278 vreinterpret_s8_u32 (uint32x2_t __a)
3279 {
3280   return (int8x8_t) __builtin_aarch64_reinterpretv8qiv2si ((int32x2_t) __a);
3281 }
3282
3283 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3284 vreinterpret_s8_u64 (uint64x1_t __a)
3285 {
3286   return (int8x8_t) __builtin_aarch64_reinterpretv8qidi ((int64x1_t) __a);
3287 }
3288
3289 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3290 vreinterpret_s8_p8 (poly8x8_t __a)
3291 {
3292   return (int8x8_t) __builtin_aarch64_reinterpretv8qiv8qi ((int8x8_t) __a);
3293 }
3294
3295 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
3296 vreinterpret_s8_p16 (poly16x4_t __a)
3297 {
3298   return (int8x8_t) __builtin_aarch64_reinterpretv8qiv4hi ((int16x4_t) __a);
3299 }
3300
3301 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3302 vreinterpretq_s8_s16 (int16x8_t __a)
3303 {
3304   return (int8x16_t) __builtin_aarch64_reinterpretv16qiv8hi (__a);
3305 }
3306
3307 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3308 vreinterpretq_s8_s32 (int32x4_t __a)
3309 {
3310   return (int8x16_t) __builtin_aarch64_reinterpretv16qiv4si (__a);
3311 }
3312
3313 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3314 vreinterpretq_s8_s64 (int64x2_t __a)
3315 {
3316   return (int8x16_t) __builtin_aarch64_reinterpretv16qiv2di (__a);
3317 }
3318
3319 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3320 vreinterpretq_s8_f32 (float32x4_t __a)
3321 {
3322   return (int8x16_t) __builtin_aarch64_reinterpretv16qiv4sf (__a);
3323 }
3324
3325 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3326 vreinterpretq_s8_u8 (uint8x16_t __a)
3327 {
3328   return (int8x16_t) __builtin_aarch64_reinterpretv16qiv16qi ((int8x16_t)
3329                                                               __a);
3330 }
3331
3332 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3333 vreinterpretq_s8_u16 (uint16x8_t __a)
3334 {
3335   return (int8x16_t) __builtin_aarch64_reinterpretv16qiv8hi ((int16x8_t) __a);
3336 }
3337
3338 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3339 vreinterpretq_s8_u32 (uint32x4_t __a)
3340 {
3341   return (int8x16_t) __builtin_aarch64_reinterpretv16qiv4si ((int32x4_t) __a);
3342 }
3343
3344 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3345 vreinterpretq_s8_u64 (uint64x2_t __a)
3346 {
3347   return (int8x16_t) __builtin_aarch64_reinterpretv16qiv2di ((int64x2_t) __a);
3348 }
3349
3350 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3351 vreinterpretq_s8_p8 (poly8x16_t __a)
3352 {
3353   return (int8x16_t) __builtin_aarch64_reinterpretv16qiv16qi ((int8x16_t)
3354                                                               __a);
3355 }
3356
3357 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
3358 vreinterpretq_s8_p16 (poly16x8_t __a)
3359 {
3360   return (int8x16_t) __builtin_aarch64_reinterpretv16qiv8hi ((int16x8_t) __a);
3361 }
3362
3363 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3364 vreinterpret_s16_s8 (int8x8_t __a)
3365 {
3366   return (int16x4_t) __builtin_aarch64_reinterpretv4hiv8qi (__a);
3367 }
3368
3369 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3370 vreinterpret_s16_s32 (int32x2_t __a)
3371 {
3372   return (int16x4_t) __builtin_aarch64_reinterpretv4hiv2si (__a);
3373 }
3374
3375 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3376 vreinterpret_s16_s64 (int64x1_t __a)
3377 {
3378   return (int16x4_t) __builtin_aarch64_reinterpretv4hidi (__a);
3379 }
3380
3381 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3382 vreinterpret_s16_f32 (float32x2_t __a)
3383 {
3384   return (int16x4_t) __builtin_aarch64_reinterpretv4hiv2sf (__a);
3385 }
3386
3387 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3388 vreinterpret_s16_u8 (uint8x8_t __a)
3389 {
3390   return (int16x4_t) __builtin_aarch64_reinterpretv4hiv8qi ((int8x8_t) __a);
3391 }
3392
3393 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3394 vreinterpret_s16_u16 (uint16x4_t __a)
3395 {
3396   return (int16x4_t) __builtin_aarch64_reinterpretv4hiv4hi ((int16x4_t) __a);
3397 }
3398
3399 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3400 vreinterpret_s16_u32 (uint32x2_t __a)
3401 {
3402   return (int16x4_t) __builtin_aarch64_reinterpretv4hiv2si ((int32x2_t) __a);
3403 }
3404
3405 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3406 vreinterpret_s16_u64 (uint64x1_t __a)
3407 {
3408   return (int16x4_t) __builtin_aarch64_reinterpretv4hidi ((int64x1_t) __a);
3409 }
3410
3411 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3412 vreinterpret_s16_p8 (poly8x8_t __a)
3413 {
3414   return (int16x4_t) __builtin_aarch64_reinterpretv4hiv8qi ((int8x8_t) __a);
3415 }
3416
3417 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
3418 vreinterpret_s16_p16 (poly16x4_t __a)
3419 {
3420   return (int16x4_t) __builtin_aarch64_reinterpretv4hiv4hi ((int16x4_t) __a);
3421 }
3422
3423 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3424 vreinterpretq_s16_s8 (int8x16_t __a)
3425 {
3426   return (int16x8_t) __builtin_aarch64_reinterpretv8hiv16qi (__a);
3427 }
3428
3429 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3430 vreinterpretq_s16_s32 (int32x4_t __a)
3431 {
3432   return (int16x8_t) __builtin_aarch64_reinterpretv8hiv4si (__a);
3433 }
3434
3435 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3436 vreinterpretq_s16_s64 (int64x2_t __a)
3437 {
3438   return (int16x8_t) __builtin_aarch64_reinterpretv8hiv2di (__a);
3439 }
3440
3441 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3442 vreinterpretq_s16_f32 (float32x4_t __a)
3443 {
3444   return (int16x8_t) __builtin_aarch64_reinterpretv8hiv4sf (__a);
3445 }
3446
3447 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3448 vreinterpretq_s16_u8 (uint8x16_t __a)
3449 {
3450   return (int16x8_t) __builtin_aarch64_reinterpretv8hiv16qi ((int8x16_t) __a);
3451 }
3452
3453 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3454 vreinterpretq_s16_u16 (uint16x8_t __a)
3455 {
3456   return (int16x8_t) __builtin_aarch64_reinterpretv8hiv8hi ((int16x8_t) __a);
3457 }
3458
3459 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3460 vreinterpretq_s16_u32 (uint32x4_t __a)
3461 {
3462   return (int16x8_t) __builtin_aarch64_reinterpretv8hiv4si ((int32x4_t) __a);
3463 }
3464
3465 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3466 vreinterpretq_s16_u64 (uint64x2_t __a)
3467 {
3468   return (int16x8_t) __builtin_aarch64_reinterpretv8hiv2di ((int64x2_t) __a);
3469 }
3470
3471 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3472 vreinterpretq_s16_p8 (poly8x16_t __a)
3473 {
3474   return (int16x8_t) __builtin_aarch64_reinterpretv8hiv16qi ((int8x16_t) __a);
3475 }
3476
3477 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
3478 vreinterpretq_s16_p16 (poly16x8_t __a)
3479 {
3480   return (int16x8_t) __builtin_aarch64_reinterpretv8hiv8hi ((int16x8_t) __a);
3481 }
3482
3483 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3484 vreinterpret_s32_s8 (int8x8_t __a)
3485 {
3486   return (int32x2_t) __builtin_aarch64_reinterpretv2siv8qi (__a);
3487 }
3488
3489 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3490 vreinterpret_s32_s16 (int16x4_t __a)
3491 {
3492   return (int32x2_t) __builtin_aarch64_reinterpretv2siv4hi (__a);
3493 }
3494
3495 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3496 vreinterpret_s32_s64 (int64x1_t __a)
3497 {
3498   return (int32x2_t) __builtin_aarch64_reinterpretv2sidi (__a);
3499 }
3500
3501 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3502 vreinterpret_s32_f32 (float32x2_t __a)
3503 {
3504   return (int32x2_t) __builtin_aarch64_reinterpretv2siv2sf (__a);
3505 }
3506
3507 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3508 vreinterpret_s32_u8 (uint8x8_t __a)
3509 {
3510   return (int32x2_t) __builtin_aarch64_reinterpretv2siv8qi ((int8x8_t) __a);
3511 }
3512
3513 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3514 vreinterpret_s32_u16 (uint16x4_t __a)
3515 {
3516   return (int32x2_t) __builtin_aarch64_reinterpretv2siv4hi ((int16x4_t) __a);
3517 }
3518
3519 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3520 vreinterpret_s32_u32 (uint32x2_t __a)
3521 {
3522   return (int32x2_t) __builtin_aarch64_reinterpretv2siv2si ((int32x2_t) __a);
3523 }
3524
3525 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3526 vreinterpret_s32_u64 (uint64x1_t __a)
3527 {
3528   return (int32x2_t) __builtin_aarch64_reinterpretv2sidi ((int64x1_t) __a);
3529 }
3530
3531 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3532 vreinterpret_s32_p8 (poly8x8_t __a)
3533 {
3534   return (int32x2_t) __builtin_aarch64_reinterpretv2siv8qi ((int8x8_t) __a);
3535 }
3536
3537 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
3538 vreinterpret_s32_p16 (poly16x4_t __a)
3539 {
3540   return (int32x2_t) __builtin_aarch64_reinterpretv2siv4hi ((int16x4_t) __a);
3541 }
3542
3543 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3544 vreinterpretq_s32_s8 (int8x16_t __a)
3545 {
3546   return (int32x4_t) __builtin_aarch64_reinterpretv4siv16qi (__a);
3547 }
3548
3549 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3550 vreinterpretq_s32_s16 (int16x8_t __a)
3551 {
3552   return (int32x4_t) __builtin_aarch64_reinterpretv4siv8hi (__a);
3553 }
3554
3555 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3556 vreinterpretq_s32_s64 (int64x2_t __a)
3557 {
3558   return (int32x4_t) __builtin_aarch64_reinterpretv4siv2di (__a);
3559 }
3560
3561 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3562 vreinterpretq_s32_f32 (float32x4_t __a)
3563 {
3564   return (int32x4_t) __builtin_aarch64_reinterpretv4siv4sf (__a);
3565 }
3566
3567 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3568 vreinterpretq_s32_u8 (uint8x16_t __a)
3569 {
3570   return (int32x4_t) __builtin_aarch64_reinterpretv4siv16qi ((int8x16_t) __a);
3571 }
3572
3573 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3574 vreinterpretq_s32_u16 (uint16x8_t __a)
3575 {
3576   return (int32x4_t) __builtin_aarch64_reinterpretv4siv8hi ((int16x8_t) __a);
3577 }
3578
3579 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3580 vreinterpretq_s32_u32 (uint32x4_t __a)
3581 {
3582   return (int32x4_t) __builtin_aarch64_reinterpretv4siv4si ((int32x4_t) __a);
3583 }
3584
3585 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3586 vreinterpretq_s32_u64 (uint64x2_t __a)
3587 {
3588   return (int32x4_t) __builtin_aarch64_reinterpretv4siv2di ((int64x2_t) __a);
3589 }
3590
3591 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3592 vreinterpretq_s32_p8 (poly8x16_t __a)
3593 {
3594   return (int32x4_t) __builtin_aarch64_reinterpretv4siv16qi ((int8x16_t) __a);
3595 }
3596
3597 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
3598 vreinterpretq_s32_p16 (poly16x8_t __a)
3599 {
3600   return (int32x4_t) __builtin_aarch64_reinterpretv4siv8hi ((int16x8_t) __a);
3601 }
3602
3603 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
3604 vreinterpret_u8_s8 (int8x8_t __a)
3605 {
3606   return (uint8x8_t) __builtin_aarch64_reinterpretv8qiv8qi (__a);
3607 }
3608
3609 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
3610 vreinterpret_u8_s16 (int16x4_t __a)
3611 {
3612   return (uint8x8_t) __builtin_aarch64_reinterpretv8qiv4hi (__a);
3613 }
3614
3615 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
3616 vreinterpret_u8_s32 (int32x2_t __a)
3617 {
3618   return (uint8x8_t) __builtin_aarch64_reinterpretv8qiv2si (__a);
3619 }
3620
3621 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
3622 vreinterpret_u8_s64 (int64x1_t __a)
3623 {
3624   return (uint8x8_t) __builtin_aarch64_reinterpretv8qidi (__a);
3625 }
3626
3627 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
3628 vreinterpret_u8_f32 (float32x2_t __a)
3629 {
3630   return (uint8x8_t) __builtin_aarch64_reinterpretv8qiv2sf (__a);
3631 }
3632
3633 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
3634 vreinterpret_u8_u16 (uint16x4_t __a)
3635 {
3636   return (uint8x8_t) __builtin_aarch64_reinterpretv8qiv4hi ((int16x4_t) __a);
3637 }
3638
3639 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
3640 vreinterpret_u8_u32 (uint32x2_t __a)
3641 {
3642   return (uint8x8_t) __builtin_aarch64_reinterpretv8qiv2si ((int32x2_t) __a);
3643 }
3644
3645 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
3646 vreinterpret_u8_u64 (uint64x1_t __a)
3647 {
3648   return (uint8x8_t) __builtin_aarch64_reinterpretv8qidi ((int64x1_t) __a);
3649 }
3650
3651 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
3652 vreinterpret_u8_p8 (poly8x8_t __a)
3653 {
3654   return (uint8x8_t) __builtin_aarch64_reinterpretv8qiv8qi ((int8x8_t) __a);
3655 }
3656
3657 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
3658 vreinterpret_u8_p16 (poly16x4_t __a)
3659 {
3660   return (uint8x8_t) __builtin_aarch64_reinterpretv8qiv4hi ((int16x4_t) __a);
3661 }
3662
3663 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
3664 vreinterpretq_u8_s8 (int8x16_t __a)
3665 {
3666   return (uint8x16_t) __builtin_aarch64_reinterpretv16qiv16qi (__a);
3667 }
3668
3669 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
3670 vreinterpretq_u8_s16 (int16x8_t __a)
3671 {
3672   return (uint8x16_t) __builtin_aarch64_reinterpretv16qiv8hi (__a);
3673 }
3674
3675 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
3676 vreinterpretq_u8_s32 (int32x4_t __a)
3677 {
3678   return (uint8x16_t) __builtin_aarch64_reinterpretv16qiv4si (__a);
3679 }
3680
3681 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
3682 vreinterpretq_u8_s64 (int64x2_t __a)
3683 {
3684   return (uint8x16_t) __builtin_aarch64_reinterpretv16qiv2di (__a);
3685 }
3686
3687 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
3688 vreinterpretq_u8_f32 (float32x4_t __a)
3689 {
3690   return (uint8x16_t) __builtin_aarch64_reinterpretv16qiv4sf (__a);
3691 }
3692
3693 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
3694 vreinterpretq_u8_u16 (uint16x8_t __a)
3695 {
3696   return (uint8x16_t) __builtin_aarch64_reinterpretv16qiv8hi ((int16x8_t)
3697                                                               __a);
3698 }
3699
3700 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
3701 vreinterpretq_u8_u32 (uint32x4_t __a)
3702 {
3703   return (uint8x16_t) __builtin_aarch64_reinterpretv16qiv4si ((int32x4_t)
3704                                                               __a);
3705 }
3706
3707 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
3708 vreinterpretq_u8_u64 (uint64x2_t __a)
3709 {
3710   return (uint8x16_t) __builtin_aarch64_reinterpretv16qiv2di ((int64x2_t)
3711                                                               __a);
3712 }
3713
3714 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
3715 vreinterpretq_u8_p8 (poly8x16_t __a)
3716 {
3717   return (uint8x16_t) __builtin_aarch64_reinterpretv16qiv16qi ((int8x16_t)
3718                                                                __a);
3719 }
3720
3721 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
3722 vreinterpretq_u8_p16 (poly16x8_t __a)
3723 {
3724   return (uint8x16_t) __builtin_aarch64_reinterpretv16qiv8hi ((int16x8_t)
3725                                                               __a);
3726 }
3727
3728 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
3729 vreinterpret_u16_s8 (int8x8_t __a)
3730 {
3731   return (uint16x4_t) __builtin_aarch64_reinterpretv4hiv8qi (__a);
3732 }
3733
3734 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
3735 vreinterpret_u16_s16 (int16x4_t __a)
3736 {
3737   return (uint16x4_t) __builtin_aarch64_reinterpretv4hiv4hi (__a);
3738 }
3739
3740 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
3741 vreinterpret_u16_s32 (int32x2_t __a)
3742 {
3743   return (uint16x4_t) __builtin_aarch64_reinterpretv4hiv2si (__a);
3744 }
3745
3746 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
3747 vreinterpret_u16_s64 (int64x1_t __a)
3748 {
3749   return (uint16x4_t) __builtin_aarch64_reinterpretv4hidi (__a);
3750 }
3751
3752 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
3753 vreinterpret_u16_f32 (float32x2_t __a)
3754 {
3755   return (uint16x4_t) __builtin_aarch64_reinterpretv4hiv2sf (__a);
3756 }
3757
3758 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
3759 vreinterpret_u16_u8 (uint8x8_t __a)
3760 {
3761   return (uint16x4_t) __builtin_aarch64_reinterpretv4hiv8qi ((int8x8_t) __a);
3762 }
3763
3764 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
3765 vreinterpret_u16_u32 (uint32x2_t __a)
3766 {
3767   return (uint16x4_t) __builtin_aarch64_reinterpretv4hiv2si ((int32x2_t) __a);
3768 }
3769
3770 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
3771 vreinterpret_u16_u64 (uint64x1_t __a)
3772 {
3773   return (uint16x4_t) __builtin_aarch64_reinterpretv4hidi ((int64x1_t) __a);
3774 }
3775
3776 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
3777 vreinterpret_u16_p8 (poly8x8_t __a)
3778 {
3779   return (uint16x4_t) __builtin_aarch64_reinterpretv4hiv8qi ((int8x8_t) __a);
3780 }
3781
3782 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
3783 vreinterpret_u16_p16 (poly16x4_t __a)
3784 {
3785   return (uint16x4_t) __builtin_aarch64_reinterpretv4hiv4hi ((int16x4_t) __a);
3786 }
3787
3788 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
3789 vreinterpretq_u16_s8 (int8x16_t __a)
3790 {
3791   return (uint16x8_t) __builtin_aarch64_reinterpretv8hiv16qi (__a);
3792 }
3793
3794 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
3795 vreinterpretq_u16_s16 (int16x8_t __a)
3796 {
3797   return (uint16x8_t) __builtin_aarch64_reinterpretv8hiv8hi (__a);
3798 }
3799
3800 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
3801 vreinterpretq_u16_s32 (int32x4_t __a)
3802 {
3803   return (uint16x8_t) __builtin_aarch64_reinterpretv8hiv4si (__a);
3804 }
3805
3806 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
3807 vreinterpretq_u16_s64 (int64x2_t __a)
3808 {
3809   return (uint16x8_t) __builtin_aarch64_reinterpretv8hiv2di (__a);
3810 }
3811
3812 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
3813 vreinterpretq_u16_f32 (float32x4_t __a)
3814 {
3815   return (uint16x8_t) __builtin_aarch64_reinterpretv8hiv4sf (__a);
3816 }
3817
3818 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
3819 vreinterpretq_u16_u8 (uint8x16_t __a)
3820 {
3821   return (uint16x8_t) __builtin_aarch64_reinterpretv8hiv16qi ((int8x16_t)
3822                                                               __a);
3823 }
3824
3825 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
3826 vreinterpretq_u16_u32 (uint32x4_t __a)
3827 {
3828   return (uint16x8_t) __builtin_aarch64_reinterpretv8hiv4si ((int32x4_t) __a);
3829 }
3830
3831 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
3832 vreinterpretq_u16_u64 (uint64x2_t __a)
3833 {
3834   return (uint16x8_t) __builtin_aarch64_reinterpretv8hiv2di ((int64x2_t) __a);
3835 }
3836
3837 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
3838 vreinterpretq_u16_p8 (poly8x16_t __a)
3839 {
3840   return (uint16x8_t) __builtin_aarch64_reinterpretv8hiv16qi ((int8x16_t)
3841                                                               __a);
3842 }
3843
3844 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
3845 vreinterpretq_u16_p16 (poly16x8_t __a)
3846 {
3847   return (uint16x8_t) __builtin_aarch64_reinterpretv8hiv8hi ((int16x8_t) __a);
3848 }
3849
3850 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
3851 vreinterpret_u32_s8 (int8x8_t __a)
3852 {
3853   return (uint32x2_t) __builtin_aarch64_reinterpretv2siv8qi (__a);
3854 }
3855
3856 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
3857 vreinterpret_u32_s16 (int16x4_t __a)
3858 {
3859   return (uint32x2_t) __builtin_aarch64_reinterpretv2siv4hi (__a);
3860 }
3861
3862 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
3863 vreinterpret_u32_s32 (int32x2_t __a)
3864 {
3865   return (uint32x2_t) __builtin_aarch64_reinterpretv2siv2si (__a);
3866 }
3867
3868 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
3869 vreinterpret_u32_s64 (int64x1_t __a)
3870 {
3871   return (uint32x2_t) __builtin_aarch64_reinterpretv2sidi (__a);
3872 }
3873
3874 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
3875 vreinterpret_u32_f32 (float32x2_t __a)
3876 {
3877   return (uint32x2_t) __builtin_aarch64_reinterpretv2siv2sf (__a);
3878 }
3879
3880 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
3881 vreinterpret_u32_u8 (uint8x8_t __a)
3882 {
3883   return (uint32x2_t) __builtin_aarch64_reinterpretv2siv8qi ((int8x8_t) __a);
3884 }
3885
3886 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
3887 vreinterpret_u32_u16 (uint16x4_t __a)
3888 {
3889   return (uint32x2_t) __builtin_aarch64_reinterpretv2siv4hi ((int16x4_t) __a);
3890 }
3891
3892 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
3893 vreinterpret_u32_u64 (uint64x1_t __a)
3894 {
3895   return (uint32x2_t) __builtin_aarch64_reinterpretv2sidi ((int64x1_t) __a);
3896 }
3897
3898 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
3899 vreinterpret_u32_p8 (poly8x8_t __a)
3900 {
3901   return (uint32x2_t) __builtin_aarch64_reinterpretv2siv8qi ((int8x8_t) __a);
3902 }
3903
3904 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
3905 vreinterpret_u32_p16 (poly16x4_t __a)
3906 {
3907   return (uint32x2_t) __builtin_aarch64_reinterpretv2siv4hi ((int16x4_t) __a);
3908 }
3909
3910 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
3911 vreinterpretq_u32_s8 (int8x16_t __a)
3912 {
3913   return (uint32x4_t) __builtin_aarch64_reinterpretv4siv16qi (__a);
3914 }
3915
3916 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
3917 vreinterpretq_u32_s16 (int16x8_t __a)
3918 {
3919   return (uint32x4_t) __builtin_aarch64_reinterpretv4siv8hi (__a);
3920 }
3921
3922 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
3923 vreinterpretq_u32_s32 (int32x4_t __a)
3924 {
3925   return (uint32x4_t) __builtin_aarch64_reinterpretv4siv4si (__a);
3926 }
3927
3928 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
3929 vreinterpretq_u32_s64 (int64x2_t __a)
3930 {
3931   return (uint32x4_t) __builtin_aarch64_reinterpretv4siv2di (__a);
3932 }
3933
3934 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
3935 vreinterpretq_u32_f32 (float32x4_t __a)
3936 {
3937   return (uint32x4_t) __builtin_aarch64_reinterpretv4siv4sf (__a);
3938 }
3939
3940 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
3941 vreinterpretq_u32_u8 (uint8x16_t __a)
3942 {
3943   return (uint32x4_t) __builtin_aarch64_reinterpretv4siv16qi ((int8x16_t)
3944                                                               __a);
3945 }
3946
3947 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
3948 vreinterpretq_u32_u16 (uint16x8_t __a)
3949 {
3950   return (uint32x4_t) __builtin_aarch64_reinterpretv4siv8hi ((int16x8_t) __a);
3951 }
3952
3953 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
3954 vreinterpretq_u32_u64 (uint64x2_t __a)
3955 {
3956   return (uint32x4_t) __builtin_aarch64_reinterpretv4siv2di ((int64x2_t) __a);
3957 }
3958
3959 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
3960 vreinterpretq_u32_p8 (poly8x16_t __a)
3961 {
3962   return (uint32x4_t) __builtin_aarch64_reinterpretv4siv16qi ((int8x16_t)
3963                                                               __a);
3964 }
3965
3966 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
3967 vreinterpretq_u32_p16 (poly16x8_t __a)
3968 {
3969   return (uint32x4_t) __builtin_aarch64_reinterpretv4siv8hi ((int16x8_t) __a);
3970 }
3971
3972 #define __GET_LOW(__TYPE) \
3973   uint64x2_t tmp = vreinterpretq_u64_##__TYPE (__a);  \
3974   uint64_t lo = vgetq_lane_u64 (tmp, 0);  \
3975   return vreinterpret_##__TYPE##_u64 (lo);
3976
3977 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
3978 vget_low_f32 (float32x4_t __a)
3979 {
3980   __GET_LOW (f32);
3981 }
3982
3983 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
3984 vget_low_f64 (float64x2_t __a)
3985 {
3986   return vgetq_lane_f64 (__a, 0);
3987 }
3988
3989 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
3990 vget_low_p8 (poly8x16_t __a)
3991 {
3992   __GET_LOW (p8);
3993 }
3994
3995 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
3996 vget_low_p16 (poly16x8_t __a)
3997 {
3998   __GET_LOW (p16);
3999 }
4000
4001 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
4002 vget_low_s8 (int8x16_t __a)
4003 {
4004   __GET_LOW (s8);
4005 }
4006
4007 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
4008 vget_low_s16 (int16x8_t __a)
4009 {
4010   __GET_LOW (s16);
4011 }
4012
4013 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
4014 vget_low_s32 (int32x4_t __a)
4015 {
4016   __GET_LOW (s32);
4017 }
4018
4019 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
4020 vget_low_s64 (int64x2_t __a)
4021 {
4022   return vgetq_lane_s64 (__a, 0);
4023 }
4024
4025 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4026 vget_low_u8 (uint8x16_t __a)
4027 {
4028   __GET_LOW (u8);
4029 }
4030
4031 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4032 vget_low_u16 (uint16x8_t __a)
4033 {
4034   __GET_LOW (u16);
4035 }
4036
4037 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4038 vget_low_u32 (uint32x4_t __a)
4039 {
4040   __GET_LOW (u32);
4041 }
4042
4043 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
4044 vget_low_u64 (uint64x2_t __a)
4045 {
4046   return vgetq_lane_u64 (__a, 0);
4047 }
4048
4049 #undef __GET_LOW
4050
4051 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
4052 vcombine_s8 (int8x8_t __a, int8x8_t __b)
4053 {
4054   return (int8x16_t) __builtin_aarch64_combinev8qi (__a, __b);
4055 }
4056
4057 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
4058 vcombine_s16 (int16x4_t __a, int16x4_t __b)
4059 {
4060   return (int16x8_t) __builtin_aarch64_combinev4hi (__a, __b);
4061 }
4062
4063 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4064 vcombine_s32 (int32x2_t __a, int32x2_t __b)
4065 {
4066   return (int32x4_t) __builtin_aarch64_combinev2si (__a, __b);
4067 }
4068
4069 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
4070 vcombine_s64 (int64x1_t __a, int64x1_t __b)
4071 {
4072   return (int64x2_t) __builtin_aarch64_combinedi (__a, __b);
4073 }
4074
4075 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
4076 vcombine_f32 (float32x2_t __a, float32x2_t __b)
4077 {
4078   return (float32x4_t) __builtin_aarch64_combinev2sf (__a, __b);
4079 }
4080
4081 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4082 vcombine_u8 (uint8x8_t __a, uint8x8_t __b)
4083 {
4084   return (uint8x16_t) __builtin_aarch64_combinev8qi ((int8x8_t) __a,
4085                                                      (int8x8_t) __b);
4086 }
4087
4088 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4089 vcombine_u16 (uint16x4_t __a, uint16x4_t __b)
4090 {
4091   return (uint16x8_t) __builtin_aarch64_combinev4hi ((int16x4_t) __a,
4092                                                      (int16x4_t) __b);
4093 }
4094
4095 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4096 vcombine_u32 (uint32x2_t __a, uint32x2_t __b)
4097 {
4098   return (uint32x4_t) __builtin_aarch64_combinev2si ((int32x2_t) __a,
4099                                                      (int32x2_t) __b);
4100 }
4101
4102 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
4103 vcombine_u64 (uint64x1_t __a, uint64x1_t __b)
4104 {
4105   return (uint64x2_t) __builtin_aarch64_combinedi ((int64x1_t) __a,
4106                                                    (int64x1_t) __b);
4107 }
4108
4109 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
4110 vcombine_f64 (float64x1_t __a, float64x1_t __b)
4111 {
4112   return (float64x2_t) __builtin_aarch64_combinedf (__a, __b);
4113 }
4114
4115 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
4116 vcombine_p8 (poly8x8_t __a, poly8x8_t __b)
4117 {
4118   return (poly8x16_t) __builtin_aarch64_combinev8qi ((int8x8_t) __a,
4119                                                      (int8x8_t) __b);
4120 }
4121
4122 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
4123 vcombine_p16 (poly16x4_t __a, poly16x4_t __b)
4124 {
4125   return (poly16x8_t) __builtin_aarch64_combinev4hi ((int16x4_t) __a,
4126                                                      (int16x4_t) __b);
4127 }
4128
4129 /* Start of temporary inline asm implementations.  */
4130
4131 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
4132 vaba_s8 (int8x8_t a, int8x8_t b, int8x8_t c)
4133 {
4134   int8x8_t result;
4135   __asm__ ("saba %0.8b,%2.8b,%3.8b"
4136            : "=w"(result)
4137            : "0"(a), "w"(b), "w"(c)
4138            : /* No clobbers */);
4139   return result;
4140 }
4141
4142 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
4143 vaba_s16 (int16x4_t a, int16x4_t b, int16x4_t c)
4144 {
4145   int16x4_t result;
4146   __asm__ ("saba %0.4h,%2.4h,%3.4h"
4147            : "=w"(result)
4148            : "0"(a), "w"(b), "w"(c)
4149            : /* No clobbers */);
4150   return result;
4151 }
4152
4153 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
4154 vaba_s32 (int32x2_t a, int32x2_t b, int32x2_t c)
4155 {
4156   int32x2_t result;
4157   __asm__ ("saba %0.2s,%2.2s,%3.2s"
4158            : "=w"(result)
4159            : "0"(a), "w"(b), "w"(c)
4160            : /* No clobbers */);
4161   return result;
4162 }
4163
4164 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4165 vaba_u8 (uint8x8_t a, uint8x8_t b, uint8x8_t c)
4166 {
4167   uint8x8_t result;
4168   __asm__ ("uaba %0.8b,%2.8b,%3.8b"
4169            : "=w"(result)
4170            : "0"(a), "w"(b), "w"(c)
4171            : /* No clobbers */);
4172   return result;
4173 }
4174
4175 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4176 vaba_u16 (uint16x4_t a, uint16x4_t b, uint16x4_t c)
4177 {
4178   uint16x4_t result;
4179   __asm__ ("uaba %0.4h,%2.4h,%3.4h"
4180            : "=w"(result)
4181            : "0"(a), "w"(b), "w"(c)
4182            : /* No clobbers */);
4183   return result;
4184 }
4185
4186 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4187 vaba_u32 (uint32x2_t a, uint32x2_t b, uint32x2_t c)
4188 {
4189   uint32x2_t result;
4190   __asm__ ("uaba %0.2s,%2.2s,%3.2s"
4191            : "=w"(result)
4192            : "0"(a), "w"(b), "w"(c)
4193            : /* No clobbers */);
4194   return result;
4195 }
4196
4197 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
4198 vabal_high_s8 (int16x8_t a, int8x16_t b, int8x16_t c)
4199 {
4200   int16x8_t result;
4201   __asm__ ("sabal2 %0.8h,%2.16b,%3.16b"
4202            : "=w"(result)
4203            : "0"(a), "w"(b), "w"(c)
4204            : /* No clobbers */);
4205   return result;
4206 }
4207
4208 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4209 vabal_high_s16 (int32x4_t a, int16x8_t b, int16x8_t c)
4210 {
4211   int32x4_t result;
4212   __asm__ ("sabal2 %0.4s,%2.8h,%3.8h"
4213            : "=w"(result)
4214            : "0"(a), "w"(b), "w"(c)
4215            : /* No clobbers */);
4216   return result;
4217 }
4218
4219 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
4220 vabal_high_s32 (int64x2_t a, int32x4_t b, int32x4_t c)
4221 {
4222   int64x2_t result;
4223   __asm__ ("sabal2 %0.2d,%2.4s,%3.4s"
4224            : "=w"(result)
4225            : "0"(a), "w"(b), "w"(c)
4226            : /* No clobbers */);
4227   return result;
4228 }
4229
4230 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4231 vabal_high_u8 (uint16x8_t a, uint8x16_t b, uint8x16_t c)
4232 {
4233   uint16x8_t result;
4234   __asm__ ("uabal2 %0.8h,%2.16b,%3.16b"
4235            : "=w"(result)
4236            : "0"(a), "w"(b), "w"(c)
4237            : /* No clobbers */);
4238   return result;
4239 }
4240
4241 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4242 vabal_high_u16 (uint32x4_t a, uint16x8_t b, uint16x8_t c)
4243 {
4244   uint32x4_t result;
4245   __asm__ ("uabal2 %0.4s,%2.8h,%3.8h"
4246            : "=w"(result)
4247            : "0"(a), "w"(b), "w"(c)
4248            : /* No clobbers */);
4249   return result;
4250 }
4251
4252 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
4253 vabal_high_u32 (uint64x2_t a, uint32x4_t b, uint32x4_t c)
4254 {
4255   uint64x2_t result;
4256   __asm__ ("uabal2 %0.2d,%2.4s,%3.4s"
4257            : "=w"(result)
4258            : "0"(a), "w"(b), "w"(c)
4259            : /* No clobbers */);
4260   return result;
4261 }
4262
4263 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
4264 vabal_s8 (int16x8_t a, int8x8_t b, int8x8_t c)
4265 {
4266   int16x8_t result;
4267   __asm__ ("sabal %0.8h,%2.8b,%3.8b"
4268            : "=w"(result)
4269            : "0"(a), "w"(b), "w"(c)
4270            : /* No clobbers */);
4271   return result;
4272 }
4273
4274 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4275 vabal_s16 (int32x4_t a, int16x4_t b, int16x4_t c)
4276 {
4277   int32x4_t result;
4278   __asm__ ("sabal %0.4s,%2.4h,%3.4h"
4279            : "=w"(result)
4280            : "0"(a), "w"(b), "w"(c)
4281            : /* No clobbers */);
4282   return result;
4283 }
4284
4285 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
4286 vabal_s32 (int64x2_t a, int32x2_t b, int32x2_t c)
4287 {
4288   int64x2_t result;
4289   __asm__ ("sabal %0.2d,%2.2s,%3.2s"
4290            : "=w"(result)
4291            : "0"(a), "w"(b), "w"(c)
4292            : /* No clobbers */);
4293   return result;
4294 }
4295
4296 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4297 vabal_u8 (uint16x8_t a, uint8x8_t b, uint8x8_t c)
4298 {
4299   uint16x8_t result;
4300   __asm__ ("uabal %0.8h,%2.8b,%3.8b"
4301            : "=w"(result)
4302            : "0"(a), "w"(b), "w"(c)
4303            : /* No clobbers */);
4304   return result;
4305 }
4306
4307 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4308 vabal_u16 (uint32x4_t a, uint16x4_t b, uint16x4_t c)
4309 {
4310   uint32x4_t result;
4311   __asm__ ("uabal %0.4s,%2.4h,%3.4h"
4312            : "=w"(result)
4313            : "0"(a), "w"(b), "w"(c)
4314            : /* No clobbers */);
4315   return result;
4316 }
4317
4318 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
4319 vabal_u32 (uint64x2_t a, uint32x2_t b, uint32x2_t c)
4320 {
4321   uint64x2_t result;
4322   __asm__ ("uabal %0.2d,%2.2s,%3.2s"
4323            : "=w"(result)
4324            : "0"(a), "w"(b), "w"(c)
4325            : /* No clobbers */);
4326   return result;
4327 }
4328
4329 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
4330 vabaq_s8 (int8x16_t a, int8x16_t b, int8x16_t c)
4331 {
4332   int8x16_t result;
4333   __asm__ ("saba %0.16b,%2.16b,%3.16b"
4334            : "=w"(result)
4335            : "0"(a), "w"(b), "w"(c)
4336            : /* No clobbers */);
4337   return result;
4338 }
4339
4340 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
4341 vabaq_s16 (int16x8_t a, int16x8_t b, int16x8_t c)
4342 {
4343   int16x8_t result;
4344   __asm__ ("saba %0.8h,%2.8h,%3.8h"
4345            : "=w"(result)
4346            : "0"(a), "w"(b), "w"(c)
4347            : /* No clobbers */);
4348   return result;
4349 }
4350
4351 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4352 vabaq_s32 (int32x4_t a, int32x4_t b, int32x4_t c)
4353 {
4354   int32x4_t result;
4355   __asm__ ("saba %0.4s,%2.4s,%3.4s"
4356            : "=w"(result)
4357            : "0"(a), "w"(b), "w"(c)
4358            : /* No clobbers */);
4359   return result;
4360 }
4361
4362 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4363 vabaq_u8 (uint8x16_t a, uint8x16_t b, uint8x16_t c)
4364 {
4365   uint8x16_t result;
4366   __asm__ ("uaba %0.16b,%2.16b,%3.16b"
4367            : "=w"(result)
4368            : "0"(a), "w"(b), "w"(c)
4369            : /* No clobbers */);
4370   return result;
4371 }
4372
4373 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4374 vabaq_u16 (uint16x8_t a, uint16x8_t b, uint16x8_t c)
4375 {
4376   uint16x8_t result;
4377   __asm__ ("uaba %0.8h,%2.8h,%3.8h"
4378            : "=w"(result)
4379            : "0"(a), "w"(b), "w"(c)
4380            : /* No clobbers */);
4381   return result;
4382 }
4383
4384 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4385 vabaq_u32 (uint32x4_t a, uint32x4_t b, uint32x4_t c)
4386 {
4387   uint32x4_t result;
4388   __asm__ ("uaba %0.4s,%2.4s,%3.4s"
4389            : "=w"(result)
4390            : "0"(a), "w"(b), "w"(c)
4391            : /* No clobbers */);
4392   return result;
4393 }
4394
4395 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
4396 vabd_f32 (float32x2_t a, float32x2_t b)
4397 {
4398   float32x2_t result;
4399   __asm__ ("fabd %0.2s, %1.2s, %2.2s"
4400            : "=w"(result)
4401            : "w"(a), "w"(b)
4402            : /* No clobbers */);
4403   return result;
4404 }
4405
4406 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
4407 vabd_s8 (int8x8_t a, int8x8_t b)
4408 {
4409   int8x8_t result;
4410   __asm__ ("sabd %0.8b, %1.8b, %2.8b"
4411            : "=w"(result)
4412            : "w"(a), "w"(b)
4413            : /* No clobbers */);
4414   return result;
4415 }
4416
4417 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
4418 vabd_s16 (int16x4_t a, int16x4_t b)
4419 {
4420   int16x4_t result;
4421   __asm__ ("sabd %0.4h, %1.4h, %2.4h"
4422            : "=w"(result)
4423            : "w"(a), "w"(b)
4424            : /* No clobbers */);
4425   return result;
4426 }
4427
4428 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
4429 vabd_s32 (int32x2_t a, int32x2_t b)
4430 {
4431   int32x2_t result;
4432   __asm__ ("sabd %0.2s, %1.2s, %2.2s"
4433            : "=w"(result)
4434            : "w"(a), "w"(b)
4435            : /* No clobbers */);
4436   return result;
4437 }
4438
4439 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4440 vabd_u8 (uint8x8_t a, uint8x8_t b)
4441 {
4442   uint8x8_t result;
4443   __asm__ ("uabd %0.8b, %1.8b, %2.8b"
4444            : "=w"(result)
4445            : "w"(a), "w"(b)
4446            : /* No clobbers */);
4447   return result;
4448 }
4449
4450 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4451 vabd_u16 (uint16x4_t a, uint16x4_t b)
4452 {
4453   uint16x4_t result;
4454   __asm__ ("uabd %0.4h, %1.4h, %2.4h"
4455            : "=w"(result)
4456            : "w"(a), "w"(b)
4457            : /* No clobbers */);
4458   return result;
4459 }
4460
4461 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4462 vabd_u32 (uint32x2_t a, uint32x2_t b)
4463 {
4464   uint32x2_t result;
4465   __asm__ ("uabd %0.2s, %1.2s, %2.2s"
4466            : "=w"(result)
4467            : "w"(a), "w"(b)
4468            : /* No clobbers */);
4469   return result;
4470 }
4471
4472 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
4473 vabdd_f64 (float64_t a, float64_t b)
4474 {
4475   float64_t result;
4476   __asm__ ("fabd %d0, %d1, %d2"
4477            : "=w"(result)
4478            : "w"(a), "w"(b)
4479            : /* No clobbers */);
4480   return result;
4481 }
4482
4483 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
4484 vabdl_high_s8 (int8x16_t a, int8x16_t b)
4485 {
4486   int16x8_t result;
4487   __asm__ ("sabdl2 %0.8h,%1.16b,%2.16b"
4488            : "=w"(result)
4489            : "w"(a), "w"(b)
4490            : /* No clobbers */);
4491   return result;
4492 }
4493
4494 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4495 vabdl_high_s16 (int16x8_t a, int16x8_t b)
4496 {
4497   int32x4_t result;
4498   __asm__ ("sabdl2 %0.4s,%1.8h,%2.8h"
4499            : "=w"(result)
4500            : "w"(a), "w"(b)
4501            : /* No clobbers */);
4502   return result;
4503 }
4504
4505 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
4506 vabdl_high_s32 (int32x4_t a, int32x4_t b)
4507 {
4508   int64x2_t result;
4509   __asm__ ("sabdl2 %0.2d,%1.4s,%2.4s"
4510            : "=w"(result)
4511            : "w"(a), "w"(b)
4512            : /* No clobbers */);
4513   return result;
4514 }
4515
4516 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4517 vabdl_high_u8 (uint8x16_t a, uint8x16_t b)
4518 {
4519   uint16x8_t result;
4520   __asm__ ("uabdl2 %0.8h,%1.16b,%2.16b"
4521            : "=w"(result)
4522            : "w"(a), "w"(b)
4523            : /* No clobbers */);
4524   return result;
4525 }
4526
4527 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4528 vabdl_high_u16 (uint16x8_t a, uint16x8_t b)
4529 {
4530   uint32x4_t result;
4531   __asm__ ("uabdl2 %0.4s,%1.8h,%2.8h"
4532            : "=w"(result)
4533            : "w"(a), "w"(b)
4534            : /* No clobbers */);
4535   return result;
4536 }
4537
4538 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
4539 vabdl_high_u32 (uint32x4_t a, uint32x4_t b)
4540 {
4541   uint64x2_t result;
4542   __asm__ ("uabdl2 %0.2d,%1.4s,%2.4s"
4543            : "=w"(result)
4544            : "w"(a), "w"(b)
4545            : /* No clobbers */);
4546   return result;
4547 }
4548
4549 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
4550 vabdl_s8 (int8x8_t a, int8x8_t b)
4551 {
4552   int16x8_t result;
4553   __asm__ ("sabdl %0.8h, %1.8b, %2.8b"
4554            : "=w"(result)
4555            : "w"(a), "w"(b)
4556            : /* No clobbers */);
4557   return result;
4558 }
4559
4560 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4561 vabdl_s16 (int16x4_t a, int16x4_t b)
4562 {
4563   int32x4_t result;
4564   __asm__ ("sabdl %0.4s, %1.4h, %2.4h"
4565            : "=w"(result)
4566            : "w"(a), "w"(b)
4567            : /* No clobbers */);
4568   return result;
4569 }
4570
4571 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
4572 vabdl_s32 (int32x2_t a, int32x2_t b)
4573 {
4574   int64x2_t result;
4575   __asm__ ("sabdl %0.2d, %1.2s, %2.2s"
4576            : "=w"(result)
4577            : "w"(a), "w"(b)
4578            : /* No clobbers */);
4579   return result;
4580 }
4581
4582 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4583 vabdl_u8 (uint8x8_t a, uint8x8_t b)
4584 {
4585   uint16x8_t result;
4586   __asm__ ("uabdl %0.8h, %1.8b, %2.8b"
4587            : "=w"(result)
4588            : "w"(a), "w"(b)
4589            : /* No clobbers */);
4590   return result;
4591 }
4592
4593 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4594 vabdl_u16 (uint16x4_t a, uint16x4_t b)
4595 {
4596   uint32x4_t result;
4597   __asm__ ("uabdl %0.4s, %1.4h, %2.4h"
4598            : "=w"(result)
4599            : "w"(a), "w"(b)
4600            : /* No clobbers */);
4601   return result;
4602 }
4603
4604 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
4605 vabdl_u32 (uint32x2_t a, uint32x2_t b)
4606 {
4607   uint64x2_t result;
4608   __asm__ ("uabdl %0.2d, %1.2s, %2.2s"
4609            : "=w"(result)
4610            : "w"(a), "w"(b)
4611            : /* No clobbers */);
4612   return result;
4613 }
4614
4615 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
4616 vabdq_f32 (float32x4_t a, float32x4_t b)
4617 {
4618   float32x4_t result;
4619   __asm__ ("fabd %0.4s, %1.4s, %2.4s"
4620            : "=w"(result)
4621            : "w"(a), "w"(b)
4622            : /* No clobbers */);
4623   return result;
4624 }
4625
4626 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
4627 vabdq_f64 (float64x2_t a, float64x2_t b)
4628 {
4629   float64x2_t result;
4630   __asm__ ("fabd %0.2d, %1.2d, %2.2d"
4631            : "=w"(result)
4632            : "w"(a), "w"(b)
4633            : /* No clobbers */);
4634   return result;
4635 }
4636
4637 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
4638 vabdq_s8 (int8x16_t a, int8x16_t b)
4639 {
4640   int8x16_t result;
4641   __asm__ ("sabd %0.16b, %1.16b, %2.16b"
4642            : "=w"(result)
4643            : "w"(a), "w"(b)
4644            : /* No clobbers */);
4645   return result;
4646 }
4647
4648 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
4649 vabdq_s16 (int16x8_t a, int16x8_t b)
4650 {
4651   int16x8_t result;
4652   __asm__ ("sabd %0.8h, %1.8h, %2.8h"
4653            : "=w"(result)
4654            : "w"(a), "w"(b)
4655            : /* No clobbers */);
4656   return result;
4657 }
4658
4659 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
4660 vabdq_s32 (int32x4_t a, int32x4_t b)
4661 {
4662   int32x4_t result;
4663   __asm__ ("sabd %0.4s, %1.4s, %2.4s"
4664            : "=w"(result)
4665            : "w"(a), "w"(b)
4666            : /* No clobbers */);
4667   return result;
4668 }
4669
4670 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
4671 vabdq_u8 (uint8x16_t a, uint8x16_t b)
4672 {
4673   uint8x16_t result;
4674   __asm__ ("uabd %0.16b, %1.16b, %2.16b"
4675            : "=w"(result)
4676            : "w"(a), "w"(b)
4677            : /* No clobbers */);
4678   return result;
4679 }
4680
4681 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
4682 vabdq_u16 (uint16x8_t a, uint16x8_t b)
4683 {
4684   uint16x8_t result;
4685   __asm__ ("uabd %0.8h, %1.8h, %2.8h"
4686            : "=w"(result)
4687            : "w"(a), "w"(b)
4688            : /* No clobbers */);
4689   return result;
4690 }
4691
4692 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
4693 vabdq_u32 (uint32x4_t a, uint32x4_t b)
4694 {
4695   uint32x4_t result;
4696   __asm__ ("uabd %0.4s, %1.4s, %2.4s"
4697            : "=w"(result)
4698            : "w"(a), "w"(b)
4699            : /* No clobbers */);
4700   return result;
4701 }
4702
4703 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
4704 vabds_f32 (float32_t a, float32_t b)
4705 {
4706   float32_t result;
4707   __asm__ ("fabd %s0, %s1, %s2"
4708            : "=w"(result)
4709            : "w"(a), "w"(b)
4710            : /* No clobbers */);
4711   return result;
4712 }
4713
4714 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
4715 vaddlv_s8 (int8x8_t a)
4716 {
4717   int16_t result;
4718   __asm__ ("saddlv %h0,%1.8b"
4719            : "=w"(result)
4720            : "w"(a)
4721            : /* No clobbers */);
4722   return result;
4723 }
4724
4725 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
4726 vaddlv_s16 (int16x4_t a)
4727 {
4728   int32_t result;
4729   __asm__ ("saddlv %s0,%1.4h"
4730            : "=w"(result)
4731            : "w"(a)
4732            : /* No clobbers */);
4733   return result;
4734 }
4735
4736 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
4737 vaddlv_u8 (uint8x8_t a)
4738 {
4739   uint16_t result;
4740   __asm__ ("uaddlv %h0,%1.8b"
4741            : "=w"(result)
4742            : "w"(a)
4743            : /* No clobbers */);
4744   return result;
4745 }
4746
4747 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
4748 vaddlv_u16 (uint16x4_t a)
4749 {
4750   uint32_t result;
4751   __asm__ ("uaddlv %s0,%1.4h"
4752            : "=w"(result)
4753            : "w"(a)
4754            : /* No clobbers */);
4755   return result;
4756 }
4757
4758 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
4759 vaddlvq_s8 (int8x16_t a)
4760 {
4761   int16_t result;
4762   __asm__ ("saddlv %h0,%1.16b"
4763            : "=w"(result)
4764            : "w"(a)
4765            : /* No clobbers */);
4766   return result;
4767 }
4768
4769 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
4770 vaddlvq_s16 (int16x8_t a)
4771 {
4772   int32_t result;
4773   __asm__ ("saddlv %s0,%1.8h"
4774            : "=w"(result)
4775            : "w"(a)
4776            : /* No clobbers */);
4777   return result;
4778 }
4779
4780 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
4781 vaddlvq_s32 (int32x4_t a)
4782 {
4783   int64_t result;
4784   __asm__ ("saddlv %d0,%1.4s"
4785            : "=w"(result)
4786            : "w"(a)
4787            : /* No clobbers */);
4788   return result;
4789 }
4790
4791 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
4792 vaddlvq_u8 (uint8x16_t a)
4793 {
4794   uint16_t result;
4795   __asm__ ("uaddlv %h0,%1.16b"
4796            : "=w"(result)
4797            : "w"(a)
4798            : /* No clobbers */);
4799   return result;
4800 }
4801
4802 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
4803 vaddlvq_u16 (uint16x8_t a)
4804 {
4805   uint32_t result;
4806   __asm__ ("uaddlv %s0,%1.8h"
4807            : "=w"(result)
4808            : "w"(a)
4809            : /* No clobbers */);
4810   return result;
4811 }
4812
4813 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
4814 vaddlvq_u32 (uint32x4_t a)
4815 {
4816   uint64_t result;
4817   __asm__ ("uaddlv %d0,%1.4s"
4818            : "=w"(result)
4819            : "w"(a)
4820            : /* No clobbers */);
4821   return result;
4822 }
4823
4824 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
4825 vbsl_f32 (uint32x2_t a, float32x2_t b, float32x2_t c)
4826 {
4827   float32x2_t result;
4828   __asm__ ("bsl %0.8b, %2.8b, %3.8b"
4829            : "=w"(result)
4830            : "0"(a), "w"(b), "w"(c)
4831            : /* No clobbers */);
4832   return result;
4833 }
4834
4835 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
4836 vbsl_p8 (uint8x8_t a, poly8x8_t b, poly8x8_t c)
4837 {
4838   poly8x8_t result;
4839   __asm__ ("bsl %0.8b, %2.8b, %3.8b"
4840            : "=w"(result)
4841            : "0"(a), "w"(b), "w"(c)
4842            : /* No clobbers */);
4843   return result;
4844 }
4845
4846 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
4847 vbsl_p16 (uint16x4_t a, poly16x4_t b, poly16x4_t c)
4848 {
4849   poly16x4_t result;
4850   __asm__ ("bsl %0.8b, %2.8b, %3.8b"
4851            : "=w"(result)
4852            : "0"(a), "w"(b), "w"(c)
4853            : /* No clobbers */);
4854   return result;
4855 }
4856
4857 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
4858 vbsl_s8 (uint8x8_t a, int8x8_t b, int8x8_t c)
4859 {
4860   int8x8_t result;
4861   __asm__ ("bsl %0.8b, %2.8b, %3.8b"
4862            : "=w"(result)
4863            : "0"(a), "w"(b), "w"(c)
4864            : /* No clobbers */);
4865   return result;
4866 }
4867
4868 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
4869 vbsl_s16 (uint16x4_t a, int16x4_t b, int16x4_t c)
4870 {
4871   int16x4_t result;
4872   __asm__ ("bsl %0.8b, %2.8b, %3.8b"
4873            : "=w"(result)
4874            : "0"(a), "w"(b), "w"(c)
4875            : /* No clobbers */);
4876   return result;
4877 }
4878
4879 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
4880 vbsl_s32 (uint32x2_t a, int32x2_t b, int32x2_t c)
4881 {
4882   int32x2_t result;
4883   __asm__ ("bsl %0.8b, %2.8b, %3.8b"
4884            : "=w"(result)
4885            : "0"(a), "w"(b), "w"(c)
4886            : /* No clobbers */);
4887   return result;
4888 }
4889
4890 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
4891 vbsl_s64 (uint64x1_t a, int64x1_t b, int64x1_t c)
4892 {
4893   int64x1_t result;
4894   __asm__ ("bsl %0.8b, %2.8b, %3.8b"
4895            : "=w"(result)
4896            : "0"(a), "w"(b), "w"(c)
4897            : /* No clobbers */);
4898   return result;
4899 }
4900
4901 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
4902 vbsl_u8 (uint8x8_t a, uint8x8_t b, uint8x8_t c)
4903 {
4904   uint8x8_t result;
4905   __asm__ ("bsl %0.8b, %2.8b, %3.8b"
4906            : "=w"(result)
4907            : "0"(a), "w"(b), "w"(c)
4908            : /* No clobbers */);
4909   return result;
4910 }
4911
4912 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
4913 vbsl_u16 (uint16x4_t a, uint16x4_t b, uint16x4_t c)
4914 {
4915   uint16x4_t result;
4916   __asm__ ("bsl %0.8b, %2.8b, %3.8b"
4917            : "=w"(result)
4918            : "0"(a), "w"(b), "w"(c)
4919            : /* No clobbers */);
4920   return result;
4921 }
4922
4923 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
4924 vbsl_u32 (uint32x2_t a, uint32x2_t b, uint32x2_t c)
4925 {
4926   uint32x2_t result;
4927   __asm__ ("bsl %0.8b, %2.8b, %3.8b"
4928            : "=w"(result)
4929            : "0"(a), "w"(b), "w"(c)
4930            : /* No clobbers */);
4931   return result;
4932 }
4933
4934 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
4935 vbsl_u64 (uint64x1_t a, uint64x1_t b, uint64x1_t c)
4936 {
4937   uint64x1_t result;
4938   __asm__ ("bsl %0.8b, %2.8b, %3.8b"
4939            : "=w"(result)
4940            : "0"(a), "w"(b), "w"(c)
4941            : /* No clobbers */);
4942   return result;
4943 }
4944
4945 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
4946 vbslq_f32 (uint32x4_t a, float32x4_t b, float32x4_t c)
4947 {
4948   float32x4_t result;
4949   __asm__ ("bsl %0.16b, %2.16b, %3.16b"
4950            : "=w"(result)
4951            : "0"(a), "w"(b), "w"(c)
4952            : /* No clobbers */);
4953   return result;
4954 }
4955
4956 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
4957 vbslq_f64 (uint64x2_t a, float64x2_t b, float64x2_t c)
4958 {
4959   float64x2_t result;
4960   __asm__ ("bsl %0.16b, %2.16b, %3.16b"
4961            : "=w"(result)
4962            : "0"(a), "w"(b), "w"(c)
4963            : /* No clobbers */);
4964   return result;
4965 }
4966
4967 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
4968 vbslq_p8 (uint8x16_t a, poly8x16_t b, poly8x16_t c)
4969 {
4970   poly8x16_t result;
4971   __asm__ ("bsl %0.16b, %2.16b, %3.16b"
4972            : "=w"(result)
4973            : "0"(a), "w"(b), "w"(c)
4974            : /* No clobbers */);
4975   return result;
4976 }
4977
4978 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
4979 vbslq_p16 (uint16x8_t a, poly16x8_t b, poly16x8_t c)
4980 {
4981   poly16x8_t result;
4982   __asm__ ("bsl %0.16b, %2.16b, %3.16b"
4983            : "=w"(result)
4984            : "0"(a), "w"(b), "w"(c)
4985            : /* No clobbers */);
4986   return result;
4987 }
4988
4989 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
4990 vbslq_s8 (uint8x16_t a, int8x16_t b, int8x16_t c)
4991 {
4992   int8x16_t result;
4993   __asm__ ("bsl %0.16b, %2.16b, %3.16b"
4994            : "=w"(result)
4995            : "0"(a), "w"(b), "w"(c)
4996            : /* No clobbers */);
4997   return result;
4998 }
4999
5000 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
5001 vbslq_s16 (uint16x8_t a, int16x8_t b, int16x8_t c)
5002 {
5003   int16x8_t result;
5004   __asm__ ("bsl %0.16b, %2.16b, %3.16b"
5005            : "=w"(result)
5006            : "0"(a), "w"(b), "w"(c)
5007            : /* No clobbers */);
5008   return result;
5009 }
5010
5011 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
5012 vbslq_s32 (uint32x4_t a, int32x4_t b, int32x4_t c)
5013 {
5014   int32x4_t result;
5015   __asm__ ("bsl %0.16b, %2.16b, %3.16b"
5016            : "=w"(result)
5017            : "0"(a), "w"(b), "w"(c)
5018            : /* No clobbers */);
5019   return result;
5020 }
5021
5022 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
5023 vbslq_s64 (uint64x2_t a, int64x2_t b, int64x2_t c)
5024 {
5025   int64x2_t result;
5026   __asm__ ("bsl %0.16b, %2.16b, %3.16b"
5027            : "=w"(result)
5028            : "0"(a), "w"(b), "w"(c)
5029            : /* No clobbers */);
5030   return result;
5031 }
5032
5033 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
5034 vbslq_u8 (uint8x16_t a, uint8x16_t b, uint8x16_t c)
5035 {
5036   uint8x16_t result;
5037   __asm__ ("bsl %0.16b, %2.16b, %3.16b"
5038            : "=w"(result)
5039            : "0"(a), "w"(b), "w"(c)
5040            : /* No clobbers */);
5041   return result;
5042 }
5043
5044 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
5045 vbslq_u16 (uint16x8_t a, uint16x8_t b, uint16x8_t c)
5046 {
5047   uint16x8_t result;
5048   __asm__ ("bsl %0.16b, %2.16b, %3.16b"
5049            : "=w"(result)
5050            : "0"(a), "w"(b), "w"(c)
5051            : /* No clobbers */);
5052   return result;
5053 }
5054
5055 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
5056 vbslq_u32 (uint32x4_t a, uint32x4_t b, uint32x4_t c)
5057 {
5058   uint32x4_t result;
5059   __asm__ ("bsl %0.16b, %2.16b, %3.16b"
5060            : "=w"(result)
5061            : "0"(a), "w"(b), "w"(c)
5062            : /* No clobbers */);
5063   return result;
5064 }
5065
5066 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
5067 vbslq_u64 (uint64x2_t a, uint64x2_t b, uint64x2_t c)
5068 {
5069   uint64x2_t result;
5070   __asm__ ("bsl %0.16b, %2.16b, %3.16b"
5071            : "=w"(result)
5072            : "0"(a), "w"(b), "w"(c)
5073            : /* No clobbers */);
5074   return result;
5075 }
5076
5077 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
5078 vcls_s8 (int8x8_t a)
5079 {
5080   int8x8_t result;
5081   __asm__ ("cls %0.8b,%1.8b"
5082            : "=w"(result)
5083            : "w"(a)
5084            : /* No clobbers */);
5085   return result;
5086 }
5087
5088 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
5089 vcls_s16 (int16x4_t a)
5090 {
5091   int16x4_t result;
5092   __asm__ ("cls %0.4h,%1.4h"
5093            : "=w"(result)
5094            : "w"(a)
5095            : /* No clobbers */);
5096   return result;
5097 }
5098
5099 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
5100 vcls_s32 (int32x2_t a)
5101 {
5102   int32x2_t result;
5103   __asm__ ("cls %0.2s,%1.2s"
5104            : "=w"(result)
5105            : "w"(a)
5106            : /* No clobbers */);
5107   return result;
5108 }
5109
5110 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
5111 vclsq_s8 (int8x16_t a)
5112 {
5113   int8x16_t result;
5114   __asm__ ("cls %0.16b,%1.16b"
5115            : "=w"(result)
5116            : "w"(a)
5117            : /* No clobbers */);
5118   return result;
5119 }
5120
5121 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
5122 vclsq_s16 (int16x8_t a)
5123 {
5124   int16x8_t result;
5125   __asm__ ("cls %0.8h,%1.8h"
5126            : "=w"(result)
5127            : "w"(a)
5128            : /* No clobbers */);
5129   return result;
5130 }
5131
5132 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
5133 vclsq_s32 (int32x4_t a)
5134 {
5135   int32x4_t result;
5136   __asm__ ("cls %0.4s,%1.4s"
5137            : "=w"(result)
5138            : "w"(a)
5139            : /* No clobbers */);
5140   return result;
5141 }
5142
5143 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
5144 vclz_s8 (int8x8_t a)
5145 {
5146   int8x8_t result;
5147   __asm__ ("clz %0.8b,%1.8b"
5148            : "=w"(result)
5149            : "w"(a)
5150            : /* No clobbers */);
5151   return result;
5152 }
5153
5154 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
5155 vclz_s16 (int16x4_t a)
5156 {
5157   int16x4_t result;
5158   __asm__ ("clz %0.4h,%1.4h"
5159            : "=w"(result)
5160            : "w"(a)
5161            : /* No clobbers */);
5162   return result;
5163 }
5164
5165 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
5166 vclz_s32 (int32x2_t a)
5167 {
5168   int32x2_t result;
5169   __asm__ ("clz %0.2s,%1.2s"
5170            : "=w"(result)
5171            : "w"(a)
5172            : /* No clobbers */);
5173   return result;
5174 }
5175
5176 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
5177 vclz_u8 (uint8x8_t a)
5178 {
5179   uint8x8_t result;
5180   __asm__ ("clz %0.8b,%1.8b"
5181            : "=w"(result)
5182            : "w"(a)
5183            : /* No clobbers */);
5184   return result;
5185 }
5186
5187 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
5188 vclz_u16 (uint16x4_t a)
5189 {
5190   uint16x4_t result;
5191   __asm__ ("clz %0.4h,%1.4h"
5192            : "=w"(result)
5193            : "w"(a)
5194            : /* No clobbers */);
5195   return result;
5196 }
5197
5198 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
5199 vclz_u32 (uint32x2_t a)
5200 {
5201   uint32x2_t result;
5202   __asm__ ("clz %0.2s,%1.2s"
5203            : "=w"(result)
5204            : "w"(a)
5205            : /* No clobbers */);
5206   return result;
5207 }
5208
5209 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
5210 vclzq_s8 (int8x16_t a)
5211 {
5212   int8x16_t result;
5213   __asm__ ("clz %0.16b,%1.16b"
5214            : "=w"(result)
5215            : "w"(a)
5216            : /* No clobbers */);
5217   return result;
5218 }
5219
5220 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
5221 vclzq_s16 (int16x8_t a)
5222 {
5223   int16x8_t result;
5224   __asm__ ("clz %0.8h,%1.8h"
5225            : "=w"(result)
5226            : "w"(a)
5227            : /* No clobbers */);
5228   return result;
5229 }
5230
5231 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
5232 vclzq_s32 (int32x4_t a)
5233 {
5234   int32x4_t result;
5235   __asm__ ("clz %0.4s,%1.4s"
5236            : "=w"(result)
5237            : "w"(a)
5238            : /* No clobbers */);
5239   return result;
5240 }
5241
5242 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
5243 vclzq_u8 (uint8x16_t a)
5244 {
5245   uint8x16_t result;
5246   __asm__ ("clz %0.16b,%1.16b"
5247            : "=w"(result)
5248            : "w"(a)
5249            : /* No clobbers */);
5250   return result;
5251 }
5252
5253 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
5254 vclzq_u16 (uint16x8_t a)
5255 {
5256   uint16x8_t result;
5257   __asm__ ("clz %0.8h,%1.8h"
5258            : "=w"(result)
5259            : "w"(a)
5260            : /* No clobbers */);
5261   return result;
5262 }
5263
5264 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
5265 vclzq_u32 (uint32x4_t a)
5266 {
5267   uint32x4_t result;
5268   __asm__ ("clz %0.4s,%1.4s"
5269            : "=w"(result)
5270            : "w"(a)
5271            : /* No clobbers */);
5272   return result;
5273 }
5274
5275 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
5276 vcnt_p8 (poly8x8_t a)
5277 {
5278   poly8x8_t result;
5279   __asm__ ("cnt %0.8b,%1.8b"
5280            : "=w"(result)
5281            : "w"(a)
5282            : /* No clobbers */);
5283   return result;
5284 }
5285
5286 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
5287 vcnt_s8 (int8x8_t a)
5288 {
5289   int8x8_t result;
5290   __asm__ ("cnt %0.8b,%1.8b"
5291            : "=w"(result)
5292            : "w"(a)
5293            : /* No clobbers */);
5294   return result;
5295 }
5296
5297 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
5298 vcnt_u8 (uint8x8_t a)
5299 {
5300   uint8x8_t result;
5301   __asm__ ("cnt %0.8b,%1.8b"
5302            : "=w"(result)
5303            : "w"(a)
5304            : /* No clobbers */);
5305   return result;
5306 }
5307
5308 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
5309 vcntq_p8 (poly8x16_t a)
5310 {
5311   poly8x16_t result;
5312   __asm__ ("cnt %0.16b,%1.16b"
5313            : "=w"(result)
5314            : "w"(a)
5315            : /* No clobbers */);
5316   return result;
5317 }
5318
5319 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
5320 vcntq_s8 (int8x16_t a)
5321 {
5322   int8x16_t result;
5323   __asm__ ("cnt %0.16b,%1.16b"
5324            : "=w"(result)
5325            : "w"(a)
5326            : /* No clobbers */);
5327   return result;
5328 }
5329
5330 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
5331 vcntq_u8 (uint8x16_t a)
5332 {
5333   uint8x16_t result;
5334   __asm__ ("cnt %0.16b,%1.16b"
5335            : "=w"(result)
5336            : "w"(a)
5337            : /* No clobbers */);
5338   return result;
5339 }
5340
5341 #define vcopyq_lane_f32(a, b, c, d)                                     \
5342   __extension__                                                         \
5343     ({                                                                  \
5344        float32x4_t c_ = (c);                                            \
5345        float32x4_t a_ = (a);                                            \
5346        float32x4_t result;                                              \
5347        __asm__ ("ins %0.s[%2], %3.s[%4]"                                \
5348                 : "=w"(result)                                          \
5349                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5350                 : /* No clobbers */);                                   \
5351        result;                                                          \
5352      })
5353
5354 #define vcopyq_lane_f64(a, b, c, d)                                     \
5355   __extension__                                                         \
5356     ({                                                                  \
5357        float64x2_t c_ = (c);                                            \
5358        float64x2_t a_ = (a);                                            \
5359        float64x2_t result;                                              \
5360        __asm__ ("ins %0.d[%2], %3.d[%4]"                                \
5361                 : "=w"(result)                                          \
5362                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5363                 : /* No clobbers */);                                   \
5364        result;                                                          \
5365      })
5366
5367 #define vcopyq_lane_p8(a, b, c, d)                                      \
5368   __extension__                                                         \
5369     ({                                                                  \
5370        poly8x16_t c_ = (c);                                             \
5371        poly8x16_t a_ = (a);                                             \
5372        poly8x16_t result;                                               \
5373        __asm__ ("ins %0.b[%2], %3.b[%4]"                                \
5374                 : "=w"(result)                                          \
5375                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5376                 : /* No clobbers */);                                   \
5377        result;                                                          \
5378      })
5379
5380 #define vcopyq_lane_p16(a, b, c, d)                                     \
5381   __extension__                                                         \
5382     ({                                                                  \
5383        poly16x8_t c_ = (c);                                             \
5384        poly16x8_t a_ = (a);                                             \
5385        poly16x8_t result;                                               \
5386        __asm__ ("ins %0.h[%2], %3.h[%4]"                                \
5387                 : "=w"(result)                                          \
5388                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5389                 : /* No clobbers */);                                   \
5390        result;                                                          \
5391      })
5392
5393 #define vcopyq_lane_s8(a, b, c, d)                                      \
5394   __extension__                                                         \
5395     ({                                                                  \
5396        int8x16_t c_ = (c);                                              \
5397        int8x16_t a_ = (a);                                              \
5398        int8x16_t result;                                                \
5399        __asm__ ("ins %0.b[%2], %3.b[%4]"                                \
5400                 : "=w"(result)                                          \
5401                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5402                 : /* No clobbers */);                                   \
5403        result;                                                          \
5404      })
5405
5406 #define vcopyq_lane_s16(a, b, c, d)                                     \
5407   __extension__                                                         \
5408     ({                                                                  \
5409        int16x8_t c_ = (c);                                              \
5410        int16x8_t a_ = (a);                                              \
5411        int16x8_t result;                                                \
5412        __asm__ ("ins %0.h[%2], %3.h[%4]"                                \
5413                 : "=w"(result)                                          \
5414                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5415                 : /* No clobbers */);                                   \
5416        result;                                                          \
5417      })
5418
5419 #define vcopyq_lane_s32(a, b, c, d)                                     \
5420   __extension__                                                         \
5421     ({                                                                  \
5422        int32x4_t c_ = (c);                                              \
5423        int32x4_t a_ = (a);                                              \
5424        int32x4_t result;                                                \
5425        __asm__ ("ins %0.s[%2], %3.s[%4]"                                \
5426                 : "=w"(result)                                          \
5427                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5428                 : /* No clobbers */);                                   \
5429        result;                                                          \
5430      })
5431
5432 #define vcopyq_lane_s64(a, b, c, d)                                     \
5433   __extension__                                                         \
5434     ({                                                                  \
5435        int64x2_t c_ = (c);                                              \
5436        int64x2_t a_ = (a);                                              \
5437        int64x2_t result;                                                \
5438        __asm__ ("ins %0.d[%2], %3.d[%4]"                                \
5439                 : "=w"(result)                                          \
5440                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5441                 : /* No clobbers */);                                   \
5442        result;                                                          \
5443      })
5444
5445 #define vcopyq_lane_u8(a, b, c, d)                                      \
5446   __extension__                                                         \
5447     ({                                                                  \
5448        uint8x16_t c_ = (c);                                             \
5449        uint8x16_t a_ = (a);                                             \
5450        uint8x16_t result;                                               \
5451        __asm__ ("ins %0.b[%2], %3.b[%4]"                                \
5452                 : "=w"(result)                                          \
5453                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5454                 : /* No clobbers */);                                   \
5455        result;                                                          \
5456      })
5457
5458 #define vcopyq_lane_u16(a, b, c, d)                                     \
5459   __extension__                                                         \
5460     ({                                                                  \
5461        uint16x8_t c_ = (c);                                             \
5462        uint16x8_t a_ = (a);                                             \
5463        uint16x8_t result;                                               \
5464        __asm__ ("ins %0.h[%2], %3.h[%4]"                                \
5465                 : "=w"(result)                                          \
5466                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5467                 : /* No clobbers */);                                   \
5468        result;                                                          \
5469      })
5470
5471 #define vcopyq_lane_u32(a, b, c, d)                                     \
5472   __extension__                                                         \
5473     ({                                                                  \
5474        uint32x4_t c_ = (c);                                             \
5475        uint32x4_t a_ = (a);                                             \
5476        uint32x4_t result;                                               \
5477        __asm__ ("ins %0.s[%2], %3.s[%4]"                                \
5478                 : "=w"(result)                                          \
5479                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5480                 : /* No clobbers */);                                   \
5481        result;                                                          \
5482      })
5483
5484 #define vcopyq_lane_u64(a, b, c, d)                                     \
5485   __extension__                                                         \
5486     ({                                                                  \
5487        uint64x2_t c_ = (c);                                             \
5488        uint64x2_t a_ = (a);                                             \
5489        uint64x2_t result;                                               \
5490        __asm__ ("ins %0.d[%2], %3.d[%4]"                                \
5491                 : "=w"(result)                                          \
5492                 : "0"(a_), "i"(b), "w"(c_), "i"(d)                      \
5493                 : /* No clobbers */);                                   \
5494        result;                                                          \
5495      })
5496
5497 /* vcvt_f16_f32 not supported */
5498
5499 /* vcvt_f32_f16 not supported */
5500
5501 /* vcvt_high_f16_f32 not supported */
5502
5503 /* vcvt_high_f32_f16 not supported */
5504
5505 static float32x2_t vdup_n_f32 (float32_t);
5506
5507 #define vcvt_n_f32_s32(a, b)                                            \
5508   __extension__                                                         \
5509     ({                                                                  \
5510        int32x2_t a_ = (a);                                              \
5511        float32x2_t result;                                              \
5512        __asm__ ("scvtf %0.2s, %1.2s, #%2"                               \
5513                 : "=w"(result)                                          \
5514                 : "w"(a_), "i"(b)                                       \
5515                 : /* No clobbers */);                                   \
5516        result;                                                          \
5517      })
5518
5519 #define vcvt_n_f32_u32(a, b)                                            \
5520   __extension__                                                         \
5521     ({                                                                  \
5522        uint32x2_t a_ = (a);                                             \
5523        float32x2_t result;                                              \
5524        __asm__ ("ucvtf %0.2s, %1.2s, #%2"                               \
5525                 : "=w"(result)                                          \
5526                 : "w"(a_), "i"(b)                                       \
5527                 : /* No clobbers */);                                   \
5528        result;                                                          \
5529      })
5530
5531 #define vcvt_n_s32_f32(a, b)                                            \
5532   __extension__                                                         \
5533     ({                                                                  \
5534        float32x2_t a_ = (a);                                            \
5535        int32x2_t result;                                                \
5536        __asm__ ("fcvtzs %0.2s, %1.2s, #%2"                              \
5537                 : "=w"(result)                                          \
5538                 : "w"(a_), "i"(b)                                       \
5539                 : /* No clobbers */);                                   \
5540        result;                                                          \
5541      })
5542
5543 #define vcvt_n_u32_f32(a, b)                                            \
5544   __extension__                                                         \
5545     ({                                                                  \
5546        float32x2_t a_ = (a);                                            \
5547        uint32x2_t result;                                               \
5548        __asm__ ("fcvtzu %0.2s, %1.2s, #%2"                              \
5549                 : "=w"(result)                                          \
5550                 : "w"(a_), "i"(b)                                       \
5551                 : /* No clobbers */);                                   \
5552        result;                                                          \
5553      })
5554
5555 #define vcvtd_n_f64_s64(a, b)                                           \
5556   __extension__                                                         \
5557     ({                                                                  \
5558        int64_t a_ = (a);                                                \
5559        int64_t result;                                                  \
5560        __asm__ ("scvtf %d0,%d1,%2"                                      \
5561                 : "=w"(result)                                          \
5562                 : "w"(a_), "i"(b)                                       \
5563                 : /* No clobbers */);                                   \
5564        result;                                                          \
5565      })
5566
5567 #define vcvtd_n_f64_u64(a, b)                                           \
5568   __extension__                                                         \
5569     ({                                                                  \
5570        uint64_t a_ = (a);                                               \
5571        uint64_t result;                                                 \
5572        __asm__ ("ucvtf %d0,%d1,%2"                                      \
5573                 : "=w"(result)                                          \
5574                 : "w"(a_), "i"(b)                                       \
5575                 : /* No clobbers */);                                   \
5576        result;                                                          \
5577      })
5578
5579 #define vcvtd_n_s64_f64(a, b)                                           \
5580   __extension__                                                         \
5581     ({                                                                  \
5582        float64_t a_ = (a);                                              \
5583        float64_t result;                                                \
5584        __asm__ ("fcvtzs %d0,%d1,%2"                                     \
5585                 : "=w"(result)                                          \
5586                 : "w"(a_), "i"(b)                                       \
5587                 : /* No clobbers */);                                   \
5588        result;                                                          \
5589      })
5590
5591 #define vcvtd_n_u64_f64(a, b)                                           \
5592   __extension__                                                         \
5593     ({                                                                  \
5594        float64_t a_ = (a);                                              \
5595        float64_t result;                                                \
5596        __asm__ ("fcvtzu %d0,%d1,%2"                                     \
5597                 : "=w"(result)                                          \
5598                 : "w"(a_), "i"(b)                                       \
5599                 : /* No clobbers */);                                   \
5600        result;                                                          \
5601      })
5602
5603 #define vcvtq_n_f32_s32(a, b)                                           \
5604   __extension__                                                         \
5605     ({                                                                  \
5606        int32x4_t a_ = (a);                                              \
5607        float32x4_t result;                                              \
5608        __asm__ ("scvtf %0.4s, %1.4s, #%2"                               \
5609                 : "=w"(result)                                          \
5610                 : "w"(a_), "i"(b)                                       \
5611                 : /* No clobbers */);                                   \
5612        result;                                                          \
5613      })
5614
5615 #define vcvtq_n_f32_u32(a, b)                                           \
5616   __extension__                                                         \
5617     ({                                                                  \
5618        uint32x4_t a_ = (a);                                             \
5619        float32x4_t result;                                              \
5620        __asm__ ("ucvtf %0.4s, %1.4s, #%2"                               \
5621                 : "=w"(result)                                          \
5622                 : "w"(a_), "i"(b)                                       \
5623                 : /* No clobbers */);                                   \
5624        result;                                                          \
5625      })
5626
5627 #define vcvtq_n_f64_s64(a, b)                                           \
5628   __extension__                                                         \
5629     ({                                                                  \
5630        int64x2_t a_ = (a);                                              \
5631        float64x2_t result;                                              \
5632        __asm__ ("scvtf %0.2d, %1.2d, #%2"                               \
5633                 : "=w"(result)                                          \
5634                 : "w"(a_), "i"(b)                                       \
5635                 : /* No clobbers */);                                   \
5636        result;                                                          \
5637      })
5638
5639 #define vcvtq_n_f64_u64(a, b)                                           \
5640   __extension__                                                         \
5641     ({                                                                  \
5642        uint64x2_t a_ = (a);                                             \
5643        float64x2_t result;                                              \
5644        __asm__ ("ucvtf %0.2d, %1.2d, #%2"                               \
5645                 : "=w"(result)                                          \
5646                 : "w"(a_), "i"(b)                                       \
5647                 : /* No clobbers */);                                   \
5648        result;                                                          \
5649      })
5650
5651 #define vcvtq_n_s32_f32(a, b)                                           \
5652   __extension__                                                         \
5653     ({                                                                  \
5654        float32x4_t a_ = (a);                                            \
5655        int32x4_t result;                                                \
5656        __asm__ ("fcvtzs %0.4s, %1.4s, #%2"                              \
5657                 : "=w"(result)                                          \
5658                 : "w"(a_), "i"(b)                                       \
5659                 : /* No clobbers */);                                   \
5660        result;                                                          \
5661      })
5662
5663 #define vcvtq_n_s64_f64(a, b)                                           \
5664   __extension__                                                         \
5665     ({                                                                  \
5666        float64x2_t a_ = (a);                                            \
5667        int64x2_t result;                                                \
5668        __asm__ ("fcvtzs %0.2d, %1.2d, #%2"                              \
5669                 : "=w"(result)                                          \
5670                 : "w"(a_), "i"(b)                                       \
5671                 : /* No clobbers */);                                   \
5672        result;                                                          \
5673      })
5674
5675 #define vcvtq_n_u32_f32(a, b)                                           \
5676   __extension__                                                         \
5677     ({                                                                  \
5678        float32x4_t a_ = (a);                                            \
5679        uint32x4_t result;                                               \
5680        __asm__ ("fcvtzu %0.4s, %1.4s, #%2"                              \
5681                 : "=w"(result)                                          \
5682                 : "w"(a_), "i"(b)                                       \
5683                 : /* No clobbers */);                                   \
5684        result;                                                          \
5685      })
5686
5687 #define vcvtq_n_u64_f64(a, b)                                           \
5688   __extension__                                                         \
5689     ({                                                                  \
5690        float64x2_t a_ = (a);                                            \
5691        uint64x2_t result;                                               \
5692        __asm__ ("fcvtzu %0.2d, %1.2d, #%2"                              \
5693                 : "=w"(result)                                          \
5694                 : "w"(a_), "i"(b)                                       \
5695                 : /* No clobbers */);                                   \
5696        result;                                                          \
5697      })
5698
5699 #define vcvts_n_f32_s32(a, b)                                           \
5700   __extension__                                                         \
5701     ({                                                                  \
5702        int32_t a_ = (a);                                                \
5703        int32_t result;                                                  \
5704        __asm__ ("scvtf %s0,%s1,%2"                                      \
5705                 : "=w"(result)                                          \
5706                 : "w"(a_), "i"(b)                                       \
5707                 : /* No clobbers */);                                   \
5708        result;                                                          \
5709      })
5710
5711 #define vcvts_n_f32_u32(a, b)                                           \
5712   __extension__                                                         \
5713     ({                                                                  \
5714        uint32_t a_ = (a);                                               \
5715        uint32_t result;                                                 \
5716        __asm__ ("ucvtf %s0,%s1,%2"                                      \
5717                 : "=w"(result)                                          \
5718                 : "w"(a_), "i"(b)                                       \
5719                 : /* No clobbers */);                                   \
5720        result;                                                          \
5721      })
5722
5723 #define vcvts_n_s32_f32(a, b)                                           \
5724   __extension__                                                         \
5725     ({                                                                  \
5726        float32_t a_ = (a);                                              \
5727        float32_t result;                                                \
5728        __asm__ ("fcvtzs %s0,%s1,%2"                                     \
5729                 : "=w"(result)                                          \
5730                 : "w"(a_), "i"(b)                                       \
5731                 : /* No clobbers */);                                   \
5732        result;                                                          \
5733      })
5734
5735 #define vcvts_n_u32_f32(a, b)                                           \
5736   __extension__                                                         \
5737     ({                                                                  \
5738        float32_t a_ = (a);                                              \
5739        float32_t result;                                                \
5740        __asm__ ("fcvtzu %s0,%s1,%2"                                     \
5741                 : "=w"(result)                                          \
5742                 : "w"(a_), "i"(b)                                       \
5743                 : /* No clobbers */);                                   \
5744        result;                                                          \
5745      })
5746
5747 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
5748 vcvtx_f32_f64 (float64x2_t a)
5749 {
5750   float32x2_t result;
5751   __asm__ ("fcvtxn %0.2s,%1.2d"
5752            : "=w"(result)
5753            : "w"(a)
5754            : /* No clobbers */);
5755   return result;
5756 }
5757
5758 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
5759 vcvtx_high_f32_f64 (float32x2_t a, float64x2_t b)
5760 {
5761   float32x4_t result;
5762   __asm__ ("fcvtxn2 %0.4s,%1.2d"
5763            : "=w"(result)
5764            : "w" (b), "0"(a)
5765            : /* No clobbers */);
5766   return result;
5767 }
5768
5769 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
5770 vcvtxd_f32_f64 (float64_t a)
5771 {
5772   float32_t result;
5773   __asm__ ("fcvtxn %s0,%d1"
5774            : "=w"(result)
5775            : "w"(a)
5776            : /* No clobbers */);
5777   return result;
5778 }
5779
5780 #define vext_f32(a, b, c)                                               \
5781   __extension__                                                         \
5782     ({                                                                  \
5783        float32x2_t b_ = (b);                                            \
5784        float32x2_t a_ = (a);                                            \
5785        float32x2_t result;                                              \
5786        __asm__ ("ext %0.8b, %1.8b, %2.8b, #%3*4"                        \
5787                 : "=w"(result)                                          \
5788                 : "w"(a_), "w"(b_), "i"(c)                              \
5789                 : /* No clobbers */);                                   \
5790        result;                                                          \
5791      })
5792
5793 #define vext_f64(a, b, c)                                               \
5794   __extension__                                                         \
5795     ({                                                                  \
5796        float64x1_t b_ = (b);                                            \
5797        float64x1_t a_ = (a);                                            \
5798        float64x1_t result;                                              \
5799        __asm__ ("ext %0.8b, %1.8b, %2.8b, #%3*8"                        \
5800                 : "=w"(result)                                          \
5801                 : "w"(a_), "w"(b_), "i"(c)                              \
5802                 : /* No clobbers */);                                   \
5803        result;                                                          \
5804      })
5805
5806 #define vext_p8(a, b, c)                                                \
5807   __extension__                                                         \
5808     ({                                                                  \
5809        poly8x8_t b_ = (b);                                              \
5810        poly8x8_t a_ = (a);                                              \
5811        poly8x8_t result;                                                \
5812        __asm__ ("ext %0.8b,%1.8b,%2.8b,%3"                              \
5813                 : "=w"(result)                                          \
5814                 : "w"(a_), "w"(b_), "i"(c)                              \
5815                 : /* No clobbers */);                                   \
5816        result;                                                          \
5817      })
5818
5819 #define vext_p16(a, b, c)                                               \
5820   __extension__                                                         \
5821     ({                                                                  \
5822        poly16x4_t b_ = (b);                                             \
5823        poly16x4_t a_ = (a);                                             \
5824        poly16x4_t result;                                               \
5825        __asm__ ("ext %0.8b, %1.8b, %2.8b, #%3*2"                        \
5826                 : "=w"(result)                                          \
5827                 : "w"(a_), "w"(b_), "i"(c)                              \
5828                 : /* No clobbers */);                                   \
5829        result;                                                          \
5830      })
5831
5832 #define vext_s8(a, b, c)                                                \
5833   __extension__                                                         \
5834     ({                                                                  \
5835        int8x8_t b_ = (b);                                               \
5836        int8x8_t a_ = (a);                                               \
5837        int8x8_t result;                                                 \
5838        __asm__ ("ext %0.8b,%1.8b,%2.8b,%3"                              \
5839                 : "=w"(result)                                          \
5840                 : "w"(a_), "w"(b_), "i"(c)                              \
5841                 : /* No clobbers */);                                   \
5842        result;                                                          \
5843      })
5844
5845 #define vext_s16(a, b, c)                                               \
5846   __extension__                                                         \
5847     ({                                                                  \
5848        int16x4_t b_ = (b);                                              \
5849        int16x4_t a_ = (a);                                              \
5850        int16x4_t result;                                                \
5851        __asm__ ("ext %0.8b, %1.8b, %2.8b, #%3*2"                        \
5852                 : "=w"(result)                                          \
5853                 : "w"(a_), "w"(b_), "i"(c)                              \
5854                 : /* No clobbers */);                                   \
5855        result;                                                          \
5856      })
5857
5858 #define vext_s32(a, b, c)                                               \
5859   __extension__                                                         \
5860     ({                                                                  \
5861        int32x2_t b_ = (b);                                              \
5862        int32x2_t a_ = (a);                                              \
5863        int32x2_t result;                                                \
5864        __asm__ ("ext %0.8b, %1.8b, %2.8b, #%3*4"                        \
5865                 : "=w"(result)                                          \
5866                 : "w"(a_), "w"(b_), "i"(c)                              \
5867                 : /* No clobbers */);                                   \
5868        result;                                                          \
5869      })
5870
5871 #define vext_s64(a, b, c)                                               \
5872   __extension__                                                         \
5873     ({                                                                  \
5874        int64x1_t b_ = (b);                                              \
5875        int64x1_t a_ = (a);                                              \
5876        int64x1_t result;                                                \
5877        __asm__ ("ext %0.8b, %1.8b, %2.8b, #%3*8"                        \
5878                 : "=w"(result)                                          \
5879                 : "w"(a_), "w"(b_), "i"(c)                              \
5880                 : /* No clobbers */);                                   \
5881        result;                                                          \
5882      })
5883
5884 #define vext_u8(a, b, c)                                                \
5885   __extension__                                                         \
5886     ({                                                                  \
5887        uint8x8_t b_ = (b);                                              \
5888        uint8x8_t a_ = (a);                                              \
5889        uint8x8_t result;                                                \
5890        __asm__ ("ext %0.8b,%1.8b,%2.8b,%3"                              \
5891                 : "=w"(result)                                          \
5892                 : "w"(a_), "w"(b_), "i"(c)                              \
5893                 : /* No clobbers */);                                   \
5894        result;                                                          \
5895      })
5896
5897 #define vext_u16(a, b, c)                                               \
5898   __extension__                                                         \
5899     ({                                                                  \
5900        uint16x4_t b_ = (b);                                             \
5901        uint16x4_t a_ = (a);                                             \
5902        uint16x4_t result;                                               \
5903        __asm__ ("ext %0.8b, %1.8b, %2.8b, #%3*2"                        \
5904                 : "=w"(result)                                          \
5905                 : "w"(a_), "w"(b_), "i"(c)                              \
5906                 : /* No clobbers */);                                   \
5907        result;                                                          \
5908      })
5909
5910 #define vext_u32(a, b, c)                                               \
5911   __extension__                                                         \
5912     ({                                                                  \
5913        uint32x2_t b_ = (b);                                             \
5914        uint32x2_t a_ = (a);                                             \
5915        uint32x2_t result;                                               \
5916        __asm__ ("ext %0.8b, %1.8b, %2.8b, #%3*4"                        \
5917                 : "=w"(result)                                          \
5918                 : "w"(a_), "w"(b_), "i"(c)                              \
5919                 : /* No clobbers */);                                   \
5920        result;                                                          \
5921      })
5922
5923 #define vext_u64(a, b, c)                                               \
5924   __extension__                                                         \
5925     ({                                                                  \
5926        uint64x1_t b_ = (b);                                             \
5927        uint64x1_t a_ = (a);                                             \
5928        uint64x1_t result;                                               \
5929        __asm__ ("ext %0.8b, %1.8b, %2.8b, #%3*8"                        \
5930                 : "=w"(result)                                          \
5931                 : "w"(a_), "w"(b_), "i"(c)                              \
5932                 : /* No clobbers */);                                   \
5933        result;                                                          \
5934      })
5935
5936 #define vextq_f32(a, b, c)                                              \
5937   __extension__                                                         \
5938     ({                                                                  \
5939        float32x4_t b_ = (b);                                            \
5940        float32x4_t a_ = (a);                                            \
5941        float32x4_t result;                                              \
5942        __asm__ ("ext %0.16b, %1.16b, %2.16b, #%3*4"                     \
5943                 : "=w"(result)                                          \
5944                 : "w"(a_), "w"(b_), "i"(c)                              \
5945                 : /* No clobbers */);                                   \
5946        result;                                                          \
5947      })
5948
5949 #define vextq_f64(a, b, c)                                              \
5950   __extension__                                                         \
5951     ({                                                                  \
5952        float64x2_t b_ = (b);                                            \
5953        float64x2_t a_ = (a);                                            \
5954        float64x2_t result;                                              \
5955        __asm__ ("ext %0.16b, %1.16b, %2.16b, #%3*8"                     \
5956                 : "=w"(result)                                          \
5957                 : "w"(a_), "w"(b_), "i"(c)                              \
5958                 : /* No clobbers */);                                   \
5959        result;                                                          \
5960      })
5961
5962 #define vextq_p8(a, b, c)                                               \
5963   __extension__                                                         \
5964     ({                                                                  \
5965        poly8x16_t b_ = (b);                                             \
5966        poly8x16_t a_ = (a);                                             \
5967        poly8x16_t result;                                               \
5968        __asm__ ("ext %0.16b, %1.16b, %2.16b, #%3"                       \
5969                 : "=w"(result)                                          \
5970                 : "w"(a_), "w"(b_), "i"(c)                              \
5971                 : /* No clobbers */);                                   \
5972        result;                                                          \
5973      })
5974
5975 #define vextq_p16(a, b, c)                                              \
5976   __extension__                                                         \
5977     ({                                                                  \
5978        poly16x8_t b_ = (b);                                             \
5979        poly16x8_t a_ = (a);                                             \
5980        poly16x8_t result;                                               \
5981        __asm__ ("ext %0.16b, %1.16b, %2.16b, #%3*2"                     \
5982                 : "=w"(result)                                          \
5983                 : "w"(a_), "w"(b_), "i"(c)                              \
5984                 : /* No clobbers */);                                   \
5985        result;                                                          \
5986      })
5987
5988 #define vextq_s8(a, b, c)                                               \
5989   __extension__                                                         \
5990     ({                                                                  \
5991        int8x16_t b_ = (b);                                              \
5992        int8x16_t a_ = (a);                                              \
5993        int8x16_t result;                                                \
5994        __asm__ ("ext %0.16b, %1.16b, %2.16b, #%3"                       \
5995                 : "=w"(result)                                          \
5996                 : "w"(a_), "w"(b_), "i"(c)                              \
5997                 : /* No clobbers */);                                   \
5998        result;                                                          \
5999      })
6000
6001 #define vextq_s16(a, b, c)                                              \
6002   __extension__                                                         \
6003     ({                                                                  \
6004        int16x8_t b_ = (b);                                              \
6005        int16x8_t a_ = (a);                                              \
6006        int16x8_t result;                                                \
6007        __asm__ ("ext %0.16b, %1.16b, %2.16b, #%3*2"                     \
6008                 : "=w"(result)                                          \
6009                 : "w"(a_), "w"(b_), "i"(c)                              \
6010                 : /* No clobbers */);                                   \
6011        result;                                                          \
6012      })
6013
6014 #define vextq_s32(a, b, c)                                              \
6015   __extension__                                                         \
6016     ({                                                                  \
6017        int32x4_t b_ = (b);                                              \
6018        int32x4_t a_ = (a);                                              \
6019        int32x4_t result;                                                \
6020        __asm__ ("ext %0.16b, %1.16b, %2.16b, #%3*4"                     \
6021                 : "=w"(result)                                          \
6022                 : "w"(a_), "w"(b_), "i"(c)                              \
6023                 : /* No clobbers */);                                   \
6024        result;                                                          \
6025      })
6026
6027 #define vextq_s64(a, b, c)                                              \
6028   __extension__                                                         \
6029     ({                                                                  \
6030        int64x2_t b_ = (b);                                              \
6031        int64x2_t a_ = (a);                                              \
6032        int64x2_t result;                                                \
6033        __asm__ ("ext %0.16b, %1.16b, %2.16b, #%3*8"                     \
6034                 : "=w"(result)                                          \
6035                 : "w"(a_), "w"(b_), "i"(c)                              \
6036                 : /* No clobbers */);                                   \
6037        result;                                                          \
6038      })
6039
6040 #define vextq_u8(a, b, c)                                               \
6041   __extension__                                                         \
6042     ({                                                                  \
6043        uint8x16_t b_ = (b);                                             \
6044        uint8x16_t a_ = (a);                                             \
6045        uint8x16_t result;                                               \
6046        __asm__ ("ext %0.16b, %1.16b, %2.16b, #%3"                       \
6047                 : "=w"(result)                                          \
6048                 : "w"(a_), "w"(b_), "i"(c)                              \
6049                 : /* No clobbers */);                                   \
6050        result;                                                          \
6051      })
6052
6053 #define vextq_u16(a, b, c)                                              \
6054   __extension__                                                         \
6055     ({                                                                  \
6056        uint16x8_t b_ = (b);                                             \
6057        uint16x8_t a_ = (a);                                             \
6058        uint16x8_t result;                                               \
6059        __asm__ ("ext %0.16b, %1.16b, %2.16b, #%3*2"                     \
6060                 : "=w"(result)                                          \
6061                 : "w"(a_), "w"(b_), "i"(c)                              \
6062                 : /* No clobbers */);                                   \
6063        result;                                                          \
6064      })
6065
6066 #define vextq_u32(a, b, c)                                              \
6067   __extension__                                                         \
6068     ({                                                                  \
6069        uint32x4_t b_ = (b);                                             \
6070        uint32x4_t a_ = (a);                                             \
6071        uint32x4_t result;                                               \
6072        __asm__ ("ext %0.16b, %1.16b, %2.16b, #%3*4"                     \
6073                 : "=w"(result)                                          \
6074                 : "w"(a_), "w"(b_), "i"(c)                              \
6075                 : /* No clobbers */);                                   \
6076        result;                                                          \
6077      })
6078
6079 #define vextq_u64(a, b, c)                                              \
6080   __extension__                                                         \
6081     ({                                                                  \
6082        uint64x2_t b_ = (b);                                             \
6083        uint64x2_t a_ = (a);                                             \
6084        uint64x2_t result;                                               \
6085        __asm__ ("ext %0.16b, %1.16b, %2.16b, #%3*8"                     \
6086                 : "=w"(result)                                          \
6087                 : "w"(a_), "w"(b_), "i"(c)                              \
6088                 : /* No clobbers */);                                   \
6089        result;                                                          \
6090      })
6091
6092 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
6093 vfma_f32 (float32x2_t a, float32x2_t b, float32x2_t c)
6094 {
6095   float32x2_t result;
6096   __asm__ ("fmla %0.2s,%2.2s,%3.2s"
6097            : "=w"(result)
6098            : "0"(a), "w"(b), "w"(c)
6099            : /* No clobbers */);
6100   return result;
6101 }
6102
6103 #define vfma_lane_f32(a, b, c, d)                                       \
6104   __extension__                                                         \
6105     ({                                                                  \
6106        float32x2_t c_ = (c);                                            \
6107        float32x2_t b_ = (b);                                            \
6108        float32x2_t a_ = (a);                                            \
6109        float32x2_t result;                                              \
6110        __asm__ ("fmla %0.2s,%2.2s,%3.s[%4]"                             \
6111                 : "=w"(result)                                          \
6112                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6113                 : /* No clobbers */);                                   \
6114        result;                                                          \
6115      })
6116
6117 #define vfmad_lane_f64(a, b, c)                                         \
6118   __extension__                                                         \
6119     ({                                                                  \
6120        float64x2_t b_ = (b);                                            \
6121        float64_t a_ = (a);                                              \
6122        float64_t result;                                                \
6123        __asm__ ("fmla %d0,%d1,%2.d[%3]"                                 \
6124                 : "=w"(result)                                          \
6125                 : "w"(a_), "w"(b_), "i"(c)                              \
6126                 : /* No clobbers */);                                   \
6127        result;                                                          \
6128      })
6129
6130 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
6131 vfmaq_f32 (float32x4_t a, float32x4_t b, float32x4_t c)
6132 {
6133   float32x4_t result;
6134   __asm__ ("fmla %0.4s,%2.4s,%3.4s"
6135            : "=w"(result)
6136            : "0"(a), "w"(b), "w"(c)
6137            : /* No clobbers */);
6138   return result;
6139 }
6140
6141 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
6142 vfmaq_f64 (float64x2_t a, float64x2_t b, float64x2_t c)
6143 {
6144   float64x2_t result;
6145   __asm__ ("fmla %0.2d,%2.2d,%3.2d"
6146            : "=w"(result)
6147            : "0"(a), "w"(b), "w"(c)
6148            : /* No clobbers */);
6149   return result;
6150 }
6151
6152 #define vfmaq_lane_f32(a, b, c, d)                                      \
6153   __extension__                                                         \
6154     ({                                                                  \
6155        float32x4_t c_ = (c);                                            \
6156        float32x4_t b_ = (b);                                            \
6157        float32x4_t a_ = (a);                                            \
6158        float32x4_t result;                                              \
6159        __asm__ ("fmla %0.4s,%2.4s,%3.s[%4]"                             \
6160                 : "=w"(result)                                          \
6161                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6162                 : /* No clobbers */);                                   \
6163        result;                                                          \
6164      })
6165
6166 #define vfmaq_lane_f64(a, b, c, d)                                      \
6167   __extension__                                                         \
6168     ({                                                                  \
6169        float64x2_t c_ = (c);                                            \
6170        float64x2_t b_ = (b);                                            \
6171        float64x2_t a_ = (a);                                            \
6172        float64x2_t result;                                              \
6173        __asm__ ("fmla %0.2d,%2.2d,%3.d[%4]"                             \
6174                 : "=w"(result)                                          \
6175                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
6176                 : /* No clobbers */);                                   \
6177        result;                                                          \
6178      })
6179
6180 #define vfmas_lane_f32(a, b, c)                                         \
6181   __extension__                                                         \
6182     ({                                                                  \
6183        float32x4_t b_ = (b);                                            \
6184        float32_t a_ = (a);                                              \
6185        float32_t result;                                                \
6186        __asm__ ("fmla %s0,%s1,%2.s[%3]"                                 \
6187                 : "=w"(result)                                          \
6188                 : "w"(a_), "w"(b_), "i"(c)                              \
6189                 : /* No clobbers */);                                   \
6190        result;                                                          \
6191      })
6192
6193 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
6194 vfma_n_f32 (float32x2_t a, float32x2_t b, float32_t c)
6195 {
6196   float32x2_t result;
6197   __asm__ ("fmla %0.2s, %2.2s, %3.s[0]"
6198            : "=w"(result)
6199            : "0"(a), "w"(b), "w"(c)
6200            : /* No clobbers */);
6201   return result;
6202 }
6203
6204 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
6205 vfmaq_n_f32 (float32x4_t a, float32x4_t b, float32_t c)
6206 {
6207   float32x4_t result;
6208   __asm__ ("fmla %0.4s, %2.4s, %3.s[0]"
6209            : "=w"(result)
6210            : "0"(a), "w"(b), "w"(c)
6211            : /* No clobbers */);
6212   return result;
6213 }
6214
6215 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
6216 vfmaq_n_f64 (float64x2_t a, float64x2_t b, float64_t c)
6217 {
6218   float64x2_t result;
6219   __asm__ ("fmla %0.2d, %2.2d, %3.d[0]"
6220            : "=w"(result)
6221            : "0"(a), "w"(b), "w"(c)
6222            : /* No clobbers */);
6223   return result;
6224 }
6225
6226 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
6227 vfms_f32 (float32x2_t a, float32x2_t b, float32x2_t c)
6228 {
6229   float32x2_t result;
6230   __asm__ ("fmls %0.2s,%2.2s,%3.2s"
6231            : "=w"(result)
6232            : "0"(a), "w"(b), "w"(c)
6233            : /* No clobbers */);
6234   return result;
6235 }
6236
6237 #define vfmsd_lane_f64(a, b, c)                                         \
6238   __extension__                                                         \
6239     ({                                                                  \
6240        float64x2_t b_ = (b);                                            \
6241        float64_t a_ = (a);                                              \
6242        float64_t result;                                                \
6243        __asm__ ("fmls %d0,%d1,%2.d[%3]"                                 \
6244                 : "=w"(result)                                          \
6245                 : "w"(a_), "w"(b_), "i"(c)                              \
6246                 : /* No clobbers */);                                   \
6247        result;                                                          \
6248      })
6249
6250 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
6251 vfmsq_f32 (float32x4_t a, float32x4_t b, float32x4_t c)
6252 {
6253   float32x4_t result;
6254   __asm__ ("fmls %0.4s,%2.4s,%3.4s"
6255            : "=w"(result)
6256            : "0"(a), "w"(b), "w"(c)
6257            : /* No clobbers */);
6258   return result;
6259 }
6260
6261 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
6262 vfmsq_f64 (float64x2_t a, float64x2_t b, float64x2_t c)
6263 {
6264   float64x2_t result;
6265   __asm__ ("fmls %0.2d,%2.2d,%3.2d"
6266            : "=w"(result)
6267            : "0"(a), "w"(b), "w"(c)
6268            : /* No clobbers */);
6269   return result;
6270 }
6271
6272 #define vfmss_lane_f32(a, b, c)                                         \
6273   __extension__                                                         \
6274     ({                                                                  \
6275        float32x4_t b_ = (b);                                            \
6276        float32_t a_ = (a);                                              \
6277        float32_t result;                                                \
6278        __asm__ ("fmls %s0,%s1,%2.s[%3]"                                 \
6279                 : "=w"(result)                                          \
6280                 : "w"(a_), "w"(b_), "i"(c)                              \
6281                 : /* No clobbers */);                                   \
6282        result;                                                          \
6283      })
6284
6285 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
6286 vget_high_f32 (float32x4_t a)
6287 {
6288   float32x2_t result;
6289   __asm__ ("ins %0.d[0], %1.d[1]"
6290            : "=w"(result)
6291            : "w"(a)
6292            : /* No clobbers */);
6293   return result;
6294 }
6295
6296 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
6297 vget_high_f64 (float64x2_t a)
6298 {
6299   float64x1_t result;
6300   __asm__ ("ins %0.d[0], %1.d[1]"
6301            : "=w"(result)
6302            : "w"(a)
6303            : /* No clobbers */);
6304   return result;
6305 }
6306
6307 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
6308 vget_high_p8 (poly8x16_t a)
6309 {
6310   poly8x8_t result;
6311   __asm__ ("ins %0.d[0], %1.d[1]"
6312            : "=w"(result)
6313            : "w"(a)
6314            : /* No clobbers */);
6315   return result;
6316 }
6317
6318 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
6319 vget_high_p16 (poly16x8_t a)
6320 {
6321   poly16x4_t result;
6322   __asm__ ("ins %0.d[0], %1.d[1]"
6323            : "=w"(result)
6324            : "w"(a)
6325            : /* No clobbers */);
6326   return result;
6327 }
6328
6329 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
6330 vget_high_s8 (int8x16_t a)
6331 {
6332   int8x8_t result;
6333   __asm__ ("ins %0.d[0], %1.d[1]"
6334            : "=w"(result)
6335            : "w"(a)
6336            : /* No clobbers */);
6337   return result;
6338 }
6339
6340 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
6341 vget_high_s16 (int16x8_t a)
6342 {
6343   int16x4_t result;
6344   __asm__ ("ins %0.d[0], %1.d[1]"
6345            : "=w"(result)
6346            : "w"(a)
6347            : /* No clobbers */);
6348   return result;
6349 }
6350
6351 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
6352 vget_high_s32 (int32x4_t a)
6353 {
6354   int32x2_t result;
6355   __asm__ ("ins %0.d[0], %1.d[1]"
6356            : "=w"(result)
6357            : "w"(a)
6358            : /* No clobbers */);
6359   return result;
6360 }
6361
6362 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
6363 vget_high_s64 (int64x2_t a)
6364 {
6365   int64x1_t result;
6366   __asm__ ("ins %0.d[0], %1.d[1]"
6367            : "=w"(result)
6368            : "w"(a)
6369            : /* No clobbers */);
6370   return result;
6371 }
6372
6373 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
6374 vget_high_u8 (uint8x16_t a)
6375 {
6376   uint8x8_t result;
6377   __asm__ ("ins %0.d[0], %1.d[1]"
6378            : "=w"(result)
6379            : "w"(a)
6380            : /* No clobbers */);
6381   return result;
6382 }
6383
6384 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
6385 vget_high_u16 (uint16x8_t a)
6386 {
6387   uint16x4_t result;
6388   __asm__ ("ins %0.d[0], %1.d[1]"
6389            : "=w"(result)
6390            : "w"(a)
6391            : /* No clobbers */);
6392   return result;
6393 }
6394
6395 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
6396 vget_high_u32 (uint32x4_t a)
6397 {
6398   uint32x2_t result;
6399   __asm__ ("ins %0.d[0], %1.d[1]"
6400            : "=w"(result)
6401            : "w"(a)
6402            : /* No clobbers */);
6403   return result;
6404 }
6405
6406 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
6407 vget_high_u64 (uint64x2_t a)
6408 {
6409   uint64x1_t result;
6410   __asm__ ("ins %0.d[0], %1.d[1]"
6411            : "=w"(result)
6412            : "w"(a)
6413            : /* No clobbers */);
6414   return result;
6415 }
6416
6417 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
6418 vhsub_s8 (int8x8_t a, int8x8_t b)
6419 {
6420   int8x8_t result;
6421   __asm__ ("shsub %0.8b, %1.8b, %2.8b"
6422            : "=w"(result)
6423            : "w"(a), "w"(b)
6424            : /* No clobbers */);
6425   return result;
6426 }
6427
6428 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
6429 vhsub_s16 (int16x4_t a, int16x4_t b)
6430 {
6431   int16x4_t result;
6432   __asm__ ("shsub %0.4h, %1.4h, %2.4h"
6433            : "=w"(result)
6434            : "w"(a), "w"(b)
6435            : /* No clobbers */);
6436   return result;
6437 }
6438
6439 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
6440 vhsub_s32 (int32x2_t a, int32x2_t b)
6441 {
6442   int32x2_t result;
6443   __asm__ ("shsub %0.2s, %1.2s, %2.2s"
6444            : "=w"(result)
6445            : "w"(a), "w"(b)
6446            : /* No clobbers */);
6447   return result;
6448 }
6449
6450 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
6451 vhsub_u8 (uint8x8_t a, uint8x8_t b)
6452 {
6453   uint8x8_t result;
6454   __asm__ ("uhsub %0.8b, %1.8b, %2.8b"
6455            : "=w"(result)
6456            : "w"(a), "w"(b)
6457            : /* No clobbers */);
6458   return result;
6459 }
6460
6461 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
6462 vhsub_u16 (uint16x4_t a, uint16x4_t b)
6463 {
6464   uint16x4_t result;
6465   __asm__ ("uhsub %0.4h, %1.4h, %2.4h"
6466            : "=w"(result)
6467            : "w"(a), "w"(b)
6468            : /* No clobbers */);
6469   return result;
6470 }
6471
6472 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
6473 vhsub_u32 (uint32x2_t a, uint32x2_t b)
6474 {
6475   uint32x2_t result;
6476   __asm__ ("uhsub %0.2s, %1.2s, %2.2s"
6477            : "=w"(result)
6478            : "w"(a), "w"(b)
6479            : /* No clobbers */);
6480   return result;
6481 }
6482
6483 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
6484 vhsubq_s8 (int8x16_t a, int8x16_t b)
6485 {
6486   int8x16_t result;
6487   __asm__ ("shsub %0.16b, %1.16b, %2.16b"
6488            : "=w"(result)
6489            : "w"(a), "w"(b)
6490            : /* No clobbers */);
6491   return result;
6492 }
6493
6494 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
6495 vhsubq_s16 (int16x8_t a, int16x8_t b)
6496 {
6497   int16x8_t result;
6498   __asm__ ("shsub %0.8h, %1.8h, %2.8h"
6499            : "=w"(result)
6500            : "w"(a), "w"(b)
6501            : /* No clobbers */);
6502   return result;
6503 }
6504
6505 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
6506 vhsubq_s32 (int32x4_t a, int32x4_t b)
6507 {
6508   int32x4_t result;
6509   __asm__ ("shsub %0.4s, %1.4s, %2.4s"
6510            : "=w"(result)
6511            : "w"(a), "w"(b)
6512            : /* No clobbers */);
6513   return result;
6514 }
6515
6516 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
6517 vhsubq_u8 (uint8x16_t a, uint8x16_t b)
6518 {
6519   uint8x16_t result;
6520   __asm__ ("uhsub %0.16b, %1.16b, %2.16b"
6521            : "=w"(result)
6522            : "w"(a), "w"(b)
6523            : /* No clobbers */);
6524   return result;
6525 }
6526
6527 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
6528 vhsubq_u16 (uint16x8_t a, uint16x8_t b)
6529 {
6530   uint16x8_t result;
6531   __asm__ ("uhsub %0.8h, %1.8h, %2.8h"
6532            : "=w"(result)
6533            : "w"(a), "w"(b)
6534            : /* No clobbers */);
6535   return result;
6536 }
6537
6538 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
6539 vhsubq_u32 (uint32x4_t a, uint32x4_t b)
6540 {
6541   uint32x4_t result;
6542   __asm__ ("uhsub %0.4s, %1.4s, %2.4s"
6543            : "=w"(result)
6544            : "w"(a), "w"(b)
6545            : /* No clobbers */);
6546   return result;
6547 }
6548
6549 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
6550 vld1_dup_f32 (const float32_t * a)
6551 {
6552   float32x2_t result;
6553   __asm__ ("ld1r {%0.2s}, %1"
6554            : "=w"(result)
6555            : "Utv"(*a)
6556            : /* No clobbers */);
6557   return result;
6558 }
6559
6560 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
6561 vld1_dup_f64 (const float64_t * a)
6562 {
6563   float64x1_t result;
6564   __asm__ ("ld1r {%0.1d}, %1"
6565            : "=w"(result)
6566            : "Utv"(*a)
6567            : /* No clobbers */);
6568   return result;
6569 }
6570
6571 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
6572 vld1_dup_p8 (const poly8_t * a)
6573 {
6574   poly8x8_t result;
6575   __asm__ ("ld1r {%0.8b}, %1"
6576            : "=w"(result)
6577            : "Utv"(*a)
6578            : /* No clobbers */);
6579   return result;
6580 }
6581
6582 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
6583 vld1_dup_p16 (const poly16_t * a)
6584 {
6585   poly16x4_t result;
6586   __asm__ ("ld1r {%0.4h}, %1"
6587            : "=w"(result)
6588            : "Utv"(*a)
6589            : /* No clobbers */);
6590   return result;
6591 }
6592
6593 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
6594 vld1_dup_s8 (const int8_t * a)
6595 {
6596   int8x8_t result;
6597   __asm__ ("ld1r {%0.8b}, %1"
6598            : "=w"(result)
6599            : "Utv"(*a)
6600            : /* No clobbers */);
6601   return result;
6602 }
6603
6604 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
6605 vld1_dup_s16 (const int16_t * a)
6606 {
6607   int16x4_t result;
6608   __asm__ ("ld1r {%0.4h}, %1"
6609            : "=w"(result)
6610            : "Utv"(*a)
6611            : /* No clobbers */);
6612   return result;
6613 }
6614
6615 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
6616 vld1_dup_s32 (const int32_t * a)
6617 {
6618   int32x2_t result;
6619   __asm__ ("ld1r {%0.2s}, %1"
6620            : "=w"(result)
6621            : "Utv"(*a)
6622            : /* No clobbers */);
6623   return result;
6624 }
6625
6626 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
6627 vld1_dup_s64 (const int64_t * a)
6628 {
6629   int64x1_t result;
6630   __asm__ ("ld1r {%0.1d}, %1"
6631            : "=w"(result)
6632            : "Utv"(*a)
6633            : /* No clobbers */);
6634   return result;
6635 }
6636
6637 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
6638 vld1_dup_u8 (const uint8_t * a)
6639 {
6640   uint8x8_t result;
6641   __asm__ ("ld1r {%0.8b}, %1"
6642            : "=w"(result)
6643            : "Utv"(*a)
6644            : /* No clobbers */);
6645   return result;
6646 }
6647
6648 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
6649 vld1_dup_u16 (const uint16_t * a)
6650 {
6651   uint16x4_t result;
6652   __asm__ ("ld1r {%0.4h}, %1"
6653            : "=w"(result)
6654            : "Utv"(*a)
6655            : /* No clobbers */);
6656   return result;
6657 }
6658
6659 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
6660 vld1_dup_u32 (const uint32_t * a)
6661 {
6662   uint32x2_t result;
6663   __asm__ ("ld1r {%0.2s}, %1"
6664            : "=w"(result)
6665            : "Utv"(*a)
6666            : /* No clobbers */);
6667   return result;
6668 }
6669
6670 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
6671 vld1_dup_u64 (const uint64_t * a)
6672 {
6673   uint64x1_t result;
6674   __asm__ ("ld1r {%0.1d}, %1"
6675            : "=w"(result)
6676            : "Utv"(*a)
6677            : /* No clobbers */);
6678   return result;
6679 }
6680
6681 #define vld1_lane_f32(a, b, c)                                          \
6682   __extension__                                                         \
6683     ({                                                                  \
6684        float32x2_t b_ = (b);                                            \
6685        const float32_t * a_ = (a);                                      \
6686        float32x2_t result;                                              \
6687        __asm__ ("ld1 {%0.s}[%1], %2"                                    \
6688                 : "=w"(result)                                          \
6689                 : "i" (c), "Utv"(*a_), "0"(b_)                          \
6690                 : /* No clobbers */);                                   \
6691        result;                                                          \
6692      })
6693
6694 #define vld1_lane_f64(a, b, c)                                          \
6695   __extension__                                                         \
6696     ({                                                                  \
6697        float64x1_t b_ = (b);                                            \
6698        const float64_t * a_ = (a);                                      \
6699        float64x1_t result;                                              \
6700        __asm__ ("ld1 {%0.d}[%1], %2"                                    \
6701                 : "=w"(result)                                          \
6702                 : "i" (c), "Utv"(*a_), "0"(b_)                          \
6703                 : /* No clobbers */);                                   \
6704        result;                                                          \
6705      })
6706
6707 #define vld1_lane_p8(a, b, c)                                           \
6708   __extension__                                                         \
6709     ({                                                                  \
6710        poly8x8_t b_ = (b);                                              \
6711        const poly8_t * a_ = (a);                                        \
6712        poly8x8_t result;                                                \
6713        __asm__ ("ld1 {%0.b}[%1], %2"                                    \
6714                 : "=w"(result)                                          \
6715                 : "i" (c), "Utv"(*a_), "0"(b_)                          \
6716                 : /* No clobbers */);                                   \
6717        result;                                                          \
6718      })
6719
6720 #define vld1_lane_p16(a, b, c)                                          \
6721   __extension__                                                         \
6722     ({                                                                  \
6723        poly16x4_t b_ = (b);                                             \
6724        const poly16_t * a_ = (a);                                       \
6725        poly16x4_t result;                                               \
6726        __asm__ ("ld1 {%0.h}[%1], %2"                                    \
6727                 : "=w"(result)                                          \
6728                 : "i" (c), "Utv"(*a_), "0"(b_)                          \
6729                 : /* No clobbers */);                                   \
6730        result;                                                          \
6731      })
6732
6733 #define vld1_lane_s8(a, b, c)                                           \
6734   __extension__                                                         \
6735     ({                                                                  \
6736        int8x8_t b_ = (b);                                               \
6737        const int8_t * a_ = (a);                                         \
6738        int8x8_t result;                                                 \
6739        __asm__ ("ld1 {%0.b}[%1], %2"                                    \
6740                 : "=w"(result)                                          \
6741                 : "i" (c), "Utv"(*a_), "0"(b_)                          \
6742                 : /* No clobbers */);                                   \
6743        result;                                                          \
6744      })
6745
6746 #define vld1_lane_s16(a, b, c)                                          \
6747   __extension__                                                         \
6748     ({                                                                  \
6749        int16x4_t b_ = (b);                                              \
6750        const int16_t * a_ = (a);                                        \
6751        int16x4_t result;                                                \
6752        __asm__ ("ld1 {%0.h}[%1], %2"                                    \
6753                 : "=w"(result)                                          \
6754                 : "i" (c), "Utv"(*a_), "0"(b_)                          \
6755                 : /* No clobbers */);                                   \
6756        result;                                                          \
6757      })
6758
6759 #define vld1_lane_s32(a, b, c)                                          \
6760   __extension__                                                         \
6761     ({                                                                  \
6762        int32x2_t b_ = (b);                                              \
6763        const int32_t * a_ = (a);                                        \
6764        int32x2_t result;                                                \
6765        __asm__ ("ld1 {%0.s}[%1], %2"                                    \
6766                 : "=w"(result)                                          \
6767                 : "i" (c), "Utv"(*a_), "0"(b_)                          \
6768                 : /* No clobbers */);                                   \
6769        result;                                                          \
6770      })
6771
6772 #define vld1_lane_s64(a, b, c)                                          \
6773   __extension__                                                         \
6774     ({                                                                  \
6775        int64x1_t b_ = (b);                                              \
6776        const int64_t * a_ = (a);                                        \
6777        int64x1_t result;                                                \
6778        __asm__ ("ld1 {%0.d}[%1], %2"                                    \
6779                 : "=w"(result)                                          \
6780                 : "i" (c), "Utv"(*a_), "0"(b_)                          \
6781                 : /* No clobbers */);                                   \
6782        result;                                                          \
6783      })
6784
6785 #define vld1_lane_u8(a, b, c)                                           \
6786   __extension__                                                         \
6787     ({                                                                  \
6788        uint8x8_t b_ = (b);                                              \
6789        const uint8_t * a_ = (a);                                        \
6790        uint8x8_t result;                                                \
6791        __asm__ ("ld1 {%0.b}[%1], %2"                                    \
6792                 : "=w"(result)                                          \
6793                 : "i" (c), "Utv"(*a_), "0"(b_)                          \
6794                 : /* No clobbers */);                                   \
6795        result;                                                          \
6796      })
6797
6798 #define vld1_lane_u16(a, b, c)                                          \
6799   __extension__                                                         \
6800     ({                                                                  \
6801        uint16x4_t b_ = (b);                                             \
6802        const uint16_t * a_ = (a);                                       \
6803        uint16x4_t result;                                               \
6804        __asm__ ("ld1 {%0.h}[%1], %2"                                    \
6805                 : "=w"(result)                                          \
6806                 : "i" (c), "Utv"(*a_), "0"(b_)                          \
6807                 : /* No clobbers */);                                   \
6808        result;                                                          \
6809      })
6810
6811 #define vld1_lane_u32(a, b, c)                                          \
6812   __extension__                                                         \
6813     ({                                                                  \
6814        uint32x2_t b_ = (b);                                             \
6815        const uint32_t * a_ = (a);                                       \
6816        uint32x2_t result;                                               \
6817        __asm__ ("ld1 {%0.s}[%1], %2"                                    \
6818                 : "=w"(result)                                          \
6819                 : "i" (c), "Utv"(*a_), "0"(b_)                          \
6820                 : /* No clobbers */);                                   \
6821        result;                                                          \
6822      })
6823
6824 #define vld1_lane_u64(a, b, c)                                          \
6825   __extension__                                                         \
6826     ({                                                                  \
6827        uint64x1_t b_ = (b);                                             \
6828        const uint64_t * a_ = (a);                                       \
6829        uint64x1_t result;                                               \
6830        __asm__ ("ld1 {%0.d}[%1], %2"                                    \
6831                 : "=w"(result)                                          \
6832                 : "i" (c), "Utv"(*a_), "0"(b_)                          \
6833                 : /* No clobbers */);                                   \
6834        result;                                                          \
6835      })
6836
6837 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
6838 vld1q_dup_f32 (const float32_t * a)
6839 {
6840   float32x4_t result;
6841   __asm__ ("ld1r {%0.4s}, %1"
6842            : "=w"(result)
6843            : "Utv"(*a)
6844            : /* No clobbers */);
6845   return result;
6846 }
6847
6848 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
6849 vld1q_dup_f64 (const float64_t * a)
6850 {
6851   float64x2_t result;
6852   __asm__ ("ld1r {%0.2d}, %1"
6853            : "=w"(result)
6854            : "Utv"(*a)
6855            : /* No clobbers */);
6856   return result;
6857 }
6858
6859 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
6860 vld1q_dup_p8 (const poly8_t * a)
6861 {
6862   poly8x16_t result;
6863   __asm__ ("ld1r {%0.16b}, %1"
6864            : "=w"(result)
6865            : "Utv"(*a)
6866            : /* No clobbers */);
6867   return result;
6868 }
6869
6870 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
6871 vld1q_dup_p16 (const poly16_t * a)
6872 {
6873   poly16x8_t result;
6874   __asm__ ("ld1r {%0.8h}, %1"
6875            : "=w"(result)
6876            : "Utv"(*a)
6877            : /* No clobbers */);
6878   return result;
6879 }
6880
6881 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
6882 vld1q_dup_s8 (const int8_t * a)
6883 {
6884   int8x16_t result;
6885   __asm__ ("ld1r {%0.16b}, %1"
6886            : "=w"(result)
6887            : "Utv"(*a)
6888            : /* No clobbers */);
6889   return result;
6890 }
6891
6892 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
6893 vld1q_dup_s16 (const int16_t * a)
6894 {
6895   int16x8_t result;
6896   __asm__ ("ld1r {%0.8h}, %1"
6897            : "=w"(result)
6898            : "Utv"(*a)
6899            : /* No clobbers */);
6900   return result;
6901 }
6902
6903 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
6904 vld1q_dup_s32 (const int32_t * a)
6905 {
6906   int32x4_t result;
6907   __asm__ ("ld1r {%0.4s}, %1"
6908            : "=w"(result)
6909            : "Utv"(*a)
6910            : /* No clobbers */);
6911   return result;
6912 }
6913
6914 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
6915 vld1q_dup_s64 (const int64_t * a)
6916 {
6917   int64x2_t result;
6918   __asm__ ("ld1r {%0.2d}, %1"
6919            : "=w"(result)
6920            : "Utv"(*a)
6921            : /* No clobbers */);
6922   return result;
6923 }
6924
6925 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
6926 vld1q_dup_u8 (const uint8_t * a)
6927 {
6928   uint8x16_t result;
6929   __asm__ ("ld1r {%0.16b}, %1"
6930            : "=w"(result)
6931            : "Utv"(*a)
6932            : /* No clobbers */);
6933   return result;
6934 }
6935
6936 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
6937 vld1q_dup_u16 (const uint16_t * a)
6938 {
6939   uint16x8_t result;
6940   __asm__ ("ld1r {%0.8h}, %1"
6941            : "=w"(result)
6942            : "Utv"(*a)
6943            : /* No clobbers */);
6944   return result;
6945 }
6946
6947 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
6948 vld1q_dup_u32 (const uint32_t * a)
6949 {
6950   uint32x4_t result;
6951   __asm__ ("ld1r {%0.4s}, %1"
6952            : "=w"(result)
6953            : "Utv"(*a)
6954            : /* No clobbers */);
6955   return result;
6956 }
6957
6958 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
6959 vld1q_dup_u64 (const uint64_t * a)
6960 {
6961   uint64x2_t result;
6962   __asm__ ("ld1r {%0.2d}, %1"
6963            : "=w"(result)
6964            : "Utv"(*a)
6965            : /* No clobbers */);
6966   return result;
6967 }
6968
6969 #define vld1q_lane_f32(a, b, c)                                         \
6970   __extension__                                                         \
6971     ({                                                                  \
6972        float32x4_t b_ = (b);                                            \
6973        const float32_t * a_ = (a);                                      \
6974        float32x4_t result;                                              \
6975        __asm__ ("ld1 {%0.s}[%1], %2"                                    \
6976                 : "=w"(result)                                          \
6977                 : "i"(c), "Utv"(*a_), "0"(b_)                           \
6978                 : /* No clobbers */);                                   \
6979        result;                                                          \
6980      })
6981
6982 #define vld1q_lane_f64(a, b, c)                                         \
6983   __extension__                                                         \
6984     ({                                                                  \
6985        float64x2_t b_ = (b);                                            \
6986        const float64_t * a_ = (a);                                      \
6987        float64x2_t result;                                              \
6988        __asm__ ("ld1 {%0.d}[%1], %2"                                    \
6989                 : "=w"(result)                                          \
6990                 : "i"(c), "Utv"(*a_), "0"(b_)                           \
6991                 : /* No clobbers */);                                   \
6992        result;                                                          \
6993      })
6994
6995 #define vld1q_lane_p8(a, b, c)                                          \
6996   __extension__                                                         \
6997     ({                                                                  \
6998        poly8x16_t b_ = (b);                                             \
6999        const poly8_t * a_ = (a);                                        \
7000        poly8x16_t result;                                               \
7001        __asm__ ("ld1 {%0.b}[%1], %2"                                    \
7002                 : "=w"(result)                                          \
7003                 : "i"(c), "Utv"(*a_), "0"(b_)                           \
7004                 : /* No clobbers */);                                   \
7005        result;                                                          \
7006      })
7007
7008 #define vld1q_lane_p16(a, b, c)                                         \
7009   __extension__                                                         \
7010     ({                                                                  \
7011        poly16x8_t b_ = (b);                                             \
7012        const poly16_t * a_ = (a);                                       \
7013        poly16x8_t result;                                               \
7014        __asm__ ("ld1 {%0.h}[%1], %2"                                    \
7015                 : "=w"(result)                                          \
7016                 : "i"(c), "Utv"(*a_), "0"(b_)                           \
7017                 : /* No clobbers */);                                   \
7018        result;                                                          \
7019      })
7020
7021 #define vld1q_lane_s8(a, b, c)                                          \
7022   __extension__                                                         \
7023     ({                                                                  \
7024        int8x16_t b_ = (b);                                              \
7025        const int8_t * a_ = (a);                                         \
7026        int8x16_t result;                                                \
7027        __asm__ ("ld1 {%0.b}[%1], %2"                                    \
7028                 : "=w"(result)                                          \
7029                 : "i"(c), "Utv"(*a_), "0"(b_)                           \
7030                 : /* No clobbers */);                                   \
7031        result;                                                          \
7032      })
7033
7034 #define vld1q_lane_s16(a, b, c)                                         \
7035   __extension__                                                         \
7036     ({                                                                  \
7037        int16x8_t b_ = (b);                                              \
7038        const int16_t * a_ = (a);                                        \
7039        int16x8_t result;                                                \
7040        __asm__ ("ld1 {%0.h}[%1], %2"                                    \
7041                 : "=w"(result)                                          \
7042                 : "i"(c), "Utv"(*a_), "0"(b_)                           \
7043                 : /* No clobbers */);                                   \
7044        result;                                                          \
7045      })
7046
7047 #define vld1q_lane_s32(a, b, c)                                         \
7048   __extension__                                                         \
7049     ({                                                                  \
7050        int32x4_t b_ = (b);                                              \
7051        const int32_t * a_ = (a);                                        \
7052        int32x4_t result;                                                \
7053        __asm__ ("ld1 {%0.s}[%1], %2"                                    \
7054                 : "=w"(result)                                          \
7055                 : "i"(c), "Utv"(*a_), "0"(b_)                           \
7056                 : /* No clobbers */);                                   \
7057        result;                                                          \
7058      })
7059
7060 #define vld1q_lane_s64(a, b, c)                                         \
7061   __extension__                                                         \
7062     ({                                                                  \
7063        int64x2_t b_ = (b);                                              \
7064        const int64_t * a_ = (a);                                        \
7065        int64x2_t result;                                                \
7066        __asm__ ("ld1 {%0.d}[%1], %2"                                    \
7067                 : "=w"(result)                                          \
7068                 : "i"(c), "Utv"(*a_), "0"(b_)                           \
7069                 : /* No clobbers */);                                   \
7070        result;                                                          \
7071      })
7072
7073 #define vld1q_lane_u8(a, b, c)                                          \
7074   __extension__                                                         \
7075     ({                                                                  \
7076        uint8x16_t b_ = (b);                                             \
7077        const uint8_t * a_ = (a);                                        \
7078        uint8x16_t result;                                               \
7079        __asm__ ("ld1 {%0.b}[%1], %2"                                    \
7080                 : "=w"(result)                                          \
7081                 : "i"(c), "Utv"(*a_), "0"(b_)                           \
7082                 : /* No clobbers */);                                   \
7083        result;                                                          \
7084      })
7085
7086 #define vld1q_lane_u16(a, b, c)                                         \
7087   __extension__                                                         \
7088     ({                                                                  \
7089        uint16x8_t b_ = (b);                                             \
7090        const uint16_t * a_ = (a);                                       \
7091        uint16x8_t result;                                               \
7092        __asm__ ("ld1 {%0.h}[%1], %2"                                    \
7093                 : "=w"(result)                                          \
7094                 : "i"(c), "Utv"(*a_), "0"(b_)                           \
7095                 : /* No clobbers */);                                   \
7096        result;                                                          \
7097      })
7098
7099 #define vld1q_lane_u32(a, b, c)                                         \
7100   __extension__                                                         \
7101     ({                                                                  \
7102        uint32x4_t b_ = (b);                                             \
7103        const uint32_t * a_ = (a);                                       \
7104        uint32x4_t result;                                               \
7105        __asm__ ("ld1 {%0.s}[%1], %2"                                    \
7106                 : "=w"(result)                                          \
7107                 : "i"(c), "Utv"(*a_), "0"(b_)                           \
7108                 : /* No clobbers */);                                   \
7109        result;                                                          \
7110      })
7111
7112 #define vld1q_lane_u64(a, b, c)                                         \
7113   __extension__                                                         \
7114     ({                                                                  \
7115        uint64x2_t b_ = (b);                                             \
7116        const uint64_t * a_ = (a);                                       \
7117        uint64x2_t result;                                               \
7118        __asm__ ("ld1 {%0.d}[%1], %2"                                    \
7119                 : "=w"(result)                                          \
7120                 : "i"(c), "Utv"(*a_), "0"(b_)                           \
7121                 : /* No clobbers */);                                   \
7122        result;                                                          \
7123      })
7124
7125 #define vmla_lane_f32(a, b, c, d)                                       \
7126   __extension__                                                         \
7127     ({                                                                  \
7128        float32x2_t c_ = (c);                                            \
7129        float32x2_t b_ = (b);                                            \
7130        float32x2_t a_ = (a);                                            \
7131        float32x2_t result;                                              \
7132        float32x2_t t1;                                                  \
7133        __asm__ ("fmul %1.2s, %3.2s, %4.s[%5]; fadd %0.2s, %0.2s, %1.2s" \
7134                 : "=w"(result), "=w"(t1)                                \
7135                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7136                 : /* No clobbers */);                                   \
7137        result;                                                          \
7138      })
7139
7140 #define vmla_lane_s16(a, b, c, d)                                       \
7141   __extension__                                                         \
7142     ({                                                                  \
7143        int16x4_t c_ = (c);                                              \
7144        int16x4_t b_ = (b);                                              \
7145        int16x4_t a_ = (a);                                              \
7146        int16x4_t result;                                                \
7147        __asm__ ("mla %0.4h, %2.4h, %3.h[%4]"                            \
7148                 : "=w"(result)                                          \
7149                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
7150                 : /* No clobbers */);                                   \
7151        result;                                                          \
7152      })
7153
7154 #define vmla_lane_s32(a, b, c, d)                                       \
7155   __extension__                                                         \
7156     ({                                                                  \
7157        int32x2_t c_ = (c);                                              \
7158        int32x2_t b_ = (b);                                              \
7159        int32x2_t a_ = (a);                                              \
7160        int32x2_t result;                                                \
7161        __asm__ ("mla %0.2s, %2.2s, %3.s[%4]"                            \
7162                 : "=w"(result)                                          \
7163                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7164                 : /* No clobbers */);                                   \
7165        result;                                                          \
7166      })
7167
7168 #define vmla_lane_u16(a, b, c, d)                                       \
7169   __extension__                                                         \
7170     ({                                                                  \
7171        uint16x4_t c_ = (c);                                             \
7172        uint16x4_t b_ = (b);                                             \
7173        uint16x4_t a_ = (a);                                             \
7174        uint16x4_t result;                                               \
7175        __asm__ ("mla %0.4h, %2.4h, %3.h[%4]"                            \
7176                 : "=w"(result)                                          \
7177                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
7178                 : /* No clobbers */);                                   \
7179        result;                                                          \
7180      })
7181
7182 #define vmla_lane_u32(a, b, c, d)                                       \
7183   __extension__                                                         \
7184     ({                                                                  \
7185        uint32x2_t c_ = (c);                                             \
7186        uint32x2_t b_ = (b);                                             \
7187        uint32x2_t a_ = (a);                                             \
7188        uint32x2_t result;                                               \
7189        __asm__ ("mla %0.2s, %2.2s, %3.s[%4]"                            \
7190                 : "=w"(result)                                          \
7191                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7192                 : /* No clobbers */);                                   \
7193        result;                                                          \
7194      })
7195
7196 #define vmla_laneq_s16(a, b, c, d)                                      \
7197   __extension__                                                         \
7198     ({                                                                  \
7199        int16x8_t c_ = (c);                                              \
7200        int16x4_t b_ = (b);                                              \
7201        int16x4_t a_ = (a);                                              \
7202        int16x4_t result;                                                \
7203        __asm__ ("mla %0.4h, %2.4h, %3.h[%4]"                            \
7204                 : "=w"(result)                                          \
7205                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
7206                 : /* No clobbers */);                                   \
7207        result;                                                          \
7208      })
7209
7210 #define vmla_laneq_s32(a, b, c, d)                                      \
7211   __extension__                                                         \
7212     ({                                                                  \
7213        int32x4_t c_ = (c);                                              \
7214        int32x2_t b_ = (b);                                              \
7215        int32x2_t a_ = (a);                                              \
7216        int32x2_t result;                                                \
7217        __asm__ ("mla %0.2s, %2.2s, %3.s[%4]"                            \
7218                 : "=w"(result)                                          \
7219                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7220                 : /* No clobbers */);                                   \
7221        result;                                                          \
7222      })
7223
7224 #define vmla_laneq_u16(a, b, c, d)                                      \
7225   __extension__                                                         \
7226     ({                                                                  \
7227        uint16x8_t c_ = (c);                                             \
7228        uint16x4_t b_ = (b);                                             \
7229        uint16x4_t a_ = (a);                                             \
7230        uint16x4_t result;                                               \
7231        __asm__ ("mla %0.4h, %2.4h, %3.h[%4]"                            \
7232                 : "=w"(result)                                          \
7233                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
7234                 : /* No clobbers */);                                   \
7235        result;                                                          \
7236      })
7237
7238 #define vmla_laneq_u32(a, b, c, d)                                      \
7239   __extension__                                                         \
7240     ({                                                                  \
7241        uint32x4_t c_ = (c);                                             \
7242        uint32x2_t b_ = (b);                                             \
7243        uint32x2_t a_ = (a);                                             \
7244        uint32x2_t result;                                               \
7245        __asm__ ("mla %0.2s, %2.2s, %3.s[%4]"                            \
7246                 : "=w"(result)                                          \
7247                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7248                 : /* No clobbers */);                                   \
7249        result;                                                          \
7250      })
7251
7252 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
7253 vmla_n_f32 (float32x2_t a, float32x2_t b, float32_t c)
7254 {
7255   float32x2_t result;
7256   float32x2_t t1;
7257   __asm__ ("fmul %1.2s, %3.2s, %4.s[0]; fadd %0.2s, %0.2s, %1.2s"
7258            : "=w"(result), "=w"(t1)
7259            : "0"(a), "w"(b), "w"(c)
7260            : /* No clobbers */);
7261   return result;
7262 }
7263
7264 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
7265 vmla_n_s16 (int16x4_t a, int16x4_t b, int16_t c)
7266 {
7267   int16x4_t result;
7268   __asm__ ("mla %0.4h,%2.4h,%3.h[0]"
7269            : "=w"(result)
7270            : "0"(a), "w"(b), "x"(c)
7271            : /* No clobbers */);
7272   return result;
7273 }
7274
7275 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
7276 vmla_n_s32 (int32x2_t a, int32x2_t b, int32_t c)
7277 {
7278   int32x2_t result;
7279   __asm__ ("mla %0.2s,%2.2s,%3.s[0]"
7280            : "=w"(result)
7281            : "0"(a), "w"(b), "w"(c)
7282            : /* No clobbers */);
7283   return result;
7284 }
7285
7286 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
7287 vmla_n_u16 (uint16x4_t a, uint16x4_t b, uint16_t c)
7288 {
7289   uint16x4_t result;
7290   __asm__ ("mla %0.4h,%2.4h,%3.h[0]"
7291            : "=w"(result)
7292            : "0"(a), "w"(b), "x"(c)
7293            : /* No clobbers */);
7294   return result;
7295 }
7296
7297 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
7298 vmla_n_u32 (uint32x2_t a, uint32x2_t b, uint32_t c)
7299 {
7300   uint32x2_t result;
7301   __asm__ ("mla %0.2s,%2.2s,%3.s[0]"
7302            : "=w"(result)
7303            : "0"(a), "w"(b), "w"(c)
7304            : /* No clobbers */);
7305   return result;
7306 }
7307
7308 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
7309 vmla_s8 (int8x8_t a, int8x8_t b, int8x8_t c)
7310 {
7311   int8x8_t result;
7312   __asm__ ("mla %0.8b, %2.8b, %3.8b"
7313            : "=w"(result)
7314            : "0"(a), "w"(b), "w"(c)
7315            : /* No clobbers */);
7316   return result;
7317 }
7318
7319 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
7320 vmla_s16 (int16x4_t a, int16x4_t b, int16x4_t c)
7321 {
7322   int16x4_t result;
7323   __asm__ ("mla %0.4h, %2.4h, %3.4h"
7324            : "=w"(result)
7325            : "0"(a), "w"(b), "w"(c)
7326            : /* No clobbers */);
7327   return result;
7328 }
7329
7330 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
7331 vmla_s32 (int32x2_t a, int32x2_t b, int32x2_t c)
7332 {
7333   int32x2_t result;
7334   __asm__ ("mla %0.2s, %2.2s, %3.2s"
7335            : "=w"(result)
7336            : "0"(a), "w"(b), "w"(c)
7337            : /* No clobbers */);
7338   return result;
7339 }
7340
7341 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
7342 vmla_u8 (uint8x8_t a, uint8x8_t b, uint8x8_t c)
7343 {
7344   uint8x8_t result;
7345   __asm__ ("mla %0.8b, %2.8b, %3.8b"
7346            : "=w"(result)
7347            : "0"(a), "w"(b), "w"(c)
7348            : /* No clobbers */);
7349   return result;
7350 }
7351
7352 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
7353 vmla_u16 (uint16x4_t a, uint16x4_t b, uint16x4_t c)
7354 {
7355   uint16x4_t result;
7356   __asm__ ("mla %0.4h, %2.4h, %3.4h"
7357            : "=w"(result)
7358            : "0"(a), "w"(b), "w"(c)
7359            : /* No clobbers */);
7360   return result;
7361 }
7362
7363 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
7364 vmla_u32 (uint32x2_t a, uint32x2_t b, uint32x2_t c)
7365 {
7366   uint32x2_t result;
7367   __asm__ ("mla %0.2s, %2.2s, %3.2s"
7368            : "=w"(result)
7369            : "0"(a), "w"(b), "w"(c)
7370            : /* No clobbers */);
7371   return result;
7372 }
7373
7374 #define vmlal_high_lane_s16(a, b, c, d)                                 \
7375   __extension__                                                         \
7376     ({                                                                  \
7377        int16x8_t c_ = (c);                                              \
7378        int16x8_t b_ = (b);                                              \
7379        int32x4_t a_ = (a);                                              \
7380        int32x4_t result;                                                \
7381        __asm__ ("smlal2 %0.4s, %2.8h, %3.h[%4]"                         \
7382                 : "=w"(result)                                          \
7383                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
7384                 : /* No clobbers */);                                   \
7385        result;                                                          \
7386      })
7387
7388 #define vmlal_high_lane_s32(a, b, c, d)                                 \
7389   __extension__                                                         \
7390     ({                                                                  \
7391        int32x4_t c_ = (c);                                              \
7392        int32x4_t b_ = (b);                                              \
7393        int64x2_t a_ = (a);                                              \
7394        int64x2_t result;                                                \
7395        __asm__ ("smlal2 %0.2d, %2.4s, %3.s[%4]"                         \
7396                 : "=w"(result)                                          \
7397                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7398                 : /* No clobbers */);                                   \
7399        result;                                                          \
7400      })
7401
7402 #define vmlal_high_lane_u16(a, b, c, d)                                 \
7403   __extension__                                                         \
7404     ({                                                                  \
7405        uint16x8_t c_ = (c);                                             \
7406        uint16x8_t b_ = (b);                                             \
7407        uint32x4_t a_ = (a);                                             \
7408        uint32x4_t result;                                               \
7409        __asm__ ("umlal2 %0.4s, %2.8h, %3.h[%4]"                         \
7410                 : "=w"(result)                                          \
7411                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
7412                 : /* No clobbers */);                                   \
7413        result;                                                          \
7414      })
7415
7416 #define vmlal_high_lane_u32(a, b, c, d)                                 \
7417   __extension__                                                         \
7418     ({                                                                  \
7419        uint32x4_t c_ = (c);                                             \
7420        uint32x4_t b_ = (b);                                             \
7421        uint64x2_t a_ = (a);                                             \
7422        uint64x2_t result;                                               \
7423        __asm__ ("umlal2 %0.2d, %2.4s, %3.s[%4]"                         \
7424                 : "=w"(result)                                          \
7425                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7426                 : /* No clobbers */);                                   \
7427        result;                                                          \
7428      })
7429
7430 #define vmlal_high_laneq_s16(a, b, c, d)                                \
7431   __extension__                                                         \
7432     ({                                                                  \
7433        int16x8_t c_ = (c);                                              \
7434        int16x8_t b_ = (b);                                              \
7435        int32x4_t a_ = (a);                                              \
7436        int32x4_t result;                                                \
7437        __asm__ ("smlal2 %0.4s, %2.8h, %3.h[%4]"                         \
7438                 : "=w"(result)                                          \
7439                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
7440                 : /* No clobbers */);                                   \
7441        result;                                                          \
7442      })
7443
7444 #define vmlal_high_laneq_s32(a, b, c, d)                                \
7445   __extension__                                                         \
7446     ({                                                                  \
7447        int32x4_t c_ = (c);                                              \
7448        int32x4_t b_ = (b);                                              \
7449        int64x2_t a_ = (a);                                              \
7450        int64x2_t result;                                                \
7451        __asm__ ("smlal2 %0.2d, %2.4s, %3.s[%4]"                         \
7452                 : "=w"(result)                                          \
7453                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7454                 : /* No clobbers */);                                   \
7455        result;                                                          \
7456      })
7457
7458 #define vmlal_high_laneq_u16(a, b, c, d)                                \
7459   __extension__                                                         \
7460     ({                                                                  \
7461        uint16x8_t c_ = (c);                                             \
7462        uint16x8_t b_ = (b);                                             \
7463        uint32x4_t a_ = (a);                                             \
7464        uint32x4_t result;                                               \
7465        __asm__ ("umlal2 %0.4s, %2.8h, %3.h[%4]"                         \
7466                 : "=w"(result)                                          \
7467                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
7468                 : /* No clobbers */);                                   \
7469        result;                                                          \
7470      })
7471
7472 #define vmlal_high_laneq_u32(a, b, c, d)                                \
7473   __extension__                                                         \
7474     ({                                                                  \
7475        uint32x4_t c_ = (c);                                             \
7476        uint32x4_t b_ = (b);                                             \
7477        uint64x2_t a_ = (a);                                             \
7478        uint64x2_t result;                                               \
7479        __asm__ ("umlal2 %0.2d, %2.4s, %3.s[%4]"                         \
7480                 : "=w"(result)                                          \
7481                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7482                 : /* No clobbers */);                                   \
7483        result;                                                          \
7484      })
7485
7486 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7487 vmlal_high_n_s16 (int32x4_t a, int16x8_t b, int16_t c)
7488 {
7489   int32x4_t result;
7490   __asm__ ("smlal2 %0.4s,%2.8h,%3.h[0]"
7491            : "=w"(result)
7492            : "0"(a), "w"(b), "x"(c)
7493            : /* No clobbers */);
7494   return result;
7495 }
7496
7497 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
7498 vmlal_high_n_s32 (int64x2_t a, int32x4_t b, int32_t c)
7499 {
7500   int64x2_t result;
7501   __asm__ ("smlal2 %0.2d,%2.4s,%3.s[0]"
7502            : "=w"(result)
7503            : "0"(a), "w"(b), "w"(c)
7504            : /* No clobbers */);
7505   return result;
7506 }
7507
7508 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7509 vmlal_high_n_u16 (uint32x4_t a, uint16x8_t b, uint16_t c)
7510 {
7511   uint32x4_t result;
7512   __asm__ ("umlal2 %0.4s,%2.8h,%3.h[0]"
7513            : "=w"(result)
7514            : "0"(a), "w"(b), "x"(c)
7515            : /* No clobbers */);
7516   return result;
7517 }
7518
7519 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
7520 vmlal_high_n_u32 (uint64x2_t a, uint32x4_t b, uint32_t c)
7521 {
7522   uint64x2_t result;
7523   __asm__ ("umlal2 %0.2d,%2.4s,%3.s[0]"
7524            : "=w"(result)
7525            : "0"(a), "w"(b), "w"(c)
7526            : /* No clobbers */);
7527   return result;
7528 }
7529
7530 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
7531 vmlal_high_s8 (int16x8_t a, int8x16_t b, int8x16_t c)
7532 {
7533   int16x8_t result;
7534   __asm__ ("smlal2 %0.8h,%2.16b,%3.16b"
7535            : "=w"(result)
7536            : "0"(a), "w"(b), "w"(c)
7537            : /* No clobbers */);
7538   return result;
7539 }
7540
7541 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7542 vmlal_high_s16 (int32x4_t a, int16x8_t b, int16x8_t c)
7543 {
7544   int32x4_t result;
7545   __asm__ ("smlal2 %0.4s,%2.8h,%3.8h"
7546            : "=w"(result)
7547            : "0"(a), "w"(b), "w"(c)
7548            : /* No clobbers */);
7549   return result;
7550 }
7551
7552 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
7553 vmlal_high_s32 (int64x2_t a, int32x4_t b, int32x4_t c)
7554 {
7555   int64x2_t result;
7556   __asm__ ("smlal2 %0.2d,%2.4s,%3.4s"
7557            : "=w"(result)
7558            : "0"(a), "w"(b), "w"(c)
7559            : /* No clobbers */);
7560   return result;
7561 }
7562
7563 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
7564 vmlal_high_u8 (uint16x8_t a, uint8x16_t b, uint8x16_t c)
7565 {
7566   uint16x8_t result;
7567   __asm__ ("umlal2 %0.8h,%2.16b,%3.16b"
7568            : "=w"(result)
7569            : "0"(a), "w"(b), "w"(c)
7570            : /* No clobbers */);
7571   return result;
7572 }
7573
7574 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7575 vmlal_high_u16 (uint32x4_t a, uint16x8_t b, uint16x8_t c)
7576 {
7577   uint32x4_t result;
7578   __asm__ ("umlal2 %0.4s,%2.8h,%3.8h"
7579            : "=w"(result)
7580            : "0"(a), "w"(b), "w"(c)
7581            : /* No clobbers */);
7582   return result;
7583 }
7584
7585 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
7586 vmlal_high_u32 (uint64x2_t a, uint32x4_t b, uint32x4_t c)
7587 {
7588   uint64x2_t result;
7589   __asm__ ("umlal2 %0.2d,%2.4s,%3.4s"
7590            : "=w"(result)
7591            : "0"(a), "w"(b), "w"(c)
7592            : /* No clobbers */);
7593   return result;
7594 }
7595
7596 #define vmlal_lane_s16(a, b, c, d)                                      \
7597   __extension__                                                         \
7598     ({                                                                  \
7599        int16x4_t c_ = (c);                                              \
7600        int16x4_t b_ = (b);                                              \
7601        int32x4_t a_ = (a);                                              \
7602        int32x4_t result;                                                \
7603        __asm__ ("smlal %0.4s,%2.4h,%3.h[%4]"                            \
7604                 : "=w"(result)                                          \
7605                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
7606                 : /* No clobbers */);                                   \
7607        result;                                                          \
7608      })
7609
7610 #define vmlal_lane_s32(a, b, c, d)                                      \
7611   __extension__                                                         \
7612     ({                                                                  \
7613        int32x2_t c_ = (c);                                              \
7614        int32x2_t b_ = (b);                                              \
7615        int64x2_t a_ = (a);                                              \
7616        int64x2_t result;                                                \
7617        __asm__ ("smlal %0.2d,%2.2s,%3.s[%4]"                            \
7618                 : "=w"(result)                                          \
7619                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7620                 : /* No clobbers */);                                   \
7621        result;                                                          \
7622      })
7623
7624 #define vmlal_lane_u16(a, b, c, d)                                      \
7625   __extension__                                                         \
7626     ({                                                                  \
7627        uint16x4_t c_ = (c);                                             \
7628        uint16x4_t b_ = (b);                                             \
7629        uint32x4_t a_ = (a);                                             \
7630        uint32x4_t result;                                               \
7631        __asm__ ("umlal %0.4s,%2.4h,%3.h[%4]"                            \
7632                 : "=w"(result)                                          \
7633                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
7634                 : /* No clobbers */);                                   \
7635        result;                                                          \
7636      })
7637
7638 #define vmlal_lane_u32(a, b, c, d)                                      \
7639   __extension__                                                         \
7640     ({                                                                  \
7641        uint32x2_t c_ = (c);                                             \
7642        uint32x2_t b_ = (b);                                             \
7643        uint64x2_t a_ = (a);                                             \
7644        uint64x2_t result;                                               \
7645        __asm__ ("umlal %0.2d, %2.2s, %3.s[%4]"                          \
7646                 : "=w"(result)                                          \
7647                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7648                 : /* No clobbers */);                                   \
7649        result;                                                          \
7650      })
7651
7652 #define vmlal_laneq_s16(a, b, c, d)                                     \
7653   __extension__                                                         \
7654     ({                                                                  \
7655        int16x8_t c_ = (c);                                              \
7656        int16x4_t b_ = (b);                                              \
7657        int32x4_t a_ = (a);                                              \
7658        int32x4_t result;                                                \
7659        __asm__ ("smlal %0.4s, %2.4h, %3.h[%4]"                          \
7660                 : "=w"(result)                                          \
7661                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
7662                 : /* No clobbers */);                                   \
7663        result;                                                          \
7664      })
7665
7666 #define vmlal_laneq_s32(a, b, c, d)                                     \
7667   __extension__                                                         \
7668     ({                                                                  \
7669        int32x4_t c_ = (c);                                              \
7670        int32x2_t b_ = (b);                                              \
7671        int64x2_t a_ = (a);                                              \
7672        int64x2_t result;                                                \
7673        __asm__ ("smlal %0.2d, %2.2s, %3.s[%4]"                          \
7674                 : "=w"(result)                                          \
7675                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7676                 : /* No clobbers */);                                   \
7677        result;                                                          \
7678      })
7679
7680 #define vmlal_laneq_u16(a, b, c, d)                                     \
7681   __extension__                                                         \
7682     ({                                                                  \
7683        uint16x8_t c_ = (c);                                             \
7684        uint16x4_t b_ = (b);                                             \
7685        uint32x4_t a_ = (a);                                             \
7686        uint32x4_t result;                                               \
7687        __asm__ ("umlal %0.4s, %2.4h, %3.h[%4]"                          \
7688                 : "=w"(result)                                          \
7689                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
7690                 : /* No clobbers */);                                   \
7691        result;                                                          \
7692      })
7693
7694 #define vmlal_laneq_u32(a, b, c, d)                                     \
7695   __extension__                                                         \
7696     ({                                                                  \
7697        uint32x4_t c_ = (c);                                             \
7698        uint32x2_t b_ = (b);                                             \
7699        uint64x2_t a_ = (a);                                             \
7700        uint64x2_t result;                                               \
7701        __asm__ ("umlal %0.2d, %2.2s, %3.s[%4]"                          \
7702                 : "=w"(result)                                          \
7703                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7704                 : /* No clobbers */);                                   \
7705        result;                                                          \
7706      })
7707
7708 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7709 vmlal_n_s16 (int32x4_t a, int16x4_t b, int16_t c)
7710 {
7711   int32x4_t result;
7712   __asm__ ("smlal %0.4s,%2.4h,%3.h[0]"
7713            : "=w"(result)
7714            : "0"(a), "w"(b), "x"(c)
7715            : /* No clobbers */);
7716   return result;
7717 }
7718
7719 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
7720 vmlal_n_s32 (int64x2_t a, int32x2_t b, int32_t c)
7721 {
7722   int64x2_t result;
7723   __asm__ ("smlal %0.2d,%2.2s,%3.s[0]"
7724            : "=w"(result)
7725            : "0"(a), "w"(b), "w"(c)
7726            : /* No clobbers */);
7727   return result;
7728 }
7729
7730 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7731 vmlal_n_u16 (uint32x4_t a, uint16x4_t b, uint16_t c)
7732 {
7733   uint32x4_t result;
7734   __asm__ ("umlal %0.4s,%2.4h,%3.h[0]"
7735            : "=w"(result)
7736            : "0"(a), "w"(b), "x"(c)
7737            : /* No clobbers */);
7738   return result;
7739 }
7740
7741 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
7742 vmlal_n_u32 (uint64x2_t a, uint32x2_t b, uint32_t c)
7743 {
7744   uint64x2_t result;
7745   __asm__ ("umlal %0.2d,%2.2s,%3.s[0]"
7746            : "=w"(result)
7747            : "0"(a), "w"(b), "w"(c)
7748            : /* No clobbers */);
7749   return result;
7750 }
7751
7752 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
7753 vmlal_s8 (int16x8_t a, int8x8_t b, int8x8_t c)
7754 {
7755   int16x8_t result;
7756   __asm__ ("smlal %0.8h,%2.8b,%3.8b"
7757            : "=w"(result)
7758            : "0"(a), "w"(b), "w"(c)
7759            : /* No clobbers */);
7760   return result;
7761 }
7762
7763 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7764 vmlal_s16 (int32x4_t a, int16x4_t b, int16x4_t c)
7765 {
7766   int32x4_t result;
7767   __asm__ ("smlal %0.4s,%2.4h,%3.4h"
7768            : "=w"(result)
7769            : "0"(a), "w"(b), "w"(c)
7770            : /* No clobbers */);
7771   return result;
7772 }
7773
7774 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
7775 vmlal_s32 (int64x2_t a, int32x2_t b, int32x2_t c)
7776 {
7777   int64x2_t result;
7778   __asm__ ("smlal %0.2d,%2.2s,%3.2s"
7779            : "=w"(result)
7780            : "0"(a), "w"(b), "w"(c)
7781            : /* No clobbers */);
7782   return result;
7783 }
7784
7785 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
7786 vmlal_u8 (uint16x8_t a, uint8x8_t b, uint8x8_t c)
7787 {
7788   uint16x8_t result;
7789   __asm__ ("umlal %0.8h,%2.8b,%3.8b"
7790            : "=w"(result)
7791            : "0"(a), "w"(b), "w"(c)
7792            : /* No clobbers */);
7793   return result;
7794 }
7795
7796 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
7797 vmlal_u16 (uint32x4_t a, uint16x4_t b, uint16x4_t c)
7798 {
7799   uint32x4_t result;
7800   __asm__ ("umlal %0.4s,%2.4h,%3.4h"
7801            : "=w"(result)
7802            : "0"(a), "w"(b), "w"(c)
7803            : /* No clobbers */);
7804   return result;
7805 }
7806
7807 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
7808 vmlal_u32 (uint64x2_t a, uint32x2_t b, uint32x2_t c)
7809 {
7810   uint64x2_t result;
7811   __asm__ ("umlal %0.2d,%2.2s,%3.2s"
7812            : "=w"(result)
7813            : "0"(a), "w"(b), "w"(c)
7814            : /* No clobbers */);
7815   return result;
7816 }
7817
7818 #define vmlaq_lane_f32(a, b, c, d)                                      \
7819   __extension__                                                         \
7820     ({                                                                  \
7821        float32x4_t c_ = (c);                                            \
7822        float32x4_t b_ = (b);                                            \
7823        float32x4_t a_ = (a);                                            \
7824        float32x4_t result;                                              \
7825        float32x4_t t1;                                                  \
7826        __asm__ ("fmul %1.4s, %3.4s, %4.s[%5]; fadd %0.4s, %0.4s, %1.4s" \
7827                 : "=w"(result), "=w"(t1)                                \
7828                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7829                 : /* No clobbers */);                                   \
7830        result;                                                          \
7831      })
7832
7833 #define vmlaq_lane_s16(a, b, c, d)                                      \
7834   __extension__                                                         \
7835     ({                                                                  \
7836        int16x8_t c_ = (c);                                              \
7837        int16x8_t b_ = (b);                                              \
7838        int16x8_t a_ = (a);                                              \
7839        int16x8_t result;                                                \
7840        __asm__ ("mla %0.8h, %2.8h, %3.h[%4]"                            \
7841                 : "=w"(result)                                          \
7842                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
7843                 : /* No clobbers */);                                   \
7844        result;                                                          \
7845      })
7846
7847 #define vmlaq_lane_s32(a, b, c, d)                                      \
7848   __extension__                                                         \
7849     ({                                                                  \
7850        int32x4_t c_ = (c);                                              \
7851        int32x4_t b_ = (b);                                              \
7852        int32x4_t a_ = (a);                                              \
7853        int32x4_t result;                                                \
7854        __asm__ ("mla %0.4s, %2.4s, %3.s[%4]"                            \
7855                 : "=w"(result)                                          \
7856                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7857                 : /* No clobbers */);                                   \
7858        result;                                                          \
7859      })
7860
7861 #define vmlaq_lane_u16(a, b, c, d)                                      \
7862   __extension__                                                         \
7863     ({                                                                  \
7864        uint16x8_t c_ = (c);                                             \
7865        uint16x8_t b_ = (b);                                             \
7866        uint16x8_t a_ = (a);                                             \
7867        uint16x8_t result;                                               \
7868        __asm__ ("mla %0.8h, %2.8h, %3.h[%4]"                            \
7869                 : "=w"(result)                                          \
7870                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
7871                 : /* No clobbers */);                                   \
7872        result;                                                          \
7873      })
7874
7875 #define vmlaq_lane_u32(a, b, c, d)                                      \
7876   __extension__                                                         \
7877     ({                                                                  \
7878        uint32x4_t c_ = (c);                                             \
7879        uint32x4_t b_ = (b);                                             \
7880        uint32x4_t a_ = (a);                                             \
7881        uint32x4_t result;                                               \
7882        __asm__ ("mla %0.4s, %2.4s, %3.s[%4]"                            \
7883                 : "=w"(result)                                          \
7884                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7885                 : /* No clobbers */);                                   \
7886        result;                                                          \
7887      })
7888
7889 #define vmlaq_laneq_s16(a, b, c, d)                                     \
7890   __extension__                                                         \
7891     ({                                                                  \
7892        int16x8_t c_ = (c);                                              \
7893        int16x8_t b_ = (b);                                              \
7894        int16x8_t a_ = (a);                                              \
7895        int16x8_t result;                                                \
7896        __asm__ ("mla %0.8h, %2.8h, %3.h[%4]"                            \
7897                 : "=w"(result)                                          \
7898                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
7899                 : /* No clobbers */);                                   \
7900        result;                                                          \
7901      })
7902
7903 #define vmlaq_laneq_s32(a, b, c, d)                                     \
7904   __extension__                                                         \
7905     ({                                                                  \
7906        int32x4_t c_ = (c);                                              \
7907        int32x4_t b_ = (b);                                              \
7908        int32x4_t a_ = (a);                                              \
7909        int32x4_t result;                                                \
7910        __asm__ ("mla %0.4s, %2.4s, %3.s[%4]"                            \
7911                 : "=w"(result)                                          \
7912                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7913                 : /* No clobbers */);                                   \
7914        result;                                                          \
7915      })
7916
7917 #define vmlaq_laneq_u16(a, b, c, d)                                     \
7918   __extension__                                                         \
7919     ({                                                                  \
7920        uint16x8_t c_ = (c);                                             \
7921        uint16x8_t b_ = (b);                                             \
7922        uint16x8_t a_ = (a);                                             \
7923        uint16x8_t result;                                               \
7924        __asm__ ("mla %0.8h, %2.8h, %3.h[%4]"                            \
7925                 : "=w"(result)                                          \
7926                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
7927                 : /* No clobbers */);                                   \
7928        result;                                                          \
7929      })
7930
7931 #define vmlaq_laneq_u32(a, b, c, d)                                     \
7932   __extension__                                                         \
7933     ({                                                                  \
7934        uint32x4_t c_ = (c);                                             \
7935        uint32x4_t b_ = (b);                                             \
7936        uint32x4_t a_ = (a);                                             \
7937        uint32x4_t result;                                               \
7938        __asm__ ("mla %0.4s, %2.4s, %3.s[%4]"                            \
7939                 : "=w"(result)                                          \
7940                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
7941                 : /* No clobbers */);                                   \
7942        result;                                                          \
7943      })
7944
7945 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
7946 vmlaq_n_f32 (float32x4_t a, float32x4_t b, float32_t c)
7947 {
7948   float32x4_t result;
7949   float32x4_t t1;
7950   __asm__ ("fmul %1.4s, %3.4s, %4.s[0]; fadd %0.4s, %0.4s, %1.4s"
7951            : "=w"(result), "=w"(t1)
7952            : "0"(a), "w"(b), "w"(c)
7953            : /* No clobbers */);
7954   return result;
7955 }
7956
7957 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
7958 vmlaq_n_f64 (float64x2_t a, float64x2_t b, float64_t c)
7959 {
7960   float64x2_t result;
7961   float64x2_t t1;
7962   __asm__ ("fmul %1.2d, %3.2d, %4.d[0]; fadd %0.2d, %0.2d, %1.2d"
7963            : "=w"(result), "=w"(t1)
7964            : "0"(a), "w"(b), "w"(c)
7965            : /* No clobbers */);
7966   return result;
7967 }
7968
7969 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
7970 vmlaq_n_s16 (int16x8_t a, int16x8_t b, int16_t c)
7971 {
7972   int16x8_t result;
7973   __asm__ ("mla %0.8h,%2.8h,%3.h[0]"
7974            : "=w"(result)
7975            : "0"(a), "w"(b), "x"(c)
7976            : /* No clobbers */);
7977   return result;
7978 }
7979
7980 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
7981 vmlaq_n_s32 (int32x4_t a, int32x4_t b, int32_t c)
7982 {
7983   int32x4_t result;
7984   __asm__ ("mla %0.4s,%2.4s,%3.s[0]"
7985            : "=w"(result)
7986            : "0"(a), "w"(b), "w"(c)
7987            : /* No clobbers */);
7988   return result;
7989 }
7990
7991 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
7992 vmlaq_n_u16 (uint16x8_t a, uint16x8_t b, uint16_t c)
7993 {
7994   uint16x8_t result;
7995   __asm__ ("mla %0.8h,%2.8h,%3.h[0]"
7996            : "=w"(result)
7997            : "0"(a), "w"(b), "x"(c)
7998            : /* No clobbers */);
7999   return result;
8000 }
8001
8002 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
8003 vmlaq_n_u32 (uint32x4_t a, uint32x4_t b, uint32_t c)
8004 {
8005   uint32x4_t result;
8006   __asm__ ("mla %0.4s,%2.4s,%3.s[0]"
8007            : "=w"(result)
8008            : "0"(a), "w"(b), "w"(c)
8009            : /* No clobbers */);
8010   return result;
8011 }
8012
8013 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
8014 vmlaq_s8 (int8x16_t a, int8x16_t b, int8x16_t c)
8015 {
8016   int8x16_t result;
8017   __asm__ ("mla %0.16b, %2.16b, %3.16b"
8018            : "=w"(result)
8019            : "0"(a), "w"(b), "w"(c)
8020            : /* No clobbers */);
8021   return result;
8022 }
8023
8024 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
8025 vmlaq_s16 (int16x8_t a, int16x8_t b, int16x8_t c)
8026 {
8027   int16x8_t result;
8028   __asm__ ("mla %0.8h, %2.8h, %3.8h"
8029            : "=w"(result)
8030            : "0"(a), "w"(b), "w"(c)
8031            : /* No clobbers */);
8032   return result;
8033 }
8034
8035 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
8036 vmlaq_s32 (int32x4_t a, int32x4_t b, int32x4_t c)
8037 {
8038   int32x4_t result;
8039   __asm__ ("mla %0.4s, %2.4s, %3.4s"
8040            : "=w"(result)
8041            : "0"(a), "w"(b), "w"(c)
8042            : /* No clobbers */);
8043   return result;
8044 }
8045
8046 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
8047 vmlaq_u8 (uint8x16_t a, uint8x16_t b, uint8x16_t c)
8048 {
8049   uint8x16_t result;
8050   __asm__ ("mla %0.16b, %2.16b, %3.16b"
8051            : "=w"(result)
8052            : "0"(a), "w"(b), "w"(c)
8053            : /* No clobbers */);
8054   return result;
8055 }
8056
8057 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
8058 vmlaq_u16 (uint16x8_t a, uint16x8_t b, uint16x8_t c)
8059 {
8060   uint16x8_t result;
8061   __asm__ ("mla %0.8h, %2.8h, %3.8h"
8062            : "=w"(result)
8063            : "0"(a), "w"(b), "w"(c)
8064            : /* No clobbers */);
8065   return result;
8066 }
8067
8068 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
8069 vmlaq_u32 (uint32x4_t a, uint32x4_t b, uint32x4_t c)
8070 {
8071   uint32x4_t result;
8072   __asm__ ("mla %0.4s, %2.4s, %3.4s"
8073            : "=w"(result)
8074            : "0"(a), "w"(b), "w"(c)
8075            : /* No clobbers */);
8076   return result;
8077 }
8078
8079 #define vmls_lane_f32(a, b, c, d)                                       \
8080   __extension__                                                         \
8081     ({                                                                  \
8082        float32x2_t c_ = (c);                                            \
8083        float32x2_t b_ = (b);                                            \
8084        float32x2_t a_ = (a);                                            \
8085        float32x2_t result;                                              \
8086        float32x2_t t1;                                                  \
8087        __asm__ ("fmul %1.2s, %3.2s, %4.s[%5]; fsub %0.2s, %0.2s, %1.2s" \
8088                 : "=w"(result), "=w"(t1)                                \
8089                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
8090                 : /* No clobbers */);                                   \
8091        result;                                                          \
8092      })
8093
8094 #define vmls_lane_s16(a, b, c, d)                                       \
8095   __extension__                                                         \
8096     ({                                                                  \
8097        int16x4_t c_ = (c);                                              \
8098        int16x4_t b_ = (b);                                              \
8099        int16x4_t a_ = (a);                                              \
8100        int16x4_t result;                                                \
8101        __asm__ ("mls %0.4h,%2.4h,%3.h[%4]"                              \
8102                 : "=w"(result)                                          \
8103                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
8104                 : /* No clobbers */);                                   \
8105        result;                                                          \
8106      })
8107
8108 #define vmls_lane_s32(a, b, c, d)                                       \
8109   __extension__                                                         \
8110     ({                                                                  \
8111        int32x2_t c_ = (c);                                              \
8112        int32x2_t b_ = (b);                                              \
8113        int32x2_t a_ = (a);                                              \
8114        int32x2_t result;                                                \
8115        __asm__ ("mls %0.2s,%2.2s,%3.s[%4]"                              \
8116                 : "=w"(result)                                          \
8117                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
8118                 : /* No clobbers */);                                   \
8119        result;                                                          \
8120      })
8121
8122 #define vmls_lane_u16(a, b, c, d)                                       \
8123   __extension__                                                         \
8124     ({                                                                  \
8125        uint16x4_t c_ = (c);                                             \
8126        uint16x4_t b_ = (b);                                             \
8127        uint16x4_t a_ = (a);                                             \
8128        uint16x4_t result;                                               \
8129        __asm__ ("mls %0.4h,%2.4h,%3.h[%4]"                              \
8130                 : "=w"(result)                                          \
8131                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
8132                 : /* No clobbers */);                                   \
8133        result;                                                          \
8134      })
8135
8136 #define vmls_lane_u32(a, b, c, d)                                       \
8137   __extension__                                                         \
8138     ({                                                                  \
8139        uint32x2_t c_ = (c);                                             \
8140        uint32x2_t b_ = (b);                                             \
8141        uint32x2_t a_ = (a);                                             \
8142        uint32x2_t result;                                               \
8143        __asm__ ("mls %0.2s,%2.2s,%3.s[%4]"                              \
8144                 : "=w"(result)                                          \
8145                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
8146                 : /* No clobbers */);                                   \
8147        result;                                                          \
8148      })
8149
8150 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
8151 vmls_n_f32 (float32x2_t a, float32x2_t b, float32_t c)
8152 {
8153   float32x2_t result;
8154   float32x2_t t1;
8155   __asm__ ("fmul %1.2s, %3.2s, %4.s[0]; fsub %0.2s, %0.2s, %1.2s"
8156            : "=w"(result), "=w"(t1)
8157            : "0"(a), "w"(b), "w"(c)
8158            : /* No clobbers */);
8159   return result;
8160 }
8161
8162 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
8163 vmls_n_s16 (int16x4_t a, int16x4_t b, int16_t c)
8164 {
8165   int16x4_t result;
8166   __asm__ ("mls %0.4h, %2.4h, %3.h[0]"
8167            : "=w"(result)
8168            : "0"(a), "w"(b), "x"(c)
8169            : /* No clobbers */);
8170   return result;
8171 }
8172
8173 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
8174 vmls_n_s32 (int32x2_t a, int32x2_t b, int32_t c)
8175 {
8176   int32x2_t result;
8177   __asm__ ("mls %0.2s, %2.2s, %3.s[0]"
8178            : "=w"(result)
8179            : "0"(a), "w"(b), "w"(c)
8180            : /* No clobbers */);
8181   return result;
8182 }
8183
8184 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
8185 vmls_n_u16 (uint16x4_t a, uint16x4_t b, uint16_t c)
8186 {
8187   uint16x4_t result;
8188   __asm__ ("mls %0.4h, %2.4h, %3.h[0]"
8189            : "=w"(result)
8190            : "0"(a), "w"(b), "x"(c)
8191            : /* No clobbers */);
8192   return result;
8193 }
8194
8195 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
8196 vmls_n_u32 (uint32x2_t a, uint32x2_t b, uint32_t c)
8197 {
8198   uint32x2_t result;
8199   __asm__ ("mls %0.2s, %2.2s, %3.s[0]"
8200            : "=w"(result)
8201            : "0"(a), "w"(b), "w"(c)
8202            : /* No clobbers */);
8203   return result;
8204 }
8205
8206 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
8207 vmls_s8 (int8x8_t a, int8x8_t b, int8x8_t c)
8208 {
8209   int8x8_t result;
8210   __asm__ ("mls %0.8b,%2.8b,%3.8b"
8211            : "=w"(result)
8212            : "0"(a), "w"(b), "w"(c)
8213            : /* No clobbers */);
8214   return result;
8215 }
8216
8217 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
8218 vmls_s16 (int16x4_t a, int16x4_t b, int16x4_t c)
8219 {
8220   int16x4_t result;
8221   __asm__ ("mls %0.4h,%2.4h,%3.4h"
8222            : "=w"(result)
8223            : "0"(a), "w"(b), "w"(c)
8224            : /* No clobbers */);
8225   return result;
8226 }
8227
8228 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
8229 vmls_s32 (int32x2_t a, int32x2_t b, int32x2_t c)
8230 {
8231   int32x2_t result;
8232   __asm__ ("mls %0.2s,%2.2s,%3.2s"
8233            : "=w"(result)
8234            : "0"(a), "w"(b), "w"(c)
8235            : /* No clobbers */);
8236   return result;
8237 }
8238
8239 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
8240 vmls_u8 (uint8x8_t a, uint8x8_t b, uint8x8_t c)
8241 {
8242   uint8x8_t result;
8243   __asm__ ("mls %0.8b,%2.8b,%3.8b"
8244            : "=w"(result)
8245            : "0"(a), "w"(b), "w"(c)
8246            : /* No clobbers */);
8247   return result;
8248 }
8249
8250 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
8251 vmls_u16 (uint16x4_t a, uint16x4_t b, uint16x4_t c)
8252 {
8253   uint16x4_t result;
8254   __asm__ ("mls %0.4h,%2.4h,%3.4h"
8255            : "=w"(result)
8256            : "0"(a), "w"(b), "w"(c)
8257            : /* No clobbers */);
8258   return result;
8259 }
8260
8261 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
8262 vmls_u32 (uint32x2_t a, uint32x2_t b, uint32x2_t c)
8263 {
8264   uint32x2_t result;
8265   __asm__ ("mls %0.2s,%2.2s,%3.2s"
8266            : "=w"(result)
8267            : "0"(a), "w"(b), "w"(c)
8268            : /* No clobbers */);
8269   return result;
8270 }
8271
8272 #define vmlsl_high_lane_s16(a, b, c, d)                                 \
8273   __extension__                                                         \
8274     ({                                                                  \
8275        int16x8_t c_ = (c);                                              \
8276        int16x8_t b_ = (b);                                              \
8277        int32x4_t a_ = (a);                                              \
8278        int32x4_t result;                                                \
8279        __asm__ ("smlsl2 %0.4s, %2.8h, %3.h[%4]"                         \
8280                 : "=w"(result)                                          \
8281                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
8282                 : /* No clobbers */);                                   \
8283        result;                                                          \
8284      })
8285
8286 #define vmlsl_high_lane_s32(a, b, c, d)                                 \
8287   __extension__                                                         \
8288     ({                                                                  \
8289        int32x4_t c_ = (c);                                              \
8290        int32x4_t b_ = (b);                                              \
8291        int64x2_t a_ = (a);                                              \
8292        int64x2_t result;                                                \
8293        __asm__ ("smlsl2 %0.2d, %2.4s, %3.s[%4]"                         \
8294                 : "=w"(result)                                          \
8295                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
8296                 : /* No clobbers */);                                   \
8297        result;                                                          \
8298      })
8299
8300 #define vmlsl_high_lane_u16(a, b, c, d)                                 \
8301   __extension__                                                         \
8302     ({                                                                  \
8303        uint16x8_t c_ = (c);                                             \
8304        uint16x8_t b_ = (b);                                             \
8305        uint32x4_t a_ = (a);                                             \
8306        uint32x4_t result;                                               \
8307        __asm__ ("umlsl2 %0.4s, %2.8h, %3.h[%4]"                         \
8308                 : "=w"(result)                                          \
8309                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
8310                 : /* No clobbers */);                                   \
8311        result;                                                          \
8312      })
8313
8314 #define vmlsl_high_lane_u32(a, b, c, d)                                 \
8315   __extension__                                                         \
8316     ({                                                                  \
8317        uint32x4_t c_ = (c);                                             \
8318        uint32x4_t b_ = (b);                                             \
8319        uint64x2_t a_ = (a);                                             \
8320        uint64x2_t result;                                               \
8321        __asm__ ("umlsl2 %0.2d, %2.4s, %3.s[%4]"                         \
8322                 : "=w"(result)                                          \
8323                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
8324                 : /* No clobbers */);                                   \
8325        result;                                                          \
8326      })
8327
8328 #define vmlsl_high_laneq_s16(a, b, c, d)                                \
8329   __extension__                                                         \
8330     ({                                                                  \
8331        int16x8_t c_ = (c);                                              \
8332        int16x8_t b_ = (b);                                              \
8333        int32x4_t a_ = (a);                                              \
8334        int32x4_t result;                                                \
8335        __asm__ ("smlsl2 %0.4s, %2.8h, %3.h[%4]"                         \
8336                 : "=w"(result)                                          \
8337                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
8338                 : /* No clobbers */);                                   \
8339        result;                                                          \
8340      })
8341
8342 #define vmlsl_high_laneq_s32(a, b, c, d)                                \
8343   __extension__                                                         \
8344     ({                                                                  \
8345        int32x4_t c_ = (c);                                              \
8346        int32x4_t b_ = (b);                                              \
8347        int64x2_t a_ = (a);                                              \
8348        int64x2_t result;                                                \
8349        __asm__ ("smlsl2 %0.2d, %2.4s, %3.s[%4]"                         \
8350                 : "=w"(result)                                          \
8351                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
8352                 : /* No clobbers */);                                   \
8353        result;                                                          \
8354      })
8355
8356 #define vmlsl_high_laneq_u16(a, b, c, d)                                \
8357   __extension__                                                         \
8358     ({                                                                  \
8359        uint16x8_t c_ = (c);                                             \
8360        uint16x8_t b_ = (b);                                             \
8361        uint32x4_t a_ = (a);                                             \
8362        uint32x4_t result;                                               \
8363        __asm__ ("umlsl2 %0.4s, %2.8h, %3.h[%4]"                         \
8364                 : "=w"(result)                                          \
8365                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
8366                 : /* No clobbers */);                                   \
8367        result;                                                          \
8368      })
8369
8370 #define vmlsl_high_laneq_u32(a, b, c, d)                                \
8371   __extension__                                                         \
8372     ({                                                                  \
8373        uint32x4_t c_ = (c);                                             \
8374        uint32x4_t b_ = (b);                                             \
8375        uint64x2_t a_ = (a);                                             \
8376        uint64x2_t result;                                               \
8377        __asm__ ("umlsl2 %0.2d, %2.4s, %3.s[%4]"                         \
8378                 : "=w"(result)                                          \
8379                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
8380                 : /* No clobbers */);                                   \
8381        result;                                                          \
8382      })
8383
8384 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
8385 vmlsl_high_n_s16 (int32x4_t a, int16x8_t b, int16_t c)
8386 {
8387   int32x4_t result;
8388   __asm__ ("smlsl2 %0.4s, %2.8h, %3.h[0]"
8389            : "=w"(result)
8390            : "0"(a), "w"(b), "x"(c)
8391            : /* No clobbers */);
8392   return result;
8393 }
8394
8395 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
8396 vmlsl_high_n_s32 (int64x2_t a, int32x4_t b, int32_t c)
8397 {
8398   int64x2_t result;
8399   __asm__ ("smlsl2 %0.2d, %2.4s, %3.s[0]"
8400            : "=w"(result)
8401            : "0"(a), "w"(b), "w"(c)
8402            : /* No clobbers */);
8403   return result;
8404 }
8405
8406 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
8407 vmlsl_high_n_u16 (uint32x4_t a, uint16x8_t b, uint16_t c)
8408 {
8409   uint32x4_t result;
8410   __asm__ ("umlsl2 %0.4s, %2.8h, %3.h[0]"
8411            : "=w"(result)
8412            : "0"(a), "w"(b), "x"(c)
8413            : /* No clobbers */);
8414   return result;
8415 }
8416
8417 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
8418 vmlsl_high_n_u32 (uint64x2_t a, uint32x4_t b, uint32_t c)
8419 {
8420   uint64x2_t result;
8421   __asm__ ("umlsl2 %0.2d, %2.4s, %3.s[0]"
8422            : "=w"(result)
8423            : "0"(a), "w"(b), "w"(c)
8424            : /* No clobbers */);
8425   return result;
8426 }
8427
8428 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
8429 vmlsl_high_s8 (int16x8_t a, int8x16_t b, int8x16_t c)
8430 {
8431   int16x8_t result;
8432   __asm__ ("smlsl2 %0.8h,%2.16b,%3.16b"
8433            : "=w"(result)
8434            : "0"(a), "w"(b), "w"(c)
8435            : /* No clobbers */);
8436   return result;
8437 }
8438
8439 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
8440 vmlsl_high_s16 (int32x4_t a, int16x8_t b, int16x8_t c)
8441 {
8442   int32x4_t result;
8443   __asm__ ("smlsl2 %0.4s,%2.8h,%3.8h"
8444            : "=w"(result)
8445            : "0"(a), "w"(b), "w"(c)
8446            : /* No clobbers */);
8447   return result;
8448 }
8449
8450 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
8451 vmlsl_high_s32 (int64x2_t a, int32x4_t b, int32x4_t c)
8452 {
8453   int64x2_t result;
8454   __asm__ ("smlsl2 %0.2d,%2.4s,%3.4s"
8455            : "=w"(result)
8456            : "0"(a), "w"(b), "w"(c)
8457            : /* No clobbers */);
8458   return result;
8459 }
8460
8461 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
8462 vmlsl_high_u8 (uint16x8_t a, uint8x16_t b, uint8x16_t c)
8463 {
8464   uint16x8_t result;
8465   __asm__ ("umlsl2 %0.8h,%2.16b,%3.16b"
8466            : "=w"(result)
8467            : "0"(a), "w"(b), "w"(c)
8468            : /* No clobbers */);
8469   return result;
8470 }
8471
8472 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
8473 vmlsl_high_u16 (uint32x4_t a, uint16x8_t b, uint16x8_t c)
8474 {
8475   uint32x4_t result;
8476   __asm__ ("umlsl2 %0.4s,%2.8h,%3.8h"
8477            : "=w"(result)
8478            : "0"(a), "w"(b), "w"(c)
8479            : /* No clobbers */);
8480   return result;
8481 }
8482
8483 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
8484 vmlsl_high_u32 (uint64x2_t a, uint32x4_t b, uint32x4_t c)
8485 {
8486   uint64x2_t result;
8487   __asm__ ("umlsl2 %0.2d,%2.4s,%3.4s"
8488            : "=w"(result)
8489            : "0"(a), "w"(b), "w"(c)
8490            : /* No clobbers */);
8491   return result;
8492 }
8493
8494 #define vmlsl_lane_s16(a, b, c, d)                                      \
8495   __extension__                                                         \
8496     ({                                                                  \
8497        int16x4_t c_ = (c);                                              \
8498        int16x4_t b_ = (b);                                              \
8499        int32x4_t a_ = (a);                                              \
8500        int32x4_t result;                                                \
8501        __asm__ ("smlsl %0.4s, %2.4h, %3.h[%4]"                          \
8502                 : "=w"(result)                                          \
8503                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
8504                 : /* No clobbers */);                                   \
8505        result;                                                          \
8506      })
8507
8508 #define vmlsl_lane_s32(a, b, c, d)                                      \
8509   __extension__                                                         \
8510     ({                                                                  \
8511        int32x2_t c_ = (c);                                              \
8512        int32x2_t b_ = (b);                                              \
8513        int64x2_t a_ = (a);                                              \
8514        int64x2_t result;                                                \
8515        __asm__ ("smlsl %0.2d, %2.2s, %3.s[%4]"                          \
8516                 : "=w"(result)                                          \
8517                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
8518                 : /* No clobbers */);                                   \
8519        result;                                                          \
8520      })
8521
8522 #define vmlsl_lane_u16(a, b, c, d)                                      \
8523   __extension__                                                         \
8524     ({                                                                  \
8525        uint16x4_t c_ = (c);                                             \
8526        uint16x4_t b_ = (b);                                             \
8527        uint32x4_t a_ = (a);                                             \
8528        uint32x4_t result;                                               \
8529        __asm__ ("umlsl %0.4s, %2.4h, %3.h[%4]"                          \
8530                 : "=w"(result)                                          \
8531                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
8532                 : /* No clobbers */);                                   \
8533        result;                                                          \
8534      })
8535
8536 #define vmlsl_lane_u32(a, b, c, d)                                      \
8537   __extension__                                                         \
8538     ({                                                                  \
8539        uint32x2_t c_ = (c);                                             \
8540        uint32x2_t b_ = (b);                                             \
8541        uint64x2_t a_ = (a);                                             \
8542        uint64x2_t result;                                               \
8543        __asm__ ("umlsl %0.2d, %2.2s, %3.s[%4]"                          \
8544                 : "=w"(result)                                          \
8545                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
8546                 : /* No clobbers */);                                   \
8547        result;                                                          \
8548      })
8549
8550 #define vmlsl_laneq_s16(a, b, c, d)                                     \
8551   __extension__                                                         \
8552     ({                                                                  \
8553        int16x8_t c_ = (c);                                              \
8554        int16x4_t b_ = (b);                                              \
8555        int32x4_t a_ = (a);                                              \
8556        int32x4_t result;                                                \
8557        __asm__ ("smlsl %0.4s, %2.4h, %3.h[%4]"                          \
8558                 : "=w"(result)                                          \
8559                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
8560                 : /* No clobbers */);                                   \
8561        result;                                                          \
8562      })
8563
8564 #define vmlsl_laneq_s32(a, b, c, d)                                     \
8565   __extension__                                                         \
8566     ({                                                                  \
8567        int32x4_t c_ = (c);                                              \
8568        int32x2_t b_ = (b);                                              \
8569        int64x2_t a_ = (a);                                              \
8570        int64x2_t result;                                                \
8571        __asm__ ("smlsl %0.2d, %2.2s, %3.s[%4]"                          \
8572                 : "=w"(result)                                          \
8573                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
8574                 : /* No clobbers */);                                   \
8575        result;                                                          \
8576      })
8577
8578 #define vmlsl_laneq_u16(a, b, c, d)                                     \
8579   __extension__                                                         \
8580     ({                                                                  \
8581        uint16x8_t c_ = (c);                                             \
8582        uint16x4_t b_ = (b);                                             \
8583        uint32x4_t a_ = (a);                                             \
8584        uint32x4_t result;                                               \
8585        __asm__ ("umlsl %0.4s, %2.4h, %3.h[%4]"                          \
8586                 : "=w"(result)                                          \
8587                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
8588                 : /* No clobbers */);                                   \
8589        result;                                                          \
8590      })
8591
8592 #define vmlsl_laneq_u32(a, b, c, d)                                     \
8593   __extension__                                                         \
8594     ({                                                                  \
8595        uint32x4_t c_ = (c);                                             \
8596        uint32x2_t b_ = (b);                                             \
8597        uint64x2_t a_ = (a);                                             \
8598        uint64x2_t result;                                               \
8599        __asm__ ("umlsl %0.2d, %2.2s, %3.s[%4]"                          \
8600                 : "=w"(result)                                          \
8601                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
8602                 : /* No clobbers */);                                   \
8603        result;                                                          \
8604      })
8605
8606 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
8607 vmlsl_n_s16 (int32x4_t a, int16x4_t b, int16_t c)
8608 {
8609   int32x4_t result;
8610   __asm__ ("smlsl %0.4s, %2.4h, %3.h[0]"
8611            : "=w"(result)
8612            : "0"(a), "w"(b), "x"(c)
8613            : /* No clobbers */);
8614   return result;
8615 }
8616
8617 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
8618 vmlsl_n_s32 (int64x2_t a, int32x2_t b, int32_t c)
8619 {
8620   int64x2_t result;
8621   __asm__ ("smlsl %0.2d, %2.2s, %3.s[0]"
8622            : "=w"(result)
8623            : "0"(a), "w"(b), "w"(c)
8624            : /* No clobbers */);
8625   return result;
8626 }
8627
8628 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
8629 vmlsl_n_u16 (uint32x4_t a, uint16x4_t b, uint16_t c)
8630 {
8631   uint32x4_t result;
8632   __asm__ ("umlsl %0.4s, %2.4h, %3.h[0]"
8633            : "=w"(result)
8634            : "0"(a), "w"(b), "x"(c)
8635            : /* No clobbers */);
8636   return result;
8637 }
8638
8639 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
8640 vmlsl_n_u32 (uint64x2_t a, uint32x2_t b, uint32_t c)
8641 {
8642   uint64x2_t result;
8643   __asm__ ("umlsl %0.2d, %2.2s, %3.s[0]"
8644            : "=w"(result)
8645            : "0"(a), "w"(b), "w"(c)
8646            : /* No clobbers */);
8647   return result;
8648 }
8649
8650 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
8651 vmlsl_s8 (int16x8_t a, int8x8_t b, int8x8_t c)
8652 {
8653   int16x8_t result;
8654   __asm__ ("smlsl %0.8h, %2.8b, %3.8b"
8655            : "=w"(result)
8656            : "0"(a), "w"(b), "w"(c)
8657            : /* No clobbers */);
8658   return result;
8659 }
8660
8661 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
8662 vmlsl_s16 (int32x4_t a, int16x4_t b, int16x4_t c)
8663 {
8664   int32x4_t result;
8665   __asm__ ("smlsl %0.4s, %2.4h, %3.4h"
8666            : "=w"(result)
8667            : "0"(a), "w"(b), "w"(c)
8668            : /* No clobbers */);
8669   return result;
8670 }
8671
8672 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
8673 vmlsl_s32 (int64x2_t a, int32x2_t b, int32x2_t c)
8674 {
8675   int64x2_t result;
8676   __asm__ ("smlsl %0.2d, %2.2s, %3.2s"
8677            : "=w"(result)
8678            : "0"(a), "w"(b), "w"(c)
8679            : /* No clobbers */);
8680   return result;
8681 }
8682
8683 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
8684 vmlsl_u8 (uint16x8_t a, uint8x8_t b, uint8x8_t c)
8685 {
8686   uint16x8_t result;
8687   __asm__ ("umlsl %0.8h, %2.8b, %3.8b"
8688            : "=w"(result)
8689            : "0"(a), "w"(b), "w"(c)
8690            : /* No clobbers */);
8691   return result;
8692 }
8693
8694 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
8695 vmlsl_u16 (uint32x4_t a, uint16x4_t b, uint16x4_t c)
8696 {
8697   uint32x4_t result;
8698   __asm__ ("umlsl %0.4s, %2.4h, %3.4h"
8699            : "=w"(result)
8700            : "0"(a), "w"(b), "w"(c)
8701            : /* No clobbers */);
8702   return result;
8703 }
8704
8705 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
8706 vmlsl_u32 (uint64x2_t a, uint32x2_t b, uint32x2_t c)
8707 {
8708   uint64x2_t result;
8709   __asm__ ("umlsl %0.2d, %2.2s, %3.2s"
8710            : "=w"(result)
8711            : "0"(a), "w"(b), "w"(c)
8712            : /* No clobbers */);
8713   return result;
8714 }
8715
8716 #define vmlsq_lane_f32(a, b, c, d)                                      \
8717   __extension__                                                         \
8718     ({                                                                  \
8719        float32x4_t c_ = (c);                                            \
8720        float32x4_t b_ = (b);                                            \
8721        float32x4_t a_ = (a);                                            \
8722        float32x4_t result;                                              \
8723        float32x4_t t1;                                                  \
8724        __asm__ ("fmul %1.4s, %3.4s, %4.s[%5]; fsub %0.4s, %0.4s, %1.4s" \
8725                 : "=w"(result), "=w"(t1)                                \
8726                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
8727                 : /* No clobbers */);                                   \
8728        result;                                                          \
8729      })
8730
8731 #define vmlsq_lane_s16(a, b, c, d)                                      \
8732   __extension__                                                         \
8733     ({                                                                  \
8734        int16x8_t c_ = (c);                                              \
8735        int16x8_t b_ = (b);                                              \
8736        int16x8_t a_ = (a);                                              \
8737        int16x8_t result;                                                \
8738        __asm__ ("mls %0.8h,%2.8h,%3.h[%4]"                              \
8739                 : "=w"(result)                                          \
8740                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
8741                 : /* No clobbers */);                                   \
8742        result;                                                          \
8743      })
8744
8745 #define vmlsq_lane_s32(a, b, c, d)                                      \
8746   __extension__                                                         \
8747     ({                                                                  \
8748        int32x4_t c_ = (c);                                              \
8749        int32x4_t b_ = (b);                                              \
8750        int32x4_t a_ = (a);                                              \
8751        int32x4_t result;                                                \
8752        __asm__ ("mls %0.4s,%2.4s,%3.s[%4]"                              \
8753                 : "=w"(result)                                          \
8754                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
8755                 : /* No clobbers */);                                   \
8756        result;                                                          \
8757      })
8758
8759 #define vmlsq_lane_u16(a, b, c, d)                                      \
8760   __extension__                                                         \
8761     ({                                                                  \
8762        uint16x8_t c_ = (c);                                             \
8763        uint16x8_t b_ = (b);                                             \
8764        uint16x8_t a_ = (a);                                             \
8765        uint16x8_t result;                                               \
8766        __asm__ ("mls %0.8h,%2.8h,%3.h[%4]"                              \
8767                 : "=w"(result)                                          \
8768                 : "0"(a_), "w"(b_), "x"(c_), "i"(d)                     \
8769                 : /* No clobbers */);                                   \
8770        result;                                                          \
8771      })
8772
8773 #define vmlsq_lane_u32(a, b, c, d)                                      \
8774   __extension__                                                         \
8775     ({                                                                  \
8776        uint32x4_t c_ = (c);                                             \
8777        uint32x4_t b_ = (b);                                             \
8778        uint32x4_t a_ = (a);                                             \
8779        uint32x4_t result;                                               \
8780        __asm__ ("mls %0.4s,%2.4s,%3.s[%4]"                              \
8781                 : "=w"(result)                                          \
8782                 : "0"(a_), "w"(b_), "w"(c_), "i"(d)                     \
8783                 : /* No clobbers */);                                   \
8784        result;                                                          \
8785      })
8786
8787 #define vmlsq_laneq_f32(__a, __b, __c, __d)                             \
8788   __extension__                                                         \
8789     ({                                                                  \
8790        float32x4_t __c_ = (__c);                                        \
8791        float32x4_t __b_ = (__b);                                        \
8792        float32x4_t __a_ = (__a);                                        \
8793        float32x4_t __result;                                            \
8794        float32x4_t __t1;                                                \
8795        __asm__ ("fmul %1.4s, %3.4s, %4.s[%5]; fsub %0.4s, %0.4s, %1.4s" \
8796                 : "=w"(__result), "=w"(__t1)                            \
8797                 : "0"(__a_), "w"(__b_), "w"(__c_), "i"(__d)             \
8798                 : /* No clobbers */);                                   \
8799        __result;                                                        \
8800      })
8801
8802 #define vmlsq_laneq_s16(__a, __b, __c, __d)                             \
8803   __extension__                                                         \
8804     ({                                                                  \
8805        int16x8_t __c_ = (__c);                                          \
8806        int16x8_t __b_ = (__b);                                          \
8807        int16x8_t __a_ = (__a);                                          \
8808        int16x8_t __result;                                              \
8809        __asm__ ("mls %0.8h, %2.8h, %3.h[%4]"                            \
8810                 : "=w"(__result)                                        \
8811                 : "0"(__a_), "w"(__b_), "x"(__c_), "i"(__d)             \
8812                 : /* No clobbers */);                                   \
8813        __result;                                                        \
8814      })
8815
8816 #define vmlsq_laneq_s32(__a, __b, __c, __d)                             \
8817   __extension__                                                         \
8818     ({                                                                  \
8819        int32x4_t __c_ = (__c);                                          \
8820        int32x4_t __b_ = (__b);                                          \
8821        int32x4_t __a_ = (__a);                                          \
8822        int32x4_t __result;                                              \
8823        __asm__ ("mls %0.4s, %2.4s, %3.s[%4]"                            \
8824                 : "=w"(__result)                                        \
8825                 : "0"(__a_), "w"(__b_), "w"(__c_), "i"(__d)             \
8826                 : /* No clobbers */);                                   \
8827        __result;                                                        \
8828      })
8829
8830 #define vmlsq_laneq_u16(__a, __b, __c, __d)                             \
8831   __extension__                                                         \
8832     ({                                                                  \
8833        uint16x8_t __c_ = (__c);                                         \
8834        uint16x8_t __b_ = (__b);                                         \
8835        uint16x8_t __a_ = (__a);                                         \
8836        uint16x8_t __result;                                             \
8837        __asm__ ("mls %0.8h, %2.8h, %3.h[%4]"                            \
8838                 : "=w"(__result)                                        \
8839                 : "0"(__a_), "w"(__b_), "x"(__c_), "i"(__d)             \
8840                 : /* No clobbers */);                                   \
8841        __result;                                                        \
8842      })
8843
8844 #define vmlsq_laneq_u32(__a, __b, __c, __d)                             \
8845   __extension__                                                         \
8846     ({                                                                  \
8847        uint32x4_t __c_ = (__c);                                         \
8848        uint32x4_t __b_ = (__b);                                         \
8849        uint32x4_t __a_ = (__a);                                         \
8850        uint32x4_t __result;                                             \
8851        __asm__ ("mls %0.4s, %2.4s, %3.s[%4]"                            \
8852                 : "=w"(__result)                                        \
8853                 : "0"(__a_), "w"(__b_), "w"(__c_), "i"(__d)             \
8854                 : /* No clobbers */);                                   \
8855        __result;                                                        \
8856      })
8857
8858 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
8859 vmlsq_n_f32 (float32x4_t a, float32x4_t b, float32_t c)
8860 {
8861   float32x4_t result;
8862   float32x4_t t1;
8863   __asm__ ("fmul %1.4s, %3.4s, %4.s[0]; fsub %0.4s, %0.4s, %1.4s"
8864            : "=w"(result), "=w"(t1)
8865            : "0"(a), "w"(b), "w"(c)
8866            : /* No clobbers */);
8867   return result;
8868 }
8869
8870 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
8871 vmlsq_n_f64 (float64x2_t a, float64x2_t b, float64_t c)
8872 {
8873   float64x2_t result;
8874   float64x2_t t1;
8875   __asm__ ("fmul %1.2d, %3.2d, %4.d[0]; fsub %0.2d, %0.2d, %1.2d"
8876            : "=w"(result), "=w"(t1)
8877            : "0"(a), "w"(b), "x"(c)
8878            : /* No clobbers */);
8879   return result;
8880 }
8881
8882 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
8883 vmlsq_n_s16 (int16x8_t a, int16x8_t b, int16_t c)
8884 {
8885   int16x8_t result;
8886   __asm__ ("mls %0.8h, %2.8h, %3.h[0]"
8887            : "=w"(result)
8888            : "0"(a), "w"(b), "x"(c)
8889            : /* No clobbers */);
8890   return result;
8891 }
8892
8893 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
8894 vmlsq_n_s32 (int32x4_t a, int32x4_t b, int32_t c)
8895 {
8896   int32x4_t result;
8897   __asm__ ("mls %0.4s, %2.4s, %3.s[0]"
8898            : "=w"(result)
8899            : "0"(a), "w"(b), "w"(c)
8900            : /* No clobbers */);
8901   return result;
8902 }
8903
8904 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
8905 vmlsq_n_u16 (uint16x8_t a, uint16x8_t b, uint16_t c)
8906 {
8907   uint16x8_t result;
8908   __asm__ ("mls %0.8h, %2.8h, %3.h[0]"
8909            : "=w"(result)
8910            : "0"(a), "w"(b), "x"(c)
8911            : /* No clobbers */);
8912   return result;
8913 }
8914
8915 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
8916 vmlsq_n_u32 (uint32x4_t a, uint32x4_t b, uint32_t c)
8917 {
8918   uint32x4_t result;
8919   __asm__ ("mls %0.4s, %2.4s, %3.s[0]"
8920            : "=w"(result)
8921            : "0"(a), "w"(b), "w"(c)
8922            : /* No clobbers */);
8923   return result;
8924 }
8925
8926 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
8927 vmlsq_s8 (int8x16_t a, int8x16_t b, int8x16_t c)
8928 {
8929   int8x16_t result;
8930   __asm__ ("mls %0.16b,%2.16b,%3.16b"
8931            : "=w"(result)
8932            : "0"(a), "w"(b), "w"(c)
8933            : /* No clobbers */);
8934   return result;
8935 }
8936
8937 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
8938 vmlsq_s16 (int16x8_t a, int16x8_t b, int16x8_t c)
8939 {
8940   int16x8_t result;
8941   __asm__ ("mls %0.8h,%2.8h,%3.8h"
8942            : "=w"(result)
8943            : "0"(a), "w"(b), "w"(c)
8944            : /* No clobbers */);
8945   return result;
8946 }
8947
8948 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
8949 vmlsq_s32 (int32x4_t a, int32x4_t b, int32x4_t c)
8950 {
8951   int32x4_t result;
8952   __asm__ ("mls %0.4s,%2.4s,%3.4s"
8953            : "=w"(result)
8954            : "0"(a), "w"(b), "w"(c)
8955            : /* No clobbers */);
8956   return result;
8957 }
8958
8959 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
8960 vmlsq_u8 (uint8x16_t a, uint8x16_t b, uint8x16_t c)
8961 {
8962   uint8x16_t result;
8963   __asm__ ("mls %0.16b,%2.16b,%3.16b"
8964            : "=w"(result)
8965            : "0"(a), "w"(b), "w"(c)
8966            : /* No clobbers */);
8967   return result;
8968 }
8969
8970 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
8971 vmlsq_u16 (uint16x8_t a, uint16x8_t b, uint16x8_t c)
8972 {
8973   uint16x8_t result;
8974   __asm__ ("mls %0.8h,%2.8h,%3.8h"
8975            : "=w"(result)
8976            : "0"(a), "w"(b), "w"(c)
8977            : /* No clobbers */);
8978   return result;
8979 }
8980
8981 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
8982 vmlsq_u32 (uint32x4_t a, uint32x4_t b, uint32x4_t c)
8983 {
8984   uint32x4_t result;
8985   __asm__ ("mls %0.4s,%2.4s,%3.4s"
8986            : "=w"(result)
8987            : "0"(a), "w"(b), "w"(c)
8988            : /* No clobbers */);
8989   return result;
8990 }
8991
8992 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
8993 vmov_n_f32 (float32_t a)
8994 {
8995   float32x2_t result;
8996   __asm__ ("dup %0.2s, %w1"
8997            : "=w"(result)
8998            : "r"(a)
8999            : /* No clobbers */);
9000   return result;
9001 }
9002
9003 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
9004 vmov_n_p8 (uint32_t a)
9005 {
9006   poly8x8_t result;
9007   __asm__ ("dup %0.8b,%w1"
9008            : "=w"(result)
9009            : "r"(a)
9010            : /* No clobbers */);
9011   return result;
9012 }
9013
9014 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
9015 vmov_n_p16 (uint32_t a)
9016 {
9017   poly16x4_t result;
9018   __asm__ ("dup %0.4h,%w1"
9019            : "=w"(result)
9020            : "r"(a)
9021            : /* No clobbers */);
9022   return result;
9023 }
9024
9025 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
9026 vmov_n_s8 (int32_t a)
9027 {
9028   int8x8_t result;
9029   __asm__ ("dup %0.8b,%w1"
9030            : "=w"(result)
9031            : "r"(a)
9032            : /* No clobbers */);
9033   return result;
9034 }
9035
9036 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
9037 vmov_n_s16 (int32_t a)
9038 {
9039   int16x4_t result;
9040   __asm__ ("dup %0.4h,%w1"
9041            : "=w"(result)
9042            : "r"(a)
9043            : /* No clobbers */);
9044   return result;
9045 }
9046
9047 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
9048 vmov_n_s32 (int32_t a)
9049 {
9050   int32x2_t result;
9051   __asm__ ("dup %0.2s,%w1"
9052            : "=w"(result)
9053            : "r"(a)
9054            : /* No clobbers */);
9055   return result;
9056 }
9057
9058 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
9059 vmov_n_s64 (int64_t a)
9060 {
9061   int64x1_t result;
9062   __asm__ ("ins %0.d[0],%x1"
9063            : "=w"(result)
9064            : "r"(a)
9065            : /* No clobbers */);
9066   return result;
9067 }
9068
9069 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
9070 vmov_n_u8 (uint32_t a)
9071 {
9072   uint8x8_t result;
9073   __asm__ ("dup %0.8b,%w1"
9074            : "=w"(result)
9075            : "r"(a)
9076            : /* No clobbers */);
9077   return result;
9078 }
9079
9080 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
9081 vmov_n_u16 (uint32_t a)
9082 {
9083   uint16x4_t result;
9084   __asm__ ("dup %0.4h,%w1"
9085            : "=w"(result)
9086            : "r"(a)
9087            : /* No clobbers */);
9088   return result;
9089 }
9090
9091 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
9092 vmov_n_u32 (uint32_t a)
9093 {
9094   uint32x2_t result;
9095   __asm__ ("dup %0.2s,%w1"
9096            : "=w"(result)
9097            : "r"(a)
9098            : /* No clobbers */);
9099   return result;
9100 }
9101
9102 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
9103 vmov_n_u64 (uint64_t a)
9104 {
9105   uint64x1_t result;
9106   __asm__ ("ins %0.d[0],%x1"
9107            : "=w"(result)
9108            : "r"(a)
9109            : /* No clobbers */);
9110   return result;
9111 }
9112
9113 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
9114 vmovl_high_s8 (int8x16_t a)
9115 {
9116   int16x8_t result;
9117   __asm__ ("sshll2 %0.8h,%1.16b,#0"
9118            : "=w"(result)
9119            : "w"(a)
9120            : /* No clobbers */);
9121   return result;
9122 }
9123
9124 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
9125 vmovl_high_s16 (int16x8_t a)
9126 {
9127   int32x4_t result;
9128   __asm__ ("sshll2 %0.4s,%1.8h,#0"
9129            : "=w"(result)
9130            : "w"(a)
9131            : /* No clobbers */);
9132   return result;
9133 }
9134
9135 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
9136 vmovl_high_s32 (int32x4_t a)
9137 {
9138   int64x2_t result;
9139   __asm__ ("sshll2 %0.2d,%1.4s,#0"
9140            : "=w"(result)
9141            : "w"(a)
9142            : /* No clobbers */);
9143   return result;
9144 }
9145
9146 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
9147 vmovl_high_u8 (uint8x16_t a)
9148 {
9149   uint16x8_t result;
9150   __asm__ ("ushll2 %0.8h,%1.16b,#0"
9151            : "=w"(result)
9152            : "w"(a)
9153            : /* No clobbers */);
9154   return result;
9155 }
9156
9157 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
9158 vmovl_high_u16 (uint16x8_t a)
9159 {
9160   uint32x4_t result;
9161   __asm__ ("ushll2 %0.4s,%1.8h,#0"
9162            : "=w"(result)
9163            : "w"(a)
9164            : /* No clobbers */);
9165   return result;
9166 }
9167
9168 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
9169 vmovl_high_u32 (uint32x4_t a)
9170 {
9171   uint64x2_t result;
9172   __asm__ ("ushll2 %0.2d,%1.4s,#0"
9173            : "=w"(result)
9174            : "w"(a)
9175            : /* No clobbers */);
9176   return result;
9177 }
9178
9179 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
9180 vmovl_s8 (int8x8_t a)
9181 {
9182   int16x8_t result;
9183   __asm__ ("sshll %0.8h,%1.8b,#0"
9184            : "=w"(result)
9185            : "w"(a)
9186            : /* No clobbers */);
9187   return result;
9188 }
9189
9190 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
9191 vmovl_s16 (int16x4_t a)
9192 {
9193   int32x4_t result;
9194   __asm__ ("sshll %0.4s,%1.4h,#0"
9195            : "=w"(result)
9196            : "w"(a)
9197            : /* No clobbers */);
9198   return result;
9199 }
9200
9201 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
9202 vmovl_s32 (int32x2_t a)
9203 {
9204   int64x2_t result;
9205   __asm__ ("sshll %0.2d,%1.2s,#0"
9206            : "=w"(result)
9207            : "w"(a)
9208            : /* No clobbers */);
9209   return result;
9210 }
9211
9212 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
9213 vmovl_u8 (uint8x8_t a)
9214 {
9215   uint16x8_t result;
9216   __asm__ ("ushll %0.8h,%1.8b,#0"
9217            : "=w"(result)
9218            : "w"(a)
9219            : /* No clobbers */);
9220   return result;
9221 }
9222
9223 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
9224 vmovl_u16 (uint16x4_t a)
9225 {
9226   uint32x4_t result;
9227   __asm__ ("ushll %0.4s,%1.4h,#0"
9228            : "=w"(result)
9229            : "w"(a)
9230            : /* No clobbers */);
9231   return result;
9232 }
9233
9234 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
9235 vmovl_u32 (uint32x2_t a)
9236 {
9237   uint64x2_t result;
9238   __asm__ ("ushll %0.2d,%1.2s,#0"
9239            : "=w"(result)
9240            : "w"(a)
9241            : /* No clobbers */);
9242   return result;
9243 }
9244
9245 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
9246 vmovn_high_s16 (int8x8_t a, int16x8_t b)
9247 {
9248   int8x16_t result = vcombine_s8 (a, vcreate_s8 (__AARCH64_UINT64_C (0x0)));
9249   __asm__ ("xtn2 %0.16b,%1.8h"
9250            : "+w"(result)
9251            : "w"(b)
9252            : /* No clobbers */);
9253   return result;
9254 }
9255
9256 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
9257 vmovn_high_s32 (int16x4_t a, int32x4_t b)
9258 {
9259   int16x8_t result = vcombine_s16 (a, vcreate_s16 (__AARCH64_UINT64_C (0x0)));
9260   __asm__ ("xtn2 %0.8h,%1.4s"
9261            : "+w"(result)
9262            : "w"(b)
9263            : /* No clobbers */);
9264   return result;
9265 }
9266
9267 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
9268 vmovn_high_s64 (int32x2_t a, int64x2_t b)
9269 {
9270   int32x4_t result = vcombine_s32 (a, vcreate_s32 (__AARCH64_UINT64_C (0x0)));
9271   __asm__ ("xtn2 %0.4s,%1.2d"
9272            : "+w"(result)
9273            : "w"(b)
9274            : /* No clobbers */);
9275   return result;
9276 }
9277
9278 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
9279 vmovn_high_u16 (uint8x8_t a, uint16x8_t b)
9280 {
9281   uint8x16_t result = vcombine_u8 (a, vcreate_u8 (__AARCH64_UINT64_C (0x0)));
9282   __asm__ ("xtn2 %0.16b,%1.8h"
9283            : "+w"(result)
9284            : "w"(b)
9285            : /* No clobbers */);
9286   return result;
9287 }
9288
9289 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
9290 vmovn_high_u32 (uint16x4_t a, uint32x4_t b)
9291 {
9292   uint16x8_t result = vcombine_u16 (a, vcreate_u16 (__AARCH64_UINT64_C (0x0)));
9293   __asm__ ("xtn2 %0.8h,%1.4s"
9294            : "+w"(result)
9295            : "w"(b)
9296            : /* No clobbers */);
9297   return result;
9298 }
9299
9300 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
9301 vmovn_high_u64 (uint32x2_t a, uint64x2_t b)
9302 {
9303   uint32x4_t result = vcombine_u32 (a, vcreate_u32 (__AARCH64_UINT64_C (0x0)));
9304   __asm__ ("xtn2 %0.4s,%1.2d"
9305            : "+w"(result)
9306            : "w"(b)
9307            : /* No clobbers */);
9308   return result;
9309 }
9310
9311 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
9312 vmovn_s16 (int16x8_t a)
9313 {
9314   int8x8_t result;
9315   __asm__ ("xtn %0.8b,%1.8h"
9316            : "=w"(result)
9317            : "w"(a)
9318            : /* No clobbers */);
9319   return result;
9320 }
9321
9322 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
9323 vmovn_s32 (int32x4_t a)
9324 {
9325   int16x4_t result;
9326   __asm__ ("xtn %0.4h,%1.4s"
9327            : "=w"(result)
9328            : "w"(a)
9329            : /* No clobbers */);
9330   return result;
9331 }
9332
9333 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
9334 vmovn_s64 (int64x2_t a)
9335 {
9336   int32x2_t result;
9337   __asm__ ("xtn %0.2s,%1.2d"
9338            : "=w"(result)
9339            : "w"(a)
9340            : /* No clobbers */);
9341   return result;
9342 }
9343
9344 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
9345 vmovn_u16 (uint16x8_t a)
9346 {
9347   uint8x8_t result;
9348   __asm__ ("xtn %0.8b,%1.8h"
9349            : "=w"(result)
9350            : "w"(a)
9351            : /* No clobbers */);
9352   return result;
9353 }
9354
9355 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
9356 vmovn_u32 (uint32x4_t a)
9357 {
9358   uint16x4_t result;
9359   __asm__ ("xtn %0.4h,%1.4s"
9360            : "=w"(result)
9361            : "w"(a)
9362            : /* No clobbers */);
9363   return result;
9364 }
9365
9366 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
9367 vmovn_u64 (uint64x2_t a)
9368 {
9369   uint32x2_t result;
9370   __asm__ ("xtn %0.2s,%1.2d"
9371            : "=w"(result)
9372            : "w"(a)
9373            : /* No clobbers */);
9374   return result;
9375 }
9376
9377 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
9378 vmovq_n_f32 (float32_t a)
9379 {
9380   float32x4_t result;
9381   __asm__ ("dup %0.4s, %w1"
9382            : "=w"(result)
9383            : "r"(a)
9384            : /* No clobbers */);
9385   return result;
9386 }
9387
9388 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
9389 vmovq_n_f64 (float64_t a)
9390 {
9391   return (float64x2_t) {a, a};
9392 }
9393
9394 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
9395 vmovq_n_p8 (uint32_t a)
9396 {
9397   poly8x16_t result;
9398   __asm__ ("dup %0.16b,%w1"
9399            : "=w"(result)
9400            : "r"(a)
9401            : /* No clobbers */);
9402   return result;
9403 }
9404
9405 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
9406 vmovq_n_p16 (uint32_t a)
9407 {
9408   poly16x8_t result;
9409   __asm__ ("dup %0.8h,%w1"
9410            : "=w"(result)
9411            : "r"(a)
9412            : /* No clobbers */);
9413   return result;
9414 }
9415
9416 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
9417 vmovq_n_s8 (int32_t a)
9418 {
9419   int8x16_t result;
9420   __asm__ ("dup %0.16b,%w1"
9421            : "=w"(result)
9422            : "r"(a)
9423            : /* No clobbers */);
9424   return result;
9425 }
9426
9427 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
9428 vmovq_n_s16 (int32_t a)
9429 {
9430   int16x8_t result;
9431   __asm__ ("dup %0.8h,%w1"
9432            : "=w"(result)
9433            : "r"(a)
9434            : /* No clobbers */);
9435   return result;
9436 }
9437
9438 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
9439 vmovq_n_s32 (int32_t a)
9440 {
9441   int32x4_t result;
9442   __asm__ ("dup %0.4s,%w1"
9443            : "=w"(result)
9444            : "r"(a)
9445            : /* No clobbers */);
9446   return result;
9447 }
9448
9449 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
9450 vmovq_n_s64 (int64_t a)
9451 {
9452   int64x2_t result;
9453   __asm__ ("dup %0.2d,%x1"
9454            : "=w"(result)
9455            : "r"(a)
9456            : /* No clobbers */);
9457   return result;
9458 }
9459
9460 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
9461 vmovq_n_u8 (uint32_t a)
9462 {
9463   uint8x16_t result;
9464   __asm__ ("dup %0.16b,%w1"
9465            : "=w"(result)
9466            : "r"(a)
9467            : /* No clobbers */);
9468   return result;
9469 }
9470
9471 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
9472 vmovq_n_u16 (uint32_t a)
9473 {
9474   uint16x8_t result;
9475   __asm__ ("dup %0.8h,%w1"
9476            : "=w"(result)
9477            : "r"(a)
9478            : /* No clobbers */);
9479   return result;
9480 }
9481
9482 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
9483 vmovq_n_u32 (uint32_t a)
9484 {
9485   uint32x4_t result;
9486   __asm__ ("dup %0.4s,%w1"
9487            : "=w"(result)
9488            : "r"(a)
9489            : /* No clobbers */);
9490   return result;
9491 }
9492
9493 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
9494 vmovq_n_u64 (uint64_t a)
9495 {
9496   uint64x2_t result;
9497   __asm__ ("dup %0.2d,%x1"
9498            : "=w"(result)
9499            : "r"(a)
9500            : /* No clobbers */);
9501   return result;
9502 }
9503
9504 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
9505 vmul_n_f32 (float32x2_t a, float32_t b)
9506 {
9507   float32x2_t result;
9508   __asm__ ("fmul %0.2s,%1.2s,%2.s[0]"
9509            : "=w"(result)
9510            : "w"(a), "w"(b)
9511            : /* No clobbers */);
9512   return result;
9513 }
9514
9515 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
9516 vmul_n_s16 (int16x4_t a, int16_t b)
9517 {
9518   int16x4_t result;
9519   __asm__ ("mul %0.4h,%1.4h,%2.h[0]"
9520            : "=w"(result)
9521            : "w"(a), "x"(b)
9522            : /* No clobbers */);
9523   return result;
9524 }
9525
9526 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
9527 vmul_n_s32 (int32x2_t a, int32_t b)
9528 {
9529   int32x2_t result;
9530   __asm__ ("mul %0.2s,%1.2s,%2.s[0]"
9531            : "=w"(result)
9532            : "w"(a), "w"(b)
9533            : /* No clobbers */);
9534   return result;
9535 }
9536
9537 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
9538 vmul_n_u16 (uint16x4_t a, uint16_t b)
9539 {
9540   uint16x4_t result;
9541   __asm__ ("mul %0.4h,%1.4h,%2.h[0]"
9542            : "=w"(result)
9543            : "w"(a), "x"(b)
9544            : /* No clobbers */);
9545   return result;
9546 }
9547
9548 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
9549 vmul_n_u32 (uint32x2_t a, uint32_t b)
9550 {
9551   uint32x2_t result;
9552   __asm__ ("mul %0.2s,%1.2s,%2.s[0]"
9553            : "=w"(result)
9554            : "w"(a), "w"(b)
9555            : /* No clobbers */);
9556   return result;
9557 }
9558
9559 #define vmuld_lane_f64(a, b, c)                                         \
9560   __extension__                                                         \
9561     ({                                                                  \
9562        float64x2_t b_ = (b);                                            \
9563        float64_t a_ = (a);                                              \
9564        float64_t result;                                                \
9565        __asm__ ("fmul %d0,%d1,%2.d[%3]"                                 \
9566                 : "=w"(result)                                          \
9567                 : "w"(a_), "w"(b_), "i"(c)                              \
9568                 : /* No clobbers */);                                   \
9569        result;                                                          \
9570      })
9571
9572 #define vmull_high_lane_s16(a, b, c)                                    \
9573   __extension__                                                         \
9574     ({                                                                  \
9575        int16x8_t b_ = (b);                                              \
9576        int16x8_t a_ = (a);                                              \
9577        int32x4_t result;                                                \
9578        __asm__ ("smull2 %0.4s, %1.8h, %2.h[%3]"                         \
9579                 : "=w"(result)                                          \
9580                 : "w"(a_), "x"(b_), "i"(c)                              \
9581                 : /* No clobbers */);                                   \
9582        result;                                                          \
9583      })
9584
9585 #define vmull_high_lane_s32(a, b, c)                                    \
9586   __extension__                                                         \
9587     ({                                                                  \
9588        int32x4_t b_ = (b);                                              \
9589        int32x4_t a_ = (a);                                              \
9590        int64x2_t result;                                                \
9591        __asm__ ("smull2 %0.2d, %1.4s, %2.s[%3]"                         \
9592                 : "=w"(result)                                          \
9593                 : "w"(a_), "w"(b_), "i"(c)                              \
9594                 : /* No clobbers */);                                   \
9595        result;                                                          \
9596      })
9597
9598 #define vmull_high_lane_u16(a, b, c)                                    \
9599   __extension__                                                         \
9600     ({                                                                  \
9601        uint16x8_t b_ = (b);                                             \
9602        uint16x8_t a_ = (a);                                             \
9603        uint32x4_t result;                                               \
9604        __asm__ ("umull2 %0.4s, %1.8h, %2.h[%3]"                         \
9605                 : "=w"(result)                                          \
9606                 : "w"(a_), "x"(b_), "i"(c)                              \
9607                 : /* No clobbers */);                                   \
9608        result;                                                          \
9609      })
9610
9611 #define vmull_high_lane_u32(a, b, c)                                    \
9612   __extension__                                                         \
9613     ({                                                                  \
9614        uint32x4_t b_ = (b);                                             \
9615        uint32x4_t a_ = (a);                                             \
9616        uint64x2_t result;                                               \
9617        __asm__ ("umull2 %0.2d, %1.4s, %2.s[%3]"                         \
9618                 : "=w"(result)                                          \
9619                 : "w"(a_), "w"(b_), "i"(c)                              \
9620                 : /* No clobbers */);                                   \
9621        result;                                                          \
9622      })
9623
9624 #define vmull_high_laneq_s16(a, b, c)                                   \
9625   __extension__                                                         \
9626     ({                                                                  \
9627        int16x8_t b_ = (b);                                              \
9628        int16x8_t a_ = (a);                                              \
9629        int32x4_t result;                                                \
9630        __asm__ ("smull2 %0.4s, %1.8h, %2.h[%3]"                         \
9631                 : "=w"(result)                                          \
9632                 : "w"(a_), "x"(b_), "i"(c)                              \
9633                 : /* No clobbers */);                                   \
9634        result;                                                          \
9635      })
9636
9637 #define vmull_high_laneq_s32(a, b, c)                                   \
9638   __extension__                                                         \
9639     ({                                                                  \
9640        int32x4_t b_ = (b);                                              \
9641        int32x4_t a_ = (a);                                              \
9642        int64x2_t result;                                                \
9643        __asm__ ("smull2 %0.2d, %1.4s, %2.s[%3]"                         \
9644                 : "=w"(result)                                          \
9645                 : "w"(a_), "w"(b_), "i"(c)                              \
9646                 : /* No clobbers */);                                   \
9647        result;                                                          \
9648      })
9649
9650 #define vmull_high_laneq_u16(a, b, c)                                   \
9651   __extension__                                                         \
9652     ({                                                                  \
9653        uint16x8_t b_ = (b);                                             \
9654        uint16x8_t a_ = (a);                                             \
9655        uint32x4_t result;                                               \
9656        __asm__ ("umull2 %0.4s, %1.8h, %2.h[%3]"                         \
9657                 : "=w"(result)                                          \
9658                 : "w"(a_), "x"(b_), "i"(c)                              \
9659                 : /* No clobbers */);                                   \
9660        result;                                                          \
9661      })
9662
9663 #define vmull_high_laneq_u32(a, b, c)                                   \
9664   __extension__                                                         \
9665     ({                                                                  \
9666        uint32x4_t b_ = (b);                                             \
9667        uint32x4_t a_ = (a);                                             \
9668        uint64x2_t result;                                               \
9669        __asm__ ("umull2 %0.2d, %1.4s, %2.s[%3]"                         \
9670                 : "=w"(result)                                          \
9671                 : "w"(a_), "w"(b_), "i"(c)                              \
9672                 : /* No clobbers */);                                   \
9673        result;                                                          \
9674      })
9675
9676 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
9677 vmull_high_n_s16 (int16x8_t a, int16_t b)
9678 {
9679   int32x4_t result;
9680   __asm__ ("smull2 %0.4s,%1.8h,%2.h[0]"
9681            : "=w"(result)
9682            : "w"(a), "x"(b)
9683            : /* No clobbers */);
9684   return result;
9685 }
9686
9687 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
9688 vmull_high_n_s32 (int32x4_t a, int32_t b)
9689 {
9690   int64x2_t result;
9691   __asm__ ("smull2 %0.2d,%1.4s,%2.s[0]"
9692            : "=w"(result)
9693            : "w"(a), "w"(b)
9694            : /* No clobbers */);
9695   return result;
9696 }
9697
9698 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
9699 vmull_high_n_u16 (uint16x8_t a, uint16_t b)
9700 {
9701   uint32x4_t result;
9702   __asm__ ("umull2 %0.4s,%1.8h,%2.h[0]"
9703            : "=w"(result)
9704            : "w"(a), "x"(b)
9705            : /* No clobbers */);
9706   return result;
9707 }
9708
9709 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
9710 vmull_high_n_u32 (uint32x4_t a, uint32_t b)
9711 {
9712   uint64x2_t result;
9713   __asm__ ("umull2 %0.2d,%1.4s,%2.s[0]"
9714            : "=w"(result)
9715            : "w"(a), "w"(b)
9716            : /* No clobbers */);
9717   return result;
9718 }
9719
9720 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
9721 vmull_high_p8 (poly8x16_t a, poly8x16_t b)
9722 {
9723   poly16x8_t result;
9724   __asm__ ("pmull2 %0.8h,%1.16b,%2.16b"
9725            : "=w"(result)
9726            : "w"(a), "w"(b)
9727            : /* No clobbers */);
9728   return result;
9729 }
9730
9731 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
9732 vmull_high_s8 (int8x16_t a, int8x16_t b)
9733 {
9734   int16x8_t result;
9735   __asm__ ("smull2 %0.8h,%1.16b,%2.16b"
9736            : "=w"(result)
9737            : "w"(a), "w"(b)
9738            : /* No clobbers */);
9739   return result;
9740 }
9741
9742 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
9743 vmull_high_s16 (int16x8_t a, int16x8_t b)
9744 {
9745   int32x4_t result;
9746   __asm__ ("smull2 %0.4s,%1.8h,%2.8h"
9747            : "=w"(result)
9748            : "w"(a), "w"(b)
9749            : /* No clobbers */);
9750   return result;
9751 }
9752
9753 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
9754 vmull_high_s32 (int32x4_t a, int32x4_t b)
9755 {
9756   int64x2_t result;
9757   __asm__ ("smull2 %0.2d,%1.4s,%2.4s"
9758            : "=w"(result)
9759            : "w"(a), "w"(b)
9760            : /* No clobbers */);
9761   return result;
9762 }
9763
9764 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
9765 vmull_high_u8 (uint8x16_t a, uint8x16_t b)
9766 {
9767   uint16x8_t result;
9768   __asm__ ("umull2 %0.8h,%1.16b,%2.16b"
9769            : "=w"(result)
9770            : "w"(a), "w"(b)
9771            : /* No clobbers */);
9772   return result;
9773 }
9774
9775 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
9776 vmull_high_u16 (uint16x8_t a, uint16x8_t b)
9777 {
9778   uint32x4_t result;
9779   __asm__ ("umull2 %0.4s,%1.8h,%2.8h"
9780            : "=w"(result)
9781            : "w"(a), "w"(b)
9782            : /* No clobbers */);
9783   return result;
9784 }
9785
9786 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
9787 vmull_high_u32 (uint32x4_t a, uint32x4_t b)
9788 {
9789   uint64x2_t result;
9790   __asm__ ("umull2 %0.2d,%1.4s,%2.4s"
9791            : "=w"(result)
9792            : "w"(a), "w"(b)
9793            : /* No clobbers */);
9794   return result;
9795 }
9796
9797 #define vmull_lane_s16(a, b, c)                                         \
9798   __extension__                                                         \
9799     ({                                                                  \
9800        int16x4_t b_ = (b);                                              \
9801        int16x4_t a_ = (a);                                              \
9802        int32x4_t result;                                                \
9803        __asm__ ("smull %0.4s,%1.4h,%2.h[%3]"                            \
9804                 : "=w"(result)                                          \
9805                 : "w"(a_), "x"(b_), "i"(c)                              \
9806                 : /* No clobbers */);                                   \
9807        result;                                                          \
9808      })
9809
9810 #define vmull_lane_s32(a, b, c)                                         \
9811   __extension__                                                         \
9812     ({                                                                  \
9813        int32x2_t b_ = (b);                                              \
9814        int32x2_t a_ = (a);                                              \
9815        int64x2_t result;                                                \
9816        __asm__ ("smull %0.2d,%1.2s,%2.s[%3]"                            \
9817                 : "=w"(result)                                          \
9818                 : "w"(a_), "w"(b_), "i"(c)                              \
9819                 : /* No clobbers */);                                   \
9820        result;                                                          \
9821      })
9822
9823 #define vmull_lane_u16(a, b, c)                                         \
9824   __extension__                                                         \
9825     ({                                                                  \
9826        uint16x4_t b_ = (b);                                             \
9827        uint16x4_t a_ = (a);                                             \
9828        uint32x4_t result;                                               \
9829        __asm__ ("umull %0.4s,%1.4h,%2.h[%3]"                            \
9830                 : "=w"(result)                                          \
9831                 : "w"(a_), "x"(b_), "i"(c)                              \
9832                 : /* No clobbers */);                                   \
9833        result;                                                          \
9834      })
9835
9836 #define vmull_lane_u32(a, b, c)                                         \
9837   __extension__                                                         \
9838     ({                                                                  \
9839        uint32x2_t b_ = (b);                                             \
9840        uint32x2_t a_ = (a);                                             \
9841        uint64x2_t result;                                               \
9842        __asm__ ("umull %0.2d, %1.2s, %2.s[%3]"                          \
9843                 : "=w"(result)                                          \
9844                 : "w"(a_), "w"(b_), "i"(c)                              \
9845                 : /* No clobbers */);                                   \
9846        result;                                                          \
9847      })
9848
9849 #define vmull_laneq_s16(a, b, c)                                        \
9850   __extension__                                                         \
9851     ({                                                                  \
9852        int16x8_t b_ = (b);                                              \
9853        int16x4_t a_ = (a);                                              \
9854        int32x4_t result;                                                \
9855        __asm__ ("smull %0.4s, %1.4h, %2.h[%3]"                          \
9856                 : "=w"(result)                                          \
9857                 : "w"(a_), "x"(b_), "i"(c)                              \
9858                 : /* No clobbers */);                                   \
9859        result;                                                          \
9860      })
9861
9862 #define vmull_laneq_s32(a, b, c)                                        \
9863   __extension__                                                         \
9864     ({                                                                  \
9865        int32x4_t b_ = (b);                                              \
9866        int32x2_t a_ = (a);                                              \
9867        int64x2_t result;                                                \
9868        __asm__ ("smull %0.2d, %1.2s, %2.s[%3]"                          \
9869                 : "=w"(result)                                          \
9870                 : "w"(a_), "w"(b_), "i"(c)                              \
9871                 : /* No clobbers */);                                   \
9872        result;                                                          \
9873      })
9874
9875 #define vmull_laneq_u16(a, b, c)                                        \
9876   __extension__                                                         \
9877     ({                                                                  \
9878        uint16x8_t b_ = (b);                                             \
9879        uint16x4_t a_ = (a);                                             \
9880        uint32x4_t result;                                               \
9881        __asm__ ("umull %0.4s, %1.4h, %2.h[%3]"                          \
9882                 : "=w"(result)                                          \
9883                 : "w"(a_), "x"(b_), "i"(c)                              \
9884                 : /* No clobbers */);                                   \
9885        result;                                                          \
9886      })
9887
9888 #define vmull_laneq_u32(a, b, c)                                        \
9889   __extension__                                                         \
9890     ({                                                                  \
9891        uint32x4_t b_ = (b);                                             \
9892        uint32x2_t a_ = (a);                                             \
9893        uint64x2_t result;                                               \
9894        __asm__ ("umull %0.2d, %1.2s, %2.s[%3]"                          \
9895                 : "=w"(result)                                          \
9896                 : "w"(a_), "w"(b_), "i"(c)                              \
9897                 : /* No clobbers */);                                   \
9898        result;                                                          \
9899      })
9900
9901 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
9902 vmull_n_s16 (int16x4_t a, int16_t b)
9903 {
9904   int32x4_t result;
9905   __asm__ ("smull %0.4s,%1.4h,%2.h[0]"
9906            : "=w"(result)
9907            : "w"(a), "x"(b)
9908            : /* No clobbers */);
9909   return result;
9910 }
9911
9912 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
9913 vmull_n_s32 (int32x2_t a, int32_t b)
9914 {
9915   int64x2_t result;
9916   __asm__ ("smull %0.2d,%1.2s,%2.s[0]"
9917            : "=w"(result)
9918            : "w"(a), "w"(b)
9919            : /* No clobbers */);
9920   return result;
9921 }
9922
9923 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
9924 vmull_n_u16 (uint16x4_t a, uint16_t b)
9925 {
9926   uint32x4_t result;
9927   __asm__ ("umull %0.4s,%1.4h,%2.h[0]"
9928            : "=w"(result)
9929            : "w"(a), "x"(b)
9930            : /* No clobbers */);
9931   return result;
9932 }
9933
9934 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
9935 vmull_n_u32 (uint32x2_t a, uint32_t b)
9936 {
9937   uint64x2_t result;
9938   __asm__ ("umull %0.2d,%1.2s,%2.s[0]"
9939            : "=w"(result)
9940            : "w"(a), "w"(b)
9941            : /* No clobbers */);
9942   return result;
9943 }
9944
9945 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
9946 vmull_p8 (poly8x8_t a, poly8x8_t b)
9947 {
9948   poly16x8_t result;
9949   __asm__ ("pmull %0.8h, %1.8b, %2.8b"
9950            : "=w"(result)
9951            : "w"(a), "w"(b)
9952            : /* No clobbers */);
9953   return result;
9954 }
9955
9956 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
9957 vmull_s8 (int8x8_t a, int8x8_t b)
9958 {
9959   int16x8_t result;
9960   __asm__ ("smull %0.8h, %1.8b, %2.8b"
9961            : "=w"(result)
9962            : "w"(a), "w"(b)
9963            : /* No clobbers */);
9964   return result;
9965 }
9966
9967 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
9968 vmull_s16 (int16x4_t a, int16x4_t b)
9969 {
9970   int32x4_t result;
9971   __asm__ ("smull %0.4s, %1.4h, %2.4h"
9972            : "=w"(result)
9973            : "w"(a), "w"(b)
9974            : /* No clobbers */);
9975   return result;
9976 }
9977
9978 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
9979 vmull_s32 (int32x2_t a, int32x2_t b)
9980 {
9981   int64x2_t result;
9982   __asm__ ("smull %0.2d, %1.2s, %2.2s"
9983            : "=w"(result)
9984            : "w"(a), "w"(b)
9985            : /* No clobbers */);
9986   return result;
9987 }
9988
9989 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
9990 vmull_u8 (uint8x8_t a, uint8x8_t b)
9991 {
9992   uint16x8_t result;
9993   __asm__ ("umull %0.8h, %1.8b, %2.8b"
9994            : "=w"(result)
9995            : "w"(a), "w"(b)
9996            : /* No clobbers */);
9997   return result;
9998 }
9999
10000 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
10001 vmull_u16 (uint16x4_t a, uint16x4_t b)
10002 {
10003   uint32x4_t result;
10004   __asm__ ("umull %0.4s, %1.4h, %2.4h"
10005            : "=w"(result)
10006            : "w"(a), "w"(b)
10007            : /* No clobbers */);
10008   return result;
10009 }
10010
10011 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
10012 vmull_u32 (uint32x2_t a, uint32x2_t b)
10013 {
10014   uint64x2_t result;
10015   __asm__ ("umull %0.2d, %1.2s, %2.2s"
10016            : "=w"(result)
10017            : "w"(a), "w"(b)
10018            : /* No clobbers */);
10019   return result;
10020 }
10021
10022 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
10023 vmulq_n_f32 (float32x4_t a, float32_t b)
10024 {
10025   float32x4_t result;
10026   __asm__ ("fmul %0.4s,%1.4s,%2.s[0]"
10027            : "=w"(result)
10028            : "w"(a), "w"(b)
10029            : /* No clobbers */);
10030   return result;
10031 }
10032
10033 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
10034 vmulq_n_f64 (float64x2_t a, float64_t b)
10035 {
10036   float64x2_t result;
10037   __asm__ ("fmul %0.2d,%1.2d,%2.d[0]"
10038            : "=w"(result)
10039            : "w"(a), "w"(b)
10040            : /* No clobbers */);
10041   return result;
10042 }
10043
10044 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
10045 vmulq_n_s16 (int16x8_t a, int16_t b)
10046 {
10047   int16x8_t result;
10048   __asm__ ("mul %0.8h,%1.8h,%2.h[0]"
10049            : "=w"(result)
10050            : "w"(a), "x"(b)
10051            : /* No clobbers */);
10052   return result;
10053 }
10054
10055 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
10056 vmulq_n_s32 (int32x4_t a, int32_t b)
10057 {
10058   int32x4_t result;
10059   __asm__ ("mul %0.4s,%1.4s,%2.s[0]"
10060            : "=w"(result)
10061            : "w"(a), "w"(b)
10062            : /* No clobbers */);
10063   return result;
10064 }
10065
10066 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
10067 vmulq_n_u16 (uint16x8_t a, uint16_t b)
10068 {
10069   uint16x8_t result;
10070   __asm__ ("mul %0.8h,%1.8h,%2.h[0]"
10071            : "=w"(result)
10072            : "w"(a), "x"(b)
10073            : /* No clobbers */);
10074   return result;
10075 }
10076
10077 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
10078 vmulq_n_u32 (uint32x4_t a, uint32_t b)
10079 {
10080   uint32x4_t result;
10081   __asm__ ("mul %0.4s,%1.4s,%2.s[0]"
10082            : "=w"(result)
10083            : "w"(a), "w"(b)
10084            : /* No clobbers */);
10085   return result;
10086 }
10087
10088 #define vmuls_lane_f32(a, b, c)                                         \
10089   __extension__                                                         \
10090     ({                                                                  \
10091        float32x4_t b_ = (b);                                            \
10092        float32_t a_ = (a);                                              \
10093        float32_t result;                                                \
10094        __asm__ ("fmul %s0,%s1,%2.s[%3]"                                 \
10095                 : "=w"(result)                                          \
10096                 : "w"(a_), "w"(b_), "i"(c)                              \
10097                 : /* No clobbers */);                                   \
10098        result;                                                          \
10099      })
10100
10101 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
10102 vmulx_f32 (float32x2_t a, float32x2_t b)
10103 {
10104   float32x2_t result;
10105   __asm__ ("fmulx %0.2s,%1.2s,%2.2s"
10106            : "=w"(result)
10107            : "w"(a), "w"(b)
10108            : /* No clobbers */);
10109   return result;
10110 }
10111
10112 #define vmulx_lane_f32(a, b, c)                                         \
10113   __extension__                                                         \
10114     ({                                                                  \
10115        float32x4_t b_ = (b);                                            \
10116        float32x2_t a_ = (a);                                            \
10117        float32x2_t result;                                              \
10118        __asm__ ("fmulx %0.2s,%1.2s,%2.s[%3]"                            \
10119                 : "=w"(result)                                          \
10120                 : "w"(a_), "w"(b_), "i"(c)                              \
10121                 : /* No clobbers */);                                   \
10122        result;                                                          \
10123      })
10124
10125 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
10126 vmulxd_f64 (float64_t a, float64_t b)
10127 {
10128   float64_t result;
10129   __asm__ ("fmulx %d0, %d1, %d2"
10130            : "=w"(result)
10131            : "w"(a), "w"(b)
10132            : /* No clobbers */);
10133   return result;
10134 }
10135
10136 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
10137 vmulxq_f32 (float32x4_t a, float32x4_t b)
10138 {
10139   float32x4_t result;
10140   __asm__ ("fmulx %0.4s,%1.4s,%2.4s"
10141            : "=w"(result)
10142            : "w"(a), "w"(b)
10143            : /* No clobbers */);
10144   return result;
10145 }
10146
10147 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
10148 vmulxq_f64 (float64x2_t a, float64x2_t b)
10149 {
10150   float64x2_t result;
10151   __asm__ ("fmulx %0.2d,%1.2d,%2.2d"
10152            : "=w"(result)
10153            : "w"(a), "w"(b)
10154            : /* No clobbers */);
10155   return result;
10156 }
10157
10158 #define vmulxq_lane_f32(a, b, c)                                        \
10159   __extension__                                                         \
10160     ({                                                                  \
10161        float32x4_t b_ = (b);                                            \
10162        float32x4_t a_ = (a);                                            \
10163        float32x4_t result;                                              \
10164        __asm__ ("fmulx %0.4s,%1.4s,%2.s[%3]"                            \
10165                 : "=w"(result)                                          \
10166                 : "w"(a_), "w"(b_), "i"(c)                              \
10167                 : /* No clobbers */);                                   \
10168        result;                                                          \
10169      })
10170
10171 #define vmulxq_lane_f64(a, b, c)                                        \
10172   __extension__                                                         \
10173     ({                                                                  \
10174        float64x2_t b_ = (b);                                            \
10175        float64x2_t a_ = (a);                                            \
10176        float64x2_t result;                                              \
10177        __asm__ ("fmulx %0.2d,%1.2d,%2.d[%3]"                            \
10178                 : "=w"(result)                                          \
10179                 : "w"(a_), "w"(b_), "i"(c)                              \
10180                 : /* No clobbers */);                                   \
10181        result;                                                          \
10182      })
10183
10184 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
10185 vmulxs_f32 (float32_t a, float32_t b)
10186 {
10187   float32_t result;
10188   __asm__ ("fmulx %s0, %s1, %s2"
10189            : "=w"(result)
10190            : "w"(a), "w"(b)
10191            : /* No clobbers */);
10192   return result;
10193 }
10194
10195 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
10196 vmvn_p8 (poly8x8_t a)
10197 {
10198   poly8x8_t result;
10199   __asm__ ("mvn %0.8b,%1.8b"
10200            : "=w"(result)
10201            : "w"(a)
10202            : /* No clobbers */);
10203   return result;
10204 }
10205
10206 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
10207 vmvn_s8 (int8x8_t a)
10208 {
10209   int8x8_t result;
10210   __asm__ ("mvn %0.8b,%1.8b"
10211            : "=w"(result)
10212            : "w"(a)
10213            : /* No clobbers */);
10214   return result;
10215 }
10216
10217 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
10218 vmvn_s16 (int16x4_t a)
10219 {
10220   int16x4_t result;
10221   __asm__ ("mvn %0.8b,%1.8b"
10222            : "=w"(result)
10223            : "w"(a)
10224            : /* No clobbers */);
10225   return result;
10226 }
10227
10228 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
10229 vmvn_s32 (int32x2_t a)
10230 {
10231   int32x2_t result;
10232   __asm__ ("mvn %0.8b,%1.8b"
10233            : "=w"(result)
10234            : "w"(a)
10235            : /* No clobbers */);
10236   return result;
10237 }
10238
10239 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
10240 vmvn_u8 (uint8x8_t a)
10241 {
10242   uint8x8_t result;
10243   __asm__ ("mvn %0.8b,%1.8b"
10244            : "=w"(result)
10245            : "w"(a)
10246            : /* No clobbers */);
10247   return result;
10248 }
10249
10250 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
10251 vmvn_u16 (uint16x4_t a)
10252 {
10253   uint16x4_t result;
10254   __asm__ ("mvn %0.8b,%1.8b"
10255            : "=w"(result)
10256            : "w"(a)
10257            : /* No clobbers */);
10258   return result;
10259 }
10260
10261 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
10262 vmvn_u32 (uint32x2_t a)
10263 {
10264   uint32x2_t result;
10265   __asm__ ("mvn %0.8b,%1.8b"
10266            : "=w"(result)
10267            : "w"(a)
10268            : /* No clobbers */);
10269   return result;
10270 }
10271
10272 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
10273 vmvnq_p8 (poly8x16_t a)
10274 {
10275   poly8x16_t result;
10276   __asm__ ("mvn %0.16b,%1.16b"
10277            : "=w"(result)
10278            : "w"(a)
10279            : /* No clobbers */);
10280   return result;
10281 }
10282
10283 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
10284 vmvnq_s8 (int8x16_t a)
10285 {
10286   int8x16_t result;
10287   __asm__ ("mvn %0.16b,%1.16b"
10288            : "=w"(result)
10289            : "w"(a)
10290            : /* No clobbers */);
10291   return result;
10292 }
10293
10294 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
10295 vmvnq_s16 (int16x8_t a)
10296 {
10297   int16x8_t result;
10298   __asm__ ("mvn %0.16b,%1.16b"
10299            : "=w"(result)
10300            : "w"(a)
10301            : /* No clobbers */);
10302   return result;
10303 }
10304
10305 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
10306 vmvnq_s32 (int32x4_t a)
10307 {
10308   int32x4_t result;
10309   __asm__ ("mvn %0.16b,%1.16b"
10310            : "=w"(result)
10311            : "w"(a)
10312            : /* No clobbers */);
10313   return result;
10314 }
10315
10316 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
10317 vmvnq_u8 (uint8x16_t a)
10318 {
10319   uint8x16_t result;
10320   __asm__ ("mvn %0.16b,%1.16b"
10321            : "=w"(result)
10322            : "w"(a)
10323            : /* No clobbers */);
10324   return result;
10325 }
10326
10327 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
10328 vmvnq_u16 (uint16x8_t a)
10329 {
10330   uint16x8_t result;
10331   __asm__ ("mvn %0.16b,%1.16b"
10332            : "=w"(result)
10333            : "w"(a)
10334            : /* No clobbers */);
10335   return result;
10336 }
10337
10338 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
10339 vmvnq_u32 (uint32x4_t a)
10340 {
10341   uint32x4_t result;
10342   __asm__ ("mvn %0.16b,%1.16b"
10343            : "=w"(result)
10344            : "w"(a)
10345            : /* No clobbers */);
10346   return result;
10347 }
10348
10349 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
10350 vneg_f32 (float32x2_t a)
10351 {
10352   float32x2_t result;
10353   __asm__ ("fneg %0.2s,%1.2s"
10354            : "=w"(result)
10355            : "w"(a)
10356            : /* No clobbers */);
10357   return result;
10358 }
10359
10360 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
10361 vneg_s8 (int8x8_t a)
10362 {
10363   int8x8_t result;
10364   __asm__ ("neg %0.8b,%1.8b"
10365            : "=w"(result)
10366            : "w"(a)
10367            : /* No clobbers */);
10368   return result;
10369 }
10370
10371 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
10372 vneg_s16 (int16x4_t a)
10373 {
10374   int16x4_t result;
10375   __asm__ ("neg %0.4h,%1.4h"
10376            : "=w"(result)
10377            : "w"(a)
10378            : /* No clobbers */);
10379   return result;
10380 }
10381
10382 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
10383 vneg_s32 (int32x2_t a)
10384 {
10385   int32x2_t result;
10386   __asm__ ("neg %0.2s,%1.2s"
10387            : "=w"(result)
10388            : "w"(a)
10389            : /* No clobbers */);
10390   return result;
10391 }
10392
10393 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
10394 vnegq_f32 (float32x4_t a)
10395 {
10396   float32x4_t result;
10397   __asm__ ("fneg %0.4s,%1.4s"
10398            : "=w"(result)
10399            : "w"(a)
10400            : /* No clobbers */);
10401   return result;
10402 }
10403
10404 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
10405 vnegq_f64 (float64x2_t a)
10406 {
10407   float64x2_t result;
10408   __asm__ ("fneg %0.2d,%1.2d"
10409            : "=w"(result)
10410            : "w"(a)
10411            : /* No clobbers */);
10412   return result;
10413 }
10414
10415 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
10416 vnegq_s8 (int8x16_t a)
10417 {
10418   int8x16_t result;
10419   __asm__ ("neg %0.16b,%1.16b"
10420            : "=w"(result)
10421            : "w"(a)
10422            : /* No clobbers */);
10423   return result;
10424 }
10425
10426 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
10427 vnegq_s16 (int16x8_t a)
10428 {
10429   int16x8_t result;
10430   __asm__ ("neg %0.8h,%1.8h"
10431            : "=w"(result)
10432            : "w"(a)
10433            : /* No clobbers */);
10434   return result;
10435 }
10436
10437 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
10438 vnegq_s32 (int32x4_t a)
10439 {
10440   int32x4_t result;
10441   __asm__ ("neg %0.4s,%1.4s"
10442            : "=w"(result)
10443            : "w"(a)
10444            : /* No clobbers */);
10445   return result;
10446 }
10447
10448 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
10449 vnegq_s64 (int64x2_t a)
10450 {
10451   int64x2_t result;
10452   __asm__ ("neg %0.2d,%1.2d"
10453            : "=w"(result)
10454            : "w"(a)
10455            : /* No clobbers */);
10456   return result;
10457 }
10458
10459 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
10460 vpadal_s8 (int16x4_t a, int8x8_t b)
10461 {
10462   int16x4_t result;
10463   __asm__ ("sadalp %0.4h,%2.8b"
10464            : "=w"(result)
10465            : "0"(a), "w"(b)
10466            : /* No clobbers */);
10467   return result;
10468 }
10469
10470 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
10471 vpadal_s16 (int32x2_t a, int16x4_t b)
10472 {
10473   int32x2_t result;
10474   __asm__ ("sadalp %0.2s,%2.4h"
10475            : "=w"(result)
10476            : "0"(a), "w"(b)
10477            : /* No clobbers */);
10478   return result;
10479 }
10480
10481 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
10482 vpadal_s32 (int64x1_t a, int32x2_t b)
10483 {
10484   int64x1_t result;
10485   __asm__ ("sadalp %0.1d,%2.2s"
10486            : "=w"(result)
10487            : "0"(a), "w"(b)
10488            : /* No clobbers */);
10489   return result;
10490 }
10491
10492 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
10493 vpadal_u8 (uint16x4_t a, uint8x8_t b)
10494 {
10495   uint16x4_t result;
10496   __asm__ ("uadalp %0.4h,%2.8b"
10497            : "=w"(result)
10498            : "0"(a), "w"(b)
10499            : /* No clobbers */);
10500   return result;
10501 }
10502
10503 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
10504 vpadal_u16 (uint32x2_t a, uint16x4_t b)
10505 {
10506   uint32x2_t result;
10507   __asm__ ("uadalp %0.2s,%2.4h"
10508            : "=w"(result)
10509            : "0"(a), "w"(b)
10510            : /* No clobbers */);
10511   return result;
10512 }
10513
10514 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
10515 vpadal_u32 (uint64x1_t a, uint32x2_t b)
10516 {
10517   uint64x1_t result;
10518   __asm__ ("uadalp %0.1d,%2.2s"
10519            : "=w"(result)
10520            : "0"(a), "w"(b)
10521            : /* No clobbers */);
10522   return result;
10523 }
10524
10525 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
10526 vpadalq_s8 (int16x8_t a, int8x16_t b)
10527 {
10528   int16x8_t result;
10529   __asm__ ("sadalp %0.8h,%2.16b"
10530            : "=w"(result)
10531            : "0"(a), "w"(b)
10532            : /* No clobbers */);
10533   return result;
10534 }
10535
10536 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
10537 vpadalq_s16 (int32x4_t a, int16x8_t b)
10538 {
10539   int32x4_t result;
10540   __asm__ ("sadalp %0.4s,%2.8h"
10541            : "=w"(result)
10542            : "0"(a), "w"(b)
10543            : /* No clobbers */);
10544   return result;
10545 }
10546
10547 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
10548 vpadalq_s32 (int64x2_t a, int32x4_t b)
10549 {
10550   int64x2_t result;
10551   __asm__ ("sadalp %0.2d,%2.4s"
10552            : "=w"(result)
10553            : "0"(a), "w"(b)
10554            : /* No clobbers */);
10555   return result;
10556 }
10557
10558 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
10559 vpadalq_u8 (uint16x8_t a, uint8x16_t b)
10560 {
10561   uint16x8_t result;
10562   __asm__ ("uadalp %0.8h,%2.16b"
10563            : "=w"(result)
10564            : "0"(a), "w"(b)
10565            : /* No clobbers */);
10566   return result;
10567 }
10568
10569 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
10570 vpadalq_u16 (uint32x4_t a, uint16x8_t b)
10571 {
10572   uint32x4_t result;
10573   __asm__ ("uadalp %0.4s,%2.8h"
10574            : "=w"(result)
10575            : "0"(a), "w"(b)
10576            : /* No clobbers */);
10577   return result;
10578 }
10579
10580 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
10581 vpadalq_u32 (uint64x2_t a, uint32x4_t b)
10582 {
10583   uint64x2_t result;
10584   __asm__ ("uadalp %0.2d,%2.4s"
10585            : "=w"(result)
10586            : "0"(a), "w"(b)
10587            : /* No clobbers */);
10588   return result;
10589 }
10590
10591 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
10592 vpadd_f32 (float32x2_t a, float32x2_t b)
10593 {
10594   float32x2_t result;
10595   __asm__ ("faddp %0.2s,%1.2s,%2.2s"
10596            : "=w"(result)
10597            : "w"(a), "w"(b)
10598            : /* No clobbers */);
10599   return result;
10600 }
10601
10602 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
10603 vpadd_s8 (int8x8_t __a, int8x8_t __b)
10604 {
10605   return __builtin_aarch64_addpv8qi (__a, __b);
10606 }
10607
10608 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
10609 vpadd_s16 (int16x4_t __a, int16x4_t __b)
10610 {
10611   return __builtin_aarch64_addpv4hi (__a, __b);
10612 }
10613
10614 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
10615 vpadd_s32 (int32x2_t __a, int32x2_t __b)
10616 {
10617   return __builtin_aarch64_addpv2si (__a, __b);
10618 }
10619
10620 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
10621 vpadd_u8 (uint8x8_t __a, uint8x8_t __b)
10622 {
10623   return (uint8x8_t) __builtin_aarch64_addpv8qi ((int8x8_t) __a,
10624                                                  (int8x8_t) __b);
10625 }
10626
10627 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
10628 vpadd_u16 (uint16x4_t __a, uint16x4_t __b)
10629 {
10630   return (uint16x4_t) __builtin_aarch64_addpv4hi ((int16x4_t) __a,
10631                                                   (int16x4_t) __b);
10632 }
10633
10634 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
10635 vpadd_u32 (uint32x2_t __a, uint32x2_t __b)
10636 {
10637   return (uint32x2_t) __builtin_aarch64_addpv2si ((int32x2_t) __a,
10638                                                   (int32x2_t) __b);
10639 }
10640
10641 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
10642 vpaddd_f64 (float64x2_t a)
10643 {
10644   float64_t result;
10645   __asm__ ("faddp %d0,%1.2d"
10646            : "=w"(result)
10647            : "w"(a)
10648            : /* No clobbers */);
10649   return result;
10650 }
10651
10652 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
10653 vpaddl_s8 (int8x8_t a)
10654 {
10655   int16x4_t result;
10656   __asm__ ("saddlp %0.4h,%1.8b"
10657            : "=w"(result)
10658            : "w"(a)
10659            : /* No clobbers */);
10660   return result;
10661 }
10662
10663 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
10664 vpaddl_s16 (int16x4_t a)
10665 {
10666   int32x2_t result;
10667   __asm__ ("saddlp %0.2s,%1.4h"
10668            : "=w"(result)
10669            : "w"(a)
10670            : /* No clobbers */);
10671   return result;
10672 }
10673
10674 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
10675 vpaddl_s32 (int32x2_t a)
10676 {
10677   int64x1_t result;
10678   __asm__ ("saddlp %0.1d,%1.2s"
10679            : "=w"(result)
10680            : "w"(a)
10681            : /* No clobbers */);
10682   return result;
10683 }
10684
10685 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
10686 vpaddl_u8 (uint8x8_t a)
10687 {
10688   uint16x4_t result;
10689   __asm__ ("uaddlp %0.4h,%1.8b"
10690            : "=w"(result)
10691            : "w"(a)
10692            : /* No clobbers */);
10693   return result;
10694 }
10695
10696 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
10697 vpaddl_u16 (uint16x4_t a)
10698 {
10699   uint32x2_t result;
10700   __asm__ ("uaddlp %0.2s,%1.4h"
10701            : "=w"(result)
10702            : "w"(a)
10703            : /* No clobbers */);
10704   return result;
10705 }
10706
10707 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
10708 vpaddl_u32 (uint32x2_t a)
10709 {
10710   uint64x1_t result;
10711   __asm__ ("uaddlp %0.1d,%1.2s"
10712            : "=w"(result)
10713            : "w"(a)
10714            : /* No clobbers */);
10715   return result;
10716 }
10717
10718 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
10719 vpaddlq_s8 (int8x16_t a)
10720 {
10721   int16x8_t result;
10722   __asm__ ("saddlp %0.8h,%1.16b"
10723            : "=w"(result)
10724            : "w"(a)
10725            : /* No clobbers */);
10726   return result;
10727 }
10728
10729 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
10730 vpaddlq_s16 (int16x8_t a)
10731 {
10732   int32x4_t result;
10733   __asm__ ("saddlp %0.4s,%1.8h"
10734            : "=w"(result)
10735            : "w"(a)
10736            : /* No clobbers */);
10737   return result;
10738 }
10739
10740 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
10741 vpaddlq_s32 (int32x4_t a)
10742 {
10743   int64x2_t result;
10744   __asm__ ("saddlp %0.2d,%1.4s"
10745            : "=w"(result)
10746            : "w"(a)
10747            : /* No clobbers */);
10748   return result;
10749 }
10750
10751 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
10752 vpaddlq_u8 (uint8x16_t a)
10753 {
10754   uint16x8_t result;
10755   __asm__ ("uaddlp %0.8h,%1.16b"
10756            : "=w"(result)
10757            : "w"(a)
10758            : /* No clobbers */);
10759   return result;
10760 }
10761
10762 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
10763 vpaddlq_u16 (uint16x8_t a)
10764 {
10765   uint32x4_t result;
10766   __asm__ ("uaddlp %0.4s,%1.8h"
10767            : "=w"(result)
10768            : "w"(a)
10769            : /* No clobbers */);
10770   return result;
10771 }
10772
10773 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
10774 vpaddlq_u32 (uint32x4_t a)
10775 {
10776   uint64x2_t result;
10777   __asm__ ("uaddlp %0.2d,%1.4s"
10778            : "=w"(result)
10779            : "w"(a)
10780            : /* No clobbers */);
10781   return result;
10782 }
10783
10784 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
10785 vpaddq_f32 (float32x4_t a, float32x4_t b)
10786 {
10787   float32x4_t result;
10788   __asm__ ("faddp %0.4s,%1.4s,%2.4s"
10789            : "=w"(result)
10790            : "w"(a), "w"(b)
10791            : /* No clobbers */);
10792   return result;
10793 }
10794
10795 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
10796 vpaddq_f64 (float64x2_t a, float64x2_t b)
10797 {
10798   float64x2_t result;
10799   __asm__ ("faddp %0.2d,%1.2d,%2.2d"
10800            : "=w"(result)
10801            : "w"(a), "w"(b)
10802            : /* No clobbers */);
10803   return result;
10804 }
10805
10806 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
10807 vpaddq_s8 (int8x16_t a, int8x16_t b)
10808 {
10809   int8x16_t result;
10810   __asm__ ("addp %0.16b,%1.16b,%2.16b"
10811            : "=w"(result)
10812            : "w"(a), "w"(b)
10813            : /* No clobbers */);
10814   return result;
10815 }
10816
10817 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
10818 vpaddq_s16 (int16x8_t a, int16x8_t b)
10819 {
10820   int16x8_t result;
10821   __asm__ ("addp %0.8h,%1.8h,%2.8h"
10822            : "=w"(result)
10823            : "w"(a), "w"(b)
10824            : /* No clobbers */);
10825   return result;
10826 }
10827
10828 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
10829 vpaddq_s32 (int32x4_t a, int32x4_t b)
10830 {
10831   int32x4_t result;
10832   __asm__ ("addp %0.4s,%1.4s,%2.4s"
10833            : "=w"(result)
10834            : "w"(a), "w"(b)
10835            : /* No clobbers */);
10836   return result;
10837 }
10838
10839 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
10840 vpaddq_s64 (int64x2_t a, int64x2_t b)
10841 {
10842   int64x2_t result;
10843   __asm__ ("addp %0.2d,%1.2d,%2.2d"
10844            : "=w"(result)
10845            : "w"(a), "w"(b)
10846            : /* No clobbers */);
10847   return result;
10848 }
10849
10850 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
10851 vpaddq_u8 (uint8x16_t a, uint8x16_t b)
10852 {
10853   uint8x16_t result;
10854   __asm__ ("addp %0.16b,%1.16b,%2.16b"
10855            : "=w"(result)
10856            : "w"(a), "w"(b)
10857            : /* No clobbers */);
10858   return result;
10859 }
10860
10861 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
10862 vpaddq_u16 (uint16x8_t a, uint16x8_t b)
10863 {
10864   uint16x8_t result;
10865   __asm__ ("addp %0.8h,%1.8h,%2.8h"
10866            : "=w"(result)
10867            : "w"(a), "w"(b)
10868            : /* No clobbers */);
10869   return result;
10870 }
10871
10872 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
10873 vpaddq_u32 (uint32x4_t a, uint32x4_t b)
10874 {
10875   uint32x4_t result;
10876   __asm__ ("addp %0.4s,%1.4s,%2.4s"
10877            : "=w"(result)
10878            : "w"(a), "w"(b)
10879            : /* No clobbers */);
10880   return result;
10881 }
10882
10883 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
10884 vpaddq_u64 (uint64x2_t a, uint64x2_t b)
10885 {
10886   uint64x2_t result;
10887   __asm__ ("addp %0.2d,%1.2d,%2.2d"
10888            : "=w"(result)
10889            : "w"(a), "w"(b)
10890            : /* No clobbers */);
10891   return result;
10892 }
10893
10894 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
10895 vpadds_f32 (float32x2_t a)
10896 {
10897   float32_t result;
10898   __asm__ ("faddp %s0,%1.2s"
10899            : "=w"(result)
10900            : "w"(a)
10901            : /* No clobbers */);
10902   return result;
10903 }
10904
10905 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
10906 vpmax_f32 (float32x2_t a, float32x2_t b)
10907 {
10908   float32x2_t result;
10909   __asm__ ("fmaxp %0.2s, %1.2s, %2.2s"
10910            : "=w"(result)
10911            : "w"(a), "w"(b)
10912            : /* No clobbers */);
10913   return result;
10914 }
10915
10916 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
10917 vpmax_s8 (int8x8_t a, int8x8_t b)
10918 {
10919   int8x8_t result;
10920   __asm__ ("smaxp %0.8b, %1.8b, %2.8b"
10921            : "=w"(result)
10922            : "w"(a), "w"(b)
10923            : /* No clobbers */);
10924   return result;
10925 }
10926
10927 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
10928 vpmax_s16 (int16x4_t a, int16x4_t b)
10929 {
10930   int16x4_t result;
10931   __asm__ ("smaxp %0.4h, %1.4h, %2.4h"
10932            : "=w"(result)
10933            : "w"(a), "w"(b)
10934            : /* No clobbers */);
10935   return result;
10936 }
10937
10938 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
10939 vpmax_s32 (int32x2_t a, int32x2_t b)
10940 {
10941   int32x2_t result;
10942   __asm__ ("smaxp %0.2s, %1.2s, %2.2s"
10943            : "=w"(result)
10944            : "w"(a), "w"(b)
10945            : /* No clobbers */);
10946   return result;
10947 }
10948
10949 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
10950 vpmax_u8 (uint8x8_t a, uint8x8_t b)
10951 {
10952   uint8x8_t result;
10953   __asm__ ("umaxp %0.8b, %1.8b, %2.8b"
10954            : "=w"(result)
10955            : "w"(a), "w"(b)
10956            : /* No clobbers */);
10957   return result;
10958 }
10959
10960 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
10961 vpmax_u16 (uint16x4_t a, uint16x4_t b)
10962 {
10963   uint16x4_t result;
10964   __asm__ ("umaxp %0.4h, %1.4h, %2.4h"
10965            : "=w"(result)
10966            : "w"(a), "w"(b)
10967            : /* No clobbers */);
10968   return result;
10969 }
10970
10971 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
10972 vpmax_u32 (uint32x2_t a, uint32x2_t b)
10973 {
10974   uint32x2_t result;
10975   __asm__ ("umaxp %0.2s, %1.2s, %2.2s"
10976            : "=w"(result)
10977            : "w"(a), "w"(b)
10978            : /* No clobbers */);
10979   return result;
10980 }
10981
10982 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
10983 vpmaxnm_f32 (float32x2_t a, float32x2_t b)
10984 {
10985   float32x2_t result;
10986   __asm__ ("fmaxnmp %0.2s,%1.2s,%2.2s"
10987            : "=w"(result)
10988            : "w"(a), "w"(b)
10989            : /* No clobbers */);
10990   return result;
10991 }
10992
10993 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
10994 vpmaxnmq_f32 (float32x4_t a, float32x4_t b)
10995 {
10996   float32x4_t result;
10997   __asm__ ("fmaxnmp %0.4s,%1.4s,%2.4s"
10998            : "=w"(result)
10999            : "w"(a), "w"(b)
11000            : /* No clobbers */);
11001   return result;
11002 }
11003
11004 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
11005 vpmaxnmq_f64 (float64x2_t a, float64x2_t b)
11006 {
11007   float64x2_t result;
11008   __asm__ ("fmaxnmp %0.2d,%1.2d,%2.2d"
11009            : "=w"(result)
11010            : "w"(a), "w"(b)
11011            : /* No clobbers */);
11012   return result;
11013 }
11014
11015 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
11016 vpmaxnmqd_f64 (float64x2_t a)
11017 {
11018   float64_t result;
11019   __asm__ ("fmaxnmp %d0,%1.2d"
11020            : "=w"(result)
11021            : "w"(a)
11022            : /* No clobbers */);
11023   return result;
11024 }
11025
11026 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
11027 vpmaxnms_f32 (float32x2_t a)
11028 {
11029   float32_t result;
11030   __asm__ ("fmaxnmp %s0,%1.2s"
11031            : "=w"(result)
11032            : "w"(a)
11033            : /* No clobbers */);
11034   return result;
11035 }
11036
11037 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
11038 vpmaxq_f32 (float32x4_t a, float32x4_t b)
11039 {
11040   float32x4_t result;
11041   __asm__ ("fmaxp %0.4s, %1.4s, %2.4s"
11042            : "=w"(result)
11043            : "w"(a), "w"(b)
11044            : /* No clobbers */);
11045   return result;
11046 }
11047
11048 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
11049 vpmaxq_f64 (float64x2_t a, float64x2_t b)
11050 {
11051   float64x2_t result;
11052   __asm__ ("fmaxp %0.2d, %1.2d, %2.2d"
11053            : "=w"(result)
11054            : "w"(a), "w"(b)
11055            : /* No clobbers */);
11056   return result;
11057 }
11058
11059 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11060 vpmaxq_s8 (int8x16_t a, int8x16_t b)
11061 {
11062   int8x16_t result;
11063   __asm__ ("smaxp %0.16b, %1.16b, %2.16b"
11064            : "=w"(result)
11065            : "w"(a), "w"(b)
11066            : /* No clobbers */);
11067   return result;
11068 }
11069
11070 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
11071 vpmaxq_s16 (int16x8_t a, int16x8_t b)
11072 {
11073   int16x8_t result;
11074   __asm__ ("smaxp %0.8h, %1.8h, %2.8h"
11075            : "=w"(result)
11076            : "w"(a), "w"(b)
11077            : /* No clobbers */);
11078   return result;
11079 }
11080
11081 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
11082 vpmaxq_s32 (int32x4_t a, int32x4_t b)
11083 {
11084   int32x4_t result;
11085   __asm__ ("smaxp %0.4s, %1.4s, %2.4s"
11086            : "=w"(result)
11087            : "w"(a), "w"(b)
11088            : /* No clobbers */);
11089   return result;
11090 }
11091
11092 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
11093 vpmaxq_u8 (uint8x16_t a, uint8x16_t b)
11094 {
11095   uint8x16_t result;
11096   __asm__ ("umaxp %0.16b, %1.16b, %2.16b"
11097            : "=w"(result)
11098            : "w"(a), "w"(b)
11099            : /* No clobbers */);
11100   return result;
11101 }
11102
11103 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
11104 vpmaxq_u16 (uint16x8_t a, uint16x8_t b)
11105 {
11106   uint16x8_t result;
11107   __asm__ ("umaxp %0.8h, %1.8h, %2.8h"
11108            : "=w"(result)
11109            : "w"(a), "w"(b)
11110            : /* No clobbers */);
11111   return result;
11112 }
11113
11114 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
11115 vpmaxq_u32 (uint32x4_t a, uint32x4_t b)
11116 {
11117   uint32x4_t result;
11118   __asm__ ("umaxp %0.4s, %1.4s, %2.4s"
11119            : "=w"(result)
11120            : "w"(a), "w"(b)
11121            : /* No clobbers */);
11122   return result;
11123 }
11124
11125 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
11126 vpmaxqd_f64 (float64x2_t a)
11127 {
11128   float64_t result;
11129   __asm__ ("fmaxp %d0,%1.2d"
11130            : "=w"(result)
11131            : "w"(a)
11132            : /* No clobbers */);
11133   return result;
11134 }
11135
11136 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
11137 vpmaxs_f32 (float32x2_t a)
11138 {
11139   float32_t result;
11140   __asm__ ("fmaxp %s0,%1.2s"
11141            : "=w"(result)
11142            : "w"(a)
11143            : /* No clobbers */);
11144   return result;
11145 }
11146
11147 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
11148 vpmin_f32 (float32x2_t a, float32x2_t b)
11149 {
11150   float32x2_t result;
11151   __asm__ ("fminp %0.2s, %1.2s, %2.2s"
11152            : "=w"(result)
11153            : "w"(a), "w"(b)
11154            : /* No clobbers */);
11155   return result;
11156 }
11157
11158 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11159 vpmin_s8 (int8x8_t a, int8x8_t b)
11160 {
11161   int8x8_t result;
11162   __asm__ ("sminp %0.8b, %1.8b, %2.8b"
11163            : "=w"(result)
11164            : "w"(a), "w"(b)
11165            : /* No clobbers */);
11166   return result;
11167 }
11168
11169 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
11170 vpmin_s16 (int16x4_t a, int16x4_t b)
11171 {
11172   int16x4_t result;
11173   __asm__ ("sminp %0.4h, %1.4h, %2.4h"
11174            : "=w"(result)
11175            : "w"(a), "w"(b)
11176            : /* No clobbers */);
11177   return result;
11178 }
11179
11180 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
11181 vpmin_s32 (int32x2_t a, int32x2_t b)
11182 {
11183   int32x2_t result;
11184   __asm__ ("sminp %0.2s, %1.2s, %2.2s"
11185            : "=w"(result)
11186            : "w"(a), "w"(b)
11187            : /* No clobbers */);
11188   return result;
11189 }
11190
11191 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11192 vpmin_u8 (uint8x8_t a, uint8x8_t b)
11193 {
11194   uint8x8_t result;
11195   __asm__ ("uminp %0.8b, %1.8b, %2.8b"
11196            : "=w"(result)
11197            : "w"(a), "w"(b)
11198            : /* No clobbers */);
11199   return result;
11200 }
11201
11202 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
11203 vpmin_u16 (uint16x4_t a, uint16x4_t b)
11204 {
11205   uint16x4_t result;
11206   __asm__ ("uminp %0.4h, %1.4h, %2.4h"
11207            : "=w"(result)
11208            : "w"(a), "w"(b)
11209            : /* No clobbers */);
11210   return result;
11211 }
11212
11213 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
11214 vpmin_u32 (uint32x2_t a, uint32x2_t b)
11215 {
11216   uint32x2_t result;
11217   __asm__ ("uminp %0.2s, %1.2s, %2.2s"
11218            : "=w"(result)
11219            : "w"(a), "w"(b)
11220            : /* No clobbers */);
11221   return result;
11222 }
11223
11224 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
11225 vpminnm_f32 (float32x2_t a, float32x2_t b)
11226 {
11227   float32x2_t result;
11228   __asm__ ("fminnmp %0.2s,%1.2s,%2.2s"
11229            : "=w"(result)
11230            : "w"(a), "w"(b)
11231            : /* No clobbers */);
11232   return result;
11233 }
11234
11235 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
11236 vpminnmq_f32 (float32x4_t a, float32x4_t b)
11237 {
11238   float32x4_t result;
11239   __asm__ ("fminnmp %0.4s,%1.4s,%2.4s"
11240            : "=w"(result)
11241            : "w"(a), "w"(b)
11242            : /* No clobbers */);
11243   return result;
11244 }
11245
11246 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
11247 vpminnmq_f64 (float64x2_t a, float64x2_t b)
11248 {
11249   float64x2_t result;
11250   __asm__ ("fminnmp %0.2d,%1.2d,%2.2d"
11251            : "=w"(result)
11252            : "w"(a), "w"(b)
11253            : /* No clobbers */);
11254   return result;
11255 }
11256
11257 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
11258 vpminnmqd_f64 (float64x2_t a)
11259 {
11260   float64_t result;
11261   __asm__ ("fminnmp %d0,%1.2d"
11262            : "=w"(result)
11263            : "w"(a)
11264            : /* No clobbers */);
11265   return result;
11266 }
11267
11268 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
11269 vpminnms_f32 (float32x2_t a)
11270 {
11271   float32_t result;
11272   __asm__ ("fminnmp %s0,%1.2s"
11273            : "=w"(result)
11274            : "w"(a)
11275            : /* No clobbers */);
11276   return result;
11277 }
11278
11279 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
11280 vpminq_f32 (float32x4_t a, float32x4_t b)
11281 {
11282   float32x4_t result;
11283   __asm__ ("fminp %0.4s, %1.4s, %2.4s"
11284            : "=w"(result)
11285            : "w"(a), "w"(b)
11286            : /* No clobbers */);
11287   return result;
11288 }
11289
11290 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
11291 vpminq_f64 (float64x2_t a, float64x2_t b)
11292 {
11293   float64x2_t result;
11294   __asm__ ("fminp %0.2d, %1.2d, %2.2d"
11295            : "=w"(result)
11296            : "w"(a), "w"(b)
11297            : /* No clobbers */);
11298   return result;
11299 }
11300
11301 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11302 vpminq_s8 (int8x16_t a, int8x16_t b)
11303 {
11304   int8x16_t result;
11305   __asm__ ("sminp %0.16b, %1.16b, %2.16b"
11306            : "=w"(result)
11307            : "w"(a), "w"(b)
11308            : /* No clobbers */);
11309   return result;
11310 }
11311
11312 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
11313 vpminq_s16 (int16x8_t a, int16x8_t b)
11314 {
11315   int16x8_t result;
11316   __asm__ ("sminp %0.8h, %1.8h, %2.8h"
11317            : "=w"(result)
11318            : "w"(a), "w"(b)
11319            : /* No clobbers */);
11320   return result;
11321 }
11322
11323 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
11324 vpminq_s32 (int32x4_t a, int32x4_t b)
11325 {
11326   int32x4_t result;
11327   __asm__ ("sminp %0.4s, %1.4s, %2.4s"
11328            : "=w"(result)
11329            : "w"(a), "w"(b)
11330            : /* No clobbers */);
11331   return result;
11332 }
11333
11334 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
11335 vpminq_u8 (uint8x16_t a, uint8x16_t b)
11336 {
11337   uint8x16_t result;
11338   __asm__ ("uminp %0.16b, %1.16b, %2.16b"
11339            : "=w"(result)
11340            : "w"(a), "w"(b)
11341            : /* No clobbers */);
11342   return result;
11343 }
11344
11345 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
11346 vpminq_u16 (uint16x8_t a, uint16x8_t b)
11347 {
11348   uint16x8_t result;
11349   __asm__ ("uminp %0.8h, %1.8h, %2.8h"
11350            : "=w"(result)
11351            : "w"(a), "w"(b)
11352            : /* No clobbers */);
11353   return result;
11354 }
11355
11356 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
11357 vpminq_u32 (uint32x4_t a, uint32x4_t b)
11358 {
11359   uint32x4_t result;
11360   __asm__ ("uminp %0.4s, %1.4s, %2.4s"
11361            : "=w"(result)
11362            : "w"(a), "w"(b)
11363            : /* No clobbers */);
11364   return result;
11365 }
11366
11367 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
11368 vpminqd_f64 (float64x2_t a)
11369 {
11370   float64_t result;
11371   __asm__ ("fminp %d0,%1.2d"
11372            : "=w"(result)
11373            : "w"(a)
11374            : /* No clobbers */);
11375   return result;
11376 }
11377
11378 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
11379 vpmins_f32 (float32x2_t a)
11380 {
11381   float32_t result;
11382   __asm__ ("fminp %s0,%1.2s"
11383            : "=w"(result)
11384            : "w"(a)
11385            : /* No clobbers */);
11386   return result;
11387 }
11388
11389 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
11390 vqdmulh_n_s16 (int16x4_t a, int16_t b)
11391 {
11392   int16x4_t result;
11393   __asm__ ("sqdmulh %0.4h,%1.4h,%2.h[0]"
11394            : "=w"(result)
11395            : "w"(a), "w"(b)
11396            : /* No clobbers */);
11397   return result;
11398 }
11399
11400 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
11401 vqdmulh_n_s32 (int32x2_t a, int32_t b)
11402 {
11403   int32x2_t result;
11404   __asm__ ("sqdmulh %0.2s,%1.2s,%2.s[0]"
11405            : "=w"(result)
11406            : "w"(a), "w"(b)
11407            : /* No clobbers */);
11408   return result;
11409 }
11410
11411 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
11412 vqdmulhq_n_s16 (int16x8_t a, int16_t b)
11413 {
11414   int16x8_t result;
11415   __asm__ ("sqdmulh %0.8h,%1.8h,%2.h[0]"
11416            : "=w"(result)
11417            : "w"(a), "w"(b)
11418            : /* No clobbers */);
11419   return result;
11420 }
11421
11422 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
11423 vqdmulhq_n_s32 (int32x4_t a, int32_t b)
11424 {
11425   int32x4_t result;
11426   __asm__ ("sqdmulh %0.4s,%1.4s,%2.s[0]"
11427            : "=w"(result)
11428            : "w"(a), "w"(b)
11429            : /* No clobbers */);
11430   return result;
11431 }
11432
11433 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11434 vqmovn_high_s16 (int8x8_t a, int16x8_t b)
11435 {
11436   int8x16_t result = vcombine_s8 (a, vcreate_s8 (__AARCH64_UINT64_C (0x0)));
11437   __asm__ ("sqxtn2 %0.16b, %1.8h"
11438            : "+w"(result)
11439            : "w"(b)
11440            : /* No clobbers */);
11441   return result;
11442 }
11443
11444 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
11445 vqmovn_high_s32 (int16x4_t a, int32x4_t b)
11446 {
11447   int16x8_t result = vcombine_s16 (a, vcreate_s16 (__AARCH64_UINT64_C (0x0)));
11448   __asm__ ("sqxtn2 %0.8h, %1.4s"
11449            : "+w"(result)
11450            : "w"(b)
11451            : /* No clobbers */);
11452   return result;
11453 }
11454
11455 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
11456 vqmovn_high_s64 (int32x2_t a, int64x2_t b)
11457 {
11458   int32x4_t result = vcombine_s32 (a, vcreate_s32 (__AARCH64_UINT64_C (0x0)));
11459   __asm__ ("sqxtn2 %0.4s, %1.2d"
11460            : "+w"(result)
11461            : "w"(b)
11462            : /* No clobbers */);
11463   return result;
11464 }
11465
11466 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
11467 vqmovn_high_u16 (uint8x8_t a, uint16x8_t b)
11468 {
11469   uint8x16_t result = vcombine_u8 (a, vcreate_u8 (__AARCH64_UINT64_C (0x0)));
11470   __asm__ ("uqxtn2 %0.16b, %1.8h"
11471            : "+w"(result)
11472            : "w"(b)
11473            : /* No clobbers */);
11474   return result;
11475 }
11476
11477 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
11478 vqmovn_high_u32 (uint16x4_t a, uint32x4_t b)
11479 {
11480   uint16x8_t result = vcombine_u16 (a, vcreate_u16 (__AARCH64_UINT64_C (0x0)));
11481   __asm__ ("uqxtn2 %0.8h, %1.4s"
11482            : "+w"(result)
11483            : "w"(b)
11484            : /* No clobbers */);
11485   return result;
11486 }
11487
11488 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
11489 vqmovn_high_u64 (uint32x2_t a, uint64x2_t b)
11490 {
11491   uint32x4_t result = vcombine_u32 (a, vcreate_u32 (__AARCH64_UINT64_C (0x0)));
11492   __asm__ ("uqxtn2 %0.4s, %1.2d"
11493            : "+w"(result)
11494            : "w"(b)
11495            : /* No clobbers */);
11496   return result;
11497 }
11498
11499 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
11500 vqmovun_high_s16 (uint8x8_t a, int16x8_t b)
11501 {
11502   uint8x16_t result = vcombine_u8 (a, vcreate_u8 (__AARCH64_UINT64_C (0x0)));
11503   __asm__ ("sqxtun2 %0.16b, %1.8h"
11504            : "+w"(result)
11505            : "w"(b)
11506            : /* No clobbers */);
11507   return result;
11508 }
11509
11510 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
11511 vqmovun_high_s32 (uint16x4_t a, int32x4_t b)
11512 {
11513   uint16x8_t result = vcombine_u16 (a, vcreate_u16 (__AARCH64_UINT64_C (0x0)));
11514   __asm__ ("sqxtun2 %0.8h, %1.4s"
11515            : "+w"(result)
11516            : "w"(b)
11517            : /* No clobbers */);
11518   return result;
11519 }
11520
11521 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
11522 vqmovun_high_s64 (uint32x2_t a, int64x2_t b)
11523 {
11524   uint32x4_t result = vcombine_u32 (a, vcreate_u32 (__AARCH64_UINT64_C (0x0)));
11525   __asm__ ("sqxtun2 %0.4s, %1.2d"
11526            : "+w"(result)
11527            : "w"(b)
11528            : /* No clobbers */);
11529   return result;
11530 }
11531
11532 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
11533 vqrdmulh_n_s16 (int16x4_t a, int16_t b)
11534 {
11535   int16x4_t result;
11536   __asm__ ("sqrdmulh %0.4h,%1.4h,%2.h[0]"
11537            : "=w"(result)
11538            : "w"(a), "x"(b)
11539            : /* No clobbers */);
11540   return result;
11541 }
11542
11543 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
11544 vqrdmulh_n_s32 (int32x2_t a, int32_t b)
11545 {
11546   int32x2_t result;
11547   __asm__ ("sqrdmulh %0.2s,%1.2s,%2.s[0]"
11548            : "=w"(result)
11549            : "w"(a), "w"(b)
11550            : /* No clobbers */);
11551   return result;
11552 }
11553
11554 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
11555 vqrdmulhq_n_s16 (int16x8_t a, int16_t b)
11556 {
11557   int16x8_t result;
11558   __asm__ ("sqrdmulh %0.8h,%1.8h,%2.h[0]"
11559            : "=w"(result)
11560            : "w"(a), "x"(b)
11561            : /* No clobbers */);
11562   return result;
11563 }
11564
11565 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
11566 vqrdmulhq_n_s32 (int32x4_t a, int32_t b)
11567 {
11568   int32x4_t result;
11569   __asm__ ("sqrdmulh %0.4s,%1.4s,%2.s[0]"
11570            : "=w"(result)
11571            : "w"(a), "w"(b)
11572            : /* No clobbers */);
11573   return result;
11574 }
11575
11576 #define vqrshrn_high_n_s16(a, b, c)                                     \
11577   __extension__                                                         \
11578     ({                                                                  \
11579        int16x8_t b_ = (b);                                              \
11580        int8x8_t a_ = (a);                                               \
11581        int8x16_t result = vcombine_s8                                   \
11582                             (a_, vcreate_s8                             \
11583                                    (__AARCH64_UINT64_C (0x0)));         \
11584        __asm__ ("sqrshrn2 %0.16b, %1.8h, #%2"                           \
11585                 : "+w"(result)                                          \
11586                 : "w"(b_), "i"(c)                                       \
11587                 : /* No clobbers */);                                   \
11588        result;                                                          \
11589      })
11590
11591 #define vqrshrn_high_n_s32(a, b, c)                                     \
11592   __extension__                                                         \
11593     ({                                                                  \
11594        int32x4_t b_ = (b);                                              \
11595        int16x4_t a_ = (a);                                              \
11596        int16x8_t result = vcombine_s16                                  \
11597                             (a_, vcreate_s16                            \
11598                                    (__AARCH64_UINT64_C (0x0)));         \
11599        __asm__ ("sqrshrn2 %0.8h, %1.4s, #%2"                            \
11600                 : "+w"(result)                                          \
11601                 : "w"(b_), "i"(c)                                       \
11602                 : /* No clobbers */);                                   \
11603        result;                                                          \
11604      })
11605
11606 #define vqrshrn_high_n_s64(a, b, c)                                     \
11607   __extension__                                                         \
11608     ({                                                                  \
11609        int64x2_t b_ = (b);                                              \
11610        int32x2_t a_ = (a);                                              \
11611        int32x4_t result = vcombine_s32                                  \
11612                             (a_, vcreate_s32                            \
11613                                    (__AARCH64_UINT64_C (0x0)));         \
11614        __asm__ ("sqrshrn2 %0.4s, %1.2d, #%2"                            \
11615                 : "+w"(result)                                          \
11616                 : "w"(b_), "i"(c)                                       \
11617                 : /* No clobbers */);                                   \
11618        result;                                                          \
11619      })
11620
11621 #define vqrshrn_high_n_u16(a, b, c)                                     \
11622   __extension__                                                         \
11623     ({                                                                  \
11624        uint16x8_t b_ = (b);                                             \
11625        uint8x8_t a_ = (a);                                              \
11626        uint8x16_t result = vcombine_u8                                  \
11627                              (a_, vcreate_u8                            \
11628                                     (__AARCH64_UINT64_C (0x0)));        \
11629        __asm__ ("uqrshrn2 %0.16b, %1.8h, #%2"                           \
11630                 : "+w"(result)                                          \
11631                 : "w"(b_), "i"(c)                                       \
11632                 : /* No clobbers */);                                   \
11633        result;                                                          \
11634      })
11635
11636 #define vqrshrn_high_n_u32(a, b, c)                                     \
11637   __extension__                                                         \
11638     ({                                                                  \
11639        uint32x4_t b_ = (b);                                             \
11640        uint16x4_t a_ = (a);                                             \
11641        uint16x8_t result = vcombine_u16                                 \
11642                              (a_, vcreate_u16                           \
11643                                     (__AARCH64_UINT64_C (0x0)));        \
11644        __asm__ ("uqrshrn2 %0.8h, %1.4s, #%2"                            \
11645                 : "+w"(result)                                          \
11646                 : "w"(b_), "i"(c)                                       \
11647                 : /* No clobbers */);                                   \
11648        result;                                                          \
11649      })
11650
11651 #define vqrshrn_high_n_u64(a, b, c)                                     \
11652   __extension__                                                         \
11653     ({                                                                  \
11654        uint64x2_t b_ = (b);                                             \
11655        uint32x2_t a_ = (a);                                             \
11656        uint32x4_t result = vcombine_u32                                 \
11657                              (a_, vcreate_u32                           \
11658                                     (__AARCH64_UINT64_C (0x0)));        \
11659        __asm__ ("uqrshrn2 %0.4s, %1.2d, #%2"                            \
11660                 : "+w"(result)                                          \
11661                 : "w"(b_), "i"(c)                                       \
11662                 : /* No clobbers */);                                   \
11663        result;                                                          \
11664      })
11665
11666 #define vqrshrun_high_n_s16(a, b, c)                                    \
11667   __extension__                                                         \
11668     ({                                                                  \
11669        int16x8_t b_ = (b);                                              \
11670        uint8x8_t a_ = (a);                                              \
11671        uint8x16_t result = vcombine_u8                                  \
11672                              (a_, vcreate_u8                            \
11673                                     (__AARCH64_UINT64_C (0x0)));        \
11674        __asm__ ("sqrshrun2 %0.16b, %1.8h, #%2"                          \
11675                 : "+w"(result)                                          \
11676                 : "w"(b_), "i"(c)                                       \
11677                 : /* No clobbers */);                                   \
11678        result;                                                          \
11679      })
11680
11681 #define vqrshrun_high_n_s32(a, b, c)                                    \
11682   __extension__                                                         \
11683     ({                                                                  \
11684        int32x4_t b_ = (b);                                              \
11685        uint16x4_t a_ = (a);                                             \
11686        uint16x8_t result = vcombine_u16                                 \
11687                              (a_, vcreate_u16                           \
11688                                     (__AARCH64_UINT64_C (0x0)));        \
11689        __asm__ ("sqrshrun2 %0.8h, %1.4s, #%2"                           \
11690                 : "+w"(result)                                          \
11691                 : "w"(b_), "i"(c)                                       \
11692                 : /* No clobbers */);                                   \
11693        result;                                                          \
11694      })
11695
11696 #define vqrshrun_high_n_s64(a, b, c)                                    \
11697   __extension__                                                         \
11698     ({                                                                  \
11699        int64x2_t b_ = (b);                                              \
11700        uint32x2_t a_ = (a);                                             \
11701        uint32x4_t result = vcombine_u32                                 \
11702                              (a_, vcreate_u32                           \
11703                                     (__AARCH64_UINT64_C (0x0)));        \
11704        __asm__ ("sqrshrun2 %0.4s, %1.2d, #%2"                           \
11705                 : "+w"(result)                                          \
11706                 : "w"(b_), "i"(c)                                       \
11707                 : /* No clobbers */);                                   \
11708        result;                                                          \
11709      })
11710
11711 #define vqshrn_high_n_s16(a, b, c)                                      \
11712   __extension__                                                         \
11713     ({                                                                  \
11714        int16x8_t b_ = (b);                                              \
11715        int8x8_t a_ = (a);                                               \
11716        int8x16_t result = vcombine_s8                                   \
11717                             (a_, vcreate_s8                             \
11718                                    (__AARCH64_UINT64_C (0x0)));         \
11719        __asm__ ("sqshrn2 %0.16b, %1.8h, #%2"                            \
11720                 : "+w"(result)                                          \
11721                 : "w"(b_), "i"(c)                                       \
11722                 : /* No clobbers */);                                   \
11723        result;                                                          \
11724      })
11725
11726 #define vqshrn_high_n_s32(a, b, c)                                      \
11727   __extension__                                                         \
11728     ({                                                                  \
11729        int32x4_t b_ = (b);                                              \
11730        int16x4_t a_ = (a);                                              \
11731        int16x8_t result = vcombine_s16                                  \
11732                             (a_, vcreate_s16                            \
11733                                    (__AARCH64_UINT64_C (0x0)));         \
11734        __asm__ ("sqshrn2 %0.8h, %1.4s, #%2"                             \
11735                 : "+w"(result)                                          \
11736                 : "w"(b_), "i"(c)                                       \
11737                 : /* No clobbers */);                                   \
11738        result;                                                          \
11739      })
11740
11741 #define vqshrn_high_n_s64(a, b, c)                                      \
11742   __extension__                                                         \
11743     ({                                                                  \
11744        int64x2_t b_ = (b);                                              \
11745        int32x2_t a_ = (a);                                              \
11746        int32x4_t result = vcombine_s32                                  \
11747                             (a_, vcreate_s32                            \
11748                                    (__AARCH64_UINT64_C (0x0)));         \
11749        __asm__ ("sqshrn2 %0.4s, %1.2d, #%2"                             \
11750                 : "+w"(result)                                          \
11751                 : "w"(b_), "i"(c)                                       \
11752                 : /* No clobbers */);                                   \
11753        result;                                                          \
11754      })
11755
11756 #define vqshrn_high_n_u16(a, b, c)                                      \
11757   __extension__                                                         \
11758     ({                                                                  \
11759        uint16x8_t b_ = (b);                                             \
11760        uint8x8_t a_ = (a);                                              \
11761        uint8x16_t result = vcombine_u8                                  \
11762                              (a_, vcreate_u8                            \
11763                                     (__AARCH64_UINT64_C (0x0)));        \
11764        __asm__ ("uqshrn2 %0.16b, %1.8h, #%2"                            \
11765                 : "+w"(result)                                          \
11766                 : "w"(b_), "i"(c)                                       \
11767                 : /* No clobbers */);                                   \
11768        result;                                                          \
11769      })
11770
11771 #define vqshrn_high_n_u32(a, b, c)                                      \
11772   __extension__                                                         \
11773     ({                                                                  \
11774        uint32x4_t b_ = (b);                                             \
11775        uint16x4_t a_ = (a);                                             \
11776        uint16x8_t result = vcombine_u16                                 \
11777                              (a_, vcreate_u16                           \
11778                                     (__AARCH64_UINT64_C (0x0)));        \
11779        __asm__ ("uqshrn2 %0.8h, %1.4s, #%2"                             \
11780                 : "+w"(result)                                          \
11781                 : "w"(b_), "i"(c)                                       \
11782                 : /* No clobbers */);                                   \
11783        result;                                                          \
11784      })
11785
11786 #define vqshrn_high_n_u64(a, b, c)                                      \
11787   __extension__                                                         \
11788     ({                                                                  \
11789        uint64x2_t b_ = (b);                                             \
11790        uint32x2_t a_ = (a);                                             \
11791        uint32x4_t result = vcombine_u32                                 \
11792                              (a_, vcreate_u32                           \
11793                                     (__AARCH64_UINT64_C (0x0)));        \
11794        __asm__ ("uqshrn2 %0.4s, %1.2d, #%2"                             \
11795                 : "+w"(result)                                          \
11796                 : "w"(b_), "i"(c)                                       \
11797                 : /* No clobbers */);                                   \
11798        result;                                                          \
11799      })
11800
11801 #define vqshrun_high_n_s16(a, b, c)                                     \
11802   __extension__                                                         \
11803     ({                                                                  \
11804        int16x8_t b_ = (b);                                              \
11805        uint8x8_t a_ = (a);                                              \
11806        uint8x16_t result = vcombine_u8                                  \
11807                              (a_, vcreate_u8                            \
11808                                     (__AARCH64_UINT64_C (0x0)));        \
11809        __asm__ ("sqshrun2 %0.16b, %1.8h, #%2"                           \
11810                 : "+w"(result)                                          \
11811                 : "w"(b_), "i"(c)                                       \
11812                 : /* No clobbers */);                                   \
11813        result;                                                          \
11814      })
11815
11816 #define vqshrun_high_n_s32(a, b, c)                                     \
11817   __extension__                                                         \
11818     ({                                                                  \
11819        int32x4_t b_ = (b);                                              \
11820        uint16x4_t a_ = (a);                                             \
11821        uint16x8_t result = vcombine_u16                                 \
11822                              (a_, vcreate_u16                           \
11823                                     (__AARCH64_UINT64_C (0x0)));        \
11824        __asm__ ("sqshrun2 %0.8h, %1.4s, #%2"                            \
11825                 : "+w"(result)                                          \
11826                 : "w"(b_), "i"(c)                                       \
11827                 : /* No clobbers */);                                   \
11828        result;                                                          \
11829      })
11830
11831 #define vqshrun_high_n_s64(a, b, c)                                     \
11832   __extension__                                                         \
11833     ({                                                                  \
11834        int64x2_t b_ = (b);                                              \
11835        uint32x2_t a_ = (a);                                             \
11836        uint32x4_t result = vcombine_u32                                 \
11837                              (a_, vcreate_u32                           \
11838                                     (__AARCH64_UINT64_C (0x0)));        \
11839        __asm__ ("sqshrun2 %0.4s, %1.2d, #%2"                            \
11840                 : "+w"(result)                                          \
11841                 : "w"(b_), "i"(c)                                       \
11842                 : /* No clobbers */);                                   \
11843        result;                                                          \
11844      })
11845
11846 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11847 vrbit_s8 (int8x8_t a)
11848 {
11849   int8x8_t result;
11850   __asm__ ("rbit %0.8b,%1.8b"
11851            : "=w"(result)
11852            : "w"(a)
11853            : /* No clobbers */);
11854   return result;
11855 }
11856
11857 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11858 vrbit_u8 (uint8x8_t a)
11859 {
11860   uint8x8_t result;
11861   __asm__ ("rbit %0.8b,%1.8b"
11862            : "=w"(result)
11863            : "w"(a)
11864            : /* No clobbers */);
11865   return result;
11866 }
11867
11868 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11869 vrbitq_s8 (int8x16_t a)
11870 {
11871   int8x16_t result;
11872   __asm__ ("rbit %0.16b,%1.16b"
11873            : "=w"(result)
11874            : "w"(a)
11875            : /* No clobbers */);
11876   return result;
11877 }
11878
11879 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
11880 vrbitq_u8 (uint8x16_t a)
11881 {
11882   uint8x16_t result;
11883   __asm__ ("rbit %0.16b,%1.16b"
11884            : "=w"(result)
11885            : "w"(a)
11886            : /* No clobbers */);
11887   return result;
11888 }
11889
11890 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
11891 vrecpe_u32 (uint32x2_t a)
11892 {
11893   uint32x2_t result;
11894   __asm__ ("urecpe %0.2s,%1.2s"
11895            : "=w"(result)
11896            : "w"(a)
11897            : /* No clobbers */);
11898   return result;
11899 }
11900
11901 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
11902 vrecpeq_u32 (uint32x4_t a)
11903 {
11904   uint32x4_t result;
11905   __asm__ ("urecpe %0.4s,%1.4s"
11906            : "=w"(result)
11907            : "w"(a)
11908            : /* No clobbers */);
11909   return result;
11910 }
11911
11912 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11913 vrev16_p8 (poly8x8_t a)
11914 {
11915   poly8x8_t result;
11916   __asm__ ("rev16 %0.8b,%1.8b"
11917            : "=w"(result)
11918            : "w"(a)
11919            : /* No clobbers */);
11920   return result;
11921 }
11922
11923 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
11924 vrev16_s8 (int8x8_t a)
11925 {
11926   int8x8_t result;
11927   __asm__ ("rev16 %0.8b,%1.8b"
11928            : "=w"(result)
11929            : "w"(a)
11930            : /* No clobbers */);
11931   return result;
11932 }
11933
11934 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
11935 vrev16_u8 (uint8x8_t a)
11936 {
11937   uint8x8_t result;
11938   __asm__ ("rev16 %0.8b,%1.8b"
11939            : "=w"(result)
11940            : "w"(a)
11941            : /* No clobbers */);
11942   return result;
11943 }
11944
11945 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
11946 vrev16q_p8 (poly8x16_t a)
11947 {
11948   poly8x16_t result;
11949   __asm__ ("rev16 %0.16b,%1.16b"
11950            : "=w"(result)
11951            : "w"(a)
11952            : /* No clobbers */);
11953   return result;
11954 }
11955
11956 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
11957 vrev16q_s8 (int8x16_t a)
11958 {
11959   int8x16_t result;
11960   __asm__ ("rev16 %0.16b,%1.16b"
11961            : "=w"(result)
11962            : "w"(a)
11963            : /* No clobbers */);
11964   return result;
11965 }
11966
11967 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
11968 vrev16q_u8 (uint8x16_t a)
11969 {
11970   uint8x16_t result;
11971   __asm__ ("rev16 %0.16b,%1.16b"
11972            : "=w"(result)
11973            : "w"(a)
11974            : /* No clobbers */);
11975   return result;
11976 }
11977
11978 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
11979 vrev32_p8 (poly8x8_t a)
11980 {
11981   poly8x8_t result;
11982   __asm__ ("rev32 %0.8b,%1.8b"
11983            : "=w"(result)
11984            : "w"(a)
11985            : /* No clobbers */);
11986   return result;
11987 }
11988
11989 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
11990 vrev32_p16 (poly16x4_t a)
11991 {
11992   poly16x4_t result;
11993   __asm__ ("rev32 %0.4h,%1.4h"
11994            : "=w"(result)
11995            : "w"(a)
11996            : /* No clobbers */);
11997   return result;
11998 }
11999
12000 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
12001 vrev32_s8 (int8x8_t a)
12002 {
12003   int8x8_t result;
12004   __asm__ ("rev32 %0.8b,%1.8b"
12005            : "=w"(result)
12006            : "w"(a)
12007            : /* No clobbers */);
12008   return result;
12009 }
12010
12011 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
12012 vrev32_s16 (int16x4_t a)
12013 {
12014   int16x4_t result;
12015   __asm__ ("rev32 %0.4h,%1.4h"
12016            : "=w"(result)
12017            : "w"(a)
12018            : /* No clobbers */);
12019   return result;
12020 }
12021
12022 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12023 vrev32_u8 (uint8x8_t a)
12024 {
12025   uint8x8_t result;
12026   __asm__ ("rev32 %0.8b,%1.8b"
12027            : "=w"(result)
12028            : "w"(a)
12029            : /* No clobbers */);
12030   return result;
12031 }
12032
12033 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12034 vrev32_u16 (uint16x4_t a)
12035 {
12036   uint16x4_t result;
12037   __asm__ ("rev32 %0.4h,%1.4h"
12038            : "=w"(result)
12039            : "w"(a)
12040            : /* No clobbers */);
12041   return result;
12042 }
12043
12044 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
12045 vrev32q_p8 (poly8x16_t a)
12046 {
12047   poly8x16_t result;
12048   __asm__ ("rev32 %0.16b,%1.16b"
12049            : "=w"(result)
12050            : "w"(a)
12051            : /* No clobbers */);
12052   return result;
12053 }
12054
12055 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
12056 vrev32q_p16 (poly16x8_t a)
12057 {
12058   poly16x8_t result;
12059   __asm__ ("rev32 %0.8h,%1.8h"
12060            : "=w"(result)
12061            : "w"(a)
12062            : /* No clobbers */);
12063   return result;
12064 }
12065
12066 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
12067 vrev32q_s8 (int8x16_t a)
12068 {
12069   int8x16_t result;
12070   __asm__ ("rev32 %0.16b,%1.16b"
12071            : "=w"(result)
12072            : "w"(a)
12073            : /* No clobbers */);
12074   return result;
12075 }
12076
12077 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
12078 vrev32q_s16 (int16x8_t a)
12079 {
12080   int16x8_t result;
12081   __asm__ ("rev32 %0.8h,%1.8h"
12082            : "=w"(result)
12083            : "w"(a)
12084            : /* No clobbers */);
12085   return result;
12086 }
12087
12088 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12089 vrev32q_u8 (uint8x16_t a)
12090 {
12091   uint8x16_t result;
12092   __asm__ ("rev32 %0.16b,%1.16b"
12093            : "=w"(result)
12094            : "w"(a)
12095            : /* No clobbers */);
12096   return result;
12097 }
12098
12099 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
12100 vrev32q_u16 (uint16x8_t a)
12101 {
12102   uint16x8_t result;
12103   __asm__ ("rev32 %0.8h,%1.8h"
12104            : "=w"(result)
12105            : "w"(a)
12106            : /* No clobbers */);
12107   return result;
12108 }
12109
12110 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
12111 vrev64_f32 (float32x2_t a)
12112 {
12113   float32x2_t result;
12114   __asm__ ("rev64 %0.2s,%1.2s"
12115            : "=w"(result)
12116            : "w"(a)
12117            : /* No clobbers */);
12118   return result;
12119 }
12120
12121 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
12122 vrev64_p8 (poly8x8_t a)
12123 {
12124   poly8x8_t result;
12125   __asm__ ("rev64 %0.8b,%1.8b"
12126            : "=w"(result)
12127            : "w"(a)
12128            : /* No clobbers */);
12129   return result;
12130 }
12131
12132 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
12133 vrev64_p16 (poly16x4_t a)
12134 {
12135   poly16x4_t result;
12136   __asm__ ("rev64 %0.4h,%1.4h"
12137            : "=w"(result)
12138            : "w"(a)
12139            : /* No clobbers */);
12140   return result;
12141 }
12142
12143 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
12144 vrev64_s8 (int8x8_t a)
12145 {
12146   int8x8_t result;
12147   __asm__ ("rev64 %0.8b,%1.8b"
12148            : "=w"(result)
12149            : "w"(a)
12150            : /* No clobbers */);
12151   return result;
12152 }
12153
12154 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
12155 vrev64_s16 (int16x4_t a)
12156 {
12157   int16x4_t result;
12158   __asm__ ("rev64 %0.4h,%1.4h"
12159            : "=w"(result)
12160            : "w"(a)
12161            : /* No clobbers */);
12162   return result;
12163 }
12164
12165 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
12166 vrev64_s32 (int32x2_t a)
12167 {
12168   int32x2_t result;
12169   __asm__ ("rev64 %0.2s,%1.2s"
12170            : "=w"(result)
12171            : "w"(a)
12172            : /* No clobbers */);
12173   return result;
12174 }
12175
12176 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12177 vrev64_u8 (uint8x8_t a)
12178 {
12179   uint8x8_t result;
12180   __asm__ ("rev64 %0.8b,%1.8b"
12181            : "=w"(result)
12182            : "w"(a)
12183            : /* No clobbers */);
12184   return result;
12185 }
12186
12187 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12188 vrev64_u16 (uint16x4_t a)
12189 {
12190   uint16x4_t result;
12191   __asm__ ("rev64 %0.4h,%1.4h"
12192            : "=w"(result)
12193            : "w"(a)
12194            : /* No clobbers */);
12195   return result;
12196 }
12197
12198 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12199 vrev64_u32 (uint32x2_t a)
12200 {
12201   uint32x2_t result;
12202   __asm__ ("rev64 %0.2s,%1.2s"
12203            : "=w"(result)
12204            : "w"(a)
12205            : /* No clobbers */);
12206   return result;
12207 }
12208
12209 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
12210 vrev64q_f32 (float32x4_t a)
12211 {
12212   float32x4_t result;
12213   __asm__ ("rev64 %0.4s,%1.4s"
12214            : "=w"(result)
12215            : "w"(a)
12216            : /* No clobbers */);
12217   return result;
12218 }
12219
12220 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
12221 vrev64q_p8 (poly8x16_t a)
12222 {
12223   poly8x16_t result;
12224   __asm__ ("rev64 %0.16b,%1.16b"
12225            : "=w"(result)
12226            : "w"(a)
12227            : /* No clobbers */);
12228   return result;
12229 }
12230
12231 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
12232 vrev64q_p16 (poly16x8_t a)
12233 {
12234   poly16x8_t result;
12235   __asm__ ("rev64 %0.8h,%1.8h"
12236            : "=w"(result)
12237            : "w"(a)
12238            : /* No clobbers */);
12239   return result;
12240 }
12241
12242 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
12243 vrev64q_s8 (int8x16_t a)
12244 {
12245   int8x16_t result;
12246   __asm__ ("rev64 %0.16b,%1.16b"
12247            : "=w"(result)
12248            : "w"(a)
12249            : /* No clobbers */);
12250   return result;
12251 }
12252
12253 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
12254 vrev64q_s16 (int16x8_t a)
12255 {
12256   int16x8_t result;
12257   __asm__ ("rev64 %0.8h,%1.8h"
12258            : "=w"(result)
12259            : "w"(a)
12260            : /* No clobbers */);
12261   return result;
12262 }
12263
12264 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
12265 vrev64q_s32 (int32x4_t a)
12266 {
12267   int32x4_t result;
12268   __asm__ ("rev64 %0.4s,%1.4s"
12269            : "=w"(result)
12270            : "w"(a)
12271            : /* No clobbers */);
12272   return result;
12273 }
12274
12275 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12276 vrev64q_u8 (uint8x16_t a)
12277 {
12278   uint8x16_t result;
12279   __asm__ ("rev64 %0.16b,%1.16b"
12280            : "=w"(result)
12281            : "w"(a)
12282            : /* No clobbers */);
12283   return result;
12284 }
12285
12286 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
12287 vrev64q_u16 (uint16x8_t a)
12288 {
12289   uint16x8_t result;
12290   __asm__ ("rev64 %0.8h,%1.8h"
12291            : "=w"(result)
12292            : "w"(a)
12293            : /* No clobbers */);
12294   return result;
12295 }
12296
12297 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12298 vrev64q_u32 (uint32x4_t a)
12299 {
12300   uint32x4_t result;
12301   __asm__ ("rev64 %0.4s,%1.4s"
12302            : "=w"(result)
12303            : "w"(a)
12304            : /* No clobbers */);
12305   return result;
12306 }
12307
12308 #define vrshrn_high_n_s16(a, b, c)                                      \
12309   __extension__                                                         \
12310     ({                                                                  \
12311        int16x8_t b_ = (b);                                              \
12312        int8x8_t a_ = (a);                                               \
12313        int8x16_t result = vcombine_s8                                   \
12314                             (a_, vcreate_s8                             \
12315                                    (__AARCH64_UINT64_C (0x0)));         \
12316        __asm__ ("rshrn2 %0.16b,%1.8h,#%2"                               \
12317                 : "+w"(result)                                          \
12318                 : "w"(b_), "i"(c)                                       \
12319                 : /* No clobbers */);                                   \
12320        result;                                                          \
12321      })
12322
12323 #define vrshrn_high_n_s32(a, b, c)                                      \
12324   __extension__                                                         \
12325     ({                                                                  \
12326        int32x4_t b_ = (b);                                              \
12327        int16x4_t a_ = (a);                                              \
12328        int16x8_t result = vcombine_s16                                  \
12329                             (a_, vcreate_s16                            \
12330                                    (__AARCH64_UINT64_C (0x0)));         \
12331        __asm__ ("rshrn2 %0.8h,%1.4s,#%2"                                \
12332                 : "+w"(result)                                          \
12333                 : "w"(b_), "i"(c)                                       \
12334                 : /* No clobbers */);                                   \
12335        result;                                                          \
12336      })
12337
12338 #define vrshrn_high_n_s64(a, b, c)                                      \
12339   __extension__                                                         \
12340     ({                                                                  \
12341        int64x2_t b_ = (b);                                              \
12342        int32x2_t a_ = (a);                                              \
12343        int32x4_t result = vcombine_s32                                  \
12344                             (a_, vcreate_s32                            \
12345                                    (__AARCH64_UINT64_C (0x0)));         \
12346        __asm__ ("rshrn2 %0.4s,%1.2d,#%2"                                \
12347                 : "+w"(result)                                          \
12348                 : "w"(b_), "i"(c)                                       \
12349                 : /* No clobbers */);                                   \
12350        result;                                                          \
12351      })
12352
12353 #define vrshrn_high_n_u16(a, b, c)                                      \
12354   __extension__                                                         \
12355     ({                                                                  \
12356        uint16x8_t b_ = (b);                                             \
12357        uint8x8_t a_ = (a);                                              \
12358        uint8x16_t result = vcombine_u8                                  \
12359                             (a_, vcreate_u8                             \
12360                                    (__AARCH64_UINT64_C (0x0)));         \
12361        __asm__ ("rshrn2 %0.16b,%1.8h,#%2"                               \
12362                 : "+w"(result)                                          \
12363                 : "w"(b_), "i"(c)                                       \
12364                 : /* No clobbers */);                                   \
12365        result;                                                          \
12366      })
12367
12368 #define vrshrn_high_n_u32(a, b, c)                                      \
12369   __extension__                                                         \
12370     ({                                                                  \
12371        uint32x4_t b_ = (b);                                             \
12372        uint16x4_t a_ = (a);                                             \
12373        uint16x8_t result = vcombine_u16                                 \
12374                             (a_, vcreate_u16                            \
12375                                    (__AARCH64_UINT64_C (0x0)));         \
12376        __asm__ ("rshrn2 %0.8h,%1.4s,#%2"                                \
12377                 : "+w"(result)                                          \
12378                 : "w"(b_), "i"(c)                                       \
12379                 : /* No clobbers */);                                   \
12380        result;                                                          \
12381      })
12382
12383 #define vrshrn_high_n_u64(a, b, c)                                      \
12384   __extension__                                                         \
12385     ({                                                                  \
12386        uint64x2_t b_ = (b);                                             \
12387        uint32x2_t a_ = (a);                                             \
12388        uint32x4_t result = vcombine_u32                                 \
12389                             (a_, vcreate_u32                            \
12390                                    (__AARCH64_UINT64_C (0x0)));         \
12391        __asm__ ("rshrn2 %0.4s,%1.2d,#%2"                                \
12392                 : "+w"(result)                                          \
12393                 : "w"(b_), "i"(c)                                       \
12394                 : /* No clobbers */);                                   \
12395        result;                                                          \
12396      })
12397
12398 #define vrshrn_n_s16(a, b)                                              \
12399   __extension__                                                         \
12400     ({                                                                  \
12401        int16x8_t a_ = (a);                                              \
12402        int8x8_t result;                                                 \
12403        __asm__ ("rshrn %0.8b,%1.8h,%2"                                  \
12404                 : "=w"(result)                                          \
12405                 : "w"(a_), "i"(b)                                       \
12406                 : /* No clobbers */);                                   \
12407        result;                                                          \
12408      })
12409
12410 #define vrshrn_n_s32(a, b)                                              \
12411   __extension__                                                         \
12412     ({                                                                  \
12413        int32x4_t a_ = (a);                                              \
12414        int16x4_t result;                                                \
12415        __asm__ ("rshrn %0.4h,%1.4s,%2"                                  \
12416                 : "=w"(result)                                          \
12417                 : "w"(a_), "i"(b)                                       \
12418                 : /* No clobbers */);                                   \
12419        result;                                                          \
12420      })
12421
12422 #define vrshrn_n_s64(a, b)                                              \
12423   __extension__                                                         \
12424     ({                                                                  \
12425        int64x2_t a_ = (a);                                              \
12426        int32x2_t result;                                                \
12427        __asm__ ("rshrn %0.2s,%1.2d,%2"                                  \
12428                 : "=w"(result)                                          \
12429                 : "w"(a_), "i"(b)                                       \
12430                 : /* No clobbers */);                                   \
12431        result;                                                          \
12432      })
12433
12434 #define vrshrn_n_u16(a, b)                                              \
12435   __extension__                                                         \
12436     ({                                                                  \
12437        uint16x8_t a_ = (a);                                             \
12438        uint8x8_t result;                                                \
12439        __asm__ ("rshrn %0.8b,%1.8h,%2"                                  \
12440                 : "=w"(result)                                          \
12441                 : "w"(a_), "i"(b)                                       \
12442                 : /* No clobbers */);                                   \
12443        result;                                                          \
12444      })
12445
12446 #define vrshrn_n_u32(a, b)                                              \
12447   __extension__                                                         \
12448     ({                                                                  \
12449        uint32x4_t a_ = (a);                                             \
12450        uint16x4_t result;                                               \
12451        __asm__ ("rshrn %0.4h,%1.4s,%2"                                  \
12452                 : "=w"(result)                                          \
12453                 : "w"(a_), "i"(b)                                       \
12454                 : /* No clobbers */);                                   \
12455        result;                                                          \
12456      })
12457
12458 #define vrshrn_n_u64(a, b)                                              \
12459   __extension__                                                         \
12460     ({                                                                  \
12461        uint64x2_t a_ = (a);                                             \
12462        uint32x2_t result;                                               \
12463        __asm__ ("rshrn %0.2s,%1.2d,%2"                                  \
12464                 : "=w"(result)                                          \
12465                 : "w"(a_), "i"(b)                                       \
12466                 : /* No clobbers */);                                   \
12467        result;                                                          \
12468      })
12469
12470 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
12471 vrsqrte_f32 (float32x2_t a)
12472 {
12473   float32x2_t result;
12474   __asm__ ("frsqrte %0.2s,%1.2s"
12475            : "=w"(result)
12476            : "w"(a)
12477            : /* No clobbers */);
12478   return result;
12479 }
12480
12481 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
12482 vrsqrte_f64 (float64x1_t a)
12483 {
12484   float64x1_t result;
12485   __asm__ ("frsqrte %d0,%d1"
12486            : "=w"(result)
12487            : "w"(a)
12488            : /* No clobbers */);
12489   return result;
12490 }
12491
12492 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12493 vrsqrte_u32 (uint32x2_t a)
12494 {
12495   uint32x2_t result;
12496   __asm__ ("ursqrte %0.2s,%1.2s"
12497            : "=w"(result)
12498            : "w"(a)
12499            : /* No clobbers */);
12500   return result;
12501 }
12502
12503 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
12504 vrsqrted_f64 (float64_t a)
12505 {
12506   float64_t result;
12507   __asm__ ("frsqrte %d0,%d1"
12508            : "=w"(result)
12509            : "w"(a)
12510            : /* No clobbers */);
12511   return result;
12512 }
12513
12514 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
12515 vrsqrteq_f32 (float32x4_t a)
12516 {
12517   float32x4_t result;
12518   __asm__ ("frsqrte %0.4s,%1.4s"
12519            : "=w"(result)
12520            : "w"(a)
12521            : /* No clobbers */);
12522   return result;
12523 }
12524
12525 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
12526 vrsqrteq_f64 (float64x2_t a)
12527 {
12528   float64x2_t result;
12529   __asm__ ("frsqrte %0.2d,%1.2d"
12530            : "=w"(result)
12531            : "w"(a)
12532            : /* No clobbers */);
12533   return result;
12534 }
12535
12536 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12537 vrsqrteq_u32 (uint32x4_t a)
12538 {
12539   uint32x4_t result;
12540   __asm__ ("ursqrte %0.4s,%1.4s"
12541            : "=w"(result)
12542            : "w"(a)
12543            : /* No clobbers */);
12544   return result;
12545 }
12546
12547 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
12548 vrsqrtes_f32 (float32_t a)
12549 {
12550   float32_t result;
12551   __asm__ ("frsqrte %s0,%s1"
12552            : "=w"(result)
12553            : "w"(a)
12554            : /* No clobbers */);
12555   return result;
12556 }
12557
12558 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
12559 vrsqrts_f32 (float32x2_t a, float32x2_t b)
12560 {
12561   float32x2_t result;
12562   __asm__ ("frsqrts %0.2s,%1.2s,%2.2s"
12563            : "=w"(result)
12564            : "w"(a), "w"(b)
12565            : /* No clobbers */);
12566   return result;
12567 }
12568
12569 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
12570 vrsqrtsd_f64 (float64_t a, float64_t b)
12571 {
12572   float64_t result;
12573   __asm__ ("frsqrts %d0,%d1,%d2"
12574            : "=w"(result)
12575            : "w"(a), "w"(b)
12576            : /* No clobbers */);
12577   return result;
12578 }
12579
12580 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
12581 vrsqrtsq_f32 (float32x4_t a, float32x4_t b)
12582 {
12583   float32x4_t result;
12584   __asm__ ("frsqrts %0.4s,%1.4s,%2.4s"
12585            : "=w"(result)
12586            : "w"(a), "w"(b)
12587            : /* No clobbers */);
12588   return result;
12589 }
12590
12591 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
12592 vrsqrtsq_f64 (float64x2_t a, float64x2_t b)
12593 {
12594   float64x2_t result;
12595   __asm__ ("frsqrts %0.2d,%1.2d,%2.2d"
12596            : "=w"(result)
12597            : "w"(a), "w"(b)
12598            : /* No clobbers */);
12599   return result;
12600 }
12601
12602 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
12603 vrsqrtss_f32 (float32_t a, float32_t b)
12604 {
12605   float32_t result;
12606   __asm__ ("frsqrts %s0,%s1,%s2"
12607            : "=w"(result)
12608            : "w"(a), "w"(b)
12609            : /* No clobbers */);
12610   return result;
12611 }
12612
12613 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
12614 vrsrtsq_f64 (float64x2_t a, float64x2_t b)
12615 {
12616   float64x2_t result;
12617   __asm__ ("frsqrts %0.2d,%1.2d,%2.2d"
12618            : "=w"(result)
12619            : "w"(a), "w"(b)
12620            : /* No clobbers */);
12621   return result;
12622 }
12623
12624 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
12625 vrsubhn_high_s16 (int8x8_t a, int16x8_t b, int16x8_t c)
12626 {
12627   int8x16_t result = vcombine_s8 (a, vcreate_s8 (__AARCH64_UINT64_C (0x0)));
12628   __asm__ ("rsubhn2 %0.16b, %1.8h, %2.8h"
12629            : "+w"(result)
12630            : "w"(b), "w"(c)
12631            : /* No clobbers */);
12632   return result;
12633 }
12634
12635 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
12636 vrsubhn_high_s32 (int16x4_t a, int32x4_t b, int32x4_t c)
12637 {
12638   int16x8_t result = vcombine_s16 (a, vcreate_s16 (__AARCH64_UINT64_C (0x0)));
12639   __asm__ ("rsubhn2 %0.8h, %1.4s, %2.4s"
12640            : "+w"(result)
12641            : "w"(b), "w"(c)
12642            : /* No clobbers */);
12643   return result;
12644 }
12645
12646 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
12647 vrsubhn_high_s64 (int32x2_t a, int64x2_t b, int64x2_t c)
12648 {
12649   int32x4_t result = vcombine_s32 (a, vcreate_s32 (__AARCH64_UINT64_C (0x0)));
12650   __asm__ ("rsubhn2 %0.4s, %1.2d, %2.2d"
12651            : "+w"(result)
12652            : "w"(b), "w"(c)
12653            : /* No clobbers */);
12654   return result;
12655 }
12656
12657 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
12658 vrsubhn_high_u16 (uint8x8_t a, uint16x8_t b, uint16x8_t c)
12659 {
12660   uint8x16_t result = vcombine_u8 (a, vcreate_u8 (__AARCH64_UINT64_C (0x0)));
12661   __asm__ ("rsubhn2 %0.16b, %1.8h, %2.8h"
12662            : "+w"(result)
12663            : "w"(b), "w"(c)
12664            : /* No clobbers */);
12665   return result;
12666 }
12667
12668 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
12669 vrsubhn_high_u32 (uint16x4_t a, uint32x4_t b, uint32x4_t c)
12670 {
12671   uint16x8_t result = vcombine_u16 (a, vcreate_u16 (__AARCH64_UINT64_C (0x0)));
12672   __asm__ ("rsubhn2 %0.8h, %1.4s, %2.4s"
12673            : "+w"(result)
12674            : "w"(b), "w"(c)
12675            : /* No clobbers */);
12676   return result;
12677 }
12678
12679 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
12680 vrsubhn_high_u64 (uint32x2_t a, uint64x2_t b, uint64x2_t c)
12681 {
12682   uint32x4_t result = vcombine_u32 (a, vcreate_u32 (__AARCH64_UINT64_C (0x0)));
12683   __asm__ ("rsubhn2 %0.4s, %1.2d, %2.2d"
12684            : "+w"(result)
12685            : "w"(b), "w"(c)
12686            : /* No clobbers */);
12687   return result;
12688 }
12689
12690 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
12691 vrsubhn_s16 (int16x8_t a, int16x8_t b)
12692 {
12693   int8x8_t result;
12694   __asm__ ("rsubhn %0.8b, %1.8h, %2.8h"
12695            : "=w"(result)
12696            : "w"(a), "w"(b)
12697            : /* No clobbers */);
12698   return result;
12699 }
12700
12701 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
12702 vrsubhn_s32 (int32x4_t a, int32x4_t b)
12703 {
12704   int16x4_t result;
12705   __asm__ ("rsubhn %0.4h, %1.4s, %2.4s"
12706            : "=w"(result)
12707            : "w"(a), "w"(b)
12708            : /* No clobbers */);
12709   return result;
12710 }
12711
12712 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
12713 vrsubhn_s64 (int64x2_t a, int64x2_t b)
12714 {
12715   int32x2_t result;
12716   __asm__ ("rsubhn %0.2s, %1.2d, %2.2d"
12717            : "=w"(result)
12718            : "w"(a), "w"(b)
12719            : /* No clobbers */);
12720   return result;
12721 }
12722
12723 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
12724 vrsubhn_u16 (uint16x8_t a, uint16x8_t b)
12725 {
12726   uint8x8_t result;
12727   __asm__ ("rsubhn %0.8b, %1.8h, %2.8h"
12728            : "=w"(result)
12729            : "w"(a), "w"(b)
12730            : /* No clobbers */);
12731   return result;
12732 }
12733
12734 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
12735 vrsubhn_u32 (uint32x4_t a, uint32x4_t b)
12736 {
12737   uint16x4_t result;
12738   __asm__ ("rsubhn %0.4h, %1.4s, %2.4s"
12739            : "=w"(result)
12740            : "w"(a), "w"(b)
12741            : /* No clobbers */);
12742   return result;
12743 }
12744
12745 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
12746 vrsubhn_u64 (uint64x2_t a, uint64x2_t b)
12747 {
12748   uint32x2_t result;
12749   __asm__ ("rsubhn %0.2s, %1.2d, %2.2d"
12750            : "=w"(result)
12751            : "w"(a), "w"(b)
12752            : /* No clobbers */);
12753   return result;
12754 }
12755
12756 #define vset_lane_f32(a, b, c)                                          \
12757   __extension__                                                         \
12758     ({                                                                  \
12759        float32x2_t b_ = (b);                                            \
12760        float32_t a_ = (a);                                              \
12761        float32x2_t result;                                              \
12762        __asm__ ("ins %0.s[%3], %w1"                                     \
12763                 : "=w"(result)                                          \
12764                 : "r"(a_), "0"(b_), "i"(c)                              \
12765                 : /* No clobbers */);                                   \
12766        result;                                                          \
12767      })
12768
12769 #define vset_lane_f64(a, b, c)                                          \
12770   __extension__                                                         \
12771     ({                                                                  \
12772        float64x1_t b_ = (b);                                            \
12773        float64_t a_ = (a);                                              \
12774        float64x1_t result;                                              \
12775        __asm__ ("ins %0.d[%3], %x1"                                     \
12776                 : "=w"(result)                                          \
12777                 : "r"(a_), "0"(b_), "i"(c)                              \
12778                 : /* No clobbers */);                                   \
12779        result;                                                          \
12780      })
12781
12782 #define vset_lane_p8(a, b, c)                                           \
12783   __extension__                                                         \
12784     ({                                                                  \
12785        poly8x8_t b_ = (b);                                              \
12786        poly8_t a_ = (a);                                                \
12787        poly8x8_t result;                                                \
12788        __asm__ ("ins %0.b[%3], %w1"                                     \
12789                 : "=w"(result)                                          \
12790                 : "r"(a_), "0"(b_), "i"(c)                              \
12791                 : /* No clobbers */);                                   \
12792        result;                                                          \
12793      })
12794
12795 #define vset_lane_p16(a, b, c)                                          \
12796   __extension__                                                         \
12797     ({                                                                  \
12798        poly16x4_t b_ = (b);                                             \
12799        poly16_t a_ = (a);                                               \
12800        poly16x4_t result;                                               \
12801        __asm__ ("ins %0.h[%3], %w1"                                     \
12802                 : "=w"(result)                                          \
12803                 : "r"(a_), "0"(b_), "i"(c)                              \
12804                 : /* No clobbers */);                                   \
12805        result;                                                          \
12806      })
12807
12808 #define vset_lane_s8(a, b, c)                                           \
12809   __extension__                                                         \
12810     ({                                                                  \
12811        int8x8_t b_ = (b);                                               \
12812        int8_t a_ = (a);                                                 \
12813        int8x8_t result;                                                 \
12814        __asm__ ("ins %0.b[%3], %w1"                                     \
12815                 : "=w"(result)                                          \
12816                 : "r"(a_), "0"(b_), "i"(c)                              \
12817                 : /* No clobbers */);                                   \
12818        result;                                                          \
12819      })
12820
12821 #define vset_lane_s16(a, b, c)                                          \
12822   __extension__                                                         \
12823     ({                                                                  \
12824        int16x4_t b_ = (b);                                              \
12825        int16_t a_ = (a);                                                \
12826        int16x4_t result;                                                \
12827        __asm__ ("ins %0.h[%3], %w1"                                     \
12828                 : "=w"(result)                                          \
12829                 : "r"(a_), "0"(b_), "i"(c)                              \
12830                 : /* No clobbers */);                                   \
12831        result;                                                          \
12832      })
12833
12834 #define vset_lane_s32(a, b, c)                                          \
12835   __extension__                                                         \
12836     ({                                                                  \
12837        int32x2_t b_ = (b);                                              \
12838        int32_t a_ = (a);                                                \
12839        int32x2_t result;                                                \
12840        __asm__ ("ins %0.s[%3], %w1"                                     \
12841                 : "=w"(result)                                          \
12842                 : "r"(a_), "0"(b_), "i"(c)                              \
12843                 : /* No clobbers */);                                   \
12844        result;                                                          \
12845      })
12846
12847 #define vset_lane_s64(a, b, c)                                          \
12848   __extension__                                                         \
12849     ({                                                                  \
12850        int64x1_t b_ = (b);                                              \
12851        int64_t a_ = (a);                                                \
12852        int64x1_t result;                                                \
12853        __asm__ ("ins %0.d[%3], %x1"                                     \
12854                 : "=w"(result)                                          \
12855                 : "r"(a_), "0"(b_), "i"(c)                              \
12856                 : /* No clobbers */);                                   \
12857        result;                                                          \
12858      })
12859
12860 #define vset_lane_u8(a, b, c)                                           \
12861   __extension__                                                         \
12862     ({                                                                  \
12863        uint8x8_t b_ = (b);                                              \
12864        uint8_t a_ = (a);                                                \
12865        uint8x8_t result;                                                \
12866        __asm__ ("ins %0.b[%3], %w1"                                     \
12867                 : "=w"(result)                                          \
12868                 : "r"(a_), "0"(b_), "i"(c)                              \
12869                 : /* No clobbers */);                                   \
12870        result;                                                          \
12871      })
12872
12873 #define vset_lane_u16(a, b, c)                                          \
12874   __extension__                                                         \
12875     ({                                                                  \
12876        uint16x4_t b_ = (b);                                             \
12877        uint16_t a_ = (a);                                               \
12878        uint16x4_t result;                                               \
12879        __asm__ ("ins %0.h[%3], %w1"                                     \
12880                 : "=w"(result)                                          \
12881                 : "r"(a_), "0"(b_), "i"(c)                              \
12882                 : /* No clobbers */);                                   \
12883        result;                                                          \
12884      })
12885
12886 #define vset_lane_u32(a, b, c)                                          \
12887   __extension__                                                         \
12888     ({                                                                  \
12889        uint32x2_t b_ = (b);                                             \
12890        uint32_t a_ = (a);                                               \
12891        uint32x2_t result;                                               \
12892        __asm__ ("ins %0.s[%3], %w1"                                     \
12893                 : "=w"(result)                                          \
12894                 : "r"(a_), "0"(b_), "i"(c)                              \
12895                 : /* No clobbers */);                                   \
12896        result;                                                          \
12897      })
12898
12899 #define vset_lane_u64(a, b, c)                                          \
12900   __extension__                                                         \
12901     ({                                                                  \
12902        uint64x1_t b_ = (b);                                             \
12903        uint64_t a_ = (a);                                               \
12904        uint64x1_t result;                                               \
12905        __asm__ ("ins %0.d[%3], %x1"                                     \
12906                 : "=w"(result)                                          \
12907                 : "r"(a_), "0"(b_), "i"(c)                              \
12908                 : /* No clobbers */);                                   \
12909        result;                                                          \
12910      })
12911
12912 #define vsetq_lane_f32(a, b, c)                                         \
12913   __extension__                                                         \
12914     ({                                                                  \
12915        float32x4_t b_ = (b);                                            \
12916        float32_t a_ = (a);                                              \
12917        float32x4_t result;                                              \
12918        __asm__ ("ins %0.s[%3], %w1"                                     \
12919                 : "=w"(result)                                          \
12920                 : "r"(a_), "0"(b_), "i"(c)                              \
12921                 : /* No clobbers */);                                   \
12922        result;                                                          \
12923      })
12924
12925 #define vsetq_lane_f64(a, b, c)                                         \
12926   __extension__                                                         \
12927     ({                                                                  \
12928        float64x2_t b_ = (b);                                            \
12929        float64_t a_ = (a);                                              \
12930        float64x2_t result;                                              \
12931        __asm__ ("ins %0.d[%3], %x1"                                     \
12932                 : "=w"(result)                                          \
12933                 : "r"(a_), "0"(b_), "i"(c)                              \
12934                 : /* No clobbers */);                                   \
12935        result;                                                          \
12936      })
12937
12938 #define vsetq_lane_p8(a, b, c)                                          \
12939   __extension__                                                         \
12940     ({                                                                  \
12941        poly8x16_t b_ = (b);                                             \
12942        poly8_t a_ = (a);                                                \
12943        poly8x16_t result;                                               \
12944        __asm__ ("ins %0.b[%3], %w1"                                     \
12945                 : "=w"(result)                                          \
12946                 : "r"(a_), "0"(b_), "i"(c)                              \
12947                 : /* No clobbers */);                                   \
12948        result;                                                          \
12949      })
12950
12951 #define vsetq_lane_p16(a, b, c)                                         \
12952   __extension__                                                         \
12953     ({                                                                  \
12954        poly16x8_t b_ = (b);                                             \
12955        poly16_t a_ = (a);                                               \
12956        poly16x8_t result;                                               \
12957        __asm__ ("ins %0.h[%3], %w1"                                     \
12958                 : "=w"(result)                                          \
12959                 : "r"(a_), "0"(b_), "i"(c)                              \
12960                 : /* No clobbers */);                                   \
12961        result;                                                          \
12962      })
12963
12964 #define vsetq_lane_s8(a, b, c)                                          \
12965   __extension__                                                         \
12966     ({                                                                  \
12967        int8x16_t b_ = (b);                                              \
12968        int8_t a_ = (a);                                                 \
12969        int8x16_t result;                                                \
12970        __asm__ ("ins %0.b[%3], %w1"                                     \
12971                 : "=w"(result)                                          \
12972                 : "r"(a_), "0"(b_), "i"(c)                              \
12973                 : /* No clobbers */);                                   \
12974        result;                                                          \
12975      })
12976
12977 #define vsetq_lane_s16(a, b, c)                                         \
12978   __extension__                                                         \
12979     ({                                                                  \
12980        int16x8_t b_ = (b);                                              \
12981        int16_t a_ = (a);                                                \
12982        int16x8_t result;                                                \
12983        __asm__ ("ins %0.h[%3], %w1"                                     \
12984                 : "=w"(result)                                          \
12985                 : "r"(a_), "0"(b_), "i"(c)                              \
12986                 : /* No clobbers */);                                   \
12987        result;                                                          \
12988      })
12989
12990 #define vsetq_lane_s32(a, b, c)                                         \
12991   __extension__                                                         \
12992     ({                                                                  \
12993        int32x4_t b_ = (b);                                              \
12994        int32_t a_ = (a);                                                \
12995        int32x4_t result;                                                \
12996        __asm__ ("ins %0.s[%3], %w1"                                     \
12997                 : "=w"(result)                                          \
12998                 : "r"(a_), "0"(b_), "i"(c)                              \
12999                 : /* No clobbers */);                                   \
13000        result;                                                          \
13001      })
13002
13003 #define vsetq_lane_s64(a, b, c)                                         \
13004   __extension__                                                         \
13005     ({                                                                  \
13006        int64x2_t b_ = (b);                                              \
13007        int64_t a_ = (a);                                                \
13008        int64x2_t result;                                                \
13009        __asm__ ("ins %0.d[%3], %x1"                                     \
13010                 : "=w"(result)                                          \
13011                 : "r"(a_), "0"(b_), "i"(c)                              \
13012                 : /* No clobbers */);                                   \
13013        result;                                                          \
13014      })
13015
13016 #define vsetq_lane_u8(a, b, c)                                          \
13017   __extension__                                                         \
13018     ({                                                                  \
13019        uint8x16_t b_ = (b);                                             \
13020        uint8_t a_ = (a);                                                \
13021        uint8x16_t result;                                               \
13022        __asm__ ("ins %0.b[%3], %w1"                                     \
13023                 : "=w"(result)                                          \
13024                 : "r"(a_), "0"(b_), "i"(c)                              \
13025                 : /* No clobbers */);                                   \
13026        result;                                                          \
13027      })
13028
13029 #define vsetq_lane_u16(a, b, c)                                         \
13030   __extension__                                                         \
13031     ({                                                                  \
13032        uint16x8_t b_ = (b);                                             \
13033        uint16_t a_ = (a);                                               \
13034        uint16x8_t result;                                               \
13035        __asm__ ("ins %0.h[%3], %w1"                                     \
13036                 : "=w"(result)                                          \
13037                 : "r"(a_), "0"(b_), "i"(c)                              \
13038                 : /* No clobbers */);                                   \
13039        result;                                                          \
13040      })
13041
13042 #define vsetq_lane_u32(a, b, c)                                         \
13043   __extension__                                                         \
13044     ({                                                                  \
13045        uint32x4_t b_ = (b);                                             \
13046        uint32_t a_ = (a);                                               \
13047        uint32x4_t result;                                               \
13048        __asm__ ("ins %0.s[%3], %w1"                                     \
13049                 : "=w"(result)                                          \
13050                 : "r"(a_), "0"(b_), "i"(c)                              \
13051                 : /* No clobbers */);                                   \
13052        result;                                                          \
13053      })
13054
13055 #define vsetq_lane_u64(a, b, c)                                         \
13056   __extension__                                                         \
13057     ({                                                                  \
13058        uint64x2_t b_ = (b);                                             \
13059        uint64_t a_ = (a);                                               \
13060        uint64x2_t result;                                               \
13061        __asm__ ("ins %0.d[%3], %x1"                                     \
13062                 : "=w"(result)                                          \
13063                 : "r"(a_), "0"(b_), "i"(c)                              \
13064                 : /* No clobbers */);                                   \
13065        result;                                                          \
13066      })
13067
13068 #define vshrn_high_n_s16(a, b, c)                                       \
13069   __extension__                                                         \
13070     ({                                                                  \
13071        int16x8_t b_ = (b);                                              \
13072        int8x8_t a_ = (a);                                               \
13073        int8x16_t result = vcombine_s8                                   \
13074                             (a_, vcreate_s8                             \
13075                                    (__AARCH64_UINT64_C (0x0)));         \
13076        __asm__ ("shrn2 %0.16b,%1.8h,#%2"                                \
13077                 : "+w"(result)                                          \
13078                 : "w"(b_), "i"(c)                                       \
13079                 : /* No clobbers */);                                   \
13080        result;                                                          \
13081      })
13082
13083 #define vshrn_high_n_s32(a, b, c)                                       \
13084   __extension__                                                         \
13085     ({                                                                  \
13086        int32x4_t b_ = (b);                                              \
13087        int16x4_t a_ = (a);                                              \
13088        int16x8_t result = vcombine_s16                                  \
13089                             (a_, vcreate_s16                            \
13090                                    (__AARCH64_UINT64_C (0x0)));         \
13091        __asm__ ("shrn2 %0.8h,%1.4s,#%2"                                 \
13092                 : "+w"(result)                                          \
13093                 : "w"(b_), "i"(c)                                       \
13094                 : /* No clobbers */);                                   \
13095        result;                                                          \
13096      })
13097
13098 #define vshrn_high_n_s64(a, b, c)                                       \
13099   __extension__                                                         \
13100     ({                                                                  \
13101        int64x2_t b_ = (b);                                              \
13102        int32x2_t a_ = (a);                                              \
13103        int32x4_t result = vcombine_s32                                  \
13104                             (a_, vcreate_s32                            \
13105                                    (__AARCH64_UINT64_C (0x0)));         \
13106        __asm__ ("shrn2 %0.4s,%1.2d,#%2"                                 \
13107                 : "+w"(result)                                          \
13108                 : "w"(b_), "i"(c)                                       \
13109                 : /* No clobbers */);                                   \
13110        result;                                                          \
13111      })
13112
13113 #define vshrn_high_n_u16(a, b, c)                                       \
13114   __extension__                                                         \
13115     ({                                                                  \
13116        uint16x8_t b_ = (b);                                             \
13117        uint8x8_t a_ = (a);                                              \
13118        uint8x16_t result = vcombine_u8                                  \
13119                             (a_, vcreate_u8                             \
13120                                    (__AARCH64_UINT64_C (0x0)));         \
13121        __asm__ ("shrn2 %0.16b,%1.8h,#%2"                                \
13122                 : "+w"(result)                                          \
13123                 : "w"(b_), "i"(c)                                       \
13124                 : /* No clobbers */);                                   \
13125        result;                                                          \
13126      })
13127
13128 #define vshrn_high_n_u32(a, b, c)                                       \
13129   __extension__                                                         \
13130     ({                                                                  \
13131        uint32x4_t b_ = (b);                                             \
13132        uint16x4_t a_ = (a);                                             \
13133        uint16x8_t result = vcombine_u16                                 \
13134                             (a_, vcreate_u16                            \
13135                                    (__AARCH64_UINT64_C (0x0)));         \
13136        __asm__ ("shrn2 %0.8h,%1.4s,#%2"                                 \
13137                 : "+w"(result)                                          \
13138                 : "w"(b_), "i"(c)                                       \
13139                 : /* No clobbers */);                                   \
13140        result;                                                          \
13141      })
13142
13143 #define vshrn_high_n_u64(a, b, c)                                       \
13144   __extension__                                                         \
13145     ({                                                                  \
13146        uint64x2_t b_ = (b);                                             \
13147        uint32x2_t a_ = (a);                                             \
13148        uint32x4_t result = vcombine_u32                                 \
13149                             (a_, vcreate_u32                            \
13150                                    (__AARCH64_UINT64_C (0x0)));         \
13151        __asm__ ("shrn2 %0.4s,%1.2d,#%2"                                 \
13152                 : "+w"(result)                                          \
13153                 : "w"(b_), "i"(c)                                       \
13154                 : /* No clobbers */);                                   \
13155        result;                                                          \
13156      })
13157
13158 #define vshrn_n_s16(a, b)                                               \
13159   __extension__                                                         \
13160     ({                                                                  \
13161        int16x8_t a_ = (a);                                              \
13162        int8x8_t result;                                                 \
13163        __asm__ ("shrn %0.8b,%1.8h,%2"                                   \
13164                 : "=w"(result)                                          \
13165                 : "w"(a_), "i"(b)                                       \
13166                 : /* No clobbers */);                                   \
13167        result;                                                          \
13168      })
13169
13170 #define vshrn_n_s32(a, b)                                               \
13171   __extension__                                                         \
13172     ({                                                                  \
13173        int32x4_t a_ = (a);                                              \
13174        int16x4_t result;                                                \
13175        __asm__ ("shrn %0.4h,%1.4s,%2"                                   \
13176                 : "=w"(result)                                          \
13177                 : "w"(a_), "i"(b)                                       \
13178                 : /* No clobbers */);                                   \
13179        result;                                                          \
13180      })
13181
13182 #define vshrn_n_s64(a, b)                                               \
13183   __extension__                                                         \
13184     ({                                                                  \
13185        int64x2_t a_ = (a);                                              \
13186        int32x2_t result;                                                \
13187        __asm__ ("shrn %0.2s,%1.2d,%2"                                   \
13188                 : "=w"(result)                                          \
13189                 : "w"(a_), "i"(b)                                       \
13190                 : /* No clobbers */);                                   \
13191        result;                                                          \
13192      })
13193
13194 #define vshrn_n_u16(a, b)                                               \
13195   __extension__                                                         \
13196     ({                                                                  \
13197        uint16x8_t a_ = (a);                                             \
13198        uint8x8_t result;                                                \
13199        __asm__ ("shrn %0.8b,%1.8h,%2"                                   \
13200                 : "=w"(result)                                          \
13201                 : "w"(a_), "i"(b)                                       \
13202                 : /* No clobbers */);                                   \
13203        result;                                                          \
13204      })
13205
13206 #define vshrn_n_u32(a, b)                                               \
13207   __extension__                                                         \
13208     ({                                                                  \
13209        uint32x4_t a_ = (a);                                             \
13210        uint16x4_t result;                                               \
13211        __asm__ ("shrn %0.4h,%1.4s,%2"                                   \
13212                 : "=w"(result)                                          \
13213                 : "w"(a_), "i"(b)                                       \
13214                 : /* No clobbers */);                                   \
13215        result;                                                          \
13216      })
13217
13218 #define vshrn_n_u64(a, b)                                               \
13219   __extension__                                                         \
13220     ({                                                                  \
13221        uint64x2_t a_ = (a);                                             \
13222        uint32x2_t result;                                               \
13223        __asm__ ("shrn %0.2s,%1.2d,%2"                                   \
13224                 : "=w"(result)                                          \
13225                 : "w"(a_), "i"(b)                                       \
13226                 : /* No clobbers */);                                   \
13227        result;                                                          \
13228      })
13229
13230 #define vsli_n_p8(a, b, c)                                              \
13231   __extension__                                                         \
13232     ({                                                                  \
13233        poly8x8_t b_ = (b);                                              \
13234        poly8x8_t a_ = (a);                                              \
13235        poly8x8_t result;                                                \
13236        __asm__ ("sli %0.8b,%2.8b,%3"                                    \
13237                 : "=w"(result)                                          \
13238                 : "0"(a_), "w"(b_), "i"(c)                              \
13239                 : /* No clobbers */);                                   \
13240        result;                                                          \
13241      })
13242
13243 #define vsli_n_p16(a, b, c)                                             \
13244   __extension__                                                         \
13245     ({                                                                  \
13246        poly16x4_t b_ = (b);                                             \
13247        poly16x4_t a_ = (a);                                             \
13248        poly16x4_t result;                                               \
13249        __asm__ ("sli %0.4h,%2.4h,%3"                                    \
13250                 : "=w"(result)                                          \
13251                 : "0"(a_), "w"(b_), "i"(c)                              \
13252                 : /* No clobbers */);                                   \
13253        result;                                                          \
13254      })
13255
13256 #define vsliq_n_p8(a, b, c)                                             \
13257   __extension__                                                         \
13258     ({                                                                  \
13259        poly8x16_t b_ = (b);                                             \
13260        poly8x16_t a_ = (a);                                             \
13261        poly8x16_t result;                                               \
13262        __asm__ ("sli %0.16b,%2.16b,%3"                                  \
13263                 : "=w"(result)                                          \
13264                 : "0"(a_), "w"(b_), "i"(c)                              \
13265                 : /* No clobbers */);                                   \
13266        result;                                                          \
13267      })
13268
13269 #define vsliq_n_p16(a, b, c)                                            \
13270   __extension__                                                         \
13271     ({                                                                  \
13272        poly16x8_t b_ = (b);                                             \
13273        poly16x8_t a_ = (a);                                             \
13274        poly16x8_t result;                                               \
13275        __asm__ ("sli %0.8h,%2.8h,%3"                                    \
13276                 : "=w"(result)                                          \
13277                 : "0"(a_), "w"(b_), "i"(c)                              \
13278                 : /* No clobbers */);                                   \
13279        result;                                                          \
13280      })
13281
13282 #define vsri_n_p8(a, b, c)                                              \
13283   __extension__                                                         \
13284     ({                                                                  \
13285        poly8x8_t b_ = (b);                                              \
13286        poly8x8_t a_ = (a);                                              \
13287        poly8x8_t result;                                                \
13288        __asm__ ("sri %0.8b,%2.8b,%3"                                    \
13289                 : "=w"(result)                                          \
13290                 : "0"(a_), "w"(b_), "i"(c)                              \
13291                 : /* No clobbers */);                                   \
13292        result;                                                          \
13293      })
13294
13295 #define vsri_n_p16(a, b, c)                                             \
13296   __extension__                                                         \
13297     ({                                                                  \
13298        poly16x4_t b_ = (b);                                             \
13299        poly16x4_t a_ = (a);                                             \
13300        poly16x4_t result;                                               \
13301        __asm__ ("sri %0.4h,%2.4h,%3"                                    \
13302                 : "=w"(result)                                          \
13303                 : "0"(a_), "w"(b_), "i"(c)                              \
13304                 : /* No clobbers */);                                   \
13305        result;                                                          \
13306      })
13307
13308 #define vsriq_n_p8(a, b, c)                                             \
13309   __extension__                                                         \
13310     ({                                                                  \
13311        poly8x16_t b_ = (b);                                             \
13312        poly8x16_t a_ = (a);                                             \
13313        poly8x16_t result;                                               \
13314        __asm__ ("sri %0.16b,%2.16b,%3"                                  \
13315                 : "=w"(result)                                          \
13316                 : "0"(a_), "w"(b_), "i"(c)                              \
13317                 : /* No clobbers */);                                   \
13318        result;                                                          \
13319      })
13320
13321 #define vsriq_n_p16(a, b, c)                                            \
13322   __extension__                                                         \
13323     ({                                                                  \
13324        poly16x8_t b_ = (b);                                             \
13325        poly16x8_t a_ = (a);                                             \
13326        poly16x8_t result;                                               \
13327        __asm__ ("sri %0.8h,%2.8h,%3"                                    \
13328                 : "=w"(result)                                          \
13329                 : "0"(a_), "w"(b_), "i"(c)                              \
13330                 : /* No clobbers */);                                   \
13331        result;                                                          \
13332      })
13333
13334 #define vst1_lane_f32(a, b, c)                                          \
13335   __extension__                                                         \
13336     ({                                                                  \
13337        float32x2_t b_ = (b);                                            \
13338        float32_t * a_ = (a);                                            \
13339        __asm__ ("st1 {%1.s}[%2],[%0]"                                   \
13340                 :                                                       \
13341                 : "r"(a_), "w"(b_), "i"(c)                              \
13342                 : "memory");                                            \
13343      })
13344
13345 #define vst1_lane_f64(a, b, c)                                          \
13346   __extension__                                                         \
13347     ({                                                                  \
13348        float64x1_t b_ = (b);                                            \
13349        float64_t * a_ = (a);                                            \
13350        __asm__ ("st1 {%1.d}[%2],[%0]"                                   \
13351                 :                                                       \
13352                 : "r"(a_), "w"(b_), "i"(c)                              \
13353                 : "memory");                                            \
13354      })
13355
13356 #define vst1_lane_p8(a, b, c)                                           \
13357   __extension__                                                         \
13358     ({                                                                  \
13359        poly8x8_t b_ = (b);                                              \
13360        poly8_t * a_ = (a);                                              \
13361        __asm__ ("st1 {%1.b}[%2],[%0]"                                   \
13362                 :                                                       \
13363                 : "r"(a_), "w"(b_), "i"(c)                              \
13364                 : "memory");                                            \
13365      })
13366
13367 #define vst1_lane_p16(a, b, c)                                          \
13368   __extension__                                                         \
13369     ({                                                                  \
13370        poly16x4_t b_ = (b);                                             \
13371        poly16_t * a_ = (a);                                             \
13372        __asm__ ("st1 {%1.h}[%2],[%0]"                                   \
13373                 :                                                       \
13374                 : "r"(a_), "w"(b_), "i"(c)                              \
13375                 : "memory");                                            \
13376      })
13377
13378 #define vst1_lane_s8(a, b, c)                                           \
13379   __extension__                                                         \
13380     ({                                                                  \
13381        int8x8_t b_ = (b);                                               \
13382        int8_t * a_ = (a);                                               \
13383        __asm__ ("st1 {%1.b}[%2],[%0]"                                   \
13384                 :                                                       \
13385                 : "r"(a_), "w"(b_), "i"(c)                              \
13386                 : "memory");                                            \
13387      })
13388
13389 #define vst1_lane_s16(a, b, c)                                          \
13390   __extension__                                                         \
13391     ({                                                                  \
13392        int16x4_t b_ = (b);                                              \
13393        int16_t * a_ = (a);                                              \
13394        __asm__ ("st1 {%1.h}[%2],[%0]"                                   \
13395                 :                                                       \
13396                 : "r"(a_), "w"(b_), "i"(c)                              \
13397                 : "memory");                                            \
13398      })
13399
13400 #define vst1_lane_s32(a, b, c)                                          \
13401   __extension__                                                         \
13402     ({                                                                  \
13403        int32x2_t b_ = (b);                                              \
13404        int32_t * a_ = (a);                                              \
13405        __asm__ ("st1 {%1.s}[%2],[%0]"                                   \
13406                 :                                                       \
13407                 : "r"(a_), "w"(b_), "i"(c)                              \
13408                 : "memory");                                            \
13409      })
13410
13411 #define vst1_lane_s64(a, b, c)                                          \
13412   __extension__                                                         \
13413     ({                                                                  \
13414        int64x1_t b_ = (b);                                              \
13415        int64_t * a_ = (a);                                              \
13416        __asm__ ("st1 {%1.d}[%2],[%0]"                                   \
13417                 :                                                       \
13418                 : "r"(a_), "w"(b_), "i"(c)                              \
13419                 : "memory");                                            \
13420      })
13421
13422 #define vst1_lane_u8(a, b, c)                                           \
13423   __extension__                                                         \
13424     ({                                                                  \
13425        uint8x8_t b_ = (b);                                              \
13426        uint8_t * a_ = (a);                                              \
13427        __asm__ ("st1 {%1.b}[%2],[%0]"                                   \
13428                 :                                                       \
13429                 : "r"(a_), "w"(b_), "i"(c)                              \
13430                 : "memory");                                            \
13431      })
13432
13433 #define vst1_lane_u16(a, b, c)                                          \
13434   __extension__                                                         \
13435     ({                                                                  \
13436        uint16x4_t b_ = (b);                                             \
13437        uint16_t * a_ = (a);                                             \
13438        __asm__ ("st1 {%1.h}[%2],[%0]"                                   \
13439                 :                                                       \
13440                 : "r"(a_), "w"(b_), "i"(c)                              \
13441                 : "memory");                                            \
13442      })
13443
13444 #define vst1_lane_u32(a, b, c)                                          \
13445   __extension__                                                         \
13446     ({                                                                  \
13447        uint32x2_t b_ = (b);                                             \
13448        uint32_t * a_ = (a);                                             \
13449        __asm__ ("st1 {%1.s}[%2],[%0]"                                   \
13450                 :                                                       \
13451                 : "r"(a_), "w"(b_), "i"(c)                              \
13452                 : "memory");                                            \
13453      })
13454
13455 #define vst1_lane_u64(a, b, c)                                          \
13456   __extension__                                                         \
13457     ({                                                                  \
13458        uint64x1_t b_ = (b);                                             \
13459        uint64_t * a_ = (a);                                             \
13460        __asm__ ("st1 {%1.d}[%2],[%0]"                                   \
13461                 :                                                       \
13462                 : "r"(a_), "w"(b_), "i"(c)                              \
13463                 : "memory");                                            \
13464      })
13465
13466
13467 #define vst1q_lane_f32(a, b, c)                                         \
13468   __extension__                                                         \
13469     ({                                                                  \
13470        float32x4_t b_ = (b);                                            \
13471        float32_t * a_ = (a);                                            \
13472        __asm__ ("st1 {%1.s}[%2],[%0]"                                   \
13473                 :                                                       \
13474                 : "r"(a_), "w"(b_), "i"(c)                              \
13475                 : "memory");                                            \
13476      })
13477
13478 #define vst1q_lane_f64(a, b, c)                                         \
13479   __extension__                                                         \
13480     ({                                                                  \
13481        float64x2_t b_ = (b);                                            \
13482        float64_t * a_ = (a);                                            \
13483        __asm__ ("st1 {%1.d}[%2],[%0]"                                   \
13484                 :                                                       \
13485                 : "r"(a_), "w"(b_), "i"(c)                              \
13486                 : "memory");                                            \
13487      })
13488
13489 #define vst1q_lane_p8(a, b, c)                                          \
13490   __extension__                                                         \
13491     ({                                                                  \
13492        poly8x16_t b_ = (b);                                             \
13493        poly8_t * a_ = (a);                                              \
13494        __asm__ ("st1 {%1.b}[%2],[%0]"                                   \
13495                 :                                                       \
13496                 : "r"(a_), "w"(b_), "i"(c)                              \
13497                 : "memory");                                            \
13498      })
13499
13500 #define vst1q_lane_p16(a, b, c)                                         \
13501   __extension__                                                         \
13502     ({                                                                  \
13503        poly16x8_t b_ = (b);                                             \
13504        poly16_t * a_ = (a);                                             \
13505        __asm__ ("st1 {%1.h}[%2],[%0]"                                   \
13506                 :                                                       \
13507                 : "r"(a_), "w"(b_), "i"(c)                              \
13508                 : "memory");                                            \
13509      })
13510
13511 #define vst1q_lane_s8(a, b, c)                                          \
13512   __extension__                                                         \
13513     ({                                                                  \
13514        int8x16_t b_ = (b);                                              \
13515        int8_t * a_ = (a);                                               \
13516        __asm__ ("st1 {%1.b}[%2],[%0]"                                   \
13517                 :                                                       \
13518                 : "r"(a_), "w"(b_), "i"(c)                              \
13519                 : "memory");                                            \
13520      })
13521
13522 #define vst1q_lane_s16(a, b, c)                                         \
13523   __extension__                                                         \
13524     ({                                                                  \
13525        int16x8_t b_ = (b);                                              \
13526        int16_t * a_ = (a);                                              \
13527        __asm__ ("st1 {%1.h}[%2],[%0]"                                   \
13528                 :                                                       \
13529                 : "r"(a_), "w"(b_), "i"(c)                              \
13530                 : "memory");                                            \
13531      })
13532
13533 #define vst1q_lane_s32(a, b, c)                                         \
13534   __extension__                                                         \
13535     ({                                                                  \
13536        int32x4_t b_ = (b);                                              \
13537        int32_t * a_ = (a);                                              \
13538        __asm__ ("st1 {%1.s}[%2],[%0]"                                   \
13539                 :                                                       \
13540                 : "r"(a_), "w"(b_), "i"(c)                              \
13541                 : "memory");                                            \
13542      })
13543
13544 #define vst1q_lane_s64(a, b, c)                                         \
13545   __extension__                                                         \
13546     ({                                                                  \
13547        int64x2_t b_ = (b);                                              \
13548        int64_t * a_ = (a);                                              \
13549        __asm__ ("st1 {%1.d}[%2],[%0]"                                   \
13550                 :                                                       \
13551                 : "r"(a_), "w"(b_), "i"(c)                              \
13552                 : "memory");                                            \
13553      })
13554
13555 #define vst1q_lane_u8(a, b, c)                                          \
13556   __extension__                                                         \
13557     ({                                                                  \
13558        uint8x16_t b_ = (b);                                             \
13559        uint8_t * a_ = (a);                                              \
13560        __asm__ ("st1 {%1.b}[%2],[%0]"                                   \
13561                 :                                                       \
13562                 : "r"(a_), "w"(b_), "i"(c)                              \
13563                 : "memory");                                            \
13564      })
13565
13566 #define vst1q_lane_u16(a, b, c)                                         \
13567   __extension__                                                         \
13568     ({                                                                  \
13569        uint16x8_t b_ = (b);                                             \
13570        uint16_t * a_ = (a);                                             \
13571        __asm__ ("st1 {%1.h}[%2],[%0]"                                   \
13572                 :                                                       \
13573                 : "r"(a_), "w"(b_), "i"(c)                              \
13574                 : "memory");                                            \
13575      })
13576
13577 #define vst1q_lane_u32(a, b, c)                                         \
13578   __extension__                                                         \
13579     ({                                                                  \
13580        uint32x4_t b_ = (b);                                             \
13581        uint32_t * a_ = (a);                                             \
13582        __asm__ ("st1 {%1.s}[%2],[%0]"                                   \
13583                 :                                                       \
13584                 : "r"(a_), "w"(b_), "i"(c)                              \
13585                 : "memory");                                            \
13586      })
13587
13588 #define vst1q_lane_u64(a, b, c)                                         \
13589   __extension__                                                         \
13590     ({                                                                  \
13591        uint64x2_t b_ = (b);                                             \
13592        uint64_t * a_ = (a);                                             \
13593        __asm__ ("st1 {%1.d}[%2],[%0]"                                   \
13594                 :                                                       \
13595                 : "r"(a_), "w"(b_), "i"(c)                              \
13596                 : "memory");                                            \
13597      })
13598
13599 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
13600 vsubhn_high_s16 (int8x8_t a, int16x8_t b, int16x8_t c)
13601 {
13602   int8x16_t result = vcombine_s8 (a, vcreate_s8 (__AARCH64_UINT64_C (0x0)));
13603   __asm__ ("subhn2 %0.16b, %1.8h, %2.8h"
13604            : "+w"(result)
13605            : "w"(b), "w"(c)
13606            : /* No clobbers */);
13607   return result;
13608 }
13609
13610 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
13611 vsubhn_high_s32 (int16x4_t a, int32x4_t b, int32x4_t c)
13612 {
13613   int16x8_t result = vcombine_s16 (a, vcreate_s16 (__AARCH64_UINT64_C (0x0)));
13614   __asm__ ("subhn2 %0.8h, %1.4s, %2.4s"
13615            : "+w"(result)
13616            : "w"(b), "w"(c)
13617            : /* No clobbers */);
13618   return result;
13619 }
13620
13621 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
13622 vsubhn_high_s64 (int32x2_t a, int64x2_t b, int64x2_t c)
13623 {
13624   int32x4_t result = vcombine_s32 (a, vcreate_s32 (__AARCH64_UINT64_C (0x0)));
13625   __asm__ ("subhn2 %0.4s, %1.2d, %2.2d"
13626            : "+w"(result)
13627            : "w"(b), "w"(c)
13628            : /* No clobbers */);
13629   return result;
13630 }
13631
13632 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
13633 vsubhn_high_u16 (uint8x8_t a, uint16x8_t b, uint16x8_t c)
13634 {
13635   uint8x16_t result = vcombine_u8 (a, vcreate_u8 (__AARCH64_UINT64_C (0x0)));
13636   __asm__ ("subhn2 %0.16b, %1.8h, %2.8h"
13637            : "+w"(result)
13638            : "w"(b), "w"(c)
13639            : /* No clobbers */);
13640   return result;
13641 }
13642
13643 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
13644 vsubhn_high_u32 (uint16x4_t a, uint32x4_t b, uint32x4_t c)
13645 {
13646   uint16x8_t result = vcombine_u16 (a, vcreate_u16 (__AARCH64_UINT64_C (0x0)));
13647   __asm__ ("subhn2 %0.8h, %1.4s, %2.4s"
13648            : "+w"(result)
13649            : "w"(b), "w"(c)
13650            : /* No clobbers */);
13651   return result;
13652 }
13653
13654 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13655 vsubhn_high_u64 (uint32x2_t a, uint64x2_t b, uint64x2_t c)
13656 {
13657   uint32x4_t result = vcombine_u32 (a, vcreate_u32 (__AARCH64_UINT64_C (0x0)));
13658   __asm__ ("subhn2 %0.4s, %1.2d, %2.2d"
13659            : "+w"(result)
13660            : "w"(b), "w"(c)
13661            : /* No clobbers */);
13662   return result;
13663 }
13664
13665 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
13666 vsubhn_s16 (int16x8_t a, int16x8_t b)
13667 {
13668   int8x8_t result;
13669   __asm__ ("subhn %0.8b, %1.8h, %2.8h"
13670            : "=w"(result)
13671            : "w"(a), "w"(b)
13672            : /* No clobbers */);
13673   return result;
13674 }
13675
13676 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
13677 vsubhn_s32 (int32x4_t a, int32x4_t b)
13678 {
13679   int16x4_t result;
13680   __asm__ ("subhn %0.4h, %1.4s, %2.4s"
13681            : "=w"(result)
13682            : "w"(a), "w"(b)
13683            : /* No clobbers */);
13684   return result;
13685 }
13686
13687 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
13688 vsubhn_s64 (int64x2_t a, int64x2_t b)
13689 {
13690   int32x2_t result;
13691   __asm__ ("subhn %0.2s, %1.2d, %2.2d"
13692            : "=w"(result)
13693            : "w"(a), "w"(b)
13694            : /* No clobbers */);
13695   return result;
13696 }
13697
13698 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
13699 vsubhn_u16 (uint16x8_t a, uint16x8_t b)
13700 {
13701   uint8x8_t result;
13702   __asm__ ("subhn %0.8b, %1.8h, %2.8h"
13703            : "=w"(result)
13704            : "w"(a), "w"(b)
13705            : /* No clobbers */);
13706   return result;
13707 }
13708
13709 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
13710 vsubhn_u32 (uint32x4_t a, uint32x4_t b)
13711 {
13712   uint16x4_t result;
13713   __asm__ ("subhn %0.4h, %1.4s, %2.4s"
13714            : "=w"(result)
13715            : "w"(a), "w"(b)
13716            : /* No clobbers */);
13717   return result;
13718 }
13719
13720 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13721 vsubhn_u64 (uint64x2_t a, uint64x2_t b)
13722 {
13723   uint32x2_t result;
13724   __asm__ ("subhn %0.2s, %1.2d, %2.2d"
13725            : "=w"(result)
13726            : "w"(a), "w"(b)
13727            : /* No clobbers */);
13728   return result;
13729 }
13730
13731 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
13732 vtrn1_f32 (float32x2_t a, float32x2_t b)
13733 {
13734   float32x2_t result;
13735   __asm__ ("trn1 %0.2s,%1.2s,%2.2s"
13736            : "=w"(result)
13737            : "w"(a), "w"(b)
13738            : /* No clobbers */);
13739   return result;
13740 }
13741
13742 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
13743 vtrn1_p8 (poly8x8_t a, poly8x8_t b)
13744 {
13745   poly8x8_t result;
13746   __asm__ ("trn1 %0.8b,%1.8b,%2.8b"
13747            : "=w"(result)
13748            : "w"(a), "w"(b)
13749            : /* No clobbers */);
13750   return result;
13751 }
13752
13753 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
13754 vtrn1_p16 (poly16x4_t a, poly16x4_t b)
13755 {
13756   poly16x4_t result;
13757   __asm__ ("trn1 %0.4h,%1.4h,%2.4h"
13758            : "=w"(result)
13759            : "w"(a), "w"(b)
13760            : /* No clobbers */);
13761   return result;
13762 }
13763
13764 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
13765 vtrn1_s8 (int8x8_t a, int8x8_t b)
13766 {
13767   int8x8_t result;
13768   __asm__ ("trn1 %0.8b,%1.8b,%2.8b"
13769            : "=w"(result)
13770            : "w"(a), "w"(b)
13771            : /* No clobbers */);
13772   return result;
13773 }
13774
13775 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
13776 vtrn1_s16 (int16x4_t a, int16x4_t b)
13777 {
13778   int16x4_t result;
13779   __asm__ ("trn1 %0.4h,%1.4h,%2.4h"
13780            : "=w"(result)
13781            : "w"(a), "w"(b)
13782            : /* No clobbers */);
13783   return result;
13784 }
13785
13786 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
13787 vtrn1_s32 (int32x2_t a, int32x2_t b)
13788 {
13789   int32x2_t result;
13790   __asm__ ("trn1 %0.2s,%1.2s,%2.2s"
13791            : "=w"(result)
13792            : "w"(a), "w"(b)
13793            : /* No clobbers */);
13794   return result;
13795 }
13796
13797 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
13798 vtrn1_u8 (uint8x8_t a, uint8x8_t b)
13799 {
13800   uint8x8_t result;
13801   __asm__ ("trn1 %0.8b,%1.8b,%2.8b"
13802            : "=w"(result)
13803            : "w"(a), "w"(b)
13804            : /* No clobbers */);
13805   return result;
13806 }
13807
13808 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
13809 vtrn1_u16 (uint16x4_t a, uint16x4_t b)
13810 {
13811   uint16x4_t result;
13812   __asm__ ("trn1 %0.4h,%1.4h,%2.4h"
13813            : "=w"(result)
13814            : "w"(a), "w"(b)
13815            : /* No clobbers */);
13816   return result;
13817 }
13818
13819 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
13820 vtrn1_u32 (uint32x2_t a, uint32x2_t b)
13821 {
13822   uint32x2_t result;
13823   __asm__ ("trn1 %0.2s,%1.2s,%2.2s"
13824            : "=w"(result)
13825            : "w"(a), "w"(b)
13826            : /* No clobbers */);
13827   return result;
13828 }
13829
13830 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
13831 vtrn1q_f32 (float32x4_t a, float32x4_t b)
13832 {
13833   float32x4_t result;
13834   __asm__ ("trn1 %0.4s,%1.4s,%2.4s"
13835            : "=w"(result)
13836            : "w"(a), "w"(b)
13837            : /* No clobbers */);
13838   return result;
13839 }
13840
13841 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
13842 vtrn1q_f64 (float64x2_t a, float64x2_t b)
13843 {
13844   float64x2_t result;
13845   __asm__ ("trn1 %0.2d,%1.2d,%2.2d"
13846            : "=w"(result)
13847            : "w"(a), "w"(b)
13848            : /* No clobbers */);
13849   return result;
13850 }
13851
13852 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
13853 vtrn1q_p8 (poly8x16_t a, poly8x16_t b)
13854 {
13855   poly8x16_t result;
13856   __asm__ ("trn1 %0.16b,%1.16b,%2.16b"
13857            : "=w"(result)
13858            : "w"(a), "w"(b)
13859            : /* No clobbers */);
13860   return result;
13861 }
13862
13863 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
13864 vtrn1q_p16 (poly16x8_t a, poly16x8_t b)
13865 {
13866   poly16x8_t result;
13867   __asm__ ("trn1 %0.8h,%1.8h,%2.8h"
13868            : "=w"(result)
13869            : "w"(a), "w"(b)
13870            : /* No clobbers */);
13871   return result;
13872 }
13873
13874 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
13875 vtrn1q_s8 (int8x16_t a, int8x16_t b)
13876 {
13877   int8x16_t result;
13878   __asm__ ("trn1 %0.16b,%1.16b,%2.16b"
13879            : "=w"(result)
13880            : "w"(a), "w"(b)
13881            : /* No clobbers */);
13882   return result;
13883 }
13884
13885 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
13886 vtrn1q_s16 (int16x8_t a, int16x8_t b)
13887 {
13888   int16x8_t result;
13889   __asm__ ("trn1 %0.8h,%1.8h,%2.8h"
13890            : "=w"(result)
13891            : "w"(a), "w"(b)
13892            : /* No clobbers */);
13893   return result;
13894 }
13895
13896 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
13897 vtrn1q_s32 (int32x4_t a, int32x4_t b)
13898 {
13899   int32x4_t result;
13900   __asm__ ("trn1 %0.4s,%1.4s,%2.4s"
13901            : "=w"(result)
13902            : "w"(a), "w"(b)
13903            : /* No clobbers */);
13904   return result;
13905 }
13906
13907 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
13908 vtrn1q_s64 (int64x2_t a, int64x2_t b)
13909 {
13910   int64x2_t result;
13911   __asm__ ("trn1 %0.2d,%1.2d,%2.2d"
13912            : "=w"(result)
13913            : "w"(a), "w"(b)
13914            : /* No clobbers */);
13915   return result;
13916 }
13917
13918 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
13919 vtrn1q_u8 (uint8x16_t a, uint8x16_t b)
13920 {
13921   uint8x16_t result;
13922   __asm__ ("trn1 %0.16b,%1.16b,%2.16b"
13923            : "=w"(result)
13924            : "w"(a), "w"(b)
13925            : /* No clobbers */);
13926   return result;
13927 }
13928
13929 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
13930 vtrn1q_u16 (uint16x8_t a, uint16x8_t b)
13931 {
13932   uint16x8_t result;
13933   __asm__ ("trn1 %0.8h,%1.8h,%2.8h"
13934            : "=w"(result)
13935            : "w"(a), "w"(b)
13936            : /* No clobbers */);
13937   return result;
13938 }
13939
13940 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
13941 vtrn1q_u32 (uint32x4_t a, uint32x4_t b)
13942 {
13943   uint32x4_t result;
13944   __asm__ ("trn1 %0.4s,%1.4s,%2.4s"
13945            : "=w"(result)
13946            : "w"(a), "w"(b)
13947            : /* No clobbers */);
13948   return result;
13949 }
13950
13951 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
13952 vtrn1q_u64 (uint64x2_t a, uint64x2_t b)
13953 {
13954   uint64x2_t result;
13955   __asm__ ("trn1 %0.2d,%1.2d,%2.2d"
13956            : "=w"(result)
13957            : "w"(a), "w"(b)
13958            : /* No clobbers */);
13959   return result;
13960 }
13961
13962 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
13963 vtrn2_f32 (float32x2_t a, float32x2_t b)
13964 {
13965   float32x2_t result;
13966   __asm__ ("trn2 %0.2s,%1.2s,%2.2s"
13967            : "=w"(result)
13968            : "w"(a), "w"(b)
13969            : /* No clobbers */);
13970   return result;
13971 }
13972
13973 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
13974 vtrn2_p8 (poly8x8_t a, poly8x8_t b)
13975 {
13976   poly8x8_t result;
13977   __asm__ ("trn2 %0.8b,%1.8b,%2.8b"
13978            : "=w"(result)
13979            : "w"(a), "w"(b)
13980            : /* No clobbers */);
13981   return result;
13982 }
13983
13984 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
13985 vtrn2_p16 (poly16x4_t a, poly16x4_t b)
13986 {
13987   poly16x4_t result;
13988   __asm__ ("trn2 %0.4h,%1.4h,%2.4h"
13989            : "=w"(result)
13990            : "w"(a), "w"(b)
13991            : /* No clobbers */);
13992   return result;
13993 }
13994
13995 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
13996 vtrn2_s8 (int8x8_t a, int8x8_t b)
13997 {
13998   int8x8_t result;
13999   __asm__ ("trn2 %0.8b,%1.8b,%2.8b"
14000            : "=w"(result)
14001            : "w"(a), "w"(b)
14002            : /* No clobbers */);
14003   return result;
14004 }
14005
14006 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
14007 vtrn2_s16 (int16x4_t a, int16x4_t b)
14008 {
14009   int16x4_t result;
14010   __asm__ ("trn2 %0.4h,%1.4h,%2.4h"
14011            : "=w"(result)
14012            : "w"(a), "w"(b)
14013            : /* No clobbers */);
14014   return result;
14015 }
14016
14017 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
14018 vtrn2_s32 (int32x2_t a, int32x2_t b)
14019 {
14020   int32x2_t result;
14021   __asm__ ("trn2 %0.2s,%1.2s,%2.2s"
14022            : "=w"(result)
14023            : "w"(a), "w"(b)
14024            : /* No clobbers */);
14025   return result;
14026 }
14027
14028 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
14029 vtrn2_u8 (uint8x8_t a, uint8x8_t b)
14030 {
14031   uint8x8_t result;
14032   __asm__ ("trn2 %0.8b,%1.8b,%2.8b"
14033            : "=w"(result)
14034            : "w"(a), "w"(b)
14035            : /* No clobbers */);
14036   return result;
14037 }
14038
14039 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
14040 vtrn2_u16 (uint16x4_t a, uint16x4_t b)
14041 {
14042   uint16x4_t result;
14043   __asm__ ("trn2 %0.4h,%1.4h,%2.4h"
14044            : "=w"(result)
14045            : "w"(a), "w"(b)
14046            : /* No clobbers */);
14047   return result;
14048 }
14049
14050 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
14051 vtrn2_u32 (uint32x2_t a, uint32x2_t b)
14052 {
14053   uint32x2_t result;
14054   __asm__ ("trn2 %0.2s,%1.2s,%2.2s"
14055            : "=w"(result)
14056            : "w"(a), "w"(b)
14057            : /* No clobbers */);
14058   return result;
14059 }
14060
14061 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
14062 vtrn2q_f32 (float32x4_t a, float32x4_t b)
14063 {
14064   float32x4_t result;
14065   __asm__ ("trn2 %0.4s,%1.4s,%2.4s"
14066            : "=w"(result)
14067            : "w"(a), "w"(b)
14068            : /* No clobbers */);
14069   return result;
14070 }
14071
14072 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
14073 vtrn2q_f64 (float64x2_t a, float64x2_t b)
14074 {
14075   float64x2_t result;
14076   __asm__ ("trn2 %0.2d,%1.2d,%2.2d"
14077            : "=w"(result)
14078            : "w"(a), "w"(b)
14079            : /* No clobbers */);
14080   return result;
14081 }
14082
14083 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
14084 vtrn2q_p8 (poly8x16_t a, poly8x16_t b)
14085 {
14086   poly8x16_t result;
14087   __asm__ ("trn2 %0.16b,%1.16b,%2.16b"
14088            : "=w"(result)
14089            : "w"(a), "w"(b)
14090            : /* No clobbers */);
14091   return result;
14092 }
14093
14094 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
14095 vtrn2q_p16 (poly16x8_t a, poly16x8_t b)
14096 {
14097   poly16x8_t result;
14098   __asm__ ("trn2 %0.8h,%1.8h,%2.8h"
14099            : "=w"(result)
14100            : "w"(a), "w"(b)
14101            : /* No clobbers */);
14102   return result;
14103 }
14104
14105 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
14106 vtrn2q_s8 (int8x16_t a, int8x16_t b)
14107 {
14108   int8x16_t result;
14109   __asm__ ("trn2 %0.16b,%1.16b,%2.16b"
14110            : "=w"(result)
14111            : "w"(a), "w"(b)
14112            : /* No clobbers */);
14113   return result;
14114 }
14115
14116 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
14117 vtrn2q_s16 (int16x8_t a, int16x8_t b)
14118 {
14119   int16x8_t result;
14120   __asm__ ("trn2 %0.8h,%1.8h,%2.8h"
14121            : "=w"(result)
14122            : "w"(a), "w"(b)
14123            : /* No clobbers */);
14124   return result;
14125 }
14126
14127 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
14128 vtrn2q_s32 (int32x4_t a, int32x4_t b)
14129 {
14130   int32x4_t result;
14131   __asm__ ("trn2 %0.4s,%1.4s,%2.4s"
14132            : "=w"(result)
14133            : "w"(a), "w"(b)
14134            : /* No clobbers */);
14135   return result;
14136 }
14137
14138 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
14139 vtrn2q_s64 (int64x2_t a, int64x2_t b)
14140 {
14141   int64x2_t result;
14142   __asm__ ("trn2 %0.2d,%1.2d,%2.2d"
14143            : "=w"(result)
14144            : "w"(a), "w"(b)
14145            : /* No clobbers */);
14146   return result;
14147 }
14148
14149 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
14150 vtrn2q_u8 (uint8x16_t a, uint8x16_t b)
14151 {
14152   uint8x16_t result;
14153   __asm__ ("trn2 %0.16b,%1.16b,%2.16b"
14154            : "=w"(result)
14155            : "w"(a), "w"(b)
14156            : /* No clobbers */);
14157   return result;
14158 }
14159
14160 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
14161 vtrn2q_u16 (uint16x8_t a, uint16x8_t b)
14162 {
14163   uint16x8_t result;
14164   __asm__ ("trn2 %0.8h,%1.8h,%2.8h"
14165            : "=w"(result)
14166            : "w"(a), "w"(b)
14167            : /* No clobbers */);
14168   return result;
14169 }
14170
14171 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
14172 vtrn2q_u32 (uint32x4_t a, uint32x4_t b)
14173 {
14174   uint32x4_t result;
14175   __asm__ ("trn2 %0.4s,%1.4s,%2.4s"
14176            : "=w"(result)
14177            : "w"(a), "w"(b)
14178            : /* No clobbers */);
14179   return result;
14180 }
14181
14182 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
14183 vtrn2q_u64 (uint64x2_t a, uint64x2_t b)
14184 {
14185   uint64x2_t result;
14186   __asm__ ("trn2 %0.2d,%1.2d,%2.2d"
14187            : "=w"(result)
14188            : "w"(a), "w"(b)
14189            : /* No clobbers */);
14190   return result;
14191 }
14192
14193 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
14194 vtst_p8 (poly8x8_t a, poly8x8_t b)
14195 {
14196   uint8x8_t result;
14197   __asm__ ("cmtst %0.8b, %1.8b, %2.8b"
14198            : "=w"(result)
14199            : "w"(a), "w"(b)
14200            : /* No clobbers */);
14201   return result;
14202 }
14203
14204 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
14205 vtst_p16 (poly16x4_t a, poly16x4_t b)
14206 {
14207   uint16x4_t result;
14208   __asm__ ("cmtst %0.4h, %1.4h, %2.4h"
14209            : "=w"(result)
14210            : "w"(a), "w"(b)
14211            : /* No clobbers */);
14212   return result;
14213 }
14214
14215 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
14216 vtstq_p8 (poly8x16_t a, poly8x16_t b)
14217 {
14218   uint8x16_t result;
14219   __asm__ ("cmtst %0.16b, %1.16b, %2.16b"
14220            : "=w"(result)
14221            : "w"(a), "w"(b)
14222            : /* No clobbers */);
14223   return result;
14224 }
14225
14226 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
14227 vtstq_p16 (poly16x8_t a, poly16x8_t b)
14228 {
14229   uint16x8_t result;
14230   __asm__ ("cmtst %0.8h, %1.8h, %2.8h"
14231            : "=w"(result)
14232            : "w"(a), "w"(b)
14233            : /* No clobbers */);
14234   return result;
14235 }
14236 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
14237 vuzp1_f32 (float32x2_t a, float32x2_t b)
14238 {
14239   float32x2_t result;
14240   __asm__ ("uzp1 %0.2s,%1.2s,%2.2s"
14241            : "=w"(result)
14242            : "w"(a), "w"(b)
14243            : /* No clobbers */);
14244   return result;
14245 }
14246
14247 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
14248 vuzp1_p8 (poly8x8_t a, poly8x8_t b)
14249 {
14250   poly8x8_t result;
14251   __asm__ ("uzp1 %0.8b,%1.8b,%2.8b"
14252            : "=w"(result)
14253            : "w"(a), "w"(b)
14254            : /* No clobbers */);
14255   return result;
14256 }
14257
14258 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
14259 vuzp1_p16 (poly16x4_t a, poly16x4_t b)
14260 {
14261   poly16x4_t result;
14262   __asm__ ("uzp1 %0.4h,%1.4h,%2.4h"
14263            : "=w"(result)
14264            : "w"(a), "w"(b)
14265            : /* No clobbers */);
14266   return result;
14267 }
14268
14269 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
14270 vuzp1_s8 (int8x8_t a, int8x8_t b)
14271 {
14272   int8x8_t result;
14273   __asm__ ("uzp1 %0.8b,%1.8b,%2.8b"
14274            : "=w"(result)
14275            : "w"(a), "w"(b)
14276            : /* No clobbers */);
14277   return result;
14278 }
14279
14280 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
14281 vuzp1_s16 (int16x4_t a, int16x4_t b)
14282 {
14283   int16x4_t result;
14284   __asm__ ("uzp1 %0.4h,%1.4h,%2.4h"
14285            : "=w"(result)
14286            : "w"(a), "w"(b)
14287            : /* No clobbers */);
14288   return result;
14289 }
14290
14291 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
14292 vuzp1_s32 (int32x2_t a, int32x2_t b)
14293 {
14294   int32x2_t result;
14295   __asm__ ("uzp1 %0.2s,%1.2s,%2.2s"
14296            : "=w"(result)
14297            : "w"(a), "w"(b)
14298            : /* No clobbers */);
14299   return result;
14300 }
14301
14302 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
14303 vuzp1_u8 (uint8x8_t a, uint8x8_t b)
14304 {
14305   uint8x8_t result;
14306   __asm__ ("uzp1 %0.8b,%1.8b,%2.8b"
14307            : "=w"(result)
14308            : "w"(a), "w"(b)
14309            : /* No clobbers */);
14310   return result;
14311 }
14312
14313 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
14314 vuzp1_u16 (uint16x4_t a, uint16x4_t b)
14315 {
14316   uint16x4_t result;
14317   __asm__ ("uzp1 %0.4h,%1.4h,%2.4h"
14318            : "=w"(result)
14319            : "w"(a), "w"(b)
14320            : /* No clobbers */);
14321   return result;
14322 }
14323
14324 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
14325 vuzp1_u32 (uint32x2_t a, uint32x2_t b)
14326 {
14327   uint32x2_t result;
14328   __asm__ ("uzp1 %0.2s,%1.2s,%2.2s"
14329            : "=w"(result)
14330            : "w"(a), "w"(b)
14331            : /* No clobbers */);
14332   return result;
14333 }
14334
14335 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
14336 vuzp1q_f32 (float32x4_t a, float32x4_t b)
14337 {
14338   float32x4_t result;
14339   __asm__ ("uzp1 %0.4s,%1.4s,%2.4s"
14340            : "=w"(result)
14341            : "w"(a), "w"(b)
14342            : /* No clobbers */);
14343   return result;
14344 }
14345
14346 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
14347 vuzp1q_f64 (float64x2_t a, float64x2_t b)
14348 {
14349   float64x2_t result;
14350   __asm__ ("uzp1 %0.2d,%1.2d,%2.2d"
14351            : "=w"(result)
14352            : "w"(a), "w"(b)
14353            : /* No clobbers */);
14354   return result;
14355 }
14356
14357 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
14358 vuzp1q_p8 (poly8x16_t a, poly8x16_t b)
14359 {
14360   poly8x16_t result;
14361   __asm__ ("uzp1 %0.16b,%1.16b,%2.16b"
14362            : "=w"(result)
14363            : "w"(a), "w"(b)
14364            : /* No clobbers */);
14365   return result;
14366 }
14367
14368 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
14369 vuzp1q_p16 (poly16x8_t a, poly16x8_t b)
14370 {
14371   poly16x8_t result;
14372   __asm__ ("uzp1 %0.8h,%1.8h,%2.8h"
14373            : "=w"(result)
14374            : "w"(a), "w"(b)
14375            : /* No clobbers */);
14376   return result;
14377 }
14378
14379 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
14380 vuzp1q_s8 (int8x16_t a, int8x16_t b)
14381 {
14382   int8x16_t result;
14383   __asm__ ("uzp1 %0.16b,%1.16b,%2.16b"
14384            : "=w"(result)
14385            : "w"(a), "w"(b)
14386            : /* No clobbers */);
14387   return result;
14388 }
14389
14390 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
14391 vuzp1q_s16 (int16x8_t a, int16x8_t b)
14392 {
14393   int16x8_t result;
14394   __asm__ ("uzp1 %0.8h,%1.8h,%2.8h"
14395            : "=w"(result)
14396            : "w"(a), "w"(b)
14397            : /* No clobbers */);
14398   return result;
14399 }
14400
14401 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
14402 vuzp1q_s32 (int32x4_t a, int32x4_t b)
14403 {
14404   int32x4_t result;
14405   __asm__ ("uzp1 %0.4s,%1.4s,%2.4s"
14406            : "=w"(result)
14407            : "w"(a), "w"(b)
14408            : /* No clobbers */);
14409   return result;
14410 }
14411
14412 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
14413 vuzp1q_s64 (int64x2_t a, int64x2_t b)
14414 {
14415   int64x2_t result;
14416   __asm__ ("uzp1 %0.2d,%1.2d,%2.2d"
14417            : "=w"(result)
14418            : "w"(a), "w"(b)
14419            : /* No clobbers */);
14420   return result;
14421 }
14422
14423 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
14424 vuzp1q_u8 (uint8x16_t a, uint8x16_t b)
14425 {
14426   uint8x16_t result;
14427   __asm__ ("uzp1 %0.16b,%1.16b,%2.16b"
14428            : "=w"(result)
14429            : "w"(a), "w"(b)
14430            : /* No clobbers */);
14431   return result;
14432 }
14433
14434 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
14435 vuzp1q_u16 (uint16x8_t a, uint16x8_t b)
14436 {
14437   uint16x8_t result;
14438   __asm__ ("uzp1 %0.8h,%1.8h,%2.8h"
14439            : "=w"(result)
14440            : "w"(a), "w"(b)
14441            : /* No clobbers */);
14442   return result;
14443 }
14444
14445 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
14446 vuzp1q_u32 (uint32x4_t a, uint32x4_t b)
14447 {
14448   uint32x4_t result;
14449   __asm__ ("uzp1 %0.4s,%1.4s,%2.4s"
14450            : "=w"(result)
14451            : "w"(a), "w"(b)
14452            : /* No clobbers */);
14453   return result;
14454 }
14455
14456 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
14457 vuzp1q_u64 (uint64x2_t a, uint64x2_t b)
14458 {
14459   uint64x2_t result;
14460   __asm__ ("uzp1 %0.2d,%1.2d,%2.2d"
14461            : "=w"(result)
14462            : "w"(a), "w"(b)
14463            : /* No clobbers */);
14464   return result;
14465 }
14466
14467 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
14468 vuzp2_f32 (float32x2_t a, float32x2_t b)
14469 {
14470   float32x2_t result;
14471   __asm__ ("uzp2 %0.2s,%1.2s,%2.2s"
14472            : "=w"(result)
14473            : "w"(a), "w"(b)
14474            : /* No clobbers */);
14475   return result;
14476 }
14477
14478 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
14479 vuzp2_p8 (poly8x8_t a, poly8x8_t b)
14480 {
14481   poly8x8_t result;
14482   __asm__ ("uzp2 %0.8b,%1.8b,%2.8b"
14483            : "=w"(result)
14484            : "w"(a), "w"(b)
14485            : /* No clobbers */);
14486   return result;
14487 }
14488
14489 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
14490 vuzp2_p16 (poly16x4_t a, poly16x4_t b)
14491 {
14492   poly16x4_t result;
14493   __asm__ ("uzp2 %0.4h,%1.4h,%2.4h"
14494            : "=w"(result)
14495            : "w"(a), "w"(b)
14496            : /* No clobbers */);
14497   return result;
14498 }
14499
14500 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
14501 vuzp2_s8 (int8x8_t a, int8x8_t b)
14502 {
14503   int8x8_t result;
14504   __asm__ ("uzp2 %0.8b,%1.8b,%2.8b"
14505            : "=w"(result)
14506            : "w"(a), "w"(b)
14507            : /* No clobbers */);
14508   return result;
14509 }
14510
14511 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
14512 vuzp2_s16 (int16x4_t a, int16x4_t b)
14513 {
14514   int16x4_t result;
14515   __asm__ ("uzp2 %0.4h,%1.4h,%2.4h"
14516            : "=w"(result)
14517            : "w"(a), "w"(b)
14518            : /* No clobbers */);
14519   return result;
14520 }
14521
14522 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
14523 vuzp2_s32 (int32x2_t a, int32x2_t b)
14524 {
14525   int32x2_t result;
14526   __asm__ ("uzp2 %0.2s,%1.2s,%2.2s"
14527            : "=w"(result)
14528            : "w"(a), "w"(b)
14529            : /* No clobbers */);
14530   return result;
14531 }
14532
14533 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
14534 vuzp2_u8 (uint8x8_t a, uint8x8_t b)
14535 {
14536   uint8x8_t result;
14537   __asm__ ("uzp2 %0.8b,%1.8b,%2.8b"
14538            : "=w"(result)
14539            : "w"(a), "w"(b)
14540            : /* No clobbers */);
14541   return result;
14542 }
14543
14544 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
14545 vuzp2_u16 (uint16x4_t a, uint16x4_t b)
14546 {
14547   uint16x4_t result;
14548   __asm__ ("uzp2 %0.4h,%1.4h,%2.4h"
14549            : "=w"(result)
14550            : "w"(a), "w"(b)
14551            : /* No clobbers */);
14552   return result;
14553 }
14554
14555 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
14556 vuzp2_u32 (uint32x2_t a, uint32x2_t b)
14557 {
14558   uint32x2_t result;
14559   __asm__ ("uzp2 %0.2s,%1.2s,%2.2s"
14560            : "=w"(result)
14561            : "w"(a), "w"(b)
14562            : /* No clobbers */);
14563   return result;
14564 }
14565
14566 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
14567 vuzp2q_f32 (float32x4_t a, float32x4_t b)
14568 {
14569   float32x4_t result;
14570   __asm__ ("uzp2 %0.4s,%1.4s,%2.4s"
14571            : "=w"(result)
14572            : "w"(a), "w"(b)
14573            : /* No clobbers */);
14574   return result;
14575 }
14576
14577 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
14578 vuzp2q_f64 (float64x2_t a, float64x2_t b)
14579 {
14580   float64x2_t result;
14581   __asm__ ("uzp2 %0.2d,%1.2d,%2.2d"
14582            : "=w"(result)
14583            : "w"(a), "w"(b)
14584            : /* No clobbers */);
14585   return result;
14586 }
14587
14588 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
14589 vuzp2q_p8 (poly8x16_t a, poly8x16_t b)
14590 {
14591   poly8x16_t result;
14592   __asm__ ("uzp2 %0.16b,%1.16b,%2.16b"
14593            : "=w"(result)
14594            : "w"(a), "w"(b)
14595            : /* No clobbers */);
14596   return result;
14597 }
14598
14599 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
14600 vuzp2q_p16 (poly16x8_t a, poly16x8_t b)
14601 {
14602   poly16x8_t result;
14603   __asm__ ("uzp2 %0.8h,%1.8h,%2.8h"
14604            : "=w"(result)
14605            : "w"(a), "w"(b)
14606            : /* No clobbers */);
14607   return result;
14608 }
14609
14610 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
14611 vuzp2q_s8 (int8x16_t a, int8x16_t b)
14612 {
14613   int8x16_t result;
14614   __asm__ ("uzp2 %0.16b,%1.16b,%2.16b"
14615            : "=w"(result)
14616            : "w"(a), "w"(b)
14617            : /* No clobbers */);
14618   return result;
14619 }
14620
14621 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
14622 vuzp2q_s16 (int16x8_t a, int16x8_t b)
14623 {
14624   int16x8_t result;
14625   __asm__ ("uzp2 %0.8h,%1.8h,%2.8h"
14626            : "=w"(result)
14627            : "w"(a), "w"(b)
14628            : /* No clobbers */);
14629   return result;
14630 }
14631
14632 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
14633 vuzp2q_s32 (int32x4_t a, int32x4_t b)
14634 {
14635   int32x4_t result;
14636   __asm__ ("uzp2 %0.4s,%1.4s,%2.4s"
14637            : "=w"(result)
14638            : "w"(a), "w"(b)
14639            : /* No clobbers */);
14640   return result;
14641 }
14642
14643 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
14644 vuzp2q_s64 (int64x2_t a, int64x2_t b)
14645 {
14646   int64x2_t result;
14647   __asm__ ("uzp2 %0.2d,%1.2d,%2.2d"
14648            : "=w"(result)
14649            : "w"(a), "w"(b)
14650            : /* No clobbers */);
14651   return result;
14652 }
14653
14654 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
14655 vuzp2q_u8 (uint8x16_t a, uint8x16_t b)
14656 {
14657   uint8x16_t result;
14658   __asm__ ("uzp2 %0.16b,%1.16b,%2.16b"
14659            : "=w"(result)
14660            : "w"(a), "w"(b)
14661            : /* No clobbers */);
14662   return result;
14663 }
14664
14665 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
14666 vuzp2q_u16 (uint16x8_t a, uint16x8_t b)
14667 {
14668   uint16x8_t result;
14669   __asm__ ("uzp2 %0.8h,%1.8h,%2.8h"
14670            : "=w"(result)
14671            : "w"(a), "w"(b)
14672            : /* No clobbers */);
14673   return result;
14674 }
14675
14676 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
14677 vuzp2q_u32 (uint32x4_t a, uint32x4_t b)
14678 {
14679   uint32x4_t result;
14680   __asm__ ("uzp2 %0.4s,%1.4s,%2.4s"
14681            : "=w"(result)
14682            : "w"(a), "w"(b)
14683            : /* No clobbers */);
14684   return result;
14685 }
14686
14687 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
14688 vuzp2q_u64 (uint64x2_t a, uint64x2_t b)
14689 {
14690   uint64x2_t result;
14691   __asm__ ("uzp2 %0.2d,%1.2d,%2.2d"
14692            : "=w"(result)
14693            : "w"(a), "w"(b)
14694            : /* No clobbers */);
14695   return result;
14696 }
14697
14698 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
14699 vzip1_f32 (float32x2_t a, float32x2_t b)
14700 {
14701   float32x2_t result;
14702   __asm__ ("zip1 %0.2s,%1.2s,%2.2s"
14703            : "=w"(result)
14704            : "w"(a), "w"(b)
14705            : /* No clobbers */);
14706   return result;
14707 }
14708
14709 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
14710 vzip1_p8 (poly8x8_t a, poly8x8_t b)
14711 {
14712   poly8x8_t result;
14713   __asm__ ("zip1 %0.8b,%1.8b,%2.8b"
14714            : "=w"(result)
14715            : "w"(a), "w"(b)
14716            : /* No clobbers */);
14717   return result;
14718 }
14719
14720 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
14721 vzip1_p16 (poly16x4_t a, poly16x4_t b)
14722 {
14723   poly16x4_t result;
14724   __asm__ ("zip1 %0.4h,%1.4h,%2.4h"
14725            : "=w"(result)
14726            : "w"(a), "w"(b)
14727            : /* No clobbers */);
14728   return result;
14729 }
14730
14731 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
14732 vzip1_s8 (int8x8_t a, int8x8_t b)
14733 {
14734   int8x8_t result;
14735   __asm__ ("zip1 %0.8b,%1.8b,%2.8b"
14736            : "=w"(result)
14737            : "w"(a), "w"(b)
14738            : /* No clobbers */);
14739   return result;
14740 }
14741
14742 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
14743 vzip1_s16 (int16x4_t a, int16x4_t b)
14744 {
14745   int16x4_t result;
14746   __asm__ ("zip1 %0.4h,%1.4h,%2.4h"
14747            : "=w"(result)
14748            : "w"(a), "w"(b)
14749            : /* No clobbers */);
14750   return result;
14751 }
14752
14753 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
14754 vzip1_s32 (int32x2_t a, int32x2_t b)
14755 {
14756   int32x2_t result;
14757   __asm__ ("zip1 %0.2s,%1.2s,%2.2s"
14758            : "=w"(result)
14759            : "w"(a), "w"(b)
14760            : /* No clobbers */);
14761   return result;
14762 }
14763
14764 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
14765 vzip1_u8 (uint8x8_t a, uint8x8_t b)
14766 {
14767   uint8x8_t result;
14768   __asm__ ("zip1 %0.8b,%1.8b,%2.8b"
14769            : "=w"(result)
14770            : "w"(a), "w"(b)
14771            : /* No clobbers */);
14772   return result;
14773 }
14774
14775 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
14776 vzip1_u16 (uint16x4_t a, uint16x4_t b)
14777 {
14778   uint16x4_t result;
14779   __asm__ ("zip1 %0.4h,%1.4h,%2.4h"
14780            : "=w"(result)
14781            : "w"(a), "w"(b)
14782            : /* No clobbers */);
14783   return result;
14784 }
14785
14786 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
14787 vzip1_u32 (uint32x2_t a, uint32x2_t b)
14788 {
14789   uint32x2_t result;
14790   __asm__ ("zip1 %0.2s,%1.2s,%2.2s"
14791            : "=w"(result)
14792            : "w"(a), "w"(b)
14793            : /* No clobbers */);
14794   return result;
14795 }
14796
14797 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
14798 vzip1q_f32 (float32x4_t a, float32x4_t b)
14799 {
14800   float32x4_t result;
14801   __asm__ ("zip1 %0.4s,%1.4s,%2.4s"
14802            : "=w"(result)
14803            : "w"(a), "w"(b)
14804            : /* No clobbers */);
14805   return result;
14806 }
14807
14808 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
14809 vzip1q_f64 (float64x2_t a, float64x2_t b)
14810 {
14811   float64x2_t result;
14812   __asm__ ("zip1 %0.2d,%1.2d,%2.2d"
14813            : "=w"(result)
14814            : "w"(a), "w"(b)
14815            : /* No clobbers */);
14816   return result;
14817 }
14818
14819 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
14820 vzip1q_p8 (poly8x16_t a, poly8x16_t b)
14821 {
14822   poly8x16_t result;
14823   __asm__ ("zip1 %0.16b,%1.16b,%2.16b"
14824            : "=w"(result)
14825            : "w"(a), "w"(b)
14826            : /* No clobbers */);
14827   return result;
14828 }
14829
14830 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
14831 vzip1q_p16 (poly16x8_t a, poly16x8_t b)
14832 {
14833   poly16x8_t result;
14834   __asm__ ("zip1 %0.8h,%1.8h,%2.8h"
14835            : "=w"(result)
14836            : "w"(a), "w"(b)
14837            : /* No clobbers */);
14838   return result;
14839 }
14840
14841 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
14842 vzip1q_s8 (int8x16_t a, int8x16_t b)
14843 {
14844   int8x16_t result;
14845   __asm__ ("zip1 %0.16b,%1.16b,%2.16b"
14846            : "=w"(result)
14847            : "w"(a), "w"(b)
14848            : /* No clobbers */);
14849   return result;
14850 }
14851
14852 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
14853 vzip1q_s16 (int16x8_t a, int16x8_t b)
14854 {
14855   int16x8_t result;
14856   __asm__ ("zip1 %0.8h,%1.8h,%2.8h"
14857            : "=w"(result)
14858            : "w"(a), "w"(b)
14859            : /* No clobbers */);
14860   return result;
14861 }
14862
14863 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
14864 vzip1q_s32 (int32x4_t a, int32x4_t b)
14865 {
14866   int32x4_t result;
14867   __asm__ ("zip1 %0.4s,%1.4s,%2.4s"
14868            : "=w"(result)
14869            : "w"(a), "w"(b)
14870            : /* No clobbers */);
14871   return result;
14872 }
14873
14874 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
14875 vzip1q_s64 (int64x2_t a, int64x2_t b)
14876 {
14877   int64x2_t result;
14878   __asm__ ("zip1 %0.2d,%1.2d,%2.2d"
14879            : "=w"(result)
14880            : "w"(a), "w"(b)
14881            : /* No clobbers */);
14882   return result;
14883 }
14884
14885 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
14886 vzip1q_u8 (uint8x16_t a, uint8x16_t b)
14887 {
14888   uint8x16_t result;
14889   __asm__ ("zip1 %0.16b,%1.16b,%2.16b"
14890            : "=w"(result)
14891            : "w"(a), "w"(b)
14892            : /* No clobbers */);
14893   return result;
14894 }
14895
14896 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
14897 vzip1q_u16 (uint16x8_t a, uint16x8_t b)
14898 {
14899   uint16x8_t result;
14900   __asm__ ("zip1 %0.8h,%1.8h,%2.8h"
14901            : "=w"(result)
14902            : "w"(a), "w"(b)
14903            : /* No clobbers */);
14904   return result;
14905 }
14906
14907 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
14908 vzip1q_u32 (uint32x4_t a, uint32x4_t b)
14909 {
14910   uint32x4_t result;
14911   __asm__ ("zip1 %0.4s,%1.4s,%2.4s"
14912            : "=w"(result)
14913            : "w"(a), "w"(b)
14914            : /* No clobbers */);
14915   return result;
14916 }
14917
14918 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
14919 vzip1q_u64 (uint64x2_t a, uint64x2_t b)
14920 {
14921   uint64x2_t result;
14922   __asm__ ("zip1 %0.2d,%1.2d,%2.2d"
14923            : "=w"(result)
14924            : "w"(a), "w"(b)
14925            : /* No clobbers */);
14926   return result;
14927 }
14928
14929 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
14930 vzip2_f32 (float32x2_t a, float32x2_t b)
14931 {
14932   float32x2_t result;
14933   __asm__ ("zip2 %0.2s,%1.2s,%2.2s"
14934            : "=w"(result)
14935            : "w"(a), "w"(b)
14936            : /* No clobbers */);
14937   return result;
14938 }
14939
14940 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
14941 vzip2_p8 (poly8x8_t a, poly8x8_t b)
14942 {
14943   poly8x8_t result;
14944   __asm__ ("zip2 %0.8b,%1.8b,%2.8b"
14945            : "=w"(result)
14946            : "w"(a), "w"(b)
14947            : /* No clobbers */);
14948   return result;
14949 }
14950
14951 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
14952 vzip2_p16 (poly16x4_t a, poly16x4_t b)
14953 {
14954   poly16x4_t result;
14955   __asm__ ("zip2 %0.4h,%1.4h,%2.4h"
14956            : "=w"(result)
14957            : "w"(a), "w"(b)
14958            : /* No clobbers */);
14959   return result;
14960 }
14961
14962 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
14963 vzip2_s8 (int8x8_t a, int8x8_t b)
14964 {
14965   int8x8_t result;
14966   __asm__ ("zip2 %0.8b,%1.8b,%2.8b"
14967            : "=w"(result)
14968            : "w"(a), "w"(b)
14969            : /* No clobbers */);
14970   return result;
14971 }
14972
14973 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
14974 vzip2_s16 (int16x4_t a, int16x4_t b)
14975 {
14976   int16x4_t result;
14977   __asm__ ("zip2 %0.4h,%1.4h,%2.4h"
14978            : "=w"(result)
14979            : "w"(a), "w"(b)
14980            : /* No clobbers */);
14981   return result;
14982 }
14983
14984 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
14985 vzip2_s32 (int32x2_t a, int32x2_t b)
14986 {
14987   int32x2_t result;
14988   __asm__ ("zip2 %0.2s,%1.2s,%2.2s"
14989            : "=w"(result)
14990            : "w"(a), "w"(b)
14991            : /* No clobbers */);
14992   return result;
14993 }
14994
14995 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
14996 vzip2_u8 (uint8x8_t a, uint8x8_t b)
14997 {
14998   uint8x8_t result;
14999   __asm__ ("zip2 %0.8b,%1.8b,%2.8b"
15000            : "=w"(result)
15001            : "w"(a), "w"(b)
15002            : /* No clobbers */);
15003   return result;
15004 }
15005
15006 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
15007 vzip2_u16 (uint16x4_t a, uint16x4_t b)
15008 {
15009   uint16x4_t result;
15010   __asm__ ("zip2 %0.4h,%1.4h,%2.4h"
15011            : "=w"(result)
15012            : "w"(a), "w"(b)
15013            : /* No clobbers */);
15014   return result;
15015 }
15016
15017 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
15018 vzip2_u32 (uint32x2_t a, uint32x2_t b)
15019 {
15020   uint32x2_t result;
15021   __asm__ ("zip2 %0.2s,%1.2s,%2.2s"
15022            : "=w"(result)
15023            : "w"(a), "w"(b)
15024            : /* No clobbers */);
15025   return result;
15026 }
15027
15028 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
15029 vzip2q_f32 (float32x4_t a, float32x4_t b)
15030 {
15031   float32x4_t result;
15032   __asm__ ("zip2 %0.4s,%1.4s,%2.4s"
15033            : "=w"(result)
15034            : "w"(a), "w"(b)
15035            : /* No clobbers */);
15036   return result;
15037 }
15038
15039 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
15040 vzip2q_f64 (float64x2_t a, float64x2_t b)
15041 {
15042   float64x2_t result;
15043   __asm__ ("zip2 %0.2d,%1.2d,%2.2d"
15044            : "=w"(result)
15045            : "w"(a), "w"(b)
15046            : /* No clobbers */);
15047   return result;
15048 }
15049
15050 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
15051 vzip2q_p8 (poly8x16_t a, poly8x16_t b)
15052 {
15053   poly8x16_t result;
15054   __asm__ ("zip2 %0.16b,%1.16b,%2.16b"
15055            : "=w"(result)
15056            : "w"(a), "w"(b)
15057            : /* No clobbers */);
15058   return result;
15059 }
15060
15061 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
15062 vzip2q_p16 (poly16x8_t a, poly16x8_t b)
15063 {
15064   poly16x8_t result;
15065   __asm__ ("zip2 %0.8h,%1.8h,%2.8h"
15066            : "=w"(result)
15067            : "w"(a), "w"(b)
15068            : /* No clobbers */);
15069   return result;
15070 }
15071
15072 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
15073 vzip2q_s8 (int8x16_t a, int8x16_t b)
15074 {
15075   int8x16_t result;
15076   __asm__ ("zip2 %0.16b,%1.16b,%2.16b"
15077            : "=w"(result)
15078            : "w"(a), "w"(b)
15079            : /* No clobbers */);
15080   return result;
15081 }
15082
15083 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
15084 vzip2q_s16 (int16x8_t a, int16x8_t b)
15085 {
15086   int16x8_t result;
15087   __asm__ ("zip2 %0.8h,%1.8h,%2.8h"
15088            : "=w"(result)
15089            : "w"(a), "w"(b)
15090            : /* No clobbers */);
15091   return result;
15092 }
15093
15094 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
15095 vzip2q_s32 (int32x4_t a, int32x4_t b)
15096 {
15097   int32x4_t result;
15098   __asm__ ("zip2 %0.4s,%1.4s,%2.4s"
15099            : "=w"(result)
15100            : "w"(a), "w"(b)
15101            : /* No clobbers */);
15102   return result;
15103 }
15104
15105 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
15106 vzip2q_s64 (int64x2_t a, int64x2_t b)
15107 {
15108   int64x2_t result;
15109   __asm__ ("zip2 %0.2d,%1.2d,%2.2d"
15110            : "=w"(result)
15111            : "w"(a), "w"(b)
15112            : /* No clobbers */);
15113   return result;
15114 }
15115
15116 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
15117 vzip2q_u8 (uint8x16_t a, uint8x16_t b)
15118 {
15119   uint8x16_t result;
15120   __asm__ ("zip2 %0.16b,%1.16b,%2.16b"
15121            : "=w"(result)
15122            : "w"(a), "w"(b)
15123            : /* No clobbers */);
15124   return result;
15125 }
15126
15127 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
15128 vzip2q_u16 (uint16x8_t a, uint16x8_t b)
15129 {
15130   uint16x8_t result;
15131   __asm__ ("zip2 %0.8h,%1.8h,%2.8h"
15132            : "=w"(result)
15133            : "w"(a), "w"(b)
15134            : /* No clobbers */);
15135   return result;
15136 }
15137
15138 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
15139 vzip2q_u32 (uint32x4_t a, uint32x4_t b)
15140 {
15141   uint32x4_t result;
15142   __asm__ ("zip2 %0.4s,%1.4s,%2.4s"
15143            : "=w"(result)
15144            : "w"(a), "w"(b)
15145            : /* No clobbers */);
15146   return result;
15147 }
15148
15149 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
15150 vzip2q_u64 (uint64x2_t a, uint64x2_t b)
15151 {
15152   uint64x2_t result;
15153   __asm__ ("zip2 %0.2d,%1.2d,%2.2d"
15154            : "=w"(result)
15155            : "w"(a), "w"(b)
15156            : /* No clobbers */);
15157   return result;
15158 }
15159
15160 /* End of temporary inline asm implementations.  */
15161
15162 /* Start of temporary inline asm for vldn, vstn and friends.  */
15163
15164 /* Create struct element types for duplicating loads.
15165
15166    Create 2 element structures of:
15167
15168    +------+----+----+----+----+
15169    |      | 8  | 16 | 32 | 64 |
15170    +------+----+----+----+----+
15171    |int   | Y  | Y  | N  | N  |
15172    +------+----+----+----+----+
15173    |uint  | Y  | Y  | N  | N  |
15174    +------+----+----+----+----+
15175    |float | -  | -  | N  | N  |
15176    +------+----+----+----+----+
15177    |poly  | Y  | Y  | -  | -  |
15178    +------+----+----+----+----+
15179
15180    Create 3 element structures of:
15181
15182    +------+----+----+----+----+
15183    |      | 8  | 16 | 32 | 64 |
15184    +------+----+----+----+----+
15185    |int   | Y  | Y  | Y  | Y  |
15186    +------+----+----+----+----+
15187    |uint  | Y  | Y  | Y  | Y  |
15188    +------+----+----+----+----+
15189    |float | -  | -  | Y  | Y  |
15190    +------+----+----+----+----+
15191    |poly  | Y  | Y  | -  | -  |
15192    +------+----+----+----+----+
15193
15194    Create 4 element structures of:
15195
15196    +------+----+----+----+----+
15197    |      | 8  | 16 | 32 | 64 |
15198    +------+----+----+----+----+
15199    |int   | Y  | N  | N  | Y  |
15200    +------+----+----+----+----+
15201    |uint  | Y  | N  | N  | Y  |
15202    +------+----+----+----+----+
15203    |float | -  | -  | N  | Y  |
15204    +------+----+----+----+----+
15205    |poly  | Y  | N  | -  | -  |
15206    +------+----+----+----+----+
15207
15208   This is required for casting memory reference.  */
15209 #define __STRUCTN(t, sz, nelem)                 \
15210   typedef struct t ## sz ## x ## nelem ## _t {  \
15211     t ## sz ## _t val[nelem];                   \
15212   }  t ## sz ## x ## nelem ## _t;
15213
15214 /* 2-element structs.  */
15215 __STRUCTN (int, 8, 2)
15216 __STRUCTN (int, 16, 2)
15217 __STRUCTN (uint, 8, 2)
15218 __STRUCTN (uint, 16, 2)
15219 __STRUCTN (poly, 8, 2)
15220 __STRUCTN (poly, 16, 2)
15221 /* 3-element structs.  */
15222 __STRUCTN (int, 8, 3)
15223 __STRUCTN (int, 16, 3)
15224 __STRUCTN (int, 32, 3)
15225 __STRUCTN (int, 64, 3)
15226 __STRUCTN (uint, 8, 3)
15227 __STRUCTN (uint, 16, 3)
15228 __STRUCTN (uint, 32, 3)
15229 __STRUCTN (uint, 64, 3)
15230 __STRUCTN (float, 32, 3)
15231 __STRUCTN (float, 64, 3)
15232 __STRUCTN (poly, 8, 3)
15233 __STRUCTN (poly, 16, 3)
15234 /* 4-element structs.  */
15235 __STRUCTN (int, 8, 4)
15236 __STRUCTN (int, 64, 4)
15237 __STRUCTN (uint, 8, 4)
15238 __STRUCTN (uint, 64, 4)
15239 __STRUCTN (poly, 8, 4)
15240 __STRUCTN (float, 64, 4)
15241 #undef __STRUCTN
15242
15243 #define __LD2R_FUNC(rettype, structtype, ptrtype,                       \
15244                     regsuffix, funcsuffix, Q)                           \
15245   __extension__ static __inline rettype                                 \
15246   __attribute__ ((__always_inline__))                                   \
15247   vld2 ## Q ## _dup_ ## funcsuffix (const ptrtype *ptr)                 \
15248   {                                                                     \
15249     rettype result;                                                     \
15250     __asm__ ("ld2r {v16." #regsuffix ", v17." #regsuffix "}, %1\n\t"    \
15251              "st1 {v16." #regsuffix ", v17." #regsuffix "}, %0\n\t"     \
15252              : "=Q"(result)                                             \
15253              : "Q"(*(const structtype *)ptr)                            \
15254              : "memory", "v16", "v17");                                 \
15255     return result;                                                      \
15256   }
15257
15258 __LD2R_FUNC (float32x2x2_t, float32x2_t, float32_t, 2s, f32,)
15259 __LD2R_FUNC (float64x1x2_t, float64x2_t, float64_t, 1d, f64,)
15260 __LD2R_FUNC (poly8x8x2_t, poly8x2_t, poly8_t, 8b, p8,)
15261 __LD2R_FUNC (poly16x4x2_t, poly16x2_t, poly16_t, 4h, p16,)
15262 __LD2R_FUNC (int8x8x2_t, int8x2_t, int8_t, 8b, s8,)
15263 __LD2R_FUNC (int16x4x2_t, int16x2_t, int16_t, 4h, s16,)
15264 __LD2R_FUNC (int32x2x2_t, int32x2_t, int32_t, 2s, s32,)
15265 __LD2R_FUNC (int64x1x2_t, int64x2_t, int64_t, 1d, s64,)
15266 __LD2R_FUNC (uint8x8x2_t, uint8x2_t, uint8_t, 8b, u8,)
15267 __LD2R_FUNC (uint16x4x2_t, uint16x2_t, uint16_t, 4h, u16,)
15268 __LD2R_FUNC (uint32x2x2_t, uint32x2_t, uint32_t, 2s, u32,)
15269 __LD2R_FUNC (uint64x1x2_t, uint64x2_t, uint64_t, 1d, u64,)
15270 __LD2R_FUNC (float32x4x2_t, float32x2_t, float32_t, 4s, f32, q)
15271 __LD2R_FUNC (float64x2x2_t, float64x2_t, float64_t, 2d, f64, q)
15272 __LD2R_FUNC (poly8x16x2_t, poly8x2_t, poly8_t, 16b, p8, q)
15273 __LD2R_FUNC (poly16x8x2_t, poly16x2_t, poly16_t, 8h, p16, q)
15274 __LD2R_FUNC (int8x16x2_t, int8x2_t, int8_t, 16b, s8, q)
15275 __LD2R_FUNC (int16x8x2_t, int16x2_t, int16_t, 8h, s16, q)
15276 __LD2R_FUNC (int32x4x2_t, int32x2_t, int32_t, 4s, s32, q)
15277 __LD2R_FUNC (int64x2x2_t, int64x2_t, int64_t, 2d, s64, q)
15278 __LD2R_FUNC (uint8x16x2_t, uint8x2_t, uint8_t, 16b, u8, q)
15279 __LD2R_FUNC (uint16x8x2_t, uint16x2_t, uint16_t, 8h, u16, q)
15280 __LD2R_FUNC (uint32x4x2_t, uint32x2_t, uint32_t, 4s, u32, q)
15281 __LD2R_FUNC (uint64x2x2_t, uint64x2_t, uint64_t, 2d, u64, q)
15282
15283 #define __LD2_LANE_FUNC(rettype, ptrtype, regsuffix,                    \
15284                         lnsuffix, funcsuffix, Q)                        \
15285   __extension__ static __inline rettype                                 \
15286   __attribute__ ((__always_inline__))                                   \
15287   vld2 ## Q ## _lane_ ## funcsuffix (const ptrtype *ptr,                \
15288                                      rettype b, const int c)            \
15289   {                                                                     \
15290     rettype result;                                                     \
15291     __asm__ ("ld1 {v16." #regsuffix ", v17." #regsuffix "}, %1\n\t"     \
15292              "ld2 {v16." #lnsuffix ", v17." #lnsuffix "}[%3], %2\n\t"   \
15293              "st1 {v16." #regsuffix ", v17." #regsuffix "}, %0\n\t"     \
15294              : "=Q"(result)                                             \
15295              : "Q"(b), "Q"(*(const rettype *)ptr), "i"(c)               \
15296              : "memory", "v16", "v17");                                 \
15297     return result;                                                      \
15298   }
15299
15300 __LD2_LANE_FUNC (int8x8x2_t, uint8_t, 8b, b, s8,)
15301 __LD2_LANE_FUNC (float32x2x2_t, float32_t, 2s, s, f32,)
15302 __LD2_LANE_FUNC (float64x1x2_t, float64_t, 1d, d, f64,)
15303 __LD2_LANE_FUNC (poly8x8x2_t, poly8_t, 8b, b, p8,)
15304 __LD2_LANE_FUNC (poly16x4x2_t, poly16_t, 4h, h, p16,)
15305 __LD2_LANE_FUNC (int16x4x2_t, int16_t, 4h, h, s16,)
15306 __LD2_LANE_FUNC (int32x2x2_t, int32_t, 2s, s, s32,)
15307 __LD2_LANE_FUNC (int64x1x2_t, int64_t, 1d, d, s64,)
15308 __LD2_LANE_FUNC (uint8x8x2_t, uint8_t, 8b, b, u8,)
15309 __LD2_LANE_FUNC (uint16x4x2_t, uint16_t, 4h, h, u16,)
15310 __LD2_LANE_FUNC (uint32x2x2_t, uint32_t, 2s, s, u32,)
15311 __LD2_LANE_FUNC (uint64x1x2_t, uint64_t, 1d, d, u64,)
15312 __LD2_LANE_FUNC (float32x4x2_t, float32_t, 4s, s, f32, q)
15313 __LD2_LANE_FUNC (float64x2x2_t, float64_t, 2d, d, f64, q)
15314 __LD2_LANE_FUNC (poly8x16x2_t, poly8_t, 16b, b, p8, q)
15315 __LD2_LANE_FUNC (poly16x8x2_t, poly16_t, 8h, h, p16, q)
15316 __LD2_LANE_FUNC (int8x16x2_t, int8_t, 16b, b, s8, q)
15317 __LD2_LANE_FUNC (int16x8x2_t, int16_t, 8h, h, s16, q)
15318 __LD2_LANE_FUNC (int32x4x2_t, int32_t, 4s, s, s32, q)
15319 __LD2_LANE_FUNC (int64x2x2_t, int64_t, 2d, d, s64, q)
15320 __LD2_LANE_FUNC (uint8x16x2_t, uint8_t, 16b, b, u8, q)
15321 __LD2_LANE_FUNC (uint16x8x2_t, uint16_t, 8h, h, u16, q)
15322 __LD2_LANE_FUNC (uint32x4x2_t, uint32_t, 4s, s, u32, q)
15323 __LD2_LANE_FUNC (uint64x2x2_t, uint64_t, 2d, d, u64, q)
15324
15325 #define __LD3R_FUNC(rettype, structtype, ptrtype,                       \
15326                     regsuffix, funcsuffix, Q)                           \
15327   __extension__ static __inline rettype                                 \
15328   __attribute__ ((__always_inline__))                                   \
15329   vld3 ## Q ## _dup_ ## funcsuffix (const ptrtype *ptr)                 \
15330   {                                                                     \
15331     rettype result;                                                     \
15332     __asm__ ("ld3r {v16." #regsuffix " - v18." #regsuffix "}, %1\n\t"   \
15333              "st1 {v16." #regsuffix " - v18." #regsuffix "}, %0\n\t"    \
15334              : "=Q"(result)                                             \
15335              : "Q"(*(const structtype *)ptr)                            \
15336              : "memory", "v16", "v17", "v18");                          \
15337     return result;                                                      \
15338   }
15339
15340 __LD3R_FUNC (float32x2x3_t, float32x3_t, float32_t, 2s, f32,)
15341 __LD3R_FUNC (float64x1x3_t, float64x3_t, float64_t, 1d, f64,)
15342 __LD3R_FUNC (poly8x8x3_t, poly8x3_t, poly8_t, 8b, p8,)
15343 __LD3R_FUNC (poly16x4x3_t, poly16x3_t, poly16_t, 4h, p16,)
15344 __LD3R_FUNC (int8x8x3_t, int8x3_t, int8_t, 8b, s8,)
15345 __LD3R_FUNC (int16x4x3_t, int16x3_t, int16_t, 4h, s16,)
15346 __LD3R_FUNC (int32x2x3_t, int32x3_t, int32_t, 2s, s32,)
15347 __LD3R_FUNC (int64x1x3_t, int64x3_t, int64_t, 1d, s64,)
15348 __LD3R_FUNC (uint8x8x3_t, uint8x3_t, uint8_t, 8b, u8,)
15349 __LD3R_FUNC (uint16x4x3_t, uint16x3_t, uint16_t, 4h, u16,)
15350 __LD3R_FUNC (uint32x2x3_t, uint32x3_t, uint32_t, 2s, u32,)
15351 __LD3R_FUNC (uint64x1x3_t, uint64x3_t, uint64_t, 1d, u64,)
15352 __LD3R_FUNC (float32x4x3_t, float32x3_t, float32_t, 4s, f32, q)
15353 __LD3R_FUNC (float64x2x3_t, float64x3_t, float64_t, 2d, f64, q)
15354 __LD3R_FUNC (poly8x16x3_t, poly8x3_t, poly8_t, 16b, p8, q)
15355 __LD3R_FUNC (poly16x8x3_t, poly16x3_t, poly16_t, 8h, p16, q)
15356 __LD3R_FUNC (int8x16x3_t, int8x3_t, int8_t, 16b, s8, q)
15357 __LD3R_FUNC (int16x8x3_t, int16x3_t, int16_t, 8h, s16, q)
15358 __LD3R_FUNC (int32x4x3_t, int32x3_t, int32_t, 4s, s32, q)
15359 __LD3R_FUNC (int64x2x3_t, int64x3_t, int64_t, 2d, s64, q)
15360 __LD3R_FUNC (uint8x16x3_t, uint8x3_t, uint8_t, 16b, u8, q)
15361 __LD3R_FUNC (uint16x8x3_t, uint16x3_t, uint16_t, 8h, u16, q)
15362 __LD3R_FUNC (uint32x4x3_t, uint32x3_t, uint32_t, 4s, u32, q)
15363 __LD3R_FUNC (uint64x2x3_t, uint64x3_t, uint64_t, 2d, u64, q)
15364
15365 #define __LD3_LANE_FUNC(rettype, ptrtype, regsuffix,                    \
15366                         lnsuffix, funcsuffix, Q)                        \
15367   __extension__ static __inline rettype                                 \
15368   __attribute__ ((__always_inline__))                                   \
15369   vld3 ## Q ## _lane_ ## funcsuffix (const ptrtype *ptr,                \
15370                                      rettype b, const int c)            \
15371   {                                                                     \
15372     rettype result;                                                     \
15373     __asm__ ("ld1 {v16." #regsuffix " - v18." #regsuffix "}, %1\n\t"    \
15374              "ld3 {v16." #lnsuffix " - v18." #lnsuffix "}[%3], %2\n\t"  \
15375              "st1 {v16." #regsuffix " - v18." #regsuffix "}, %0\n\t"    \
15376              : "=Q"(result)                                             \
15377              : "Q"(b), "Q"(*(const rettype *)ptr), "i"(c)               \
15378              : "memory", "v16", "v17", "v18");                          \
15379     return result;                                                      \
15380   }
15381
15382 __LD3_LANE_FUNC (int8x8x3_t, uint8_t, 8b, b, s8,)
15383 __LD3_LANE_FUNC (float32x2x3_t, float32_t, 2s, s, f32,)
15384 __LD3_LANE_FUNC (float64x1x3_t, float64_t, 1d, d, f64,)
15385 __LD3_LANE_FUNC (poly8x8x3_t, poly8_t, 8b, b, p8,)
15386 __LD3_LANE_FUNC (poly16x4x3_t, poly16_t, 4h, h, p16,)
15387 __LD3_LANE_FUNC (int16x4x3_t, int16_t, 4h, h, s16,)
15388 __LD3_LANE_FUNC (int32x2x3_t, int32_t, 2s, s, s32,)
15389 __LD3_LANE_FUNC (int64x1x3_t, int64_t, 1d, d, s64,)
15390 __LD3_LANE_FUNC (uint8x8x3_t, uint8_t, 8b, b, u8,)
15391 __LD3_LANE_FUNC (uint16x4x3_t, uint16_t, 4h, h, u16,)
15392 __LD3_LANE_FUNC (uint32x2x3_t, uint32_t, 2s, s, u32,)
15393 __LD3_LANE_FUNC (uint64x1x3_t, uint64_t, 1d, d, u64,)
15394 __LD3_LANE_FUNC (float32x4x3_t, float32_t, 4s, s, f32, q)
15395 __LD3_LANE_FUNC (float64x2x3_t, float64_t, 2d, d, f64, q)
15396 __LD3_LANE_FUNC (poly8x16x3_t, poly8_t, 16b, b, p8, q)
15397 __LD3_LANE_FUNC (poly16x8x3_t, poly16_t, 8h, h, p16, q)
15398 __LD3_LANE_FUNC (int8x16x3_t, int8_t, 16b, b, s8, q)
15399 __LD3_LANE_FUNC (int16x8x3_t, int16_t, 8h, h, s16, q)
15400 __LD3_LANE_FUNC (int32x4x3_t, int32_t, 4s, s, s32, q)
15401 __LD3_LANE_FUNC (int64x2x3_t, int64_t, 2d, d, s64, q)
15402 __LD3_LANE_FUNC (uint8x16x3_t, uint8_t, 16b, b, u8, q)
15403 __LD3_LANE_FUNC (uint16x8x3_t, uint16_t, 8h, h, u16, q)
15404 __LD3_LANE_FUNC (uint32x4x3_t, uint32_t, 4s, s, u32, q)
15405 __LD3_LANE_FUNC (uint64x2x3_t, uint64_t, 2d, d, u64, q)
15406
15407 #define __LD4R_FUNC(rettype, structtype, ptrtype,                       \
15408                     regsuffix, funcsuffix, Q)                           \
15409   __extension__ static __inline rettype                                 \
15410   __attribute__ ((__always_inline__))                                   \
15411   vld4 ## Q ## _dup_ ## funcsuffix (const ptrtype *ptr)                 \
15412   {                                                                     \
15413     rettype result;                                                     \
15414     __asm__ ("ld4r {v16." #regsuffix " - v19." #regsuffix "}, %1\n\t"   \
15415              "st1 {v16." #regsuffix " - v19." #regsuffix "}, %0\n\t"    \
15416              : "=Q"(result)                                             \
15417              : "Q"(*(const structtype *)ptr)                            \
15418              : "memory", "v16", "v17", "v18", "v19");                   \
15419     return result;                                                      \
15420   }
15421
15422 __LD4R_FUNC (float32x2x4_t, float32x4_t, float32_t, 2s, f32,)
15423 __LD4R_FUNC (float64x1x4_t, float64x4_t, float64_t, 1d, f64,)
15424 __LD4R_FUNC (poly8x8x4_t, poly8x4_t, poly8_t, 8b, p8,)
15425 __LD4R_FUNC (poly16x4x4_t, poly16x4_t, poly16_t, 4h, p16,)
15426 __LD4R_FUNC (int8x8x4_t, int8x4_t, int8_t, 8b, s8,)
15427 __LD4R_FUNC (int16x4x4_t, int16x4_t, int16_t, 4h, s16,)
15428 __LD4R_FUNC (int32x2x4_t, int32x4_t, int32_t, 2s, s32,)
15429 __LD4R_FUNC (int64x1x4_t, int64x4_t, int64_t, 1d, s64,)
15430 __LD4R_FUNC (uint8x8x4_t, uint8x4_t, uint8_t, 8b, u8,)
15431 __LD4R_FUNC (uint16x4x4_t, uint16x4_t, uint16_t, 4h, u16,)
15432 __LD4R_FUNC (uint32x2x4_t, uint32x4_t, uint32_t, 2s, u32,)
15433 __LD4R_FUNC (uint64x1x4_t, uint64x4_t, uint64_t, 1d, u64,)
15434 __LD4R_FUNC (float32x4x4_t, float32x4_t, float32_t, 4s, f32, q)
15435 __LD4R_FUNC (float64x2x4_t, float64x4_t, float64_t, 2d, f64, q)
15436 __LD4R_FUNC (poly8x16x4_t, poly8x4_t, poly8_t, 16b, p8, q)
15437 __LD4R_FUNC (poly16x8x4_t, poly16x4_t, poly16_t, 8h, p16, q)
15438 __LD4R_FUNC (int8x16x4_t, int8x4_t, int8_t, 16b, s8, q)
15439 __LD4R_FUNC (int16x8x4_t, int16x4_t, int16_t, 8h, s16, q)
15440 __LD4R_FUNC (int32x4x4_t, int32x4_t, int32_t, 4s, s32, q)
15441 __LD4R_FUNC (int64x2x4_t, int64x4_t, int64_t, 2d, s64, q)
15442 __LD4R_FUNC (uint8x16x4_t, uint8x4_t, uint8_t, 16b, u8, q)
15443 __LD4R_FUNC (uint16x8x4_t, uint16x4_t, uint16_t, 8h, u16, q)
15444 __LD4R_FUNC (uint32x4x4_t, uint32x4_t, uint32_t, 4s, u32, q)
15445 __LD4R_FUNC (uint64x2x4_t, uint64x4_t, uint64_t, 2d, u64, q)
15446
15447 #define __LD4_LANE_FUNC(rettype, ptrtype, regsuffix,                    \
15448                         lnsuffix, funcsuffix, Q)                        \
15449   __extension__ static __inline rettype                                 \
15450   __attribute__ ((__always_inline__))                                   \
15451   vld4 ## Q ## _lane_ ## funcsuffix (const ptrtype *ptr,                \
15452                                      rettype b, const int c)            \
15453   {                                                                     \
15454     rettype result;                                                     \
15455     __asm__ ("ld1 {v16." #regsuffix " - v19." #regsuffix "}, %1\n\t"    \
15456              "ld4 {v16." #lnsuffix " - v19." #lnsuffix "}[%3], %2\n\t"  \
15457              "st1 {v16." #regsuffix " - v19." #regsuffix "}, %0\n\t"    \
15458              : "=Q"(result)                                             \
15459              : "Q"(b), "Q"(*(const rettype *)ptr), "i"(c)               \
15460              : "memory", "v16", "v17", "v18", "v19");                   \
15461     return result;                                                      \
15462   }
15463
15464 __LD4_LANE_FUNC (int8x8x4_t, uint8_t, 8b, b, s8,)
15465 __LD4_LANE_FUNC (float32x2x4_t, float32_t, 2s, s, f32,)
15466 __LD4_LANE_FUNC (float64x1x4_t, float64_t, 1d, d, f64,)
15467 __LD4_LANE_FUNC (poly8x8x4_t, poly8_t, 8b, b, p8,)
15468 __LD4_LANE_FUNC (poly16x4x4_t, poly16_t, 4h, h, p16,)
15469 __LD4_LANE_FUNC (int16x4x4_t, int16_t, 4h, h, s16,)
15470 __LD4_LANE_FUNC (int32x2x4_t, int32_t, 2s, s, s32,)
15471 __LD4_LANE_FUNC (int64x1x4_t, int64_t, 1d, d, s64,)
15472 __LD4_LANE_FUNC (uint8x8x4_t, uint8_t, 8b, b, u8,)
15473 __LD4_LANE_FUNC (uint16x4x4_t, uint16_t, 4h, h, u16,)
15474 __LD4_LANE_FUNC (uint32x2x4_t, uint32_t, 2s, s, u32,)
15475 __LD4_LANE_FUNC (uint64x1x4_t, uint64_t, 1d, d, u64,)
15476 __LD4_LANE_FUNC (float32x4x4_t, float32_t, 4s, s, f32, q)
15477 __LD4_LANE_FUNC (float64x2x4_t, float64_t, 2d, d, f64, q)
15478 __LD4_LANE_FUNC (poly8x16x4_t, poly8_t, 16b, b, p8, q)
15479 __LD4_LANE_FUNC (poly16x8x4_t, poly16_t, 8h, h, p16, q)
15480 __LD4_LANE_FUNC (int8x16x4_t, int8_t, 16b, b, s8, q)
15481 __LD4_LANE_FUNC (int16x8x4_t, int16_t, 8h, h, s16, q)
15482 __LD4_LANE_FUNC (int32x4x4_t, int32_t, 4s, s, s32, q)
15483 __LD4_LANE_FUNC (int64x2x4_t, int64_t, 2d, d, s64, q)
15484 __LD4_LANE_FUNC (uint8x16x4_t, uint8_t, 16b, b, u8, q)
15485 __LD4_LANE_FUNC (uint16x8x4_t, uint16_t, 8h, h, u16, q)
15486 __LD4_LANE_FUNC (uint32x4x4_t, uint32_t, 4s, s, u32, q)
15487 __LD4_LANE_FUNC (uint64x2x4_t, uint64_t, 2d, d, u64, q)
15488
15489 #define __ST2_LANE_FUNC(intype, ptrtype, regsuffix,                     \
15490                         lnsuffix, funcsuffix, Q)                        \
15491   __extension__ static __inline void                                    \
15492   __attribute__ ((__always_inline__))                                   \
15493   vst2 ## Q ## _lane_ ## funcsuffix (const ptrtype *ptr,                \
15494                                      intype b, const int c)             \
15495   {                                                                     \
15496     __asm__ ("ld1 {v16." #regsuffix ", v17." #regsuffix "}, %1\n\t"     \
15497              "st2 {v16." #lnsuffix ", v17." #lnsuffix "}[%2], %0\n\t"   \
15498              : "=Q"(*(intype *) ptr)                                    \
15499              : "Q"(b), "i"(c)                                           \
15500              : "memory", "v16", "v17");                                 \
15501   }
15502
15503 __ST2_LANE_FUNC (int8x8x2_t, int8_t, 8b, b, s8,)
15504 __ST2_LANE_FUNC (float32x2x2_t, float32_t, 2s, s, f32,)
15505 __ST2_LANE_FUNC (float64x1x2_t, float64_t, 1d, d, f64,)
15506 __ST2_LANE_FUNC (poly8x8x2_t, poly8_t, 8b, b, p8,)
15507 __ST2_LANE_FUNC (poly16x4x2_t, poly16_t, 4h, h, p16,)
15508 __ST2_LANE_FUNC (int16x4x2_t, int16_t, 4h, h, s16,)
15509 __ST2_LANE_FUNC (int32x2x2_t, int32_t, 2s, s, s32,)
15510 __ST2_LANE_FUNC (int64x1x2_t, int64_t, 1d, d, s64,)
15511 __ST2_LANE_FUNC (uint8x8x2_t, uint8_t, 8b, b, u8,)
15512 __ST2_LANE_FUNC (uint16x4x2_t, uint16_t, 4h, h, u16,)
15513 __ST2_LANE_FUNC (uint32x2x2_t, uint32_t, 2s, s, u32,)
15514 __ST2_LANE_FUNC (uint64x1x2_t, uint64_t, 1d, d, u64,)
15515 __ST2_LANE_FUNC (float32x4x2_t, float32_t, 4s, s, f32, q)
15516 __ST2_LANE_FUNC (float64x2x2_t, float64_t, 2d, d, f64, q)
15517 __ST2_LANE_FUNC (poly8x16x2_t, poly8_t, 16b, b, p8, q)
15518 __ST2_LANE_FUNC (poly16x8x2_t, poly16_t, 8h, h, p16, q)
15519 __ST2_LANE_FUNC (int8x16x2_t, int8_t, 16b, b, s8, q)
15520 __ST2_LANE_FUNC (int16x8x2_t, int16_t, 8h, h, s16, q)
15521 __ST2_LANE_FUNC (int32x4x2_t, int32_t, 4s, s, s32, q)
15522 __ST2_LANE_FUNC (int64x2x2_t, int64_t, 2d, d, s64, q)
15523 __ST2_LANE_FUNC (uint8x16x2_t, uint8_t, 16b, b, u8, q)
15524 __ST2_LANE_FUNC (uint16x8x2_t, uint16_t, 8h, h, u16, q)
15525 __ST2_LANE_FUNC (uint32x4x2_t, uint32_t, 4s, s, u32, q)
15526 __ST2_LANE_FUNC (uint64x2x2_t, uint64_t, 2d, d, u64, q)
15527
15528 #define __ST3_LANE_FUNC(intype, ptrtype, regsuffix,                     \
15529                         lnsuffix, funcsuffix, Q)                        \
15530   __extension__ static __inline void                                    \
15531   __attribute__ ((__always_inline__))                                   \
15532   vst3 ## Q ## _lane_ ## funcsuffix (const ptrtype *ptr,                \
15533                                      intype b, const int c)             \
15534   {                                                                     \
15535     __asm__ ("ld1 {v16." #regsuffix " - v18." #regsuffix "}, %1\n\t"    \
15536              "st3 {v16." #lnsuffix " - v18." #lnsuffix "}[%2], %0\n\t"  \
15537              : "=Q"(*(intype *) ptr)                                    \
15538              : "Q"(b), "i"(c)                                           \
15539              : "memory", "v16", "v17", "v18");                          \
15540   }
15541
15542 __ST3_LANE_FUNC (int8x8x3_t, int8_t, 8b, b, s8,)
15543 __ST3_LANE_FUNC (float32x2x3_t, float32_t, 2s, s, f32,)
15544 __ST3_LANE_FUNC (float64x1x3_t, float64_t, 1d, d, f64,)
15545 __ST3_LANE_FUNC (poly8x8x3_t, poly8_t, 8b, b, p8,)
15546 __ST3_LANE_FUNC (poly16x4x3_t, poly16_t, 4h, h, p16,)
15547 __ST3_LANE_FUNC (int16x4x3_t, int16_t, 4h, h, s16,)
15548 __ST3_LANE_FUNC (int32x2x3_t, int32_t, 2s, s, s32,)
15549 __ST3_LANE_FUNC (int64x1x3_t, int64_t, 1d, d, s64,)
15550 __ST3_LANE_FUNC (uint8x8x3_t, uint8_t, 8b, b, u8,)
15551 __ST3_LANE_FUNC (uint16x4x3_t, uint16_t, 4h, h, u16,)
15552 __ST3_LANE_FUNC (uint32x2x3_t, uint32_t, 2s, s, u32,)
15553 __ST3_LANE_FUNC (uint64x1x3_t, uint64_t, 1d, d, u64,)
15554 __ST3_LANE_FUNC (float32x4x3_t, float32_t, 4s, s, f32, q)
15555 __ST3_LANE_FUNC (float64x2x3_t, float64_t, 2d, d, f64, q)
15556 __ST3_LANE_FUNC (poly8x16x3_t, poly8_t, 16b, b, p8, q)
15557 __ST3_LANE_FUNC (poly16x8x3_t, poly16_t, 8h, h, p16, q)
15558 __ST3_LANE_FUNC (int8x16x3_t, int8_t, 16b, b, s8, q)
15559 __ST3_LANE_FUNC (int16x8x3_t, int16_t, 8h, h, s16, q)
15560 __ST3_LANE_FUNC (int32x4x3_t, int32_t, 4s, s, s32, q)
15561 __ST3_LANE_FUNC (int64x2x3_t, int64_t, 2d, d, s64, q)
15562 __ST3_LANE_FUNC (uint8x16x3_t, uint8_t, 16b, b, u8, q)
15563 __ST3_LANE_FUNC (uint16x8x3_t, uint16_t, 8h, h, u16, q)
15564 __ST3_LANE_FUNC (uint32x4x3_t, uint32_t, 4s, s, u32, q)
15565 __ST3_LANE_FUNC (uint64x2x3_t, uint64_t, 2d, d, u64, q)
15566
15567 #define __ST4_LANE_FUNC(intype, ptrtype, regsuffix,                     \
15568                         lnsuffix, funcsuffix, Q)                        \
15569   __extension__ static __inline void                                    \
15570   __attribute__ ((__always_inline__))                                   \
15571   vst4 ## Q ## _lane_ ## funcsuffix (const ptrtype *ptr,                \
15572                                      intype b, const int c)             \
15573   {                                                                     \
15574     __asm__ ("ld1 {v16." #regsuffix " - v19." #regsuffix "}, %1\n\t"    \
15575              "st4 {v16." #lnsuffix " - v19." #lnsuffix "}[%2], %0\n\t"  \
15576              : "=Q"(*(intype *) ptr)                                    \
15577              : "Q"(b), "i"(c)                                           \
15578              : "memory", "v16", "v17", "v18", "v19");                   \
15579   }
15580
15581 __ST4_LANE_FUNC (int8x8x4_t, int8_t, 8b, b, s8,)
15582 __ST4_LANE_FUNC (float32x2x4_t, float32_t, 2s, s, f32,)
15583 __ST4_LANE_FUNC (float64x1x4_t, float64_t, 1d, d, f64,)
15584 __ST4_LANE_FUNC (poly8x8x4_t, poly8_t, 8b, b, p8,)
15585 __ST4_LANE_FUNC (poly16x4x4_t, poly16_t, 4h, h, p16,)
15586 __ST4_LANE_FUNC (int16x4x4_t, int16_t, 4h, h, s16,)
15587 __ST4_LANE_FUNC (int32x2x4_t, int32_t, 2s, s, s32,)
15588 __ST4_LANE_FUNC (int64x1x4_t, int64_t, 1d, d, s64,)
15589 __ST4_LANE_FUNC (uint8x8x4_t, uint8_t, 8b, b, u8,)
15590 __ST4_LANE_FUNC (uint16x4x4_t, uint16_t, 4h, h, u16,)
15591 __ST4_LANE_FUNC (uint32x2x4_t, uint32_t, 2s, s, u32,)
15592 __ST4_LANE_FUNC (uint64x1x4_t, uint64_t, 1d, d, u64,)
15593 __ST4_LANE_FUNC (float32x4x4_t, float32_t, 4s, s, f32, q)
15594 __ST4_LANE_FUNC (float64x2x4_t, float64_t, 2d, d, f64, q)
15595 __ST4_LANE_FUNC (poly8x16x4_t, poly8_t, 16b, b, p8, q)
15596 __ST4_LANE_FUNC (poly16x8x4_t, poly16_t, 8h, h, p16, q)
15597 __ST4_LANE_FUNC (int8x16x4_t, int8_t, 16b, b, s8, q)
15598 __ST4_LANE_FUNC (int16x8x4_t, int16_t, 8h, h, s16, q)
15599 __ST4_LANE_FUNC (int32x4x4_t, int32_t, 4s, s, s32, q)
15600 __ST4_LANE_FUNC (int64x2x4_t, int64_t, 2d, d, s64, q)
15601 __ST4_LANE_FUNC (uint8x16x4_t, uint8_t, 16b, b, u8, q)
15602 __ST4_LANE_FUNC (uint16x8x4_t, uint16_t, 8h, h, u16, q)
15603 __ST4_LANE_FUNC (uint32x4x4_t, uint32_t, 4s, s, u32, q)
15604 __ST4_LANE_FUNC (uint64x2x4_t, uint64_t, 2d, d, u64, q)
15605
15606 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
15607 vaddlv_s32 (int32x2_t a)
15608 {
15609   int64_t result;
15610   __asm__ ("saddlp %0.1d, %1.2s" : "=w"(result) : "w"(a) : );
15611   return result;
15612 }
15613
15614 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
15615 vaddlv_u32 (uint32x2_t a)
15616 {
15617   uint64_t result;
15618   __asm__ ("uaddlp %0.1d, %1.2s" : "=w"(result) : "w"(a) : );
15619   return result;
15620 }
15621
15622 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
15623 vpaddd_s64 (int64x2_t __a)
15624 {
15625   return __builtin_aarch64_addpdi (__a);
15626 }
15627
15628 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
15629 vqdmulh_laneq_s16 (int16x4_t __a, int16x8_t __b, const int __c)
15630 {
15631   return __builtin_aarch64_sqdmulh_laneqv4hi (__a, __b, __c);
15632 }
15633
15634 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
15635 vqdmulh_laneq_s32 (int32x2_t __a, int32x4_t __b, const int __c)
15636 {
15637   return __builtin_aarch64_sqdmulh_laneqv2si (__a, __b, __c);
15638 }
15639
15640 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
15641 vqdmulhq_laneq_s16 (int16x8_t __a, int16x8_t __b, const int __c)
15642 {
15643   return __builtin_aarch64_sqdmulh_laneqv8hi (__a, __b, __c);
15644 }
15645
15646 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
15647 vqdmulhq_laneq_s32 (int32x4_t __a, int32x4_t __b, const int __c)
15648 {
15649   return __builtin_aarch64_sqdmulh_laneqv4si (__a, __b, __c);
15650 }
15651
15652 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
15653 vqrdmulh_laneq_s16 (int16x4_t __a, int16x8_t __b, const int __c)
15654 {
15655   return  __builtin_aarch64_sqrdmulh_laneqv4hi (__a, __b, __c);
15656 }
15657
15658 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
15659 vqrdmulh_laneq_s32 (int32x2_t __a, int32x4_t __b, const int __c)
15660 {
15661   return __builtin_aarch64_sqrdmulh_laneqv2si (__a, __b, __c);
15662 }
15663
15664 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
15665 vqrdmulhq_laneq_s16 (int16x8_t __a, int16x8_t __b, const int __c)
15666 {
15667   return __builtin_aarch64_sqrdmulh_laneqv8hi (__a, __b, __c);
15668 }
15669
15670 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
15671 vqrdmulhq_laneq_s32 (int32x4_t __a, int32x4_t __b, const int __c)
15672 {
15673   return __builtin_aarch64_sqrdmulh_laneqv4si (__a, __b, __c);
15674 }
15675
15676 /* Table intrinsics.  */
15677
15678 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
15679 vqtbl1_p8 (poly8x16_t a, uint8x8_t b)
15680 {
15681   poly8x8_t result;
15682   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
15683            : "=w"(result)
15684            : "w"(a), "w"(b)
15685            : /* No clobbers */);
15686   return result;
15687 }
15688
15689 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
15690 vqtbl1_s8 (int8x16_t a, uint8x8_t b)
15691 {
15692   int8x8_t result;
15693   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
15694            : "=w"(result)
15695            : "w"(a), "w"(b)
15696            : /* No clobbers */);
15697   return result;
15698 }
15699
15700 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
15701 vqtbl1_u8 (uint8x16_t a, uint8x8_t b)
15702 {
15703   uint8x8_t result;
15704   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
15705            : "=w"(result)
15706            : "w"(a), "w"(b)
15707            : /* No clobbers */);
15708   return result;
15709 }
15710
15711 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
15712 vqtbl1q_p8 (poly8x16_t a, uint8x16_t b)
15713 {
15714   poly8x16_t result;
15715   __asm__ ("tbl %0.16b, {%1.16b}, %2.16b"
15716            : "=w"(result)
15717            : "w"(a), "w"(b)
15718            : /* No clobbers */);
15719   return result;
15720 }
15721
15722 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
15723 vqtbl1q_s8 (int8x16_t a, uint8x16_t b)
15724 {
15725   int8x16_t result;
15726   __asm__ ("tbl %0.16b, {%1.16b}, %2.16b"
15727            : "=w"(result)
15728            : "w"(a), "w"(b)
15729            : /* No clobbers */);
15730   return result;
15731 }
15732
15733 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
15734 vqtbl1q_u8 (uint8x16_t a, uint8x16_t b)
15735 {
15736   uint8x16_t result;
15737   __asm__ ("tbl %0.16b, {%1.16b}, %2.16b"
15738            : "=w"(result)
15739            : "w"(a), "w"(b)
15740            : /* No clobbers */);
15741   return result;
15742 }
15743
15744 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
15745 vqtbl2_s8 (int8x16x2_t tab, uint8x8_t idx)
15746 {
15747   int8x8_t result;
15748   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
15749            "tbl %0.8b, {v16.16b, v17.16b}, %2.8b\n\t"
15750            :"=w"(result)
15751            :"Q"(tab),"w"(idx)
15752            :"memory", "v16", "v17");
15753   return result;
15754 }
15755
15756 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
15757 vqtbl2_u8 (uint8x16x2_t tab, uint8x8_t idx)
15758 {
15759   uint8x8_t result;
15760   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
15761            "tbl %0.8b, {v16.16b, v17.16b}, %2.8b\n\t"
15762            :"=w"(result)
15763            :"Q"(tab),"w"(idx)
15764            :"memory", "v16", "v17");
15765   return result;
15766 }
15767
15768 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
15769 vqtbl2_p8 (poly8x16x2_t tab, uint8x8_t idx)
15770 {
15771   poly8x8_t result;
15772   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
15773            "tbl %0.8b, {v16.16b, v17.16b}, %2.8b\n\t"
15774            :"=w"(result)
15775            :"Q"(tab),"w"(idx)
15776            :"memory", "v16", "v17");
15777   return result;
15778 }
15779
15780 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
15781 vqtbl2q_s8 (int8x16x2_t tab, uint8x16_t idx)
15782 {
15783   int8x16_t result;
15784   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
15785            "tbl %0.16b, {v16.16b, v17.16b}, %2.16b\n\t"
15786            :"=w"(result)
15787            :"Q"(tab),"w"(idx)
15788            :"memory", "v16", "v17");
15789   return result;
15790 }
15791
15792 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
15793 vqtbl2q_u8 (uint8x16x2_t tab, uint8x16_t idx)
15794 {
15795   uint8x16_t result;
15796   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
15797            "tbl %0.16b, {v16.16b, v17.16b}, %2.16b\n\t"
15798            :"=w"(result)
15799            :"Q"(tab),"w"(idx)
15800            :"memory", "v16", "v17");
15801   return result;
15802 }
15803
15804 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
15805 vqtbl2q_p8 (poly8x16x2_t tab, uint8x16_t idx)
15806 {
15807   poly8x16_t result;
15808   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
15809            "tbl %0.16b, {v16.16b, v17.16b}, %2.16b\n\t"
15810            :"=w"(result)
15811            :"Q"(tab),"w"(idx)
15812            :"memory", "v16", "v17");
15813   return result;
15814 }
15815
15816 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
15817 vqtbl3_s8 (int8x16x3_t tab, uint8x8_t idx)
15818 {
15819   int8x8_t result;
15820   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
15821            "tbl %0.8b, {v16.16b - v18.16b}, %2.8b\n\t"
15822            :"=w"(result)
15823            :"Q"(tab),"w"(idx)
15824            :"memory", "v16", "v17", "v18");
15825   return result;
15826 }
15827
15828 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
15829 vqtbl3_u8 (uint8x16x3_t tab, uint8x8_t idx)
15830 {
15831   uint8x8_t result;
15832   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
15833            "tbl %0.8b, {v16.16b - v18.16b}, %2.8b\n\t"
15834            :"=w"(result)
15835            :"Q"(tab),"w"(idx)
15836            :"memory", "v16", "v17", "v18");
15837   return result;
15838 }
15839
15840 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
15841 vqtbl3_p8 (poly8x16x3_t tab, uint8x8_t idx)
15842 {
15843   poly8x8_t result;
15844   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
15845            "tbl %0.8b, {v16.16b - v18.16b}, %2.8b\n\t"
15846            :"=w"(result)
15847            :"Q"(tab),"w"(idx)
15848            :"memory", "v16", "v17", "v18");
15849   return result;
15850 }
15851
15852 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
15853 vqtbl3q_s8 (int8x16x3_t tab, uint8x16_t idx)
15854 {
15855   int8x16_t result;
15856   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
15857            "tbl %0.16b, {v16.16b - v18.16b}, %2.16b\n\t"
15858            :"=w"(result)
15859            :"Q"(tab),"w"(idx)
15860            :"memory", "v16", "v17", "v18");
15861   return result;
15862 }
15863
15864 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
15865 vqtbl3q_u8 (uint8x16x3_t tab, uint8x16_t idx)
15866 {
15867   uint8x16_t result;
15868   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
15869            "tbl %0.16b, {v16.16b - v18.16b}, %2.16b\n\t"
15870            :"=w"(result)
15871            :"Q"(tab),"w"(idx)
15872            :"memory", "v16", "v17", "v18");
15873   return result;
15874 }
15875
15876 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
15877 vqtbl3q_p8 (poly8x16x3_t tab, uint8x16_t idx)
15878 {
15879   poly8x16_t result;
15880   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
15881            "tbl %0.16b, {v16.16b - v18.16b}, %2.16b\n\t"
15882            :"=w"(result)
15883            :"Q"(tab),"w"(idx)
15884            :"memory", "v16", "v17", "v18");
15885   return result;
15886 }
15887
15888 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
15889 vqtbl4_s8 (int8x16x4_t tab, uint8x8_t idx)
15890 {
15891   int8x8_t result;
15892   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
15893            "tbl %0.8b, {v16.16b - v19.16b}, %2.8b\n\t"
15894            :"=w"(result)
15895            :"Q"(tab),"w"(idx)
15896            :"memory", "v16", "v17", "v18", "v19");
15897   return result;
15898 }
15899
15900 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
15901 vqtbl4_u8 (uint8x16x4_t tab, uint8x8_t idx)
15902 {
15903   uint8x8_t result;
15904   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
15905            "tbl %0.8b, {v16.16b - v19.16b}, %2.8b\n\t"
15906            :"=w"(result)
15907            :"Q"(tab),"w"(idx)
15908            :"memory", "v16", "v17", "v18", "v19");
15909   return result;
15910 }
15911
15912 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
15913 vqtbl4_p8 (poly8x16x4_t tab, uint8x8_t idx)
15914 {
15915   poly8x8_t result;
15916   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
15917            "tbl %0.8b, {v16.16b - v19.16b}, %2.8b\n\t"
15918            :"=w"(result)
15919            :"Q"(tab),"w"(idx)
15920            :"memory", "v16", "v17", "v18", "v19");
15921   return result;
15922 }
15923
15924
15925 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
15926 vqtbl4q_s8 (int8x16x4_t tab, uint8x16_t idx)
15927 {
15928   int8x16_t result;
15929   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
15930            "tbl %0.16b, {v16.16b - v19.16b}, %2.16b\n\t"
15931            :"=w"(result)
15932            :"Q"(tab),"w"(idx)
15933            :"memory", "v16", "v17", "v18", "v19");
15934   return result;
15935 }
15936
15937 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
15938 vqtbl4q_u8 (uint8x16x4_t tab, uint8x16_t idx)
15939 {
15940   uint8x16_t result;
15941   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
15942            "tbl %0.16b, {v16.16b - v19.16b}, %2.16b\n\t"
15943            :"=w"(result)
15944            :"Q"(tab),"w"(idx)
15945            :"memory", "v16", "v17", "v18", "v19");
15946   return result;
15947 }
15948
15949 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
15950 vqtbl4q_p8 (poly8x16x4_t tab, uint8x16_t idx)
15951 {
15952   poly8x16_t result;
15953   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
15954            "tbl %0.16b, {v16.16b - v19.16b}, %2.16b\n\t"
15955            :"=w"(result)
15956            :"Q"(tab),"w"(idx)
15957            :"memory", "v16", "v17", "v18", "v19");
15958   return result;
15959 }
15960
15961
15962 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
15963 vqtbx1_s8 (int8x8_t r, int8x16_t tab, uint8x8_t idx)
15964 {
15965   int8x8_t result = r;
15966   __asm__ ("tbx %0.8b,{%1.16b},%2.8b"
15967            : "+w"(result)
15968            : "w"(tab), "w"(idx)
15969            : /* No clobbers */);
15970   return result;
15971 }
15972
15973 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
15974 vqtbx1_u8 (uint8x8_t r, uint8x16_t tab, uint8x8_t idx)
15975 {
15976   uint8x8_t result = r;
15977   __asm__ ("tbx %0.8b,{%1.16b},%2.8b"
15978            : "+w"(result)
15979            : "w"(tab), "w"(idx)
15980            : /* No clobbers */);
15981   return result;
15982 }
15983
15984 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
15985 vqtbx1_p8 (poly8x8_t r, poly8x16_t tab, uint8x8_t idx)
15986 {
15987   poly8x8_t result = r;
15988   __asm__ ("tbx %0.8b,{%1.16b},%2.8b"
15989            : "+w"(result)
15990            : "w"(tab), "w"(idx)
15991            : /* No clobbers */);
15992   return result;
15993 }
15994
15995 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
15996 vqtbx1q_s8 (int8x16_t r, int8x16_t tab, uint8x16_t idx)
15997 {
15998   int8x16_t result = r;
15999   __asm__ ("tbx %0.16b,{%1.16b},%2.16b"
16000            : "+w"(result)
16001            : "w"(tab), "w"(idx)
16002            : /* No clobbers */);
16003   return result;
16004 }
16005
16006 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
16007 vqtbx1q_u8 (uint8x16_t r, uint8x16_t tab, uint8x16_t idx)
16008 {
16009   uint8x16_t result = r;
16010   __asm__ ("tbx %0.16b,{%1.16b},%2.16b"
16011            : "+w"(result)
16012            : "w"(tab), "w"(idx)
16013            : /* No clobbers */);
16014   return result;
16015 }
16016
16017 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
16018 vqtbx1q_p8 (poly8x16_t r, poly8x16_t tab, uint8x16_t idx)
16019 {
16020   poly8x16_t result = r;
16021   __asm__ ("tbx %0.16b,{%1.16b},%2.16b"
16022            : "+w"(result)
16023            : "w"(tab), "w"(idx)
16024            : /* No clobbers */);
16025   return result;
16026 }
16027
16028 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
16029 vqtbx2_s8 (int8x8_t r, int8x16x2_t tab, uint8x8_t idx)
16030 {
16031   int8x8_t result = r;
16032   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
16033            "tbx %0.8b, {v16.16b, v17.16b}, %2.8b\n\t"
16034            :"+w"(result)
16035            :"Q"(tab),"w"(idx)
16036            :"memory", "v16", "v17");
16037   return result;
16038 }
16039
16040 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
16041 vqtbx2_u8 (uint8x8_t r, uint8x16x2_t tab, uint8x8_t idx)
16042 {
16043   uint8x8_t result = r;
16044   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
16045            "tbx %0.8b, {v16.16b, v17.16b}, %2.8b\n\t"
16046            :"+w"(result)
16047            :"Q"(tab),"w"(idx)
16048            :"memory", "v16", "v17");
16049   return result;
16050 }
16051
16052 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
16053 vqtbx2_p8 (poly8x8_t r, poly8x16x2_t tab, uint8x8_t idx)
16054 {
16055   poly8x8_t result = r;
16056   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
16057            "tbx %0.8b, {v16.16b, v17.16b}, %2.8b\n\t"
16058            :"+w"(result)
16059            :"Q"(tab),"w"(idx)
16060            :"memory", "v16", "v17");
16061   return result;
16062 }
16063
16064
16065 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
16066 vqtbx2q_s8 (int8x16_t r, int8x16x2_t tab, uint8x16_t idx)
16067 {
16068   int8x16_t result = r;
16069   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
16070            "tbx %0.16b, {v16.16b, v17.16b}, %2.16b\n\t"
16071            :"+w"(result)
16072            :"Q"(tab),"w"(idx)
16073            :"memory", "v16", "v17");
16074   return result;
16075 }
16076
16077 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
16078 vqtbx2q_u8 (uint8x16_t r, uint8x16x2_t tab, uint8x16_t idx)
16079 {
16080   uint8x16_t result = r;
16081   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
16082            "tbx %0.16b, {v16.16b, v17.16b}, %2.16b\n\t"
16083            :"+w"(result)
16084            :"Q"(tab),"w"(idx)
16085            :"memory", "v16", "v17");
16086   return result;
16087 }
16088
16089 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
16090 vqtbx2q_p8 (poly8x16_t r, poly8x16x2_t tab, uint8x16_t idx)
16091 {
16092   poly8x16_t result = r;
16093   __asm__ ("ld1 {v16.16b, v17.16b}, %1\n\t"
16094            "tbx %0.16b, {v16.16b, v17.16b}, %2.16b\n\t"
16095            :"+w"(result)
16096            :"Q"(tab),"w"(idx)
16097            :"memory", "v16", "v17");
16098   return result;
16099 }
16100
16101
16102 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
16103 vqtbx3_s8 (int8x8_t r, int8x16x3_t tab, uint8x8_t idx)
16104 {
16105   int8x8_t result = r;
16106   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
16107            "tbx %0.8b, {v16.16b - v18.16b}, %2.8b\n\t"
16108            :"+w"(result)
16109            :"Q"(tab),"w"(idx)
16110            :"memory", "v16", "v17", "v18");
16111   return result;
16112 }
16113
16114 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
16115 vqtbx3_u8 (uint8x8_t r, uint8x16x3_t tab, uint8x8_t idx)
16116 {
16117   uint8x8_t result = r;
16118   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
16119            "tbx %0.8b, {v16.16b - v18.16b}, %2.8b\n\t"
16120            :"+w"(result)
16121            :"Q"(tab),"w"(idx)
16122            :"memory", "v16", "v17", "v18");
16123   return result;
16124 }
16125
16126 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
16127 vqtbx3_p8 (poly8x8_t r, poly8x16x3_t tab, uint8x8_t idx)
16128 {
16129   poly8x8_t result = r;
16130   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
16131            "tbx %0.8b, {v16.16b - v18.16b}, %2.8b\n\t"
16132            :"+w"(result)
16133            :"Q"(tab),"w"(idx)
16134            :"memory", "v16", "v17", "v18");
16135   return result;
16136 }
16137
16138
16139 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
16140 vqtbx3q_s8 (int8x16_t r, int8x16x3_t tab, uint8x16_t idx)
16141 {
16142   int8x16_t result = r;
16143   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
16144            "tbx %0.16b, {v16.16b - v18.16b}, %2.16b\n\t"
16145            :"+w"(result)
16146            :"Q"(tab),"w"(idx)
16147            :"memory", "v16", "v17", "v18");
16148   return result;
16149 }
16150
16151 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
16152 vqtbx3q_u8 (uint8x16_t r, uint8x16x3_t tab, uint8x16_t idx)
16153 {
16154   uint8x16_t result = r;
16155   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
16156            "tbx %0.16b, {v16.16b - v18.16b}, %2.16b\n\t"
16157            :"+w"(result)
16158            :"Q"(tab),"w"(idx)
16159            :"memory", "v16", "v17", "v18");
16160   return result;
16161 }
16162
16163 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
16164 vqtbx3q_p8 (poly8x16_t r, poly8x16x3_t tab, uint8x16_t idx)
16165 {
16166   poly8x16_t result = r;
16167   __asm__ ("ld1 {v16.16b - v18.16b}, %1\n\t"
16168            "tbx %0.16b, {v16.16b - v18.16b}, %2.16b\n\t"
16169            :"+w"(result)
16170            :"Q"(tab),"w"(idx)
16171            :"memory", "v16", "v17", "v18");
16172   return result;
16173 }
16174
16175
16176 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
16177 vqtbx4_s8 (int8x8_t r, int8x16x4_t tab, uint8x8_t idx)
16178 {
16179   int8x8_t result = r;
16180   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
16181            "tbx %0.8b, {v16.16b - v19.16b}, %2.8b\n\t"
16182            :"+w"(result)
16183            :"Q"(tab),"w"(idx)
16184            :"memory", "v16", "v17", "v18", "v19");
16185   return result;
16186 }
16187
16188 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
16189 vqtbx4_u8 (uint8x8_t r, uint8x16x4_t tab, uint8x8_t idx)
16190 {
16191   uint8x8_t result = r;
16192   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
16193            "tbx %0.8b, {v16.16b - v19.16b}, %2.8b\n\t"
16194            :"+w"(result)
16195            :"Q"(tab),"w"(idx)
16196            :"memory", "v16", "v17", "v18", "v19");
16197   return result;
16198 }
16199
16200 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
16201 vqtbx4_p8 (poly8x8_t r, poly8x16x4_t tab, uint8x8_t idx)
16202 {
16203   poly8x8_t result = r;
16204   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
16205            "tbx %0.8b, {v16.16b - v19.16b}, %2.8b\n\t"
16206            :"+w"(result)
16207            :"Q"(tab),"w"(idx)
16208            :"memory", "v16", "v17", "v18", "v19");
16209   return result;
16210 }
16211
16212
16213 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
16214 vqtbx4q_s8 (int8x16_t r, int8x16x4_t tab, uint8x16_t idx)
16215 {
16216   int8x16_t result = r;
16217   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
16218            "tbx %0.16b, {v16.16b - v19.16b}, %2.16b\n\t"
16219            :"+w"(result)
16220            :"Q"(tab),"w"(idx)
16221            :"memory", "v16", "v17", "v18", "v19");
16222   return result;
16223 }
16224
16225 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
16226 vqtbx4q_u8 (uint8x16_t r, uint8x16x4_t tab, uint8x16_t idx)
16227 {
16228   uint8x16_t result = r;
16229   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
16230            "tbx %0.16b, {v16.16b - v19.16b}, %2.16b\n\t"
16231            :"+w"(result)
16232            :"Q"(tab),"w"(idx)
16233            :"memory", "v16", "v17", "v18", "v19");
16234   return result;
16235 }
16236
16237 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
16238 vqtbx4q_p8 (poly8x16_t r, poly8x16x4_t tab, uint8x16_t idx)
16239 {
16240   poly8x16_t result = r;
16241   __asm__ ("ld1 {v16.16b - v19.16b}, %1\n\t"
16242            "tbx %0.16b, {v16.16b - v19.16b}, %2.16b\n\t"
16243            :"+w"(result)
16244            :"Q"(tab),"w"(idx)
16245            :"memory", "v16", "v17", "v18", "v19");
16246   return result;
16247 }
16248
16249 /* V7 legacy table intrinsics.  */
16250
16251 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
16252 vtbl1_s8 (int8x8_t tab, int8x8_t idx)
16253 {
16254   int8x8_t result;
16255   int8x16_t temp = vcombine_s8 (tab, vcreate_s8 (__AARCH64_UINT64_C (0x0)));
16256   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
16257            : "=w"(result)
16258            : "w"(temp), "w"(idx)
16259            : /* No clobbers */);
16260   return result;
16261 }
16262
16263 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
16264 vtbl1_u8 (uint8x8_t tab, uint8x8_t idx)
16265 {
16266   uint8x8_t result;
16267   uint8x16_t temp = vcombine_u8 (tab, vcreate_u8 (__AARCH64_UINT64_C (0x0)));
16268   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
16269            : "=w"(result)
16270            : "w"(temp), "w"(idx)
16271            : /* No clobbers */);
16272   return result;
16273 }
16274
16275 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
16276 vtbl1_p8 (poly8x8_t tab, uint8x8_t idx)
16277 {
16278   poly8x8_t result;
16279   poly8x16_t temp = vcombine_p8 (tab, vcreate_p8 (__AARCH64_UINT64_C (0x0)));
16280   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
16281            : "=w"(result)
16282            : "w"(temp), "w"(idx)
16283            : /* No clobbers */);
16284   return result;
16285 }
16286
16287 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
16288 vtbl2_s8 (int8x8x2_t tab, int8x8_t idx)
16289 {
16290   int8x8_t result;
16291   int8x16_t temp = vcombine_s8 (tab.val[0], tab.val[1]);
16292   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
16293            : "=w"(result)
16294            : "w"(temp), "w"(idx)
16295            : /* No clobbers */);
16296   return result;
16297 }
16298
16299 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
16300 vtbl2_u8 (uint8x8x2_t tab, uint8x8_t idx)
16301 {
16302   uint8x8_t result;
16303   uint8x16_t temp = vcombine_u8 (tab.val[0], tab.val[1]);
16304   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
16305            : "=w"(result)
16306            : "w"(temp), "w"(idx)
16307            : /* No clobbers */);
16308   return result;
16309 }
16310
16311 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
16312 vtbl2_p8 (poly8x8x2_t tab, uint8x8_t idx)
16313 {
16314   poly8x8_t result;
16315   poly8x16_t temp = vcombine_p8 (tab.val[0], tab.val[1]);
16316   __asm__ ("tbl %0.8b, {%1.16b}, %2.8b"
16317            : "=w"(result)
16318            : "w"(temp), "w"(idx)
16319            : /* No clobbers */);
16320   return result;
16321 }
16322
16323 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
16324 vtbl3_s8 (int8x8x3_t tab, int8x8_t idx)
16325 {
16326   int8x8_t result;
16327   int8x16x2_t temp;
16328   temp.val[0] = vcombine_s8 (tab.val[0], tab.val[1]);
16329   temp.val[1] = vcombine_s8 (tab.val[2], vcreate_s8 (__AARCH64_UINT64_C (0x0)));
16330   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
16331            "tbl %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
16332            : "=w"(result)
16333            : "Q"(temp), "w"(idx)
16334            : "v16", "v17", "memory");
16335   return result;
16336 }
16337
16338 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
16339 vtbl3_u8 (uint8x8x3_t tab, uint8x8_t idx)
16340 {
16341   uint8x8_t result;
16342   uint8x16x2_t temp;
16343   temp.val[0] = vcombine_u8 (tab.val[0], tab.val[1]);
16344   temp.val[1] = vcombine_u8 (tab.val[2], vcreate_u8 (__AARCH64_UINT64_C (0x0)));
16345   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
16346            "tbl %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
16347            : "=w"(result)
16348            : "Q"(temp), "w"(idx)
16349            : "v16", "v17", "memory");
16350   return result;
16351 }
16352
16353 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
16354 vtbl3_p8 (poly8x8x3_t tab, uint8x8_t idx)
16355 {
16356   poly8x8_t result;
16357   poly8x16x2_t temp;
16358   temp.val[0] = vcombine_p8 (tab.val[0], tab.val[1]);
16359   temp.val[1] = vcombine_p8 (tab.val[2], vcreate_p8 (__AARCH64_UINT64_C (0x0)));
16360   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
16361            "tbl %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
16362            : "=w"(result)
16363            : "Q"(temp), "w"(idx)
16364            : "v16", "v17", "memory");
16365   return result;
16366 }
16367
16368 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
16369 vtbl4_s8 (int8x8x4_t tab, int8x8_t idx)
16370 {
16371   int8x8_t result;
16372   int8x16x2_t temp;
16373   temp.val[0] = vcombine_s8 (tab.val[0], tab.val[1]);
16374   temp.val[1] = vcombine_s8 (tab.val[2], tab.val[3]);
16375   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
16376            "tbl %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
16377            : "=w"(result)
16378            : "Q"(temp), "w"(idx)
16379            : "v16", "v17", "memory");
16380   return result;
16381 }
16382
16383 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
16384 vtbl4_u8 (uint8x8x4_t tab, uint8x8_t idx)
16385 {
16386   uint8x8_t result;
16387   uint8x16x2_t temp;
16388   temp.val[0] = vcombine_u8 (tab.val[0], tab.val[1]);
16389   temp.val[1] = vcombine_u8 (tab.val[2], tab.val[3]);
16390   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
16391            "tbl %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
16392            : "=w"(result)
16393            : "Q"(temp), "w"(idx)
16394            : "v16", "v17", "memory");
16395   return result;
16396 }
16397
16398 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
16399 vtbl4_p8 (poly8x8x4_t tab, uint8x8_t idx)
16400 {
16401   poly8x8_t result;
16402   poly8x16x2_t temp;
16403   temp.val[0] = vcombine_p8 (tab.val[0], tab.val[1]);
16404   temp.val[1] = vcombine_p8 (tab.val[2], tab.val[3]);
16405   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
16406            "tbl %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
16407            : "=w"(result)
16408            : "Q"(temp), "w"(idx)
16409            : "v16", "v17", "memory");
16410   return result;
16411 }
16412
16413 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
16414 vtbx1_s8 (int8x8_t r, int8x8_t tab, int8x8_t idx)
16415 {
16416   int8x8_t result;
16417   int8x8_t tmp1;
16418   int8x16_t temp = vcombine_s8 (tab, vcreate_s8 (__AARCH64_UINT64_C (0x0)));
16419   __asm__ ("movi %0.8b, 8\n\t"
16420            "cmhs %0.8b, %3.8b, %0.8b\n\t"
16421            "tbl %1.8b, {%2.16b}, %3.8b\n\t"
16422            "bsl %0.8b, %4.8b, %1.8b\n\t"
16423            : "+w"(result), "=w"(tmp1)
16424            : "w"(temp), "w"(idx), "w"(r)
16425            : /* No clobbers */);
16426   return result;
16427 }
16428
16429 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
16430 vtbx1_u8 (uint8x8_t r, uint8x8_t tab, uint8x8_t idx)
16431 {
16432   uint8x8_t result;
16433   uint8x8_t tmp1;
16434   uint8x16_t temp = vcombine_u8 (tab, vcreate_u8 (__AARCH64_UINT64_C (0x0)));
16435   __asm__ ("movi %0.8b, 8\n\t"
16436            "cmhs %0.8b, %3.8b, %0.8b\n\t"
16437            "tbl %1.8b, {%2.16b}, %3.8b\n\t"
16438            "bsl %0.8b, %4.8b, %1.8b\n\t"
16439            : "+w"(result), "=w"(tmp1)
16440            : "w"(temp), "w"(idx), "w"(r)
16441            : /* No clobbers */);
16442   return result;
16443 }
16444
16445 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
16446 vtbx1_p8 (poly8x8_t r, poly8x8_t tab, uint8x8_t idx)
16447 {
16448   poly8x8_t result;
16449   poly8x8_t tmp1;
16450   poly8x16_t temp = vcombine_p8 (tab, vcreate_p8 (__AARCH64_UINT64_C (0x0)));
16451   __asm__ ("movi %0.8b, 8\n\t"
16452            "cmhs %0.8b, %3.8b, %0.8b\n\t"
16453            "tbl %1.8b, {%2.16b}, %3.8b\n\t"
16454            "bsl %0.8b, %4.8b, %1.8b\n\t"
16455            : "+w"(result), "=w"(tmp1)
16456            : "w"(temp), "w"(idx), "w"(r)
16457            : /* No clobbers */);
16458   return result;
16459 }
16460
16461 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
16462 vtbx2_s8 (int8x8_t r, int8x8x2_t tab, int8x8_t idx)
16463 {
16464   int8x8_t result = r;
16465   int8x16_t temp = vcombine_s8 (tab.val[0], tab.val[1]);
16466   __asm__ ("tbx %0.8b, {%1.16b}, %2.8b"
16467            : "+w"(result)
16468            : "w"(temp), "w"(idx)
16469            : /* No clobbers */);
16470   return result;
16471 }
16472
16473 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
16474 vtbx2_u8 (uint8x8_t r, uint8x8x2_t tab, uint8x8_t idx)
16475 {
16476   uint8x8_t result = r;
16477   uint8x16_t temp = vcombine_u8 (tab.val[0], tab.val[1]);
16478   __asm__ ("tbx %0.8b, {%1.16b}, %2.8b"
16479            : "+w"(result)
16480            : "w"(temp), "w"(idx)
16481            : /* No clobbers */);
16482   return result;
16483 }
16484
16485 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
16486 vtbx2_p8 (poly8x8_t r, poly8x8x2_t tab, uint8x8_t idx)
16487 {
16488   poly8x8_t result = r;
16489   poly8x16_t temp = vcombine_p8 (tab.val[0], tab.val[1]);
16490   __asm__ ("tbx %0.8b, {%1.16b}, %2.8b"
16491            : "+w"(result)
16492            : "w"(temp), "w"(idx)
16493            : /* No clobbers */);
16494   return result;
16495 }
16496
16497 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
16498 vtbx3_s8 (int8x8_t r, int8x8x3_t tab, int8x8_t idx)
16499 {
16500   int8x8_t result;
16501   int8x8_t tmp1;
16502   int8x16x2_t temp;
16503   temp.val[0] = vcombine_s8 (tab.val[0], tab.val[1]);
16504   temp.val[1] = vcombine_s8 (tab.val[2], vcreate_s8 (__AARCH64_UINT64_C (0x0)));
16505   __asm__ ("ld1 {v16.16b - v17.16b}, %2\n\t"
16506            "movi %0.8b, 24\n\t"
16507            "cmhs %0.8b, %3.8b, %0.8b\n\t"
16508            "tbl %1.8b, {v16.16b - v17.16b}, %3.8b\n\t"
16509            "bsl %0.8b, %4.8b, %1.8b\n\t"
16510            : "+w"(result), "=w"(tmp1)
16511            : "Q"(temp), "w"(idx), "w"(r)
16512            : "v16", "v17", "memory");
16513   return result;
16514 }
16515
16516 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
16517 vtbx3_u8 (uint8x8_t r, uint8x8x3_t tab, uint8x8_t idx)
16518 {
16519   uint8x8_t result;
16520   uint8x8_t tmp1;
16521   uint8x16x2_t temp;
16522   temp.val[0] = vcombine_u8 (tab.val[0], tab.val[1]);
16523   temp.val[1] = vcombine_u8 (tab.val[2], vcreate_u8 (__AARCH64_UINT64_C (0x0)));
16524   __asm__ ("ld1 {v16.16b - v17.16b}, %2\n\t"
16525            "movi %0.8b, 24\n\t"
16526            "cmhs %0.8b, %3.8b, %0.8b\n\t"
16527            "tbl %1.8b, {v16.16b - v17.16b}, %3.8b\n\t"
16528            "bsl %0.8b, %4.8b, %1.8b\n\t"
16529            : "+w"(result), "=w"(tmp1)
16530            : "Q"(temp), "w"(idx), "w"(r)
16531            : "v16", "v17", "memory");
16532   return result;
16533 }
16534
16535 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
16536 vtbx3_p8 (poly8x8_t r, poly8x8x3_t tab, uint8x8_t idx)
16537 {
16538   poly8x8_t result;
16539   poly8x8_t tmp1;
16540   poly8x16x2_t temp;
16541   temp.val[0] = vcombine_p8 (tab.val[0], tab.val[1]);
16542   temp.val[1] = vcombine_p8 (tab.val[2], vcreate_p8 (__AARCH64_UINT64_C (0x0)));
16543   __asm__ ("ld1 {v16.16b - v17.16b}, %2\n\t"
16544            "movi %0.8b, 24\n\t"
16545            "cmhs %0.8b, %3.8b, %0.8b\n\t"
16546            "tbl %1.8b, {v16.16b - v17.16b}, %3.8b\n\t"
16547            "bsl %0.8b, %4.8b, %1.8b\n\t"
16548            : "+w"(result), "=w"(tmp1)
16549            : "Q"(temp), "w"(idx), "w"(r)
16550            : "v16", "v17", "memory");
16551   return result;
16552 }
16553
16554 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
16555 vtbx4_s8 (int8x8_t r, int8x8x4_t tab, int8x8_t idx)
16556 {
16557   int8x8_t result = r;
16558   int8x16x2_t temp;
16559   temp.val[0] = vcombine_s8 (tab.val[0], tab.val[1]);
16560   temp.val[1] = vcombine_s8 (tab.val[2], tab.val[3]);
16561   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
16562            "tbx %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
16563            : "+w"(result)
16564            : "Q"(temp), "w"(idx)
16565            : "v16", "v17", "memory");
16566   return result;
16567 }
16568
16569 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
16570 vtbx4_u8 (uint8x8_t r, uint8x8x4_t tab, uint8x8_t idx)
16571 {
16572   uint8x8_t result = r;
16573   uint8x16x2_t temp;
16574   temp.val[0] = vcombine_u8 (tab.val[0], tab.val[1]);
16575   temp.val[1] = vcombine_u8 (tab.val[2], tab.val[3]);
16576   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
16577            "tbx %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
16578            : "+w"(result)
16579            : "Q"(temp), "w"(idx)
16580            : "v16", "v17", "memory");
16581   return result;
16582 }
16583
16584 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
16585 vtbx4_p8 (poly8x8_t r, poly8x8x4_t tab, uint8x8_t idx)
16586 {
16587   poly8x8_t result = r;
16588   poly8x16x2_t temp;
16589   temp.val[0] = vcombine_p8 (tab.val[0], tab.val[1]);
16590   temp.val[1] = vcombine_p8 (tab.val[2], tab.val[3]);
16591   __asm__ ("ld1 {v16.16b - v17.16b }, %1\n\t"
16592            "tbx %0.8b, {v16.16b - v17.16b}, %2.8b\n\t"
16593            : "+w"(result)
16594            : "Q"(temp), "w"(idx)
16595            : "v16", "v17", "memory");
16596   return result;
16597 }
16598
16599 /* End of temporary inline asm.  */
16600
16601 /* Start of optimal implementations in approved order.  */
16602
16603 /* vabs  */
16604
16605 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
16606 vabs_f32 (float32x2_t __a)
16607 {
16608   return __builtin_aarch64_absv2sf (__a);
16609 }
16610
16611 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
16612 vabs_f64 (float64x1_t __a)
16613 {
16614   return __builtin_fabs (__a);
16615 }
16616
16617 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
16618 vabs_s8 (int8x8_t __a)
16619 {
16620   return __builtin_aarch64_absv8qi (__a);
16621 }
16622
16623 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
16624 vabs_s16 (int16x4_t __a)
16625 {
16626   return __builtin_aarch64_absv4hi (__a);
16627 }
16628
16629 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
16630 vabs_s32 (int32x2_t __a)
16631 {
16632   return __builtin_aarch64_absv2si (__a);
16633 }
16634
16635 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
16636 vabs_s64 (int64x1_t __a)
16637 {
16638   return __builtin_llabs (__a);
16639 }
16640
16641 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
16642 vabsq_f32 (float32x4_t __a)
16643 {
16644   return __builtin_aarch64_absv4sf (__a);
16645 }
16646
16647 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
16648 vabsq_f64 (float64x2_t __a)
16649 {
16650   return __builtin_aarch64_absv2df (__a);
16651 }
16652
16653 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
16654 vabsq_s8 (int8x16_t __a)
16655 {
16656   return __builtin_aarch64_absv16qi (__a);
16657 }
16658
16659 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
16660 vabsq_s16 (int16x8_t __a)
16661 {
16662   return __builtin_aarch64_absv8hi (__a);
16663 }
16664
16665 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
16666 vabsq_s32 (int32x4_t __a)
16667 {
16668   return __builtin_aarch64_absv4si (__a);
16669 }
16670
16671 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
16672 vabsq_s64 (int64x2_t __a)
16673 {
16674   return __builtin_aarch64_absv2di (__a);
16675 }
16676
16677 /* vadd */
16678
16679 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
16680 vaddd_s64 (int64x1_t __a, int64x1_t __b)
16681 {
16682   return __a + __b;
16683 }
16684
16685 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
16686 vaddd_u64 (uint64x1_t __a, uint64x1_t __b)
16687 {
16688   return __a + __b;
16689 }
16690
16691 /* vaddv */
16692
16693 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
16694 vaddv_s8 (int8x8_t __a)
16695 {
16696   return vget_lane_s8 (__builtin_aarch64_reduc_splus_v8qi (__a), 0);
16697 }
16698
16699 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
16700 vaddv_s16 (int16x4_t __a)
16701 {
16702   return vget_lane_s16 (__builtin_aarch64_reduc_splus_v4hi (__a), 0);
16703 }
16704
16705 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
16706 vaddv_s32 (int32x2_t __a)
16707 {
16708   return vget_lane_s32 (__builtin_aarch64_reduc_splus_v2si (__a), 0);
16709 }
16710
16711 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
16712 vaddv_u8 (uint8x8_t __a)
16713 {
16714   return vget_lane_u8 ((uint8x8_t)
16715                 __builtin_aarch64_reduc_uplus_v8qi ((int8x8_t) __a), 0);
16716 }
16717
16718 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
16719 vaddv_u16 (uint16x4_t __a)
16720 {
16721   return vget_lane_u16 ((uint16x4_t)
16722                 __builtin_aarch64_reduc_uplus_v4hi ((int16x4_t) __a), 0);
16723 }
16724
16725 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
16726 vaddv_u32 (uint32x2_t __a)
16727 {
16728   return vget_lane_u32 ((uint32x2_t)
16729                 __builtin_aarch64_reduc_uplus_v2si ((int32x2_t) __a), 0);
16730 }
16731
16732 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
16733 vaddvq_s8 (int8x16_t __a)
16734 {
16735   return vgetq_lane_s8 (__builtin_aarch64_reduc_splus_v16qi (__a), 0);
16736 }
16737
16738 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
16739 vaddvq_s16 (int16x8_t __a)
16740 {
16741   return vgetq_lane_s16 (__builtin_aarch64_reduc_splus_v8hi (__a), 0);
16742 }
16743
16744 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
16745 vaddvq_s32 (int32x4_t __a)
16746 {
16747   return vgetq_lane_s32 (__builtin_aarch64_reduc_splus_v4si (__a), 0);
16748 }
16749
16750 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
16751 vaddvq_s64 (int64x2_t __a)
16752 {
16753   return vgetq_lane_s64 (__builtin_aarch64_reduc_splus_v2di (__a), 0);
16754 }
16755
16756 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
16757 vaddvq_u8 (uint8x16_t __a)
16758 {
16759   return vgetq_lane_u8 ((uint8x16_t)
16760                 __builtin_aarch64_reduc_uplus_v16qi ((int8x16_t) __a), 0);
16761 }
16762
16763 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
16764 vaddvq_u16 (uint16x8_t __a)
16765 {
16766   return vgetq_lane_u16 ((uint16x8_t)
16767                 __builtin_aarch64_reduc_uplus_v8hi ((int16x8_t) __a), 0);
16768 }
16769
16770 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
16771 vaddvq_u32 (uint32x4_t __a)
16772 {
16773   return vgetq_lane_u32 ((uint32x4_t)
16774                 __builtin_aarch64_reduc_uplus_v4si ((int32x4_t) __a), 0);
16775 }
16776
16777 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
16778 vaddvq_u64 (uint64x2_t __a)
16779 {
16780   return vgetq_lane_u64 ((uint64x2_t)
16781                 __builtin_aarch64_reduc_uplus_v2di ((int64x2_t) __a), 0);
16782 }
16783
16784 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
16785 vaddv_f32 (float32x2_t __a)
16786 {
16787   float32x2_t t = __builtin_aarch64_reduc_splus_v2sf (__a);
16788   return vget_lane_f32 (t, 0);
16789 }
16790
16791 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
16792 vaddvq_f32 (float32x4_t __a)
16793 {
16794   float32x4_t t = __builtin_aarch64_reduc_splus_v4sf (__a);
16795   return vgetq_lane_f32 (t, 0);
16796 }
16797
16798 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
16799 vaddvq_f64 (float64x2_t __a)
16800 {
16801   float64x2_t t = __builtin_aarch64_reduc_splus_v2df (__a);
16802   return vgetq_lane_f64 (t, 0);
16803 }
16804
16805 /* vcage  */
16806
16807 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
16808 vcages_f32 (float32_t __a, float32_t __b)
16809 {
16810   return __builtin_fabsf (__a) >= __builtin_fabsf (__b) ? -1 : 0;
16811 }
16812
16813 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
16814 vcage_f32 (float32x2_t __a, float32x2_t __b)
16815 {
16816   return vabs_f32 (__a) >= vabs_f32 (__b);
16817 }
16818
16819 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
16820 vcageq_f32 (float32x4_t __a, float32x4_t __b)
16821 {
16822   return vabsq_f32 (__a) >= vabsq_f32 (__b);
16823 }
16824
16825 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
16826 vcaged_f64 (float64_t __a, float64_t __b)
16827 {
16828   return __builtin_fabs (__a) >= __builtin_fabs (__b) ? -1 : 0;
16829 }
16830
16831 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
16832 vcageq_f64 (float64x2_t __a, float64x2_t __b)
16833 {
16834   return vabsq_f64 (__a) >= vabsq_f64 (__b);
16835 }
16836
16837 /* vcagt  */
16838
16839 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
16840 vcagts_f32 (float32_t __a, float32_t __b)
16841 {
16842   return __builtin_fabsf (__a) > __builtin_fabsf (__b) ? -1 : 0;
16843 }
16844
16845 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
16846 vcagt_f32 (float32x2_t __a, float32x2_t __b)
16847 {
16848   return vabs_f32 (__a) > vabs_f32 (__b);
16849 }
16850
16851 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
16852 vcagtq_f32 (float32x4_t __a, float32x4_t __b)
16853 {
16854   return vabsq_f32 (__a) > vabsq_f32 (__b);
16855 }
16856
16857 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
16858 vcagtd_f64 (float64_t __a, float64_t __b)
16859 {
16860   return __builtin_fabs (__a) > __builtin_fabs (__b) ? -1 : 0;
16861 }
16862
16863 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
16864 vcagtq_f64 (float64x2_t __a, float64x2_t __b)
16865 {
16866   return vabsq_f64 (__a) > vabsq_f64 (__b);
16867 }
16868
16869 /* vcale  */
16870
16871 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
16872 vcale_f32 (float32x2_t __a, float32x2_t __b)
16873 {
16874   return vabs_f32 (__a) <= vabs_f32 (__b);
16875 }
16876
16877 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
16878 vcaleq_f32 (float32x4_t __a, float32x4_t __b)
16879 {
16880   return vabsq_f32 (__a) <= vabsq_f32 (__b);
16881 }
16882
16883 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
16884 vcaleq_f64 (float64x2_t __a, float64x2_t __b)
16885 {
16886   return vabsq_f64 (__a) <= vabsq_f64 (__b);
16887 }
16888
16889 /* vcalt  */
16890
16891 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
16892 vcalt_f32 (float32x2_t __a, float32x2_t __b)
16893 {
16894   return vabs_f32 (__a) < vabs_f32 (__b);
16895 }
16896
16897 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
16898 vcaltq_f32 (float32x4_t __a, float32x4_t __b)
16899 {
16900   return vabsq_f32 (__a) < vabsq_f32 (__b);
16901 }
16902
16903 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
16904 vcaltq_f64 (float64x2_t __a, float64x2_t __b)
16905 {
16906   return vabsq_f64 (__a) < vabsq_f64 (__b);
16907 }
16908
16909 /* vceq - vector.  */
16910
16911 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
16912 vceq_f32 (float32x2_t __a, float32x2_t __b)
16913 {
16914   return (uint32x2_t) __builtin_aarch64_cmeqv2sf (__a, __b);
16915 }
16916
16917 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
16918 vceq_f64 (float64x1_t __a, float64x1_t __b)
16919 {
16920   return __a == __b ? -1ll : 0ll;
16921 }
16922
16923 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
16924 vceq_p8 (poly8x8_t __a, poly8x8_t __b)
16925 {
16926   return (uint8x8_t) __builtin_aarch64_cmeqv8qi ((int8x8_t) __a,
16927                                                  (int8x8_t) __b);
16928 }
16929
16930 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
16931 vceq_s8 (int8x8_t __a, int8x8_t __b)
16932 {
16933   return (uint8x8_t) __builtin_aarch64_cmeqv8qi (__a, __b);
16934 }
16935
16936 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
16937 vceq_s16 (int16x4_t __a, int16x4_t __b)
16938 {
16939   return (uint16x4_t) __builtin_aarch64_cmeqv4hi (__a, __b);
16940 }
16941
16942 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
16943 vceq_s32 (int32x2_t __a, int32x2_t __b)
16944 {
16945   return (uint32x2_t) __builtin_aarch64_cmeqv2si (__a, __b);
16946 }
16947
16948 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
16949 vceq_s64 (int64x1_t __a, int64x1_t __b)
16950 {
16951   return __a == __b ? -1ll : 0ll;
16952 }
16953
16954 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
16955 vceq_u8 (uint8x8_t __a, uint8x8_t __b)
16956 {
16957   return (uint8x8_t) __builtin_aarch64_cmeqv8qi ((int8x8_t) __a,
16958                                                  (int8x8_t) __b);
16959 }
16960
16961 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
16962 vceq_u16 (uint16x4_t __a, uint16x4_t __b)
16963 {
16964   return (uint16x4_t) __builtin_aarch64_cmeqv4hi ((int16x4_t) __a,
16965                                                   (int16x4_t) __b);
16966 }
16967
16968 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
16969 vceq_u32 (uint32x2_t __a, uint32x2_t __b)
16970 {
16971   return (uint32x2_t) __builtin_aarch64_cmeqv2si ((int32x2_t) __a,
16972                                                   (int32x2_t) __b);
16973 }
16974
16975 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
16976 vceq_u64 (uint64x1_t __a, uint64x1_t __b)
16977 {
16978   return __a == __b ? -1ll : 0ll;
16979 }
16980
16981 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
16982 vceqq_f32 (float32x4_t __a, float32x4_t __b)
16983 {
16984   return (uint32x4_t) __builtin_aarch64_cmeqv4sf (__a, __b);
16985 }
16986
16987 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
16988 vceqq_f64 (float64x2_t __a, float64x2_t __b)
16989 {
16990   return (uint64x2_t) __builtin_aarch64_cmeqv2df (__a, __b);
16991 }
16992
16993 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
16994 vceqq_p8 (poly8x16_t __a, poly8x16_t __b)
16995 {
16996   return (uint8x16_t) __builtin_aarch64_cmeqv16qi ((int8x16_t) __a,
16997                                                    (int8x16_t) __b);
16998 }
16999
17000 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
17001 vceqq_s8 (int8x16_t __a, int8x16_t __b)
17002 {
17003   return (uint8x16_t) __builtin_aarch64_cmeqv16qi (__a, __b);
17004 }
17005
17006 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
17007 vceqq_s16 (int16x8_t __a, int16x8_t __b)
17008 {
17009   return (uint16x8_t) __builtin_aarch64_cmeqv8hi (__a, __b);
17010 }
17011
17012 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
17013 vceqq_s32 (int32x4_t __a, int32x4_t __b)
17014 {
17015   return (uint32x4_t) __builtin_aarch64_cmeqv4si (__a, __b);
17016 }
17017
17018 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
17019 vceqq_s64 (int64x2_t __a, int64x2_t __b)
17020 {
17021   return (uint64x2_t) __builtin_aarch64_cmeqv2di (__a, __b);
17022 }
17023
17024 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
17025 vceqq_u8 (uint8x16_t __a, uint8x16_t __b)
17026 {
17027   return (uint8x16_t) __builtin_aarch64_cmeqv16qi ((int8x16_t) __a,
17028                                                    (int8x16_t) __b);
17029 }
17030
17031 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
17032 vceqq_u16 (uint16x8_t __a, uint16x8_t __b)
17033 {
17034   return (uint16x8_t) __builtin_aarch64_cmeqv8hi ((int16x8_t) __a,
17035                                                   (int16x8_t) __b);
17036 }
17037
17038 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
17039 vceqq_u32 (uint32x4_t __a, uint32x4_t __b)
17040 {
17041   return (uint32x4_t) __builtin_aarch64_cmeqv4si ((int32x4_t) __a,
17042                                                   (int32x4_t) __b);
17043 }
17044
17045 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
17046 vceqq_u64 (uint64x2_t __a, uint64x2_t __b)
17047 {
17048   return (uint64x2_t) __builtin_aarch64_cmeqv2di ((int64x2_t) __a,
17049                                                   (int64x2_t) __b);
17050 }
17051
17052 /* vceq - scalar.  */
17053
17054 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
17055 vceqs_f32 (float32_t __a, float32_t __b)
17056 {
17057   return __a == __b ? -1 : 0;
17058 }
17059
17060 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17061 vceqd_s64 (int64x1_t __a, int64x1_t __b)
17062 {
17063   return __a == __b ? -1ll : 0ll;
17064 }
17065
17066 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17067 vceqd_u64 (uint64x1_t __a, uint64x1_t __b)
17068 {
17069   return __a == __b ? -1ll : 0ll;
17070 }
17071
17072 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
17073 vceqd_f64 (float64_t __a, float64_t __b)
17074 {
17075   return __a == __b ? -1ll : 0ll;
17076 }
17077
17078 /* vceqz - vector.  */
17079
17080 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
17081 vceqz_f32 (float32x2_t __a)
17082 {
17083   float32x2_t __b = {0.0f, 0.0f};
17084   return (uint32x2_t) __builtin_aarch64_cmeqv2sf (__a, __b);
17085 }
17086
17087 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17088 vceqz_f64 (float64x1_t __a)
17089 {
17090   return __a == 0.0 ? -1ll : 0ll;
17091 }
17092
17093 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
17094 vceqz_p8 (poly8x8_t __a)
17095 {
17096   poly8x8_t __b = {0, 0, 0, 0, 0, 0, 0, 0};
17097   return (uint8x8_t) __builtin_aarch64_cmeqv8qi ((int8x8_t) __a,
17098                                                  (int8x8_t) __b);
17099 }
17100
17101 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
17102 vceqz_s8 (int8x8_t __a)
17103 {
17104   int8x8_t __b = {0, 0, 0, 0, 0, 0, 0, 0};
17105   return (uint8x8_t) __builtin_aarch64_cmeqv8qi (__a, __b);
17106 }
17107
17108 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
17109 vceqz_s16 (int16x4_t __a)
17110 {
17111   int16x4_t __b = {0, 0, 0, 0};
17112   return (uint16x4_t) __builtin_aarch64_cmeqv4hi (__a, __b);
17113 }
17114
17115 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
17116 vceqz_s32 (int32x2_t __a)
17117 {
17118   int32x2_t __b = {0, 0};
17119   return (uint32x2_t) __builtin_aarch64_cmeqv2si (__a, __b);
17120 }
17121
17122 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17123 vceqz_s64 (int64x1_t __a)
17124 {
17125   return __a == 0ll ? -1ll : 0ll;
17126 }
17127
17128 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
17129 vceqz_u8 (uint8x8_t __a)
17130 {
17131   uint8x8_t __b = {0, 0, 0, 0, 0, 0, 0, 0};
17132   return (uint8x8_t) __builtin_aarch64_cmeqv8qi ((int8x8_t) __a,
17133                                                  (int8x8_t) __b);
17134 }
17135
17136 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
17137 vceqz_u16 (uint16x4_t __a)
17138 {
17139   uint16x4_t __b = {0, 0, 0, 0};
17140   return (uint16x4_t) __builtin_aarch64_cmeqv4hi ((int16x4_t) __a,
17141                                                   (int16x4_t) __b);
17142 }
17143
17144 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
17145 vceqz_u32 (uint32x2_t __a)
17146 {
17147   uint32x2_t __b = {0, 0};
17148   return (uint32x2_t) __builtin_aarch64_cmeqv2si ((int32x2_t) __a,
17149                                                   (int32x2_t) __b);
17150 }
17151
17152 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17153 vceqz_u64 (uint64x1_t __a)
17154 {
17155   return __a == 0ll ? -1ll : 0ll;
17156 }
17157
17158 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
17159 vceqzq_f32 (float32x4_t __a)
17160 {
17161   float32x4_t __b = {0.0f, 0.0f, 0.0f, 0.0f};
17162   return (uint32x4_t) __builtin_aarch64_cmeqv4sf (__a, __b);
17163 }
17164
17165 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
17166 vceqzq_f64 (float64x2_t __a)
17167 {
17168   float64x2_t __b = {0.0, 0.0};
17169   return (uint64x2_t) __builtin_aarch64_cmeqv2df (__a, __b);
17170 }
17171
17172 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
17173 vceqzq_p8 (poly8x16_t __a)
17174 {
17175   poly8x16_t __b = {0, 0, 0, 0, 0, 0, 0, 0,
17176                     0, 0, 0, 0, 0, 0, 0, 0};
17177   return (uint8x16_t) __builtin_aarch64_cmeqv16qi ((int8x16_t) __a,
17178                                                    (int8x16_t) __b);
17179 }
17180
17181 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
17182 vceqzq_s8 (int8x16_t __a)
17183 {
17184   int8x16_t __b = {0, 0, 0, 0, 0, 0, 0, 0,
17185                    0, 0, 0, 0, 0, 0, 0, 0};
17186   return (uint8x16_t) __builtin_aarch64_cmeqv16qi (__a, __b);
17187 }
17188
17189 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
17190 vceqzq_s16 (int16x8_t __a)
17191 {
17192   int16x8_t __b = {0, 0, 0, 0, 0, 0, 0, 0};
17193   return (uint16x8_t) __builtin_aarch64_cmeqv8hi (__a, __b);
17194 }
17195
17196 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
17197 vceqzq_s32 (int32x4_t __a)
17198 {
17199   int32x4_t __b = {0, 0, 0, 0};
17200   return (uint32x4_t) __builtin_aarch64_cmeqv4si (__a, __b);
17201 }
17202
17203 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
17204 vceqzq_s64 (int64x2_t __a)
17205 {
17206   int64x2_t __b = {0, 0};
17207   return (uint64x2_t) __builtin_aarch64_cmeqv2di (__a, __b);
17208 }
17209
17210 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
17211 vceqzq_u8 (uint8x16_t __a)
17212 {
17213   uint8x16_t __b = {0, 0, 0, 0, 0, 0, 0, 0,
17214                     0, 0, 0, 0, 0, 0, 0, 0};
17215   return (uint8x16_t) __builtin_aarch64_cmeqv16qi ((int8x16_t) __a,
17216                                                    (int8x16_t) __b);
17217 }
17218
17219 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
17220 vceqzq_u16 (uint16x8_t __a)
17221 {
17222   uint16x8_t __b = {0, 0, 0, 0, 0, 0, 0, 0};
17223   return (uint16x8_t) __builtin_aarch64_cmeqv8hi ((int16x8_t) __a,
17224                                                   (int16x8_t) __b);
17225 }
17226
17227 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
17228 vceqzq_u32 (uint32x4_t __a)
17229 {
17230   uint32x4_t __b = {0, 0, 0, 0};
17231   return (uint32x4_t) __builtin_aarch64_cmeqv4si ((int32x4_t) __a,
17232                                                   (int32x4_t) __b);
17233 }
17234
17235 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
17236 vceqzq_u64 (uint64x2_t __a)
17237 {
17238   uint64x2_t __b = {0, 0};
17239   return (uint64x2_t) __builtin_aarch64_cmeqv2di ((int64x2_t) __a,
17240                                                   (int64x2_t) __b);
17241 }
17242
17243 /* vceqz - scalar.  */
17244
17245 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
17246 vceqzs_f32 (float32_t __a)
17247 {
17248   return __a == 0.0f ? -1 : 0;
17249 }
17250
17251 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17252 vceqzd_s64 (int64x1_t __a)
17253 {
17254   return __a == 0 ? -1ll : 0ll;
17255 }
17256
17257 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17258 vceqzd_u64 (int64x1_t __a)
17259 {
17260   return __a == 0 ? -1ll : 0ll;
17261 }
17262
17263 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
17264 vceqzd_f64 (float64_t __a)
17265 {
17266   return __a == 0.0 ? -1ll : 0ll;
17267 }
17268
17269 /* vcge - vector.  */
17270
17271 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
17272 vcge_f32 (float32x2_t __a, float32x2_t __b)
17273 {
17274   return (uint32x2_t) __builtin_aarch64_cmgev2sf (__a, __b);
17275 }
17276
17277 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17278 vcge_f64 (float64x1_t __a, float64x1_t __b)
17279 {
17280   return __a >= __b ? -1ll : 0ll;
17281 }
17282
17283 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
17284 vcge_p8 (poly8x8_t __a, poly8x8_t __b)
17285 {
17286   return (uint8x8_t) __builtin_aarch64_cmgev8qi ((int8x8_t) __a,
17287                                                  (int8x8_t) __b);
17288 }
17289
17290 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
17291 vcge_s8 (int8x8_t __a, int8x8_t __b)
17292 {
17293   return (uint8x8_t) __builtin_aarch64_cmgev8qi (__a, __b);
17294 }
17295
17296 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
17297 vcge_s16 (int16x4_t __a, int16x4_t __b)
17298 {
17299   return (uint16x4_t) __builtin_aarch64_cmgev4hi (__a, __b);
17300 }
17301
17302 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
17303 vcge_s32 (int32x2_t __a, int32x2_t __b)
17304 {
17305   return (uint32x2_t) __builtin_aarch64_cmgev2si (__a, __b);
17306 }
17307
17308 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17309 vcge_s64 (int64x1_t __a, int64x1_t __b)
17310 {
17311   return __a >= __b ? -1ll : 0ll;
17312 }
17313
17314 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
17315 vcge_u8 (uint8x8_t __a, uint8x8_t __b)
17316 {
17317   return (uint8x8_t) __builtin_aarch64_cmgeuv8qi ((int8x8_t) __a,
17318                                                  (int8x8_t) __b);
17319 }
17320
17321 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
17322 vcge_u16 (uint16x4_t __a, uint16x4_t __b)
17323 {
17324   return (uint16x4_t) __builtin_aarch64_cmgeuv4hi ((int16x4_t) __a,
17325                                                   (int16x4_t) __b);
17326 }
17327
17328 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
17329 vcge_u32 (uint32x2_t __a, uint32x2_t __b)
17330 {
17331   return (uint32x2_t) __builtin_aarch64_cmgeuv2si ((int32x2_t) __a,
17332                                                   (int32x2_t) __b);
17333 }
17334
17335 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17336 vcge_u64 (uint64x1_t __a, uint64x1_t __b)
17337 {
17338   return __a >= __b ? -1ll : 0ll;
17339 }
17340
17341 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
17342 vcgeq_f32 (float32x4_t __a, float32x4_t __b)
17343 {
17344   return (uint32x4_t) __builtin_aarch64_cmgev4sf (__a, __b);
17345 }
17346
17347 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
17348 vcgeq_f64 (float64x2_t __a, float64x2_t __b)
17349 {
17350   return (uint64x2_t) __builtin_aarch64_cmgev2df (__a, __b);
17351 }
17352
17353 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
17354 vcgeq_p8 (poly8x16_t __a, poly8x16_t __b)
17355 {
17356   return (uint8x16_t) __builtin_aarch64_cmgev16qi ((int8x16_t) __a,
17357                                                    (int8x16_t) __b);
17358 }
17359
17360 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
17361 vcgeq_s8 (int8x16_t __a, int8x16_t __b)
17362 {
17363   return (uint8x16_t) __builtin_aarch64_cmgev16qi (__a, __b);
17364 }
17365
17366 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
17367 vcgeq_s16 (int16x8_t __a, int16x8_t __b)
17368 {
17369   return (uint16x8_t) __builtin_aarch64_cmgev8hi (__a, __b);
17370 }
17371
17372 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
17373 vcgeq_s32 (int32x4_t __a, int32x4_t __b)
17374 {
17375   return (uint32x4_t) __builtin_aarch64_cmgev4si (__a, __b);
17376 }
17377
17378 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
17379 vcgeq_s64 (int64x2_t __a, int64x2_t __b)
17380 {
17381   return (uint64x2_t) __builtin_aarch64_cmgev2di (__a, __b);
17382 }
17383
17384 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
17385 vcgeq_u8 (uint8x16_t __a, uint8x16_t __b)
17386 {
17387   return (uint8x16_t) __builtin_aarch64_cmgeuv16qi ((int8x16_t) __a,
17388                                                    (int8x16_t) __b);
17389 }
17390
17391 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
17392 vcgeq_u16 (uint16x8_t __a, uint16x8_t __b)
17393 {
17394   return (uint16x8_t) __builtin_aarch64_cmgeuv8hi ((int16x8_t) __a,
17395                                                   (int16x8_t) __b);
17396 }
17397
17398 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
17399 vcgeq_u32 (uint32x4_t __a, uint32x4_t __b)
17400 {
17401   return (uint32x4_t) __builtin_aarch64_cmgeuv4si ((int32x4_t) __a,
17402                                                   (int32x4_t) __b);
17403 }
17404
17405 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
17406 vcgeq_u64 (uint64x2_t __a, uint64x2_t __b)
17407 {
17408   return (uint64x2_t) __builtin_aarch64_cmgeuv2di ((int64x2_t) __a,
17409                                                   (int64x2_t) __b);
17410 }
17411
17412 /* vcge - scalar.  */
17413
17414 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
17415 vcges_f32 (float32_t __a, float32_t __b)
17416 {
17417   return __a >= __b ? -1 : 0;
17418 }
17419
17420 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17421 vcged_s64 (int64x1_t __a, int64x1_t __b)
17422 {
17423   return __a >= __b ? -1ll : 0ll;
17424 }
17425
17426 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17427 vcged_u64 (uint64x1_t __a, uint64x1_t __b)
17428 {
17429   return __a >= __b ? -1ll : 0ll;
17430 }
17431
17432 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
17433 vcged_f64 (float64_t __a, float64_t __b)
17434 {
17435   return __a >= __b ? -1ll : 0ll;
17436 }
17437
17438 /* vcgez - vector.  */
17439
17440 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
17441 vcgez_f32 (float32x2_t __a)
17442 {
17443   float32x2_t __b = {0.0f, 0.0f};
17444   return (uint32x2_t) __builtin_aarch64_cmgev2sf (__a, __b);
17445 }
17446
17447 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17448 vcgez_f64 (float64x1_t __a)
17449 {
17450   return __a >= 0.0 ? -1ll : 0ll;
17451 }
17452
17453 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
17454 vcgez_p8 (poly8x8_t __a)
17455 {
17456   poly8x8_t __b = {0, 0, 0, 0, 0, 0, 0, 0};
17457   return (uint8x8_t) __builtin_aarch64_cmgev8qi ((int8x8_t) __a,
17458                                                  (int8x8_t) __b);
17459 }
17460
17461 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
17462 vcgez_s8 (int8x8_t __a)
17463 {
17464   int8x8_t __b = {0, 0, 0, 0, 0, 0, 0, 0};
17465   return (uint8x8_t) __builtin_aarch64_cmgev8qi (__a, __b);
17466 }
17467
17468 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
17469 vcgez_s16 (int16x4_t __a)
17470 {
17471   int16x4_t __b = {0, 0, 0, 0};
17472   return (uint16x4_t) __builtin_aarch64_cmgev4hi (__a, __b);
17473 }
17474
17475 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
17476 vcgez_s32 (int32x2_t __a)
17477 {
17478   int32x2_t __b = {0, 0};
17479   return (uint32x2_t) __builtin_aarch64_cmgev2si (__a, __b);
17480 }
17481
17482 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17483 vcgez_s64 (int64x1_t __a)
17484 {
17485   return __a >= 0ll ? -1ll : 0ll;
17486 }
17487
17488 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
17489 vcgez_u8 (uint8x8_t __a)
17490 {
17491   uint8x8_t __b = {0, 0, 0, 0, 0, 0, 0, 0};
17492   return (uint8x8_t) __builtin_aarch64_cmgeuv8qi ((int8x8_t) __a,
17493                                                  (int8x8_t) __b);
17494 }
17495
17496 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
17497 vcgez_u16 (uint16x4_t __a)
17498 {
17499   uint16x4_t __b = {0, 0, 0, 0};
17500   return (uint16x4_t) __builtin_aarch64_cmgeuv4hi ((int16x4_t) __a,
17501                                                   (int16x4_t) __b);
17502 }
17503
17504 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
17505 vcgez_u32 (uint32x2_t __a)
17506 {
17507   uint32x2_t __b = {0, 0};
17508   return (uint32x2_t) __builtin_aarch64_cmgeuv2si ((int32x2_t) __a,
17509                                                   (int32x2_t) __b);
17510 }
17511
17512 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17513 vcgez_u64 (uint64x1_t __a)
17514 {
17515   return __a >= 0ll ? -1ll : 0ll;
17516 }
17517
17518 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
17519 vcgezq_f32 (float32x4_t __a)
17520 {
17521   float32x4_t __b = {0.0f, 0.0f, 0.0f, 0.0f};
17522   return (uint32x4_t) __builtin_aarch64_cmgev4sf (__a, __b);
17523 }
17524
17525 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
17526 vcgezq_f64 (float64x2_t __a)
17527 {
17528   float64x2_t __b = {0.0, 0.0};
17529   return (uint64x2_t) __builtin_aarch64_cmgev2df (__a, __b);
17530 }
17531
17532 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
17533 vcgezq_p8 (poly8x16_t __a)
17534 {
17535   poly8x16_t __b = {0, 0, 0, 0, 0, 0, 0, 0,
17536                     0, 0, 0, 0, 0, 0, 0, 0};
17537   return (uint8x16_t) __builtin_aarch64_cmgev16qi ((int8x16_t) __a,
17538                                                    (int8x16_t) __b);
17539 }
17540
17541 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
17542 vcgezq_s8 (int8x16_t __a)
17543 {
17544   int8x16_t __b = {0, 0, 0, 0, 0, 0, 0, 0,
17545                    0, 0, 0, 0, 0, 0, 0, 0};
17546   return (uint8x16_t) __builtin_aarch64_cmgev16qi (__a, __b);
17547 }
17548
17549 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
17550 vcgezq_s16 (int16x8_t __a)
17551 {
17552   int16x8_t __b = {0, 0, 0, 0, 0, 0, 0, 0};
17553   return (uint16x8_t) __builtin_aarch64_cmgev8hi (__a, __b);
17554 }
17555
17556 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
17557 vcgezq_s32 (int32x4_t __a)
17558 {
17559   int32x4_t __b = {0, 0, 0, 0};
17560   return (uint32x4_t) __builtin_aarch64_cmgev4si (__a, __b);
17561 }
17562
17563 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
17564 vcgezq_s64 (int64x2_t __a)
17565 {
17566   int64x2_t __b = {0, 0};
17567   return (uint64x2_t) __builtin_aarch64_cmgev2di (__a, __b);
17568 }
17569
17570 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
17571 vcgezq_u8 (uint8x16_t __a)
17572 {
17573   uint8x16_t __b = {0, 0, 0, 0, 0, 0, 0, 0,
17574                     0, 0, 0, 0, 0, 0, 0, 0};
17575   return (uint8x16_t) __builtin_aarch64_cmgeuv16qi ((int8x16_t) __a,
17576                                                    (int8x16_t) __b);
17577 }
17578
17579 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
17580 vcgezq_u16 (uint16x8_t __a)
17581 {
17582   uint16x8_t __b = {0, 0, 0, 0, 0, 0, 0, 0};
17583   return (uint16x8_t) __builtin_aarch64_cmgeuv8hi ((int16x8_t) __a,
17584                                                   (int16x8_t) __b);
17585 }
17586
17587 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
17588 vcgezq_u32 (uint32x4_t __a)
17589 {
17590   uint32x4_t __b = {0, 0, 0, 0};
17591   return (uint32x4_t) __builtin_aarch64_cmgeuv4si ((int32x4_t) __a,
17592                                                   (int32x4_t) __b);
17593 }
17594
17595 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
17596 vcgezq_u64 (uint64x2_t __a)
17597 {
17598   uint64x2_t __b = {0, 0};
17599   return (uint64x2_t) __builtin_aarch64_cmgeuv2di ((int64x2_t) __a,
17600                                                   (int64x2_t) __b);
17601 }
17602
17603 /* vcgez - scalar.  */
17604
17605 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
17606 vcgezs_f32 (float32_t __a)
17607 {
17608   return __a >= 0.0f ? -1 : 0;
17609 }
17610
17611 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17612 vcgezd_s64 (int64x1_t __a)
17613 {
17614   return __a >= 0 ? -1ll : 0ll;
17615 }
17616
17617 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17618 vcgezd_u64 (int64x1_t __a)
17619 {
17620   return __a >= 0 ? -1ll : 0ll;
17621 }
17622
17623 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
17624 vcgezd_f64 (float64_t __a)
17625 {
17626   return __a >= 0.0 ? -1ll : 0ll;
17627 }
17628
17629 /* vcgt - vector.  */
17630
17631 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
17632 vcgt_f32 (float32x2_t __a, float32x2_t __b)
17633 {
17634   return (uint32x2_t) __builtin_aarch64_cmgtv2sf (__a, __b);
17635 }
17636
17637 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17638 vcgt_f64 (float64x1_t __a, float64x1_t __b)
17639 {
17640   return __a > __b ? -1ll : 0ll;
17641 }
17642
17643 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
17644 vcgt_p8 (poly8x8_t __a, poly8x8_t __b)
17645 {
17646   return (uint8x8_t) __builtin_aarch64_cmgtv8qi ((int8x8_t) __a,
17647                                                  (int8x8_t) __b);
17648 }
17649
17650 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
17651 vcgt_s8 (int8x8_t __a, int8x8_t __b)
17652 {
17653   return (uint8x8_t) __builtin_aarch64_cmgtv8qi (__a, __b);
17654 }
17655
17656 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
17657 vcgt_s16 (int16x4_t __a, int16x4_t __b)
17658 {
17659   return (uint16x4_t) __builtin_aarch64_cmgtv4hi (__a, __b);
17660 }
17661
17662 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
17663 vcgt_s32 (int32x2_t __a, int32x2_t __b)
17664 {
17665   return (uint32x2_t) __builtin_aarch64_cmgtv2si (__a, __b);
17666 }
17667
17668 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17669 vcgt_s64 (int64x1_t __a, int64x1_t __b)
17670 {
17671   return __a > __b ? -1ll : 0ll;
17672 }
17673
17674 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
17675 vcgt_u8 (uint8x8_t __a, uint8x8_t __b)
17676 {
17677   return (uint8x8_t) __builtin_aarch64_cmgtuv8qi ((int8x8_t) __a,
17678                                                  (int8x8_t) __b);
17679 }
17680
17681 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
17682 vcgt_u16 (uint16x4_t __a, uint16x4_t __b)
17683 {
17684   return (uint16x4_t) __builtin_aarch64_cmgtuv4hi ((int16x4_t) __a,
17685                                                   (int16x4_t) __b);
17686 }
17687
17688 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
17689 vcgt_u32 (uint32x2_t __a, uint32x2_t __b)
17690 {
17691   return (uint32x2_t) __builtin_aarch64_cmgtuv2si ((int32x2_t) __a,
17692                                                   (int32x2_t) __b);
17693 }
17694
17695 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17696 vcgt_u64 (uint64x1_t __a, uint64x1_t __b)
17697 {
17698   return __a > __b ? -1ll : 0ll;
17699 }
17700
17701 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
17702 vcgtq_f32 (float32x4_t __a, float32x4_t __b)
17703 {
17704   return (uint32x4_t) __builtin_aarch64_cmgtv4sf (__a, __b);
17705 }
17706
17707 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
17708 vcgtq_f64 (float64x2_t __a, float64x2_t __b)
17709 {
17710   return (uint64x2_t) __builtin_aarch64_cmgtv2df (__a, __b);
17711 }
17712
17713 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
17714 vcgtq_p8 (poly8x16_t __a, poly8x16_t __b)
17715 {
17716   return (uint8x16_t) __builtin_aarch64_cmgtv16qi ((int8x16_t) __a,
17717                                                    (int8x16_t) __b);
17718 }
17719
17720 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
17721 vcgtq_s8 (int8x16_t __a, int8x16_t __b)
17722 {
17723   return (uint8x16_t) __builtin_aarch64_cmgtv16qi (__a, __b);
17724 }
17725
17726 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
17727 vcgtq_s16 (int16x8_t __a, int16x8_t __b)
17728 {
17729   return (uint16x8_t) __builtin_aarch64_cmgtv8hi (__a, __b);
17730 }
17731
17732 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
17733 vcgtq_s32 (int32x4_t __a, int32x4_t __b)
17734 {
17735   return (uint32x4_t) __builtin_aarch64_cmgtv4si (__a, __b);
17736 }
17737
17738 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
17739 vcgtq_s64 (int64x2_t __a, int64x2_t __b)
17740 {
17741   return (uint64x2_t) __builtin_aarch64_cmgtv2di (__a, __b);
17742 }
17743
17744 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
17745 vcgtq_u8 (uint8x16_t __a, uint8x16_t __b)
17746 {
17747   return (uint8x16_t) __builtin_aarch64_cmgtuv16qi ((int8x16_t) __a,
17748                                                    (int8x16_t) __b);
17749 }
17750
17751 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
17752 vcgtq_u16 (uint16x8_t __a, uint16x8_t __b)
17753 {
17754   return (uint16x8_t) __builtin_aarch64_cmgtuv8hi ((int16x8_t) __a,
17755                                                   (int16x8_t) __b);
17756 }
17757
17758 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
17759 vcgtq_u32 (uint32x4_t __a, uint32x4_t __b)
17760 {
17761   return (uint32x4_t) __builtin_aarch64_cmgtuv4si ((int32x4_t) __a,
17762                                                   (int32x4_t) __b);
17763 }
17764
17765 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
17766 vcgtq_u64 (uint64x2_t __a, uint64x2_t __b)
17767 {
17768   return (uint64x2_t) __builtin_aarch64_cmgtuv2di ((int64x2_t) __a,
17769                                                   (int64x2_t) __b);
17770 }
17771
17772 /* vcgt - scalar.  */
17773
17774 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
17775 vcgts_f32 (float32_t __a, float32_t __b)
17776 {
17777   return __a > __b ? -1 : 0;
17778 }
17779
17780 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17781 vcgtd_s64 (int64x1_t __a, int64x1_t __b)
17782 {
17783   return __a > __b ? -1ll : 0ll;
17784 }
17785
17786 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17787 vcgtd_u64 (uint64x1_t __a, uint64x1_t __b)
17788 {
17789   return __a > __b ? -1ll : 0ll;
17790 }
17791
17792 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
17793 vcgtd_f64 (float64_t __a, float64_t __b)
17794 {
17795   return __a > __b ? -1ll : 0ll;
17796 }
17797
17798 /* vcgtz - vector.  */
17799
17800 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
17801 vcgtz_f32 (float32x2_t __a)
17802 {
17803   float32x2_t __b = {0.0f, 0.0f};
17804   return (uint32x2_t) __builtin_aarch64_cmgtv2sf (__a, __b);
17805 }
17806
17807 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17808 vcgtz_f64 (float64x1_t __a)
17809 {
17810   return __a > 0.0 ? -1ll : 0ll;
17811 }
17812
17813 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
17814 vcgtz_p8 (poly8x8_t __a)
17815 {
17816   poly8x8_t __b = {0, 0, 0, 0, 0, 0, 0, 0};
17817   return (uint8x8_t) __builtin_aarch64_cmgtv8qi ((int8x8_t) __a,
17818                                                  (int8x8_t) __b);
17819 }
17820
17821 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
17822 vcgtz_s8 (int8x8_t __a)
17823 {
17824   int8x8_t __b = {0, 0, 0, 0, 0, 0, 0, 0};
17825   return (uint8x8_t) __builtin_aarch64_cmgtv8qi (__a, __b);
17826 }
17827
17828 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
17829 vcgtz_s16 (int16x4_t __a)
17830 {
17831   int16x4_t __b = {0, 0, 0, 0};
17832   return (uint16x4_t) __builtin_aarch64_cmgtv4hi (__a, __b);
17833 }
17834
17835 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
17836 vcgtz_s32 (int32x2_t __a)
17837 {
17838   int32x2_t __b = {0, 0};
17839   return (uint32x2_t) __builtin_aarch64_cmgtv2si (__a, __b);
17840 }
17841
17842 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17843 vcgtz_s64 (int64x1_t __a)
17844 {
17845   return __a > 0ll ? -1ll : 0ll;
17846 }
17847
17848 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
17849 vcgtz_u8 (uint8x8_t __a)
17850 {
17851   uint8x8_t __b = {0, 0, 0, 0, 0, 0, 0, 0};
17852   return (uint8x8_t) __builtin_aarch64_cmgtuv8qi ((int8x8_t) __a,
17853                                                  (int8x8_t) __b);
17854 }
17855
17856 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
17857 vcgtz_u16 (uint16x4_t __a)
17858 {
17859   uint16x4_t __b = {0, 0, 0, 0};
17860   return (uint16x4_t) __builtin_aarch64_cmgtuv4hi ((int16x4_t) __a,
17861                                                   (int16x4_t) __b);
17862 }
17863
17864 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
17865 vcgtz_u32 (uint32x2_t __a)
17866 {
17867   uint32x2_t __b = {0, 0};
17868   return (uint32x2_t) __builtin_aarch64_cmgtuv2si ((int32x2_t) __a,
17869                                                   (int32x2_t) __b);
17870 }
17871
17872 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17873 vcgtz_u64 (uint64x1_t __a)
17874 {
17875   return __a > 0ll ? -1ll : 0ll;
17876 }
17877
17878 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
17879 vcgtzq_f32 (float32x4_t __a)
17880 {
17881   float32x4_t __b = {0.0f, 0.0f, 0.0f, 0.0f};
17882   return (uint32x4_t) __builtin_aarch64_cmgtv4sf (__a, __b);
17883 }
17884
17885 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
17886 vcgtzq_f64 (float64x2_t __a)
17887 {
17888   float64x2_t __b = {0.0, 0.0};
17889   return (uint64x2_t) __builtin_aarch64_cmgtv2df (__a, __b);
17890 }
17891
17892 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
17893 vcgtzq_p8 (poly8x16_t __a)
17894 {
17895   poly8x16_t __b = {0, 0, 0, 0, 0, 0, 0, 0,
17896                     0, 0, 0, 0, 0, 0, 0, 0};
17897   return (uint8x16_t) __builtin_aarch64_cmgtv16qi ((int8x16_t) __a,
17898                                                    (int8x16_t) __b);
17899 }
17900
17901 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
17902 vcgtzq_s8 (int8x16_t __a)
17903 {
17904   int8x16_t __b = {0, 0, 0, 0, 0, 0, 0, 0,
17905                    0, 0, 0, 0, 0, 0, 0, 0};
17906   return (uint8x16_t) __builtin_aarch64_cmgtv16qi (__a, __b);
17907 }
17908
17909 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
17910 vcgtzq_s16 (int16x8_t __a)
17911 {
17912   int16x8_t __b = {0, 0, 0, 0, 0, 0, 0, 0};
17913   return (uint16x8_t) __builtin_aarch64_cmgtv8hi (__a, __b);
17914 }
17915
17916 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
17917 vcgtzq_s32 (int32x4_t __a)
17918 {
17919   int32x4_t __b = {0, 0, 0, 0};
17920   return (uint32x4_t) __builtin_aarch64_cmgtv4si (__a, __b);
17921 }
17922
17923 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
17924 vcgtzq_s64 (int64x2_t __a)
17925 {
17926   int64x2_t __b = {0, 0};
17927   return (uint64x2_t) __builtin_aarch64_cmgtv2di (__a, __b);
17928 }
17929
17930 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
17931 vcgtzq_u8 (uint8x16_t __a)
17932 {
17933   uint8x16_t __b = {0, 0, 0, 0, 0, 0, 0, 0,
17934                     0, 0, 0, 0, 0, 0, 0, 0};
17935   return (uint8x16_t) __builtin_aarch64_cmgtuv16qi ((int8x16_t) __a,
17936                                                    (int8x16_t) __b);
17937 }
17938
17939 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
17940 vcgtzq_u16 (uint16x8_t __a)
17941 {
17942   uint16x8_t __b = {0, 0, 0, 0, 0, 0, 0, 0};
17943   return (uint16x8_t) __builtin_aarch64_cmgtuv8hi ((int16x8_t) __a,
17944                                                   (int16x8_t) __b);
17945 }
17946
17947 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
17948 vcgtzq_u32 (uint32x4_t __a)
17949 {
17950   uint32x4_t __b = {0, 0, 0, 0};
17951   return (uint32x4_t) __builtin_aarch64_cmgtuv4si ((int32x4_t) __a,
17952                                                   (int32x4_t) __b);
17953 }
17954
17955 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
17956 vcgtzq_u64 (uint64x2_t __a)
17957 {
17958   uint64x2_t __b = {0, 0};
17959   return (uint64x2_t) __builtin_aarch64_cmgtuv2di ((int64x2_t) __a,
17960                                                   (int64x2_t) __b);
17961 }
17962
17963 /* vcgtz - scalar.  */
17964
17965 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
17966 vcgtzs_f32 (float32_t __a)
17967 {
17968   return __a > 0.0f ? -1 : 0;
17969 }
17970
17971 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17972 vcgtzd_s64 (int64x1_t __a)
17973 {
17974   return __a > 0 ? -1ll : 0ll;
17975 }
17976
17977 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17978 vcgtzd_u64 (int64x1_t __a)
17979 {
17980   return __a > 0 ? -1ll : 0ll;
17981 }
17982
17983 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
17984 vcgtzd_f64 (float64_t __a)
17985 {
17986   return __a > 0.0 ? -1ll : 0ll;
17987 }
17988
17989 /* vcle - vector.  */
17990
17991 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
17992 vcle_f32 (float32x2_t __a, float32x2_t __b)
17993 {
17994   return (uint32x2_t) __builtin_aarch64_cmgev2sf (__b, __a);
17995 }
17996
17997 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
17998 vcle_f64 (float64x1_t __a, float64x1_t __b)
17999 {
18000   return __a <= __b ? -1ll : 0ll;
18001 }
18002
18003 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
18004 vcle_p8 (poly8x8_t __a, poly8x8_t __b)
18005 {
18006   return (uint8x8_t) __builtin_aarch64_cmgev8qi ((int8x8_t) __b,
18007                                                  (int8x8_t) __a);
18008 }
18009
18010 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
18011 vcle_s8 (int8x8_t __a, int8x8_t __b)
18012 {
18013   return (uint8x8_t) __builtin_aarch64_cmgev8qi (__b, __a);
18014 }
18015
18016 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
18017 vcle_s16 (int16x4_t __a, int16x4_t __b)
18018 {
18019   return (uint16x4_t) __builtin_aarch64_cmgev4hi (__b, __a);
18020 }
18021
18022 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18023 vcle_s32 (int32x2_t __a, int32x2_t __b)
18024 {
18025   return (uint32x2_t) __builtin_aarch64_cmgev2si (__b, __a);
18026 }
18027
18028 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
18029 vcle_s64 (int64x1_t __a, int64x1_t __b)
18030 {
18031   return __a <= __b ? -1ll : 0ll;
18032 }
18033
18034 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
18035 vcle_u8 (uint8x8_t __a, uint8x8_t __b)
18036 {
18037   return (uint8x8_t) __builtin_aarch64_cmgeuv8qi ((int8x8_t) __b,
18038                                                  (int8x8_t) __a);
18039 }
18040
18041 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
18042 vcle_u16 (uint16x4_t __a, uint16x4_t __b)
18043 {
18044   return (uint16x4_t) __builtin_aarch64_cmgeuv4hi ((int16x4_t) __b,
18045                                                   (int16x4_t) __a);
18046 }
18047
18048 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18049 vcle_u32 (uint32x2_t __a, uint32x2_t __b)
18050 {
18051   return (uint32x2_t) __builtin_aarch64_cmgeuv2si ((int32x2_t) __b,
18052                                                   (int32x2_t) __a);
18053 }
18054
18055 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
18056 vcle_u64 (uint64x1_t __a, uint64x1_t __b)
18057 {
18058   return __a <= __b ? -1ll : 0ll;
18059 }
18060
18061 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18062 vcleq_f32 (float32x4_t __a, float32x4_t __b)
18063 {
18064   return (uint32x4_t) __builtin_aarch64_cmgev4sf (__b, __a);
18065 }
18066
18067 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
18068 vcleq_f64 (float64x2_t __a, float64x2_t __b)
18069 {
18070   return (uint64x2_t) __builtin_aarch64_cmgev2df (__b, __a);
18071 }
18072
18073 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
18074 vcleq_p8 (poly8x16_t __a, poly8x16_t __b)
18075 {
18076   return (uint8x16_t) __builtin_aarch64_cmgev16qi ((int8x16_t) __b,
18077                                                    (int8x16_t) __a);
18078 }
18079
18080 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
18081 vcleq_s8 (int8x16_t __a, int8x16_t __b)
18082 {
18083   return (uint8x16_t) __builtin_aarch64_cmgev16qi (__b, __a);
18084 }
18085
18086 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
18087 vcleq_s16 (int16x8_t __a, int16x8_t __b)
18088 {
18089   return (uint16x8_t) __builtin_aarch64_cmgev8hi (__b, __a);
18090 }
18091
18092 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18093 vcleq_s32 (int32x4_t __a, int32x4_t __b)
18094 {
18095   return (uint32x4_t) __builtin_aarch64_cmgev4si (__b, __a);
18096 }
18097
18098 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
18099 vcleq_s64 (int64x2_t __a, int64x2_t __b)
18100 {
18101   return (uint64x2_t) __builtin_aarch64_cmgev2di (__b, __a);
18102 }
18103
18104 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
18105 vcleq_u8 (uint8x16_t __a, uint8x16_t __b)
18106 {
18107   return (uint8x16_t) __builtin_aarch64_cmgeuv16qi ((int8x16_t) __b,
18108                                                    (int8x16_t) __a);
18109 }
18110
18111 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
18112 vcleq_u16 (uint16x8_t __a, uint16x8_t __b)
18113 {
18114   return (uint16x8_t) __builtin_aarch64_cmgeuv8hi ((int16x8_t) __b,
18115                                                   (int16x8_t) __a);
18116 }
18117
18118 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18119 vcleq_u32 (uint32x4_t __a, uint32x4_t __b)
18120 {
18121   return (uint32x4_t) __builtin_aarch64_cmgeuv4si ((int32x4_t) __b,
18122                                                   (int32x4_t) __a);
18123 }
18124
18125 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
18126 vcleq_u64 (uint64x2_t __a, uint64x2_t __b)
18127 {
18128   return (uint64x2_t) __builtin_aarch64_cmgeuv2di ((int64x2_t) __b,
18129                                                   (int64x2_t) __a);
18130 }
18131
18132 /* vcle - scalar.  */
18133
18134 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
18135 vcles_f32 (float32_t __a, float32_t __b)
18136 {
18137   return __a <= __b ? -1 : 0;
18138 }
18139
18140 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
18141 vcled_s64 (int64x1_t __a, int64x1_t __b)
18142 {
18143   return __a <= __b ? -1ll : 0ll;
18144 }
18145
18146 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
18147 vcled_u64 (uint64x1_t __a, uint64x1_t __b)
18148 {
18149   return __a <= __b ? -1ll : 0ll;
18150 }
18151
18152 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
18153 vcled_f64 (float64_t __a, float64_t __b)
18154 {
18155   return __a <= __b ? -1ll : 0ll;
18156 }
18157
18158 /* vclez - vector.  */
18159
18160 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18161 vclez_f32 (float32x2_t __a)
18162 {
18163   float32x2_t __b = {0.0f, 0.0f};
18164   return (uint32x2_t) __builtin_aarch64_cmlev2sf (__a, __b);
18165 }
18166
18167 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
18168 vclez_f64 (float64x1_t __a)
18169 {
18170   return __a <= 0.0 ? -1ll : 0ll;
18171 }
18172
18173 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
18174 vclez_p8 (poly8x8_t __a)
18175 {
18176   poly8x8_t __b = {0, 0, 0, 0, 0, 0, 0, 0};
18177   return (uint8x8_t) __builtin_aarch64_cmlev8qi ((int8x8_t) __a,
18178                                                  (int8x8_t) __b);
18179 }
18180
18181 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
18182 vclez_s8 (int8x8_t __a)
18183 {
18184   int8x8_t __b = {0, 0, 0, 0, 0, 0, 0, 0};
18185   return (uint8x8_t) __builtin_aarch64_cmlev8qi (__a, __b);
18186 }
18187
18188 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
18189 vclez_s16 (int16x4_t __a)
18190 {
18191   int16x4_t __b = {0, 0, 0, 0};
18192   return (uint16x4_t) __builtin_aarch64_cmlev4hi (__a, __b);
18193 }
18194
18195 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18196 vclez_s32 (int32x2_t __a)
18197 {
18198   int32x2_t __b = {0, 0};
18199   return (uint32x2_t) __builtin_aarch64_cmlev2si (__a, __b);
18200 }
18201
18202 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
18203 vclez_s64 (int64x1_t __a)
18204 {
18205   return __a <= 0ll ? -1ll : 0ll;
18206 }
18207
18208 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
18209 vclez_u64 (uint64x1_t __a)
18210 {
18211   return __a <= 0ll ? -1ll : 0ll;
18212 }
18213
18214 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18215 vclezq_f32 (float32x4_t __a)
18216 {
18217   float32x4_t __b = {0.0f, 0.0f, 0.0f, 0.0f};
18218   return (uint32x4_t) __builtin_aarch64_cmlev4sf (__a, __b);
18219 }
18220
18221 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
18222 vclezq_f64 (float64x2_t __a)
18223 {
18224   float64x2_t __b = {0.0, 0.0};
18225   return (uint64x2_t) __builtin_aarch64_cmlev2df (__a, __b);
18226 }
18227
18228 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
18229 vclezq_p8 (poly8x16_t __a)
18230 {
18231   poly8x16_t __b = {0, 0, 0, 0, 0, 0, 0, 0,
18232                     0, 0, 0, 0, 0, 0, 0, 0};
18233   return (uint8x16_t) __builtin_aarch64_cmlev16qi ((int8x16_t) __a,
18234                                                    (int8x16_t) __b);
18235 }
18236
18237 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
18238 vclezq_s8 (int8x16_t __a)
18239 {
18240   int8x16_t __b = {0, 0, 0, 0, 0, 0, 0, 0,
18241                    0, 0, 0, 0, 0, 0, 0, 0};
18242   return (uint8x16_t) __builtin_aarch64_cmlev16qi (__a, __b);
18243 }
18244
18245 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
18246 vclezq_s16 (int16x8_t __a)
18247 {
18248   int16x8_t __b = {0, 0, 0, 0, 0, 0, 0, 0};
18249   return (uint16x8_t) __builtin_aarch64_cmlev8hi (__a, __b);
18250 }
18251
18252 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18253 vclezq_s32 (int32x4_t __a)
18254 {
18255   int32x4_t __b = {0, 0, 0, 0};
18256   return (uint32x4_t) __builtin_aarch64_cmlev4si (__a, __b);
18257 }
18258
18259 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
18260 vclezq_s64 (int64x2_t __a)
18261 {
18262   int64x2_t __b = {0, 0};
18263   return (uint64x2_t) __builtin_aarch64_cmlev2di (__a, __b);
18264 }
18265
18266 /* vclez - scalar.  */
18267
18268 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
18269 vclezs_f32 (float32_t __a)
18270 {
18271   return __a <= 0.0f ? -1 : 0;
18272 }
18273
18274 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
18275 vclezd_s64 (int64x1_t __a)
18276 {
18277   return __a <= 0 ? -1ll : 0ll;
18278 }
18279
18280 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
18281 vclezd_u64 (int64x1_t __a)
18282 {
18283   return __a <= 0 ? -1ll : 0ll;
18284 }
18285
18286 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
18287 vclezd_f64 (float64_t __a)
18288 {
18289   return __a <= 0.0 ? -1ll : 0ll;
18290 }
18291
18292 /* vclt - vector.  */
18293
18294 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18295 vclt_f32 (float32x2_t __a, float32x2_t __b)
18296 {
18297   return (uint32x2_t) __builtin_aarch64_cmgtv2sf (__b, __a);
18298 }
18299
18300 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
18301 vclt_f64 (float64x1_t __a, float64x1_t __b)
18302 {
18303   return __a < __b ? -1ll : 0ll;
18304 }
18305
18306 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
18307 vclt_p8 (poly8x8_t __a, poly8x8_t __b)
18308 {
18309   return (uint8x8_t) __builtin_aarch64_cmgtv8qi ((int8x8_t) __b,
18310                                                  (int8x8_t) __a);
18311 }
18312
18313 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
18314 vclt_s8 (int8x8_t __a, int8x8_t __b)
18315 {
18316   return (uint8x8_t) __builtin_aarch64_cmgtv8qi (__b, __a);
18317 }
18318
18319 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
18320 vclt_s16 (int16x4_t __a, int16x4_t __b)
18321 {
18322   return (uint16x4_t) __builtin_aarch64_cmgtv4hi (__b, __a);
18323 }
18324
18325 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18326 vclt_s32 (int32x2_t __a, int32x2_t __b)
18327 {
18328   return (uint32x2_t) __builtin_aarch64_cmgtv2si (__b, __a);
18329 }
18330
18331 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
18332 vclt_s64 (int64x1_t __a, int64x1_t __b)
18333 {
18334   return __a < __b ? -1ll : 0ll;
18335 }
18336
18337 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
18338 vclt_u8 (uint8x8_t __a, uint8x8_t __b)
18339 {
18340   return (uint8x8_t) __builtin_aarch64_cmgtuv8qi ((int8x8_t) __b,
18341                                                  (int8x8_t) __a);
18342 }
18343
18344 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
18345 vclt_u16 (uint16x4_t __a, uint16x4_t __b)
18346 {
18347   return (uint16x4_t) __builtin_aarch64_cmgtuv4hi ((int16x4_t) __b,
18348                                                   (int16x4_t) __a);
18349 }
18350
18351 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18352 vclt_u32 (uint32x2_t __a, uint32x2_t __b)
18353 {
18354   return (uint32x2_t) __builtin_aarch64_cmgtuv2si ((int32x2_t) __b,
18355                                                   (int32x2_t) __a);
18356 }
18357
18358 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
18359 vclt_u64 (uint64x1_t __a, uint64x1_t __b)
18360 {
18361   return __a < __b ? -1ll : 0ll;
18362 }
18363
18364 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18365 vcltq_f32 (float32x4_t __a, float32x4_t __b)
18366 {
18367   return (uint32x4_t) __builtin_aarch64_cmgtv4sf (__b, __a);
18368 }
18369
18370 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
18371 vcltq_f64 (float64x2_t __a, float64x2_t __b)
18372 {
18373   return (uint64x2_t) __builtin_aarch64_cmgtv2df (__b, __a);
18374 }
18375
18376 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
18377 vcltq_p8 (poly8x16_t __a, poly8x16_t __b)
18378 {
18379   return (uint8x16_t) __builtin_aarch64_cmgtv16qi ((int8x16_t) __b,
18380                                                    (int8x16_t) __a);
18381 }
18382
18383 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
18384 vcltq_s8 (int8x16_t __a, int8x16_t __b)
18385 {
18386   return (uint8x16_t) __builtin_aarch64_cmgtv16qi (__b, __a);
18387 }
18388
18389 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
18390 vcltq_s16 (int16x8_t __a, int16x8_t __b)
18391 {
18392   return (uint16x8_t) __builtin_aarch64_cmgtv8hi (__b, __a);
18393 }
18394
18395 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18396 vcltq_s32 (int32x4_t __a, int32x4_t __b)
18397 {
18398   return (uint32x4_t) __builtin_aarch64_cmgtv4si (__b, __a);
18399 }
18400
18401 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
18402 vcltq_s64 (int64x2_t __a, int64x2_t __b)
18403 {
18404   return (uint64x2_t) __builtin_aarch64_cmgtv2di (__b, __a);
18405 }
18406
18407 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
18408 vcltq_u8 (uint8x16_t __a, uint8x16_t __b)
18409 {
18410   return (uint8x16_t) __builtin_aarch64_cmgtuv16qi ((int8x16_t) __b,
18411                                                    (int8x16_t) __a);
18412 }
18413
18414 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
18415 vcltq_u16 (uint16x8_t __a, uint16x8_t __b)
18416 {
18417   return (uint16x8_t) __builtin_aarch64_cmgtuv8hi ((int16x8_t) __b,
18418                                                   (int16x8_t) __a);
18419 }
18420
18421 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18422 vcltq_u32 (uint32x4_t __a, uint32x4_t __b)
18423 {
18424   return (uint32x4_t) __builtin_aarch64_cmgtuv4si ((int32x4_t) __b,
18425                                                   (int32x4_t) __a);
18426 }
18427
18428 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
18429 vcltq_u64 (uint64x2_t __a, uint64x2_t __b)
18430 {
18431   return (uint64x2_t) __builtin_aarch64_cmgtuv2di ((int64x2_t) __b,
18432                                                   (int64x2_t) __a);
18433 }
18434
18435 /* vclt - scalar.  */
18436
18437 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
18438 vclts_f32 (float32_t __a, float32_t __b)
18439 {
18440   return __a < __b ? -1 : 0;
18441 }
18442
18443 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
18444 vcltd_s64 (int64x1_t __a, int64x1_t __b)
18445 {
18446   return __a < __b ? -1ll : 0ll;
18447 }
18448
18449 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
18450 vcltd_u64 (uint64x1_t __a, uint64x1_t __b)
18451 {
18452   return __a < __b ? -1ll : 0ll;
18453 }
18454
18455 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
18456 vcltd_f64 (float64_t __a, float64_t __b)
18457 {
18458   return __a < __b ? -1ll : 0ll;
18459 }
18460
18461 /* vcltz - vector.  */
18462
18463 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18464 vcltz_f32 (float32x2_t __a)
18465 {
18466   float32x2_t __b = {0.0f, 0.0f};
18467   return (uint32x2_t) __builtin_aarch64_cmltv2sf (__a, __b);
18468 }
18469
18470 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
18471 vcltz_f64 (float64x1_t __a)
18472 {
18473   return __a < 0.0 ? -1ll : 0ll;
18474 }
18475
18476 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
18477 vcltz_p8 (poly8x8_t __a)
18478 {
18479   poly8x8_t __b = {0, 0, 0, 0, 0, 0, 0, 0};
18480   return (uint8x8_t) __builtin_aarch64_cmltv8qi ((int8x8_t) __a,
18481                                                  (int8x8_t) __b);
18482 }
18483
18484 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
18485 vcltz_s8 (int8x8_t __a)
18486 {
18487   int8x8_t __b = {0, 0, 0, 0, 0, 0, 0, 0};
18488   return (uint8x8_t) __builtin_aarch64_cmltv8qi (__a, __b);
18489 }
18490
18491 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
18492 vcltz_s16 (int16x4_t __a)
18493 {
18494   int16x4_t __b = {0, 0, 0, 0};
18495   return (uint16x4_t) __builtin_aarch64_cmltv4hi (__a, __b);
18496 }
18497
18498 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18499 vcltz_s32 (int32x2_t __a)
18500 {
18501   int32x2_t __b = {0, 0};
18502   return (uint32x2_t) __builtin_aarch64_cmltv2si (__a, __b);
18503 }
18504
18505 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
18506 vcltz_s64 (int64x1_t __a)
18507 {
18508   return __a < 0ll ? -1ll : 0ll;
18509 }
18510
18511 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18512 vcltzq_f32 (float32x4_t __a)
18513 {
18514   float32x4_t __b = {0.0f, 0.0f, 0.0f, 0.0f};
18515   return (uint32x4_t) __builtin_aarch64_cmltv4sf (__a, __b);
18516 }
18517
18518 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
18519 vcltzq_f64 (float64x2_t __a)
18520 {
18521   float64x2_t __b = {0.0, 0.0};
18522   return (uint64x2_t) __builtin_aarch64_cmltv2df (__a, __b);
18523 }
18524
18525 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
18526 vcltzq_p8 (poly8x16_t __a)
18527 {
18528   poly8x16_t __b = {0, 0, 0, 0, 0, 0, 0, 0,
18529                     0, 0, 0, 0, 0, 0, 0, 0};
18530   return (uint8x16_t) __builtin_aarch64_cmltv16qi ((int8x16_t) __a,
18531                                                    (int8x16_t) __b);
18532 }
18533
18534 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
18535 vcltzq_s8 (int8x16_t __a)
18536 {
18537   int8x16_t __b = {0, 0, 0, 0, 0, 0, 0, 0,
18538                    0, 0, 0, 0, 0, 0, 0, 0};
18539   return (uint8x16_t) __builtin_aarch64_cmltv16qi (__a, __b);
18540 }
18541
18542 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
18543 vcltzq_s16 (int16x8_t __a)
18544 {
18545   int16x8_t __b = {0, 0, 0, 0, 0, 0, 0, 0};
18546   return (uint16x8_t) __builtin_aarch64_cmltv8hi (__a, __b);
18547 }
18548
18549 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18550 vcltzq_s32 (int32x4_t __a)
18551 {
18552   int32x4_t __b = {0, 0, 0, 0};
18553   return (uint32x4_t) __builtin_aarch64_cmltv4si (__a, __b);
18554 }
18555
18556 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
18557 vcltzq_s64 (int64x2_t __a)
18558 {
18559   int64x2_t __b = {0, 0};
18560   return (uint64x2_t) __builtin_aarch64_cmltv2di (__a, __b);
18561 }
18562
18563 /* vcltz - scalar.  */
18564
18565 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
18566 vcltzs_f32 (float32_t __a)
18567 {
18568   return __a < 0.0f ? -1 : 0;
18569 }
18570
18571 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
18572 vcltzd_s64 (int64x1_t __a)
18573 {
18574   return __a < 0 ? -1ll : 0ll;
18575 }
18576
18577 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
18578 vcltzd_u64 (int64x1_t __a)
18579 {
18580   return __a < 0 ? -1ll : 0ll;
18581 }
18582
18583 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
18584 vcltzd_f64 (float64_t __a)
18585 {
18586   return __a < 0.0 ? -1ll : 0ll;
18587 }
18588
18589 /* vcvt (double -> float).  */
18590
18591 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18592 vcvt_f32_f64 (float64x2_t __a)
18593 {
18594   return __builtin_aarch64_float_truncate_lo_v2sf (__a);
18595 }
18596
18597 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18598 vcvt_high_f32_f64 (float32x2_t __a, float64x2_t __b)
18599 {
18600   return __builtin_aarch64_float_truncate_hi_v4sf (__a, __b);
18601 }
18602
18603 /* vcvt (float -> double).  */
18604
18605 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
18606 vcvt_f64_f32 (float32x2_t __a)
18607 {
18608
18609   return __builtin_aarch64_float_extend_lo_v2df (__a);
18610 }
18611
18612 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
18613 vcvt_high_f64_f32 (float32x4_t __a)
18614 {
18615   return __builtin_aarch64_vec_unpacks_hi_v4sf (__a);
18616 }
18617
18618 /* vcvt  (<u>int -> float)  */
18619
18620 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
18621 vcvtd_f64_s64 (int64_t __a)
18622 {
18623   return (float64_t) __a;
18624 }
18625
18626 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
18627 vcvtd_f64_u64 (uint64_t __a)
18628 {
18629   return (float64_t) __a;
18630 }
18631
18632 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
18633 vcvts_f32_s32 (int32_t __a)
18634 {
18635   return (float32_t) __a;
18636 }
18637
18638 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
18639 vcvts_f32_u32 (uint32_t __a)
18640 {
18641   return (float32_t) __a;
18642 }
18643
18644 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18645 vcvt_f32_s32 (int32x2_t __a)
18646 {
18647   return __builtin_aarch64_floatv2siv2sf (__a);
18648 }
18649
18650 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
18651 vcvt_f32_u32 (uint32x2_t __a)
18652 {
18653   return __builtin_aarch64_floatunsv2siv2sf ((int32x2_t) __a);
18654 }
18655
18656 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18657 vcvtq_f32_s32 (int32x4_t __a)
18658 {
18659   return __builtin_aarch64_floatv4siv4sf (__a);
18660 }
18661
18662 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
18663 vcvtq_f32_u32 (uint32x4_t __a)
18664 {
18665   return __builtin_aarch64_floatunsv4siv4sf ((int32x4_t) __a);
18666 }
18667
18668 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
18669 vcvtq_f64_s64 (int64x2_t __a)
18670 {
18671   return __builtin_aarch64_floatv2div2df (__a);
18672 }
18673
18674 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
18675 vcvtq_f64_u64 (uint64x2_t __a)
18676 {
18677   return __builtin_aarch64_floatunsv2div2df ((int64x2_t) __a);
18678 }
18679
18680 /* vcvt (float -> <u>int)  */
18681
18682 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
18683 vcvtd_s64_f64 (float64_t __a)
18684 {
18685   return (int64_t) __a;
18686 }
18687
18688 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
18689 vcvtd_u64_f64 (float64_t __a)
18690 {
18691   return (uint64_t) __a;
18692 }
18693
18694 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
18695 vcvts_s32_f32 (float32_t __a)
18696 {
18697   return (int32_t) __a;
18698 }
18699
18700 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
18701 vcvts_u32_f32 (float32_t __a)
18702 {
18703   return (uint32_t) __a;
18704 }
18705
18706 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
18707 vcvt_s32_f32 (float32x2_t __a)
18708 {
18709   return __builtin_aarch64_lbtruncv2sfv2si (__a);
18710 }
18711
18712 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18713 vcvt_u32_f32 (float32x2_t __a)
18714 {
18715   /* TODO: This cast should go away when builtins have
18716      their correct types.  */
18717   return (uint32x2_t) __builtin_aarch64_lbtruncuv2sfv2si (__a);
18718 }
18719
18720 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
18721 vcvtq_s32_f32 (float32x4_t __a)
18722 {
18723   return __builtin_aarch64_lbtruncv4sfv4si (__a);
18724 }
18725
18726 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18727 vcvtq_u32_f32 (float32x4_t __a)
18728 {
18729   /* TODO: This cast should go away when builtins have
18730      their correct types.  */
18731   return (uint32x4_t) __builtin_aarch64_lbtruncuv4sfv4si (__a);
18732 }
18733
18734 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
18735 vcvtq_s64_f64 (float64x2_t __a)
18736 {
18737   return __builtin_aarch64_lbtruncv2dfv2di (__a);
18738 }
18739
18740 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
18741 vcvtq_u64_f64 (float64x2_t __a)
18742 {
18743   /* TODO: This cast should go away when builtins have
18744      their correct types.  */
18745   return (uint64x2_t) __builtin_aarch64_lbtruncuv2dfv2di (__a);
18746 }
18747
18748 /* vcvta  */
18749
18750 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
18751 vcvtad_s64_f64 (float64_t __a)
18752 {
18753   return __builtin_aarch64_lrounddfdi (__a);
18754 }
18755
18756 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
18757 vcvtad_u64_f64 (float64_t __a)
18758 {
18759   return __builtin_aarch64_lroundudfdi (__a);
18760 }
18761
18762 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
18763 vcvtas_s32_f32 (float32_t __a)
18764 {
18765   return __builtin_aarch64_lroundsfsi (__a);
18766 }
18767
18768 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
18769 vcvtas_u32_f32 (float32_t __a)
18770 {
18771   return __builtin_aarch64_lroundusfsi (__a);
18772 }
18773
18774 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
18775 vcvta_s32_f32 (float32x2_t __a)
18776 {
18777   return __builtin_aarch64_lroundv2sfv2si (__a);
18778 }
18779
18780 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18781 vcvta_u32_f32 (float32x2_t __a)
18782 {
18783   /* TODO: This cast should go away when builtins have
18784      their correct types.  */
18785   return (uint32x2_t) __builtin_aarch64_lrounduv2sfv2si (__a);
18786 }
18787
18788 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
18789 vcvtaq_s32_f32 (float32x4_t __a)
18790 {
18791   return __builtin_aarch64_lroundv4sfv4si (__a);
18792 }
18793
18794 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18795 vcvtaq_u32_f32 (float32x4_t __a)
18796 {
18797   /* TODO: This cast should go away when builtins have
18798      their correct types.  */
18799   return (uint32x4_t) __builtin_aarch64_lrounduv4sfv4si (__a);
18800 }
18801
18802 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
18803 vcvtaq_s64_f64 (float64x2_t __a)
18804 {
18805   return __builtin_aarch64_lroundv2dfv2di (__a);
18806 }
18807
18808 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
18809 vcvtaq_u64_f64 (float64x2_t __a)
18810 {
18811   /* TODO: This cast should go away when builtins have
18812      their correct types.  */
18813   return (uint64x2_t) __builtin_aarch64_lrounduv2dfv2di (__a);
18814 }
18815
18816 /* vcvtm  */
18817
18818 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
18819 vcvtmd_s64_f64 (float64_t __a)
18820 {
18821   return __builtin_lfloor (__a);
18822 }
18823
18824 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
18825 vcvtmd_u64_f64 (float64_t __a)
18826 {
18827   return __builtin_aarch64_lfloorudfdi (__a);
18828 }
18829
18830 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
18831 vcvtms_s32_f32 (float32_t __a)
18832 {
18833   return __builtin_ifloorf (__a);
18834 }
18835
18836 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
18837 vcvtms_u32_f32 (float32_t __a)
18838 {
18839   return __builtin_aarch64_lfloorusfsi (__a);
18840 }
18841
18842 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
18843 vcvtm_s32_f32 (float32x2_t __a)
18844 {
18845   return __builtin_aarch64_lfloorv2sfv2si (__a);
18846 }
18847
18848 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18849 vcvtm_u32_f32 (float32x2_t __a)
18850 {
18851   /* TODO: This cast should go away when builtins have
18852      their correct types.  */
18853   return (uint32x2_t) __builtin_aarch64_lflooruv2sfv2si (__a);
18854 }
18855
18856 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
18857 vcvtmq_s32_f32 (float32x4_t __a)
18858 {
18859   return __builtin_aarch64_lfloorv4sfv4si (__a);
18860 }
18861
18862 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18863 vcvtmq_u32_f32 (float32x4_t __a)
18864 {
18865   /* TODO: This cast should go away when builtins have
18866      their correct types.  */
18867   return (uint32x4_t) __builtin_aarch64_lflooruv4sfv4si (__a);
18868 }
18869
18870 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
18871 vcvtmq_s64_f64 (float64x2_t __a)
18872 {
18873   return __builtin_aarch64_lfloorv2dfv2di (__a);
18874 }
18875
18876 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
18877 vcvtmq_u64_f64 (float64x2_t __a)
18878 {
18879   /* TODO: This cast should go away when builtins have
18880      their correct types.  */
18881   return (uint64x2_t) __builtin_aarch64_lflooruv2dfv2di (__a);
18882 }
18883
18884 /* vcvtn  */
18885
18886 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
18887 vcvtnd_s64_f64 (float64_t __a)
18888 {
18889   return __builtin_aarch64_lfrintndfdi (__a);
18890 }
18891
18892 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
18893 vcvtnd_u64_f64 (float64_t __a)
18894 {
18895   return __builtin_aarch64_lfrintnudfdi (__a);
18896 }
18897
18898 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
18899 vcvtns_s32_f32 (float32_t __a)
18900 {
18901   return __builtin_aarch64_lfrintnsfsi (__a);
18902 }
18903
18904 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
18905 vcvtns_u32_f32 (float32_t __a)
18906 {
18907   return __builtin_aarch64_lfrintnusfsi (__a);
18908 }
18909
18910 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
18911 vcvtn_s32_f32 (float32x2_t __a)
18912 {
18913   return __builtin_aarch64_lfrintnv2sfv2si (__a);
18914 }
18915
18916 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18917 vcvtn_u32_f32 (float32x2_t __a)
18918 {
18919   /* TODO: This cast should go away when builtins have
18920      their correct types.  */
18921   return (uint32x2_t) __builtin_aarch64_lfrintnuv2sfv2si (__a);
18922 }
18923
18924 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
18925 vcvtnq_s32_f32 (float32x4_t __a)
18926 {
18927   return __builtin_aarch64_lfrintnv4sfv4si (__a);
18928 }
18929
18930 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18931 vcvtnq_u32_f32 (float32x4_t __a)
18932 {
18933   /* TODO: This cast should go away when builtins have
18934      their correct types.  */
18935   return (uint32x4_t) __builtin_aarch64_lfrintnuv4sfv4si (__a);
18936 }
18937
18938 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
18939 vcvtnq_s64_f64 (float64x2_t __a)
18940 {
18941   return __builtin_aarch64_lfrintnv2dfv2di (__a);
18942 }
18943
18944 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
18945 vcvtnq_u64_f64 (float64x2_t __a)
18946 {
18947   /* TODO: This cast should go away when builtins have
18948      their correct types.  */
18949   return (uint64x2_t) __builtin_aarch64_lfrintnuv2dfv2di (__a);
18950 }
18951
18952 /* vcvtp  */
18953
18954 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
18955 vcvtpd_s64_f64 (float64_t __a)
18956 {
18957   return __builtin_lceil (__a);
18958 }
18959
18960 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
18961 vcvtpd_u64_f64 (float64_t __a)
18962 {
18963   return __builtin_aarch64_lceiludfdi (__a);
18964 }
18965
18966 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
18967 vcvtps_s32_f32 (float32_t __a)
18968 {
18969   return __builtin_iceilf (__a);
18970 }
18971
18972 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
18973 vcvtps_u32_f32 (float32_t __a)
18974 {
18975   return __builtin_aarch64_lceilusfsi (__a);
18976 }
18977
18978 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
18979 vcvtp_s32_f32 (float32x2_t __a)
18980 {
18981   return __builtin_aarch64_lceilv2sfv2si (__a);
18982 }
18983
18984 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
18985 vcvtp_u32_f32 (float32x2_t __a)
18986 {
18987   /* TODO: This cast should go away when builtins have
18988      their correct types.  */
18989   return (uint32x2_t) __builtin_aarch64_lceiluv2sfv2si (__a);
18990 }
18991
18992 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
18993 vcvtpq_s32_f32 (float32x4_t __a)
18994 {
18995   return __builtin_aarch64_lceilv4sfv4si (__a);
18996 }
18997
18998 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
18999 vcvtpq_u32_f32 (float32x4_t __a)
19000 {
19001   /* TODO: This cast should go away when builtins have
19002      their correct types.  */
19003   return (uint32x4_t) __builtin_aarch64_lceiluv4sfv4si (__a);
19004 }
19005
19006 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19007 vcvtpq_s64_f64 (float64x2_t __a)
19008 {
19009   return __builtin_aarch64_lceilv2dfv2di (__a);
19010 }
19011
19012 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
19013 vcvtpq_u64_f64 (float64x2_t __a)
19014 {
19015   /* TODO: This cast should go away when builtins have
19016      their correct types.  */
19017   return (uint64x2_t) __builtin_aarch64_lceiluv2dfv2di (__a);
19018 }
19019
19020 /* vdup_n  */
19021
19022 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
19023 vdup_n_f32 (float32_t __a)
19024 {
19025   return (float32x2_t) {__a, __a};
19026 }
19027
19028 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
19029 vdup_n_f64 (float64_t __a)
19030 {
19031   return __a;
19032 }
19033
19034 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
19035 vdup_n_p8 (poly8_t __a)
19036 {
19037   return (poly8x8_t) {__a, __a, __a, __a, __a, __a, __a, __a};
19038 }
19039
19040 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
19041 vdup_n_p16 (poly16_t __a)
19042 {
19043   return (poly16x4_t) {__a, __a, __a, __a};
19044 }
19045
19046 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
19047 vdup_n_s8 (int8_t __a)
19048 {
19049   return (int8x8_t) {__a, __a, __a, __a, __a, __a, __a, __a};
19050 }
19051
19052 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
19053 vdup_n_s16 (int16_t __a)
19054 {
19055   return (int16x4_t) {__a, __a, __a, __a};
19056 }
19057
19058 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
19059 vdup_n_s32 (int32_t __a)
19060 {
19061   return (int32x2_t) {__a, __a};
19062 }
19063
19064 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
19065 vdup_n_s64 (int64_t __a)
19066 {
19067   return __a;
19068 }
19069
19070 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
19071 vdup_n_u8 (uint8_t __a)
19072 {
19073   return (uint8x8_t) {__a, __a, __a, __a, __a, __a, __a, __a};
19074 }
19075
19076 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
19077 vdup_n_u16 (uint16_t __a)
19078 {
19079   return (uint16x4_t) {__a, __a, __a, __a};
19080 }
19081
19082 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
19083 vdup_n_u32 (uint32_t __a)
19084 {
19085   return (uint32x2_t) {__a, __a};
19086 }
19087
19088 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
19089 vdup_n_u64 (uint64_t __a)
19090 {
19091   return __a;
19092 }
19093
19094 /* vdupq_n  */
19095
19096 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
19097 vdupq_n_f32 (float32_t __a)
19098 {
19099   return (float32x4_t) {__a, __a, __a, __a};
19100 }
19101
19102 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
19103 vdupq_n_f64 (float64_t __a)
19104 {
19105   return (float64x2_t) {__a, __a};
19106 }
19107
19108 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
19109 vdupq_n_p8 (uint32_t __a)
19110 {
19111   return (poly8x16_t) {__a, __a, __a, __a, __a, __a, __a, __a,
19112                        __a, __a, __a, __a, __a, __a, __a, __a};
19113 }
19114
19115 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
19116 vdupq_n_p16 (uint32_t __a)
19117 {
19118   return (poly16x8_t) {__a, __a, __a, __a, __a, __a, __a, __a};
19119 }
19120
19121 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
19122 vdupq_n_s8 (int32_t __a)
19123 {
19124   return (int8x16_t) {__a, __a, __a, __a, __a, __a, __a, __a,
19125                       __a, __a, __a, __a, __a, __a, __a, __a};
19126 }
19127
19128 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
19129 vdupq_n_s16 (int32_t __a)
19130 {
19131   return (int16x8_t) {__a, __a, __a, __a, __a, __a, __a, __a};
19132 }
19133
19134 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19135 vdupq_n_s32 (int32_t __a)
19136 {
19137   return (int32x4_t) {__a, __a, __a, __a};
19138 }
19139
19140 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19141 vdupq_n_s64 (int64_t __a)
19142 {
19143   return (int64x2_t) {__a, __a};
19144 }
19145
19146 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
19147 vdupq_n_u8 (uint32_t __a)
19148 {
19149   return (uint8x16_t) {__a, __a, __a, __a, __a, __a, __a, __a,
19150                        __a, __a, __a, __a, __a, __a, __a, __a};
19151 }
19152
19153 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
19154 vdupq_n_u16 (uint32_t __a)
19155 {
19156   return (uint16x8_t) {__a, __a, __a, __a, __a, __a, __a, __a};
19157 }
19158
19159 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
19160 vdupq_n_u32 (uint32_t __a)
19161 {
19162   return (uint32x4_t) {__a, __a, __a, __a};
19163 }
19164
19165 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
19166 vdupq_n_u64 (uint64_t __a)
19167 {
19168   return (uint64x2_t) {__a, __a};
19169 }
19170
19171 /* vdup_lane  */
19172
19173 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
19174 vdup_lane_f32 (float32x2_t __a, const int __b)
19175 {
19176   return __aarch64_vdup_lane_f32 (__a, __b);
19177 }
19178
19179 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
19180 vdup_lane_f64 (float64x1_t __a, const int __b)
19181 {
19182   return __aarch64_vdup_lane_f64 (__a, __b);
19183 }
19184
19185 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
19186 vdup_lane_p8 (poly8x8_t __a, const int __b)
19187 {
19188   return __aarch64_vdup_lane_p8 (__a, __b);
19189 }
19190
19191 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
19192 vdup_lane_p16 (poly16x4_t __a, const int __b)
19193 {
19194   return __aarch64_vdup_lane_p16 (__a, __b);
19195 }
19196
19197 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
19198 vdup_lane_s8 (int8x8_t __a, const int __b)
19199 {
19200   return __aarch64_vdup_lane_s8 (__a, __b);
19201 }
19202
19203 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
19204 vdup_lane_s16 (int16x4_t __a, const int __b)
19205 {
19206   return __aarch64_vdup_lane_s16 (__a, __b);
19207 }
19208
19209 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
19210 vdup_lane_s32 (int32x2_t __a, const int __b)
19211 {
19212   return __aarch64_vdup_lane_s32 (__a, __b);
19213 }
19214
19215 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
19216 vdup_lane_s64 (int64x1_t __a, const int __b)
19217 {
19218   return __aarch64_vdup_lane_s64 (__a, __b);
19219 }
19220
19221 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
19222 vdup_lane_u8 (uint8x8_t __a, const int __b)
19223 {
19224   return __aarch64_vdup_lane_u8 (__a, __b);
19225 }
19226
19227 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
19228 vdup_lane_u16 (uint16x4_t __a, const int __b)
19229 {
19230   return __aarch64_vdup_lane_u16 (__a, __b);
19231 }
19232
19233 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
19234 vdup_lane_u32 (uint32x2_t __a, const int __b)
19235 {
19236   return __aarch64_vdup_lane_u32 (__a, __b);
19237 }
19238
19239 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
19240 vdup_lane_u64 (uint64x1_t __a, const int __b)
19241 {
19242   return __aarch64_vdup_lane_u64 (__a, __b);
19243 }
19244
19245 /* vdup_laneq  */
19246
19247 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
19248 vdup_laneq_f32 (float32x4_t __a, const int __b)
19249 {
19250   return __aarch64_vdup_laneq_f32 (__a, __b);
19251 }
19252
19253 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
19254 vdup_laneq_f64 (float64x2_t __a, const int __b)
19255 {
19256   return __aarch64_vdup_laneq_f64 (__a, __b);
19257 }
19258
19259 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
19260 vdup_laneq_p8 (poly8x16_t __a, const int __b)
19261 {
19262   return __aarch64_vdup_laneq_p8 (__a, __b);
19263 }
19264
19265 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
19266 vdup_laneq_p16 (poly16x8_t __a, const int __b)
19267 {
19268   return __aarch64_vdup_laneq_p16 (__a, __b);
19269 }
19270
19271 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
19272 vdup_laneq_s8 (int8x16_t __a, const int __b)
19273 {
19274   return __aarch64_vdup_laneq_s8 (__a, __b);
19275 }
19276
19277 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
19278 vdup_laneq_s16 (int16x8_t __a, const int __b)
19279 {
19280   return __aarch64_vdup_laneq_s16 (__a, __b);
19281 }
19282
19283 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
19284 vdup_laneq_s32 (int32x4_t __a, const int __b)
19285 {
19286   return __aarch64_vdup_laneq_s32 (__a, __b);
19287 }
19288
19289 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
19290 vdup_laneq_s64 (int64x2_t __a, const int __b)
19291 {
19292   return __aarch64_vdup_laneq_s64 (__a, __b);
19293 }
19294
19295 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
19296 vdup_laneq_u8 (uint8x16_t __a, const int __b)
19297 {
19298   return __aarch64_vdup_laneq_u8 (__a, __b);
19299 }
19300
19301 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
19302 vdup_laneq_u16 (uint16x8_t __a, const int __b)
19303 {
19304   return __aarch64_vdup_laneq_u16 (__a, __b);
19305 }
19306
19307 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
19308 vdup_laneq_u32 (uint32x4_t __a, const int __b)
19309 {
19310   return __aarch64_vdup_laneq_u32 (__a, __b);
19311 }
19312
19313 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
19314 vdup_laneq_u64 (uint64x2_t __a, const int __b)
19315 {
19316   return __aarch64_vdup_laneq_u64 (__a, __b);
19317 }
19318
19319 /* vdupq_lane  */
19320 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
19321 vdupq_lane_f32 (float32x2_t __a, const int __b)
19322 {
19323   return __aarch64_vdupq_lane_f32 (__a, __b);
19324 }
19325
19326 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
19327 vdupq_lane_f64 (float64x1_t __a, const int __b)
19328 {
19329   return __aarch64_vdupq_lane_f64 (__a, __b);
19330 }
19331
19332 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
19333 vdupq_lane_p8 (poly8x8_t __a, const int __b)
19334 {
19335   return __aarch64_vdupq_lane_p8 (__a, __b);
19336 }
19337
19338 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
19339 vdupq_lane_p16 (poly16x4_t __a, const int __b)
19340 {
19341   return __aarch64_vdupq_lane_p16 (__a, __b);
19342 }
19343
19344 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
19345 vdupq_lane_s8 (int8x8_t __a, const int __b)
19346 {
19347   return __aarch64_vdupq_lane_s8 (__a, __b);
19348 }
19349
19350 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
19351 vdupq_lane_s16 (int16x4_t __a, const int __b)
19352 {
19353   return __aarch64_vdupq_lane_s16 (__a, __b);
19354 }
19355
19356 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19357 vdupq_lane_s32 (int32x2_t __a, const int __b)
19358 {
19359   return __aarch64_vdupq_lane_s32 (__a, __b);
19360 }
19361
19362 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19363 vdupq_lane_s64 (int64x1_t __a, const int __b)
19364 {
19365   return __aarch64_vdupq_lane_s64 (__a, __b);
19366 }
19367
19368 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
19369 vdupq_lane_u8 (uint8x8_t __a, const int __b)
19370 {
19371   return __aarch64_vdupq_lane_u8 (__a, __b);
19372 }
19373
19374 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
19375 vdupq_lane_u16 (uint16x4_t __a, const int __b)
19376 {
19377   return __aarch64_vdupq_lane_u16 (__a, __b);
19378 }
19379
19380 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
19381 vdupq_lane_u32 (uint32x2_t __a, const int __b)
19382 {
19383   return __aarch64_vdupq_lane_u32 (__a, __b);
19384 }
19385
19386 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
19387 vdupq_lane_u64 (uint64x1_t __a, const int __b)
19388 {
19389   return __aarch64_vdupq_lane_u64 (__a, __b);
19390 }
19391
19392 /* vdupq_laneq  */
19393 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
19394 vdupq_laneq_f32 (float32x4_t __a, const int __b)
19395 {
19396   return __aarch64_vdupq_laneq_f32 (__a, __b);
19397 }
19398
19399 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
19400 vdupq_laneq_f64 (float64x2_t __a, const int __b)
19401 {
19402   return __aarch64_vdupq_laneq_f64 (__a, __b);
19403 }
19404
19405 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
19406 vdupq_laneq_p8 (poly8x16_t __a, const int __b)
19407 {
19408   return __aarch64_vdupq_laneq_p8 (__a, __b);
19409 }
19410
19411 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
19412 vdupq_laneq_p16 (poly16x8_t __a, const int __b)
19413 {
19414   return __aarch64_vdupq_laneq_p16 (__a, __b);
19415 }
19416
19417 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
19418 vdupq_laneq_s8 (int8x16_t __a, const int __b)
19419 {
19420   return __aarch64_vdupq_laneq_s8 (__a, __b);
19421 }
19422
19423 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
19424 vdupq_laneq_s16 (int16x8_t __a, const int __b)
19425 {
19426   return __aarch64_vdupq_laneq_s16 (__a, __b);
19427 }
19428
19429 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19430 vdupq_laneq_s32 (int32x4_t __a, const int __b)
19431 {
19432   return __aarch64_vdupq_laneq_s32 (__a, __b);
19433 }
19434
19435 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19436 vdupq_laneq_s64 (int64x2_t __a, const int __b)
19437 {
19438   return __aarch64_vdupq_laneq_s64 (__a, __b);
19439 }
19440
19441 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
19442 vdupq_laneq_u8 (uint8x16_t __a, const int __b)
19443 {
19444   return __aarch64_vdupq_laneq_u8 (__a, __b);
19445 }
19446
19447 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
19448 vdupq_laneq_u16 (uint16x8_t __a, const int __b)
19449 {
19450   return __aarch64_vdupq_laneq_u16 (__a, __b);
19451 }
19452
19453 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
19454 vdupq_laneq_u32 (uint32x4_t __a, const int __b)
19455 {
19456   return __aarch64_vdupq_laneq_u32 (__a, __b);
19457 }
19458
19459 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
19460 vdupq_laneq_u64 (uint64x2_t __a, const int __b)
19461 {
19462   return __aarch64_vdupq_laneq_u64 (__a, __b);
19463 }
19464
19465 /* vdupb_lane  */
19466 __extension__ static __inline poly8_t __attribute__ ((__always_inline__))
19467 vdupb_lane_p8 (poly8x8_t __a, const int __b)
19468 {
19469   return __aarch64_vget_lane_p8 (__a, __b);
19470 }
19471
19472 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
19473 vdupb_lane_s8 (int8x8_t __a, const int __b)
19474 {
19475   return __aarch64_vget_lane_s8 (__a, __b);
19476 }
19477
19478 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
19479 vdupb_lane_u8 (uint8x8_t __a, const int __b)
19480 {
19481   return __aarch64_vget_lane_u8 (__a, __b);
19482 }
19483
19484 /* vduph_lane  */
19485 __extension__ static __inline poly16_t __attribute__ ((__always_inline__))
19486 vduph_lane_p16 (poly16x4_t __a, const int __b)
19487 {
19488   return __aarch64_vget_lane_p16 (__a, __b);
19489 }
19490
19491 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19492 vduph_lane_s16 (int16x4_t __a, const int __b)
19493 {
19494   return __aarch64_vget_lane_s16 (__a, __b);
19495 }
19496
19497 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
19498 vduph_lane_u16 (uint16x4_t __a, const int __b)
19499 {
19500   return __aarch64_vget_lane_u16 (__a, __b);
19501 }
19502
19503 /* vdups_lane  */
19504 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
19505 vdups_lane_f32 (float32x2_t __a, const int __b)
19506 {
19507   return __aarch64_vget_lane_f32 (__a, __b);
19508 }
19509
19510 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19511 vdups_lane_s32 (int32x2_t __a, const int __b)
19512 {
19513   return __aarch64_vget_lane_s32 (__a, __b);
19514 }
19515
19516 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
19517 vdups_lane_u32 (uint32x2_t __a, const int __b)
19518 {
19519   return __aarch64_vget_lane_u32 (__a, __b);
19520 }
19521
19522 /* vdupd_lane  */
19523 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
19524 vdupd_lane_f64 (float64x1_t __a, const int __attribute__ ((unused)) __b)
19525 {
19526   return __a;
19527 }
19528
19529 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19530 vdupd_lane_s64 (int64x1_t __a, const int __attribute__ ((unused)) __b)
19531 {
19532   return __a;
19533 }
19534
19535 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
19536 vdupd_lane_u64 (uint64x1_t __a, const int __attribute__ ((unused)) __b)
19537 {
19538   return __a;
19539 }
19540
19541 /* vdupb_laneq  */
19542 __extension__ static __inline poly8_t __attribute__ ((__always_inline__))
19543 vdupb_laneq_p8 (poly8x16_t __a, const int __b)
19544 {
19545   return __aarch64_vgetq_lane_p8 (__a, __b);
19546 }
19547
19548 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
19549 vdupb_laneq_s8 (int8x16_t __a, const int __attribute__ ((unused)) __b)
19550 {
19551   return __aarch64_vgetq_lane_s8 (__a, __b);
19552 }
19553
19554 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
19555 vdupb_laneq_u8 (uint8x16_t __a, const int __b)
19556 {
19557   return __aarch64_vgetq_lane_u8 (__a, __b);
19558 }
19559
19560 /* vduph_laneq  */
19561 __extension__ static __inline poly16_t __attribute__ ((__always_inline__))
19562 vduph_laneq_p16 (poly16x8_t __a, const int __b)
19563 {
19564   return __aarch64_vgetq_lane_p16 (__a, __b);
19565 }
19566
19567 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
19568 vduph_laneq_s16 (int16x8_t __a, const int __b)
19569 {
19570   return __aarch64_vgetq_lane_s16 (__a, __b);
19571 }
19572
19573 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
19574 vduph_laneq_u16 (uint16x8_t __a, const int __b)
19575 {
19576   return __aarch64_vgetq_lane_u16 (__a, __b);
19577 }
19578
19579 /* vdups_laneq  */
19580 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
19581 vdups_laneq_f32 (float32x4_t __a, const int __b)
19582 {
19583   return __aarch64_vgetq_lane_f32 (__a, __b);
19584 }
19585
19586 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
19587 vdups_laneq_s32 (int32x4_t __a, const int __b)
19588 {
19589   return __aarch64_vgetq_lane_s32 (__a, __b);
19590 }
19591
19592 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
19593 vdups_laneq_u32 (uint32x4_t __a, const int __b)
19594 {
19595   return __aarch64_vgetq_lane_u32 (__a, __b);
19596 }
19597
19598 /* vdupd_laneq  */
19599 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
19600 vdupd_laneq_f64 (float64x2_t __a, const int __b)
19601 {
19602   return __aarch64_vgetq_lane_f64 (__a, __b);
19603 }
19604
19605 __extension__ static __inline int64_t __attribute__ ((__always_inline__))
19606 vdupd_laneq_s64 (int64x2_t __a, const int __b)
19607 {
19608   return __aarch64_vgetq_lane_s64 (__a, __b);
19609 }
19610
19611 __extension__ static __inline uint64_t __attribute__ ((__always_inline__))
19612 vdupd_laneq_u64 (uint64x2_t __a, const int __b)
19613 {
19614   return __aarch64_vgetq_lane_u64 (__a, __b);
19615 }
19616
19617 /* vld1 */
19618
19619 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
19620 vld1_f32 (const float32_t *a)
19621 {
19622   return __builtin_aarch64_ld1v2sf ((const __builtin_aarch64_simd_sf *) a);
19623 }
19624
19625 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
19626 vld1_f64 (const float64_t *a)
19627 {
19628   return *a;
19629 }
19630
19631 __extension__ static __inline poly8x8_t __attribute__ ((__always_inline__))
19632 vld1_p8 (const poly8_t *a)
19633 {
19634   return (poly8x8_t)
19635     __builtin_aarch64_ld1v8qi ((const __builtin_aarch64_simd_qi *) a);
19636 }
19637
19638 __extension__ static __inline poly16x4_t __attribute__ ((__always_inline__))
19639 vld1_p16 (const poly16_t *a)
19640 {
19641   return (poly16x4_t)
19642     __builtin_aarch64_ld1v4hi ((const __builtin_aarch64_simd_hi *) a);
19643 }
19644
19645 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
19646 vld1_s8 (const int8_t *a)
19647 {
19648   return __builtin_aarch64_ld1v8qi ((const __builtin_aarch64_simd_qi *) a);
19649 }
19650
19651 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
19652 vld1_s16 (const int16_t *a)
19653 {
19654   return __builtin_aarch64_ld1v4hi ((const __builtin_aarch64_simd_hi *) a);
19655 }
19656
19657 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
19658 vld1_s32 (const int32_t *a)
19659 {
19660   return __builtin_aarch64_ld1v2si ((const __builtin_aarch64_simd_si *) a);
19661 }
19662
19663 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
19664 vld1_s64 (const int64_t *a)
19665 {
19666   return *a;
19667 }
19668
19669 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
19670 vld1_u8 (const uint8_t *a)
19671 {
19672   return (uint8x8_t)
19673     __builtin_aarch64_ld1v8qi ((const __builtin_aarch64_simd_qi *) a);
19674 }
19675
19676 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
19677 vld1_u16 (const uint16_t *a)
19678 {
19679   return (uint16x4_t)
19680     __builtin_aarch64_ld1v4hi ((const __builtin_aarch64_simd_hi *) a);
19681 }
19682
19683 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
19684 vld1_u32 (const uint32_t *a)
19685 {
19686   return (uint32x2_t)
19687     __builtin_aarch64_ld1v2si ((const __builtin_aarch64_simd_si *) a);
19688 }
19689
19690 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
19691 vld1_u64 (const uint64_t *a)
19692 {
19693   return *a;
19694 }
19695
19696 /* vld1q */
19697
19698 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
19699 vld1q_f32 (const float32_t *a)
19700 {
19701   return __builtin_aarch64_ld1v4sf ((const __builtin_aarch64_simd_sf *) a);
19702 }
19703
19704 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
19705 vld1q_f64 (const float64_t *a)
19706 {
19707   return __builtin_aarch64_ld1v2df ((const __builtin_aarch64_simd_df *) a);
19708 }
19709
19710 __extension__ static __inline poly8x16_t __attribute__ ((__always_inline__))
19711 vld1q_p8 (const poly8_t *a)
19712 {
19713   return (poly8x16_t)
19714     __builtin_aarch64_ld1v16qi ((const __builtin_aarch64_simd_qi *) a);
19715 }
19716
19717 __extension__ static __inline poly16x8_t __attribute__ ((__always_inline__))
19718 vld1q_p16 (const poly16_t *a)
19719 {
19720   return (poly16x8_t)
19721     __builtin_aarch64_ld1v8hi ((const __builtin_aarch64_simd_hi *) a);
19722 }
19723
19724 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
19725 vld1q_s8 (const int8_t *a)
19726 {
19727   return __builtin_aarch64_ld1v16qi ((const __builtin_aarch64_simd_qi *) a);
19728 }
19729
19730 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
19731 vld1q_s16 (const int16_t *a)
19732 {
19733   return __builtin_aarch64_ld1v8hi ((const __builtin_aarch64_simd_hi *) a);
19734 }
19735
19736 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
19737 vld1q_s32 (const int32_t *a)
19738 {
19739   return __builtin_aarch64_ld1v4si ((const __builtin_aarch64_simd_si *) a);
19740 }
19741
19742 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
19743 vld1q_s64 (const int64_t *a)
19744 {
19745   return __builtin_aarch64_ld1v2di ((const __builtin_aarch64_simd_di *) a);
19746 }
19747
19748 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
19749 vld1q_u8 (const uint8_t *a)
19750 {
19751   return (uint8x16_t)
19752     __builtin_aarch64_ld1v16qi ((const __builtin_aarch64_simd_qi *) a);
19753 }
19754
19755 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
19756 vld1q_u16 (const uint16_t *a)
19757 {
19758   return (uint16x8_t)
19759     __builtin_aarch64_ld1v8hi ((const __builtin_aarch64_simd_hi *) a);
19760 }
19761
19762 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
19763 vld1q_u32 (const uint32_t *a)
19764 {
19765   return (uint32x4_t)
19766     __builtin_aarch64_ld1v4si ((const __builtin_aarch64_simd_si *) a);
19767 }
19768
19769 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
19770 vld1q_u64 (const uint64_t *a)
19771 {
19772   return (uint64x2_t)
19773     __builtin_aarch64_ld1v2di ((const __builtin_aarch64_simd_di *) a);
19774 }
19775
19776 /* vldn */
19777
19778 __extension__ static __inline int64x1x2_t __attribute__ ((__always_inline__))
19779 vld2_s64 (const int64_t * __a)
19780 {
19781   int64x1x2_t ret;
19782   __builtin_aarch64_simd_oi __o;
19783   __o = __builtin_aarch64_ld2di ((const __builtin_aarch64_simd_di *) __a);
19784   ret.val[0] = (int64x1_t) __builtin_aarch64_get_dregoidi (__o, 0);
19785   ret.val[1] = (int64x1_t) __builtin_aarch64_get_dregoidi (__o, 1);
19786   return ret;
19787 }
19788
19789 __extension__ static __inline uint64x1x2_t __attribute__ ((__always_inline__))
19790 vld2_u64 (const uint64_t * __a)
19791 {
19792   uint64x1x2_t ret;
19793   __builtin_aarch64_simd_oi __o;
19794   __o = __builtin_aarch64_ld2di ((const __builtin_aarch64_simd_di *) __a);
19795   ret.val[0] = (uint64x1_t) __builtin_aarch64_get_dregoidi (__o, 0);
19796   ret.val[1] = (uint64x1_t) __builtin_aarch64_get_dregoidi (__o, 1);
19797   return ret;
19798 }
19799
19800 __extension__ static __inline float64x1x2_t __attribute__ ((__always_inline__))
19801 vld2_f64 (const float64_t * __a)
19802 {
19803   float64x1x2_t ret;
19804   __builtin_aarch64_simd_oi __o;
19805   __o = __builtin_aarch64_ld2df ((const __builtin_aarch64_simd_df *) __a);
19806   ret.val[0] = (float64x1_t) __builtin_aarch64_get_dregoidf (__o, 0);
19807   ret.val[1] = (float64x1_t) __builtin_aarch64_get_dregoidf (__o, 1);
19808   return ret;
19809 }
19810
19811 __extension__ static __inline int8x8x2_t __attribute__ ((__always_inline__))
19812 vld2_s8 (const int8_t * __a)
19813 {
19814   int8x8x2_t ret;
19815   __builtin_aarch64_simd_oi __o;
19816   __o = __builtin_aarch64_ld2v8qi ((const __builtin_aarch64_simd_qi *) __a);
19817   ret.val[0] = (int8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 0);
19818   ret.val[1] = (int8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 1);
19819   return ret;
19820 }
19821
19822 __extension__ static __inline poly8x8x2_t __attribute__ ((__always_inline__))
19823 vld2_p8 (const poly8_t * __a)
19824 {
19825   poly8x8x2_t ret;
19826   __builtin_aarch64_simd_oi __o;
19827   __o = __builtin_aarch64_ld2v8qi ((const __builtin_aarch64_simd_qi *) __a);
19828   ret.val[0] = (poly8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 0);
19829   ret.val[1] = (poly8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 1);
19830   return ret;
19831 }
19832
19833 __extension__ static __inline int16x4x2_t __attribute__ ((__always_inline__))
19834 vld2_s16 (const int16_t * __a)
19835 {
19836   int16x4x2_t ret;
19837   __builtin_aarch64_simd_oi __o;
19838   __o = __builtin_aarch64_ld2v4hi ((const __builtin_aarch64_simd_hi *) __a);
19839   ret.val[0] = (int16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 0);
19840   ret.val[1] = (int16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 1);
19841   return ret;
19842 }
19843
19844 __extension__ static __inline poly16x4x2_t __attribute__ ((__always_inline__))
19845 vld2_p16 (const poly16_t * __a)
19846 {
19847   poly16x4x2_t ret;
19848   __builtin_aarch64_simd_oi __o;
19849   __o = __builtin_aarch64_ld2v4hi ((const __builtin_aarch64_simd_hi *) __a);
19850   ret.val[0] = (poly16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 0);
19851   ret.val[1] = (poly16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 1);
19852   return ret;
19853 }
19854
19855 __extension__ static __inline int32x2x2_t __attribute__ ((__always_inline__))
19856 vld2_s32 (const int32_t * __a)
19857 {
19858   int32x2x2_t ret;
19859   __builtin_aarch64_simd_oi __o;
19860   __o = __builtin_aarch64_ld2v2si ((const __builtin_aarch64_simd_si *) __a);
19861   ret.val[0] = (int32x2_t) __builtin_aarch64_get_dregoiv2si (__o, 0);
19862   ret.val[1] = (int32x2_t) __builtin_aarch64_get_dregoiv2si (__o, 1);
19863   return ret;
19864 }
19865
19866 __extension__ static __inline uint8x8x2_t __attribute__ ((__always_inline__))
19867 vld2_u8 (const uint8_t * __a)
19868 {
19869   uint8x8x2_t ret;
19870   __builtin_aarch64_simd_oi __o;
19871   __o = __builtin_aarch64_ld2v8qi ((const __builtin_aarch64_simd_qi *) __a);
19872   ret.val[0] = (uint8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 0);
19873   ret.val[1] = (uint8x8_t) __builtin_aarch64_get_dregoiv8qi (__o, 1);
19874   return ret;
19875 }
19876
19877 __extension__ static __inline uint16x4x2_t __attribute__ ((__always_inline__))
19878 vld2_u16 (const uint16_t * __a)
19879 {
19880   uint16x4x2_t ret;
19881   __builtin_aarch64_simd_oi __o;
19882   __o = __builtin_aarch64_ld2v4hi ((const __builtin_aarch64_simd_hi *) __a);
19883   ret.val[0] = (uint16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 0);
19884   ret.val[1] = (uint16x4_t) __builtin_aarch64_get_dregoiv4hi (__o, 1);
19885   return ret;
19886 }
19887
19888 __extension__ static __inline uint32x2x2_t __attribute__ ((__always_inline__))
19889 vld2_u32 (const uint32_t * __a)
19890 {
19891   uint32x2x2_t ret;
19892   __builtin_aarch64_simd_oi __o;
19893   __o = __builtin_aarch64_ld2v2si ((const __builtin_aarch64_simd_si *) __a);
19894   ret.val[0] = (uint32x2_t) __builtin_aarch64_get_dregoiv2si (__o, 0);
19895   ret.val[1] = (uint32x2_t) __builtin_aarch64_get_dregoiv2si (__o, 1);
19896   return ret;
19897 }
19898
19899 __extension__ static __inline float32x2x2_t __attribute__ ((__always_inline__))
19900 vld2_f32 (const float32_t * __a)
19901 {
19902   float32x2x2_t ret;
19903   __builtin_aarch64_simd_oi __o;
19904   __o = __builtin_aarch64_ld2v2sf ((const __builtin_aarch64_simd_sf *) __a);
19905   ret.val[0] = (float32x2_t) __builtin_aarch64_get_dregoiv2sf (__o, 0);
19906   ret.val[1] = (float32x2_t) __builtin_aarch64_get_dregoiv2sf (__o, 1);
19907   return ret;
19908 }
19909
19910 __extension__ static __inline int8x16x2_t __attribute__ ((__always_inline__))
19911 vld2q_s8 (const int8_t * __a)
19912 {
19913   int8x16x2_t ret;
19914   __builtin_aarch64_simd_oi __o;
19915   __o = __builtin_aarch64_ld2v16qi ((const __builtin_aarch64_simd_qi *) __a);
19916   ret.val[0] = (int8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 0);
19917   ret.val[1] = (int8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 1);
19918   return ret;
19919 }
19920
19921 __extension__ static __inline poly8x16x2_t __attribute__ ((__always_inline__))
19922 vld2q_p8 (const poly8_t * __a)
19923 {
19924   poly8x16x2_t ret;
19925   __builtin_aarch64_simd_oi __o;
19926   __o = __builtin_aarch64_ld2v16qi ((const __builtin_aarch64_simd_qi *) __a);
19927   ret.val[0] = (poly8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 0);
19928   ret.val[1] = (poly8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 1);
19929   return ret;
19930 }
19931
19932 __extension__ static __inline int16x8x2_t __attribute__ ((__always_inline__))
19933 vld2q_s16 (const int16_t * __a)
19934 {
19935   int16x8x2_t ret;
19936   __builtin_aarch64_simd_oi __o;
19937   __o = __builtin_aarch64_ld2v8hi ((const __builtin_aarch64_simd_hi *) __a);
19938   ret.val[0] = (int16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 0);
19939   ret.val[1] = (int16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 1);
19940   return ret;
19941 }
19942
19943 __extension__ static __inline poly16x8x2_t __attribute__ ((__always_inline__))
19944 vld2q_p16 (const poly16_t * __a)
19945 {
19946   poly16x8x2_t ret;
19947   __builtin_aarch64_simd_oi __o;
19948   __o = __builtin_aarch64_ld2v8hi ((const __builtin_aarch64_simd_hi *) __a);
19949   ret.val[0] = (poly16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 0);
19950   ret.val[1] = (poly16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 1);
19951   return ret;
19952 }
19953
19954 __extension__ static __inline int32x4x2_t __attribute__ ((__always_inline__))
19955 vld2q_s32 (const int32_t * __a)
19956 {
19957   int32x4x2_t ret;
19958   __builtin_aarch64_simd_oi __o;
19959   __o = __builtin_aarch64_ld2v4si ((const __builtin_aarch64_simd_si *) __a);
19960   ret.val[0] = (int32x4_t) __builtin_aarch64_get_qregoiv4si (__o, 0);
19961   ret.val[1] = (int32x4_t) __builtin_aarch64_get_qregoiv4si (__o, 1);
19962   return ret;
19963 }
19964
19965 __extension__ static __inline int64x2x2_t __attribute__ ((__always_inline__))
19966 vld2q_s64 (const int64_t * __a)
19967 {
19968   int64x2x2_t ret;
19969   __builtin_aarch64_simd_oi __o;
19970   __o = __builtin_aarch64_ld2v2di ((const __builtin_aarch64_simd_di *) __a);
19971   ret.val[0] = (int64x2_t) __builtin_aarch64_get_qregoiv2di (__o, 0);
19972   ret.val[1] = (int64x2_t) __builtin_aarch64_get_qregoiv2di (__o, 1);
19973   return ret;
19974 }
19975
19976 __extension__ static __inline uint8x16x2_t __attribute__ ((__always_inline__))
19977 vld2q_u8 (const uint8_t * __a)
19978 {
19979   uint8x16x2_t ret;
19980   __builtin_aarch64_simd_oi __o;
19981   __o = __builtin_aarch64_ld2v16qi ((const __builtin_aarch64_simd_qi *) __a);
19982   ret.val[0] = (uint8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 0);
19983   ret.val[1] = (uint8x16_t) __builtin_aarch64_get_qregoiv16qi (__o, 1);
19984   return ret;
19985 }
19986
19987 __extension__ static __inline uint16x8x2_t __attribute__ ((__always_inline__))
19988 vld2q_u16 (const uint16_t * __a)
19989 {
19990   uint16x8x2_t ret;
19991   __builtin_aarch64_simd_oi __o;
19992   __o = __builtin_aarch64_ld2v8hi ((const __builtin_aarch64_simd_hi *) __a);
19993   ret.val[0] = (uint16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 0);
19994   ret.val[1] = (uint16x8_t) __builtin_aarch64_get_qregoiv8hi (__o, 1);
19995   return ret;
19996 }
19997
19998 __extension__ static __inline uint32x4x2_t __attribute__ ((__always_inline__))
19999 vld2q_u32 (const uint32_t * __a)
20000 {
20001   uint32x4x2_t ret;
20002   __builtin_aarch64_simd_oi __o;
20003   __o = __builtin_aarch64_ld2v4si ((const __builtin_aarch64_simd_si *) __a);
20004   ret.val[0] = (uint32x4_t) __builtin_aarch64_get_qregoiv4si (__o, 0);
20005   ret.val[1] = (uint32x4_t) __builtin_aarch64_get_qregoiv4si (__o, 1);
20006   return ret;
20007 }
20008
20009 __extension__ static __inline uint64x2x2_t __attribute__ ((__always_inline__))
20010 vld2q_u64 (const uint64_t * __a)
20011 {
20012   uint64x2x2_t ret;
20013   __builtin_aarch64_simd_oi __o;
20014   __o = __builtin_aarch64_ld2v2di ((const __builtin_aarch64_simd_di *) __a);
20015   ret.val[0] = (uint64x2_t) __builtin_aarch64_get_qregoiv2di (__o, 0);
20016   ret.val[1] = (uint64x2_t) __builtin_aarch64_get_qregoiv2di (__o, 1);
20017   return ret;
20018 }
20019
20020 __extension__ static __inline float32x4x2_t __attribute__ ((__always_inline__))
20021 vld2q_f32 (const float32_t * __a)
20022 {
20023   float32x4x2_t ret;
20024   __builtin_aarch64_simd_oi __o;
20025   __o = __builtin_aarch64_ld2v4sf ((const __builtin_aarch64_simd_sf *) __a);
20026   ret.val[0] = (float32x4_t) __builtin_aarch64_get_qregoiv4sf (__o, 0);
20027   ret.val[1] = (float32x4_t) __builtin_aarch64_get_qregoiv4sf (__o, 1);
20028   return ret;
20029 }
20030
20031 __extension__ static __inline float64x2x2_t __attribute__ ((__always_inline__))
20032 vld2q_f64 (const float64_t * __a)
20033 {
20034   float64x2x2_t ret;
20035   __builtin_aarch64_simd_oi __o;
20036   __o = __builtin_aarch64_ld2v2df ((const __builtin_aarch64_simd_df *) __a);
20037   ret.val[0] = (float64x2_t) __builtin_aarch64_get_qregoiv2df (__o, 0);
20038   ret.val[1] = (float64x2_t) __builtin_aarch64_get_qregoiv2df (__o, 1);
20039   return ret;
20040 }
20041
20042 __extension__ static __inline int64x1x3_t __attribute__ ((__always_inline__))
20043 vld3_s64 (const int64_t * __a)
20044 {
20045   int64x1x3_t ret;
20046   __builtin_aarch64_simd_ci __o;
20047   __o = __builtin_aarch64_ld3di ((const __builtin_aarch64_simd_di *) __a);
20048   ret.val[0] = (int64x1_t) __builtin_aarch64_get_dregcidi (__o, 0);
20049   ret.val[1] = (int64x1_t) __builtin_aarch64_get_dregcidi (__o, 1);
20050   ret.val[2] = (int64x1_t) __builtin_aarch64_get_dregcidi (__o, 2);
20051   return ret;
20052 }
20053
20054 __extension__ static __inline uint64x1x3_t __attribute__ ((__always_inline__))
20055 vld3_u64 (const uint64_t * __a)
20056 {
20057   uint64x1x3_t ret;
20058   __builtin_aarch64_simd_ci __o;
20059   __o = __builtin_aarch64_ld3di ((const __builtin_aarch64_simd_di *) __a);
20060   ret.val[0] = (uint64x1_t) __builtin_aarch64_get_dregcidi (__o, 0);
20061   ret.val[1] = (uint64x1_t) __builtin_aarch64_get_dregcidi (__o, 1);
20062   ret.val[2] = (uint64x1_t) __builtin_aarch64_get_dregcidi (__o, 2);
20063   return ret;
20064 }
20065
20066 __extension__ static __inline float64x1x3_t __attribute__ ((__always_inline__))
20067 vld3_f64 (const float64_t * __a)
20068 {
20069   float64x1x3_t ret;
20070   __builtin_aarch64_simd_ci __o;
20071   __o = __builtin_aarch64_ld3df ((const __builtin_aarch64_simd_df *) __a);
20072   ret.val[0] = (float64x1_t) __builtin_aarch64_get_dregcidf (__o, 0);
20073   ret.val[1] = (float64x1_t) __builtin_aarch64_get_dregcidf (__o, 1);
20074   ret.val[2] = (float64x1_t) __builtin_aarch64_get_dregcidf (__o, 2);
20075   return ret;
20076 }
20077
20078 __extension__ static __inline int8x8x3_t __attribute__ ((__always_inline__))
20079 vld3_s8 (const int8_t * __a)
20080 {
20081   int8x8x3_t ret;
20082   __builtin_aarch64_simd_ci __o;
20083   __o = __builtin_aarch64_ld3v8qi ((const __builtin_aarch64_simd_qi *) __a);
20084   ret.val[0] = (int8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 0);
20085   ret.val[1] = (int8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 1);
20086   ret.val[2] = (int8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 2);
20087   return ret;
20088 }
20089
20090 __extension__ static __inline poly8x8x3_t __attribute__ ((__always_inline__))
20091 vld3_p8 (const poly8_t * __a)
20092 {
20093   poly8x8x3_t ret;
20094   __builtin_aarch64_simd_ci __o;
20095   __o = __builtin_aarch64_ld3v8qi ((const __builtin_aarch64_simd_qi *) __a);
20096   ret.val[0] = (poly8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 0);
20097   ret.val[1] = (poly8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 1);
20098   ret.val[2] = (poly8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 2);
20099   return ret;
20100 }
20101
20102 __extension__ static __inline int16x4x3_t __attribute__ ((__always_inline__))
20103 vld3_s16 (const int16_t * __a)
20104 {
20105   int16x4x3_t ret;
20106   __builtin_aarch64_simd_ci __o;
20107   __o = __builtin_aarch64_ld3v4hi ((const __builtin_aarch64_simd_hi *) __a);
20108   ret.val[0] = (int16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 0);
20109   ret.val[1] = (int16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 1);
20110   ret.val[2] = (int16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 2);
20111   return ret;
20112 }
20113
20114 __extension__ static __inline poly16x4x3_t __attribute__ ((__always_inline__))
20115 vld3_p16 (const poly16_t * __a)
20116 {
20117   poly16x4x3_t ret;
20118   __builtin_aarch64_simd_ci __o;
20119   __o = __builtin_aarch64_ld3v4hi ((const __builtin_aarch64_simd_hi *) __a);
20120   ret.val[0] = (poly16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 0);
20121   ret.val[1] = (poly16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 1);
20122   ret.val[2] = (poly16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 2);
20123   return ret;
20124 }
20125
20126 __extension__ static __inline int32x2x3_t __attribute__ ((__always_inline__))
20127 vld3_s32 (const int32_t * __a)
20128 {
20129   int32x2x3_t ret;
20130   __builtin_aarch64_simd_ci __o;
20131   __o = __builtin_aarch64_ld3v2si ((const __builtin_aarch64_simd_si *) __a);
20132   ret.val[0] = (int32x2_t) __builtin_aarch64_get_dregciv2si (__o, 0);
20133   ret.val[1] = (int32x2_t) __builtin_aarch64_get_dregciv2si (__o, 1);
20134   ret.val[2] = (int32x2_t) __builtin_aarch64_get_dregciv2si (__o, 2);
20135   return ret;
20136 }
20137
20138 __extension__ static __inline uint8x8x3_t __attribute__ ((__always_inline__))
20139 vld3_u8 (const uint8_t * __a)
20140 {
20141   uint8x8x3_t ret;
20142   __builtin_aarch64_simd_ci __o;
20143   __o = __builtin_aarch64_ld3v8qi ((const __builtin_aarch64_simd_qi *) __a);
20144   ret.val[0] = (uint8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 0);
20145   ret.val[1] = (uint8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 1);
20146   ret.val[2] = (uint8x8_t) __builtin_aarch64_get_dregciv8qi (__o, 2);
20147   return ret;
20148 }
20149
20150 __extension__ static __inline uint16x4x3_t __attribute__ ((__always_inline__))
20151 vld3_u16 (const uint16_t * __a)
20152 {
20153   uint16x4x3_t ret;
20154   __builtin_aarch64_simd_ci __o;
20155   __o = __builtin_aarch64_ld3v4hi ((const __builtin_aarch64_simd_hi *) __a);
20156   ret.val[0] = (uint16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 0);
20157   ret.val[1] = (uint16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 1);
20158   ret.val[2] = (uint16x4_t) __builtin_aarch64_get_dregciv4hi (__o, 2);
20159   return ret;
20160 }
20161
20162 __extension__ static __inline uint32x2x3_t __attribute__ ((__always_inline__))
20163 vld3_u32 (const uint32_t * __a)
20164 {
20165   uint32x2x3_t ret;
20166   __builtin_aarch64_simd_ci __o;
20167   __o = __builtin_aarch64_ld3v2si ((const __builtin_aarch64_simd_si *) __a);
20168   ret.val[0] = (uint32x2_t) __builtin_aarch64_get_dregciv2si (__o, 0);
20169   ret.val[1] = (uint32x2_t) __builtin_aarch64_get_dregciv2si (__o, 1);
20170   ret.val[2] = (uint32x2_t) __builtin_aarch64_get_dregciv2si (__o, 2);
20171   return ret;
20172 }
20173
20174 __extension__ static __inline float32x2x3_t __attribute__ ((__always_inline__))
20175 vld3_f32 (const float32_t * __a)
20176 {
20177   float32x2x3_t ret;
20178   __builtin_aarch64_simd_ci __o;
20179   __o = __builtin_aarch64_ld3v2sf ((const __builtin_aarch64_simd_sf *) __a);
20180   ret.val[0] = (float32x2_t) __builtin_aarch64_get_dregciv2sf (__o, 0);
20181   ret.val[1] = (float32x2_t) __builtin_aarch64_get_dregciv2sf (__o, 1);
20182   ret.val[2] = (float32x2_t) __builtin_aarch64_get_dregciv2sf (__o, 2);
20183   return ret;
20184 }
20185
20186 __extension__ static __inline int8x16x3_t __attribute__ ((__always_inline__))
20187 vld3q_s8 (const int8_t * __a)
20188 {
20189   int8x16x3_t ret;
20190   __builtin_aarch64_simd_ci __o;
20191   __o = __builtin_aarch64_ld3v16qi ((const __builtin_aarch64_simd_qi *) __a);
20192   ret.val[0] = (int8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 0);
20193   ret.val[1] = (int8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 1);
20194   ret.val[2] = (int8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 2);
20195   return ret;
20196 }
20197
20198 __extension__ static __inline poly8x16x3_t __attribute__ ((__always_inline__))
20199 vld3q_p8 (const poly8_t * __a)
20200 {
20201   poly8x16x3_t ret;
20202   __builtin_aarch64_simd_ci __o;
20203   __o = __builtin_aarch64_ld3v16qi ((const __builtin_aarch64_simd_qi *) __a);
20204   ret.val[0] = (poly8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 0);
20205   ret.val[1] = (poly8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 1);
20206   ret.val[2] = (poly8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 2);
20207   return ret;
20208 }
20209
20210 __extension__ static __inline int16x8x3_t __attribute__ ((__always_inline__))
20211 vld3q_s16 (const int16_t * __a)
20212 {
20213   int16x8x3_t ret;
20214   __builtin_aarch64_simd_ci __o;
20215   __o = __builtin_aarch64_ld3v8hi ((const __builtin_aarch64_simd_hi *) __a);
20216   ret.val[0] = (int16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 0);
20217   ret.val[1] = (int16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 1);
20218   ret.val[2] = (int16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 2);
20219   return ret;
20220 }
20221
20222 __extension__ static __inline poly16x8x3_t __attribute__ ((__always_inline__))
20223 vld3q_p16 (const poly16_t * __a)
20224 {
20225   poly16x8x3_t ret;
20226   __builtin_aarch64_simd_ci __o;
20227   __o = __builtin_aarch64_ld3v8hi ((const __builtin_aarch64_simd_hi *) __a);
20228   ret.val[0] = (poly16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 0);
20229   ret.val[1] = (poly16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 1);
20230   ret.val[2] = (poly16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 2);
20231   return ret;
20232 }
20233
20234 __extension__ static __inline int32x4x3_t __attribute__ ((__always_inline__))
20235 vld3q_s32 (const int32_t * __a)
20236 {
20237   int32x4x3_t ret;
20238   __builtin_aarch64_simd_ci __o;
20239   __o = __builtin_aarch64_ld3v4si ((const __builtin_aarch64_simd_si *) __a);
20240   ret.val[0] = (int32x4_t) __builtin_aarch64_get_qregciv4si (__o, 0);
20241   ret.val[1] = (int32x4_t) __builtin_aarch64_get_qregciv4si (__o, 1);
20242   ret.val[2] = (int32x4_t) __builtin_aarch64_get_qregciv4si (__o, 2);
20243   return ret;
20244 }
20245
20246 __extension__ static __inline int64x2x3_t __attribute__ ((__always_inline__))
20247 vld3q_s64 (const int64_t * __a)
20248 {
20249   int64x2x3_t ret;
20250   __builtin_aarch64_simd_ci __o;
20251   __o = __builtin_aarch64_ld3v2di ((const __builtin_aarch64_simd_di *) __a);
20252   ret.val[0] = (int64x2_t) __builtin_aarch64_get_qregciv2di (__o, 0);
20253   ret.val[1] = (int64x2_t) __builtin_aarch64_get_qregciv2di (__o, 1);
20254   ret.val[2] = (int64x2_t) __builtin_aarch64_get_qregciv2di (__o, 2);
20255   return ret;
20256 }
20257
20258 __extension__ static __inline uint8x16x3_t __attribute__ ((__always_inline__))
20259 vld3q_u8 (const uint8_t * __a)
20260 {
20261   uint8x16x3_t ret;
20262   __builtin_aarch64_simd_ci __o;
20263   __o = __builtin_aarch64_ld3v16qi ((const __builtin_aarch64_simd_qi *) __a);
20264   ret.val[0] = (uint8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 0);
20265   ret.val[1] = (uint8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 1);
20266   ret.val[2] = (uint8x16_t) __builtin_aarch64_get_qregciv16qi (__o, 2);
20267   return ret;
20268 }
20269
20270 __extension__ static __inline uint16x8x3_t __attribute__ ((__always_inline__))
20271 vld3q_u16 (const uint16_t * __a)
20272 {
20273   uint16x8x3_t ret;
20274   __builtin_aarch64_simd_ci __o;
20275   __o = __builtin_aarch64_ld3v8hi ((const __builtin_aarch64_simd_hi *) __a);
20276   ret.val[0] = (uint16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 0);
20277   ret.val[1] = (uint16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 1);
20278   ret.val[2] = (uint16x8_t) __builtin_aarch64_get_qregciv8hi (__o, 2);
20279   return ret;
20280 }
20281
20282 __extension__ static __inline uint32x4x3_t __attribute__ ((__always_inline__))
20283 vld3q_u32 (const uint32_t * __a)
20284 {
20285   uint32x4x3_t ret;
20286   __builtin_aarch64_simd_ci __o;
20287   __o = __builtin_aarch64_ld3v4si ((const __builtin_aarch64_simd_si *) __a);
20288   ret.val[0] = (uint32x4_t) __builtin_aarch64_get_qregciv4si (__o, 0);
20289   ret.val[1] = (uint32x4_t) __builtin_aarch64_get_qregciv4si (__o, 1);
20290   ret.val[2] = (uint32x4_t) __builtin_aarch64_get_qregciv4si (__o, 2);
20291   return ret;
20292 }
20293
20294 __extension__ static __inline uint64x2x3_t __attribute__ ((__always_inline__))
20295 vld3q_u64 (const uint64_t * __a)
20296 {
20297   uint64x2x3_t ret;
20298   __builtin_aarch64_simd_ci __o;
20299   __o = __builtin_aarch64_ld3v2di ((const __builtin_aarch64_simd_di *) __a);
20300   ret.val[0] = (uint64x2_t) __builtin_aarch64_get_qregciv2di (__o, 0);
20301   ret.val[1] = (uint64x2_t) __builtin_aarch64_get_qregciv2di (__o, 1);
20302   ret.val[2] = (uint64x2_t) __builtin_aarch64_get_qregciv2di (__o, 2);
20303   return ret;
20304 }
20305
20306 __extension__ static __inline float32x4x3_t __attribute__ ((__always_inline__))
20307 vld3q_f32 (const float32_t * __a)
20308 {
20309   float32x4x3_t ret;
20310   __builtin_aarch64_simd_ci __o;
20311   __o = __builtin_aarch64_ld3v4sf ((const __builtin_aarch64_simd_sf *) __a);
20312   ret.val[0] = (float32x4_t) __builtin_aarch64_get_qregciv4sf (__o, 0);
20313   ret.val[1] = (float32x4_t) __builtin_aarch64_get_qregciv4sf (__o, 1);
20314   ret.val[2] = (float32x4_t) __builtin_aarch64_get_qregciv4sf (__o, 2);
20315   return ret;
20316 }
20317
20318 __extension__ static __inline float64x2x3_t __attribute__ ((__always_inline__))
20319 vld3q_f64 (const float64_t * __a)
20320 {
20321   float64x2x3_t ret;
20322   __builtin_aarch64_simd_ci __o;
20323   __o = __builtin_aarch64_ld3v2df ((const __builtin_aarch64_simd_df *) __a);
20324   ret.val[0] = (float64x2_t) __builtin_aarch64_get_qregciv2df (__o, 0);
20325   ret.val[1] = (float64x2_t) __builtin_aarch64_get_qregciv2df (__o, 1);
20326   ret.val[2] = (float64x2_t) __builtin_aarch64_get_qregciv2df (__o, 2);
20327   return ret;
20328 }
20329
20330 __extension__ static __inline int64x1x4_t __attribute__ ((__always_inline__))
20331 vld4_s64 (const int64_t * __a)
20332 {
20333   int64x1x4_t ret;
20334   __builtin_aarch64_simd_xi __o;
20335   __o = __builtin_aarch64_ld4di ((const __builtin_aarch64_simd_di *) __a);
20336   ret.val[0] = (int64x1_t) __builtin_aarch64_get_dregxidi (__o, 0);
20337   ret.val[1] = (int64x1_t) __builtin_aarch64_get_dregxidi (__o, 1);
20338   ret.val[2] = (int64x1_t) __builtin_aarch64_get_dregxidi (__o, 2);
20339   ret.val[3] = (int64x1_t) __builtin_aarch64_get_dregxidi (__o, 3);
20340   return ret;
20341 }
20342
20343 __extension__ static __inline uint64x1x4_t __attribute__ ((__always_inline__))
20344 vld4_u64 (const uint64_t * __a)
20345 {
20346   uint64x1x4_t ret;
20347   __builtin_aarch64_simd_xi __o;
20348   __o = __builtin_aarch64_ld4di ((const __builtin_aarch64_simd_di *) __a);
20349   ret.val[0] = (uint64x1_t) __builtin_aarch64_get_dregxidi (__o, 0);
20350   ret.val[1] = (uint64x1_t) __builtin_aarch64_get_dregxidi (__o, 1);
20351   ret.val[2] = (uint64x1_t) __builtin_aarch64_get_dregxidi (__o, 2);
20352   ret.val[3] = (uint64x1_t) __builtin_aarch64_get_dregxidi (__o, 3);
20353   return ret;
20354 }
20355
20356 __extension__ static __inline float64x1x4_t __attribute__ ((__always_inline__))
20357 vld4_f64 (const float64_t * __a)
20358 {
20359   float64x1x4_t ret;
20360   __builtin_aarch64_simd_xi __o;
20361   __o = __builtin_aarch64_ld4df ((const __builtin_aarch64_simd_df *) __a);
20362   ret.val[0] = (float64x1_t) __builtin_aarch64_get_dregxidf (__o, 0);
20363   ret.val[1] = (float64x1_t) __builtin_aarch64_get_dregxidf (__o, 1);
20364   ret.val[2] = (float64x1_t) __builtin_aarch64_get_dregxidf (__o, 2);
20365   ret.val[3] = (float64x1_t) __builtin_aarch64_get_dregxidf (__o, 3);
20366   return ret;
20367 }
20368
20369 __extension__ static __inline int8x8x4_t __attribute__ ((__always_inline__))
20370 vld4_s8 (const int8_t * __a)
20371 {
20372   int8x8x4_t ret;
20373   __builtin_aarch64_simd_xi __o;
20374   __o = __builtin_aarch64_ld4v8qi ((const __builtin_aarch64_simd_qi *) __a);
20375   ret.val[0] = (int8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 0);
20376   ret.val[1] = (int8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 1);
20377   ret.val[2] = (int8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 2);
20378   ret.val[3] = (int8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 3);
20379   return ret;
20380 }
20381
20382 __extension__ static __inline poly8x8x4_t __attribute__ ((__always_inline__))
20383 vld4_p8 (const poly8_t * __a)
20384 {
20385   poly8x8x4_t ret;
20386   __builtin_aarch64_simd_xi __o;
20387   __o = __builtin_aarch64_ld4v8qi ((const __builtin_aarch64_simd_qi *) __a);
20388   ret.val[0] = (poly8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 0);
20389   ret.val[1] = (poly8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 1);
20390   ret.val[2] = (poly8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 2);
20391   ret.val[3] = (poly8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 3);
20392   return ret;
20393 }
20394
20395 __extension__ static __inline int16x4x4_t __attribute__ ((__always_inline__))
20396 vld4_s16 (const int16_t * __a)
20397 {
20398   int16x4x4_t ret;
20399   __builtin_aarch64_simd_xi __o;
20400   __o = __builtin_aarch64_ld4v4hi ((const __builtin_aarch64_simd_hi *) __a);
20401   ret.val[0] = (int16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 0);
20402   ret.val[1] = (int16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 1);
20403   ret.val[2] = (int16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 2);
20404   ret.val[3] = (int16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 3);
20405   return ret;
20406 }
20407
20408 __extension__ static __inline poly16x4x4_t __attribute__ ((__always_inline__))
20409 vld4_p16 (const poly16_t * __a)
20410 {
20411   poly16x4x4_t ret;
20412   __builtin_aarch64_simd_xi __o;
20413   __o = __builtin_aarch64_ld4v4hi ((const __builtin_aarch64_simd_hi *) __a);
20414   ret.val[0] = (poly16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 0);
20415   ret.val[1] = (poly16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 1);
20416   ret.val[2] = (poly16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 2);
20417   ret.val[3] = (poly16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 3);
20418   return ret;
20419 }
20420
20421 __extension__ static __inline int32x2x4_t __attribute__ ((__always_inline__))
20422 vld4_s32 (const int32_t * __a)
20423 {
20424   int32x2x4_t ret;
20425   __builtin_aarch64_simd_xi __o;
20426   __o = __builtin_aarch64_ld4v2si ((const __builtin_aarch64_simd_si *) __a);
20427   ret.val[0] = (int32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 0);
20428   ret.val[1] = (int32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 1);
20429   ret.val[2] = (int32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 2);
20430   ret.val[3] = (int32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 3);
20431   return ret;
20432 }
20433
20434 __extension__ static __inline uint8x8x4_t __attribute__ ((__always_inline__))
20435 vld4_u8 (const uint8_t * __a)
20436 {
20437   uint8x8x4_t ret;
20438   __builtin_aarch64_simd_xi __o;
20439   __o = __builtin_aarch64_ld4v8qi ((const __builtin_aarch64_simd_qi *) __a);
20440   ret.val[0] = (uint8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 0);
20441   ret.val[1] = (uint8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 1);
20442   ret.val[2] = (uint8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 2);
20443   ret.val[3] = (uint8x8_t) __builtin_aarch64_get_dregxiv8qi (__o, 3);
20444   return ret;
20445 }
20446
20447 __extension__ static __inline uint16x4x4_t __attribute__ ((__always_inline__))
20448 vld4_u16 (const uint16_t * __a)
20449 {
20450   uint16x4x4_t ret;
20451   __builtin_aarch64_simd_xi __o;
20452   __o = __builtin_aarch64_ld4v4hi ((const __builtin_aarch64_simd_hi *) __a);
20453   ret.val[0] = (uint16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 0);
20454   ret.val[1] = (uint16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 1);
20455   ret.val[2] = (uint16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 2);
20456   ret.val[3] = (uint16x4_t) __builtin_aarch64_get_dregxiv4hi (__o, 3);
20457   return ret;
20458 }
20459
20460 __extension__ static __inline uint32x2x4_t __attribute__ ((__always_inline__))
20461 vld4_u32 (const uint32_t * __a)
20462 {
20463   uint32x2x4_t ret;
20464   __builtin_aarch64_simd_xi __o;
20465   __o = __builtin_aarch64_ld4v2si ((const __builtin_aarch64_simd_si *) __a);
20466   ret.val[0] = (uint32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 0);
20467   ret.val[1] = (uint32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 1);
20468   ret.val[2] = (uint32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 2);
20469   ret.val[3] = (uint32x2_t) __builtin_aarch64_get_dregxiv2si (__o, 3);
20470   return ret;
20471 }
20472
20473 __extension__ static __inline float32x2x4_t __attribute__ ((__always_inline__))
20474 vld4_f32 (const float32_t * __a)
20475 {
20476   float32x2x4_t ret;
20477   __builtin_aarch64_simd_xi __o;
20478   __o = __builtin_aarch64_ld4v2sf ((const __builtin_aarch64_simd_sf *) __a);
20479   ret.val[0] = (float32x2_t) __builtin_aarch64_get_dregxiv2sf (__o, 0);
20480   ret.val[1] = (float32x2_t) __builtin_aarch64_get_dregxiv2sf (__o, 1);
20481   ret.val[2] = (float32x2_t) __builtin_aarch64_get_dregxiv2sf (__o, 2);
20482   ret.val[3] = (float32x2_t) __builtin_aarch64_get_dregxiv2sf (__o, 3);
20483   return ret;
20484 }
20485
20486 __extension__ static __inline int8x16x4_t __attribute__ ((__always_inline__))
20487 vld4q_s8 (const int8_t * __a)
20488 {
20489   int8x16x4_t ret;
20490   __builtin_aarch64_simd_xi __o;
20491   __o = __builtin_aarch64_ld4v16qi ((const __builtin_aarch64_simd_qi *) __a);
20492   ret.val[0] = (int8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 0);
20493   ret.val[1] = (int8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 1);
20494   ret.val[2] = (int8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 2);
20495   ret.val[3] = (int8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 3);
20496   return ret;
20497 }
20498
20499 __extension__ static __inline poly8x16x4_t __attribute__ ((__always_inline__))
20500 vld4q_p8 (const poly8_t * __a)
20501 {
20502   poly8x16x4_t ret;
20503   __builtin_aarch64_simd_xi __o;
20504   __o = __builtin_aarch64_ld4v16qi ((const __builtin_aarch64_simd_qi *) __a);
20505   ret.val[0] = (poly8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 0);
20506   ret.val[1] = (poly8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 1);
20507   ret.val[2] = (poly8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 2);
20508   ret.val[3] = (poly8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 3);
20509   return ret;
20510 }
20511
20512 __extension__ static __inline int16x8x4_t __attribute__ ((__always_inline__))
20513 vld4q_s16 (const int16_t * __a)
20514 {
20515   int16x8x4_t ret;
20516   __builtin_aarch64_simd_xi __o;
20517   __o = __builtin_aarch64_ld4v8hi ((const __builtin_aarch64_simd_hi *) __a);
20518   ret.val[0] = (int16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 0);
20519   ret.val[1] = (int16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 1);
20520   ret.val[2] = (int16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 2);
20521   ret.val[3] = (int16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 3);
20522   return ret;
20523 }
20524
20525 __extension__ static __inline poly16x8x4_t __attribute__ ((__always_inline__))
20526 vld4q_p16 (const poly16_t * __a)
20527 {
20528   poly16x8x4_t ret;
20529   __builtin_aarch64_simd_xi __o;
20530   __o = __builtin_aarch64_ld4v8hi ((const __builtin_aarch64_simd_hi *) __a);
20531   ret.val[0] = (poly16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 0);
20532   ret.val[1] = (poly16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 1);
20533   ret.val[2] = (poly16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 2);
20534   ret.val[3] = (poly16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 3);
20535   return ret;
20536 }
20537
20538 __extension__ static __inline int32x4x4_t __attribute__ ((__always_inline__))
20539 vld4q_s32 (const int32_t * __a)
20540 {
20541   int32x4x4_t ret;
20542   __builtin_aarch64_simd_xi __o;
20543   __o = __builtin_aarch64_ld4v4si ((const __builtin_aarch64_simd_si *) __a);
20544   ret.val[0] = (int32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 0);
20545   ret.val[1] = (int32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 1);
20546   ret.val[2] = (int32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 2);
20547   ret.val[3] = (int32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 3);
20548   return ret;
20549 }
20550
20551 __extension__ static __inline int64x2x4_t __attribute__ ((__always_inline__))
20552 vld4q_s64 (const int64_t * __a)
20553 {
20554   int64x2x4_t ret;
20555   __builtin_aarch64_simd_xi __o;
20556   __o = __builtin_aarch64_ld4v2di ((const __builtin_aarch64_simd_di *) __a);
20557   ret.val[0] = (int64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 0);
20558   ret.val[1] = (int64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 1);
20559   ret.val[2] = (int64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 2);
20560   ret.val[3] = (int64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 3);
20561   return ret;
20562 }
20563
20564 __extension__ static __inline uint8x16x4_t __attribute__ ((__always_inline__))
20565 vld4q_u8 (const uint8_t * __a)
20566 {
20567   uint8x16x4_t ret;
20568   __builtin_aarch64_simd_xi __o;
20569   __o = __builtin_aarch64_ld4v16qi ((const __builtin_aarch64_simd_qi *) __a);
20570   ret.val[0] = (uint8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 0);
20571   ret.val[1] = (uint8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 1);
20572   ret.val[2] = (uint8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 2);
20573   ret.val[3] = (uint8x16_t) __builtin_aarch64_get_qregxiv16qi (__o, 3);
20574   return ret;
20575 }
20576
20577 __extension__ static __inline uint16x8x4_t __attribute__ ((__always_inline__))
20578 vld4q_u16 (const uint16_t * __a)
20579 {
20580   uint16x8x4_t ret;
20581   __builtin_aarch64_simd_xi __o;
20582   __o = __builtin_aarch64_ld4v8hi ((const __builtin_aarch64_simd_hi *) __a);
20583   ret.val[0] = (uint16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 0);
20584   ret.val[1] = (uint16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 1);
20585   ret.val[2] = (uint16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 2);
20586   ret.val[3] = (uint16x8_t) __builtin_aarch64_get_qregxiv8hi (__o, 3);
20587   return ret;
20588 }
20589
20590 __extension__ static __inline uint32x4x4_t __attribute__ ((__always_inline__))
20591 vld4q_u32 (const uint32_t * __a)
20592 {
20593   uint32x4x4_t ret;
20594   __builtin_aarch64_simd_xi __o;
20595   __o = __builtin_aarch64_ld4v4si ((const __builtin_aarch64_simd_si *) __a);
20596   ret.val[0] = (uint32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 0);
20597   ret.val[1] = (uint32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 1);
20598   ret.val[2] = (uint32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 2);
20599   ret.val[3] = (uint32x4_t) __builtin_aarch64_get_qregxiv4si (__o, 3);
20600   return ret;
20601 }
20602
20603 __extension__ static __inline uint64x2x4_t __attribute__ ((__always_inline__))
20604 vld4q_u64 (const uint64_t * __a)
20605 {
20606   uint64x2x4_t ret;
20607   __builtin_aarch64_simd_xi __o;
20608   __o = __builtin_aarch64_ld4v2di ((const __builtin_aarch64_simd_di *) __a);
20609   ret.val[0] = (uint64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 0);
20610   ret.val[1] = (uint64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 1);
20611   ret.val[2] = (uint64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 2);
20612   ret.val[3] = (uint64x2_t) __builtin_aarch64_get_qregxiv2di (__o, 3);
20613   return ret;
20614 }
20615
20616 __extension__ static __inline float32x4x4_t __attribute__ ((__always_inline__))
20617 vld4q_f32 (const float32_t * __a)
20618 {
20619   float32x4x4_t ret;
20620   __builtin_aarch64_simd_xi __o;
20621   __o = __builtin_aarch64_ld4v4sf ((const __builtin_aarch64_simd_sf *) __a);
20622   ret.val[0] = (float32x4_t) __builtin_aarch64_get_qregxiv4sf (__o, 0);
20623   ret.val[1] = (float32x4_t) __builtin_aarch64_get_qregxiv4sf (__o, 1);
20624   ret.val[2] = (float32x4_t) __builtin_aarch64_get_qregxiv4sf (__o, 2);
20625   ret.val[3] = (float32x4_t) __builtin_aarch64_get_qregxiv4sf (__o, 3);
20626   return ret;
20627 }
20628
20629 __extension__ static __inline float64x2x4_t __attribute__ ((__always_inline__))
20630 vld4q_f64 (const float64_t * __a)
20631 {
20632   float64x2x4_t ret;
20633   __builtin_aarch64_simd_xi __o;
20634   __o = __builtin_aarch64_ld4v2df ((const __builtin_aarch64_simd_df *) __a);
20635   ret.val[0] = (float64x2_t) __builtin_aarch64_get_qregxiv2df (__o, 0);
20636   ret.val[1] = (float64x2_t) __builtin_aarch64_get_qregxiv2df (__o, 1);
20637   ret.val[2] = (float64x2_t) __builtin_aarch64_get_qregxiv2df (__o, 2);
20638   ret.val[3] = (float64x2_t) __builtin_aarch64_get_qregxiv2df (__o, 3);
20639   return ret;
20640 }
20641
20642 /* vmax */
20643
20644 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
20645 vmax_f32 (float32x2_t __a, float32x2_t __b)
20646 {
20647   return __builtin_aarch64_smax_nanv2sf (__a, __b);
20648 }
20649
20650 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
20651 vmax_s8 (int8x8_t __a, int8x8_t __b)
20652 {
20653   return __builtin_aarch64_smaxv8qi (__a, __b);
20654 }
20655
20656 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
20657 vmax_s16 (int16x4_t __a, int16x4_t __b)
20658 {
20659   return __builtin_aarch64_smaxv4hi (__a, __b);
20660 }
20661
20662 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
20663 vmax_s32 (int32x2_t __a, int32x2_t __b)
20664 {
20665   return __builtin_aarch64_smaxv2si (__a, __b);
20666 }
20667
20668 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20669 vmax_u8 (uint8x8_t __a, uint8x8_t __b)
20670 {
20671   return (uint8x8_t) __builtin_aarch64_umaxv8qi ((int8x8_t) __a,
20672                                                  (int8x8_t) __b);
20673 }
20674
20675 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
20676 vmax_u16 (uint16x4_t __a, uint16x4_t __b)
20677 {
20678   return (uint16x4_t) __builtin_aarch64_umaxv4hi ((int16x4_t) __a,
20679                                                   (int16x4_t) __b);
20680 }
20681
20682 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
20683 vmax_u32 (uint32x2_t __a, uint32x2_t __b)
20684 {
20685   return (uint32x2_t) __builtin_aarch64_umaxv2si ((int32x2_t) __a,
20686                                                   (int32x2_t) __b);
20687 }
20688
20689 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
20690 vmaxq_f32 (float32x4_t __a, float32x4_t __b)
20691 {
20692   return __builtin_aarch64_smax_nanv4sf (__a, __b);
20693 }
20694
20695 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
20696 vmaxq_f64 (float64x2_t __a, float64x2_t __b)
20697 {
20698   return __builtin_aarch64_smax_nanv2df (__a, __b);
20699 }
20700
20701 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
20702 vmaxq_s8 (int8x16_t __a, int8x16_t __b)
20703 {
20704   return __builtin_aarch64_smaxv16qi (__a, __b);
20705 }
20706
20707 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
20708 vmaxq_s16 (int16x8_t __a, int16x8_t __b)
20709 {
20710   return __builtin_aarch64_smaxv8hi (__a, __b);
20711 }
20712
20713 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
20714 vmaxq_s32 (int32x4_t __a, int32x4_t __b)
20715 {
20716   return __builtin_aarch64_smaxv4si (__a, __b);
20717 }
20718
20719 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
20720 vmaxq_u8 (uint8x16_t __a, uint8x16_t __b)
20721 {
20722   return (uint8x16_t) __builtin_aarch64_umaxv16qi ((int8x16_t) __a,
20723                                                    (int8x16_t) __b);
20724 }
20725
20726 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
20727 vmaxq_u16 (uint16x8_t __a, uint16x8_t __b)
20728 {
20729   return (uint16x8_t) __builtin_aarch64_umaxv8hi ((int16x8_t) __a,
20730                                                   (int16x8_t) __b);
20731 }
20732
20733 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
20734 vmaxq_u32 (uint32x4_t __a, uint32x4_t __b)
20735 {
20736   return (uint32x4_t) __builtin_aarch64_umaxv4si ((int32x4_t) __a,
20737                                                   (int32x4_t) __b);
20738 }
20739
20740 /* vmaxnm  */
20741
20742 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
20743 vmaxnm_f32 (float32x2_t __a, float32x2_t __b)
20744 {
20745   return __builtin_aarch64_smaxv2sf (__a, __b);
20746 }
20747
20748 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
20749 vmaxnmq_f32 (float32x4_t __a, float32x4_t __b)
20750 {
20751   return __builtin_aarch64_smaxv4sf (__a, __b);
20752 }
20753
20754 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
20755 vmaxnmq_f64 (float64x2_t __a, float64x2_t __b)
20756 {
20757   return __builtin_aarch64_smaxv2df (__a, __b);
20758 }
20759
20760 /* vmaxv  */
20761
20762 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
20763 vmaxv_f32 (float32x2_t __a)
20764 {
20765   return vget_lane_f32 (__builtin_aarch64_reduc_smax_nan_v2sf (__a), 0);
20766 }
20767
20768 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
20769 vmaxv_s8 (int8x8_t __a)
20770 {
20771   return vget_lane_s8 (__builtin_aarch64_reduc_smax_v8qi (__a), 0);
20772 }
20773
20774 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
20775 vmaxv_s16 (int16x4_t __a)
20776 {
20777   return vget_lane_s16 (__builtin_aarch64_reduc_smax_v4hi (__a), 0);
20778 }
20779
20780 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
20781 vmaxv_s32 (int32x2_t __a)
20782 {
20783   return vget_lane_s32 (__builtin_aarch64_reduc_smax_v2si (__a), 0);
20784 }
20785
20786 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
20787 vmaxv_u8 (uint8x8_t __a)
20788 {
20789   return vget_lane_u8 ((uint8x8_t)
20790                 __builtin_aarch64_reduc_umax_v8qi ((int8x8_t) __a), 0);
20791 }
20792
20793 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
20794 vmaxv_u16 (uint16x4_t __a)
20795 {
20796   return vget_lane_u16 ((uint16x4_t)
20797                 __builtin_aarch64_reduc_umax_v4hi ((int16x4_t) __a), 0);
20798 }
20799
20800 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
20801 vmaxv_u32 (uint32x2_t __a)
20802 {
20803   return vget_lane_u32 ((uint32x2_t)
20804                 __builtin_aarch64_reduc_umax_v2si ((int32x2_t) __a), 0);
20805 }
20806
20807 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
20808 vmaxvq_f32 (float32x4_t __a)
20809 {
20810   return vgetq_lane_f32 (__builtin_aarch64_reduc_smax_nan_v4sf (__a), 0);
20811 }
20812
20813 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
20814 vmaxvq_f64 (float64x2_t __a)
20815 {
20816   return vgetq_lane_f64 (__builtin_aarch64_reduc_smax_nan_v2df (__a), 0);
20817 }
20818
20819 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
20820 vmaxvq_s8 (int8x16_t __a)
20821 {
20822   return vgetq_lane_s8 (__builtin_aarch64_reduc_smax_v16qi (__a), 0);
20823 }
20824
20825 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
20826 vmaxvq_s16 (int16x8_t __a)
20827 {
20828   return vgetq_lane_s16 (__builtin_aarch64_reduc_smax_v8hi (__a), 0);
20829 }
20830
20831 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
20832 vmaxvq_s32 (int32x4_t __a)
20833 {
20834   return vgetq_lane_s32 (__builtin_aarch64_reduc_smax_v4si (__a), 0);
20835 }
20836
20837 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
20838 vmaxvq_u8 (uint8x16_t __a)
20839 {
20840   return vgetq_lane_u8 ((uint8x16_t)
20841                 __builtin_aarch64_reduc_umax_v16qi ((int8x16_t) __a), 0);
20842 }
20843
20844 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
20845 vmaxvq_u16 (uint16x8_t __a)
20846 {
20847   return vgetq_lane_u16 ((uint16x8_t)
20848                 __builtin_aarch64_reduc_umax_v8hi ((int16x8_t) __a), 0);
20849 }
20850
20851 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
20852 vmaxvq_u32 (uint32x4_t __a)
20853 {
20854   return vgetq_lane_u32 ((uint32x4_t)
20855                 __builtin_aarch64_reduc_umax_v4si ((int32x4_t) __a), 0);
20856 }
20857
20858 /* vmaxnmv  */
20859
20860 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
20861 vmaxnmv_f32 (float32x2_t __a)
20862 {
20863   return vget_lane_f32 (__builtin_aarch64_reduc_smax_v2sf (__a), 0);
20864 }
20865
20866 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
20867 vmaxnmvq_f32 (float32x4_t __a)
20868 {
20869   return vgetq_lane_f32 (__builtin_aarch64_reduc_smax_v4sf (__a), 0);
20870 }
20871
20872 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
20873 vmaxnmvq_f64 (float64x2_t __a)
20874 {
20875   return vgetq_lane_f64 (__builtin_aarch64_reduc_smax_v2df (__a), 0);
20876 }
20877
20878 /* vmin  */
20879
20880 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
20881 vmin_f32 (float32x2_t __a, float32x2_t __b)
20882 {
20883   return __builtin_aarch64_smin_nanv2sf (__a, __b);
20884 }
20885
20886 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
20887 vmin_s8 (int8x8_t __a, int8x8_t __b)
20888 {
20889   return __builtin_aarch64_sminv8qi (__a, __b);
20890 }
20891
20892 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
20893 vmin_s16 (int16x4_t __a, int16x4_t __b)
20894 {
20895   return __builtin_aarch64_sminv4hi (__a, __b);
20896 }
20897
20898 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
20899 vmin_s32 (int32x2_t __a, int32x2_t __b)
20900 {
20901   return __builtin_aarch64_sminv2si (__a, __b);
20902 }
20903
20904 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
20905 vmin_u8 (uint8x8_t __a, uint8x8_t __b)
20906 {
20907   return (uint8x8_t) __builtin_aarch64_uminv8qi ((int8x8_t) __a,
20908                                                  (int8x8_t) __b);
20909 }
20910
20911 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
20912 vmin_u16 (uint16x4_t __a, uint16x4_t __b)
20913 {
20914   return (uint16x4_t) __builtin_aarch64_uminv4hi ((int16x4_t) __a,
20915                                                   (int16x4_t) __b);
20916 }
20917
20918 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
20919 vmin_u32 (uint32x2_t __a, uint32x2_t __b)
20920 {
20921   return (uint32x2_t) __builtin_aarch64_uminv2si ((int32x2_t) __a,
20922                                                   (int32x2_t) __b);
20923 }
20924
20925 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
20926 vminq_f32 (float32x4_t __a, float32x4_t __b)
20927 {
20928   return __builtin_aarch64_smin_nanv4sf (__a, __b);
20929 }
20930
20931 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
20932 vminq_f64 (float64x2_t __a, float64x2_t __b)
20933 {
20934   return __builtin_aarch64_smin_nanv2df (__a, __b);
20935 }
20936
20937 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
20938 vminq_s8 (int8x16_t __a, int8x16_t __b)
20939 {
20940   return __builtin_aarch64_sminv16qi (__a, __b);
20941 }
20942
20943 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
20944 vminq_s16 (int16x8_t __a, int16x8_t __b)
20945 {
20946   return __builtin_aarch64_sminv8hi (__a, __b);
20947 }
20948
20949 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
20950 vminq_s32 (int32x4_t __a, int32x4_t __b)
20951 {
20952   return __builtin_aarch64_sminv4si (__a, __b);
20953 }
20954
20955 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
20956 vminq_u8 (uint8x16_t __a, uint8x16_t __b)
20957 {
20958   return (uint8x16_t) __builtin_aarch64_uminv16qi ((int8x16_t) __a,
20959                                                    (int8x16_t) __b);
20960 }
20961
20962 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
20963 vminq_u16 (uint16x8_t __a, uint16x8_t __b)
20964 {
20965   return (uint16x8_t) __builtin_aarch64_uminv8hi ((int16x8_t) __a,
20966                                                   (int16x8_t) __b);
20967 }
20968
20969 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
20970 vminq_u32 (uint32x4_t __a, uint32x4_t __b)
20971 {
20972   return (uint32x4_t) __builtin_aarch64_uminv4si ((int32x4_t) __a,
20973                                                   (int32x4_t) __b);
20974 }
20975
20976 /* vminnm  */
20977
20978 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
20979 vminnm_f32 (float32x2_t __a, float32x2_t __b)
20980 {
20981   return __builtin_aarch64_sminv2sf (__a, __b);
20982 }
20983
20984 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
20985 vminnmq_f32 (float32x4_t __a, float32x4_t __b)
20986 {
20987   return __builtin_aarch64_sminv4sf (__a, __b);
20988 }
20989
20990 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
20991 vminnmq_f64 (float64x2_t __a, float64x2_t __b)
20992 {
20993   return __builtin_aarch64_sminv2df (__a, __b);
20994 }
20995
20996 /* vminv  */
20997
20998 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
20999 vminv_f32 (float32x2_t __a)
21000 {
21001   return vget_lane_f32 (__builtin_aarch64_reduc_smin_nan_v2sf (__a), 0);
21002 }
21003
21004 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
21005 vminv_s8 (int8x8_t __a)
21006 {
21007   return vget_lane_s8 (__builtin_aarch64_reduc_smin_v8qi (__a), 0);
21008 }
21009
21010 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
21011 vminv_s16 (int16x4_t __a)
21012 {
21013   return vget_lane_s16 (__builtin_aarch64_reduc_smin_v4hi (__a), 0);
21014 }
21015
21016 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
21017 vminv_s32 (int32x2_t __a)
21018 {
21019   return vget_lane_s32 (__builtin_aarch64_reduc_smin_v2si (__a), 0);
21020 }
21021
21022 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
21023 vminv_u8 (uint8x8_t __a)
21024 {
21025   return vget_lane_u8 ((uint8x8_t)
21026                 __builtin_aarch64_reduc_umin_v8qi ((int8x8_t) __a), 0);
21027 }
21028
21029 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
21030 vminv_u16 (uint16x4_t __a)
21031 {
21032   return vget_lane_u16 ((uint16x4_t)
21033                 __builtin_aarch64_reduc_umin_v4hi ((int16x4_t) __a), 0);
21034 }
21035
21036 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
21037 vminv_u32 (uint32x2_t __a)
21038 {
21039   return vget_lane_u32 ((uint32x2_t)
21040                 __builtin_aarch64_reduc_umin_v2si ((int32x2_t) __a), 0);
21041 }
21042
21043 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
21044 vminvq_f32 (float32x4_t __a)
21045 {
21046   return vgetq_lane_f32 (__builtin_aarch64_reduc_smin_nan_v4sf (__a), 0);
21047 }
21048
21049 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
21050 vminvq_f64 (float64x2_t __a)
21051 {
21052   return vgetq_lane_f64 (__builtin_aarch64_reduc_smin_nan_v2df (__a), 0);
21053 }
21054
21055 __extension__ static __inline int8_t __attribute__ ((__always_inline__))
21056 vminvq_s8 (int8x16_t __a)
21057 {
21058   return vgetq_lane_s8 (__builtin_aarch64_reduc_smin_v16qi (__a), 0);
21059 }
21060
21061 __extension__ static __inline int16_t __attribute__ ((__always_inline__))
21062 vminvq_s16 (int16x8_t __a)
21063 {
21064   return vgetq_lane_s16 (__builtin_aarch64_reduc_smin_v8hi (__a), 0);
21065 }
21066
21067 __extension__ static __inline int32_t __attribute__ ((__always_inline__))
21068 vminvq_s32 (int32x4_t __a)
21069 {
21070   return vgetq_lane_s32 (__builtin_aarch64_reduc_smin_v4si (__a), 0);
21071 }
21072
21073 __extension__ static __inline uint8_t __attribute__ ((__always_inline__))
21074 vminvq_u8 (uint8x16_t __a)
21075 {
21076   return vgetq_lane_u8 ((uint8x16_t)
21077                 __builtin_aarch64_reduc_umin_v16qi ((int8x16_t) __a), 0);
21078 }
21079
21080 __extension__ static __inline uint16_t __attribute__ ((__always_inline__))
21081 vminvq_u16 (uint16x8_t __a)
21082 {
21083   return vgetq_lane_u16 ((uint16x8_t)
21084                 __builtin_aarch64_reduc_umin_v8hi ((int16x8_t) __a), 0);
21085 }
21086
21087 __extension__ static __inline uint32_t __attribute__ ((__always_inline__))
21088 vminvq_u32 (uint32x4_t __a)
21089 {
21090   return vgetq_lane_u32 ((uint32x4_t)
21091                 __builtin_aarch64_reduc_umin_v4si ((int32x4_t) __a), 0);
21092 }
21093
21094 /* vminnmv  */
21095
21096 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
21097 vminnmv_f32 (float32x2_t __a)
21098 {
21099   return vget_lane_f32 (__builtin_aarch64_reduc_smin_v2sf (__a), 0);
21100 }
21101
21102 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
21103 vminnmvq_f32 (float32x4_t __a)
21104 {
21105   return vgetq_lane_f32 (__builtin_aarch64_reduc_smin_v4sf (__a), 0);
21106 }
21107
21108 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
21109 vminnmvq_f64 (float64x2_t __a)
21110 {
21111   return vgetq_lane_f64 (__builtin_aarch64_reduc_smin_v2df (__a), 0);
21112 }
21113
21114 /* vmla */
21115
21116 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
21117 vmla_f32 (float32x2_t a, float32x2_t b, float32x2_t c)
21118 {
21119   return a + b * c;
21120 }
21121
21122 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
21123 vmlaq_f32 (float32x4_t a, float32x4_t b, float32x4_t c)
21124 {
21125   return a + b * c;
21126 }
21127
21128 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
21129 vmlaq_f64 (float64x2_t a, float64x2_t b, float64x2_t c)
21130 {
21131   return a + b * c;
21132 }
21133
21134 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
21135 vmls_f32 (float32x2_t a, float32x2_t b, float32x2_t c)
21136 {
21137   return a - b * c;
21138 }
21139
21140 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
21141 vmlsq_f32 (float32x4_t a, float32x4_t b, float32x4_t c)
21142 {
21143   return a - b * c;
21144 }
21145
21146 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
21147 vmlsq_f64 (float64x2_t a, float64x2_t b, float64x2_t c)
21148 {
21149   return a - b * c;
21150 }
21151
21152 /* vmul_lane  */
21153
21154 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
21155 vmul_lane_f32 (float32x2_t __a, float32x2_t __b, const int __lane)
21156 {
21157   return __a * __aarch64_vget_lane_f32 (__b, __lane);
21158 }
21159
21160 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
21161 vmul_lane_f64 (float64x1_t __a, float64x1_t __b, const int __lane)
21162 {
21163   return __a * __b;
21164 }
21165
21166 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
21167 vmul_lane_s16 (int16x4_t __a, int16x4_t __b, const int __lane)
21168 {
21169   return __a * __aarch64_vget_lane_s16 (__b, __lane);
21170 }
21171
21172 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
21173 vmul_lane_s32 (int32x2_t __a, int32x2_t __b, const int __lane)
21174 {
21175   return __a * __aarch64_vget_lane_s32 (__b, __lane);
21176 }
21177
21178 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
21179 vmul_lane_u16 (uint16x4_t __a, uint16x4_t __b, const int __lane)
21180 {
21181   return __a * __aarch64_vget_lane_u16 (__b, __lane);
21182 }
21183
21184 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
21185 vmul_lane_u32 (uint32x2_t __a, uint32x2_t __b, const int __lane)
21186 {
21187   return __a * __aarch64_vget_lane_u32 (__b, __lane);
21188 }
21189
21190 /* vmul_laneq  */
21191
21192 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
21193 vmul_laneq_f32 (float32x2_t __a, float32x4_t __b, const int __lane)
21194 {
21195   return __a * __aarch64_vgetq_lane_f32 (__b, __lane);
21196 }
21197
21198 __extension__ static __inline float64x1_t __attribute__ ((__always_inline__))
21199 vmul_laneq_f64 (float64x1_t __a, float64x2_t __b, const int __lane)
21200 {
21201   return __a * __aarch64_vgetq_lane_f64 (__b, __lane);
21202 }
21203
21204 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
21205 vmul_laneq_s16 (int16x4_t __a, int16x8_t __b, const int __lane)
21206 {
21207   return __a * __aarch64_vgetq_lane_s16 (__b, __lane);
21208 }
21209
21210 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
21211 vmul_laneq_s32 (int32x2_t __a, int32x4_t __b, const int __lane)
21212 {
21213   return __a * __aarch64_vgetq_lane_s32 (__b, __lane);
21214 }
21215
21216 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
21217 vmul_laneq_u16 (uint16x4_t __a, uint16x8_t __b, const int __lane)
21218 {
21219   return __a * __aarch64_vgetq_lane_u16 (__b, __lane);
21220 }
21221
21222 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
21223 vmul_laneq_u32 (uint32x2_t __a, uint32x4_t __b, const int __lane)
21224 {
21225   return __a * __aarch64_vgetq_lane_u32 (__b, __lane);
21226 }
21227
21228 /* vmulq_lane  */
21229
21230 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
21231 vmulq_lane_f32 (float32x4_t __a, float32x2_t __b, const int __lane)
21232 {
21233   return __a * __aarch64_vget_lane_f32 (__b, __lane);
21234 }
21235
21236 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
21237 vmulq_lane_f64 (float64x2_t __a, float64x1_t __b, const int __lane)
21238 {
21239   return __a * __b;
21240 }
21241
21242 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
21243 vmulq_lane_s16 (int16x8_t __a, int16x4_t __b, const int __lane)
21244 {
21245   return __a * __aarch64_vget_lane_s16 (__b, __lane);
21246 }
21247
21248 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21249 vmulq_lane_s32 (int32x4_t __a, int32x2_t __b, const int __lane)
21250 {
21251   return __a * __aarch64_vget_lane_s32 (__b, __lane);
21252 }
21253
21254 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
21255 vmulq_lane_u16 (uint16x8_t __a, uint16x4_t __b, const int __lane)
21256 {
21257   return __a * __aarch64_vget_lane_u16 (__b, __lane);
21258 }
21259
21260 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
21261 vmulq_lane_u32 (uint32x4_t __a, uint32x2_t __b, const int __lane)
21262 {
21263   return __a * __aarch64_vget_lane_u32 (__b, __lane);
21264 }
21265
21266 /* vmulq_laneq  */
21267
21268 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
21269 vmulq_laneq_f32 (float32x4_t __a, float32x4_t __b, const int __lane)
21270 {
21271   return __a * __aarch64_vgetq_lane_f32 (__b, __lane);
21272 }
21273
21274 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
21275 vmulq_laneq_f64 (float64x2_t __a, float64x2_t __b, const int __lane)
21276 {
21277   return __a * __aarch64_vgetq_lane_f64 (__b, __lane);
21278 }
21279
21280 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
21281 vmulq_laneq_s16 (int16x8_t __a, int16x8_t __b, const int __lane)
21282 {
21283   return __a * __aarch64_vgetq_lane_s16 (__b, __lane);
21284 }
21285
21286 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21287 vmulq_laneq_s32 (int32x4_t __a, int32x4_t __b, const int __lane)
21288 {
21289   return __a * __aarch64_vgetq_lane_s32 (__b, __lane);
21290 }
21291
21292 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
21293 vmulq_laneq_u16 (uint16x8_t __a, uint16x8_t __b, const int __lane)
21294 {
21295   return __a * __aarch64_vgetq_lane_u16 (__b, __lane);
21296 }
21297
21298 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
21299 vmulq_laneq_u32 (uint32x4_t __a, uint32x4_t __b, const int __lane)
21300 {
21301   return __a * __aarch64_vgetq_lane_u32 (__b, __lane);
21302 }
21303
21304 /* vqabs */
21305
21306 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21307 vqabsq_s64 (int64x2_t __a)
21308 {
21309   return (int64x2_t) __builtin_aarch64_sqabsv2di (__a);
21310 }
21311
21312 __extension__ static __inline int8x1_t __attribute__ ((__always_inline__))
21313 vqabsb_s8 (int8x1_t __a)
21314 {
21315   return (int8x1_t) __builtin_aarch64_sqabsqi (__a);
21316 }
21317
21318 __extension__ static __inline int16x1_t __attribute__ ((__always_inline__))
21319 vqabsh_s16 (int16x1_t __a)
21320 {
21321   return (int16x1_t) __builtin_aarch64_sqabshi (__a);
21322 }
21323
21324 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
21325 vqabss_s32 (int32x1_t __a)
21326 {
21327   return (int32x1_t) __builtin_aarch64_sqabssi (__a);
21328 }
21329
21330 /* vqadd */
21331
21332 __extension__ static __inline int8x1_t __attribute__ ((__always_inline__))
21333 vqaddb_s8 (int8x1_t __a, int8x1_t __b)
21334 {
21335   return (int8x1_t) __builtin_aarch64_sqaddqi (__a, __b);
21336 }
21337
21338 __extension__ static __inline int16x1_t __attribute__ ((__always_inline__))
21339 vqaddh_s16 (int16x1_t __a, int16x1_t __b)
21340 {
21341   return (int16x1_t) __builtin_aarch64_sqaddhi (__a, __b);
21342 }
21343
21344 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
21345 vqadds_s32 (int32x1_t __a, int32x1_t __b)
21346 {
21347   return (int32x1_t) __builtin_aarch64_sqaddsi (__a, __b);
21348 }
21349
21350 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
21351 vqaddd_s64 (int64x1_t __a, int64x1_t __b)
21352 {
21353   return (int64x1_t) __builtin_aarch64_sqadddi (__a, __b);
21354 }
21355
21356 __extension__ static __inline uint8x1_t __attribute__ ((__always_inline__))
21357 vqaddb_u8 (uint8x1_t __a, uint8x1_t __b)
21358 {
21359   return (uint8x1_t) __builtin_aarch64_uqaddqi (__a, __b);
21360 }
21361
21362 __extension__ static __inline uint16x1_t __attribute__ ((__always_inline__))
21363 vqaddh_u16 (uint16x1_t __a, uint16x1_t __b)
21364 {
21365   return (uint16x1_t) __builtin_aarch64_uqaddhi (__a, __b);
21366 }
21367
21368 __extension__ static __inline uint32x1_t __attribute__ ((__always_inline__))
21369 vqadds_u32 (uint32x1_t __a, uint32x1_t __b)
21370 {
21371   return (uint32x1_t) __builtin_aarch64_uqaddsi (__a, __b);
21372 }
21373
21374 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
21375 vqaddd_u64 (uint64x1_t __a, uint64x1_t __b)
21376 {
21377   return (uint64x1_t) __builtin_aarch64_uqadddi (__a, __b);
21378 }
21379
21380 /* vqdmlal */
21381
21382 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21383 vqdmlal_s16 (int32x4_t __a, int16x4_t __b, int16x4_t __c)
21384 {
21385   return __builtin_aarch64_sqdmlalv4hi (__a, __b, __c);
21386 }
21387
21388 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21389 vqdmlal_high_s16 (int32x4_t __a, int16x8_t __b, int16x8_t __c)
21390 {
21391   return __builtin_aarch64_sqdmlal2v8hi (__a, __b, __c);
21392 }
21393
21394 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21395 vqdmlal_high_lane_s16 (int32x4_t __a, int16x8_t __b, int16x8_t __c,
21396                        int const __d)
21397 {
21398   return __builtin_aarch64_sqdmlal2_lanev8hi (__a, __b, __c, __d);
21399 }
21400
21401 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21402 vqdmlal_high_laneq_s16 (int32x4_t __a, int16x8_t __b, int16x8_t __c,
21403                         int const __d)
21404 {
21405   return __builtin_aarch64_sqdmlal2_laneqv8hi (__a, __b, __c, __d);
21406 }
21407
21408 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21409 vqdmlal_high_n_s16 (int32x4_t __a, int16x8_t __b, int16_t __c)
21410 {
21411   return __builtin_aarch64_sqdmlal2_nv8hi (__a, __b, __c);
21412 }
21413
21414 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21415 vqdmlal_lane_s16 (int32x4_t __a, int16x4_t __b, int16x4_t __c, int const __d)
21416 {
21417   int16x8_t __tmp = vcombine_s16 (__c, vcreate_s16 (__AARCH64_INT64_C (0)));
21418   return __builtin_aarch64_sqdmlal_lanev4hi (__a, __b, __tmp, __d);
21419 }
21420
21421 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21422 vqdmlal_laneq_s16 (int32x4_t __a, int16x4_t __b, int16x8_t __c, int const __d)
21423 {
21424   return __builtin_aarch64_sqdmlal_laneqv4hi (__a, __b, __c, __d);
21425 }
21426
21427 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21428 vqdmlal_n_s16 (int32x4_t __a, int16x4_t __b, int16_t __c)
21429 {
21430   return __builtin_aarch64_sqdmlal_nv4hi (__a, __b, __c);
21431 }
21432
21433 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21434 vqdmlal_s32 (int64x2_t __a, int32x2_t __b, int32x2_t __c)
21435 {
21436   return __builtin_aarch64_sqdmlalv2si (__a, __b, __c);
21437 }
21438
21439 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21440 vqdmlal_high_s32 (int64x2_t __a, int32x4_t __b, int32x4_t __c)
21441 {
21442   return __builtin_aarch64_sqdmlal2v4si (__a, __b, __c);
21443 }
21444
21445 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21446 vqdmlal_high_lane_s32 (int64x2_t __a, int32x4_t __b, int32x4_t __c,
21447                        int const __d)
21448 {
21449   return __builtin_aarch64_sqdmlal2_lanev4si (__a, __b, __c, __d);
21450 }
21451
21452 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21453 vqdmlal_high_laneq_s32 (int64x2_t __a, int32x4_t __b, int32x4_t __c,
21454                         int const __d)
21455 {
21456   return __builtin_aarch64_sqdmlal2_laneqv4si (__a, __b, __c, __d);
21457 }
21458
21459 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21460 vqdmlal_high_n_s32 (int64x2_t __a, int32x4_t __b, int32_t __c)
21461 {
21462   return __builtin_aarch64_sqdmlal2_nv4si (__a, __b, __c);
21463 }
21464
21465 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21466 vqdmlal_lane_s32 (int64x2_t __a, int32x2_t __b, int32x2_t __c, int const __d)
21467 {
21468   int32x4_t __tmp = vcombine_s32 (__c, vcreate_s32 (__AARCH64_INT64_C (0)));
21469   return __builtin_aarch64_sqdmlal_lanev2si (__a, __b, __tmp, __d);
21470 }
21471
21472 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21473 vqdmlal_laneq_s32 (int64x2_t __a, int32x2_t __b, int32x4_t __c, int const __d)
21474 {
21475   return __builtin_aarch64_sqdmlal_laneqv2si (__a, __b, __c, __d);
21476 }
21477
21478 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21479 vqdmlal_n_s32 (int64x2_t __a, int32x2_t __b, int32_t __c)
21480 {
21481   return __builtin_aarch64_sqdmlal_nv2si (__a, __b, __c);
21482 }
21483
21484 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
21485 vqdmlalh_s16 (int32x1_t __a, int16x1_t __b, int16x1_t __c)
21486 {
21487   return __builtin_aarch64_sqdmlalhi (__a, __b, __c);
21488 }
21489
21490 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
21491 vqdmlalh_lane_s16 (int32x1_t __a, int16x1_t __b, int16x8_t __c, const int __d)
21492 {
21493   return __builtin_aarch64_sqdmlal_lanehi (__a, __b, __c, __d);
21494 }
21495
21496 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
21497 vqdmlals_s32 (int64x1_t __a, int32x1_t __b, int32x1_t __c)
21498 {
21499   return __builtin_aarch64_sqdmlalsi (__a, __b, __c);
21500 }
21501
21502 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
21503 vqdmlals_lane_s32 (int64x1_t __a, int32x1_t __b, int32x4_t __c, const int __d)
21504 {
21505   return __builtin_aarch64_sqdmlal_lanesi (__a, __b, __c, __d);
21506 }
21507
21508 /* vqdmlsl */
21509
21510 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21511 vqdmlsl_s16 (int32x4_t __a, int16x4_t __b, int16x4_t __c)
21512 {
21513   return __builtin_aarch64_sqdmlslv4hi (__a, __b, __c);
21514 }
21515
21516 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21517 vqdmlsl_high_s16 (int32x4_t __a, int16x8_t __b, int16x8_t __c)
21518 {
21519   return __builtin_aarch64_sqdmlsl2v8hi (__a, __b, __c);
21520 }
21521
21522 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21523 vqdmlsl_high_lane_s16 (int32x4_t __a, int16x8_t __b, int16x8_t __c,
21524                        int const __d)
21525 {
21526   return __builtin_aarch64_sqdmlsl2_lanev8hi (__a, __b, __c, __d);
21527 }
21528
21529 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21530 vqdmlsl_high_laneq_s16 (int32x4_t __a, int16x8_t __b, int16x8_t __c,
21531                         int const __d)
21532 {
21533   return __builtin_aarch64_sqdmlsl2_laneqv8hi (__a, __b, __c, __d);
21534 }
21535
21536 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21537 vqdmlsl_high_n_s16 (int32x4_t __a, int16x8_t __b, int16_t __c)
21538 {
21539   return __builtin_aarch64_sqdmlsl2_nv8hi (__a, __b, __c);
21540 }
21541
21542 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21543 vqdmlsl_lane_s16 (int32x4_t __a, int16x4_t __b, int16x4_t __c, int const __d)
21544 {
21545   int16x8_t __tmp = vcombine_s16 (__c, vcreate_s16 (__AARCH64_INT64_C (0)));
21546   return __builtin_aarch64_sqdmlsl_lanev4hi (__a, __b, __tmp, __d);
21547 }
21548
21549 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21550 vqdmlsl_laneq_s16 (int32x4_t __a, int16x4_t __b, int16x8_t __c, int const __d)
21551 {
21552   return __builtin_aarch64_sqdmlsl_laneqv4hi (__a, __b, __c, __d);
21553 }
21554
21555 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21556 vqdmlsl_n_s16 (int32x4_t __a, int16x4_t __b, int16_t __c)
21557 {
21558   return __builtin_aarch64_sqdmlsl_nv4hi (__a, __b, __c);
21559 }
21560
21561 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21562 vqdmlsl_s32 (int64x2_t __a, int32x2_t __b, int32x2_t __c)
21563 {
21564   return __builtin_aarch64_sqdmlslv2si (__a, __b, __c);
21565 }
21566
21567 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21568 vqdmlsl_high_s32 (int64x2_t __a, int32x4_t __b, int32x4_t __c)
21569 {
21570   return __builtin_aarch64_sqdmlsl2v4si (__a, __b, __c);
21571 }
21572
21573 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21574 vqdmlsl_high_lane_s32 (int64x2_t __a, int32x4_t __b, int32x4_t __c,
21575                        int const __d)
21576 {
21577   return __builtin_aarch64_sqdmlsl2_lanev4si (__a, __b, __c, __d);
21578 }
21579
21580 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21581 vqdmlsl_high_laneq_s32 (int64x2_t __a, int32x4_t __b, int32x4_t __c,
21582                         int const __d)
21583 {
21584   return __builtin_aarch64_sqdmlsl2_laneqv4si (__a, __b, __c, __d);
21585 }
21586
21587 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21588 vqdmlsl_high_n_s32 (int64x2_t __a, int32x4_t __b, int32_t __c)
21589 {
21590   return __builtin_aarch64_sqdmlsl2_nv4si (__a, __b, __c);
21591 }
21592
21593 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21594 vqdmlsl_lane_s32 (int64x2_t __a, int32x2_t __b, int32x2_t __c, int const __d)
21595 {
21596   int32x4_t __tmp = vcombine_s32 (__c, vcreate_s32 (__AARCH64_INT64_C (0)));
21597   return __builtin_aarch64_sqdmlsl_lanev2si (__a, __b, __tmp, __d);
21598 }
21599
21600 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21601 vqdmlsl_laneq_s32 (int64x2_t __a, int32x2_t __b, int32x4_t __c, int const __d)
21602 {
21603   return __builtin_aarch64_sqdmlsl_laneqv2si (__a, __b, __c, __d);
21604 }
21605
21606 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21607 vqdmlsl_n_s32 (int64x2_t __a, int32x2_t __b, int32_t __c)
21608 {
21609   return __builtin_aarch64_sqdmlsl_nv2si (__a, __b, __c);
21610 }
21611
21612 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
21613 vqdmlslh_s16 (int32x1_t __a, int16x1_t __b, int16x1_t __c)
21614 {
21615   return __builtin_aarch64_sqdmlslhi (__a, __b, __c);
21616 }
21617
21618 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
21619 vqdmlslh_lane_s16 (int32x1_t __a, int16x1_t __b, int16x8_t __c, const int __d)
21620 {
21621   return __builtin_aarch64_sqdmlsl_lanehi (__a, __b, __c, __d);
21622 }
21623
21624 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
21625 vqdmlsls_s32 (int64x1_t __a, int32x1_t __b, int32x1_t __c)
21626 {
21627   return __builtin_aarch64_sqdmlslsi (__a, __b, __c);
21628 }
21629
21630 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
21631 vqdmlsls_lane_s32 (int64x1_t __a, int32x1_t __b, int32x4_t __c, const int __d)
21632 {
21633   return __builtin_aarch64_sqdmlsl_lanesi (__a, __b, __c, __d);
21634 }
21635
21636 /* vqdmulh */
21637
21638 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
21639 vqdmulh_lane_s16 (int16x4_t __a, int16x4_t __b, const int __c)
21640 {
21641   return __builtin_aarch64_sqdmulh_lanev4hi (__a, __b, __c);
21642 }
21643
21644 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
21645 vqdmulh_lane_s32 (int32x2_t __a, int32x2_t __b, const int __c)
21646 {
21647   return __builtin_aarch64_sqdmulh_lanev2si (__a, __b, __c);
21648 }
21649
21650 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
21651 vqdmulhq_lane_s16 (int16x8_t __a, int16x4_t __b, const int __c)
21652 {
21653   return __builtin_aarch64_sqdmulh_lanev8hi (__a, __b, __c);
21654 }
21655
21656 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21657 vqdmulhq_lane_s32 (int32x4_t __a, int32x2_t __b, const int __c)
21658 {
21659   return __builtin_aarch64_sqdmulh_lanev4si (__a, __b, __c);
21660 }
21661
21662 __extension__ static __inline int16x1_t __attribute__ ((__always_inline__))
21663 vqdmulhh_s16 (int16x1_t __a, int16x1_t __b)
21664 {
21665   return (int16x1_t) __builtin_aarch64_sqdmulhhi (__a, __b);
21666 }
21667
21668 __extension__ static __inline int16x1_t __attribute__ ((__always_inline__))
21669 vqdmulhh_lane_s16 (int16x1_t __a, int16x8_t __b, const int __c)
21670 {
21671   return __builtin_aarch64_sqdmulh_lanehi (__a, __b, __c);
21672 }
21673
21674 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
21675 vqdmulhs_s32 (int32x1_t __a, int32x1_t __b)
21676 {
21677   return (int32x1_t) __builtin_aarch64_sqdmulhsi (__a, __b);
21678 }
21679
21680 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
21681 vqdmulhs_lane_s32 (int32x1_t __a, int32x4_t __b, const int __c)
21682 {
21683   return __builtin_aarch64_sqdmulh_lanesi (__a, __b, __c);
21684 }
21685
21686 /* vqdmull */
21687
21688 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21689 vqdmull_s16 (int16x4_t __a, int16x4_t __b)
21690 {
21691   return __builtin_aarch64_sqdmullv4hi (__a, __b);
21692 }
21693
21694 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21695 vqdmull_high_s16 (int16x8_t __a, int16x8_t __b)
21696 {
21697   return __builtin_aarch64_sqdmull2v8hi (__a, __b);
21698 }
21699
21700 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21701 vqdmull_high_lane_s16 (int16x8_t __a, int16x8_t __b, int const __c)
21702 {
21703   return __builtin_aarch64_sqdmull2_lanev8hi (__a, __b,__c);
21704 }
21705
21706 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21707 vqdmull_high_laneq_s16 (int16x8_t __a, int16x8_t __b, int const __c)
21708 {
21709   return __builtin_aarch64_sqdmull2_laneqv8hi (__a, __b,__c);
21710 }
21711
21712 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21713 vqdmull_high_n_s16 (int16x8_t __a, int16_t __b)
21714 {
21715   return __builtin_aarch64_sqdmull2_nv8hi (__a, __b);
21716 }
21717
21718 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21719 vqdmull_lane_s16 (int16x4_t __a, int16x4_t __b, int const __c)
21720 {
21721   int16x8_t __tmp = vcombine_s16 (__b, vcreate_s16 (__AARCH64_INT64_C (0)));
21722   return __builtin_aarch64_sqdmull_lanev4hi (__a, __tmp, __c);
21723 }
21724
21725 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21726 vqdmull_laneq_s16 (int16x4_t __a, int16x8_t __b, int const __c)
21727 {
21728   return __builtin_aarch64_sqdmull_laneqv4hi (__a, __b, __c);
21729 }
21730
21731 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21732 vqdmull_n_s16 (int16x4_t __a, int16_t __b)
21733 {
21734   return __builtin_aarch64_sqdmull_nv4hi (__a, __b);
21735 }
21736
21737 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21738 vqdmull_s32 (int32x2_t __a, int32x2_t __b)
21739 {
21740   return __builtin_aarch64_sqdmullv2si (__a, __b);
21741 }
21742
21743 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21744 vqdmull_high_s32 (int32x4_t __a, int32x4_t __b)
21745 {
21746   return __builtin_aarch64_sqdmull2v4si (__a, __b);
21747 }
21748
21749 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21750 vqdmull_high_lane_s32 (int32x4_t __a, int32x4_t __b, int const __c)
21751 {
21752   return __builtin_aarch64_sqdmull2_lanev4si (__a, __b, __c);
21753 }
21754
21755 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21756 vqdmull_high_laneq_s32 (int32x4_t __a, int32x4_t __b, int const __c)
21757 {
21758   return __builtin_aarch64_sqdmull2_laneqv4si (__a, __b, __c);
21759 }
21760
21761 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21762 vqdmull_high_n_s32 (int32x4_t __a, int32_t __b)
21763 {
21764   return __builtin_aarch64_sqdmull2_nv4si (__a, __b);
21765 }
21766
21767 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21768 vqdmull_lane_s32 (int32x2_t __a, int32x2_t __b, int const __c)
21769 {
21770   int32x4_t __tmp = vcombine_s32 (__b, vcreate_s32 (__AARCH64_INT64_C (0)));
21771   return __builtin_aarch64_sqdmull_lanev2si (__a, __tmp, __c);
21772 }
21773
21774 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21775 vqdmull_laneq_s32 (int32x2_t __a, int32x4_t __b, int const __c)
21776 {
21777   return __builtin_aarch64_sqdmull_laneqv2si (__a, __b, __c);
21778 }
21779
21780 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21781 vqdmull_n_s32 (int32x2_t __a, int32_t __b)
21782 {
21783   return __builtin_aarch64_sqdmull_nv2si (__a, __b);
21784 }
21785
21786 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
21787 vqdmullh_s16 (int16x1_t __a, int16x1_t __b)
21788 {
21789   return (int32x1_t) __builtin_aarch64_sqdmullhi (__a, __b);
21790 }
21791
21792 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
21793 vqdmullh_lane_s16 (int16x1_t __a, int16x8_t __b, const int __c)
21794 {
21795   return __builtin_aarch64_sqdmull_lanehi (__a, __b, __c);
21796 }
21797
21798 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
21799 vqdmulls_s32 (int32x1_t __a, int32x1_t __b)
21800 {
21801   return (int64x1_t) __builtin_aarch64_sqdmullsi (__a, __b);
21802 }
21803
21804 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
21805 vqdmulls_lane_s32 (int32x1_t __a, int32x4_t __b, const int __c)
21806 {
21807   return __builtin_aarch64_sqdmull_lanesi (__a, __b, __c);
21808 }
21809
21810 /* vqmovn */
21811
21812 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
21813 vqmovn_s16 (int16x8_t __a)
21814 {
21815   return (int8x8_t) __builtin_aarch64_sqmovnv8hi (__a);
21816 }
21817
21818 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
21819 vqmovn_s32 (int32x4_t __a)
21820 {
21821   return (int16x4_t) __builtin_aarch64_sqmovnv4si (__a);
21822 }
21823
21824 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
21825 vqmovn_s64 (int64x2_t __a)
21826 {
21827   return (int32x2_t) __builtin_aarch64_sqmovnv2di (__a);
21828 }
21829
21830 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
21831 vqmovn_u16 (uint16x8_t __a)
21832 {
21833   return (uint8x8_t) __builtin_aarch64_uqmovnv8hi ((int16x8_t) __a);
21834 }
21835
21836 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
21837 vqmovn_u32 (uint32x4_t __a)
21838 {
21839   return (uint16x4_t) __builtin_aarch64_uqmovnv4si ((int32x4_t) __a);
21840 }
21841
21842 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
21843 vqmovn_u64 (uint64x2_t __a)
21844 {
21845   return (uint32x2_t) __builtin_aarch64_uqmovnv2di ((int64x2_t) __a);
21846 }
21847
21848 __extension__ static __inline int8x1_t __attribute__ ((__always_inline__))
21849 vqmovnh_s16 (int16x1_t __a)
21850 {
21851   return (int8x1_t) __builtin_aarch64_sqmovnhi (__a);
21852 }
21853
21854 __extension__ static __inline int16x1_t __attribute__ ((__always_inline__))
21855 vqmovns_s32 (int32x1_t __a)
21856 {
21857   return (int16x1_t) __builtin_aarch64_sqmovnsi (__a);
21858 }
21859
21860 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
21861 vqmovnd_s64 (int64x1_t __a)
21862 {
21863   return (int32x1_t) __builtin_aarch64_sqmovndi (__a);
21864 }
21865
21866 __extension__ static __inline uint8x1_t __attribute__ ((__always_inline__))
21867 vqmovnh_u16 (uint16x1_t __a)
21868 {
21869   return (uint8x1_t) __builtin_aarch64_uqmovnhi (__a);
21870 }
21871
21872 __extension__ static __inline uint16x1_t __attribute__ ((__always_inline__))
21873 vqmovns_u32 (uint32x1_t __a)
21874 {
21875   return (uint16x1_t) __builtin_aarch64_uqmovnsi (__a);
21876 }
21877
21878 __extension__ static __inline uint32x1_t __attribute__ ((__always_inline__))
21879 vqmovnd_u64 (uint64x1_t __a)
21880 {
21881   return (uint32x1_t) __builtin_aarch64_uqmovndi (__a);
21882 }
21883
21884 /* vqmovun */
21885
21886 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
21887 vqmovun_s16 (int16x8_t __a)
21888 {
21889   return (uint8x8_t) __builtin_aarch64_sqmovunv8hi (__a);
21890 }
21891
21892 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
21893 vqmovun_s32 (int32x4_t __a)
21894 {
21895   return (uint16x4_t) __builtin_aarch64_sqmovunv4si (__a);
21896 }
21897
21898 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
21899 vqmovun_s64 (int64x2_t __a)
21900 {
21901   return (uint32x2_t) __builtin_aarch64_sqmovunv2di (__a);
21902 }
21903
21904 __extension__ static __inline int8x1_t __attribute__ ((__always_inline__))
21905 vqmovunh_s16 (int16x1_t __a)
21906 {
21907   return (int8x1_t) __builtin_aarch64_sqmovunhi (__a);
21908 }
21909
21910 __extension__ static __inline int16x1_t __attribute__ ((__always_inline__))
21911 vqmovuns_s32 (int32x1_t __a)
21912 {
21913   return (int16x1_t) __builtin_aarch64_sqmovunsi (__a);
21914 }
21915
21916 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
21917 vqmovund_s64 (int64x1_t __a)
21918 {
21919   return (int32x1_t) __builtin_aarch64_sqmovundi (__a);
21920 }
21921
21922 /* vqneg */
21923
21924 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
21925 vqnegq_s64 (int64x2_t __a)
21926 {
21927   return (int64x2_t) __builtin_aarch64_sqnegv2di (__a);
21928 }
21929
21930 __extension__ static __inline int8x1_t __attribute__ ((__always_inline__))
21931 vqnegb_s8 (int8x1_t __a)
21932 {
21933   return (int8x1_t) __builtin_aarch64_sqnegqi (__a);
21934 }
21935
21936 __extension__ static __inline int16x1_t __attribute__ ((__always_inline__))
21937 vqnegh_s16 (int16x1_t __a)
21938 {
21939   return (int16x1_t) __builtin_aarch64_sqneghi (__a);
21940 }
21941
21942 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
21943 vqnegs_s32 (int32x1_t __a)
21944 {
21945   return (int32x1_t) __builtin_aarch64_sqnegsi (__a);
21946 }
21947
21948 /* vqrdmulh */
21949
21950 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
21951 vqrdmulh_lane_s16 (int16x4_t __a, int16x4_t __b, const int __c)
21952 {
21953   return  __builtin_aarch64_sqrdmulh_lanev4hi (__a, __b, __c);
21954 }
21955
21956 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
21957 vqrdmulh_lane_s32 (int32x2_t __a, int32x2_t __b, const int __c)
21958 {
21959   return __builtin_aarch64_sqrdmulh_lanev2si (__a, __b, __c);
21960 }
21961
21962 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
21963 vqrdmulhq_lane_s16 (int16x8_t __a, int16x4_t __b, const int __c)
21964 {
21965   return __builtin_aarch64_sqrdmulh_lanev8hi (__a, __b, __c);
21966 }
21967
21968 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
21969 vqrdmulhq_lane_s32 (int32x4_t __a, int32x2_t __b, const int __c)
21970 {
21971   return __builtin_aarch64_sqrdmulh_lanev4si (__a, __b, __c);
21972 }
21973
21974 __extension__ static __inline int16x1_t __attribute__ ((__always_inline__))
21975 vqrdmulhh_s16 (int16x1_t __a, int16x1_t __b)
21976 {
21977   return (int16x1_t) __builtin_aarch64_sqrdmulhhi (__a, __b);
21978 }
21979
21980 __extension__ static __inline int16x1_t __attribute__ ((__always_inline__))
21981 vqrdmulhh_lane_s16 (int16x1_t __a, int16x8_t __b, const int __c)
21982 {
21983   return __builtin_aarch64_sqrdmulh_lanehi (__a, __b, __c);
21984 }
21985
21986 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
21987 vqrdmulhs_s32 (int32x1_t __a, int32x1_t __b)
21988 {
21989   return (int32x1_t) __builtin_aarch64_sqrdmulhsi (__a, __b);
21990 }
21991
21992 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
21993 vqrdmulhs_lane_s32 (int32x1_t __a, int32x4_t __b, const int __c)
21994 {
21995   return __builtin_aarch64_sqrdmulh_lanesi (__a, __b, __c);
21996 }
21997
21998 /* vqrshl */
21999
22000 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
22001 vqrshl_s8 (int8x8_t __a, int8x8_t __b)
22002 {
22003   return __builtin_aarch64_sqrshlv8qi (__a, __b);
22004 }
22005
22006 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
22007 vqrshl_s16 (int16x4_t __a, int16x4_t __b)
22008 {
22009   return __builtin_aarch64_sqrshlv4hi (__a, __b);
22010 }
22011
22012 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
22013 vqrshl_s32 (int32x2_t __a, int32x2_t __b)
22014 {
22015   return __builtin_aarch64_sqrshlv2si (__a, __b);
22016 }
22017
22018 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
22019 vqrshl_s64 (int64x1_t __a, int64x1_t __b)
22020 {
22021   return __builtin_aarch64_sqrshldi (__a, __b);
22022 }
22023
22024 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
22025 vqrshl_u8 (uint8x8_t __a, int8x8_t __b)
22026 {
22027   return (uint8x8_t) __builtin_aarch64_uqrshlv8qi ((int8x8_t) __a, __b);
22028 }
22029
22030 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
22031 vqrshl_u16 (uint16x4_t __a, int16x4_t __b)
22032 {
22033   return (uint16x4_t) __builtin_aarch64_uqrshlv4hi ((int16x4_t) __a, __b);
22034 }
22035
22036 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
22037 vqrshl_u32 (uint32x2_t __a, int32x2_t __b)
22038 {
22039   return (uint32x2_t) __builtin_aarch64_uqrshlv2si ((int32x2_t) __a, __b);
22040 }
22041
22042 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
22043 vqrshl_u64 (uint64x1_t __a, int64x1_t __b)
22044 {
22045   return (uint64x1_t) __builtin_aarch64_uqrshldi ((int64x1_t) __a, __b);
22046 }
22047
22048 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
22049 vqrshlq_s8 (int8x16_t __a, int8x16_t __b)
22050 {
22051   return __builtin_aarch64_sqrshlv16qi (__a, __b);
22052 }
22053
22054 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
22055 vqrshlq_s16 (int16x8_t __a, int16x8_t __b)
22056 {
22057   return __builtin_aarch64_sqrshlv8hi (__a, __b);
22058 }
22059
22060 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
22061 vqrshlq_s32 (int32x4_t __a, int32x4_t __b)
22062 {
22063   return __builtin_aarch64_sqrshlv4si (__a, __b);
22064 }
22065
22066 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
22067 vqrshlq_s64 (int64x2_t __a, int64x2_t __b)
22068 {
22069   return __builtin_aarch64_sqrshlv2di (__a, __b);
22070 }
22071
22072 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
22073 vqrshlq_u8 (uint8x16_t __a, int8x16_t __b)
22074 {
22075   return (uint8x16_t) __builtin_aarch64_uqrshlv16qi ((int8x16_t) __a, __b);
22076 }
22077
22078 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
22079 vqrshlq_u16 (uint16x8_t __a, int16x8_t __b)
22080 {
22081   return (uint16x8_t) __builtin_aarch64_uqrshlv8hi ((int16x8_t) __a, __b);
22082 }
22083
22084 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
22085 vqrshlq_u32 (uint32x4_t __a, int32x4_t __b)
22086 {
22087   return (uint32x4_t) __builtin_aarch64_uqrshlv4si ((int32x4_t) __a, __b);
22088 }
22089
22090 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
22091 vqrshlq_u64 (uint64x2_t __a, int64x2_t __b)
22092 {
22093   return (uint64x2_t) __builtin_aarch64_uqrshlv2di ((int64x2_t) __a, __b);
22094 }
22095
22096 __extension__ static __inline int8x1_t __attribute__ ((__always_inline__))
22097 vqrshlb_s8 (int8x1_t __a, int8x1_t __b)
22098 {
22099   return __builtin_aarch64_sqrshlqi (__a, __b);
22100 }
22101
22102 __extension__ static __inline int16x1_t __attribute__ ((__always_inline__))
22103 vqrshlh_s16 (int16x1_t __a, int16x1_t __b)
22104 {
22105   return __builtin_aarch64_sqrshlhi (__a, __b);
22106 }
22107
22108 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
22109 vqrshls_s32 (int32x1_t __a, int32x1_t __b)
22110 {
22111   return __builtin_aarch64_sqrshlsi (__a, __b);
22112 }
22113
22114 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
22115 vqrshld_s64 (int64x1_t __a, int64x1_t __b)
22116 {
22117   return __builtin_aarch64_sqrshldi (__a, __b);
22118 }
22119
22120 __extension__ static __inline uint8x1_t __attribute__ ((__always_inline__))
22121 vqrshlb_u8 (uint8x1_t __a, uint8x1_t __b)
22122 {
22123   return (uint8x1_t) __builtin_aarch64_uqrshlqi (__a, __b);
22124 }
22125
22126 __extension__ static __inline uint16x1_t __attribute__ ((__always_inline__))
22127 vqrshlh_u16 (uint16x1_t __a, uint16x1_t __b)
22128 {
22129   return (uint16x1_t) __builtin_aarch64_uqrshlhi (__a, __b);
22130 }
22131
22132 __extension__ static __inline uint32x1_t __attribute__ ((__always_inline__))
22133 vqrshls_u32 (uint32x1_t __a, uint32x1_t __b)
22134 {
22135   return (uint32x1_t) __builtin_aarch64_uqrshlsi (__a, __b);
22136 }
22137
22138 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
22139 vqrshld_u64 (uint64x1_t __a, uint64x1_t __b)
22140 {
22141   return (uint64x1_t) __builtin_aarch64_uqrshldi (__a, __b);
22142 }
22143
22144 /* vqrshrn */
22145
22146 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
22147 vqrshrn_n_s16 (int16x8_t __a, const int __b)
22148 {
22149   return (int8x8_t) __builtin_aarch64_sqrshrn_nv8hi (__a, __b);
22150 }
22151
22152 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
22153 vqrshrn_n_s32 (int32x4_t __a, const int __b)
22154 {
22155   return (int16x4_t) __builtin_aarch64_sqrshrn_nv4si (__a, __b);
22156 }
22157
22158 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
22159 vqrshrn_n_s64 (int64x2_t __a, const int __b)
22160 {
22161   return (int32x2_t) __builtin_aarch64_sqrshrn_nv2di (__a, __b);
22162 }
22163
22164 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
22165 vqrshrn_n_u16 (uint16x8_t __a, const int __b)
22166 {
22167   return (uint8x8_t) __builtin_aarch64_uqrshrn_nv8hi ((int16x8_t) __a, __b);
22168 }
22169
22170 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
22171 vqrshrn_n_u32 (uint32x4_t __a, const int __b)
22172 {
22173   return (uint16x4_t) __builtin_aarch64_uqrshrn_nv4si ((int32x4_t) __a, __b);
22174 }
22175
22176 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
22177 vqrshrn_n_u64 (uint64x2_t __a, const int __b)
22178 {
22179   return (uint32x2_t) __builtin_aarch64_uqrshrn_nv2di ((int64x2_t) __a, __b);
22180 }
22181
22182 __extension__ static __inline int8x1_t __attribute__ ((__always_inline__))
22183 vqrshrnh_n_s16 (int16x1_t __a, const int __b)
22184 {
22185   return (int8x1_t) __builtin_aarch64_sqrshrn_nhi (__a, __b);
22186 }
22187
22188 __extension__ static __inline int16x1_t __attribute__ ((__always_inline__))
22189 vqrshrns_n_s32 (int32x1_t __a, const int __b)
22190 {
22191   return (int16x1_t) __builtin_aarch64_sqrshrn_nsi (__a, __b);
22192 }
22193
22194 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
22195 vqrshrnd_n_s64 (int64x1_t __a, const int __b)
22196 {
22197   return (int32x1_t) __builtin_aarch64_sqrshrn_ndi (__a, __b);
22198 }
22199
22200 __extension__ static __inline uint8x1_t __attribute__ ((__always_inline__))
22201 vqrshrnh_n_u16 (uint16x1_t __a, const int __b)
22202 {
22203   return (uint8x1_t) __builtin_aarch64_uqrshrn_nhi (__a, __b);
22204 }
22205
22206 __extension__ static __inline uint16x1_t __attribute__ ((__always_inline__))
22207 vqrshrns_n_u32 (uint32x1_t __a, const int __b)
22208 {
22209   return (uint16x1_t) __builtin_aarch64_uqrshrn_nsi (__a, __b);
22210 }
22211
22212 __extension__ static __inline uint32x1_t __attribute__ ((__always_inline__))
22213 vqrshrnd_n_u64 (uint64x1_t __a, const int __b)
22214 {
22215   return (uint32x1_t) __builtin_aarch64_uqrshrn_ndi (__a, __b);
22216 }
22217
22218 /* vqrshrun */
22219
22220 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
22221 vqrshrun_n_s16 (int16x8_t __a, const int __b)
22222 {
22223   return (uint8x8_t) __builtin_aarch64_sqrshrun_nv8hi (__a, __b);
22224 }
22225
22226 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
22227 vqrshrun_n_s32 (int32x4_t __a, const int __b)
22228 {
22229   return (uint16x4_t) __builtin_aarch64_sqrshrun_nv4si (__a, __b);
22230 }
22231
22232 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
22233 vqrshrun_n_s64 (int64x2_t __a, const int __b)
22234 {
22235   return (uint32x2_t) __builtin_aarch64_sqrshrun_nv2di (__a, __b);
22236 }
22237
22238 __extension__ static __inline int8x1_t __attribute__ ((__always_inline__))
22239 vqrshrunh_n_s16 (int16x1_t __a, const int __b)
22240 {
22241   return (int8x1_t) __builtin_aarch64_sqrshrun_nhi (__a, __b);
22242 }
22243
22244 __extension__ static __inline int16x1_t __attribute__ ((__always_inline__))
22245 vqrshruns_n_s32 (int32x1_t __a, const int __b)
22246 {
22247   return (int16x1_t) __builtin_aarch64_sqrshrun_nsi (__a, __b);
22248 }
22249
22250 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
22251 vqrshrund_n_s64 (int64x1_t __a, const int __b)
22252 {
22253   return (int32x1_t) __builtin_aarch64_sqrshrun_ndi (__a, __b);
22254 }
22255
22256 /* vqshl */
22257
22258 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
22259 vqshl_s8 (int8x8_t __a, int8x8_t __b)
22260 {
22261   return __builtin_aarch64_sqshlv8qi (__a, __b);
22262 }
22263
22264 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
22265 vqshl_s16 (int16x4_t __a, int16x4_t __b)
22266 {
22267   return __builtin_aarch64_sqshlv4hi (__a, __b);
22268 }
22269
22270 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
22271 vqshl_s32 (int32x2_t __a, int32x2_t __b)
22272 {
22273   return __builtin_aarch64_sqshlv2si (__a, __b);
22274 }
22275
22276 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
22277 vqshl_s64 (int64x1_t __a, int64x1_t __b)
22278 {
22279   return __builtin_aarch64_sqshldi (__a, __b);
22280 }
22281
22282 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
22283 vqshl_u8 (uint8x8_t __a, int8x8_t __b)
22284 {
22285   return (uint8x8_t) __builtin_aarch64_uqshlv8qi ((int8x8_t) __a, __b);
22286 }
22287
22288 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
22289 vqshl_u16 (uint16x4_t __a, int16x4_t __b)
22290 {
22291   return (uint16x4_t) __builtin_aarch64_uqshlv4hi ((int16x4_t) __a, __b);
22292 }
22293
22294 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
22295 vqshl_u32 (uint32x2_t __a, int32x2_t __b)
22296 {
22297   return (uint32x2_t) __builtin_aarch64_uqshlv2si ((int32x2_t) __a, __b);
22298 }
22299
22300 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
22301 vqshl_u64 (uint64x1_t __a, int64x1_t __b)
22302 {
22303   return (uint64x1_t) __builtin_aarch64_uqshldi ((int64x1_t) __a, __b);
22304 }
22305
22306 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
22307 vqshlq_s8 (int8x16_t __a, int8x16_t __b)
22308 {
22309   return __builtin_aarch64_sqshlv16qi (__a, __b);
22310 }
22311
22312 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
22313 vqshlq_s16 (int16x8_t __a, int16x8_t __b)
22314 {
22315   return __builtin_aarch64_sqshlv8hi (__a, __b);
22316 }
22317
22318 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
22319 vqshlq_s32 (int32x4_t __a, int32x4_t __b)
22320 {
22321   return __builtin_aarch64_sqshlv4si (__a, __b);
22322 }
22323
22324 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
22325 vqshlq_s64 (int64x2_t __a, int64x2_t __b)
22326 {
22327   return __builtin_aarch64_sqshlv2di (__a, __b);
22328 }
22329
22330 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
22331 vqshlq_u8 (uint8x16_t __a, int8x16_t __b)
22332 {
22333   return (uint8x16_t) __builtin_aarch64_uqshlv16qi ((int8x16_t) __a, __b);
22334 }
22335
22336 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
22337 vqshlq_u16 (uint16x8_t __a, int16x8_t __b)
22338 {
22339   return (uint16x8_t) __builtin_aarch64_uqshlv8hi ((int16x8_t) __a, __b);
22340 }
22341
22342 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
22343 vqshlq_u32 (uint32x4_t __a, int32x4_t __b)
22344 {
22345   return (uint32x4_t) __builtin_aarch64_uqshlv4si ((int32x4_t) __a, __b);
22346 }
22347
22348 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
22349 vqshlq_u64 (uint64x2_t __a, int64x2_t __b)
22350 {
22351   return (uint64x2_t) __builtin_aarch64_uqshlv2di ((int64x2_t) __a, __b);
22352 }
22353
22354 __extension__ static __inline int8x1_t __attribute__ ((__always_inline__))
22355 vqshlb_s8 (int8x1_t __a, int8x1_t __b)
22356 {
22357   return __builtin_aarch64_sqshlqi (__a, __b);
22358 }
22359
22360 __extension__ static __inline int16x1_t __attribute__ ((__always_inline__))
22361 vqshlh_s16 (int16x1_t __a, int16x1_t __b)
22362 {
22363   return __builtin_aarch64_sqshlhi (__a, __b);
22364 }
22365
22366 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
22367 vqshls_s32 (int32x1_t __a, int32x1_t __b)
22368 {
22369   return __builtin_aarch64_sqshlsi (__a, __b);
22370 }
22371
22372 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
22373 vqshld_s64 (int64x1_t __a, int64x1_t __b)
22374 {
22375   return __builtin_aarch64_sqshldi (__a, __b);
22376 }
22377
22378 __extension__ static __inline uint8x1_t __attribute__ ((__always_inline__))
22379 vqshlb_u8 (uint8x1_t __a, uint8x1_t __b)
22380 {
22381   return (uint8x1_t) __builtin_aarch64_uqshlqi (__a, __b);
22382 }
22383
22384 __extension__ static __inline uint16x1_t __attribute__ ((__always_inline__))
22385 vqshlh_u16 (uint16x1_t __a, uint16x1_t __b)
22386 {
22387   return (uint16x1_t) __builtin_aarch64_uqshlhi (__a, __b);
22388 }
22389
22390 __extension__ static __inline uint32x1_t __attribute__ ((__always_inline__))
22391 vqshls_u32 (uint32x1_t __a, uint32x1_t __b)
22392 {
22393   return (uint32x1_t) __builtin_aarch64_uqshlsi (__a, __b);
22394 }
22395
22396 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
22397 vqshld_u64 (uint64x1_t __a, uint64x1_t __b)
22398 {
22399   return (uint64x1_t) __builtin_aarch64_uqshldi (__a, __b);
22400 }
22401
22402 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
22403 vqshl_n_s8 (int8x8_t __a, const int __b)
22404 {
22405   return (int8x8_t) __builtin_aarch64_sqshl_nv8qi (__a, __b);
22406 }
22407
22408 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
22409 vqshl_n_s16 (int16x4_t __a, const int __b)
22410 {
22411   return (int16x4_t) __builtin_aarch64_sqshl_nv4hi (__a, __b);
22412 }
22413
22414 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
22415 vqshl_n_s32 (int32x2_t __a, const int __b)
22416 {
22417   return (int32x2_t) __builtin_aarch64_sqshl_nv2si (__a, __b);
22418 }
22419
22420 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
22421 vqshl_n_s64 (int64x1_t __a, const int __b)
22422 {
22423   return (int64x1_t) __builtin_aarch64_sqshl_ndi (__a, __b);
22424 }
22425
22426 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
22427 vqshl_n_u8 (uint8x8_t __a, const int __b)
22428 {
22429   return (uint8x8_t) __builtin_aarch64_uqshl_nv8qi ((int8x8_t) __a, __b);
22430 }
22431
22432 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
22433 vqshl_n_u16 (uint16x4_t __a, const int __b)
22434 {
22435   return (uint16x4_t) __builtin_aarch64_uqshl_nv4hi ((int16x4_t) __a, __b);
22436 }
22437
22438 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
22439 vqshl_n_u32 (uint32x2_t __a, const int __b)
22440 {
22441   return (uint32x2_t) __builtin_aarch64_uqshl_nv2si ((int32x2_t) __a, __b);
22442 }
22443
22444 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
22445 vqshl_n_u64 (uint64x1_t __a, const int __b)
22446 {
22447   return (uint64x1_t) __builtin_aarch64_uqshl_ndi ((int64x1_t) __a, __b);
22448 }
22449
22450 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
22451 vqshlq_n_s8 (int8x16_t __a, const int __b)
22452 {
22453   return (int8x16_t) __builtin_aarch64_sqshl_nv16qi (__a, __b);
22454 }
22455
22456 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
22457 vqshlq_n_s16 (int16x8_t __a, const int __b)
22458 {
22459   return (int16x8_t) __builtin_aarch64_sqshl_nv8hi (__a, __b);
22460 }
22461
22462 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
22463 vqshlq_n_s32 (int32x4_t __a, const int __b)
22464 {
22465   return (int32x4_t) __builtin_aarch64_sqshl_nv4si (__a, __b);
22466 }
22467
22468 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
22469 vqshlq_n_s64 (int64x2_t __a, const int __b)
22470 {
22471   return (int64x2_t) __builtin_aarch64_sqshl_nv2di (__a, __b);
22472 }
22473
22474 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
22475 vqshlq_n_u8 (uint8x16_t __a, const int __b)
22476 {
22477   return (uint8x16_t) __builtin_aarch64_uqshl_nv16qi ((int8x16_t) __a, __b);
22478 }
22479
22480 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
22481 vqshlq_n_u16 (uint16x8_t __a, const int __b)
22482 {
22483   return (uint16x8_t) __builtin_aarch64_uqshl_nv8hi ((int16x8_t) __a, __b);
22484 }
22485
22486 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
22487 vqshlq_n_u32 (uint32x4_t __a, const int __b)
22488 {
22489   return (uint32x4_t) __builtin_aarch64_uqshl_nv4si ((int32x4_t) __a, __b);
22490 }
22491
22492 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
22493 vqshlq_n_u64 (uint64x2_t __a, const int __b)
22494 {
22495   return (uint64x2_t) __builtin_aarch64_uqshl_nv2di ((int64x2_t) __a, __b);
22496 }
22497
22498 __extension__ static __inline int8x1_t __attribute__ ((__always_inline__))
22499 vqshlb_n_s8 (int8x1_t __a, const int __b)
22500 {
22501   return (int8x1_t) __builtin_aarch64_sqshl_nqi (__a, __b);
22502 }
22503
22504 __extension__ static __inline int16x1_t __attribute__ ((__always_inline__))
22505 vqshlh_n_s16 (int16x1_t __a, const int __b)
22506 {
22507   return (int16x1_t) __builtin_aarch64_sqshl_nhi (__a, __b);
22508 }
22509
22510 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
22511 vqshls_n_s32 (int32x1_t __a, const int __b)
22512 {
22513   return (int32x1_t) __builtin_aarch64_sqshl_nsi (__a, __b);
22514 }
22515
22516 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
22517 vqshld_n_s64 (int64x1_t __a, const int __b)
22518 {
22519   return (int64x1_t) __builtin_aarch64_sqshl_ndi (__a, __b);
22520 }
22521
22522 __extension__ static __inline uint8x1_t __attribute__ ((__always_inline__))
22523 vqshlb_n_u8 (uint8x1_t __a, const int __b)
22524 {
22525   return (uint8x1_t) __builtin_aarch64_uqshl_nqi (__a, __b);
22526 }
22527
22528 __extension__ static __inline uint16x1_t __attribute__ ((__always_inline__))
22529 vqshlh_n_u16 (uint16x1_t __a, const int __b)
22530 {
22531   return (uint16x1_t) __builtin_aarch64_uqshl_nhi (__a, __b);
22532 }
22533
22534 __extension__ static __inline uint32x1_t __attribute__ ((__always_inline__))
22535 vqshls_n_u32 (uint32x1_t __a, const int __b)
22536 {
22537   return (uint32x1_t) __builtin_aarch64_uqshl_nsi (__a, __b);
22538 }
22539
22540 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
22541 vqshld_n_u64 (uint64x1_t __a, const int __b)
22542 {
22543   return (uint64x1_t) __builtin_aarch64_uqshl_ndi (__a, __b);
22544 }
22545
22546 /* vqshlu */
22547
22548 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
22549 vqshlu_n_s8 (int8x8_t __a, const int __b)
22550 {
22551   return (uint8x8_t) __builtin_aarch64_sqshlu_nv8qi (__a, __b);
22552 }
22553
22554 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
22555 vqshlu_n_s16 (int16x4_t __a, const int __b)
22556 {
22557   return (uint16x4_t) __builtin_aarch64_sqshlu_nv4hi (__a, __b);
22558 }
22559
22560 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
22561 vqshlu_n_s32 (int32x2_t __a, const int __b)
22562 {
22563   return (uint32x2_t) __builtin_aarch64_sqshlu_nv2si (__a, __b);
22564 }
22565
22566 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
22567 vqshlu_n_s64 (int64x1_t __a, const int __b)
22568 {
22569   return (uint64x1_t) __builtin_aarch64_sqshlu_ndi (__a, __b);
22570 }
22571
22572 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
22573 vqshluq_n_s8 (int8x16_t __a, const int __b)
22574 {
22575   return (uint8x16_t) __builtin_aarch64_sqshlu_nv16qi (__a, __b);
22576 }
22577
22578 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
22579 vqshluq_n_s16 (int16x8_t __a, const int __b)
22580 {
22581   return (uint16x8_t) __builtin_aarch64_sqshlu_nv8hi (__a, __b);
22582 }
22583
22584 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
22585 vqshluq_n_s32 (int32x4_t __a, const int __b)
22586 {
22587   return (uint32x4_t) __builtin_aarch64_sqshlu_nv4si (__a, __b);
22588 }
22589
22590 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
22591 vqshluq_n_s64 (int64x2_t __a, const int __b)
22592 {
22593   return (uint64x2_t) __builtin_aarch64_sqshlu_nv2di (__a, __b);
22594 }
22595
22596 __extension__ static __inline int8x1_t __attribute__ ((__always_inline__))
22597 vqshlub_n_s8 (int8x1_t __a, const int __b)
22598 {
22599   return (int8x1_t) __builtin_aarch64_sqshlu_nqi (__a, __b);
22600 }
22601
22602 __extension__ static __inline int16x1_t __attribute__ ((__always_inline__))
22603 vqshluh_n_s16 (int16x1_t __a, const int __b)
22604 {
22605   return (int16x1_t) __builtin_aarch64_sqshlu_nhi (__a, __b);
22606 }
22607
22608 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
22609 vqshlus_n_s32 (int32x1_t __a, const int __b)
22610 {
22611   return (int32x1_t) __builtin_aarch64_sqshlu_nsi (__a, __b);
22612 }
22613
22614 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
22615 vqshlud_n_s64 (int64x1_t __a, const int __b)
22616 {
22617   return (int64x1_t) __builtin_aarch64_sqshlu_ndi (__a, __b);
22618 }
22619
22620 /* vqshrn */
22621
22622 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
22623 vqshrn_n_s16 (int16x8_t __a, const int __b)
22624 {
22625   return (int8x8_t) __builtin_aarch64_sqshrn_nv8hi (__a, __b);
22626 }
22627
22628 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
22629 vqshrn_n_s32 (int32x4_t __a, const int __b)
22630 {
22631   return (int16x4_t) __builtin_aarch64_sqshrn_nv4si (__a, __b);
22632 }
22633
22634 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
22635 vqshrn_n_s64 (int64x2_t __a, const int __b)
22636 {
22637   return (int32x2_t) __builtin_aarch64_sqshrn_nv2di (__a, __b);
22638 }
22639
22640 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
22641 vqshrn_n_u16 (uint16x8_t __a, const int __b)
22642 {
22643   return (uint8x8_t) __builtin_aarch64_uqshrn_nv8hi ((int16x8_t) __a, __b);
22644 }
22645
22646 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
22647 vqshrn_n_u32 (uint32x4_t __a, const int __b)
22648 {
22649   return (uint16x4_t) __builtin_aarch64_uqshrn_nv4si ((int32x4_t) __a, __b);
22650 }
22651
22652 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
22653 vqshrn_n_u64 (uint64x2_t __a, const int __b)
22654 {
22655   return (uint32x2_t) __builtin_aarch64_uqshrn_nv2di ((int64x2_t) __a, __b);
22656 }
22657
22658 __extension__ static __inline int8x1_t __attribute__ ((__always_inline__))
22659 vqshrnh_n_s16 (int16x1_t __a, const int __b)
22660 {
22661   return (int8x1_t) __builtin_aarch64_sqshrn_nhi (__a, __b);
22662 }
22663
22664 __extension__ static __inline int16x1_t __attribute__ ((__always_inline__))
22665 vqshrns_n_s32 (int32x1_t __a, const int __b)
22666 {
22667   return (int16x1_t) __builtin_aarch64_sqshrn_nsi (__a, __b);
22668 }
22669
22670 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
22671 vqshrnd_n_s64 (int64x1_t __a, const int __b)
22672 {
22673   return (int32x1_t) __builtin_aarch64_sqshrn_ndi (__a, __b);
22674 }
22675
22676 __extension__ static __inline uint8x1_t __attribute__ ((__always_inline__))
22677 vqshrnh_n_u16 (uint16x1_t __a, const int __b)
22678 {
22679   return (uint8x1_t) __builtin_aarch64_uqshrn_nhi (__a, __b);
22680 }
22681
22682 __extension__ static __inline uint16x1_t __attribute__ ((__always_inline__))
22683 vqshrns_n_u32 (uint32x1_t __a, const int __b)
22684 {
22685   return (uint16x1_t) __builtin_aarch64_uqshrn_nsi (__a, __b);
22686 }
22687
22688 __extension__ static __inline uint32x1_t __attribute__ ((__always_inline__))
22689 vqshrnd_n_u64 (uint64x1_t __a, const int __b)
22690 {
22691   return (uint32x1_t) __builtin_aarch64_uqshrn_ndi (__a, __b);
22692 }
22693
22694 /* vqshrun */
22695
22696 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
22697 vqshrun_n_s16 (int16x8_t __a, const int __b)
22698 {
22699   return (uint8x8_t) __builtin_aarch64_sqshrun_nv8hi (__a, __b);
22700 }
22701
22702 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
22703 vqshrun_n_s32 (int32x4_t __a, const int __b)
22704 {
22705   return (uint16x4_t) __builtin_aarch64_sqshrun_nv4si (__a, __b);
22706 }
22707
22708 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
22709 vqshrun_n_s64 (int64x2_t __a, const int __b)
22710 {
22711   return (uint32x2_t) __builtin_aarch64_sqshrun_nv2di (__a, __b);
22712 }
22713
22714 __extension__ static __inline int8x1_t __attribute__ ((__always_inline__))
22715 vqshrunh_n_s16 (int16x1_t __a, const int __b)
22716 {
22717   return (int8x1_t) __builtin_aarch64_sqshrun_nhi (__a, __b);
22718 }
22719
22720 __extension__ static __inline int16x1_t __attribute__ ((__always_inline__))
22721 vqshruns_n_s32 (int32x1_t __a, const int __b)
22722 {
22723   return (int16x1_t) __builtin_aarch64_sqshrun_nsi (__a, __b);
22724 }
22725
22726 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
22727 vqshrund_n_s64 (int64x1_t __a, const int __b)
22728 {
22729   return (int32x1_t) __builtin_aarch64_sqshrun_ndi (__a, __b);
22730 }
22731
22732 /* vqsub */
22733
22734 __extension__ static __inline int8x1_t __attribute__ ((__always_inline__))
22735 vqsubb_s8 (int8x1_t __a, int8x1_t __b)
22736 {
22737   return (int8x1_t) __builtin_aarch64_sqsubqi (__a, __b);
22738 }
22739
22740 __extension__ static __inline int16x1_t __attribute__ ((__always_inline__))
22741 vqsubh_s16 (int16x1_t __a, int16x1_t __b)
22742 {
22743   return (int16x1_t) __builtin_aarch64_sqsubhi (__a, __b);
22744 }
22745
22746 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
22747 vqsubs_s32 (int32x1_t __a, int32x1_t __b)
22748 {
22749   return (int32x1_t) __builtin_aarch64_sqsubsi (__a, __b);
22750 }
22751
22752 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
22753 vqsubd_s64 (int64x1_t __a, int64x1_t __b)
22754 {
22755   return (int64x1_t) __builtin_aarch64_sqsubdi (__a, __b);
22756 }
22757
22758 __extension__ static __inline uint8x1_t __attribute__ ((__always_inline__))
22759 vqsubb_u8 (uint8x1_t __a, uint8x1_t __b)
22760 {
22761   return (uint8x1_t) __builtin_aarch64_uqsubqi (__a, __b);
22762 }
22763
22764 __extension__ static __inline uint16x1_t __attribute__ ((__always_inline__))
22765 vqsubh_u16 (uint16x1_t __a, uint16x1_t __b)
22766 {
22767   return (uint16x1_t) __builtin_aarch64_uqsubhi (__a, __b);
22768 }
22769
22770 __extension__ static __inline uint32x1_t __attribute__ ((__always_inline__))
22771 vqsubs_u32 (uint32x1_t __a, uint32x1_t __b)
22772 {
22773   return (uint32x1_t) __builtin_aarch64_uqsubsi (__a, __b);
22774 }
22775
22776 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
22777 vqsubd_u64 (uint64x1_t __a, uint64x1_t __b)
22778 {
22779   return (uint64x1_t) __builtin_aarch64_uqsubdi (__a, __b);
22780 }
22781
22782 /* vrecpe  */
22783
22784 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
22785 vrecpes_f32 (float32_t __a)
22786 {
22787   return __builtin_aarch64_frecpesf (__a);
22788 }
22789
22790 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
22791 vrecped_f64 (float64_t __a)
22792 {
22793   return __builtin_aarch64_frecpedf (__a);
22794 }
22795
22796 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
22797 vrecpe_f32 (float32x2_t __a)
22798 {
22799   return __builtin_aarch64_frecpev2sf (__a);
22800 }
22801
22802 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
22803 vrecpeq_f32 (float32x4_t __a)
22804 {
22805   return __builtin_aarch64_frecpev4sf (__a);
22806 }
22807
22808 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
22809 vrecpeq_f64 (float64x2_t __a)
22810 {
22811   return __builtin_aarch64_frecpev2df (__a);
22812 }
22813
22814 /* vrecps  */
22815
22816 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
22817 vrecpss_f32 (float32_t __a, float32_t __b)
22818 {
22819   return __builtin_aarch64_frecpssf (__a, __b);
22820 }
22821
22822 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
22823 vrecpsd_f64 (float64_t __a, float64_t __b)
22824 {
22825   return __builtin_aarch64_frecpsdf (__a, __b);
22826 }
22827
22828 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
22829 vrecps_f32 (float32x2_t __a, float32x2_t __b)
22830 {
22831   return __builtin_aarch64_frecpsv2sf (__a, __b);
22832 }
22833
22834 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
22835 vrecpsq_f32 (float32x4_t __a, float32x4_t __b)
22836 {
22837   return __builtin_aarch64_frecpsv4sf (__a, __b);
22838 }
22839
22840 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
22841 vrecpsq_f64 (float64x2_t __a, float64x2_t __b)
22842 {
22843   return __builtin_aarch64_frecpsv2df (__a, __b);
22844 }
22845
22846 /* vrecpx  */
22847
22848 __extension__ static __inline float32_t __attribute__ ((__always_inline__))
22849 vrecpxs_f32 (float32_t __a)
22850 {
22851   return __builtin_aarch64_frecpxsf (__a);
22852 }
22853
22854 __extension__ static __inline float64_t __attribute__ ((__always_inline__))
22855 vrecpxd_f64 (float64_t __a)
22856 {
22857   return __builtin_aarch64_frecpxdf (__a);
22858 }
22859
22860 /* vrnd  */
22861
22862 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
22863 vrnd_f32 (float32x2_t __a)
22864 {
22865   return __builtin_aarch64_btruncv2sf (__a);
22866 }
22867
22868 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
22869 vrndq_f32 (float32x4_t __a)
22870 {
22871   return __builtin_aarch64_btruncv4sf (__a);
22872 }
22873
22874 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
22875 vrndq_f64 (float64x2_t __a)
22876 {
22877   return __builtin_aarch64_btruncv2df (__a);
22878 }
22879
22880 /* vrnda  */
22881
22882 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
22883 vrnda_f32 (float32x2_t __a)
22884 {
22885   return __builtin_aarch64_roundv2sf (__a);
22886 }
22887
22888 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
22889 vrndaq_f32 (float32x4_t __a)
22890 {
22891   return __builtin_aarch64_roundv4sf (__a);
22892 }
22893
22894 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
22895 vrndaq_f64 (float64x2_t __a)
22896 {
22897   return __builtin_aarch64_roundv2df (__a);
22898 }
22899
22900 /* vrndi  */
22901
22902 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
22903 vrndi_f32 (float32x2_t __a)
22904 {
22905   return __builtin_aarch64_nearbyintv2sf (__a);
22906 }
22907
22908 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
22909 vrndiq_f32 (float32x4_t __a)
22910 {
22911   return __builtin_aarch64_nearbyintv4sf (__a);
22912 }
22913
22914 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
22915 vrndiq_f64 (float64x2_t __a)
22916 {
22917   return __builtin_aarch64_nearbyintv2df (__a);
22918 }
22919
22920 /* vrndm  */
22921
22922 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
22923 vrndm_f32 (float32x2_t __a)
22924 {
22925   return __builtin_aarch64_floorv2sf (__a);
22926 }
22927
22928 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
22929 vrndmq_f32 (float32x4_t __a)
22930 {
22931   return __builtin_aarch64_floorv4sf (__a);
22932 }
22933
22934 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
22935 vrndmq_f64 (float64x2_t __a)
22936 {
22937   return __builtin_aarch64_floorv2df (__a);
22938 }
22939
22940 /* vrndn  */
22941
22942 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
22943 vrndn_f32 (float32x2_t __a)
22944 {
22945   return __builtin_aarch64_frintnv2sf (__a);
22946 }
22947 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
22948 vrndnq_f32 (float32x4_t __a)
22949 {
22950   return __builtin_aarch64_frintnv4sf (__a);
22951 }
22952
22953 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
22954 vrndnq_f64 (float64x2_t __a)
22955 {
22956   return __builtin_aarch64_frintnv2df (__a);
22957 }
22958
22959 /* vrndp  */
22960
22961 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
22962 vrndp_f32 (float32x2_t __a)
22963 {
22964   return __builtin_aarch64_ceilv2sf (__a);
22965 }
22966
22967 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
22968 vrndpq_f32 (float32x4_t __a)
22969 {
22970   return __builtin_aarch64_ceilv4sf (__a);
22971 }
22972
22973 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
22974 vrndpq_f64 (float64x2_t __a)
22975 {
22976   return __builtin_aarch64_ceilv2df (__a);
22977 }
22978
22979 /* vrndx  */
22980
22981 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
22982 vrndx_f32 (float32x2_t __a)
22983 {
22984   return __builtin_aarch64_rintv2sf (__a);
22985 }
22986
22987 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
22988 vrndxq_f32 (float32x4_t __a)
22989 {
22990   return __builtin_aarch64_rintv4sf (__a);
22991 }
22992
22993 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
22994 vrndxq_f64 (float64x2_t __a)
22995 {
22996   return __builtin_aarch64_rintv2df (__a);
22997 }
22998
22999 /* vrshl */
23000
23001 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
23002 vrshl_s8 (int8x8_t __a, int8x8_t __b)
23003 {
23004   return (int8x8_t) __builtin_aarch64_srshlv8qi (__a, __b);
23005 }
23006
23007 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
23008 vrshl_s16 (int16x4_t __a, int16x4_t __b)
23009 {
23010   return (int16x4_t) __builtin_aarch64_srshlv4hi (__a, __b);
23011 }
23012
23013 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
23014 vrshl_s32 (int32x2_t __a, int32x2_t __b)
23015 {
23016   return (int32x2_t) __builtin_aarch64_srshlv2si (__a, __b);
23017 }
23018
23019 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
23020 vrshl_s64 (int64x1_t __a, int64x1_t __b)
23021 {
23022   return (int64x1_t) __builtin_aarch64_srshldi (__a, __b);
23023 }
23024
23025 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
23026 vrshl_u8 (uint8x8_t __a, int8x8_t __b)
23027 {
23028   return (uint8x8_t) __builtin_aarch64_urshlv8qi ((int8x8_t) __a, __b);
23029 }
23030
23031 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
23032 vrshl_u16 (uint16x4_t __a, int16x4_t __b)
23033 {
23034   return (uint16x4_t) __builtin_aarch64_urshlv4hi ((int16x4_t) __a, __b);
23035 }
23036
23037 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
23038 vrshl_u32 (uint32x2_t __a, int32x2_t __b)
23039 {
23040   return (uint32x2_t) __builtin_aarch64_urshlv2si ((int32x2_t) __a, __b);
23041 }
23042
23043 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
23044 vrshl_u64 (uint64x1_t __a, int64x1_t __b)
23045 {
23046   return (uint64x1_t) __builtin_aarch64_urshldi ((int64x1_t) __a, __b);
23047 }
23048
23049 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
23050 vrshlq_s8 (int8x16_t __a, int8x16_t __b)
23051 {
23052   return (int8x16_t) __builtin_aarch64_srshlv16qi (__a, __b);
23053 }
23054
23055 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
23056 vrshlq_s16 (int16x8_t __a, int16x8_t __b)
23057 {
23058   return (int16x8_t) __builtin_aarch64_srshlv8hi (__a, __b);
23059 }
23060
23061 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
23062 vrshlq_s32 (int32x4_t __a, int32x4_t __b)
23063 {
23064   return (int32x4_t) __builtin_aarch64_srshlv4si (__a, __b);
23065 }
23066
23067 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
23068 vrshlq_s64 (int64x2_t __a, int64x2_t __b)
23069 {
23070   return (int64x2_t) __builtin_aarch64_srshlv2di (__a, __b);
23071 }
23072
23073 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
23074 vrshlq_u8 (uint8x16_t __a, int8x16_t __b)
23075 {
23076   return (uint8x16_t) __builtin_aarch64_urshlv16qi ((int8x16_t) __a, __b);
23077 }
23078
23079 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
23080 vrshlq_u16 (uint16x8_t __a, int16x8_t __b)
23081 {
23082   return (uint16x8_t) __builtin_aarch64_urshlv8hi ((int16x8_t) __a, __b);
23083 }
23084
23085 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
23086 vrshlq_u32 (uint32x4_t __a, int32x4_t __b)
23087 {
23088   return (uint32x4_t) __builtin_aarch64_urshlv4si ((int32x4_t) __a, __b);
23089 }
23090
23091 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
23092 vrshlq_u64 (uint64x2_t __a, int64x2_t __b)
23093 {
23094   return (uint64x2_t) __builtin_aarch64_urshlv2di ((int64x2_t) __a, __b);
23095 }
23096
23097 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
23098 vrshld_s64 (int64x1_t __a, int64x1_t __b)
23099 {
23100   return (int64x1_t) __builtin_aarch64_srshldi (__a, __b);
23101 }
23102
23103 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
23104 vrshld_u64 (uint64x1_t __a, uint64x1_t __b)
23105 {
23106   return (uint64x1_t) __builtin_aarch64_urshldi (__a, __b);
23107 }
23108
23109 /* vrshr */
23110
23111 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
23112 vrshr_n_s8 (int8x8_t __a, const int __b)
23113 {
23114   return (int8x8_t) __builtin_aarch64_srshr_nv8qi (__a, __b);
23115 }
23116
23117 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
23118 vrshr_n_s16 (int16x4_t __a, const int __b)
23119 {
23120   return (int16x4_t) __builtin_aarch64_srshr_nv4hi (__a, __b);
23121 }
23122
23123 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
23124 vrshr_n_s32 (int32x2_t __a, const int __b)
23125 {
23126   return (int32x2_t) __builtin_aarch64_srshr_nv2si (__a, __b);
23127 }
23128
23129 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
23130 vrshr_n_s64 (int64x1_t __a, const int __b)
23131 {
23132   return (int64x1_t) __builtin_aarch64_srshr_ndi (__a, __b);
23133 }
23134
23135 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
23136 vrshr_n_u8 (uint8x8_t __a, const int __b)
23137 {
23138   return (uint8x8_t) __builtin_aarch64_urshr_nv8qi ((int8x8_t) __a, __b);
23139 }
23140
23141 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
23142 vrshr_n_u16 (uint16x4_t __a, const int __b)
23143 {
23144   return (uint16x4_t) __builtin_aarch64_urshr_nv4hi ((int16x4_t) __a, __b);
23145 }
23146
23147 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
23148 vrshr_n_u32 (uint32x2_t __a, const int __b)
23149 {
23150   return (uint32x2_t) __builtin_aarch64_urshr_nv2si ((int32x2_t) __a, __b);
23151 }
23152
23153 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
23154 vrshr_n_u64 (uint64x1_t __a, const int __b)
23155 {
23156   return (uint64x1_t) __builtin_aarch64_urshr_ndi ((int64x1_t) __a, __b);
23157 }
23158
23159 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
23160 vrshrq_n_s8 (int8x16_t __a, const int __b)
23161 {
23162   return (int8x16_t) __builtin_aarch64_srshr_nv16qi (__a, __b);
23163 }
23164
23165 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
23166 vrshrq_n_s16 (int16x8_t __a, const int __b)
23167 {
23168   return (int16x8_t) __builtin_aarch64_srshr_nv8hi (__a, __b);
23169 }
23170
23171 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
23172 vrshrq_n_s32 (int32x4_t __a, const int __b)
23173 {
23174   return (int32x4_t) __builtin_aarch64_srshr_nv4si (__a, __b);
23175 }
23176
23177 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
23178 vrshrq_n_s64 (int64x2_t __a, const int __b)
23179 {
23180   return (int64x2_t) __builtin_aarch64_srshr_nv2di (__a, __b);
23181 }
23182
23183 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
23184 vrshrq_n_u8 (uint8x16_t __a, const int __b)
23185 {
23186   return (uint8x16_t) __builtin_aarch64_urshr_nv16qi ((int8x16_t) __a, __b);
23187 }
23188
23189 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
23190 vrshrq_n_u16 (uint16x8_t __a, const int __b)
23191 {
23192   return (uint16x8_t) __builtin_aarch64_urshr_nv8hi ((int16x8_t) __a, __b);
23193 }
23194
23195 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
23196 vrshrq_n_u32 (uint32x4_t __a, const int __b)
23197 {
23198   return (uint32x4_t) __builtin_aarch64_urshr_nv4si ((int32x4_t) __a, __b);
23199 }
23200
23201 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
23202 vrshrq_n_u64 (uint64x2_t __a, const int __b)
23203 {
23204   return (uint64x2_t) __builtin_aarch64_urshr_nv2di ((int64x2_t) __a, __b);
23205 }
23206
23207 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
23208 vrshrd_n_s64 (int64x1_t __a, const int __b)
23209 {
23210   return (int64x1_t) __builtin_aarch64_srshr_ndi (__a, __b);
23211 }
23212
23213 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
23214 vrshrd_n_u64 (uint64x1_t __a, const int __b)
23215 {
23216   return (uint64x1_t) __builtin_aarch64_urshr_ndi (__a, __b);
23217 }
23218
23219 /* vrsra */
23220
23221 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
23222 vrsra_n_s8 (int8x8_t __a, int8x8_t __b, const int __c)
23223 {
23224   return (int8x8_t) __builtin_aarch64_srsra_nv8qi (__a, __b, __c);
23225 }
23226
23227 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
23228 vrsra_n_s16 (int16x4_t __a, int16x4_t __b, const int __c)
23229 {
23230   return (int16x4_t) __builtin_aarch64_srsra_nv4hi (__a, __b, __c);
23231 }
23232
23233 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
23234 vrsra_n_s32 (int32x2_t __a, int32x2_t __b, const int __c)
23235 {
23236   return (int32x2_t) __builtin_aarch64_srsra_nv2si (__a, __b, __c);
23237 }
23238
23239 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
23240 vrsra_n_s64 (int64x1_t __a, int64x1_t __b, const int __c)
23241 {
23242   return (int64x1_t) __builtin_aarch64_srsra_ndi (__a, __b, __c);
23243 }
23244
23245 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
23246 vrsra_n_u8 (uint8x8_t __a, uint8x8_t __b, const int __c)
23247 {
23248   return (uint8x8_t) __builtin_aarch64_ursra_nv8qi ((int8x8_t) __a,
23249                                                     (int8x8_t) __b, __c);
23250 }
23251
23252 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
23253 vrsra_n_u16 (uint16x4_t __a, uint16x4_t __b, const int __c)
23254 {
23255   return (uint16x4_t) __builtin_aarch64_ursra_nv4hi ((int16x4_t) __a,
23256                                                      (int16x4_t) __b, __c);
23257 }
23258
23259 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
23260 vrsra_n_u32 (uint32x2_t __a, uint32x2_t __b, const int __c)
23261 {
23262   return (uint32x2_t) __builtin_aarch64_ursra_nv2si ((int32x2_t) __a,
23263                                                      (int32x2_t) __b, __c);
23264 }
23265
23266 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
23267 vrsra_n_u64 (uint64x1_t __a, uint64x1_t __b, const int __c)
23268 {
23269   return (uint64x1_t) __builtin_aarch64_ursra_ndi ((int64x1_t) __a,
23270                                                    (int64x1_t) __b, __c);
23271 }
23272
23273 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
23274 vrsraq_n_s8 (int8x16_t __a, int8x16_t __b, const int __c)
23275 {
23276   return (int8x16_t) __builtin_aarch64_srsra_nv16qi (__a, __b, __c);
23277 }
23278
23279 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
23280 vrsraq_n_s16 (int16x8_t __a, int16x8_t __b, const int __c)
23281 {
23282   return (int16x8_t) __builtin_aarch64_srsra_nv8hi (__a, __b, __c);
23283 }
23284
23285 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
23286 vrsraq_n_s32 (int32x4_t __a, int32x4_t __b, const int __c)
23287 {
23288   return (int32x4_t) __builtin_aarch64_srsra_nv4si (__a, __b, __c);
23289 }
23290
23291 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
23292 vrsraq_n_s64 (int64x2_t __a, int64x2_t __b, const int __c)
23293 {
23294   return (int64x2_t) __builtin_aarch64_srsra_nv2di (__a, __b, __c);
23295 }
23296
23297 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
23298 vrsraq_n_u8 (uint8x16_t __a, uint8x16_t __b, const int __c)
23299 {
23300   return (uint8x16_t) __builtin_aarch64_ursra_nv16qi ((int8x16_t) __a,
23301                                                       (int8x16_t) __b, __c);
23302 }
23303
23304 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
23305 vrsraq_n_u16 (uint16x8_t __a, uint16x8_t __b, const int __c)
23306 {
23307   return (uint16x8_t) __builtin_aarch64_ursra_nv8hi ((int16x8_t) __a,
23308                                                      (int16x8_t) __b, __c);
23309 }
23310
23311 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
23312 vrsraq_n_u32 (uint32x4_t __a, uint32x4_t __b, const int __c)
23313 {
23314   return (uint32x4_t) __builtin_aarch64_ursra_nv4si ((int32x4_t) __a,
23315                                                      (int32x4_t) __b, __c);
23316 }
23317
23318 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
23319 vrsraq_n_u64 (uint64x2_t __a, uint64x2_t __b, const int __c)
23320 {
23321   return (uint64x2_t) __builtin_aarch64_ursra_nv2di ((int64x2_t) __a,
23322                                                      (int64x2_t) __b, __c);
23323 }
23324
23325 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
23326 vrsrad_n_s64 (int64x1_t __a, int64x1_t __b, const int __c)
23327 {
23328   return (int64x1_t) __builtin_aarch64_srsra_ndi (__a, __b, __c);
23329 }
23330
23331 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
23332 vrsrad_n_u64 (uint64x1_t __a, uint64x1_t __b, const int __c)
23333 {
23334   return (uint64x1_t) __builtin_aarch64_ursra_ndi (__a, __b, __c);
23335 }
23336
23337 /* vshl */
23338
23339 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
23340 vshl_n_s8 (int8x8_t __a, const int __b)
23341 {
23342   return (int8x8_t) __builtin_aarch64_ashlv8qi (__a, __b);
23343 }
23344
23345 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
23346 vshl_n_s16 (int16x4_t __a, const int __b)
23347 {
23348   return (int16x4_t) __builtin_aarch64_ashlv4hi (__a, __b);
23349 }
23350
23351 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
23352 vshl_n_s32 (int32x2_t __a, const int __b)
23353 {
23354   return (int32x2_t) __builtin_aarch64_ashlv2si (__a, __b);
23355 }
23356
23357 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
23358 vshl_n_s64 (int64x1_t __a, const int __b)
23359 {
23360   return (int64x1_t) __builtin_aarch64_ashldi (__a, __b);
23361 }
23362
23363 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
23364 vshl_n_u8 (uint8x8_t __a, const int __b)
23365 {
23366   return (uint8x8_t) __builtin_aarch64_ashlv8qi ((int8x8_t) __a, __b);
23367 }
23368
23369 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
23370 vshl_n_u16 (uint16x4_t __a, const int __b)
23371 {
23372   return (uint16x4_t) __builtin_aarch64_ashlv4hi ((int16x4_t) __a, __b);
23373 }
23374
23375 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
23376 vshl_n_u32 (uint32x2_t __a, const int __b)
23377 {
23378   return (uint32x2_t) __builtin_aarch64_ashlv2si ((int32x2_t) __a, __b);
23379 }
23380
23381 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
23382 vshl_n_u64 (uint64x1_t __a, const int __b)
23383 {
23384   return (uint64x1_t) __builtin_aarch64_ashldi ((int64x1_t) __a, __b);
23385 }
23386
23387 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
23388 vshlq_n_s8 (int8x16_t __a, const int __b)
23389 {
23390   return (int8x16_t) __builtin_aarch64_ashlv16qi (__a, __b);
23391 }
23392
23393 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
23394 vshlq_n_s16 (int16x8_t __a, const int __b)
23395 {
23396   return (int16x8_t) __builtin_aarch64_ashlv8hi (__a, __b);
23397 }
23398
23399 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
23400 vshlq_n_s32 (int32x4_t __a, const int __b)
23401 {
23402   return (int32x4_t) __builtin_aarch64_ashlv4si (__a, __b);
23403 }
23404
23405 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
23406 vshlq_n_s64 (int64x2_t __a, const int __b)
23407 {
23408   return (int64x2_t) __builtin_aarch64_ashlv2di (__a, __b);
23409 }
23410
23411 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
23412 vshlq_n_u8 (uint8x16_t __a, const int __b)
23413 {
23414   return (uint8x16_t) __builtin_aarch64_ashlv16qi ((int8x16_t) __a, __b);
23415 }
23416
23417 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
23418 vshlq_n_u16 (uint16x8_t __a, const int __b)
23419 {
23420   return (uint16x8_t) __builtin_aarch64_ashlv8hi ((int16x8_t) __a, __b);
23421 }
23422
23423 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
23424 vshlq_n_u32 (uint32x4_t __a, const int __b)
23425 {
23426   return (uint32x4_t) __builtin_aarch64_ashlv4si ((int32x4_t) __a, __b);
23427 }
23428
23429 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
23430 vshlq_n_u64 (uint64x2_t __a, const int __b)
23431 {
23432   return (uint64x2_t) __builtin_aarch64_ashlv2di ((int64x2_t) __a, __b);
23433 }
23434
23435 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
23436 vshld_n_s64 (int64x1_t __a, const int __b)
23437 {
23438   return (int64x1_t) __builtin_aarch64_ashldi (__a, __b);
23439 }
23440
23441 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
23442 vshld_n_u64 (uint64x1_t __a, const int __b)
23443 {
23444   return (uint64x1_t) __builtin_aarch64_ashldi (__a, __b);
23445 }
23446
23447 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
23448 vshl_s8 (int8x8_t __a, int8x8_t __b)
23449 {
23450   return (int8x8_t) __builtin_aarch64_sshlv8qi (__a, __b);
23451 }
23452
23453 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
23454 vshl_s16 (int16x4_t __a, int16x4_t __b)
23455 {
23456   return (int16x4_t) __builtin_aarch64_sshlv4hi (__a, __b);
23457 }
23458
23459 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
23460 vshl_s32 (int32x2_t __a, int32x2_t __b)
23461 {
23462   return (int32x2_t) __builtin_aarch64_sshlv2si (__a, __b);
23463 }
23464
23465 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
23466 vshl_s64 (int64x1_t __a, int64x1_t __b)
23467 {
23468   return (int64x1_t) __builtin_aarch64_sshldi (__a, __b);
23469 }
23470
23471 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
23472 vshl_u8 (uint8x8_t __a, int8x8_t __b)
23473 {
23474   return (uint8x8_t) __builtin_aarch64_ushlv8qi ((int8x8_t) __a, __b);
23475 }
23476
23477 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
23478 vshl_u16 (uint16x4_t __a, int16x4_t __b)
23479 {
23480   return (uint16x4_t) __builtin_aarch64_ushlv4hi ((int16x4_t) __a, __b);
23481 }
23482
23483 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
23484 vshl_u32 (uint32x2_t __a, int32x2_t __b)
23485 {
23486   return (uint32x2_t) __builtin_aarch64_ushlv2si ((int32x2_t) __a, __b);
23487 }
23488
23489 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
23490 vshl_u64 (uint64x1_t __a, int64x1_t __b)
23491 {
23492   return (uint64x1_t) __builtin_aarch64_ushldi ((int64x1_t) __a, __b);
23493 }
23494
23495 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
23496 vshlq_s8 (int8x16_t __a, int8x16_t __b)
23497 {
23498   return (int8x16_t) __builtin_aarch64_sshlv16qi (__a, __b);
23499 }
23500
23501 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
23502 vshlq_s16 (int16x8_t __a, int16x8_t __b)
23503 {
23504   return (int16x8_t) __builtin_aarch64_sshlv8hi (__a, __b);
23505 }
23506
23507 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
23508 vshlq_s32 (int32x4_t __a, int32x4_t __b)
23509 {
23510   return (int32x4_t) __builtin_aarch64_sshlv4si (__a, __b);
23511 }
23512
23513 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
23514 vshlq_s64 (int64x2_t __a, int64x2_t __b)
23515 {
23516   return (int64x2_t) __builtin_aarch64_sshlv2di (__a, __b);
23517 }
23518
23519 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
23520 vshlq_u8 (uint8x16_t __a, int8x16_t __b)
23521 {
23522   return (uint8x16_t) __builtin_aarch64_ushlv16qi ((int8x16_t) __a, __b);
23523 }
23524
23525 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
23526 vshlq_u16 (uint16x8_t __a, int16x8_t __b)
23527 {
23528   return (uint16x8_t) __builtin_aarch64_ushlv8hi ((int16x8_t) __a, __b);
23529 }
23530
23531 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
23532 vshlq_u32 (uint32x4_t __a, int32x4_t __b)
23533 {
23534   return (uint32x4_t) __builtin_aarch64_ushlv4si ((int32x4_t) __a, __b);
23535 }
23536
23537 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
23538 vshlq_u64 (uint64x2_t __a, int64x2_t __b)
23539 {
23540   return (uint64x2_t) __builtin_aarch64_ushlv2di ((int64x2_t) __a, __b);
23541 }
23542
23543 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
23544 vshld_s64 (int64x1_t __a, int64x1_t __b)
23545 {
23546   return (int64x1_t) __builtin_aarch64_sshldi (__a, __b);
23547 }
23548
23549 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
23550 vshld_u64 (uint64x1_t __a, uint64x1_t __b)
23551 {
23552   return (uint64x1_t) __builtin_aarch64_ushldi (__a, __b);
23553 }
23554
23555 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
23556 vshll_high_n_s8 (int8x16_t __a, const int __b)
23557 {
23558   return __builtin_aarch64_sshll2_nv16qi (__a, __b);
23559 }
23560
23561 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
23562 vshll_high_n_s16 (int16x8_t __a, const int __b)
23563 {
23564   return __builtin_aarch64_sshll2_nv8hi (__a, __b);
23565 }
23566
23567 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
23568 vshll_high_n_s32 (int32x4_t __a, const int __b)
23569 {
23570   return __builtin_aarch64_sshll2_nv4si (__a, __b);
23571 }
23572
23573 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
23574 vshll_high_n_u8 (uint8x16_t __a, const int __b)
23575 {
23576   return (uint16x8_t) __builtin_aarch64_ushll2_nv16qi ((int8x16_t) __a, __b);
23577 }
23578
23579 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
23580 vshll_high_n_u16 (uint16x8_t __a, const int __b)
23581 {
23582   return (uint32x4_t) __builtin_aarch64_ushll2_nv8hi ((int16x8_t) __a, __b);
23583 }
23584
23585 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
23586 vshll_high_n_u32 (uint32x4_t __a, const int __b)
23587 {
23588   return (uint64x2_t) __builtin_aarch64_ushll2_nv4si ((int32x4_t) __a, __b);
23589 }
23590
23591 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
23592 vshll_n_s8 (int8x8_t __a, const int __b)
23593 {
23594   return __builtin_aarch64_sshll_nv8qi (__a, __b);
23595 }
23596
23597 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
23598 vshll_n_s16 (int16x4_t __a, const int __b)
23599 {
23600   return __builtin_aarch64_sshll_nv4hi (__a, __b);
23601 }
23602
23603 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
23604 vshll_n_s32 (int32x2_t __a, const int __b)
23605 {
23606   return __builtin_aarch64_sshll_nv2si (__a, __b);
23607 }
23608
23609 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
23610 vshll_n_u8 (uint8x8_t __a, const int __b)
23611 {
23612   return (uint16x8_t) __builtin_aarch64_ushll_nv8qi ((int8x8_t) __a, __b);
23613 }
23614
23615 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
23616 vshll_n_u16 (uint16x4_t __a, const int __b)
23617 {
23618   return (uint32x4_t) __builtin_aarch64_ushll_nv4hi ((int16x4_t) __a, __b);
23619 }
23620
23621 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
23622 vshll_n_u32 (uint32x2_t __a, const int __b)
23623 {
23624   return (uint64x2_t) __builtin_aarch64_ushll_nv2si ((int32x2_t) __a, __b);
23625 }
23626
23627 /* vshr */
23628
23629 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
23630 vshr_n_s8 (int8x8_t __a, const int __b)
23631 {
23632   return (int8x8_t) __builtin_aarch64_ashrv8qi (__a, __b);
23633 }
23634
23635 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
23636 vshr_n_s16 (int16x4_t __a, const int __b)
23637 {
23638   return (int16x4_t) __builtin_aarch64_ashrv4hi (__a, __b);
23639 }
23640
23641 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
23642 vshr_n_s32 (int32x2_t __a, const int __b)
23643 {
23644   return (int32x2_t) __builtin_aarch64_ashrv2si (__a, __b);
23645 }
23646
23647 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
23648 vshr_n_s64 (int64x1_t __a, const int __b)
23649 {
23650   return (int64x1_t) __builtin_aarch64_ashrdi (__a, __b);
23651 }
23652
23653 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
23654 vshr_n_u8 (uint8x8_t __a, const int __b)
23655 {
23656   return (uint8x8_t) __builtin_aarch64_lshrv8qi ((int8x8_t) __a, __b);
23657 }
23658
23659 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
23660 vshr_n_u16 (uint16x4_t __a, const int __b)
23661 {
23662   return (uint16x4_t) __builtin_aarch64_lshrv4hi ((int16x4_t) __a, __b);
23663 }
23664
23665 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
23666 vshr_n_u32 (uint32x2_t __a, const int __b)
23667 {
23668   return (uint32x2_t) __builtin_aarch64_lshrv2si ((int32x2_t) __a, __b);
23669 }
23670
23671 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
23672 vshr_n_u64 (uint64x1_t __a, const int __b)
23673 {
23674   return (uint64x1_t) __builtin_aarch64_lshrdi ((int64x1_t) __a, __b);
23675 }
23676
23677 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
23678 vshrq_n_s8 (int8x16_t __a, const int __b)
23679 {
23680   return (int8x16_t) __builtin_aarch64_ashrv16qi (__a, __b);
23681 }
23682
23683 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
23684 vshrq_n_s16 (int16x8_t __a, const int __b)
23685 {
23686   return (int16x8_t) __builtin_aarch64_ashrv8hi (__a, __b);
23687 }
23688
23689 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
23690 vshrq_n_s32 (int32x4_t __a, const int __b)
23691 {
23692   return (int32x4_t) __builtin_aarch64_ashrv4si (__a, __b);
23693 }
23694
23695 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
23696 vshrq_n_s64 (int64x2_t __a, const int __b)
23697 {
23698   return (int64x2_t) __builtin_aarch64_ashrv2di (__a, __b);
23699 }
23700
23701 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
23702 vshrq_n_u8 (uint8x16_t __a, const int __b)
23703 {
23704   return (uint8x16_t) __builtin_aarch64_lshrv16qi ((int8x16_t) __a, __b);
23705 }
23706
23707 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
23708 vshrq_n_u16 (uint16x8_t __a, const int __b)
23709 {
23710   return (uint16x8_t) __builtin_aarch64_lshrv8hi ((int16x8_t) __a, __b);
23711 }
23712
23713 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
23714 vshrq_n_u32 (uint32x4_t __a, const int __b)
23715 {
23716   return (uint32x4_t) __builtin_aarch64_lshrv4si ((int32x4_t) __a, __b);
23717 }
23718
23719 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
23720 vshrq_n_u64 (uint64x2_t __a, const int __b)
23721 {
23722   return (uint64x2_t) __builtin_aarch64_lshrv2di ((int64x2_t) __a, __b);
23723 }
23724
23725 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
23726 vshrd_n_s64 (int64x1_t __a, const int __b)
23727 {
23728   return (int64x1_t) __builtin_aarch64_ashrdi (__a, __b);
23729 }
23730
23731 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
23732 vshrd_n_u64 (uint64x1_t __a, const int __b)
23733 {
23734   return (uint64x1_t) __builtin_aarch64_lshrdi (__a, __b);
23735 }
23736
23737 /* vsli */
23738
23739 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
23740 vsli_n_s8 (int8x8_t __a, int8x8_t __b, const int __c)
23741 {
23742   return (int8x8_t) __builtin_aarch64_ssli_nv8qi (__a, __b, __c);
23743 }
23744
23745 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
23746 vsli_n_s16 (int16x4_t __a, int16x4_t __b, const int __c)
23747 {
23748   return (int16x4_t) __builtin_aarch64_ssli_nv4hi (__a, __b, __c);
23749 }
23750
23751 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
23752 vsli_n_s32 (int32x2_t __a, int32x2_t __b, const int __c)
23753 {
23754   return (int32x2_t) __builtin_aarch64_ssli_nv2si (__a, __b, __c);
23755 }
23756
23757 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
23758 vsli_n_s64 (int64x1_t __a, int64x1_t __b, const int __c)
23759 {
23760   return (int64x1_t) __builtin_aarch64_ssli_ndi (__a, __b, __c);
23761 }
23762
23763 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
23764 vsli_n_u8 (uint8x8_t __a, uint8x8_t __b, const int __c)
23765 {
23766   return (uint8x8_t) __builtin_aarch64_usli_nv8qi ((int8x8_t) __a,
23767                                                    (int8x8_t) __b, __c);
23768 }
23769
23770 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
23771 vsli_n_u16 (uint16x4_t __a, uint16x4_t __b, const int __c)
23772 {
23773   return (uint16x4_t) __builtin_aarch64_usli_nv4hi ((int16x4_t) __a,
23774                                                     (int16x4_t) __b, __c);
23775 }
23776
23777 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
23778 vsli_n_u32 (uint32x2_t __a, uint32x2_t __b, const int __c)
23779 {
23780   return (uint32x2_t) __builtin_aarch64_usli_nv2si ((int32x2_t) __a,
23781                                                     (int32x2_t) __b, __c);
23782 }
23783
23784 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
23785 vsli_n_u64 (uint64x1_t __a, uint64x1_t __b, const int __c)
23786 {
23787   return (uint64x1_t) __builtin_aarch64_usli_ndi ((int64x1_t) __a,
23788                                                   (int64x1_t) __b, __c);
23789 }
23790
23791 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
23792 vsliq_n_s8 (int8x16_t __a, int8x16_t __b, const int __c)
23793 {
23794   return (int8x16_t) __builtin_aarch64_ssli_nv16qi (__a, __b, __c);
23795 }
23796
23797 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
23798 vsliq_n_s16 (int16x8_t __a, int16x8_t __b, const int __c)
23799 {
23800   return (int16x8_t) __builtin_aarch64_ssli_nv8hi (__a, __b, __c);
23801 }
23802
23803 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
23804 vsliq_n_s32 (int32x4_t __a, int32x4_t __b, const int __c)
23805 {
23806   return (int32x4_t) __builtin_aarch64_ssli_nv4si (__a, __b, __c);
23807 }
23808
23809 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
23810 vsliq_n_s64 (int64x2_t __a, int64x2_t __b, const int __c)
23811 {
23812   return (int64x2_t) __builtin_aarch64_ssli_nv2di (__a, __b, __c);
23813 }
23814
23815 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
23816 vsliq_n_u8 (uint8x16_t __a, uint8x16_t __b, const int __c)
23817 {
23818   return (uint8x16_t) __builtin_aarch64_usli_nv16qi ((int8x16_t) __a,
23819                                                      (int8x16_t) __b, __c);
23820 }
23821
23822 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
23823 vsliq_n_u16 (uint16x8_t __a, uint16x8_t __b, const int __c)
23824 {
23825   return (uint16x8_t) __builtin_aarch64_usli_nv8hi ((int16x8_t) __a,
23826                                                     (int16x8_t) __b, __c);
23827 }
23828
23829 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
23830 vsliq_n_u32 (uint32x4_t __a, uint32x4_t __b, const int __c)
23831 {
23832   return (uint32x4_t) __builtin_aarch64_usli_nv4si ((int32x4_t) __a,
23833                                                     (int32x4_t) __b, __c);
23834 }
23835
23836 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
23837 vsliq_n_u64 (uint64x2_t __a, uint64x2_t __b, const int __c)
23838 {
23839   return (uint64x2_t) __builtin_aarch64_usli_nv2di ((int64x2_t) __a,
23840                                                     (int64x2_t) __b, __c);
23841 }
23842
23843 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
23844 vslid_n_s64 (int64x1_t __a, int64x1_t __b, const int __c)
23845 {
23846   return (int64x1_t) __builtin_aarch64_ssli_ndi (__a, __b, __c);
23847 }
23848
23849 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
23850 vslid_n_u64 (uint64x1_t __a, uint64x1_t __b, const int __c)
23851 {
23852   return (uint64x1_t) __builtin_aarch64_usli_ndi (__a, __b, __c);
23853 }
23854
23855 /* vsqadd */
23856
23857 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
23858 vsqadd_u8 (uint8x8_t __a, int8x8_t __b)
23859 {
23860   return (uint8x8_t) __builtin_aarch64_usqaddv8qi ((int8x8_t) __a,
23861                                                    (int8x8_t) __b);
23862 }
23863
23864 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
23865 vsqadd_u16 (uint16x4_t __a, int16x4_t __b)
23866 {
23867   return (uint16x4_t) __builtin_aarch64_usqaddv4hi ((int16x4_t) __a,
23868                                                     (int16x4_t) __b);
23869 }
23870
23871 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
23872 vsqadd_u32 (uint32x2_t __a, int32x2_t __b)
23873 {
23874   return (uint32x2_t) __builtin_aarch64_usqaddv2si ((int32x2_t) __a,
23875                                                     (int32x2_t) __b);
23876 }
23877
23878 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
23879 vsqadd_u64 (uint64x1_t __a, int64x1_t __b)
23880 {
23881   return (uint64x1_t) __builtin_aarch64_usqadddi ((int64x1_t) __a, __b);
23882 }
23883
23884 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
23885 vsqaddq_u8 (uint8x16_t __a, int8x16_t __b)
23886 {
23887   return (uint8x16_t) __builtin_aarch64_usqaddv16qi ((int8x16_t) __a,
23888                                                      (int8x16_t) __b);
23889 }
23890
23891 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
23892 vsqaddq_u16 (uint16x8_t __a, int16x8_t __b)
23893 {
23894   return (uint16x8_t) __builtin_aarch64_usqaddv8hi ((int16x8_t) __a,
23895                                                     (int16x8_t) __b);
23896 }
23897
23898 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
23899 vsqaddq_u32 (uint32x4_t __a, int32x4_t __b)
23900 {
23901   return (uint32x4_t) __builtin_aarch64_usqaddv4si ((int32x4_t) __a,
23902                                                     (int32x4_t) __b);
23903 }
23904
23905 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
23906 vsqaddq_u64 (uint64x2_t __a, int64x2_t __b)
23907 {
23908   return (uint64x2_t) __builtin_aarch64_usqaddv2di ((int64x2_t) __a,
23909                                                     (int64x2_t) __b);
23910 }
23911
23912 __extension__ static __inline uint8x1_t __attribute__ ((__always_inline__))
23913 vsqaddb_u8 (uint8x1_t __a, int8x1_t __b)
23914 {
23915   return (uint8x1_t) __builtin_aarch64_usqaddqi ((int8x1_t) __a, __b);
23916 }
23917
23918 __extension__ static __inline uint16x1_t __attribute__ ((__always_inline__))
23919 vsqaddh_u16 (uint16x1_t __a, int16x1_t __b)
23920 {
23921   return (uint16x1_t) __builtin_aarch64_usqaddhi ((int16x1_t) __a, __b);
23922 }
23923
23924 __extension__ static __inline uint32x1_t __attribute__ ((__always_inline__))
23925 vsqadds_u32 (uint32x1_t __a, int32x1_t __b)
23926 {
23927   return (uint32x1_t) __builtin_aarch64_usqaddsi ((int32x1_t) __a, __b);
23928 }
23929
23930 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
23931 vsqaddd_u64 (uint64x1_t __a, int64x1_t __b)
23932 {
23933   return (uint64x1_t) __builtin_aarch64_usqadddi ((int64x1_t) __a, __b);
23934 }
23935
23936 /* vsqrt */
23937 __extension__ static __inline float32x2_t __attribute__ ((__always_inline__))
23938 vsqrt_f32 (float32x2_t a)
23939 {
23940   return __builtin_aarch64_sqrtv2sf (a);
23941 }
23942
23943 __extension__ static __inline float32x4_t __attribute__ ((__always_inline__))
23944 vsqrtq_f32 (float32x4_t a)
23945 {
23946   return __builtin_aarch64_sqrtv4sf (a);
23947 }
23948
23949 __extension__ static __inline float64x2_t __attribute__ ((__always_inline__))
23950 vsqrtq_f64 (float64x2_t a)
23951 {
23952   return __builtin_aarch64_sqrtv2df (a);
23953 }
23954
23955 /* vsra */
23956
23957 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
23958 vsra_n_s8 (int8x8_t __a, int8x8_t __b, const int __c)
23959 {
23960   return (int8x8_t) __builtin_aarch64_ssra_nv8qi (__a, __b, __c);
23961 }
23962
23963 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
23964 vsra_n_s16 (int16x4_t __a, int16x4_t __b, const int __c)
23965 {
23966   return (int16x4_t) __builtin_aarch64_ssra_nv4hi (__a, __b, __c);
23967 }
23968
23969 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
23970 vsra_n_s32 (int32x2_t __a, int32x2_t __b, const int __c)
23971 {
23972   return (int32x2_t) __builtin_aarch64_ssra_nv2si (__a, __b, __c);
23973 }
23974
23975 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
23976 vsra_n_s64 (int64x1_t __a, int64x1_t __b, const int __c)
23977 {
23978   return (int64x1_t) __builtin_aarch64_ssra_ndi (__a, __b, __c);
23979 }
23980
23981 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
23982 vsra_n_u8 (uint8x8_t __a, uint8x8_t __b, const int __c)
23983 {
23984   return (uint8x8_t) __builtin_aarch64_usra_nv8qi ((int8x8_t) __a,
23985                                                    (int8x8_t) __b, __c);
23986 }
23987
23988 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
23989 vsra_n_u16 (uint16x4_t __a, uint16x4_t __b, const int __c)
23990 {
23991   return (uint16x4_t) __builtin_aarch64_usra_nv4hi ((int16x4_t) __a,
23992                                                     (int16x4_t) __b, __c);
23993 }
23994
23995 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
23996 vsra_n_u32 (uint32x2_t __a, uint32x2_t __b, const int __c)
23997 {
23998   return (uint32x2_t) __builtin_aarch64_usra_nv2si ((int32x2_t) __a,
23999                                                     (int32x2_t) __b, __c);
24000 }
24001
24002 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
24003 vsra_n_u64 (uint64x1_t __a, uint64x1_t __b, const int __c)
24004 {
24005   return (uint64x1_t) __builtin_aarch64_usra_ndi ((int64x1_t) __a,
24006                                                   (int64x1_t) __b, __c);
24007 }
24008
24009 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
24010 vsraq_n_s8 (int8x16_t __a, int8x16_t __b, const int __c)
24011 {
24012   return (int8x16_t) __builtin_aarch64_ssra_nv16qi (__a, __b, __c);
24013 }
24014
24015 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
24016 vsraq_n_s16 (int16x8_t __a, int16x8_t __b, const int __c)
24017 {
24018   return (int16x8_t) __builtin_aarch64_ssra_nv8hi (__a, __b, __c);
24019 }
24020
24021 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
24022 vsraq_n_s32 (int32x4_t __a, int32x4_t __b, const int __c)
24023 {
24024   return (int32x4_t) __builtin_aarch64_ssra_nv4si (__a, __b, __c);
24025 }
24026
24027 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
24028 vsraq_n_s64 (int64x2_t __a, int64x2_t __b, const int __c)
24029 {
24030   return (int64x2_t) __builtin_aarch64_ssra_nv2di (__a, __b, __c);
24031 }
24032
24033 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
24034 vsraq_n_u8 (uint8x16_t __a, uint8x16_t __b, const int __c)
24035 {
24036   return (uint8x16_t) __builtin_aarch64_usra_nv16qi ((int8x16_t) __a,
24037                                                      (int8x16_t) __b, __c);
24038 }
24039
24040 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
24041 vsraq_n_u16 (uint16x8_t __a, uint16x8_t __b, const int __c)
24042 {
24043   return (uint16x8_t) __builtin_aarch64_usra_nv8hi ((int16x8_t) __a,
24044                                                     (int16x8_t) __b, __c);
24045 }
24046
24047 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
24048 vsraq_n_u32 (uint32x4_t __a, uint32x4_t __b, const int __c)
24049 {
24050   return (uint32x4_t) __builtin_aarch64_usra_nv4si ((int32x4_t) __a,
24051                                                     (int32x4_t) __b, __c);
24052 }
24053
24054 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
24055 vsraq_n_u64 (uint64x2_t __a, uint64x2_t __b, const int __c)
24056 {
24057   return (uint64x2_t) __builtin_aarch64_usra_nv2di ((int64x2_t) __a,
24058                                                     (int64x2_t) __b, __c);
24059 }
24060
24061 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
24062 vsrad_n_s64 (int64x1_t __a, int64x1_t __b, const int __c)
24063 {
24064   return (int64x1_t) __builtin_aarch64_ssra_ndi (__a, __b, __c);
24065 }
24066
24067 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
24068 vsrad_n_u64 (uint64x1_t __a, uint64x1_t __b, const int __c)
24069 {
24070   return (uint64x1_t) __builtin_aarch64_usra_ndi (__a, __b, __c);
24071 }
24072
24073 /* vsri */
24074
24075 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
24076 vsri_n_s8 (int8x8_t __a, int8x8_t __b, const int __c)
24077 {
24078   return (int8x8_t) __builtin_aarch64_ssri_nv8qi (__a, __b, __c);
24079 }
24080
24081 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
24082 vsri_n_s16 (int16x4_t __a, int16x4_t __b, const int __c)
24083 {
24084   return (int16x4_t) __builtin_aarch64_ssri_nv4hi (__a, __b, __c);
24085 }
24086
24087 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
24088 vsri_n_s32 (int32x2_t __a, int32x2_t __b, const int __c)
24089 {
24090   return (int32x2_t) __builtin_aarch64_ssri_nv2si (__a, __b, __c);
24091 }
24092
24093 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
24094 vsri_n_s64 (int64x1_t __a, int64x1_t __b, const int __c)
24095 {
24096   return (int64x1_t) __builtin_aarch64_ssri_ndi (__a, __b, __c);
24097 }
24098
24099 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
24100 vsri_n_u8 (uint8x8_t __a, uint8x8_t __b, const int __c)
24101 {
24102   return (uint8x8_t) __builtin_aarch64_usri_nv8qi ((int8x8_t) __a,
24103                                                    (int8x8_t) __b, __c);
24104 }
24105
24106 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
24107 vsri_n_u16 (uint16x4_t __a, uint16x4_t __b, const int __c)
24108 {
24109   return (uint16x4_t) __builtin_aarch64_usri_nv4hi ((int16x4_t) __a,
24110                                                     (int16x4_t) __b, __c);
24111 }
24112
24113 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
24114 vsri_n_u32 (uint32x2_t __a, uint32x2_t __b, const int __c)
24115 {
24116   return (uint32x2_t) __builtin_aarch64_usri_nv2si ((int32x2_t) __a,
24117                                                     (int32x2_t) __b, __c);
24118 }
24119
24120 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
24121 vsri_n_u64 (uint64x1_t __a, uint64x1_t __b, const int __c)
24122 {
24123   return (uint64x1_t) __builtin_aarch64_usri_ndi ((int64x1_t) __a,
24124                                                   (int64x1_t) __b, __c);
24125 }
24126
24127 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
24128 vsriq_n_s8 (int8x16_t __a, int8x16_t __b, const int __c)
24129 {
24130   return (int8x16_t) __builtin_aarch64_ssri_nv16qi (__a, __b, __c);
24131 }
24132
24133 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
24134 vsriq_n_s16 (int16x8_t __a, int16x8_t __b, const int __c)
24135 {
24136   return (int16x8_t) __builtin_aarch64_ssri_nv8hi (__a, __b, __c);
24137 }
24138
24139 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
24140 vsriq_n_s32 (int32x4_t __a, int32x4_t __b, const int __c)
24141 {
24142   return (int32x4_t) __builtin_aarch64_ssri_nv4si (__a, __b, __c);
24143 }
24144
24145 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
24146 vsriq_n_s64 (int64x2_t __a, int64x2_t __b, const int __c)
24147 {
24148   return (int64x2_t) __builtin_aarch64_ssri_nv2di (__a, __b, __c);
24149 }
24150
24151 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
24152 vsriq_n_u8 (uint8x16_t __a, uint8x16_t __b, const int __c)
24153 {
24154   return (uint8x16_t) __builtin_aarch64_usri_nv16qi ((int8x16_t) __a,
24155                                                      (int8x16_t) __b, __c);
24156 }
24157
24158 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
24159 vsriq_n_u16 (uint16x8_t __a, uint16x8_t __b, const int __c)
24160 {
24161   return (uint16x8_t) __builtin_aarch64_usri_nv8hi ((int16x8_t) __a,
24162                                                     (int16x8_t) __b, __c);
24163 }
24164
24165 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
24166 vsriq_n_u32 (uint32x4_t __a, uint32x4_t __b, const int __c)
24167 {
24168   return (uint32x4_t) __builtin_aarch64_usri_nv4si ((int32x4_t) __a,
24169                                                     (int32x4_t) __b, __c);
24170 }
24171
24172 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
24173 vsriq_n_u64 (uint64x2_t __a, uint64x2_t __b, const int __c)
24174 {
24175   return (uint64x2_t) __builtin_aarch64_usri_nv2di ((int64x2_t) __a,
24176                                                     (int64x2_t) __b, __c);
24177 }
24178
24179 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
24180 vsrid_n_s64 (int64x1_t __a, int64x1_t __b, const int __c)
24181 {
24182   return (int64x1_t) __builtin_aarch64_ssri_ndi (__a, __b, __c);
24183 }
24184
24185 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
24186 vsrid_n_u64 (uint64x1_t __a, uint64x1_t __b, const int __c)
24187 {
24188   return (uint64x1_t) __builtin_aarch64_usri_ndi (__a, __b, __c);
24189 }
24190
24191 /* vst1 */
24192
24193 __extension__ static __inline void __attribute__ ((__always_inline__))
24194 vst1_f32 (float32_t *a, float32x2_t b)
24195 {
24196   __builtin_aarch64_st1v2sf ((__builtin_aarch64_simd_sf *) a, b);
24197 }
24198
24199 __extension__ static __inline void __attribute__ ((__always_inline__))
24200 vst1_f64 (float64_t *a, float64x1_t b)
24201 {
24202   *a = b;
24203 }
24204
24205 __extension__ static __inline void __attribute__ ((__always_inline__))
24206 vst1_p8 (poly8_t *a, poly8x8_t b)
24207 {
24208   __builtin_aarch64_st1v8qi ((__builtin_aarch64_simd_qi *) a,
24209                              (int8x8_t) b);
24210 }
24211
24212 __extension__ static __inline void __attribute__ ((__always_inline__))
24213 vst1_p16 (poly16_t *a, poly16x4_t b)
24214 {
24215   __builtin_aarch64_st1v4hi ((__builtin_aarch64_simd_hi *) a,
24216                              (int16x4_t) b);
24217 }
24218
24219 __extension__ static __inline void __attribute__ ((__always_inline__))
24220 vst1_s8 (int8_t *a, int8x8_t b)
24221 {
24222   __builtin_aarch64_st1v8qi ((__builtin_aarch64_simd_qi *) a, b);
24223 }
24224
24225 __extension__ static __inline void __attribute__ ((__always_inline__))
24226 vst1_s16 (int16_t *a, int16x4_t b)
24227 {
24228   __builtin_aarch64_st1v4hi ((__builtin_aarch64_simd_hi *) a, b);
24229 }
24230
24231 __extension__ static __inline void __attribute__ ((__always_inline__))
24232 vst1_s32 (int32_t *a, int32x2_t b)
24233 {
24234   __builtin_aarch64_st1v2si ((__builtin_aarch64_simd_si *) a, b);
24235 }
24236
24237 __extension__ static __inline void __attribute__ ((__always_inline__))
24238 vst1_s64 (int64_t *a, int64x1_t b)
24239 {
24240   *a = b;
24241 }
24242
24243 __extension__ static __inline void __attribute__ ((__always_inline__))
24244 vst1_u8 (uint8_t *a, uint8x8_t b)
24245 {
24246   __builtin_aarch64_st1v8qi ((__builtin_aarch64_simd_qi *) a,
24247                              (int8x8_t) b);
24248 }
24249
24250 __extension__ static __inline void __attribute__ ((__always_inline__))
24251 vst1_u16 (uint16_t *a, uint16x4_t b)
24252 {
24253   __builtin_aarch64_st1v4hi ((__builtin_aarch64_simd_hi *) a,
24254                              (int16x4_t) b);
24255 }
24256
24257 __extension__ static __inline void __attribute__ ((__always_inline__))
24258 vst1_u32 (uint32_t *a, uint32x2_t b)
24259 {
24260   __builtin_aarch64_st1v2si ((__builtin_aarch64_simd_si *) a,
24261                              (int32x2_t) b);
24262 }
24263
24264 __extension__ static __inline void __attribute__ ((__always_inline__))
24265 vst1_u64 (uint64_t *a, uint64x1_t b)
24266 {
24267   *a = b;
24268 }
24269
24270 __extension__ static __inline void __attribute__ ((__always_inline__))
24271 vst1q_f32 (float32_t *a, float32x4_t b)
24272 {
24273   __builtin_aarch64_st1v4sf ((__builtin_aarch64_simd_sf *) a, b);
24274 }
24275
24276 __extension__ static __inline void __attribute__ ((__always_inline__))
24277 vst1q_f64 (float64_t *a, float64x2_t b)
24278 {
24279   __builtin_aarch64_st1v2df ((__builtin_aarch64_simd_df *) a, b);
24280 }
24281
24282 /* vst1q */
24283
24284 __extension__ static __inline void __attribute__ ((__always_inline__))
24285 vst1q_p8 (poly8_t *a, poly8x16_t b)
24286 {
24287   __builtin_aarch64_st1v16qi ((__builtin_aarch64_simd_qi *) a,
24288                               (int8x16_t) b);
24289 }
24290
24291 __extension__ static __inline void __attribute__ ((__always_inline__))
24292 vst1q_p16 (poly16_t *a, poly16x8_t b)
24293 {
24294   __builtin_aarch64_st1v8hi ((__builtin_aarch64_simd_hi *) a,
24295                              (int16x8_t) b);
24296 }
24297
24298 __extension__ static __inline void __attribute__ ((__always_inline__))
24299 vst1q_s8 (int8_t *a, int8x16_t b)
24300 {
24301   __builtin_aarch64_st1v16qi ((__builtin_aarch64_simd_qi *) a, b);
24302 }
24303
24304 __extension__ static __inline void __attribute__ ((__always_inline__))
24305 vst1q_s16 (int16_t *a, int16x8_t b)
24306 {
24307   __builtin_aarch64_st1v8hi ((__builtin_aarch64_simd_hi *) a, b);
24308 }
24309
24310 __extension__ static __inline void __attribute__ ((__always_inline__))
24311 vst1q_s32 (int32_t *a, int32x4_t b)
24312 {
24313   __builtin_aarch64_st1v4si ((__builtin_aarch64_simd_si *) a, b);
24314 }
24315
24316 __extension__ static __inline void __attribute__ ((__always_inline__))
24317 vst1q_s64 (int64_t *a, int64x2_t b)
24318 {
24319   __builtin_aarch64_st1v2di ((__builtin_aarch64_simd_di *) a, b);
24320 }
24321
24322 __extension__ static __inline void __attribute__ ((__always_inline__))
24323 vst1q_u8 (uint8_t *a, uint8x16_t b)
24324 {
24325   __builtin_aarch64_st1v16qi ((__builtin_aarch64_simd_qi *) a,
24326                               (int8x16_t) b);
24327 }
24328
24329 __extension__ static __inline void __attribute__ ((__always_inline__))
24330 vst1q_u16 (uint16_t *a, uint16x8_t b)
24331 {
24332   __builtin_aarch64_st1v8hi ((__builtin_aarch64_simd_hi *) a,
24333                              (int16x8_t) b);
24334 }
24335
24336 __extension__ static __inline void __attribute__ ((__always_inline__))
24337 vst1q_u32 (uint32_t *a, uint32x4_t b)
24338 {
24339   __builtin_aarch64_st1v4si ((__builtin_aarch64_simd_si *) a,
24340                              (int32x4_t) b);
24341 }
24342
24343 __extension__ static __inline void __attribute__ ((__always_inline__))
24344 vst1q_u64 (uint64_t *a, uint64x2_t b)
24345 {
24346   __builtin_aarch64_st1v2di ((__builtin_aarch64_simd_di *) a,
24347                              (int64x2_t) b);
24348 }
24349
24350 /* vstn */
24351
24352 __extension__ static __inline void
24353 vst2_s64 (int64_t * __a, int64x1x2_t val)
24354 {
24355   __builtin_aarch64_simd_oi __o;
24356   int64x2x2_t temp;
24357   temp.val[0] = vcombine_s64 (val.val[0], vcreate_s64 (__AARCH64_INT64_C (0)));
24358   temp.val[1] = vcombine_s64 (val.val[1], vcreate_s64 (__AARCH64_INT64_C (0)));
24359   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) temp.val[0], 0);
24360   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) temp.val[1], 1);
24361   __builtin_aarch64_st2di ((__builtin_aarch64_simd_di *) __a, __o);
24362 }
24363
24364 __extension__ static __inline void
24365 vst2_u64 (uint64_t * __a, uint64x1x2_t val)
24366 {
24367   __builtin_aarch64_simd_oi __o;
24368   uint64x2x2_t temp;
24369   temp.val[0] = vcombine_u64 (val.val[0], vcreate_u64 (__AARCH64_UINT64_C (0)));
24370   temp.val[1] = vcombine_u64 (val.val[1], vcreate_u64 (__AARCH64_UINT64_C (0)));
24371   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) temp.val[0], 0);
24372   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) temp.val[1], 1);
24373   __builtin_aarch64_st2di ((__builtin_aarch64_simd_di *) __a, __o);
24374 }
24375
24376 __extension__ static __inline void
24377 vst2_f64 (float64_t * __a, float64x1x2_t val)
24378 {
24379   __builtin_aarch64_simd_oi __o;
24380   float64x2x2_t temp;
24381   temp.val[0] = vcombine_f64 (val.val[0], vcreate_f64 (__AARCH64_UINT64_C (0)));
24382   temp.val[1] = vcombine_f64 (val.val[1], vcreate_f64 (__AARCH64_UINT64_C (0)));
24383   __o = __builtin_aarch64_set_qregoiv2df (__o, (float64x2_t) temp.val[0], 0);
24384   __o = __builtin_aarch64_set_qregoiv2df (__o, (float64x2_t) temp.val[1], 1);
24385   __builtin_aarch64_st2df ((__builtin_aarch64_simd_df *) __a, __o);
24386 }
24387
24388 __extension__ static __inline void
24389 vst2_s8 (int8_t * __a, int8x8x2_t val)
24390 {
24391   __builtin_aarch64_simd_oi __o;
24392   int8x16x2_t temp;
24393   temp.val[0] = vcombine_s8 (val.val[0], vcreate_s8 (__AARCH64_INT64_C (0)));
24394   temp.val[1] = vcombine_s8 (val.val[1], vcreate_s8 (__AARCH64_INT64_C (0)));
24395   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) temp.val[0], 0);
24396   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) temp.val[1], 1);
24397   __builtin_aarch64_st2v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
24398 }
24399
24400 __extension__ static __inline void __attribute__ ((__always_inline__))
24401 vst2_p8 (poly8_t * __a, poly8x8x2_t val)
24402 {
24403   __builtin_aarch64_simd_oi __o;
24404   poly8x16x2_t temp;
24405   temp.val[0] = vcombine_p8 (val.val[0], vcreate_p8 (__AARCH64_UINT64_C (0)));
24406   temp.val[1] = vcombine_p8 (val.val[1], vcreate_p8 (__AARCH64_UINT64_C (0)));
24407   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) temp.val[0], 0);
24408   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) temp.val[1], 1);
24409   __builtin_aarch64_st2v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
24410 }
24411
24412 __extension__ static __inline void __attribute__ ((__always_inline__))
24413 vst2_s16 (int16_t * __a, int16x4x2_t val)
24414 {
24415   __builtin_aarch64_simd_oi __o;
24416   int16x8x2_t temp;
24417   temp.val[0] = vcombine_s16 (val.val[0], vcreate_s16 (__AARCH64_INT64_C (0)));
24418   temp.val[1] = vcombine_s16 (val.val[1], vcreate_s16 (__AARCH64_INT64_C (0)));
24419   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) temp.val[0], 0);
24420   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) temp.val[1], 1);
24421   __builtin_aarch64_st2v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
24422 }
24423
24424 __extension__ static __inline void __attribute__ ((__always_inline__))
24425 vst2_p16 (poly16_t * __a, poly16x4x2_t val)
24426 {
24427   __builtin_aarch64_simd_oi __o;
24428   poly16x8x2_t temp;
24429   temp.val[0] = vcombine_p16 (val.val[0], vcreate_p16 (__AARCH64_UINT64_C (0)));
24430   temp.val[1] = vcombine_p16 (val.val[1], vcreate_p16 (__AARCH64_UINT64_C (0)));
24431   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) temp.val[0], 0);
24432   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) temp.val[1], 1);
24433   __builtin_aarch64_st2v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
24434 }
24435
24436 __extension__ static __inline void __attribute__ ((__always_inline__))
24437 vst2_s32 (int32_t * __a, int32x2x2_t val)
24438 {
24439   __builtin_aarch64_simd_oi __o;
24440   int32x4x2_t temp;
24441   temp.val[0] = vcombine_s32 (val.val[0], vcreate_s32 (__AARCH64_INT64_C (0)));
24442   temp.val[1] = vcombine_s32 (val.val[1], vcreate_s32 (__AARCH64_INT64_C (0)));
24443   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) temp.val[0], 0);
24444   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) temp.val[1], 1);
24445   __builtin_aarch64_st2v2si ((__builtin_aarch64_simd_si *) __a, __o);
24446 }
24447
24448 __extension__ static __inline void __attribute__ ((__always_inline__))
24449 vst2_u8 (uint8_t * __a, uint8x8x2_t val)
24450 {
24451   __builtin_aarch64_simd_oi __o;
24452   uint8x16x2_t temp;
24453   temp.val[0] = vcombine_u8 (val.val[0], vcreate_u8 (__AARCH64_UINT64_C (0)));
24454   temp.val[1] = vcombine_u8 (val.val[1], vcreate_u8 (__AARCH64_UINT64_C (0)));
24455   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) temp.val[0], 0);
24456   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) temp.val[1], 1);
24457   __builtin_aarch64_st2v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
24458 }
24459
24460 __extension__ static __inline void __attribute__ ((__always_inline__))
24461 vst2_u16 (uint16_t * __a, uint16x4x2_t val)
24462 {
24463   __builtin_aarch64_simd_oi __o;
24464   uint16x8x2_t temp;
24465   temp.val[0] = vcombine_u16 (val.val[0], vcreate_u16 (__AARCH64_UINT64_C (0)));
24466   temp.val[1] = vcombine_u16 (val.val[1], vcreate_u16 (__AARCH64_UINT64_C (0)));
24467   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) temp.val[0], 0);
24468   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) temp.val[1], 1);
24469   __builtin_aarch64_st2v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
24470 }
24471
24472 __extension__ static __inline void __attribute__ ((__always_inline__))
24473 vst2_u32 (uint32_t * __a, uint32x2x2_t val)
24474 {
24475   __builtin_aarch64_simd_oi __o;
24476   uint32x4x2_t temp;
24477   temp.val[0] = vcombine_u32 (val.val[0], vcreate_u32 (__AARCH64_UINT64_C (0)));
24478   temp.val[1] = vcombine_u32 (val.val[1], vcreate_u32 (__AARCH64_UINT64_C (0)));
24479   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) temp.val[0], 0);
24480   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) temp.val[1], 1);
24481   __builtin_aarch64_st2v2si ((__builtin_aarch64_simd_si *) __a, __o);
24482 }
24483
24484 __extension__ static __inline void __attribute__ ((__always_inline__))
24485 vst2_f32 (float32_t * __a, float32x2x2_t val)
24486 {
24487   __builtin_aarch64_simd_oi __o;
24488   float32x4x2_t temp;
24489   temp.val[0] = vcombine_f32 (val.val[0], vcreate_f32 (__AARCH64_UINT64_C (0)));
24490   temp.val[1] = vcombine_f32 (val.val[1], vcreate_f32 (__AARCH64_UINT64_C (0)));
24491   __o = __builtin_aarch64_set_qregoiv4sf (__o, (float32x4_t) temp.val[0], 0);
24492   __o = __builtin_aarch64_set_qregoiv4sf (__o, (float32x4_t) temp.val[1], 1);
24493   __builtin_aarch64_st2v2sf ((__builtin_aarch64_simd_sf *) __a, __o);
24494 }
24495
24496 __extension__ static __inline void __attribute__ ((__always_inline__))
24497 vst2q_s8 (int8_t * __a, int8x16x2_t val)
24498 {
24499   __builtin_aarch64_simd_oi __o;
24500   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) val.val[0], 0);
24501   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) val.val[1], 1);
24502   __builtin_aarch64_st2v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
24503 }
24504
24505 __extension__ static __inline void __attribute__ ((__always_inline__))
24506 vst2q_p8 (poly8_t * __a, poly8x16x2_t val)
24507 {
24508   __builtin_aarch64_simd_oi __o;
24509   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) val.val[0], 0);
24510   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) val.val[1], 1);
24511   __builtin_aarch64_st2v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
24512 }
24513
24514 __extension__ static __inline void __attribute__ ((__always_inline__))
24515 vst2q_s16 (int16_t * __a, int16x8x2_t val)
24516 {
24517   __builtin_aarch64_simd_oi __o;
24518   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) val.val[0], 0);
24519   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) val.val[1], 1);
24520   __builtin_aarch64_st2v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
24521 }
24522
24523 __extension__ static __inline void __attribute__ ((__always_inline__))
24524 vst2q_p16 (poly16_t * __a, poly16x8x2_t val)
24525 {
24526   __builtin_aarch64_simd_oi __o;
24527   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) val.val[0], 0);
24528   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) val.val[1], 1);
24529   __builtin_aarch64_st2v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
24530 }
24531
24532 __extension__ static __inline void __attribute__ ((__always_inline__))
24533 vst2q_s32 (int32_t * __a, int32x4x2_t val)
24534 {
24535   __builtin_aarch64_simd_oi __o;
24536   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) val.val[0], 0);
24537   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) val.val[1], 1);
24538   __builtin_aarch64_st2v4si ((__builtin_aarch64_simd_si *) __a, __o);
24539 }
24540
24541 __extension__ static __inline void __attribute__ ((__always_inline__))
24542 vst2q_s64 (int64_t * __a, int64x2x2_t val)
24543 {
24544   __builtin_aarch64_simd_oi __o;
24545   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) val.val[0], 0);
24546   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) val.val[1], 1);
24547   __builtin_aarch64_st2v2di ((__builtin_aarch64_simd_di *) __a, __o);
24548 }
24549
24550 __extension__ static __inline void __attribute__ ((__always_inline__))
24551 vst2q_u8 (uint8_t * __a, uint8x16x2_t val)
24552 {
24553   __builtin_aarch64_simd_oi __o;
24554   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) val.val[0], 0);
24555   __o = __builtin_aarch64_set_qregoiv16qi (__o, (int8x16_t) val.val[1], 1);
24556   __builtin_aarch64_st2v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
24557 }
24558
24559 __extension__ static __inline void __attribute__ ((__always_inline__))
24560 vst2q_u16 (uint16_t * __a, uint16x8x2_t val)
24561 {
24562   __builtin_aarch64_simd_oi __o;
24563   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) val.val[0], 0);
24564   __o = __builtin_aarch64_set_qregoiv8hi (__o, (int16x8_t) val.val[1], 1);
24565   __builtin_aarch64_st2v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
24566 }
24567
24568 __extension__ static __inline void __attribute__ ((__always_inline__))
24569 vst2q_u32 (uint32_t * __a, uint32x4x2_t val)
24570 {
24571   __builtin_aarch64_simd_oi __o;
24572   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) val.val[0], 0);
24573   __o = __builtin_aarch64_set_qregoiv4si (__o, (int32x4_t) val.val[1], 1);
24574   __builtin_aarch64_st2v4si ((__builtin_aarch64_simd_si *) __a, __o);
24575 }
24576
24577 __extension__ static __inline void __attribute__ ((__always_inline__))
24578 vst2q_u64 (uint64_t * __a, uint64x2x2_t val)
24579 {
24580   __builtin_aarch64_simd_oi __o;
24581   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) val.val[0], 0);
24582   __o = __builtin_aarch64_set_qregoiv2di (__o, (int64x2_t) val.val[1], 1);
24583   __builtin_aarch64_st2v2di ((__builtin_aarch64_simd_di *) __a, __o);
24584 }
24585
24586 __extension__ static __inline void __attribute__ ((__always_inline__))
24587 vst2q_f32 (float32_t * __a, float32x4x2_t val)
24588 {
24589   __builtin_aarch64_simd_oi __o;
24590   __o = __builtin_aarch64_set_qregoiv4sf (__o, (float32x4_t) val.val[0], 0);
24591   __o = __builtin_aarch64_set_qregoiv4sf (__o, (float32x4_t) val.val[1], 1);
24592   __builtin_aarch64_st2v4sf ((__builtin_aarch64_simd_sf *) __a, __o);
24593 }
24594
24595 __extension__ static __inline void __attribute__ ((__always_inline__))
24596 vst2q_f64 (float64_t * __a, float64x2x2_t val)
24597 {
24598   __builtin_aarch64_simd_oi __o;
24599   __o = __builtin_aarch64_set_qregoiv2df (__o, (float64x2_t) val.val[0], 0);
24600   __o = __builtin_aarch64_set_qregoiv2df (__o, (float64x2_t) val.val[1], 1);
24601   __builtin_aarch64_st2v2df ((__builtin_aarch64_simd_df *) __a, __o);
24602 }
24603
24604 __extension__ static __inline void
24605 vst3_s64 (int64_t * __a, int64x1x3_t val)
24606 {
24607   __builtin_aarch64_simd_ci __o;
24608   int64x2x3_t temp;
24609   temp.val[0] = vcombine_s64 (val.val[0], vcreate_s64 (__AARCH64_INT64_C (0)));
24610   temp.val[1] = vcombine_s64 (val.val[1], vcreate_s64 (__AARCH64_INT64_C (0)));
24611   temp.val[2] = vcombine_s64 (val.val[2], vcreate_s64 (__AARCH64_INT64_C (0)));
24612   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) temp.val[0], 0);
24613   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) temp.val[1], 1);
24614   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) temp.val[2], 2);
24615   __builtin_aarch64_st3di ((__builtin_aarch64_simd_di *) __a, __o);
24616 }
24617
24618 __extension__ static __inline void
24619 vst3_u64 (uint64_t * __a, uint64x1x3_t val)
24620 {
24621   __builtin_aarch64_simd_ci __o;
24622   uint64x2x3_t temp;
24623   temp.val[0] = vcombine_u64 (val.val[0], vcreate_u64 (__AARCH64_UINT64_C (0)));
24624   temp.val[1] = vcombine_u64 (val.val[1], vcreate_u64 (__AARCH64_UINT64_C (0)));
24625   temp.val[2] = vcombine_u64 (val.val[2], vcreate_u64 (__AARCH64_UINT64_C (0)));
24626   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) temp.val[0], 0);
24627   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) temp.val[1], 1);
24628   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) temp.val[2], 2);
24629   __builtin_aarch64_st3di ((__builtin_aarch64_simd_di *) __a, __o);
24630 }
24631
24632 __extension__ static __inline void
24633 vst3_f64 (float64_t * __a, float64x1x3_t val)
24634 {
24635   __builtin_aarch64_simd_ci __o;
24636   float64x2x3_t temp;
24637   temp.val[0] = vcombine_f64 (val.val[0], vcreate_f64 (__AARCH64_UINT64_C (0)));
24638   temp.val[1] = vcombine_f64 (val.val[1], vcreate_f64 (__AARCH64_UINT64_C (0)));
24639   temp.val[2] = vcombine_f64 (val.val[2], vcreate_f64 (__AARCH64_UINT64_C (0)));
24640   __o = __builtin_aarch64_set_qregciv2df (__o, (float64x2_t) temp.val[0], 0);
24641   __o = __builtin_aarch64_set_qregciv2df (__o, (float64x2_t) temp.val[1], 1);
24642   __o = __builtin_aarch64_set_qregciv2df (__o, (float64x2_t) temp.val[2], 2);
24643   __builtin_aarch64_st3df ((__builtin_aarch64_simd_df *) __a, __o);
24644 }
24645
24646 __extension__ static __inline void
24647 vst3_s8 (int8_t * __a, int8x8x3_t val)
24648 {
24649   __builtin_aarch64_simd_ci __o;
24650   int8x16x3_t temp;
24651   temp.val[0] = vcombine_s8 (val.val[0], vcreate_s8 (__AARCH64_INT64_C (0)));
24652   temp.val[1] = vcombine_s8 (val.val[1], vcreate_s8 (__AARCH64_INT64_C (0)));
24653   temp.val[2] = vcombine_s8 (val.val[2], vcreate_s8 (__AARCH64_INT64_C (0)));
24654   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[0], 0);
24655   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[1], 1);
24656   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[2], 2);
24657   __builtin_aarch64_st3v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
24658 }
24659
24660 __extension__ static __inline void __attribute__ ((__always_inline__))
24661 vst3_p8 (poly8_t * __a, poly8x8x3_t val)
24662 {
24663   __builtin_aarch64_simd_ci __o;
24664   poly8x16x3_t temp;
24665   temp.val[0] = vcombine_p8 (val.val[0], vcreate_p8 (__AARCH64_UINT64_C (0)));
24666   temp.val[1] = vcombine_p8 (val.val[1], vcreate_p8 (__AARCH64_UINT64_C (0)));
24667   temp.val[2] = vcombine_p8 (val.val[2], vcreate_p8 (__AARCH64_UINT64_C (0)));
24668   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[0], 0);
24669   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[1], 1);
24670   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[2], 2);
24671   __builtin_aarch64_st3v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
24672 }
24673
24674 __extension__ static __inline void __attribute__ ((__always_inline__))
24675 vst3_s16 (int16_t * __a, int16x4x3_t val)
24676 {
24677   __builtin_aarch64_simd_ci __o;
24678   int16x8x3_t temp;
24679   temp.val[0] = vcombine_s16 (val.val[0], vcreate_s16 (__AARCH64_INT64_C (0)));
24680   temp.val[1] = vcombine_s16 (val.val[1], vcreate_s16 (__AARCH64_INT64_C (0)));
24681   temp.val[2] = vcombine_s16 (val.val[2], vcreate_s16 (__AARCH64_INT64_C (0)));
24682   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[0], 0);
24683   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[1], 1);
24684   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[2], 2);
24685   __builtin_aarch64_st3v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
24686 }
24687
24688 __extension__ static __inline void __attribute__ ((__always_inline__))
24689 vst3_p16 (poly16_t * __a, poly16x4x3_t val)
24690 {
24691   __builtin_aarch64_simd_ci __o;
24692   poly16x8x3_t temp;
24693   temp.val[0] = vcombine_p16 (val.val[0], vcreate_p16 (__AARCH64_UINT64_C (0)));
24694   temp.val[1] = vcombine_p16 (val.val[1], vcreate_p16 (__AARCH64_UINT64_C (0)));
24695   temp.val[2] = vcombine_p16 (val.val[2], vcreate_p16 (__AARCH64_UINT64_C (0)));
24696   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[0], 0);
24697   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[1], 1);
24698   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[2], 2);
24699   __builtin_aarch64_st3v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
24700 }
24701
24702 __extension__ static __inline void __attribute__ ((__always_inline__))
24703 vst3_s32 (int32_t * __a, int32x2x3_t val)
24704 {
24705   __builtin_aarch64_simd_ci __o;
24706   int32x4x3_t temp;
24707   temp.val[0] = vcombine_s32 (val.val[0], vcreate_s32 (__AARCH64_INT64_C (0)));
24708   temp.val[1] = vcombine_s32 (val.val[1], vcreate_s32 (__AARCH64_INT64_C (0)));
24709   temp.val[2] = vcombine_s32 (val.val[2], vcreate_s32 (__AARCH64_INT64_C (0)));
24710   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) temp.val[0], 0);
24711   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) temp.val[1], 1);
24712   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) temp.val[2], 2);
24713   __builtin_aarch64_st3v2si ((__builtin_aarch64_simd_si *) __a, __o);
24714 }
24715
24716 __extension__ static __inline void __attribute__ ((__always_inline__))
24717 vst3_u8 (uint8_t * __a, uint8x8x3_t val)
24718 {
24719   __builtin_aarch64_simd_ci __o;
24720   uint8x16x3_t temp;
24721   temp.val[0] = vcombine_u8 (val.val[0], vcreate_u8 (__AARCH64_UINT64_C (0)));
24722   temp.val[1] = vcombine_u8 (val.val[1], vcreate_u8 (__AARCH64_UINT64_C (0)));
24723   temp.val[2] = vcombine_u8 (val.val[2], vcreate_u8 (__AARCH64_UINT64_C (0)));
24724   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[0], 0);
24725   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[1], 1);
24726   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) temp.val[2], 2);
24727   __builtin_aarch64_st3v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
24728 }
24729
24730 __extension__ static __inline void __attribute__ ((__always_inline__))
24731 vst3_u16 (uint16_t * __a, uint16x4x3_t val)
24732 {
24733   __builtin_aarch64_simd_ci __o;
24734   uint16x8x3_t temp;
24735   temp.val[0] = vcombine_u16 (val.val[0], vcreate_u16 (__AARCH64_UINT64_C (0)));
24736   temp.val[1] = vcombine_u16 (val.val[1], vcreate_u16 (__AARCH64_UINT64_C (0)));
24737   temp.val[2] = vcombine_u16 (val.val[2], vcreate_u16 (__AARCH64_UINT64_C (0)));
24738   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[0], 0);
24739   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[1], 1);
24740   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) temp.val[2], 2);
24741   __builtin_aarch64_st3v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
24742 }
24743
24744 __extension__ static __inline void __attribute__ ((__always_inline__))
24745 vst3_u32 (uint32_t * __a, uint32x2x3_t val)
24746 {
24747   __builtin_aarch64_simd_ci __o;
24748   uint32x4x3_t temp;
24749   temp.val[0] = vcombine_u32 (val.val[0], vcreate_u32 (__AARCH64_UINT64_C (0)));
24750   temp.val[1] = vcombine_u32 (val.val[1], vcreate_u32 (__AARCH64_UINT64_C (0)));
24751   temp.val[2] = vcombine_u32 (val.val[2], vcreate_u32 (__AARCH64_UINT64_C (0)));
24752   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) temp.val[0], 0);
24753   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) temp.val[1], 1);
24754   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) temp.val[2], 2);
24755   __builtin_aarch64_st3v2si ((__builtin_aarch64_simd_si *) __a, __o);
24756 }
24757
24758 __extension__ static __inline void __attribute__ ((__always_inline__))
24759 vst3_f32 (float32_t * __a, float32x2x3_t val)
24760 {
24761   __builtin_aarch64_simd_ci __o;
24762   float32x4x3_t temp;
24763   temp.val[0] = vcombine_f32 (val.val[0], vcreate_f32 (__AARCH64_UINT64_C (0)));
24764   temp.val[1] = vcombine_f32 (val.val[1], vcreate_f32 (__AARCH64_UINT64_C (0)));
24765   temp.val[2] = vcombine_f32 (val.val[2], vcreate_f32 (__AARCH64_UINT64_C (0)));
24766   __o = __builtin_aarch64_set_qregciv4sf (__o, (float32x4_t) temp.val[0], 0);
24767   __o = __builtin_aarch64_set_qregciv4sf (__o, (float32x4_t) temp.val[1], 1);
24768   __o = __builtin_aarch64_set_qregciv4sf (__o, (float32x4_t) temp.val[2], 2);
24769   __builtin_aarch64_st3v2sf ((__builtin_aarch64_simd_sf *) __a, __o);
24770 }
24771
24772 __extension__ static __inline void __attribute__ ((__always_inline__))
24773 vst3q_s8 (int8_t * __a, int8x16x3_t val)
24774 {
24775   __builtin_aarch64_simd_ci __o;
24776   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[0], 0);
24777   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[1], 1);
24778   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[2], 2);
24779   __builtin_aarch64_st3v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
24780 }
24781
24782 __extension__ static __inline void __attribute__ ((__always_inline__))
24783 vst3q_p8 (poly8_t * __a, poly8x16x3_t val)
24784 {
24785   __builtin_aarch64_simd_ci __o;
24786   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[0], 0);
24787   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[1], 1);
24788   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[2], 2);
24789   __builtin_aarch64_st3v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
24790 }
24791
24792 __extension__ static __inline void __attribute__ ((__always_inline__))
24793 vst3q_s16 (int16_t * __a, int16x8x3_t val)
24794 {
24795   __builtin_aarch64_simd_ci __o;
24796   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[0], 0);
24797   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[1], 1);
24798   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[2], 2);
24799   __builtin_aarch64_st3v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
24800 }
24801
24802 __extension__ static __inline void __attribute__ ((__always_inline__))
24803 vst3q_p16 (poly16_t * __a, poly16x8x3_t val)
24804 {
24805   __builtin_aarch64_simd_ci __o;
24806   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[0], 0);
24807   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[1], 1);
24808   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[2], 2);
24809   __builtin_aarch64_st3v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
24810 }
24811
24812 __extension__ static __inline void __attribute__ ((__always_inline__))
24813 vst3q_s32 (int32_t * __a, int32x4x3_t val)
24814 {
24815   __builtin_aarch64_simd_ci __o;
24816   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) val.val[0], 0);
24817   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) val.val[1], 1);
24818   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) val.val[2], 2);
24819   __builtin_aarch64_st3v4si ((__builtin_aarch64_simd_si *) __a, __o);
24820 }
24821
24822 __extension__ static __inline void __attribute__ ((__always_inline__))
24823 vst3q_s64 (int64_t * __a, int64x2x3_t val)
24824 {
24825   __builtin_aarch64_simd_ci __o;
24826   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) val.val[0], 0);
24827   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) val.val[1], 1);
24828   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) val.val[2], 2);
24829   __builtin_aarch64_st3v2di ((__builtin_aarch64_simd_di *) __a, __o);
24830 }
24831
24832 __extension__ static __inline void __attribute__ ((__always_inline__))
24833 vst3q_u8 (uint8_t * __a, uint8x16x3_t val)
24834 {
24835   __builtin_aarch64_simd_ci __o;
24836   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[0], 0);
24837   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[1], 1);
24838   __o = __builtin_aarch64_set_qregciv16qi (__o, (int8x16_t) val.val[2], 2);
24839   __builtin_aarch64_st3v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
24840 }
24841
24842 __extension__ static __inline void __attribute__ ((__always_inline__))
24843 vst3q_u16 (uint16_t * __a, uint16x8x3_t val)
24844 {
24845   __builtin_aarch64_simd_ci __o;
24846   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[0], 0);
24847   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[1], 1);
24848   __o = __builtin_aarch64_set_qregciv8hi (__o, (int16x8_t) val.val[2], 2);
24849   __builtin_aarch64_st3v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
24850 }
24851
24852 __extension__ static __inline void __attribute__ ((__always_inline__))
24853 vst3q_u32 (uint32_t * __a, uint32x4x3_t val)
24854 {
24855   __builtin_aarch64_simd_ci __o;
24856   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) val.val[0], 0);
24857   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) val.val[1], 1);
24858   __o = __builtin_aarch64_set_qregciv4si (__o, (int32x4_t) val.val[2], 2);
24859   __builtin_aarch64_st3v4si ((__builtin_aarch64_simd_si *) __a, __o);
24860 }
24861
24862 __extension__ static __inline void __attribute__ ((__always_inline__))
24863 vst3q_u64 (uint64_t * __a, uint64x2x3_t val)
24864 {
24865   __builtin_aarch64_simd_ci __o;
24866   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) val.val[0], 0);
24867   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) val.val[1], 1);
24868   __o = __builtin_aarch64_set_qregciv2di (__o, (int64x2_t) val.val[2], 2);
24869   __builtin_aarch64_st3v2di ((__builtin_aarch64_simd_di *) __a, __o);
24870 }
24871
24872 __extension__ static __inline void __attribute__ ((__always_inline__))
24873 vst3q_f32 (float32_t * __a, float32x4x3_t val)
24874 {
24875   __builtin_aarch64_simd_ci __o;
24876   __o = __builtin_aarch64_set_qregciv4sf (__o, (float32x4_t) val.val[0], 0);
24877   __o = __builtin_aarch64_set_qregciv4sf (__o, (float32x4_t) val.val[1], 1);
24878   __o = __builtin_aarch64_set_qregciv4sf (__o, (float32x4_t) val.val[2], 2);
24879   __builtin_aarch64_st3v4sf ((__builtin_aarch64_simd_sf *) __a, __o);
24880 }
24881
24882 __extension__ static __inline void __attribute__ ((__always_inline__))
24883 vst3q_f64 (float64_t * __a, float64x2x3_t val)
24884 {
24885   __builtin_aarch64_simd_ci __o;
24886   __o = __builtin_aarch64_set_qregciv2df (__o, (float64x2_t) val.val[0], 0);
24887   __o = __builtin_aarch64_set_qregciv2df (__o, (float64x2_t) val.val[1], 1);
24888   __o = __builtin_aarch64_set_qregciv2df (__o, (float64x2_t) val.val[2], 2);
24889   __builtin_aarch64_st3v2df ((__builtin_aarch64_simd_df *) __a, __o);
24890 }
24891
24892 __extension__ static __inline void
24893 vst4_s64 (int64_t * __a, int64x1x4_t val)
24894 {
24895   __builtin_aarch64_simd_xi __o;
24896   int64x2x4_t temp;
24897   temp.val[0] = vcombine_s64 (val.val[0], vcreate_s64 (__AARCH64_INT64_C (0)));
24898   temp.val[1] = vcombine_s64 (val.val[1], vcreate_s64 (__AARCH64_INT64_C (0)));
24899   temp.val[2] = vcombine_s64 (val.val[2], vcreate_s64 (__AARCH64_INT64_C (0)));
24900   temp.val[3] = vcombine_s64 (val.val[3], vcreate_s64 (__AARCH64_INT64_C (0)));
24901   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[0], 0);
24902   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[1], 1);
24903   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[2], 2);
24904   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[3], 3);
24905   __builtin_aarch64_st4di ((__builtin_aarch64_simd_di *) __a, __o);
24906 }
24907
24908 __extension__ static __inline void
24909 vst4_u64 (uint64_t * __a, uint64x1x4_t val)
24910 {
24911   __builtin_aarch64_simd_xi __o;
24912   uint64x2x4_t temp;
24913   temp.val[0] = vcombine_u64 (val.val[0], vcreate_u64 (__AARCH64_UINT64_C (0)));
24914   temp.val[1] = vcombine_u64 (val.val[1], vcreate_u64 (__AARCH64_UINT64_C (0)));
24915   temp.val[2] = vcombine_u64 (val.val[2], vcreate_u64 (__AARCH64_UINT64_C (0)));
24916   temp.val[3] = vcombine_u64 (val.val[3], vcreate_u64 (__AARCH64_UINT64_C (0)));
24917   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[0], 0);
24918   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[1], 1);
24919   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[2], 2);
24920   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) temp.val[3], 3);
24921   __builtin_aarch64_st4di ((__builtin_aarch64_simd_di *) __a, __o);
24922 }
24923
24924 __extension__ static __inline void
24925 vst4_f64 (float64_t * __a, float64x1x4_t val)
24926 {
24927   __builtin_aarch64_simd_xi __o;
24928   float64x2x4_t temp;
24929   temp.val[0] = vcombine_f64 (val.val[0], vcreate_f64 (__AARCH64_UINT64_C (0)));
24930   temp.val[1] = vcombine_f64 (val.val[1], vcreate_f64 (__AARCH64_UINT64_C (0)));
24931   temp.val[2] = vcombine_f64 (val.val[2], vcreate_f64 (__AARCH64_UINT64_C (0)));
24932   temp.val[3] = vcombine_f64 (val.val[3], vcreate_f64 (__AARCH64_UINT64_C (0)));
24933   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) temp.val[0], 0);
24934   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) temp.val[1], 1);
24935   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) temp.val[2], 2);
24936   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) temp.val[3], 3);
24937   __builtin_aarch64_st4df ((__builtin_aarch64_simd_df *) __a, __o);
24938 }
24939
24940 __extension__ static __inline void
24941 vst4_s8 (int8_t * __a, int8x8x4_t val)
24942 {
24943   __builtin_aarch64_simd_xi __o;
24944   int8x16x4_t temp;
24945   temp.val[0] = vcombine_s8 (val.val[0], vcreate_s8 (__AARCH64_INT64_C (0)));
24946   temp.val[1] = vcombine_s8 (val.val[1], vcreate_s8 (__AARCH64_INT64_C (0)));
24947   temp.val[2] = vcombine_s8 (val.val[2], vcreate_s8 (__AARCH64_INT64_C (0)));
24948   temp.val[3] = vcombine_s8 (val.val[3], vcreate_s8 (__AARCH64_INT64_C (0)));
24949   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[0], 0);
24950   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[1], 1);
24951   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[2], 2);
24952   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[3], 3);
24953   __builtin_aarch64_st4v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
24954 }
24955
24956 __extension__ static __inline void __attribute__ ((__always_inline__))
24957 vst4_p8 (poly8_t * __a, poly8x8x4_t val)
24958 {
24959   __builtin_aarch64_simd_xi __o;
24960   poly8x16x4_t temp;
24961   temp.val[0] = vcombine_p8 (val.val[0], vcreate_p8 (__AARCH64_UINT64_C (0)));
24962   temp.val[1] = vcombine_p8 (val.val[1], vcreate_p8 (__AARCH64_UINT64_C (0)));
24963   temp.val[2] = vcombine_p8 (val.val[2], vcreate_p8 (__AARCH64_UINT64_C (0)));
24964   temp.val[3] = vcombine_p8 (val.val[3], vcreate_p8 (__AARCH64_UINT64_C (0)));
24965   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[0], 0);
24966   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[1], 1);
24967   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[2], 2);
24968   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[3], 3);
24969   __builtin_aarch64_st4v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
24970 }
24971
24972 __extension__ static __inline void __attribute__ ((__always_inline__))
24973 vst4_s16 (int16_t * __a, int16x4x4_t val)
24974 {
24975   __builtin_aarch64_simd_xi __o;
24976   int16x8x4_t temp;
24977   temp.val[0] = vcombine_s16 (val.val[0], vcreate_s16 (__AARCH64_INT64_C (0)));
24978   temp.val[1] = vcombine_s16 (val.val[1], vcreate_s16 (__AARCH64_INT64_C (0)));
24979   temp.val[2] = vcombine_s16 (val.val[2], vcreate_s16 (__AARCH64_INT64_C (0)));
24980   temp.val[3] = vcombine_s16 (val.val[3], vcreate_s16 (__AARCH64_INT64_C (0)));
24981   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[0], 0);
24982   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[1], 1);
24983   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[2], 2);
24984   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[3], 3);
24985   __builtin_aarch64_st4v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
24986 }
24987
24988 __extension__ static __inline void __attribute__ ((__always_inline__))
24989 vst4_p16 (poly16_t * __a, poly16x4x4_t val)
24990 {
24991   __builtin_aarch64_simd_xi __o;
24992   poly16x8x4_t temp;
24993   temp.val[0] = vcombine_p16 (val.val[0], vcreate_p16 (__AARCH64_UINT64_C (0)));
24994   temp.val[1] = vcombine_p16 (val.val[1], vcreate_p16 (__AARCH64_UINT64_C (0)));
24995   temp.val[2] = vcombine_p16 (val.val[2], vcreate_p16 (__AARCH64_UINT64_C (0)));
24996   temp.val[3] = vcombine_p16 (val.val[3], vcreate_p16 (__AARCH64_UINT64_C (0)));
24997   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[0], 0);
24998   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[1], 1);
24999   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[2], 2);
25000   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[3], 3);
25001   __builtin_aarch64_st4v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
25002 }
25003
25004 __extension__ static __inline void __attribute__ ((__always_inline__))
25005 vst4_s32 (int32_t * __a, int32x2x4_t val)
25006 {
25007   __builtin_aarch64_simd_xi __o;
25008   int32x4x4_t temp;
25009   temp.val[0] = vcombine_s32 (val.val[0], vcreate_s32 (__AARCH64_INT64_C (0)));
25010   temp.val[1] = vcombine_s32 (val.val[1], vcreate_s32 (__AARCH64_INT64_C (0)));
25011   temp.val[2] = vcombine_s32 (val.val[2], vcreate_s32 (__AARCH64_INT64_C (0)));
25012   temp.val[3] = vcombine_s32 (val.val[3], vcreate_s32 (__AARCH64_INT64_C (0)));
25013   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[0], 0);
25014   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[1], 1);
25015   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[2], 2);
25016   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[3], 3);
25017   __builtin_aarch64_st4v2si ((__builtin_aarch64_simd_si *) __a, __o);
25018 }
25019
25020 __extension__ static __inline void __attribute__ ((__always_inline__))
25021 vst4_u8 (uint8_t * __a, uint8x8x4_t val)
25022 {
25023   __builtin_aarch64_simd_xi __o;
25024   uint8x16x4_t temp;
25025   temp.val[0] = vcombine_u8 (val.val[0], vcreate_u8 (__AARCH64_UINT64_C (0)));
25026   temp.val[1] = vcombine_u8 (val.val[1], vcreate_u8 (__AARCH64_UINT64_C (0)));
25027   temp.val[2] = vcombine_u8 (val.val[2], vcreate_u8 (__AARCH64_UINT64_C (0)));
25028   temp.val[3] = vcombine_u8 (val.val[3], vcreate_u8 (__AARCH64_UINT64_C (0)));
25029   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[0], 0);
25030   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[1], 1);
25031   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[2], 2);
25032   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) temp.val[3], 3);
25033   __builtin_aarch64_st4v8qi ((__builtin_aarch64_simd_qi *) __a, __o);
25034 }
25035
25036 __extension__ static __inline void __attribute__ ((__always_inline__))
25037 vst4_u16 (uint16_t * __a, uint16x4x4_t val)
25038 {
25039   __builtin_aarch64_simd_xi __o;
25040   uint16x8x4_t temp;
25041   temp.val[0] = vcombine_u16 (val.val[0], vcreate_u16 (__AARCH64_UINT64_C (0)));
25042   temp.val[1] = vcombine_u16 (val.val[1], vcreate_u16 (__AARCH64_UINT64_C (0)));
25043   temp.val[2] = vcombine_u16 (val.val[2], vcreate_u16 (__AARCH64_UINT64_C (0)));
25044   temp.val[3] = vcombine_u16 (val.val[3], vcreate_u16 (__AARCH64_UINT64_C (0)));
25045   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[0], 0);
25046   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[1], 1);
25047   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[2], 2);
25048   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) temp.val[3], 3);
25049   __builtin_aarch64_st4v4hi ((__builtin_aarch64_simd_hi *) __a, __o);
25050 }
25051
25052 __extension__ static __inline void __attribute__ ((__always_inline__))
25053 vst4_u32 (uint32_t * __a, uint32x2x4_t val)
25054 {
25055   __builtin_aarch64_simd_xi __o;
25056   uint32x4x4_t temp;
25057   temp.val[0] = vcombine_u32 (val.val[0], vcreate_u32 (__AARCH64_UINT64_C (0)));
25058   temp.val[1] = vcombine_u32 (val.val[1], vcreate_u32 (__AARCH64_UINT64_C (0)));
25059   temp.val[2] = vcombine_u32 (val.val[2], vcreate_u32 (__AARCH64_UINT64_C (0)));
25060   temp.val[3] = vcombine_u32 (val.val[3], vcreate_u32 (__AARCH64_UINT64_C (0)));
25061   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[0], 0);
25062   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[1], 1);
25063   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[2], 2);
25064   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) temp.val[3], 3);
25065   __builtin_aarch64_st4v2si ((__builtin_aarch64_simd_si *) __a, __o);
25066 }
25067
25068 __extension__ static __inline void __attribute__ ((__always_inline__))
25069 vst4_f32 (float32_t * __a, float32x2x4_t val)
25070 {
25071   __builtin_aarch64_simd_xi __o;
25072   float32x4x4_t temp;
25073   temp.val[0] = vcombine_f32 (val.val[0], vcreate_f32 (__AARCH64_UINT64_C (0)));
25074   temp.val[1] = vcombine_f32 (val.val[1], vcreate_f32 (__AARCH64_UINT64_C (0)));
25075   temp.val[2] = vcombine_f32 (val.val[2], vcreate_f32 (__AARCH64_UINT64_C (0)));
25076   temp.val[3] = vcombine_f32 (val.val[3], vcreate_f32 (__AARCH64_UINT64_C (0)));
25077   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) temp.val[0], 0);
25078   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) temp.val[1], 1);
25079   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) temp.val[2], 2);
25080   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) temp.val[3], 3);
25081   __builtin_aarch64_st4v2sf ((__builtin_aarch64_simd_sf *) __a, __o);
25082 }
25083
25084 __extension__ static __inline void __attribute__ ((__always_inline__))
25085 vst4q_s8 (int8_t * __a, int8x16x4_t val)
25086 {
25087   __builtin_aarch64_simd_xi __o;
25088   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[0], 0);
25089   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[1], 1);
25090   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[2], 2);
25091   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[3], 3);
25092   __builtin_aarch64_st4v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
25093 }
25094
25095 __extension__ static __inline void __attribute__ ((__always_inline__))
25096 vst4q_p8 (poly8_t * __a, poly8x16x4_t val)
25097 {
25098   __builtin_aarch64_simd_xi __o;
25099   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[0], 0);
25100   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[1], 1);
25101   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[2], 2);
25102   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[3], 3);
25103   __builtin_aarch64_st4v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
25104 }
25105
25106 __extension__ static __inline void __attribute__ ((__always_inline__))
25107 vst4q_s16 (int16_t * __a, int16x8x4_t val)
25108 {
25109   __builtin_aarch64_simd_xi __o;
25110   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[0], 0);
25111   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[1], 1);
25112   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[2], 2);
25113   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[3], 3);
25114   __builtin_aarch64_st4v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
25115 }
25116
25117 __extension__ static __inline void __attribute__ ((__always_inline__))
25118 vst4q_p16 (poly16_t * __a, poly16x8x4_t val)
25119 {
25120   __builtin_aarch64_simd_xi __o;
25121   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[0], 0);
25122   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[1], 1);
25123   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[2], 2);
25124   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[3], 3);
25125   __builtin_aarch64_st4v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
25126 }
25127
25128 __extension__ static __inline void __attribute__ ((__always_inline__))
25129 vst4q_s32 (int32_t * __a, int32x4x4_t val)
25130 {
25131   __builtin_aarch64_simd_xi __o;
25132   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[0], 0);
25133   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[1], 1);
25134   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[2], 2);
25135   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[3], 3);
25136   __builtin_aarch64_st4v4si ((__builtin_aarch64_simd_si *) __a, __o);
25137 }
25138
25139 __extension__ static __inline void __attribute__ ((__always_inline__))
25140 vst4q_s64 (int64_t * __a, int64x2x4_t val)
25141 {
25142   __builtin_aarch64_simd_xi __o;
25143   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[0], 0);
25144   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[1], 1);
25145   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[2], 2);
25146   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[3], 3);
25147   __builtin_aarch64_st4v2di ((__builtin_aarch64_simd_di *) __a, __o);
25148 }
25149
25150 __extension__ static __inline void __attribute__ ((__always_inline__))
25151 vst4q_u8 (uint8_t * __a, uint8x16x4_t val)
25152 {
25153   __builtin_aarch64_simd_xi __o;
25154   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[0], 0);
25155   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[1], 1);
25156   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[2], 2);
25157   __o = __builtin_aarch64_set_qregxiv16qi (__o, (int8x16_t) val.val[3], 3);
25158   __builtin_aarch64_st4v16qi ((__builtin_aarch64_simd_qi *) __a, __o);
25159 }
25160
25161 __extension__ static __inline void __attribute__ ((__always_inline__))
25162 vst4q_u16 (uint16_t * __a, uint16x8x4_t val)
25163 {
25164   __builtin_aarch64_simd_xi __o;
25165   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[0], 0);
25166   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[1], 1);
25167   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[2], 2);
25168   __o = __builtin_aarch64_set_qregxiv8hi (__o, (int16x8_t) val.val[3], 3);
25169   __builtin_aarch64_st4v8hi ((__builtin_aarch64_simd_hi *) __a, __o);
25170 }
25171
25172 __extension__ static __inline void __attribute__ ((__always_inline__))
25173 vst4q_u32 (uint32_t * __a, uint32x4x4_t val)
25174 {
25175   __builtin_aarch64_simd_xi __o;
25176   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[0], 0);
25177   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[1], 1);
25178   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[2], 2);
25179   __o = __builtin_aarch64_set_qregxiv4si (__o, (int32x4_t) val.val[3], 3);
25180   __builtin_aarch64_st4v4si ((__builtin_aarch64_simd_si *) __a, __o);
25181 }
25182
25183 __extension__ static __inline void __attribute__ ((__always_inline__))
25184 vst4q_u64 (uint64_t * __a, uint64x2x4_t val)
25185 {
25186   __builtin_aarch64_simd_xi __o;
25187   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[0], 0);
25188   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[1], 1);
25189   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[2], 2);
25190   __o = __builtin_aarch64_set_qregxiv2di (__o, (int64x2_t) val.val[3], 3);
25191   __builtin_aarch64_st4v2di ((__builtin_aarch64_simd_di *) __a, __o);
25192 }
25193
25194 __extension__ static __inline void __attribute__ ((__always_inline__))
25195 vst4q_f32 (float32_t * __a, float32x4x4_t val)
25196 {
25197   __builtin_aarch64_simd_xi __o;
25198   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) val.val[0], 0);
25199   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) val.val[1], 1);
25200   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) val.val[2], 2);
25201   __o = __builtin_aarch64_set_qregxiv4sf (__o, (float32x4_t) val.val[3], 3);
25202   __builtin_aarch64_st4v4sf ((__builtin_aarch64_simd_sf *) __a, __o);
25203 }
25204
25205 __extension__ static __inline void __attribute__ ((__always_inline__))
25206 vst4q_f64 (float64_t * __a, float64x2x4_t val)
25207 {
25208   __builtin_aarch64_simd_xi __o;
25209   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) val.val[0], 0);
25210   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) val.val[1], 1);
25211   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) val.val[2], 2);
25212   __o = __builtin_aarch64_set_qregxiv2df (__o, (float64x2_t) val.val[3], 3);
25213   __builtin_aarch64_st4v2df ((__builtin_aarch64_simd_df *) __a, __o);
25214 }
25215
25216 /* vsub */
25217
25218 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
25219 vsubd_s64 (int64x1_t __a, int64x1_t __b)
25220 {
25221   return __a - __b;
25222 }
25223
25224 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
25225 vsubd_u64 (uint64x1_t __a, uint64x1_t __b)
25226 {
25227   return __a - __b;
25228 }
25229
25230 /* vtrn */
25231
25232 __extension__ static __inline float32x2x2_t __attribute__ ((__always_inline__))
25233 vtrn_f32 (float32x2_t a, float32x2_t b)
25234 {
25235   return (float32x2x2_t) {vtrn1_f32 (a, b), vtrn2_f32 (a, b)};
25236 }
25237
25238 __extension__ static __inline poly8x8x2_t __attribute__ ((__always_inline__))
25239 vtrn_p8 (poly8x8_t a, poly8x8_t b)
25240 {
25241   return (poly8x8x2_t) {vtrn1_p8 (a, b), vtrn2_p8 (a, b)};
25242 }
25243
25244 __extension__ static __inline poly16x4x2_t __attribute__ ((__always_inline__))
25245 vtrn_p16 (poly16x4_t a, poly16x4_t b)
25246 {
25247   return (poly16x4x2_t) {vtrn1_p16 (a, b), vtrn2_p16 (a, b)};
25248 }
25249
25250 __extension__ static __inline int8x8x2_t __attribute__ ((__always_inline__))
25251 vtrn_s8 (int8x8_t a, int8x8_t b)
25252 {
25253   return (int8x8x2_t) {vtrn1_s8 (a, b), vtrn2_s8 (a, b)};
25254 }
25255
25256 __extension__ static __inline int16x4x2_t __attribute__ ((__always_inline__))
25257 vtrn_s16 (int16x4_t a, int16x4_t b)
25258 {
25259   return (int16x4x2_t) {vtrn1_s16 (a, b), vtrn2_s16 (a, b)};
25260 }
25261
25262 __extension__ static __inline int32x2x2_t __attribute__ ((__always_inline__))
25263 vtrn_s32 (int32x2_t a, int32x2_t b)
25264 {
25265   return (int32x2x2_t) {vtrn1_s32 (a, b), vtrn2_s32 (a, b)};
25266 }
25267
25268 __extension__ static __inline uint8x8x2_t __attribute__ ((__always_inline__))
25269 vtrn_u8 (uint8x8_t a, uint8x8_t b)
25270 {
25271   return (uint8x8x2_t) {vtrn1_u8 (a, b), vtrn2_u8 (a, b)};
25272 }
25273
25274 __extension__ static __inline uint16x4x2_t __attribute__ ((__always_inline__))
25275 vtrn_u16 (uint16x4_t a, uint16x4_t b)
25276 {
25277   return (uint16x4x2_t) {vtrn1_u16 (a, b), vtrn2_u16 (a, b)};
25278 }
25279
25280 __extension__ static __inline uint32x2x2_t __attribute__ ((__always_inline__))
25281 vtrn_u32 (uint32x2_t a, uint32x2_t b)
25282 {
25283   return (uint32x2x2_t) {vtrn1_u32 (a, b), vtrn2_u32 (a, b)};
25284 }
25285
25286 __extension__ static __inline float32x4x2_t __attribute__ ((__always_inline__))
25287 vtrnq_f32 (float32x4_t a, float32x4_t b)
25288 {
25289   return (float32x4x2_t) {vtrn1q_f32 (a, b), vtrn2q_f32 (a, b)};
25290 }
25291
25292 __extension__ static __inline poly8x16x2_t __attribute__ ((__always_inline__))
25293 vtrnq_p8 (poly8x16_t a, poly8x16_t b)
25294 {
25295   return (poly8x16x2_t) {vtrn1q_p8 (a, b), vtrn2q_p8 (a, b)};
25296 }
25297
25298 __extension__ static __inline poly16x8x2_t __attribute__ ((__always_inline__))
25299 vtrnq_p16 (poly16x8_t a, poly16x8_t b)
25300 {
25301   return (poly16x8x2_t) {vtrn1q_p16 (a, b), vtrn2q_p16 (a, b)};
25302 }
25303
25304 __extension__ static __inline int8x16x2_t __attribute__ ((__always_inline__))
25305 vtrnq_s8 (int8x16_t a, int8x16_t b)
25306 {
25307   return (int8x16x2_t) {vtrn1q_s8 (a, b), vtrn2q_s8 (a, b)};
25308 }
25309
25310 __extension__ static __inline int16x8x2_t __attribute__ ((__always_inline__))
25311 vtrnq_s16 (int16x8_t a, int16x8_t b)
25312 {
25313   return (int16x8x2_t) {vtrn1q_s16 (a, b), vtrn2q_s16 (a, b)};
25314 }
25315
25316 __extension__ static __inline int32x4x2_t __attribute__ ((__always_inline__))
25317 vtrnq_s32 (int32x4_t a, int32x4_t b)
25318 {
25319   return (int32x4x2_t) {vtrn1q_s32 (a, b), vtrn2q_s32 (a, b)};
25320 }
25321
25322 __extension__ static __inline uint8x16x2_t __attribute__ ((__always_inline__))
25323 vtrnq_u8 (uint8x16_t a, uint8x16_t b)
25324 {
25325   return (uint8x16x2_t) {vtrn1q_u8 (a, b), vtrn2q_u8 (a, b)};
25326 }
25327
25328 __extension__ static __inline uint16x8x2_t __attribute__ ((__always_inline__))
25329 vtrnq_u16 (uint16x8_t a, uint16x8_t b)
25330 {
25331   return (uint16x8x2_t) {vtrn1q_u16 (a, b), vtrn2q_u16 (a, b)};
25332 }
25333
25334 __extension__ static __inline uint32x4x2_t __attribute__ ((__always_inline__))
25335 vtrnq_u32 (uint32x4_t a, uint32x4_t b)
25336 {
25337   return (uint32x4x2_t) {vtrn1q_u32 (a, b), vtrn2q_u32 (a, b)};
25338 }
25339
25340 /* vtst */
25341
25342 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
25343 vtst_s8 (int8x8_t __a, int8x8_t __b)
25344 {
25345   return (uint8x8_t) __builtin_aarch64_cmtstv8qi (__a, __b);
25346 }
25347
25348 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
25349 vtst_s16 (int16x4_t __a, int16x4_t __b)
25350 {
25351   return (uint16x4_t) __builtin_aarch64_cmtstv4hi (__a, __b);
25352 }
25353
25354 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
25355 vtst_s32 (int32x2_t __a, int32x2_t __b)
25356 {
25357   return (uint32x2_t) __builtin_aarch64_cmtstv2si (__a, __b);
25358 }
25359
25360 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
25361 vtst_s64 (int64x1_t __a, int64x1_t __b)
25362 {
25363   return (__a & __b) ? -1ll : 0ll;
25364 }
25365
25366 __extension__ static __inline uint8x8_t __attribute__ ((__always_inline__))
25367 vtst_u8 (uint8x8_t __a, uint8x8_t __b)
25368 {
25369   return (uint8x8_t) __builtin_aarch64_cmtstv8qi ((int8x8_t) __a,
25370                                                  (int8x8_t) __b);
25371 }
25372
25373 __extension__ static __inline uint16x4_t __attribute__ ((__always_inline__))
25374 vtst_u16 (uint16x4_t __a, uint16x4_t __b)
25375 {
25376   return (uint16x4_t) __builtin_aarch64_cmtstv4hi ((int16x4_t) __a,
25377                                                   (int16x4_t) __b);
25378 }
25379
25380 __extension__ static __inline uint32x2_t __attribute__ ((__always_inline__))
25381 vtst_u32 (uint32x2_t __a, uint32x2_t __b)
25382 {
25383   return (uint32x2_t) __builtin_aarch64_cmtstv2si ((int32x2_t) __a,
25384                                                   (int32x2_t) __b);
25385 }
25386
25387 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
25388 vtst_u64 (uint64x1_t __a, uint64x1_t __b)
25389 {
25390   return (__a & __b) ? -1ll : 0ll;
25391 }
25392
25393 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
25394 vtstq_s8 (int8x16_t __a, int8x16_t __b)
25395 {
25396   return (uint8x16_t) __builtin_aarch64_cmtstv16qi (__a, __b);
25397 }
25398
25399 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
25400 vtstq_s16 (int16x8_t __a, int16x8_t __b)
25401 {
25402   return (uint16x8_t) __builtin_aarch64_cmtstv8hi (__a, __b);
25403 }
25404
25405 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
25406 vtstq_s32 (int32x4_t __a, int32x4_t __b)
25407 {
25408   return (uint32x4_t) __builtin_aarch64_cmtstv4si (__a, __b);
25409 }
25410
25411 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
25412 vtstq_s64 (int64x2_t __a, int64x2_t __b)
25413 {
25414   return (uint64x2_t) __builtin_aarch64_cmtstv2di (__a, __b);
25415 }
25416
25417 __extension__ static __inline uint8x16_t __attribute__ ((__always_inline__))
25418 vtstq_u8 (uint8x16_t __a, uint8x16_t __b)
25419 {
25420   return (uint8x16_t) __builtin_aarch64_cmtstv16qi ((int8x16_t) __a,
25421                                                    (int8x16_t) __b);
25422 }
25423
25424 __extension__ static __inline uint16x8_t __attribute__ ((__always_inline__))
25425 vtstq_u16 (uint16x8_t __a, uint16x8_t __b)
25426 {
25427   return (uint16x8_t) __builtin_aarch64_cmtstv8hi ((int16x8_t) __a,
25428                                                   (int16x8_t) __b);
25429 }
25430
25431 __extension__ static __inline uint32x4_t __attribute__ ((__always_inline__))
25432 vtstq_u32 (uint32x4_t __a, uint32x4_t __b)
25433 {
25434   return (uint32x4_t) __builtin_aarch64_cmtstv4si ((int32x4_t) __a,
25435                                                   (int32x4_t) __b);
25436 }
25437
25438 __extension__ static __inline uint64x2_t __attribute__ ((__always_inline__))
25439 vtstq_u64 (uint64x2_t __a, uint64x2_t __b)
25440 {
25441   return (uint64x2_t) __builtin_aarch64_cmtstv2di ((int64x2_t) __a,
25442                                                   (int64x2_t) __b);
25443 }
25444
25445 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
25446 vtstd_s64 (int64x1_t __a, int64x1_t __b)
25447 {
25448   return (__a & __b) ? -1ll : 0ll;
25449 }
25450
25451 __extension__ static __inline uint64x1_t __attribute__ ((__always_inline__))
25452 vtstd_u64 (uint64x1_t __a, uint64x1_t __b)
25453 {
25454   return (__a & __b) ? -1ll : 0ll;
25455 }
25456
25457 /* vuqadd */
25458
25459 __extension__ static __inline int8x8_t __attribute__ ((__always_inline__))
25460 vuqadd_s8 (int8x8_t __a, uint8x8_t __b)
25461 {
25462   return (int8x8_t) __builtin_aarch64_suqaddv8qi (__a, (int8x8_t) __b);
25463 }
25464
25465 __extension__ static __inline int16x4_t __attribute__ ((__always_inline__))
25466 vuqadd_s16 (int16x4_t __a, uint16x4_t __b)
25467 {
25468   return (int16x4_t) __builtin_aarch64_suqaddv4hi (__a, (int16x4_t) __b);
25469 }
25470
25471 __extension__ static __inline int32x2_t __attribute__ ((__always_inline__))
25472 vuqadd_s32 (int32x2_t __a, uint32x2_t __b)
25473 {
25474   return (int32x2_t) __builtin_aarch64_suqaddv2si (__a, (int32x2_t) __b);
25475 }
25476
25477 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
25478 vuqadd_s64 (int64x1_t __a, uint64x1_t __b)
25479 {
25480   return (int64x1_t) __builtin_aarch64_suqadddi (__a, (int64x1_t) __b);
25481 }
25482
25483 __extension__ static __inline int8x16_t __attribute__ ((__always_inline__))
25484 vuqaddq_s8 (int8x16_t __a, uint8x16_t __b)
25485 {
25486   return (int8x16_t) __builtin_aarch64_suqaddv16qi (__a, (int8x16_t) __b);
25487 }
25488
25489 __extension__ static __inline int16x8_t __attribute__ ((__always_inline__))
25490 vuqaddq_s16 (int16x8_t __a, uint16x8_t __b)
25491 {
25492   return (int16x8_t) __builtin_aarch64_suqaddv8hi (__a, (int16x8_t) __b);
25493 }
25494
25495 __extension__ static __inline int32x4_t __attribute__ ((__always_inline__))
25496 vuqaddq_s32 (int32x4_t __a, uint32x4_t __b)
25497 {
25498   return (int32x4_t) __builtin_aarch64_suqaddv4si (__a, (int32x4_t) __b);
25499 }
25500
25501 __extension__ static __inline int64x2_t __attribute__ ((__always_inline__))
25502 vuqaddq_s64 (int64x2_t __a, uint64x2_t __b)
25503 {
25504   return (int64x2_t) __builtin_aarch64_suqaddv2di (__a, (int64x2_t) __b);
25505 }
25506
25507 __extension__ static __inline int8x1_t __attribute__ ((__always_inline__))
25508 vuqaddb_s8 (int8x1_t __a, uint8x1_t __b)
25509 {
25510   return (int8x1_t) __builtin_aarch64_suqaddqi (__a, (int8x1_t) __b);
25511 }
25512
25513 __extension__ static __inline int16x1_t __attribute__ ((__always_inline__))
25514 vuqaddh_s16 (int16x1_t __a, uint16x1_t __b)
25515 {
25516   return (int16x1_t) __builtin_aarch64_suqaddhi (__a, (int16x1_t) __b);
25517 }
25518
25519 __extension__ static __inline int32x1_t __attribute__ ((__always_inline__))
25520 vuqadds_s32 (int32x1_t __a, uint32x1_t __b)
25521 {
25522   return (int32x1_t) __builtin_aarch64_suqaddsi (__a, (int32x1_t) __b);
25523 }
25524
25525 __extension__ static __inline int64x1_t __attribute__ ((__always_inline__))
25526 vuqaddd_s64 (int64x1_t __a, uint64x1_t __b)
25527 {
25528   return (int64x1_t) __builtin_aarch64_suqadddi (__a, (int64x1_t) __b);
25529 }
25530
25531 #define __DEFINTERLEAVE(op, rettype, intype, funcsuffix, Q)             \
25532   __extension__ static __inline rettype                                 \
25533   __attribute__ ((__always_inline__))                                   \
25534   v ## op ## Q ## _ ## funcsuffix (intype a, intype b)                  \
25535   {                                                                     \
25536     return (rettype) {v ## op ## 1 ## Q ## _ ## funcsuffix (a, b),      \
25537                       v ## op ## 2 ## Q ## _ ## funcsuffix (a, b)};     \
25538   }
25539
25540 #define __INTERLEAVE_LIST(op)                                   \
25541   __DEFINTERLEAVE (op, float32x2x2_t, float32x2_t, f32,)        \
25542   __DEFINTERLEAVE (op, poly8x8x2_t, poly8x8_t, p8,)             \
25543   __DEFINTERLEAVE (op, poly16x4x2_t, poly16x4_t, p16,)          \
25544   __DEFINTERLEAVE (op, int8x8x2_t, int8x8_t, s8,)               \
25545   __DEFINTERLEAVE (op, int16x4x2_t, int16x4_t, s16,)            \
25546   __DEFINTERLEAVE (op, int32x2x2_t, int32x2_t, s32,)            \
25547   __DEFINTERLEAVE (op, uint8x8x2_t, uint8x8_t, u8,)             \
25548   __DEFINTERLEAVE (op, uint16x4x2_t, uint16x4_t, u16,)          \
25549   __DEFINTERLEAVE (op, uint32x2x2_t, uint32x2_t, u32,)          \
25550   __DEFINTERLEAVE (op, float32x4x2_t, float32x4_t, f32, q)      \
25551   __DEFINTERLEAVE (op, poly8x16x2_t, poly8x16_t, p8, q)         \
25552   __DEFINTERLEAVE (op, poly16x8x2_t, poly16x8_t, p16, q)        \
25553   __DEFINTERLEAVE (op, int8x16x2_t, int8x16_t, s8, q)           \
25554   __DEFINTERLEAVE (op, int16x8x2_t, int16x8_t, s16, q)          \
25555   __DEFINTERLEAVE (op, int32x4x2_t, int32x4_t, s32, q)          \
25556   __DEFINTERLEAVE (op, uint8x16x2_t, uint8x16_t, u8, q)         \
25557   __DEFINTERLEAVE (op, uint16x8x2_t, uint16x8_t, u16, q)        \
25558   __DEFINTERLEAVE (op, uint32x4x2_t, uint32x4_t, u32, q)
25559
25560 /* vuzp */
25561
25562 __INTERLEAVE_LIST (uzp)
25563
25564 /* vzip */
25565
25566 __INTERLEAVE_LIST (zip)
25567
25568 #undef __INTERLEAVE_LIST
25569 #undef __DEFINTERLEAVE
25570
25571 /* End of optimal implementations in approved order.  */
25572
25573 #undef __aarch64_vget_lane_any
25574 #undef __aarch64_vget_lane_f32
25575 #undef __aarch64_vget_lane_f64
25576 #undef __aarch64_vget_lane_p8
25577 #undef __aarch64_vget_lane_p16
25578 #undef __aarch64_vget_lane_s8
25579 #undef __aarch64_vget_lane_s16
25580 #undef __aarch64_vget_lane_s32
25581 #undef __aarch64_vget_lane_s64
25582 #undef __aarch64_vget_lane_u8
25583 #undef __aarch64_vget_lane_u16
25584 #undef __aarch64_vget_lane_u32
25585 #undef __aarch64_vget_lane_u64
25586
25587 #undef __aarch64_vgetq_lane_f32
25588 #undef __aarch64_vgetq_lane_f64
25589 #undef __aarch64_vgetq_lane_p8
25590 #undef __aarch64_vgetq_lane_p16
25591 #undef __aarch64_vgetq_lane_s8
25592 #undef __aarch64_vgetq_lane_s16
25593 #undef __aarch64_vgetq_lane_s32
25594 #undef __aarch64_vgetq_lane_s64
25595 #undef __aarch64_vgetq_lane_u8
25596 #undef __aarch64_vgetq_lane_u16
25597 #undef __aarch64_vgetq_lane_u32
25598 #undef __aarch64_vgetq_lane_u64
25599
25600 #undef __aarch64_vdup_lane_any
25601 #undef __aarch64_vdup_lane_f32
25602 #undef __aarch64_vdup_lane_f64
25603 #undef __aarch64_vdup_lane_p8
25604 #undef __aarch64_vdup_lane_p16
25605 #undef __aarch64_vdup_lane_s8
25606 #undef __aarch64_vdup_lane_s16
25607 #undef __aarch64_vdup_lane_s32
25608 #undef __aarch64_vdup_lane_s64
25609 #undef __aarch64_vdup_lane_u8
25610 #undef __aarch64_vdup_lane_u16
25611 #undef __aarch64_vdup_lane_u32
25612 #undef __aarch64_vdup_lane_u64
25613 #undef __aarch64_vdup_laneq_f32
25614 #undef __aarch64_vdup_laneq_f64
25615 #undef __aarch64_vdup_laneq_p8
25616 #undef __aarch64_vdup_laneq_p16
25617 #undef __aarch64_vdup_laneq_s8
25618 #undef __aarch64_vdup_laneq_s16
25619 #undef __aarch64_vdup_laneq_s32
25620 #undef __aarch64_vdup_laneq_s64
25621 #undef __aarch64_vdup_laneq_u8
25622 #undef __aarch64_vdup_laneq_u16
25623 #undef __aarch64_vdup_laneq_u32
25624 #undef __aarch64_vdup_laneq_u64
25625 #undef __aarch64_vdupq_lane_f32
25626 #undef __aarch64_vdupq_lane_f64
25627 #undef __aarch64_vdupq_lane_p8
25628 #undef __aarch64_vdupq_lane_p16
25629 #undef __aarch64_vdupq_lane_s8
25630 #undef __aarch64_vdupq_lane_s16
25631 #undef __aarch64_vdupq_lane_s32
25632 #undef __aarch64_vdupq_lane_s64
25633 #undef __aarch64_vdupq_lane_u8
25634 #undef __aarch64_vdupq_lane_u16
25635 #undef __aarch64_vdupq_lane_u32
25636 #undef __aarch64_vdupq_lane_u64
25637 #undef __aarch64_vdupq_laneq_f32
25638 #undef __aarch64_vdupq_laneq_f64
25639 #undef __aarch64_vdupq_laneq_p8
25640 #undef __aarch64_vdupq_laneq_p16
25641 #undef __aarch64_vdupq_laneq_s8
25642 #undef __aarch64_vdupq_laneq_s16
25643 #undef __aarch64_vdupq_laneq_s32
25644 #undef __aarch64_vdupq_laneq_s64
25645 #undef __aarch64_vdupq_laneq_u8
25646 #undef __aarch64_vdupq_laneq_u16
25647 #undef __aarch64_vdupq_laneq_u32
25648 #undef __aarch64_vdupq_laneq_u64
25649
25650 #endif